数据要素产业

事实表明糟糕的数据将会扼杀优秀的人工智能

12-06 08:51

数据科学家指出，数据准备对于任何一个人工智能系统的成功都至关重要。即使是最好、最复杂的分析技术采用低质量、集成度低、设计草率或基本上不相关的数据，最终的结果也是不可靠的。

分析和探讨人工智能和机器学习用途的文章有很多，但关于人工智能系统基础高质量的数据的文章则很少。以下介绍有助于确保企业的人工智能系统不会由于数据质量问题而受到阻碍的五个规则。

规则1.少即是多

有些企业很难知道哪些数据对其业务重要，所以使用尽可能多的数据构建人工智能系统，人们会发现重要的见解隐藏在其中。但是，企业的人工智能系统采用大量无关或糟糕的数据，最终将面临失败。一篇名为《机器学习系统中隐藏的技术债务》的文章指出，未充分利用的数据、提供很少或没有增量收益的数据，将使人工智能系统受到不利的影响，其后果有时是灾难性的。剔除无关数据使人工智能系统更易于测试、运行、扩展和维护。

企业遇到的问题是哪些数据子集是包含所有或几乎所有信号的精简数据集?这可能不容易确定。有一些数据科学技术可以确定特定数据功能的重要性，但它们不一定能说明全部情况。虽然有些数据可能非常重要，但仅限于某些情况。或者一些数据可能只有在与其他数据结合使用时才重要。弄清楚使用哪些数据以及要消除哪些数据是一个棘手但关键的步骤，在企业急于实现人工智能的过程中，这一步常常被忽略。

规则2.仔细寻找数据来源

在设计人工智能解决方案的原型或创建实验时，数据通常有着不同的来源。数据集成和准备可能是临时的，只要人工智能系统做好了准备，企业就可以利用适合其目的的所有自动化和控制来实现特定的流程工业实力。

在某些情况下，人工智能开发人员从更加简单便捷的来源获取数据，但这不一定是最好的来源。例如在一个案例中，开发了一个来自未经协调和处理的数据模型，其结果证明该模型与公布的财务数据完全不一致。对于概念证明，这样的错误可能是可以接受的。但在实施之前，其数据应该来自支持良好的平台，这些平台需要具有控制能力强、可靠性和可用性高的特点。

通常情况下，必须将来自不同来源的数据汇集在一起，然后为采用人工智能的目的进行整合和组合。考虑这些组合来自不同系统的客户数据、产品数据和交易数据。将这些数据放在一起进行建模是一个重要的步骤。这可能会以快速的方式进行实验，但在实施之前，需要对流程进行适当的设计和测试。

然而在设计良好的人工智能系统之前，允许使用实验人工智能系统的诱惑是强烈的，必须加以抵制。当然，只是定期使用的人工智能(例如用于月度报告)可能需要更少的数据，以便在业务运营中持续使用。人工智能的高风险使用(例如损失预测、信贷批准、欺诈检测)比低风险使用(例如营销活动、客户细分、潜在客户优先级)要求更严格。

规则3.确定数据良好的程度

在商业环境中，完美的数据是罕见的。因此，不可避免地存在需要修补数据中的漏洞、需要清理的数据中的错误或需要在使用前解决不一致的问题。

数据达到100%准确率的成本可能很高，有时甚至无法实现。但在某些情况下则要求完全准确，例如使用人工智能来预测贷款损失，那么其记录贷款损失的历史数据最好是100%完整的。但对于欺诈检测模型来说，如果额外的2%的数据会阻碍模型的实施，那么达到98%的准确率就足够了，这将为企业减少大量欺诈损失。对于市场营销而言，85%的准确率已经足够了。

企业需要决定数据质量良好的程度。但需记住的是，这是一把双刃剑。建立在低质量数据上的人工智能系统最终在使用中变得不可靠，但也看到模型风险管理阻碍了人工智能模型的实施，因为数据质量问题影响人工智能的价值的情况令人担忧。

每个用例都有所不同，在确定数据良好的过程中必须有一些步骤明确声明数据质量级别。并且需要实施控制措施(例如数据质量指标)，以证明已达到阈值或在低于某些最低质量标准时发出警告。

规则4.管理变化

更多的模型由于数据变更管理不善而失败，而不是其他原因。数据中的某些意外变化或数据在某处中断，将导致人工智能会产生不可靠的结果，有时甚至非常糟糕。

大多数企业都制定了数据变更管理流程。这一流程旨在传达和分析数据更改的影响。但人工智能系统的应用让这变得更加困难。人工智能和数据管理交织在一起;数据可以影响人工智能，人工智能也可以影响数据。在通常情况下，数据变更管理由企业首席数据官负责，人工智能变更管理由首席分析官负责，或者模型风险管理由首席风险官负责，而这些部门并没有充分或有效地沟通。

数据变更管理和模型变更管理必须紧密联系在一起。必须分析数据更改对人工智能的潜在影响，并且必须分析人工智能更改对其数据输出的消费者的潜在影响。这两者都不能孤立地进行管理。

还有两种方法可以处理这个问题：一种选择是将数据变更管理和模型变更管理合并在一起，但这对大多数企业来说难以做到。第二种选择是制定正确的政策和程序，例如在实施之前分析数据更改对人工智能的潜在影响。

为此，必须有一个完整的人工智能注册表，其中包括人工智能使用的数据信息(模型元数据)。否则几乎不可能确定哪个人工智能受到数据更改的影响。同样，模型风险应该是一个因素，与只影响低风险模型的数据更改相比，高风险模型将得到更严格的潜在影响分析。

规则5.建立警报系统

数据的质量问题可能并不明显，而且数据流从表面上看似乎都在正常运行。如果没有设计良好的警报系统，数据问题可能会被忽视。例如一家银行的信用模型运行了数周时间，但在任何人意识到出现问题之前就已经丢失了关键数据。

即使是细微但出乎意料的数据变化也可能导致模型性能下降。更糟糕的是由于流程故障而突然丢失数据，这样的事件很常见。

被忽视的数据问题比快速发现的数据问题造成的损害更大。例如，证券定价错误可以通过多个系统蔓延，并且持续的时间越长，修复起来就越困难，成本也越高。建立正确的警报系统，可以发现数据问题并采取行动，降低因数据处理中断而导致人工智能系统故障的风险。

这需要采用正确的工具。现有的应用程序监控系统通常不足以监控数据流。它们甚至可能提供虚假的安全感，表明一切正常，而实际上企业的数据中存在重大漏洞或高度异常的情况。企业可以从简单的数据质量指标开始，例如完整性检查(是否获得了所有数据?)和一致性检查(是否与总账或基础贷款或存款系统等记录系统相匹配?)。

当出现问题时，企业需要制定故障转移计划，例如在研究和纠正错误时暂时让人工智能离线运行。

结语

数据是优秀人工智能系统的重要基矗数据科学家通常不会独自承担上述所有任务。他们需要来自数据治理、数据工程和IT团队的正确支持。采用正确的控制措施，可以帮助企业避免在人工智能系统由于无法预见或未被发现的数据问题而出现的严重错误。

更多>数据要素产业相关信息

1ECCV 2020 | 基于对抗路径采样的反事实视觉语言

最新发布

点击排行

Select Language

AI社区

今日排行

本月搜索

Dataset Category

数据要素产业

事实表明糟糕的数据将会扼杀优秀的人工智能