如何从数据角度为人工智能部署做好数据准备

Posted 2020-12-17 wujianming-110117

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何从数据角度为人工智能部署做好数据准备相关的知识，希望对你有一定的参考价值。

本文指出面对变革加速和数字化领导力的重要性日益凸显这两大趋势，人工智能作为当今世界最具变革意义的创新之一，为企业提供了一条实现业务转型的变革之路，但运用人工智能之前必须从五个方面入手做好数据方面的准备，之后可利用概念验证明确人工智能对企业自身业务的影响。
文中较为详细地介绍了数据准备的五个方面及概念验证的五个步骤，同时也略着笔墨，点出英特尔在人工智能方面提供的一些重要软硬件和技术支持。

采取文中介绍的步骤，充分利用人工智能并启用概念验证

2017 年，《经济学人》在报道中指出 “世界上最有价值的资源不再是石油，而是数据”，充分展现了世界发生的巨大变化¹。在近期世界经济论坛对大约 1,300 位 CEO 进行的调查中，超过 70% 的受访者表示，他们认为必须带头展开一场完全以数字为主导的商业模式变革²。市场已经证明，数字领导力最强的企业和机构在经济效益上要比那些最差的企业和机构高出 50%，这数字实在令人吃惊³。

人工智能 (AI) 是当今最具变革意义的创新之一，也是加速变革和数字化领导力日益凸显这两大趋势的交汇点。Gartner 在最近一份报告中预测，到 2020 年，将有 85% 的 CIO 通过购买、构建和外包形式展开人工智能试点计划4。据此 Gartner 预测大约会有 70% 的企业和机构将通过在工作场所中引入人工智能来提高员工生产力²,⁴。

挖掘数据力量，助力人工智能

人工智能为企业提供了一条实现业务转型的变革之路。各类关键目标中都蕴藏着运用人工智能的机会，例如优化决策、以关键流程自动化来提高效率、发现新洞察、加速产品上市时间、推动创新以及增加收入。实施人工智能的最终目的是在市场中提供差异化更强的产品，从而打造由创新驱动的竞争力并取得发展。

在过去，人工智能仅仅是科幻小说中存在的词，但现在，它正迅速成为主流技术趋势。几乎各行各业都在探索或积极部署人工智能。背后的原因多种多样，包括处理和数据存储成本的下降，开发人员和数据科学家在人工智能算法设计（例如神经网络）方面取得了进步，使得模型训练的准确性得以提高。

从对象检测到自然语言处理 (NLP)，不管人工智能各种用例的差异有多大，它们都有一个共同点：数据。人工智能应用能够感知、推理、行动和调整。这是通过从规模庞大、种类多元的数据集中学习获得的能力。这些数据随后用于创建、测试和训练模型。经过训练的模型可以根据类似、全新或从未见过的数据推断结果。其关键在于确保存在合适的数据，既能用来创建模型，也能随后提供给模型进行后续推理。

简而言之，数据是任何有效算法的核心。因此，当您希望运用人工智能实现企业愿景时，首先应当思考的是：我的数据是否已准备就绪？

为人工智能做好数据准备

英特尔与许多目前正在考察人工智能解决方案的企业和机构开展了合作。这些企业有些是初次尝试，有些则想要继续拓展人工智能应用范围。无论目的为何，要实现人工智能，首先需要准备数据以及明确一些重要的早期问题，包括：

· 需要利用人工智能解决的问题或把握的机会是否已明确？

· 是否针对人工智能可在哪些方面发挥最大业务价值设定了优先级？

在开始投资人工智能的前一年，这类调查就应该进行了。虽然每个企业和机构面临的问题可能各有不同，但最终目标都是确定是否有合适的人工智能商机值得把握；如果回答为 “是”，那么就要确定有哪些机会将为企业带来最大收益。您还可能会得出这样一个结论：人工智能目前不适合您。但如果您确定投资人工智能有意义，那么就需要有足够的时间进行规划和准备。

明确数据的位置

大多数公司的数据广泛分散在企业各处，且来源各不相同。即使设有中央数据库，数据也可能存在于一堆数据库中，而且大多数据库可能相互隔绝：销售数据与营销数据各自独立、财务数据和人力资源数据互不相通。更复杂的是，这些数据库有的在云端，但 IT 部门却不知道，也没有实施监管。

因此，在为人工智能做好数据准备之前，必须先找到并清楚了解所有数据库。同时，在审核这些资源时，还需要掌握您拥有的数据类型（即结构化数据和非结构化数据）。这样您才能清楚地知道构建人工智能应用算法还需要哪些额外数据。

评估数据

现在，您已经确定了数据资产的位置并分门别类进行了整理，接下来就要确定数据的实际价值。只有高质量的数据才能提供您想要的人工智能优势。换而言之，在继续深入之前，您必须确定实际有用的数据量。我们常常发现，不管最初设想有多周到，最后数据库仍会不完整，组织或分类有差异和/或内容重复。

据 IBM 估计，劣质数据给美国经济造成的年度损失令人震惊，高达 3.1 万亿美元。⁵刚开始可能一切都很好，但严苛的交期迫使人们使用劣质数据来克服眼前的困难，而不是从根本上解决问题，继而让那些依赖这些数据的人在后续工作中浪费大量时间和金钱。

清理数据

许多企业和机构的 “脏乱” 数据存在不完整、孤立、隐私隐患、标记错误或更糟糕的问题。通常需要对数据进行大量预处理，才能在指定应用中成功分析数据。这意味着要剔除重复信息，填补缺少的字段或详细信息，以及更正错误或改正错误拼写。除此之外，还有数据损坏或噪声的问题，以及可能存在用于大量预测变量/实例的大型数据集。

在整个企业和机构中必须以类似方式或规范化方法整理数据，这样有利于未来数据汇总。当然，大多数公司都会有一些无法完全规范化以符合模型或工作流程要求的数据。对于这些数据，应进行标记并单独存放，以免阻碍算法开发。

集中数据

集中数据有利于改善数据管理，确保维持并保护您已达到的数据质量水平。这包括对数据进行标记。人工智能和机器学习都需要依靠标签来准确地分析数据并产生洞察。

收集数据

从训练到自然条件下的持续推理，应确定所有所需的相关数据源。考虑有哪些工具和流程可以提供帮助并/或购买现有数据集或经过预先训练的模型来加快部署进程。有一个数据因素值得考虑但却常常被忽略，那就是设置可重复的数据生成，用于训练和部署。

提出正确的问题

您已做了大量工作，确保数据可靠，现在应该做什么？现在应该将重心放在确定如何运用人工智能。以下是首先应该思考的一些问题：

· 所规划的基础设施架构是否明晰、合适？

· 是否所有所需的数据源都已明确且可以访问？

· 您所选择的软件包能否提供端到端人工智能解决方案？

· 是否具备足够的技能和资源（无论来自内部还是外部）？

· 是否已围绕训练和学习时间设定了相关目标？

令人欣慰的是，研究这些问题不必花费太多金钱或时间，我们可以借助概念验证 (PoC) 相对轻松地完成。

通往人工智能概念验证的道路

概念验证是一个封闭但有效的解决方案，通过评估和测试，可以帮助您：

· 实现更多即时价值

· 获得技能和经验

· 测试硬件、软件和服务选择方案

· 明确潜在的数据瓶颈并予以解决

· 突出人工智能对 IT 基础设施和广泛业务的影响

· 提升人工智能的积极印象，提高用户的信任度

82% 的公司计划在未来三年内实施人工智能
来源：“Is Your Business AI-Ready?”（您的企业是否已准备好实施人工智能？） Genpact，2017 年。genpact.com/lp/ai-research-c-suite

第 1 步：确认机遇

如果设计和执行得当，概念验证不但可以成为帮助决策者探索人工智能影响的宝贵工具，还能实现价值最大化和风险最小化。方法如下：

如上文所述，只有当您明确想要通过人工智能达到何种目标后，才应开始人工智能概念验证。您应当考虑竞争对手是如何利用人工智能的，以及您内部专业力量的就绪情况。其目的是确定适合进行概念验证的商业案例，评估其价值、成本和风险。您需要知道的是，您不必自己进行评估。英特尔等许多企业会提供数据科学专业知识，为您的团队提供帮助，同时通信服务提供商会提供人工智能即服务，为您的人工智能项目提供支持。

第 2 步：明确问题并分析数据

在您确定大致目标后，可以开始添加细节。考虑广泛的人工智能类别（例如对象检测、自然语言处理、语音识别、机器人），更加深入地研究值得利用的机会。您还可以着手理清可能遇到的技术需求和挑战，并将这些需求和挑战与当前团队所具备的技能进行匹配。

第 3 步：评估商业价值

这一步骤是为了确定概念验证的评估标准。这对于工程师来说非常重要，他们可以将标准转换为可以设计、测量和持续测试的评估元素（最好能以自动化的方式进行）。评估标准可以包括准确性、完整性、及时性、规模、兼容性、灵活性和工程设计。此外，您还可以基于决策质量（通常又称可解释性）进行评估。也就是检查偏差、公平性、因果关系、透明度和安全性。

第 4 步：制定解决方案架构及部署

接下来就是设计和部署概念验证中接受测试的解决方案。通过边测试边学习的方法，尽可能多地获取洞察。这将需要一系列技术支持，包括：

· 基础硬件产品和系统基础设施

· 面向人工智能的软件增强功能，用于驱动基础设施

· 启用人工智能框架，用于支持计划使用的解决方案

· 虚拟化技术、前端软件和/或硬件

此外，还需要确定是应该购买新的软硬件或是重复利用已有的软硬件，以及您所在的企业或机构是否适合转向云服务。然后开始构建、训练并调整模型。如果您希望在工作流程中引入更多基于人工智能的用例，需要谨记一点，工欲善其事，必先利其器。目前的 CPU 和 GPU 各具优势，但都不是适用于所有工作负载或目标的万能工具。为了最大限度地发挥人工智能的作用，请确保在训练、推理等阶段使用最合适的解决方案。

第 5 步：纵向扩展概念验证

在完成第 1 步到第 4 步后，需要依照总体人工智能策略优化概念验证，使其发挥预期作用。这主要取决于扩展：纵向扩展推理功能和更广泛架构，调整和优化概念验证，横向扩展到其他商业用例，以及进行管理和运营规划。

以上步骤摘自英特尔白皮书《实施人工智能概念验证的 5 大步骤》。如需更多信息，请阅读全文：ai.intel.com/white-papers/5-steps-to-an-ai-proof-of-concept-2/。

使用第二代英特尔® 至强® 可扩展处理器加速人工智能

英特尔® 至强® 处理器作为世界上许多数据中心的基础，处理着大多数计算机视觉和深度学习推理工作负载。但是，人工智能应用可以从硬件和软件优化中进一步受益。

配备第二代英特尔® 至强® 可扩展处理器的英特尔® 至强® 可扩展平台实现了更统一、更普遍的超强性能。英特尔针对工作负载进行优化的出色平台内置人工智能加速功能，可在多云与智能边缘之间，为以数据为中心的需求提供无缝性能基础。

第二代英特尔® 至强® 可扩展处理器在软件优化和硬件指令方面进行了大幅改进，为人工智能和各类以数据为中心的应用提供了灵活性。

两项重大技术进步包括：

英特尔® 深度学习加速技术

使用一组新增的嵌入式加速器（矢量神经网络指令 (VNNI)），能够加速卷积神经网络 (CNN) 和深度神经网络 (DNN) 的密集计算。低精度整数运算将推理性能提高多达 30 倍。⁶

英特尔® 傲腾™ 持久内存

将每个节点的最大存储容量提升高达三倍，并使更多内存更靠近 CPU，从而在电源重启或系统维护期间，依然能够留存数据。

打破模型与现实之间的障碍

众所周知，数据正使业务发生着巨变。数据推动着创新、效率、生产力、新运营模式以及全新的营收机会。简而言之，数据是当下获得竞争优势的最大动力之一。越来越多的公司正面临一个亟待解决的问题：如何充分利用我的数据？

人工智能以全新的方式挖掘数据价值。如果企业能够制定清晰的人工智能目标并采取必要步骤来准备数据，便可以使工作更智能，行动更迅速，在瞬息万变的市场中蓬勃发展。

以上是关于如何从数据角度为人工智能部署做好数据准备的主要内容，如果未能解决你的问题，请参考以下文章

人工智能怎么做？

如何将PaddleDetection模型在树莓派4B上部署？

高德全链路压测——语料智能化演进之路

AI时代来袭，你的存储做好准备了吗？

福布斯：2023年十大颠覆性技术趋势，每个人都必须做好准备

专业人士告诉你如何才能做好大数据分析