中国电信使用 TensorFlow 实现人工智能
Posted TensorFlow
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中国电信使用 TensorFlow 实现人工智能相关的知识,希望对你有一定的参考价值。
电信营业厅 APP 作为中国电信在线服务的入口级应用,我们的开发团队通过 TensorFlow 与人工智能 AI 技术有了亲密的接触。人工智能这个领域我们以前从未探索过,甚至参与项目开发的工程师都是由 android 开发转型而来,所以本文将以机器学习小白 的视角谈一谈我们如何使用 TensorFlow 实现人工智能,以及我们的心路历程。
为了提升体验,让用户在充值这个最常用功能中感受一下所谓的黑科技,我们在 2016 年启动了充值卡扫描项目,希望用户打开摄像头对准充值卡密码轻松一扫即可完成充值。其核心 OCR 识别算是比较古老的研究领域,充值卡密码是数字加空格的组合,想想应该不难。
我们当时使用的方案,大概如下图的过程:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/965bbd7e57a64726a964d17004bb5ff7.jpg)
最终效果当然是不太理想,充值卡与名片文档不同,密码区域刮开的大小因人而异、噪点非常不规则、扫描时手的抖动会增加错误的发生等等因素,加上我们没有在 OCR 领域的经验积累,最终没能达到良好的用户体验而不得不搁浅。但是在随后的日子里,我们与 TensorFlow 结下了不解情缘。
在 2017 年谷歌开发者大会上我们了解到,谷歌人工智能底层的技术已经开源化,TensorFlow 的推出是为了让普通开发者将关注点从 “如何造轮子” 转移到 “轮子的花纹和样式” 上来,现场由谷歌工程师 Anna 全程用中文为大家介绍这个框架,她的演讲很赞,为了不错过每一个细节我听得很仔细很投入。
从大会回来之后,我们推翻重来并改变了思路:搭建一个神经网络让它学会认识电信充值卡。
end2end learning:
神经网络思想给我们带来了彻底的改变,所谓 end2end 模型是要通过这个模型输入图片直接获得结果数字。这种方式,不再需要手工处理图片的特征,任何部分的误差,都作为整体的一部分,通过神经网络的反向传播都能得到修正。
seq2seq learning:
seq2seq 是一种 Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。这种结构的神经网络常用于语音识别,也可以用于不定长文字的 OCR 识别。对于我们的项目而言 Encoder 输入是 200*30 大小的图像,Decoder 是可变长度的数字加空格组合。
神经网络搭建:CNN + LSTM + CTC
这是个成熟且先进的神经网络架构,我们在分析学习了许多科学界论文后选定了这个方案,CNN 卷积神经网络负责抓取图片特征,LSTM 长短期记忆网络负责对字符的识别,CTC 算法对结果进行对齐优化。这个方案有很多优秀的TF项目可以参考,使用 TF 实现其网络结构也非常方便,这使我们更快更容易的着手开发工作。
在我们刚接触神经网络的时候,看到某位大神曾经说过 “深度学习框架是一个炼丹炉”,这句话形容的恰到好处,使我们更直观的理解机器学习的过程,如今我们已经有了这炼丹炉和配方(TensorFlow、网络结构方案),下一步的关键是数据。数据的质量和数量直接影响模型的识别效果,由于没有足够的实体卡样本,我们使用程序模拟需要的图片,要尽量做得真实、包含尽可能多的特征才行。先从一张简单的充值卡入手,我们的取景框将焦点缩小到 200*30 这么大的区域里:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/78c518a175f14ce7984748317acaf70b.jpg)
通过不断训练、对比模型识别识别结果,将模型没有学习到的特征加入进来,我们得到了下面的数据优化路线:
基础版本:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/5c7f30e15e2a49459dcffeb6a518bd93.jpg)
倾斜、变形、位移:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/1d614a182e2d48deb5a9d305805924f0.jpg)
不同的字体:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/e666fad0a75748dcbe1499d6926f9fda.jpg)
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/5e0606dbed394139a90a4210490ac025.jpg)
模拟未干净效果,加入随机噪点:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/5778b80d221a45d8aaf311710ef5114b.jpg)
强光:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/307f5cb43a104e2698bdd964751cc4e7.jpg)
弱光:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/17cbc2f4e4864551b624b81dca442e43.jpg)
抖动模糊:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/797b633622c6441f83187a098ae009c6.jpg)
以上特征随机组合出现,且力度在一定区间内随机取值,生成的训练数据集 30 万,测试数据集 1 万:
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/a374dfa1914e42869de632e12f67dfc1.jpg)
接下来是机器训练的过程,这个阶段最磨炼心性,机器在学习人也在成长。分享一点心得:
1、我们能够总结这段经验是源于上百次的训练记录,详细记录每次训练的笔记是一个好习惯。
2、每次只调整网络参数或只修改数据特征,这样方便比较结果。
3、善于运用TensorBoard使你更直观的查看网络结构,了解训练过程。我们保留了 TB 的全部训练日志,通过训练曲线对比不同超参数对训练结果的影响是非常方便的。
![中国电信使用 TensorFlow 实现人工智能](https://image.cha138.com/20210424/8199986189ee40e2b7e70d28e9981c55.jpg)
最后是方案的选型,我们一开始青睐于 TF Lite 的小巧、灵活,但是当时 TF Lite 还不支持 LSTM 算子,将来我们会再尝试使用 TF Lite,因为端侧人工智能应该是未来的主流。 考虑到我们的图片只有 200*30 的像素大小,实际传输不太消耗网络,所以 TF Serving 作为最终方案,实际上效果也确实不错。
方案
TF Lite
TF Mobile
TF Serving ✅
优点
1、体积小:大概 300K。
1、支持全部神经网络算子。
2、性能优秀。
1、客户端轻量操作。
2、一切云端可控制,包括模型更新等。
3、支持高并发访问
缺点
1、当时缺少 LSTM 算子
1、体积较大,估计 Android SDK 大概 5M 左右。
2、需考虑模型更新方案。
3、需考虑适配,安卓低版本机器不支持。
1、识别性能受网络速度影响。
最终的效果:逆光、抖动、数字严重遮挡依然可以轻松识别!
模型训练的成功率为 99.3% ,完成一次识别的耗时 0.05 秒,达到这样的效果,让我们非常惊喜、兴奋!用户体验之后反响也非常不错!能够做到这些得益于优秀的 TensorFlow 机器学习框架、先进的神经网络解决方案,这让我想起 2007 年刚接触 Android 系统时的感受:不再需要考虑设备底层代码的编写极大的降低了开发者的门槛,正如今天 TF 带给我们的一样,入门级玩家也可以使用人工智能技术。
最后向一直坚持做机器学习的开发者们致敬:你们的坚持和分享精神使我们更快的掌握和使用这项技术,相信在我们共同努力下人工智能领域将不断突破,正如这条曲线一样历经磨练守得云开见月明。
点击 “阅读原文”,查看案例详情!
以上是关于中国电信使用 TensorFlow 实现人工智能的主要内容,如果未能解决你的问题,请参考以下文章
浙江移动 — 利用 TensorFlow 实现通讯运维智能化
TensorFlow中国研发负责人李双峰演讲实录:TensorFlow从研究到实践