读书总结|深度学习图像识别技术

Posted domkin战队

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读书总结|深度学习图像识别技术相关的知识,希望对你有一定的参考价值。

深度学习图像识别技术——基于TenseorFlow Object Detection API和Open VINO工具套件

读书总结

1.人工智能

1.1什么是人工智能

人工智能是研究用于模拟、延伸、和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解人工智能的实质,并生产出一种新的与人类智能相似的方式作出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,在语音识别方面有语音助手、翻译机及智能音箱等应用;在图像识别方面有智能驾驶、人脸识别和医学影像识别等应用。

1.2人工智能发展的现状

20世纪80年代处,“专家系统”开始风靡人工智能的领先国家,AI专家系统具体指一种程序,能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。虽然其设计简单,易于实现,但是由于AI系统维护费用居高不下,加上其操作复杂、太局限于经验知识和规则,难以构筑有效的系统,所以专家系统以失败告终。
    2006年,被称为“神经网络之父”和“深度学习鼻祖”的Geoffrey Hinton在Science发文指出:“多隐层神经网络具有更为优异的特征学习能力,并且其在训练上的复杂程度可以通过逐层初始化来有效缓解”,让人们看到了人工智能同故宫深度学习技术超越人类的希望,2006年也被称为深度学习元年。
     在GPU加速和大数据的加持下,深度学习发展如火如荼。
     2012年,Geoffrey Hinton及其学生创造了一个“大型的深度卷积神经网络(CNN)”,即现在的AlexNet,赢得了当年的ImageNet图像分类比赛的冠军,首次实现了Top5误差率从25.8%下降到15.4%。
    2016年,Google子公司DeepMind开发的基于深度神经网络的人工智能围棋程序AlphaGo以4:1战胜了棋王李世石,以深度学习技术为代表的人工智能再次火爆全球。
2017年,我国发布《新一代人工智能发展规划》,拉开了我国从国家层面支持和发展人工智能产业的序幕。
     目前,AI已在金融、医疗及安防领域实现了技术落地,而且应用场景也会越来越丰富,引发了各个行业的深刻变革。未来AI的发展将是技术与产业的结合,实现AI技术赋能各行各业,解决痛点、创造价值、降本增效。在这个趋势下,作为AI工程师,应该更能多地从应用价值切入,推动AI项目落地,而不是仅仅停留在AI模型调优上。

1.3人工智能和深度学习的关系

当前的人工智能的大爆发是由于深度学习引起的,所以各种媒体文章上,人工智能和深度学习两个概念经常被混用。从技术层面上来说,深度学习是机器学习诸多算法中的一种,而机器学习又是人工智能的一个子集。

AI的概念多面向公众,深度学习多面向技术人员。

2.深度学习

深度学习就是用深度神经网络来自动学习对象特征,然后让深度神经网络具备识别对象的能力。

2.1神经网络

神经网络就是多个神经元的堆叠。神经元构成的网状的拓扑结构具备一定的智慧能力(分类能力),所以给他起了一个通俗易懂的名字——神经网络。

2.2神经元

神经网络由神经元堆叠而成,神经网络的基本组件就是神经元。

以小学数学的视角看,神经元就是简单的四则混合运算:神经元输入“x”与权重“w”想成,再求和得“u”,所得的和“u”再经过激活函数“f()”处理,得到神经元输出“y”,也就是下一级神经元的输入,如图所示。

每个神经元的基本运算是乘法和加法,即乘加运算:多个神经元堆叠起来,就是多个乘加运算,这个特点非常适合具有大量(上千个)乘加硬件计算单元的GPU来计算,这也是GPU比CPU计算神经网络更快的原因。

输入经过本级级神经元处理的搭配输出并传入下一级神经元的计算过程称为前馈计算。

2.3深度神经网络

最基本的神经网络有三层,第一层是输入层、第二层是隐藏层、第三层是输出层。若隐藏层的层数很多,那么神经网络就是有很多层神经网络,简称多层神经网络。

研究表明,神经网络的层数越多,其表达能力越强。所以深度神经网络有很强的信息表达能力。

2.4深度卷积神经网络

深度卷积神经网络(CNN)中的深度二字常被省略,简称为卷积神经网络(CNN),表达的意思是具备多个卷积计算层的神经网络。

卷积神经网络强大的自动提取特征的能力和极高的图像分类准确率深受业界认可,越来越多的在计算机视觉领域的图像分类、检测和分割应用中大显身手。

3.目标检测

3.1什么是目标检测

目标检测(Object Detection),又称为物体检测。目标检测在许多领域都有广泛的应用,包括排计算机视觉、自动驾驶、人机交互、基于内容的图像检索、智能视频监控和增强现实等。

目标检测的任务是确定在给定的图像中是否存在期望的物体(如人、车、自行车、猫和狗等),如果有,返回每个物体的类别、位置(边界框)和置信度(Confidence),相当于完成了图像分类+图像定位的工作。

对于应用者来说,可以把目标检测算法理解为一个黑盒子,输入时图像,输出是图像中物体的类别、置信度和位置。

3.2深度学习目标检测算法

进入深度学习时代,深度学习目标检测应用的典型开发流程变为收集图片、标注图片、训练模型和部署模型这四部。

与传统目标检测算法相比,深度学习目标检测算法是通用化的目标检测算法,而非定制化的目标检测算法,所以只要掌握了深度学习算法开发工具的人,都可以训练出自己想要的目标检测模型。

4.迁移学习

4.1训练深度学习模型依赖大数据

深度卷积神经网络具有极高的分类精度,同时也具有极多的参数需要训练,例如,著名的AlexNet有57,000,000个参数需要训练。要将如此多的参数训练出来,需要上万甚至十万百万以上的数据,即大学数。另外,还需要与之相匹配的超强算力,即云计算。

AI必备三要素:深度学习算法+云计算+大数据,三者互相促进不断迭代,引发了AI的第三次高潮。

4.2大数据造成的问题

(1)大数据带来的第一个问题是:收集数据非常困难。

(2)大数据带来的第二个问题是:标注数据非常耗时。

(3)大数据带来的第三个问题是:训练模型非常耗时。

是否有方法可以解决上述的问题吗?迁移学习就是一个非常好的办法。

4.3迁移学习

迁移学习是指加入有一个已经在大规模数据集上训练好的模型,将该模型学习到的知识迁移到另一个模型,即保留特征提取器不变,在具有相似特征的新的数据集上重新训练分类器。

用比较直白的话来说,就是先下载别人已经训练好的模型,然后基于这个模型做深度学习训练。

驱动深度学习商业成功的两大动力,一是监督学习,二是迁移学习。

由此,在商业落地上,AI分为两个类别:

(1)第一类是云计算+大数据能力+AI科学家+AI算法工程师的巨头公司,他们很容易收集到数据,并且可以很容易收集到数据,并且可以雇佣成千上万的人做数据标注,他们能够基于监督学习,从头设计研发并训练有巨大商业价值潜力的模型。

(2)第二类是广大的中小企业和非AI行业从业者,他们无法拥有云计算,没有足够的经费雇佣高水平的AI算法工程师和大量做数据标注的人。他们扎根细分行业,基于迁移学习,做着巨头公司不愿意做的定制化项目。这些定制项目的商业价值都不巨大,不值得巨头去投入,但数量惊人,各行各业都有。


domkin战队

QQ号|3289270752

文章来源:domkin战队高鸿志

责任编辑:domkin战队宫美琪

以上是关于读书总结|深度学习图像识别技术的主要内容,如果未能解决你的问题,请参考以下文章

项目实战解析:基于深度学习搭建卷积神经网络模型算法,实现图像识别分类

深度学习架构师?这些图像识别目标检测等技术你需要掌握!

读书笔记2|深度学习入门——基于python的理论与实现

读书笔记2|深度学习入门——基于python的理论与实现

图像识别-经典网络学习总结

新书深度学习图像识别技术:基于TensorFlow Object Detection API和OpenVINO™ 工具套件