一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人

Posted 2023-04-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人相关的知识，希望对你有一定的参考价值。

参考技术A

量子位出品 | 公众号 QbitAI

2018，仍是AI领域激动人心的一年。

这一年成为NLP研究的分水岭，各种突破接连不断；CV领域同样精彩纷呈，与四年前相比GAN生成的假脸逼真到让人不敢相信；新工具、新框架的出现，也让这个领域的明天特别让人期待……近日，Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告，原文作者PRANAV DAR。量子位在保留这个报告架构的基础上，对内容进行了重新编辑和补充。这份报告总结和梳理了全年主要AI技术领域的重大进展，同时也给出了相关的资源地址，以便大家更好的使用、查询。报告共涉及了五个主要部分：

下面，我们就逐一来盘点和展望，嘿喂狗~

2018年在NLP 历史上的特殊地位，已经毋庸置疑。

这份报告认为，这一年正是NLP的分水岭。2018年里，NLP领域的突破接连不断：ULMFiT、ELMo、最近大热的BERT……

迁移学习成了NLP进展的重要推动力。从一个预训练模型开始，不断去适应新的数据，带来了无尽的潜力，甚至有“NLP领域的ImageNet时代已经到来”一说。

正是这篇论文，打响了今年NLP迁移学习狂欢的第一枪。论文两名作者一是Fast.ai创始人Jeremy Howard，在迁移学习上经验丰富；一是自然语言处理方向的博士生Sebastian Ruder，他的NLP博客几乎所有同行都在读。两个人的专长综合起来，就有了ULMFiT。想要搞定一项NLP任务，不再需要从0开始训练模型，拿来ULMFiT，用少量数据微调一下，它就可以在新任务上实现更好的性能。

他们的方法，在六项文本分类任务上超越了之前最先进的模型。详细的说明可以读他们的论文：https://arxiv.org/abs/1801.06146Fast.ai网站上放出了训练脚本、模型等：http://nlp.fast.ai/category/classification.html

这个名字，当然不是指《芝麻街》里那个角色，而是“语言模型的词嵌入”，出自艾伦人工智能研究院和华盛顿大学的论文Deep contextualized word representations，NLP顶会NAACL HLT 2018的优秀论文之一。

ELMo用语言模型（language model）来获取词嵌入，同时也把词语所处句、段的语境考虑进来。

这种语境化的词语表示，能够体现一个词在语法语义用法上的复杂特征，也能体现它在不同语境下如何变化。

当然，ELMo也在试验中展示出了强大功效。把ELMo用到已有的NLP模型上，能够带来各种任务上的性能提升。比如在机器问答数据集SQuAD上，用ELMo能让此前最厉害的模型成绩在提高4.7个百分点。

这里有ELMo的更多介绍和资源：

https://allennlp.org/elmo

它由Google推出，全称是 B idirectional E ncoder R epresentations from T ransformers，意思是来自Transformer的双向编码器表示，也是一种预训练语言表示的方法。从性能上来看，没有哪个模型能与BERT一战。它在11项NLP任务上都取得了最顶尖成绩，到现在，SQuAD 2.0前10名只有一个不是BERT变体：

如果你还没有读过BERT的论文，真的应该在2018年结束前补完这一课：https://arxiv.org/abs/1810.04805另外，Google官方开源了训练代码和预训练模型：https://github.com/google-research/bert如果你是PyTorch党，也不怕。这里还有官方推荐的PyTorch重实现和转换脚本：https://github.com/huggingface/pytorch-pretrained-BERT

BERT之后，NLP圈在2018年还能收获什么惊喜？答案是，一款新工具。

就在上周末，Facebook开源了自家工程师们一直在用的NLP建模框架PyText。这个框架，每天要为Facebook旗下各种应用处理超过10亿次NLP任务，是一个工业级的工具包。

（Facebook开源新NLP框架：简化部署流程，大规模应用也OK）

PyText基于PyTorch，能够加速从研究到应用的进度，从模型的研究到完整实施只需要几天时间。框架里还包含了一些预训练模型，可以直接拿来处理文本分类、序列标注等任务。

想试试？开源地址在此：

https://github.com/facebookresearch/pytext

它能主动打电话给美发店、餐馆预约服务，全程流畅交流，简直以假乱真。Google董事长John Hennessy后来称之为“非凡的突破”，还说：“在预约领域，这个AI已经通过了图灵测试。”Duplex在多轮对话中表现出的理解能力、合成语音的自然程度，都是NLP目前水平的体现。如果你还没看过它的视频……

NLP在2019年会怎么样？我们借用一下ULMFiT作者Sebastian Ruder的展望：

今年9月，当搭载BigGAN的双盲评审中的ICLR 2019论文现身，行家们就沸腾了： 简直看不出这是GAN自己生成的 。

在计算机图像研究史上，BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后，它的Inception Score（IS）得分166.3，是之前最佳得分52.52分 3倍。

除了搞定128×128小图之外，BigGAN还能直接在256×256、512×512的ImageNet数据上训练，生成更让人信服的样本。

在论文中研究人员揭秘，BigGAN的惊人效果背后，真的付出了金钱的代价，最多要用512个TPU训练，费用可达11万美元，合人民币76万元。

不止是模型参数多，训练规模也是有GAN以来最大的。它的参数是前人的2-4倍，批次大小是前人的8倍。

研究论文：https://openreview.net/pdf?id=B1xsqj09Fm

前前后后，Fast.ai团队只用了16个AWS云实例，每个实例搭载8块英伟达V100 GPU，结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。这样拔群的成绩，成本价只需要 40美元 ，Fast.ai在博客中将其称作人人可实现。

相关地址： Fast.ai博客介绍：

今年8月，英伟达和MIT的研究团队高出一个 超逼真 高清视频生成AI。

只要一幅动态的语义地图，就可获得和真实世界几乎一模一样的视频。换句话说，只要把你心中的场景勾勒出来，无需实拍，电影级的视频就可以自动P出来：

除了街景，人脸也可生成：

这背后的vid2vid技术，是一种在生成对抗性学习框架下的新方法：精心设计的生成器和鉴别器架构，再加上时空对抗目标。

这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上，实现高分辨率、逼真、时间相干的视频效果。

好消息，vid2vid现已被英伟达开源。

研究论文：https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub地址https://github.com/NVIDIA/vid2vid

相关地址

一文看尽Google新品发布会：手机音箱笔记本，硬件全面AI化

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

本文经AI新媒体量子位（ ID: QbitAI）授权转载，转载请联系出处

AI+软件+硬件，让Google助手无处不在。

这是Google刚刚结束的产品发布会的核心旋律——开门见山、贯穿始终。Google预测：下一次的伟大飞跃，将发生在AI、软件和硬件的交叉路口。

那在这个伟大飞跃前夜，Google都发布了什么？量子位带你一文看尽、一文看懂。

AI为先（AI First）

Google公司CEO劈柴哥（Sundar Pichai）第一个登场。

他首先谈到了最近美国遇到的几个灾难性事件。接着劈柴哥（再次）开始讲述，Google如何从移动为先（Mobile First），转变为AI为先（AI First）。

他举了几个例子，例如如何利用AI和机器学习在非洲处理街景和地图，以及机器学习如何分析旧金山哪些停车场可能还有车位。当然最好的例子是Google翻译。Google现在每天提供超过20亿次的翻译，与2014年相比翻了一番。

怎么理解AI为先的转变？

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

这里有四个关键组成部分：

1、交流和感知（声音、触觉、视觉等）；

2、环境、多设备可用，无论在手机还是汽车上都能触达；

3、不需要你开口问，就能提供你所需要的信息；

4、同样不需要你开口问，电脑就能学习和适应你。

“在AI为先的世界里，电脑应该去适应人们的生活方式，而不是人们适应电脑”，劈柴哥在台上表示：“我们对这种转变感到兴奋”。

接着开始讲AutoML，这在此前的I/O大会上也讲过。AutoML意在让机器学习模型的设计变得更简单，整个过程更加自动化，有望极大降低未来机器学习的门槛。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

劈柴哥举例说，AutoML把图像分类的精确度，从81.5%提升到82.3%，而计算量也有了显著地下降。“AI进步的速度是惊人的”，他说。

未来Google还会把更多AI和机器学习技术应用在日常的服务中。

接下来是新硬件时间~

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

智能音箱新成员：Mini和Max

新硬件发布之前，小结了一下过去的成绩：全球Chromecast设备已经有5500万台；虚拟助手Google助手去年回答了1亿个问题。智能音箱Google Home下一步将进入日本市场——这也是Google Home登陆的首个非拉丁语系国家。

在这次发布会上，智能音箱家族增加两个新成员。更迷你的Google Home Mini，和体型更巨大的Google Home Max。

Google Home Mini是一个饼状的智能音箱，织物表面下有可以亮起的LED灯，可以播放360°的声音，也有支持远场语音技术的麦克风。

颜色方面有灰白、炭黑和珊瑚红三种，售价49美元，10月19日开售。对于这款Mini的思考，Google的说法是“每个房间都可以放一个”。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Google Home Mini

大块头Google Home Max则可以提供更好的音质，配备两个4.5英寸高偏差低音扬声器，以让用户获得更加深度平衡的低音，整体音量则可以比Google Home大20倍。

另外，即便在播放音乐的时候，这个产品也能听到你的指令。这是第一款支持Smart Sound的Google智能音箱，可以根据环境、位置等即刻调整音效。Max也被赋予了“AI音频”体验，它能适应用户具体放置的环境，视具体放置位置自动调整声音。

此外，Max也接入了各种音乐服务，支持蓝牙和辅助端口，共有灰白和炭黑2种颜色，售价399美元，12月份上市销售。

总体来说，Google Home Max主要针对苹果的HomePod、Sonos等对手，当然除了硬件，最大的卖点还是软件方面的Google助手。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Google Home系列

最后，Google Home全家桶到齐后，Google方面还称，内置的Google助手也将有三大新功能：

1、更智能服务日常生活，比如早上醒来一声“hi Google，早上好”，就能得到关于用户一天的个性化时间表、通勤状况、天气和新闻；

2、家庭功能，特别是更多涉及儿童的内容，13岁以下的儿童都可以由父母创建一个专属帐户；

3、智能家居，目前Google Home可以控制的智能家居产品达1000个，涉及100多个品牌。

笔记本：Pixelbook

接下来发布的是首款Google笔记本，一款名为Google Pixelbook的高性能Chromebook，结合了笔记本电脑的性能、平板电脑的便携，以及智能手机的个性化。

笔记本外观之下，是用AI技术打通PC和智能手机的想法。在Google Pixelbook上，除了定制的Chrome OS主打快速、易用和安全，还搭载了Google助手，直接语音交互，而且最关键的是，可以应用所有Google play应用商店里的App。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Google Pixelbook

硬件方面，厚10.3mm，重1.1kg，4合1设计，可拆卸键盘，能360°翻转，采用英特尔酷睿i5和i7处理器，最高512GB存储，10小时续航。

售价999美元起，今天开始接受预定，首批面向美国、加拿大和英国三个国家。

同时配套发布的还有Google Pixelbook pen，主要加强笔记本上的交互，使用机器学习进行手写识别，最多10毫秒延时，售价99美元起。

值得注意的是，这是首款搭载Google助手的笔记本电脑，而且可以直接在电脑上使用App，无需再在手机和笔记本之间进行切换。

手机：Google Pixel 2/2XL

接下来是意料之中、曝光最充分的新手机：5英寸的Google Pixel 2和6英寸的Google Pixel 2XL。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Google Pixel 2 / XL

硬件方面，Google Pixel 2是一代的性能升级，而新增的Google Pixel 2XL则配备了18:9的1080p OLED全面屏。这两款产品均是后置指纹、前后各一个摄像头、采用Type-C，且取消了耳机孔。

颜色方面，Google Pixel 2有浅蓝色、黑色和黑白色3种颜色，Google Pixel 2XL则仅有黑色和黑白色2款。不过颜色上也能通过合作方配件玩一些新花样，目前有25家合作伙伴可以搞一些徽章、背壳等个性化方案。

系统方面，Google Pixel 2和Google Pixel 2XL均配备Android 8.0 Oreo。值得一提的还有一个永远在线的显示屏，无需触摸电源按钮，就能了解所有屏幕上的通知/时间。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

当然，Google的手机，核心大招都在软件方面，或者说就是AI在手机上应用。

首先还是Google助手，贯穿整个手机使用中，甚至不用唤醒词，直接能在锁屏状态下识别“主人”的声纹，启动相应App或执行具体任务，现场演示了一下“自拍”，只需对着麦克风轻声细语一句，Google助手便直接启动相机，并开启自拍模式。这个功能被称为“Active Edge”。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Google Lens Demo

其次是相机，主要有拍照、Google Lens和AR等3大技术应用。

即便在双摄像头成为标配的时代，Google Pixel 2也没有跟风，核心原因是Google团队认为算法能解决的问题，就不劳烦硬件了。

于是这颗后置单摄像头，在Google机器视觉和机器学习的双驱动下，性能比上一代更好，拍照评分从去年的89分提升到了98分——自己创造的记录自己刷新。

此外，这颗摄像头还能在Google Lens的赋能下，让所有的图片、图像信息结构化，比如实时机器翻译；又比如OCR式的图片信息转文字；还有“搜索看到的一切”，用户可以在拍下照片的同时，获得相关知识信息，也能通过点击Google相册中的镜头图标来查看地标、书籍、音乐专辑、电影和作品。

Google方面称，未来Google助手中也会加入Lens技术的应用，即直接语音交互完成更多视觉相关功能。

最后还有AR的应用，靠单摄像头，Google Pixel 2就能在家居、游戏等需求中玩转AR。

当然，在Google发布会上，这颗摄像头还有“最快对焦”、四轴防抖、3秒动图拍摄和4K视频录制等能力。

至于拍照之后的免费的无限制的Google云处理，也是附赠的。

总结起来一句话：当所有手机厂商都在把摄像头往美颜方向带时，Google的做法是让摄像头做更多、更实用，而且软件算法能搞定的事儿，决不堆叠硬件。

新手机售价，Google Pixel：2649美元；Google Pixel 2XL：849美元，发布会之后就开售。全球市场来讲，Google Pixel 2离我们最近的开售市场是印度，Google Pixel 2XL则是新加坡。

翻译耳机

新手机之后，Google还推出了配备新耳机的VR产品Google Daydream View，售价99美元，灰、黑和珊瑚红三种颜色，以及买硬件就免费享受所有YouTube的VR资源。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Google Daydream View

不过更激动人心的是一款“翻译耳机”的新产品，名为Google Pixel Buds。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Pixel Buds

Buds外观为无线耳机的形式，把Google助手和Google翻译内置其中，不仅能够读取信息，还支持实时翻译，支持的互译语种达到40种。

其实类似功能的产品中国早已有之，比如讯飞的晓译翻译机，以及与腾讯合作的耳机形态的“时空壶”。

Buds一共有黑、白和蓝三种颜色，5小时续航，还能类似苹果的AirPods，直接通过耳机盒充电，最长续航达24小时。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Pixel Buds充电盒

翻译耳机售价：美国市场159美元，即刻预售，11月份开始也将面向加拿大、英国、德国、澳大利亚和新加坡市场。

归结起来，Pixel Buds是Google把Google助手的所有功能装入“无线耳机”的结果，而且不用掏出手机，就能享受实时翻译。

One More Thing:Google Clips

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Google Clips

最后登场的新产品是一款相机，或可以称为“随身记录仪”，名为Google Clips。

这是一款类似行车记录仪、家庭记录仪的产品，但更为轻便，甚至可以随身携带，拍摄以图片和几秒的动图为主。

除此之外，最核心的还是软件方面的能力。一是Google云的赋能，无限存储空间，实时同步；二是Google机器学习能力，一方面通过面部识别可以抓拍到清晰稳定的镜头，另一方面是整个机器学习过程就在硬件端本身完成，也就意味着一切都是实时同步进行的，不需要“后期”。

一文看尽Google新品发布会：手机、音箱、笔记本，硬件全面AI化

△ Google Clips拍摄

当然，也可以在Pixel、三星S8和iPhone(6以上)查看，但在Google自家的Pixel手机上，能直接通过Google助手交互、查找。

Clips售价249美元，目标群体是父母和宠物主。具体开售时间未定，只说会尽快。

最后的最后，如果要对这场Google产品发布会做一个概括，大概会有两个感想：

首先，“AI+软件+硬件”，会经由Google发起，被更多带入我们的生活，而现阶段Google的“AI+软件+硬件”，就是把Google助手装入每一个硬件产品中。

其次，这些产品，无论多么激动人心，暂时与中国用户无缘。

不过，Google在总结时也说：硬件业务才刚刚开始，我们志在长远未来。

这里还有一个官方1分钟视频回顾：

格上财富：在基金业协会登记的私募基金管理人，十年深度研究，甄选阳光私募、PE/VC、海外基金等高端理财产品，为您的资产增值保驾护航！

以上是关于一文看尽2018全年AI技术大突破：NLP跨过分水岭、CV研究效果惊人的主要内容，如果未能解决你的问题，请参考以下文章

一文看尽各种自然语言处理任务

一文看尽2021数博会，带来了哪些“云数智”黑科技？

突破进化，腾讯云数据库2018全年盘点

一文概述 2018 年深度学习 NLP 十大创新思路

专访王威廉：NLP哪些研究方向更容易取得突破？

NLP黄金十年开启！一文了解最全产业图谱