一文看尽2018全年AI技术大突破:NLP跨过分水岭、CV研究效果惊人

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一文看尽2018全年AI技术大突破:NLP跨过分水岭、CV研究效果惊人相关的知识,希望对你有一定的参考价值。

参考技术A

量子位 出品 | 公众号 QbitAI

2018,仍是AI领域激动人心的一年。

这一年成为NLP研究的分水岭,各种突破接连不断;CV领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特别让人期待……近日,Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告,原文作者PRANAV DAR。量子位在保留这个报告架构的基础上,对内容进行了重新编辑和补充。这份报告总结和梳理了全年主要AI技术领域的重大进展,同时也给出了相关的资源地址,以便大家更好的使用、查询。报告共涉及了五个主要部分:

下面,我们就逐一来盘点和展望,嘿喂狗~

2018年在NLP 历史 上的特殊地位,已经毋庸置疑。

这份报告认为,这一年正是NLP的分水岭。2018年里,NLP领域的突破接连不断:ULMFiT、ELMo、最近大热的BERT……

迁移学习成了NLP进展的重要推动力。从一个预训练模型开始,不断去适应新的数据,带来了无尽的潜力,甚至有“NLP领域的ImageNet时代已经到来”一说。

正是这篇论文,打响了今年NLP迁移学习狂欢的第一枪。论文两名作者一是Fast.ai创始人Jeremy Howard,在迁移学习上经验丰富;一是自然语言处理方向的博士生Sebastian Ruder,他的NLP博客几乎所有同行都在读。两个人的专长综合起来,就有了ULMFiT。想要搞定一项NLP任务,不再需要从0开始训练模型,拿来ULMFiT,用少量数据微调一下,它就可以在新任务上实现更好的性能。

他们的方法,在六项文本分类任务上超越了之前最先进的模型。详细的说明可以读他们的论文:https://arxiv.org/abs/1801.06146Fast.ai网站上放出了训练脚本、模型等:http://nlp.fast.ai/category/classification.html

这个名字,当然不是指《芝麻街》里那个角色,而是“语言模型的词嵌入”,出自艾伦人工智能研究院和华盛顿大学的论文Deep contextualized word representations,NLP顶会NAACL HLT 2018的优秀论文之一。

ELMo用语言模型(language model)来获取词嵌入,同时也把词语所处句、段的语境考虑进来。

这种语境化的词语表示,能够体现一个词在语法语义用法上的复杂特征,也能体现它在不同语境下如何变化。

当然,ELMo也在试验中展示出了强大功效。把ELMo用到已有的NLP模型上,能够带来各种任务上的性能提升。比如在机器问答数据集SQuAD上,用ELMo能让此前最厉害的模型成绩在提高4.7个百分点。

这里有ELMo的更多介绍和资源:

https://allennlp.org/elmo

它由Google推出,全称是 B idirectional E ncoder R epresentations from T ransformers,意思是来自Transformer的双向编码器表示,也是一种预训练语言表示的方法。从性能上来看,没有哪个模型能与BERT一战。它在11项NLP任务上都取得了最顶尖成绩,到现在,SQuAD 2.0前10名只有一个不是BERT变体:

如果你还没有读过BERT的论文,真的应该在2018年结束前补完这一课:https://arxiv.org/abs/1810.04805另外,Google官方开源了训练代码和预训练模型:https://github.com/google-research/bert如果你是PyTorch党,也不怕。这里还有官方推荐的PyTorch重实现和转换脚本:https://github.com/huggingface/pytorch-pretrained-BERT

BERT之后,NLP圈在2018年还能收获什么惊喜?答案是,一款新工具。

就在上周末,Facebook开源了自家工程师们一直在用的NLP建模框架PyText。这个框架,每天要为Facebook旗下各种应用处理超过10亿次NLP任务,是一个工业级的工具包。

(Facebook开源新NLP框架:简化部署流程,大规模应用也OK)

PyText基于PyTorch,能够加速从研究到应用的进度,从模型的研究到完整实施只需要几天时间。框架里还包含了一些预训练模型,可以直接拿来处理文本分类、序列标注等任务。

想试试?开源地址在此:

https://github.com/facebookresearch/pytext

它能主动打电话给美发店、餐馆预约服务,全程流畅交流,简直以假乱真。Google董事长John Hennessy后来称之为“非凡的突破”,还说:“在预约领域,这个AI已经通过了图灵测试。”Duplex在多轮对话中表现出的理解能力、合成语音的自然程度,都是NLP目前水平的体现。如果你还没看过它的视频……

NLP在2019年会怎么样?我们借用一下ULMFiT作者Sebastian Ruder的展望:

今年9月,当搭载BigGAN的双盲评审中的ICLR 2019论文现身,行家们就沸腾了: 简直看不出这是GAN自己生成的

在计算机图像研究史上,BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后,它的Inception Score(IS)得分166.3,是之前最佳得分52.52分 3倍

除了搞定128×128小图之外,BigGAN还能直接在256×256、512×512的ImageNet数据上训练,生成更让人信服的样本。

在论文中研究人员揭秘,BigGAN的惊人效果背后,真的付出了金钱的代价,最多要用512个TPU训练,费用可达11万美元,合人民币76万元。

不止是模型参数多,训练规模也是有GAN以来最大的。它的参数是前人的2-4倍,批次大小是前人的8倍。

研究论文:https://openreview.net/pdf?id=B1xsqj09Fm

前前后后,Fast.ai团队只用了16个AWS云实例,每个实例搭载8块英伟达V100 GPU,结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。这样拔群的成绩,成本价只需要 40美元 ,Fast.ai在博客中将其称作人人可实现。

相关地址: Fast.ai博客介绍:

今年8月,英伟达和MIT的研究团队高出一个 超逼真 高清视频生成AI。

只要一幅动态的语义地图,就可获得和真实世界几乎一模一样的视频。换句话说,只要把你心中的场景勾勒出来,无需实拍,电影级的视频就可以自动P出来:

除了街景,人脸也可生成:

这背后的vid2vid技术,是一种在生成对抗性学习框架下的新方法:精心设计的生成器和鉴别器架构,再加上时空对抗目标。

这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上,实现高分辨率、逼真、时间相干的视频效果。

好消息,vid2vid现已被英伟达开源。

研究论文:https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub地址https://github.com/NVIDIA/vid2vid

相关地址

相关地址

一文看尽Google新品发布会:手机音箱笔记本,硬件全面AI化

一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化


本文经AI新媒体量子位( ID: QbitAI)授权转载,转载请联系出处


AI+软件+硬件,让Google助手无处不在。


这是Google刚刚结束的产品发布会的核心旋律——开门见山、贯穿始终。Google预测:下一次的伟大飞跃,将发生在AI、软件和硬件的交叉路口。


那在这个伟大飞跃前夜,Google都发布了什么?量子位带你一文看尽、一文看懂。


AI为先(AI First)


Google公司CEO劈柴哥(Sundar Pichai)第一个登场。


他首先谈到了最近美国遇到的几个灾难性事件。接着劈柴哥(再次)开始讲述,Google如何从移动为先(Mobile First),转变为AI为先(AI First)。


他举了几个例子,例如如何利用AI和机器学习在非洲处理街景和地图,以及机器学习如何分析旧金山哪些停车场可能还有车位。当然最好的例子是Google翻译。Google现在每天提供超过20亿次的翻译,与2014年相比翻了一番。


怎么理解AI为先的转变?


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化


这里有四个关键组成部分:


1、交流和感知(声音、触觉、视觉等);

2、环境、多设备可用,无论在手机还是汽车上都能触达;

3、不需要你开口问,就能提供你所需要的信息;

4、同样不需要你开口问,电脑就能学习和适应你。


“在AI为先的世界里,电脑应该去适应人们的生活方式,而不是人们适应电脑”,劈柴哥在台上表示:“我们对这种转变感到兴奋”。


接着开始讲AutoML,这在此前的I/O大会上也讲过。AutoML意在让机器学习模型的设计变得更简单,整个过程更加自动化,有望极大降低未来机器学习的门槛。


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化


劈柴哥举例说,AutoML把图像分类的精确度,从81.5%提升到82.3%,而计算量也有了显著地下降。“AI进步的速度是惊人的”,他说。


未来Google还会把更多AI和机器学习技术应用在日常的服务中。


接下来是新硬件时间~


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化


智能音箱新成员:Mini和Max


新硬件发布之前,小结了一下过去的成绩:全球Chromecast设备已经有5500万台;虚拟助手Google助手去年回答了1亿个问题。智能音箱Google Home下一步将进入日本市场——这也是Google Home登陆的首个非拉丁语系国家。


在这次发布会上,智能音箱家族增加两个新成员。更迷你的Google Home Mini,和体型更巨大的Google Home Max。


Google Home Mini是一个饼状的智能音箱,织物表面下有可以亮起的LED灯,可以播放360°的声音,也有支持远场语音技术的麦克风。


颜色方面有灰白、炭黑和珊瑚红三种,售价49美元,10月19日开售。对于这款Mini的思考,Google的说法是“每个房间都可以放一个”。


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Google Home Mini


大块头Google Home Max则可以提供更好的音质,配备两个4.5英寸高偏差低音扬声器,以让用户获得更加深度平衡的低音,整体音量则可以比Google Home大20倍。


另外,即便在播放音乐的时候,这个产品也能听到你的指令。这是第一款支持Smart Sound的Google智能音箱,可以根据环境、位置等即刻调整音效。Max也被赋予了“AI音频”体验,它能适应用户具体放置的环境,视具体放置位置自动调整声音。


此外,Max也接入了各种音乐服务,支持蓝牙和辅助端口,共有灰白和炭黑2种颜色,售价399美元,12月份上市销售。


总体来说,Google Home Max主要针对苹果的HomePod、Sonos等对手,当然除了硬件,最大的卖点还是软件方面的Google助手。


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Google Home系列


最后,Google Home全家桶到齐后,Google方面还称,内置的Google助手也将有三大新功能:


1、更智能服务日常生活,比如早上醒来一声“hi Google,早上好”,就能得到关于用户一天的个性化时间表、通勤状况、天气和新闻;


2、家庭功能,特别是更多涉及儿童的内容,13岁以下的儿童都可以由父母创建一个专属帐户;


3、智能家居,目前Google Home可以控制的智能家居产品达1000个,涉及100多个品牌。


笔记本:Pixelbook


接下来发布的是首款Google笔记本,一款名为Google Pixelbook的高性能Chromebook,结合了笔记本电脑的性能、平板电脑的便携,以及智能手机的个性化。


笔记本外观之下,是用AI技术打通PC和智能手机的想法。在Google Pixelbook上,除了定制的Chrome OS主打快速、易用和安全,还搭载了Google助手,直接语音交互,而且最关键的是,可以应用所有Google play应用商店里的App。


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Google Pixelbook


硬件方面,厚10.3mm,重1.1kg,4合1设计,可拆卸键盘,能360°翻转,采用英特尔酷睿i5和i7处理器,最高512GB存储,10小时续航。


售价999美元起,今天开始接受预定,首批面向美国、加拿大和英国三个国家。


同时配套发布的还有Google Pixelbook pen,主要加强笔记本上的交互,使用机器学习进行手写识别,最多10毫秒延时,售价99美元起。


值得注意的是,这是首款搭载Google助手的笔记本电脑,而且可以直接在电脑上使用App,无需再在手机和笔记本之间进行切换。


手机:Google Pixel 2/2XL


接下来是意料之中、曝光最充分的新手机:5英寸的Google Pixel 2和6英寸的Google Pixel 2XL。


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Google Pixel 2 / XL


硬件方面,Google Pixel 2是一代的性能升级,而新增的Google Pixel 2XL则配备了18:9的1080p OLED全面屏。这两款产品均是后置指纹、前后各一个摄像头、采用Type-C,且取消了耳机孔。


颜色方面,Google Pixel 2有浅蓝色、黑色和黑白色3种颜色,Google Pixel 2XL则仅有黑色和黑白色2款。不过颜色上也能通过合作方配件玩一些新花样,目前有25家合作伙伴可以搞一些徽章、背壳等个性化方案。


系统方面,Google Pixel 2和Google Pixel 2XL均配备Android 8.0 Oreo。值得一提的还有一个永远在线的显示屏,无需触摸电源按钮,就能了解所有屏幕上的通知/时间。


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化


当然,Google的手机,核心大招都在软件方面,或者说就是AI在手机上应用。


首先还是Google助手,贯穿整个手机使用中,甚至不用唤醒词,直接能在锁屏状态下识别“主人”的声纹,启动相应App或执行具体任务,现场演示了一下“自拍”,只需对着麦克风轻声细语一句,Google助手便直接启动相机,并开启自拍模式。这个功能被称为“Active Edge”。

一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Google Lens Demo


其次是相机,主要有拍照、Google Lens和AR等3大技术应用。


即便在双摄像头成为标配的时代,Google Pixel 2也没有跟风,核心原因是Google团队认为算法能解决的问题,就不劳烦硬件了。


于是这颗后置单摄像头,在Google机器视觉和机器学习的双驱动下,性能比上一代更好,拍照评分从去年的89分提升到了98分——自己创造的记录自己刷新。


此外,这颗摄像头还能在Google Lens的赋能下,让所有的图片、图像信息结构化,比如实时机器翻译;又比如OCR式的图片信息转文字;还有“搜索看到的一切”,用户可以在拍下照片的同时,获得相关知识信息,也能通过点击Google相册中的镜头图标来查看地标、书籍、音乐专辑、电影和作品。


Google方面称,未来Google助手中也会加入Lens技术的应用,即直接语音交互完成更多视觉相关功能。


最后还有AR的应用,靠单摄像头,Google Pixel 2就能在家居、游戏等需求中玩转AR。


当然,在Google发布会上,这颗摄像头还有“最快对焦”、四轴防抖、3秒动图拍摄和4K视频录制等能力。


至于拍照之后的免费的无限制的Google云处理,也是附赠的。


总结起来一句话:当所有手机厂商都在把摄像头往美颜方向带时,Google的做法是让摄像头做更多、更实用,而且软件算法能搞定的事儿,决不堆叠硬件。


新手机售价,Google Pixel:2649美元;Google Pixel 2XL:849美元,发布会之后就开售。全球市场来讲,Google Pixel 2离我们最近的开售市场是印度,Google Pixel 2XL则是新加坡。


翻译耳机


新手机之后,Google还推出了配备新耳机的VR产品Google Daydream View,售价99美元,灰、黑和珊瑚红三种颜色,以及买硬件就免费享受所有YouTube的VR资源。

一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Google Daydream View


不过更激动人心的是一款“翻译耳机”的新产品,名为Google Pixel Buds。

一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Pixel Buds


Buds外观为无线耳机的形式,把Google助手和Google翻译内置其中,不仅能够读取信息,还支持实时翻译,支持的互译语种达到40种。


其实类似功能的产品中国早已有之,比如讯飞的晓译翻译机,以及与腾讯合作的耳机形态的“时空壶”。


Buds一共有黑、白和蓝三种颜色,5小时续航,还能类似苹果的AirPods,直接通过耳机盒充电,最长续航达24小时。


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Pixel Buds充电盒


翻译耳机售价:美国市场159美元,即刻预售,11月份开始也将面向加拿大、英国、德国、澳大利亚和新加坡市场。


归结起来,Pixel Buds是Google把Google助手的所有功能装入“无线耳机”的结果,而且不用掏出手机,就能享受实时翻译。


One More Thing:Google Clips


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Google Clips


最后登场的新产品是一款相机,或可以称为“随身记录仪”,名为Google Clips。


这是一款类似行车记录仪、家庭记录仪的产品,但更为轻便,甚至可以随身携带,拍摄以图片和几秒的动图为主。


除此之外,最核心的还是软件方面的能力。一是Google云的赋能,无限存储空间,实时同步;二是Google机器学习能力,一方面通过面部识别可以抓拍到清晰稳定的镜头,另一方面是整个机器学习过程就在硬件端本身完成,也就意味着一切都是实时同步进行的,不需要“后期”。


一文看尽Google新品发布会:手机、音箱、笔记本,硬件全面AI化

△ Google Clips拍摄


当然,也可以在Pixel、三星S8和iPhone(6以上)查看,但在Google自家的Pixel手机上,能直接通过Google助手交互、查找。


Clips售价249美元,目标群体是父母和宠物主。具体开售时间未定,只说会尽快。


最后的最后,如果要对这场Google产品发布会做一个概括,大概会有两个感想:


  • 首先,“AI+软件+硬件”,会经由Google发起,被更多带入我们的生活,而现阶段Google的“AI+软件+硬件”,就是把Google助手装入每一个硬件产品中。


  • 其次,这些产品,无论多么激动人心,暂时与中国用户无缘。


不过,Google在总结时也说:硬件业务才刚刚开始,我们志在长远未来。


这里还有一个官方1分钟视频回顾:



格上财富:在基金业协会登记的私募基金管理人,十年深度研究,甄选阳光私募、PE/VC、海外基金等高端理财产品,为您的资产增值保驾护航!

以上是关于一文看尽2018全年AI技术大突破:NLP跨过分水岭、CV研究效果惊人的主要内容,如果未能解决你的问题,请参考以下文章

一文看尽各种自然语言处理任务

一文看尽2021数博会,带来了哪些“云数智”黑科技?

突破进化,腾讯云数据库2018全年盘点

一文概述 2018 年深度学习 NLP 十大创新思路

专访王威廉:NLP哪些研究方向更容易取得突破?

NLP黄金十年开启!一文了解最全产业图谱