独家 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了独家 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!相关的知识,希望对你有一定的参考价值。

参考技术A

「初创公司要贸然打入云端市场,简直就是自寻死路」。

长久以来,云端的数据中心市场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨头林立,竞争太过凶残。

但近年来,云计算势不可挡,云端芯片市场呈现爆发式增长,不乏勇者前来破局。

作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司,寒武纪挑战云端市场的底气十足。

2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也已经成为寒武纪的客户。

与此同时,寒武纪成数亿美元 B 轮融资。据机器之心了解,目前寒武纪的估值约为 30 亿美元,与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。

一年后,寒武纪二代芯片已经箭在弦上,这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。

机器之心独家获悉,寒武纪二代云端芯片或将于本月公布,同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源,提前揭秘关于该颗芯片的细节亮点和核心技术。

这回有了中文名

据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,延续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武纪已经为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。

在今年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式,转向主打云端市场的芯片方案提供商。

在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长,成为数据中心的任务主流,寒武纪在「思元 270」里内建视频解码单元,瞄准海量的视频处理市场专门配置。

据机器之心了解,寒武纪「思元 270」在今年年初研制成功,制程工艺方面明显抛弃了此前终端市场的激进打法,选择仍然沿用台积电 16nm 工艺,定位于「专注云端训练计算」。

对比两大巨头的主流云端产品线,英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺,AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺,寒武纪这次似乎希望单纯依靠技术路线取胜,不再如去年对于 7nm 工艺寄予厚望。

「让英伟达难受」

在芯片性能方面,「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。

据机器之心目前了解到的情况来看,「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算,INT16 的峰值性能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。

对比 Tesla T4,FP16 的峰值性能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。

功耗方面,「思元 270」功耗为 75w,与 Tesla T4 持平。

但值得注意的是,这些「理论峰值」不过是纸面规格,真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人,同时也是阿里云早期核心技术研发人员李立表示,「T4 在实测过程中,75w 功耗维持不了多久就降一半频率。」

据该负责人介绍,他在几个月前已经拿到「思元 270」的具体规格和特性,「对比而言,第一代 MLU100 是试水,第二代 270 就聚焦多了,威力非常大,NV 后面会很难受。」

与此同时,该负责人还指出,「寒武纪的方案在某些领域可能不会特别好使,尚待观察。」

核心技术解密

这里需要引入一对运算表示法的概念,整数运算(定点运算)与浮点运算。

它们是计算机计算中最为常用的两种运算表示法,顾名思义,其差异就体现在整数和浮点上,加减乘除运算都是一样的。

整数表示法,即所有位都表示各位数字,小数点固定;浮点表示法,则分成两部分,阶码和尾数,尾数就是数字部分,阶码表示乘幂的大小,也就是小数点位置。所以浮点数在做运算的时候,除了对尾数做加减乘除,还要处理小数点位置。

基于两种不同的运算表示法规则,导致面对同样长度的整数和浮点运算,后者计算模式更为复杂,需要消耗更多的资源去处理,并且二者功耗差距通常是数量级的。 简单来说,就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。

但浮点运算又有其不可取代性。首先,定点表示法运算虽然直观,但是固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数,可能「溢出」。

而浮点的精度虽然没有定点大,但是浮点运算的小数点位置可以移动,运算时不用考虑溢出,所以科学计算法一般都使用浮点。所谓「溢出」,指超出某种数据格式的表示范围。

此外,具体到使用 GPU 做训练,业界通常更倾向于浮点运算单元,主要是因为在有监督学习的 BP 算法中,只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高,所以通常必须是高精度的浮点运算,比如 FP32 才能搞定,FP16 都难。

综上,虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势,但截止目前,浮点计算在云端的训练场景中仍具有不可替代的特性,并且以高精度运算为主。

那么,如何在不增加芯片面积和功耗的前提下,如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。

参考计算过程相对简单的推断计算思路,目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。

面对计算过程更为复杂的训练计算,业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。

李立表达了类似的观点, 目前大家的研究热点之一,就在于如何全部的定点单元(比如 INT8)代替浮点单元,或者以主要的定点单元配合少量的高精度浮点计算单元(比如 FP32)做更多的训练任务,目的是达到定点计算的快速度,同时实现接近高精度浮点计算的精度。

谈到目前该方向的研究成果和代表论文,李立表示,行业相关的研究文章已经有一些,不过都不具有普适性。

王一进一步向机器之心透露了关于实现低精度运算的「关键心法」,要做好低精度训练,就要找到一个好的数据表示方法,既能表达最后大的数,又能让 0 附近的小量能够更好地表达,因此这个数据表示可能需要有自适应性,能随着训练的过程调整。

他还补充, 「低精度训练确实未必要是浮点数,只要能把数域表达好,0 附近的小量表达好,什么样的数据表示都可以。」

综上,寒武纪在大幅度提升训练阶段的计算功耗比方面,很有可能采用的是以整数为主的低精度运算,这在目前已公布的 AI 芯片项目中属于首创。

实际上,寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路,也就是现在常谈到的 AI 芯片架构。

当时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOS\'14 最佳论文(亚洲第一次),DaDiannao(大电脑)是 MICRO\'14 最佳论文(美国以外国家的第一次)……

而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc.)正是沿用了 DianNao 系列论文的基本思路,采用大量堆叠的简单计算单元以实现复杂的云端计算。(机器之心曾进行过相关报道,《一款芯片训练推理全搞,Hinton 为其背书,Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)

此外,要切数据中心市场的蛋糕,一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流,其 CUDA 软件生态的基础功不可没。

据机器之心了解,寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链,该平台终端和云端产品均支持,可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容,同时提供寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。

「云芯」之争一触即发

尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持,但想要真正在数据中心市场扎下根,以实现陈天石去年在发布会上谈到的目标:到 2020 年底,力争占据中国高性能智能芯片市场的 30% 份额,仍然面临着异常残酷的市场竞争。

整体上,英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。

而随着深度学习计算和人工智能技术逐步兴起的云端训练市场,同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU,AMD、FPGA 占据非常小的份额,剩余市场还在被国内外芯片创业公司不断瓜分。

据机器之心了解,近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示,到 2022 年,全球人工智能训练市场的规模将达到约 170 亿美元,云端推理芯片市场的规模将达到 70 亿美元。

可以预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速市场势必迎来更多强劲玩家。

(应采访者需求,文中李立、王一均为化名。)

SEO独家揭秘:搜索引擎如何识别链接作弊!

国内的搜索引擎在关于“外链”的文章里面,绝大多数会强调外链的价值,很少去强调链接背后的反作用,也就是今天要给大家深度解读的链接作弊。笔者在SEO领域从业多年,但是在搜索引擎链接分析这块,见证过各种链接对于排名的提升和下降,也测试过数百个站点的排名动向。这次我们一如既往,用实战排名案例去给大家完全解读链接作弊背后的秘密!

首先,在谈论识别链接作弊之前,给大家假设一个观点,做SEO,千万不要用可能、感觉、或许这种东西来思考搜索引擎结果排序。尽管多数的SEO从业人员都是在与搜索引擎算法做匹配性斗争,但是往往是这些可能、感觉、或许让很多SEO优化变得反倒不让人理解了。所以,我们需要用自己的假设观点,去用大量的数据实验进行论证,从而得到结果排序背后的核心思想。

搜索引擎简单的理解是通过一款人工开发出来的程序进行用户关键词请求的相关结果排序。比如自己网站站内的搜索框其实也是一个搜索引擎,而不同的搜索引擎排序方式(算法)大同小异,但是不管是哪种搜索引擎,总而言之,都有自己的独特结果排序计算公式来进行网页结果排名。下面我们来了解百度内部的一款超链分析系统截图,如下图所示:


技术分享



技术分享


上面两张截图是百度内部超链分析系统平台的一个站点链接截图。从上述图中我们可以了解到两个核心数据指标,一个是链接的维度,另一个则是链接的推荐度。

从上面的截图我们可以根据前面所提到的假设进行维度拆解,对于链接作弊,搜索引擎打击的比较严厉的是黑链(隐藏链接)与链接购买,不管是哪种,搜索引擎都有一套自己的独特识别机制,尽管这个机制我们暂时不知道,但是我们可以通过假设的观点进行方式论证。

实验步骤与实验方法如下:

实验要求:A、多个代优化的随机站点;B、链接位置保持一致性

实验假设:假设针对10个随机站点保持链接位置状态一致的情况进行发布100个单向友情链接,速度为3天发布完毕,假设结果触发链接作弊。

下图为10个站点发布前后综合数据对比:


技术分享



技术分享


链接位置如下图所示:


技术分享


根据上图所示(避免广告出现,所以不发布相关站点),可以看到一组明显的数据为,域名时间、收录量、链接增长速度、链接生效周期、站点基础链接数据等维度决定了链接是否触发作弊。同样的锚文本链接位置,不同的10个随机站点,结果大不相同,而是否触发链接作弊根据上面的综合数据评分可以得出:

1、链接排序位置影响排名、站点基础数据影响触发作弊较大;

2、老域名对于链接作弊触发较低,新站对于链接同位置链接触发作弊程度较高;

3、链接增长速度影响链接作弊较大;

4、同IP站群链接影响作弊程度较大;

5、原链接总数百分比影响链接作弊程度较大。

那么很多朋友肯定会有几个疑问,通过实验对比和数据分析,以及结合百度超链分析系统的两张截图可总结如下:

1、大家常说链接讲究循环渐进的发布,为何3天发布100个单向友情链接为何没有触发链接作弊?

严格来说,循环渐进的效果肯定是最好的。由于我们是测试链接作弊,所以在增长速度这块打破常规实验,通过数据分析,我们可以得到两个答案。第一、站点原本为老域名站点(存在时间长,无历史作弊记录),搜索引擎考核这类站点有特殊作弊机制调整。第二、由于发布的单向友情链接站点(100个实验站)被蜘蛛抓取的时间不是完全一致,链接生效需要通过蜘蛛页面抓取>链接考核(推荐度)>链接生效,不同的站抓取不同所以生效时间也不相同,导致即使我们是3天发布了大量的单向友情链接也不容易触发链接作弊。

2、为何发了那么多外链还是没有排名?

这个问题我相信绝大多数SEO人员都会有此疑问,通过百度超链分析数据可发现链接没有所谓的权重高低之分,只有有效和无效之别(别再去追求所谓第三方没有实际意义的权重)。内容穿插链接推荐度>友情链接>作弊友情链接(含0分和减分),但是由于内容穿插锚文本被蜘蛛抓取的周期比首页友情链接要慢,导致大量的内容穿插链接提升排名的周期较长,这也是为何多数朋友喜欢看外链是否收录的原因,因为收录的原因至少保证了该页面的链接被蜘蛛抓取进行链接维度判断(是否具备推荐度)。还有一种情况就是竞争对手的综合数据太大,即使你发了很多外链,也不见得你的排名就一定会很好。

3、如何避免链接作弊并提升链接效果排名?

从上面整体的4张图可以得出一个结论,链接的位置需要多元化,如友情链接、博客评论、导航链接、版权链接等等。多元化的链接位置会影响搜索引擎链接计算,这也是为何大家一直强调的链接广泛性的意义所在。而链接锚文本的百分比非常容易触发链接的作弊,假设一个网站原本有100万的外链,如你发了1万条作弊链接,作弊链接占比1%,并不会影响到你站点的排名。如果你的站点外链本身只有1000条,发了1万条作弊外链,链接短时间增长数据为10倍,就算是普通用户都知道这是在进行链接作弊了。但是有一种情况即使链接短时间发布很多也并不会触发链接作弊,那就是文章转载。就像我投稿卢松松博客,带上了我的网站来源出处,大量的站点对卢松松的文章进行转载,并且有一部分站点也会对我的网站进行转载,也就是短时间内外链增长量巨大。但是这无疑是用户的真实推荐性链接,所以并不会对自身站点有排名影响,而这种操作方式无疑是避免链接作弊并且提升链接效果的最佳方式。如下图所示:


技术分享



技术分享



技术分享


总而言之,在搜索引擎优化这个行业,当你用大量的数据来验证一切的时候,所谓的SEO道其实就在你眼前,做SEO永远只送给同行们一句话,思路决定出路!

本文独家原创首发卢松松博客,转载请保留作者联系方式与原文出处!

本文作者:SEO实战培训 QQ/微信:1013240126

来源:卢松松博客,欢迎分享,(QQ/微信:13340454)


本文出自 “卢松松在51CTO” 博客,请务必保留此出处http://lusongsong.blog.51cto.com/2490924/1916543

以上是关于独家 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!的主要内容,如果未能解决你的问题,请参考以下文章

寒武纪加速推理与训练智能卡分析

来开发者大会遇见芯片设计大咖 ——揭秘嘉宾超级阵容

一年两款新品 寒武纪的研发效率为何如此高?

独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进

AI简报20210716期上海张江又一款AI芯发布寒武纪切入自动驾驶芯片

SEO独家揭秘:搜索引擎如何识别链接作弊!