探索编译软件栈新范式;高端GPU禁售的影响;陈天奇DL系统免费课程|AI系统前沿动态...

Posted OneFlow深度学习框架

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了探索编译软件栈新范式;高端GPU禁售的影响;陈天奇DL系统免费课程|AI系统前沿动态...相关的知识,希望对你有一定的参考价值。

1. 高端GPU禁售传闻声起,BAT们遭遇紧张时刻

互联网企业成为此次制裁波及的主要对象。行业人士指出,互联网厂商出于对性能等因素考虑,对国产CPU、GPU普遍接纳度不高,此次事件应为互联网厂商预警,加速CPU、GPU等核心芯片的国产替代应受到重视,希望有助于互联网厂商加速推进服务器核心芯片国产替代的导入和验证,提升自主可控能力。

链接:

https://www.laoyaoba.com/html/share/news?source=app_android_v90&news_id=831093&fromShare=android&utm_source=utm_source_sharewxm

2. 陈天奇CMU新课程线上免费听,剖析DL框架底层原理

9月13日开课,线上免费注册参与,主要面向高年级本科到博士在读阶段的学生。需要参与者有基本的数学背景,对机器学习有一定的了解,掌握系统编程(Python和C/C++ )和线性代数。

链接:https://zhuanlan.zhihu.com/p/558676179

3. 旷视天元MegEngine开源CUDA INT4量化源码实现

为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了INT4的源码实现,这也让MegEngine成为首个开源CUDA INT4源码实现的深度学习框架。MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种INT4的数据类型,同时通过算子融合优化、kernel优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以ResNet-50为例,INT4相比INT8有1.3倍的加速。

链接:https://mp.weixin.qq.com/s/zJPagx0FFN5lGltWgSJDXg

4. OneFlow源码解析:Tensor类型体系与Local Tensor

tensor和op是神经网络模型最基本的组件:op是模型的节点,tensor是连接节点的边。然而,构建一个tensor并不仅仅是构造一个对象那么简单,至少要考虑以下问题:要支持节点本地的local tensor,以及分布式的global tensor;要支持eager和lazy执行模式;要支持不同的数据类型,包括float、double、int等;要支持不同设备。

链接:https://mp.weixin.qq.com/s/eB5TP9f8LQOzW7sDgUhGJQ

5. 深入了解MindSpore训练推理框架设计

作者将围绕MindSpore的Model类的相关代码,对MindSpore的训练流程设计和推理流程设计进行深入的解读,并且结合相应的代码,以分割任务为例,介绍如何使用Model.train和Model.eval构建复杂任务的训练测试流程设计。

链接:https://zhuanlan.zhihu.com/p/559357242

6. 从Core Dump中提取CUDA的报错信息

近期,Meta AI团队在生产PyTorch AI模型时遇到了一个难题。这一问题由CUDA非法内存访问引起,号称集结了Meta全公司最牛的AI工程师才搞定,这篇博客记录了他们使用CUDA的core dump来确定报错位置所使用的技巧和实践。

链接:https://mp.weixin.qq.com/s/OkHCFVCPLNJCG-f_eARn5w

7. 简单谈谈CUDA的访存合并

学习CUDA的人肯定会经常听到“访存合并”这个词,作者主要从基础概念、向量化的错误做法导致的未合并访存进行介绍。

链接:https://zhuanlan.zhihu.com/p/559957579

8. MLIR-Playground: 探索下一代编译软件栈工程的新范式

MLIR中国社区的一些开发者利用个人业余时间,开发了MLIR-Playground,一个可以直接在浏览器里利用MLIR开发编译逻辑的云端应用。此举主要是受到了设计软件Figma是如何利用Web技术重新定义了UI设计协作,以及OpenAI是如何利用简单的网页Playground大幅降低了超大AI模型尝试门槛的启发。

链接:https://zhuanlan.zhihu.com/p/560810344

9. TVM入门学习指南

作者结合TVM Unify相关的抽象以及之前的一些积累重新梳理一下TVM的整体流程。他从前端,中端(图优化Pass机制),代码生成(Schedule),Runtime,开发工具几个角度进行了介绍。本文将尽量避免涉及到底层C++代码的细枝末节,而是从较为宏观的视角来讲清楚目前TVM的架构,希望对入门TVM的读者有帮助。

链接:https://zhuanlan.zhihu.com/p/560210215

10. 通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统”

微软亚洲研究院联合微软图灵团队推出了最新升级的BEiT-3预训练模型,在广泛的视觉及视觉-语言任务上,包括目标检测(COCO)、实例分割(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图片描述生成(COCO)和跨模态检索(Flickr30K,COCO)等,实现了SOTA的迁移性能。BEiT-3创新的设计和出色的表现为多模态研究打开了新思路,也预示着 AI 大一统渐露曙光。

链接:https://mp.weixin.qq.com/s/PIzTxwsojUSEf_8PtB2jig

11. 扩散模型背后数学太难了?谷歌用统一视角讲明白了

很多研究者认为,基于扩散模型的文本图像生成模型不但参数量小,生成的图像质量却更高,大有要取代GAN的势头。不过,扩散模型背后的数学公式让许多研究者望而却步,众多研究者认为,其比VAE、GAN要难理解得多。

近日,来自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》,本文以极其详细的方式展示了扩散模型背后的数学原理,目的是让其他研究者可以跟随并了解扩散模型是什么以及它们是如何工作的。

链接:https://mp.weixin.qq.com/s/v14V_sMPhMVrtw2EKMISQQ

12. 深势科技联手阿里云,AI蛋白质预测再下一城

深势科技与阿里云机器学习PAI团队联手,通过全新的蛋白质结构预测推理加速方案FoldAcc,结合深势Uni-Fold最新模型代码和参数,将单次预测能支持的最大氨基酸序列长度提升至6.6k,覆盖99.992%已知的蛋白序列,同时推理速度显著提升,达到目前已知的最佳推理优化效果,将为AI预测蛋白质结构落地应用提供重要助力。

链接:https://mp.weixin.qq.com/s/oSZ2hmWifiN5fIWRST2Dtw

13. 线上活动报名 | AI思享会:中国AI基础软件发展探讨

时间:9月8日(本周四)14:30

TensorFlow和PyTorch等已经被广泛应用,但随着AI技术的进一步发展,在分布式训练、高性能计算和高效编译等方面都有了新的需求,AI基础软件的发展也有了新的要求和方向。

本期AI思享会邀请了几位从事AI基础软件研究和创业的清华校友和老师等,分享各自在AI基础软件方面的成果和进展,及共同探讨和展望新一代AI基础软件发展的情况。

链接:https://mp.weixin.qq.com/s/WUNiNFCPBJg9IigAHtjvQQ

题图源自Dimitris Vetsikas, Pixabay

其他人都在看

点击“阅读原文”,欢迎体验OneFlow v0.8.0

以上是关于探索编译软件栈新范式;高端GPU禁售的影响;陈天奇DL系统免费课程|AI系统前沿动态...的主要内容,如果未能解决你的问题,请参考以下文章

陈天奇TVM:端到端自动深度学习编译器,244页ppt

陈天奇高赞文章:新一代深度学习编译技术变革和展望

陈天奇,开课!!

陈天奇XGBoost文章解读(未完成)

陈天奇:在深度学习框架之间共享张量——内存张量结构DLPack的PythonAPI来了

机器学习科研的十年(陈天奇)