AI系统内容推荐第26期更新一下我对深度学习编译器和框架的认识;OpenPPL 中的卷积优化技巧;机器学习访存密集计算编译优化框架AStitch

Posted OneFlow深度学习框架

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AI系统内容推荐第26期更新一下我对深度学习编译器和框架的认识;OpenPPL 中的卷积优化技巧;机器学习访存密集计算编译优化框架AStitch相关的知识,希望对你有一定的参考价值。

1、更新一下我对深度学习编译器和框架的认识

深度学习基础软件里最hard core的问题有两个,一个是微观层次的auto codegen,即用领域特定语言 DSL 描述一个算法的逻辑,自动生成在各种后端上最高效的代码;另一个是宏观层次的自动分布式并行,也就是用户面向单卡写一个神经网络模型,框架自动生成在特定拓扑结构连接的多机多卡上运行的分布式代码。OneFlow团队和世界上其它同行最近做的一些工作,给我越来越强的信号,这些问题,无论是微观层次,还是宏观层次,都快要被解决了。

链接:袁进辉:更新一下我对深度学习编译器和框架的认识

2、机器学习访存密集计算编译优化框架AStitch,大幅提升任务执行效率

AStitch通过编译优化的手段来自动化地提高机器学习任务的执行效率, 提出了一种大粒度计算融合的编译优化手段,通过计算图的依赖关系特性、GPU多层次存储架构上的数据局部性、以及不同数据尺寸之下的线程并发性等三个方面的联合考虑,自动化地为大粒度的复杂访存密集算子子图生成高效的GPU代码,从而大幅减少GPU kernel调用及框架层算子调度的额外开销,避免了不必要的重复计算。大幅减少片外访存的同时,可适配各种数据尺寸以得到最佳并行效率。对比XLA[1],AStitch最高可以取得2.73倍的性能加速。

链接:阿里灵杰:【ASPLOS 2022】机器学习访存密集计算编译优化框架AStitch,大幅提升任务执行效率

3、一文轻松掌握深度学习框架中的einsum

本文主要介绍了如何理解 PyTorch 中的爱因斯坦求和 (einsum) ,并结合实际例子讲解和 PyTorch C++实现代码解读,希望读者看完本文后掌握 einsum 的基本用法。

链接:一文轻松掌握深度学习框架中的einsum

4、一文理解深度学习框架中的InstanceNorm

本文主要推导 InstanceNorm 关于输入和参数的梯度公式,同时还会结合 PyTorch 和 MXNet 里的 InstanceNorm 代码来分析。

链接:一文理解深度学习框架中的InstanceNorm

5、CUDA GEMM 理论性能分析与 kernel 优化

GEMM(General Matrix Multiplication,通用矩阵乘法)是并行计算中经典的计算密集型应用,也是入门计算密集型 CUDA 程序优化非常好的例子,本文从 CUDA GEMM 实现方案的理论性能分析和 kernel 代码优化技巧两个方面分享如何将 GEMM 性能优化到接近设备理论算力。

链接:李少侠:[施工中] CUDA GEMM 理论性能分析与 kernel 优化

6、OpenPPL 中的卷积优化技巧

本文将介绍 OpenPPL 目前开源的卷积算子实现方法,从算法层面介绍 OpenPPL 在 Tensor Core 上的设计方法和优化经验。不涉及 mma 指令、ldmatrix 指令等的使用技巧,比如 conflict-free 的数据搬运、shared memory 的数据排布等,相关知识可以参考 ptx 手册及英伟达官方的教程。

链接:OpenPPL:OpenPPL 中的卷积优化技巧

7、GPU在外卖场景精排模型预估中的应用实践

GPU等专用芯片以较低的成本提供海量算力,已经成为机器学习领域的核心利器,在人工智能时代发挥着越来越重要的作用。如何利用GPU这一利器赋能业务场景,是很多技术研发者都要面临的问题。本文分享了美团外卖搜索/推荐业务中模型预估的GPU架构设计及落地的过程,希望能对从事相关应用研发的同学有所帮助或启发。

链接:GPU在外卖场景精排模型预估中的应用实践

8、机器内存不够怎么办?梯度累积算法快速帮你解决

在深度学习训练的时候,数据的batch size大小受到GPU内存限制,batch size大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下,模型越来越大,那么这就意味着数据的batch size智能缩小,这个时候,梯度累积(Gradient Accumulation)可以作为一种简单的解决方案来解决这个问题。

链接:机器内存不够怎么办?简易好用的梯度累积算法快速帮你解决!

9、强化学习算法成功控制核聚变;元宇宙里的AI玩出新花样

近期业内发布了这些有趣且重要的AI应用:Nature重磅,DeepMind利用强化学习算法成功控制核聚变装置;突破原有技术应用形态,Meta元宇宙这样玩AI;告别渣画质动漫视频,B站开源动漫超分辨率模型;2D图片生成3D新模型,NeROIC让你的手办更精致

链接:强化学习算法成功控制核聚变;元宇宙里的AI玩出新花样

其他人都在看

欢迎下载体验OneFlow新一代开源深度学习框架:

https://github.com/Oneflow-Inc/oneflowhttps://github.com/Oneflow-Inc/oneflow

以上是关于AI系统内容推荐第26期更新一下我对深度学习编译器和框架的认识;OpenPPL 中的卷积优化技巧;机器学习访存密集计算编译优化框架AStitch的主要内容,如果未能解决你的问题,请参考以下文章

9篇分布式机器学习系统经典论文;深度学习硬件的黄金十年|AI系统前沿动态...

YouTube深度学习推荐系统的十大工程问题

异周话题 第 18 期TensorFlow与PyTorch,深度学习框架你选哪一个?

推荐系统中的前沿技术研究与落地:深度学习AutoML与强化学习 | AI ProCon 2019

盘点! 深度学习推荐系统中各类流行的Embedding方法 (下)

第 9 期 · 分享回顾 | 袁雪:多任务深度学习框架在 ADAS 中的应用