AI系统内容推荐第26期更新一下我对深度学习编译器和框架的认识;OpenPPL 中的卷积优化技巧;机器学习访存密集计算编译优化框架AStitch
Posted OneFlow深度学习框架
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AI系统内容推荐第26期更新一下我对深度学习编译器和框架的认识;OpenPPL 中的卷积优化技巧;机器学习访存密集计算编译优化框架AStitch相关的知识,希望对你有一定的参考价值。
1、更新一下我对深度学习编译器和框架的认识
深度学习基础软件里最hard core的问题有两个,一个是微观层次的auto codegen,即用领域特定语言 DSL 描述一个算法的逻辑,自动生成在各种后端上最高效的代码;另一个是宏观层次的自动分布式并行,也就是用户面向单卡写一个神经网络模型,框架自动生成在特定拓扑结构连接的多机多卡上运行的分布式代码。OneFlow团队和世界上其它同行最近做的一些工作,给我越来越强的信号,这些问题,无论是微观层次,还是宏观层次,都快要被解决了。
2、机器学习访存密集计算编译优化框架AStitch,大幅提升任务执行效率
AStitch通过编译优化的手段来自动化地提高机器学习任务的执行效率, 提出了一种大粒度计算融合的编译优化手段,通过计算图的依赖关系特性、GPU多层次存储架构上的数据局部性、以及不同数据尺寸之下的线程并发性等三个方面的联合考虑,自动化地为大粒度的复杂访存密集算子子图生成高效的GPU代码,从而大幅减少GPU kernel调用及框架层算子调度的额外开销,避免了不必要的重复计算。大幅减少片外访存的同时,可适配各种数据尺寸以得到最佳并行效率。对比XLA[1],AStitch最高可以取得2.73倍的性能加速。
链接:阿里灵杰:【ASPLOS 2022】机器学习访存密集计算编译优化框架AStitch,大幅提升任务执行效率
3、一文轻松掌握深度学习框架中的einsum
本文主要介绍了如何理解 PyTorch 中的爱因斯坦求和 (einsum) ,并结合实际例子讲解和 PyTorch C++实现代码解读,希望读者看完本文后掌握 einsum 的基本用法。
4、一文理解深度学习框架中的InstanceNorm
本文主要推导 InstanceNorm 关于输入和参数的梯度公式,同时还会结合 PyTorch 和 MXNet 里的 InstanceNorm 代码来分析。
5、CUDA GEMM 理论性能分析与 kernel 优化
GEMM(General Matrix Multiplication,通用矩阵乘法)是并行计算中经典的计算密集型应用,也是入门计算密集型 CUDA 程序优化非常好的例子,本文从 CUDA GEMM 实现方案的理论性能分析和 kernel 代码优化技巧两个方面分享如何将 GEMM 性能优化到接近设备理论算力。
链接:李少侠:[施工中] CUDA GEMM 理论性能分析与 kernel 优化
6、OpenPPL 中的卷积优化技巧
本文将介绍 OpenPPL 目前开源的卷积算子实现方法,从算法层面介绍 OpenPPL 在 Tensor Core 上的设计方法和优化经验。不涉及 mma 指令、ldmatrix 指令等的使用技巧,比如 conflict-free 的数据搬运、shared memory 的数据排布等,相关知识可以参考 ptx 手册及英伟达官方的教程。
7、GPU在外卖场景精排模型预估中的应用实践
GPU等专用芯片以较低的成本提供海量算力,已经成为机器学习领域的核心利器,在人工智能时代发挥着越来越重要的作用。如何利用GPU这一利器赋能业务场景,是很多技术研发者都要面临的问题。本文分享了美团外卖搜索/推荐业务中模型预估的GPU架构设计及落地的过程,希望能对从事相关应用研发的同学有所帮助或启发。
8、机器内存不够怎么办?梯度累积算法快速帮你解决
在深度学习训练的时候,数据的batch size大小受到GPU内存限制,batch size大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下,模型越来越大,那么这就意味着数据的batch size智能缩小,这个时候,梯度累积(Gradient Accumulation)可以作为一种简单的解决方案来解决这个问题。
链接:机器内存不够怎么办?简易好用的梯度累积算法快速帮你解决!
9、强化学习算法成功控制核聚变;元宇宙里的AI玩出新花样
近期业内发布了这些有趣且重要的AI应用:Nature重磅,DeepMind利用强化学习算法成功控制核聚变装置;突破原有技术应用形态,Meta元宇宙这样玩AI;告别渣画质动漫视频,B站开源动漫超分辨率模型;2D图片生成3D新模型,NeROIC让你的手办更精致
其他人都在看
欢迎下载体验OneFlow新一代开源深度学习框架:
https://github.com/Oneflow-Inc/oneflowhttps://github.com/Oneflow-Inc/oneflow
以上是关于AI系统内容推荐第26期更新一下我对深度学习编译器和框架的认识;OpenPPL 中的卷积优化技巧;机器学习访存密集计算编译优化框架AStitch的主要内容,如果未能解决你的问题,请参考以下文章
9篇分布式机器学习系统经典论文;深度学习硬件的黄金十年|AI系统前沿动态...
异周话题 第 18 期TensorFlow与PyTorch,深度学习框架你选哪一个?
推荐系统中的前沿技术研究与落地:深度学习AutoML与强化学习 | AI ProCon 2019