关于ChatGPT的一切；CUDA入门之矩阵乘；PyTorch 2.0发布｜AI系统前沿动态

Posted 2022-12-16 OneFlow深度学习框架

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了关于ChatGPT的一切；CUDA入门之矩阵乘；PyTorch 2.0发布｜AI系统前沿动态相关的知识，希望对你有一定的参考价值。

1.截止目前，关于ChatGPT的一切

ChatGPT是GPT3的一大飞跃，就像GPT3本身是GPT2的质的飞跃一样。目前，关于ChatGPT的解读内容数量和种类繁多，让人跟上非常困难，容易患错失恐惧症。因此，作者整理了一个笔记，并尝试给出一个连贯、简洁的ChatGPT阅读摘要，帮助读者更为清晰和简洁地了解ChatGPT。

链接：
https://lspace.swyx.io/p/everything-we-know-about-chatgpt?continueFlag=63aa7c6ee1fe81cb3908db6695296d03

2. ChatGPT会成为下一代搜索引擎吗？

作为智能对话系统，ChatGPT最近爆火，都火出技术圈了，网上到处都在转ChatGPT相关的内容和测试例子，效果确实很震撼。

那么，ChatGPT到底是采用了怎样的技术，才能做到如此超凡脱俗的效果？既然ChatGPT功能如此强大，那么它可以取代Google、百度等现有搜索引擎吗？如果能，那是为什么，如果不能，又是为什么？

链接：
https://zhuanlan.zhihu.com/p/589533490

3. PyTorch 2.0来了！100%向后兼容，一行代码将训练提速76%

新版本的重要进步体现在速度和可用性，而且完全向后兼容。PyTorch 团队表示，PyTorch 2.0 是他们向 2.x 系列迈出的第一步，其稳定版预计在 2023 年 3 月初发布。

首先，PyTorch 2.0 引入了 torch.compile，这是一种编译模式，可以在不更改模型代码的情况下加速模型。在 163 个涵盖视觉、NLP 和其他领域的开源模型中，该团队发现使用 2.0 可以将训练速度提高 38-76%。其次，PyTorch 2.0 是 100% 向后兼容的：代码库一样，API 一样，写模型的方式也一样。团队之所以称它为 2.0，是因为它有一些标志性的新特性。在官方博客中，PyTorch团队还公布了他们对于整个2.0系列的展望。

链接：
https://mp.weixin.qq.com/s/NzmUphWdQDemu-sWwh4vTg

4. 热门讨论：如何看待PyTorch 2.0？

链接：
https://www.zhihu.com/question/570220953/answer/2786337522

5. 打造 TensorFlow 的未来

Google正着手开发下一个 TensorFlow 迭代，以实现机器学习的下一个十年发展目标。他们正在构建出色的 TensorFlow 功能，同时专注于四大支柱。

链接：
https://mp.weixin.qq.com/s/8SlhtLY9mQWUOvnEa3Bn2A

6. 北大河图发布分布式训练神器Galvatron，一键实现大模型高效自动并行

实际上，大模型的分布式部署是一个非常复杂的问题，目前的绝大多数的分布式训练系统，都依赖用户人工反复尝试以及系统专家经验来进行部署，造成严重的资源利用效率低下的问题，与真正的 “自动并行” 存在相当大的差距。基于此，北大河图团队提出了一款分布式训练神器 Galvatron，以实现大模型的高效自动并行，研究论文入选国际顶会 VLDB 2023。

链接：
https://mp.weixin.qq.com/s/levwBKhbp3dJAIslvqyZAQ

7. 如何高效实现矩阵乘？万文长字带你从CUDA初学者的角度入门

矩阵乘作为目前神经网络计算中占比最大的一个部分，其快慢会显著影响神经网络的训练与推断所消耗的时间。虽然现在市面上已经有非常多的矩阵乘的高效实现——如基于CPU的mkl、基于arm设备的 ncnn 与emll、基于CUDA的 cublas ——掌握了矩阵乘优化的思路不仅能帮助你更好地理解编写高性能代码的一些基本原则，而且许多神经网络加速领域进阶的技巧如算子融合都是与矩阵乘交互从而达到更高的性能。

由于矩阵乘的性能优化与两个矩阵的形状有着非常密切的联系，因此，为了降低本文的撰写难度（以及辅助读者更好的理解矩阵乘优化），本文将从一个CUDA 初学者的角度来阐述如何优化一个形状较大的正方形乘正方形的 FP32 矩阵乘。

链接：
https://mp.weixin.qq.com/s/rWWx0Uf4oin0kmtEjVXBqw

8. OneFlow-ONNX v0.6.0正式发布

OneFlow-ONNX v0.6.0正式发布。新版本提升了转换接口的易用性，开发了多个新特性，并新增支持6种模型以及20多种算子，此外，还修复了6个转换过程中的bug。更新详情请查看链接：https://github.com/Oneflow-Inc/oneflow_convert/releases/tag/v0.6.0

链接：
https://mp.weixin.qq.com/s/Ntv4x6cptrpYtJpybT2heA

9. 比快更快，开源Stable Diffusion刷新作图速度

前不久，OneFlow 首度将 Stable Diffusion 模型加速至“一秒出图”时代，随后AI社区开启一场AI作图的竞速“内卷”。近日，OneFlow又刷新了SOTA记录。

值得一提的是，在优化和加速 Stable Diffusion 模型的过程中使用了 OneFlow 自研编译器，不仅让 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快，而且也可以让这样的模型在国产 AI 芯片和 GPU 上跑得更快。

链接：
https://mp.weixin.qq.com/s/zwZHX_8JibGIoL9OMkKsuw

10. 一文弄懂 Diffusion Model

最近 AI 绘图非常的火，其背后用到的核心技术之一就是 Diffusion Model（扩散模型），虽然想要完全弄懂 Diffusion Model 和其中复杂的公式推导需要掌握比较多的前置数学知识，但这并不妨碍我们去理解其原理。本文重点去讲解什么是 Diffusion Model。

链接：

https://mp.weixin.qq.com/s/G50p0SDQLSghTnMAOK6BMA

11. 清微智能CTO欧阳鹏：架构创新是通往高性能计算芯片必由之路

宏观层面，我们看到了国外的限制打压，国内政策的扶持，整个芯片产业的沸腾。芯片对于高新技术、前沿科技发展的重要性不言而喻。而在微观层面，中国芯片产业一直在不断进行技术尝试。面临数据爆炸的大算力时代，传统芯片架构的计算瓶颈有待突破，而在前沿架构的探索上，中外公司不约而同地选择了数据流驱动的可重构架构。

那么，可重构计算架构为何能够成为应对大算力时代的最佳技术路线？又是如何兼顾高能效比、软硬件灵活可重构与可扩展性的？目前该架构的落地难点在哪里、落地情况如何呢？

链接：

https://zhuanlan.zhihu.com/p/585314244

12. 大模型狂潮背后：AI基础设施的“老化”与改造工程

鲜少有人提及，庞大的模型给现有的AI基础设施和开发流程带来了诸多实际性挑战。大模型的权重可达100+GB，而目前的开发工具却还没跟上，使用起来十分费力，部署时往往要等上好几分钟甚至好几小时，这已经成为AI工程师的隐痛，不但浪费工程师的时间，降低工作效率，还会拖慢迭代速度。

致力于AI基础设施工具研发的Modular团队认为，开发人员的工作效率是训练和部署模型的最大成本之一。因此需要不断优化工具链，提升早期用户的体验，也方便开发人员。

链接：

https://mp.weixin.qq.com/s/j0m1ag0nYkCtj2rtl-Fpug

13. 今晚20:00直播｜ONNX新特性大解读和最佳实践分享

12月8日20:00（就在今晚）OneFlow框架开发工程师、ONNX核心成员@大缺弦将介绍ONNX和周边工具的新特性，ONNX 模型转换和部署的最佳实践，同时他也会介绍深度学习框架OneFlow与OpenMMLab的适配工作。

链接：

https://mp.weixin.qq.com/s/9ysdOdHq769i7pxS8r1kxA

其他人都在看

欢迎Star、试用OneFlow最新版本：

https://github.com/Oneflow-Inc/oneflow/https://github.com/Oneflow-Inc/oneflow/

以上是关于关于ChatGPT的一切；CUDA入门之矩阵乘；PyTorch 2.0发布｜AI系统前沿动态的主要内容，如果未能解决你的问题，请参考以下文章