通义千问预体验,如何让 AI 模型应用“奔跑”在函数计算上?

Posted 阿里系统软件技术

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了通义千问预体验,如何让 AI 模型应用“奔跑”在函数计算上?相关的知识,希望对你有一定的参考价值。

今天我们将使用阿里云函数计算 FC 来部署通义千问预体验,给大家展示一下这项技术的魅力。关于通义千问,大家可以进入以下网址了解更多信息。

立即体验基于函数计算部署通义千问预体验:

https://developer.aliyun.com/topic/aigc_fc

AIGC 浪潮已来,从文字生成到图片生成,AIGC 的创造力让人惊叹,更多人开始探索如何使用 AI 提高生产效率,激发更多创作潜能,然而在实际应用中,AI 技术的高门槛仍然让很多人望而却步,普通开发者或者没有太多编程经验的人是否也能简单、快速部署一个 AI 模型应用,享受到科技发展带来的红利呢?

阿里云函数计算团队全新上线“Serverless 一键部署通义千问预体验、文生图、图生图、图生文、文生文 5 个经典 AI 场景,几乎 0 技术门槛部署 AI 模型应用,让创意更快发生。

今天我们将使用阿里云函数计算 FC 来部署通义千问预体验,** 给大家展示一下这项技术的魅力。** 关于通义千问,大家可以进入以下网址了解更多信息。

https://tongyi.aliyun.com/

通义千问预体验界面

部署成功后,每个账号有 30 次与通义千问自由对话的额度。

函数计算的优势

  • 开箱即用,通过应用中心一键部署快速体验,无需进行复杂的环境配置
  • 按需付费,通过 Serverless 弹性策略在您启动服务的才开始计费
  • 支持 GPU 渲染,出图快,花费低

准备项

  1. 开通阿里云**函数计算 [ 1]**

  2. 开通阿里云内容审核增强版 [ 2]

根据相关部门的规定,企业和开发者使用生成式人工智能服务需配备相应的内容风险管理机制,默认集成了阿里云内容安全检测服务。

快速开始

选择通义千问预体验应用

  • 在函数计算页面单击左侧“应用”
  • 搜索“通义千问预体验”单击“立即创建

直接部署应用

  • 创建应用页面,选择直接部署
  • 首次使用需要根据提示进行角色名称授权
  • 应用可选择北京、杭州、上海、深圳 任一地域
  • 点击“创建并部署默认环境

  • 函数计算初次启动要花费 3-4 分钟,需要完成镜像拉取,冷启动等操作。

最后画面如下:

您可以选择我们预置的问题,或者输入您自己的问题,与通义千问进行对话。每个阿里云账号将有 30 次对话额度。

总结及扩展

函数计算部署通义千问预体验,一键部署即可实现。实际使用中,AI 模型可以辅助我们进行更多文字和图像的创新,函数计算+Serverless 应用中心最新上线五个经典场景:

  • 通义千问预体验——基于通义千问大模型
  • 文生图 ——基于 Stable Diffusion 模型(可换模型)
  • 图生图——基于 3D 卡通风格模型
  • 图生文——基于 mPLUG 图像描述模型
  • 文生文——基于 ChatYuan 元语功能型对话大模型

在接下来实践篇会分别跟大家探讨交流~

有奖体验

阿里云将提供 Serverless 函数计算产品试用资源,邀请您体验:Serverless 一键部署通义千问预体验、文生图、图生图、图生文、文生文 5 大经典 AI 场景,让您获得通义千问 30 次对话预体验机会,同时简单、高效实现一键部署图像生成、文字生成服务,速成 AIGC 创作家。双重奖品设置,完成任意一个体验场景可得社区 400 积分兑换奖品,还可参加 AI 生成图像比赛 取 Airpods、阿里云定制蓝牙音箱及阿里云定制清雅杯!

阿里“通义”大模型炸场WAIC,背后要从一篇论文讲起

杨净 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

“技术路线全公开,核心模型开源开放,应用场景200多个……”

在大模型这块,阿里直接在WAIC上憋了个大的——

通义大模型系列。

技术上,不光在NLP等单模态场景实现SOTA,许多多模态任务也实现了引领。

比如VQA challenge第一,准确率首超人类表现:

更硬核的是国内首个“统一底座”,业界首次实现模态表示、任务表示、模型结构统一。

不引入新增结构,单一模型就可以同时处理超过10项跨模态任务,升级后可以处理超过30种。

落地应用上,更是已经深入到电商、设计、医疗、法律、金融等行业,服务超过200个场景。

直接看文生图创作,中国风、科幻风、电影感、游戏场景、反现实风……全都不在话下。

资源消耗相对也不高,以通义系列中的M6大模型为例,相同参数规模下训练能耗仅是GPT-3的1%。

在落地层面,这次阿里也推出了新的技术框架,减少了大模型使用时的算力消耗,运行可提速10倍。

概括起来就是,既通用多种任务,又容易落地应用

要知道,大模型落地几乎是行业公认的难题,“通用”很多时候意味着“大而全”,效率经常就跟不上。

而这次,阿里提出了统一底座+模型体系的技术路线,一言蔽之,就是“大一统”+“层次化”。不管是通用性还是易用性,都要做到极致。

这背后究竟有着什么样的底气?

“大一统”技术,什么来头?

答案早就藏在达摩院发布的一系列大模型论文里。

其中有一篇关键论文,就是通义大模型背后的核心技术支撑——统一学习范式OFA。

以这篇论文为技术底座,通义大模型真正具备了能搞定多种任务的“大一统”能力,变得既通用又易用:

不引入新增结构,单一模型即可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务,效果都很不错;升级后更是可以处理超过包括语音和动作在内的30多种跨模态任务

这里“大一统”技术的关键,在于提出并实现了三个“统一”:

  • 架构统一。使用Transformer(encoder-decoder,编解码器)架构,统一进行预训练和微调,无需在应对不同任务时,增加任何特定的模型层。

  • 模态统一。不管是NLP、CV这种单模态,还是图文等多模态任务,全都采用同一个框架和训练思路。

  • 任务统一。将所有单模态、多模态任务统一表达成序列到序列(Seq2seq)生成的形式,同类任务的输入几乎就是“一个模子里刻出来的”。

基于这一思路,模型基于2000万个图像-文本对进行预训练,就达成了多个跨模态任务(图像生成、视觉定位、图像说明、图像分类等)的SOTA,同时单模态任务的水平也与行业领先不相上下。

乍一看,这种“大一统”的思路,似乎与刚刚新鲜出炉的微软“六边形战士”BEiT-3理念上不谋而合,但其实两者之间存在本质不同,加上OFA最早在今年2月就已露出苗头,也不存在数据上的可比性。

微软BEiT-3在网络架构、预训练方法、规模效应(19亿数量级参数)上实现了“大一统”,它采用的方式是和下游任务解耦,可灵活按需定制开发,性能表现突出。

而OFA考虑的是另一种思路——Task Scaling First,任务规模优先。让单一模型能做尽可能多的跨模态任务,这样预训练后不新增结构,就能直接在下游任务中使用。

模型一共使用了8个任务(含子任务共15个)进行预训练,并固定每一类任务的提问方式(输入)和获取目标(输出)

就连输入和输出的格式都给你规定好了,不论文字、图片还是边界框,只能用一种方式作答:

这样一来,大模型看到特定格式的问题就知道要怎么答,就像你看到作文框“口口”就知道往里面填字,看到数学题就想写“解”。

最关键的是,这种大模型理论上具备可扩展的能力,就像人一样可以学到越来越多的任务模型,掌握越来越多的做题方法。

至于这些任务是什么模态?并不会对模型产生影响,看到输入知道怎么输出就行了。

当然,在扩大任务规模时,也可能会遇到直接增加任务数量,导致模型输出效果降低等情况。

因此,如何更好地设计任务分组、找到合适的指令模板,也是在未来继续扩张任务规模时需要考虑的问题,而这也是研究小组下一步的计划。

但话又说回来,这样的“大一统”技术,实际落地表现究竟如何?

在“大模型落地难”这一行业公认现状的当下,它是否真的打开了大模型商业化应用的突破口?

落地场景200+,核心工具均开源

大模型落地难的原因,通常有两个。

其一,使用成本太高。以往对于预训练大模型来说,即使微调,依赖的底层资源也不低,如果对效果有进一步要求,则需要继续提升训练数据规模,成本还会进一步提升。

其二,落地效果有限。对于部分应用场景而言,大模型并不是一个性价比高的选择,实际使用时为了部署到特定设备上,往往需要模型压缩,导致性能下降明显。

但据介绍,阿里推出的通义大模型,在电商跨模态搜索、AI辅助设计、法律文书学习、医疗文本理解、开放域人机对话等200多个场景中应用落地时,均达到了2%~10%的效果提升。

这是怎么做到的?阿里采用了两种方法。

一方面,基于“大一统”思路做出通用大模型,再结合行业知识减少标注成本。

以法律场景为例,此前阿里已经与浙江省高院、浙江大学联合推出了一个能全流程辅助法官审判的AI,目前适用案件达到5000+,帮助法官提升效率达到40%。

这只法律AI实现了“10案连审”的能力,即在30分钟的开庭时间内,辅助法官连续审理10个简单案例,极大地提升了这一流程的效率。

现在,这只AI,已经基于通用大模型+行业knowhow的思路进行迭代。通用大模型基于“大一统”技术,预训练时就已经具备了很强的理解和生成能力,只需再针对特定任务进行简单微调。

以AI学习法律文书时需要完成的“要素化抽取”为例,这里需要AI从大量的电子卷宗中提取有效信息,比如原被告信息、事件描述等,其中涉及的文本理解与抽取能力,就属于通用大模型的能力强项内。

另一方面,研发出多种高质量的大模型“浓缩”技术,可以根据客户的资源情况做快速适配,降低大模型落地的困难。

例如达摩院推出的大模型落地技术S4(Sound、Sparse、Scarce、Scale)框架,就包含了各种微调算法和模型压缩算法,本质上是希望将稀疏化等技术应用到到百亿量级的大模型中。

基于这一技术,阿里的270亿参数语言大模型PLUG在压缩率达99%的情况下,多项任务的精度损失在1%以内。

这意味着百亿参数大模型也可能在几乎不损失精度的情况下进行稀疏化,最终实现单卡运行

值得一提的是,无论是这次发布的多模态统一底座模型M6-OFA,还是超大模型落地关键技术S4框架,又或是之前发布的通义语言大模型AliceMind-PLUG、多模态理解与生成统一模型AliceMind-mPLUG等核心能力,均已全部开源

但即便具备将通用大模型落地的技术实力,仍然绕不过一个最根本的问题:

为何阿里要选择“大一统”这条技术路线?

激发大模型“通用”的潜力

一方面,通用大模型一直是行业研究趋势之一。

尤其是多模态多任务技术,最近更是成为一波研究潮流,不仅谷歌和DeepMind接连提出Pathway和Flamingo等多任务多模态通用大模型,艾伦人工智能研究所一直在做相关技术,就连微软前段时间“卷土重来”的BEiT-3也在延续这一思路。

无论是加强模型的“任务意识”,还是做多模态大模型,本质都是希望能挖掘出大模型更“通用”的潜力

另一方面,多模态大模型本身也是趋势之一,它更有可能模仿人类构建认知的过程

业界目前有一类非常流行的观点,认为纯LM(语言模型)相关的预训练模型,距离所谓的人类智能,就不是一个完全正确的道路。

正如人类无法仅从语言中学到整个世界的构造一样,AI也必须有能力从图片、文字乃至视频音频等多模态混合的数据中学到模态之间的关联,才可能进一步加强对世界的认知。

这正是模型从感知智能到认知智能的关键一步。

回望大模型发展历程,从BERT至今已经过了很长一段路,但达摩院资深算法专家黄松芳认为,AI距离AGI依旧还有很长的路要走:

大家都希望AI系统越来越接近通用或是人类智能,但说实话从技术现状来看,还是有很长一段距离。

这次提出的通义大模型,也是希望能够把底座做得更实,尽可能减少AI模型在实际场景落地的定制化成本,这才能真正体现大模型的效果,说实话这也是整个AI落地应用最具挑战性的一点。

至于这种“大一统”技术中的“任务规模”路线,是否就真的能集成大模型已有的经验,将它做到离AGI真正更进一步?

或许还得交由时间来验证,但阿里在这条路上迈出了尝试的重要一步。

通义核心开源项目:
[1]https://github.com/alibaba/AliceMind/
[2]https://github.com/OFA-Sys/OFA

—  —

点这里👇关注我,记得标星哦~

以上是关于通义千问预体验,如何让 AI 模型应用“奔跑”在函数计算上?的主要内容,如果未能解决你的问题,请参考以下文章

阿里版ChatGPT:通义千问突然上线

阿里通义千问百度文心一言ChatGPT与GPT-4大比拼

专属大模型来了!还有ECS降价40%50款产品免费试用|阿里云峰会亮点一览

阿里达摩院发布并开源“通义”大模型,AI底座之上促场景创新

ChatGPT竞品Claude快速体验,中文不错但是...

使用ChatGPT的方法和替代方案