百度文心大模型API测试

Posted 清风细雨

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了百度文心大模型API测试相关的知识,希望对你有一定的参考价值。

功能介绍

ERNIE 3.0系列API可以广泛应用于任何涉及自然语言理解或自然语言生成的任务中。我们预置了多种任务,您可以通过API的方式直接调用ERNIE 3.0大模型的“零样本”能力,也可以自定义任务体验大模型的强大能力。

应用场景

ERNIE 3.0系列API的应用场景包括几乎所有自然语言处理的任务,我们预置了同义改写、写作文、写文案、写摘要、对对联、写小说、自由问答、文本补全等任务,您也可以根据自己业务需要自定义任务。 您使用API接口调用ERNIE 3.0的能力时,需要按照prompt的形式进行输入,您可以参考以下prompt模板的输入形式,更好地引导大模型完成特定任务。

  • 注意:input_text为需要输入的目标文本,\\n为换行符。
 
技能
模型选择-选项输入示例更多prompt式输入参考
同义改写 选项一:ERNIE 3.0 Zeus 同义改写精调模型 选项一示例:
1.这个问题蔡瑁也一直在考虑,就他所知,襄阳军中某些将领,就在暗中串连煽动,只是他不敢过于紧逼,怕火并起来两败俱伤,那时刘琮未至,城内先乱,还拿什么去对付刘琮?
2.无论在日常生活还是电视节目中,英语的风头 似乎一直盖过汉语。《汉听大会》能持续走红,说明人们对母语的情感是共通的。关键词:《汉听大会》
输入(普通): text
输入(关键词): text 关键词:key_words # 拼接关键词序列的输入, 确保模型生成结果的一致性。 后端需要将 key_words 提取出来, key_words 应该是以中文逗号分割的字符串
写作文 选项一:ERNIE 3.0 Zeus 中学记叙文增强包
选项二:ERNIE 3.0 Zeus 中学议论文增强包
选项三:ERNIE 3.0 Zeus 通用文章增强包
选项一的示例:
1. 从未走远\\n高中记叙文:
2. 人间烟雨,感谢有你\\n高中记叙文:
3. 生命的思考\\n高中记叙文:
选项二的示例:
1. 中国女足夺冠后对中国足球的影响\\n高中议论文:
2. 幸福需要奋斗,新时代需要奋斗\\n高中议论文:
3. 青年理想\\n高中议论文:
选项三的示例:
1. 可塑性记忆
2. 一个有趣的实验
3. 我的“话痨”老妈
作文题目:title\\n高中记叙文:
作文题目:title\\n高中议论文:
作文题目:title\\n其它作文:
写文案 选项一:ERNIE 3.0 百亿 社交短文案精调模型
选项二:ERNIE 3.0 Zeus 商品营销文案增强包
产品标题:清扬去屑洗发水 属性:薄荷清凉 属性:无硅油
产品文案:

选项一示例:
输入:赞美母亲的短句\\n回答:
选项二示例:
输入:脏脏包
输出:这款脏脏包,可以说是网红界的鼻祖了。吃起来满嘴都是巧克力粉,但又不会太甜腻。一口咬下去,酥脆的外皮和柔软的内心完美结合在一起,让人根本停不下来!
选项一:
问题:query\\n回答:
选项二:
输入Prompt:
标题:text\\n文案:
写摘要 选项一:ERNIE 3.0 Zeus 写摘要
选项二:ERNIE 3.0 Zeus 写标题
选项三:ERNIE 3.0 百亿 写标题
选项一示例:
不知从何时起,自拍杆变成了人手一件“必备”附件,最便宜的时候几块钱就能拿下,而我们今天要介绍的可不是什么地摊货。它身价高贵,是新娘子们在大喜之日的自拍利器。纽约时装品牌ReemAcra最近推出了一款价值500美元的自拍杆,上面镶嵌了施华洛世奇水晶和白玫瑰。《纽约邮报》评论它是一款“自恋杆。作为一款低科技产品,500美元的价格委实不便宜,但当它被摆上ReemAcra第五大道旗舰店后,很快就被准新娘们抢购一空。Acra表示,新娘自拍杆和耳机是表达幸福心声、增加欢乐的好工具。正式照片看起来严肃正经,而自。拍照则能让每个人都舒心一笑。

选项二、三示例:
拍卖金额最终定格在262万美元(和讯新闻配图) 最后半小时竞价飙升(和讯新闻配图) 中国经济网6月12日电 北京时间6月12日10点30分消息(美国时间6月11日19点30分),经过9位出价人77次激烈角逐,2010年度巴菲特午餐价最终落槌在262万零6311美元,超过2008年创造的211万美元最高拍卖纪录。 本次拍卖与往年一样,在最初几天标价不多,在拍卖截止前的最后半小时出价迅速飙升,决出了最后的赢家。2008年香港投资人赵丹阳报出的211万100美元,创下了“天价午餐”的最高纪录。 巴菲特拍卖午餐的所得将捐给设在旧金山的非盈利机构:Glide基金会。该基金会专门向穷人和无家可归者提供食品、健康和儿童护理、住所和就业培训等服务。自2000年巴菲特开始第一次拍卖午餐,迄今已经在九年里为该基金筹到590多万美元。
标题生成
文章:"input_text"\\n标题:
摘要生成
一句话写出下面段落的大意。input_text\\n回答:
对对联 选项一:ERNIE 3.0 Zeus 对对联
选项二:ERNIE 3.0 百亿 对对联
选项一、二示例:
上联: 天地和顺家添财
下联:
1.上联:input_text\\n下联:
2.对对联:input_text
3.input_text \\n下一句:
自由问答 选项一:ERNIE 3.0 Zeus 自由问答增强包
选项二:ERNIE 3.0 百亿 自由问答
选项一、二示例:
问题:8月去台湾旅游要带什么?
回答:
1. 问题:input_text\\n回答:
2. input_text\\n请回答上面的问题:
3. 问题"input_text"的答案是:
4. 阅读文章:input_text问题:input_text 回答:
5. input_text\\n阅读上面的文章,回答问题。问题:input_text\\n回答:
写小说 选项一:ERNIE 3.0百亿 写小说精调模型 选项一示例:
昆仑山可以说是天下龙脉的根源,所有的山脉都可以看作是昆仑的分支。这些分出来的枝枝杈杈,都可以看作是一条条独立的龙脉。
直接续写,无模板
文本补全 选项一:ERNIE 3.0 Zeus 词补全增强包
选项二:ERNIE 3.0 Zeus 句补全增强包
选项三:ERNIE 3.0 Zeus 段落补全增强包
选项一示例:
她有一头[MASK]的秀发。
选项二示例:
希望民众齐心协力、团结一致逐渐认清方向深刻领悟两制,让它给古老的中华大地带来昌盛、腾飞。我坚信在中央正确领导下.[MASK]
选项三示例:
相约德兰小讲堂空气炮[MASK]
文本中间需要生成内容的部分插入[MASK]即可,可生成词、句子、段落
问答对抽取   文本:高职地理教学存在着教学方式落后、教学内容与学生实际脱节、教师队伍水平不高等问题,严重影响了教学效果,为了改进高职地理教学存在的弊端,各大高职院校都采取了相关措施对高职地理进行教学改革,其中乡土地理教学以期独特的优势成为高职地理教改的重要途径之一。因此,研究高职地理教改中乡土地理教学的措施和方法对高职地理教学效果的提高具有十分重要的意义......
[MASK]
文本:text\\n[MASK]

API地址及参数说明

内容说明
传输方式 https (为提高安全性,强烈推荐https)
请求地址 每个技能对应一个请求地址,请您按场景选择对应的请求地址
同义改写:
https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.20/zeus
写作文:
https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.21/zeus
写文案:
https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.22/zeus
写摘要:
https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.23/zeus
对对联:
https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.24/zeus
自由问答:
https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.25/zeus
写小说
https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.26/zeus
补全文本:
https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.27/zeus
自定义:
https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.28/zeus
问答对抽取:https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.30/zeus
字符编码 UTF-8
响应格式 统一采用JSON格式
开发语言 任意,只要可以向服务发起HTTP请求的均可
适用范围 任意操作系统,但因不支持跨域不适用于浏览器,请在后端调用接口
请求行 POST
请求QPS限制 2
平均响应时间 生成512需要16.3s,生成256需要8.1s,生成128需要4.1s
返回参数
参数名类型描述
code int 错误码
msg string 错误信息
data object 结果对象
code返回的错误码解释
错误码错误描述
0 正常返回
6101 请求参数格式错误,不是标准的JSON格式
6102 API服务内部错误,缺少模型源
6103 API服务内部错误,请求中指定的model错误
6104 API服务内部错误,模型获取失败
6105 API服务内部错误,模型删除失败
6106 请求参数错误,请检查必传参数是否齐全,参数类型等
6107 prompt模式下的报错,embedding 没有提前部署
6108 prompt模式下的报错,embedding shape错误
6109 总控服务command传参错误
6110 API服务内部错误
6111 请求超时
6112 输入的text文本长度超长
6113 输入的数据格式错误

 

服务说明

  • ERNIE 3.0 API接口调用从同步预测升级为异步预测,支持未返回结果前可同时提交多个任务请求
  • 升级至API接口调用异步预测服务时,需在请求参数中新增参数:async,查看参数描述
  • 重新安装 wenxin-api 工具包即可自动升级为调用异步预测服务
  • API接口调用同步预测服务已于【1月31号晚上20:00】下线,届时线上API接口调用全部为异步预测服务。

参数描述

在调用接口时,您需要配置一下参数。您可以按照默认的参数配置进行调用,也可以参考以下参数描述修改某些参数的配置来满足您的特定需求。

参数
释义
类型
默认值
取值范围
 
是否必传
说明
async
异步标识 int 1
1
异步标识,现阶段必传且传1
text
用户输入文本 string
[1, 1000]
模型的输入文本,为prompt形式的输入。
min_dec_len
最小生成长度 int 1
[1,seq_len]
输出结果的最小长度,避免因模型生成END导致生成长度过短的情况,与seq_len结合使用来设置生成文本的长度范围。
seq_len
最大生成长度 int 128
[1, 1000]
输出结果的最大长度,因模型生成END或者遇到用户指定的stop_token,实际返回结果可能会小于这个长度,与min_dec_len结合使用来控制生成文本的长度范围。
topp
多样性 float 1.0
[0.0,1.0],间隔0.1
影响输出文本的多样性,取值越大,生成文本的多样性越强。
penalty_score
重复惩罚 float 1.0
[1,2]
通过对已生成的token增加惩罚,减少重复生成的现象。值越大表示惩罚越大。设置过大会导致长文本生成效果变差。
stop_token
提前结束符 string  
预测结果解析时使用的结束字符串,碰到对应字符串则直接截断并返回。可以通过设置该值,可以过滤掉few-shot等场景下模型重复的cases。
task_prompt
任务类型 string PARAGRAPH,
SENT, ENTITY,
Summarization, MT,
Text2Annotation,
Misc, Correction,
QA_MRC, Dialogue,
QA_Closed_book,
QA_Multi_Choice,
QuestionGeneration,
Paraphrasing, NLI,
SemanticMatching,
Text2SQL,
TextClassification,
SentimentClassification,
zuowen, adtext,
couplet,novel,
cloze
指定预置的任务模板,效果更好。 PARAGRAPH:引导模型生成一段文章; SENT:引导模型生成一句话; ENTITY:引导模型生成词组; Summarization:摘要; MT:翻译; Text2Annotation:抽取; Correction:纠错; QA_MRC:阅读理解; Dialogue:对话; QA_Closed_book: 闭卷问答; QA_Multi_Choice:多选问答; QuestionGeneration:问题生成; Paraphrasing:复述; NLI:文本蕴含识别; SemanticMatching:匹配; Text2SQL:文本描述转SQL;TextClassification:文本分类; SentimentClassification:情感分析; zuowen:写作文; adtext:写文案; couplet:对对联; novel:写小说; cloze:文本补全; Misc:其它任务。
typeId
模型类型 int 1 1
通用:
1 ERNIE 3.0 Zeus 通用
2 ERNIE 3.0 Zeus instruct模型
同义改写
1 ERNIE 3.0 Zeus 同义改写精调模型
写作文:
1 ERNIE 3.0 Zeus 记叙文增强包
2 ERNIE 3.0 Zeus 议论文增强包
3 ERNIE 3.0 Zeus 小学作文增强包
写文案:
1 ERNIE 3.0 百亿 社交短文案精调模型
2 ERNIE 3.0 Zeus 商品营销文案增强包
写摘要:
1 ERNIE 3.0 Zeus 写摘要
2 ERNIE 3.0 Zeus 写标题
3 ERNIE 3.0 百亿 写标题
对对联:
1 ERNIE 3.0 Zeus 对对联
2 ERNIE 3.0 百亿 对对联
自由问答:
1 ERNIE 3.0 Zeus 自由问答增强包
2 ERNIE 3.0 百亿 自由问答
3 ERNIE 3.0 Zeus instruct模型
写小说
1 ERNIE 3.0百亿 写小说精调模型
补全文本
1 ERNIE 3.0 Zeus 词补全增强包
2 ERNIE 3.0 Zeus 句补全增强包
3 ERNIE 3.0 Zeus 段落补全增强包
penalty_text
惩罚文本 string  
模型会惩罚该字符串中的token。通过设置该值,可以减少某些冗余与异常字符的生成。
choice_text
候选文本 string  
模型只能生成该字符串中的token的组合。通过设置该值,可以对某些抽取式任务进行定向调优。
is_unidirectional
单双向控制开关 int 0
0或1
0表示模型为双向生成,1表示模型为单向生成。建议续写与few-shot等通用场景建议采用单向生成方式,而完型填空等任务相关场景建议采用双向生成方式。
min_dec_penalty_text
最小惩罚样本 string  
与最小生成长度搭配使用,可以在min_dec_len步前不让模型生成该字符串中的tokens。
logits_bias
屏蔽惩罚 float -10000
[1, 1000]
配合penalty_text使用,对给定的penalty_text中的token增加一个logits_bias,可以通过设置该值屏蔽某些token生成的概率。
mask_type
生成粒度 string word
可选参数为word, sentence, paragraph
设置该值可以控制模型生成粒度。
 

获取API Key

您可以登录文心大模型API服务平台个人中心获取您的专属API Key(AK)和Secret Key(SK),或者查看您的AK/SK。请注意保护您的密钥信息,避免泄露。您可以通过删除已泄露的密钥来保护您的账户安全。

https://wenxin.baidu.com/user/key

步骤一:获取access_token

  • 向授权服务地址 https://wenxin.baidu.com/moduleApi/portal/api/oauth/token 发送请求(使用POST),并在URL中带上以下参数:

    • grant_type: 必须参数,固定为client_credentials;
    • client_id: 必须参数,应用的API Key(AK) 从链接专区申请;
    • client_secret: 必须参数,应用的Secret Key(SK) 从链接专区申请;
  • Content-Type:application/x-www-form-urlencoded
  • 需要将your_ak、your_sk替换成您的AK、SK(注意:连同花括号也一起替换)
  • token有效期为24小时

GET https://wenxin.baidu.com/moduleApi/portal/api/oauth/token?grant_type=client_credentials&client_id=your_ak&client_secret=your_sk


    "code": 0,
    "msg": "success",
    "data": "24.f8629f539d6ba631c834d258a95b264f.86400000.1681357928791.595bc075a111acad1d5a21dea5ef7060-173836"

步骤二:异步预测

  • 每个技能对应一个请求地址,请求地址如下方“获取结果-请求地址”表格
  • 需要将accessToken替换成上一步得到的data值(注意:连同花括号也一起替换)

POST https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/3.0.25/zeus

请求JSON
 
    "access_token": "24.f8629f539d6ba631c834d258a95b264f.86400000.1681357928791.595bc075a111acad1d5a21dea5ef7060-173836",
    "async": 1,
    "typeId":1,
    "text": "你好",
    "seq_len": 256,
    "task_prompt": "qa",
    "penalty_score":1.2,
    "dataset_prompt": "qa",
    "is_unidirectional": 0,
    "min_dec_len": 2,
    "min_dec_penalty_text": "。?:![<S>]",
    "mask_type":"word",
    "topp": 0.8

 

返回JSON
 
    "code":0,
    "msg":"success",
    "data":
        "taskId": 1229202,
        "requestId":"7fad28872989e274914ee1687b8f2a13"
    

 

步骤三:获取结果

  • 需要将accessToken替换成上一步得到的data值(注意:连同花括号也一起替换)
  • 将第二步(异步预测)的返回结果中的taskId 作为参数传入

POST https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernie/v1/getResult


    "access_token": "24.f8629f539d6ba631c834d258a95b264f.86400000.1681357928791.595bc075a111acad1d5a21dea5ef7060-173836",
    "taskId": 15346824

  "code": 0,
  "msg": "success",
  "data": 
    "result": "因为我们有个好心情",
    "createTime": "2022-12-16 16:02:10",
    "requestId": "71a6efb46acbd64394374f44579a01eb",
    "text": "天为什么这么蓝",
    "taskId": 1000000,
    "status": 1 # 0表示生成中,1表示生成成功
  

 

作画大模型接口说明

ERNIE-ViLG AI作画大模型:文心ERNIE-ViLG2.0 是基于用户输入文本、或文本加图片生成图像及图像编辑功能的技术,主要为用户提供跨模态的文本生成图像的大模型技术服务。

其中,参考图功能是需要用户上传一张符合要求的图片,再输入prompt文本,选择相应的参数设置,即可生成新的图像。

POST https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernievilg/v1/txt2img

入参
 
    "access_token":"24.f8629f539d6ba631c834d258a95b264f.86400000.1681357928791.595bc075a111acad1d5a21dea5ef7060-173836",
    "text":"钢铁侠",
    "style":"油画",
    "resolution":"1024*1024",
    "num":4
返回值
 
    "code": 0,
    "msg": "success",
    "data": 
        "requestId": "78dbc09ab549d9ab48f88619448c391f",
        "taskId": 15348972
    
  • 参数:
参数名类型是否必传描述
access_token string  
text string 输入内容,长度不超过100个字
style string 图片风格,目前支持风格有:古风、二次元、写实风格、浮世绘、low poly 、未来主义、像素风格、概念艺术、赛博朋克、洛丽塔风格、巴洛克风格、超现实主义、水彩画、蒸汽波艺术、油画、卡通画
resolution string 图片尺寸,目前支持的有:1024*1024 方图、1024*1536 长图、1536*1024 横图
num int 图片数量,目前支持可选1到6张
image file 用该字段时 请将访问类型设置为: Content-Type 设置为 application/form-data
  • 返回参数
参数名类型描述
code int 错误码
msg string 错误信息
data object 结果对象,返回 task id。任务完成后,作为获取图片的依据
taskId int 图片生成任务id,作为查询接口的入参

异步查询返回图片

POST https://wenxin.baidu.com/moduleApi/portal/api/rest/1.0/ernievilg/v1/getImg

入参
 
    "access_token":"24.f8629f539d6ba631c834d258a95b264f.86400000.1681357928791.595bc075a111acad1d5a21dea5ef7060-173836",
    "taskId": 15346973
返回值
 
    "code": 0,
    "msg": "success",
    "data": 
        "img": "https://wenxin.baidu.com/younger/file/ERNIE-ViLG/82e45bea071d565fdf808aee0a907d8ai4",
        "waiting": "0",
        "imgUrls": [
            
                "image": "https://wenxin.baidu.com/younger/file/ERNIE-ViLG/82e45bea071d565fdf808aee0a907d8ai4",
                "score": null
            ,
            
                "image": "https://wenxin.baidu.com/younger/file/ERNIE-ViLG/82e45bea071d565fdf808aee0a907d8a30",
                "score": null
            ,
            
                "image": "https://wenxin.baidu.com/younger/file/ERNIE-ViLG/82e45bea071d565fdf808aee0a907d8aex",
                "score": null
            ,
            
                "image": "https://wenxin.baidu.com/younger/file/ERNIE-ViLG/82e45bea071d565fdf808aee0a907d8a5q",
                "score": null
            
        ],
        "createTime": "2023-04-12 16:23:13",
        "requestId": "6f1edf3b23e13fa39252abc33ffb7d36",
        "style": "油画",
        "text": "钢铁侠",
        "resolution": "1024*1024",
        "taskId": 15346973,
        "status": 1
    
  • 入参
参数名类型是否必传描述
access_token string 与上述获取方式一致
taskId string 从上一章节的提交接口的返回值中获取
  • 返回参数
参数名类型描述
code int 错误码
msg string 错误信息
data object task_id对应请求的任务状态和生成结果
img string 生成结果地址 后期去掉 使用 imgUrls
imgUrls array 生成结果数组 目前默认生成10张图
waiting string 预计等待时间
createTime string 任务创建时间
style string 请求内容中的图片风格
text string 请求内容中的文本
taskId int 对应任务的id
status int 0或1。"1"表示已生成完成,"0"表示任务排队中或正在处理。
resolution string 请求内容的图片尺寸
num int 请求生成图片的数量
image file 上传参考图的图片

 

资料来源:https://wenxin.baidu.com/

AI工具导航站:https://xiaohetao.fun/

全球最大规模中文跨模态生成模型文心ERNIE-ViLG来了

前不久,百度产业级知识增强大模型“文心”全景图亮相,近日,其中的跨模态生成模型 ERNIE-ViLG 在百度文心官网开放体验入口,并放出了论文。

体验链接:文心大模型-产业级知识增强大模型

论文链接:https://arxiv.org/pdf/2112.15283.pdf

据悉,文心 ERNIE-ViLG 参数规模达到100亿,是目前为止全球最大规模中文跨模态生成模型,该模型首次通过自回归算法将图像生成和文本生成统一建模,增强模型的跨模态语义对齐能力,显著提升图文生成效果。

先来体验下文心 ERNIE-ViLG“图像创作”能力。

在文字生成图像上,文心 ERNIE-ViLG 可以根据用户输入的文本,自动创作图像,生成的图像不仅符合文字描述,而且达到了非常逼真的效果。

注意!以下图片都是全新生成,并非可直接搜索到的原图。

文心 ERNIE-ViLG 不仅能创作建筑、动物等单个物体:

还可以创作包含多个物体的复杂场景:

甚至能根据用户输入的文字要求脑洞大开:

对于具有无限想象力的古诗词,文心 ERNIE-ViLG 也能生成恰如其分的画面,并根据不同的图画风格也有所调整:

油画风格

中国画风格

 

水彩画风格

此外,还能根据文字提示对图片进行补全:

而在图像到文本的生成上,文心 ERNIE-ViLG 能够理解画面,用简洁的语言描述画面的内容:

不仅如此,文心 ERNIE-ViLG 还能够根据图片中的场景回答相关的问题:

目前文心 ERNIE-ViLG 在百度文心官网开放体验的文本生图像 demo 能够根据古诗词进行作画,增强诗词的画面感。

在这些能力的背后,究竟蕴含着怎样的 AI 技术秘密?

 跨模态生成:AI 领域极具挑战性的一道“难题” 

跨模态生成,指的是将一种模态(文本、图像、语音)转换成另一种模态,同时保持模态之间的语义一致性。

图文生成是跨模态生成的挑战之一。以文本生成图片为例,文本描述概括性强,根据文本生成图片,需要考虑大量文字中未涵盖的细节信息,具有极高的挑战性。例如诗句“春江水暖鸭先知”,仅仅描述了江水、鸭子两个物体和春天这个季节,但没有具体描述鸭子的颜色、江边的桃花以及图中物体之间的位置关系。

春江水暖鸭先知

近些年来,基于生成对抗网络(GAN)的方法在人脸、风景等受限领域的文本到图像生成任务上已取得了不错的效果;DALL-E 通过超大规模的自回归生成模型,在图像片段之间建立了前后依赖的关系,从而具备多样性生成的建模能力,在多样性更强、难度更大的开放领域文本到图像生成上取得了亮眼的效果。

百度文心 ERNIE-ViLG 模型则进一步提出统一的跨模态双向生成模型,通过自回归生成模式对图像生成和文本生成任务进行统一建模,更好地捕捉模态间的语义对齐关系,从而同时提升图文双向生成任务的效果。文心 ERNIE-ViLG 在文本生成图像的权威公开数据集 MS-COCO 上,图片质量评估指标 FID(Fréchet Inception Distance)远超 OpenAI 的 DALL-E 等同类模型,并刷新了图像描述多项任务的最好效果。此外,文心 ERNIE-ViLG 还凭借强大的跨模态理解能力,在生成式视觉问答任务上也取得了领先成绩。

 文心 ERNIE-ViLG 技术原理解读:图文双向生成统一建模 

百度文心 ERNIE-ViLG 使用编码器-解码器参数共享的 Transformer 作为自回归生成的主干网络,同时学习文本生成图像、图像生成文本两个任务。

基于图像向量量化技术,文心 ERNIE-ViLG 把图像表示成离散的序列,从而将文本和图像进行统一的序列自回归生成建模。在文本生成图像时,文心 ERNIE-ViLG 模型的输入是文本 token 序列,输出是图像 token 序列;图像生成文本时则根据输入的图像序列预测文本内容。两个方向的生成任务使用同一个 Transformer 模型。视觉和语言两个模态在相同模型参数下进行相同模式的生成,能够促进模型建立更好的跨模态语义对齐。

文心 ERNIE-ViLG 图文双向生成统一建模框架

已有基于图像离散表示的文本生成图像模型主要采用两阶段训练,文本生成视觉序列和根据视觉序列重建图像两个阶段独立训练,文心 ERNIE-ViLG 提出了端到端的训练方法,将序列生成过程中 Transformer 模型输出的隐层图像表示连接到重建模型中进行图像还原,为重建模型提供语义更丰富的特征;对于生成模型,可以同时接收自身的抽象监督信号和来自重建模型的原始监督信号,有助于更好地学习图像表示。

文心 ERNIE-ViLG 构建了包含1.45亿高质量中文文本-图像对的大规模跨模态对齐数据集,并基于百度飞桨深度学习平台在该数据集上训练了百亿参数模型,在文本生成图像、图像描述等跨模态生成任务上评估了该模型的效果。

 文本生成图像(Text-to-image Synthesis)任务效果 

文心 ERNIE-ViLG 文本生成图像的能力在开放领域公开数据集 MS-COCO 上进行了验证。评估指标使用 FID(该指标数值越低效果越好),在 zero-shot 和 finetune 两种方式下,文心 ERNIE-ViLG 都取得了最佳成绩,效果远超 OpenAI 发布的 DALL-E 等模型。

文心 ERNIE-ViLG 在 MS-COCO 数据集上的效果

 图像描述(Image Captioning)任务效果 

图像生成文本能力上,文心 ERNIE-ViLG 在 COCO-CN、AIC-ICC 两个公开中文图片标题生成数据集上,都取得了最好成绩。

文心 ERNIE-ViLG 在 AIC-ICC 数据集上的效果

 生成式视觉问答(Generative VQA)任务效果 

在生成式视觉问答方面,文心 ERNIE-ViLG 也展示了不俗的实力。生成式视觉问答要求模型根据图像内容和对应的问题生成答案,模型需要具备深度的视觉内容理解能力和跨模态的语义对齐能力,并需要生成简短的答案文本,难度极高。文心 ERNIE-ViLG 在 FMIQA 数据集上取得了最好的效果,图灵测试的通过率达到了78.5%,优于当前最好方法14个百分点。 

文心 ERNIE-ViLG 在 FMIQA 数据集上的效果

让机器具备跨模态生成能力是人工智能的重要目标之一。在艺术创作、虚拟现实、图像编辑、AI 辅助设计、虚拟数字人等领域,文心 ERNIE-ViLG 这类跨模态大模型有着广泛的应用前景,也为这些领域未来的发展提供了无限的创意和可能。作为百度“文心”大模型全景图中的重要一员,文心 ERNIE-ViLG 也代表着百度文心在跨模态大模型领域迈出坚实步伐,从技术自主创新和加速产业应用方面持续推动中国 AI 发展。

点击“此处”即可快速体验文心 ERNIE-ViLG~

以上是关于百度文心大模型API测试的主要内容,如果未能解决你的问题,请参考以下文章

百度集团副总裁吴甜发布文心大模型最新升级,AI应用步入新阶段

黄硕:百度飞桨文心大模型在语音文本审核中的应用

全球网友元宵一起创作赏月图,体验百度文心大模型AIGC创造力

全球网友元宵一起创作赏月图,体验百度文心大模型AIGC创造力

2600亿 全球最大中文单体模型鹏城-百度·文心发布

2600亿 全球最大中文单体模型鹏城-百度·文心发布