一个令人惊艳的ChatGPT项目,开源了!

Posted CodeSheep程序羊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一个令人惊艳的ChatGPT项目,开源了!相关的知识,希望对你有一定的参考价值。

最近在GitHub上发现了一个爆火的开源项目。

好家伙,凑近一看,居然还是由微软开源,并且和最近炙手可热的ChatGPT息息相关

项目的名字叫做:Visual ChatGPT

https://github.com/microsoft/visual-chatgpt

这个项目最早是3月上旬微软开源的,项目宣布开源后仅用了短短一周,就斩获了2w+ star。

到现在为止,距离当初项目开源大约过去了3周多,仓库star数则来到了28k+,亦可谓是火箭式上涨(doge)。

众所周知,ChatGPT自2022年11月推出以来,持续走红。

ChatGPT具备强大的会话能力,可以理解文字、聊天、写小说、解答问题、编写代码… 但是目前还并不能直接处理或生成图像。

而Visual ChatGPT这个项目则可以把ChatGPT和一系列视觉基础模型(VFM,Visual Foundation Model)给联系起来,以便实现在ChatGPT聊天的过程中来发送和接收图像,也使得ChatGPT能够处理更为复杂的视觉任务。

讲白了,就是通过Visual ChatGPT,可以把一系列视觉基础模型给接入ChatGPT,使得ChatGPT能胜任更为复杂的视觉处理任务。

Visual ChatGPT的整体技术架构图如上所示,我们可以清楚地看到ChatGPT和视觉基础模型(VFM,Visual Foundation Model)分别位于其中的位置。

一方面,ChatGPT(或LLM)作为一个通用接口,继续发挥它本身的优势,提供对不同话题的智能理解。另一方面,基础视觉模型VFM则通过提供特定领域的深入知识来充当领域专家,它们通过交互管理模块(Prompt Manger)进行连接和适配。

这样聊可能比较抽象,我们可以拿官方给的一个例子来进行说明:

1、首先是用户:输入一张黄色的向日葵图片,并且要求ChatGPT根据该图像预测深度来生成一朵红花,然后再一步一步将其做成卡通画。

2、接着是交互管理模块(Prompt Manger)发挥作用,在它的协调和控制下,VFM模块开始发挥作用:

  • 首先需要运用深度估计模型来预测并生成图像的深度信息;
  • 然后需要运用深度图像模型来生成对应空间深度的红花图像;
  • 最后运用Stable Diffusion的风格迁移模型来完成图像风格的变换。

3、最后Visual ChatGPT系统再将最终结果返回给用户,完成本次对话。

说到这里,有兴趣的小伙伴可以可以看看微软给出的一篇有关Visual ChatGPT的论文。

里面关于这部分的流程解释得非常详细,而且还给出了多轮对话的案例、以及实验结果,有兴趣的小伙伴可以看看。

好了,今天的分享就到这里了,感谢大家的收看,我们下篇见。

注:本文在GitHub开源仓库「编程之路」 https://github.com/rd2coding/Road2Coding 中已经收录,里面有我整理的6大编程方向(岗位)的自学路线+知识点大梳理、面试考点、我的简历、几本硬核pdf笔记,以及程序员生活和感悟,欢迎star。

只会玩ChatGPT?惊艳我们的又不只是它一个对话系统

1. 引言

终于回归到本尊开始上手了。这次是介绍了几个和ChatGPT一样强大或者基于GPT系列的新鲜对话系统,各有优劣和长处吧。大家感兴趣的话可以自己搜索一下,这里仅做简要介绍。

2. ChatGPT

ChatGPT是最近最火的,也是我深入上手一星期的产物了,整体而言,使用感还是可以给出90分的,但是值得注意的是,我们曾经以为模型的上限取决于公司发布的模型,但是现在看来,并不是了,chatGPT在不同人的手里发挥的性能是不同的,这就给我们一些启发,模型的真正表现能力到底是只依靠模型,还是有人的成分在呢?这又走到以人为本的观点上来了。很多动画片里也讲了这样的类似事情。相同的东西在不同人的手上,发挥的威力是完全不同的。

另外一点感悟就是,我们不能仅仅依靠chatGPT本身,现在很多人开始从ChatGPT去做下游任务了,让它能够自动写代码、写剧本、还做些什么。但是实际上,我们应该和模型并肩作战而不是把它们当做工具和仆人。

ChatGPT就是终点了吗?越是没有使用过ChatGPT的人,越是这样想。真正深入使用后你会发现,ChatGPT还有很多缺点,例如,比较死板,理解能力仍然有待加强,没有知识更新,也无法搞定情感交流的半边天。尤其是,虽然它具有一定长度的上下文感知能力,但是仍然不能够分清楚我们究竟是让它感知上文还是不要让它感知上文,等等。它作为独立的产物,还仍然不能够满足我们对于对话系统的所有期待,但是作为一个辅助者,它已经足够优秀了。也就是说,人工智能第一次可以被人类承认,作为辅助者带在人们身边了。曾经的智能助理系列真的是一言难尽。

3. Perplexity AI

这是一个尝试将ChatGPT与搜索引擎联合起来的新产品,它的表现形式和搜索引擎一样,但是在搜索结果时,会给出一个自拟的总结,并标上引用。特别像是百度百科那种形式。例如,当我问及ChatGPT的优点和缺点时,ChatGPT本身回答的不行,而Perplexity.AI则会给出一定的答案。

4. Dramatron

'Dramatron则是另一款擅长写剧本的模型,其实本质还是借用了GPT3作为基础来进行的。整体上,它更符合自己的定位,是一个人机协同的剧本写作模型,也就是说,实际上有很多部分都需要用户自己去定义,包括大纲,角色,剧情等等,然后它才能生成一个完整且优秀的剧本。

4. 小结

我之前喜欢说,13年的Word2Vec是一个里程碑事件,18年的Bert是一个里程碑事件,我相信这22年底的ChatGPT也将是一个里程碑事件,如果后面有更令人经验的GPT4出现的话,那么这两个算一个里程碑事件。可以看到,每五年就有一个非常经验的产品诞生,这并不是什么偶然,word2vec的思想在06年就出现过了,只是一直没有做好。而bert也是踩着无数词向量的尸体爬过来的。ChatGPT则更是依赖GPT3和InstructGPT作为基础,才能够变成如此的样子。

新的事物总会出现,我们只有拥抱未来,热爱它并且也要批判它,这样我们才能走的更远。

以上是关于一个令人惊艳的ChatGPT项目,开源了!的主要内容,如果未能解决你的问题,请参考以下文章

5个令人惊艳的AI项目,开源了。。

「ChatGPT」Python调用API实现令人惊艳的多轮对话(最新版 | 附源码)

ChatGPT可以做WebRTC音视频质量性能优化,惊艳到我了

我也尝试了下chatGPT,效果惊艳

30 个惊艳的Python开源项目(上)

只会玩ChatGPT?惊艳我们的又不只是它一个对话系统