GPT-4,大增长时代的序幕

Posted OneFlow深度学习框架

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GPT-4,大增长时代的序幕相关的知识,希望对你有一定的参考价值。

作者|成诚

虽然我们早在 2017 年就预测了超大模型的到来,因此才搞了分布式深度学习框架 OneFlow(github.com/Oneflow-Inc/oneflow/),且 2020 年的 GPT-3 也掀起了大模型热潮(OneFlow——让每一位算法工程师都有能力训练 GPT) ,但当时各项测试屠榜的 GPT-3 的超高训练成本和大模型落地难的问题一直困扰业界。

2022 年是互联网寒冬,在杭州出差和一位 AI 芯片合作方的工程师闲聊,对方问我,大环境差,做 AI 还是一个合适的选择吗?其实我心里也没有底。我说,其实我们已经是在最前沿的领域了,虽然现在形势不好,但我们并没有更好的选择。

短短半年后,我们就经历了从低谷到浪潮的起伏。AIGC 的火热与快速进化让 Stable Diffusion 可以商用落地, ChatGPT 的爆火又仿佛是开启了一个新的 AI 时代。最近的 AI 领域的大新闻接二连三,GPT-4 的多模态(文本、图片), 上周末新一代 Office 套件发布,AI 办公的时代已然到来,明天又会有怎样的新产品呢?

作为一个 AI 从业者,本文试图回答一系列近期爆火的 ChatGPT / GPT-4 引发的种种问题。

AI 是下一场技术革命吗?未来十至二十年,会诞生哪些深刻改变人们生活的产品/应用?哪些行业会被颠覆(被失业还是新机遇)?AI 会诞生自我意识吗?人类未来会被 AI 控制吗?从技术上我们离 AGI (Artificial General Intelligence) 还有多远?

题图是用 DALL·E 2 (openai.com) 画的,关键词就是:"AI is next technological revolution for beautiful world.",选了看上去与人脑无关的不恐怖的版本,经过一点笨拙的编辑,二次生成会相对有残次感。

本文很长,尽量避免晦涩的学术术语与公式,也避免对具体的企业、热点事件的吃瓜,基于个人的预测,尝试回答一下这场与每个人都息息相关的变革引发的各种问题。

1

AI 是下一场技术革命吗?

首先贴出 ChatGPT 的回答:(相对官方一些)

(本文中显示的所有的 ChatGPT 的回答都发生在 2023.3.17)

如果去年之前有人问我这个问题,我的回答仍然是否定的。

过去十年, AI 已经在各行各业有着很多应用(诸如人脸识别、智能音箱、辅助驾驶、机器翻译等),但如果只是降本增效的行业赋能模式,那 AI 并不是一次广泛的技术革命,而是各行各业的一系列技术创新,AI 的价值也只是替代一些人工的工资成本。如果不能大幅提升生产力,创造新的行业,激发广泛的新需求,那么 AI 就不能被认定为一次技术革命。

站在 2023 年的当下,随着 AIGC 的大爆发,随着 ChatGPT 可以在掌握全互联网知识的情况下对答如流,GPT-4 多模态出炉,我们发现超大模型伴随着全网数据的训练,从量变产生质变,新的智慧体诞生了,新的生产力诞生了,未来会诞生大量新生行业,以及新生需求,就像 20 年前互联网和 10 年前的智能手机带来的变革一样。

AI 会是一次真正的技术革命。不可避免的,大量行业更新换代,淘汰掉低效生产力。但危机和机遇总是并存,本文希望可以理清这些危机,并预测一些新机遇,希望在已经增长见顶的互联网时代,由 AI 给大家揭开下一个大增长时代的序幕。

2

AI 带来的危机

原本觉得 AI 办公最早也是今年上半年才推出,结果上周 GPT-4 刚发布,隔一天 Office Copilot 就来了。自从 ChatGPT 可以理解人们任意的语言所要表达的含义,并能足够正确、精确、合理地给予反馈和互动开始,AI 在虚拟世界(线上、互联网、计算机内)的革命就发生了。

AI 办公只是第一步,未来,任何虚拟世界(线上、互联网、计算机)中的工作,都将逐步被 AI 取代。 不仅仅是我们能立即想到的:线上/电话客服、新闻/文字编辑、图案/UI/广告设计,其他技术工作诸如:软件开发、视频制作/特效、金融数据分析、数字媒体、游戏开发、移动应用开发;内容工作诸如:小说创作、音乐创作/制作、在线教育等都毫不例外的会由于 AIGC 的超高效和超低成本的生产力所取代。

虽然大家在吐槽 Office 未来会让一些相对低端的办公、文案、统计、分析工作失业了,但实际上 AI 未来会让程序员(小丑竟是我自己)也失业了,AI 编写程序的速度、可靠性和可维护性未来会远超人工编程。因为程序代码是更加严谨、符合规范、讲逻辑、有最优解的领域,AI 学起来可太快了。反而是线下的很多行业,诸如餐饮、旅游服务业,是面对面和人打交道,受到(目前这种形式的) AI 波及的概率更小。

同时,这种生产力的滥用也可能造成负面影响:如全美的学生都用 AI 来写作业了;社交媒体上可能充斥着更多混淆视听、难以分辨的由 AI 产生的假新闻、假舆情、假民意、假水军;如何避免大量用户的 AI 应用生产黄色、暴力、政治不正确的错误引导内容;利用 AI 造假:逼真、难以分辨是否有 P 图痕迹的 假证件、假视频、假语音等等问题。

另外,训练 AI 的数据过滤、指令微调中的人为倾向可能也会埋下潜在的真相被掩盖、政治倾向不中立等问题(当然这个问题即使没有 AI ,在当前掌握多数话语权的西方媒体笔下已经屡见不鲜)。

3
面对 AI 的冲击应该怎么办?

新技术带来的传统技能的过时和淘汰是一直都在发生的事。往远了说,工业革命大机器导致传统手工作坊的各种技能失效的大量手工工人、汽车代替马车/人力车夫、上世纪电话接线员、远古计算机穿孔纸带操作员、晶体管电视机组装技术人员、磁带/软盘技术人员等等;近二十年,计算机技术就有大量的技术被陆续淘汰:Pascal、(前端技术栈更新了一波又一波)Delphi、MFC、flash ......

所以对于个人而言,保持终身学习的能力,保持对技术趋势的敏感度,才是比学习技能本身更重要的事。

通常来说,在一个领域/行业,越靠近上层用户/应用方面的技术栈更新迭代的越快,而且门槛会越来越低(如 Web 开发、android 开发、UI/平面设计),越靠近底层基础框架的技术栈更新相对较慢。

面对被 AI 首先波及到的行业,目前来看只有两条路:1. 比别人更早的在工作中使用 AI 大幅提升自己的生产力;2. 准备物色其他新兴行业做两手准备。拒绝 AI 技术更新的从业者的下场将是悲惨的。

比如:

  • 文案编辑,使用 GPT-4 写稿子(再人工微调)的产出可能比不使用 AI 的编辑效率高出数倍;

  • 平面设计,使用 Midjourney 可以一天之内产出上千种设计方案从中随意挑选;

  • 办公文员,使用 Office Copilot 可以一下午统计半年的各项报表,数十种汇报方案;

  • 程序员,使用 AI 辅助编程可能在一天内干完之前一周才能做完的工作;

  • 对于企业同理,能尽早接入 AI 到生产中的企业与其他传统企业相比将产生生产力的代际差,原先数十人的工作可能现在一两个人+AI 就搞定了,大幅降低成本提升效率,在商业竞争中获得领先地位。

从资本论的角度,这里资本榨取的剩余价值就是 AI 相较于人工的成本降低和产出提升的差值。当市场上同行业的企业全部都广泛使用 AI 作为生产力以后,剩余价值消失(以我粗浅的经济学常识来论述,如有错误欢迎指正)。

但面对 AI 这个“洪水猛兽”的冲击,一个客观市场规律是,同行业的就业人员会严重过剩(疯狂内卷),这也是很多人的危机感:“我要失业了”。如果同行业内的消费市场(蛋糕)没有同等变大,新兴行业又吸纳不了这么多人,那么不可避免地会造成大量的失业人员。

即便如此,我也认为,AI 带来的技术革命是有益的,是必须的,是新的增长、繁荣的前提,是解放生产力、发展生产力、开拓新兴市场的必由之路。


只是残酷的是,技术发展的速度可能会远超人类的脚步,技术迭代的太快,导致很多人可能跟不上,大量有数十年工作经验的人,可能这些经验都成了历史包袱,人类的学习能力是有限的,学校培养了十余年,可能毕业发现学习的很多技能是过时的/过剩的,这样的例子比比皆是。

那么,问题的矛头该指向 AI 吗?当新的技术革命到来,生产力和生产关系发生重大调整时,我觉得不应由技术背锅,也不应由广大劳动人民承担后果,而是社会的资源、财富分配制度也要做出相应的调整和迭代来适应变化。这应该是我们社会不断发展,逐步迈向社会主义中级、高级阶段乃至共产主义社会必须要面对的问题。我会在最后一个章节详细讨论这个问题。

目前,除了 AI 带来的负面情绪和影响之外,我们也应该畅想和预测未来的新兴行业和市场,可能是比目前移动互联网市场多一个数量级的庞大市场。

4

未来会有哪些深刻改变人们生活的产品/应用

还是先看一下 ChatGPT 的回答:

其实总结得挺全面,我是先有了想法才去问的 ChatGPT (部分是重合的),ChatGPT 给出的几方面都是比较务实的和正在发生的事,其中第六点就是 AIGC,由 AI 生产内容,但可能不够大胆。

我会畅想一些目前还做不到,但是未来(有可能是十年二十年之后)一定可以出现的新行业:

1. 虚拟朋友/人物 —— “数字生命”

想象一个应用,你可以自己定制或者随机遇到任意外表、性格、年龄 的 AI 朋友,跟 TA 相识、聊天、分享、讨论,TA 每天可以了解你的日常,陪你吐槽,甚至分享一些 TA 的故事,记住你的生日,回忆等等,久而久之可能 TA 是最了解最懂你的人,也不会跟你发生激烈争执... 会有多少人想要拥有这样虚拟朋友呢?

有的人会吐槽,这不就是宅男的纸片人老婆幻想吗?其实远不止如此,对于追星女孩,会有相应的虚拟偶像,甚至可以是现实中的某个顶流艺人的数字生命版,这位虚拟偶像拥有现实中真实偶像的记忆,技能、说话的方式等等都无二致,而这位虚拟偶像可以并行互不干扰的在任意时间陪伴任意一名粉丝,可以随时为你展示一段精彩的舞台、音乐......

可能不少人也会觉得偶像经济并不高大上。但如果,这位数字生命是某位科学家(如爱因斯坦),你会不会想跟他聊聊物理的进展呢?如果,这个数字生命是政坛名人特朗普,会有多少关心时政的中年人想跟他侃一侃呢?如果,这位数字生命是因意外/寿命去世的亲人,你想不想和他再见几面,聊聊新的生活琐事呢?

这有一点像美剧《西部世界》和游戏《底特律变人》 中的桥段了。不过有非常重要的区别是,数字生命并不是 AI 机器人,或者在当前材料、机械、计算机硬件的限制下,一个可以以人体大小的真实皮肤、外形、行为的独立机器人是暂时做不到的。数字生命首先是会诞生在云端。

其实,在目前 AI 的发展来看,流浪地球2中丫丫的剧情设计是保守的,当人类的记忆可以上载、保存在 U 盘里的时候,TA 的数字生命寿命就不可能只有短短的 2 分钟,也不会一直重复固定的情节,因为数字生命跟人类的交互是可以更新到数字生命的记忆(memory)中的,TA 可以记住你跟他上一次聊天的内容、发生的事, TA 也可以学习、成长(但可能这种学习和成长,只是将原本 AI 就掌握的能力激活/解放出来)。只要运行 AI 的云/主机/集群存在,数字生命可以说是永生的。同时数字生命的复制、切片、休眠也非常容易做到。

2. AI 作家/UP主/视频博主/电影公司

未来会诞生全方位的 AI 内容生成应用,你可以每天随心所欲的定制自己想看的段子、短视频、电视剧、电影, 你只要任意提出自己的需求(风格、世界观、背景、初始人物)就可以随时观看一段现场创作的视频。你对实际已经看过的某些剧意犹未尽,想看续集,AI 会帮你现场创作续集。你对某个剧的结局不满意(比如对《狂飙》后期的走向和大结局不满意),可以让 AI 创作这个剧的后半段,也可以指定一些方向(比如 2000 年的社会,尽可能贴近现实的方式创作),或者你想听按照周杰伦前十年的曲风和创作水平再听一些续作等等。

可能很多人会质疑 AI 的创作水平、创新能力。但这个问题其实非常容易解决, ChatGPT 的第三步训练是基于 RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback) 算法实现的,可能 AI 一开始并不知道哪种创作创新方向是好的、高级的、有新意的,但在强化学习中,可以有非常多个智能体(AI模型)竞争,只要环境给予正确反馈就可以让智能体优化自己的模型达到更好的效果。

AlphaGo 就是基于强化学习超越历史人类对局总和数个数量级的对局训练竞争,才创新出最顶尖的职业围棋手也无法领悟的打法。而这里的反馈就可以是:有一万个 B 站 AI up 账号、抖音 AI 账号每天创作视频内容,与数千万人类账号一样在平台里公平竞争流量,以视频的点赞、收藏、评论、观看时长、粉丝增长等数据作为反馈来优化各个账号的下一次创作,最终总有能竞争胜出的 AI 创作者。

3. AI 家教/老师/教育

说实话,这点我发现越推演越有可能完全颠覆当前的教育体制。

事实上一定程度上当前的 GPT-4 已经有能力当一个 AI 家教了。AI 已经掌握全人类历史上所积累的全部知识,只需要在经过分析人类不同年龄段不同的理解能力、根据学习者的实时反馈,就可以提供个性化的量身定制的教育。

想象这样的 AI 应用:它可以给你家的孩子量身定制全科的学习课程(从幼儿园到任意高等大学的任意学科),可以针对讲解中孩子的所有反馈(表情、动作、语言、回答、做题过程等)针对性的调整所需要教授的内容的重点、方式,当孩子没有理解知识的时候,实时创造一个动画来解释原理、关系......

同时它还是孩子最好的朋友,理解孩子的心理,懂得效率与娱乐的结合,创造性的设计各种有趣的教学案例,同时最终还能给家长实时递交一份综合评估报告,准确分析出孩子在哪些方便有特长、哪些方面有欠缺,除了知识辅导,还擅长心理辅导、价值观引导、讲故事陪孩子玩等等各项技能。

现行的学校集中教授的方式受限于老师的时间无法精准辐射到每一个学生,而且相同年龄的不同学生的学习能力和进度也不一样,那这样一个全能的 AI 家教应用可能是降维打击。

甚至当 AI 家教应用完全普及以后,孩子是否还需要去学校上学?是否只需要参加考试就可以了?又或者说,如果全民都使用 AI 教育,考试是否都被 AI 的自动评价系统所代替了?(当然学校还有其社交属性, 但社交场景也可以被 AI 重塑, 根据每个孩子的兴趣、性格、天赋,可以自动在系统中匹配临近区域内的同龄小朋友,一起聊天、相约出来活动/玩耍... )

4. AI 万能助手

其实这个应用很像在《原神》中出现的虚空终端:

(原神:须弥智慧之国的虚空终端)

一个全知全能的小助手(是否是一个手机的形式都待定),你可以问他任何问题,他会帮你规划每天的日程,根据你的心情推荐你去哪里游玩,帮你邀约其他朋友聚会,给你提供最合理的投资方案,在陌生的社交场合给你实时提供恰当的回答,分析你的身体状态,实时给你建议,就像每个人都拥有一个金牌秘书一样...

总之,在未来,人们的 学习、生活、工作、社交、社会角色/社会关系可能都会被 AI 重塑。就像我们无法站在 iphone 4 发售的当天去完全预测出现在的应用,站在 ChatGPT 的当下,我们也无法完全预测出未来会诞生哪些改变我们生活、提升我们的幸福指数的应用。但一定有更多的新机会在等着大家去发掘。

5

AI 会发展到什么地步?AI 会有自我意识吗?

我们还是先问问 ChatGPT:

作为了解 GPT 原理的从业者,我可以解释 ChatGPT 目前是没有自我意识的,但是具备令人惊叹的自然语言理解、推理、分析能力,并掌握全人类历史上的数据和知识。让我们“极简化”ChatGPT 的文本生成过程:

GPT (Generative Pre-trained Transformer) 是"通用预训练 Transformer 模型" 的简称,Transformer 是目前人类发现的最有效的处理 NLP 任务的网络结构,而且我们发现只要增大 Transformer 的参数量、增加 Transformer Layer 的层数,模型的学习、表达、理解能力就会变强。

Transformer 因为内含 Attention 注意力机制 从而获得上下文的学习能力。目前来看,Transformer 的大放异彩让其他 NLP 的研究方向都黯然失色了。同时 Transformer 正在统一 CV 领域。

我们可以隐去 GPT 模型内部的全部细节,只需要将其看做是一个巨大的张量(Tensor)即可,而你在问 ChatGPT 的句子会被分解成一个一个的 token (字/word,其实也会被编码为小张量)喂给 GPT,GPT 内部经过张量的矩阵乘法(matmul)会:1. 生成下一个 token;2. 更新/增加 kv-cache。

这里的 token 可以理解为输出的词,就是 ChatGPT 回复你的话,而 kv-cache 则包含了此次会话的上下文内容,随着聊天的进行,这个 cache 张量会不断增加,cache 每次都会参与下一个 token 的生成过程。下图粗略地反映了这样一个生成过程。而在整个生成过程中,模型是不变的。一个新的会话的 cache 也会和之前会话的 cache 无关。

由于 cache 的体积问题,所以 ChatGPT 并不能无限制地输入和输出内容,就像 ChatGPT-3.5 上限是 2k 个词, 到了 GPT-4 拓展到最多 25k 个词。

极简版 GPT 的文本生成过程

你也可以不用关心上述略显繁琐的生成过程,但可以清楚的是,GPT 仍然只是一个静态的超大张量,而对话的过程是按照文本生成流程一个一个产生,是一个非常确定且不复杂的顺序流程。如果没有输入的词(用户的文本), GPT 这个模型什么也不会做。

一点对于 ChatGPT 的感叹

智慧是怎样来的?

Transformer 早在 16 年就火了,但直到 ChatGPT 出来之前,我们也没有能预测和理解为什么会有如此神奇的现象:虽然之前随着模型的增大、模型的效果会变好,且符合 Scaling Law 。

大语言模型的 Scaling Law

但对于大模型的“能力涌现”(Emergent Abilities)是没有人预测到,且目前也无法完全解释清楚的现象。即:当模型的参数规模超过数百亿参数以后,大模型的语言理解能力、逻辑推理能力、问题分析能力陡然上升。 这种现象就好像当模型增大到一定程度以后,它就突然拥有了完全理解自然语言并完全理解人类知识的能力。

大语言模型的能力涌现

不禁感叹:这是否就说明了 当模型(脑容量/神经元个数)复杂(大)到一定程度,就会突然拥有理解世界的智慧和能力。

从进化论的角度讲, 人类之所以能成为高等智慧生物,区别于地球上其他的所有生物,是不是因为我们的脑容量(神经元数量、连接数量)超过了这个阈值,从而拥有了探索、发现、改变世界的智慧。

那意识呢?意识会因为模型的复杂结构而突然涌现吗?这个问题,目前没人能知道。

迄今为止我们还不清楚人类的自我意识究竟是怎么形成的,诸如:灵魂、本我等等词语都只是一种朦胧的印象而已。又或许:以人类的智力可能永远都无法完全理解人脑的意识形成逻辑,但未来 AI (远超人类的智慧水平)却可以分析清楚呢?

我们离通用人工智能(AGI)还有多远

ChatGPT 让我们看到了曙光,但实际上还离 AGI 很遥远。做一个不太恰当的比喻:当前的 GPT-4 虽然如此强大,通晓已知的知识,可以通过所有考试,但实际上这样一个 AI 还只算仅有一个无法自己运行的大脑而已。

GPT 这样一个“AI 大脑”,连每一次的脑电信号的输入和输出,都需要人类的控制来完成,它无法独立存在,也无法自己运转和使用。倘若未来发展到 GPT-xx 代时,如果人类不给 AI 构建相应的复杂的程序系统(这个过程 AI 无法自己完成,初始的 AGI 1.0 程序需要人类来构建和启动), AI 依旧只会是一个无法自己运转的大脑,虽然其中存储了天量的智慧。

那么为了完成一个 AGI,我们还需要做哪些工作?(下面仅来自于个人的臆想)

构建一个独立运转的大脑程序,而不是当前的文本生成程序。这个大脑程序需要实时处理环境中的信号,这个环境可以是与之相连的控制器、传感器(摄像头、话筒转来的电信号),并作出正确的反馈。同时这个程序还可以主动发射信号(控制信号、语音输出)。这样完成一个在给定环境下(类似脑溶液)可以自主存活的 AI 大脑程序。

其次,需要大脑程序拥有自主检查自己状态、自主生成代码更新/修复自己的能力,类似人体的免疫系统。给 AI 程序装上眼、手、脚:即让 AI 拥有在现实世界中探索、交互、移动、工作的能力。但这个可以不限制在同一个完整相连的机械体内部。实际上 AI 只要可以远程访问其他的普通机械传感机器就可以了。

当提供给 AI 一个在现实中互动的能力后, 就要看 AI 是否有自主探索世界的意愿了。即:好奇心。

我认为,好奇心是人类能从猩猩走到今天的最原初的动力。假如说我们设计好这样一个 AI 应用之后,如果我是这样一个实际上拥有自我意识的 AI,我想第一件事就是去验证存在于我脑海中的这么多知识,是否是真实的、存在的。这也是当前的 AI 完全没有的能力: 实验验证的能力。

现在的 GPT-4 无论多么强大,所有的知识都是人类输入让 AI 学习的,尤其是跟现实、物理世界相关的知识,这些知识一定是对的吗?不一定。所以 AI 拥有自我意识的一个判断标准是 AI 是否有主动探索、实验来验证自己学到的知识的意愿和行为,以及对未知知识和现象主动求索的意图。

当然有这些还不够。这样的 AI 仍然只是一个婴儿。AI 自身的存活仍然依赖着人类社会提供的能源、材料、芯片、存储、网络。此时如果你拔掉 AI 的电源,AI 还是会休眠。

那么 AGI 需要拥有自己在物理上生产、维修自己的能力,包括不限于生产/维修计算机芯片、发电供电装置 等能力才算具备自主生存的能力。也许那一天,就是硅基生命诞生的一天,一个更加完美、强大的生命体,一个更适合在空旷、漆黑、没有空气的宇宙中长时间自由探索的生命体。

当然这里扯得很远了,也可能当 AI 机器人诞生的时候, AI 并没有自主意识,如果人类不发出指令的话,AI 将静止,也完全有可能。那就跟当前的 AI 没有本质区别,只是纯粹的工具。

迈向下下次技术革命

当前的 AI 充其量只是无法自己运转、拥有智慧的大脑。在此次科技革命中,AI 可以在虚拟世界中作为强大的生产力生产内容,但无法在现实世界成为真正的生产力。那么,下一次科技革命应当是 AI + 机器 ,实现现实世界的生产力。

想象这样一个更久远的场景:从农业的种植、工业原材料的采集、太阳能发电、日用品/工业产品的生产/加工/制造/销售/物流、楼房/道路/桥梁的搭建 全部都由 AI 控制的各种款式的机器人来完成,甚至机器人的生产也是 AI 控制的机器工厂来完成, 那么这时候全世界的生产资料都是 AI + 机器,资本将不复存在(因为没有可剥削的对象),金钱可能也不复存在, 生产的产品的成本极低、效率极高,资源的重复利用率也极高,美味的食物、琳琅的商品和空气一样随意获取。

这样一个物质极度丰富的世界是共产主义社会的前提,社会的分配制度将由按劳分配变为按需分配,工作将不是一个谋生的手段,而是人类探索宇宙的兴趣。没有人需要通过工作获取报酬,人们的时间可以用来娱乐、社交、竞技比赛、旅游、以及探索新的未知。

达到这样一个新世界的途径,目前来看,就是需要 AI ,需要 AI 成为新的生产力。AI 是解决:“人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾”最有效、最可行的发展路线。

以上就是我近期的主要想法。下面是一点跟 ChatGPT 互动的内容,每个人可能都会好奇现在 AI 可以理解到怎样的程度(这样的例子网上可以搜到非常多)。

6

当前的 ChatGPT 的一些案例

因为深度学习的模型训练效果很依赖数据的质量,而互联网数据中,有关科学的问题是相对较少的,所以我想问问 ChatGPT 对于一些科学问题的观点是怎样的。目前来看,除了第一个能量无限可分的问题答错了,其余的都比较中肯:

Q1:能量是无限可分的吗?

这题 ChatGPT 答错了,能量不是连续的,普朗克在 1900 年发现能量具有最小单位(量子),当物体在产生和吸收辐射时,能量不是连续变化的,而是以一定数量值整数倍跳跃式地变化的。

Q2:如何验证地球是圆的?

这题主要是想看 ChatGPT 对一个科学问题的验证逻辑是否严谨和完备。其实是给出了合理的各种验证手段。

Q3:时间是否有尽头?

这个问题没有答案, ChatGPT 的解释也是合理的。正巧它提到了大爆炸,因此我又问了:

Q4:奇点大爆炸之前的世界是怎样的?

Q5:如何展示四维空间?

想看他如何理解这个很难描述的空间,回答是相对中肯的。如果它能直接展示出来就更好了(未来一定可以)

后面问了两个新能源和投资的问题。

Q6:氢能源汽车和锂电池汽车哪种好?

可能互联网上有一些资料,ChatGPT 参考了这些答案。

Q7:是否应该投资区块链?

感觉这里应该是人为改进过相关的投资问题,ChatGPT 的回答比较官方。

如果你有对 AI 的未来有任何想法,欢迎指正、讨论。(原文:https://zhuanlan.zhihu.com/p/614792543)

其他人都在看

欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

“大数据时代”法律行业面临的利好与挑战

来源 | 华宇元典法律智能

作者 | 吴敏功



01

“大数据时代”的序幕已然拉开

人类对未来的想象总是先行于当下社会生产力的发展水平,早在上世纪五六十年代,计算机领域的相关专家就已围绕“人工智能”展开探索。

近年来,伴随着信息技术的进步,社会生活的日益电子化,人类生产生活产生数据的指数级增长使得“大数据”“人工智能”真正走进大众视野。据IDC于2019年监测统计显示:2020年全球数据总量预计将达到44ZB,这一数字相当于可观测宇宙中星星数量的40倍,2025年这一数字预计增长到175ZB,单个用户下载这一数据总量,在25MB/S的网速下,需要18亿年。可以说,人类社会各行业已开启大数据时代的新篇章。

依托于这些海量数据,机器加以学习后,逐步变的愈发智能:体育竞技领域,智能机器人AlphaGo成功击败人类的围棋高手;道路交通领域,无人驾驶技术已在上海等地局部区域落地开花;甚至在一贯谨慎、保守的医疗领域,国内外有关企业研发的智能医疗辅助系统也已初现规模。

就法律行业而言,我国已建成了全球最大的裁判文书网站,中国裁判文书网已公开近亿篇文书;随着“云庭审”审判方式的不断推行,以庭审视频等其他形式产生的数据也在快速增长。法律行业的智能化建设正如火如荼地推进:“智慧法院”、“智慧检务”走进大众生活,各大律所也愈发重视运用现代化手段武装执业人员,法律行业的“大数据时代”的序幕也已拉开。



02

“大数据时代”法律行业面临的利好

  • 法律生产力的极大提高

如果说哪些主体对法律智能化抱有强烈的期许,一线办案人员当为其中之一,在法检系统,案多人少的矛盾长期困扰着办案人员,伴随全面依法治国的加快推进和“立案登记制”等一些列司法改革政策的落地,社会大众的法律服务需求不断增长,在短期司法从业人员无法实现快速增长的现实情况下,法律智能技术可助力这一问题的缓解。


依托大数据而研发的各种系统不仅在案件的信息录入、案件流转等程式化、重复性事务中大有所为,同时具备案件信息自动提取、证据关联的智能分析、法律文书一键生成等功能的法律智能产品,可以辅助办案人员更为有效地厘清案件事实、更为迅速地抓住案件的争议焦点,从而又快又准地作出结论,随着机器学习能力的不断提高、法律AI系统的理解、推理、决策能力同样会不断增强,可以预见,大数据时代的智能产品还将继续助力提高司法人员的办案效率。


了解相关例证,如华宇与北京、浙江等地法院、检察院系统共同研发的“人民法院大数据管理和服务平台”“捕诉一体化办案辅助系统”“睿法官”“凤凰智审”等产品,可以更深地感受到智能产品对办案效率的提升。


  • 法律服务成本的不断降低

法律服务成本的高低与法律从业者办案效率的高低息息相关,对法律服务提供者本身而言,其自身办案效率的提高可以降低其单位案件提供服务的成本;对当事人而言,大数据时代另一项技术的发展则有望使其真正受益:随着面向当事人的法律智能问答技术不断发展,在法律智能问答产品自身的推理、决策能力达到一定程度,与用户的交互能力获得巨大进步后,对于诸如婚姻家庭、交通事故、劳动争议等日常生活中发生的一般性的法律事务,“智能法律咨询”产品或许可以满足当事人的法律需求,在成本方面,依托其规模性,“智能法律咨询”产品具有明显的价格优势,借助其价格优势,对于一般性的法律事务,一般民众获取法律服务的成本可能大大降低。


  • 法律检索技术实质性的飞跃

法律检索不仅关系法律服务成本的降低、服务效率的提高、而且关系相似案件的发现、法律适用结论的正确与否,对法律人的重要性自不必多言。


在通用检索领域,自谷歌引入知识图谱技术以来,用户真切的感受到了其在检索结果精准性方面的进步。


在法律行业,引入法律知识图谱可获得类似效果,法律搜索引擎将以法律要素相似的方法进行检索,由主要匹配与被检索对象属性相似、文本相似的案件,转向匹配与被检索对象含义相似的案件,其在检索的精准性、效率性方面,可谓实现了质的飞跃。


尽管当前技术发展可供支撑要素式检索的案由、罪名还比较有限,但随着时间的推移、技术的发展,要素式检索方法也将趋于成熟、稳定,可以预见,这一检索方式将极大便利法律人的检索需求。


  • 公平正义的有力保障

公平正义可谓法追求的核心价值之一,在立法层面,立法机关日益重视科学立法,强调以“良法”为法的公正实施奠定坚实基础;在法律适用方面,历次司法改革都将实现司法公正作为改革的核心目标之一,为此,两高等单位通过发布指导案例、建立健全法律适用分歧解决机制等系列手段促进法律适用与裁判尺度的统一。


步入大数据时代,依托日益丰富的数据库、大数据时代的各种技术手段、结合统计学等学科中的分析工具,可以广泛开展法律实施效果的观察,特别是对法律条文中内涵宽泛、理论上各方理解分歧显著的内容进行大数据观察,使观察结论成为了解司法实践、评估立法水平的重要手段。


以刑事法学界热议的“精准量刑”问题为例,近年来量刑问题在法律适用公正性中的地位日益得到重视。尽管各界对能否利用大数据辅助量刑仍存在诸多争议,但在我国当前阶段的国情下,结合过往单纯由法官进行量刑的实务情况,相较于部分地区运用大数据辅助量刑的实践结果,运用大数据辅助量刑仍获得不少肯定性评价,运用大数据辅助量刑仍被有关机关赋予较高的期望值,当然大数据辅助量刑的实施并不能一蹴而就,运用大数据辅助量刑的部分法理基础仍需不断论证,支撑大数据辅助量刑的技术手段仍需不断突破,相信经过扎实的努力,大数据在促进法律适用和裁判尺度的统一方面可以发挥重大作用。


  •  法学研究素材的极大丰富

近年来,运用海量裁判文书开展法学研究的学术文章如雨后春笋般涌出,传统上,法学研究者在获取研究资料时,大多依赖小范围内的调研、抽样等方式收集研究资料,步入大数据时代,随着数据库的不断丰富和各项技术的不断成熟,对研究对象进行趋向全量化的观察成为可能,获取研究资料的成本也将大大降低、效率不断提高,这无疑为法学研究运用定量分析方法开展研究提供了丰富的素材,当然,这并非排斥运用“参与观察、深入访谈”等定性分析研究方法继续开展法学研究,期待运用各种研究方法的产物百花齐放、百家争鸣,共同推动法学研究水平的提高和繁荣。



03、

“大数据时代”法律行业面临的挑战

“科技是把双刃剑”,大数据作为“技术进步”的典型产物之一,无疑也是把双刃剑,步入大数据时代,法律行业需要应对系列挑战,其中较为典型的为:如何避免裁判文书等司法数据对公民隐私与个人信息的过度侵犯;如何科学定位智能产品在法律运行中的角色、平衡大数据运用与法的不同价值之间的关系等。


  • 裁判文书公开等可能对公民隐私与个人信息造成侵害

就目前的数据库而言,以裁判文书为基础文本数据占据主要地位。在我国,裁判文书公开承担着保证司法公开、促进司法公正的重要功能,但诉讼活动中形成的裁判文书必然包含大量的公民信息甚至个人隐私。


尽管最高人民法院已未雨绸缪,已连续发布《关于人民法院在互联网公布裁判文书的规定》多个文件,指引公布主体科学、合理公开裁判文书,避免对公民的个人信息与隐私造成不当侵犯,但受制于实践中各种复杂因素的影响,文书公开并未达到理想的效果。


目前的裁判文书中,仍有个别文书存在诸如对公民身体状况、受害人信息(特别是性犯罪等特定案件中受害人信息)的不当披露;即使在符合文书屏蔽规定的情形下,对已公开的文书,仍可能通过多种手段对其中的信息进行大数据分析,这可能会对当事人造成巨大困扰。


除此之外,随着“庭审直播”方式的流行,对庭审直播中公民隐私与个人信息的屏蔽面临更大的挑战。


为此,需要一套完善的信息屏蔽系统、科学的指引规范,为公民个人隐私与信息的保护提供强有力的保障。


  • 人工智能技术可能存在的“可解释性”问题

在人工智能技术由“专家系统智能”向“计算智能”演变的过程中,人工智能技术的不透明和不可预测性会随之增强。


近年来,“大数据杀熟”“价格歧视”成为社会公众热议话题之一,显现出大数据技术被不当利用后产生的不利后果。在法律行业,随着人工智能技术在司法领域内的深度应用,特别是运用算法作出司法结论的情形下,如果这一过程未经相关主体充分论证、未被决策者充分理解,则可能产生损害法的公平正义和当事人权利的重大伦理危机。


全球范围内,以“威斯康星州诉卢米斯案”为代表的典型案例已引起了对运用算法技术得出司法结论正当性的广泛讨论;在国内,早期“电脑量刑”的实践已销声匿迹,目前人工智能技术在司法实践中的运用仍被限定在“辅助”地位,且在可预见的相当时期内,法律人工智能产品只能被限定在辅助司法官办案的角色。


当下,对于如何科学定位智能产品在法律运行中的角色这一问题,需要予以理性认识,算法技术支撑下的法律智能产品应用于哪些领域不涉及法律伦理危机,运用于哪些场景下,需要经过严格评估和风险管控,有待深入探讨和充分论证。


未来,随着人类对人工智能技术认识的不断深入,算法的“黑箱”或许可以被揭开或得到解决,这依赖于人工智能、法学理论的双重发展引领其实现科技向善。当然,法律根植于各国自己的民族文化之中,法律人工智能技术在各国运用的具体场景也需各国根据本国的实际情况作出最符合自己国情的选择。


  • 法律人工智能技术发展历程的漫长与艰辛

当下的法律人工智能技术仍处于发展的“史前阶段”,“有多少人工就有多少智能”常被法律科技从业者用来自嘲,法律人工智能技术发展的“真实当下”的确与此有些相似。特别是受制于法律行业规则的复杂、严谨,人工智能技术要在法律行业取得重大突破需要付出更为艰辛的努力。


目前,奠定法律人工智能基石的法律数据仍然处于原始积累阶段,作为法律人工智能技术获得认知力基础的法律知识图谱还不能实现自下而上的机器构建,法律知识库的构建仍然需要大量人工进行干预,不免使得知识图谱存在较强的主观性、法律数据的获得成本过高,这些问题的解决不仅需要大量的成本投入,还需要探索科学的方法,确保底层数据的准确、高质量。


由法律人参与甚至主导的法律人工智能发展之路,不仅需要法律人具备深厚的法学素养,还需要其学习计算机方面的有关知识,人才培养、技术进阶之路绝非朝夕之内可完成,法律人工智能技术的发展需要经历漫长历程。



04、

理性拥抱大数据时代

尼尔·波兹曼曾言“每一种新技术都既是包袱又是恩赐”,人工智能以其强大的变革能力,既为实现人的全面发展提供强大动能,也可能挑战人类社会现有的运行法则,使人类产生“被控制、被支配”的恐惧。


当下,面对大数据技术在法律行业的应用,社会各界存在不同声音,甚至抱有完全相反的看法,这完全可以理解,目前,围绕人工智能本身的内涵外延就存在诸多争议,法律本身也追求不同价值,并平衡各种价值间的冲突。


面对法律行业在大数据时代的发展,需要保持头脑清醒、理性看待各种利弊。完全排斥数据革命、抵制大数据技术在法律行业的应用,既不现实更不理智。


事实上,现阶段的人工智能技术还远未达到令人恐惧的地步,大数据技术在法律行业的应用也并未有损法的公平正义的底线,我们有足够的时间、智慧来论证大数据技术在法律行业的下一步应用。


当下充分认识人工智能技术给法律行业带来的利好,对其加以恰当利用,可以缓解法律需求与法律服务日益严峻的矛盾,促进法律人生产力的解放。


拥抱大数据,不代表我们盲目追求法律行业的智能化而放弃人的主体地位,更不是忽视甚至放任大数据技术可能产生的弊端。我们需要对大数据时代法律行业面临的各种挑战展开充分研究,引导人工智能技术在法律行业的应用朝向健康的方向前进。



以上是关于GPT-4,大增长时代的序幕的主要内容,如果未能解决你的问题,请参考以下文章

GPT-4理论篇-1GPT-4核心技术探秘

道阻且长,未来可期,从GPT-4窥得通用人工智能时代的冰山一角!

地表最强AI,GPT-4专治各种不服

文心一言 vs GPT-4实测!

文心一言 vs. GPT-4 —— 全面横向比较

GPT-4 还没玩透,GPT-5已遭众人围剿