RLHF技术在机器理解人类指令领域的前景和应用
Posted 勤奋学习研究牲
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RLHF技术在机器理解人类指令领域的前景和应用相关的知识,希望对你有一定的参考价值。
RLHF技术在机器理解人类指令领域的前景和应用
前言
机器理解人的指令需要通过自然语言处理技术。自然语言处理是一种人工智能技术,它可以将人类语言转化为机器可以理解的形式,从而让机器能够理解人的指令。
自然语言处理的过程包括语音识别、语言理解、语言生成等步骤。首先,机器需要将人的语音转化为文本,这就是语音识别。然后,机器需要对文本进行分析,理解人的意图和要求,这就是语言理解。最后,机器需要将理解的结果转化为自然语言,这就是语言生成。
为了实现更加准确的自然语言处理,机器需要不断学习和优化。机器学习算法可以帮助机器自动识别和学习语言规则和模式,从而提高机器理解人的指令的准确度和效率。
RLHF可以发挥作用的地方:学习一种良好的识别和学习语言规则和模式(模型训练)
结合《Recursively Summarizing Books with Human Feedback》的思路,直接通过机器去领会人类意图难度较大。因此,将人类意图识别拆分为几个小的模块具有相当的可行性。具体而言,将人类意图拆分为:情绪判断、语义理解、实体识别、意图分类、槽位填充、对话管理、意图追踪七个主要部分。
机器对指令的理解是通过程序设计和人工智能技术实现的。程序设计是指在机器中编写一系列的指令和算法,以便机器能够理解和执行这些指令。人工智能技术则包括自然语言处理、机器学习、深度学习等,通过这些技术,机器可以更加准确地理解人类的指令,并能够自主学习和适应新的指令。
在实际应用中,机器可以通过语音识别技术将人类的口头指令转化为文字指令,然后通过自然语言处理技术对这些指令进行理解和分析,最终转化为可执行的指令。同时,机器也可以通过视觉识别技术来识别人类的手势和面部表情等非语言指令,从而更加全面地理解人类的意图。
一、总论
一言以蔽之:我们可以结合CV技术和NLP技术更好的使机器理解人类的意图。而在强化学习技术中,《Deep Reinforcement Learning from Human Preferences》介绍了一种基于人类反馈的强化学习技术,这种技术在NLP和CV领域有着较强的应用前景,因此,对于人类意图识别的过程中,RLHF技术有着非常广阔的应用空间。
二、人类意图识别可以分成哪些部分进行研究
1.情绪判断
通过照片和现有语料的收集和判断,生成情绪的数据集,结合已有的情绪识别模型,搭建基于RLHF的情绪识别模型。
机器如何进行语义理解?
1. 数据收集:
机器需要收集人类情绪相关的数据,例如语音、面部表情、心率、皮肤电反应等。
2. 数据预处理:
机器需要对收集到的数据进行预处理,包括数据清洗、标准化、特征提取等。
3. 情感分类:
机器需要使用情感分类算法,将收集到的数据分类为不同的情感类别,例如愤怒、快乐、悲伤等。
4. 情感分析:
机器需要对情感分类的结果进行分析,了解情感的强度、持续时间、原因等。
5. 情感反馈:
机器需要根据情感分析的结果做出相应的反馈,例如语音合成、表情展示、建议等。
RLHF技术如何在情绪判断方面发挥作用?
1. 收集人类的情绪反馈:
可以通过问卷调查、人工标注等方式收集人类对不同情绪的反馈,如高兴、悲伤、愤怒等。
2. 构建RLHF模型:
通过将收集到的人类反馈数据与情绪识别模型结合,构建一个RLHF模型,该模型能够根据人类反馈来调整情绪识别模型的参数,从而提高模型的准确性和鲁棒性。
3. 训练RLHF模型:
在训练过程中,模型会根据人类反馈来调整情绪识别模型的参数,以提高模型的准确性和鲁棒性。
4. 应用RLHF模型:
在实际应用中,可以将RLHF模型与情绪识别模型结合,以提高情绪识别的准确性和鲁棒性。例如,可以将RLHF模型用于对模型进行在线调整,以适应不同的情境和任务。
2.语义理解
通过自然语言处理技术,将自然语言转化为机器可理解的形式,提取出文本中的关键信息。
机器如何进行语义理解?
机器进行语义理解的一般流程如下:
1. 分词:
将一段文本分解成独立的单词或词组,例如,“我爱吃巧克力”可以被分解为“我”、“爱”、“吃”、“巧克力”四个单词。
2. 词性标注:
为每个单词标注其词性,例如,“我”是代词, “爱”是动词,“吃”是动词,“巧克力”是名词。
3. 句法分析:
分析句子的语法结构,例如,“我爱吃巧克力”可以被分析为主语“我”、谓语“爱吃”和宾语“巧克力”。
4. 语义角色标注:
为句子中的每个单词标注其在句子中的语义角色,例如,“我”在这个句子中是主语, “巧克力”是宾语。
5. 语义解析:
将句子中的每个单词和语义角色结合起来,解析句子的语义,例如,“我爱吃巧克力”可以被解析为“我喜欢吃巧克力”。
6. 语义推理:
根据句子的语义和上下文信息,推理出句子的隐含含义,例如,“我爱吃巧克力”可能意味着“我喜欢甜食”。
这些步骤可以通过各种自然语言处理技术和算法实现,例如词向量模型、神经网络、知识图谱等。
RLHF技术如何在语义理解中发挥作用?
RLHF技术可以通过人类的反馈来指导机器学习过程中的决策和优化,从而提高机器的语义理解能力。例如,在自然语言生成任务中,机器可以生成一些候选的语句,然后通过RLHF技术来获取人类的反馈,指导机器选择最优的语句。在自然语言理解任务中,机器可以通过RLHF技术来获取人类的反馈,指导机器更准确地理解人类的语言。通过RLHF技术,机器可以不断地从人类的反馈中学习,不断优化自身的语义理解能力。
3.实体识别
识别文本中的实体,如人名、地名、组织机构等,以便更好地理解文本的含义。
机器如何进行实体识别?
机器进行实体识别的方法通常包括以下步骤:
1. 分词:
将输入的文本按照单词进行分割,得到一个个单独的词语。
2. 词性标注:
对每个单词进行词性标注,例如将名词、动词、形容词等进行标记。
3. 实体识别:
根据已有的实体类型,对文本进行扫描,识别出文本中的实体,并将其分类为不同的实体类型。
4. 实体链接:
将识别出的实体与知识库中的实体进行链接,获取实体的详细信息。
5. 关系抽取:
在已经识别出的实体之间,抽取出它们之间的关系,例如“X是Y的父亲”、“X属于Y”等。
在实体识别过程中,常用的技术包括基于规则的方法、基于统计的方法和深度学习方法。其中,深度学习方法通常采用循环神经网络(RNN)或卷积神经网络(CNN)等模型。
RLHF技术如何在实体识别中发挥作用?
RLHF技术可以将实体识别任务转化为一个强化学习问题,将人类的反馈作为奖励信号,通过与人类交互不断学习优化模型,从而提高实体识别的准确率和鲁棒性。
例如,在命名实体识别任务中,模型可以根据上下文和先前的知识来预测实体的类别和边界。然后,模型可以将其预测与人类提供的标注进行比较,如果预测正确,则获得正面的奖励,否则获得负面的奖励。通过不断与人类交互,模型可以逐步学习到正确的实体识别方式,提高识别的准确性和鲁棒性。
总之,RLHF技术可以通过与人类交互来学习实体识别任务,从而提高模型的性能和可用性。
4. 意图分类
根据文本的内容和上下文,判断用户的意图,如询问、咨询、投诉等。
机器如何进行意图分类?
机器进行意图分类通常涉及以下步骤:
1. 数据预处理:
将原始文本数据转换为可供模型使用的格式,例如分词、词性标注、去除停用词等。
2. 特征提取:
从预处理后的文本数据中提取特征,例如词袋模型、TF-IDF、词向量等。
3. 模型训练:
使用机器学习或深度学习算法训练意图分类模型,例如朴素贝叶斯、支持向量机、神经网络等。
4. 模型评估:
使用测试数据集评估意图分类模型的性能,例如准确率、召回率、F1值等。
5. 模型应用:
将训练好的意图分类模型应用于实际场景中,例如智能客服、智能助手等。
在实际应用中,还可以结合规则引擎、对话管理系统等技术,进一步提高意图分类的准确性和实用性。
RLHF技术如何在意图分类中发挥作用?
RLHF技术可以将人类的反馈作为奖励信号,通过强化学习的方式来调整模型的参数,使模型在预测意图时更加准确。例如,在一个对话系统中,当模型预测用户的意图时,可以将用户的反馈作为奖励信号,如果模型的预测结果与用户的实际意图相符,则给予正反馈,否则给予负反馈,通过不断调整模型的参数,使其能够更好地预测用户的意图。另外,RLHF技术还可以结合其他自然语言处理技术,如实体识别、语义理解等,来进一步提高意图分类的准确性和效果。例如,在预测用户的意图时,可以先进行实体识别和语义理解,然后将这些信息与用户的反馈结合起来,通过RLHF技术来调整模型的参数,从而更加准确地预测用户的意图。
5. 槽位填充
对于需要进一步了解的信息,通过提问或者对话来填充相关的槽位,以便更好地满足用户需求。
机器如何进行槽位填充?
机器进行槽位填充的一般流程如下:
- 首先,机器需要根据用户的输入识别出其意图,了解用户想要执行的任务。
- 机器根据意图,确定需要填充哪些槽位,并将这些槽位与对应的实体进行匹配。
- 机器根据用户输入中提供的信息,填充相应的槽位。这可能涉及到实体识别、关系抽取、自然语言生成等技术。
- 机器将填充后的槽位与意图进行匹配,以确保所有槽位都被正确地填充。
- 最终,机器将填充后的槽位与意图一起使用,执行用户请求的任务。
需要注意的是,不同的对话系统可能会有不同的实现方式和技术组合,因此具体的实现细节可能会有所不同。
RLHF技术如何在槽位填充中发挥作用?
- 首先,系统需要从用户的输入中识别出意图(intent)和需要填充的槽位(slot)。
- 然后,系统会根据当前的语境和历史对话,生成一个候选的回答。
- 接下来,系统会将这个回答展示给人类操作员(human operator),并询问其是否正确。
- 如果操作员认为回答正确,那么系统会将其保存下来,并将其作为下一次生成回答的基础。
- 如果操作员认为回答不正确,那么系统会根据操作员的反馈进行调整,并生成一个新的候选回答。
- 这个过程会不断重复,直到系统生成的回答得到操作员的认可。
通过这种方式,RLHF技术可以帮助系统不断优化槽位填充的准确性和流畅度,提高人机交互的效率和用户体验。
6. 对话管理
根据用户的意图和对话历史,合理地安排机器人的回复,保证对话的连贯性和有效性。
机器如何进行对话管理?
对话管理是指在对话系统中控制对话流程的过程,主要涉及到对话状态的维护、对话策略的制定和对话行为的生成等任务。以下是一般的对话管理流程:
1. 对话状态追踪:
对话系统需要实时追踪当前对话状态,包括用户的意图、已经提到的信息、对话历史等等。这个过程通常需要使用自然语言理解和意图分类等技术。
2. 对话策略制定:
根据当前对话状态,对话系统需要制定合适的对话策略,即确定下一步系统应该采取什么行动,例如询问用户缺少的信息、提供相关信息、引导用户进行操作等等。这个过程通常需要使用强化学习等技术。
3. 对话行为生成:
对话系统根据制定的对话策略,生成相应的对话行为,例如生成回答、提问、引导用户进行操作等等。这个过程通常需要使用自然语言生成等技术。
4. 对话流程控制:
对话系统需要控制对话的流程,例如在需要时转移对话主题、结束对话等等。
总的来说,对话管理需要综合使用自然语言理解、意图分类、强化学习、自然语言生成等多种技术,以实现对话系统的智能化和人性化。
RLHF技术如何在对话管理中发挥作用?
对话系统可以采用强化学习的方法,将对话过程视为一个马尔可夫决策过程,通过人类的反馈来调整策略,使得对话系统能够更好地满足用户的需求。
在对话管理中,RLHF技术可以用于以下方面:
1. 策略优化:
对话系统可以通过RLHF技术来学习最优的策略,以便更好地满足用户的需求。
2. 对话状态跟踪:
对话系统可以使用RLHF技术来跟踪对话状态,以便更好地理解用户的意图和需求。
3. 对话动作选择:
对话系统可以使用RLHF技术来选择最优的对话动作,以便更好地满足用户的需求。
4. 对话评估:
对话系统可以使用RLHF技术来评估对话的质量,以便进一步优化对话系统的性能。
总之,RLHF技术可以帮助对话系统更好地理解和满足用户的需求,从而提高对话系统的性能和用户满意度。
7. 意图追踪
对于复杂的对话,需要对用户的意图进行追踪,以便更好地理解用户需求,并提供更加个性化的服务。
机器如何进行意图追踪?
机器进行意图追踪的主要方法是使用对话状态追踪器(Dialogue State Tracker,DST)。DST是一个模型,它根据当前对话的上下文和用户的输入,预测当前对话状态。DST通常是基于统计模型或机器学习模型的,其中一种常用的方法是使用有向图模型来表示对话状态。
在对话开始时,DST会初始化对话状态,通常包括意图、槽位和上下文等信息。在用户输入新信息时,DST会更新对话状态并预测用户的意图和目的。这些预测结果可以用于确定下一步的对话策略,例如选择适当的回复或提出更多问题以获取更多信息。
DST的性能通常受到训练数据的质量和数量的影响。为了提高DST的性能,通常需要使用大量的训练数据,并使用一些技术来增强数据的多样性和质量。例如,可以使用数据增强技术来生成更多的训练数据,或使用迁移学习技术来利用其他任务的预训练模型来提高DST的性能。
RLHF技术如何在意图追踪中发挥作用?
当对话系统无法准确地理解用户意图时,它可以向用户提出一些问题,以获得更多的信息。然后,对话系统可以将这些信息作为RLHF的反馈,以改进其意图追踪模型。例如,当用户说“我想去看电影”,但对话系统无法确定用户想看哪部电影时,它可以向用户询问电影类型或地点等信息。然后,对话系统可以将用户提供的信息作为RLHF的反馈,以改进其意图追踪模型,从而更好地理解用户意图。
总结
以上就是今天要讲的内容,本文仅仅简单介绍了关于人类意图识别和理解的几7个方面内容,并且根据拆分的7各方面,介绍了RLHF技术在其中发挥的作用,更深入的研究,还需要大家共同的努力。
(欢迎大家指出文章的不当之处,共同交流讨论。)
人类无法感知理解的机器知识在爆发增长:4.5星王维嘉《暗知识》
参考技术A 关于人工智能的科普。包括技术原理、商业应用的现状与展望、人工智能未来发展等方面。作者在斯坦福的博士导师是神经网络鼻祖之一,书中对人工智能原理的介绍比较深入。
对人工智能的商业应用,书中花了比较多的篇幅说自动驾驶,看得出来作者在这个领域有比较深入的研究。其他许多领域如医疗、金融、翻译、科研、写作、绘画等也有介绍。
所谓暗知识,就是人工智能发现的、人类无法感知和理解的知识,比如AlphaGo的围棋决策。作者介绍说这类暗知识在爆发式增长,很快会对人类 社会 产生深远的影响。
书中还有以下重要的信息或观点:
1:暗知识非常容易在机器间传播;
2:未来AI需要用到的数据,大部分都不在当前互联网巨头们手里;
3:AI不会像互联网一样赢家"通吃";
4:自动驾驶生态系统中,谁将是产业链龙头还有待观察,可能是芯片或操作系统企业,也可能是内容服务提供商;
5:即使自动驾驶局限在狭义的造车产业,也将会创造全球每年2万亿美元的机会;
6:一场最深刻的革命很可能发生在自然语言翻译和理解领域;
7:军用人工智能技术的发展会落后于民用技术;
8:很难对自动化武器的可靠性进行测试,会思考的机器的行事方式也可能会超出人类控制者的想象;
9:虽然人工智能在记忆和识别这两个基础智能方面超过了人,但在推理、想象等高级智能方面还和人相去甚远;
10:女性 情感 比男性丰富,所以比男性更难被机器取代;
11:不论是个人生活中的决策,还是商业决策,只要机器有过在类似场景下大量的测试,就可以信任机器;
12:目前人工智能离产生意识还有很大举例;
总体评价4.5星,非常好。
一个小疑问,书中的图4-2,AI的产业链金字塔结构,塔尖是基础,塔底是应用,有点别扭,改成树状把塔尖塔底倒过来更符合常规做法。
以下是书中一些内容的摘抄:
1:AlphaGo Zero证明了即使在最具有挑战性的某些领域,没有人类以往的经验或指导,不提供基本规则以外的任何领域的知识,仅使用强化学习,仅花费很少的训练时间机器就能够远远超越人类的水平。P7
2:当然最震撼的就是第三个方面。我们也许知道我们不知道很多,甚至能用逻辑推断出未知知识里有比已知知识更高深的知识,但我们怎么也想不到这些知识是人类根本无法理解的。这是人类 历史 上第一次遇到这样的问题,我们给自己造了个“上帝”! P9
3:也就是说,机器发现了人类既无法感受也无法表达的知识。用更通俗的话说就是,机器发现了那些既无法“意会”又无法“言传”的知识。P9
4:目前,脑神经科学的最新研究发现,可表达的记忆并不是对应着一组固定神经元的连接,而是大致地对应于散布在大脑皮层各处的一些连接。原因是用来表达的语言和文字只能是体验的概括和近似。这类可以用语言表达或数学公式描述的知识就是人类积累的大量"正式知识",也可以称为"明知识"。它们记载在书籍、杂志、文章、音频等各种媒体上。P20
5:而绝大部分知识无法用语言表达,如骑马、打铁、骑自行车、琴棋书画,察言观色、待人接物、判断机会和危险等。这些知识由于无法记录,所以无法传播和积累,更无法被集中。英籍犹太裔科学家、哲学家波兰尼(Michael Polyani,1891-1976)称这些知识为"默会知识"或者"默知识"。波兰尼举了骑自行车的例子。P23
6:第三个问题最有意思。由于机器萃取出的知识是以神经网络参数集形式存在的,对人类来说仍然不可陈述,也很难在人类间传播。但是这些知识却非常容易在机器间传播。一台学会驾驶的 汽车 可以瞬间“教会”其他100万台 汽车 ,只要把自己的参数集复制到其他机器即可。机器间的协同行动也变得非常容易,无非是用一组反馈信号不断地调整参加协同的每台机器的参数。P26
7:既然可以感受的是默知识,可以表达的是明知识,那么机器刚刚发现的,既无法感受也无法表达的知识就是暗知识。P27
8:我们现在可以回答“一个人类无法理解的暗知识的表现形式是什么样的”,暗知识在今天的主要表现形式类似AlphaGo Zero里面的“神经网络”的全部参数。P29
9:我们可以预见一幅未来世界的知识图谱:所有的知识分为两大类界限分明的知识——人类知识和机器知识。人类的知识如果不可陈述则不可记录和传播。但机器发掘出来的知识即使无法陈述和理解也可以记录并能在机器间传播。这些暗知识的表现方式就是一堆看似随机的数字,如一个神经网络的参数集。这些暗知识的传播方式就是通过网络以光速传给其他同类的机器。P31
10:暗知识就是那些既无法被人类感受又不能表达出来的知识。也就是说人类本身无法理解和掌握这些知识,但机器却可以。机器有两种方法可以掌握这些知识模仿人脑和模仿演化。P42
11:机器学习中一共有五大学派,最后一个学派是进化学派。他们是激进主义经验派,是彻底的不可知论者。进化学派不仅觉得因果关系是先验模型,甚至觉得类比,神经元连接也都是先入为主的模型。他们认为不管选择什么样的先验模型,都是在上帝面前耍人类的小聪明,世界太复杂,没法找到模型。进化学派的基本思路是模仿自然界的演化随机的基因变异被环境选择,适者生存。P43
12:所以这四个词有下面的包含关系:人工智能>机器学习>神经网络>深度学习。P46
13:为什么深度学习有许多层神经元?这是因为世界上许多信息和知识是可以通过分层表达的。例如人脸是很复杂的一幅图像,但人脸可以先分解成五官,五官的复杂程度就比人脸低了,五官又可以进一步分解为线条。深度学习就是用一层神经元去识别一个层级的信息。P62
14:引起你注意的东西往往都是一小块,例如人的眼睛、天空中的鸟、地上的花。这个叫作图像中信息的局域性。图像的第二个特点是可以分解为更简单的元素,例如风景分解为天空、大地、植物、动物,人物分解为五官。卷积神经网络就是利用图像的以上两个特点进行了大幅度的运算简化。P65
15:这类问题的特点是答案不唯一但知道结果的对错。这种通过每次结果的反馈逐渐学习正确"行为"的算法就叫"强化学习"。在强化学习算法中有一个"奖惩函数",不同的行为会得到不同的奖惩。P76
16:以后哥俩就这么不断重复下去。AlphaGo Zero诞生后的第一局的第一个中盘,哥俩完全是乱下,但第一盘走完就多了一点点知识,哥俩用这点可怜的知识走第二盘就比第一盘靠谱了一点点,架不住计算能力强大,AlphaGo Zero在下棋时每秒钟可以走8万步,平均一盘棋不到400步,所以哥俩一秒钟相当于下200盘棋。每盘长进一点,到第7个小时,也就是相当于下了500万盘棋后就下得像模像样了。P77
17:所以对这个悖论的回答是,人工神经网络虽然是模仿大脑,但它具备了人类没有的三个优势能"感受"人类感受不到的信息,与人脑相比又快又准,每一个神经元的状态都是可测量的。P80
18:打比方说,如果一直用各个品种的白色狗来训练神经网络,让它学会"这是狗"的判断,神经网络会发现这些狗最大的相关性就是白色,从而得出结论白色=狗。在这种情况下,让这个神经网络看见一只白猫,甚至一只白兔子,它仍然会判断为狗。P86
19:神经网络的另一个局限性是无法解释结果为什么是这样,因为人类无法理解暗知识,所以更无法解释。对于神经网络这个"满是旋钮的黑盒子",每个旋钮为什么旋转到那个位置,而不是多一点或者少一点,都是无法解释的。这个不可解释性在许多涉及安全和公共政策的领域都是很大的问题。P87
20:所以今天融资的新创技术型公司都可以说自己是"AI公司"。如果这些公司的技术都使用开源编程框架,它们的技术差别就很小。因此这些公司比拼的是对某个行业的理解和在该行业的营销能力,以及对该行业数据的占先和占有程度。P112
21:今天互联网公司的数据主要是人们使用电脑和手机产生的浏览数据,它们并不掌握下列几大类对人类有用的,AI也需要用的数据。(1)人类本身的数据,例如身体数据和心理数据。(2)环境数据,其中包括自然环境、 社会 环境。(3)各种人类劳动过程数据,例如农业、工业、服务业的过程数据。P118
22:自2012年以来,在AI训练运行中所使用的计算能力呈指数级增长,每3.5个月增长一倍。2012-2018年,这个指标已经增长了30万倍以上。具体说就是2018年谷歌的A1phaGo Zero比2012年ImageNet大赛获胜的AlexNet快了30万倍。P121
23:但在AI产业里目前还没有看到这样的机会,不论是自动驾驶还是人脸识别都是一个一个山头去攻,无法在短期内形成垄断。造成融资泡沫的一个重要原因就是有些投资人还以为AI和互联网一样赢家"通吃",只要投中第一名,多贵都值。P125
24:简单用一句话说就是互联网是toC(对用户)的生意,AI是toB(对企业)的生意。AI中toC的生意都会被现有互联网巨头吸纳,创业者的机会在于toB。P125
25:激进派的代表是谷歌的自动驾驶公司Waymo,谷歌的实验车根本没有方向盘。这一派认为L2和L3很危险,什么时候该人管,什么时候该机器管不仅很难分清,而且两者之间的切换也会产生问题(例如人打盹儿睡着了叫不醒),一步到位全让机器开车反而安全。P139
26:在传统 汽车 产业链中,整车厂商毫无疑问居于龙头地位,具有最强的砍价能力,但是在自动驾驶生态系统中,谁将是产业链龙头还有待观察。如果 汽车 嬗变为电脑和手机,那么掌握核心芯片和操作系统的厂商可能变为龙头。如果 汽车 嬗变为像互联网一样的信息数据平台,那么掌握用户的内容服务提供商可能变为龙头。P152
27:在这三个集团中,英伟达集团的AI芯片能力最强,但Mobileye集团几乎垄断了L2半自动驾驶市场。未来的争斗将主要在这两个集团之间进行。P153
28:即使自动驾驶局限在狭义的造车产业,也将会创造全球每年2万亿美元的机会。如果加上对其他行业的影响,自动驾驶产生的商业机会可能在十年后达到每年十万亿美元的数量级。自动驾驶将是中国今后10~20年面临的最大的一个全球性产业机会。P159
29:自动化写作无论是对新闻行业还是对读者来说,都带来了显而易见的好处。对新闻工作者来说,他们可以把程式化、重复化的劳动交给机器,自己进行更深度的思考与写作,并且在写作过程中能够得到人工智能的支撑,写作后有系统校对。P196
30:当所有人对AI的注意力都集中在诸如自动驾驶、人脸识别等"低垂果实"上时,一场最深刻的革命很可能发生在自然语言翻译和理解领域。这场革命可能改变自几十万年前智人发出第一声有意义的"哼哼"以来的人类文明史。人类有可能第一次无障碍地盖起一座“巴别塔”。P216
31:基于以上原理,机器学习适合做极其复杂的决策,例如制定像 健康 保险这样极其复杂的公共政策,策划诸如诺曼底登陆这样包含大量变量的军事行动。P228
32:由于开放性的学术交流和开源软件,民用技术将进展神速,巨大的商业前景也会造成空前激烈的市场竞争。这一切都会推动人工智能在民用和商用方面快速进展。而军用技术的发展则会落后于民用技术,许多军用技术研发最便宜的方法都是依托在民用技术之上。P251
33:自主化武器失控和错判的风险将一直存在,比如软件代码错误,或者受到网络攻击。这可能导致机器失灵或攻击自己人,或由于系统升级太快,人类伙伴无法及时响应。很难对自动化武器的可靠性进行测试,会思考的机器的行事方式也可能会超出人类控制者的想象。P256
34:但当谷歌让14台机器一起学习的时候,学习的时间就缩短到了100/14-7天。这14台机器都互相联网,当一台机器找对地方或学会了一个技能时,其他所有的机器瞬间都学会了。这种机器之间的交流不仅是无障碍的而且是以光速进行的。P258
35:简单地说,虽然基于神经网络的人工智能在记忆和识别这两个基础智能方面超过了人,但在推理、想象等高级智能方面还和人相去甚远。未来最佳的结合就是人类和机器合作,互相取长补短。P261
36:目前主要的成功案例来自一名叫作威廉姆·多贝尔(William Dobelle)的科学家。1978年,多贝尔在一位盲人的脑内植入了由68个电极组成的阵列,这种尝试使盲人产生了光幻视(视网膜受到刺激时产生的感觉)。在随后的调试中,接受这种治疗的盲人能够在有限的视野内看到低分辨率、低刷新率的点阵图像。P264
37:女性 情感 比男性丰富,所以比男性更难被机器取代。机器取代人的难易程度从易到难将是四肢(体力)——小脑(模仿性工作)——大脑(推理逻辑常识)——心( 情感 )。P278
38:那么这次的AI浪潮又会造成什么样的权力分配呢?在过去几年中我们明显看到AI进一步将权力集中到大公司和政府手中。P287
39:机器已经正确地诊断了许多其他类似的病人。所以不论是个人生活中的决策,还是商业决策,只要机器有过在类似场景下大量的测试,就可以信任机器。当然这里不排除机器出错的概率,这和不排除有经验的医生误诊,不排除大型客机的软件出故障一样。P288
40:目前的人工神经网络是一个确定性系统,虽然我们可以在网络里引人随机性,但是我们并不清楚在哪里和怎样引入这些随机性。这样的随机性有几乎无数的可能组合,任何“不对”的组合都可能使系统无法产生“涌现”。人脑是动物几十亿年进化的结果,其中淘汰了无数无法产生意识的随机组合。P295
以上是关于RLHF技术在机器理解人类指令领域的前景和应用的主要内容,如果未能解决你的问题,请参考以下文章
人类无法感知理解的机器知识在爆发增长:4.5星|王维嘉《暗知识》
人工智能 Open AI 关于从人类反馈 (RLHF) 中强化学习