胡扯系列之私人AI助手系统的分析与设计

Posted 2022-12-16 Huterox

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了胡扯系列之私人AI助手系统的分析与设计相关的知识，希望对你有一定的参考价值。

背景

随着时代的发展，计算机算力的提升和近些年来AI模型的井喷以及发展。人工智能应用已经深入我们的日常生活。如人脸识别，无人驾驶等等，同时为了更好地与用户进行交互，完成特定功能，智能对话助手应运而生。如今大量智能移动设备已经搭配具备对话，实现特定功能的AI助手用于提高用户使用体验。但目前大量的AI助手只是具备简单的对话和应用操作等基本功能，并不能对使用者的操作习惯，会话习惯等进行自适应调节，使得助手更加适配与当前使用者。因此作者期望能够设计一款，能够在移动设备或其他终端设备中运行，并且能够根据用户习惯行为做出自适应调整的AI助手。实现在“一千个用户中，有一千个不同的AI助手”。

问题描述及分析

问题描述

本文标题为“私人AI助手系统的分析与实现”，其目的是实现一个能够在基础AI助手，对话，特定功能操作的基础上。能够自适应用户操作习惯的助手，即达成用户与AI助手相互反馈最终实现助手自适应调节，同时能够支持算力较低的终端设备，在终端设备中完成一系列自主适应。

AI助手

分析：通过对本文目标进行简单概括，可以提取出如下关键词：AI助手，自适应，低算力。AI助手是基本的功能，也是为用户提供服务的门户。自适应是对AI助手的进一步优化，如何让AI助手实现自调整，之后能够在算力资源更低的情况下完成所有操作是本文中的重点。因此需要解决的问题为两个方向的和一个低算力约束的大问题。因此在实现时，需要选择算力消耗更小的架构实现以及算法模型。所以针对第一个问题，即实现基本AI助手上，将通过多个小模型来完成基本功能的实现，同时由于大部分终端都提供语音识别功能，因此在助手设计上，可先通过设备提供的语音识别功能将用户输入语音转化为文本，之后对文本进行操作分析，最终实现操作。大致流程如图（1）所示：

                          图1 AI助手大致执行流程图

因此在这部分中的主要技术是于文本的处理。由于一开始就确定使用小模型来完成目标，因此对AI助手本身组成的模块又可以分为图（2）所示，拆分为三个小模块。

                             图2 AI助手模块图

所涉及到的技术就主要为文本对话生成，文本内容识别分类。完成用户的聊天和具体操作，从而完成基本AI助手实现。

自适应

第二个需要解决的问题是如何能够完成自适应。结合对应AI助手的基本设计，可以发现如果需要完成自适应，那么重点是如何调整意图分类识别和Chat网络之间的权重。从而完成自适应调节。而能够对权重进行调节的方式除了直接进行训练外，还有通过强化学习[1]方法或者GAN[2]方法进行权重修改训练。第一种方式需要将用户与AI助手交互的数据进行收集，例如对Chat模块进行自适应，那么就需要将用户与助手聊天产生的数据自动制作为数据集，送入模型重新训练。第二种则依托于强化学习方法，需要用户与助手在交互过程中，由用户主动基于反馈，也就是基于当前模块网络评分，之后通过强化学习方法对模型进行调整。第三种方案是在第二种方案的基础上，在采用第二种方法时用户需要给予反馈可能会导致用户体验下降，但是在第二种的权重修改过程中又需要优化给予及时反馈来指定reward完成调节。因此使用Gan中的评判网络模型可以模拟当前用户给予reward辅助第二种方式进行训练调节，最终完成助手的自适应调节。为了更好地完成自适应，当前更好的方案显然是将上述方案进行整合，相互结合使用。大体流程如图（3）所示

                                 图3 自适应流程

算法设计

算法设计部分，共分为两大部分，即分为：AI助手设计和自适应模块设计。由于自适应模块修改自由度更高，其本质是对模型的优化优化，因此在算法设计当中主要阐述如何进行优化，其执行流程是如何进行的。在AI助手部分，将阐述网络的设计与优化和基本架构。
AI助手的算法设计，在上一小节已经给出了其大致的设计结构，主要设计为两个网络的使用。对于图（1）中的意图识别和对话聊天。意图识别主要作为一个文本分类任务进行。而在这方便将采用实现好的FastText[3]来完成这部分工作。FastText一个非常高效的，基于词向量化的，用于文本分类的模型，通过它可以快速实现文本分类，同时简单的网络架构便于运算和权重调整。此外在此模型还中涉及到了不少的用于提速和准确率的小技巧。例如在fasttext加入了n-grams的思想，在最后输出概率时做了层次化softmax操作，通过哈夫曼树将每一个类别标签放置在对应子节点中，将softmax操作转换为层次化二分类任务，通过求解条件概率计算出完整概率。此外还值得一提的是，FastText作者在先提出了word2vec[4]，后推出此模型。

                        图4 FastText模型示意图

                        图5 层次化Softmat

聊天模块设计，这部分设计将暂时采用Seq2Seq[5]架构进行网络模型搭建。分别为Encoder与Decoder结构，示意如图（6）

                                   图6 总体示意图

同时对应Encoder与Decoder均采用GRU[6]网络结构，与LSTM[7]相比在效果上类似，单元结构如图（7），（8）所示。但是GRU在运算过程中不需要输入C0，相对而言降低了参数消耗，简明了网络结构，同时也方便在后序对Attention机制进行修改。当前在此模块中的Decoder模块中引入了Luong[8]机制。

                                   图7 LSTM单元结构图

                                   图8 GRU单元结构图

基本运行流程如下，首先将用户语音转化为一个句子通过转化为词向量后送入Encoder，之后由Decoder生成句子。Decoder得到由Encoder最后一层网络输出，通过逆向生成句子的形式，循环生成每一个对应时间步上的词。词的生成由Decoder最后一次输出得到的概率生成。例如：在一个句子中有10个词，数据集上有1万个词。那么最后由Decoder将得到10*1W的概率矩阵，之后在对应时间步上组合成句。值得一提的是，目前作者也考虑到在得到概率是需要通过Softmax函数进行计算，其计算量以及最后产生的参数量较大。因此作者正在参考Yolo[9]算法，将概率问题转化为全回归问题，减少计算量，通过进位取舍的方式将连续预测数值转化为离散预测。
自适应模块设计，在自适应模块中，采用了在第二小结提到的方案，采集与用户交互后以及在云端传入的新数据进行异步训练。在一开始，将先通过基本语料，基本意图数据先对上述两个模块进行训练。此训练作为预训练，一方面可以在开始阶段为用户提供服务，之后随着用户使用，关于用户本身的数据增加，以及其他类似用户数据进行进一步训练。这一修改训练依赖于用户数据，在理论上将在与用户间的交互上更加适用用户，但需要足够的数据后进行批量处理。因此在此基础上增加了在第二小结中提到的第三种权重自适应方案。该方案主要有两大部分构成，基于强化学。习思想的动态改变，还有基于GAN思想的动态改变。两者的目的与设计目的不同。大致关系如图（9）中所示。

                                  图9 二者关系

整个过程中，在开始初步阶段中，需要用户进行大量互动，给予反馈。这个过程类似于人与人之间的认识过程，在认识初期需要双方不断给予反馈，不断提示对方。在后期双方足够了解后，不在需要明显的暗示与说明。在整个结构的GAN结构的作用在于理解用户的行为操作，在后期随着用户满意度上升，GAN对当前状态输出的Reward权重将不断上调，同时降低用户额外的用于自适应的反馈。GAN用于理解用户的个性，行为。基于强化学习的结构对AI助手进行自适应训练，根据行为调整，在本文中用于调整权重。用人作为比喻，GAN结构相当于，大脑复杂分析基于部分决策，强化学习部分相当于小脑和神经结构。完成响应与调节，并且在这一这部分中，AI助手相当于Actor，等价于人的身体完成行为操作。至此完成整个自适应策略，同理在这两个部分的初始化权重，依然可以考虑先进行预训练，具备一定能力后进行开放。
至此，整个系统的基本算法分析阐述完毕，在未来，不仅仅可以对Actor进行优化，还可以对整个自适应架构进行优化。此外对应自适应架构而言，Actor并不唯一，这意味在未来引入多模态完全成为可能，对于AI助手的扩展能力也将进一步扩充。至于在这一结构是否能够在小样本，小模型下达到期望效果就将交于时间进行考量了。

体会

目前通过初步探索以及部分模块的实现，作者对于整个系统的设计与实现有了大致理解。目前在本文提到的模块中存在大量优化空间。例如在AI助手的聊天模块中，采用单纯的Seq2Seq结构，对于注意力机制的实现较为简陋，在未来可以考虑参考transform[10]架并对其架构进行轻量化削减引入这一模块。同时在最终生成文本阶段，除了可以考虑参考YOLO全回归预测外，还可以考虑引入CNN[11]在词向量空间中做进一步信息提取，还可以降低网络参数提高运行效率。而在自适应架构中，对应强化学习部分，可以考虑比DDPG[12]算法更加优良稳定的算法。在GAN部分，可以试着引入新的优化，参考Diffusion Model[13]将生成器直接生成Reward。跨过本文提到的AI私人智能助手，当下在NLP领域中各路模型百花齐放，今日火爆的ChatGPT更是达到了惊人的效果。在大模型[14]，大数据的加持下，AI充满了希望和挑战，属于智能的时代才刚刚开始，尽管好的效果依然随着大模型，大算力发展。

引用文献

[1] Sutton R S, Barto A G. Reinforcement learning: Anintroduction[M]. Cambridge: MIT Press,1998.
[2] Hao D , Neekhara P , Chao W , et al. Unsupervised Image-to-Image Translation with Generative Adversarial Networks[J]. 2017.
[3] Joulin A , Grave E , Bojanowski P , et al. Bag of Tricks for Efficient Text Classification[J]. 2017.
[4] Mikolov T , Chen K , Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.
[5] Sutskever I , Vinyals O , Le Q V . Sequence to Sequence Learning with Neural Networks[J]. Advances in neural information processing systems, 2014.
[6] Dey R , Salemt F M . Gate-variants of Gated Recurrent Unit (GRU) neural networks[C]// IEEE International Midwest Symposium on Circuits & Systems. IEEE, 2017:1597-1600.
[7] Greff K , Srivastava R K , Koutnik J , et al. LSTM: A Search Space Odyssey[J]. IEEE, 2017(10).
[8] Luong M T , Pham H , Manning C D . Effective Approaches to Attention-based Neural Machine Translation[J]. Computer ence, 2015.
[9] Redmon J , Divvala S , Girshick R , et al. You Only Look Once: Unified, Real-Time Object Detection[C]// Computer Vision & Pattern Recognition. IEEE, 2016.
[10] Vaswani A , Shazeer N , Parmar N , et al. Attention Is All You Need[J]. arXiv, 2017.
[11] Haykin S , Kosko B . GradientBased Learning Applied to Document Recognition[M].
[12] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, D. Wierstra, Continuous control with deep reinforcement learning, 4th International Conference on Learning Representations, ICLR 2016 - Conference Track Proceedings (2016). arXiv:1509.02971.
[13] Ho J , Jain A , Abbeel P . Denoising Diffusion Probabilistic Models[J]. 2020.
[14] Taylor R , Kardas M , Cucurull G , et al. Galactica: A Large Language Model for Science[J]. 2022.

以上是关于胡扯系列之私人AI助手系统的分析与设计的主要内容，如果未能解决你的问题，请参考以下文章