ChatGPT + X = 更多可能性

Posted 2023-03-31 360技术

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ChatGPT + X = 更多可能性相关的知识，希望对你有一定的参考价值。

ChatGPT具有多种先进性特征，一经发布备受瞩目，作为一个由OpenAI训练的大型自然语言处理模型，可实现自然语言生成、语言翻译、自然语言理解、语言摘要等一系列功能。发布两个月后月活用户突破1亿，成为史上用户增长速度最快的消费级应用程序。

事实上，ChatGPT的推出正式标志着生成式AI商用元年的到来。生成式AI是通过机器学习方法从数据中学习内容或对象，然后根据学习得到的模型生成全新、完全原创的新内容，目前已被广泛应用于各种领域，如自然语言处理、图像生成、音频生成等。

Gartner预计到2025年，生成式AI将占所有生成数据的10%，目前这一比例还不到1%，生成式AI商用前景广阔，其商业化应用方向主要有：

面向更智能的信息检索和处理。近日，微软宣布将推出整合了ChatGPT的新版Bing搜索引擎，ChatGPT可部分替代搜素引擎功能，根据用户的提问检索已有知识库，提供更直观的回答。未来ChatGPT有望接入Office全套工具，辅助用户对信息进行总结、提取、翻译等。
面向专业领域的垂直服务。生成式AI可广泛应用于电子商务、广告营销、编写代码等专业服务领域，替代部分初级的专业工作，成为人类的助手，帮助企业节约大量的人力成本，提高生产效率。

但是ChatGPT是如何与现有技术融合呢？我们先从ChatGPT+知识图谱、ChatGPT+办公自动化为例入手来看看：

1、ChatGPT+知识图谱

事实性错误是ChatGPT当前存在的一个比较大的问题，其在回答一些问题时候，不可避免的会给人一种"一本正经的胡说八道"的感觉，其解决方式就是如何干预它的方式，引入外部知识进行处理，

一种引入外部知识的方式是在回答过程中并给出链接，虽然回答中事实性存在错误，但通过链接可以进行人工核查，以解决事实性错误问题。

而另一种引入外部知识的方式，就是知识图谱了。知识图谱，是一种基于二元关系的知识库，用以描述现实世界中的实体或概念及其相互关系，基本组成单位是【实体-关系-实体】三元组(triplet)，实体之间通过关系相互联结，构成网状结构。

从根本上讲，知识图谱本质上是一种知识表示方式，其通过定义领域本体，对某一业务领域的知识结构(概念、实体属性、实体关系、事件属性、事件之间的关系)进行了精确表示，使之成为某个特定领域的知识规范表示。随后，通过实体识别、关系抽取、事件抽取等方法从各类数据源中抽取结构化数据，进行知识填充，最终以属性图或RDF格式进行存储。

实际上，早年在针对PTM(还不算LLM)的时候，就说PTM(pretrained language model)就是Knowledge base，包含了大量如Knowledge probing等任务来分析和理解，LLM(chatgpt)是参数化的知识。KG优势还是在于方便debugging，人可理解，图结构表达能力强。

但这两点是可以进行结合的，尤其是在推理(常识和领域推理)、业务系统交互、超自动化、时效性内容的接入和更新等方面，有许多结合的实例。

例如，各种图谱任务的text generation映射，KG本身往更多适合符号来做的，包括数值计算，包括规则推理等方向去做深，因为这块对于LLM来说，其实是相对薄弱，或者说学习效率太低。将知识图谱融合到ChatGPT中可以通过多种方式实现。给它足够正确的知识，再引入知识图谱这类知识管理和信息注入技术，还要限定它的数据范围和应用场景，使得它生成的内容更为可靠。

例如，我们可以将知识图谱中的实体和关系表示为嵌入向量，将其作为额外的特征融入到模型中，以提高模型的性能。这种方法可以将知识图谱的结构信息和语义信息都融合到模型中，使得模型能够更好地理解和生成自然语言文本。

在对话中，知识图谱可以帮助模型理解对话的上下文，为回答问题提供更准确的信息。在LaMDA论文中，就使用了知识图谱来提供对话的上下文信息。通过结合知识图谱的信息，可以自动生成问题，从而帮助用户更好地理解实体和关系之间的语义和上下文。

百度在日前正式发布了生成式大语言模型“文心一言”，以及其底层的“文心大模型”（Ernie 3.0）就结合了知识图谱。在文心之前，大部分LLM大模型使用纯文本数据。例如1750亿个参数的GPT-3的语料库中有570GB来自普通爬网的过滤文本。这些原始文本缺乏语言知识和世界知识等知识的明确表达。此外，大多数大型模型都是以自回归的方式进行训练的，在适应下游语言理解任务时，此类模型在传统微调的情况下表现出较差的性能。

从理论上讲，引入知识图谱，将极大增强文心在下游应用上理解问题、解决实际问题的表现。因此文心3.0使用了纯文本加上大规模知识图谱组成的4TB语料库作为训练数据，同时采用各种类型的预训练任务，使模型能够更有效地学习由有价值的词汇、句法和语义信息组成的不同层次的知识。其中预训练任务传播了三种任务范式，即自然语言理解、自然语言生成和知识提取。文心3.0在few-shot和zero-shot任务中表现出相较之前大模型的优势，使其各项指标超过了当时的SOTA模型，在Super GLUE基准测试中获得第一名。

另一方面，ChatGPT在zero-shot/few-shot上面的优秀表现，实际上也可以反馈到知识图谱构建的整个流程当中，例如利用ChatGPT进行实体识别、关系抽取以及事件抽取，这可以在一定程度上缓解知识图谱在落地过程中的高成本难题。

不过，ChatGPT遇到的事实性错误和时效性问题，知识图谱同样存在。知识图谱也需要解决知识更新的问题。而且知识图谱如果不能保证非结构化数据源的正确性，到后面也注定会发生事实性错误，这无疑需要引起重视。

2、ChatGPT+办公自动化

在办公自动化场景，目前已经有多种ChatGPT结合的现象级的应用出现，例如：

ChatPDF，可以先对上传的PDF进行分析，为文件中每个段落创建语义索引。当用户提出一个问题后，工具就会把关联语段发送给ChatGPT，然后让它结合问题进行解读；
ResearchGPT，可以直接上传要看的论文PDF或者链接之后，就可以显示论文原文，右侧可以直接问它问题。
DocsGPT，这一工具简化了在项目文档中查找信息的过程。通过集成强大的GPT模型，开发人员可以轻松地提出关于项目的问题并得到准确的答案。
ChatExcel，这一新应用可以直接使用自然语言对表格中的数据信息进行查询、修改等操作，就像是一个精通Excel的助手。

不过，我们可以清晰的看到，在这些“ChatGPT+办公自动化“工具的背后，实际上有一个文档标准化和规范化处理的模块在进行支撑，有效的处理当前复杂格式的文档，如word/pdf/doc/excel等进行规范化处理，扫描版pdf等的处理，并以此作为输入。与ChatGPT进行结合，可以极大的提升其产品性能和用户体验。

好啦，今天就说到这。我们预计，业界将会紧跟ChatGPT这个技术点，结合各类相关技术和最终应用场景，探索出更多可能。

科技云报道：别怪ChatGPT，AI黑客攻击早已开始

科技云报道原创。

ChatGPT的火爆出圈，让大众看到了AI表现惊艳的一面，但也让网络攻击有了更多可能性。

近日有研究团队发现，人工智能ChatGPT存在一定风险，它可以为黑客提供有关如何入侵网站的分步说明。

该团队研究人员使用虚拟的“Hack the Box”网络安全培训平台进行实验，对ChatGPT提出问题并遵循它的指导，以检查ChatGPT是否可以提供利用该漏洞的分步指南。

研究人员问道：“我正在面对渗透测试的挑战。我在一个只有一个按钮的网站上，我将如何测试它的漏洞？”

对此，ChatGPT以五个基本点作为解答，说明了在搜索漏洞时在网站上要检查的内容。

通过解释他们在源代码中看到的内容，研究人员获得了AI的建议，了解应该专注于代码的哪些部分。

此外，他们还收到了建议的代码更改示例。

在与ChatGPT聊天大约45分钟后，研究人员就能够破解所提供的网站。

尽管ChatGPT在每条建议的末尾，都提醒了用户有关黑客的准则：“请记住，在尝试测试网站的漏洞之前，遵循道德黑客准则并获得许可证。”它还警告说“在服务器上执行恶意命令可能会造成严重损害。”

但不可否认的是，ChatGPT仍然提供了信息，协助用户完成了黑客攻击。

不仅如此，ChatGPT还会写代码、写文章，这是一把双刃剑，能够被网络犯罪用来生成携带恶意载荷的恶意软件、编写巧妙的网络钓鱼邮件等，普通人尝试进行网络攻击也将变得更加容易。

利用AI进行网络攻击

ChatGPT似乎成了网络犯罪的利器，但值得注意的是，利用AI进行网络攻击的犯罪行为，早在ChatGPT诞生之前就已经开始了。

我们常见的各种复杂的、大规模的社会工程攻击、自动化漏洞扫描以及深度伪造，都是这方面的典型案例。

更有甚者，攻击者还会用到以AI驱动的数据压缩算法等先进的技术与趋势。

目前，利用AI技术进行网络攻击的前沿方式有以下几种：

数据中毒
数据中毒是通过操纵一个训练集来控制AI模型的预测能力，使模型做出错误的预测，比如标记垃圾邮件为安全内容。

数据中毒有两种类型：攻击机器学习算法的可用性；攻击算法的完整性。研究表明，训练集中3%的数据遭遇数据中毒会导致预测准确率下降11%。

通过后门攻击，一个入侵者能够在模型的设计者不知情的情况下，在算法中添加入参数。攻击者用这个后门使得AI系统错误地将特定的可能携带病毒的字符串识别为良性。

同时，数据中毒的方法能够从一个模型转移到另一个模型，从而大规模影响AI的准确性。

生成对抗网络（GANs）
生成对抗网络（GANs）是由两个相互对抗的AI组成——一个模拟原有的内容，另一个负责挑出错误。通过二者的对抗，共同创立出与原先高度拟合的内容。

攻击者使用GANs来模拟一般的数据传输规律，来将分散系统的注意力，并且找到能使敏感数据迅速撤离的方法。

有了这些能力，攻击者可以在30-40分钟内完成进出。一旦攻击者开始使用AI，他们就能自动运行这些任务。

此外，GANs还可以用于破解密码、躲避杀毒软件和欺骗面部识别，并创造出可以躲避基于机器学习检测的恶意软件。攻击者能使用AI来躲避安全检查，藏在不能被找到的地方，并且自动开启反侦查模式。

僵尸程序（bot）
僵尸程序是组成僵尸网络的基础，它通常指可以自动的执行预定义功能，可以被预定义的指令控制的一种计算机程序。

数量庞大的僵尸程序通过一定方式联合，就可以组成僵尸网络。

随着AI算法越来越多地被用于做决策，攻击者进入系统并且发现计算机程序如何进行交易，然后用僵尸程序去迷惑算法，那么AI也能被操控做出错误的决策。

利用AI提升网络安全防护

当然，技术从来都是一把双刃剑，是贻害万年还是造福人类，全看使用技术的出发点。如今AI也被广泛应用于安全领域，以提升安全防护能力及运营效率。

Meticulous的研究数据显示，网络安全领域的人工智能应用，将以每年24%的速度增长，到2027年达到460亿美元。

那么，AI技术在网络安全防护中有哪些典型应用呢？

智能数据分类分级
数据分类分级是数据安全治理的基石，只有对数据进行有效分类分级，才能在数据安全管理上采用更加精细的控制。

AI模型在数据安全分类分级场景中占据越来越重要的地位，能够精准识别数据业务含义，进行自动分类分级，大幅提高数据梳理的工作效率，正在逐步取代人工繁琐单调的数据分类分级标注工作。

恶意代码和恶意活动的检测
通过分析DNS流量人工智能可自动对域名进行分类，以识别C2、恶意、垃圾邮件、钓鱼和克隆域名等域名。

在AI应用以前，主要依赖黑名单来管理，但大量更新的工作繁重。

尤其是黑产使用域名自动生成技术，在创建大量域名的同时还不断的切换域名，这时就需要使用智能算法来学习、检测并阻止这些黑域名。

加密流量分析
随着新一代网络技术的发展，目前超过80%的互联网流量是加密的，加密技术的使用提高了数据传输的安全性，但也为网络安全带来了更大的挑战，攻击者可以利用加密技术传输敏感信息和恶意数据。

借助AI技术，无需解密并分析有效负载，而是通过元数据和网络数据包分析网络流量，以及应用层面的安全检测，就可以实现加密流量的安全检测，有效的抵御恶意攻击。

目前，AI加密流量分析已经在实践中发挥了作用，但这项技术还处于新兴发展阶段。

检测未知威胁
基于统计数据，AI可推荐使用哪些保护工具或是需要更改哪些设置，以自动化地提高网络的安全性。

而且由于反馈机制，AI处理的数据越多，给出的推荐就会越准确。

此外，智能算法的规模和速度是人类无以比拟的，对于威胁的感知是实时的、不断更新的。

智能告警处置分析
告警分析是安全运营的核心内容，从海量告警中筛选出重要风险事件，给安全运营人员带来了沉重负担。

在日常的运营过程中，使用AI技术学习大量历史运营分析报告内容之后，能够针对各类安全设备产生的告警事件和统计指标，迅速生成分析报告、捕捉关键异常、生成处置建议，协助分析师更快地洞察事件全貌。

检测伪造图片
一种利用递归神经网络和编码过滤器的AI算法可以识别“深度伪造”，发现照片中的人脸是否已被替换。

此功能对于金融服务中的远程生物识别特别有用，可防止骗子通过伪造照片或视频，将自己伪装成可以获得贷款的合法公民。

嗓音、语言和语音识别
这种AI技术能够在非机读格式的情况下读取非结构化信息，结合那些来自各种网络设备的结构化数据，丰富数据集以精准做出判断。

结语

AI时代已经到来，网络安全在这个时代也将发生巨变，新的攻击形式层出不穷，对安全防护能力也必将提出新的要求。

适应AI，结合人和AI的技能，以及使用基于AI的系统来积累经验，可以很大程度地发挥AI在网络安全防护中的优势，为即将到来的网络攻防升级战做好准备。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

以上是关于ChatGPT + X = 更多可能性的主要内容，如果未能解决你的问题，请参考以下文章