“网络暴力”与人工智能自然语言处理的碰撞(下)
Posted 语忆情感实验室
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了“网络暴力”与人工智能自然语言处理的碰撞(下)相关的知识,希望对你有一定的参考价值。
引
通过上篇文章所反映的网络暴力社会现状,语忆科技以自身独有的人工智能自然语言处理技术,对当下最常见的网络暴力形式——社交媒体评论,做进一步分析,并尝试为未来网络暴力环境的改善起到积极的作用。
让我们简单回顾一下:自然语言处理(NLP)最初是用来研究机器翻译工作的,因当时的低估了自然语言的复杂性,技术进展并不大。90年代开始,NLP慢慢有了起色,在不断发展中外延并一度扩大,直至设计整个语言领域。
语言是区别人类与其他动物的本质特征,而NLP就是研究能让计算机读懂人类语言的一种技术。目前自然语言处理的发展,其已经助力了很多热门的人工智能场景的应用,例如语音翻译机、聊天机器人、语音识别等。
从应用的范围来讲,自然语言处理分为自然语言理解和自然语言生成。自然语言生成的工作原理与自然语言分析相反,是从抽象的概念层次开始,根据一些关键信息以及机器内部的表达形式,再经过规划过程,最后自动生成一段高质量的自然语言文本。简单说,自然语言生成就是研究使计算机具有人一样的表达和写作的能力。
下面我们将运用语忆自然语言理解技术并站在计算机视角分析网络暴力。
我们挑选了了几个近期热门的微博热搜事件,对其评论进行了详细分析。
情绪解析
情感极值
情感极值分析是对文本内容进行情感的正负面特性分析,以50分极值界线,分数越高表示情感状态越积极,反之消极情感状态。
我们从热搜话题中选取了5件热门事件,分别是:“杜嘉班纳辱华致歉”、“杜嘉班纳视频模特的公司致歉”、“重庆公交车坠江”、“盘点2018年不文明游客”、“刘强东性侵致歉”。
我们从这5个事件各提取出了一部分评论内容,对每一个事件的评论内容进行整体情感极值计算。(图一)
图一 情感极值
从图表数值我们可以看到,这5个事件的情感极值都较低,情感极值最低的是“杜嘉班纳辱华致歉”,可想而知,只要有关对我们国家进行言语侮辱的事件,像平时不会在网络上随意评论的我们都会愤怒感慨,更别说的键盘侠们了。
部分“杜嘉班纳辱华”事件评论:”道歉也没有用、 请你滚出中国“、”敷衍了事 请你们滚出中国“、“原地爆炸滚出中国!out of China”。
让人意想不到的是“刘强东性侵致歉”事件的情感极值是最高的,从评论里看:”不论怎么样,我还是觉得京东做的不错,我会继续支持。“、”表示:支持刘强东!“。虽然没接触过刘强东本人,但在网络上或一些报道上,都是给人一种和蔼可亲、知恩图报的好好先生形象,当性侵事件发身后,还是有不少人力挺东哥。
>>
11种细节情绪
基于Plutchik情感轮理论体系,语忆通过自主研发的11种细节情绪,对评论文本进行语义识别。我们将5个事件以及5个事件的平均细节情绪绘制了如下的概率分布图。(图二)
图二 情绪分布图
从图中我们可以看出,愤怒和厌恶是分布最高的两种情绪,很明显这五个事件的本质都具有争议性。
我们再把这5个事件的雷达图合为一张直观的柱状占比图,固然愤怒和厌恶是最高的两种情绪,但没想到的是,喜爱和乐观的值。。。“刘强东事件”居然喜爱占比最高??这里先买个关子,为什么喜爱和乐观的概率会这么高。(图三)
图三 5个事件情绪占比图
>>
情绪浓度
针对11种细节情绪,语忆计算出针对每句话的情绪浓度值,即反映了特定情感的激烈程度,浓度值越高说明情绪浓度也就越重。(图四)
图四 平均情绪浓度值
情绪浓度越高对应的某种细节情绪占比也越高,从情绪浓度图来看,最高的“杜嘉班纳致歉”平均情绪浓度为0.34,在五个事件对比的细节情绪占比图上,“杜嘉班纳致歉”厌恶占比最高。然而,愤怒情绪占比最高的“模特的公司致歉”,出乎意料的在平均情绪浓度值中是最低的。
为什么“模特的公司致歉”的分值会成反比?其实模特可以说是在这5件事中唯一的“受害者”,模特本身并不需要承担什么责任,她只是在完成她的工作,在一部分评论中也是希望该公司或模特不要再犯这样的事情了。然而这些评论程度也都只是拍拍桌子的那种,也能看出还是有不少键盘侠收起来键盘。所以在浓度分析中,整体的情绪浓度普遍较低。
文本观点提取
解析中文文本的关键信息,归纳单个或大量文本数据的核心内容,总结其观点大意。将微博评论观点分类,分别归纳出5个事件的观点图。
图五 杜嘉班纳辱华致歉
”杜嘉班纳辱华致歉“的观点归纳我们可以看出,关注杜嘉班纳的大多都是年轻人,爆粗口是必然。在致歉视频中,网友们关注的点并不是道歉人说的道歉词,而是把注意力集中到道歉人的脸上,发现道歉人眼神飘忽不定,细心的网友一看就知道是在用提词器。
既然都看了提词器自然道歉也就没什么诚意,所以抵制D&的心里也是正常。(发现现在的网友们也都是非常注重细节的呢。)(图五)
图六 模特的公司致歉
《起筷吃饭》视频中的模特真是背了一手好锅,从观点提取中来看,网友们并不是用欣赏的眼光看待这个视频,而是针对女模特接这个视频和拍摄时的动作表情,网友们总是能鸡蛋里挑骨头,给我们带来惊喜。(图六)
图七 重庆公交坠江
责任一词所要背负的东西太多,不好的事情发生谁都不愿背负责任。网友们在看待重庆这件事情上,并没有过多的辱骂而是就事论事的评论,也愿逝者安息避免这样的事故再次发生。(图七)
图八 刘强东性侵致歉
”强奸犯“、”真不要脸“、”有钱真好“其实也都可以理解,“力挺京东”、“支持东哥”这类评论出现让小编有些惊讶,我们在接下来的对比分析中具体看看这件事。(图八)
图九 2018年不文明游客
在如今的霸座这种行为是不应该或是较少出现的,而对于视频里无耻的霸座行为,即便是再好脾气的人可会发出对这些人严惩的声音。键盘侠们对这件事下手还是手下留情了,但对于这种行为都站在了严惩的一方。(图九)
词法分析
基于文本观点提取,语忆将所有评论内容进行观点分类,并把分好类的观点统一词频计算(词频计算就是将相似意思的词计数),将计数的词再简化并给它们贴上关键词标签。下图是5个事件观点分类后出现频次较高的关键词标签占比。
图十 杜嘉班纳辱华致歉
很明显“杜嘉班纳辱华致歉”这件事情上“滚”、“中国”、“道歉”,然而“滚”字占比超出了总收集的评论内容数。作为国际大品牌的D&G想在中国开拓市场却侮辱我们中国,可想而知,常常把“滚”字挂嘴边或挂手边的喷子们,是绝不可能在这时压抑内心的怒火。(图十)
爱国是作为一个中国人必备的素养,这么严重的辱华事件,要让杜嘉班纳看到我们国人的心是多么的爱国,能做出道歉也是看在中国市场的庞大,也希望他们不要再犯这样低级的错误了。
关于视频中的模特是谁,也是这件事件最为关注的一个点,很快,在强大的互联网的帮助下,视频中女模特的个人信息一一被剖到网上。当被知道是中国模特时,有不少网友惊呼,纷纷到女模特的一些账号、公司微博里指指点点瞎起哄。所以也不会奇怪“中国”这类的关键词词标签占比最高。(图十一)
图十一 模特发公司致歉
看了《起筷吃饭》的视频,小编并不觉得女模特的表情有多丑多做作,现在人工作不都是为了赚钱吗,女模特也也可以说是受害者,出来道歉其实可有可无。有时候我们在看待某些事物时可以用艺术的眼光去理解,而不是带着歧视的眼光。
刘强东的背后不仅有一个美丽伟大的女人,还有一个庞大的企业。刘强东性侵事件的发生,他所管理的企业也难免会受到波及,京东成为排名第一的词也不会奇怪。
图十二 刘强东性侵致歉
性侵说难听点就是强奸,想必再好的形象也很难褪去“强奸犯”这个名号。东哥那是可谓是走上了人生巅峰迎娶了当年的”奶茶妹妹“,发生这样的事情,他的妻子想必也是仅次于京东的话题了吧。(图十二)
京东的创立给刘强东带来了不少财富,对于这样的事情,小编觉得这不关乎钱的问题,更多的是个人本身吧或许像周立波那样。。。还望强哥好自为之吧。
无论看待什么样的事故,“生命”和“责任”都是最先被提及的。
图十三 重庆公交车坠江
交通事故每每都在发生,重庆公交坠江这件事情上,很是让人毛骨悚然。虽然事故造成车内所有人都死亡,但终归是要有人承担的。那些看似无辜的乘客,看到有人与司机争吵都没有上前制止,女乘客虽然坐过站了也没必要发那么大脾气动手打人,司机虽然被打即便是在桥上行驶,也没有及时减速或踩刹车。为这件事车上的每一个人都有责任。
图十四 2018年不文明游客
素质这个问题就像科技发展,一直有待提升。“霸座哥”、“霸座姐”是18年下半年值得提升我们个人素养的好例子。人活一张脸,树活一张皮,爱面子是我们中国人独有的特性,不管有票没票,占了不属于自己的位置就不该死皮赖脸的霸占,而作为一个正直善良的小编若是发生在自己身上也会愤怒,真的应该对这些人严惩。(图十四)
对比分析
看了上述的分析相比大家也对这些功能有了一定的了解,接下来语忆在通过对比分析来对每一项功能做具体的分析说明。
>> 情感极值与11种细节情绪
返回到情感极值那张柱状图中,值最高的是“刘强东致歉”,平均值为38.2,最低的“杜嘉班纳致歉”,平均值为26.3。我们再看到细节情绪对比柱状图,喜爱、乐观、愉快,“刘强东致歉”都位居第一,而厌恶、愤怒,“杜嘉班纳致歉”都位居前二。
我们找到喜爱、乐观、愉快分值高的句子:“东哥,家乡人民永远支持你”、“不管咋么样永远支持京东!”、“永远相信东哥,肯定有你苦衷,你是宿迁人的榜样”。
我们再来看看女模特公司致歉厌恶值最高的句子:“辱华广告就是你们公司模特接拍的,还有脸说抵制辱华??拿点道歉的诚意好不?三观不正的无良公司,尽快倒闭吧”、“不仅被外国人看不起去做舔狗,还要被国人看不起,舔到最后一无所有?真是跟林子大了什么鸟都有,跟今天罢演的三百模特比,你们算什么?”
愤怒值最高的句子:“别扯淡啦,拍的时候导演就起码会给个概念吧,难不成沟通上来就开始演哑剧?虽然配音是后配的,但是作为一个中国人,你不知道你在干嘛吗?”、“热爱你妈呢?剧本都不看就拍拍拍?外国人给你点钱就辱华你是准备不在中国干了还是老老实实去意大利啊”。
情感极值与细节情绪是成正比的,那些对刘强东支持的评论助长了喜爱、乐观的值,还是有一部分网友们在看待这件事情上保存乐观状态。而在模特公司致歉中,在键盘侠眼中,作为国人做出这样看似有辱国家的事情,网友们肯定愤愤不平。
>> 文本观点提取与细节情绪
就上面提到的问题来做一个回答,语忆将文本观点与细节情绪值通过数据透视图直观的展示出来,在细节情绪中刘强东性侵致歉“的喜爱、乐观的值是最高的,让我们来看看微博中的原话。(橙色是乐观、粉红色是喜爱)(图十五)
图十五 文本观点情绪占比图
从这些评论中能看的出,即便刘强东出了这种荒唐事,且微博里骂声片片指责他,但也有不少网友以及他家乡的人还是相信他支持他,这也表明刘强东在家乡人眼里是一个正直、有责任心、有爱心的一个值得尊重的好形象。
通过语忆的情绪解析技术,能对网络暴力进行全量、多角度的分析,从舆情监控者的角度出发可以帮助监控者快速且多维度的分析评论内容,在分析过程中监控者能清楚的知道受众者们在看待这件事的想法、情绪值以及核心观点。
网络暴力并不会随着时间而消失,在未来的发展中,能有效的对网络暴力监控是很有必要的。
以上是关于“网络暴力”与人工智能自然语言处理的碰撞(下)的主要内容,如果未能解决你的问题,请参考以下文章