2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析

Posted 探索XXX

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析相关的知识,希望对你有一定的参考价值。


2020年可能是有史以来最糟糕的一年。虽然这样的说法可能带有很强的主观意识,但根据科学的分析,的确是这样的!这个分析方法就是“Hedonometer”,一种计算机化的情绪分析软件,能够评估我们的幸福和绝望指数。


美国佛蒙特大学(UVM)自2008年开始就利用计算机在网络上收集数据,然后快速粗略地了解公众的情绪。根据Hedonometer,2020年的确是迄今为止最可怕的一年。

Hedonometer的可行性

近50年来,计算机科学家们一直在研究一项任务,即利用计算机来评估词汇的情绪基调,而Hedonometer就是这项任务的最新体现。

早在1881年,乐观的爱尔兰经济学家弗朗西斯·埃奇沃思就想象出这种叫做“Hedonimeter”的奇怪装置,能够“不断记录个人所经历的快乐高度”。换句话说,这是一个幸福测量器。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析

弗朗西斯·埃奇沃思

然而在那个时期,由于科技还不发达,Hedonometer还只停留在想象之中。但随着信息时代的到来,科学家已经可以很方便地收集数据进行分析,从而评定人们的幸福指数。而这正是在佛蒙特大学高级计算中心工作的数学家和计算机科学家彼得·多兹和克里斯·丹福思的工作。

这项研究的关键是利用计算机来评估一些词汇的情绪基调。为了建造Hedonometer, UVM的科学家必须教会一台机器去理解这些文字背后的情感,这一过程被称为情绪分析。

丹福思说,情绪分析要求研究人员能够检查大量的数据。在以前,做到这一点是非常耗时的,因为数据难以收集的,更不用说研究了。“在社会科学中,我们更倾向于衡量简单的东西,比如国内生产总值(gdp)。而幸福则是一件很难衡量的重要事情。”近年来,随着科学技术的发展,这一研究取得了重大进展。

单词计数

你可能会认为,情绪分析的第一步应该是教会电脑理解人类在说什么。但这是计算机科学家做不到的一件事。理解语言是人工智能中最困难的问题之一。然而,关于文字背后的情感,则有大量的线索,计算机即使不理解文字的意思也能识别。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析


最早的情绪分析方法是单词计数。这个想法很简单:数一数积极词汇的数量,然后减去消极词汇的数量。通过对词汇进行加权,可以得出更好的衡量标准。例如,“极好”比“好”表达的情感更强烈。这些权重通常是由人类专家分配的,也是创建情感分析常用的词汇字典的一部分。

但是单词计数有其固有的问题。一是它忽略了词序,常常把一个句子中的词汇都混在了一起。而且,单词计数可能会错过特定语境的线索。

比如这个产品评论:“我很高兴我的iPhone和我丑陋的旧Droid一点都不像。”在这个句子中有三个否定词:“不”、“旧”、“丑陋”,只有一个肯定词:“高兴”。虽然人类会立刻会意识到“旧”、“丑陋”指的是不同的手机,但它们看起来都是负面词汇。如果用计数的方法,我们得到的结果是:这句话是负面的。然而,显然不是这样。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析


浅层神经网络

为了解决这些问题,计算机科学家们越来越多地转向更复杂的方法,将人类完全排除在这个程序之外。他们正在使用机器学习算法来教会计算机程序识别模式,比如单词之间有意义的关系。

使用浅层神经网络的计算机可以很容易地训练出预测下一个出现的词汇,一个例子就是在智能手机中输入法的提示词。在这里,一个神经网络训练的语言模型计算了各种下一个应该出现的词汇的概率。一旦这个训练完成,它就可以生成一种叫做“单词嵌入”的数学结构,这种结构可以将单个的词汇连接起来。反过来,这些又可以用作更困难的语言处理任务,包括情感分析。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析


2013年,谷歌的托马斯·米科洛夫利用机器学习构建了一个名为语句嵌入的工具,迈出了这类方法的重要一步。这些程序将每个词转换成一个由50到300个数字组成的列表,称为向量。这些数字就像用来描述一个单词的指纹,尤其是和它一起出现的其他单词。

为了获得这些描向量,米科洛夫的程序查看了出现在报纸文章中的数百万个词汇,并试图根据前面的词汇预测文章中的下一个词。在米科洛夫的语句嵌入中,一些同义词像“钱”和“现金”这样的词,有非常相似的向量。更微妙的是,这种转换捕捉到了一些基本的类比,例如,国王对王后就像男孩对女孩一样。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析

托马斯·米科洛夫

米科洛夫的单词这套系统是由一个被称为含有隐藏层的神经网络产生的,它大致模仿了人类大脑的神经网络,使机器学习取得了惊人的进步,包括AlphaGo。当然,米科洛夫使用的神经网络是一个故意比较浅的网络,所以它可以用于各种任务,比如翻译和主题分析。

更深层次的神经网络

更深层次的神经网络会有更多的“皮层”,可以从特定句子或文档中提取出更多关于单词情绪的信息。一个常见的参考任务是让计算机在互联网电影数据库中阅读一篇电影评论,并预测评论者对它的评价是赞成还是反对。

最早的词典方法达到了74%的准确率,而最复杂的则可以达到87%。2011年,第一批神经网络的得分为89%。如今它们的准确率可以高达94%,接近人类的准确率。是的,就算是真正的人,往往有时也很难区别幽默和讽刺。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析


尽管神经网络有很多优点,但基于词典的方法仍然很流行。同时虽然神经网络在某些问题上可能更精确,但它们是有代价的。训练阶段本身就是你能让电脑做的计算强度最大的任务之一。

沃顿商学院的罗伯特·斯廷表示:“基本上,你所拥有的电量是有限的。”斯廷在《2019年统计年度回顾》中介绍了情绪分析的演变及其应用。“谷歌用了多少电来训练AlphaGo?我听到一个笑话是说电量足以煮沸整个海洋。”斯廷说。

除了电力需求之外,神经网络还需要昂贵的硬件和技术专长,而且缺乏透明度,因为计算机要自己解决问题,而不是听从程序员的明确指令。芝加哥伊利诺斯大学的刘冰是情感分析的先驱之一,他说:“用词汇来修正错误更容易。”

测量心理健康

虽然情绪分析通常属于计算机科学家的研究范围,但它在心理学中有着深厚的根基。1962年,哈佛大学心理学家菲利普·斯通开发了“一般询问者”,这是第一个用于心理学的计算机通用文本分析程序。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析

詹姆斯·彭纳贝克

到了20世纪90年代,社会心理学家詹姆斯·彭纳贝克开发了一个早期的情绪分析程序“语言探究和字数计算”,作为对人们心理世界的一种观察。这些早期的评估揭示并证实了专家们长期观察到的模式:被诊断为抑郁症的患者有着独特的写作风格,比如更频繁地使用代词“我”。他们会使用更多带有负面影响的词汇,有时会使用更多与死亡相关的词汇。

研究人员现在正在通过分析社交媒体上的帖子来探究演讲和写作中的心理健康表达。例如,丹福斯和哈佛大学心理学家安德鲁·瑞斯曾对一些受试者的网络言论进行分析。这些人中的一些已经被正式诊断为抑郁症或创伤后应激障碍。他们发现这些受试者的抑郁迹象早在九个月前就开始出现了。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析


大约有200人参加了这个实验,其中一半被诊断为抑郁症。研究人员查看了他们在确诊前后发表在社交媒体上的帖子。蓝色的曲线显示了基于对他们文章的情绪分析,绿色曲线表示健康测试者的抑郁概率。注意,两条曲线从诊断前200天到确诊当天差距最大,因为抑郁患者使用的语言更能表明他们的健康状况。在确诊后的80天左右,这种差距开始缩小,大概是因为抑郁症患者从治疗中受益。

然而,社交网络数据距离用于患者护理还有很长的路要走。首先隐私问题是显而易见的。此外,这些分析的实用性仍需要证明。情绪分析也可以识别某种趋势,例如在2020疫情期间大学生的总体心理压力水平,或引发饮食失调者复发的社交媒体互动类型。

什么时候心情最糟糕

情绪分析还可以解决一些更轻松的问题,比如天气对情绪的影响。2016年,现供职于柏林马克斯·普朗克人类发展研究所的尼克·奥布拉多维奇分析了脸书上的约20亿条以及推特上的约10亿条留言。而结果显示,每一英寸的雨会使人们的幸福感降低约1%;低于冰点的温度会则使其下降两倍。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析


在一项后续研究中,奥布拉多维奇和同事们通过推特了解人们对气候变化的感受。他们发现,经过大约5年的高温后,推特用户的“正常”感发生了变化,他们不再发关于热浪的推特。但尽管如此,数据显示,用户的幸福感仍然受到气温升高的影响。“这就像温水煮一只青蛙,”奥布拉多维奇说,“在我写过的所有论文中,这是最令人不安的实证发现之一。”

研究人员还测试了另外一些有意思的事情。比如,一周七天,哪一天最糟糕?答案是:并不是周一,而是周二。丹福斯利用Hedonometer对推特留言分析发现,尽管“周一”是人们往往负面反应最大的工作日,但周二实际上是人们心情最糟的时候,而周五和周六是最快乐的日子。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析


当然,哪一天最糟糕也受到很多其它因素的影响。比如在2016年美国总统大选后,这种规律就被打破了。丹福思说,一些“叠加在它上面的事件吸引了我们的注意力,而且比生活的基本要素更能引起人们的讨论。”换句话说:在社交传媒上,政治永远不会停止。“一周中的任何一天都可能是最糟糕的,”他说。

Hedonometer的应用

Hedonometer这类情绪分析程序在很多场景还有应用。

在音乐中,大调和弦经常被认为比小调和弦更快乐。印第安纳大学计算社会科学专家安永烈通过分析12.3万首歌曲的每个和弦的歌词情绪,对这一观点进行了测试。结果发现,大和弦确实与快乐有关。尽管与小和弦相比,这一差别看起来很小,但从幸福指数上看,这只是圣诞节和正常工作日情绪差异的一半左右。研究人员还比较了不同的音乐流派,发现20世纪60年代的摇滚是最快乐的,而朋克和重金属音乐是最绝望的。

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析


商界也开始使用这种工具。企业正广泛使用情绪分析,但很多是不公开的,因此很难准确衡量它的受欢迎程度。一些公司会使用情绪分析来了解他们的客户在社交媒体上说了什么。

还有一些公司使用情绪分析来跟踪员工的满意度,比如通过监控公司内部的社交网络。例如,IBM开发了一个名为Social Pulse的程序,该程序可以监控公司的内网,看看员工在抱怨什么。出于隐私考虑,该软件只查看与整个公司共享的帖子。尽管如此,这种趋势还是让丹福思感到困扰,他说:“我担心的是员工的隐私与公司的底线不相称。”

2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析


随着情绪分析变得越来越普遍,道德问题可能会继续成为一个问题。企业、心理健康专业人士和其他任何考虑使用情绪分析的领域都应该记住,虽然情绪分析有无限的前景,但它的完全实现仍然会令人担忧。情绪分析的数学是比较容易的部分,最难的部分是理解人类,有时机器很难把握什么是“理解”。




以上是关于2020最可怕,周二心情最糟糕!基于神经网络的计算机情绪分析的主要内容,如果未能解决你的问题,请参考以下文章

PHP到底有多糟糕?

郭盛华的人脉圈有多可怕?网友:全是“黑客”大佬级人物

心不动——王阳明最可怕之处

不计较收入的员工,才最可怕!

最可怕的是牛人还那么努力

史上最通俗计算机网络分层详解,实战篇