群体智慧前沿：大众评分落伍了情感评分更有用

澎湃新闻 2021-06-15 18:53 大字

原创熊宏晋集智俱乐部收录于话题#复杂科学前沿202183个导语

在线网络评价为人们提供了可以立即获得群众智慧的渠道。在亚马逊和Yelp的所有在线评价中，积极正面的评价占据了绝大部分，但是人们对这些项目呈现出来的行为性质却存在着明显的差异，那么如何才能从这些积极在线评价的“海洋“中辨别出真正具有价值、成功的项目？目前流行的“星级评价”是否可以作为预测其项目成功的可靠依据？最近 Nature human behavior 一文中对于这些问题给出了答案。本文是对这篇论文的概述。

集智俱乐部已经启动招募，多位专家牵头，从计算科学与复杂科学等跨学科视角，探讨社会、经济等领域的问题。本文为读书会成员撰稿。读书会为期10-12周，每周四晚举办，详情见文末。

熊宏晋 | 作者

邓一雪 | 编辑论文题目：

Mass-scale emotionality reveals human behaviour and marketplace success

论文网址：

https://www.nature.com/articles/s41562-021-01098-5

1. 从在线平台的“海量”评价中提取用户情感

目前随着互联网在线众包平台的发展，商品或线下服务的售卖都会在其在线众包平台中附着其一定的评价信息，而其中最为普遍的就是星级评价方式。这就可以供其平台的潜在消费者在选择商品或服务时可以通过成本最低的方式，获得最为直接的参考。但事实果真如此吗？已有研究调查所证明，这些在线的评级系统存在一定的局限性：其在线评价绝大多数都是积极正面的[1]。例如，在亚马逊网站上，平均星级评价约为4.2（满分5分），其中远超过一半的评论是5星级评价[2]。近一半的Yelp评论是5星评价[3]，而近90%的Uber评价可能是5星[4]。

以上这种情况会导致个人经常面临着在众多星级相似的项目中进行选择，特别是考虑到人们甚至不会考虑获得低于3星级的选项。所以星级评价本身可能无法可靠地预测其项目成功与否，它也并不能作为对项目真实价值的有效性参考。高度集中的积极性评价会使其成为无效的信号, 那么究竟如何才能从这些海量的积极性评价中获取有效的信息。来自美国马萨诸塞大学管理学院的教授 Matthew D. Rocklage 和其研究团队把这种在大量积极评价中辨别成功的挑战称为“海量”评价积极性问题。他们首先证明了这种“海量”积极性问题存在的普遍性，并且提出具有情感性 (emotionality) 的评述性语言可以向个人提供更有意义的参考。他们将这一研究成果以《Mass-scale emotionality reveals human behaviour and marketplace success》为题目发表在了Nature Human Behaviour 上。

他们分别从电影票房收入、亚马逊图书出售量、超级碗广告中新品牌的追随者、Yelp上的餐厅预订量四个大规模在线评价案例中研究了海量评价积极性的问题。通过对于四个大规模在线信息评价平台的研究，他们证明了80%到100%的在线星级评价都是积极的，并且发现在线星级评分对于预测一个项目的行为和其成功性是不可靠的，即越来越多的积极评价通常不能预示着其项目的成功。但是评价文本的情绪化因素却可以用来预测一个项目的行为和其成功的可能性。这是因为情绪化语言为个人本身提供了一种迹象，表明发生了特别有影响的事情[5，6]，因此它们可以作为一个特别明确的信号，让个人了解自己的态度。这种强烈的信号反过来会导致态度在记忆中更加牢固[7]，这是一个公认的预测态度的影响和持久性的因素。

下面将展示出他们所研究的四个案例：

2. 情绪因素预测电影票房

研究者们从Metacritic.com获得了2005年到2018年这13年所有电影的在线评论，并使用为每部电影撰写的前30条用户评论来衡量电影的星级（0到10星）和在线评价文本的情绪化语言分析。他们发现一部电影的平均星级将会显著地减少其电影的票房收入。而当所有的电影都被包括在内时——即使是那些最初有负面评价的电影——星级评价对票房收入也没有显著的预测作用。

之后他们在同一模型中加入了评论文本的平均情感性因素，以及平均文本效价 (valence) 作为对照。星级评分仍然是电影票房收入的一个重要的负面预测因素（见图1左）。最重要的是，评价文本中的情绪化因素是未来票房收入的一个重要的正向预测因素（见图1右）。图1. (左) 预测电影票房收入与其电影星级评价的关系; (右)预测电影票房收入与其电影评价文本中的情绪化因素的关系

3. 图书销量：文本情绪比评分更重要

在第二个研究案例中，研究者们预测了从1995年到2015年亚马逊网站上所有书籍的成功性（20年的数据）。他们再次使用每本书的前30条评论来索引该书的星级（1-5星）、文本效价和文本中的情绪化因素。

其平均星级评价的回归结果好坏参半。星级评价是预测购书数量的一个负面因素。当被评为负面的书籍也被包括在内时，正面的星级评价对购买量有显著的预测作用。然而，这里的总体证据好坏参半的，因为在1/3的图书类型中，星级评价是不显著的或为负面的预测因素。

在分析积极评价的书籍时，他们根据该书的平均星级和文本的情感性来预测该书的购买量。其发现平均星级是购买的一个负面预测因素，而文本的情绪化是一个重要的正面预测因素。除了这些影响之外，前30条评论中更多正面的情感性语言预示着更多的购买量，并且这一结论在百分之93的图书类型中都有展现。

4. 广告中新品牌追随者：评价预测粉丝增长

在研究案例3中，研究者们考察了针对电视广告的实时推文的情感性是否能预测成功和人类行为，即品牌的每日新粉丝数量的增加。对于2016年和2017年的超级碗，他们获得了发生在该超级碗当天的所有实时推文，其中提到了超级碗期间播放的广告。共有84家企业的94个广告，关于这些广告的推文总数为187206条。然后，他们使用评价词典来量化推文中对每个商业的平均效价和情绪化的表达。

他们发现公司在超级碗之前积累的粉丝数量可以预测他们在超级碗之后积累的粉丝数量，但《今日美国》上对于公司的星级评分对粉丝没有预测作用。

然后，他们增加了每个广告的推文的文本情感性因素作为主要预测因素，并增加了文本的平均效价作为控制变量。其发现《今日美国》的星级评分和推文的效价对新粉丝的数量没有预测作用。然而,关于商业推文的文本情感性语言的正面积极性程度越高, 公司在接下来的两周内积累的Facebook粉丝就越多。

5. 餐厅预订量：评分与情绪都有用

在研究案例4中，研究者们根据截至2017年伊利诺伊州芝加哥市存在的所有餐厅的前30条Yelp.com评论，研究了餐厅的成功和预定量问题。他们用这些评论来索引每家餐厅的平均星级 (1到5星)、文本效价 (valence) 和文本情感性。

而这一次，他们的研究结果与先前的3个研究案例不同，在餐厅预定量的问题上，平均星级评价可以预测更多的餐桌预订量。他们接着将餐厅前30条评论的文本情绪化因素以及其文本效价添加到回归模型中去。平均星级评价变得不显著（见图2左），并且文本的效价却是一个积极的预测因素。除了这些影响之外，存在着更多积极情感性语言评价的餐厅将会得到更多的用餐预定（见图2右）。图2. (左) 预测餐桌预定量与其电影星级评价的关系; (右) 预测餐桌预定量与其电影评价文本中的情绪化因素的关系

6. “海量”评价积极性问题的解决途径

现如今，大规模在线评价信息中的“海量”评价积极性问题已经越来越普遍化，并且有时会伴随着商家自己为了使得自己的商品或者服务得到更好的销售从而进行刷好评的操作，这就会进一步造成大众消费者从中识别有效信号的困难性。而基于情绪化的语言评价可以成为解决这个问题的正确途径。这就需要呼吁相关第三方平台组织要更加关注个人态度的情感性。平台管理者可以考虑汇总评论者的语言，并提供一个“情感星级”，以向个人提供更有意义的评估参考。而具有有效预测性，并且可以取代星级评价的指标的探索性研究将会留给对此研究问题感兴趣的研究人员。

参考文献：

[1] Hu, N., Zhang, J. & Pavlou, P. A. Overcoming the J-shaped distribution of product reviews. Commun. ACM 52, 144–147 (2009).

[2] Woolf, M. Playing with 80 million Amazon product review ratings using Apache Spark. minimaxir http://minimaxir.com/2017/01/amazon-spark/ (2017).

[3] Yelp Factsheet (Yelp, 2017); https://www.yelp.com/factsheet

[4] Athey, S., Castillo, J. C. & Knoepfle, D. Service quality in the gig economy: empirical evidence about driving quality at Uber. White Paper. https://doi. org/10.2139/ssrn.3499781 (2019).

[5] Tooby, J. & Cosmides, L. The past explains the present. Ethol. Sociobiol. 11, 375–424 (1990).

[6] Ekman, P. E. & Davidson, R. J. The Nature of Emotion: Fundamental Questions (Oxford Univ. Press, 1994).

[7] Rocklage, M. D. & Fazio, R. H. Attitude accessibility as a function of emotionality. Pers. Soc. Psychol. Bull. 44, 508–520 (2018).

社会计算系列读书会启动招募

随着大数据的持续积累和数字技术的迭代，社会计算（social computing）这一交叉领域正快速兴起，社交网络分析、自然语言处理、机器学习、系统动力学、多主体建模等技术在这一领域碰撞融合，逐渐挖掘出信息时代社会行为的深层规律。

集智俱乐部以「社会计算」为主题，组织为期10-12周的读书会，多位专家牵头，研读经典和前沿文献，交流激发科研灵感。读书会由王硕老师发起，专家顾问团包括孟小峰、罗家德、王晓、吕鹏、王静远、李勇等多位老师。

详情以及报名方式见：

原标题：《群体智慧前沿：大众评分落伍了，情感评分更有用》

阅读原文

新闻推荐

美国一知名化工企业旗下工厂发生爆炸附近居民被要求撤离

当地时间6月14日，据美国当地媒体报道，美国伊利诺伊州罗克顿地区一化工厂发生爆炸，现场浓烟滚滚。因事故可能导致危险化学物...

群体智慧前沿：大众评分落伍了 情感评分更有用

群体智慧前沿：大众评分落伍了情感评分更有用