大数据无所不能吗?来自小数据研究者的六点质疑
原创 新传研读社 新传研读社
写在前面:
本期推送为你准备的是著名社交媒体研究者danah boyd和Kate Crawford撰写的论文《大数据的关键问题:对于一个文化、技术与学术现象的挑战》。在这篇论文中,两位学者对大数据研究提出了六点质疑。当然,这并非是为了否定大数据研究的价值,而是希望对“大数据狂热”进行更加冷静的思考。截止今日,这篇论文的被引用量已经达到3493次,或许可以看做是社交媒体大数据研究领域的必读文献。在本期推送中,我们对这篇论文的核心内容进行摘译,期待可以为你提供一些有价值的反思。
大数据时代已经来临。计算机科学家、物理学家、经济学家、数学家、社会学家……都被冲入大数据的海洋之中。社交媒体中的互动、健康报告、电话记录、政府档案等数字痕迹,都成为了学者们热衷于追逐的研究素材。不过同时,一个重要的问题也浮现出来:大数据能否帮我们创造更大的公共价值?亦或者说,它只会成为窥探隐私和侵入式营销的工具而已?
大数据是一个糟糕的学术名词。在这个词被提出时,它指的是一组需要通过超级计算机运行的数据。不过,时至今日,我们家庭的笔记本电脑也可以做这件事。实际上,大数据的意义并不在于数据量本身,而在于搜索、整合、对照大型数据的能力。
大数据是一种技术现象,同时也是文化现象。它迎合了人们“数据越大、智识水平越高”的信念。人们相信,大数据携带着真理、客观和准确的光环,可以生产出我们从未企及的深度思考。另一方面,反乌托邦的观点则担心,大数据(big data)会成为一种新的老大哥(big brother),侵蚀人们的隐私空间、干扰公民行动的自由、增强国家权力。
如今,已经出现了不少对于大数据的研究。不过,我们仍旧有必要进行批判性的思考:何为大数据?谁有权力接近大数据?数据分析是怎样进行的?目的是什么?在这篇文章中,我们提供了有关大数据研究的六种反思,希望能在不同领域的研究者之间引发讨论。
反思01
大数据改变了知识的定义
Big Data changes the definition of knowledge
20世纪初,亨利·福特(Henry Ford)发明了一种大规模生产的制造体系,并快速成为了技术进步的主导象征。福特制(Fordism)意味着自动化和流水线。不过,它并不仅仅只是一系列新的工具。在某种程度上,20世纪正是被福特制所定义的:它创造了一种对于劳动(labor)的新理解、一种对人与工作关系的新理解,也是一种对于社会的新理解。
同样,大数据也不仅仅是一种工具,它还代表了研究的计算转向(computational turn)。正如福特改变了我们制造汽车的方式,大数据也改变了知识这一客体的面貌。拉图尔提醒我们:改变工具,你就会改变整个既有的社会理论。
大数据让我们以前所未有的广度和深度来收集数据,这也在认识论方面产生了深刻影响。《连线》杂志主编安德森认为,我们已经进入到了“拍字节时代”(The Petabyte Age)。让我们忘记那些传统的社会科学吧,不管是语言学还是社会学。谁才有资格解释人类行为呢?答案是数据。只要拥有足够的数据,数字就可以自己说话。
数据可以自己说话吗?我们对此深表怀疑。安德森的观点体现出大数据争论中一种潜藏的傲慢。似乎大数据出现之后,其他方法就应该靠边站。不过,也有研究者认为,大数据的问题恰恰在于,在洪流一般的信息背后,缺少哲学意义上的管控。
大数据有自己的局限性。例如,Twitter和Facebook是大数据研究者经常访问的网站,但它的搜索功能并不强大。因此,研究者更可能去关注那些正在发生和刚刚发生的数据,因为历史数据几乎不可能挖掘到。安德森问我们,科学是否可以向Google学习点什么呢?不过,我到是想说,真正有价值的问题似乎是:大数据如何改变了学习的意义,这种新的知识系统究竟提供了哪些可能性,又具有哪些局限呢?
思考02
大数据宣称的客观、准确是具有误导性的
Claims to objectivity and accuracy are misleading
拉图尔曾抱怨说:“数字!数字!数字!社会学如此痴迷于变成一种量化科学!”不过,社会学似乎从未做到这件事。如今,大数据提供给人文学科一种新机遇,来实现量化科学和客观方法的梦想。它让更多的社会空间可被量化。不过事实上,在我们看来,大数据方法仍旧是主观的。
客观性是科学哲学长久以来的焦点问题。科学方法试图将自己从主观领域移除,变成一个不带感情色彩的程序。我们提出假设、验证假设,最后获得知识的增进。不过,所有研究者都无法逃离一个事实——我们需要解释数据。按照Gitelman的说法,数据需要被想象,并且,每个研究领域或学科,都有自己想象数据的规范和标准。
在计算机科学家涉足社会科学时,我们倾向于认为他们的工作仅仅有关事实,与解释毫无关系——毕竟,他们只想建立数学模型。不过,当研究者试图去理解这些模型的意义时,解释的过程就开始了。甚至,科学家们在决定研究设计时,他们也在解释。例如,对于社交媒体数据,存在着“数据清理”(data cleaning)这一道程序。哪些变量和属性要被保留?哪些要被删除?这个过程内在便具有主观性。
如果单纯拒绝解释,大数据还会让我们产生幻想性的错觉。例如,大数据研究经常会发现莫名其妙的相关性。一个有名的例子来自Leinweber,他发现标准普尔 500 指数基金和孟加拉的黄油生产量之间存在相关性。
思考03
数据越大,不一定数据越好
Bigger data are not always better data
社会科学家一直认为,数据收集和分析的系统性,保证了他们工作的缜密。不管是问卷调查还是实验法,都会提供给其他研究者评估研究效度的途径。我们不能仅仅因为大数据的体量巨大,就忽略了其中的方法问题。对于样本的理解,反而变得更加重要。
因为Twitter的数据方便获取,学者们经常使用它来验证一些列的问题。虽然很多学者都明白,来自Twitter的数据存在天然的局限性,不过,媒体报道并不在乎这一点,他们只会告诉读者,这篇论文研究了上百万“人”。要知道,Twitter并不代表所有人,Twitter用户和“人”之间也不能划等号——有一些账户是多人使用,有一些账户是机器人在操纵,有些人甚至根本就不使用Twitter。
大数据并不意味着整体数据。如果不考虑到样本本身的特质,数据的规模就毫无意义。例如,如果一个学者试图理解Twitter广播的话题频率,但Twitter会自动隐藏那些有问题的内容(例如色情和垃圾信息),那么,无论我们收集多大的数据,结论都是不准确的。遗憾的是,大数据研究者热衷于在Twitter上收集数据,但却很少有人提到,Twitter数据有严重的方法论争议,也很少有人愿意对自己的数据进行说明。
在社会科学的计算转向过程中,我们更需要认识到“小数据”的价值。在任何数据层级上,都有可能产生研究洞见。某些时候,哪怕我们聚焦一个人,都有可能获得卓越的发现。例如,Veinot 通过对于一位水电公司的巡查员的研究,试图理解蓝领工人的信息实践(information practices)。她的研究更新了“信息实践”这一学术名词的定义。仅就她的发现而言,即便我们收集上百万的Twitter账户数据,也无法获得。
数据规模应该与研究问题匹配。有些时候,小即是美。
思考04:
剔除语境的大数据会失去意义
Taken out of context, big data loses its meaning
随着社交媒体的兴起,研究者似乎非常热衷于为用户描绘“社交图谱”(social graph)。他们蜂拥到Twitter和Facebook之中,对用户之间的联系进行大数据研究,并声称可以描绘用户的社会网络。不过,社交媒体中呈现的关系似乎与社会学家、人类学家自1930年以来考察的亲缘网络(kinship networks)并不相同。
在大数据研究中,常见的两种社会网络是“节点网络”(articulated networks)和“行为网络”(behavioral networks)。
所谓节点网络,可以简单理解为Facebook上的好友列表。不过,我选择关注一个人,可能有不同的动机,比如TA是我的朋友、同事、熟人、明星、朋友的朋友、公众人物,或者有意思的陌生人。所谓行为网络,指的是通过技术抓取到的交流信息。这种交流的种类也很多,例如给一个人流言、在照片上tag一个人等等、给一个人发私信,等等。
节点网络和行为网络对研究者具有重要的价值,不过,它们并不能被等同于人际网络(personal networks)。例如,研究者经常使用“连接强度”(tie strength)来理解个体关系的重要性。移动电话数据表明,人们给同事打电话的次数,要多于给自己配偶打电话的次数,我们难道能因此得出结论,同事比配偶的关系强度更高吗?
忽略具体的交流语境,仅仅通过交流频率或朋友列表示来测量关系强度,本身是有很大问题的。因为并非每一种(次)连接都是同质的。
思考05
可获得的数据并不一定就是道德的
Just because it is accessible
does not make it ethical
2006年,一个哈佛大学研究团队收集了1700位大学生的Facebook账号,希望研究他们的兴趣和朋友关系的变化。这些经过匿名处理的数据被公布出来,以供其他研究者使用。然而,人们却发现不难从这些匿名数据中得知某些用户的真实身份。更大的问题甚至是:这些学生完全不知道,自己的数据正在被研究者进行收集和分析。
学者不得不面对一个问题:在社交媒体上,所谓的“公开”(public)数据,究竟该如何使用?如何处理其中的研究伦理问题?一部分人已经意识到问题的严重性,并呼吁平台对用户隐私进行更好的保护。事实上,任何有关人的数据有难免引发隐私争议,滥用数据的危险究竟有多大,又是一件难以被量化的事。
自20世纪70年代以来,大学通过建立机构审查委员会(IRB)体系来保护被研究对象的权利。例如,“知情同意”被广泛作为研究伦理的基本要求之一。不过,对于大数据而言,其中的伦理意涵仍旧十分模糊。一个人在社交媒体上的广播应该被纳入到研究数据之中吗?万一TA的广播以一种脱离语境的方式被解读呢?对此,TA有知情权吗?如果TA在研究中遭受到了伤害,谁来负责呢?大数据研究中的知情同意应该如何操作呢?我们不能简单地认为,我们可以获得一项数据,就等同于可以收集和分析它们。
在大数据的研究中,我们还需要关注真相、控制与权力问题。研究者拥有工具和渠道,但社交媒体用户却没有。他们的广播是在高度情景化的背景下生产的,也很可能不愿意自己的信息被用在其他地方。很多人并不知道,算法正在收集、储存他们的数据,以供未来使用;更多人甚至不知道,研究者会成为他们个人主页的访客。
大数据的研究者很少会承认,在“being in public”和“being public”之间存在着相当大的差别。
思考06:
大数据的使用限制创造了新的数字鸿沟
Limited access to Big Data
creates new digital divides
社会学家Homans曾说:“在所需的时间和金钱方面,社会科学研究已经非常昂贵了,并且每天还在涨价。”曾几何时,收集数据是一件既费时间又费钱的事情,不过如今,似乎大数据的狂热者们有理由相信,大数据提供了一种获得大规模数据的简便方法。
不过,我们要询问的问题是:谁可以拥有这些数据?在何种情境下拥有?有何限制?正如Manovich所指出的:只有那些社交媒体公司才能拥有真正大规模的社交数据——尤其是那些交易数据。那些为Facebook或Google工作的研究者们,也可以获得其他学者无法拥有的数据。一些公司完全不提供关于自己的任何数据,另一些公司则用这些数据卖钱。这就造成了一种不平等:那些有钱的、有合作关系的研究者,可以生产出完全不同的研究。而不拥有这些资源的研究者,既不能进行这些研究,也没有机会去评估这些研究的方法论主张。
在接近权之外,还有技巧层面的问题。大数据研究排斥了那些不具有计算机背景的研究者,这并不是问题。关键问题在于,我们将大数据方法放在了至高无上的位置,这就建造起一种基于“谁能读懂数据”的研究阶级。相应的,传统的社会科学研究者的价值可能会被低估。我们需要面临的另一项挑战是,如何才能培养出这样的学生——既通晓社会理论,又熟练掌握算法和数据分析?
最后,我们还面临着另一种风险。因为社交媒体公司没有义务对研究者开放数据,因此,那些获得大数据的研究者,就不太可能进行批判式的研究。因为一旦这样做了,他们就会立刻被剥夺拥有数据的资格。我们必须对这种寒蝉效应加以警惕。
在研究界,大数据创造了大数据富人(Big Data rich)和大数据穷人(Big Data poor)。甚至Twitter的研究人员Jimmy Lin直接说,学术界最好离社交媒体远一点,这样我们能做得更好。这种划分局内人和局外人的观点可能会破坏学术共同体。
Manovich认为,大数据王国中有三个阶层:那些制造数据的人、那些可以收集数据的人、和那些可以分析数据的人。我们知道,最后一类人的比重最低,也有用最多特权。同时,他们也是决定大数据使用规则的人。也许在学术界,对这种不平等的批判可能会被很快放弃,不过,我们必须保持考察和质疑。
获取参考文献
原标题:《大数据无所不能吗?来自小数据研究者的六点质疑》
阅读原文
新闻推荐
□王侠在春日繁华与盛放里,最喜欢那一树树梧桐花开,大串花儿,高高绽放在枝头,远远望去,竟有几分云蒸霞蔚的美。小...