大数据无所不能吗？来自小数据研究者的六点质疑

澎湃新闻 2020-05-14 07:14 大字

原创新传研读社新传研读社

写在前面：

本期推送为你准备的是著名社交媒体研究者danah boyd和Kate Crawford撰写的论文《大数据的关键问题：对于一个文化、技术与学术现象的挑战》。在这篇论文中，两位学者对大数据研究提出了六点质疑。当然，这并非是为了否定大数据研究的价值，而是希望对“大数据狂热”进行更加冷静的思考。截止今日，这篇论文的被引用量已经达到3493次，或许可以看做是社交媒体大数据研究领域的必读文献。在本期推送中，我们对这篇论文的核心内容进行摘译，期待可以为你提供一些有价值的反思。

大数据时代已经来临。计算机科学家、物理学家、经济学家、数学家、社会学家……都被冲入大数据的海洋之中。社交媒体中的互动、健康报告、电话记录、政府档案等数字痕迹，都成为了学者们热衷于追逐的研究素材。不过同时，一个重要的问题也浮现出来：大数据能否帮我们创造更大的公共价值？亦或者说，它只会成为窥探隐私和侵入式营销的工具而已？

大数据是一个糟糕的学术名词。在这个词被提出时，它指的是一组需要通过超级计算机运行的数据。不过，时至今日，我们家庭的笔记本电脑也可以做这件事。实际上，大数据的意义并不在于数据量本身，而在于搜索、整合、对照大型数据的能力。

大数据是一种技术现象，同时也是文化现象。它迎合了人们“数据越大、智识水平越高”的信念。人们相信，大数据携带着真理、客观和准确的光环，可以生产出我们从未企及的深度思考。另一方面，反乌托邦的观点则担心，大数据（big data）会成为一种新的老大哥（big brother），侵蚀人们的隐私空间、干扰公民行动的自由、增强国家权力。

如今，已经出现了不少对于大数据的研究。不过，我们仍旧有必要进行批判性的思考：何为大数据？谁有权力接近大数据？数据分析是怎样进行的？目的是什么？在这篇文章中，我们提供了有关大数据研究的六种反思，希望能在不同领域的研究者之间引发讨论。

反思01

大数据改变了知识的定义

Big Data changes the definition of knowledge

20世纪初，亨利·福特（Henry Ford）发明了一种大规模生产的制造体系，并快速成为了技术进步的主导象征。福特制（Fordism）意味着自动化和流水线。不过，它并不仅仅只是一系列新的工具。在某种程度上，20世纪正是被福特制所定义的：它创造了一种对于劳动（labor）的新理解、一种对人与工作关系的新理解，也是一种对于社会的新理解。

同样，大数据也不仅仅是一种工具，它还代表了研究的计算转向（computational turn）。正如福特改变了我们制造汽车的方式，大数据也改变了知识这一客体的面貌。拉图尔提醒我们：改变工具，你就会改变整个既有的社会理论。

大数据让我们以前所未有的广度和深度来收集数据，这也在认识论方面产生了深刻影响。《连线》杂志主编安德森认为，我们已经进入到了“拍字节时代”（The Petabyte Age）。让我们忘记那些传统的社会科学吧，不管是语言学还是社会学。谁才有资格解释人类行为呢？答案是数据。只要拥有足够的数据，数字就可以自己说话。

数据可以自己说话吗？我们对此深表怀疑。安德森的观点体现出大数据争论中一种潜藏的傲慢。似乎大数据出现之后，其他方法就应该靠边站。不过，也有研究者认为，大数据的问题恰恰在于，在洪流一般的信息背后，缺少哲学意义上的管控。

大数据有自己的局限性。例如，Twitter和Facebook是大数据研究者经常访问的网站，但它的搜索功能并不强大。因此，研究者更可能去关注那些正在发生和刚刚发生的数据，因为历史数据几乎不可能挖掘到。安德森问我们，科学是否可以向Google学习点什么呢？不过，我到是想说，真正有价值的问题似乎是：大数据如何改变了学习的意义，这种新的知识系统究竟提供了哪些可能性，又具有哪些局限呢？

思考02

大数据宣称的客观、准确是具有误导性的

Claims to objectivity and accuracy are misleading

拉图尔曾抱怨说：“数字！数字！数字！社会学如此痴迷于变成一种量化科学！”不过，社会学似乎从未做到这件事。如今，大数据提供给人文学科一种新机遇，来实现量化科学和客观方法的梦想。它让更多的社会空间可被量化。不过事实上，在我们看来，大数据方法仍旧是主观的。

客观性是科学哲学长久以来的焦点问题。科学方法试图将自己从主观领域移除，变成一个不带感情色彩的程序。我们提出假设、验证假设，最后获得知识的增进。不过，所有研究者都无法逃离一个事实——我们需要解释数据。按照Gitelman的说法，数据需要被想象，并且，每个研究领域或学科，都有自己想象数据的规范和标准。

在计算机科学家涉足社会科学时，我们倾向于认为他们的工作仅仅有关事实，与解释毫无关系——毕竟，他们只想建立数学模型。不过，当研究者试图去理解这些模型的意义时，解释的过程就开始了。甚至，科学家们在决定研究设计时，他们也在解释。例如，对于社交媒体数据，存在着“数据清理”（data cleaning）这一道程序。哪些变量和属性要被保留？哪些要被删除？这个过程内在便具有主观性。

如果单纯拒绝解释，大数据还会让我们产生幻想性的错觉。例如，大数据研究经常会发现莫名其妙的相关性。一个有名的例子来自Leinweber，他发现标准普尔 500 指数基金和孟加拉的黄油生产量之间存在相关性。

思考03

数据越大，不一定数据越好

Bigger data are not always better data

社会科学家一直认为，数据收集和分析的系统性，保证了他们工作的缜密。不管是问卷调查还是实验法，都会提供给其他研究者评估研究效度的途径。我们不能仅仅因为大数据的体量巨大，就忽略了其中的方法问题。对于样本的理解，反而变得更加重要。

因为Twitter的数据方便获取，学者们经常使用它来验证一些列的问题。虽然很多学者都明白，来自Twitter的数据存在天然的局限性，不过，媒体报道并不在乎这一点，他们只会告诉读者，这篇论文研究了上百万“人”。要知道，Twitter并不代表所有人，Twitter用户和“人”之间也不能划等号——有一些账户是多人使用，有一些账户是机器人在操纵，有些人甚至根本就不使用Twitter。

大数据并不意味着整体数据。如果不考虑到样本本身的特质，数据的规模就毫无意义。例如，如果一个学者试图理解Twitter广播的话题频率，但Twitter会自动隐藏那些有问题的内容（例如色情和垃圾信息），那么，无论我们收集多大的数据，结论都是不准确的。遗憾的是，大数据研究者热衷于在Twitter上收集数据，但却很少有人提到，Twitter数据有严重的方法论争议，也很少有人愿意对自己的数据进行说明。

在社会科学的计算转向过程中，我们更需要认识到“小数据”的价值。在任何数据层级上，都有可能产生研究洞见。某些时候，哪怕我们聚焦一个人，都有可能获得卓越的发现。例如，Veinot 通过对于一位水电公司的巡查员的研究，试图理解蓝领工人的信息实践（information practices）。她的研究更新了“信息实践”这一学术名词的定义。仅就她的发现而言，即便我们收集上百万的Twitter账户数据，也无法获得。

数据规模应该与研究问题匹配。有些时候，小即是美。

思考04：

剔除语境的大数据会失去意义

Taken out of context, big data loses its meaning

随着社交媒体的兴起，研究者似乎非常热衷于为用户描绘“社交图谱”（social graph）。他们蜂拥到Twitter和Facebook之中，对用户之间的联系进行大数据研究，并声称可以描绘用户的社会网络。不过，社交媒体中呈现的关系似乎与社会学家、人类学家自1930年以来考察的亲缘网络（kinship networks）并不相同。

在大数据研究中，常见的两种社会网络是“节点网络”（articulated networks）和“行为网络”（behavioral networks）。

所谓节点网络，可以简单理解为Facebook上的好友列表。不过，我选择关注一个人，可能有不同的动机，比如TA是我的朋友、同事、熟人、明星、朋友的朋友、公众人物，或者有意思的陌生人。所谓行为网络，指的是通过技术抓取到的交流信息。这种交流的种类也很多，例如给一个人流言、在照片上tag一个人等等、给一个人发私信，等等。

节点网络和行为网络对研究者具有重要的价值，不过，它们并不能被等同于人际网络（personal networks）。例如，研究者经常使用“连接强度”（tie strength）来理解个体关系的重要性。移动电话数据表明，人们给同事打电话的次数，要多于给自己配偶打电话的次数，我们难道能因此得出结论，同事比配偶的关系强度更高吗？

忽略具体的交流语境，仅仅通过交流频率或朋友列表示来测量关系强度，本身是有很大问题的。因为并非每一种（次）连接都是同质的。

思考05

可获得的数据并不一定就是道德的

Just because it is accessible

does not make it ethical

2006年，一个哈佛大学研究团队收集了1700位大学生的Facebook账号，希望研究他们的兴趣和朋友关系的变化。这些经过匿名处理的数据被公布出来，以供其他研究者使用。然而，人们却发现不难从这些匿名数据中得知某些用户的真实身份。更大的问题甚至是：这些学生完全不知道，自己的数据正在被研究者进行收集和分析。

学者不得不面对一个问题：在社交媒体上，所谓的“公开”（public）数据，究竟该如何使用？如何处理其中的研究伦理问题？一部分人已经意识到问题的严重性，并呼吁平台对用户隐私进行更好的保护。事实上，任何有关人的数据有难免引发隐私争议，滥用数据的危险究竟有多大，又是一件难以被量化的事。

自20世纪70年代以来，大学通过建立机构审查委员会（IRB）体系来保护被研究对象的权利。例如，“知情同意”被广泛作为研究伦理的基本要求之一。不过，对于大数据而言，其中的伦理意涵仍旧十分模糊。一个人在社交媒体上的广播应该被纳入到研究数据之中吗？万一TA的广播以一种脱离语境的方式被解读呢？对此，TA有知情权吗？如果TA在研究中遭受到了伤害，谁来负责呢？大数据研究中的知情同意应该如何操作呢？我们不能简单地认为，我们可以获得一项数据，就等同于可以收集和分析它们。

在大数据的研究中，我们还需要关注真相、控制与权力问题。研究者拥有工具和渠道，但社交媒体用户却没有。他们的广播是在高度情景化的背景下生产的，也很可能不愿意自己的信息被用在其他地方。很多人并不知道，算法正在收集、储存他们的数据，以供未来使用；更多人甚至不知道，研究者会成为他们个人主页的访客。

大数据的研究者很少会承认，在“being in public”和“being public”之间存在着相当大的差别。

思考06：

大数据的使用限制创造了新的数字鸿沟

Limited access to Big Data

creates new digital divides

社会学家Homans曾说：“在所需的时间和金钱方面，社会科学研究已经非常昂贵了，并且每天还在涨价。”曾几何时，收集数据是一件既费时间又费钱的事情，不过如今，似乎大数据的狂热者们有理由相信，大数据提供了一种获得大规模数据的简便方法。

不过，我们要询问的问题是：谁可以拥有这些数据？在何种情境下拥有？有何限制？正如Manovich所指出的：只有那些社交媒体公司才能拥有真正大规模的社交数据——尤其是那些交易数据。那些为Facebook或Google工作的研究者们，也可以获得其他学者无法拥有的数据。一些公司完全不提供关于自己的任何数据，另一些公司则用这些数据卖钱。这就造成了一种不平等：那些有钱的、有合作关系的研究者，可以生产出完全不同的研究。而不拥有这些资源的研究者，既不能进行这些研究，也没有机会去评估这些研究的方法论主张。

在接近权之外，还有技巧层面的问题。大数据研究排斥了那些不具有计算机背景的研究者，这并不是问题。关键问题在于，我们将大数据方法放在了至高无上的位置，这就建造起一种基于“谁能读懂数据”的研究阶级。相应的，传统的社会科学研究者的价值可能会被低估。我们需要面临的另一项挑战是，如何才能培养出这样的学生——既通晓社会理论，又熟练掌握算法和数据分析？

最后，我们还面临着另一种风险。因为社交媒体公司没有义务对研究者开放数据，因此，那些获得大数据的研究者，就不太可能进行批判式的研究。因为一旦这样做了，他们就会立刻被剥夺拥有数据的资格。我们必须对这种寒蝉效应加以警惕。

在研究界，大数据创造了大数据富人（Big Data rich）和大数据穷人（Big Data poor）。甚至Twitter的研究人员Jimmy Lin直接说，学术界最好离社交媒体远一点，这样我们能做得更好。这种划分局内人和局外人的观点可能会破坏学术共同体。

Manovich认为，大数据王国中有三个阶层：那些制造数据的人、那些可以收集数据的人、和那些可以分析数据的人。我们知道，最后一类人的比重最低，也有用最多特权。同时，他们也是决定大数据使用规则的人。也许在学术界，对这种不平等的批判可能会被很快放弃，不过，我们必须保持考察和质疑。

获取参考文献

原标题：《大数据无所不能吗？来自小数据研究者的六点质疑》

阅读原文

新闻推荐

正是梧桐花开日

□王侠在春日繁华与盛放里，最喜欢那一树树梧桐花开，大串花儿，高高绽放在枝头，远远望去，竟有几分云蒸霞蔚的美。小...