学术检索与知识管理
因疫情影响,近半年来高校等研究单位的师生大都避疫在家,无法正常利用图书馆资源。自2020年4月起,由北京大学、南开大学等高校青年学者发起的“文献挖掘整理研究会”决定在线举办第三次文献沙龙,以助力文史学者更好运用线上资源以推进研究。本次沙龙邀请北京大学(中文系、历史系、信管系)、清华大学、复旦大学、南开大学、台湾“清华大学”、中华书局等单位的学者,围绕“瘟疫时期的网络资源”“学术检索的过去现在和未来”“古典文献资源的整合与导航”“中华书局的数字资源与使用”“史实数据的关系表达”六个议题展开研讨。
第二场对谈“学术检索的过去、现在和未来”由史睿(北京大学中古史研究中心副研究员)主持,与谈嘉宾黄一农(台湾“中研院”院士、台湾清华大学历史所教授)、苏芃(南京师范大学文学院教授)、李旻(复旦大学计算机科学技术学院讲师)、刘姝然(北京大学信息管理系硕士研究生)参与研讨,本文系此次对谈的摘录稿下篇。刘姝然:从检索系统的开发者角度,从Information Science这个专业出发,怎么思考检索系统如何更好地服务于文史研究,今天我想分享这方面的内容。
我们专业和计算机学科有交叉,但其实也和古典文献专业有一些渊源。北大信息管理系本来叫图书馆学系,早期的图书馆学专业可能更关注对“书”的组织和检索,而随着信息技术的发展,现在我们重新介入“数字人文”领域,会在关注“书”这种信息载体外,更加关注“书”里的信息、知识。怎样用命名实体识别之类的技术从这些文本中提取知识单元,对知识进行更加细粒度化的组织,如何构建知识图谱,这是我们关心的问题。比如说,我们实验室对《宋元学案》做处理,把里面的人、地、时等实体都提取出来,建立实体和实体之间的联系,构建知识图谱,再用可视化方式来呈现书中的师承关系,书中所反映的史实就“立体”起来了。
那么,这种可视化系统有没有可能成为新媒介环境下的一种检索系统?例如我们在这些可视化界面中可能会发现一些有趣的视觉现象,这有没有可能让我们发现某些有价值的新问题?我去问文史专业的同学,他们说,这类可视化系统就像是给一本书的做了个“目录”,能够帮助读者快速定位信息,高效地找到需要细读的文本。这是不是也是某种“检索”? 检索系统有没有可能是可视化的?如何利用信息技术去高效地实现这样的检索系统?这是我们专业的同学所关心的。
从人类文字诞生的那一刻起,如何快速从大量的记录在各种各样的存储媒介中查找和获取信息,就成为一个引人注目的问题。这个问题关系到人类如何主动获取自己需要的知识,所以说,计算机专家们对于检索系统的研究,其实和刚才老师们从人文研究角度去讨论的问题,是有很深的联系的,其内在的脉络是——如何让人高效地获取信息?所以我们以前研究书目如何编辑,现在研究书内部的信息和知识如何组织、如何被检索。以前我们查找信息去图书馆,现在我们需要“数字图书馆”,需要对数字资源的合理组织,需要更好用的学术检索系统。
很多人觉得现在的学术检索系统大多不太好用,无法做到模糊检索、检索词推荐、合理的检索结果排序等等,百度、谷歌能做到,甚至京东、淘宝也能做到,但学术检索系统还停留在关键词匹配检索的阶段。那么,学术检索系统有没有可能模仿商业搜索引擎的路径向更易用的方向发展呢?关于这一点,我有一些畅想。比如,京东有“语义检索”,你搜一个词,它可以联想出一些另外的词给你做推荐,它是一个基于语义的检索,而不是呆板的关键词匹配,学术检索有没有可能做到这样?又比如,淘宝有“分面检索”,你如果搜“显示屏”,它会告诉你可以从接口类型、尺寸、面板、类型等角度去做筛选,以更快地获取到你想要的那个型号,那么,学术检索有没有可能也这样,从不同方面去辅助你检索到自己想要的某本文献?再比如,我们现在可以直接用自然语言和谷歌对话,你去在搜索框中问谷歌苏格拉底最聪明的学生是谁、姚明的身高是多少,它是可以回答的。中文领域,百度也有类似的功能,最近新出现的 MAGI知识图谱搜索引擎,不仅可以回答这些问题,还可以去溯源机器是从哪些语料中去学习到的这一条的,这在学术检索场景下是非常有必要的,也就是说,我们不仅要将从文本中提取出来的结构化信息展示给用户,还需要告诉用户,这是从哪一个文献中提取出来的,为什么这样提取,也就是提供其“论证过程”, 你如果不认可,可以去溯源,甚至纠正。还有一些更好玩的脑洞,比如,既然有今日头条这样的推荐系统,有没有可能有学术头条、学科头条?能不能根据用户需求、自身所关注的领域,把最新的一些研究成果主动推荐给用户?
探寻式搜索
现在的学术检索还只能满足“查询式搜索”的需求,也就是,输入一个关键词,然后做全文匹配,出来包括这个词的所有文章。但是我觉得对于文史研究者来说,更重要的是“研究型搜索”,我们得到的检索结果可能不是唯一的,我们的检索过程可能是迭代式的、渐进性的,是不断变换检索词,不断逼近自己想要的答案的过程。那么在这个过程中,我们可能会经常去重构检索词,就是重新换一个检索词再去检索,慢慢找到自己想要的某个检索词。系统开发者们非常关注这种检索词的重构,我们在想,机器能不能去学习到这些检索词的变化? 用户输入的第一个词什么?第二次检索词为什么变了?这里面发生了什么样的需求转变,捕捉到这种需求之后,机器有没有可能去满足它?我觉得检索一个信息,和生活中找一个东西,最大不同是,信息检索其实本质上也是一个认知重构的过程,那有没有可能将这种认知重构的过程用可视化检索词的方式展现出来?这些问题都是开发者们正在探索的,希望我们可以通过这些研究,更好地满足人文学者的检索需求。
“检索”和“浏览”是人类最重要的两种信息行为。“浏览”也很重要,在有目的或无目的的浏览过程中,可能会产生一些信息的“偶遇”,无意中发现的一些本来没见过的东西,但这些东西对我们的研究可能非常重要。这让我想到,其实图书馆的闭架会大大减少这种“无目的浏览”的机会,也就减少了“信息偶遇”,对研究和获取信息是有负面影响的。在“数字图书馆”中,我们也需要避免这种“闭架”,让学者们有机会“无目的地浏览”到数字资源,以引发一些研究灵感。
我在思考这些问题的过程中,越来越意识到,技术专家、系统设计者和人文研究者需要更深度的对话。比如我们一直在讲知识的结构化提取,知识图谱构建,但是有哪些实体需要提取?实体之间有哪些关系?这些关系具体怎么定义?这都需要引入大量的专门知识,也让人文学者参与进来。希望可以通过我们共同的努力、更广泛的对话,去逐步构建一个更好用的学术检索平台,一个作为人文研究基础设施的“数字图书馆”。
史睿:有了现代的电子检索的手段,我们获取信息的视野有什么样的变化?如果以一个光学镜片做比喻的话,可以说我们得到了一个视野非常宽广的鱼眼镜头,但同时镜头焦距变得特别短,视野中的内容发生了严重的畸变。所以获得广阔视野的同时,我们也有很多的损失。这样的状况,让我们重新审视新旧媒体在知识管理体系上的张力,思考要怎么对待这个问题。
我今天想讲的是,从上世纪90年代开始,“知识发现”这个词在计算机科学领域受到更多的关注。那个时候我刚刚开始自己图书馆员的职业生涯,我也学习到很多这方面的知识。我们在进入一个跨越传统媒体到新媒体的时代。那么在这个时代,是不是旧的媒体就已经完全死掉了呢?如果纸本书只是作为一个知识载体的话,那这个载体被时代抛弃,没有什么遗憾。但实际上书籍也是一个知识管理模型,这是纸本媒体的隐形特征。这些知识管理模型所承载的功能,应该平滑地转移到新媒体中,如果没有完成这个过程就抛弃一切旧媒体,一定是不明智的。但是问题在于,我们发现知识管理模型的“平滑转移”并不是自然而然的一个过程,需要付出很大的努力。
从战后到21世纪初,新媒体的信息处理功能经过了七八十年的发展历程。在这段历程中,计算机的信息处理能力、人机交互能力有很大的进步,但是还有很多功能,比如说自然语言处理、语义检索、知识发现,尚无完美解决方案,让我们不能满意。我认为新媒体有其“原罪”:即信息黑洞和信息失序。这么说也许有点过分,但是我想用这个词提醒大家注意。
所谓信息黑洞,是指网络上的信息今天有一个访问地址,明天它迁移了,我们就找不到。更糟糕的是信息失序,当我们找一条信息的时候,计算机不能将信息放在人类熟悉的知识序列中显示,并同时带给我们与之密切关联的一系列的其它信息。比如,以前我们在图书馆查书的时候,用卡片目录去查,每张卡片都是编排在某个分类体系之下,它不仅告诉我们有这一本书,而且还通过卡片排序告诉与之有关联的其图书。这就是清代学者章学诚《校雠通义》所说的“即类求书”。这种功能在我们开始进入到电子书目检索以后,基本上已经完全丧失了。仅仅是这样一种很明确,而且很传统的知识管理的办法,在新媒体介入以后也发生了知识模型的破坏和知识线索的断裂。知识组合形式、知识关联形式、逻辑关联形式,其实在新媒体中都没有平滑地转移过来,我们对这种现象感到非常焦虑。
燕京大学图书馆(引得编纂处)旧址,图片来自北京大学网站
在这样一个新旧媒体交错的时代,对于旧的、传统媒体时代的知识管理体系,我们必须了解它经历了怎样的演变过程,积累了怎样的经验,哪些模型、哪些技术,我们今天可以善加利用?哈佛大学燕京学社编纂处的《引得》丛书是洪业先生与哈佛大学燕京学社在中国开办引得编纂处,几十年的时间里编了数十种的古籍索引,对于中国现代学术的建立起了重大的作用。回望人类历史,我们发现,所有在媒体转变的时代,都伴随着知识管理模式的转变,而且这两种变革的叠加会往往激发新的学术路径、学术思考方向的变化。比如说,在东汉末期到魏晋时代,传统经学格局积累的知识越来越多,但是同时打破这一格局、重新组织知识的办法也逐渐产生。从形态上看,我们看到有编纂《皇览》这样的类书,还有王充《论衡》这样打破学科体系壁垒的通论,所以这个时代学术有大的飞跃性发展。从那个时代往下发展,我们可以看到,像北宋初期雕版印刷术的产生和与之相配套的人类历史上最早书籍索引的出现,都对学术的演进,甚至人类的思维产生了巨大的影响。在洪业先生的引得编纂处所取得的成就当中,我们可以看到中国学术从前近代进入了近代这样的一个变化。这关系到我们今天讨论的主题,就是学术检索。就像早先几位老师们所说的,以前的学者,他们要靠背诵很多东西来把知识储存在自己脑子里,但当知识的数量非常大,超过人的记忆能力的时候,那要怎么处理,如何去重组呢?这就是要依靠学术共同体的工作,把它做一个重新的组合。复旦大学李旻老师展示的清代人物数据库,任何人大概都没有办法凭自己的记忆掌握这么多的人物信息,家世、婚姻这样的关联,只有做了索引或者做了数据库以后,才能够超越一个人自己的生命历程和他的记忆承受能力,实现更大的飞跃和对更多文献的掌握与处理。这个历程的开端就是当年在私立燕京大学、国立北平图书馆、中法汉学研究所里所做的那些索引编纂事业,也是今天学术检索必须延续下去的必经之路。
我认为书籍是知识的载体,也是管理形式,目录是前近代学术的一个基本组织形式。我们进入图书馆,在没有现在的搜索引擎之前,获取知识的途径就是查目录卡片。索引又给我们在目录之外另加了一个新管理形式,它的出现是建立现代学术的基础。首先它不是以书为单位的,而是以有意义的关键词为单位,它知识粒度明显比书或者是篇章这样的粒度要细腻的多。在关键词这样细腻知识粒度的基础上,我们可以做更多更深入的、更专精的学问。有了这样的功能,每个学者都可以在超越个体的经验和能力之上,做很多事情。
索引,乃至一切传统检索工具,本质上都是揭示人类知识内在关联的认知方式,而且完全符合人类的认识习惯。彻底研究索引的原理和特性,能给我们带来极大的启示。知识中的确定性的内在关联提取出来,总结成为规则。索引所揭示的知识规则,是构建新媒体时代人类知识的体系的基础,也是实现知识发现新方案的基础。索引具有三种功能:它是学术进阶的工具,知识发现的手段,也是学术评价的标准。我们认为传统的检索工具,其实是人类认知思维的外在表现。索引有两种形态,分别代表了人类的两种认知形式,即知识扩展和模式识别。知识扩展又分为两种形式,其一是单向度的知识扩展模型,就是在同一个文献内部提出某些关键词制成索引,当读者在一个段落中发现其中一个关键词,可以经由索引扩展到本书其他段落、篇章中的其他同一关键词,这是一个闭合循环的知识扩展模型;其二是开放性的知识扩展,就是读者在书中发现一个关键词,通过综合索引跳转至多种文献中与之相关的关键词,从而再去扩展到其他文献。在这个模型之上,如果把多个知识关联序列进行叠加,我们又掌握了一个新的认知形式,就是模式识别。就像李旻老师所说的,我们以自己的学术研究目的为出发点的检索途径。我们不是说通过一个已知的关键词去找它在文献中出现的位置,而是根据某些边际条件探索某个关键词集,即获取位于一个相关知识序列中的知识集合。比如说,我们综合利用唐代的士族世系表、科举年表(登科录)、职官年表,探索士族出身的文士通过科举途径入仕和此后的升迁途径中较之寒门子弟有何优势,甚至结合士族郡望表进一步细致分析不同地域士族的升降与科举之间的关系。模式识别是学术研究中更为高级的思维过程。
在学术研究中经常碰到这样的情况,我们实际上只有一些边际条件,不知道具体目标,这种情况下,我们是不是可以织成一个“知识发现”的鱼网去捕获信息,根据确定的边界条件在海量数据里获取有相关性的有序的知识集合。这个知识集合,它所有的知识点都是在一个知识关联的网络体系当中,不是单个的珠子,而是固定在一串项链上,我们可以知道它的定位,知道它跟其它知识之间的关联。这样的知识集合比任何搜索引擎得到的数据集更准确、更有效,让我们提高效率,而且提高准确度,这在学术研究中更为重要,能够快速获得我们所需要的。知识图谱正是用以实现模式识别思维功能的方案,它由多个知识本体库以及多个知识模型组成,把这些知识模型进行叠加以实现模式识别功能。知识图谱的综合架构有点像分子模型,任何一个知识点都能够在它的生物链上找到,而每个生物链跟其他的生物链之间还有一种关联,那么我们可以通过它的颜色、大小、方向来定位它到底是哪一个具体的知识。我们看单独的知识点,它是海量中一个不确定的点,但是当我们把不同来源的知识进行拼合的时候,其实它就变成了一个某种七巧板拼成的固定形状,它每一个单块都是不可移动的,是互相关联从而互相限定的。那么,以往所有的问题、错误,包括误解,其实都可以在这个体系中再认识。这种知识管理方案能够让我们把传统媒体中经验、知识和智慧,平滑地移入在新媒体中,让我们能够实现基于规则的方案和基于统计的方案的完美结合,也就是基于计算机技术的和基于专业领域知识的知识管理方案的完美结合,并且实现更高的人工智能,辅助人类更加广阔、深入地认识主观世界和客观世界。
(本场文字稿由涂亮、何青红、廖家燕、孙绍丹、潘君杰、郑闯辉、张国栋整理,经史睿、刘姝然审定)(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)
新闻推荐
2020年7月3日,中国美术家协会(以下简称“中国美协”)发布了2019年度新会员名单——来自31个省份、新疆生产建设兵团、港澳台...