谷歌扫描3000万本书建成的大数据库

Welcome Home / 家页 Forums 文艺时事杂谈 谷歌扫描3000万本书建成的大数据库

Viewing 1 post (of 1 total)
  • Author
    Posts
  • #84883
    Anonymous
    Inactive

    作者尼克,摘自东方早报

    “计算历史学”(Computational Historiography或者干脆Computational History)是一个我杜撰的词儿,一方面是迎合目前啥事前面都加“计算”的时尚,比如最唯物的有“计算广告学”(Computational Advertising),最唯心的有“计算形而上学”(Computational Metaphysics),中间隔着计算数学、计算物理学、计算化学、计算生物学、计算语言学等等。这年头,跳大神儿的要是不会个计算,都不好意思上春晚或江苏卫视。另一方面也是给中国做历史的提个醒:大部分的中国哲学家翻译水平已经被谷歌或百度翻译器赶超了,历史学家要是再不上进,也快没饭了。历史学最近屡被自然科学进犯,这不,前脚遗传学刚走,大数据和计算又来了。随便一个科学家都能到这儿玩个票。倒不是吓唬谁,这回介绍个神器: Google Books Ngrams。不信不服。

    谷歌的两位创始人在斯坦福读书时都在数字图书馆项目里干过活。早在2002年,谷歌还没出大名时,就启动了Google Print项目,要把全世界的数字图书馆项目统一起来。拉里·佩奇访问了他的本科母校密歇根大学,那里的图书馆学院是美国排名最靠前的之一,当时正有数字图书馆项目,就是用数字扫描仪把图书馆的所有书扫描然后做字符识别。佩奇参观了这个项目,结论是密歇根需要一千年才能把本校图书馆的书扫完。佩奇向校长建议:我六年就能扫完全世界的。这还真不算什么,扫描和字符识别都是成熟的技术,更重要的是谷歌有人,有钱,有效率。佩奇随后又访问了牛津最古老的Bodley图书馆,受到震撼,由此也和更多的大学图书馆结成伙伴关系:谷歌和这些图书馆合作数字化他们的所有书,从英文开始。

    但三年后,谷歌迎来了两场官司,一场是作者组织的集体诉讼,另一场则来自出版商。焦点自然是版权。2008年谷歌和出版商达成协议,同意为出版商和作者提供补偿。谷歌随后将Google Print项目改名为Google Books,在Google Books中,版权已过期的书全部公开,版权没过期但得到授权的可通过“预览”功能(Preview)部分地公开。但美国作协(Authors Guild,不知是不是中国作协的姐妹单位)对谷歌和出版商的协议不满,认为出版商不能代表作家的利益,于是又对谷歌提起诉讼。2011年,一位联邦法官拒绝了谷歌和出版商的协议,于是“作协对谷歌”的案子正式进入诉讼程序,直到2013年11月,联邦法官陈卓光(Denny Chin)做出对谷歌有利的判决,他的根据是“公平使用”(fair use)原则。哈佛图书馆馆长罗伯特·达恩顿(Robert Darnton)2010年写了本书讲了这个案子的早期发展,书名很有意思,叫The Case for Books,但中文版译名为《阅读的未来》,没有了原名的多重隐意。达恩顿作为历史学家,只看到谷歌扫描书这一回事,却并没有意识到Google Books不止扫描,更多是企图用机器理解被扫描的书的内容。

    到2010年,谷歌已经扫了一千五百万册书,这时谷歌决定将已经扫过的书的某些统计结果公开,这就是Google Books Ngrams。Ngrams是在文本中统计词频的算法。也就是说,书的内容不一定公开,但关于书的词频统计结果可以公开,并且Google为Ngrams做了一个“显示器”(Viewer),它可以画出输入的任何词或词组的词频统计结果。到2013年4月,已经有超过三千万册书纳入Google Books。一开始这些结果只被计算机科学家和计算语言学家所知,但现在越来越多的人文学者也开始玩起Ngrams了,估计用不了多久,这东西会成为字典一样的必备工具。

    下面通过几个例子介绍Ngrams的用法。

    例一、“黑鬼-黑人-非裔美国人”

    上世纪六十年代美国黑人民权运动爆发之前,“黑人”普遍被歧视地称为“黑鬼”(nigger),随后则被称为“黑人”。而近年来,“非裔美国人”变成更为政治正确的叫法。在Ngrams里输入,nigger,black people和African-American,可以清晰地看到这一趋势。横坐标是时间,纵坐标是词频。(见图一)

    例二、“科学、哲学与宗教”

    按照罗素在《西方哲学史》里的打油说法,科学是确定性的知识,神学是不诉诸理性的教条,而哲学则介于两者之间。比罗素晚一辈的美国哲学家蒯因可能不同意,他认为哲学压根就应该是科学化的(Scientific Philosophy),但蒯因的学生辈大概是最后一拨科学化的哲学家:新起的一大票逻辑学家都出自数学系和计算机系,哲学系已剩不下什么“科学”的玩意儿了。如果哲学家们还不争气,再过个十年,也许Ngrams真会验证这个预测。在Ngrams中,分别输入首字母大写的“Science, Philosophy, Religion”,和小写的“science, philosophy, religion”,我们得到如下两张图。在大写的图中(图二),可以清楚看到在公元1600到1800年间,宗教是压倒性强势,然后是哲学,相比之下,科学还是没影的事。但1850年是转折点,科学慢慢占据优势,比宗教和哲学加起来都大。在小写的图中(图三),科学和宗教的位置互换,晚了一百年。研究文化史和科学史的恐怕各自都有解读。

    科学史家劳拉·施耐德(Laura Snyder)写过一本很有意思的微观科学史著作《哲学早餐俱乐部》(The Philosophical Breakfast Club: Four Remarkable Friends Who Transformed Science and Changed the World)。讲的是十九世纪初,四位剑桥的学生:查尔斯·巴贝奇(Charles Babbage,数学家兼工程师,某种意义上,他发明了最早的计算机), 约翰·赫歇尔(John Herschel, 天文学家兼数学家),胡威立(William Whewell,科学家、哲学家、神学家)和理查德·琼斯(Richard Jones,经济学家),他们每个周日早上一起聚餐,讨论科学问题。他们后来对科学事业和科研社团(如皇家学会)在英国的发展做出了巨大贡献。那时,他们不满意被别人称为“自然哲学家”,其中胡威立最早提出了“科学家”这个词。这段有趣的故事提供了科学从哲学中分离的微观历史。如果在Ngrams里输入“natural philosopher,scientist”,可以和劳拉的故事互为佐证。把微观的课题放在宏观的历史语境(context)中,我们会学到更多。

    例三、 文坛座次

    中国文坛讲究排座次,鲁郭茅巴老曹,等等。前几年也不知哪个瞎起哄非要把金庸也拉入伙。二话不说,先把老哥几个的名字一顺给Ngrams,看看咋说。注意:鲁、郭的名字七十年代前的拼法分别为Lu Hsun和Kuo Mo-jo。两秒钟出结果:瞧人家画的这图,跟炒股曲线似的(见图四)。可以看出鲁爷江湖地位不可动摇,八十年代末九十年代初有点技术性下滑,随后又呈上升态势。但貌似三四十年代,鲁略输郭。不明白为啥曹禺就不带玩了呢,即使输入老拼法Tsao Yu也不济。金庸按说是这老几位里英文最好的吧,但就是不受待见,把他小名路易·查良镛(Louis Cha Leung-yung)算上,也不管用。这张小图够北大复旦那啥系的博导们喝一壶吧。顺便再给中国作家们支个招:以后要想名垂千古,就给你们家子孙后代都取同一个名,英文名也一样,无论性别,只要女眷能分清自己爷们就行。这招特适合代笔抄袭的。

    例四、 美国历史

    过去是数学家研究自己的历史,所以有“数学的历史”,现在是数学家研究别人的历史,所以有“历史的数学”(Mathematics of History),这个词儿还真不是我瞎编的,哈佛的两位应用数学家艾略兹·利伯曼·埃顿(Erez Lieberman Aiden)和让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)最近的主营业务就是研究历史,他们的任职单位是哈佛的IQSS(“定量社会科学研究所”),同时也在谷歌兼职,对谷歌的Ngrams项目有所贡献。哥俩最近写了本书《用大数据透视人类文化》(Uncharted: Big Data as a Lens on Human Culture),用通俗笔法介绍了他们的工作。书中提到了一个更有意思的例子。大家知道美国刚立国那会儿,各州之间是松散耦合,所以国名叫合众国(United States),乌合之众的意思。但内战之后,联邦的凝聚力增强,中央政府的权力也越来越大。埃顿和米歇尔用Ngrams查了两个词组:“United States are”和“United States is”。可以清楚看到,美国内战之前,民众的心态确实乌合,“合众国”原本是复数,所以大家自己的认同就是“are”,但现在的认同自然是铁板一块的“is”了。他们半开玩笑地说:美国内战其实是单数和复数之战,最后单数赢了。(见图五)

    还是中国老人有智慧,啥事想不明白,就说:这事留给我们子孙后代解决。过去以为这是托辞,现在有了“计算”,觉得还真是那么回事。过去整不明白的事现在能“算”出来。1996年,IBM“深蓝”计算机逼得最牛的人类棋手卡斯帕罗夫认输,就是靠的计算:“深蓝”比卡斯帕罗夫能多看半步棋。现在人所谓“下一盘很大的棋”就是比其他人多看好几步。过去中国人追求“行万里路,读万卷书”,其实就是抱着三字经满脑子范冰冰,坐高铁去趟铁岭。但瞧人家谷歌——论行路:无人驾驶车已经在加州办好驾照了,而论读书:Google Books把全世界的书都读遍了,而且有问必答。这要是用下围棋做比喻,人家得让钱锺书或者艾兹拉-庞德们多少子啊。

    以赛亚·伯林当年写过篇文章“论科学化的历史学”(The Concept of Scientific History),主旨是探讨历史学是否也能像科学那样有个客观标准,凭那时的手段和见识,这问题自然无解。也怪伯老师在牛津待的时间忒长,没和同时代剑桥的图灵过过招。但是伯林引用了英国前辈历史学家亨利·托马斯·巴克尔(Henry Thomas Buckle)的话说:历史学之所以没变成科学,主要是因为历史学家的智力不如自然科学家。他设想如果伽利略、牛顿、拉普拉斯有时间顺手玩点历史的话,历史学,说不定早就变成科学的一分子了。话虽损了点,但是出自历史学家自己之口,至少诚恳,而且还不能随便给他扣“智商歧视”的帽子,就像黑人或犹太人开自己同胞的玩笑,外人管不着。依我看,“科学化的历史学”搁现在就是“计算历史学”。

    司马迁被腐刑之后,中国就没人干实地考据了。即使人家都做好了,也懒得看。现而今,坐绿皮火车去趟莫斯科图书馆回来就算中国史学界大事儿。其实要是真不想去做实际工作,莫斯科都太远,去东莞整一山寨手机,躺床上就能指导博士生。不信?我先出个题:“女权运动五百年全球发展史”。然后在Google Ngrams里偷偷敲“penis-逗号-clitoris”,并把起始时间设在公元1500年。瞧好吧,您呐。所谓“秀才不出门,便知天下事”。对了,这句话百度译为:Without going outdoors, scholar knows all the world's affairs。也可以意味深长地简化为:Lying in the beds, the world can be in your heads。

Viewing 1 post (of 1 total)
  • You must be logged in to reply to this topic.