网络通信 频道

谷歌统计词频 看社会变迁

  谷歌本周推出了与哈佛大学合作的科学实验项目“图书词频统计器”,可对1800年到2000年世界上4%的图书,共计5亿个词汇进行词频统计,查看语言和文化的发展趋势,实验基于谷歌图书馆的数字图书,目前这一实验项目也支持中文。

  “谷歌实验室”本周正式发布了这一项目,其基于谷歌图书馆自有的500万本已经数字化了的小说和非小说,将其中的共5亿个词汇进行统计,这些书最早出版于1800年,最迟则到2000年,其中包括了英语、法语、西班牙语、德语、中文和俄罗斯语。

  任何人都可以使用其界面。记者登录该项目页面,发现其使用十分简单,只要在搜索栏输入想要搜索的词汇,便可看到自1800年到21世纪的词汇变化,以中文词汇为例,主要的变化可在20世纪初,上世纪40年代和80年代看到,词频的数据增减曲线代表着时代和文化的变化。如记者输入中文的“爱情”,这个词汇分别在上世纪30年代,60年代达到两个小高潮,在80年代则到达了最顶峰,如输入“工业”一词,在60年代和90年代出现了两个高峰,而当输入“互联网”时,则只有近新世纪时才出现一个最大峰值。

  英文词频的变化同样显示了英语国家的社会变化,如“女性”一词在70年代很少出现,但之后却开始出现高峰,和西方国家女权主义运动同步,此外,还可以看到,“弗洛伊德”的出现频率要高于“伽利略”、“达尔文”或“爱因斯坦”。

  这一实验项目是谷歌和哈佛大学合作而成,其实验研究已在权威科学杂志《科学》刊登论文。对于语言、文学、历史和艺术研究,这一实验将提供很大的参考价值,同时,非学术界的普通人也可以通过任何词汇的搜索查看社会文化的发展趋势。

  尽管历史上的大部分图书已属于公共领域,但20世纪仍有不少书属于版权范围,所以谷歌没有提供单本书的下载,但是,网友可以定制对词频的统计,而这些统计数据结果也属于“创造共享计划”,可以免费下载。

0
相关文章