陳婧
這是一個(gè)好玩到停不下來(lái)的搜索引擎。
Ngram Viewer是Google Labs和哈佛大學(xué)學(xué)者共同開(kāi)發(fā)的成果,只要用這個(gè)工具進(jìn)行搜索,就可以發(fā)現(xiàn)從公元1500年到現(xiàn)在的500多年里,社會(huì)的熱點(diǎn)如何不停地切換。谷歌在2004法蘭克福書(shū)展上開(kāi)始啟動(dòng)谷歌圖書(shū)館計(jì)劃,試圖掃描自現(xiàn)代印刷術(shù)發(fā)明以來(lái)全世界所有的印刷書(shū)籍。在此基礎(chǔ)上,通過(guò)OCR識(shí)別,建成了世界上最大的電子書(shū)數(shù)據(jù)庫(kù)。谷歌圖書(shū)館計(jì)劃與Google's Partner Program 共同組建成廣為人知的 Google Books。
至 2015年10月,這個(gè)項(xiàng)目已掃描超過(guò)2500萬(wàn)本書(shū),占人類歷史上所有出版書(shū)目總數(shù)的19.2%。Google 對(duì)書(shū)籍的處理不僅是掃描,還進(jìn)行了數(shù)字化與數(shù)據(jù)化,通過(guò)一系列算法從萬(wàn)億級(jí)別的原始數(shù)據(jù)中識(shí)別出單個(gè)的詞語(yǔ)和短語(yǔ),建成了一個(gè)語(yǔ)料庫(kù),這樣就巧妙地避開(kāi)大多數(shù)國(guó)家的版權(quán)問(wèn)題。
龐大的數(shù)據(jù)庫(kù)催生了一個(gè)新學(xué)科的成立——Google Ngram Viewer就是借用這個(gè)數(shù)據(jù)庫(kù)開(kāi)發(fā)的新工具。Ngram Viewer支持8種語(yǔ)言的檢索,包括英語(yǔ)、法語(yǔ)、德語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、俄語(yǔ)、希伯來(lái)語(yǔ)、漢語(yǔ),其中英語(yǔ)數(shù)據(jù)占到大約56%,漢語(yǔ)約占8%。
網(wǎng)友可輸入至多5個(gè)不同詞匯,透過(guò)Ngram Viewer顯示的趨勢(shì)線,觀察這些詞匯在不同年代出現(xiàn)的頻率。當(dāng)你輸入“莎士比亞”,搜索范圍設(shè)定在1500~2000年的英語(yǔ)書(shū)籍里,在他過(guò)世后的第92年,即1708年是“熱搜”莎士比亞的最高峰,之后1930~1953年,莎翁的著作又一次受到了追捧。與莎士比亞被引用熱度不分伯仲的還有福爾摩斯,這位虛構(gòu)的偵探人物在1971~1979年間,成了街談巷議的熱點(diǎn)。維多利亞時(shí)代英國(guó)最偉大的作家狄更斯在1917~1923年期間,獲得了空前的成功。那個(gè)年代大約萬(wàn)分之三的書(shū)籍里,都會(huì)提到狄更斯的名字,這時(shí)候距離作家因?yàn)槟X溢血和寫(xiě)作疲勞去世,已經(jīng)過(guò)去了約半個(gè)世紀(jì)。
除了可以看到數(shù)據(jù)趨勢(shì)圖,原始數(shù)據(jù)還可從網(wǎng)頁(yè)免費(fèi)下載,提供給語(yǔ)言學(xué)家、社會(huì)學(xué)家、人類學(xué)家等作進(jìn)一步的資料分析和研究。《紐約時(shí)報(bào)》將Ngram Viewer這個(gè)全新的可視化工具,稱為“通向5000億單詞的文化視窗”。
數(shù)據(jù)可視化的意義
Ngram Viewer如同一個(gè)普通的搜索引擎,輸入一個(gè)“關(guān)鍵詞”,就可以查詢它在書(shū)籍中出現(xiàn)的頻率,而且可以依據(jù)年代時(shí)間線查詢。在搜索欄上方的“from the corpus”里可以切換要查詢哪種語(yǔ)言的書(shū)籍,其中支持簡(jiǎn)體中文書(shū)籍的內(nèi)容統(tǒng)計(jì)分析。接著,可以在兩個(gè)年代之間查詢書(shū)籍?dāng)?shù)據(jù),時(shí)間跨度的范圍從1500年到2008年。用戶最多可以設(shè)定五組關(guān)鍵詞來(lái)對(duì)比,關(guān)鍵詞之間用逗號(hào)分隔。
我們可以在圖表里看到不同關(guān)鍵詞在不同年代里被書(shū)籍使用的頻率,這在統(tǒng)計(jì)分析上可以做出很多有趣的調(diào)查與申論。若是繼續(xù)點(diǎn)擊圖表下方的年代鏈接,就可以進(jìn)入Google Books服務(wù),查詢指定條件的書(shū)籍,直接找到相關(guān)圖書(shū)。
參與設(shè)計(jì)項(xiàng)目的是來(lái)自哈佛大學(xué)的計(jì)量社會(huì)學(xué)教授讓-巴蒂斯塔·米歇爾(Jean-Baptiste Michel),他因?yàn)橹铝τ谌宋臄?shù)據(jù)的可視化研究而被譽(yù)為“數(shù)據(jù)的藝術(shù)家”。埃雷茲·李伯曼·艾登(Erez Lieberman Aiden)是計(jì)算機(jī)科學(xué)家、生物物理學(xué)家和應(yīng)用數(shù)學(xué)家,他們一直試圖找到一幅展現(xiàn)人類文明和人文歷史的“科學(xué)”畫(huà)面。
“人類在漫長(zhǎng)歲月中寫(xiě)了很多書(shū),我們向他們學(xué)習(xí)的最佳方法,就是把那幾百萬(wàn)本書(shū)全部讀完。當(dāng)然,這個(gè)可行性極低。人們不得不傾向于另一種做法,就是選擇幾本書(shū)進(jìn)行精讀,可行性很高,但還不夠好。”當(dāng)米歇爾和谷歌的數(shù)字化工程師進(jìn)行交流時(shí),他們找到了這個(gè)“既可行又很好的”方法。
自印刷機(jī)問(wèn)世以來(lái),寫(xiě)書(shū)的過(guò)程變得簡(jiǎn)單多了,據(jù)統(tǒng)計(jì)到2010年,全世界大約出版了1.29億本圖書(shū),而這些書(shū)籍如果沒(méi)有隨著歲月遺失,就都在圖書(shū)館里存放著。谷歌已經(jīng)將圖書(shū)館中的書(shū)籍進(jìn)行了數(shù)字化,掌握了這些書(shū)籍的出版地、作者、出版時(shí)間等信息,最終篩選出了5000億個(gè)高質(zhì)量的單詞。
Ngram Viewer 收錄的單詞或短語(yǔ),需要滿足一項(xiàng)要求:這個(gè)詞組或者短語(yǔ)在某年出版的超過(guò) 40 本書(shū)中出現(xiàn)過(guò),才會(huì)有該年該詞的數(shù)據(jù)點(diǎn)。同時(shí),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,可以削弱某些年份某些書(shū)印數(shù)過(guò)多對(duì)結(jié)果的影響。當(dāng)這些數(shù)據(jù)加上時(shí)間和引用比例,就轉(zhuǎn)變成為一個(gè)具備XY軸的搜索服務(wù)。
據(jù)米歇爾透露,這5000億個(gè)單詞的長(zhǎng)度連起來(lái)是人類基因組的1000倍,如果把這些單詞連續(xù)寫(xiě)出來(lái),長(zhǎng)度相當(dāng)于在月球和地球間來(lái)回穿梭10次以上,而這僅僅是人類“文化基因組”的小小一段。谷歌向來(lái)是分析大數(shù)據(jù)的專家,它們企圖要將所有圖書(shū)數(shù)字化的努力,成就了現(xiàn)在的Ngram Viewer。
在工作原理上,Ngram將一個(gè)句子拆分成N個(gè)連續(xù)相鄰詞組成的詞組,從而用來(lái)猜測(cè)語(yǔ)言的可能性,谷歌將這個(gè)方法定義為“文化組學(xué)”。“文化組學(xué)”的方法最早出現(xiàn)在2010年《科學(xué)》雜志上一篇名為《使用數(shù)百萬(wàn)本電子書(shū)對(duì)文化進(jìn)行的計(jì)量分析》的文章里,現(xiàn)在指的是通過(guò)電子化文本的量化分析,研究人類行為、人類活動(dòng)與文化趨勢(shì)的計(jì)算詞典學(xué)。
這個(gè)由谷歌定義的新詞,來(lái)源于“基因組學(xué)”——把人類基因作為研究對(duì)象,是生物學(xué)上觀察人類基因序列組的透鏡。文化組學(xué)與其非常類似,挖掘大量數(shù)字化信息,將數(shù)字化的歷史記錄片段作為透鏡,探尋反映在語(yǔ)言和文字中的社會(huì)文化現(xiàn)象。文化組學(xué)的優(yōu)點(diǎn),就如同人類基因序列,“所有人都可以用上它。”
英語(yǔ)諺語(yǔ)說(shuō),“一幅畫(huà)面可以抵過(guò)1000個(gè)詞?!泵仔獱柋硎荆麄?cè)谘?qǐng)了來(lái)自哈佛大學(xué)、麻省理工大學(xué)、《英國(guó)大百科全書(shū)》、《美國(guó)傳統(tǒng)英語(yǔ)字典》的編委后,得出了一個(gè)驚人的結(jié)論,Ngram Viewer的一幅畫(huà)面抵過(guò)上億個(gè)詞。
從用字遣詞發(fā)現(xiàn)社會(huì)趨勢(shì)
Ngram Viewer已經(jīng)成了一些媒體人愛(ài)不釋手的玩具,美國(guó)最具影響力的商業(yè)雜志之一《快公司》比較了英語(yǔ)中報(bào)紙、雜志、英特網(wǎng)在不同年代的興衰,結(jié)果出人意料,不管哪個(gè)年代,報(bào)紙都是最受青睞的讀物,甚至在英特網(wǎng)風(fēng)靡的時(shí)代,報(bào)紙的流行度雖然不如鼎盛時(shí)期,但還在向上攀升。此外,《快公司》還對(duì)蒸汽、電力、原子能等三種不同能源的興衰做了比較,原子能自1945年迅速崛起,并在上世紀(jì)80年代成了最熱門(mén)的能源話題。
當(dāng)查找“流感”這個(gè)詞時(shí),你會(huì)看到全球范圍內(nèi),1918~1920年在歐洲爆發(fā)的西班牙流感,成了人類歷史上最致命的自然事件之一。在之后的幾十年里,流感雖已平息,但人們的討論從未終止,它的熱度似乎不亞于一些文學(xué)暢銷(xiāo)書(shū)。
具有160多年歷史的《亞特蘭大》雜志收集了一系列有趣的趨勢(shì)比較,例如:在過(guò)去的200年里誰(shuí)比較受歡迎,狗和貓?咖啡和茶?男性和女性?對(duì)比發(fā)現(xiàn),狗受到的寵愛(ài)始終多于貓;茶的流行度始終高于咖啡,直到上世紀(jì)70年代趨勢(shì)才被改變;女性在書(shū)籍里出現(xiàn)的概率逐漸走高,并與男性接近,性別平權(quán)的趨勢(shì)非常明顯。
廣告從業(yè)者希望通過(guò)一些敏感詞獲得用戶的關(guān)注度,使用Ngram Viewer也有助益。如果你想告訴大家“上帝死了”,那么該換一個(gè)說(shuō)法了,自1968年這個(gè)說(shuō)法達(dá)到鼎盛之后,關(guān)注度就一路下滑。但“氣候變化”的熱度卻在飛漲,從1970年后,很多書(shū)籍里都出現(xiàn)了“海平面正在上升”、“全球氣溫升高”、“二氧化碳濃度增加”這樣的詞匯,比起上世紀(jì)50年代,這些詞的使用增加了500倍。對(duì)廣告人來(lái)說(shuō),Ngram Viewer是一個(gè)把社會(huì)熱點(diǎn)切換成趨勢(shì)的關(guān)鍵工具。
Ngram Viewer雖然沒(méi)有公開(kāi)全書(shū)的內(nèi)容,但是公開(kāi)了書(shū)本的相關(guān)統(tǒng)計(jì)數(shù)據(jù),從而可監(jiān)測(cè)人們口語(yǔ)表述的變化情況,搜索者還可以透過(guò)數(shù)據(jù)本身,看到數(shù)據(jù)背后的故事。在搜索英文書(shū)籍?dāng)?shù)據(jù)庫(kù)時(shí),如果檢索馬克·夏加爾這位定居在法國(guó)的俄裔超現(xiàn)實(shí)主義藝術(shù)家,是一條穩(wěn)步上升的曲線,知名度越來(lái)越高。
然而在德語(yǔ)書(shū)籍庫(kù)進(jìn)行同樣的檢索時(shí),你會(huì)看到非常奇怪的現(xiàn)象——聞所未聞。他先是名極一時(shí),但突然之間名聲直線下落,1933年到1945年間達(dá)到了低谷,后來(lái)才回升。為什么呢?原來(lái)夏加爾因?yàn)楠q太人的身份,而在納粹德國(guó)遭到了政治禁令,這幅圖反映了書(shū)籍記錄中的審查情況。
同樣,人們從上世紀(jì)60年代就開(kāi)始展望“千禧年”,到了80年代中期關(guān)注度突然飛升,人們意識(shí)到2000年快要來(lái)了,各種書(shū)籍里都在討論,這樣的討論持續(xù)了整整十幾年,而到了2008年,大家醒悟過(guò)來(lái)2000年已成往事,一場(chǎng)關(guān)于千禧年大討論的泡沫就這樣破裂了。
通過(guò)Ngram Viewer,美國(guó)學(xué)者阿歷山大·彼得森發(fā)現(xiàn)了詞匯的產(chǎn)生和消亡的生命周期臨界點(diǎn):在它產(chǎn)生30年到50年之后,要么寫(xiě)入字典,要么消亡。詞匯的消亡速度,通常超過(guò)了新詞匯的產(chǎn)生速度。而且,通過(guò)這些漂亮的圖表也可以發(fā)現(xiàn),人類對(duì)過(guò)去的遺忘速度快得驚人。
關(guān)于準(zhǔn)確性的質(zhì)疑
據(jù)參與Ngram Viewer開(kāi)發(fā)的威爾·布魯克曼(Will Brockman)和喬恩·歐文特(Jon Orwant)表示,自上線以來(lái),這個(gè)工具每分鐘的使用頻率至少達(dá)到50次,用戶生成的數(shù)據(jù)圖表超過(guò)了4500萬(wàn)張,透過(guò)這些詞匯,人們發(fā)現(xiàn)文字背后的人類社會(huì)與歷史。其中,粘度非常高的用戶有語(yǔ)言學(xué)家、歷史學(xué)家、圖書(shū)學(xué)家。
除了發(fā)現(xiàn)過(guò)去,Ngram Viewer還有預(yù)測(cè)未來(lái)的功能:在文化組學(xué)2.0的項(xiàng)目里,卡列夫·利塔如(Kalev Leetaru)通過(guò)分析包含印刷品和媒體信息的數(shù)據(jù)庫(kù),預(yù)測(cè)到了2011年的“阿拉伯之春”事件,并且成功地預(yù)測(cè)到了本·拉登生前的居住地,誤差在124英里范圍內(nèi)。
但是對(duì)于這個(gè)工具的準(zhǔn)確性,各方依然有著不一致的評(píng)價(jià)。加州大學(xué)語(yǔ)言學(xué)教授杰奧夫·扭恩伯格(Geoff Nunberg)發(fā)現(xiàn),有很多無(wú)效的數(shù)據(jù):出版時(shí)間、作者、類型等等。由于OCR自動(dòng)識(shí)別掃描的關(guān)系,因此可能帶來(lái)非常高的錯(cuò)誤率。他在檢索中搜索了美國(guó)前總統(tǒng)巴拉克·奧巴馬的名字后,在他的出生年份之前,竟然有29條數(shù)據(jù)。不過(guò)谷歌很快就更正了這些錯(cuò)誤。
也有評(píng)價(jià)認(rèn)為,對(duì)于人名、概念熱門(mén)度的評(píng)估,不能僅僅依靠在書(shū)籍中被引用的數(shù)量計(jì)算得出——這樣的話,一本只被讀過(guò)一次的書(shū)和被瀏覽過(guò)數(shù)百萬(wàn)次的書(shū),具有相同的價(jià)值。這既不能反映出大家在熱議什么,也無(wú)法得出出版界在關(guān)心什么。
更多的評(píng)價(jià)則認(rèn)為,Ngram Viewer建立在谷歌圖書(shū)館計(jì)劃掃描的圖書(shū)基礎(chǔ)之上,但是沒(méi)有人知道,谷歌是如何選擇和獲取這占到人類出版史約19.2%的圖書(shū)的。不確定是否會(huì)有系統(tǒng)性的選擇偏差,也不確定圖書(shū)的幸存者偏差有多嚴(yán)重,故而這些圖表得出的結(jié)論,并不能隨意外推。
圣迭戈州立大學(xué)的心理學(xué)家吉斯曾經(jīng)使用Ngram作為工具研究自戀,但他提醒“小心倒洗澡水的時(shí)候,把孩子一起倒掉”。因?yàn)檫@個(gè)工具的缺陷,在于無(wú)法衡量某一類著作在數(shù)量上的變化。比如一段時(shí)間“秋天”這個(gè)詞語(yǔ)的使用變少了,很難真正說(shuō)清楚,到底是對(duì)秋天感興趣的人變少了,還是因?yàn)楹汀扒锾臁睙o(wú)關(guān)的詞匯變多了?
也有學(xué)者認(rèn)為這個(gè)工具沒(méi)有將動(dòng)詞、名詞、形容詞等做出有效區(qū)分,例如“Cheer”既可以是動(dòng)詞,也可以是名詞。但在斯拉夫·比特羅夫(Slav Petrov)領(lǐng)導(dǎo)的谷歌自然語(yǔ)言處理小組的帶領(lǐng)下,彌補(bǔ)了這個(gè)缺陷,目前可以區(qū)分出這兩個(gè)不同類型詞語(yǔ)的頻度。
除此之外,目前Ngram Viewer收錄的數(shù)據(jù)還有一定滯后性和片面性——與Google Trends的高度實(shí)時(shí)性不同,圖書(shū)的滯后性較長(zhǎng),只能在比較大的尺度上看趨勢(shì)變化。數(shù)據(jù)庫(kù)的內(nèi)容完全來(lái)自出版圖書(shū),而不包括未出版圖書(shū)或其他形式的文字,也不包括正在以指數(shù)級(jí)增長(zhǎng)的網(wǎng)絡(luò)和電子信息。
由于英文圖書(shū)占到了數(shù)據(jù)庫(kù)的56%,而漢字書(shū)籍僅占其中的8%,英語(yǔ)的語(yǔ)料庫(kù)最大,且英語(yǔ)在最近幾百年來(lái)的圖書(shū)中的使用率總體看來(lái)看是最廣的,比較能夠反映真實(shí)世界的一些變化。
對(duì)漢語(yǔ)檢索的結(jié)果,需要更加謹(jǐn)慎的解讀。一方面是因?yàn)橹形睦?,單詞和字符的概念是模糊的,如果分詞不當(dāng),就很難在Ngram Viewer里找到了。另一方面,漢語(yǔ)在不同時(shí)期,語(yǔ)義、用法和拼寫(xiě)的差別比較大,文言文和現(xiàn)代漢語(yǔ)很多時(shí)候很難進(jìn)行比較。而且Ngram Viewer目前只支持簡(jiǎn)體中文的搜索,這也限制了對(duì)1950年前繁體漢字的搜索能力,不過(guò)近幾十年的漢語(yǔ)數(shù)據(jù)分析結(jié)果還是具有較高的可信度。
對(duì)此,項(xiàng)目發(fā)起人之一的艾登教授認(rèn)為,Ngram Viewer和很多科學(xué)計(jì)量工具一樣,都存在著缺陷,但并不影響它的受歡迎程度,一個(gè)世紀(jì)以前,研究人員夢(mèng)寐以求這個(gè)工具,現(xiàn)在它終于上線了,并不斷改進(jìn)著。