亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

2000萬(wàn)本書(shū)的奧秘

2017-04-27 21:50:10陳婧

IT經(jīng)理世界 2017年8期

陳婧

這是一個(gè)好玩到停不下來(lái)的搜索引擎。

Ngram Viewer是Google Labs和哈佛大學(xué)學(xué)者共同開(kāi)發(fā)的成果，只要用這個(gè)工具進(jìn)行搜索，就可以發(fā)現(xiàn)從公元1500年到現(xiàn)在的500多年里，社會(huì)的熱點(diǎn)如何不停地切換。谷歌在2004法蘭克福書(shū)展上開(kāi)始啟動(dòng)谷歌圖書(shū)館計(jì)劃，試圖掃描自現(xiàn)代印刷術(shù)發(fā)明以來(lái)全世界所有的印刷書(shū)籍。在此基礎(chǔ)上，通過(guò)OCR識(shí)別，建成了世界上最大的電子書(shū)數(shù)據(jù)庫(kù)。谷歌圖書(shū)館計(jì)劃與Google's Partner Program 共同組建成廣為人知的 Google Books。

至 2015年10月，這個(gè)項(xiàng)目已掃描超過(guò)2500萬(wàn)本書(shū)，占人類歷史上所有出版書(shū)目總數(shù)的19.2%。Google 對(duì)書(shū)籍的處理不僅是掃描，還進(jìn)行了數(shù)字化與數(shù)據(jù)化，通過(guò)一系列算法從萬(wàn)億級(jí)別的原始數(shù)據(jù)中識(shí)別出單個(gè)的詞語(yǔ)和短語(yǔ)，建成了一個(gè)語(yǔ)料庫(kù)，這樣就巧妙地避開(kāi)大多數(shù)國(guó)家的版權(quán)問(wèn)題。

龐大的數(shù)據(jù)庫(kù)催生了一個(gè)新學(xué)科的成立——Google Ngram Viewer就是借用這個(gè)數(shù)據(jù)庫(kù)開(kāi)發(fā)的新工具。Ngram Viewer支持8種語(yǔ)言的檢索，包括英語(yǔ)、法語(yǔ)、德語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、俄語(yǔ)、希伯來(lái)語(yǔ)、漢語(yǔ)，其中英語(yǔ)數(shù)據(jù)占到大約56%，漢語(yǔ)約占8%。

網(wǎng)友可輸入至多5個(gè)不同詞匯，透過(guò)Ngram Viewer顯示的趨勢(shì)線，觀察這些詞匯在不同年代出現(xiàn)的頻率。當(dāng)你輸入“莎士比亞”，搜索范圍設(shè)定在1500～2000年的英語(yǔ)書(shū)籍里，在他過(guò)世后的第92年，即1708年是“熱搜”莎士比亞的最高峰，之后1930～1953年，莎翁的著作又一次受到了追捧。與莎士比亞被引用熱度不分伯仲的還有福爾摩斯，這位虛構(gòu)的偵探人物在1971～1979年間，成了街談巷議的熱點(diǎn)。維多利亞時(shí)代英國(guó)最偉大的作家狄更斯在1917～1923年期間，獲得了空前的成功。那個(gè)年代大約萬(wàn)分之三的書(shū)籍里，都會(huì)提到狄更斯的名字，這時(shí)候距離作家因?yàn)槟X溢血和寫(xiě)作疲勞去世，已經(jīng)過(guò)去了約半個(gè)世紀(jì)。

除了可以看到數(shù)據(jù)趨勢(shì)圖，原始數(shù)據(jù)還可從網(wǎng)頁(yè)免費(fèi)下載，提供給語(yǔ)言學(xué)家、社會(huì)學(xué)家、人類學(xué)家等作進(jìn)一步的資料分析和研究。《紐約時(shí)報(bào)》將Ngram Viewer這個(gè)全新的可視化工具，稱為“通向5000億單詞的文化視窗”。

數(shù)據(jù)可視化的意義

Ngram Viewer如同一個(gè)普通的搜索引擎，輸入一個(gè)“關(guān)鍵詞”，就可以查詢它在書(shū)籍中出現(xiàn)的頻率，而且可以依據(jù)年代時(shí)間線查詢。在搜索欄上方的“from the corpus”里可以切換要查詢哪種語(yǔ)言的書(shū)籍，其中支持簡(jiǎn)體中文書(shū)籍的內(nèi)容統(tǒng)計(jì)分析。接著，可以在兩個(gè)年代之間查詢書(shū)籍?dāng)?shù)據(jù)，時(shí)間跨度的范圍從1500年到2008年。用戶最多可以設(shè)定五組關(guān)鍵詞來(lái)對(duì)比，關(guān)鍵詞之間用逗號(hào)分隔。

我們可以在圖表里看到不同關(guān)鍵詞在不同年代里被書(shū)籍使用的頻率，這在統(tǒng)計(jì)分析上可以做出很多有趣的調(diào)查與申論。若是繼續(xù)點(diǎn)擊圖表下方的年代鏈接，就可以進(jìn)入Google Books服務(wù)，查詢指定條件的書(shū)籍，直接找到相關(guān)圖書(shū)。

參與設(shè)計(jì)項(xiàng)目的是來(lái)自哈佛大學(xué)的計(jì)量社會(huì)學(xué)教授讓-巴蒂斯塔·米歇爾（Jean-Baptiste Michel），他因?yàn)橹铝τ谌宋臄?shù)據(jù)的可視化研究而被譽(yù)為“數(shù)據(jù)的藝術(shù)家”。埃雷茲·李伯曼·艾登（Erez Lieberman Aiden）是計(jì)算機(jī)科學(xué)家、生物物理學(xué)家和應(yīng)用數(shù)學(xué)家，他們一直試圖找到一幅展現(xiàn)人類文明和人文歷史的“科學(xué)”畫(huà)面。

“人類在漫長(zhǎng)歲月中寫(xiě)了很多書(shū)，我們向他們學(xué)習(xí)的最佳方法，就是把那幾百萬(wàn)本書(shū)全部讀完。當(dāng)然，這個(gè)可行性極低。人們不得不傾向于另一種做法，就是選擇幾本書(shū)進(jìn)行精讀，可行性很高，但還不夠好。”當(dāng)米歇爾和谷歌的數(shù)字化工程師進(jìn)行交流時(shí)，他們找到了這個(gè)“既可行又很好的”方法。

自印刷機(jī)問(wèn)世以來(lái)，寫(xiě)書(shū)的過(guò)程變得簡(jiǎn)單多了，據(jù)統(tǒng)計(jì)到2010年，全世界大約出版了1.29億本圖書(shū)，而這些書(shū)籍如果沒(méi)有隨著歲月遺失，就都在圖書(shū)館里存放著。谷歌已經(jīng)將圖書(shū)館中的書(shū)籍進(jìn)行了數(shù)字化，掌握了這些書(shū)籍的出版地、作者、出版時(shí)間等信息，最終篩選出了5000億個(gè)高質(zhì)量的單詞。

Ngram Viewer 收錄的單詞或短語(yǔ)，需要滿足一項(xiàng)要求：這個(gè)詞組或者短語(yǔ)在某年出版的超過(guò) 40 本書(shū)中出現(xiàn)過(guò)，才會(huì)有該年該詞的數(shù)據(jù)點(diǎn)。同時(shí)，對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，可以削弱某些年份某些書(shū)印數(shù)過(guò)多對(duì)結(jié)果的影響。當(dāng)這些數(shù)據(jù)加上時(shí)間和引用比例，就轉(zhuǎn)變成為一個(gè)具備XY軸的搜索服務(wù)。

據(jù)米歇爾透露，這5000億個(gè)單詞的長(zhǎng)度連起來(lái)是人類基因組的1000倍，如果把這些單詞連續(xù)寫(xiě)出來(lái)，長(zhǎng)度相當(dāng)于在月球和地球間來(lái)回穿梭10次以上，而這僅僅是人類“文化基因組”的小小一段。谷歌向來(lái)是分析大數(shù)據(jù)的專家，它們企圖要將所有圖書(shū)數(shù)字化的努力，成就了現(xiàn)在的Ngram Viewer。

在工作原理上，Ngram將一個(gè)句子拆分成N個(gè)連續(xù)相鄰詞組成的詞組，從而用來(lái)猜測(cè)語(yǔ)言的可能性，谷歌將這個(gè)方法定義為“文化組學(xué)”。“文化組學(xué)”的方法最早出現(xiàn)在2010年《科學(xué)》雜志上一篇名為《使用數(shù)百萬(wàn)本電子書(shū)對(duì)文化進(jìn)行的計(jì)量分析》的文章里，現(xiàn)在指的是通過(guò)電子化文本的量化分析，研究人類行為、人類活動(dòng)與文化趨勢(shì)的計(jì)算詞典學(xué)。

這個(gè)由谷歌定義的新詞，來(lái)源于“基因組學(xué)”——把人類基因作為研究對(duì)象，是生物學(xué)上觀察人類基因序列組的透鏡。文化組學(xué)與其非常類似，挖掘大量數(shù)字化信息，將數(shù)字化的歷史記錄片段作為透鏡，探尋反映在語(yǔ)言和文字中的社會(huì)文化現(xiàn)象。文化組學(xué)的優(yōu)點(diǎn)，就如同人類基因序列，“所有人都可以用上它。”

英語(yǔ)諺語(yǔ)說(shuō)，“一幅畫(huà)面可以抵過(guò)1000個(gè)詞?！泵仔獱柋硎荆麄?cè)谘?qǐng)了來(lái)自哈佛大學(xué)、麻省理工大學(xué)、《英國(guó)大百科全書(shū)》、《美國(guó)傳統(tǒng)英語(yǔ)字典》的編委后，得出了一個(gè)驚人的結(jié)論，Ngram Viewer的一幅畫(huà)面抵過(guò)上億個(gè)詞。

從用字遣詞發(fā)現(xiàn)社會(huì)趨勢(shì)

Ngram Viewer已經(jīng)成了一些媒體人愛(ài)不釋手的玩具，美國(guó)最具影響力的商業(yè)雜志之一《快公司》比較了英語(yǔ)中報(bào)紙、雜志、英特網(wǎng)在不同年代的興衰，結(jié)果出人意料，不管哪個(gè)年代，報(bào)紙都是最受青睞的讀物，甚至在英特網(wǎng)風(fēng)靡的時(shí)代，報(bào)紙的流行度雖然不如鼎盛時(shí)期，但還在向上攀升。此外，《快公司》還對(duì)蒸汽、電力、原子能等三種不同能源的興衰做了比較，原子能自1945年迅速崛起，并在上世紀(jì)80年代成了最熱門(mén)的能源話題。

當(dāng)查找“流感”這個(gè)詞時(shí)，你會(huì)看到全球范圍內(nèi)，1918～1920年在歐洲爆發(fā)的西班牙流感，成了人類歷史上最致命的自然事件之一。在之后的幾十年里，流感雖已平息，但人們的討論從未終止，它的熱度似乎不亞于一些文學(xué)暢銷(xiāo)書(shū)。

具有160多年歷史的《亞特蘭大》雜志收集了一系列有趣的趨勢(shì)比較，例如：在過(guò)去的200年里誰(shuí)比較受歡迎，狗和貓？咖啡和茶？男性和女性？對(duì)比發(fā)現(xiàn)，狗受到的寵愛(ài)始終多于貓；茶的流行度始終高于咖啡，直到上世紀(jì)70年代趨勢(shì)才被改變；女性在書(shū)籍里出現(xiàn)的概率逐漸走高，并與男性接近，性別平權(quán)的趨勢(shì)非常明顯。

廣告從業(yè)者希望通過(guò)一些敏感詞獲得用戶的關(guān)注度，使用Ngram Viewer也有助益。如果你想告訴大家“上帝死了”，那么該換一個(gè)說(shuō)法了，自1968年這個(gè)說(shuō)法達(dá)到鼎盛之后，關(guān)注度就一路下滑。但“氣候變化”的熱度卻在飛漲，從1970年后，很多書(shū)籍里都出現(xiàn)了“海平面正在上升”、“全球氣溫升高”、“二氧化碳濃度增加”這樣的詞匯，比起上世紀(jì)50年代，這些詞的使用增加了500倍。對(duì)廣告人來(lái)說(shuō)，Ngram Viewer是一個(gè)把社會(huì)熱點(diǎn)切換成趨勢(shì)的關(guān)鍵工具。

Ngram Viewer雖然沒(méi)有公開(kāi)全書(shū)的內(nèi)容，但是公開(kāi)了書(shū)本的相關(guān)統(tǒng)計(jì)數(shù)據(jù)，從而可監(jiān)測(cè)人們口語(yǔ)表述的變化情況，搜索者還可以透過(guò)數(shù)據(jù)本身，看到數(shù)據(jù)背后的故事。在搜索英文書(shū)籍?dāng)?shù)據(jù)庫(kù)時(shí)，如果檢索馬克·夏加爾這位定居在法國(guó)的俄裔超現(xiàn)實(shí)主義藝術(shù)家，是一條穩(wěn)步上升的曲線，知名度越來(lái)越高。

然而在德語(yǔ)書(shū)籍庫(kù)進(jìn)行同樣的檢索時(shí)，你會(huì)看到非常奇怪的現(xiàn)象——聞所未聞。他先是名極一時(shí)，但突然之間名聲直線下落，1933年到1945年間達(dá)到了低谷，后來(lái)才回升。為什么呢？原來(lái)夏加爾因?yàn)楠q太人的身份，而在納粹德國(guó)遭到了政治禁令，這幅圖反映了書(shū)籍記錄中的審查情況。

同樣，人們從上世紀(jì)60年代就開(kāi)始展望“千禧年”，到了80年代中期關(guān)注度突然飛升，人們意識(shí)到2000年快要來(lái)了，各種書(shū)籍里都在討論，這樣的討論持續(xù)了整整十幾年，而到了2008年，大家醒悟過(guò)來(lái)2000年已成往事，一場(chǎng)關(guān)于千禧年大討論的泡沫就這樣破裂了。

通過(guò)Ngram Viewer，美國(guó)學(xué)者阿歷山大·彼得森發(fā)現(xiàn)了詞匯的產(chǎn)生和消亡的生命周期臨界點(diǎn)：在它產(chǎn)生30年到50年之后，要么寫(xiě)入字典，要么消亡。詞匯的消亡速度，通常超過(guò)了新詞匯的產(chǎn)生速度。而且，通過(guò)這些漂亮的圖表也可以發(fā)現(xiàn)，人類對(duì)過(guò)去的遺忘速度快得驚人。

關(guān)于準(zhǔn)確性的質(zhì)疑

據(jù)參與Ngram Viewer開(kāi)發(fā)的威爾·布魯克曼（Will Brockman）和喬恩·歐文特（Jon Orwant）表示，自上線以來(lái)，這個(gè)工具每分鐘的使用頻率至少達(dá)到50次，用戶生成的數(shù)據(jù)圖表超過(guò)了4500萬(wàn)張，透過(guò)這些詞匯，人們發(fā)現(xiàn)文字背后的人類社會(huì)與歷史。其中，粘度非常高的用戶有語(yǔ)言學(xué)家、歷史學(xué)家、圖書(shū)學(xué)家。

除了發(fā)現(xiàn)過(guò)去，Ngram Viewer還有預(yù)測(cè)未來(lái)的功能：在文化組學(xué)2.0的項(xiàng)目里，卡列夫·利塔如（Kalev Leetaru）通過(guò)分析包含印刷品和媒體信息的數(shù)據(jù)庫(kù)，預(yù)測(cè)到了2011年的“阿拉伯之春”事件，并且成功地預(yù)測(cè)到了本·拉登生前的居住地，誤差在124英里范圍內(nèi)。

但是對(duì)于這個(gè)工具的準(zhǔn)確性，各方依然有著不一致的評(píng)價(jià)。加州大學(xué)語(yǔ)言學(xué)教授杰奧夫·扭恩伯格（Geoff Nunberg）發(fā)現(xiàn)，有很多無(wú)效的數(shù)據(jù)：出版時(shí)間、作者、類型等等。由于OCR自動(dòng)識(shí)別掃描的關(guān)系，因此可能帶來(lái)非常高的錯(cuò)誤率。他在檢索中搜索了美國(guó)前總統(tǒng)巴拉克·奧巴馬的名字后，在他的出生年份之前，竟然有29條數(shù)據(jù)。不過(guò)谷歌很快就更正了這些錯(cuò)誤。

也有評(píng)價(jià)認(rèn)為，對(duì)于人名、概念熱門(mén)度的評(píng)估，不能僅僅依靠在書(shū)籍中被引用的數(shù)量計(jì)算得出——這樣的話，一本只被讀過(guò)一次的書(shū)和被瀏覽過(guò)數(shù)百萬(wàn)次的書(shū)，具有相同的價(jià)值。這既不能反映出大家在熱議什么，也無(wú)法得出出版界在關(guān)心什么。

更多的評(píng)價(jià)則認(rèn)為，Ngram Viewer建立在谷歌圖書(shū)館計(jì)劃掃描的圖書(shū)基礎(chǔ)之上，但是沒(méi)有人知道，谷歌是如何選擇和獲取這占到人類出版史約19.2%的圖書(shū)的。不確定是否會(huì)有系統(tǒng)性的選擇偏差，也不確定圖書(shū)的幸存者偏差有多嚴(yán)重，故而這些圖表得出的結(jié)論，并不能隨意外推。

圣迭戈州立大學(xué)的心理學(xué)家吉斯曾經(jīng)使用Ngram作為工具研究自戀，但他提醒“小心倒洗澡水的時(shí)候，把孩子一起倒掉”。因?yàn)檫@個(gè)工具的缺陷，在于無(wú)法衡量某一類著作在數(shù)量上的變化。比如一段時(shí)間“秋天”這個(gè)詞語(yǔ)的使用變少了，很難真正說(shuō)清楚，到底是對(duì)秋天感興趣的人變少了，還是因?yàn)楹汀扒锾臁睙o(wú)關(guān)的詞匯變多了？

也有學(xué)者認(rèn)為這個(gè)工具沒(méi)有將動(dòng)詞、名詞、形容詞等做出有效區(qū)分，例如“Cheer”既可以是動(dòng)詞，也可以是名詞。但在斯拉夫·比特羅夫（Slav Petrov）領(lǐng)導(dǎo)的谷歌自然語(yǔ)言處理小組的帶領(lǐng)下，彌補(bǔ)了這個(gè)缺陷，目前可以區(qū)分出這兩個(gè)不同類型詞語(yǔ)的頻度。

除此之外，目前Ngram Viewer收錄的數(shù)據(jù)還有一定滯后性和片面性——與Google Trends的高度實(shí)時(shí)性不同，圖書(shū)的滯后性較長(zhǎng)，只能在比較大的尺度上看趨勢(shì)變化。數(shù)據(jù)庫(kù)的內(nèi)容完全來(lái)自出版圖書(shū)，而不包括未出版圖書(shū)或其他形式的文字，也不包括正在以指數(shù)級(jí)增長(zhǎng)的網(wǎng)絡(luò)和電子信息。

由于英文圖書(shū)占到了數(shù)據(jù)庫(kù)的56%，而漢字書(shū)籍僅占其中的8%，英語(yǔ)的語(yǔ)料庫(kù)最大，且英語(yǔ)在最近幾百年來(lái)的圖書(shū)中的使用率總體看來(lái)看是最廣的，比較能夠反映真實(shí)世界的一些變化。

對(duì)漢語(yǔ)檢索的結(jié)果，需要更加謹(jǐn)慎的解讀。一方面是因?yàn)橹形睦?，單詞和字符的概念是模糊的，如果分詞不當(dāng)，就很難在Ngram Viewer里找到了。另一方面，漢語(yǔ)在不同時(shí)期，語(yǔ)義、用法和拼寫(xiě)的差別比較大，文言文和現(xiàn)代漢語(yǔ)很多時(shí)候很難進(jìn)行比較。而且Ngram Viewer目前只支持簡(jiǎn)體中文的搜索，這也限制了對(duì)1950年前繁體漢字的搜索能力，不過(guò)近幾十年的漢語(yǔ)數(shù)據(jù)分析結(jié)果還是具有較高的可信度。

對(duì)此，項(xiàng)目發(fā)起人之一的艾登教授認(rèn)為，Ngram Viewer和很多科學(xué)計(jì)量工具一樣，都存在著缺陷，但并不影響它的受歡迎程度，一個(gè)世紀(jì)以前，研究人員夢(mèng)寐以求這個(gè)工具，現(xiàn)在它終于上線了，并不斷改進(jìn)著。