亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文化組學: 大數據時代的人類文化研究

        2018-02-11 13:34:27浙江財經大學北京外國語大學王文斌
        外語教學理論與實踐 2018年2期
        關鍵詞:情感文化研究

        浙江財經大學 邵 斌 北京外國語大學 王文斌

        提 要: “文化組學”是通過對海量數據的定量分析來揭示人類文化及其演變趨勢的研究,它被視為是大數據背景下進行人文計算的有效方法,推進了“數字人文”的發(fā)展。本文首先對起始于《科學》和《自然》雜志上的“文化組學”研究進行了詳細的述介,之后對其主要應用領域,如語言演變、文化研究、情感分析、未來預測等方面進行了綜述,以期引起國內學界對該領域的關注,從而有助于把握大數據時代人文科學研究的新趨勢。

        一、 引言

        2011年初,哈佛大學J. B. Michel 博士和E. L. Aiden博士的研究組在自然科學頂級雜志《科學》(Science)上發(fā)表的《基于數以百萬計數字化圖書的文化定量分析》一文,其影響是革命性的。它帶來了一個全新的研究領域:“文化組學”(Culturomics),并進一步促使人文科學范式轉型為“數字人文”(Digital Humanities)。

        Culturomics一詞為culture(文化)和genomics(基因組學)的縮合。顯然,“文化組學”是通過與“基因組學”類比而來的: 正如大規(guī)?;蚪M的DNA序列能夠揭示生命信息一樣,大規(guī)模的語言數據也能揭示人類思想和文化及其演變趨勢。Michel等(2011)將“文化組學”定義為“通過對海量數據的定量分析來揭示人類文化及其演變趨勢的研究”,該研究以“谷歌圖書語料庫”為基礎,它收錄的是自1500年以來出版的,包含英、法、德、西、俄、漢和希伯來語7種語言的3 000萬冊電子圖書文本,總計達5千億詞。因此,谷歌圖書語料庫不僅是“大數據”(Big Data),更是“長數據”(Long Data),即在大數據中加入了時間維度。需指出的是,由于受圖書版權所限,人們無法直接基于谷歌圖書的內容進行研究,為此Michel等人開發(fā)了“谷歌圖書N-gram*N-gram為計算語言學領域的術語,指的是從語料庫中提取出的一詞或多詞序列。在谷歌圖書詞頻查看器中,N的范圍被限定為1—5,即包含1-gram至5-gram,如“America”、“United States”或“the United States of America”等。谷歌圖書的N-gram可在以下網站檢索并下載: https: //books.google. com/ngrams/。詞頻查看器”(Google books N-gram Viewer),可將語料庫中的單詞或詞組每年的使用頻率變化以曲線圖形式進行呈現。Aiden(2010)曾談及基于詞頻查看器進行文化研究的合理性,“如果詞語被視作是一個文化單元,那么這種方法即有意義: 基因組里包含了可繼承的生命信息,世代相傳;與之類似,人類書本中所使用的詞語也同樣繼承了文化信息”(見Ornes, 2010)。

        文化組學研究使得人文社會科學的歷時計算成為可能,它迅速成為學界關注的焦點。國外已有數以百計的著述探索其理論及應用。國內一開始只有少數研究對此有所介紹,如邵培仁和林群(2012)、黃鳴奮(2013)等。此后,陳云松(2015)、陳云松等(2015a,2015b)通過文化組學視角對社會學的發(fā)展、近500年來中國世界文化遺產的國際知名度、近三百年中國城市的國際知名度進行了系列研究,并進而提出“社會組學”(societalimics)的概念。龔為綱和羅教講(2015)基于文化組學視角對19世紀“海上絲綢之路”上的絲綢、瓷器和茶葉的文化影響力進行了定量分析。邵斌(2017)基于文化組學視角對浙江文化關鍵詞在英語世界的影響力進行了分析。但相比于大量的國外研究,國內研究在數量和質量方面都有待拓展和提升。有鑒于此,本文擬對國外的文化組學研究做一綜述,本文先從《科學》和《自然》(Nature)雜志上的文化組學早期研究著手,之后概述其在各個領域的應用,以期有助于學界把握大數據時代人文科學研究的新趨勢。

        二、 《科學》和《自然》雜志上的“文化組學”研究

        Michel等(2011)運用詞頻查看器主要開展了以下5個方面的研究: 一是對英語詞匯總量的預測。據其測算,英語詞匯在1900年時有近55萬,在1950年時近60萬,至2000年則增至100萬詞,現今每年遞增8 400詞。研究發(fā)現,63%的詞匯都是低頻詞*頻率界限設定為谷歌圖書中每10億詞中出現1次,即10-9,低于該值即為低頻詞。,52%的詞匯未被《牛津英語詞典》所收錄。二是對語法演變的探索。該文以英語不規(guī)則動詞為例來論證使用頻率與語法演變之間的關系。研究發(fā)現,高頻的不規(guī)則動詞發(fā)生規(guī)則化的概率較小,而低頻動詞則容易規(guī)則化*規(guī)則化是指動詞的過去式和過去分詞加規(guī)則的屈折后綴-ed的現象。。三是測算人的名氣。如果將名氣視作是人名在語料庫中的出現頻率,那么名氣可加以計算。研究以1800年和1950年作為考察的先后時間點,結果發(fā)現人們初次成名的年齡從43歲降至29歲,名氣翻倍所需時間從8.1年減至3.3年,名氣的“半衰期”(指名氣減半所需的時間)從120年跌至71年。簡言之,當代人出名更早,成名更快,但被人遺忘也更快了。四是追蹤出版審查制度。歷史上對某個人或某種思想的壓制會留下可以計量的痕跡。比如英語和德語的谷歌圖書中都顯示猶太畫家馬克·夏加爾在1910年前后開始成名,但在英語世界里,其名氣一直持續(xù)上升,而在1936年至1944年的德語世界里,其名氣卻跌至谷底,顯然這是因納粹德國對猶太人的迫害而導致該畫家“銷聲匿跡”。五是拓展“文化組學”研究范圍。報紙、手稿、電話錄音、電子郵件、地圖等也都可成為文化組學的數據來源。

        事實上,Aiden和Michel 等人基于大數據對語言演變進行研究的成果《語言演化動態(tài)的定量研究》一文*Aiden在該文中署名為Erez Lieberman,未加上其姓Aiden。,早在2007年就發(fā)表于《自然》雜志。在該論文中,Aiden等詳細論述了過去1200年間,英語不規(guī)則動詞的規(guī)則化演變趨勢這一語言發(fā)展規(guī)律。他們發(fā)現,所選取的177個古英語不規(guī)則動詞到了中古英語時期仍保留不規(guī)則性的有145個,到現代英語時期只剩下98個。此外還發(fā)現,不規(guī)則動詞的規(guī)則化速度與其使用頻率的平方根成反比: 如果動詞A的頻率是動詞B的1/100,則其規(guī)則化速度是后者的10倍。Aiden等(2007)的重要性在于通過量化方法揭示語言演變的規(guī)律,進而預測其未來的變化趨勢。

        之后,Aiden和Michel(2013)的研究成果又以專著形式呈現,即Uncharted:BigDataasaLensonHumanCulture一書,邵斌和陳晶晶(2015)對該書做了評介。此外,該書的中譯本《可視化未來: 數據透視下的人文大趨勢》也已出版。限于篇幅,此處不贅。

        三、 “文化組學”研究的發(fā)展及應用

        “文化組學”概念一經提出便引起了國外學界的廣泛關注。下文主要針對“文化組學”在語言演變、文化研究、情感分析和未來預測等方面的應用做一綜述。

        1. 語言演變

        基于詞頻查看器的語言演變研究主要聚焦于英語詞匯的整體變化,探索詞匯演變的一般規(guī)律。比如,Petersen等(2012a)考察了過去200多年間(1800-2008),英語、西班牙語和希伯來語的圖書語料庫中1 000萬詞的動態(tài)變化特征。研究發(fā)現: 詞的“死亡率”呈遞增性,近50年有加劇趨勢。詞語消亡的主因是近義詞之間的零和競爭關系。比如X-ray 一詞的頻繁使用導致與其近義的Radiogram和Roentgenogram兩詞的消亡。與此同時,新詞的“出生率”則呈現減緩趨勢,這體現了人們對新詞的“遞減邊際需求”(decreasing marginal need)。數據還表明,一個新詞由“出生”到“成年”需要30至50年時間,即新詞需經過三五十年的使用才可能被詞典所收錄。Petersen等(2012b)借助“異速標度分析”(allometric scaling analysis)的統(tǒng)計方法對過去200年間谷歌圖書7種語言中的1500萬詞進行考察。研究發(fā)現: 當語料庫容量很大時,詞匯的年增長率呈下降趨勢。這說明到一定總量時,新詞的產生速度會有所減緩,即詞庫擴張到某一數量時會有所“收斂”。Hills和Adelman(2015)采取文化組學視角,使用包含谷歌圖書在內的總計超過3500億詞的語料庫,選擇4萬個表達具體性的英語詞匯,考察過去兩百年間美國英語在可學性(learnability)方面的變化。研究發(fā)現,美國英語的具體性在不斷加強,即其可學性在增加。此外,也有研究基于大數據對詞匯語義演變進行考察。譬如,Wijaya 和 Yeniterzi(2011)提取谷歌圖書中的5-gram,觀察節(jié)點詞與周圍詞語的共現變化,自動檢測節(jié)點詞的詞匯語義演變的時間及趨勢。

        2. 文化研究

        基于詞頻查看器的文化研究主要考察文化相關詞的使用頻率,以此探究文化演變的趨勢。Twenge等(2012a)選用谷歌圖書中的當代美國圖書部分(1960-2008),窺探美國人對“個體化語詞”(individualistic words and phrases)的使用變化。結果發(fā)現: 語料庫中的個體化詞語(如 identity、personalize、self、standout、unique等)以及個體化短語(如all about me、focus on the self等)的頻率顯著增加,可見過去半個世紀美國社會的個體化傾向愈加明顯,集體主義思潮日趨式微。Twenge(2012b)還用類似方法研究了同一時期76萬冊美國圖書中的代詞使用。結果發(fā)現: 第一人稱復數代詞(如we、us)的使用數量下降了10%,第一人稱單數代詞(如I、me)增加了42%,而第二人稱代詞(如you、your)則增加了3倍。這一研究同樣表明美國文化中的個體主義傾向。Greenfield(2013)使用詞頻查看器探索美國文化演變與生態(tài)演變之間的關系。研究發(fā)現,在過去200年間(1800-2000),與鄉(xiāng)村生態(tài)有關的、表示鄉(xiāng)村、義務、責任、服從權威、社會歸屬、給予、宗教和行動等語義的詞語都呈下降趨勢(如rural、obliged、give、act、obedience、authority、belong、pray等詞),而表示都市、選擇、擁有、內心感受、個體、自我、獨特、以孩子為中心等語義的、適應城市生態(tài)的詞語都呈上升趨勢(如urban、choose、get、feel、individual、self、unique、child等詞)。研究表明美國社會從鄉(xiāng)村生態(tài)轉向城市生態(tài)的過程中,文化也隨之發(fā)生類似轉向。Kesebir 和 Kesebir(2012)追蹤了20世紀美國圖書中與“道德和美德”相關的詞語。結果發(fā)現,這些詞語呈現大幅減少趨勢,說明美國公共話語中的道德和美德話題在縮減。具體而言,涉及一般道德特征的詞(如 character、conscience、decency、dignity、rectitude、righteousness、uprightness、virtue),其頻率在減少,涉及某種具體美德的詞語,例如謙虛(如humility、modesty)、感激(如gratitude、thankfulness)、勇氣(如courage、bravery)、關懷(如kindness、generosity)等下降顯著。他們認為,“道德和美德”詞語使用頻率下降是美國提倡個體意識所致,即鼓勵人們考慮自身的利益,而相對忽視他人的需求。Xu 和 Hamamura(2014)使用漢語圖書的詞頻查看器與問卷調查相對照的方法,考察了自20世紀80年代以來中國的民間信仰變化。研究發(fā)現了中國現代化進程中所出現的物質主義、個體主義以及西方化等傾向,比如“物質化”“財富”“個體化”“自由”等詞語的頻率有所增加。此外,谷歌圖書的數據與問卷調查的結果呈現某些不一致性。比如,問卷調查中不再流行的話題,如“中庸”“內斂”“傳統(tǒng)道德”等,在谷歌圖書中仍呈上升趨勢,這說明谷歌圖書所代表的知識分子作者群與問卷所代表的一般民眾對儒家思想的認知存在差異。Caruana-Galizia(2016)使用德語圖書語料庫對Demokratie(民主)、Freiheit(自由)、Frieden(和平)、Herrlichkeit (榮耀), Gerechtigkeit(正義)和 Heldentumd(英雄主義)6個德語詞進行了歷時研究后發(fā)現,在納粹統(tǒng)治期間,這些詞與納粹詞語(Nazi words)高度正相關。這說明這些詞被納粹分子歪曲語義以粉飾太平,煽動民眾。這一發(fā)現印證了Orwell在1946年的預言: 在極權統(tǒng)治下,語言也會墮落(Orwell,2009: 371)。Juola(2013)則從谷歌圖書中提取2-gram來測算文化復雜性,其理論基礎是“信息論”(Information Theory),即開放性的語料庫代表文化體驗的廣度,語料庫中的信息程度越高,則其體現的文化就越復雜。結果發(fā)現,在20世紀的美國圖書中,2-gram的頻數從1900年的1 777萬個增加到2000年的4165萬個,由此可見文化復雜程度的遞增。同時表征詞語分布的“熵值”(entropy)也同步增加,說明分布信息復雜度的增加,即文化隨著時間推移會日漸復雜化。

        3. 情感分析

        基于大數據的情感分析多用定量方法考察情感詞語的頻率,進而分析人類情感的歷時變化。文化組學的發(fā)展使得此類研究呈現出大數據的特點,有學者甚至通過對“推特”(Twitter)的情感詞語分析成功預測股市變化(Bollenetal., 2011)。Acerbi等(2013)通過詞頻查看器研究了20世紀的英語谷歌圖書中的情感表達。結果發(fā)現,在20世紀,情感詞語的整體使用頻率在降低。就具體情感而言,“厭惡類”情感詞語的使用減少最多,而“恐懼類”情感詞語的使用在1970年以來則有所增加。研究還發(fā)現,情感詞語的變化與重大社會事件(如二戰(zhàn)、經濟大蕭條以及嬰兒潮等)具有高度相關性。比如,二戰(zhàn)期間“悲傷類”情感詞語的頻率達到頂峰。Bentley等(2014)還考察了“文學悲觀指數”(literary misery index)和“經濟悲觀指數”(economic misery index)之間的聯系?!拔膶W悲觀指數”以“不幸詞”與“幸福詞”的數量之差來計算,“經濟悲觀指數”則是通貨膨脹率和失業(yè)率之和。他們從20世紀的英語谷歌圖書中提取情感詞語的頻率,發(fā)現某一年份的“文學悲觀指數”與此前十年內“經濟悲觀指數”的平均值成正相關,比如1975年前后爆發(fā)的能源危機導致了70年代末“文學悲觀指數”的增加。Oishi(2013)則對不同時代的“幸?!备拍钭髁思氈卵芯俊T撐耐ㄟ^對1800至2008年期間美國谷歌圖書中的“happy nation”和“happy person”兩個短語的考察發(fā)現,happy nation的使用日益減少,而happy person頻率則在增加,1920年是其轉折點,兩者頻率之比從初始的2.82減少至0.18。由此大體可見,在美國英語中,happiness的語義在1920年前后發(fā)生了改變,從一種集體情感轉變?yōu)閭€體情感,從“偶然降臨的幸運”變?yōu)椤巴ㄟ^追求可獲得的幸?!?。Mohammad(2012)則對電子郵件和圖書中的情感詞語進行了定量分析。論文首先通過“眾包”(crowdsourcing)形式獲取“‘詞—情感’關聯詞表”,這14200個詞涵蓋喜、哀、怒、懼、信、惡、驚、待八種人類情感,之后他再考察5-gram中情感詞語的共現詞。結果發(fā)現,一戰(zhàn)期間,德國、美國和中國圖書中的“恐懼類”詞語都有所增加,類似變化在1900年前后的中國圖書中也有體現,這可能與當時“義和團運動”有關。研究還發(fā)現,情感詞語的搭配竟體現出性別差異,“喜悅類”詞語多和女性共現,而“憤怒類”詞語多和男性共現。

        4. 未來預測

        Leetaru(2011)的《“文化組學”2.0》一文可以說是文化組學研究另一標志性成果。此前的文化組學研究多著眼于考察過去的文化演變,但Leetaru卻通過收集當下數據來預測大規(guī)模的人類未來行為。Leetaru(2011)沒有采用谷歌圖書的數據,他收集的是過去30年間的新聞數據,因為后者更具時效性。該新聞數據庫包含1億篇文章,對它進行“情緒和地理分析”(tone and geographic analysis),可以預測人類行為。Leetaru探索了三個個案,一是預測社會動蕩。比如,數據庫的數據顯示在2011年1月份,全球媒體對埃及政府的正面情緒已降至過去30年來的最低點,而當年2月穆巴拉克政權就被推翻。二是預測事件發(fā)生的地點。新聞事件具有空間維度,故可將事件發(fā)生的地點進行可視化地理分析。通過數據分析發(fā)現,當年本·拉登的藏身之處指向巴基斯坦北部的Islamabad和Peshawar兩個城市之間,后來本·拉登果真在距離上述兩地不到200公里的地方找到。三是將全球“文明”*此處的“文明”被定義為擁有共同文化和政治基礎的國家集合。地圖化。通過對新聞的“地理聚類”(geographic clustering)以及各地區(qū)城市之間的“情緒關聯”分析,可發(fā)現世界被分為六大文明。各種文明之間的關系也能呈現,比如亞洲和大洋洲文明與其他文明都有正面關聯,且是唯一與中東文明具有正面關聯的文明。與Leetaru(2011)類似,Chadefaux(2014)基于谷歌新聞數據庫對戰(zhàn)爭的早期警示信號進行研究,該數據庫包含6 000萬個網頁,搜索詞包括與戰(zhàn)爭及沖突相關的23個詞語,如tension、crisis、 conflict、antagonism、clash、contention、discord等。統(tǒng)計顯示,這些數據的確是沖突或戰(zhàn)爭的預言者。Leetaru(2011)和Chadefaux(2014)等研究是文化組學的重要拓展內容。首先,他們使用的數據突破了谷歌圖書的限制,而采用更具有及時性的數據,如新聞和網頁;其次,他們通過定量分析預測未來,大大推動了文化組學研究的發(fā)展。

        文化組學研究在最近六七年獲得如火如荼的發(fā)展,對人文社科研究已產生革命性影響,但也不乏質疑之聲,如Morse-gagné(2011)質疑谷歌圖書語料庫的平衡性問題,即其年均詞數并不一致,這對歷時語料庫而言是個瑕疵。Schwartz(2011)認為Michel 等(2011)的研究存在缺陷,一是谷歌圖書并未包含所有圖書,而僅是部分電子化的圖書,研究結論難免以偏概全;二是圖書與期刊和報紙相比,并不緊扣時代脈搏,很難反映當下文化。Liu(2012)則認為文化批判的缺席將阻礙“數字人文”成為人文學科的真正伴侶,Porsdam(2011)也認為,“數字人文”研究中“數字太多,人文太少”。然而,質疑之聲雖偶有出現,但“文化組學”對于文化及其演變研究的沖擊仍是空前的。事實上,從本文綜述可知,早期存在的問題后來已經有所改進,比如數據來源不再局限于谷歌圖書。最近兩年,更多的研究著力于進一步完善“文化組學”研究,比如Tahmasebi等(2015)提出的“基于知識的文化組學”(Knowledge-based Culturomics)以及Suchanek 和 Preda(2015)提出的“語義文化組學”(Semantic Culturomics)都是試圖對大數據進行語義挖掘,從而改善原本單純基于頻率統(tǒng)計的研究。

        四、 結語

        Aiden 和 Michel(2013: 8)指出大數據會改變人文科學和社會科學的研究范式。 文化組學概念提出雖只有短短六七年,但它對人文社科研究已產生了廣泛的影響??梢韵胍姡S著海量數據的激增,今后人們會進一步優(yōu)化其檢索方法,拓展其應用領域,建構其理論框架,深化其解釋力度。正如美國語言學家Mark Liberman(2010)所言:“2010年與1610年相仿佛。數字文本和話語的激增和存檔,以及分析工具的更新和計算方法的便捷,使得21世紀成為發(fā)明望遠鏡和顯微鏡的17世紀初的時代翻版。如今所能觀察到的不同時空及文化語境中的型式,其規(guī)模不啻為以往的數百萬倍。無論身在何處,借助此類新工具,即可發(fā)現有趣的新興型式?!?可以說,文化組學視角是大數據時代用來觀察人類文化的透視鏡。

        本文對《科學》和《自然》雜志上的“文化組學”研究進行了較為詳細的介紹,并對“文化組學”的主要應用領域,如語言演變、文化研究、情感分析、未來預測等方面進行了綜述。“文化組學”的影響力巨大,被學者們視為大數據時代人文社科研究的特色所在,是加強人文與社會科學計算性的重要方法。本文對之進行綜述,以期引起國內學界的關注,從而有助于把握大數據時代人文與社會科學研究的發(fā)展趨勢。

        猜你喜歡
        情感文化研究
        FMS與YBT相關性的實證研究
        以文化人 自然生成
        年味里的“虎文化”
        金橋(2022年2期)2022-03-02 05:42:50
        遼代千人邑研究述論
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        視錯覺在平面設計中的應用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        情感
        EMA伺服控制系統(tǒng)研究
        如何在情感中自我成長,保持獨立
        久久综合亚洲色hezyo国产| 欧美va免费精品高清在线| 红杏亚洲影院一区二区三区| 国产清品夜色一区二区三区不卡| 白丝美女被狂躁免费视频网站| 国产av在线观看91| 伊人久久精品亚洲午夜| 日射精情感性色视频| 毛片免费在线播放| 亚洲成人av一区二区麻豆蜜桃| 精品一区二区三区久久| 久久精品国产亚洲av麻豆会员| 亚洲看片lutube在线观看| 亚洲中文无码成人影院在线播放| 国产艳妇av在线出轨| 亚洲天堂av在线免费看| 日韩在线不卡一区三区av| 蜜桃尤物在线视频免费看| 日本丰满少妇裸体自慰| 色视频www在线播放国产人成| 国产精品天天看大片特色视频 | 国产中文字幕亚洲国产| 久久偷看各类wc女厕嘘嘘偷窃| 久久人妻少妇嫩草av蜜桃| 亚洲香蕉毛片久久网站老妇人| 丝袜美女美腿一区二区| 一区二区三区最新中文字幕| 99亚洲男女激情在线观看| 99国产超薄丝袜足j在线播放| 国产亚洲精品日韩香蕉网| 国产精品久久久黄色片| 色综合av综合无码综合网站| 欧美丰满大爆乳波霸奶水多| 少妇高潮紧爽免费观看| 日韩在线视频专区九区| 又色又爽又黄的视频软件app| 美女视频黄的全免费的| 国产高清天干天天视频| 亚洲一区二区国产一区| 久久精品国产99国产精偷| 97久久天天综合色天天综合色hd |