亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        信息時代的人文計算

        2015-04-29 00:44:03李啟虎尹力張全
        科學(xué) 2015年1期
        關(guān)鍵詞:數(shù)字人文云計算大數(shù)據(jù)

        李啟虎 尹力 張全

        人文泛指人類社會的各種文化現(xiàn)象,信息是聯(lián)系物理世界與人類認(rèn)知的重要橋梁和紐帶,人文與信息有著天然的聯(lián)系。信息技術(shù)的飛速發(fā)展為社會進步做出了巨大貢獻,已深入到社會生活的方方面面。它不僅拓展了人類認(rèn)知的疆域,也改變了人類對于物理世界的認(rèn)知模式,更進一步影響、滲透到傳統(tǒng)研究視野下的社會學(xué)科,并形成一個文理工交叉的學(xué)科——人文計算,衍生出數(shù)字人文的概念。

        人文計算(Humanities Computing或Computing in the Humanities)是一個新型的將現(xiàn)代信息技術(shù)深入應(yīng)用于傳統(tǒng)人文研究的跨學(xué)科研究領(lǐng)域。近年來,歐美發(fā)達國家已經(jīng)建立了數(shù)字人文(Digital Humanities)研究中心,人文計算已經(jīng)有了重要的創(chuàng)新成果并廣泛服務(wù)于社會,取得了良好的社會效益。為了更好地服務(wù)社會發(fā)展,信息技術(shù)需要與人文社會學(xué)科更深入地結(jié)合,為相關(guān)研究注入新的活力。特別是利用信息技術(shù)手段變革傳統(tǒng)的既有研究模式,從而在廣度和深度上增強對人文社會學(xué)科研究內(nèi)容的認(rèn)知。這一發(fā)展趨勢既是信息技術(shù)服務(wù)社會生活的需要,也是人文社會學(xué)科適應(yīng)信息時代變化的必然,因此具有重要的研究意義。

        我國作為高速發(fā)展的新興經(jīng)濟體,在經(jīng)濟建設(shè)方面已經(jīng)取得了巨大成就。推動和強化人文計算研究,將催生出有中國特色的創(chuàng)新研究成果,對于繁榮我國的科學(xué)技術(shù)事業(yè)、提升我國的科研實力具有重要的現(xiàn)實意義。

        人文計算概述

        人文計算是針對計算與人文學(xué)科之間的交叉領(lǐng)域進行研究、學(xué)習(xí)以及創(chuàng)新的一門學(xué)科。它的研究范圍從在線文檔處理到大規(guī)模文化數(shù)據(jù)的挖掘,研究內(nèi)容涵蓋經(jīng)過數(shù)字化加工和直接數(shù)字化產(chǎn)生的數(shù)據(jù)資源以及傳統(tǒng)人文學(xué)科(例如歷史學(xué)、哲學(xué)、語言學(xué)、文學(xué)、藝術(shù)、考古學(xué)、音樂和文化研究等)的方法。它試圖通過數(shù)據(jù)可視化、信息檢索、數(shù)據(jù)挖掘、統(tǒng)計分析、文本挖掘以及數(shù)字出版等計算方式為這些研究提供多種工具。

        人文計算的一個重要內(nèi)容是,將信息處理技術(shù)系統(tǒng)地融合到人文研究的活動中。如同當(dāng)代經(jīng)驗社會科學(xué)研究對于計算技術(shù)的利用一樣?;A(chǔ)的信息技術(shù)已經(jīng)大量應(yīng)用到傳統(tǒng)的藝術(shù)和人文學(xué)科中,包括文本分析技術(shù)、地理信息系統(tǒng)技術(shù)、通用協(xié)同工作技術(shù)、交互式游戲和多媒體技術(shù)等。

        近年來,與人文計算研究內(nèi)容相近的計算社會學(xué)蓬勃發(fā)展,取得了豐富的研究成果,特別是在社會輿情、信息傳播、社會網(wǎng)絡(luò)、人工社會等方面,有些研究成果已經(jīng)應(yīng)用于實際的社會學(xué)研究和社會管理中。

        2009年2月,15位來自社會科學(xué)、物理學(xué)、信息學(xué)等領(lǐng)域的學(xué)者聯(lián)合在美國《科學(xué)》周刊發(fā)表題為《計算社會學(xué)》(Computational Social Science)的文章,分析了在廣泛使用和多樣應(yīng)用網(wǎng)絡(luò)背景下產(chǎn)生的、以發(fā)掘行為和組織規(guī)律為目的的研究問題和已有基礎(chǔ),以及學(xué)科發(fā)展的機遇與挑戰(zhàn)。該文提出了計算社會學(xué)的概念,認(rèn)為人們各種社會行為都以數(shù)據(jù)的形式留下了記錄,而這些數(shù)據(jù)中蘊含的關(guān)于個人和群體行為的規(guī)律,可能足以改變?nèi)祟悓€人生活、組織機構(gòu)乃至整個社會的認(rèn)知。與傳統(tǒng)社會科學(xué)通過問卷調(diào)查形式獲得的數(shù)據(jù)不同,計算社會學(xué)可以借助各種新技術(shù)獲得長時間、連續(xù)、大量人群的各種行為和互動的數(shù)據(jù)。這些更為全面客觀的數(shù)據(jù)為研究動態(tài)的人際交流、大型社會網(wǎng)絡(luò)的演化等方面的問題打下了堅實的基礎(chǔ)。

        另據(jù)2012年11月美國《時代》周刊報道,奧巴馬團隊在2012年美國總統(tǒng)大選中利用計算社會學(xué)研究成果,通過對各州選民投票傾向樣本數(shù)據(jù)的建模,每晚用云計算平臺模擬6.6萬次大選,并于每天上午獲得計算結(jié)果,了解在這些州勝出的可能性,從而針對性地分配資源,對奧巴馬最終贏得大選起到重要作用。

        雖然經(jīng)常將社會學(xué)和人文學(xué)歸在一個大的學(xué)科領(lǐng)域,然而從研究內(nèi)容上看,計算社會學(xué)有特定的研究內(nèi)容和研究方向:在社會問題和計算技術(shù)之間架起橋梁,從基礎(chǔ)理論、實驗手段及領(lǐng)域應(yīng)用等各個層面突破社會科學(xué)與計算科學(xué)交叉借鑒的困難。因此,計算社會學(xué)和人文計算在研究內(nèi)容上存在明顯的區(qū)別:前者側(cè)重于社會學(xué)和社會管理的研究范疇,后者則側(cè)重于信息技術(shù)與人文研究的結(jié)合。

        人文計算的繁榮發(fā)展

        人文計算在世界范圍內(nèi)呈現(xiàn)蓬勃發(fā)展之勢。

        表現(xiàn)之一,不少學(xué)術(shù)機構(gòu)已建立了人文計算研究單位。其中歷史較長的有美國喬治梅森大學(xué)(George Mason University)于1994年成立的歷史與新媒體中心(Center for History and New Media),該機構(gòu)的名稱反映出其研究方向側(cè)重于歷史研究與新興媒體的結(jié)合。同樣,很多人文計算機構(gòu)都是由原先類似的單位演變而來的。在亞洲,日本立命館大學(xué)設(shè)立了日本藝術(shù)與文化之?dāng)?shù)字人文中心(Digital Humanities Center for Japanese Arts and Cultures);中國臺北的臺灣大學(xué)建立了數(shù)位典藏研究發(fā)展中心即數(shù)字人文研究中心。

        表現(xiàn)之二,研究單位招收人文計算專業(yè)的研究生,組建人文計算實驗室成為普遍現(xiàn)象。以美國為例,斯坦福大學(xué)有斯坦福人文實驗室(Stanford Humanities Lab)、加州大學(xué)洛杉磯分校有數(shù)字人文中心;哈佛大學(xué)在2008年推出數(shù)字人文先導(dǎo)計劃(Digital Humanities Initiative),2010年再進一步成立“人文2.0”(Humanities 2.0)實驗室。他們面向校內(nèi)的人文院系,發(fā)展數(shù)字化的研究工具、建立討論平臺或是提出跨領(lǐng)域的合作計劃。

        表現(xiàn)之三,定期舉辦各類人文計算學(xué)術(shù)會議。國際上具有較大影響的學(xué)術(shù)會議是一年一度的數(shù)字人文年會。此年會的前身是文學(xué)與語言學(xué)計算學(xué)會(Association for Literary and Linguistic Computing,ALLC)和計算與人文學(xué)會(Association for Computers and the Humanities)的年會。自2006年起,此會議正式更名為“數(shù)字人文”,在歐洲和美洲輪流舉行。從主辦國的分布上可以看出,人文計算的發(fā)展不是一時一地的孤立現(xiàn)象,而是國際學(xué)界共同關(guān)心的主題。

        表現(xiàn)之四,有大量的研究論文發(fā)表和相關(guān)研究期刊創(chuàng)辦,例如牛津大學(xué)出版的《文學(xué)與語言學(xué)計算》(Literary and Linguistic Computing)期刊。另外還有一些期刊采取在線出版的模式,它們也是人文計算論文發(fā)表的重要園地。例如《數(shù)字人文季刊》(Digital Humanities Quarterly)圍繞人文計算展開廣泛討論,除了數(shù)據(jù)挖掘等技術(shù)層面的討論外,還有“如何將數(shù)字人文的計劃完成”這樣的專題探索。

        在我國,盡管沒有明確使用人文計算這一概念,但是一些人文計算研究成果已運用在社會實踐和生活中了。自2005年起,國家語言文字工作委員會出版發(fā)布了《中國語言生活綠皮書》回叢書。該叢書分為A系列和B系列,B系列是關(guān)于我國語言狀況的呈現(xiàn)和分析,主要發(fā)布語言生活中的各種調(diào)查報告和實態(tài)數(shù)據(jù),其中的語言數(shù)據(jù)統(tǒng)計及其處理技術(shù)屬于人文計算研究的范疇,統(tǒng)計數(shù)據(jù)按年度計算和發(fā)布。這些工作由教育部語言信息管理司具體組織和指導(dǎo)。截至2012年,語言數(shù)據(jù)已經(jīng)連續(xù)發(fā)布8年,成為該領(lǐng)域內(nèi)中國大陸乃至整個華語圈的權(quán)威。A系列則是發(fā)布各類語言規(guī)范,其中很多規(guī)范涉及語言計算的內(nèi)容,例如對數(shù)據(jù)進行規(guī)范,便于數(shù)據(jù)的共享和再利用?!吨袊Z言生活綠皮書》叢書的內(nèi)容已經(jīng)超越了傳統(tǒng)語言學(xué)和計算語言學(xué)的研究范圍,實際上已經(jīng)涉及人文計算。圍繞《中國語言生活綠皮書》叢書的研究工作已經(jīng)成為近年來我國持續(xù)時間最長、涉及面眾多、影響廣泛的人文計算工程實踐。

        人文計算的數(shù)據(jù)基礎(chǔ)、計算模型和計算資源

        人文計算與數(shù)據(jù)有著密不可分的關(guān)系:第一,人文計算需要數(shù)據(jù)資源作為基礎(chǔ),這也是計算的出發(fā)點。第二,人文計算重視計算手段的應(yīng)用,發(fā)展計算模型嘗試提供客觀可量化的指標(biāo)輔助人文研究,但是并不認(rèn)為計算能解答所有人文研究的命題。第三,人文計算重視數(shù)據(jù)的開放與分享,且努力降低進入領(lǐng)域的門檻,擴大影響。

        人文計算的數(shù)據(jù)基礎(chǔ)

        當(dāng)今社會處在一個數(shù)據(jù)量前所未有巨大的時代,這個時代的人文計算與以前在人文學(xué)科簡單應(yīng)用計算工具大大不同,研究方法和模式也有顯著差異。數(shù)據(jù)資源是展開人文計算的基礎(chǔ),龐大的數(shù)據(jù)資源不僅僅限于文字,還包括了影像、音樂等多媒體形式。除了直接數(shù)字化產(chǎn)生的數(shù)據(jù)資源外,非數(shù)字化的資料則需要資源與人力進行數(shù)字化。

        2004年起,以歐盟為主體的“歐洲研究基礎(chǔ)建設(shè)策略論壇”(European Strategy Forum on Research)匯集了英國、法國、德國、荷蘭、丹麥等國的研究力量,合作推動“藝術(shù)與人文的數(shù)字研究基礎(chǔ)建設(shè)”(Digital Research Infrastructure for the Arts and Humanities,DARIAH)。他們認(rèn)為,如同天文學(xué)家需要天文臺觀測宇宙,藝術(shù)與人文學(xué)者也需要相應(yīng)的研究基礎(chǔ)建設(shè)。這是DARIAH成立的目標(biāo),也是各國文獻資料數(shù)字化工作的目標(biāo)。許多國家的大型圖書館扮演了文獻資料數(shù)字化的領(lǐng)導(dǎo)角色,比如美國國會圖書館(Library of Congress)的“美國記憶”(American Memory)項目已經(jīng)在線為讀者提供服務(wù)。我國臺灣地區(qū)自2002年開始實施“數(shù)位典藏”科技計劃(National Digital Archives Program,NDAP),已經(jīng)建立了門類比較齊全的各類數(shù)字化人文數(shù)據(jù)資源,其中很大部分對外開放。

        商業(yè)公司也積極進入文獻資料的數(shù)字化領(lǐng)域,谷歌公司自2002年開始就推動“谷歌圖書”(Google Books)計劃。根據(jù)計劃,要建立世界上最大、最全面的數(shù)字圖書館,將人類有史以來出版過的印刷書籍全數(shù)掃描上網(wǎng)。2004年,谷歌與英美幾所大學(xué)包括牛津大學(xué)、哈佛大學(xué)、斯坦福大學(xué)和密西根大學(xué)等的圖書館簽約,擬將這些圖書館的館藏書籍加以數(shù)字化。目前,“谷歌圖書”已經(jīng)可以提供超過七百萬本圖書的全文檢索,部分圖書能提供整本瀏覽,數(shù)據(jù)量十分驚人。

        人文計算的計算模型

        為了增進人們對人文資源的認(rèn)知,發(fā)掘其中的新知識,需要引入計算模型,通過信息處理的技術(shù)手段拓展研究的視野。

        首先是“詞頻分析”,簡單地說就是計算文本中各種詞匯出現(xiàn)的次數(shù)。詞頻分析是一種常用的文獻分析手段。這一研究方式已經(jīng)被引入漢語文學(xué)作品中,例如針對《紅樓夢》前八十回和后四十回是否為同一作者寫的問題,就有學(xué)者引入詞語頻度分析進行探討。同時考慮到寫作時使用的詞匯不只是寫作風(fēng)格的反映,也是個人關(guān)注點和思維方式、思維傾向的表達,因此還可以通過對寫作詞匯的分析去捕捉作者的思考風(fēng)格。已有研究者利用這種方法分析政治要人在不同時期的講話,從中發(fā)現(xiàn)了一些有趣的現(xiàn)象和趨勢,例如英國前首相撒切爾夫人的講話,在馬島爭端前后涉及了大量的軍事詞語,而其他時間更多涉及經(jīng)濟和就業(yè)方面的內(nèi)容。

        其次,數(shù)據(jù)挖掘和文本挖掘是信息技術(shù)在人文計算中的重要應(yīng)用,它們有助于研究者發(fā)現(xiàn)大量數(shù)據(jù)內(nèi)部的隱含關(guān)系,其應(yīng)用的范圍很廣。在商業(yè)銷售領(lǐng)域,可以用來分析顧客的行為模式,為后續(xù)服務(wù)提供參考;網(wǎng)絡(luò)商店的商品推薦機制就是利用用戶大量的購買記錄,來分析推測用戶的購買模式或偏好;金融保險業(yè)則利用這一技術(shù)發(fā)現(xiàn)利潤豐厚的客戶。數(shù)據(jù)挖掘領(lǐng)域已發(fā)展出豐富的計算理論和模型,人文計算研究可以先直接選用,隨后到人文研究中尋找合適的應(yīng)用;或者根據(jù)人文計算需要挖掘的內(nèi)容,尋找合適的挖掘模型。

        第三,研究者不斷嘗試將各種在其他領(lǐng)域使用的信息處理模式引入人文計算中,并取得了很好的效果。例如新西蘭學(xué)者把生物信息計算的概率推理模型引入語言發(fā)源的研究中,通過量化考察時間和空間上的演變過程。成功推斷出印歐語系起源的地理位置。

        需要指出的是,人文計算并不是簡單地借助計算機來解決人文研究中的問題,而是利用信息技術(shù)找出一些能夠計算處理的方式和方法,對問題的研判仍需要依靠人文研究者。

        人文計算具有鮮明的交叉學(xué)科特點,而交叉學(xué)科往往是產(chǎn)生創(chuàng)新思想的沃土。在語言計算方面,有四位著名學(xué)者對于語言和計算的關(guān)系進行了深入探討,并建立了新的理論體系。1913年,俄羅斯數(shù)學(xué)家馬爾可夫(A.A.Markov)以詩人普希金長詩中語言符號出現(xiàn)概率為實例,研究隨機過程的數(shù)學(xué)理論,提出了馬爾可夫鏈,并發(fā)展出馬爾可夫模型。1936年,英國數(shù)學(xué)家圖靈(A.M.Turing)發(fā)表了題為《論可計算數(shù)及其在判定問題中的應(yīng)用》的論文。在這篇具有開創(chuàng)性的論文中,圖靈給“可計算性”下了一個嚴(yán)格的數(shù)學(xué)定義,并提出了著名的“圖靈機”數(shù)學(xué)模型。1948年,美國科學(xué)家香農(nóng)(C.E.Shannon)使用離散馬爾可夫過程的概率模型來描述語言的自動機。1950年,他在《機器能思維嗎》一文中提出,檢驗計算機智能高低的最好辦法是讓計算機講英語和理解英語,他天才地預(yù)見到計算機和自然語言將會結(jié)下不解之緣。香農(nóng)的另一個貢獻是創(chuàng)立了“信息論”,他將通過諸如通信信道或聲學(xué)語音這樣的媒介傳輸語言的行為比喻為“噪聲信道”或者“解碼”,他還借用熱力學(xué)的術(shù)語“熵”來作為測量信道的信息能力或者語言的信息量的一種方法,并首次測定了英語的熵。1956年,美國語言學(xué)家喬姆斯基(A.N.Chomsky)從香農(nóng)的工作中吸取了有限狀態(tài)馬爾可夫過程的思想,首先把有限狀態(tài)自動機作為一種工具來刻畫語言的語法,并且把有限狀態(tài)語言定義為由有限狀態(tài)語法生成的語言。這些早期的研究工作催生出“形式語言理論”的研究領(lǐng)域。當(dāng)然,人文計算不僅是語言計算,其研究的領(lǐng)域和層次還在不斷拓展和深入。人文計算為信息科學(xué)研究提供了廣闊的實踐天地。

        人文計算的計算資源

        除堅實的數(shù)據(jù)基礎(chǔ)和有效的計算模型外,人文計算還需要相應(yīng)的計算平臺和計算資源。近年來興起的云計算提供了按需付費使用計算資源和存儲資源的模式,使用者可以像使用水電等基礎(chǔ)公共資源一樣,使用云平臺上的計算資源和存儲資源,只需要按使用量支付一定的費用。如果云計算能真正運用在語言計算中,研究者無需從頭開始投資建設(shè)相應(yīng)的軟硬件平臺以及這些平臺運行的環(huán)境,就可完成復(fù)雜的計算處理,大大降低研究的成本,從而更多專注于人文研究的創(chuàng)新內(nèi)容。云計算將是人文計算研究不可或缺的計算資源基礎(chǔ)。

        此外,大數(shù)據(jù)(big data)也為人文計算的發(fā)展注入了源源不斷的強勁動力。大數(shù)據(jù)的“大”其實并沒有一個統(tǒng)一的標(biāo)準(zhǔn),對于不同的研究領(lǐng)域,“大”的度量并不一致。因而可以認(rèn)為,大數(shù)據(jù)是指那些大小已超出傳統(tǒng)意義的尺度,一般軟件工具難以捕捉、存儲、管理和分析的數(shù)據(jù)。而數(shù)字化的人文資料完全具備大數(shù)據(jù)的特點,相應(yīng)的研究成果將豐富充實大數(shù)據(jù)的研究。同時,隨著大數(shù)據(jù)研究的深入,一些通用的大規(guī)模數(shù)據(jù)處理方法和模型會更豐富、完善和成熟,它們也將促進人文計算的研究進展。

        人文計算的典型案例

        在近年來人文計算蓬勃發(fā)展的形勢下,有必要對其中比較有代表性的研究項目進行總結(jié)。

        中國歷代人物傳記數(shù)據(jù)庫

        中國歷代人物傳記數(shù)據(jù)庫(China Biographical Database,CBDB)項目的目標(biāo)是以宋代人物的傳記為中心,在積累大量數(shù)據(jù)的同時進行群體傳記學(xué)(prosopography)的研究。群體傳記學(xué)是想找出某一個特定群體共有的身份信息,比如他們的教育程度、出身背景乃至宗教信仰等,進而通過這個視角對社會現(xiàn)象進行分析。有清史學(xué)者利用群體傳記學(xué)對清朝中葉以前的巡撫進行研究,具體包括巡撫的籍貫、教育背景等,通過統(tǒng)計分析發(fā)現(xiàn)一些有趣的現(xiàn)象,如這些巡撫大多在科舉考試中不太成功,他們差不多都在官職生涯中期擔(dān)任這個職位,這是進一步升官的中途站。以往研究者常常提出一些模糊的結(jié)論,此次分析讓這些論斷具有了堅實的數(shù)據(jù)基礎(chǔ)。隨著數(shù)據(jù)量的不斷增加,中國歷代人物傳記數(shù)據(jù)庫項目從群體傳記學(xué)進一步拓展到人際關(guān)系網(wǎng)絡(luò)的分析。人際關(guān)系網(wǎng)絡(luò)關(guān)注的不再是人物群體的共有特征,而是由許多一對一關(guān)系對構(gòu)成的復(fù)雜網(wǎng)絡(luò)。

        人物間的關(guān)系一直是歷史研究中的重要一環(huán)。以往的人工分析往往只局限在比較明顯或單純的關(guān)系,難以涉及那些潛在的、復(fù)雜的關(guān)系。通過計算機輔助分析,研究者很可能觀察到人際網(wǎng)絡(luò)中不同節(jié)點的關(guān)聯(lián),從而提出新的結(jié)論。參與中國歷代人物傳記數(shù)據(jù)庫項目計劃的研究者已經(jīng)開始利用這些數(shù)據(jù)來還原宋代思想學(xué)派間的互動,并推測宋代的一些學(xué)者可能是不同學(xué)派間溝通的橋梁。

        從這個項目的研究發(fā)展可以看到,研究者在數(shù)據(jù)資源的基礎(chǔ)上不斷變化對歷史資料審視的視角,計算模型擴展了審視的維度,為挖掘隱藏在數(shù)據(jù)背后的潛在知識提供了可能,豐富了人文計算的內(nèi)涵。

        印歐語系起源的研究

        印歐語系在世界范圍內(nèi)使用人數(shù)眾多,廣泛分布于歐洲、西亞和南亞地區(qū),它的起源一直富有爭議。一種理論認(rèn)為它起源于黑海北方的大草原(Pontic Steppes),大約在6000年前被一個名叫庫爾干(Kurgan)的游牧民族帶到了其他地方;另一種理論認(rèn)為印歐語系起源于安納托利亞(Anatolia,今土耳其境內(nèi)),是在8000~9500年前伴隨著農(nóng)業(yè)的傳播而散布到世界各地的。前者的主要論據(jù)來自動植物詞匯,他們假設(shè)一種語言中如果出現(xiàn)了只在特定地區(qū)才有的動植物名稱,比如“鮭魚”和“山毛櫸”之類,那么這種語言就很可能起源于該地。但是反對派認(rèn)為,因為氣候變化等原因,古代動植物的分布情況很可能和現(xiàn)在大不相同,因此這個方法很不可靠。

        這個起源爭論由于涉及的時間漫長,波及的地域廣闊,僅憑借現(xiàn)有的考古實物難以直接給出答案。那么,有沒有可能運用信息技術(shù)的處理手段和計算工具來研究印歐語系的起源問題?答案是肯定的。新西蘭的研究者根據(jù)特定特征在事物中的反映,利用概率信息進行推理,發(fā)現(xiàn)了其中的關(guān)聯(lián)線索,構(gòu)擬出事物發(fā)展變化的過程(該方法已成功應(yīng)用在生物遺傳的研究中)。研究者將詞匯作為語言的遺傳物質(zhì),對103種印歐語言(既有現(xiàn)代語言,也有古代語言)進行分析。初期對各個語言的時間特征和語言的分化特性做了研究,得出的結(jié)論是,印歐語系的各種語言分家的時間約在7800~9800年前,這個結(jié)論符合第二種假說。研究者進一步考慮各種語言在地理空間上的分布特性,希望找出印歐語系的確切誕生地。他們在初期工作的基礎(chǔ)上,運用生物信息學(xué)在流行病傳播研究領(lǐng)域的計算方法和相關(guān)的信息處理模型,把語言的變化和地理數(shù)據(jù)同時輸入到計算機中,得出的結(jié)論明顯支持安納托利亞起源說。

        這項研究的結(jié)論獲得首先有賴于語言學(xué)研究的發(fā)展及其豐富的研究成果。研究的數(shù)據(jù)基礎(chǔ)是100多種印歐語言詞匯的同源集合,它們是通過各種比較語言學(xué)的研究文獻收集而來的。此外,在印歐比較語言研究中,針對比較詞匯的選擇已有一個標(biāo)準(zhǔn)詞表。此項研究圍繞這一詞表展開。不同研究者在一個研究鏈上形成了合力。目前,這項研究的數(shù)據(jù)已經(jīng)向公眾開放,有興趣的人一方面可以展開其他相關(guān)的研究,另一方面可以驗證研究者的結(jié)論。其次,這項研究在語言學(xué)研究成果的基礎(chǔ)上,通過相關(guān)信息技術(shù)對這些內(nèi)容作深化處理和宏觀綜合,以計算和量化的方式來探索傳統(tǒng)語言學(xué)長期存在的爭論。為解決這類問題尋找到有效途徑。因此,一些學(xué)者認(rèn)為該項研究取得了革命性的突破。

        人文計算對承載中華文化的啟示和展望

        從印歐語系起源研究的案例可以看出,在人文計算中,語言計算扮演著非常重要的角色。語言是一種特殊的信息載體,曾有專家對語言的信息表達作這樣的論述:按物理學(xué)的觀念,信息只不過是被一定方式排列起來的信號序列。在社會交際活動中,這個定義還不夠,中國語言學(xué)家、出版家陳原認(rèn)為信息還必須有一定的意義,或者說信息必須是“意義的載體”。因此,語言本身既具有客觀性,也具有主觀性;既具有藝術(shù)性,也具有科學(xué)性;既具有民族性,也具有世界性;甚至還具有強烈的政治性和無階級性。

        語言承載了民族的文化,漢語的使用者目前已經(jīng)超過了10億。漢語除了普通話外還包括眾多方言,僅頂層劃分就有七大方言體系,有北方方言、吳方言、湘方言、贛方言、客家方言、閩方言和粵方言等。眾多的使用者是語言資源的活載體,不斷對語言進行創(chuàng)新,而種類繁多的方言,又進一步豐富了語言資源的類別。同時,我國是一個多民族國家,在我國境內(nèi)除了使用漢語外,還有眾多的少數(shù)民族同胞使用本民族的語言。據(jù)統(tǒng)計,目前我國境內(nèi)使用的民族語言超過120種,這些民族語言已經(jīng)有了初步的語言數(shù)據(jù)資源。這些豐富的語言資源為展開人文計算提供了基礎(chǔ)保障。

        中華文明源遠(yuǎn)流長,在中華文明形成和發(fā)展的過程中留下了大量表征文明的有形或無形的產(chǎn)物。有形的產(chǎn)物如以文字形式記錄下的歷史文獻資料經(jīng)過悉心保存可以傳世,而那些無形的產(chǎn)物通過人們之間世代傳承,隨著時間的推移和時代的變遷,一旦湮滅就很難再重現(xiàn)。

        眾所周知,漢語的字形盡管較少變化,但是現(xiàn)代漢語和古漢語的讀音有很大的不同。雖在傳統(tǒng)音韻學(xué)中對此有比較系統(tǒng)的理論分析。但有關(guān)研究已日漸式微。目前已經(jīng)無法清晰地了解到這些不同是如何以及何時發(fā)生的?,F(xiàn)有的一些探討只是零星出現(xiàn)在有關(guān)詩詞、方言的研究中。這為人文計算提出迫切要求——運用信息技術(shù)發(fā)掘搶救這一中華文化的重要載體,它將為中華文化的歷史無形遺產(chǎn)在信息時代的傳承和延續(xù)做出貢獻,因而以人文計算的視角展開語言計算具有緊迫性。

        抓住信息時代機遇,促進人文計算發(fā)展,是信息時代對人文研究人員發(fā)出的召喚。中國作為走向世界的大國離不開人文底蘊,人文計算有望發(fā)揮其研究和傳承中華文化的重要作用,再現(xiàn)中華文化的輝煌。

        關(guān)鍵詞:人文計算 數(shù)字人文 語言計算 計算社會學(xué) 云計算 大數(shù)據(jù)

        猜你喜歡
        數(shù)字人文云計算大數(shù)據(jù)
        數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
        跨界與融合:全球視野下的數(shù)字人文
        跨界與融合:全球視野下的數(shù)字人文
        大規(guī)模古籍文本在中國史定量研究中的應(yīng)用探索
        基于云計算的移動學(xué)習(xí)平臺的設(shè)計
        實驗云:理論教學(xué)與實驗教學(xué)深度融合的助推器
        云計算中的存儲虛擬化技術(shù)應(yīng)用
        科技視界(2016年20期)2016-09-29 13:34:06
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        国产熟女白浆精品视频二| 亚洲一区二区三区国产| 一道本久久综合久久鬼色| 精品国产自在现线看久久| 99久久无色码中文字幕人妻蜜柚| 国产裸体舞一区二区三区| 人妻被黑人粗大的猛烈进出 | 91精品国产92久久久| 美女很黄很色国产av| av色欲无码人妻中文字幕| av永久天堂一区二区三区| 亚洲裸男gv网站| 久久久无码一区二区三区| 亚洲AV永久无码精品表情包| 国产99视频一区二区三区 | 真人做爰试看120秒| 暖暖 免费 高清 日本 在线| 48沈阳熟女高潮嗷嗷叫| 成 人 免费 黄 色 视频| 欧美孕妇xxxx做受欧美88| 99久久免费看少妇高潮a片特黄| 国产成人77亚洲精品www| 中文字幕乱码中文乱码毛片| 国产在线观看不卡网址| 可以直接在线看国产在线片网址 | 亚洲 欧美 偷自乱 图片| 无码av中文一区二区三区| 久久精品国产69国产精品亚洲| 国产精品无码久久久一区蜜臀 | 一本色道久久hezyo无码| 久久精品国产精品国产精品污| 无遮挡十八禁在线视频国产制服网站 | 内射爆草少妇精品视频| 日韩精品专区在线观看| 国产又粗又黄又爽的大片| 亚洲综合av在线在线播放| 国产精品亚洲美女av网站| 一区二区中文字幕在线观看污污| 最新国产毛2卡3卡4卡| 国产色a在线观看| 国产日韩AV无码免费一区二区|