趙懌怡,劉海濤
(1. 廈門大學 人文學院,福建 廈門 361005;2. 浙江大學 外國語言文化與交流學院,浙江 杭州 310058)
語言是一種復雜動態(tài)系統(tǒng)[1-5]。它在各個層級表現(xiàn)出高度的復雜網(wǎng)絡結(jié)構(gòu)(語音、詞匯、句法、語義)[6-7]。此類結(jié)構(gòu)的形成與演化是數(shù)百萬使用者長期使用的結(jié)果,使用者適應并改變語言使它滿足當下交流的需要[8]。語言本身和語言所反映的人類認知結(jié)構(gòu)體現(xiàn)了人類大腦網(wǎng)絡的特征,即網(wǎng)絡拓撲結(jié)構(gòu)[9]。所有這些網(wǎng)絡自身的約束限制以及彼此相互影響產(chǎn)生的動態(tài)過程使得語言成為我們今天看到的樣子。
一種可靠的語言網(wǎng)絡構(gòu)造方法是語言網(wǎng)絡研究的第一步。在某個層面上,網(wǎng)絡假設可以被簡單地看作是一種展示語言數(shù)據(jù)的標記方法。網(wǎng)絡是節(jié)點、邊的集合,構(gòu)建一個網(wǎng)絡首先要確定這兩個要素[10]。迄今可見諸多對語言網(wǎng)絡的構(gòu)造,集中在以字、詞為單位的語言同現(xiàn)網(wǎng)絡[11-12]、句法網(wǎng)絡[3,13]、語義網(wǎng)絡[4,14-16]的不同層面,這些網(wǎng)絡的構(gòu)建大都受語言資源的形式所限表現(xiàn)出些許差異,但已能基本窺見語言網(wǎng)絡類似于其他自然和社會網(wǎng)絡的統(tǒng)計規(guī)律(小世界、無標度)。但是如何更好地結(jié)合語言特點和語言學的研究成果,采用更可靠的方法對語言單位各層面分析,是語言網(wǎng)絡研究者需要深入思考的問題。本文收集的幾類以詞為單位的語言網(wǎng)絡構(gòu)造方法,基于同一文本構(gòu)建不同類型的語言網(wǎng)絡,并試圖從網(wǎng)絡全局參數(shù)和網(wǎng)絡局部節(jié)點特征兩個角度來闡釋不同層級語言網(wǎng)絡的差異。
語言同現(xiàn)網(wǎng)是語言工程領(lǐng)域研究者較為熟悉的網(wǎng)絡構(gòu)造方法。這種方法基于分詞操作,不需要對語言單位(詞)進行深入的結(jié)構(gòu)分析。研究者通常先建立模型,通過模型確定詞關(guān)系矩陣繼而建立網(wǎng)絡。
同現(xiàn)網(wǎng)構(gòu)造方法之一是n階Markov同現(xiàn)。如果在一個句子中,兩個詞之間在n階Markov 鏈的條件下存在同現(xiàn)關(guān)系, 則認為網(wǎng)絡中相應的兩個節(jié)
點之間存在一個連接。對語料庫中的所有句子進行上述處理,便可構(gòu)造出詞同現(xiàn)網(wǎng)絡。語言工程的實踐表明,n 階Markov 鏈中的n取2 比較合適,因為句子中兩個詞的鄰接同現(xiàn)是最常見的。雖然也存在一些間隔大于1的相關(guān)詞對,但如果在模型中考慮此種遠距離關(guān)聯(lián),則會引入大量的無關(guān)詞對,降低詞同現(xiàn)網(wǎng)絡對真實情況反映的準確性。采取這個策略,一方面可較充分地反映詞與詞之間的上下文制約關(guān)系,另一方面,又可使模型的復雜性得到較好的控制。
按照上述方法,我們使用兩個句子的文本“人體是由數(shù)以億計的微小而有生命的細胞構(gòu)成的 這些細胞構(gòu)成各個不同的組織 器官 保證了人體的正常工作 ”構(gòu)建2階馬爾科夫鏈同現(xiàn)網(wǎng)絡。在該同現(xiàn)網(wǎng)中節(jié)點為詞,按照次序建立前后連接(箭頭表示詞連接方向),網(wǎng)絡中標點符號被刪除,保留句子的根節(jié)點標記ROOT*ROOT為非詞標記,不應存在于詞節(jié)點的網(wǎng)絡中,但考慮到其標記句子根節(jié)點的作用,且復雜網(wǎng)絡不因單個節(jié)點的結(jié)構(gòu)功能產(chǎn)生巨大的變化,故保留。,形成23個節(jié)點的網(wǎng)絡如圖1所示。
圖1 23N有向同現(xiàn)網(wǎng)(左)和加權(quán)(頻次)同現(xiàn)網(wǎng)(右)
通過PAJEK*PAJEK社會網(wǎng)絡分析工具?!耙瞥噙?Net-Transform-Remove-Multiple lines)”操作,節(jié)點間在文本中對應連接的頻次可以在邊值中顯現(xiàn),文本中“細胞—構(gòu)成”兩詞在上下文中出現(xiàn),在網(wǎng)絡中連接著兩個節(jié)點的邊值為2。這樣其實是構(gòu)建了一個基于上下文同現(xiàn)的加權(quán)同現(xiàn)網(wǎng)絡。
n階馬爾科夫鏈構(gòu)建同現(xiàn)網(wǎng)絡是語言網(wǎng)絡研究經(jīng)常采用的方式,因為它的理論模型相對成熟,操作相對便捷。下面介紹的“詞相似性同現(xiàn)網(wǎng)”的基本構(gòu)造思想也是上下文同現(xiàn),但采用了相對復雜的模型。
詞相似性同現(xiàn)模型是G?rnerup和Karlgren[17]從認識語言普遍性和特殊性(它們影響分布模型行為)考慮,建立的詞相似性決定的網(wǎng)絡模型。在這個模型中,節(jié)點是詞,詞如果在相似上下文中同現(xiàn)則被連接。詞相似性模型假定每個詞都出現(xiàn)在一定的上下文概率分布之中,Pi={Pr[wp,wi,ws|wi]},wp,ws∈W。在操作中,估計Pi通過測量wi的上下文同現(xiàn),再標準化這個數(shù)值。如果兩個詞有相似的上下文則有相似的功能。量化兩個詞的區(qū)別,定義dij(0≤dij≤2), 通過變化相應的上下文分布來調(diào)整變化距離。詞的集合和它們的相似性很容易表示為一個有權(quán)重的無向網(wǎng)絡。節(jié)點為詞,通過上下文相似度來連接。連接強度依賴于詞相似度。邊權(quán)通過wij=2-dij測量。研究者測量了11種語言中3 000常用詞排名前19位的詞,用它們構(gòu)建詞網(wǎng)。所有的
詞網(wǎng)有明顯的社團結(jié)構(gòu),節(jié)點有組織,組織內(nèi)部有高密度的邊連接。社團結(jié)構(gòu)的強度可以由下測量: 由網(wǎng)絡中給定的邊權(quán)片段組成,這些邊權(quán)來自于網(wǎng)絡,網(wǎng)絡中邊連接相同的社團。對11種語言的詞相似性測量發(fā)現(xiàn)每種語言的詞相似網(wǎng)絡都是模塊化的,不同語言的模塊化程度不同,芬蘭語相比其他語言詞間連接較弱,希臘語模塊化程度明顯。
不難看出無論是n階馬爾科夫鏈還是詞相似性模型的同現(xiàn),都是通過構(gòu)造詞出現(xiàn)的上下文環(huán)境來判斷詞的功能分布。但是有限元數(shù)的上下文同現(xiàn)難以準確反映前后成分間的規(guī)律。Liu[3]認為,語言同現(xiàn)網(wǎng)絡的構(gòu)造有其信息論的價值,但從語言學角度來分析缺乏可靠性。因為在語法上相關(guān)的成分在語序上并不一定相鄰,反之,語序上相鄰的成分并不一定存在語法相關(guān)性。舉一個簡單的例子“an interesting book”,如果在鄰接的不定冠詞“an”和形容詞“interesting”間產(chǎn)生同現(xiàn)的連接關(guān)系可能很難找到句法理論的支持,這說明上下文同現(xiàn)的分析可能存在單靠詞分布判斷詞功能的缺陷。這要求我們充分考慮句法理論在語言結(jié)構(gòu)分析中的必要性。句法理論是人類(語言學家)長期的、經(jīng)驗的關(guān)于語言規(guī)律的總結(jié),甚至有生物語言學的研究者主張句法是人類語言進化的結(jié)果[18]。在語言分析的時候充分考慮語言理論的研究成果是必要的,而我們目前要做的是用數(shù)學的方法和客觀的數(shù)據(jù)去驗證這些規(guī)律的可靠性、充分性,并通過新的大規(guī)模的數(shù)據(jù)和方法繼續(xù)探索語言的規(guī)律。因此我們在構(gòu)造語言網(wǎng)絡時,有必要進入到基于句法的語言分析層面。
句法網(wǎng)絡指基于語言學(句法)理論的網(wǎng)絡。劉海濤[16]建議構(gòu)建基于語言學理論的網(wǎng)絡,雖然從信息論角度同現(xiàn)網(wǎng)絡有其價值,但是構(gòu)建句法網(wǎng)絡對于分析人類語言特征更為有益。而相比于其他句法理論,依存語法是一種“網(wǎng)絡友好”的語言學理論[3,13,20-21]。
就句法分析而言,短語結(jié)構(gòu)和依存關(guān)系是兩種主要的分析手段。短語結(jié)構(gòu)注重的是研究組成句子各成分之間部分與整體的關(guān)系,而依存分析關(guān)注的是構(gòu)成句子各個成分之間的關(guān)系。雖然就什么是依存分析和依存語法[4,10,19,22-23],學者們?nèi)杂胁煌目捶?,但一般認為構(gòu)成依存分析基礎(chǔ)的是依存關(guān)系。
依存關(guān)系具有這樣一些主要屬性:
1. 語言單位間的二元關(guān)系。這種關(guān)系在兩個詞間形成,也可以抽象為兩個詞類的間的關(guān)系;
2. 依存關(guān)系是一種有向關(guān)系或非對稱關(guān)系,兩個詞(類)中有一個為支配詞(類)。圖中箭頭表示這種有向性。
3. 依存關(guān)系是有標記的,即人們應該區(qū)分一種語言里的各種不同的依存關(guān)系,并且將它們顯式標識出來。
依存句法理論的這些屬性決定了它是一種網(wǎng)絡友好的理論。依存句法中的詞對應網(wǎng)絡中的節(jié)點屬性,關(guān)系對應邊,關(guān)系類型對應邊屬性,這樣我們就可把依存分析轉(zhuǎn)化為網(wǎng)絡。
對文本進行依存句法分析就是建立以詞為單位的詞間關(guān)系。對句子“人體是由數(shù)以億計的微小而有生命的細胞構(gòu)成的 這些細胞構(gòu)成各個不同的組織 器官 保證了人體的正常工作”進行依存分析得到圖2。
圖2 線性文本間的依存句法分析
通過詞間依存句法建立關(guān)系的線性文本可以容易地轉(zhuǎn)化為相應語句的句法網(wǎng)絡(圖3)。這樣做的優(yōu)勢在于: 一方面,在這樣的句法網(wǎng)絡中,對文本的分析跨越了以往句法理論受限于句內(nèi)障礙。另一方面,基于人腦神經(jīng)網(wǎng)絡拓撲結(jié)構(gòu)的事實,如果假設文本中保持了人類的絕大多數(shù)知識,文本信息也應該存儲在人腦的網(wǎng)狀的結(jié)構(gòu)中,那么,網(wǎng)絡分析的方法實現(xiàn)了線性文本到人類語言存儲環(huán)境(大腦)的模擬。當然,文本的網(wǎng)狀結(jié)構(gòu)并不等于人腦的神經(jīng)網(wǎng)絡結(jié)構(gòu),但是我們有理由相信文本的網(wǎng)狀結(jié)構(gòu)和人腦中知識表征、儲存、學習的網(wǎng)狀結(jié)構(gòu)存在一定的聯(lián)系。
為了比較同現(xiàn)網(wǎng)絡和句法網(wǎng)絡的差異,我們利用2階馬爾科夫鏈模型和依存句法理論分析構(gòu)造例句的同現(xiàn)網(wǎng)(圖4)和句法網(wǎng)(圖3),并對兩個網(wǎng)絡的基本參數(shù)進行比較,見表1。
圖3 23個節(jié)點的依存句法網(wǎng)絡圖4 23個節(jié)點有向詞同現(xiàn)網(wǎng)
表1 23節(jié)點同現(xiàn)網(wǎng)、句法網(wǎng)主要參數(shù)比較
注:N-節(jié)點數(shù);E-邊數(shù);D-直徑;kin/kout t-節(jié)點入度、出度;density-密度;CC1-只有1個鄰居節(jié)點的聚集度;centralization-網(wǎng)絡中心度
在23個節(jié)點的有向網(wǎng)絡中,可觀察到兩個網(wǎng)絡的平均路徑長度、密度、節(jié)點度相當,而句法網(wǎng)路的直徑5顯著小于同現(xiàn)網(wǎng)絡直徑12。雖然同現(xiàn)網(wǎng)和句法網(wǎng)的節(jié)點平均度整體沒有差異,但是節(jié)點度分布存在明顯不同。這表明句法網(wǎng)重新分配了詞在網(wǎng)絡中的功能。兩個網(wǎng)絡中“的”節(jié)點度排在首位。節(jié)點“的”是構(gòu)建網(wǎng)絡所用文本中最高頻詞,同時在句法分析中起著連接形容詞和名詞的重要句法作用,這是“的”在節(jié)點度分布中排在首位的兩方面因素。值得注意,節(jié)點“是”在構(gòu)建網(wǎng)絡的文本中只出現(xiàn)一次,這影響了它在同現(xiàn)網(wǎng)節(jié)點度分布中的排序,但是在句法網(wǎng)絡的度分布中節(jié)點“是”占據(jù)前列,這表明經(jīng)句法分析構(gòu)造的網(wǎng)絡側(cè)重反映詞的語法功能價值(表3)。
表2 同現(xiàn)網(wǎng)和句法網(wǎng)標準化節(jié)點度排序
在我們構(gòu)建23節(jié)點的同現(xiàn)網(wǎng)絡和句法網(wǎng)絡度分布中,兩個網(wǎng)絡具有相同標準化度分布均值0.190 2,但是句法網(wǎng)絡的標準差*標準差(Standard Deviation)是各數(shù)據(jù)偏離平均數(shù)的距離的平均數(shù)。標準差能反映一個數(shù)據(jù)集的離散程度。簡單來說,標準差是一組數(shù)據(jù)平均值分散程度的一種度量。一個較大的標準差,代表大部分數(shù)值和其平均值之間差異較大;一個較小的標準差,代表這些數(shù)值較接近平均值。通常,標準差越高,表示實驗數(shù)據(jù)越離散,也就是說越不精確。反之,標準差越低,代表實驗的數(shù)據(jù)越精確。略大于同現(xiàn)網(wǎng)絡,這反映了句法網(wǎng)絡度分布離散性較高,度分布越離散網(wǎng)絡的層級性和異質(zhì)性越高。考慮到目前網(wǎng)絡的規(guī)模, 同現(xiàn)網(wǎng)和句法網(wǎng)的更顯著差異可能還需要更大規(guī)模節(jié)點的網(wǎng)絡數(shù)據(jù)支持。但是我們已經(jīng)發(fā)現(xiàn),這兩類節(jié)點相同、組織方式不同的微型網(wǎng)絡存在基本參數(shù)上的差別。
詞類是句法理論研究的一項主要內(nèi)容,漢語詞類問題在漢語語法分析中產(chǎn)生的影響一直備受爭議。復雜網(wǎng)絡注重整體的特質(zhì),使得它非常適宜于研究某些詞(類)對語言系統(tǒng)的影響。我們對文本“人體是由數(shù)以億計的微小而有生命的細胞構(gòu)成的 這些細胞構(gòu)成各個不同的組織 器官 保證了人體的正常工作”進行依存分析構(gòu)建了詞類的關(guān)系網(wǎng)絡,如圖5所示。網(wǎng)絡中包含10個詞類節(jié)點(和預先設定的詞類分析標準有關(guān)),連接詞類節(jié)點的有向邊反映依存句法理論中詞類間的相互支配關(guān)系(箭頭所指方向關(guān)系為“從屬于”),邊的粗細(依賴邊值)反映文本中相應類型詞類間關(guān)系的出現(xiàn)的頻次。在這樣的網(wǎng)絡中,我們能夠比較直觀的看到語言中哪些詞類在文本比較活躍,哪些詞類間存在依存關(guān)系。
圖5 23個節(jié)點詞類網(wǎng)絡參照
這一方面最值得研究的問題是漢語虛詞在漢語句法體系中的作用[24]。一般認為,由于漢語的實詞沒有形態(tài)變化,虛詞便成了漢語的主要句法手段之一。如果虛詞是漢語的主要句法手段,那么從漢語句法網(wǎng)絡中將虛詞移走,可能會導致漢語句法網(wǎng)絡的統(tǒng)計特征發(fā)生重大的變化。陳芯瑩、劉海濤[25]以概率配價模式理論*概率配價模式理論詳見: 劉海濤,依存語法的理論與實踐,北京: 科學出版社,2010:106-111.為基礎(chǔ),利用復雜網(wǎng)絡分析技術(shù),研究和分析了漢語句法網(wǎng)絡中虛詞的網(wǎng)絡結(jié)構(gòu)特點。他們的研究發(fā)現(xiàn),(1)“的”是漢語句法網(wǎng)絡的全局中心節(jié)點。它的被支配能力是網(wǎng)絡中最強的,同時它還具備很強的支配能力。而且,“的”的這些網(wǎng)絡特性受語體影響較小。從網(wǎng)絡中剔除“的”節(jié)點,會造成句法網(wǎng)絡的平均度下降、平均路徑長度增加、直徑增加、密度降低并導致孤立節(jié)點的產(chǎn)生;(2)“了”是網(wǎng)絡中的局部中心節(jié)點,不是全局中心節(jié)點。它具有較強的被支配能力但不具備支配能力。刪除“了”會造成網(wǎng)絡的平均度下降,但其對網(wǎng)絡的影響比“的”要小;平均路徑長度增加、直徑增加、密度降低,其影響均大于“的”;不會使網(wǎng)絡產(chǎn)生孤立節(jié)點;(3)介詞“在”是接近網(wǎng)絡的全局中心節(jié)點。但它的支配能力與被支配能力受語體影響較大,在書面語體中的被支配能力強于在口語體中的被支配能力。剔除“在”后,網(wǎng)絡的平均度下降,但其影響比“的”要??;平均路徑長度增加、直徑增加、密度降低,其影響均大于“的”與“了”相當;會使網(wǎng)絡產(chǎn)生孤立節(jié)點。
漢語依存句法網(wǎng)的全局特征和局部特征的研究從復雜網(wǎng)絡和語言理論兩個角度加深了我們對語言網(wǎng)絡的認識,也促使研究者進一步探索語義網(wǎng)絡的面貌。
什么是語義網(wǎng)絡?
與字、詞、句法等表層語言網(wǎng)絡不同,語義網(wǎng)絡是一種深層語言網(wǎng)絡。語義網(wǎng)絡又可以分為兩種,一種是通過真實文本進行語義角色或論元結(jié)構(gòu)分析所得到的語義網(wǎng)絡,這種網(wǎng)絡可以稱之為動態(tài)語義網(wǎng)絡。動態(tài)語義網(wǎng)絡有助于研究與交際過程相關(guān)的各種語義問題,有利于研究更好的語義處理策略與系統(tǒng)。Liu[4]通過對真實文本進行語義角色標注,構(gòu)造并研究了漢語的動態(tài)語義網(wǎng)絡。這是一種節(jié)點為實詞,連接為語義或論元關(guān)系的網(wǎng)絡。另一種是根據(jù)詞典等語言資源構(gòu)造的語義網(wǎng)絡,這種語義網(wǎng)絡是一種靜態(tài)語義網(wǎng)絡,它所反映的是人類存儲知識的方式與結(jié)構(gòu)。在這樣的網(wǎng)絡中,節(jié)點一般為概念(或?qū)嵲~),節(jié)點之間的關(guān)系可以是上下位、部分與整體、同義、反義等語義關(guān)系[26]。靜態(tài)語義網(wǎng)絡對于義類及概念詞典的研究,對于知識庫的開發(fā)都有用處。圖6左是一個靜態(tài)語義網(wǎng)絡的示意圖。其中空心箭頭表示兩詞之間在語義上屬于上下位關(guān)系,如“花—百合花”說明百合花是花的一種;而實心箭頭表示兩詞之間在語義上屬于部分-整體關(guān)系,如“花萼—花”說明花萼是花的一部分。在這樣的網(wǎng)絡中,節(jié)點一般為概念(或?qū)嵲~),節(jié)點之間的關(guān)系可以是上下位、部分與整體、同義、反義等語義關(guān)系。圖6是句子是小百科中關(guān)于“花”的定義“花是被子植物繁衍后代的生殖器官 一朵完整的花包括了6個基本的部分 即花梗 花托 花萼 花冠 雄蕊群和雌蕊群”中實詞的動態(tài)語義網(wǎng)絡。在這類網(wǎng)絡中我們注意到節(jié)點不再是靜態(tài)語義網(wǎng)絡描述的同類詞相關(guān)的概念網(wǎng)絡,而是包含了多種實詞類的動態(tài)網(wǎng)絡(圖7)。
圖6 靜態(tài)語義網(wǎng)絡示意圖
圖7 動態(tài)語義網(wǎng)絡示意圖
相比靜態(tài)語義網(wǎng)絡對于義類、概念詞典、知識庫開發(fā)研究的作用。動態(tài)語義網(wǎng)絡注重人在實際語言運用中對概念從語義到句法的整合和實現(xiàn)過程。而這個過程是認知科學、心理學、語言學共同關(guān)注的焦點。如果我們認可神經(jīng)網(wǎng)絡是人類思維的生物基礎(chǔ),那么就可以說,靜態(tài)、動態(tài)語義網(wǎng)絡的相互協(xié)作完成了人類思維到語言功能的實現(xiàn)。
通常漢語語義分析被認為是針對實詞的分析。同樣,在語義網(wǎng)絡中不對只有句法功能無實義的虛詞進行分析。這就涉及到漢語實詞、虛詞分類的問題。而虛實分類又會觸及到棘手的漢語詞類問題。陸儉明[27]在《現(xiàn)代漢語語法研究教程》中就“漢語詞類問題是個老大難的問題”進行了詳細論述,自中國第一部漢語語法專著《馬氏文通》*參看《馬氏文通》(馬建忠,1989)北京: 商務印書館,2007版.至今已有11個關(guān)于漢語詞類較為完整的分類體系(馬氏文通、黎錦熙、呂叔湘、王力、語法講話、中學體系、胡裕樹、黃廖本、朱德熙、北大本、張斌),這11個分類體系的看法有的部分一致、有的部分涉及詞類細化、有的完全相反,對漢語虛詞、實詞劃分也是在各自詞類分析的基礎(chǔ)上有自成一體的判斷。
考慮到漢語語義網(wǎng)絡構(gòu)建過程中必然要參考漢語語法研究已有的成就,但是不宜過甚陷入學術(shù)之爭。簡單說,我們基本采用《中學教學語法系統(tǒng)提要》*中學教學語法系統(tǒng)提要(人民教育出版社中學語文室,1984)根據(jù)1981年7月在哈爾濱舉行的“全國語法和語法教學討論會”上確定的原則起草。的分類制定適用于漢語信息處理的詞類標注體系,并采用其對漢語實詞、虛詞的分類為參考進行語義網(wǎng)絡的提取。原因有二: 一方面,中學體系影響教大,目前出版的標注詞類的詞典大多沿用這個體系,辭書可以為具體的語料分析操作提供詳盡的有效參考;另一方面,中學體系經(jīng)歷長期的教學實踐,較大程度決定目前國民語言文字使用的實際水平,而我們實驗的語料是來源于日常使用的真實語料,采用這個系統(tǒng)對語料進行再分析符合構(gòu)建漢語網(wǎng)絡考察人腦對語言認知原始狀態(tài)的預期。
從這兩個因素考慮,我們制定漢語12大詞類(名詞、數(shù)詞、量詞、形容詞、動詞、副詞、代詞、介詞、連詞、助詞、嘆詞、擬聲詞)和部分大類細分小類的標注方案[28],認為漢語虛詞是包含介詞、連詞、助詞、副詞、擬聲詞的類,需要明確的是,在此基礎(chǔ)上的語義標注中“副詞”類存在較大問題: 黃伯榮、廖序東[29]認為副詞是虛詞,邵敬敏[30]認為副詞兼具實詞和虛詞,胡裕樹[31]認為副詞是實詞。從副詞細分來看,《現(xiàn)代漢語副詞分類詞典》[32]有十小類的分法可供參考: 時間副詞、程度副詞、限度副詞(頂多、起碼、大約、恰好、到處)、情態(tài)副詞、語氣副詞(倒、到底、究竟、難道)、判斷副詞(的確、勢必、偶爾、或許、不)頻次副詞、關(guān)聯(lián)副詞、目的副詞、類比副詞。其中否定副詞“不”如果作為虛詞在語義分析中提出會影響語義正確表達,在實際語義分析中我們較多遇到“不”的問題,故決定副詞“不”在語義分析時保留。
利用文本“人體是由數(shù)以億計的微小而有生命的細胞構(gòu)成的 這些細胞構(gòu)成各個不同的組織 器官 保證了人體的正常工作”構(gòu)建的實詞語義網(wǎng)包含19個實詞節(jié)點,見圖8。與相應文本的句法網(wǎng)絡相比去掉了虛詞節(jié)點“的、了、而”。微型實詞網(wǎng)絡的平均路徑長度、網(wǎng)絡直徑、節(jié)點入度、出度小于句法網(wǎng)絡相應參數(shù)。平均路徑長度是網(wǎng)絡中任意兩個節(jié)點之間的最短路徑長度均值,它聚合了網(wǎng)絡所有成對節(jié)點,是網(wǎng)絡全局性指標。從網(wǎng)絡的平均路徑長度和直徑來看,實詞網(wǎng)絡的密度略高,這可能和網(wǎng)絡節(jié)點數(shù)縮小相關(guān)。但是同文本句法網(wǎng)絡和語義網(wǎng)絡對比同現(xiàn)網(wǎng)絡,前兩者具有明顯小的平均路徑和網(wǎng)絡直徑,如表3所示,這反映出從語言理論角度構(gòu)建的語言網(wǎng)絡可能具有更顯著的復雜網(wǎng)絡全局特征。語義網(wǎng)絡的聚集系數(shù)高于同文本的同現(xiàn)網(wǎng)絡,但遠落后于同文本句法網(wǎng)絡。聚集系數(shù)描述節(jié)點的相鄰節(jié)點互為鄰居的程度,它是反映網(wǎng)絡中三角關(guān)系的聚集傾向和集群形態(tài)的局部特征指標。同比下句法網(wǎng)絡具有較高的聚集系數(shù),反映出句法網(wǎng)絡節(jié)點間具有更為緊密的聯(lián)系,去除了虛詞的語義網(wǎng)絡,聚集系數(shù)降低,說明虛詞在連通語言網(wǎng)絡節(jié)點局部關(guān)系上起到一定作用,這一點有待擴大網(wǎng)絡規(guī)模后的進一步驗證。
圖8 23節(jié)點句法網(wǎng)和20節(jié)點語義網(wǎng)
表3 三類網(wǎng)絡基本參數(shù)比較
在復雜網(wǎng)絡尤其是社會網(wǎng)絡分析中,網(wǎng)絡中心(centrality)描述單個節(jié)點在網(wǎng)絡中的位置,網(wǎng)絡的中心性(centralization)定義整個網(wǎng)絡的性質(zhì)。如果網(wǎng)絡的中心節(jié)點和外圍節(jié)點有較為明顯的界限就表示這個網(wǎng)絡有較高的中心度。在中心度高的網(wǎng)絡中,信息更容易傳遞。社會網(wǎng)絡中,一個行動者(節(jié)點)可以通過多種途徑之一占據(jù)網(wǎng)絡中心位置: 與許多其他行動者相連接(度中心性);能接觸到網(wǎng)絡中許多其他行動者(接近中心性);把彼此之間沒有直接聯(lián)系的行動者連接起來(中介中心性);與居于網(wǎng)絡中新位置的行動者有連接關(guān)系(特征向量中心性)。由此可見,在信息高效傳遞的網(wǎng)絡中,中心節(jié)點是必不可少的。那么,語言網(wǎng)絡作為一種包含豐富信息的網(wǎng)絡,它的中心節(jié)點會不會因為不同的網(wǎng)絡構(gòu)造方法產(chǎn)生差異呢?這種差異會不會進一步導致網(wǎng)絡局部特征和全局特征的差異呢?這些問題都有待進一步探索。在此,我們先利用PAJEK提取了兩個句子文本的句法網(wǎng)、語義網(wǎng)的中心節(jié)點(Net-Vector-Centers),得到如表4所示排序。
表4 句法網(wǎng)和語義網(wǎng)的中心節(jié)點標準化排序(前三位)
在22個詞的句法網(wǎng)中,“的、構(gòu)成、有”具有較高的網(wǎng)絡中心位置,其中助詞“的”優(yōu)勢非常明顯。而在去除虛詞后剩余19個實詞節(jié)點的語義網(wǎng)絡中,中心節(jié)點發(fā)生了明顯變化,句法網(wǎng)的中心節(jié)點“的”在實詞語義網(wǎng)中被剔除,名詞節(jié)點“細胞”在句法網(wǎng)中原本不具中心性,卻成為了語義網(wǎng)絡的中心節(jié)點。部分虛詞和名詞類中心節(jié)點的變化是句法網(wǎng)、語義網(wǎng)最顯著的差異。通過網(wǎng)絡中心節(jié)點與文本中詞頻的比較,我們還發(fā)現(xiàn): “細胞”在文本中并非高頻詞,節(jié)點“細胞”能夠在句法網(wǎng)、語義網(wǎng)占據(jù)網(wǎng)絡中心位置,更多地說明名詞類節(jié)點在語義網(wǎng)絡中的重要作用。
運用相同文本不同方法構(gòu)造的小型語言網(wǎng)絡,在網(wǎng)絡的基本參數(shù)和網(wǎng)絡中心節(jié)點上表現(xiàn)出較大差異。考慮到復雜網(wǎng)絡技術(shù)是大規(guī)模節(jié)點計算的方法,兩個句子文本構(gòu)造網(wǎng)絡的參數(shù)測量只能算是構(gòu)造語言網(wǎng)絡的初探。小規(guī)模語言網(wǎng)絡構(gòu)造的目的是比較同現(xiàn)、句法、語義網(wǎng)絡的異同,強調(diào)語言多層系統(tǒng)、語言學理論與復雜網(wǎng)絡方法的聯(lián)系,這是結(jié)合網(wǎng)絡科學探究語言網(wǎng)絡邁出的第一步。本研究還將在現(xiàn)有理論基礎(chǔ)上進一步擴大語料規(guī)模以增加統(tǒng)計數(shù)據(jù)的有效性,觀察不同規(guī)模、不同層級語言網(wǎng)絡之間的差異,以檢驗網(wǎng)絡模型應用于語言分析的可靠程度。
[1] Briscoe E J. Language as a Complex Adaptive System: Coevolution of Language and of the Language Acquisition Device [C]//Proceedings of Eighth Computational Linguistics in the Netherlands Conference, 1998.
[2] Steels L. Language as a Complex Adaptive System[C]//Proceedings of PPSN VI, Lecture Notes in Computer Science. Berlin:. Springer-Verlag, 2000: 17-26.
[3] Liu H. The complexity of Chinese dependency syntactic networks[J]. Physica A., 2008a, 387: 3048-3058.
[4] Liu H. Statistical Properties of Chinese Semantic Networks[J]. Chinese Science Bulletin. 2009, 54(16): 2781-2785.
[5] Liu H. Linguistic Complex Networks: A new approach to language exploration[J]. Die Grundlagenstudien aus Kybernetik und Geisteswissenschaft (grkg/Humankybernetik) 2011; 52(4): 151-170.
[6] Cong J, Liu H. Approaching human language with complex networks[C]//Proceedings of the Physics of Life Reviews 2014.
[7] Liu H, Cong J. Empirical characterization of modern Chinese as a multi-level system from the complex network approach[J]. J Chin Linguist 2014;42:1 38.
[8] Pickering M J, Garrod S. Toward a mechanistic psychology of dialogue[J]. Behav. Brain Sci., 2004, 27: 169-226.
[9] Eguiluz V, Cecchi G, Chialvo D R, et al. Scale-free brain functional networks[J]. Phys. Rev. Lett. 2005, 92: 018102.
[10] Hudson R. Language Networks: The New Word Grammar[M]. Oxford: Oxford University Press, 2007.
[11] Ferrer i Cancho R. and Sol R V. The Small-World of Human Language[J]. Proc. R. Soc. Lond. Series B, 2001, 268: 2261-2266.
[12] 劉知遠, 孫茂松. 漢語詞同現(xiàn)網(wǎng)絡的小世界效應和無標度特性[J]. 中文信息學報, 2007, 21 (6): 52-58.
[13] Ferrer i Cancho R, Solé R V, K?hler R. Patterns in syntactic dependency networks[J]. Physical Review E, 2004, 69: 051915.
[14] Sigman M, Cecchi G A. Global organization of the Wordnet lexicon[M]. Procs. Natl. Acad. Sci. USA, 2002, 99(3): 1742-1747.
[15] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science, 2005, 29(1): 41-78.
[16] Holanda A J, Torres Pisa I, Kinouchi O, et al. Thesaurus as a complex network[J]. Physica A, 2004, 344: 530-536.
[17] G?rnerup O, Karlgren J. Cross-lingual comparison between distributionally determined word similarity networks[C]//Proceedings of the 2010 Workshop on Graph-based Methods for Natural Language Processing, ACL 2010. Uppsala, Sweden, 2010: 48-54.
[18] Bickerton D (EDT), Szathmary E (EDT). Biological Foundations and Origin of Syntax (Str ngmann Forum Reports)[M]. The MIT Press, 2009.
[19] 劉海濤. 漢語句法網(wǎng)絡的復雜性研究[J]. 復雜系統(tǒng)與復雜性科學, 2007b, 4(4): 38-44.
[21] Ferrer i Cancho, R. The structure of syntactic dependency networks: insights from recent advances in network theory[C]//Proceedings of Altmann, G.., Levickij, V., Perebyinis, V. (eds.). The problems of quantitative linguistics, Chernivtsi: Ruta, 2005: 60-75.
[22] Tesni re, L. El ments de la syntaxe structurale[M]. Paris: Klincksieck, 1959.
[23] 劉海濤. 泰尼埃的結(jié)構(gòu)句法理論[J]. 北華大學學報(社會科學版), 2007a, 8(5): 68-77.
[24] 劉海濤. 語言網(wǎng)絡: 隱喻,還是利器? [J]. 浙江大學學報(人文社會科學版), 2011, 41(2): 160-179.
[25] 陳芯瑩, 劉海濤. 漢語句法網(wǎng)絡的中心節(jié)點研究[J]. 科學通報,2011, 56(10): 735-740.
[26] Solé R, Corominas-Murtra B, Valverde S, et al. Language Networks: Their Structure, Function and Evolution[R]. Santa Fe Institute Working Paper, 2005.
[27] 陸儉明. 現(xiàn)代漢語語法研究教程[M]. 北京: 北京大學出版社,2004.
[28] Liu H, Huang W. A Chinese Dependency Syntax for Treebanking[C]//Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation: 126-133. Beijing: Tsinghua University Press, 2006.
[29] 黃伯榮, 廖序東. 現(xiàn)代漢語[M]. 北京: 高等教育出版社,1991.
[30] 邵敬敏. 漢語語法專題研究[M]. 北京: 北京大學出版社,2009.
[31] 胡裕樹. 現(xiàn)代漢語(重訂版)[M]. 上海: 上海教育出版社,1995
[32] 姜匯川. 現(xiàn)代漢語副詞分類實用詞典[M]. 北京: 對外貿(mào)易教育出版社. 1989.