饒高琦,李宇明
(1. 北京語言大學(xué) 對外漢語研究中心,北京 100083;2. 北京語言大學(xué) 語言政策與標準研究所,北京 100083)
基于70年報刊語料的現(xiàn)代漢語歷時穩(wěn)態(tài)詞抽取與考察
饒高琦1,李宇明2
(1. 北京語言大學(xué) 對外漢語研究中心,北京 100083;2. 北京語言大學(xué) 語言政策與標準研究所,北京 100083)
該文基于70年跨度的歷時報刊語料庫,使用九種統(tǒng)計方法計算了詞語歷年的使用情況,并通過對穩(wěn)定性、覆蓋度和時間區(qū)分性能的考察篩選獲得了規(guī)模為3 013詞的歷時穩(wěn)態(tài)詞候選詞集。該詞集中動詞與名詞各占約三分之一(其余為形容詞、副詞與虛詞),平均詞長約1.7字,前密后疏地分布于歷時語料庫總頻序表的前7 609位,覆蓋了總語料的近九成。該部分詞語中包含大量構(gòu)造句子結(jié)構(gòu)的核心詞語。它們塑造了穩(wěn)態(tài)詞在詞長和詞類上的特性。穩(wěn)態(tài)詞的提取可以加深對語言生活底層與基礎(chǔ)詞匯的認識,對漢語教學(xué)、中文信息處理和語言規(guī)劃都具有重要意義。
穩(wěn)態(tài)詞;歷時語料庫;語言監(jiān)測
漢語演變的歷程中,詞語使用受時間影響的程度不一,表現(xiàn)為詞語在時間維度上的分布不同。詞匯系統(tǒng)中很多詞語使用穩(wěn)定、受時間影響小、更新和變異緩慢,構(gòu)成了現(xiàn)代漢語詞匯系統(tǒng)的底層,起到基礎(chǔ)和主干的作用。張普[1]先生的研究中將這部分詞語被稱作穩(wěn)態(tài)詞。
穩(wěn)態(tài)詞在自然語言處理中的直接相關(guān)研究較少。Fumiyo等[2]使用卡方檢驗從30年的MedLine英文文檔集中篩選具有時間顯著性的名詞。Degaetano-Ortlieb[3]等在SciTex中挖掘了與時間相關(guān)的詞類串和用詞特征,并使用相關(guān)分析輔助選擇。謝曉燕[4]則使用詞語生命度方法計算了詞在各時間點上的活躍程度,輔之以問卷調(diào)查從30年的《深圳特區(qū)報》中獲得穩(wěn)態(tài)詞表。
本文從大時間跨度的歷時語料中抽取穩(wěn)態(tài)詞候選集,以描述當(dāng)代漢語報刊語言使用的底層,進而觀察整個語言社團語言生活的基礎(chǔ)。歷時語料庫可以被視作不同時期產(chǎn)生的文本集。抽取沒有時間區(qū)分度的穩(wěn)態(tài)詞語等效于找出其中沒有文本區(qū)分力的詞。這恰好是文本分類任務(wù)的反面,因而可以借鑒其計算方法抽取在歷時語料庫中沒有時間特征的詞語。
本文使用了文本分類任務(wù)和停用詞抽取任務(wù)中比較成熟的幾種特征統(tǒng)計方法。語言監(jiān)測中常用的“共用詞”提取也是重要的方法。本文使用的語料為BCC歷時檢索系統(tǒng)*http://bcc.blcu.edu.cn/hc[5-6]中1946年到2015年的《人民日報》語料*由于種種原因,本文實驗過程中沒有獲得2003年到2008年的《人民日報》語料,該部分由實驗室積累的相應(yīng)年份的《貴州日報》替補。,時間跨度70年,規(guī)模12億字,詞種數(shù)約220萬。
本文的組織架構(gòu)如下: 第二節(jié)介紹了九種詞語使用情況的計量方法;第三節(jié)為本任務(wù)中各方法獲得穩(wěn)態(tài)詞候選集的情況;第四節(jié)中通過覆蓋度、重疊程度和文本分類精度評價了諸方法的性能,并獲得了最優(yōu)候選集;第五節(jié)分析了穩(wěn)態(tài)詞的基本性質(zhì);第六節(jié)為小節(jié)與展望。
2.1 詞頻逆文檔頻
Sparck-Jones[7]和Robertson[8]在信息檢索中使用包含特定詞的文檔頻率對單純詞頻統(tǒng)計進行平衡,從而發(fā)展出詞頻逆文檔頻,后文簡稱TF·IDF。本任務(wù)中,TF·IDF值較小的詞更傾向于成為沒有時間區(qū)分度的穩(wěn)態(tài)詞。
由于不同時期的語料規(guī)模不一,總語料規(guī)模和總文檔數(shù)量可以用來對詞頻與逆文檔頻值進行歸一化。本文使用式(1)—式(3)對歷時語料庫中所有詞的TF·IDF值進行了計算。
其中Fw和Dw分別表示詞w在整個語料庫中出現(xiàn)的次數(shù)和整個語料庫中包含詞w的文檔數(shù)。F和D則是整個語料庫的全部詞次數(shù)與文檔數(shù)。注意到文檔數(shù)D的大小取決于歷時語料庫劃分的顆粒度。如一年的語料視作一篇文檔(年顆粒度),一個月的語料視作一篇文檔(月顆粒度),或使用其他顆粒度,對D和Dw值會產(chǎn)生巨大影響。
2.2 互信息
在文本計算中互信息(Mutual Information)越大,特征w和類別C共同出現(xiàn)的可能性就越大,由此可以推斷w和C的關(guān)聯(lián)性越強[9-10]。在這一部分中w即為語料庫中的詞,類別C則是包含w的語料所屬的時間。本節(jié)在計算中采用Y. XU[11]在文本分類任務(wù)中推導(dǎo)的詞與分類的互信息計算公式,如式(4)、式(5)所示。
上式中w為詞,ci是分類,即特定時間點的語料。這里使用最大似然估計來計算詞w在c中的概率。countci(w)是詞w在語料ci中的頻次。N為整個語料庫的總詞數(shù),m為語料庫在一定時間顆粒度下的文本數(shù)。如年顆粒度下,m=70。
2.3 聯(lián)合熵
相較于互信息,聯(lián)合熵(Union Entropy, UE)在計算中同時體現(xiàn)了包含特定詞的句子在文本中出現(xiàn)的概率和詞語在該句子中出現(xiàn)的概率。在少數(shù)民族語言和現(xiàn)代漢語的語料庫中,聯(lián)合熵在獲取停用詞,過濾噪音詞方面取得了較好的效果[12-13]。聯(lián)合熵的計算方法如式(6)—式(10)所示。
這組公式中一個詞wi在語料庫中的聯(lián)合熵UE(wi)由其在句子中分布的熵值(式(8))和包含wi的句子在特定時間的語料中分布的熵值(式(7))構(gòu)成。其中式(9)為wi在某一句子中出現(xiàn)的概率,用最大似然估計計算。countl(wi)是wi在該句子中出現(xiàn)的次數(shù),n為句子數(shù)。countl(s|wi)是包含wi的句子s在文本l中出現(xiàn)的次數(shù),m為文本總數(shù)。
2.4 詞項隨機采樣
詞項隨機采樣(Term Based Random Sampling, TBRS)方法由Lo T W[14]提出,用于在網(wǎng)頁上自動探測停用詞。該方法隨機選取若干詞,在包含這些詞的文檔中計算所有詞的KL距離,并歸一化。對每個詞在其出現(xiàn)的每個文檔中的KL距離值取平均,排序后選取得分較小的為停用詞。本部分使用的KL計算公式如式(11)所示,TBRS的計算公式如式(12)所示。
其中c為特定時間的語料,KL(wi)為在語料c中wi分布和整個語料中wi分布的KL距離,p(wi)為wi在c中出現(xiàn)的概率,p(wi)為wi在整個語料庫中出現(xiàn)的概率,m為有wi出現(xiàn)的語料的份數(shù),max函數(shù)則在各份語料中取KL距離的最大值。
2.5 修正頻率
修正頻率(Korregierte Frequenz,KF)又稱為調(diào)整頻率(Adjusted Frequency)。KF統(tǒng)計可以避免單純統(tǒng)計頻次時,集中于某些文檔的某些高頻詞被誤認為是整個語料的高頻詞。本文使用的KF計算公式[15-16]如式(13)所示。
其中wi的KF值為它在特定時間語料c中出現(xiàn)概率與語料概率的根平均數(shù)。p(c)為語料c在整個語料庫中出現(xiàn)的概率,用最大似然估計計算,Nc除為語料c的詞數(shù),整個語料庫詞數(shù)為N,m為按特定時間顆粒度劃分整個語料的份數(shù)。
2.6 均根勻度
Huarui Zhang[17]研究了詞匯使用的分布程度,提出了均根勻度(Square-mean-root Evenness, SE)用以獲得特定文檔的核心詞表。其計算方法如式(14)所示。
其中c為特定時間的語料,m為整個語料劃分的份數(shù),其余符號含義與前文相同。
2.7 變異系數(shù)
如果一個詞是穩(wěn)態(tài)詞,那么它的使用情況隨時間變化小,在統(tǒng)計上應(yīng)表現(xiàn)為離散程度較小。但語料庫中不同詞語標準差的測量尺度相差很大,直接比較并不合適。變異系數(shù)(Coefficient of Variation, CV)是常用于這種場景的統(tǒng)計量。它是變量標準差與平均數(shù)的比,如式(15)所示。
對于詞wi,離散程度低(標準差小),頻率高(頻率均值大)就更傾向于成為穩(wěn)態(tài)詞。因此選取變異系數(shù)較小的詞作為候選詞。
2.8 共用詞
共用詞是在一組文本中都出現(xiàn)的詞。在《中國語言生活狀況報告數(shù)據(jù)篇》[18]中使用共用詞描述不同領(lǐng)域中詞匯的重合程度,并間接顯示領(lǐng)域間的詞匯差異。借鑒到本任務(wù)中,年共用詞是在各年語料中都出現(xiàn)的詞語。該性質(zhì)使得這部分詞語可能成為較好的候選穩(wěn)態(tài)詞語。
對于本文中的歷時語料,年度共用詞即為文檔頻率DF=70時產(chǎn)生的詞表。月、周、日共用詞即為DF為相應(yīng)數(shù)量時產(chǎn)生的詞表。
2.9 累計頻率
從整個語料庫中抽取出的分詞單元按頻率高低進行排序,并計算其累計頻率。由于詞匯使用分布的不均衡性,少數(shù)超高頻與高頻詞占據(jù)了語料庫的大部分篇幅。累積頻率達到一定閾值時的高頻詞更容易成為整個語料庫中更具有通用性的詞。該方法只能獲取詞語的全局頻率,因而局限性明顯,本文以其作為對照組。
3.1 通過拐點確定候選集
詞語的TF·IDF值計算取決于文本的顆粒度,即IDF的大小。隨著時間顆粒度的變化,詞語的TF·IDF值和詞匯的TF·IDF排序都會出現(xiàn)顯著不同,如圖1左所示。
從圖1右中可以發(fā)現(xiàn)各顆粒度曲線的在拐點之后TF·IDF值的斜率趨于平緩??梢酝ㄟ^觀察詞TF·IDF值曲線的拐點來確定穩(wěn)態(tài)詞的數(shù)量。在以日為時間顆粒度的情況下拐點大致出現(xiàn)在600詞的位置,在以周為時間顆粒度的情況下拐點大致出現(xiàn)在2 000詞的位置(如圖1右),在以月為時間顆粒度的情況下拐點大致出現(xiàn)在3 000詞的位置,在以年為時間顆粒度的情況下拐點大致出現(xiàn)在12 452詞的位置。
圖1 年、月、周、日四種顆粒度下詞的TF·IDF(升序前15 000個)
以年為顆粒度的TF·IDF值的拐點取得是零跳變點,即在此排序中前12 452個詞的TF·IDF值均為0。原因在于這些詞在每一年的語料中都出現(xiàn),造成IDF=0。此時,依TF·IDF值選取出的候選詞退化為了年共用詞。各顆粒度的共用詞將在3.2節(jié)中詳細討論。
大體上,四種時間顆粒度下的候選詞表從大到小依次包含。各詞表的交集為599詞。
類似地,我們通過觀察拐點的方式確定了基于互信息、聯(lián)合熵、詞項隨機采樣、修正頻率、均根勻度、變異系數(shù)和對照組累計頻率方法的候選詞集的大小。由于數(shù)值的分布較差異較大,為了便于繪圖和觀察拐點,本部分對互信息、聯(lián)合熵、修正頻率值取以10為底數(shù)的對數(shù)。
3.2 基于共用詞方法的候選集
本部分計算了歷時語料庫中年、月、周、日四種顆粒度下的共用詞。年共用詞有12 452個,月共用詞1 821個,周共用詞409個,而日共用詞僅有15個其同類分布如表1和圖2所示。
表1 年、月、周、日共用詞數(shù)量及詞類分布
日共用詞按頻率從高到低排分別是: 的、了、在、和、是、一、個、中、上、為、地、到、人、大、下。它們都是單音節(jié)詞。唯一的動詞為“是”?!盀椤焙汀暗健币灿凶鰟釉~的情況,但總體較少。唯一的名詞是“人”,但“人”在數(shù)量結(jié)構(gòu)中也可以做量詞。唯一可以做形容詞的是“大”。
構(gòu)筑日常語用生活底層最穩(wěn)定的部分是虛詞。當(dāng)“日常語言”細分到“每日必用”的程度時,名詞、動詞和形容詞所占寡少。虛詞所負載的主要是語法意義,是組織語言所必須的骨骼。而構(gòu)成句子內(nèi)容的實詞則有很強的流動性甚至是偶然性。形容詞在年、月、周、日共用詞中的比例十分穩(wěn)定,在7%上下波動,是總量較少但不可或缺的一部分詞匯。
由共用詞的定義可知,年、月、周和日共用詞表是逐層包含的。
圖2 年、月、周、日共用詞的虛詞實詞分布
由齊普夫定律,容易推知,前文綜述了多種穩(wěn)態(tài)詞表的選取方法。本章采用以下辦法對其進行評價: 1.不同時間顆粒度下的重疊程度和時間敏感程度;2.對語料的覆蓋程度;3.對歷時文本分類的貢獻。
4.1 重疊程度和時間顆粒度敏感程度
不同時間顆粒度下候選詞表的重疊程度可以評價該方法的穩(wěn)定性,重疊程度越高越好。
穩(wěn)態(tài)詞和非穩(wěn)態(tài)詞不會是涇渭分明的兩個集合,而是漸變的連續(xù)統(tǒng)。前文使用了“年、月、周、日”四種時間顆粒度,獲得了不同的穩(wěn)態(tài)詞候選詞集。如果使用更大的時間顆粒度如“世紀”,則整個歷時語料庫都處在一個時間單元內(nèi)。那么所有詞都應(yīng)該進入該顆粒度下的穩(wěn)態(tài)詞候選集,并包含其他顆粒度下的候選集。類似的,如果某方法在諸顆粒度下產(chǎn)生候選詞集互相包含的程度高,它所篩選出的候選詞集就更符合其作為連續(xù)統(tǒng)一部分的特性。
本節(jié)將重疊程度劃分為四個等級*這一劃分方法是針對本任務(wù)諸方法進行的,因而沒有完備劃分所有可能情況: 完全重疊,即年、月、周、日四種時間顆粒度下產(chǎn)生的詞表存在一者包含其他三者的關(guān)系;大部分重疊,即存在兩者部分占各自很大比例(>80%);部分重疊,即存兩者重疊部分占各自較大比例(>30%);較少重疊,即四者中任意兩者重疊部分占各自比例較少(<30%)。表2為各種方法的重疊程度。累計頻率法獲得的結(jié)果和時間顆粒度無關(guān),故不在本部分進行評價。
表2 各方法產(chǎn)生的候選詞集的重疊程度
對于抽取穩(wěn)態(tài)詞集,本文傾向于選用對時間顆粒度的敏感性高的方法。這里使用由不同時間顆粒度下詞表規(guī)模的大小差異來衡量不同方法對時間顆粒度的敏感程度。這里將年、月、周、日四種時間顆粒度下任意兩候選詞表間的詞數(shù)之比取平均,來衡量這種差異。形式化描述如式(16)所示。
其中sent為某方法的時間敏感性,Sj與Si為兩個不同時間顆粒度下獲得的候選詞表的規(guī)模,且有Sj>Si,aver( )為取算術(shù)平均值。
如圖3所示,從時間敏感性和重疊度上來看,共用詞和TF·IDF方法都是表現(xiàn)最好的穩(wěn)態(tài)詞獲得方法。
圖3 各方法的時間顆粒度敏感度
4.2 在語料中的覆蓋程度
如果一種方法獲得的詞表,其中詞項在語料中的覆蓋程度過小,說明它們充當(dāng)語言生活底層的可能性不大,則其作為穩(wěn)態(tài)詞的可信度較低。各候選詞表的語料覆蓋程度如表3所示。TF·IDF、共用詞、變異系數(shù)和修正頻率在該項評價中表現(xiàn)較好,其中TF·IDF表現(xiàn)最佳。
表3 各方法在總詞匯中的覆蓋度
4.3 對文本分類的貢獻
根據(jù)穩(wěn)態(tài)詞的特性,在歷時語料庫中去除候選詞集后剩下的詞匯應(yīng)是與文本時間特性較為相關(guān)的詞匯。如果以這些詞為特征對不同時間的文本進行以時間為類的文本分類,應(yīng)有較好的分類效果。候選的穩(wěn)態(tài)詞集的質(zhì)量越高,則去除該詞集后語料庫中保留下的具有較好時間敏感性的詞越多,則最終文本分類的精確度越高。本節(jié)以此檢驗候選詞集的質(zhì)量。
本部分實驗選取了文本分類任務(wù)中最經(jīng)常用做基線實驗的的樸素貝葉斯分類器*本文使用weka數(shù)據(jù)挖掘平臺[19]實現(xiàn)的樸素貝葉斯分類算法,版本3.6.13對測試數(shù)據(jù)集進行文本分類。
在歷時語料庫中均勻選取五分之一的年份(共14年),每年選取2 000詞的文本片段20篇,共280篇,56萬詞作為文本分類任務(wù)的測試數(shù)據(jù)集。實驗中去除頻次為1的超低頻詞。再從測試集中去除第三章中各方法生成的候選詞集,以剩余的詞為特征,頻次為特征值,進行分類實驗。
同時,設(shè)置一組對照實驗。設(shè)測試數(shù)據(jù)集中包含各候選詞集的詞種為m。作為對照,從測試數(shù)據(jù)集中隨機去除m種詞,以觀察各方法生成的候選詞集的質(zhì)量。候選詞集的質(zhì)量越高,去除候選詞集后的分類精度相較對照組提升的越大。
實驗中,以年份為分類標準(14類),10%交叉驗證。實驗結(jié)果如表4所示。
從表4中容易看出,TF·IDF方法在月顆粒度時形成的候選詞集(后簡稱為TF·IDF.m)幫助分類器獲得了最好的分類精度,且該組實驗相比于對照組也有最大的精度提升。相較于對照組,個別組的分類精度不增返降,說明這些詞表中包含了具有較好時間敏感性的詞。
經(jīng)過比較,TF·IDF.m完全包含了文本分類實驗中分類精度第三名的月共用詞詞集,并且TF·IDF.m與精度第二的TF·IDF方法周顆粒度形成的候選詞集(TF·IDF.w)僅有12個詞的差異。也正因為這12個詞,在 重 疊程度評價中TF·IDF方法沒有成為完全重疊關(guān)系的方法。在覆蓋度評價中,TF·IDF方法形成的候選詞集在年、月顆粒度中都優(yōu)于其他方法。在時間顆粒度的敏感程度上,雖與共用詞有較大差異,TF·IDF方法也超過其余諸方法。
表4 各方法在各顆粒度下產(chǎn)生的穩(wěn)態(tài)詞候選詞集在文本分類任務(wù)中的表現(xiàn)
TF·IDF方法本質(zhì)上是對單純詞頻統(tǒng)計法的修正,其修正方式在于通過逆文檔頻IDF值描述了詞分布的廣泛程度。顯然頻率相同或相近的詞中,分布更廣泛的詞所包含的信息量少,更有可能是構(gòu)筑語言生活的底層的語言單位。而分布更窄的詞對于了解其所在文檔的特征具有更大價值。但IDF值的大小很大程度上取決于對整個語料庫劃分的粗細程度,亦即每份語料的規(guī)模。語料庫默認以年為主要的時間計量單位。但每年語料的篇幅很大,詞匯中不同詞的詞頻波動范圍很大。年顆粒度下的IDF取值(1到70),對中高頻段的調(diào)節(jié)作用非常有限。實驗表明以月為顆粒度進行劃分對IDF值發(fā)揮調(diào)節(jié)作用較為合適。
月共用詞的性能僅次于TF·IDF.m。共用詞的提取方法是選擇每部分語料中都出現(xiàn)的詞,而不考慮該詞在各部分語料中出現(xiàn)頻次的多寡。這實際上是IDF=0(即文檔頻率DF取最大值)時TF·IDF的計算方法。因此共用詞的取詞方法是TF·IDF的一種極端情況。月共用詞對語料的劃分與月顆粒度TF·IDF的劃分方法完全一致。這可以部分解釋為何月共用詞的性能僅次于月顆粒度TF·IDF方法。語料顆粒度主要確定詞語在語料庫中的分布程度,也就是歷時的分布程度。顆粒度對候選詞集的抽取有較大影響,說明詞語是否進入時間分布層次的底層,分布廣度較之頻率高低更加重要。
類似的,在語言生活狀況研究中常用的獨用詞是TF·IDF方法中DF=1,IDF取極小值時的另一種特殊情況。它所提取的恰恰是時間敏感性較強的詞。
綜合重疊性質(zhì)、時間顆粒度敏感性、覆蓋程度和文本分類性能三種情況,本文選擇TF·IDF方法在月和周為顆粒度下形成的候選詞集的并集(詞與標點共3 015個)為最優(yōu)穩(wěn)態(tài)詞候選集(后文中簡稱為“詞集”)。該詞集完全包含月、周、日顆粒度下的共用詞。
5.1 詞類分布
詞集中在大量兼類詞如“組織”、“限制”、“希望”等都是兼類詞。表5前兩行是以詞在語料庫中出現(xiàn)頻次最多的詞類為被統(tǒng)計詞類。如果用兼類詞在語料庫中不同詞類的出現(xiàn)概率對相應(yīng)的詞次數(shù)進行修正(如式(17)和(18))則可以得到修正詞數(shù)和修正比例。
式中pi(w)為詞w為詞類i時的概率,通過最大似然估計獲得。W為整個詞集,Nwi為w以詞類i在出現(xiàn)的次數(shù),Nw為w的總次數(shù)Nw為詞類i修正后的詞數(shù)。
表5 詞集詞類分布
詞集中,動詞略多于名詞,且各占三分之一左右。形容詞的比例和共用詞方法中獲得的相似,約占8%。表6統(tǒng)計了詞集中頻次最高的無詞類兼類現(xiàn)象的名詞、動詞和形容詞。
表6 詞集中非兼類的高頻名詞、動詞、形容詞前十與頻序
表6的頻序分布呈現(xiàn)“名詞<動詞<形容詞”的趨勢,且差異明顯。這主要是由于動詞和形容詞的兼類現(xiàn)象十分嚴重??偟脕碇v前十名的名詞和形容詞體現(xiàn)了很強的報刊語體特性。
5.2 詞長分析
詞集的詞長分布可以按照詞種和詞項分別進行計算。前者不考慮該詞在語料庫中出現(xiàn)的頻次,僅由詞表計算生成;后者則用詞集所覆蓋的語料長度除以詞數(shù)獲得。
表7所示為按照兩種方法計算所得的詞長分布。平均詞種詞長為1.69字。雙音詞占據(jù)了詞集的近七成,三音節(jié)、四音節(jié)的詞占比不足3%。僅有的兩個超過四音節(jié)的詞是“中國共產(chǎn)黨”和“中華人民共和國”。雙音詞已成為構(gòu)成報刊語言生活底層的主力。長詞進入穩(wěn)態(tài)詞集需要強大而持續(xù)的社會外力。
表7 詞集詞長分布
按照詞項計算的平均詞長為1.52字。與詞種數(shù)分布產(chǎn)生巨大差異的地方在于單音節(jié)詞和雙音節(jié)詞的對比發(fā)生了反轉(zhuǎn)。單音節(jié)詞的種數(shù)雖少,但平均詞頻很大,因而在詞頻比例上超過雙音節(jié)詞。如將標點符號也算入其中,則所占比例更大: 單音節(jié)57.85%,雙音節(jié)40.69%。
漢語的詞匯變化總體而言是從單音向雙音/多音演化。穩(wěn)態(tài)詞是隨時間變化很小的詞匯部分,因而保留了較多的單音節(jié)詞。而在當(dāng)代漢語中得以保存的這些單音節(jié)詞多為基本構(gòu)詞語素或功能詞,在組織語言的過程中不可或缺,因而頻次很高,分布很廣。
5.3 頻位分布
對詞集在語料庫總詞表中的頻位分布進行統(tǒng)計可以發(fā)現(xiàn)3 013個詞前密后疏地分布在頻序1到 7 608 之間,如圖4所示。前64位和總詞表頻序完全相同。整個詞集相對于總詞頻表的平均分布密度為3011/7608=0.396。這一較低的平均分布密度表明了文檔頻率對純粹詞頻的巨大修正作用。頻序最低的穩(wěn)態(tài)詞頻序位7 607,總詞表在這里的累計頻率為0.889。
圖4 詞集在總詞表中的頻序分布(左坐標軸)和對應(yīng)的累積頻率(右坐標軸)
90%累積頻率是對語料分布進行考察的常用閾值。它與穩(wěn)態(tài)詞集中最低頻序詞所對應(yīng)的累計頻率很接近。累計頻率90%的高頻詞基本可以包含質(zhì)量較好的穩(wěn)態(tài)詞集。
將頻序前7 609位的詞均分為十組,每組中穩(wěn)態(tài)詞出現(xiàn)的詞數(shù)和密度如表8所示,頻序越低越稀疏。
表8 詞集在總詞表諸頻序段的分布密度
漢語水平詞匯等級大綱[20]甲級詞(1 035個)中的70%出現(xiàn)在詞集中。謝曉燕[4]從《深圳特區(qū)報》中使用流通度理論提取了26年間使用較為穩(wěn)定的穩(wěn)態(tài)詞,其中各時期穩(wěn)態(tài)詞交集的高頻3 000詞與本文候選詞集重合2 177個,占73%。由于其研究中的分詞顆粒度和本文不同,加之《深圳特區(qū)報》作為地方報紙對廣東省外事務(wù)報導(dǎo)有限,造成中國和世界范圍內(nèi)的一些重要常用命名實體(如地名“山東省”、“河北省”)沒能進入其詞表。排除這一部分(63詞),則與本文詞集重合率為75%。其余差異多由本文語料庫更大的時間跨度和更廣的新聞覆蓋面造成。如“領(lǐng)袖”、“耕地”、“擁護”等詞語是謝曉燕穩(wěn)態(tài)詞表中所不具備的。由于語料時間跨度差異巨大,計算方法并不完全相同,造成一些詞語選擇的差異并不奇怪。較高的重合率也從另一個角度驗證了本文詞集的性能。
本文在基于70年跨度的歷時語料庫,借鑒文本分類、停用詞抽取等技術(shù)中的算法對各年度語料進行分析,獲得穩(wěn)態(tài)詞的候選集。通過歷時文本分類性能、時間敏感性、重疊性質(zhì)和語料覆蓋程度的考察遴選出了最優(yōu)的算法和時間顆粒度設(shè)定: TF·IDF方法和月顆粒度。
TF·IDF方法統(tǒng)一了常用程度和時間分布兩種重要的語言屬性。歷時語料中的逆文檔頻是對時間分布的刻畫,對詞頻進行了時間的修正,從而在共時常用之外展現(xiàn)了時間維度上的“常用性”。
最優(yōu)候選集共包含3 011個詞,其中動詞略多于名詞,各占約三分之一,平均詞長不足1.7字,前密后疏得分布于歷時語料庫總頻序表的前7 609位,覆蓋了全部語料的近九成。穩(wěn)態(tài)詞中包含大量構(gòu)造句子結(jié)構(gòu)的核心詞語。它們塑造了穩(wěn)態(tài)詞在詞長和詞類上的特性。穩(wěn)態(tài)詞的提取可以加深對語言生活底層與基礎(chǔ)詞匯的認識。穩(wěn)態(tài)詞的提取對于漢語教學(xué)、中文信息處理、語言規(guī)劃和詞典編纂都具有重要意義。
[1] 張普.論語言的穩(wěn)態(tài)[J].鄭州大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2008(02):105-109.
[2] Fukumoto F, Suzuki Y, Takasu A. Timeline adaptation for text classification[C]//Proceedings of ACM International Conference on Information & Knowledge Management. 2013: 1517-1520.
[3] Degaetanoortlieb S. Feature Discovery for Diachronic Register Analysis: a Semi-Automatic Approach[C]//Proceedings of International Conference on Language Resources and Evaluation (LREC′12). 2012: 2786-2790.
[4] 謝曉燕. 基于26年《深圳特區(qū)報》的穩(wěn)態(tài)詞語提取與考察研究[D]. 北京語言大學(xué)博士學(xué)位論文,2010.
[5] 荀恩東,饒高琦,肖曉悅,等. 大數(shù)據(jù)背景下BCC語料庫的研制[J]. 語料庫語言學(xué),2016,3(1): 93-118.
[6] 荀恩東,饒高琦,謝佳莉,等. 現(xiàn)代漢語詞匯歷時檢索系統(tǒng)與應(yīng)用研究[J],中文信息學(xué)報,2015(3): 169-176.
[7] K Sparck-Jones. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of documentation, 1972,28(1): 11-21.
[8] S E Robertson, K S Jones. Relevance weighting of search terms[J]. Journal of American Society of Information Science, 27(3): 129-146.
[9] C E Shannon, A mathematical theory of communication[J]. Bell System Technical Journal, 1948,27: 379-423,623-656.
[10] T M Cover,J A Thomas, Elements of Information Theory[M]. John Wiley & Sons, New Jersey.1991: 96-99.
[11] Xu Y, Jones G J F, Li J T, et al. A study on mutual information-based feature selection for text categorization[J]. Journal of Computational Information Systems, 2007, 3(3): 1007-1012.
[12] 顧益軍, 樊孝忠, 王建華,等. 中文停用詞表的自動選取[J]. 北京理工大學(xué)學(xué)報, 2005, 25(4): 337-340.
[13] 關(guān)高娃. 蒙古文停用詞和英文停用詞比較研究[J]. 中文信息學(xué)報, 2011, 25(4): 35-38.
[14] Lo T W, He B, Ounis I. Automatically Building a Stopword List for an Information Retrieval System.[J]. Journal of Digital Information Management, 2005, 3(1): 3-8.
[15] 馮志偉, 胡鳳國. 數(shù)理語言學(xué)[M]. 北京: 商務(wù)印書館, 2012: 255.
[16] I Rosengren. The quantitive concept of language and its relation to the structure of frequency dictionaries[J]. Etudes de Linguistiques Applique, 1971(1): 103-127.
[17] Huarui Zhang, Churen Huang, Shiwen Y. Distributional Consistency: A general method for defining a core lexicon[C]//Proceedings of International Conference on Language Resources and Evaluation (LREC′04),2004.
[18] 教育部語言文字信息管理司. 中國語言生活狀況報告[M],北京: 商務(wù)印書館,2015.
[19] Ian H Witten, Eibe Frank, Mark A Hall. Data Mining: Practical Machine Learning Tools and Techniques (3rd Edition)[M]. Burlington, Massachusetts: Press Morgan Kaufmann.2005: 151-162.
[20] 國家漢語水平考試委員會《漢語水平詞匯等級大綱》[M],北京: 經(jīng)濟科學(xué)出版社,2001.
Extraction and Investigation of State Steady Words from 70 Years Newspapers
RAO Gaoqi1,LI Yuming2
(1. Center for Studies of Chinese as a Second Language,Beijing Language and Culture University, Beijing 100083, China;2. Institute for Chinese Language Policies and Standards, Beijing Language and Culture University, Beijing 100083, China)
Based on the diachronic corpus of modern Chinese newspaper across 70 years, statistical measures are applied to detect the state-steady words. Altogether, 3 013 words are decided as the candidates according to their corpus coverage, time sensitivity and diachronic classification. Among them, verbs and nouns cover one third, respectively, and the rest consists of adjectives and function words. The average word length is 1.7 characters, distributed within top 7 609 in frequency list, and covering 90% of corpus. Basic morphemes and core words shape the features of the set in POS and length.
steady-state word; diachronic corpus; language monitoring
饒高琦(1987—),博士,主要研究領(lǐng)域為計算語言學(xué)、語言政策與語言規(guī)劃。E-mail:raogaoqi-fj@163.com李宇明(1955—),通信作者,教授,主要研究領(lǐng)域為語言學(xué)理論、語法學(xué)、兒童語言學(xué)與語言規(guī)劃。E-mail:liyum@263.net
1003-0077(2016)06-0049-10
2016-09-27 定稿日期: 2016-10-26
國家社科基金(12&ZD173);國家語委科研項目(YB125-42、ZDI135-3);863計劃重點項目(SQ2015AA0100074);國家社科基金(16AYY007);教育部人文社科重點研究基地重大項目(16JJD740004)
TP391
A