張 燕,張 揚(yáng),孫茂松
(1. 清華大學(xué) 計(jì)算機(jī)系,北京 100084;2. 搜狗科技公司,北京 100084)
方言詞匯研究是方言研究的一個(gè)重要方面,其中方言詞匯的識別是方言詞匯研究的首要環(huán)節(jié)。方言詞匯研究在語言學(xué)研究、信息檢索、機(jī)器翻譯、刑事偵查等方面都有重要的應(yīng)用價(jià)值[1]。但目前方言詞匯研究的語料收集工作主要依賴于專家的人工整理[2-3],這一工作需要耗費(fèi)大量的時(shí)間和精力。信息技術(shù)的不斷發(fā)展,特別是中文輸入法的廣泛應(yīng)用,為人們?nèi)粘5木W(wǎng)絡(luò)交流帶來很大便捷,而輸入法中所記錄的用戶行為,特別是帶有用戶地理信息的輸入記錄,能夠反映出不同地域用戶的語言使用習(xí)慣及地域相關(guān)詞匯的特征?;诖耍疚闹形覀冎饕紤]借助中文拼音輸入法的記錄來自動(dòng)發(fā)現(xiàn)漢語方言詞匯,為漢語方言詞匯研究提供語料庫。
圖1 輸入法用戶記錄示例
圖1中的數(shù)據(jù)是某中文拼音輸入法記錄的一段用戶輸入行為。從圖中我們可以看出,用戶的輸入記錄中包含用戶的地理信息(即用戶的IP地址)、拼音選詞習(xí)慣、錄入習(xí)慣以及使用環(huán)境(即調(diào)用拼音輸入法的應(yīng)用程序)。通過用戶的IP信息,我們可以根據(jù)IP地址庫來確定用戶所在的地理位置,而這樣的地理位置是我們賴以發(fā)現(xiàn)漢語方言詞匯的重要數(shù)據(jù)依據(jù)。
由于中文輸入法可以自動(dòng)記錄用戶的輸入行為,不需要用戶的主動(dòng)參與即可采集到大量的方言詞匯數(shù)據(jù),從而為方言研究提供大規(guī)模語料。然而目前在研究界,少有利用中文輸入法數(shù)據(jù)來進(jìn)行方言研究的,只有鄭亞斌等人[4]的工作在中文輸入法數(shù)據(jù)的基礎(chǔ)上研究了中文的地域相關(guān)詞條,主要目的為擴(kuò)充中文輸入法詞庫,并非針對中文方言詞匯進(jìn)行自動(dòng)發(fā)現(xiàn)。
本文正是基于這樣的考慮,試圖通過輸入法數(shù)據(jù)中的用戶行為,來分析現(xiàn)代漢語在使用過程中所體現(xiàn)出的地域分布性質(zhì),從而自動(dòng)發(fā)現(xiàn)漢語方言詞匯并研究其時(shí)空分布。本文的主要貢獻(xiàn)是: 1)我們提出了一種通過中文拼音輸入法中記錄的用戶行為信息來發(fā)現(xiàn)并分析漢語方言詞匯的方法;2)我們基于人工標(biāo)注的方言語料分析了地理信息、使用環(huán)境等特征及其特征組合對識別漢語方言詞匯的影響;3)我們將分析得到的有效特征組合通過特征排序的方法獲得了全國各地域的方言詞表。
本文的主要安排如下: 首先在第2節(jié)根據(jù)標(biāo)注語料庫來確定數(shù)據(jù)的歸一化等預(yù)處理,對語料庫中的詞條進(jìn)行向量化處理,獲得漢語詞條的地理信息、時(shí)間信息、使用頻度信息等;在第3節(jié),分析并提取標(biāo)注語料的特征并驗(yàn)證其有效性;最后,在第4節(jié)對有效特征進(jìn)行融合通過排序的方法獲得全國各地域的方言詞匯。
2.1 漢語方言詞匯的概念及特征 漢語方言詞匯是基于現(xiàn)代漢語詞匯的橫向比較研究而產(chǎn)生的,是語言的地域變體[3,5]。方言是一定區(qū)域內(nèi)的交流工具,因此方言詞匯的使用頻度在地域分布上具有區(qū)內(nèi)較高、區(qū)外較低的特征,且由于方言多在日常交流中使用,方言詞匯的口語化程度較高[6],所以我們主要通過地域分布以及口語化程度這兩個(gè)特點(diǎn)來考察方言詞匯。
2.2中文拼音輸入法用戶記錄
由于中文輸入法數(shù)據(jù)可以提供詞匯的使用頻度,故我們可以定量分析方言詞匯的地域分布特點(diǎn)以及口語化程度,進(jìn)而根據(jù)這兩個(gè)特點(diǎn)來識別方言詞匯。圖1中給出了一段具體的輸入法用戶記錄,由此記錄我們可以獲得以下信息: 用戶輸入的詞條,用戶的錄入時(shí)間,用戶調(diào)用輸入法的應(yīng)用程序,以及用戶的IP地址。大量的用戶輸入記錄可以獲得中文詞條在各地域的輸入頻度,以及在不同的應(yīng)用程序中使用的頻度。其中詞條在各地域的輸入頻度可用以描述詞條在地域分布上的特征,而詞條在不同的應(yīng)用程序中的使用頻度則可以描述詞條的口語化程度,即在以使用口語為主的程序中出現(xiàn)頻度較高的詞條則口語化程度相對較高。由于我們的輸入法數(shù)據(jù)包含了全國共34個(gè)省級地域的用戶記錄,所以每一個(gè)詞條均可以獲得一個(gè)34維的地域分布特征相關(guān)的向量,而用戶調(diào)用中文輸入法的應(yīng)用程序數(shù)目較多,我們僅選取有代表性的頻率最高的前100個(gè)應(yīng)用程序,每一個(gè)應(yīng)用程序可以根據(jù)其主要作用標(biāo)注為口語型或書面語型應(yīng)用程序,例如“iexplore.exe”是瀏覽器程序,我們將其標(biāo)注為書面語型的應(yīng)用程序,而“QQ.exe”是即時(shí)通訊軟件,多用于用戶之間的日常交流,故我們標(biāo)注其為口語型應(yīng)用程序。
對數(shù)據(jù)集中的每個(gè)詞條,我們均可以獲得一個(gè)34維的地域分布向量,以及一個(gè)100維的用以衡量詞條口語化程度的向量。方便起見,我們記錄該詞條為,分別根據(jù)該詞條在全國34個(gè)省級地域的使用頻度、在100個(gè)應(yīng)用程序中的輸入頻度這兩類特征,生成一個(gè)包含134個(gè)特征值的向量,可以參考圖2中的表示。
圖2 詞條“差頭(出租車)”的向量化表示
2.3方言詞匯在中文拼音輸入法數(shù)據(jù)中的特點(diǎn)
如上所述,方言詞匯的使用頻度在地域分布上具有區(qū)內(nèi)較高、區(qū)外較低的特征,并且在口語中較常使用,而在書面語中出現(xiàn)較少。根據(jù)這一特征,我們分別列舉了“差頭(出租車)”、“水門汀(水泥)”、“新閘路”這3個(gè)詞條在全國34個(gè)省級地域的頻度分布及其在100個(gè)應(yīng)用程序中的輸入頻度,參考圖3。
圖3 詞條“差頭(出租車)”、“水門汀(水泥)”、“新閘路” (a) 在各省級地域的輸入頻度; (b) 在各應(yīng)用程序中的輸入頻度
圖3中的左圖,自上而下分別是“差頭(出租車)”、“水門汀(水泥)”、“新閘路”這3個(gè)詞條在全國34個(gè)省級區(qū)域的分布,可以看出,這3個(gè)詞條均在上海地區(qū)(橫坐標(biāo)為6)時(shí)達(dá)到峰值,這與實(shí)際情況是相符的。因?yàn)椤安铑^”與“水門汀”均屬洋涇浜英語,在上海地區(qū)使用人數(shù)最多,而在其余省級地域很少使用,這兩個(gè)詞條可以通過地域分布特征提取出來,而“新閘路”屬于上海的地名,但并不是上海地區(qū)的方言詞匯,雖然其只在上海地區(qū)使用,但單純通過地域特征計(jì)算會(huì)混淆在上海方言詞匯中而被提取出來,這本質(zhì)上是區(qū)分地域詞匯和方言的困難所致。圖3中的右圖,自上而下分別給出了上述3個(gè)詞條在100個(gè)應(yīng)用程序中的輸入頻度,其中虛線左部為口語化應(yīng)用程序,而右部為書面語型應(yīng)用程序。從右圖中可以看出,由于“新閘路”為地名,除去其在口語化應(yīng)用程序中會(huì)出現(xiàn)之外,在書面語型的應(yīng)用程序中也會(huì)出現(xiàn),而且頻度甚至比在口語化應(yīng)用程序中出現(xiàn)的更多,故我們可以考慮通過應(yīng)用程序的口語化程度來過濾部分地名。受本例啟發(fā),我們試圖通過選擇合適的詞條特征來鑒別方言詞匯。下面我們給出中文拼音輸入法記錄中的漢語詞條地域分布特征及口語化程度的分析及計(jì)算。
3.1特征分析及其計(jì)算 如前所述,方言詞匯的使用頻度在地域分布上具有區(qū)內(nèi)較高、區(qū)外較低的特征,據(jù)此,我們對方言詞匯在各省級地域上的頻度分布以及在100個(gè)應(yīng)用程序中的輸入頻度分別進(jìn)行了統(tǒng)計(jì),歸納得到兩類特征,用以辨識詞條是否屬于地域 的方言詞匯。表1是對這兩類特征的說明。其中,概率比的特征PRL是對應(yīng)“地理區(qū)域性”的,而口語化程度的計(jì)算則是在應(yīng)用程序中的輸入頻度基礎(chǔ)上進(jìn)行的,即不同應(yīng)用程序中的頻率概率比PRP。具體的每個(gè)特征的表征意義參考表1。
表1特征說明
表示符號說明特點(diǎn)PRL不同地域內(nèi)的頻度概率比詞條在該地域多而其余地域少PRP不同應(yīng)用程序中的頻度概率比詞條口語中使用較多而書面語中較少
表1中所列的特征,計(jì)算如下:
1) 特征PRL主要用以判斷詞條是否屬于某地域l的相關(guān)詞條,假設(shè)給定詞條w的歸一化特征向量為v,該特征的計(jì)算如式(1)所示。
其中,PRL表示的是詞條w在地域l中的分布概率與其在地域l之外的地域(即公式中的l-)分布的概率之比,此值越大,則表明詞條w屬于地域l的方言詞匯的可能性越大。2) 特征PRP主要用以判斷詞條是否屬于口語化詞匯,因?yàn)榉窖栽~匯在口語化的應(yīng)用程序中使用較多,而在書面語的應(yīng)用程序中使用較少,所以我們通過計(jì)算詞條在不同類型的應(yīng)用程序中的頻度分布概率比來度量詞條屬于方言詞匯的可能性,其計(jì)算方法如式(2)所示。
其中,PRP描述的是詞條w在口語化應(yīng)用程序(即公式中的p+)中使用的概率與書面語應(yīng)用程序(即公式中的p-)中的概率之比,比值越大,越能說明詞條w是方言詞匯的可能性較大。
3.2特征組合
由上面的計(jì)算公式可以看出,兩部分的特征可以統(tǒng)一看作詞條w屬于某地域l的概率比,以及屬于口語化詞匯的概率比,這兩類特征可以看作是概率比公式的統(tǒng)一計(jì)算,而且兩者的取值范圍均在 [0,1] 之間,故我們考慮通過加權(quán)調(diào)和平均的特征組合方式來考察兩種特征對于方言詞匯自動(dòng)識別的貢獻(xiàn)。我們分別假設(shè)兩種特征的權(quán)重為α和1-α,對上述2種特征進(jìn)行組合,參見式(3)。在下面的實(shí)驗(yàn)部分我們考察了權(quán)重參數(shù)α對實(shí)驗(yàn)結(jié)果的影響。
式(3)中,參數(shù)α∈[0,1],用以調(diào)整特征PRL與特征PRP的權(quán)重,P(w)則用以表示w屬于方言詞匯的概率。我們通過對P(w)的排序來確定方言詞匯。
4.1數(shù)據(jù)描述 我們的輸入法數(shù)據(jù)是從搜狗拼音輸入法中獲得的2010.7.1~2010.7.7之間共7天的用戶輸入記錄,共約262GByte的數(shù)據(jù),過濾掉總頻度低于50的低頻詞條后,可以獲得輸入記錄的詞條數(shù)目為2478039,這些詞條作向量化處理后,最后得到2478039個(gè)134維向量的集合。為了對比漢語詞語的地域性,我們根據(jù)語言學(xué)專家提供的數(shù)據(jù)集,選取標(biāo)注了3個(gè)語料庫作為觀察數(shù)據(jù),包括: 北京方言[6]、上海方言[7]以及常用詞條[8]。針對這三個(gè)觀察數(shù)據(jù)集,我們可以獲得數(shù)據(jù)集中的詞條在搜狗拼音輸入法中的記錄。去除了總頻度低于50的低頻詞條之后的上海方言詞匯為169條,北京方言以及現(xiàn)代漢語常用三千詞在搜狗拼音輸入法中出現(xiàn)的詞條數(shù)則分別為3010和2565。 由于上海方言的詞匯集合較小,而北京方言及常用詞的數(shù)目較多,為了實(shí)驗(yàn)的可比性,我們最終選擇上海方言169條,隨機(jī)選取北京方言、常用詞條各200條,作為我們的標(biāo)注數(shù)據(jù)集,以觀測權(quán)重參數(shù)對實(shí)驗(yàn)結(jié)果的影響,從而指導(dǎo)未標(biāo)注集合上的方言詞匯識別。
4.2評價(jià)指標(biāo)
對于上文提到的兩種特征,我們將計(jì)算在不同的權(quán)重參數(shù)α下,這兩種特征在北京標(biāo)注方言與上海標(biāo)注方言數(shù)據(jù)集上的性能,為了評價(jià)我們提取的方言詞匯的準(zhǔn)確性,我們采用以下指標(biāo):
1) 前N個(gè)返回結(jié)果的準(zhǔn)確率(記為P@N)
其中,P@N[9]計(jì)算在返回的前N個(gè)最優(yōu)結(jié)果的準(zhǔn)確率,這一標(biāo)準(zhǔn)常用在信息檢索領(lǐng)域中來衡量檢索結(jié)果的準(zhǔn)確度。針對北京、上海方言的標(biāo)注集合,對于評價(jià)系統(tǒng)對北京標(biāo)注方言的返回性能,我們主要考慮P@10,P@20,P@50,P@100,P@200這5個(gè)指標(biāo),而對于評價(jià)上海標(biāo)注方言,由于我們標(biāo)注的上海方言詞匯在輸入法數(shù)據(jù)中僅有169個(gè)詞條有記錄,所以我們采用P@10,P@20,P@50,P@100,P@169這5個(gè)指標(biāo)。
2) 二元偏好值(記為Bpref)
根據(jù)文獻(xiàn)[10],Bpref用以評價(jià)返回結(jié)果中,正確詞條與非正確詞條的相對位置,主要用以評價(jià)系統(tǒng)能否將相關(guān)詞條在不相關(guān)詞條之前返回,其計(jì)算公式如式(4)所示。
其中n是排在r之前的正確的詞條的個(gè)數(shù)。對于Bpref的計(jì)算,我們選取R=200。
4.3權(quán)重參數(shù)的影響
針對北京及上海方言,我們計(jì)算了根據(jù)各地域總頻度進(jìn)行歸一化的情況下,標(biāo)注數(shù)據(jù)集合中北京、上海兩地方言詞匯,隨特征權(quán)重參數(shù)α變化的識別效果。具體情況參考圖4及圖5。
圖4 權(quán)重參數(shù)α對北京方言詞匯識別結(jié)果的影響 (a) P@200;(b) Bpref
圖5 權(quán)重參數(shù)α對上海方言詞匯識別結(jié)果的影響 (a) P@169; (b) Bpref
圖4中,左圖(a)以及右圖(b)中的曲線分別是權(quán)重參數(shù)α,在[0,1]之間按照步長0.1取不同的值時(shí),北京方言詞匯識別的Bpref和P@200的結(jié)果。各個(gè)子圖中的內(nèi)嵌圖是對大圖中最高取值區(qū)間的細(xì)分,左圖(a)中是在[0,0.1]之間按照步長0.01取不同的值時(shí),北京方言識別結(jié)果的Bpref值,而右圖則是P@200的值。同樣的,圖5中的左圖(a)與右圖(b)則分別是上海方言識結(jié)果的Bpref值與P@169的值。
綜合圖4、圖5中可以看出,當(dāng)α=0.08,在觀察數(shù)據(jù)上可以獲得的北京方言及上海方言詞匯的準(zhǔn)確率以及二元偏好值均較高,而且試驗(yàn)效果受地域分布相關(guān)特征PRL的影響較大,而口語化相關(guān)特征PRP則相對而言不是非常敏感。在此后的試驗(yàn)中,我們均采用設(shè)置權(quán)重參數(shù)α=0.08。由于試驗(yàn)結(jié)果受地域相關(guān)特征影響較大,所以對地域的更細(xì)劃分,會(huì)更有助于我們的試驗(yàn),這部分將作為我們下一步的工作繼續(xù)研究。
4.4實(shí)驗(yàn)結(jié)果及分析
根據(jù)標(biāo)注集合的評價(jià)結(jié)果,我們確定了特征組合方式及權(quán)重系數(shù),針對未標(biāo)注數(shù)據(jù),我們分別計(jì)算了全國34個(gè)地域的方言詞匯,并在表2中給出了6個(gè)方言區(qū)中的6個(gè)有代表性的地域上的方言檢測的前10個(gè)結(jié)果。在這里之所以沒有給出客家方言區(qū)的代表區(qū)域,是因?yàn)榭图曳窖缘姆植急容^復(fù)雜,集中分布在某幾個(gè)地區(qū)的某幾個(gè)區(qū)域,由于我們目前采用的地域分區(qū)只細(xì)分到省份,所以不能確切地給出客家方言的代表區(qū)域。從表2中可以看到各個(gè)代表地域檢測出的前10個(gè)方言詞匯,在不同的應(yīng)用程序及地域分布都是比較集中的。
表2 方言詞匯識別的結(jié)果
可以看出,我們的算法在南方的五大方言區(qū)的檢測效果較好,而在以北京地區(qū)為代表的北方方言的檢測效果最差。這是由于北京地域的方言與普通話的差異較小,要更好檢測出北京方言,還需要引入其他的特征,由于篇幅關(guān)系,我們下一步工作將詳細(xì)研究。
為了評測為標(biāo)注集合上各個(gè)特征的性能,我們選取了北京、上海、廣東三地各6組結(jié)果中的前200個(gè)返回結(jié)果進(jìn)行人工評測,根據(jù)4.2節(jié)給出的兩種評價(jià)標(biāo)準(zhǔn)統(tǒng)計(jì)了人工標(biāo)注的結(jié)果,參考圖6。其中可以看出,綜合考慮了地域相關(guān)的特征以及程序口語化特征的情況下,北京、上海、廣東這三個(gè)地區(qū)的方言檢測結(jié)果均比只考慮了地域相關(guān)特征的效果有明顯改善,特別是對北京、上海地區(qū)的方言,前200個(gè)返回結(jié)果中,能提高50%以上的效果。
同樣的,針對評價(jià)指標(biāo)Bpref的結(jié)果,表3中可以看出,兩種特征結(jié)果之后的檢測結(jié)果相比只考慮了地域相關(guān)特征的結(jié)果,在上海、廣東地區(qū),能提高90%以上,而在北京地區(qū)則能提高32%以上。這說明,兩種特征結(jié)合的效果優(yōu)于只考慮了地域相關(guān)特征的效果,因此再一次驗(yàn)證了引入輸入法記錄詞條的口語化相關(guān)的特征是必要的。
表3 北京、上海、廣東地區(qū)方言返回結(jié)果: Bpref
本文首先提出了一種利用中文拼音輸入法中記錄的用戶行為來識別并分析漢語方言詞匯的方法;基于此方法,我們對人工標(biāo)注的方言語料的特性進(jìn)行統(tǒng)計(jì),分析了地理信息、語言特征對漢語方言識別中的影響;最后我們通過交叉驗(yàn)證的方法來調(diào)節(jié)有效特征的權(quán)重參數(shù),對特征融合后通過排序的方法獲得了全國各地域的方言詞匯?;诒疚牡墓ぷ?,一旦獲得個(gè)地域方言詞匯庫,下一步我們可以對地域劃分得更細(xì),分析各地域方言的異同,從而對全國方言進(jìn)行更細(xì)的分區(qū)。
圖6 北京、上海、廣東地區(qū)方言返回結(jié)果
[1] 顧明亮,沈兆勇.基于語音配列的漢語方言辨識[J].中文信息學(xué)報(bào),2006,20(5):77-82.
[2] 李如龍.談漢語方言的比較研究——兼評《漢語方言大詞典》[J].辭書研究,2000,(4).
[3] 詹伯慧.漢語方言及方言調(diào)查[M].湖北教育出版社,2001.
[4] 鄭亞斌.中文用戶輸入法用戶行為分析及其應(yīng)用[D].清華大學(xué)博士學(xué)位論文,2011.
[5] 邢向東.關(guān)于深化漢語方言詞匯研究的思考[J].語言文字學(xué)研究,2007, (2):117-122.
[6] 董樹人.新編北京方言詞典[M].商務(wù)印書館,2010.
[7] 李慶鴻.上海話托福(常用詞匯)[M].學(xué)林出版社,2010.
[8] 鄭林曦.普通話三千常用詞表[M].1987,文字改革出版社.
[9] Yates R, Neto B. Modern information retrieval[M]. Addison-Wesley Longman Publishing Co.,Inc., 1999.
[10] Buckley C,Voorhees E. Retrieval evaluation with incomplete information[C]//Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM, 2004.25-32.