張 波
(遼寧師范大學(xué)管理學(xué)院,遼寧 大連 116021)
自從1986年,梁南元、劉源時(shí)首次將最大匹配法大規(guī)模運(yùn)用到中文自動(dòng)[1]分詞系統(tǒng)中以來(lái),人們便開(kāi)始研究其他的分詞算法。例如:逆向最大匹配法、最大匹配法、逐詞遍歷法、多遍掃描聯(lián)想法、高頻優(yōu)先分詞法、最佳匹配法、有窮多層次列舉法、設(shè)立切分標(biāo)志法、二次掃描法、直接匹配法和后綴匹配法、基于期望的分詞法、雙向掃描法等上百種。[2]分詞的算法可以分成兩類:一類是機(jī)械的分析算法,另一類是基于專家系統(tǒng)的算法。目前使用最多的還是機(jī)械分詞算法。機(jī)械算法有一個(gè)共同的特點(diǎn)就是將要切分的句子和詞典中的詞根進(jìn)行比較,若詞典中存在和匹配詞形同的詞根,則匹配成功,那么就可以以此為依據(jù)加以切分中文句子。由于自動(dòng)分詞在中文信息技術(shù)處理中所占的比重,吸引了無(wú)數(shù)的研究機(jī)構(gòu)展開(kāi)對(duì)中文分詞系統(tǒng)的實(shí)踐研究。國(guó)內(nèi)這方面做的比較好的研究機(jī)構(gòu)主要有北京航空航天大學(xué)的CDWS文字系統(tǒng)、清華大學(xué)SEGTAG制度、哈工大分詞系統(tǒng)、北大詞計(jì)算系統(tǒng)。[3]
1.2.1 現(xiàn)有中文分詞的特點(diǎn)
從現(xiàn)有的分詞系統(tǒng)來(lái)看,主要有3種分詞算法:機(jī)械匹配法、統(tǒng)計(jì)語(yǔ)言模型算法和理解式分詞算法也叫專家系統(tǒng)法。
①在機(jī)械式分詞算法中,需要大量詞語(yǔ)形成的詞典來(lái)加以支撐。詞典的容量決定了分詞的準(zhǔn)確程度。但是隨著詞典的不斷加大和不斷地對(duì)詞典進(jìn)行查詢匹配,查詢和匹配速度就會(huì)下降。另外,這種分詞算法對(duì)新詞的識(shí)別也是有限的,如果詞典中的詞語(yǔ)不很完善,那么分詞的準(zhǔn)確率勢(shì)必會(huì)受到影響。
②在統(tǒng)計(jì)語(yǔ)言模型分詞算法中,因?yàn)闆](méi)有詞典的支撐,它主要是根據(jù)漢字與漢字相鄰出現(xiàn)的概率反映成詞的可行度,從而根據(jù)統(tǒng)計(jì)的信息來(lái)進(jìn)行分詞。但是它對(duì)于常用詞也進(jìn)行統(tǒng)計(jì),系統(tǒng)開(kāi)銷比較大,除此之外,對(duì)一些出現(xiàn)頻率高的詞語(yǔ)也進(jìn)行了切分。
③理解式分詞也叫人工智能分詞,通過(guò)計(jì)算機(jī)對(duì)句子的理解,從而達(dá)到識(shí)別詞語(yǔ)的結(jié)果。它需要的不僅有語(yǔ)料庫(kù),還有大量的規(guī)則庫(kù)和人工智能推理邏輯運(yùn)算規(guī)則。到目前為止,基于理解的分詞系統(tǒng)還處于研究階段。
1.2.2 造成中文分詞困難的主要原因
①社會(huì)的不斷變化,詞語(yǔ)的不斷更新。在社會(huì)不斷發(fā)展變化的過(guò)程中,新式詞語(yǔ)也隨著社會(huì)的進(jìn)展而發(fā)展。比如舊詞賦新意或者新詞的出現(xiàn)。從而引起詞典數(shù)量的不斷變化,而這種變化除了以增加詞典的總量來(lái)處理之外,沒(méi)有其他更好的辦法。增加詞典的容量就增加了詞的查詢速度。而在機(jī)械切詞過(guò)程中必須以詞典來(lái)支撐,所以就必須根據(jù)詞語(yǔ)的增加速度來(lái)增加詞典的容量。這就給機(jī)械分詞加大了難度。
②漢語(yǔ)歧義難以消除。在機(jī)械分詞算法中,最大匹配法和逆向最大匹配法雖然能從一定程度上消除歧義,但是對(duì)于更加復(fù)雜的語(yǔ)境來(lái)說(shuō),其作用也是微乎其微的。于是人們開(kāi)始研究專家分詞系統(tǒng),專家系統(tǒng)理論上可以消除一切歧義,但是在實(shí)際中,其實(shí)施并不是盡善盡美的。因?yàn)闈h語(yǔ)的詞語(yǔ)涵義豐富,這就需要計(jì)算機(jī)分詞系統(tǒng)可以根據(jù)上下文,甚至整篇文章來(lái)加以理解和區(qū)分。這種工作量是現(xiàn)有的分詞系統(tǒng)所不能勝任的。
在傳統(tǒng)的分詞處理過(guò)程中,對(duì)文本的分詞都是在文本格式的基礎(chǔ)上加以切分的,所有的處理過(guò)程都集中在期刊論文變?yōu)殡娮佑?jì)算機(jī)處理的電子格式之后。由于在電子論文格式中,現(xiàn)有分詞系統(tǒng)對(duì)分詞的切分存在準(zhǔn)確度和歧義消除方面的障礙,因此,我們得出前饋控制實(shí)質(zhì)就是對(duì)要加以分詞的期刊論文或其他信息資料進(jìn)行控制,也就是在自動(dòng)分詞之前就對(duì)期刊論文加以處理,即在切分詞句子前,就已經(jīng)把所要切分的論文在將要切分的位置標(biāo)明了切分符號(hào)。
2.2.1 理論背景
①詞語(yǔ)是進(jìn)行一切分析的前提。雖然對(duì)字進(jìn)行處理是再好不過(guò)的,但是在計(jì)算機(jī)處理信息的過(guò)程中,往往是對(duì)詞語(yǔ)進(jìn)行處理的,因此找出詞與詞之間的分隔符是至關(guān)重要的。在文本的分詞過(guò)程中,對(duì)整個(gè)文本加以切分,實(shí)際上就是以段進(jìn)行切分,而段的切分可以用回車符來(lái)加以切分;對(duì)于句的切分可以用漢語(yǔ)標(biāo)點(diǎn)符號(hào)來(lái)進(jìn)行切分;那么對(duì)于句的切分實(shí)質(zhì)就是對(duì)詞語(yǔ)進(jìn)行切分。②事物分析的準(zhǔn)確率、對(duì)事物進(jìn)行的控制和控制的復(fù)雜度三者之間的相互制衡關(guān)系。對(duì)信息的控制度越高,那么對(duì)信息的分析準(zhǔn)確率也就越高,然而對(duì)控制所付出的工作量也越大;反之,對(duì)信息控制度比較低,那么對(duì)信息分析的準(zhǔn)確率也低,對(duì)信息的控制工作量也隨之減少。對(duì)信息的控制度和分析的準(zhǔn)確率成正比關(guān)系,和對(duì)控制的工作量也成正比關(guān)系。在準(zhǔn)確率曲線和工作量曲線有一個(gè)交點(diǎn),雖然元數(shù)據(jù)對(duì)信息進(jìn)行了大量的控制,在一定程度上提高了檢索率和分析信息的準(zhǔn)確率,但是在元數(shù)據(jù)的形成單位中,仍然存在著遵從分詞的步驟進(jìn)行切分,故為了進(jìn)一步提高分詞效率,筆者認(rèn)為此交點(diǎn)不是對(duì)元數(shù)據(jù)進(jìn)行控制,而應(yīng)該更進(jìn)一步,對(duì)形成信息的詞語(yǔ)進(jìn)行控制,如圖1。③人工智能不可能在沒(méi)有人為干涉的情況下獨(dú)自進(jìn)行信息的接受、處理和輸出工作,它只能無(wú)限接近于為人腦進(jìn)行服務(wù)和替代,見(jiàn)圖2。即人工智能不能對(duì)自然語(yǔ)言進(jìn)行分析和處理,不可能直接越過(guò)對(duì)詞語(yǔ)的理解,就可以達(dá)到對(duì)句子的理解。我們對(duì)詞語(yǔ)進(jìn)行切分,主要的目的是對(duì)句子進(jìn)行理解,然而現(xiàn)在的情況卻與事實(shí)相反,形成了矛盾。所以說(shuō)人工智能的分詞算法在理論上是站不住腳的。
圖1
圖2
2.2.2 實(shí)踐背景
由于文本的格式多種多樣,這里我們以鍵盤輸入型的.doc文本格式來(lái)進(jìn)行說(shuō)明。在作者向計(jì)算機(jī).doc文本輸入漢字的過(guò)程中,文本的作者必須要在句子的詞語(yǔ)分割處標(biāo)明分割符號(hào),但是這種分隔符號(hào)不加以顯示。這樣,在計(jì)算機(jī)進(jìn)行分詞的時(shí)候就可以減少對(duì)詞典、語(yǔ)料庫(kù)、語(yǔ)言規(guī)則等多方面因素的依賴,同時(shí)可以直接進(jìn)行和英文一樣的分詞算法。英文是以空格為分隔符的,而我們現(xiàn)在就以自定義的分隔符為分詞界定符。例如:“農(nóng)業(yè)和服務(wù)業(yè)是兩個(gè)不同的行業(yè)”這段文字。
如果這段文字運(yùn)用現(xiàn)有的分詞算法,例如概率統(tǒng)計(jì)算法,在進(jìn)行“和”字分割時(shí),計(jì)算機(jī)對(duì)詞典中的“和”為首字母的詞語(yǔ)進(jìn)行統(tǒng)計(jì),得到以“和”為首字的詞語(yǔ)有“和服”、“和平”、“和氣”等詞語(yǔ),那么計(jì)算機(jī)會(huì)把這句話的“和服”和詞典中的“和服”進(jìn)行比較,如果在這里比較成功,計(jì)算機(jī)就會(huì)在“服”字的后面加分隔符。那么這句話就可能被分割為:農(nóng)業(yè)/和服/務(wù)業(yè)/是/兩個(gè)/不同/行業(yè)。顯然,這樣的分詞是錯(cuò)誤的。為了克服這種錯(cuò)誤,計(jì)算機(jī)采取了逆向匹配法。在逆向匹配法的幫助下,計(jì)算機(jī)結(jié)合正向匹配和逆向匹配,可以正確地對(duì)這句話進(jìn)行切分,同時(shí)也會(huì)浪費(fèi)很多計(jì)算時(shí)間。如果在句子輸入計(jì)算機(jī)的同時(shí),作者設(shè)定好句子的分隔符,那么分詞的過(guò)程就簡(jiǎn)單方便多了。因此我們認(rèn)為以后切分詞語(yǔ)的重點(diǎn)應(yīng)該放在文獻(xiàn)生成之前,而不是放在文獻(xiàn)生成之后,用大量的語(yǔ)料庫(kù)、規(guī)則庫(kù)和詞典以及一大堆算法來(lái)加以切分。
①個(gè)人產(chǎn)生信息資料是網(wǎng)絡(luò)信息資料的組成部分。在信息交流的過(guò)程中,個(gè)人既有可能是信息的生產(chǎn)者,也有可能是信息的消費(fèi)者。尤其在網(wǎng)絡(luò)中的電子信息,它們都是由個(gè)人信息集合而成的。
②個(gè)人信息相對(duì)于網(wǎng)絡(luò)信息來(lái)說(shuō)是有限的。在浩瀚的網(wǎng)絡(luò)信息中,如果是對(duì)所有的信息進(jìn)行分隔符標(biāo)引,對(duì)于任何人來(lái)說(shuō),都是不可能的,除非進(jìn)行自動(dòng)分割,然而就是由于自動(dòng)分割的準(zhǔn)確率和速度不是很高,我們才提出了個(gè)人進(jìn)行分隔符標(biāo)引的思路。由于個(gè)人所產(chǎn)生的信息對(duì)于網(wǎng)絡(luò)浩瀚的信息來(lái)說(shuō)是微乎其微的,那么在時(shí)間上和操作的復(fù)雜性上,就為個(gè)人進(jìn)行分隔符標(biāo)引提供了可能。
③個(gè)人對(duì)于自己產(chǎn)生的信息比較了解。計(jì)算機(jī)在進(jìn)行分割的過(guò)程中,是運(yùn)用詞典、語(yǔ)料庫(kù)、規(guī)則庫(kù)或者專家系統(tǒng)來(lái)進(jìn)行的。專家系統(tǒng)雖然能對(duì)分割的句子進(jìn)行理解和切分,但由于漢語(yǔ)的復(fù)雜性,存在著很大的困難。個(gè)人是信息的產(chǎn)生者,那么個(gè)人對(duì)于自己產(chǎn)生的信息是相對(duì)熟悉和深刻的,在進(jìn)行分隔符標(biāo)引時(shí),更能準(zhǔn)確地加以切割。
3.2.1 對(duì)全文進(jìn)行切分標(biāo)志策略
在全文的標(biāo)志策略中,不僅僅要對(duì)論文的征文部分進(jìn)行切分標(biāo)志,同時(shí)也要對(duì)論文的文摘部分、引言部分進(jìn)行標(biāo)志。文摘是一篇論文的濃縮,里面涵蓋了論文的主要內(nèi)容,對(duì)文摘的切分標(biāo)志可以很好地提高查準(zhǔn)率和查全率。論文的作者如果時(shí)間有限,對(duì)論文的全文部分可以進(jìn)行大概的切分標(biāo)志,但是對(duì)于論文的文摘部分必須像寫(xiě)論文文摘一樣加以重視,必須保證人為切分的準(zhǔn)確性。
3.2.2 對(duì)全文的一級(jí)標(biāo)題進(jìn)行先索引后標(biāo)志的策略
對(duì)全文進(jìn)行索引也就是對(duì)文獻(xiàn)的文摘部分、網(wǎng)頁(yè)的超鏈接部分,或是文獻(xiàn)每段的大標(biāo)題、網(wǎng)頁(yè)的標(biāo)題等進(jìn)行標(biāo)志,其索引的對(duì)象是句子而不是詞語(yǔ)。所謂的索引,也就是文獻(xiàn)的目錄,只是比普通的目錄要復(fù)雜些,就是為了以后對(duì)標(biāo)引和檢索做準(zhǔn)備的。
3.2.3 對(duì)全文的二級(jí)標(biāo)題進(jìn)行先索引和標(biāo)志的策略
為了提高用戶的查全率,除了必須對(duì)相關(guān)主題的整篇論文進(jìn)行查找之外,還應(yīng)對(duì)在論文主題的一級(jí)標(biāo)題或者二級(jí)標(biāo)題進(jìn)行查找。對(duì)信息的二級(jí)標(biāo)題進(jìn)行標(biāo)志,有助于提高文獻(xiàn)的查全率。因?yàn)獒槍?duì)某個(gè)主題,有些論文是專門進(jìn)行敘述的,而有些論文則是把這個(gè)主題放在另一個(gè)比較大的主題之下來(lái)加以敘述的,因此對(duì)二級(jí)標(biāo)題的標(biāo)志既可以提高查全率,又可以減少標(biāo)志的工作量。
3.2.4 對(duì)文章的段首和段尾進(jìn)行標(biāo)志的策略
除了對(duì)文章的二級(jí)標(biāo)題進(jìn)行標(biāo)志之外,為了進(jìn)一步提高標(biāo)志的準(zhǔn)確性,我們可以對(duì)文章的段首和段尾進(jìn)行標(biāo)志,主要目的就是減少標(biāo)志的工作量。根據(jù)語(yǔ)言學(xué)的特點(diǎn),段首往往是某段的中心的概括,但是有些時(shí)候,整段的中心意思不一定在段首,很有可能也在段尾,所以我們?cè)跇?biāo)志的過(guò)程中,對(duì)段尾也要進(jìn)行標(biāo)志。這樣既可以減少工作量,又可以提高標(biāo)志的準(zhǔn)確度。
在傳統(tǒng)的分詞算法中,都要使用到詞典、規(guī)則庫(kù)、語(yǔ)料庫(kù)和邏輯規(guī)則等,但是由于傳統(tǒng)的算法不能克服未登錄新詞、歧義消除等難題,所以我們提出對(duì)將要分割的句子進(jìn)行前饋標(biāo)志。其優(yōu)點(diǎn)如下:
①不使用詞典。在傳統(tǒng)的分詞算法中,對(duì)詞語(yǔ)的切分是依靠詞典來(lái)進(jìn)行分割的,如果詞典中存在的詞語(yǔ)與句子中所包含的詞語(yǔ)完全相同,那么在句子中則把該詞語(yǔ)和其他詞語(yǔ)切分開(kāi)來(lái)。但是由于在前饋控制中,我們已經(jīng)在形成句子的詞語(yǔ)中加入了分隔符,那么就可以直接對(duì)句子中的詞語(yǔ)根據(jù)分隔符來(lái)進(jìn)行處理和分析,完全省去了句子中的先查詢?cè)~典,然后再和句子中詞語(yǔ)進(jìn)行匹配的過(guò)程,提高了切分效率。
②有效地克服了歧義。在傳統(tǒng)的分詞算法中,不論是機(jī)械的分詞算法還是基于統(tǒng)計(jì)方法的分詞算法,都不能很好地克服切分的歧義問(wèn)題。盡管在專家系統(tǒng)中可以很好地對(duì)歧義進(jìn)行處理,但是專家系統(tǒng)目前還處于試驗(yàn)階段,且遠(yuǎn)遠(yuǎn)不能達(dá)到歧義的完全消除。同理,在前饋控制中,所有的分隔符已經(jīng)完全標(biāo)清,但是必須能保證前饋控制的分隔符是非常準(zhǔn)確的,這是基于個(gè)人是信息的生產(chǎn)者來(lái)假設(shè)的。
③不使用規(guī)則庫(kù)和語(yǔ)料庫(kù)。在人工智能的分詞算法中,雖然沒(méi)有對(duì)詞典有更高的要求,但是對(duì)于規(guī)則庫(kù)和語(yǔ)料庫(kù),甚至推理邏輯規(guī)則庫(kù)都有非常高的要求。因?yàn)槿斯ぶ悄芊衷~系統(tǒng)是模仿人腦的思維方式來(lái)切分詞語(yǔ)的。這就要求在規(guī)則庫(kù)、語(yǔ)料庫(kù)和將要切分的句子之間進(jìn)行頻繁的查詢和匹配,并且根據(jù)神經(jīng)網(wǎng)絡(luò)對(duì)詞語(yǔ)進(jìn)行分析,然后得出結(jié)論。
4.2.1 實(shí)施過(guò)程在時(shí)間上的可行性
在自動(dòng)信息處理的過(guò)程中,對(duì)于中文的信息處理過(guò)程來(lái)說(shuō),詞語(yǔ)切分是一切的前提,如果在第一步對(duì)于詞語(yǔ)的切分就沒(méi)有得當(dāng),那么對(duì)于以后的信息標(biāo)引就會(huì)造成一定的困難,直接影響到信息檢索的效果,降低查全率和查準(zhǔn)率。從對(duì)信息的標(biāo)引開(kāi)始,到對(duì)詞語(yǔ)的處理,一共經(jīng)歷了兩個(gè)階段。在第一階段,主要是對(duì)論文進(jìn)行前饋控制,即有選擇地對(duì)全文進(jìn)行詞語(yǔ)切分、對(duì)一級(jí)標(biāo)題、二級(jí)標(biāo)題進(jìn)行切分、對(duì)段首和段尾進(jìn)行切分等策略。在這一階段,由于個(gè)人是信息的直接生產(chǎn)者,那么對(duì)于信息所包含的信息量是比較熟悉的,容易進(jìn)行詞語(yǔ)的切分。在這段時(shí)間里,因?yàn)榛旧蠈儆谌斯た刂?,所以不能用時(shí)間復(fù)雜度來(lái)進(jìn)行測(cè)量。在第二階段,就是對(duì)詞語(yǔ)進(jìn)行處理,因?yàn)樗械脑~語(yǔ)已經(jīng)經(jīng)過(guò)了切分這一環(huán)節(jié),所以可以直接根據(jù)標(biāo)志符號(hào)來(lái)進(jìn)行對(duì)詞語(yǔ)的查詢處理,其時(shí)間復(fù)雜度為 O(n)。
4.2.2 實(shí)施過(guò)程在空間上的可行性
①在前饋控制中,因?yàn)榉衷~是基于個(gè)人信息的,所以需要有一定的輔助軟件來(lái)提高分詞的質(zhì)量水平。具體做法是:首先,設(shè)計(jì)一款軟件,使該軟件可以對(duì)即將提交的論文進(jìn)行切割符的檢查,這種檢查和監(jiān)督僅僅針對(duì)個(gè)人或機(jī)構(gòu)是否對(duì)所提交的論文進(jìn)行了分隔符的標(biāo)志,這種檢查完全是由軟件來(lái)進(jìn)行的。其次,我們應(yīng)該再以人工監(jiān)督的方法對(duì)分隔符進(jìn)行檢查,但是此次檢查和監(jiān)督并不是針對(duì)全文進(jìn)行的,而是針對(duì)題目、一級(jí)標(biāo)題、二級(jí)標(biāo)題以及段首段尾來(lái)進(jìn)行監(jiān)督。因?yàn)榇舜稳斯z查是若干人對(duì)大量的論文進(jìn)行分隔符檢查,沒(méi)有大量的時(shí)間來(lái)進(jìn)行此項(xiàng)工作。②在論文投遞給編輯之后,編輯需要對(duì)所投遞的論文進(jìn)行評(píng)估,決定是否可以進(jìn)行論文的發(fā)表和電子化。因此在編輯審核該論文的過(guò)程中,需要對(duì)全文進(jìn)行閱讀,同時(shí)對(duì)分隔符進(jìn)行一定的檢查和審核。
在此過(guò)程中,筆者只是針對(duì)傳統(tǒng)分詞的特點(diǎn),從另一個(gè)角度提出了詞語(yǔ)的切分方法,此方法雖然在一定程度上加大了人工的工作量,但是從信息處理的整個(gè)過(guò)程來(lái)看,還是值得借鑒的。因?yàn)樗朔藗鹘y(tǒng)分詞的缺點(diǎn),如使用字典、使用規(guī)則庫(kù)、使用語(yǔ)料庫(kù)等,并且克服了歧義,最主要的是為以后的信息處理提供了保障。但對(duì)于一些具體的細(xì)節(jié)問(wèn)題,如定義切分標(biāo)志符號(hào)、切分符號(hào)的監(jiān)督等應(yīng)用過(guò)程,沒(méi)有進(jìn)行具體的介紹。筆者的主要目的是希望這種思想可以起到拋磚引玉的作用并得到進(jìn)一步研究。
[1] 王萬(wàn)超.鄭州電視臺(tái)中文自動(dòng)分詞系統(tǒng)研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2009.
[2] 許榮榮.中文文本自動(dòng)分詞技術(shù)與算法研究[D].鄭州:鄭州大學(xué),2010.
[3] 柴寶杰.中文自動(dòng)分詞若干技術(shù)的研究[D].石家莊:燕山大學(xué),2007.