趙濤,張?zhí)t(新疆農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052)
?
農(nóng)業(yè)搜索引擎中文分詞工具對比①
趙濤,張?zhí)t
(新疆農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052)
摘 要:中文分詞是中文語言處理技術(shù)中最關(guān)鍵的部分,被作為其中最重要的預(yù)處理手段廣泛應(yīng)用.本文主要分析和比較了ASPSeek、ICTCLAS、Paoding、MMseg、IK與JE六種分詞工具對農(nóng)業(yè)搜索引擎的影響.結(jié)果表明: 在農(nóng)業(yè)搜索引擎的應(yīng)用效果中,分詞準(zhǔn)確性最優(yōu)的是ICTCLAS分詞工具,而F1測度最高的是JE分詞工具.
關(guān)鍵詞:中文分詞; 分詞工具; 農(nóng)業(yè)搜索引擎
信息化建設(shè)的飛速發(fā)展,使得互聯(lián)網(wǎng)上的信息迅速增長.為了能夠及時(shí)準(zhǔn)確的獲取網(wǎng)頁上的信息,搜索引擎便成為人們快速查找信息和資源的重要手段.但目前的搜索引擎主要采用基于關(guān)鍵字的查詢,而關(guān)鍵字的簡單組合不能明確表述用戶的查詢意圖,這一問題已成為制約搜索引擎性能提高的瓶頸之一.由于漢語本身的特點(diǎn),必須引入對于中文語言的處理技術(shù),而中文分詞技術(shù)就是其中很關(guān)鍵的部分.目前為止,還沒有完全正確的分詞技術(shù),網(wǎng)絡(luò)是由無數(shù)張網(wǎng)頁組成,其內(nèi)容無比龐大,對分詞方法的要求就更高.那么,這一影響究竟有多大,中文分詞是不是提高搜索引擎性能的關(guān)鍵呢? 這正是本文研究的重點(diǎn)[1].
通過近些年的發(fā)展,互聯(lián)網(wǎng)時(shí)刻伴隨在我們身邊.網(wǎng)上的信息量也在急劇膨脹,在這海量的信息中,各類信息混雜在一起,要想充分利用這些信息資源就要對它們進(jìn)行整理,如果由人純粹的來做這項(xiàng)工作,已經(jīng)是不可能的.在自然語言處理技術(shù)中,英文是以詞為單位的,詞與詞之間上靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個(gè)意思.因此,中文處理技術(shù)比西文處理技術(shù)相對較難或發(fā)展的較晚,許多西文的處理方法中文不能直接采用,就是因?yàn)橹形谋匦栌蟹衷~這道工序.中文分詞是其他中文信息處理的基礎(chǔ).因此,對于搜索引擎來說,最重要的并不是找到所有結(jié)果,而是在上百億的網(wǎng)頁中把最相關(guān)的結(jié)果找到,并排在最前面,這也稱為相關(guān)度排序.中文分詞的準(zhǔn)確與否,常常直接影響到對搜索結(jié)果的相關(guān)度排序.分詞準(zhǔn)確性對搜索引擎來說就十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對于搜索引擎來說也是不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁,如果分詞耗用的時(shí)間過長,會嚴(yán)重影響搜索引擎內(nèi)容更新的速度.因此對于搜索引擎來說,分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求[2].由此可見,中文分詞的性能對搜索引擎結(jié)果的相關(guān)性和準(zhǔn)確性有相當(dāng)大的關(guān)系.
隨著社會的發(fā)展,人們對信息的要求越來越高,只是百度、Google、搜狐等綜合性搜索引擎不能滿足人們各方面的需求,便出現(xiàn)了垂直搜索引擎,垂直搜索引擎就是向更加專業(yè)化、領(lǐng)域化的方向發(fā)展,隨即農(nóng)業(yè)搜索引擎也得到了一系列的發(fā)展.農(nóng)業(yè)搜索引擎屬于垂直搜索引擎,主要為搜索農(nóng)業(yè)信息而開發(fā)的檢索工具,專門提供農(nóng)業(yè)信息,比綜合性搜索引擎在解決實(shí)際問題時(shí)更有效.
2.1農(nóng)業(yè)搜索引擎的基本原理
農(nóng)業(yè)搜索引擎的基本原理同一般的搜索引擎基本相似,包括信息的采集、信息的預(yù)處理及信息的檢索[4].唯獨(dú)不同之處在于農(nóng)業(yè)搜索引擎建立的數(shù)據(jù)庫是跟農(nóng)業(yè)有關(guān)的.信息的采集是通過網(wǎng)絡(luò)蜘蛛爬蟲對互聯(lián)網(wǎng)上的相關(guān)站點(diǎn)進(jìn)行訪問,然后對抓回的網(wǎng)頁進(jìn)行分析、過濾、和存儲,并對這些信息建立索引.最后根據(jù)用戶的要求,對索引數(shù)據(jù)庫進(jìn)行訪問,并把檢索的結(jié)果返回給用戶[6].
2.2農(nóng)業(yè)搜索引擎的發(fā)展
2.2.1國外農(nóng)業(yè)搜索引擎的發(fā)展
20世紀(jì)50年代到60年代,農(nóng)業(yè)信息化建設(shè)開始發(fā)展,80年代到90年代得到了快速發(fā)展.目前農(nóng)業(yè)搜索引擎朝著多元化發(fā)展,如美國農(nóng)業(yè)網(wǎng)絡(luò)信息中心是由美國國家農(nóng)業(yè)圖書館與一些大學(xué)、研究機(jī)構(gòu)及政府機(jī)構(gòu)資源組合而成的,農(nóng)業(yè)信息服務(wù)都是由他們中的每一個(gè)成員負(fù)責(zé)其中的一個(gè)部分,各成員之間也相互提供信息及享受信息.還有法國的WEB.AGRISEARCH,它提供了三種服務(wù): 農(nóng)業(yè)搜索引擎、農(nóng)業(yè)期刊導(dǎo)航和農(nóng)業(yè)站點(diǎn)導(dǎo)航.Agrisurf Search是由美國一家農(nóng)業(yè)搜索引擎服務(wù)的公司從綜合搜索引擎中解脫出來的專門提供農(nóng)業(yè)信息的網(wǎng)站,另外,此網(wǎng)站還提供農(nóng)業(yè)新聞類與政策類測信息[3].國外農(nóng)業(yè)搜索引擎的出現(xiàn)與發(fā)展,為我國農(nóng)業(yè)搜索引擎的發(fā)展奠定了良好的基礎(chǔ).
2.2.2國內(nèi)農(nóng)業(yè)搜索引擎的發(fā)展
目前國內(nèi)的農(nóng)業(yè)搜索引擎也得到了快速發(fā)展,如“農(nóng)搜”是全世界數(shù)據(jù)量最大的漢語農(nóng)業(yè)搜索引擎.搜農(nóng),是面向農(nóng)民大戶、農(nóng)業(yè)企業(yè)、農(nóng)業(yè)科技人員及專業(yè)技術(shù)協(xié)會的農(nóng)業(yè)搜索引擎.它更加與農(nóng)業(yè)用戶的需求相符合.還有很多如華農(nóng)在線、中國農(nóng)業(yè)科技信息網(wǎng)農(nóng)業(yè)網(wǎng)站搜索引擎等.這些網(wǎng)站都為農(nóng)業(yè)信息檢索提供了便利條件[5].
3.1什么是中文分詞
中文分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程.是文本挖掘的基礎(chǔ).
3.2中文分詞的原理
中文分詞的基本原理是針對輸入文字串(包含中英文數(shù)字標(biāo)點(diǎn)等)進(jìn)行分詞、過濾處理(包括停用詞的處理與標(biāo)點(diǎn)符號的處理),輸出中文單詞、英文單詞和數(shù)字串等一系列分割好的字符串[7].中文分詞的輸入輸出如圖1所示.
3.3一般分詞方法
目前采用的分詞方法主要有以下幾種: 最大匹配法、反向最大匹配法、逐詞遍歷法、設(shè)立切分標(biāo)志法、最佳匹配法、有窮多層次列舉法、二次掃描法、鄰接約束方法、鄰接知識約束方法、專家系統(tǒng)方法、最少分詞詞頻選擇方法、神經(jīng)網(wǎng)絡(luò)方法等等.但歸納起來不外乎三類: 一類是基于字符串匹配的分詞法,一般以分詞詞典為依據(jù).通過文檔中的漢字串和詞表中的詞逐一匹配來完成詞的切分.一類是理解式切詞法,即利用漢語的語法知識和語義知識以及心理學(xué)知識進(jìn)行分詞,需要建立囫分詞數(shù)據(jù)庫、知識庫和推理機(jī); 還有一類是基于統(tǒng)計(jì)的分詞法[8],它的基礎(chǔ)是利用漢字同時(shí)出現(xiàn)來組成有意義詞的概率,可以降低統(tǒng)計(jì)對語料庫的依賴性,充分利用已有的詞法信息,同時(shí)彌補(bǔ)字符串方法的不足.
3.4中文分詞的難點(diǎn)
圖1 中文分詞的輸入輸出圖
中文是一門復(fù)雜而又靈活的語言,可以組成很多詞匯,這讓計(jì)算機(jī)理解中文語言便非常困難.因此,在實(shí)際應(yīng)用中,為了切分出更精確的詞,我們還有兩大難題需要解決,就是歧義處理和未登錄詞的識別.
3.4.1歧義處理
分詞歧義處理之所以是中文分詞的困難之一,原因在于歧義分為多種類型.目前主要分為交集性歧義、組合型歧義和真歧義三種.交集型歧義字段數(shù)量龐大,處理方法多樣; 組合型歧義字段數(shù)量較少,處理起來相對較難; 而真歧義字段數(shù)量更為稀少,且很難處理.針對不同的歧義類型應(yīng)采取不同的解決方法.除了需要依靠上、下文語義信息、增加語義、語用知識等外部條件外,還存在難以消解的真歧義,增加了歧義切分的難度[7].同時(shí)未登錄詞中也存在著歧義切分的問題,這也增加了歧義切分的難度.所以歧義處理是影響分詞系統(tǒng)切分精度的重要因素.
3.4.2未登錄詞識別
新詞,專業(yè)術(shù)語稱為未登錄詞.也就是那些在字典中都沒有收錄過的詞.未登錄詞可以分為專名和非專名兩大類.其中專名包括中國人名、外國譯名、地名等.而非專名包括新詞、簡稱、方言詞語、文言詞語、行業(yè)用詞等.無論是專名還是非專名的未登錄詞都很難處理,因?yàn)槠鋽?shù)量龐大,又沒有相應(yīng)的規(guī)范.而且隨著社會生活的變遷,使未登錄詞的數(shù)量大大增加,這又為未登錄詞的識別增加了難度[7].因此,未登錄詞識別是中文分詞的另一大難點(diǎn).
3.5中文分詞技術(shù)的進(jìn)展
中文分詞算法已經(jīng)被廣泛研究,分詞算法多種多樣.目前,中文分詞效果比較好的并且支持Java語言的中文分詞軟件主要包括ICTCLAS(中科院中文分詞軟件)、IK、Paoding(庖丁解牛)、MMSEG4J等中文分詞軟件,基于C++語言的分詞方法也有很多,如ASPSeek.在本次設(shè)計(jì)中,我分別使用ASPSeek、ICTCLAS、Paoding、MMSEG4J、IK以及JE分詞工具,并且對它們的分詞效果以及農(nóng)業(yè)搜索引擎分詞工具的性能予以評測.
3.5.1ASPSeek分詞工具
ASPSeek是由Swsoft公司(2007年12月,SWsoft更名為Parallels)使用C++編寫的免費(fèi)開源互聯(lián)網(wǎng)搜索引擎,使用了STL庫,ASPSeek單節(jié)點(diǎn)可以處理上百萬個(gè)Web頁面并提供檢索服務(wù),可以按短語和單詞(允許使用通配符)進(jìn)行布爾搜索.搜索結(jié)果可以限定在特定的時(shí)間域的站點(diǎn)、站點(diǎn)空間,并按照相關(guān)性或者時(shí)間進(jìn)行排序.
ASPSeek支持多語言編碼(包括多字節(jié)語言如中文).它為抓取多個(gè)站點(diǎn)進(jìn)行了優(yōu)化(實(shí)現(xiàn)多線程檢索,同步DNS查詢,按站點(diǎn)將結(jié)果分組,Web集合等),同時(shí)它也可以用于單個(gè)站點(diǎn)的搜索.其他特性包括支持停詞排除和拼寫檢查,字符集和語言的預(yù)測,搜索結(jié)果的HTML模板,引用和查詢詞高亮度顯示等[18].但是由于ASPSeek在抓取網(wǎng)頁時(shí)對抓好的網(wǎng)頁進(jìn)行了自動分詞、建倒排索引,所以ASPSeek也可以用作對中文的分詞.ASPSeek是完全基于詞典庫的分詞方法,并且擁有裝載了25萬詞的詞典庫.
3.5.2ICTCLAS分詞工具
ICTClAS分詞系統(tǒng)是由中科院計(jì)算所的張華平、劉群所開發(fā)的一套分詞系統(tǒng),這是最早的中文開源分詞項(xiàng)目之一,中科院計(jì)算機(jī)所的ICTCLAS分詞系統(tǒng)在2002年7月舉行的“973”項(xiàng)目“圖像、語音、自然語言理解與知識挖掘”專家組的評測中,分詞正確率高達(dá)97.58%[9];主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識別、新詞識別等,同時(shí)支持用戶詞典[10],包含的詞典是通過統(tǒng)計(jì)方法建立的,對其進(jìn)行了封裝[7].該分詞系統(tǒng)的主要是思想是先通過CHMM(層疊形隱馬爾可夫模型)進(jìn)行分詞[11],通過分層,既增加了分詞的準(zhǔn)確性,又保證了分詞的效率.共分五層,基本思路: 先進(jìn)行原子切分,然后在此基礎(chǔ)上進(jìn)行N-最短路徑粗切分,找出前N個(gè)最符合的切分結(jié)果,生成二元分詞表,然后生成分詞結(jié)果,接著進(jìn)行詞性標(biāo)注并完成主要分詞步驟.
3.5.3庖丁解牛分詞工具
庖丁(Paoding)系統(tǒng)是個(gè)完全基于lucene的中文分詞系統(tǒng).庖丁解牛分詞模塊是將輸入的字符串中首先識別和切分出帶有明顯特征的確定詞匯,以這些詞匯為間隔點(diǎn),把原輸入字符串分割成較小的串再進(jìn)行詞典分詞.為了庖丁解牛分詞模塊采取了最大減小單純的匹配錯誤,匹配方法和最大切分相結(jié)合的方式來分詞[12].另外庖丁解牛分詞系統(tǒng)支持純文本格式,一行一詞,使用后臺線程檢測詞庫的更新,自動編譯更新過的詞庫到二進(jìn)制版本并加載,具有極高效率和高擴(kuò)展性.
3.5.4MMseg分詞工具
MMSEG是用 Chih-Hao Tsai 的MMseg 算法實(shí)現(xiàn)的中文分詞器.MMSEG是一種基于詞典的分詞算法,以正向最大匹配為主,多種消除歧義的規(guī)則為輔.MMSEG 算法主要分為兩種: simple和complex.simple算法就是前面提到的最簡單的正向最大匹配算法[17].為了解決simple算法的不足,MMSEG又提供了另一種選擇: complex算法.該算法使用了Chen K.J.和Liu S.H.于1992年提出的一種最大匹配算法的變種.這種算法的基本思想是: 找到所有從當(dāng)前位置開始的三個(gè)連續(xù)詞語的塊,總長度最大的塊是最優(yōu)解.
3.5.5IK分詞工具
IK Analyzer是一個(gè)開源的,基于java語言開發(fā)的輕量級的中文分詞工具包.從2006年12月推出1.0版開始,IK已經(jīng)推出了3個(gè)大版本.最初,它是以開源項(xiàng)目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件,實(shí)現(xiàn)了以詞典分詞為基礎(chǔ)的正反向全切分算法,是LuceneAnalyzer接口的實(shí)現(xiàn).該算法適合與互聯(lián)網(wǎng)用戶的搜索習(xí)慣和企業(yè)知識庫檢索,用戶可以用句子中涵蓋的中文詞匯搜索.
3.5.6JE分詞工具
JE分詞是一套由Java寫的分詞軟件,提供了很多功能,比如提供了設(shè)定分詞粒度的參數(shù),即可以設(shè)定正向最大匹配的字?jǐn)?shù)、提供了API增加了詞典的動態(tài)擴(kuò)展能力、整理優(yōu)化了詞庫、全面支持lucene3.0以下的版本[13].
本文利用ASPSeek搜索引擎抓取了新疆興農(nóng)網(wǎng)上10245張網(wǎng)頁,它的體系結(jié)構(gòu)包含抓取模塊、檢索模塊,結(jié)果顯示模塊等部分.ASPseek首先利用抓取的網(wǎng)頁,建立倒排索引,并將倒排索引存儲到特定的數(shù)據(jù)庫中.在網(wǎng)頁抓取的過程中,Index程序?yàn)g覽所有的種子站點(diǎn),將種子站點(diǎn)的網(wǎng)頁存儲到臨時(shí)文件和數(shù)據(jù)庫中.當(dāng)抓取程序完畢后,用戶運(yùn)行相應(yīng)的命令(index-D)將存儲的數(shù)據(jù)歸并到數(shù)據(jù)庫中.本實(shí)驗(yàn)主要使用ASPSeek、ICTCLAS、Paoding、MMseg、IK以及JE分詞工具對這些網(wǎng)頁進(jìn)行了測試.
4.1實(shí)驗(yàn)流程
4.1.1分詞特性比較
本實(shí)驗(yàn)首先通過ASPSeek搜索引擎抓取10245張網(wǎng)頁,由于ASPSeek搜索引擎在抓取網(wǎng)頁后,已經(jīng)對抓好的網(wǎng)頁給出了分詞結(jié)果,并且對抓好的網(wǎng)頁建了倒排索引,所以在本實(shí)驗(yàn)過程中,ASPSeek都是自行完成的,不用人工的對文檔進(jìn)行分詞和建立倒排索引,只需對其結(jié)果查看.本實(shí)驗(yàn)流程圖2主要適用于其余五種分詞方法.對這些抓取好的網(wǎng)頁進(jìn)行預(yù)處理,其中預(yù)處理包括html一些tag標(biāo)記、標(biāo)點(diǎn)符號的去除等,然后用各種分詞方法結(jié)合lucene對處理好的文檔分詞和建立倒排索引.
4.1.2分詞工具性能評估
此實(shí)驗(yàn)是在上一個(gè)實(shí)驗(yàn)抓取網(wǎng)頁的基礎(chǔ)上隨機(jī)抽取了30篇文檔,分別對這30篇文檔進(jìn)行人工分詞和分詞方法分詞.由于ASPSeek、Paoding、MMseg三種分詞工具都是完全基于詞典的方法,所以本文中對這三種分詞工具統(tǒng)一使用ASPSeek龐大的25萬多詞匯的詞庫為標(biāo)準(zhǔn),對文檔進(jìn)行分詞.假設(shè)人工標(biāo)定分出的詞是正確的,并且對分出的詞去除停用詞,取出分詞方法與人工分詞分出相同的詞,并且計(jì)算每種分詞方法的分出詞的準(zhǔn)確率、召回率和F1測度.
本實(shí)驗(yàn)的ICTCLAS、Paoding、MMSEG、IK以及JE這五種分詞方法都是結(jié)合lucene在Eclipse軟件下運(yùn)行的.
本實(shí)驗(yàn)中主要使用了Lucene 3.0版本以及Lucene 2.0版本,由于JE分詞軟件只能應(yīng)用于Lucene 3.0以下版本.其余4種分詞均和Lucene 3.0結(jié)合.
實(shí)驗(yàn)第一部分根據(jù)各種分詞工具分出的詞以及索引建立時(shí)間和索引建立大小進(jìn)行了比較.第二部分根據(jù)人工和分詞工具對文檔分詞,并且比較了各種分詞工具的性能.
圖2 實(shí)驗(yàn)流程圖1
圖3 實(shí)驗(yàn)流程圖2
5.1詞匯量、建立索引大小及建立索引時(shí)間的比較
表1 詞匯量、建立索引大小及建立索引時(shí)間的比較
從表1中可知在對相同的文檔分詞時(shí),各種分詞方法分出的詞的數(shù)量是不一樣的,其中使用JE分詞工具分出的詞匯最多,其次是Paoding分詞,分詞數(shù)量最少的是中科院的ICTCLAS分詞工具.
在使用ASPSeek和中科院的ICTCLAS建立索引大小差不多的情況下,即索引的存儲空間相當(dāng)?shù)臅r(shí)候,它們的索引時(shí)間相差1/3.
在Paoding、MMseg、IK、JE四種分詞方法的索引存儲空間差不多的情況下,JE分詞方法所建索引的速度比其它分詞方法節(jié)省約40%.
在ASPSeek和JE分詞工具建立索引時(shí)間相當(dāng)?shù)那闆r下,JE分詞工具卻需要比ASPSeek所占存儲空間大25%.
在ICTCLAS、Paoding、MMseg、IK、分詞工具建立索引時(shí)間差不多的情況下,而ICTCLAS分詞工具卻比其它三種分詞工具節(jié)約25%的空間.
另外,只有ASPSeek和Paoding分詞結(jié)果中有字符符號和數(shù)字符號,在ASPSeek中有8750個(gè)字符符號和數(shù)字符號,有1個(gè)停用詞; 在Paoding分詞中有307個(gè)數(shù)字符號.其它的分詞工具都在分詞過程調(diào)用各自的分詞原理已將字符符號和數(shù)字符號過濾,沒有顯示.同時(shí)在使用各種分詞工具得出的結(jié)果中仍有一些垃圾詞匯,但人為的干預(yù)會導(dǎo)致分詞結(jié)果的不確定性,所以在此實(shí)驗(yàn)中沒有對分詞的結(jié)果進(jìn)行處理.
5.2分詞準(zhǔn)確率、召回率及F1測度比較測試文檔的召回率、精度以及F1測度分別定義為:準(zhǔn)確率(P)= 識別出來的正確詞條數(shù)目/文檔中分詞的總數(shù)目
召回率(R)= 識別出來的正確詞條數(shù)目/人工判別的詞條總數(shù)
F1測度=2RP/(R+P)
表2 分詞準(zhǔn)確率、召回率及F1測度比較
從表1不能直接的判斷每種分詞方法的準(zhǔn)確性.因此,實(shí)驗(yàn)的最后又對其中的30篇文檔進(jìn)行了人工標(biāo)定分詞,經(jīng)統(tǒng)計(jì),人工分出的詞匯共有3054個(gè).然后又使用了本文中提到的六種分詞方法分別對這30篇文檔進(jìn)行了分詞,分詞結(jié)果如表2所示.
從表2可以看出,分詞準(zhǔn)確率比較高的有中科院的ICTCLAS和JE分詞工具,準(zhǔn)確率最低的是IK分詞工具,ASPSeek和Paoding分詞由于完全基于詞典庫的分詞,還分出了數(shù)字字符.從分詞的召回率可以看出,比較高的有IK和Paoding分詞方法.F1測度是一個(gè)綜合測評的方法,從結(jié)果中可以看出JE分詞和MMseg分詞的F1測度較高.因此,根據(jù)實(shí)驗(yàn)得出ICTCLAS分詞工具的準(zhǔn)確率最優(yōu),而JE分詞工具的F1測度最高.
在此次實(shí)驗(yàn)中,主要實(shí)現(xiàn)了農(nóng)業(yè)搜索引擎中文分詞工具的對比.在農(nóng)業(yè)搜索引擎中加入中文分詞算法后,不僅提高了搜索結(jié)果的準(zhǔn)確率,還為農(nóng)民老百姓等人員帶來了方便快捷的服務(wù).由于不同分詞工具分詞的原理不同,基于的詞典庫不同,分詞的結(jié)果及索引建立的時(shí)間和存儲空間不同,導(dǎo)致對搜索引擎性能的影響.本實(shí)驗(yàn)中的難點(diǎn)是在實(shí)驗(yàn)最后一部分中抓取的網(wǎng)頁需要人工標(biāo)定分詞,專業(yè)人士也只能憑借經(jīng)驗(yàn)和記憶對文檔分詞,不可能實(shí)現(xiàn)百分之百的分詞,只能降低錯誤率.而且基于時(shí)間的限制及人員的不足,不能對所有的文檔進(jìn)行人工標(biāo)定,只能隨機(jī)的對其中一小部分做測試,這樣不僅增加了詞識別的難度還增加了工作量并且耗費(fèi)時(shí)間與精力.望后期可以對這方面有進(jìn)一步的研究.
參考文獻(xiàn)
1曹桂宏,何丕廉,吳光遠(yuǎn),聶頌.中文分詞對中文信息檢索系統(tǒng)性能的影響.計(jì)算機(jī)工程與應(yīng)用,2003.
2金澎,劉毅.漢語分詞對中文搜索引擎檢索性能的影響.情報(bào)學(xué)報(bào),2006,25(1):21–24.
3章成敏,章成志.國外農(nóng)業(yè)搜索引擎評析.農(nóng)業(yè)網(wǎng)絡(luò)信息,2004,(11).
4劉輝林,郭來德,劉蘭哲,王光興.中文農(nóng)業(yè)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).鄭州大學(xué)學(xué)報(bào),2007,39(2):74–77.
5彭玉容,楊捧,高媛.農(nóng)業(yè)搜索引擎的發(fā)展現(xiàn)狀及關(guān)鍵技術(shù)研究.安徽農(nóng)業(yè)科學(xué),2010,38(20):10971–10973.
6楊鴻雁,尚俊平,徐延華,王萌,張宇.農(nóng)業(yè)專業(yè)搜索引擎建設(shè)探討.農(nóng)業(yè)圖書情報(bào)學(xué)刊,2005,17(4):83–84.
7劉件,魏程.中文分詞算法研究.微計(jì)算機(jī)應(yīng)用,2008,29(8): 12–16.
8劉遷,賈惠波.中文信息處理中自動分詞技術(shù)的研究與展望.計(jì)算機(jī)工程與應(yīng)用,2006.
9張博,姜建國,萬平國.對互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn).計(jì)算機(jī)應(yīng)用研究,2006,(11):176–178.
10蔡小艷,寇應(yīng)展,沈巍,鄭偉.漢語詞法分析系統(tǒng)ICTCLAS 在Nutch-0.9中的應(yīng)用與實(shí)現(xiàn).軍械工程學(xué)院學(xué)報(bào),2008,20(5):63–67.
11夏天,樊孝忠,劉林.利用JNI實(shí)現(xiàn)ICTCLAS系統(tǒng)的Java調(diào)用.計(jì)算機(jī)應(yīng)用,2004,24:177–182.
12孫殿哲,魏海平,陳巖.Nutch 中庖丁解牛中文分詞的實(shí)現(xiàn)與評測.計(jì)算機(jī)與現(xiàn)代化,2010,6:187–189.
13蔡小艷,寇應(yīng)展,沈巍,鄭偉.Nutch-0.9中JE中文分詞的實(shí)現(xiàn).科學(xué)技術(shù)與工程,2008,8(17):4881–4884.
14向暉,郭一平,王亮.基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn).信息檢索技術(shù),2006,(9).
15王志嘉,薛質(zhì).一種基于Lucene的中文分詞的設(shè)計(jì)與測試.信息技術(shù),2010,(12):49–53.
16費(fèi)洪曉,康松林,朱小娟,謝文彪.基于詞頻統(tǒng)計(jì)的中文分詞的研究.計(jì)算機(jī)工程與應(yīng)用,2005.
17mmseg4j.http://www.oschina.com/project/mmseg4j.
18ASPSeek中文網(wǎng)站.http://aspseek.xjau.edu.cn.
19Foo S,Li H.Chinese word segmentation and its effect on information retrieval.Information Processing and Management,2004.
20Liu KY,Zheng JH.Research of automatic chinese word segmentation.Proc.of the First International Conference on Machine Learning and Cybernetics.Beiing.2002.
Compare about Chinese Word Segmentation Tools to Agricultural Search Engine
ZHAO Tao,ZHANG Tai-Hong
(College of Computer & Information Engineering,Xinjiang Agricultural University,Urumqi 890052,China)
Abstract:Chinese word segmentation technology is the most critical part of Chinese word processing technology,and it is widely used as one of the most important part in pre-processing methods.This paper mainly analyses and compares the influence of ASPSeek,ICTCLAS,Paoding,MMseg,IK and JE six segmentation tools on agricultural search engine.The results showed that ICTCLAS word segmentation has the most optimization in accuracy,while JE word segmentation has the highest measure of F1 in the application effect of agricultural search engine.
Key words:Chinese word segmentation; word segmentation tools; agricultural search engine
基金項(xiàng)目:①新疆自治區(qū)高??蒲屑夹g(shù)項(xiàng)目(XJEDU2013S13)
收稿時(shí)間:2015-07-01;收到修改稿時(shí)間:2015-11-25