亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于MMSeg分詞的多部主題詞表聯(lián)合標注研究與實現(xiàn)

2015-06-07 05:56:54陳曉燕

紹興文理學(xué)院學(xué)報(自然科學(xué)版) 2015年1期

關(guān)鍵詞：詞表主題詞表詞條

陳曉燕

(紹興職業(yè)技術(shù)學(xué)院,浙江紹興312000)

基于MMSeg分詞的多部主題詞表聯(lián)合標注研究與實現(xiàn)

陳曉燕

(紹興職業(yè)技術(shù)學(xué)院,浙江紹興312000)

為了解決多部主題詞表聯(lián)合標注中標注詞條數(shù)量大、子串較多等問題,本文提出了基于MMSeg分詞的標注方法.采用MMSeg分詞算法將待標注文本先切分形成詞串再進行標注,并改進了分詞詞典從而支持子串的標注,保證了較高的召回率.還就相關(guān)內(nèi)容進行了研究并給出了具體實現(xiàn).運行結(jié)果表明基于MMSeg分詞的多部主題詞表聯(lián)合標注在標注速度、召回率和精確率方面均達到了實用要求.

分詞詞典;MMSeg算法;標注;消歧;主題詞表

基于主題詞表的標注研究中,閆瑩瑩[1]等利用漢語科技詞系統(tǒng)對文獻自動賦詞標引進行了應(yīng)用研究,其將人工標引的文獻主題詞作為訓(xùn)練集,采用貝葉斯分類算法,將符合人工標引結(jié)果作為正集,不符合的作為反集,形成訓(xùn)練模型,對新文獻計算候選詞權(quán)值作為人工標引的輔助.李鵬[2]等提出了敘詞表多表聯(lián)合標注系統(tǒng)的設(shè)計方案,采用自動標注與手工標注相結(jié)合的方式進行標注,并以皮膚病領(lǐng)域為例進行總結(jié)了多表聯(lián)合標注可能的應(yīng)用場景.

利用多部主題詞表進行聯(lián)合標注,存在以下幾個難點:(1)詞表多,詞表之間詞條的包含關(guān)系較常見.最大匹配存在問題,在詞表內(nèi)部可以最大匹配,但多個詞條之間有詞條之間的包含關(guān)系.(2)系統(tǒng)基于BS結(jié)構(gòu),存在多個用戶,每個用戶存在多個詞表.多用戶多詞表出現(xiàn)詞條數(shù)量大、效率要求高.筆者測試對當(dāng)詞條達到30萬條時,對單篇200字的文檔,耗時約46秒,嚴重影響用戶體驗.(3)詞條中存在一些特殊符號.例如醫(yī)學(xué)類,連接符,數(shù)字等比較常見.本文就以上問題進行了研究.

1 基于MMSeg分詞的多部主題詞表聯(lián)合標注研究

1.1 MMSeg分詞算法

MMseg分詞算法[3]是利于詞典進行分詞基于正向最大匹配的算法,是將待切分詞組從詞典中找到最長的字符串的一種匹配算法,其又可以分為簡單最大匹配和復(fù)雜最大匹配兩種方法.若S1,S2,…Sn代表一個字符串中的漢字,其基本算法是:(1)從字符串的第一個字符開始,判斷S1是否為詞典中的單詞,(2)如果是,繼續(xù)判斷S1S2來看是否為詞典中的詞組,(3)直至S1S2…Sn+1字典中無法匹配時,則S1S2…Sn

相應(yīng)的算法規(guī)則如下,優(yōu)先秩序分別為:規(guī)則1＞規(guī)則2＞規(guī)則3＞規(guī)則4,從而選擇最合理的分詞組合.

規(guī)則1:優(yōu)先取最大匹配的詞長詞組;

規(guī)則2:取Ax最大的詞長詞組;

規(guī)則3:取Sx最小的詞長詞組;

規(guī)則4:取Dx最大的詞長詞組.

1.2 分詞詞典的改進

MMseg的分詞效果與詞典關(guān)系較大,專業(yè)領(lǐng)域等細分詞典能夠?qū)崿F(xiàn)更好的分詞效果[4].主題詞表具有典型的專業(yè)領(lǐng)域特色,因此非常適合使用MMseg等詞典分詞算法.將計算機專業(yè)主題詞表、醫(yī)學(xué)專業(yè)主題詞表以及各種定制專業(yè)主題詞表,轉(zhuǎn)化為相應(yīng)的專業(yè)詞典來進行分詞,能夠產(chǎn)生較高的分詞效果.

利用多部主題詞條進行聯(lián)合標注時,由于涉及多部主題詞表,而且標注的主題詞表一般涉及交叉領(lǐng)域,因此存在詞條重復(fù)或者包含關(guān)系等問題,導(dǎo)致普通的MMseg的分詞算法難以勝任.因此,必須對MM-seg進行相關(guān)的改進.本文相應(yīng)的改進包括特殊詞條處理以及詞典文件更新等.本文使用jcseg中文分詞器對應(yīng)的詞典文件說明詞典文件的更新.jcseg是使用Java開發(fā)的一款基于MMseg算法的開源的中文分詞器.

原分詞詞典內(nèi)容比較簡單,一個詞條對應(yīng)的詞典內(nèi)容主要包括詞條名稱、詞性、漢詞拼音,以及備注等信息.改進的分詞詞典,在原有的內(nèi)容基礎(chǔ)上,增加了每個詞條對應(yīng)的主題詞表、包含子詞條等信息.原詞典文件與改進后的詞典如圖1所示.就是最可能的單詞,也是最長的匹配.(4)取這個單詞,待切分詞組去掉相關(guān)詞條,依據(jù)同樣的方法,直至待切分詞條為0,即所有單詞都被切分完成.

最大匹配算法不涉及語法和語義知識,其優(yōu)勢是切分速度快,不足之處在于無法解決切分歧義的問題,因此切分精度不夠.歧義的產(chǎn)生,是因為可能產(chǎn)生多種不同的切分結(jié)果,每一種切分結(jié)果對應(yīng)不同的理解,但是根據(jù)待處理文本所在的上下語境只有一種符合作者要闡述的意思.歧義消解就是要尋找最符合原文闡述的切分方法.MMseg在基本算法的基礎(chǔ)上,充分考慮了平均長度,標準差以及自由語素度三個因素,并對應(yīng)形成四個規(guī)則.規(guī)則1考慮的基本算法的最大匹配長度;規(guī)則2考慮的因素為平均長度;規(guī)則3考慮的因素為標準差;規(guī)則4考慮的因素為自由語素度.四個規(guī)則的應(yīng)用,較好地解決了歧義切分的問題.

假設(shè)單詞條集合為L,對應(yīng)的詞頻為fx,令L為待切分詞組字數(shù),Ix為詞組中各詞的長度和,則可計算平均長度Ax,標準差Sx,以及自由語素度Dx.相應(yīng)計算公式如下:

圖1 原分詞詞典與改進后的分詞詞典

其中kos代表系統(tǒng)使用的知識組織系統(tǒng)代碼,3對應(yīng)相應(yīng)的主題詞表ID,100對應(yīng)的詞表中詞條ID.示例中詞條“中華人民共和國”包含了“中華”“人民”兩個子詞條,而“中華民國”,只包含了“中華”一個字詞條.在詞典文件中添加詞表ID目的是分詞后,可根據(jù)需要標注的文檔庫的詞表進行過濾,不是當(dāng)前文檔典設(shè)置的標注詞表,直接在結(jié)果中刪除.在詞典文件中添加詞條ID目的是分詞后,可以直接根據(jù)數(shù)字類型為整型的詞條ID到數(shù)據(jù)庫中查詢對應(yīng)的信息,從而增加處理速度.

原處理方式的弊端:長詞條覆蓋短詞條.只能標注長詞條,不能標注單獨出現(xiàn)的長詞條所包含的短詞條.詞表A中有:中華人民共和國、人民.詞表B中有:中華、共和國.用戶選擇A、B兩個詞表標注“我們是中華人民共和國的國民”.只能分出“中華人民共和國”,“中華”分不出來.改進后的詞典,能夠按照系統(tǒng)的需要,將各主題詞表中的詞條均標注出來.

改進后的分詞詞典,處理了每個詞條對應(yīng)的子詞條信息,因此維護詞條之間的關(guān)系表是一項非常重要的工作.

1.3 特殊詞條處理

特殊詞條分為兩類,一種是存在一些特殊符號如醫(yī)學(xué)類,連接符,數(shù)字等比較常見的詞條,另一種是超長詞條.對于特殊詞條,采用直接采用字符串匹配查找文檔中是否存在.

在根據(jù)詞條進行分詞時,受分詞算法中詞典的限制,詞條中不能包含特殊字符,如果包含特殊字符,則分詞算法在加載詞典時失敗.標注系統(tǒng)可能出現(xiàn)的一些特殊符號如表1所示.這些符號禁止出現(xiàn)在詞典文件中.

表1 特殊符號列表

具體來說,本文基于MMSeg分詞的多部主題詞表聯(lián)合標注流程如圖2所示.

1.4 標注

基于多部主題詞表進行聯(lián)合標注的目的是盡可能將主題詞表中出現(xiàn)的詞條在待標注文本中標引出來,即盡可能標全.標注為一項基本工作,為其后的知識庫的建立和詞條及其關(guān)系的挖掘提供基礎(chǔ).基于多部主題詞表聯(lián)合進行標注時,由于詞典中詞條數(shù)目較大,采用逐條取詞表中的所有詞條一一與原文匹配看是否存在原文中的方式,耗時太長.因此,本文采用從待標注文本入手先分詞形成詞串,然后去數(shù)據(jù)庫中匹配該詞串是否在所屬詞表的詞條中,這樣匹配的速度更快,能夠大幅度節(jié)省時間.由于只需要對切分詞表中存在的詞,因此分詞速度大大提高.利用詞典分詞有利于自動標注,能夠?qū)崿F(xiàn)大批量與自動化標注,是手工標注的前提和工程化應(yīng)用的基礎(chǔ).基于MMseg分詞的多表聯(lián)合標注包含三個步驟:分詞、標注及著色.對文獻進行標注時,要判斷文獻內(nèi)容是否包含詞典中的詞條.標注功能需要考慮的因素如下:

(1)支持多次標注,不影響以前的標注.

(2)每次標注后,用戶選擇的文本及位置信息記錄在數(shù)據(jù)庫中.

1.5 著色

要實現(xiàn)對標注文本的著色,需要知道標注文本對應(yīng)在全文中的位置,著色能夠讓用戶看到標注的效果.可以使用不同的顏色,分別對應(yīng)不同的主題詞表.由于標注時,已經(jīng)在數(shù)據(jù)庫中存儲了標注文本對應(yīng)的位置信息,因此著色相對比較簡單.著色可以直接在待標注文本前添加IE等瀏覽器支持的標簽,實現(xiàn)在瀏覽器中顯示相關(guān)的顏色.為將原文中標簽同標注的標簽區(qū)分開,同時為了網(wǎng)頁上顯示效果,著色代碼均遵照特定的格式:

2 基于MMSeg分詞的多部主題詞表聯(lián)合標注實現(xiàn)

2.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理工作的目的主要是將原主題詞表的詞條轉(zhuǎn)換成詞典文件,為將來的詞條切分做好準備工作.利用詞典分詞的方式,需要建立用戶自己的詞典.但是,當(dāng)出現(xiàn)用戶詞典時,多用戶多純種服務(wù)器壓力較大,因此,建立統(tǒng)一的詞典進行分詞.

數(shù)據(jù)預(yù)處理的另外一項內(nèi)容是主題詞表中如果出現(xiàn)詞典文件避免的特殊字符時,應(yīng)該將其標志設(shè)為特殊詞條,方便標注時專門按特殊詞條處理方式進行處理.

2.2 建立詞條關(guān)系表

詞條關(guān)系表是為了維護詞條之間的包含關(guān)系而建立的表.

表2 詞條關(guān)系表s_Relation

計算一個詞條的關(guān)系時步驟:查找本詞條包含的詞條信息,寫入關(guān)系表.一個詞條可能包括多個詞條.如“人民共和國”可能包括的詞條有“人民”“共和國”.如一個詞條不包含任何子詞條,則需在關(guān)系表中添加一條數(shù)據(jù)(其中:ChildtheasurusID,ChildID,ChildTermName等列為空).

#-是否詞庫更新自動加載(1開啟,0關(guān)閉)

lexicon.autoload=1

#-詞庫更新輪詢時間(單位:秒)

lexicon.polltime=120

建立詞條關(guān)系表后,定時將關(guān)系表數(shù)據(jù)按照固定格式寫入詞典文件中.

2.3 建立詞典文件

為保證詞表中詞條信息同詞典中詞條信息保持一致,每天晚上重新生成詞庫文件.根據(jù)測試30萬條數(shù)據(jù)寫入詞庫文件需要8min.

2.4 詞條的更新

為保證詞典文件的準確性,需在詞條內(nèi)容發(fā)生變更后記錄詞條的變動信息,以便及時更新詞典文件.引起詞條內(nèi)容變動的原因包括:新增詞條、修改詞條、導(dǎo)入詞條、刪除詞條.詞典文件更新策略如圖3所示.在刪除一個詞條時,需要將本詞條包含的詞條關(guān)系刪除,還需將包含本詞條的詞條關(guān)系刪除.例如刪除詞表ID為2,詞條ID為300的詞條,刪除關(guān)系語句為:

Delete from Relation

Where(ThesaurusID=2 and Term ID=300)or(ChildtheasurusID=2 and Child ID=300)

3 運行結(jié)果

基于MMSeg分詞的多部主題詞表聯(lián)合標注系統(tǒng)較好地達到了系統(tǒng)預(yù)計的要求,本文從標注速度、標注召回率、標注準確率三個指標進行了評價和驗證.

分詞速度對于分詞系統(tǒng)是一項重要指標,通常分詞系統(tǒng)對于分詞速度要求十分嚴格[5].準確性作為核心指標,是指在進行分詞處理后分得的正確的詞或者短語的個數(shù)與分得的所有的詞的個數(shù)之間的比值,分詞系統(tǒng)的準確率應(yīng)用達到99.9%以上才能基本滿足其他領(lǐng)域的使用要求.分詞準確率與分詞速度兩者相矛盾,在設(shè)計系統(tǒng)時要充分考慮兩者的關(guān)系.召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率.

標注速度=文本長度/分詞時間?100%(單位:字/秒)

標注準確率=正確切分詞數(shù)/文本總詞數(shù)?100%

標注召回率R=標注的詞條/應(yīng)該標注的全部詞條

使用MMSeg分詞后再進行標注,標注的性能達到了質(zhì)的變化,前后兩者對比如表3所示.運行硬件環(huán)境:CPU:AMD 3.2G;內(nèi)存4G.

表3 標注速度對比表

標注的準確率,未分詞標注時,直接采用待切分詞條去數(shù)據(jù)庫中匹配該詞條是否出現(xiàn)在主題詞表中,因此準確率為100%,采用分詞標注后,由于涉及部分特殊字符,準確率稍有下降,但仍然完全滿足系統(tǒng)的需要.表4為標注的準確率對比.

表4 標注準確率對比表

標注的召回率,由于改進了分詞詞典,相當(dāng)于犧牲了部分分詞的效率,保證了標注的召回率.標注召回率取得了大幅度的提升.標注的召回率對比如表5所示.

表5 標注召回率對比表

4 結(jié)束語

多部主題詞表詞條較多,同時由于存在交叉領(lǐng)域,因此詞條之間存在包含或者重復(fù)等較復(fù)雜的關(guān)系,但是盡可能地標全是系統(tǒng)作為一項基礎(chǔ)研究的條件,因此給實際工作帶來了困難.本文將MMSeg分詞引入到標注中,實現(xiàn)基于多部主題詞表的聯(lián)合標注,能夠大大提高標注的速度和精度.但是由于MMSeg分詞無法解決召回率的問題,本文改進了分詞詞典,將詞表及其詞條和子詞條關(guān)系引入至詞典中,從而保證了標注的召回率.多部主題詞表聯(lián)合標注作為一項基礎(chǔ)性工作,使其后的專業(yè)知識庫的構(gòu)建以及深度數(shù)據(jù)挖掘成為可能.

[1]閆瑩瑩,許德山.漢語科技詞系統(tǒng)在文獻自動賦詞標引中的應(yīng)用研究[J].數(shù)字圖書館論壇,2013, (11):2-8.

[2]李鵬,朱禮軍.敘詞表多表聯(lián)合標注系統(tǒng)設(shè)計與實現(xiàn)[J].數(shù)字圖書館論壇,2013,(11):21-26.

[3]MMSEG:AWord Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm[EB/OL].(2000-03-12)[2014-12-08],http://technology.chtsai.org/mmseg/.

[4]蔣建洪,趙嵩正,羅玫.詞典與統(tǒng)計方法結(jié)合的中文分詞模型研究及應(yīng)用[J].計算機工程與設(shè)計, 2012,33(1):387-391.

[5]劉延吉.基于詞典的中文分詞歧義算法研究[D].吉林:東北師范大學(xué),2009.

Research and Implementation of Multi-Thesaurus Joint Labeling System Based on MMSeg Algorithm

Chen Xiaoyan

(Shaoxing Vocational and Technical College,Shaoxing,Zhejiang 312000)

In order to solve the problems that there are a greatnumber of terms and substrings in the Multi-Thesaurus joint labeling system,this paper presents the annotation method based on the MMSeg algorithm.The paper proposes adopting the MMSeg segmentation algorithm to cut text strings for annotating and improve the dictionary for substring annotation,thus ensuring a higher recall rate.The specific implementation of the relevant content and the operation result show that the Multi-Thesaurus joint labeling system based on the MMSeg segmentation algorithm meets the practical requirements in terms of the annotation speed,recall rate and precision rate.

dictionary;annotation;MMSeg algorithm;ambiguity processing;thesaurus

TP393

1008-293X(2015)07-0039-06

0 引言

表,又稱敘詞表,由詞與詞之間用代屬分參等關(guān)系組成,是文獻與情報檢索中用以標引主題的一種檢索工具.主題詞表作為一種結(jié)構(gòu)化的概念集合,在信息資源的描述、組織和檢索中發(fā)揮重要的作用.利用主題詞表進行標注工作,尤其是利用多部主題詞表進行聯(lián)合標注,能夠進一步描述和組織信息資源,從多視角,多角度地揭示文章的內(nèi)容,將非結(jié)構(gòu)化文本進行結(jié)構(gòu)化,為信息抽取、深度檢索、智能推理,以及知識庫的建立提供了基礎(chǔ).

(責(zé)任編輯魯越青)

10.16169/j.issn.1008-293x.k.2015.07.09

2015-02-06

陳曉燕(1973-),女,浙江溫州人,講師,主要研究方向:信息處理.