亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于上下文相關(guān)的未知實(shí)體詞識(shí)別方法

        2016-11-01 06:44:08黃文茜
        關(guān)鍵詞:規(guī)則方法

        夏 虎,黃文茜

        ?

        基于上下文相關(guān)的未知實(shí)體詞識(shí)別方法

        夏 虎1,2,黃文茜2

        (1. 電子科技大學(xué)大數(shù)據(jù)研究中心 成都 611731;2. 電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心 成都 611731)

        現(xiàn)有的未知實(shí)體詞識(shí)別方法主要針對(duì)人名、地名、機(jī)構(gòu)名等具有特定結(jié)構(gòu)的實(shí)體詞進(jìn)行識(shí)別,而隨著電子商務(wù)和社交網(wǎng)絡(luò)的快速發(fā)展,出現(xiàn)了大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實(shí)體詞。針對(duì)該問題,提出兩種基于上下文相關(guān)的未知詞識(shí)別算法,通過計(jì)算詞(字)和詞(字)之間的上下文相關(guān)性,得到其潛在組合的支持度,并通過過濾模塊過濾掉錯(cuò)誤的組合,實(shí)現(xiàn)具有非確定型結(jié)構(gòu)的未知實(shí)體詞識(shí)別。實(shí)驗(yàn)表明,該算法具有較高的準(zhǔn)確率,并且可以通過調(diào)整參數(shù)適應(yīng)不同的應(yīng)用場(chǎng)景。

        關(guān)聯(lián)規(guī)則; 上下文相關(guān); 未知詞識(shí)別; 詞義消歧

        命名實(shí)體是文本中承載信息的重要語言單位,命名實(shí)體的識(shí)別在網(wǎng)絡(luò)信息抽取、網(wǎng)絡(luò)內(nèi)容分析和知識(shí)工程等領(lǐng)域都占有非常重要的地位。傳統(tǒng)的命名實(shí)體識(shí)別主要針對(duì)人名、地名、機(jī)構(gòu)名以及產(chǎn)品命名實(shí)體等具有特定結(jié)構(gòu)的實(shí)體詞[1]。然而,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實(shí)體詞,例如電子商務(wù)中大量出現(xiàn)的新商品名稱、網(wǎng)絡(luò)用語“醬紫(這樣子)、斑竹(版主)”等,這類未知詞結(jié)構(gòu)多樣,沒有特定的規(guī)律,用傳統(tǒng)的未知詞識(shí)別方法難以有效識(shí)別。

        目前未知詞識(shí)別領(lǐng)域的研究主要有3種方法:基于統(tǒng)計(jì)的方法、基于規(guī)則的方法以及兩者結(jié)合的方法?;诮y(tǒng)計(jì)的方法認(rèn)為:如果若干個(gè)相鄰的字或詞經(jīng)常同時(shí)出現(xiàn),它們則可能是一個(gè)新詞。這種方法簡(jiǎn)單高效易實(shí)現(xiàn),但需要大量訓(xùn)練數(shù)據(jù),而且由于未考慮不同詞的構(gòu)詞能力[2]和構(gòu)詞模式,識(shí)別的準(zhǔn)確率不高?;谝?guī)則的方法通過標(biāo)注詞典和成詞規(guī)則來識(shí)別新詞,這些規(guī)則往往需要專家針對(duì)特定領(lǐng)域來具體制定,該方法準(zhǔn)確率高,但規(guī)則制定費(fèi)時(shí)費(fèi)力,且不同領(lǐng)域需要重新制定相應(yīng)規(guī)則,領(lǐng)域適應(yīng)性差。針對(duì)上述兩種方法中的問題,越來越多的研究者采用統(tǒng)計(jì)與規(guī)則相結(jié)合的思路,取得了許多顯著的成果,本文采用的基于上下文相關(guān)的算法即為其中一種。

        一個(gè)字或詞的上下文是指出現(xiàn)在它前后的那些字或詞,在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們?cè)接锌赡苁且粋€(gè)“未知詞”,例如“清倉/圣/麗/奴/時(shí)尚/女/挎包”、“橫款/圣/麗/奴/兩用/包”、“高級(jí)/提花布/深/咖/圣/麗/奴/女/挎包”的分詞結(jié)果可以看出,“麗”的上下文信息中總是包括“圣”和“奴”,也就是說“圣”、“麗”、“奴”3個(gè)字經(jīng)常依此順序共同出現(xiàn),而“圣麗奴”整體并沒有固定的上下文信息,因此本文認(rèn)為“圣麗奴”有較大概率為一個(gè)未知實(shí)體詞。

        以上述理論為基礎(chǔ),本文提出了兩種基于上下文信息進(jìn)行未知詞識(shí)別的方法。其中,基于最大組合的上下文相關(guān)算法(MC)利用統(tǒng)計(jì)的手段,獲取由二元組、三元組、四元組、五元組構(gòu)成的候選未知實(shí)體詞集,然后利用上下文信息對(duì)候選未知實(shí)體詞進(jìn)行支持度過濾、歧義過濾和最大組合過濾,獲取真正的未知實(shí)體詞。

        進(jìn)一步,本文提出了一種基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC),在FP樹構(gòu)建和頻繁模式挖掘過程中加入各“項(xiàng)”(分詞后的字或詞)在文中出現(xiàn)的下標(biāo)信息,利用此信息保證挖掘出的頻繁模式中各項(xiàng)在文中的相鄰關(guān)系以及前后順序。從而避免了傳統(tǒng)FP-growth算法不能保證挖掘出各項(xiàng)之間原始的相鄰關(guān)系和前后順序而不適合用于未知實(shí)體詞識(shí)別的問題。

        實(shí)驗(yàn)結(jié)果表明,在某電子商務(wù)網(wǎng)站的2 000個(gè)商品網(wǎng)頁源文件上進(jìn)行的3個(gè)類別數(shù)據(jù)集上,本文的兩種方法均能有效地對(duì)結(jié)構(gòu)不確定的專有領(lǐng)域未知實(shí)體詞進(jìn)行識(shí)別,具有較高的準(zhǔn)確率。

        1 相關(guān)研究

        文獻(xiàn)[3]提出了一種基于角色標(biāo)注的中文未登錄詞識(shí)別通用方法。該方法依據(jù)角色,即未登錄詞的內(nèi)部組成成分、上下文及句子中的其他成分來識(shí)別未登錄詞。算法簡(jiǎn)單可行,具備較好的準(zhǔn)確率和召回率,尤其適用于中國人名和音譯名的識(shí)別。

        文獻(xiàn)[4]提出了一種隱馬爾科夫模型(hidden Markov model, HMM)和一個(gè)基于HMM的塊標(biāo)注器,并在此基礎(chǔ)上建立了命名實(shí)體識(shí)別系統(tǒng)(NER)以識(shí)別姓名、時(shí)間以及數(shù)字量。系統(tǒng)整合了四方面的證據(jù):詞語包含的簡(jiǎn)單且確定性的內(nèi)部特征,如大寫、數(shù)字、觸發(fā)器等內(nèi)部語義特征以及外部上下文特征。該系統(tǒng)在蛋白基因(MUC-6和MUC-7)的英文命名實(shí)體識(shí)別任務(wù)中分別達(dá)到了96.6%和94.1%的準(zhǔn)確率。

        文獻(xiàn)[5]提出了一種基于支持向量機(jī)(SVM)的命名實(shí)體識(shí)別系統(tǒng)。該系統(tǒng)從文檔中提取名稱、數(shù)字信息并將其分類成人名、組織名以及日期。該系統(tǒng)取得了較高的準(zhǔn)確率,并且解決了傳統(tǒng)SVM效率不高的問題。文獻(xiàn)[6]則提出利用SVM進(jìn)行生物醫(yī)學(xué)命名實(shí)體識(shí)別。該系統(tǒng)采用了字詞緩存以及HMM狀態(tài)兩個(gè)新特征,在GENIA語料庫上取得了令人滿意的結(jié)果。

        文獻(xiàn)[7]提出了一種組合分類器的實(shí)驗(yàn)框架以識(shí)別命名實(shí)體。該框架組合了4個(gè)不同的分類器:魯棒的線性分類器、最大熵模型、遷移學(xué)習(xí)及隱馬爾科夫模型。文獻(xiàn)[8]提出基于最大熵模型的命名實(shí)體識(shí)別系統(tǒng),該系統(tǒng)直接利用整篇文檔的全局信息來分類每一個(gè)具體的詞,并且僅使用了一個(gè)分類器而不是二級(jí)分類器。

        文獻(xiàn)[9]提出了一種基于網(wǎng)絡(luò)資源的未登錄詞擴(kuò)展識(shí)別方法。該方法利用統(tǒng)計(jì)的思想,以左右鄰信息判斷未登錄詞邊界,對(duì)已識(shí)別出的二元候選未登錄詞進(jìn)行擴(kuò)展,找出具有更完整語義的不限長(zhǎng)度復(fù)合未登錄詞。該方法簡(jiǎn)單高效,但沒有充分考慮不同詞的構(gòu)詞能力和構(gòu)詞模式,容易因成詞率低的高頻詞引發(fā)擴(kuò)展錯(cuò)誤,因此準(zhǔn)確率不高。

        文獻(xiàn)[10]提出了一種基于統(tǒng)計(jì)和規(guī)則的未登錄詞識(shí)別方法。該方法將文本分詞后的碎片切分形成臨時(shí)詞典,再利用規(guī)則和詞頻對(duì)其賦以不同的權(quán)值,最后用貪心算法得到碎片的最長(zhǎng)路徑,從而識(shí)別出未登錄詞,并進(jìn)一步利用互信息提取若干個(gè)詞組成未登錄詞(組)。該方法能正確識(shí)別出碎片中的大部分未登錄詞,但是識(shí)別正確性依賴于分詞性能且對(duì)人名的識(shí)別規(guī)則不夠完善。

        文獻(xiàn)[11]提出先將文本進(jìn)行分詞,再利用N-Grams方法得到候選未登錄詞集,之后通過概率統(tǒng)計(jì)的手段從中識(shí)別出未登錄詞。但這種方法在各個(gè)閾值的設(shè)定、中文詞組的確定規(guī)則以及噪音字的選取方面仍需進(jìn)一步完善。

        綜上所述,目前未知詞識(shí)別的研究對(duì)象主要集中在人名、地名、機(jī)構(gòu)名或者產(chǎn)品命名實(shí)體等具有特定結(jié)構(gòu)的實(shí)體詞上,對(duì)于近幾年網(wǎng)絡(luò)中出現(xiàn)的大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實(shí)體詞的研究較少,本文特針對(duì)該問題提出兩種識(shí)別方法。

        2 基于最大組合的上下文相關(guān)算法(MC算法)

        一個(gè)字或詞的上下文是指出現(xiàn)在它前后的那些字或詞,在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們?cè)接锌赡苁且粋€(gè)“未知詞”。本文算法充分利用字詞的上下文關(guān)系統(tǒng)計(jì)獲取候選未知詞集,然后通過支持度過濾、歧義過濾以及最大組合過濾篩選出最終的未知詞,具體流程如下:

        1) 對(duì)于輸入文檔集中的任一文檔,首先將文本中“,、。;:”5種標(biāo)點(diǎn)替換為換行符得到文檔;

        2) 對(duì)文檔分詞,得到文檔,將中的每個(gè)詞/字作為基本單位“項(xiàng)”,對(duì)于每一行文本,統(tǒng)計(jì)該行相鄰項(xiàng)之間形成的元組(2≤≤5)出現(xiàn)的次數(shù)count,形成集合<元組, count>;

        3) 將中具有相同元組的count值合并,作為該元組在文檔中的總支持度,并過濾掉count

        4) 進(jìn)行歧義過濾(參考2.1節(jié))及最大組合過濾(參考2.2節(jié)),得到最終識(shí)別出的未知實(shí)體詞;

        5) 相同未知詞可能出現(xiàn)在單一文檔的不同位置,也可能出現(xiàn)在文檔集的任一文檔中,因此需要針對(duì)所有文檔遍歷完后得到的組合集totalPat中再進(jìn)行一遍歧義過濾和最大組合過濾。最后得到的結(jié)果保存在未知詞集unKnown中,算法結(jié)束。

        2.1 歧義過濾

        歧義過濾是指若識(shí)別出兩個(gè)“歧義組合”,僅保留count值最大的未知詞組合。歧義組合定義如下:

        定義1 歧義組合

        如圖1所示,在“施華洛世奇水晶鏈墜”的分詞字符串中,“世奇”和“奇水晶”就是一對(duì)歧義組合,兩種劃分方式必然只有一種正確。根據(jù)“世奇”與“奇水晶”在全文中的支持度,可以過濾掉支持度較低的“奇水晶”這樣的錯(cuò)誤組合。

        2.2 最大組合過濾

        最大組合過濾是指若識(shí)別出若干個(gè)具有“歧義父子串關(guān)系”的組合,則保留歧義父串而去掉歧義子串。歧義父子串關(guān)系定義如下。

        定義2 歧義父子串

        如圖2所示,在“施華洛世奇水晶鏈墜”的分詞字符串中,“施華洛世奇”與“施華洛世”、“華洛世奇”、“華洛世”等具有相同的支持度,構(gòu)成了歧義父子串關(guān)系,根據(jù)最大組合過濾規(guī)則只保留“施華洛世奇”這一歧義父串組合。

        2.3 MC算法總結(jié)

        基于最大組合的上下文相關(guān)算法MC利用統(tǒng)計(jì)信息構(gòu)造候選未知詞集,然后通過支持度過濾、歧義過濾以及最大組合過濾,刪除候選未知詞集合中絕大部分錯(cuò)誤的候選詞,從而識(shí)別出正確的未知實(shí)體詞。

        MC算法簡(jiǎn)單高效,可以有效識(shí)別出網(wǎng)頁中的未知實(shí)體詞。MC算法的主要思想是認(rèn)為在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們?cè)接锌赡苁且粋€(gè)“未知詞”。而關(guān)聯(lián)規(guī)則算法是挖掘數(shù)據(jù)項(xiàng)共同出現(xiàn)關(guān)系的經(jīng)典算法。因此,下文基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法FPC提出利用關(guān)聯(lián)規(guī)則挖掘字詞間的共現(xiàn)關(guān)系來識(shí)別未知實(shí)體詞。

        3 基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC算法)

        FP-growth算法[12]是一種高效的關(guān)聯(lián)規(guī)則挖掘算法,但是由于未保證挖掘出的頻繁模式中各項(xiàng)間的相鄰關(guān)系和前后順序而不適合直接用做未知詞識(shí)別。本文提出的基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法改進(jìn)了FP-growth算法,在FP樹構(gòu)造過程以及頻繁模式挖掘過程均充分利用了文檔中各項(xiàng)出現(xiàn)位置的下標(biāo)信息,有效地保證了所挖掘頻繁模式中的各項(xiàng)間具備正確的相鄰關(guān)系以及前后順序,亦即保證了識(shí)別出的未知詞在上下文意義上的正確性。

        與MC算法類似,本文算法首先對(duì)輸入文檔集中的每一個(gè)文檔d進(jìn)行文本切分處理,即將其中的“、,。;:”5種標(biāo)點(diǎn)換為換行符得到文檔,分詞后得到文檔。中每一個(gè)分詞后的單位稱為“項(xiàng)”,每一行稱為一條“事務(wù)記錄”。為了存儲(chǔ)每個(gè)項(xiàng)在文檔中出現(xiàn)的所有位置的下標(biāo),將每一項(xiàng)的數(shù)據(jù)結(jié)構(gòu)定義為,其中name是該項(xiàng)的名字,index是該項(xiàng)在文檔中出現(xiàn)的位置編號(hào)數(shù)組,flag是排序的標(biāo)志,用于將之后挖掘出的頻繁模式按照在文中出現(xiàn)的先后順序排序。對(duì)于文檔,F(xiàn)PCTree構(gòu)造與頻繁模式挖掘的過程如下。

        1) FPCTree的構(gòu)造

        ①掃描文檔,得到頻繁1項(xiàng)集,對(duì)它們的支持度計(jì)數(shù),統(tǒng)計(jì)index信息,將頻繁1項(xiàng)集按照支持度遞減排序,若支持度相同,則按照各項(xiàng)在文中出現(xiàn)的先后順序排序。刪除支持度小于minSup的項(xiàng),得到1項(xiàng)集。

        ③第二次掃描文檔,每條事務(wù)記錄中的項(xiàng)按照1中的順序排序,設(shè)排序后的頻繁項(xiàng)表為,其中為頻繁項(xiàng)表的第一項(xiàng),為頻繁項(xiàng)表中的剩余項(xiàng)。調(diào)用函數(shù)遞歸的將每一項(xiàng)加入到FP樹中。執(zhí)行過程如下:首先判斷的兒子節(jié)點(diǎn)中是否存在的同名節(jié)點(diǎn),即存在一兒子節(jié)點(diǎn),滿足。若存在,則節(jié)點(diǎn)的count計(jì)數(shù)加1,將節(jié)點(diǎn)index數(shù)組中的所有下標(biāo)加入到節(jié)點(diǎn)的index數(shù)組中去;若不存在,則創(chuàng)建一個(gè)新節(jié)點(diǎn),將其count值設(shè)為1,鏈接到它的父節(jié)點(diǎn),并通過nextHomonym鏈接到下一個(gè)同名節(jié)點(diǎn)。將加入到的子節(jié)點(diǎn)數(shù)組中。

        2) 從FPCTree中挖掘候選頻繁模式

        對(duì)1中的每一項(xiàng)item執(zhí)行以下步驟:

        ①生成條件模式基。利用nextHomonym信息,找到所有item同名節(jié)點(diǎn)的祖先路徑,路徑上所有節(jié)點(diǎn)count值均設(shè)為item的count值。

        ②構(gòu)建條件FP樹。將條件模式基作為事務(wù)記錄生成條件FP樹。

        ③對(duì)于條件FP樹中的每一條長(zhǎng)路徑生成項(xiàng)的任意組合方式,得到組合集。過濾掉中支持度小于minSup的組合,得到組合集。對(duì)于中的每一個(gè)組合,利用各項(xiàng)的index信息判斷組合的上下文順序是否正確。若正確,則獲取該組合的支持度,并且將該組合按照在文中出現(xiàn)的先后順序排序;若不正確,刪掉該組合。得到候選頻繁模式集Pat。

        ④挖掘出所有item的候選頻繁模式后,將相同的模式合并。

        ⑤識(shí)別出文檔中的候選未知詞集Pat后,同MC算法一樣,仍然需要在文檔內(nèi)部以及文檔間進(jìn)行歧義過濾與最大組合過濾,得到最終的未知詞集unKnown,算法結(jié)束。

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)和工具

        本文利用爬蟲程序采集了某電商網(wǎng)站2 000個(gè)商品源文件,涉及項(xiàng)鏈、涼鞋、包、羽絨服、帽子、連衣裙、圍巾、燈飾、針織衫和牛仔褲等10個(gè)類別的商品,每個(gè)類別中商品數(shù)量均為200。按商品類別等比例選取其中1 000份作為數(shù)據(jù)集1,剩余1 000份作為數(shù)據(jù)集2。

        實(shí)驗(yàn)首先針對(duì)網(wǎng)頁進(jìn)行數(shù)據(jù)預(yù)處理,去除包括網(wǎng)頁標(biāo)簽在內(nèi)的無效字段,處理過程非本文重點(diǎn),在此不再贅述。

        為檢驗(yàn)本文算法對(duì)不同分詞工具的適應(yīng)性,實(shí)驗(yàn)過程分別采用MMAnalyzer和IKanalyzer[13]進(jìn)行測(cè)試。本文實(shí)驗(yàn)采用Precision(準(zhǔn)確率)和Recall(召回率)作為評(píng)價(jià)指標(biāo)。

        4.2 實(shí)驗(yàn)過程及結(jié)果

        1) 不同數(shù)據(jù)集結(jié)果比較

        表1為MC算法和FPC算法使用不同分詞工具在不同數(shù)據(jù)集上識(shí)別效果。對(duì)于每一個(gè)(算法,分詞工具,數(shù)據(jù)集)的組合,隨著支持度閾值min_sup閾值的增加,Precision和Recall也不斷變化,表1中所有結(jié)果均選取最佳識(shí)別效果時(shí)的準(zhǔn)確率召回率。其中MMAnalyzer和IKAnalyzer分詞工具分別簡(jiǎn)寫為MM和IK。

        表1 不同數(shù)據(jù)集上的結(jié)果

        由上表可以看出:對(duì)于MC算法、FPC算法、MMAnalyzer分詞工具、IKAnalyzer分詞工具的任意組合,均有較好的準(zhǔn)確率和召回率。

        2) 不同分詞工具結(jié)果比較

        觀察兩個(gè)算法在分別使用兩個(gè)分詞工具時(shí)識(shí)別結(jié)果的好壞,實(shí)驗(yàn)結(jié)果如圖3所示。

        由圖中可以看出,MC算法和FPC算法在兩個(gè)分詞工具上Precision和Recall的走勢(shì)一致,Precision隨著最小支持度參數(shù)min_Sup的增加而呈現(xiàn)上升趨勢(shì),在min_Sup=3時(shí)突變到一個(gè)高點(diǎn),并在min_Sup>3后趨于穩(wěn)定;Recall隨著min_Sup的增加而呈現(xiàn)下降趨勢(shì),在min_Sup=4時(shí)突變到0%附近,并在之后穩(wěn)定于0%。

        準(zhǔn)確率突變點(diǎn)的存在是因?yàn)殡娚叹W(wǎng)站商品網(wǎng)頁經(jīng)過數(shù)據(jù)預(yù)處理后的待識(shí)別的未知詞支持度普遍大于等于3,而其他候選未知詞中錯(cuò)誤的未知詞的支持度普遍小于3,從而導(dǎo)致當(dāng)min_Sup<3時(shí)識(shí)別出許多錯(cuò)誤的未知詞并拉低準(zhǔn)確率。召回率突變類似。

        MC算法和FPC算法在使用IKAnalyzer分詞工具時(shí),均可以得到更好的準(zhǔn)確率和召回率。這主要是由于算法1和算法2均先對(duì)輸入文本進(jìn)行了分詞處理,分詞的效果將直接影響到未知詞識(shí)別的效果。如果分詞工具將一個(gè)待識(shí)別未知詞的某一部分和其他詞分到了一起,則通過兩個(gè)算法都無法識(shí)別出正確的未知詞。例如,若未知詞(其中、、為單字或者字串)被分成了和,則經(jīng)過算法1和算法2都無法識(shí)別出,而分成和則可以很容易地被兩個(gè)算法識(shí)別出來。IKAnalyzer分詞工具比MMAnalyzer分詞工具更能避免此類錯(cuò)誤的分詞結(jié)果,故而具備更高的準(zhǔn)確率,又由于在同等情況下能識(shí)別出更多的未知詞而具備更高的召回率。算法表現(xiàn)仍然依賴于分詞效果,粒度越細(xì)的分詞工具理論上將獲得越好的表現(xiàn)。

        3) 算法的對(duì)比

        將使用相同分詞工具時(shí)兩個(gè)算法的結(jié)果進(jìn)行對(duì)比,如圖4所示。

        由圖4可以看出, FPC算法準(zhǔn)確率明顯優(yōu)于MC算法,但召回率則明顯弱于MC算法。由于本文所述的未知詞識(shí)別更為強(qiáng)調(diào)較高的準(zhǔn)確率,因此本文實(shí)驗(yàn)最終選取minSup=3,犧牲部分召回率換取令人滿意的準(zhǔn)確率。

        綜合整個(gè)對(duì)比分析過程,本文實(shí)驗(yàn)中最終未知詞識(shí)別的最佳組合方式為:FPC算法,IKAnalyzer分詞工具,min_Sup=3。

        5 結(jié)束語

        本文針對(duì)網(wǎng)絡(luò)中新出現(xiàn)的大量未知實(shí)體詞,提出了兩個(gè)未知詞識(shí)別算法:基于最大組合的上下文相關(guān)算法(MC)和基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC)。兩個(gè)算法均充分利用了字詞的上下文關(guān)系信息,可以有效識(shí)別專有領(lǐng)域具有非確定型結(jié)構(gòu)的未知實(shí)體詞,對(duì)于只能識(shí)別具有特定結(jié)構(gòu)實(shí)體詞的現(xiàn)有算法是一個(gè)很好補(bǔ)充。

        實(shí)驗(yàn)表明,本文算法具有較高的準(zhǔn)確率。同時(shí),算法可通過調(diào)整支持度閾值參數(shù)min_sup,從而適應(yīng)不同的應(yīng)用場(chǎng)景,具備一定的通用性。

        本文兩個(gè)算法中均用到了歧義過濾和最大組合過濾,然而兩種過濾方法均不能完全保證過濾的正確性,如何充分利用詞的構(gòu)詞模式和構(gòu)詞能力形成新的過濾方法是下一步的研究?jī)?nèi)容之一。另外,網(wǎng)頁噪聲處理有多種不同的方法,多種方法對(duì)于未知詞識(shí)別效果的影響也是下階段研究的重要內(nèi)容。

        參 考 文 獻(xiàn)

        [1] 秦文, 苑春法. 基于決策樹的漢語未登錄詞識(shí)別[J]. 中文信息學(xué)報(bào), 2004, 18(1): 14-19.

        QIN Wei, YUAN Chun-fa. Identification of Chinese unknown word based on decision tree[J]. Journal of Chinese Information Processing, 2004, 18(1): 14-19.

        [2] 王文榮, 喬曉東, 朱禮軍. 針對(duì)特定領(lǐng)域的新詞發(fā)現(xiàn)和新技術(shù)發(fā)現(xiàn)[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2008, 161(2): 35-40.

        WANG Wen-rong, QIAO Xiao-dong, ZHU Li-jun. New word and technology discovery of specific domain[J]. New Technology of Library and Information Service, 2008, 161(2): 35-40.

        [3]ZHANG K, LIU Q, ZHANG H, et al. Automatic recognition of Chinese unknown words based on roles tagging[C]//In SIGHAN¢02: Proceedings of the First SIGHAN Workshop on Chinese Language Processing. Association for Computational Linguistics.Stroudsburg: ACM Press, 2002: 1-7.

        [4] ZHOU G D, SU J. Named entity recognition using an HMM-based chunk tagger[C]//In ACL '02: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg: ACM Press, 2002: 473-480.

        [5] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]//In COLING '02: Proceedings of the 19th International Conference on Computational linguistics. Stroudsburg: ACM Press, 2002: 1-7.

        [6] KAZAMA J, MAKINO T, OHTA Y, et al. Tuning support vector machines for biomedical named entity recognition[C]//In BioMed¢02: Proceedings of the ACL-02 Workshop on Natural Language Processing in the Biomedical Domain. Association for Computational Linguistics. Stroudsburg: ACM Press, 2002: 1-8.

        [7] FLORIAN R, ITTYCHERIAH A, JING H, et al. Named entity recognition through classifier combination[C]//In CONLL¢03: Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. Stroudsburg: ACM Press, 2003: 168-171.

        [8] CHIEU H L, NG H T. Named entity recognition: a maximum entropy approach using global information[C]//In COLING¢02: Proceedings of the 19th International Conference on Computational Linguistics. Stroudsburg: ACM Press, 2002: 1-7.

        [9] 韓艷, 林煜熙, 姚建民. 基于統(tǒng)計(jì)信息的未登錄詞的擴(kuò)展識(shí)別方法[J]. 中文信息學(xué)報(bào), 2009, 23(3): 24-30.

        HAN Yan, LIN Yu-xi, YAO Jian-min, Study on Chinese OOV identification based on extension[J]. Journal of Chinese Information Processing, 2009, 23(3): 24-30.

        [10] 周蕾, 朱巧明. 基于統(tǒng)計(jì)和規(guī)則的未登錄詞識(shí)別方法研究[J]. 計(jì)算機(jī)工程, 2007, 33(8): 196-198.

        ZHOU Lei, ZHU Qiao-ming. Research on recognition method of unknown Chinese words based on statistic and regulation[J]. Computer Engineering, 2007, 33(8): 196-198.

        [11] 韓潔, 周勇, 劉少輝, 等. 基于WWW的未登錄詞識(shí)別研究[J]. 計(jì)算機(jī)科學(xué), 2002, 29(12): 155-156.

        HAN Jie, ZHOU Yong, LIU Shao-hui, et al. WWW-based recognition of non-login words[J]. Computer Science, 2002, 29(12): 155-156.

        [12] HAN J, KAMBER M, PEI J. Data mining: Concepts and techniques[M]. San Francisco: Morgan Kaufmann, 2006.

        [13] WANG Kun-shan. IKAnalyzer[EB/OL]. [2015-01-17]. https://github. com/ wks/ik-analyzer.

        編 輯 蔣 曉

        Unknown Words Recognition Based on Context-Sensitive Algorithm

        XIA Hu1,2and HUANG Wen-qian2

        (1. Big Data Research Center, University of Electronic Science and Technology of China Chengdu 611731; 2. Web Sciences Center, University of Electronic Science and Technology of China Chengdu 611731)

        Existing unknown words recognition methods mainly focus on unknown words with some specific structure, such as names, places and organizations. However, with the booming of e-commerce and social networking, more and more unknown entity words with uncertain structures appear in specific areas. In order to handle this problem, this paper presents two algorithms of unknown words recognition based on context-sensitive method. We first calculate correlations between any two words in sequence to get support of any potential combination, then filter out wrong combinations by filtering module, and achieve the recognition aiming at the non-deterministic structure of unknown words. Experiment results indicate that two algorithms can achieve a high accuracy. Besides, they can adapt to different application scenarios by adjusting the parameters.

        association rules; context-sensitivity; unknown word recognition; word sense disambiguation

        TP181

        A

        10.3969/j.issn.1001-0548.2016.05.022

        2015-02-06;

        2015-06-15

        國家自然科學(xué)基金(61250110543);中央高?;究蒲袠I(yè)務(wù)費(fèi)(ZYGX2013J079, ZYGX2014Z012, ZYGX2011J067);四川省科技項(xiàng)目(2012RZ0002, 2013TD0006)

        夏虎(1981-),男,博士,主要從事數(shù)據(jù)挖掘、復(fù)雜網(wǎng)絡(luò)方面的研究.

        猜你喜歡
        規(guī)則方法
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        學(xué)習(xí)方法
        規(guī)則的正確打開方式
        幸福(2018年33期)2018-12-05 05:22:42
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對(duì)我國的啟示
        可能是方法不對(duì)
        搜索新規(guī)則
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲美女国产精品久久久久久久久| 4hu四虎永久在线观看| 7777精品伊人久久久大香线蕉| av无码天堂一区二区三区| 亚洲伊人av综合福利| 中文字幕成人乱码熟女精品国50| 久久精品国产精品| 欧美自拍区| 黄色国产一区在线观看| 国产精品第一二三区久久| 99久久国产综合精品女图图等你| 国产精品理人伦国色天香一区二区| 亚洲国产精品美女久久久| 日韩人妖视频一区二区| 无码少妇精品一区二区免费动态| 久热这里只有精品99国产| 日本一区二区三深夜不卡| 有坂深雪中文字幕亚洲中文 | 99精品国产一区二区三区| 欧美高清国产在线播放| 国产大全一区二区三区| 精品国产av一区二区三区四区| 2020年国产精品| 无码久久流水呻吟| 久久精品伊人久久精品| 男人添女人囗交做爰视频| 日日躁夜夜躁狠狠躁超碰97 | 天堂网www在线资源| 大肥婆老熟女一区二区精品| 日本国产精品久久一线| 国语对白做受xxxxx在线| 动漫在线无码一区| 亚洲一区二区三区免费av| 日本一卡二卡3卡四卡免费观影2022| 2019最新国产不卡a| 亚洲无码观看a| 国产av一区二区三区在线播放| 中文无码久久精品| 浪荡少妇一区二区三区| 中文日本强暴人妻另类视频 | 精品一二区|