亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多策略中文微博實體詞消歧及實體鏈接

2016-09-08 10:30:38郭云龍曾維剛

計算機應用與軟件 2016年8期

關鍵詞：消歧百科義項

向　宇　郭云龍　徐　瀟　曾維剛　李　莉

(西南大學計算機與信息科學學院　重慶 400715)

多策略中文微博實體詞消歧及實體鏈接

向宇郭云龍徐瀟曾維剛李莉*

(西南大學計算機與信息科學學院重慶 400715)

在社交網(wǎng)絡迅猛發(fā)展的今天，如何對有歧義的微博實體進行消歧和如何將微博實體連接到知識庫已成為當今研究熱點。對實體消歧和實體鏈接提出了多種策略方案。首先利用ICTCLAS對微博文本進行分詞處理，利用百度百科、實體專家?guī)鞂嶓w進行規(guī)范化處理。然后利用由爬蟲爬取的百度百科信息、微博數(shù)據(jù)、網(wǎng)絡詞語構(gòu)建了消歧文本數(shù)據(jù)庫，再結(jié)合TF-IDF算法和Fast-Newman聚類算法對實體進行消歧和鏈接。使用第二屆自然語言處理與中文計算會議(NLP&CC 2013)中的中文微博實體鏈接任務給的數(shù)據(jù)進行測試，測評中準確率為84.99%，繼續(xù)改進模型后準確率達91.40%。

中文微博實體消歧TF-IDFFast-Newman聚類

0　引　言

微博作為新生的社交網(wǎng)絡平臺在快速發(fā)展，其規(guī)模、用戶人數(shù)及產(chǎn)生的數(shù)據(jù)量急劇增長。據(jù)2015年2月3日中國互聯(lián)網(wǎng)絡信息中心發(fā)布的《第35次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》，截至2014年12月，我國網(wǎng)民達6.49億，互聯(lián)網(wǎng)普及率為47.9%。其中微博用戶達2.49億。微博己成為網(wǎng)民頻繁使用的社交主流應用，龐大的用戶規(guī)模鞏固其網(wǎng)絡輿論傳播的中心地位。微博的內(nèi)容簡短，每條微博內(nèi)容不超過140個字符，使得用戶頻繁發(fā)表。但微博巨大的信息量使用戶很難在短時間內(nèi)準確獲取微博中命名實體的含義，又因微博中充斥大量網(wǎng)絡用語、口語、縮略語，實體名稱往往具有歧義性，給識別帶來了很大挑戰(zhàn)。中文微博實體與知識庫條目的鏈接，能夠有效地解決上述實體消歧的問題。將微博文本中的實體與知識庫中的實體加以鏈接，有助于利用社交媒體內(nèi)容進行知識庫的構(gòu)建與擴展后更好的呈現(xiàn)給用戶，方便用戶理解與閱讀。

中文微博實體詞消歧：是專門針對中文微博文本中的實體在存在多個義項情況下，辨別實體指示的是哪個義項。比如微博“熱火27連勝！熱火勝猛龍、勝山貓、勝火箭……熱火各種的勝，并成為了NBA第二長連勝?！敝械膶嶓w“猛龍”就是一個存在多義項的實體，“猛龍”既可以是多倫多猛龍隊，又是一部電影的名字，還是時尚品牌皮具名字。微博實體消歧義就是辨別出文本中的“猛龍”指的是多倫多猛龍隊。

中文微博實體鏈接：指的是給出中文微博中的實體，在指定的知識庫中匹配與之相符的目標條目，也就是返回知識庫中目標條目的主鍵或返回NIL。同樣以上述微博為例子，若給定知識庫中有條目為“多倫多猛龍隊”且此條目的主鍵為KB123456，鏈接任務要求輸出條目的主鍵KB123456。若給定知識庫中不存在“多倫多猛龍隊”這個條目，直接輸出NIL。

本文進行了如下工作：

(1) 提出并構(gòu)建了多策略的命名實體消歧和鏈接流程。

(2) 構(gòu)建地名專家知識庫系統(tǒng)、人名專家知識庫系統(tǒng)。

(3) 對待測實體做了有效的預處理和優(yōu)化了數(shù)據(jù)庫。

(4) 提出了結(jié)合TF-IDF算法和Fast-Newman聚類算法對命名實體消歧，此為重點工作。

1　相關研究

關于命名實體識別與消歧，國內(nèi)已經(jīng)有了很多相關的研究。

有學者采用基于規(guī)則匹配或概率統(tǒng)計進行研究：王寧等采用建立規(guī)則的方法對中文金融信息中公司名稱的組成方式與特征進行了深入的分析[1]。張小衡等就中文機構(gòu)名稱尤其是中文高校名稱采用基于規(guī)則的方式進行實體識別[2]。肖計劃就地名和地名語料庫采用了概率統(tǒng)計的方法來進行識別與匹配[3]。

有的學者采用基于最大熵模型和基于CRF(條件隨機場)來研究命名實體：YiFeng Lin等人在生物醫(yī)學領域利用基于最大熵模型進行實體識別[4]。張祝玉等研究了使用CRF進行實體識別的有效性[5]。何炎祥等采用了CRF和規(guī)則相結(jié)合的方法對地名實體進行識別[6]。劉凱就中醫(yī)病歷中的實體采用了CRF模型[7]。

有的學者采用HMM(隱馬爾可夫模型)來研究命名實體：王丹等在利用HMM以詞性做觀察值避行初步實體識別之后，構(gòu)建拼音同指關系庫來識別潛在實體[8]。俞鴻魁等則提出了一種基于層疊HMM的中文實體一體化識別方法[9]。樂娟等對京劇機構(gòu)實體采用了結(jié)合Viterbi 算法和規(guī)則樹HMM[10]。李幸等提出了一種層次化句法分析方法，統(tǒng)計提取了關于標點符號的語法規(guī)則以及相應的分布信息，從而降低了實體消歧的難度[11]。

上述學者對命名實體研究都有不同的研究對象，但是很少學者對微博中命名實體進行研究，所以就中文微博這種不超過140個字短文本中的實體消歧和實體鏈接進行專題研究。受到王寧等[1]和張小衡等[2]在命名實體研究中建立規(guī)則的啟發(fā)，建立了正則表達式規(guī)則、采用百度百科跳轉(zhuǎn)、通過人名地名專家?guī)煊成鋵Υ郎y實體進行預處理。受到王丹等[8]在命名實體識別中關注詞性的做法的啟發(fā)，通過ICTCLAS對待測實體所在微博文本進行分詞處理，只保留名詞。針對命名實體識別，本文單獨提出結(jié)合了TF-IDF算法和Fast-Newman聚類算法的實體消歧算法。

2　整體流程和多策略預處理

針對中文微博中實體消歧和鏈接，工作整體流程如圖1所示。首先待測實體進入這個系統(tǒng)后，要通過策略1、策略2、策略4，最后得到最終的規(guī)范名稱組。然后進入策略5，當遇到待測實體有多個義項時再采取策略6和策略7，最后返回待測實體在知識庫中主鍵或NIL。

圖1　多策略中文微博實體消歧和鏈接知識庫整體流程

2.1數(shù)據(jù)來源

涉及到的數(shù)據(jù)分為兩類，一類是待測實體和對應微博、知識庫，另一類是百度百科文本、新浪微博文本。

待測實體和知識庫主要來自NLP&&CC2013官方測評數(shù)據(jù)中的待測實體和對應微博、知識庫，待測實體和對應的微博都來自新浪微博。前者一共包括1274個待測實體，而在實際測評中主辦方只針對前826個待測實體進行測試。而知識庫中一共包含了44 492個實體。但是這些待測實體往往存在許多噪聲，另外知識庫中也有不正確的數(shù)據(jù)，具體情況如表1所示。百度百科文本和新浪微博文本是用來對微博中的實體進行消歧的，都是通過網(wǎng)頁爬蟲獲取的，以txt文件形式存放在本地。

表1　中文微博文本知識庫文本噪聲類型、說明及舉例

2.2策略1：正則表達式處理

從CCF測評數(shù)據(jù)中得到的實體的形式是相當混亂的，如表1所示，所以對給出的待測實體進行規(guī)范化處理就很有必要，受到王寧等[1]和張小衡等[2]在命名實體研究中建立規(guī)則的啟發(fā)，通過正則表達式去掉實體中的標點符號以及將外國人名中間的符號規(guī)范為·(例如書名號、感嘆號等，例如“<霸王別姬>”規(guī)范為“霸王別姬”和“本·拉登”規(guī)范為“本·拉登”)。

2.3策略2：百度百科搜索跳轉(zhuǎn)

在策略1完成之后，利用百度百科搜索跳轉(zhuǎn)，爬去百度百科不同義項的百科頁面的title以獲取規(guī)范名稱組。例如“柯南”這一實體，柯南在百度百科中有5個義項，分別獲取這5個義項的title然后取重后得到“‘柯南·奧布萊恩’、‘名偵探柯南’、‘阿瑟·柯南·道爾’、‘柯南’、‘江戶川柯南’”這一組規(guī)范名稱組，同時英文實體轉(zhuǎn)化為中文實體也是在這一步中完成的(例如“eagles”規(guī)范為老鷹樂隊)。具體情況如表2所示。

表2　百度百科跳轉(zhuǎn)對待測實體預處理舉例

2.4策略3：分詞及去停用詞處理

采用了中科院張華平博士開發(fā)的漢語詞法分析系統(tǒng)ICTCLAS對文本數(shù)據(jù)進行分詞及詞性標注[12]。之所以使用ICTCLAS分詞工具對微博文本進行分詞處理，是因為ICTCLAS分詞效果好和ICTCLAS具有詞性標注功能。然后只采用具有實際意義的名詞作為保留詞，其他如形容詞、副詞、介詞等詞語均被視為停用詞而去掉。

2.5策略4：人名和地名實體專家?guī)斓挠成?/p>

在實體識別中經(jīng)常遇到人名實體處理、地名實體處理等問題，這就造成了數(shù)據(jù)嚴重稀疏、知識庫無法檢索等問題。吳友政引入了專家知識來規(guī)范實體[13]，本文采用此方法構(gòu)建了人名實體專家?guī)?、地名實體專家?guī)?，從而達到了提高檢索命中率、消歧系統(tǒng)效率。

人名實體專家?guī)欤褐饕琋BA明星綽號、足球明星綽號等，如果當前實體是某個人的綽號，則人名實體專家?guī)鞎?guī)范化實體，例如“大鯊魚”規(guī)范為“沙奎爾·奧尼爾”、“詹皇帝”規(guī)范為“勒布朗·詹姆斯”。

地名實體專家?guī)欤喊酥袊箨懼陛犑小⒆灾螀^(qū)、特區(qū)、省、市、縣。專家?guī)鞎⒌孛麑嶓w規(guī)范為帶地名后綴和不帶地名后綴的兩個實體，例如實體“泰順縣”會規(guī)范為“泰順縣”和“泰順”，實體“紅河谷景區(qū)”會規(guī)范為“紅河谷景區(qū)”和“紅河谷”。這里地名后綴為“省、開發(fā)區(qū)、風景區(qū)”等。

2.6策略5:在優(yōu)化后的知識庫選擇性查找

知識庫中有不少的噪音，如表1所示的“雍正王朝”錯分為皇帝類別，還出現(xiàn)了不同主鍵的條目對應同一個命名實體的情況。所以對知識庫做了優(yōu)化，將知識庫中分類錯誤的條目劃分到正確類別以及去除重復的條目。

把規(guī)范名稱組拿到優(yōu)化后的知識庫中做選擇性查找,這時候有三種情況：

① 知識庫中不存在這個實體，那么直接返回空(NIL);

② 知識庫中這個實體只有1個義項，那么直接輸出實體在知識庫中的主健;

③ 知識庫中這個實體有多個義項，那么此時要利用策略2中得到的待測實體對應的名詞詞組進入策略6(TF-IDF算法消歧)和策略7(Fast-Newman聚類)中對實體進行消歧，最后最符合待測實體的義項在知識庫中的主健。

3　消歧算法

本小節(jié)包括2個消歧算法。分別是策略6結(jié)合百度百科的TF-IDF算法和策略7結(jié)合新浪微博的Fast-Newman聚類。因為NLP&&CC2013官方給定的知識庫是由百度百科構(gòu)建，所以采用了結(jié)合百度百科的TF-IDF算法進行基本消歧。但是由于知識庫中實體文本的過于專一性，又因為待測實體都位于新浪微博中，所以采用了結(jié)合新浪微博的Fast-Newman聚類用來形成詞語簇進行擴展消歧。這2個算法都是用于實體鏈接知識庫遇到多義項時進行消歧的，使得待測實體和知識庫中義項實體產(chǎn)生距離一個介于0到1之間的“距離”。然后兩者相加，產(chǎn)生一個介于0到2之間的“距離”，這個“距離”越靠近2則越說明該義項實體越接近待測實體。

3.1策略6:基于TF-IDF實體義項消歧算法

結(jié)合百度百科的TF-IDF算法進行消歧的數(shù)據(jù)流如圖2所示。首先使用待測命名實體作為輸入數(shù)據(jù)，先用規(guī)范化的命名實體去百度百科中搜索，從百度百科中返回不同的義項頁面。但是進行消歧并不需所有義項頁面，只需要待測命名實體在百度百科對應的義項頁面。舉個例，比如用待測命名實體E去百度百科中搜到T1、T2、T3、T4、T5、T6等義項的百度百科頁面，而待測命名實體E在知識庫中只有T1、T3、T6三個義項，那么只需要提取T1、T3、T6這三個義項的百度百科頁面。接下來就是對提取得到的義項頁面進行詞頻統(tǒng)計，然后計算TF-IDF值，最后結(jié)合微博詞頻統(tǒng)計文本計算余弦距離。

圖2　TF-IDF算法整體流程

3.1.1構(gòu)建待消歧實體百科文本詞頻統(tǒng)計庫

對于待測實體E，它在知識庫中有T1，T2，…，Ti等義項。在百度百科中爬去對應的T1，T2，…，Ti等義項的百科頁面中的正文，得到Text1，Text2，…，Texti。然后對其進行分詞，通過去掉停用詞處理得到百科文本詞頻統(tǒng)計文本。在此以“猛龍”為例進行說明，它在知識庫中有“球隊”、“電影”、“品牌”這3個不同義項。如圖3所示。

圖3　從百度百科爬去“實體”猛龍3個不同義項的文本

在獲得3個不同義項百度百科義項頁面后得到Text1、Text2、Text3這3個不同義項的百度百科正文文本，然后分別對Text1、Text2、Text3利用ICTCLAS進行分詞處理，在去掉停用詞后統(tǒng)計所得詞語及其頻數(shù)，其結(jié)果如圖4所示。

圖4　“猛龍”3個義項百科文本詞頻統(tǒng)計圖

3.1.2TF-IDF模型計算詞語權重

TF-IDF模型常用評估一個詞語對于一個文檔的重要程度，經(jīng)常應用于搜索技術和信息檢索的領域。一個詞語TF-IDF值與它在文檔中出現(xiàn)頻數(shù)成正比，與它在語料庫中出現(xiàn)的頻率成反比。TF-IDF由TF詞頻和IDF逆向文件頻率相乘而得，對于詞語ti來說：

(1)

另外值得注意的是，如果詞語ti不在語料庫中那么式(1)中|{j:ti∈dj}|為0，那么會導致IDFj中分母為0，則無法計算出IDFj值。所以需要改進為如下：

(2)

3.1.3向量空間中進行實體消歧

對于待測實體E和對應微博W，經(jīng)過ICTCLAS分詞取停用詞后得到詞語組“w1,w2,w3,w1,E,w2,w1,w4,……”，然后統(tǒng)計這一組詞語頻數(shù)，并且移除待測實體e及其詞頻，于是得到微博W文本詞頻特征向量:

w1w2w3w4w5…

W=(m1,m2,m3,m4,m5…)

以待測實體“猛龍”的微博W“【熱火27連勝！】熱火勝猛龍、勝山貓、勝火箭……熱火各種的勝，并成為了NBA第二長連勝。錯過了昨日《NBA最前線》的童鞋，沒關系，這里為你再次奉上熱火27連勝的完整回顧，很勁爆、很熱力。”為例，通過上述方法可得微博W文本詞頻特征向量：

熱火NBA熱力回顧火箭山貓

W=(4,2,1,1,1，1)

假設待測實體E在知識庫中對應T1、T2……等m個不同的義項。采用3.1.1 節(jié)中的方法構(gòu)建待消歧實體百科文本詞頻統(tǒng)計庫，根據(jù)詞語及詞頻得到這幾個不同義項的文本詞頻特征向量。再通過TF-IDF模型計算這幾個不同義項對應的TF-IDF向量。

在得到待測實體E、義項T1、T2……的詞向量，然后通過余弦相似度公式[14]：

(3)

其中ωj,e是待測實體E對應詞向量的第j個分量，ωj,t(i)是義項Ti對應詞向量的第j個分量。依次計算E和T1、E和T2……的相似度，cos(E,Ti)越大越表明義項Ti符合待測實體E含義。

3.2策略7:基于Fast-Newman聚類實體義項消歧

Fast-Newman聚類消歧算法是利用海量微博信息，將微博文本進行分詞處理，通過此算法，會得到待測命名實體不同義項的詞語簇，將此詞語簇作為待測命名實體消歧的擴展數(shù)據(jù)，因為每一個詞語簇能夠表示實體的義項。圖5為Fast-Newman聚類消歧的數(shù)據(jù)流圖,如圖6為對數(shù)據(jù)流圖中Fast-Newman聚類流程的詳細描述。

圖5　Fast-Newman聚類消歧數(shù)據(jù)流圖

圖6　Fast-Newman聚類消歧流程

3.2.1新浪微博文本的預處理

① 用第i個待測實體為關鍵詞，去新浪微博搜索大量微博并存放在文件夾D中，若一共獲取了j條微博，顯然有D={f1,f2,…,fj}。

② 對D里每一條微博進行分詞處理，假設通過D文件夾。

算法獲得詞語矩陣1:foreachmicroblogfi,j∈Ddo2: entity[]<-wordSegment(fi,j)//微博fi,j分詞提取名詞3: forp=1toSize(entity)-1do//Size(entity)為數(shù)組entity大小4: forq=1toSize(entity)-pdo5: x<-index_entity_map[entity[p]];//通過鍵值對映射找6: y<-index_entity_map[entity[q]];//到entity[p]的編號7: Mi[x][x]++;8: M[x][y]++;9: M[y][y]++;10: endfor11: endfor12:endfor

(4)

表[x][y]和數(shù)值大小與詞語y和詞語x關聯(lián)度

3.2.2主要流程

圖7　Fast-Newman算法聚類中詞語簇并列化過程圖

Fast-Newman算法[17]初始網(wǎng)絡為n個社團，開始每個節(jié)點都是獨立一個社團。初始化開始有:

(5)

(6)

然后合并有邊相連的社團同時計算有邊相連的社團對，并計算合并后的模塊度增量ΔQ=eij+eji-2aiaj=2(eij-aiaj)。依次迭代進行，最后n個社團在n次迭代中逐漸并列化，如圖8所示。

圖8　待測實體“猛龍”紐曼函數(shù)聚類結(jié)果圖

通過Fast-Newman算法聚類后，最后就會使每一個詞語歸并到簇ci中,i∈[1,K],K為簇的總個數(shù)。對所分得簇進行分析并人工打上標簽，即不同的簇對應不用的該實體的不同義項。

3.2.3根據(jù)Jaccard相似度計算待測實體與義項相似性

Jaccard相似度[12]被定義為:

(7)

待測實體E在知識庫中對應T1，T2，…等m不同的義項。通過Fast-Newman聚類得到關聯(lián)詞語簇為C1={c1,1,c1,2,…，c1,i}、C2={c2,1,c2,2,…，c2,j}……等m不同義項的詞語簇。同樣按照3.1.3節(jié)中文本詞頻特征向量方法得到在去掉待測實體E本身后微博文本自身的詞語簇為T={t1,t2,…，tj}。然后依次計算Ci和T的Jaccard相似度。若Ci使得Jd(Ci,T),k∈{1,2,…,m}取最大值，那么則說明義項Ti最匹配微博文本中待測實體E。

4　實驗結(jié)果及總結(jié)

4.1評價標準

NLP&&CC2013對測評結(jié)果的評價標準有正確輸出、總準確率、in-KB結(jié)果準確率、NIL結(jié)果準確率、in-KB結(jié)果召回率、NIL結(jié)果召回率、in-KB結(jié)果F值、NIL結(jié)果F值。其中F值是準確率和召回率的調(diào)和平均數(shù)。In-KB結(jié)果表明實體在知識庫中查詢后知識庫中有與之相匹配的記錄，其中返回的結(jié)果是實體在知識庫中主健，形如“KBBD027673”；NIL結(jié)果表明們實體在知識庫中查詢后知識庫中沒有與之相匹配的記錄。以上評價標準的計算法公式如下，其中字母含義見表4所示。

表4　評價指標公式中數(shù)據(jù)說明

4.2結(jié)果及分析

抽取了政治社會人名、娛樂體育人名、虛擬人名、中國地名、外國地名、教育機構(gòu)、企業(yè)機構(gòu)、政法機構(gòu)、娛樂體育機構(gòu)作為著重考察對象,且分別對應著表5中第一列類別中的A、B、C、D、E、F、G、H、I。在826個待測實體中政治社會人名141個、娛樂體育人名188個、虛擬人名36個、中國地名109個、外國地名19個、教育機構(gòu)16個、企業(yè)機構(gòu)57個、政法機構(gòu)36個、娛樂體育機構(gòu)35個，總共637個，這幾類實體占實體比例為77.1%，可以體現(xiàn)實體實體識別的效果。表5為改進后NLP&&2013測評中不同類型的實體識別準確率、召回率、F值統(tǒng)計表。

從表5中可以看出，模型得到不同類別實體識別結(jié)果的準確率基本都在90%以上，特別針對教育機構(gòu)識別率達到了100%，由此可見算法對實體消歧有具有較好的有效性、準確性。利用策略1到策略8的方法，對數(shù)據(jù)集進行實體鏈接匹配。通過測試樣例數(shù)據(jù)以及相關實體微博數(shù)據(jù)進行百科數(shù)據(jù)搜集與詞語聚類，建立消歧文本，通過實體消歧算法輸出結(jié)果在NLP&&CC2013測評中實體識別的準確率為84.99%，名列第4[18]。

表5　NLP&&2013測評中不同類型實體識別準確率、召回率、F值統(tǒng)計表

模型改進之后準確率提高到了91.40%，與評測方已知結(jié)果進行比對，準確率、召回率以及F值均有提高，遠高于評測的平均結(jié)果，部分指標甚至超過了評測的最好結(jié)果，如表6所示。

從表6中可以看出，在改進之后和測評相比in-KB和NIL的結(jié)果都有了明顯的提升了，其中正確數(shù)和準確率等指標已經(jīng)超過測評時位居第一的富士通研究與開發(fā)中心和測評時位居第二的西南交通大學思維與智慧研究所。其中in-KB提升原因主要是采用了策略6和策略7消歧算法，找到的待測實體正確的對應義項。比如例子中的“猛龍”，在沒有采用消歧算法前找到的是“電影猛龍”而不是“多倫多猛龍隊”?？偟膩碚f，本文建立起的方法對微博中的命名實體消歧和命名實體鏈接具有很好的效果。

表6 　實驗縱向比較結(jié)果

5　結(jié)　語

當下，微博作為新媒體強勢崛起，有關于中文微博的研究引起了各方的極大興趣。本文構(gòu)建了多策略的命名實體消歧和鏈

接流程，首先使用策略1(正則表達式處理)、策略2(百度百科搜索跳轉(zhuǎn))、策略4(人名地名實體映射)對待測實體做出有效的預處理，然后進入策略5(在優(yōu)化后的知識庫中選擇性查詢)進行命名實體到知識庫的鏈接，當遇到有歧義的命名實體時采用策略6(TF-IDF算法)和策略7(Fast-Newman聚類算法)對有歧義的命名實體進行消歧處理。通過上訴方法，在中文微博實體鏈接任務中取得了非常不錯效果。

本文在基于中文微博實體消歧和鏈接方面做了一定的研究，還有很多工作有待進一步完善并深入研究，歸納起來有以下幾點：

(1) 對獲取的網(wǎng)頁百科資源及知識庫資源梳理工作效果還有待提高。因傳統(tǒng)關系數(shù)據(jù)庫分類不清晰，可在此基礎上引入語義關系，將不同類別下但又具有相關性的實體進行語義鏈接處理，這樣在查詢檢索體現(xiàn)語義推理的特性。

(2) 采用多策略算法。單一算法的有效性與準確性通過反復嘗試和驗證，已充分優(yōu)化，但方法之間的組合上，方法結(jié)果的權重設置上還具有改善空間。

(3) TF-IDF算法所涉及的數(shù)據(jù)全部來自于百度百科，來源比較單一，而有些人名命名實體沒有被百度百科收錄。但是被維基百科、互動百科等其他百科收錄。所以TF-IDF算法消歧文本還可以從維基百科、互動百科等其他百科中擴充。

[1] 王寧，葛瑞芳，苑春法，等.中文金融新聞中公司名的識別[J].中文信息學報,2002,16(2):1-6.

[2] 張小衡，王玲玲.中文機構(gòu)名稱的識別與分析[J].中文信息學報,1997,11(4):21-31.

[3] 肖計劃.地名識別與匹配的概率統(tǒng)計方法[J].測繪科學技術學報,2014,31(4):408-412.

[4] YiFeng Lin,TzongHan Tsai,WenChi Chou,et al.A Maximum Entropy Approach to Biomedical Named Entity Recognition[J].ProcediaTechnology,2012,6:379-386.

[5] 張祝玉，任飛亮，朱靖波.基于條件隨機場的中文命名實體識別特征比較研究[C]//第四屆全國信息檢索與內(nèi)容安全學術會議論文集.北京：中國中文信息學會,2008.

[6] 何炎祥，羅楚威，胡彬堯.基于CRF 和規(guī)則相結(jié)合的地理命名實體識別方法[J].計算機應用與軟件,2015,32(1):179-185,202.

[7] 劉凱.基于條件隨機場的中醫(yī)病歷命名實體抽取方法研究[D].北京:北京交通大學,2013.

[8] 王丹，樊興華.面向短文本的命名實體識別[J].計算機應用,2009,29(1):143-145.

[9] 俞鴻魁，張華平，劉群.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006,27(2):87-94.

[10] 樂娟，趙璽.基于HMM的京劇機構(gòu)命名實體識別算法[J].計算機工程,2013,39(6):266-271.

[11] 李幸，宗成慶.引入標點處理的層次化漢語長句句法分析方法[J].中文信息學報,2006,20(4):8-15.

[12] http://ictclas.nlpir.org/.

[13] 吳友政.漢語問答系統(tǒng)關鍵技術研究[D].北京:中國科學院自動化研究所,2006.

[14] Hector Garcia-Molina，Jeffrey D Ullman，Jennifer Widom.數(shù)據(jù)庫系統(tǒng)實現(xiàn)[M].北京:機械工業(yè)出版社,2011.

[15] Chao Gao，Jinming Liu.Clustering-Based Media Analysis for Understanding Human Emotional Reaction in an Extreme Event[J].Foundations of Intelligent Systems,2012,7661:125-135.

[16] David Chavalarias,Jean-philippe Cointet.Bottom-up scientific field detection for dynamical and hierarchical science mapping,methodology and case study[J].Scientometrics,2008,75(1):37-50.

[17] Newman M E J.Fast algorithm for detecting community structure in networks[J].Physical review E,2004,69(066133):1-5.

[18] http://tcci.ccf.org.cn/conference/2013/dldoc/evres04.pdf.

ENTITY WORDS DISAMBIGUATION AND ENTITY LINKING WITH MULTI-STRATEGY IN CHINESE MICROBLOGS

Xiang YuGuo YunlongXu XiaoZeng WeigangLi Li*

(SchoolofComputerandInformationScience,SouthwestUniversity,Chongqing400715,China)

Nowadays,the social networks are highly developing.How to disambiguate the microblogging entities with equivocal meaning and to link the entities to knowledge base have become the research focus at present.The paper proposes multiple strategic schemes in regard to entity disambiguation and entity linking.First it uses ICTCLAS to make word segmentation on microblogging texts,and uses Baidu Baike and entity expert database to normalise the entities.Then the paper uses Baidu Baike information,microblogging data and network terms caught by the web crawler to construct the disambiguation text database,and combines TF-IDF algorithm and Fast-Newman clustering algorithm to disambiguate and link the entities.We tested the data fetched from Chinese microblog entity linking task in 2rd Natural Language Processing & Chinese Computation conference (NLP&CC 2013).In the assessment the accuracy rate achieved 84.99%,and further achieved 91.40% after the constant improve of the model.

Chinese microblogEntity disambiguationTF-IDFFast-Newman clustering

2015-03-23。國家自然科學基金項目(61170192)。向宇，本科生，主研領域：自然語言處理。郭云龍，碩士生。徐瀟，本科生。曾維剛，本科生。李莉，教授。

TP3

10.3969/j.issn.1000-386x.2016.08.003

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多策略中文微博實體詞消歧及實體鏈接

0 引 言

1 相關研究

2 整體流程和多策略預處理

3 消歧算法

4 實驗結(jié)果及總結(jié)

5 結(jié) 語

0　引　言

1　相關研究

2　整體流程和多策略預處理

3　消歧算法

4　實驗結(jié)果及總結(jié)

5　結(jié)　語