亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信息關聯(lián)拓撲的互聯(lián)網(wǎng)社交關系挖掘

        2016-07-19 19:39:43劉錦文邢凱芮偉康張利萍周慧
        計算機應用 2016年7期
        關鍵詞:關聯(lián)度關聯(lián)詞語

        劉錦文 邢凱 芮偉康 張利萍 周慧

        摘要:針對目前基于監(jiān)督學習的關系抽取方法需要標注大量訓練數(shù)據(jù)和預先定義關系類型,提出了一種基于詞語共現(xiàn)信息構建關聯(lián)網(wǎng)絡并在關聯(lián)網(wǎng)絡上進行圖聚類分析的人物關系提取方法。首先,從新聞標題數(shù)據(jù)獲得關聯(lián)度較高的500個人物對用于關系抽取研究;然后,抓取關聯(lián)人物對所在新聞數(shù)據(jù),對其進行預處理,并利用詞頻—逆向文檔頻率(TFIDF)得到人物對共現(xiàn)句子中的關鍵詞;其次,基于詞語共現(xiàn)信息得到詞語之間的關聯(lián),進而建立關鍵詞關聯(lián)網(wǎng)絡;最后,利用對關聯(lián)網(wǎng)絡進行圖聚類分析以獲得人物關系。在關系抽取的實驗中,與傳統(tǒng)基于詞語共現(xiàn)和模式匹配的中文實體關系提取方法相比,所提方法在準確率、召回率和平衡F分數(shù)(Fscore)上分別提升了5.5,3.7和4.4個百分點。實驗結果表明,所提算法能夠在沒有標注訓練數(shù)據(jù)的條件下,有效地從新聞數(shù)據(jù)中抽取豐富且高質(zhì)量的人物關系數(shù)據(jù)。

        關鍵詞:

        社會關系抽取;共現(xiàn)統(tǒng)計;詞語關聯(lián)度;關聯(lián)網(wǎng)絡;圖聚類

        中圖分類號: TP391.1 文獻標志碼:A

        0引言

        目前,互聯(lián)網(wǎng)規(guī)模正在以指數(shù)級的速度膨脹,互聯(lián)網(wǎng)上的海量信息具有重要的價值。如何從互聯(lián)網(wǎng)上海量的信息中提取有價值的數(shù)據(jù)已經(jīng)成為了當前研究的熱點問題。人物社會關系是人與人之間因為某種社會存在而產(chǎn)生的關聯(lián)。人物關系提取則是挖掘這種重要關系的技術,它的主要任務是從多元結構的互聯(lián)網(wǎng)數(shù)據(jù)中提取出人物關系三元組數(shù)據(jù),例如,給定一個句子“姚明的妻子是葉莉”作為輸入,關系抽取算法應該從中抽取出“〈姚明,妻子,葉莉〉”。這些事實三元組可以被用于構建大規(guī)模、高質(zhì)量的知識庫;同時可以用于構建海量知識圖譜和問答系統(tǒng)。

        互聯(lián)網(wǎng)中存在大量的中文數(shù)據(jù),但是關系抽取的研究主要集中在英語資源的處理上,中文語料庫上的研究較少。與英文相比,基于無結構中文數(shù)據(jù)的人物社會關系提取研究存在如下難點:中文需要分詞,存在復雜的句式結構和隱含的語義,基于單個句子進行人物關系判定往往不夠準確。目前大多數(shù)人物關系抽取研究將關系提取問題轉(zhuǎn)化為分類問題,需要訓練數(shù)據(jù)和復雜的特征提取技術以及事先定義關系類型體系,訓練數(shù)據(jù)往往需要大量的人工標注工作,特征工程的設計需要大量的嘗試,構造較為復雜。事先定義關系類型體系后,無法挖掘到新的關系類型。

        針對這些問題,本文提出一種基于關鍵詞關聯(lián)網(wǎng)絡的無監(jiān)督人物關系提取方法。與上述方法有3點不同:

        1)不依賴特定的訓練集,面向海量的互聯(lián)網(wǎng)新聞數(shù)據(jù),解決了有監(jiān)督問題的領域適應性不強的問題;

        2)以實體對共現(xiàn)的句子集合為研究對象,減小了依賴單個句子信息抽取關系帶來的誤差;

        3)不需要事先確定的關系類型體系,能夠解決人工定義關系類型不全面的問題。

        首先利用關聯(lián)分析技術得到候選人物對,然后抓取人物對共現(xiàn)新聞正文并提取正文數(shù)據(jù)中的關鍵詞,最后構建關鍵詞關聯(lián)網(wǎng)絡并進行圖聚類得到人物關系;在實驗部分,本文進行了參數(shù)選擇實驗并與傳統(tǒng)的基于詞共現(xiàn)和模式匹配的中文實體關系提取方法進行了對比,驗證了本文提出的關系挖掘方法的可行性和有效性。

        1相關工作

        二元人物關系提取主要有基于知識工程的方法和基于機器學習的關系抽取方法[1]?;谥R工程的方法需要大量的人力、物力去構造知識庫,并且系統(tǒng)可移植性能不佳。基于機器學習的方法已經(jīng)成為目前關系抽取領域的研究熱點。文獻[2]使用兩種基于特征向量的機器學習算法,Winnow和支持向量機(Support Vector Machine, SVM)在自動內(nèi)容抽取測評會議(Automatic Content Extraction, ACE)的訓練數(shù)據(jù)上進行實體關系抽取,兩種算法的加權平均Fscore分別是73.08%和73.27%。文獻[3]針對中文實體關系提取中的句法特征的選取進行了對比研究,并提出了新的句法特征。文獻[4]提出基于動態(tài)卷積神經(jīng)網(wǎng)絡識別句子中是否含有謂詞表示的關系。文獻[5]提出了基于樹核的人物關系提取方法,應用剪枝規(guī)則,語義信息的嵌入以及重采樣技術將Fscore提高3.5%。文獻[6]提出了面向大規(guī)模網(wǎng)絡文本的無指導中文的實體關系抽取方法。

        在關鍵詞抽取研究方面,文獻[7]綜合考慮了關鍵詞在文章中的位置,詞性以及逆向文檔頻率(Inverse Document Frequency, IDF)等因素進行關鍵詞提取。文獻[8]針對具有社會網(wǎng)絡特性的碎片文檔改進現(xiàn)有的關鍵詞提取算法,從微博事件集合中提取代表該事件主要內(nèi)容的關鍵詞集合。在關鍵詞間關聯(lián)度計算方面,基于語料庫的統(tǒng)計方法通過計算詞匯的共現(xiàn)來衡量詞匯間的關聯(lián)。文獻[9]提出詞語關聯(lián)關系能夠有效地反映詞語間的關聯(lián)度;文獻[10]引入詞語關聯(lián)分布關系,提出基于互信息的詞語關聯(lián)衡量方法,提高了目標詞語相似度計算的準確性。

        在聚類分析中,一種非常重要的特征模式聚類變體就是圖聚類[11]。圖聚類算法中clique算法是基于密度和網(wǎng)格的聚類算法,是一種啟發(fā)式的復雜網(wǎng)絡聚類算法,它采用子空間進行聚類,適用于處理大數(shù)據(jù)集和高維數(shù)據(jù)。文獻[12]在2005年提出首個重疊社團發(fā)現(xiàn)算法即派系過濾算法(Clique Percolation Method, CPM),此算法把社團看作是由相互連通的完全子圖(k團)組成。文獻[13]提出基于一種基于kclique覆蓋的圖挖掘算法;文獻[14]基于關鍵詞在文檔中的共現(xiàn)構建關鍵詞網(wǎng)絡,并提出一個新的事件檢測算法,這個算法通過建立關鍵詞網(wǎng)絡和類似社會網(wǎng)絡分析中的社團檢測算法來發(fā)現(xiàn)和描述事件。

        2人物社會關系提取

        人物關系,是指人物在其特定的社會范圍內(nèi)與他人之間存在和產(chǎn)生的關系。人物關系抽取屬于實體關系抽取的范疇,實體關系抽取的任務是從文本中識別出不同實體間的語義關系。如果這兩個實體是人物,那么它就是人物關系抽取。人物關系抽取正是要從文本中獲得人物關系,新聞數(shù)據(jù)中蘊含許多人物關系,新聞中的人名一般較規(guī)范,利于人名識別的實現(xiàn)。本文以新聞文本數(shù)據(jù)為研究對象,主要利用詞語間的共現(xiàn)關系進行人物關系提取。本文的人物關系提取系統(tǒng)的關鍵步驟包括數(shù)據(jù)預處理、關聯(lián)人物對提取、關鍵詞提取、詞語關聯(lián)計算與關鍵詞關聯(lián)網(wǎng)絡構建、基于圖聚類的人物關系提取。

        2.1數(shù)據(jù)預處理

        數(shù)據(jù)預處理主要包括網(wǎng)頁正文提取、分句、分詞和詞性標注、人名詞典構建、語句選擇等處理過程。

        1)網(wǎng)頁正文提取。在得到新聞網(wǎng)頁以后利用基于文本塊統(tǒng)計的新聞網(wǎng)頁提取算法獲得網(wǎng)頁的文本內(nèi)容。

        2)分句。句子識別是進行關系抽取的最初步驟,在從新聞網(wǎng)頁中抽取的正文數(shù)據(jù)中,句子和句子是相連的。需要對抽取出的純文本進行分句操作,以文本中出現(xiàn)的中英文句號、問號、嘆號等句子終結符作為句子的分隔符。

        3)分詞和詞性標注。在這一步中,需要對已分好句的文本進行分詞、詞性標注與命名實體識別。在本文的研究中,使用中國科學院計算技術研究所開發(fā)的漢語語法分析系統(tǒng)(Institute of Computing Technology, Chinese Lexical Analysis System, ICTCLAS)對句子進行分詞和詞性標注。該系統(tǒng)是一個集分詞、詞性標注,未登錄詞識別于一體的漢語詞法分析系統(tǒng),其中采用了基于角色標注的中國人名自動識別方法。該系統(tǒng)人名識別的正確率和召回率分別達到95.57%和95.23%。本文采用ICTCLAS2011對新聞內(nèi)容進行詞法分析,并把詞性標注為“nr”“nr2”“nrf”的詞語作為人物名。

        4)人名詞典構建。本文關注的人名是一些社會上的名人或者有一定知名度的人名,普通人的人名在Web網(wǎng)頁中的內(nèi)容存在得較少。本文的人名詞典利用從微軟人立方關系搜索中獲取的數(shù)據(jù)進行構建,從中獲得包括體育人物、娛樂人物、政治人物和商界人物共4類人物的1391個人名。后續(xù)關系抽取研究基于這個人名詞典,對于人名中存在的同名問題,本文未作區(qū)分。

        5)語句選擇。語句選擇是只在多語句文本中選擇最符合條件的語句,例如在研究人物關系時,首要的是在句子中至少出現(xiàn)2個或者2個以上的人物實體,這樣就可以篩選掉一些無研究價值的語句;以此類推,根據(jù)制定的相關規(guī)則,篩選出對后續(xù)處理可能有價值的句子,過濾掉無關語句,提高系統(tǒng)的處理效率。

        2.2關聯(lián)人物對抽取

        人物關系提取任務的第一步是要發(fā)現(xiàn)可能具有關系的人物對,然后是識別人物對的具體關系是什么。新聞標題數(shù)據(jù)能夠高度概括和凝練新聞事實,其中也會包含有直接關聯(lián)的人物對,因此,本文利用標題數(shù)據(jù)挖掘可能具有關系的人物對。在對數(shù)據(jù)進行預處理以后,可以得到標題數(shù)據(jù)中所有識別為人物名的詞,為了保證人名識別的準確性,使用人名詞典對識別出的人名進行噪聲過濾。對標題數(shù)據(jù)進行過濾后的人名兩兩進行組合得到人物對。

        統(tǒng)計所有標題數(shù)據(jù)中每個人物對的出現(xiàn)頻率,人物對的出現(xiàn)頻率越高說明在新聞標題中共現(xiàn)的次數(shù)越多,兩者存在關系的概率越高。通過這種方法過濾掉共現(xiàn)次數(shù)較少的無關人物對,減少后續(xù)處理的工作工作量。

        對于剩下的共現(xiàn)次數(shù)較高的人物對,引入一種關聯(lián)度計算方法——上下文式關聯(lián)。根據(jù)兩個人名同時出現(xiàn)在一個新聞標題中作為人物存在關聯(lián)的依據(jù),然后基于統(tǒng)計的方法來量化這種關聯(lián)度,這里引入兩個人物實體(pi,pj)的條件概率:

        P(pi|pj)=Fpi,pj/Fpj(1)

        即pi,pj同時出現(xiàn)的標題數(shù)目除以pj出現(xiàn)的標題數(shù)目。如果人物對間計算出的條件概率較高說明人物之間的依賴關系較強,將式(1)中的條件概率和人物對共現(xiàn)次數(shù)結合來衡量人物對關聯(lián)度。

        asso(pi,pj)=w1*P(pi|pj)+w2*coor(pi,pj)(2)

        式(2)計算的人物對的關聯(lián)度,w1和w2分別是式(1)中的條件概率和人物對共現(xiàn)次數(shù)所占的權重。在實驗中,調(diào)整w1和w2的取值,使關聯(lián)人物對的識別效果最佳。最終,將人物對按照式(2)計算的關聯(lián)度進行排序,取關聯(lián)度最高的500個人物對用于后續(xù)人物關系提取研究。

        2.3關鍵詞提取

        在得到可能具有關系人物對以后,需要確定人物對之間的具體關系名,因此,需要挖掘與人物對有關的新聞數(shù)據(jù)進行分析。本文以人物對pair=(pi,pj)為搜索條件,利用搜索引擎得到人物對的查詢結果新聞網(wǎng)頁。按照預處理部分介紹的方法對新聞網(wǎng)頁數(shù)據(jù)進行處理,且句子中必須包含兩個人名,最終得到分詞和詞性標注以及人名識別以后的句子集合。為了發(fā)現(xiàn)人物對相關的關鍵詞,對集合中的詞語進行詞頻統(tǒng)計,因為對人物關系提取作用最大的是動詞和名詞,所以詞頻統(tǒng)計中只考慮動詞和名詞,其他詞性的詞忽略。本文將所有詞語按照詞頻排序,詞頻統(tǒng)計結果表現(xiàn)為長尾特性,即大多數(shù)的詞出現(xiàn)次數(shù)很少,少數(shù)的詞出現(xiàn)的次數(shù)較高,此處過濾掉詞頻極低的可能是噪聲的數(shù)據(jù)。

        詞頻逆向文檔頻率(Term FrequencyInverse Document Frequency, TFIDF)算法在關鍵詞提取中較常使用,它原用于評估一個字詞對于一個文件集或者一個語料庫其中一份文件的重要程度,本文將用它來評估一個詞語對于表征人物對關系的重要度。其一般原理是:如果某個特征在某個人物對共現(xiàn)的句子中出現(xiàn)的詞頻較高,并且在其他人物對共現(xiàn)的句子集中很少出現(xiàn),則認為這個詞較能體現(xiàn)人物對的關系。本文中,詞語對于人物對關系的重要性為wij,如式(3)所示:

        wij=tfij×idfj=tfij×ln(N/nj)(3)

        其中:tfij指關鍵詞tj在人物對di共現(xiàn)的句子中出現(xiàn)的次數(shù),idfi與詞tj共現(xiàn)的人物對數(shù)量成反比,N表示總的人物對數(shù),nj指與詞tj共現(xiàn)的人物對數(shù)。將按詞頻過濾后的詞語重新按式(3)重要性進行排序,每個人物對保留重要性最高的50個詞語。

        2.4詞語關聯(lián)度計算與關鍵詞關聯(lián)網(wǎng)絡構建

        詞共現(xiàn)矩陣是詞共現(xiàn)模型的量化,詞共現(xiàn)模型是基于統(tǒng)計方法的自然語言處理領域的重要模型之一[7]。它的基本假設的基礎是:在大規(guī)模語料中,如果兩個候選詞經(jīng)常共現(xiàn)在文檔的同一窗口單元(如一句話、一個自然段等),則認為這兩個詞在意義上是相互關聯(lián)的,并且共現(xiàn)的概率越高,其相互關聯(lián)越緊密[15]。

        一個包含n個關鍵詞的共現(xiàn)矩陣被定義為:

        其中: f(wi), f(wj)分別代表詞語wi和wj的出現(xiàn)頻數(shù), f(wi,wj)代表wi和wj共同出現(xiàn)在一個窗口的次數(shù)。參數(shù)p是一個可調(diào)的參數(shù)并且它的值在實數(shù)范圍內(nèi)。參考文獻[17]的設置,本文取p=50,式(5)顯示詞語之間的關聯(lián)度量是由詞語的共現(xiàn)頻率和單個的出現(xiàn)頻率所決定的。

        定義1設M是得到的詞語共現(xiàn)矩陣,關鍵詞集合是W,Wi表示第i個關鍵詞,M轉(zhuǎn)化成對應的關鍵詞關聯(lián)網(wǎng)絡圖G的定義為:

        G={V,E}(6)

        其中:V表示圖G的頂點集;Vi表示V中第i個頂點;V與W中元素一一對應,即Vi對應Wi;E表示圖G的邊集。如果2個頂點的關聯(lián)度大于一定的閾值,則在這2個頂點之間添加一條無向邊,即:

        E={(Vi,Vj)|Vi,Vj∈V,Sim(Vi,Vj)>β}={(Vi,Vj)|Vi,Vj∈V,Wi,Wj∈W,Sim(Vi,Vj)>β}(7)

        其中,0<β<1, β越大,詞語之間的關聯(lián)的要求越嚴格,則圖G越稀疏[18]。本文設置的β值為所有計算出的關鍵詞關聯(lián)度的中位數(shù)的T倍,實驗部分將比較T值的選取對最終結果的影響。

        2.5基于圖聚類的人物關系提取

        關鍵詞關聯(lián)網(wǎng)絡建立完成以后,需要對關聯(lián)網(wǎng)絡進行分析以發(fā)現(xiàn)人物關系。表示人物關系的關鍵詞與人物對會存在頻繁的共現(xiàn)關系,而且在關鍵詞關聯(lián)網(wǎng)絡中處于核心的位置,可以通過圖聚類的方式找到人物關系。本文使用基于團(clique)的圖聚類方法,clique算法是基于密度和網(wǎng)格的一種聚類分析算法,對于大型高維空間數(shù)據(jù)的聚類分析具有很高的效率,能得到優(yōu)質(zhì)的聚類效果[19]。

        本文利用文獻[13]中提出的方法檢測出關聯(lián)網(wǎng)絡中所有固定大小的clique,例如kclique。每個clique中包含若干個關鍵詞,這些關鍵詞在關聯(lián)網(wǎng)絡中都有邊相連,如3clique和4clique,分別包含3個關鍵詞和4個關鍵詞。在關鍵詞關聯(lián)網(wǎng)絡建立以后,本文使用復雜網(wǎng)絡分析工具NetworkX中的find_cliques()函數(shù)查找關鍵詞關聯(lián)網(wǎng)絡中的所有clique。

        為了利用識別出的clique挖掘人物對的關系詞,本文構建clique之間的關聯(lián)圖。關聯(lián)網(wǎng)絡中檢測出的clique之間往往會存在共同的關鍵詞。例如,clique1={w1,w2,w3,w4},clique2={w1,w2,w3,w5}具有共同的關鍵詞w1,w2,w3,則認為兩個clique有關聯(lián)關系。clique間的共同出現(xiàn)關鍵詞組成集合V={w1,w2,…,wm},共包含m個關鍵詞。以每個clique作為節(jié)點,clique之間的共現(xiàn)關鍵詞為邊的來建立clique關聯(lián)圖G*。

        在clique關聯(lián)圖G*建立完成后,在關聯(lián)圖G*上進行分析以挖掘在人物對關聯(lián)上重要性最高的關鍵詞。關鍵詞k在clique關聯(lián)圖G*中越多的邊中出現(xiàn),說明該關鍵詞是關聯(lián)圖G*很多clique都包含該關鍵詞,則關鍵詞k對于識別人物對關系重要性越高。

        為了識別人物對(pi,pj)之間的關系,對clique關聯(lián)圖G*中所有邊上的關鍵詞統(tǒng)計每個關鍵詞在圖中出現(xiàn)的邊數(shù)。假設集合V中的某個關鍵詞k在圖中邊上出現(xiàn)的次數(shù)為fqk,結合2.3節(jié)TFIDF(Term FrequencyInverse Document Frequency)計算出的關鍵詞權重wk,最終關鍵詞k對于人物對的重要性為Weightk:

        Weightk=wk×fqk(8)

        對于集合V中的所有關鍵詞按照式(8)計算的結果進行排序,最后取集合V中所有詞語中計算結果最高的詞語作為人物對的關系詞。

        3實驗設置與結果分析

        3.1數(shù)據(jù)集與評估方法

        本文的實驗數(shù)據(jù)包括如下內(nèi)容。

        1)利用網(wǎng)絡爬蟲從騰訊新聞、百度新聞、網(wǎng)易新聞和新華網(wǎng)等主要新聞門戶網(wǎng)站上抓取的2006年1月到2015年5月的新聞標題數(shù)據(jù),共計67萬條新聞標題,每條新聞標題數(shù)據(jù)包括了新聞的URL和新聞的抓取時間。利用搜索引擎返回的所有候選關聯(lián)人物對搜索結果頁中的新聞網(wǎng)頁,共計22萬個網(wǎng)頁。

        2)為了評估關系抽取的效果,需要對于實驗中研究的500個人物對構建關系評估集,即人物對的真實關系。本文利用微軟人立方關系搜索網(wǎng)站提供的結構化人物詞條信息,共24.6萬的人物詞條。每個人物詞條中都包含人物的社會關系信息,從中可以獲得大量人物關系數(shù)據(jù),用于構建人物關系知識庫。從該知識庫中,可以查詢到本文研究的人物對的真實關系,本文將人物對的關系詞進行同義詞擴展,以獲得更多的關系。例如:“朋友”關系可以擴展為“好友”“友人”“密友”等。擴展以后的人物對真實關系作為實驗的評估集,本文實驗中抽取得到的人物對關系將與評估集中的真實關系進行比較以評估關系抽取的效果。

        關系抽取的效果使用準確率(Precision)、召回率(Recall)和Fscore進行評估。準確率是所有檢測出關系詞的人物對中被確認為正確關系的比率:

        precision=Nhit/N(9)

        其中:Nhit是檢測的關系正確的人物對數(shù),N是所有檢測關系的人物對數(shù)。召回率是所有檢測出正確關系的人物對數(shù)占所有有關系的人物對數(shù)的比率:

        recall=Nhit/N*(10)

        其中:N*是實驗中所有提取的人物對中存在關系的人物對。Fscore是對準確率和召回率的調(diào)和平均數(shù):

        Fscore=2×precision×recallprecision+recall(11)

        3.2實驗結果分析

        3.2.1實例分析

        針對已提取出的人物對,查詢語料庫中人物對共現(xiàn)的句子,并按照2.3節(jié)的方法提取關鍵詞。取熱門人物對person pair=〈王菲,李亞鵬〉為例,抽取出的部分關鍵詞按照詞頻分布的情況如圖1所示,出現(xiàn)次數(shù)頻率較高的詞語占少數(shù),大多數(shù)的詞只出現(xiàn)很少的次數(shù)。將所有的關鍵詞按照詞頻排序,過濾詞頻極低的數(shù)據(jù),將剩余詞語用于建立關鍵詞關聯(lián)網(wǎng)絡。

        利用過濾以后的關鍵詞進行關聯(lián)計算,構建關鍵詞關聯(lián)矩陣,然后按照2.4節(jié)中的方法構建關鍵詞關聯(lián)網(wǎng)絡。按照2.5節(jié)中介紹的方法對該關鍵詞關聯(lián)網(wǎng)絡進行分析,最終得到的person pair=〈王菲,李亞鵬〉的關系詞中重要性值最高的關鍵詞是“離婚”,因此,挖掘出的關系三元組〈王菲,李亞鵬,離婚〉。

        3.2.2詞語共現(xiàn)窗口大小對結果的影響

        為了評估參數(shù)對檢測結果的影響,本文分別設置實驗比較窗口大小和閾值對于結果的影響。在2.4節(jié)中計算的詞語關聯(lián)度,對后續(xù)的關系詞抽取有較大的影響,根據(jù)詞語是否在同一個詞語窗口內(nèi)出現(xiàn)作為共現(xiàn)的依據(jù)。考慮到互聯(lián)網(wǎng)上句子的長度不一,所以取固定的窗口大小作為共現(xiàn)的依據(jù)。

        在實驗中,測試了6組窗口,窗口大小分別為[5,10,15,20,25,30]。詞語出現(xiàn)在窗口范圍內(nèi)則認定為共現(xiàn)一次。圖2所示為最終關系挖掘的Precision,Recall和Fscore的效果。隨著窗口變大,更多的詞語能在窗口中共現(xiàn),使得最終的關系提取的召回率提升,但是準確率降低。計算出的Fscore值最高的窗口大小為windows length=10,因此,本文取10為窗口進行共現(xiàn)統(tǒng)計。

        3.2.3關聯(lián)度閾值β的選取

        在由共現(xiàn)矩陣得到關聯(lián)網(wǎng)絡時,需要確定關聯(lián)度閾值的大小。取3.2.1節(jié)中的結果效果最好的窗口大小10,用不同的閾值β實現(xiàn)關聯(lián)網(wǎng)絡的建立。詞語間的關聯(lián)度要大于指定的閾值,才在關聯(lián)網(wǎng)絡中添加相應的邊。本文在指定的不同閾值下,進行關聯(lián)網(wǎng)絡構建,并進行后續(xù)的圖聚類得到人物關系數(shù)據(jù),然后對人物關系的檢測結果進行評估得到的結果如圖3所示。橫軸表示閾值相對于中位數(shù)的倍數(shù)T,縱軸是關系抽取的效果。三條曲線分別代表Precision、Recall和Fscore。在閾值比較低的時候系統(tǒng)的召回比較高,但也會引入大量的噪聲。隨著T的增大,準確率提高,召回率逐漸降低。可見,閾值越大對于關系準確性的判定較為謹慎,雖然降低了噪聲,但是增大了遺漏關系詞的風險。Fscore在T=2時候取得最大值,T>2以后,F(xiàn)score呈現(xiàn)下降的趨勢,因此在本實驗中,選取T=2,即閾值β為中位數(shù)的2倍。

        3.2.4人物關系提取效果

        經(jīng)過以上實驗結果分析,實驗中將關鍵詞共現(xiàn)窗口大小設置為10,關聯(lián)度閾值β為中位數(shù)的2倍來建立關鍵詞關聯(lián)網(wǎng)絡,對本文研究的500個人物對進行關系抽取。表1為利用本文的人物關系抽取方法得到的關系類型和每種關系的人物對數(shù)量,關系種類較為豐富,且本文的方法能夠挖掘出互聯(lián)網(wǎng)中實時出現(xiàn)的人物關系。

        本文提出的關系抽取方法不僅不需要實現(xiàn)定義的關系類型體系,而且能保證關系抽取的有較好的效果。為了能夠?qū)υ摲椒ㄓ袦蚀_的評價,本文將其和文獻[20]中提出了詞共現(xiàn)關系抽?。╓ord CoOccurrence Relation Extraction, WCORE)方法的關系抽取方法在關系抽取結果上的準確率、召回率和Fscore值進行比較。文獻[20]中提出了方法首先利用詞共現(xiàn)來計算詞語相似度,然后采用模式匹配的技術來抽取實體之間的關系。對比方法中需要預先抽取種子模式,而待處理句子與種子模式進行匹配的工程中存在較大的誤差。如表2所示的系統(tǒng)性能中,對比方法的準確率、召回率和Fscore指標都較低,本文的方法明顯優(yōu)于對比方法。

        為了對算法的執(zhí)行時間進行分析,本文在人物對的關鍵詞集合進行關鍵詞關聯(lián)度計算后,進行實驗比較了本文提出關系抽取算法的和文獻[20]的方法在不同人物對數(shù)據(jù)量下的執(zhí)行時間情況。如圖4所示,其中橫軸表示算法處理的人物對數(shù)量分別是100,200,300,400,500,縱軸是人物關系抽取算法的總體執(zhí)行時間。從圖4中可以看到,隨著處理的人物對集合的增大,本文的方法呈現(xiàn)次線性(sublinear)增長形式,說明本文的方法具有較好的伸縮性。與文獻[20]所提出的WCORE方法的比較中可以看到,在所有人物對數(shù)量下本文方法的執(zhí)行時間都少于對比方法,因此,可以看到本文提出的無監(jiān)督關系抽取方法能取得優(yōu)于對比方法的性能。

        4結語

        目前,中文關系抽取方面的研究較少,尤其是基于互聯(lián)網(wǎng)新聞語料的人物關系挖掘研究更加匱乏。本文針對中文新聞數(shù)據(jù)中人物關系提取的任務,提出一種無監(jiān)督的人物關系提取方法利用詞語共現(xiàn)關系建立關鍵詞關聯(lián)網(wǎng)絡,并進行圖聚類找到人物關系。在實驗中,本文比較分析了詞語共現(xiàn)的窗口大小和關聯(lián)網(wǎng)絡建立時的關聯(lián)度閾值的大小對于挖掘人物關系詞結果的影響,實驗結果顯示當窗口大小為10,且閾值取中位數(shù)的2倍時,系統(tǒng)的表現(xiàn)最好。在對應的參數(shù)設置下,本文的方法在準確率和召回率方面優(yōu)于基于詞語共現(xiàn)和模式匹配的關系提取方法,且Fscore提升了4.4個百分點,執(zhí)行時間花費上也少于對比方法。同時能夠在沒有標注語料和預定關系類型的前提下,有效地完成從新聞語料中挖掘人物關系的任務。

        未來的工作中,將嘗試通過引入詞語位置信息改進關鍵詞提取方法,并引入人名消歧策略解決人物關系中的人物同名問題。

        參考文獻:

        [1]

        雷春雅,郭劍毅,余正濤,等.基于自擴展與最大熵的領域?qū)嶓w關系自動抽取[J].山東大學學報:工學版,2010,40(5):141-145.(LEI C Y, GUO J Y, YU Z T, et al. Domain of automatic entity relation extraction based on seed selfexpansion and the maximum entropy machine learning [J]. Journal of Shandong University (Engineering Science Edition), 2010, 40(5): 141-145.)

        [2]

        車萬翔,劉挺,李生.實體關系自動抽取[J].中文信息學報,2005,19(2):1-6.(CHE W X, LIU T, LI S. Automatic entity relation extraction [J]. Journal of Chinese Information Processing, 2005, 19(2): 1-6.)

        [3]

        董靜,孫樂,馮元勇,等.中文實體關系抽取中的特征選擇研究[J].中文信息學報,2007,21(4):80-85.(DONG J, SUN L, FENG Y Y, et al. Chinese automatic entity relation extraction [J]. Journal of Chinese Information Processing, 2007, 21(4): 80-85.)

        [4]

        LIANG Z, YUAN C, LENG B, et al. Recognition of person relation indicated by predicates [C]// Proceedings of the 4th CCF Conference on Natural Language Processing and Chinese Computing. Berlin: Springer, 2015: 313-324.

        [5]

        PENG C, GU J, QIAN L. Research on tree kernelbased personal relation extraction [C]// Proceedings of the 1st CCF Conference on Natural Language Processing and Chinese Computing. Berlin: Springer, 2012: 225-236.

        [6]

        秦兵,劉安安,劉挺.無指導的中文開放式實體關系抽取[J].計算機研究與發(fā)展,2015,52(5):1029-1035.(QIN B, LIU A A, LIU T. Unsupervised Chinese open entity relation extraction [J]. Journal of Computer Research and Development, 2015, 52(5): 1029-1035.)

        [7]

        王慶,陳澤亞,郭靜,等.基于詞共現(xiàn)矩陣的項目關鍵詞詞庫和關鍵詞語義網(wǎng)絡[J].計算機應用,2015,35(6):1649-1653.(WANG Q, CHEN Z Y, GUO J, et al. Project keyword lexicon and keyword semantic network based on word cooccurrence matrix [J]. Journal of Computer Applications, 2015, 35(6): 1649-1653.)

        [8]

        周鵬,蔡淑琴,石雙元,等.基于關鍵詞抽取的微博輿情事件內(nèi)容聚合[J].情報雜志,2014,33(1):91-96.(ZHOU P, CAI S Q, SHI S Y, et al. Content aggregation of microblogging public opinion events based on keyword extraction [J]. Journal of Intelligence, 2014, 33(1): 91-96.)

        [9]

        樊興華,孫茂松.一種高性能的兩類中文文本分類方法[J].計算機學報,2006,29(1):124-31.(FAN X H, SUN M S. A high performance twoclass Chinese text categorization method [J]. Chinese Journal of Computers, 2006, 29(1): 124-31.)

        [10]

        趙軍,胡栓柱,樊興華.一種新的詞語相似度計算方法[J].重慶郵電大學學報(自然科學版),2009,21(4):528-532.(ZHAO J, HU S Z, FAN X H. Word similarity computation based on word link distribution [J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2009, 21(4): 528-532.)

        [11]

        溫菊屏,鐘勇.圖聚類的算法及其在社會關系網(wǎng)絡中的應用[J].計算機應用與軟件,2012,29(2):161-163.(WEN J P, ZHONG Y. Graph clustering algorithm and its application in social network [J].Computer Applications and Software, 2012, 29(2):161-163.)

        [12]

        PALLA G, DERNYI I, FARKAS I, et al. Uncovering the overlapping community structure of complex networks in nature and society [J]. Nature, 2005, 435(7043): 814-818.

        [13]

        CAVIQUE L, MENDES A B, SANTOS J M A. An algorithm to discover the kclique cover in networks [C]// Proceedings of the 14th Portuguese Conference on Artificial Intelligence. Berlin: Springer, 2009: 363-373.

        [14]

        SAYYADI H, HURST M, MAYKOV A. Event detection and tracking in social streams [C]// Proceedings of the 3rd International AAAI Conference on Weblogs and Social Media. Menlo Park, CA: AAAI Press, 2009: 311-314.

        [15]

        雷鈺麗,李陽,王崇駿,等.基于權重的馬爾可夫隨機游走相似度度量的實體識別方法[J].河北師范大學學報(自然科學版),2010,34(1):26-30.(LEI Y L, LI Y, WANG C J, et al. Method on entity identification using similarity measure base on the weight of Markov random walk [J]. Journal of Hebei Normal University (Natural Science Edition), 2010, 34(1): 26-30.)

        [16]

        DAGAN I, LEE L, PEREIRA F C N. Similaritybased models of word cooccurrence probabilities [J]. Machine Learning, 1999, 34(1/2/3): 43-69.

        [17]

        LIU J, HE L, LIN X, et al. A specific word relatedness computation algorithm for news corpus [C] // Proceedings of the 2nd International Workshop on Intelligent System and Applications. Piscataway, NJ: IEEE, 2010: 148-153.

        [18]

        王立霞,淮曉永.基于語義的中文文本關鍵詞提取算法[J].計算機工程,2012,38(1):1-4.(WANG L X, HUAI X Y. Semanticbased keyword extraction algorithm for Chinese text [J]. Computer Engineering, 2012, 38(1): 1-4.)

        [19]

        項響琴,李紅,陳圣兵.CLIQUE聚類算法的分析研究[J].合肥學院學報(自然科學版),2011,21(1):54-58.(XIANG X Q, LI H, CHEN S B. Analysis and research on clique algorithm [J]. Journal of Hefei University (Natural Sciences), 2011, 21(1): 54-58.)

        [20]

        WANG J, YANG J, HE L, et al. Chinese entity relation extraction based on word cooccurrence [EB/OL]. [20151201] http://www.ica.stc.sh.cn/picture/article/176/39/ff/b3ae3e1b4a5d96519bfb308c9d13/8ec889c154c748698978bb7bc5285199.pdf.

        猜你喜歡
        關聯(lián)度關聯(lián)詞語
        容易混淆的詞語
        “苦”的關聯(lián)
        當代陜西(2021年17期)2021-11-06 03:21:36
        找詞語
        奇趣搭配
        基于灰色關聯(lián)度的水質(zhì)評價分析
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        詞語欣賞
        基于灰關聯(lián)度的鋰電池組SOH評價方法研究
        電源技術(2015年11期)2015-08-22 08:50:18
        一枚詞語一門靜
        基于灰色關聯(lián)度的公交線網(wǎng)模糊評價
        河南科技(2014年16期)2014-02-27 14:13:25
        国产一区二区三区护士| 成人无码α片在线观看不卡| 在线看片免费人成视频久网下载 | 97精品人妻一区二区三区蜜桃| 国产精品亚洲片在线观看不卡| 最新国产精品久久精品| 秋霞午夜无码鲁丝片午夜精品| 在线播放国产一区二区三区| 美国黄色片一区二区三区| 亚洲天堂无码AV一二三四区| 亚洲第一页在线观看视频网站| 男女激情视频网站在线| 狠狠色噜噜狠狠狠狠97首创麻豆| 国产成年女人毛片80s网站| 中文字幕精品无码一区二区| AⅤ无码精品视频| 日韩人妖一区二区三区| 婷婷开心五月亚洲综合| 国产精品 无码专区| 人妻影音先锋啪啪av资源| 成人无码h真人在线网站| 国产一区二区三区经典| 精品少妇人妻av一区二区蜜桃| 粗大的内捧猛烈进出小视频| 老外和中国女人毛片免费视频 | 亚洲精品乱码久久久久99| 最新国内视频免费自拍一区| 一区二区三区精品少妇| 亚洲一本到无码av中文字幕| 正在播放国产多p交换视频| 亚洲国产精品无码久久九九大片健| 国产av一级二级三级| 亚洲国产精品成人久久久| 一本无码av中文出轨人妻| 五月天国产精品| 亚洲av第二区国产精品| 国产精品美女久久久免费| 欧美人妻精品一区二区三区| 国产极品喷水视频| 成人黄色片久久久大全| 无码无套少妇毛多18pxxxx|