黃蓓靜 賀 樑 楊 靜
(華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 上海 200241)
?
遠(yuǎn)程監(jiān)督人物關(guān)系抽取中的去噪研究
黃蓓靜 賀 樑 楊 靜
(華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 上海 200241)
在遠(yuǎn)程監(jiān)督人物關(guān)系抽取算法中,訓(xùn)練集的構(gòu)造是利用知識(shí)庫對(duì)齊自由文本的方式完成的。這一過程會(huì)產(chǎn)生部分共現(xiàn)句無法表達(dá)當(dāng)前實(shí)體對(duì)關(guān)系的情況。分析此問題產(chǎn)生的原因,結(jié)合詞法、句法兩個(gè)方面,提出一種利用句子模式聚類及模式評(píng)分對(duì)遠(yuǎn)程監(jiān)督人物關(guān)系抽取過程訓(xùn)練集進(jìn)行去噪的方法。該方法首先利用詞向量生成特定關(guān)系描述候選詞,其次針對(duì)關(guān)系描述候選詞提取句子模式并進(jìn)行模式聚類,最后對(duì)模式聚類結(jié)果進(jìn)行評(píng)分。通過篩選評(píng)分較低模式對(duì)應(yīng)句子去掉對(duì)關(guān)系描述能力不強(qiáng)甚至無法描述關(guān)系的句子,得到過濾后的訓(xùn)練集。實(shí)驗(yàn)證明,利用該方法對(duì)不同語料庫進(jìn)行遠(yuǎn)程監(jiān)督原始訓(xùn)練集句子過濾能夠在保證召回率的情況下取得3%~5%準(zhǔn)確率提升。
人物關(guān)系抽取 遠(yuǎn)程監(jiān)督 模式提取 模式聚類 模式評(píng)分
關(guān)系抽取是自然語言處理研究的熱點(diǎn)之一,人物關(guān)系抽取是關(guān)系抽取的一個(gè)重要研究方向。
關(guān)系抽取方法主要分為有監(jiān)督、無監(jiān)督、半監(jiān)督三類。為了解決有監(jiān)督方法構(gòu)造訓(xùn)練集耗費(fèi)人力及無監(jiān)督方法準(zhǔn)確率不高的缺點(diǎn),Mintz等人于2009年提出的遠(yuǎn)程監(jiān)督關(guān)系抽取方法[1]。
Mintz等人利用Freebase作為知識(shí)庫,將Freebase豐富的關(guān)系對(duì)齊到Wikipedia文本中,獲取同時(shí)出現(xiàn)關(guān)系對(duì)實(shí)體句子(下文稱共現(xiàn)句),構(gòu)成訓(xùn)練集正樣本,并隨機(jī)抽取Freebase中不存在關(guān)系的實(shí)體對(duì)對(duì)齊得到共現(xiàn)句作為訓(xùn)練集負(fù)樣本,構(gòu)成訓(xùn)練集。這既解決了有監(jiān)督方法訓(xùn)練樣本標(biāo)注大量花費(fèi)人力的問題,又一定程度上避免了無監(jiān)督方法準(zhǔn)確率較低的問題。
然而,遠(yuǎn)程監(jiān)督方法在構(gòu)造訓(xùn)練集中利用了一個(gè)條件很強(qiáng)的基本假設(shè):如果兩個(gè)實(shí)體對(duì)存在某種關(guān)系,那么任何包含這兩個(gè)實(shí)體的句子都表達(dá)了它們的這種關(guān)系。實(shí)際上,這個(gè)假設(shè)并不一定成立。這里以人物關(guān)系抽取任務(wù)舉例。如圖1所示,“趙子琪”和“路金波”是知識(shí)庫中一對(duì)關(guān)系實(shí)體,關(guān)系類型是“夫妻”,通過遠(yuǎn)程監(jiān)督方法對(duì)齊得到該實(shí)體對(duì)的三個(gè)共現(xiàn)句。其中共現(xiàn)句1能夠表明人物關(guān)系,而共現(xiàn)句2、共現(xiàn)句3雖然同時(shí)出現(xiàn)了實(shí)體“趙子琪”和“路金波”,但語義上卻不能表達(dá)他們之間的“夫妻”關(guān)系。這種包含兩個(gè)實(shí)體但不表明實(shí)體間關(guān)系的無效共現(xiàn)句會(huì)影響訓(xùn)練集的質(zhì)量,作為噪聲數(shù)據(jù),應(yīng)該予以去除。
圖1 遠(yuǎn)程監(jiān)督人物關(guān)系抽取過程中產(chǎn)生無效共現(xiàn)句的一個(gè)例子
從圖1給出的例子可以分析得到噪聲產(chǎn)生的原因有:
1) 共現(xiàn)句中不包含能夠描述人物對(duì)關(guān)系的關(guān)系描述詞,如共現(xiàn)句2;
2) 雖然共現(xiàn)句包含描述關(guān)系的關(guān)系描述詞,但此關(guān)系描述詞描述的并非實(shí)體1和實(shí)體2之間的關(guān)系,如共現(xiàn)句3中雖然出現(xiàn)了描述“夫妻”關(guān)系的關(guān)系描述詞“妻子”,但“妻子”并非描述路金波和趙子琪之間的關(guān)系。
針對(duì)原因1,我們可以從詞法的角度進(jìn)行解決。近年來,深度學(xué)習(xí)在NLP領(lǐng)域取得了巨大進(jìn)展,Bengio等[2]提出的三層神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練出的詞向量在一定程度上包含了詞語含義。根據(jù)Mikolov等[3]研究表明,詞向量間存在關(guān)系:vec(King)-vec(Man)+vec(Woman)≈vec(Queen)?;谠~向量我們可以計(jì)算出詞語之間語義相似度,文獻(xiàn)[4]對(duì)使用詞向量進(jìn)行同義詞擴(kuò)展進(jìn)行了研究。關(guān)系共現(xiàn)句中關(guān)系描述詞通常和關(guān)系類型本身有密切的語義聯(lián)系,比如關(guān)系類型“夫妻”和關(guān)系描述詞“結(jié)婚”在詞向量表示下具有較高相似度?;诖耍覀冊O(shè)計(jì)了一種基于詞向量篩選關(guān)系描述候選詞的方法。我們首先利用百度百科、互動(dòng)百科等中文在線百科抓取的關(guān)系類型整合出預(yù)定義關(guān)系描述詞集合。然后利用語料訓(xùn)練出詞向量。最后篩選出共現(xiàn)句中詞頻大于閾值且與預(yù)定義關(guān)系描述詞的詞向量相似度大于閾值的動(dòng)詞和名詞,作為關(guān)系描述候選詞。
對(duì)于原因2,結(jié)合共現(xiàn)句3可以看出,對(duì)于包含相同關(guān)系描述詞的不同句子,由于句式結(jié)構(gòu)不同,導(dǎo)致對(duì)關(guān)系描述強(qiáng)弱程度不同。句子模式抽取方法廣泛應(yīng)用于關(guān)系抽取特別是開放式領(lǐng)域關(guān)系抽取中[5]。Snowball[6]系統(tǒng)對(duì)由種子實(shí)例得到的關(guān)系共現(xiàn)句提取模式,并對(duì)模式評(píng)分,使用置信度較高的模式抽取出新的關(guān)系實(shí)例。文獻(xiàn)[7]在對(duì)于關(guān)系共現(xiàn)句提取模式的基礎(chǔ)上進(jìn)行句子模式相似度、句子模式泛化,實(shí)驗(yàn)結(jié)果表明,利用泛化后的句子模式進(jìn)行關(guān)系抽取取得了較高準(zhǔn)確率。受此啟發(fā),我們引入了句子模式提取、句子模式相似度計(jì)算、句子模式聚類以及句子模式聚類結(jié)果評(píng)分等手段,對(duì)關(guān)系描述較弱或者不能描述關(guān)系的句子模式對(duì)應(yīng)的句子進(jìn)行去除,完成訓(xùn)練集的去噪。
1.1 遠(yuǎn)程監(jiān)督
文獻(xiàn)[8]首次在解決生物信息學(xué)領(lǐng)域問題時(shí)提出了遠(yuǎn)程監(jiān)督方法,而后文獻(xiàn)[1]首次將遠(yuǎn)程監(jiān)督方法引入關(guān)系抽取任務(wù)中。文獻(xiàn)[1]將Freebase豐富的關(guān)系實(shí)例映射到Wikipedia文本中,獲取了大量的訓(xùn)練樣本,從而有效解決了有監(jiān)督關(guān)系抽取方法標(biāo)注訓(xùn)練語料需要耗費(fèi)大量人力物力及無監(jiān)督關(guān)系抽取方法準(zhǔn)確率較低的缺點(diǎn)。
文獻(xiàn)[9]嘗試將90多種不同關(guān)系類型的DBpedia關(guān)系實(shí)例映射到Wikipedia文本中,得到100 000多個(gè)訓(xùn)練樣本,使用logistic回歸訓(xùn)練分類器,關(guān)系抽取結(jié)果F值達(dá)80%。文獻(xiàn)[10]首次嘗試?yán)弥形脑诰€資源(互動(dòng)百科)構(gòu)建中文人物關(guān)系抽取系統(tǒng)。該系統(tǒng)利用互動(dòng)百科抓取到的人物關(guān)系對(duì)齊多種中文自由文本語料(百度、搜狐、搜狗中文新聞?wù)Z料),以此獲取訓(xùn)練樣本,采用標(biāo)簽傳播算法訓(xùn)練模型,得到68%左右的準(zhǔn)確率。這充分說明了遠(yuǎn)程監(jiān)督方法在人物關(guān)系抽取任務(wù)中的適用性和有效性。但以上文獻(xiàn)并沒有對(duì)遠(yuǎn)程監(jiān)督方法基本假設(shè)引入的噪聲訓(xùn)練數(shù)據(jù)進(jìn)行去噪處理,某種程度限制了模型準(zhǔn)確率的進(jìn)一步提升。
1.2 關(guān)系抽取中的句子模式提取
句子模式抽取是關(guān)系抽取中一種重要方法[7]。相關(guān)學(xué)者對(duì)應(yīng)用句子模式提取的關(guān)系抽取進(jìn)行了大量的研究。文獻(xiàn)[5,11-12]利用人工定義正則表達(dá)式方式對(duì)上下位關(guān)系、整體部分關(guān)系進(jìn)行了抽取。文獻(xiàn)[13]提出了一種基于序列模式挖掘的人物關(guān)系抽取方法。文獻(xiàn)[14]利用模擬退火算法挖掘Web中人物關(guān)系的最小描述模式集合,利用得到的模式進(jìn)行關(guān)系抽取。文獻(xiàn)[7]通過對(duì)利用WordNet對(duì)齊Wikipedia得到的共現(xiàn)句替換實(shí)體1、實(shí)體2為特殊標(biāo)志及為其他詞語加上詞性標(biāo)注得到模式。此后利用最小編輯距離對(duì)模式進(jìn)行泛化,最后利用泛化后模式進(jìn)行新的關(guān)系實(shí)例抽取。文獻(xiàn)[15]在文獻(xiàn)[7]的基礎(chǔ)上進(jìn)行了改進(jìn),預(yù)先提取關(guān)系描述詞,并在最小編輯距離計(jì)算時(shí)代價(jià)函數(shù)加入詞性的考慮。Snowball[6]也運(yùn)用了模式提取的方式來生成更多種子實(shí)例。Snowball提出了一種模式置信度計(jì)算方式來過濾“不可靠”模式,防止“不可靠”模式提取得到“不可靠”種子實(shí)例。但Snowball系統(tǒng)的句子模式提取方法過于簡單,對(duì)于語義相近、結(jié)構(gòu)相似的句子模式?jīng)]有進(jìn)行合并,句子模式泛化性不強(qiáng)。
句子模式描述了句式特點(diǎn),一定程度上體現(xiàn)了句子的語義。本文結(jié)合文獻(xiàn)[7,15],提出了一種利用句子模式抽取、聚類的方法對(duì)遠(yuǎn)程監(jiān)督方法中的共現(xiàn)句進(jìn)行去噪。由于文獻(xiàn)[7,15]提出的句子模式提取方法沒有對(duì)模式進(jìn)行評(píng)分,本文結(jié)合文獻(xiàn)[6]中對(duì)句子模式置信度評(píng)分的方法對(duì)句子模式聚類結(jié)果進(jìn)行進(jìn)一步過濾,得到關(guān)系表述能力較強(qiáng)的句子模式。
針對(duì)第0節(jié)分析的噪聲共現(xiàn)句產(chǎn)生原因及對(duì)策,我們設(shè)計(jì)了圖2所示算法框架進(jìn)行遠(yuǎn)程監(jiān)督人物關(guān)系抽取的去噪。
圖2 遠(yuǎn)程監(jiān)督人物關(guān)系抽取去噪算法框架
如圖2,步驟1是遠(yuǎn)程監(jiān)督方法的標(biāo)準(zhǔn)步驟,得到的共現(xiàn)句集Whole是傳統(tǒng)遠(yuǎn)程監(jiān)督方法不經(jīng)過去噪得到的訓(xùn)練集。步驟2-步驟5組成了本文提出的方法,主要步驟包括關(guān)系描述候選詞集WS生成、句子模式提取、句子模式聚類、句子模式聚類結(jié)果評(píng)分。通過這四個(gè)步驟,我們將共現(xiàn)句集Whole過濾得到共現(xiàn)句集Filter,即本文方法得到的最終產(chǎn)物:經(jīng)過篩選得到的高質(zhì)量訓(xùn)練集。
本節(jié)余下內(nèi)容將對(duì)框架上步驟2-步驟5這四個(gè)關(guān)鍵環(huán)節(jié)分別展開進(jìn)行詳細(xì)闡述,分別是:基于詞向量的關(guān)系描述候選詞生成方法(對(duì)應(yīng)步驟2)、句子模式提取(對(duì)應(yīng)步驟3)、句子模式相似度計(jì)算及聚類(對(duì)應(yīng)步驟4)、句子模式置信度計(jì)算及句子篩選(對(duì)應(yīng)步驟5)。后文算法中輸入輸出符號(hào)與本算法框架圖采用一致的符號(hào)。
2.1 基于詞向量的關(guān)系描述候選詞生成方法
對(duì)于特定的關(guān)系類型,一般能夠找到一系列關(guān)系描述詞來表達(dá)該關(guān)系。比如表達(dá)“夫妻”關(guān)系的關(guān)系描述詞可能是“丈夫”、“妻子”、“結(jié)婚”等;表達(dá)“父母/子女”關(guān)系的關(guān)系描述詞可能是“父親”、“母親”、“兒子”、“女兒”等。關(guān)系描述詞一般與關(guān)系類型在語義上存在較高相似度,且關(guān)系描述詞一般在共現(xiàn)句中出現(xiàn)的次數(shù)較高。根據(jù)此基本假設(shè),我們提出了一種基于詞向量的關(guān)系描述候選詞生成方法。
首先,我們定義詞語w與關(guān)系類型r的相似度如下:
(1)
其中RSr表示關(guān)系類型r的預(yù)定義關(guān)系描述詞列表,similarity(w,w′)表示采用詞向量表示的詞語w和預(yù)定義關(guān)系描述詞w′的余弦相似度,count(RSr)表示關(guān)系類型r的預(yù)定義關(guān)系描述詞個(gè)數(shù)。
預(yù)定義關(guān)系描述詞可以由知識(shí)庫的關(guān)系類型整合得到,也可以人工定義。由于在線百科的詞條是由眾多網(wǎng)民共同維護(hù)編輯而得,對(duì)于同一關(guān)系的關(guān)系類型描述詞并不唯一,這給我們整合預(yù)定義關(guān)系描述詞帶來了便利。比如對(duì)于“夫妻”關(guān)系,不同的描述有“夫妻”、“妻子”、“丈夫”、“老婆”、“老公”等。我們把表述同一關(guān)系的不同詞語作為該關(guān)系的預(yù)定義關(guān)系描述詞,得到表1所示預(yù)定義關(guān)系描述詞集RS。
表1 由在線百科關(guān)系類型整合得到的預(yù)定義關(guān)系描述詞
例如,我們要計(jì)算詞語“同班同學(xué)”和關(guān)系“同學(xué)”的相似度,由式(1)及表1給出的預(yù)定義關(guān)系描述候選詞,我們可以得到:
similarity(w=同班同學(xué),r=同學(xué))=
下面給出基于詞向量的關(guān)系描述候選詞生成算法:
算法1 基于詞向量的關(guān)系描述候選詞生成算法
輸入:共現(xiàn)句集Whole、預(yù)定義關(guān)系描述詞集RS、詞向量模型Model、保留詞占所有詞比例ratio、相似度閾值ts、待抽取關(guān)系
輸出:關(guān)系描述候選詞集WS
1. FOR EACH 關(guān)系r IN 待抽取關(guān)系
2. FOR EACH 句子s IN Whole AND s對(duì)齊關(guān)系為r
3. FOR EACH 詞語w IN s的中文分詞結(jié)果列表
4. IF(w是動(dòng)詞或者名詞)
5. 記錄w詞頻
6. END FOR
7. END FOR
8. 按照詞頻從高到低排序,取前ratio*所有詞個(gè)數(shù)個(gè)詞語組成集合words
9. END FOR
10. FOR EACH w IN words
11. IF(Model.similarity(w,r)>ts)
12. w加入對(duì)應(yīng)于r的關(guān)系描述候選詞子集WSr
13. END FOR
14.FOR EACH關(guān)系r IN 待抽取關(guān)系
15. Wsr整合至WS中
16.END FOR
17.RETURN關(guān)系描述候選詞集WS
由于后續(xù)算法會(huì)進(jìn)一步剔除某些描述能力弱的關(guān)系描述詞對(duì)應(yīng)的句子,故算法1的主要目的是粗篩選關(guān)系描述詞,應(yīng)較全面獲取關(guān)系描述候選詞。由此,算法1中的保留詞占所有詞比例ratio可適當(dāng)取20%,相似度閾值ts可以適當(dāng)取最高詞語相似度的0.4~0.6倍,以獲得較全面的關(guān)系描述候選詞。
2.2 句子模式提取
對(duì)于擁有相同關(guān)系描述詞的共現(xiàn)句,其表述關(guān)系類型的能力不盡相同。比如,共現(xiàn)句 1“馮小剛和徐帆看望了朋友生病的妻子”和共現(xiàn)句2“作為馮小剛妻子的徐帆”。雖然兩個(gè)句子都擁有關(guān)系描述詞“妻子”,但共現(xiàn)句1不能表明馮小剛和徐帆的“夫妻”關(guān)系,共現(xiàn)句2則說明了馮小剛和徐帆是“夫妻”關(guān)系。不同句式擁有不同的描述關(guān)系能力。我們可以采用句子模式提取的方法來抽象出句式特點(diǎn)。本文提出的句子模式提取方法基于文獻(xiàn)[7,15]進(jìn)行改進(jìn)。句子模式提取算法描述如下:
算法2 句子模式提取算法
輸入:共現(xiàn)句sentence、人物實(shí)體1、人物實(shí)體2、共現(xiàn)句對(duì)應(yīng)關(guān)系r、關(guān)系候選描述詞集WS
輸出:句子模式pattern
1. 初始化pattern=sentence
2. 將pattern中人物實(shí)體1和實(shí)體2分別替換為
3. 保留pattern中對(duì)應(yīng)關(guān)系r的關(guān)系描述候選詞子集WSr內(nèi)的詞語及詞性
4. 保留pattern中詞“是”、“的”、“與”、“和”、“跟”及其詞性
5. 將pattern中時(shí)間替換成
6. 對(duì)于pattern中非2、3、4步驟中需要保留的詞語,只保留詞性,詞語替換成“.”
7. 只截取保留pattern中
8. RETURN pattern
根據(jù)算法2,我們可以抽取共現(xiàn)句1“馮小剛和徐帆看望了朋友生病的妻子”對(duì)應(yīng)的句子模式。句子1“馮小剛和徐帆看望了朋友生病的妻子”中“妻子”是關(guān)系類型“夫妻”描述候選詞,經(jīng)過算法2進(jìn)行句子模式提取可以得到對(duì)應(yīng)模式為“
2.3 句子模式相似度計(jì)算及聚類
利用算法2抽取的句子模式已經(jīng)具有一定的泛化性,比如“佟大為妻子關(guān)悅通過為小兩口送上祝福”和句子“黃磊妻子孫莉也一下成了眾人羨慕嫉妒恨的對(duì)象”映射到了相同的句子模式“
最短編輯距離由文獻(xiàn)[16]提出,常用于描述字符串之間相似度。最短編輯距離被定義為字符串A使用的最少的刪除、增加、替換步驟來修改成字符串B的步驟次數(shù)。最短編輯距離可以使用動(dòng)態(tài)規(guī)劃來求解,詳細(xì)求解方法可參考文獻(xiàn)[16]。
我們計(jì)算出任意兩個(gè)句子模式之間的最短編輯距離,以此作為兩個(gè)句子模式的相似度。隨后,對(duì)于在相同關(guān)系類型下?lián)碛邢嗤P(guān)系描述候選詞的句子模式使用譜聚類的方式進(jìn)行聚類,使句子模式得到泛化,過程描述如算法3。
算法3 句子模式聚類算法
輸入:句子模式集PS1、聚類簇大小t1、關(guān)系描述候選詞集WS、待抽取關(guān)系
輸出:聚類后句子模式集PS2
1. FOR EACH 關(guān)系r IN 待抽取關(guān)系
2. FOR EACH 關(guān)系描述候選詞f IN r對(duì)應(yīng)關(guān)系描述候選詞子集WSr
3. 得到r、f對(duì)應(yīng)的句子模式子集
PSrf={p∈PS1∧p描述關(guān)系類型為r∧p包含關(guān)系描述侯選詞f}
4. FOR EACH p1 IN PSrf
5. FOR EACH p2 IN PSrf
6. IF(p1≠p2)
7. 計(jì)算p1、p2最短編輯距離distance,并令sim(p1,p2)= distance,構(gòu)造相似度矩陣Msim
8. 使用譜聚類算法對(duì)PSrf內(nèi)的所有模式進(jìn)行聚類,簇大小為t1,結(jié)果保存到聚類結(jié)果PS2rf中
9. END FOR
10. END FOR
11. END FOR
12.END FOR
13.FOR EACH 關(guān)系r IN 待抽取關(guān)系
14. FOR EACH 關(guān)系描述候選詞f IN WSr
PS2rf整合至PS2中
15. END FOR
16.END FOR
17.RETURN PS2
算法3中,為了增強(qiáng)聚類后句子模式的泛化性,聚類簇大小不宜過大。具體可根據(jù)聚類前句子模式數(shù)量,適當(dāng)取聚類簇大小t1為3~5。
2.4 句子模式置信度計(jì)算及句子篩選
對(duì)于經(jīng)過算法2句子模式提取和算法3句子模式聚類得到的句子模式集PS2,需要引入一定的評(píng)分機(jī)制來評(píng)價(jià)不同模式聚類結(jié)果描述關(guān)系類型能力的強(qiáng)弱。為此,我們借鑒了文獻(xiàn)[6]中給出的模式評(píng)分方法,句子模式聚類結(jié)果置信度評(píng)分采用式(3)進(jìn)行計(jì)算:
(2)
ConfRlogF(Rcluster)=Conf(Pcluster)×log(Pcluster·positive)
(3)
其中,式(2)采用句子模式聚類結(jié)果Pcluster對(duì)應(yīng)的句子正例占所有句子的比例作為Pcluster的置信度。式(3)對(duì)式(2)進(jìn)行了擴(kuò)展,在置信度計(jì)算中加入了句子模式常見程度,認(rèn)為常見的句子模式具有更高的置信度。
我們在語料中尋找符合句子模式Pcluster的共現(xiàn)句,如果共現(xiàn)句實(shí)體對(duì)關(guān)系和知識(shí)庫一致,則判為正例;若共現(xiàn)句實(shí)體對(duì)關(guān)系和知識(shí)庫矛盾,則判斷為負(fù)例。
比如某個(gè)表示“父母子女”關(guān)系的句子模式簇里面擁有模式“
算法4 句子篩選算法
輸入:共現(xiàn)句集Whole、保留句子比例ratio、句子模式簇評(píng)分結(jié)果ConfPattern、待抽取關(guān)系輸出:篩選后的共現(xiàn)句集Filter
1. FOR EACH r IN 待抽取關(guān)系
2. 在共現(xiàn)句集Whole中獲取關(guān)系r對(duì)應(yīng)的共現(xiàn)句子集Wholer
3. 保留句子數(shù)量countSentence = Wholer句子數(shù)量count(Wholer)*ratio
4. 對(duì)Wholer內(nèi)句子抽取對(duì)應(yīng)pattern,以pattern的置信度評(píng)分conf作為句子對(duì)應(yīng)的置信度評(píng)分conf
5. 按照句子置信度評(píng)分conf從大到小對(duì)Wholer內(nèi)句子進(jìn)行排序,抽取前countSentence 個(gè)句子放入關(guān)系r過濾后的共現(xiàn)句子集Filterr
6. END FOR
7. FOR EACH r IN 待抽取關(guān)系
8. Filterr整合至Filter中
9. END FOR
10.RETURN Filter
借助算法4,我們可以把對(duì)齊后得到的共現(xiàn)句集Whole經(jīng)過篩選,得到描述關(guān)系類型能力較強(qiáng)的句子,組成共現(xiàn)句集Filter,作為訓(xùn)練集。
3.1 數(shù)據(jù)集
作為兩大中文在線百科,互動(dòng)百科[18]及百度百科[19]由數(shù)量眾多的用戶參與編輯,詞條資源豐富。我們首先由新浪娛樂明星資料頁[20]獲取部分明星姓名作為人物種子,而后在百度百科、在線百度獲取對(duì)應(yīng)人物關(guān)系,并把不在種子列表的明星姓名加入種子列表,進(jìn)行迭代,擴(kuò)充我們的知識(shí)庫。最終獲取的知識(shí)庫共有人物7 954人,人物對(duì)19 472對(duì),關(guān)系描述詞1 078種。
我們采取爬蟲抓取的方式獲取語料庫。我們抓取了新浪娛樂新聞網(wǎng)、搜狐娛樂新聞網(wǎng)、騰訊娛樂新聞網(wǎng)等大型新聞網(wǎng)近期娛樂新聞,文本文件共計(jì)400 MB。
我們挑選出6種常見關(guān)系(夫妻、父母子女、兄弟姐妹、情侶、同學(xué)、經(jīng)紀(jì)人)進(jìn)行實(shí)驗(yàn)。知識(shí)庫中6種關(guān)系的人物對(duì)共有3 963人,我們按照6∶4的比例劃分出訓(xùn)練集和測試集。訓(xùn)練集對(duì)齊得到共現(xiàn)句集Whole情況見表2所示。
表2 訓(xùn)練集Whole人物對(duì)數(shù)量、句子數(shù)量
3.2 實(shí)驗(yàn)及評(píng)價(jià)
3.2.1 訓(xùn)練集設(shè)置、模型及特征選擇
實(shí)驗(yàn)?zāi)康脑谟趯?duì)比本文方法篩選出的句子構(gòu)成的訓(xùn)練集是否對(duì)訓(xùn)練模型性能有所提升。我們設(shè)計(jì)了兩個(gè)對(duì)比訓(xùn)練集,一個(gè)是采用原始共現(xiàn)句集Whole,并隨機(jī)挑選不存在關(guān)系的實(shí)體對(duì)對(duì)齊得到共現(xiàn)句作為關(guān)系類型“其他”,加入共現(xiàn)句集Whole形成訓(xùn)練集Whole。另一個(gè)采用篩選后的共現(xiàn)句集Filter,同樣加入與訓(xùn)練集Whole相同的關(guān)系類型為“其他”的共現(xiàn)句。由表2可知,不同關(guān)系類型的共現(xiàn)句數(shù)量差別較大,為了使樣本比例不過于懸殊,我們對(duì)訓(xùn)練集Whole進(jìn)行了采樣。對(duì)共現(xiàn)句數(shù)量大于5 000的關(guān)系類型,隨機(jī)采樣5 000個(gè)共現(xiàn)句,數(shù)量小于等于5 000的關(guān)系類型,保留所有共現(xiàn)句,組成最終的訓(xùn)練集Whole。另外,我們由共現(xiàn)句集Filter和訓(xùn)練集Whole求交集得到訓(xùn)練集Filter。訓(xùn)練集Filter相當(dāng)于在訓(xùn)練集Whole的基礎(chǔ)上進(jìn)行句子篩選得到。
本文采用HanLP中文分詞工具[21]進(jìn)行中文分詞,并使用gensim[22]進(jìn)行詞向量訓(xùn)練。
特征采用關(guān)系抽取任務(wù)常用特征[17],即實(shí)體1、實(shí)體2前后w個(gè)窗口大小詞語、詞性。根據(jù)文獻(xiàn)[17],w取2效果最好,這里,我們?nèi)=2。
對(duì)于訓(xùn)練集Whole和訓(xùn)練集Filter我們分別使用libsvm[23]進(jìn)行模型訓(xùn)練。
為了對(duì)比算法3里保留句子比例ratio的不同取值對(duì)訓(xùn)練集Filter的性能影響。我們設(shè)置了3.2.2節(jié)的對(duì)比實(shí)驗(yàn),旨在找到使訓(xùn)練集Filter性能最佳的ratio,分析其原因,并對(duì)訓(xùn)練集Whole和最佳情況下訓(xùn)練集Filter的性能進(jìn)行對(duì)比。此外,為了驗(yàn)證本文去噪方法的移植性,3.2.3節(jié)對(duì)原始訓(xùn)練集Whole和訓(xùn)練集Filter在不同語料庫上進(jìn)行對(duì)比實(shí)驗(yàn)。3.2.4節(jié)給出了訓(xùn)練集Whole和訓(xùn)練集Filter訓(xùn)練時(shí)間、訓(xùn)練集存儲(chǔ)空間、模型存儲(chǔ)空間等對(duì)比。
3.2.2 不同保留句子比例對(duì)篩選訓(xùn)練集性能的影響對(duì)比
為了研究算法3中不同保留句子比例ratio對(duì)訓(xùn)練集Filter性能影響,我們對(duì)算法3中不同保留句子比例ratio分別嘗試了7組不同取值:0.2、0.4、0.5、0.7、0.8、0.9、0.95。以橫坐標(biāo)代表ratio的不同取值,縱坐標(biāo)代表對(duì)應(yīng)的準(zhǔn)確率、召回率、F值,水平虛線代表訓(xùn)練集Whole該指標(biāo)的數(shù)值,用于比較。繪制出ratio在不同取值下關(guān)系抽取結(jié)果的準(zhǔn)確率、召回率、F值情況,得到圖3-圖5。
圖3 不同句子保留比例下的準(zhǔn)確率
圖4 不同句子保留比例下的召回率
圖5 不同句子保留比例下的F值
由圖3可知,當(dāng)ratio小于等于0.9時(shí),隨著句子保留比例ratio的增大,準(zhǔn)確率逐漸增加,到達(dá)0.9時(shí)最大,往后隨著ratio增加準(zhǔn)確率不再升高,反而略有下降。另外,當(dāng)ratio小于0.7時(shí)訓(xùn)練集Filter的準(zhǔn)確率不如訓(xùn)練集Whole。這是因?yàn)楸A舻木渥舆^少,訓(xùn)練樣本不足以涵蓋足夠多的關(guān)系表達(dá)模式,且樣本數(shù)量不足,導(dǎo)致訓(xùn)練得到的模型容易過擬合,從而準(zhǔn)確率不高。當(dāng)ratio大于等于0.7時(shí),去除部分噪聲共現(xiàn)句能得到質(zhì)量更高的訓(xùn)練集Filter,而從提高訓(xùn)練模型的準(zhǔn)確率。但當(dāng)ratio大于0.9時(shí)準(zhǔn)確率會(huì)有所下降,這是因?yàn)槿コ脑肼暪铂F(xiàn)句不足導(dǎo)致的。當(dāng)ratio等于0.9的時(shí)候準(zhǔn)確率最高,此時(shí)丟棄的句子大部分為噪聲共現(xiàn)句,并且保證了訓(xùn)練樣本數(shù)量,所以準(zhǔn)確率最高。
由圖4分析可知,當(dāng)句子保留比例ratio達(dá)到0.4時(shí),訓(xùn)練集Filter能夠達(dá)到和訓(xùn)練集Whole接近或更高的召回率,并且隨著ratio增大,召回率保持穩(wěn)定。這從另一個(gè)側(cè)面說明用本文方法進(jìn)行訓(xùn)練集去噪能夠在保持召回率不降低的情況下提升準(zhǔn)確率。
由圖5分析得,在句子保留比例ratio大于等于0.5的情況下,訓(xùn)練集Filter能夠獲得比訓(xùn)練集Whole更高的F值。在ratio小于等0.9時(shí),隨著ratio的增大,F(xiàn)值逐漸增加,當(dāng)ratio達(dá)到0.9時(shí)F值最大,此后ratio增加不會(huì)再提高F值。這是因?yàn)閞atio大于等于0.5以后,召回率基本穩(wěn)定不變,而準(zhǔn)確率獲得逐步提升,至ratio=0.9時(shí)準(zhǔn)確率最高。由此可以得到結(jié)論,在句子保留比例小于等于0.9時(shí)F值逐步升高,往后F值略有降低。ratio等于0.9時(shí)能獲得最佳模型。
由上面不同句子保留比例準(zhǔn)確率、召回率、F值對(duì)比,我們得出句子保留比例ratio=0.9的時(shí)候訓(xùn)練集Filter性能較佳。我們對(duì)比此時(shí)訓(xùn)練集Filter和原始訓(xùn)練集Whole,統(tǒng)計(jì)得到表3所示的訓(xùn)練集Whole和訓(xùn)練集Filter對(duì)應(yīng)模型比較情況。
表3 訓(xùn)練集Whole和訓(xùn)練集Filter對(duì)應(yīng)模型比較(ratio=0.9)
由表3可知,對(duì)于所有六種關(guān)系訓(xùn)練集Filter訓(xùn)練模型較訓(xùn)練集Whole準(zhǔn)確率都獲得了3%~8%的提升。與此同時(shí),只有“同學(xué)”關(guān)系的召回率略微下降,其他關(guān)系召回率上升或者保持不變。六種關(guān)系的F值均獲得上升。這說明,在合理選擇句子保留比例的情況下,經(jīng)過本文方法過濾句子得到的訓(xùn)練集Filter較原始訓(xùn)練集Whole得出的模型能夠在保證召回率的情況下,提升關(guān)系抽取的準(zhǔn)確率,從而提升關(guān)系抽取任務(wù)F值。
3.2.3 不同語料庫準(zhǔn)確率、召回率、F值對(duì)比
為了驗(yàn)證本文提出的方法是否具有移植性,我們對(duì)不同語料庫采用本文提出方法進(jìn)行對(duì)比實(shí)驗(yàn)。我們對(duì)比了爬蟲抓取的新聞、維基百科中文語料兩種不同中文語料。對(duì)于不同語料庫我們采用相同的預(yù)處理方法、相同的閾值進(jìn)行實(shí)驗(yàn),匯總六種關(guān)系的準(zhǔn)確率、召回率、F值,得到表4結(jié)果。
表4 不同語料庫下訓(xùn)練集Whole和訓(xùn)練集Filter對(duì)應(yīng)模型比較
由表4分析得出,對(duì)于不同的語料庫,使用本文提出方法進(jìn)行訓(xùn)練集句子篩選都能達(dá)到在保證召回率的情況下提升準(zhǔn)確率的目標(biāo),從而提升F值。同時(shí)可以看到,由于維基百科中文語料對(duì)齊知識(shí)庫得到的測試集句子數(shù)比爬蟲抓取新聞?wù)Z料少很多。所以在準(zhǔn)確率及召回率上維基百科中文語料較爬蟲抓取新聞?wù)Z料有所下降,其中召回率下降較為嚴(yán)重。這給我們啟發(fā):互聯(lián)網(wǎng)上有大量冗余自由文本,我們可以充分利用互聯(lián)網(wǎng)豐富的文本資源,擴(kuò)大語料庫規(guī)模,而從提高召回率。
3.2.4 同語料庫準(zhǔn)確率、召回率、F值對(duì)比
使用本文提出方法進(jìn)行去噪,不僅能提升模型的準(zhǔn)確率,還能減少樣本量、節(jié)約訓(xùn)練集存儲(chǔ)空間及訓(xùn)練模型存儲(chǔ)空間。以爬蟲抓取新聞?wù)Z料為例,我們統(tǒng)計(jì)了訓(xùn)練集Whole及訓(xùn)練集Filter在訓(xùn)練時(shí)間、存儲(chǔ)空間等項(xiàng)目的對(duì)比情況,匯總得到表5。
表5 訓(xùn)練集Whole和Filter存儲(chǔ)空間、訓(xùn)練時(shí)間等比較
由表5可以看出,訓(xùn)練集Filter較訓(xùn)練集Whole樣本總數(shù)減少,從而節(jié)約了模型訓(xùn)練時(shí)間、模型存儲(chǔ)空間。
本文提出了一種利用詞向量及句子模式抽取、聚類及評(píng)分的方法對(duì)遠(yuǎn)程監(jiān)督人物關(guān)系抽取過程語料庫對(duì)齊知識(shí)庫得到的原始訓(xùn)練集中噪聲句子過濾,去掉對(duì)特定關(guān)系描述能力弱甚至不能描述關(guān)系的句子,達(dá)到對(duì)遠(yuǎn)程監(jiān)督人物關(guān)系抽取方法訓(xùn)練集去噪目的。我們首先通過使用詞頻及詞向量相似度信息確定了待抽取關(guān)系的關(guān)系描述候選詞;接著我們借助關(guān)系描述候選詞對(duì)句子進(jìn)行了模式抽取,利用最短編輯距離進(jìn)行句子模式相似度計(jì)算,利用譜聚類方式進(jìn)行句子模式聚類;最后引入置信度評(píng)分對(duì)句子模式聚類結(jié)果進(jìn)行置信度評(píng)分,保留置信度評(píng)分較高的句子作為訓(xùn)練集。實(shí)驗(yàn)證明,本文提出的遠(yuǎn)程監(jiān)督人物關(guān)系抽取去噪方法能對(duì)原始訓(xùn)練集中關(guān)系描述較弱的句子進(jìn)行提出,達(dá)到保證召回率情況下提高準(zhǔn)確率的目標(biāo),縮減訓(xùn)練集大小和訓(xùn)練時(shí)間,提升了模型性能。
但遠(yuǎn)程監(jiān)督在知識(shí)庫和語料庫對(duì)齊獲取共現(xiàn)句的過程,如何合理地分割句子是一個(gè)難點(diǎn)。句子分割粒度太細(xì)(如用逗號(hào)分割),會(huì)出現(xiàn)共現(xiàn)句數(shù)量減少的情況,但句子分割粒度太粗,則會(huì)出現(xiàn)共現(xiàn)句中實(shí)體對(duì)距離過遠(yuǎn),描述關(guān)系的句子模式不顯著的情況,下一步工作我們將對(duì)此展開研究。
[1] Mintz M,Bills S,Snow R,et al.Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2.Association for Computational Linguistics,2009:1003-1011.
[2] Bengio Y,Schwenk H,Senécal J S,et al.Neural probabilistic language models[M].Innovations in Machine Learning.Springer Berlin Heidelberg,2006:137-186.
[3] Mikolov T,Yih W,Zweig G.Linguistic Regularities in Continuous Space Word Representations[C]//HLT-NAACL,2013:746-751.
[4] 張為泰.基于詞向量模型特征空間優(yōu)化的同義詞擴(kuò)展研究與應(yīng)用[D].北京郵電大學(xué),2015.
[5] Hearst M A.Automatic acquisition of hyponyms from large text corpora[C]//Proceedings of the 14th Conference on Computational Linguistics-Volume 2.Association for Computational Linguistics,1992:539-545.
[6] Agichtein E,Gravano L.Snowball:extracting relations from large plain-text collections[C]//ACM Conference on Digital Libraries.ACM,2000:85-94.
[7] Ruiz-Casado M,Alfonseca E,Castells P.Automatic extraction of semantic relationships for wordnet 15[M].Natural Language Processing and Information Systems.Springer Berlin Heidelberg,2005:67-79.
[8] Craven M,Kumlien J.Constructing biological knowledge bases by extracting information from text sources[C]//PubMed,1999:77-86.
[9] Nunes T,Schwabe D.Building Distant Supervised Relation Extractors[C]//IEEE International Conference on Semantic Computing.IEEE Computer Society,2014:44-51.
[10] 潘云,布勒布麗汗·伊沙巴依,楊靜,等.利用中文在線資源的遠(yuǎn)程監(jiān)督人物關(guān)系抽取[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(4):701-706.
[11] Hearst M A.Automated discovery of WordNet relations[M]//WordNet: an electronic lexical database.MIT Press,1998:131-153.
[12] Berland M,Charniak E.Finding parts in very large corpora[C]//Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics.Association for Computational Linguistics,1999:57-64.
[13] 李丹,羅智勇.基于序列模式挖掘的人物關(guān)系識(shí)別[C]//中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009),2009:582-587.
[14] 姚從磊,邸楠.一種基于Web的大規(guī)模人物社會(huì)關(guān)系提取方法[J].模式識(shí)別與人工智能,2007,20(6):740-744.
[15] 張葦如,孫樂,韓先培.基于維基百科和模式聚類的實(shí)體關(guān)系抽取方法[J].中文信息學(xué)報(bào),2012,26(2):75-81.
[16] Wagner R A,Fischer M J.The String-to-String Correction Problem[J].Journal of the Acm,1974,21(1):168-173.
[17] 車萬翔,劉挺,李生.實(shí)體關(guān)系自動(dòng)抽取[J].中文信息學(xué)報(bào),2005,19(2):1-6.
[18] Hudong encyclopedia[EB/OL].http://www.baike.com/.
[19] Baidu encyclopedia[EB/OL].http://baike.baidu.com/.
[20] Sina star[EB/OL].http://ku.ent.sina.com.cn/star/search.
[21] HanLP[EB/OL].https://github.com/hankcs/HanLP.
[22] gensim[EB/OL].http://radimrehurek.com/gensim/.
[23] libsvm[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm.
RESEARCH ON NOISE REDUCTION IN DISTANT SUPERVISED PERSONAL RELATION EXTRACTION
Huang Beijing He Liang Yang Jing
(DepartmentofComputerScienceandTechnology,EastChinaNormalUniversity,Shanghai200241,China)
Distant supervised personal relation extraction heuristically aligns knowledge base with free text to construct training data set. This process can result in invalid aligned sentences which can’t express relation of the given entity pair. In this paper, we analyse the reasons of this problem, combined with the lexical and syntactic aspects, and propose a method to denoise the training data set of distant supervised personal relation extraction by using sentence pattern clustering and pattern scoring. Firstly, we generate relation candidate feature words with the help of word embedding. Then, we adopt an algorithm for sentence pattern extraction and pattern clustering by using relation candidate feature words. Finally, we compute confidence of pattern clusters and discard sentences which pattern confidence below threshold. By filtering low sentences with pattern confidence, we can discard sentences with low or no ability to describe specific relation and get the filtered training data set. Experiments show that this method can be used to monitor the different corpus remotely. The original training data set can achieve 3% to 5% accuracy improvement under the condition of guaranteeing the recall rate.
Personal relation extraction Distant supervised Pattern extraction Pattern clustering Pattern scoring
2016-08-15。上海市經(jīng)濟(jì)和信息化委員會(huì)項(xiàng)目(150643);閔行區(qū)人才發(fā)展專項(xiàng)資金。黃蓓靜,碩士生,主研領(lǐng)域:數(shù)據(jù)挖掘,關(guān)系抽取。賀樑,教授。楊靜,副教授。
TP3
A
10.3969/j.issn.1000-386x.2017.07.003