馬超義,徐蔚然
(北京郵電大學(xué) 信息與通信工程學(xué)院,北京 100876)
基于弱監(jiān)督和半自動(dòng)方法的中文關(guān)系抽取數(shù)據(jù)集構(gòu)建
馬超義,徐蔚然
(北京郵電大學(xué) 信息與通信工程學(xué)院,北京 100876)
關(guān)系抽取是信息抽取中的一項(xiàng)基礎(chǔ)任務(wù),對(duì)信息檢索、問(wèn)答系統(tǒng)、知識(shí)圖譜等有非常重要的意義?,F(xiàn)有的關(guān)系抽取數(shù)據(jù)集存在包含類別太少、句子標(biāo)注困難、不易擴(kuò)展等缺陷,且只有英文數(shù)據(jù)集,不能很好地解決中文關(guān)系抽取任務(wù)。該文采用弱監(jiān)督和半自動(dòng)的方法,構(gòu)建了一份中文關(guān)系抽取數(shù)據(jù)集,彌補(bǔ)了上述不足。首先借助維基百科抽取出豐富的關(guān)系對(duì),從百度搜索返回結(jié)果及搜狗新聞?wù)Z料中抽取包含實(shí)體對(duì)的句子,完成弱監(jiān)督句子抽取過(guò)程。將句子放入RNN關(guān)系抽取系統(tǒng)進(jìn)行打分,選取標(biāo)注價(jià)值高的句子提交人工標(biāo)注,對(duì)標(biāo)注結(jié)果進(jìn)行處理,最終得到中文關(guān)系抽取數(shù)據(jù)集。
關(guān)系抽?。粩?shù)據(jù)集;弱監(jiān)督;半自動(dòng)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)日益成為人們生活中不可缺少的一部分。信息抽取能夠幫助人們?cè)诤A康男畔⒅锌焖俣ㄎ坏阶约赫嬲枰男畔ⅲ且粋€(gè)以自由文本作為輸入,產(chǎn)生固定格式的、無(wú)歧義的輸出數(shù)據(jù)的過(guò)程。
關(guān)系抽取是信息抽取的一項(xiàng)重要子任務(wù),是指利用包含一對(duì)命名實(shí)體的自然語(yǔ)言文本來(lái)確定兩者之間的關(guān)系。對(duì)信息抽取技術(shù)的研究和應(yīng)用有重要意義,對(duì)信息檢索、問(wèn)答系統(tǒng)、信息過(guò)濾、機(jī)器翻譯等有非常積極的意義。比如,在搜索服務(wù)中,用戶想要知道某明星的出生日期,而網(wǎng)絡(luò)搜索通常只返回包含用戶搜索詞的頁(yè)面,無(wú)法洞悉用戶的需求進(jìn)而直接返回答案。而關(guān)系抽取的目的正是希望通過(guò)對(duì)網(wǎng)絡(luò)中各類自由文本的解析,返回最有可能的結(jié)果作為答案。
實(shí)體關(guān)系抽取的方法,主要有基于知識(shí)工程的方法和基于機(jī)器學(xué)習(xí)的方法。基于知識(shí)工程的方法依賴于專家構(gòu)建的知識(shí)庫(kù),花費(fèi)大量的人力和時(shí)間,并且系統(tǒng)移植困難,所以基于機(jī)器學(xué)習(xí)的方法成為目前的主流。機(jī)器學(xué)習(xí)方法效果的好壞很大程度上依賴于訓(xùn)練數(shù)據(jù)集的質(zhì)量。目前被廣泛采用的是2009年構(gòu)建的SemEval-2010 Task 8數(shù)據(jù)集,數(shù)據(jù)集包含九種關(guān)系定義,最新的關(guān)系抽取系統(tǒng)可以達(dá)到85%以上的準(zhǔn)確率。
考慮到現(xiàn)有數(shù)據(jù)集類別種類不夠豐富,分類效果已很難提高,且不能很好地解決中文關(guān)系抽取的任務(wù)。本文在總結(jié)了現(xiàn)有關(guān)系數(shù)據(jù)集的基礎(chǔ)上: ①采用弱監(jiān)督的方法獲取待處理語(yǔ)料,豐富了關(guān)系類別及句子類型;②采用半自動(dòng)的方式,處理獲得的語(yǔ)料,在保證準(zhǔn)確性的基礎(chǔ)上,大大降低了人工標(biāo)注工作量;③最終通過(guò)標(biāo)注得到中文關(guān)系抽取數(shù)據(jù)集,供中文關(guān)系抽取任務(wù)使用。
2.1 相關(guān)工作總結(jié)
現(xiàn)有關(guān)系抽取數(shù)據(jù)集主要有兩個(gè),一是Sem-Eval-2010 Task 8 數(shù)據(jù)集,該數(shù)據(jù)集構(gòu)建于2009年,共包含九種互不相容的關(guān)系,如因果關(guān)系、包含關(guān)系等。數(shù)據(jù)集包含10 717條數(shù)據(jù),其中每條數(shù)據(jù)是一個(gè)包含實(shí)體對(duì)的句子,類別標(biāo)簽為實(shí)體對(duì)在該句中表現(xiàn)出的關(guān)系,例如:
My new lt;e1gt; apartment lt;/e1gt; has a lt;e2gt; large kitchen lt;/e2gt;. --Component-Whole
該數(shù)據(jù)集被廣泛應(yīng)用,已被引用108次。目前關(guān)系抽取系統(tǒng)在該數(shù)據(jù)集上的分類效果已達(dá)到85%以上,在錯(cuò)分的句子中很多通過(guò)人工都很難準(zhǔn)確識(shí)別,因而需要更豐富的類別和更多的句子供關(guān)系抽取系統(tǒng)使用。
另一評(píng)測(cè)數(shù)據(jù)集是TAC-KBP關(guān)系抽取任務(wù)給出的官方答案。該任務(wù)中共包含41種關(guān)系類別,約33 000句。句子類別相對(duì)豐富,但句子都來(lái)自官方給出的新聞?wù)Z料,類型不夠豐富且包含網(wǎng)頁(yè)中的多余字符。由于允許利用共指信息完成推斷,因而答案常常包含整段信息,不能很好地應(yīng)用于關(guān)系抽取任務(wù)。
2.2 弱監(jiān)督與半自動(dòng)的抽取框架
本文在參考了現(xiàn)有英文數(shù)據(jù)集的基礎(chǔ)上,構(gòu)建了關(guān)系抽取的中文數(shù)據(jù)集,框架如圖1所示。首先,通過(guò)弱監(jiān)督的方式,從數(shù)據(jù)庫(kù)中抽取實(shí)體對(duì),進(jìn)而從自由文本中取得更多更精確的句子,然后交由半自動(dòng)的標(biāo)注系統(tǒng),進(jìn)一步抽取標(biāo)注價(jià)值更大的句子完成標(biāo)注工作,在保證句子可靠性和多樣性的基礎(chǔ)上,降低了人工標(biāo)注的難度。
圖1 數(shù)據(jù)集構(gòu)建流程
關(guān)系抽取的標(biāo)注工作需借助句子中表達(dá)的內(nèi)容確定句子中實(shí)體對(duì)的關(guān)系。若直接從網(wǎng)絡(luò)數(shù)據(jù)中找出包含實(shí)體對(duì),且描述恰為已定義關(guān)系類型的句子,將耗費(fèi)大量的人力,效率低下且標(biāo)注效果也將受到影響。
因此本文提出了一種弱監(jiān)督的句子抽取方法。首先,借助外部知識(shí)庫(kù),找出屬于特定關(guān)系的實(shí)體對(duì),再?gòu)淖杂晌谋局羞x擇包含這些實(shí)體對(duì)的句子。比如,在尋找屬于“出生地”這個(gè)關(guān)系的句子時(shí),借助外部知識(shí)庫(kù),發(fā)現(xiàn) lt;奧巴馬,夏威夷gt;實(shí)體對(duì)屬于該關(guān)系,然后抽取包含 “奧巴馬”和“夏威夷”兩個(gè)詞的句子,相較于隨機(jī)抽取的句子,如只包含“奧巴馬”而不包含“夏威夷”的句子,這種方式得到的結(jié)果更有可能屬于“出生地”這個(gè)類別,而且可以很方便地標(biāo)注句子中待確定關(guān)系的實(shí)體對(duì)的位置。
3.1 關(guān)系定義
關(guān)系定義時(shí),最重要的兩點(diǎn)是關(guān)系的完備性和獨(dú)立性。完備性是指我們定義的關(guān)系應(yīng)盡可能地覆蓋所有的句子,同時(shí)關(guān)系之間應(yīng)相互獨(dú)立,即不出現(xiàn)一個(gè)句子同時(shí)屬于兩個(gè)關(guān)系的情況。由于關(guān)系類型的多樣性,通常在已經(jīng)能夠包含大多數(shù)句子的情況下,會(huì)將剩余關(guān)系全部歸于“其他”。比如,Sem-Eval-2010 Task 8 數(shù)據(jù)集,定義了九種相互獨(dú)立的關(guān)系,然后將其余不屬于所列九種關(guān)系的句子全部歸于第十個(gè)類別“其他”。
但由于SemEval-2010 Task 8中類型不夠豐富,現(xiàn)有方法已能達(dá)到很高的分類準(zhǔn)確性。本文采用了TAC-KBP 2015年slot-filling任務(wù)中對(duì)句子關(guān)系的定義,共41種,更加細(xì)致也更加豐富。這41種關(guān)系可以按照候選實(shí)體的類型、數(shù)量分別分類。按候選實(shí)體類型可以分為三種: 名稱、數(shù)值、字符串。其中名稱類實(shí)體包括人名、地名、組織機(jī)構(gòu)名。數(shù)值類實(shí)體為數(shù)字或者日期。字符串型實(shí)體是除以上兩種類型外的其他實(shí)體,如宗教信仰、死亡原因等關(guān)系所對(duì)應(yīng)的實(shí)體。每種關(guān)系含義的具體描述在slot-filling任務(wù)的任務(wù)說(shuō)明*http://www.nist.gov/tac/2015/KBP/ColdStart/guidelines/TAC_KBP_2015_Slot_Descriptions_V1.0.pdf中有詳細(xì)介紹。關(guān)系具體名稱及類型如表1所示。
表1 slot-filling 關(guān)系列表
3.2 實(shí)體對(duì)獲取
本文采用弱監(jiān)督的方式,借助結(jié)構(gòu)化數(shù)據(jù)庫(kù)完成關(guān)系對(duì)獲取,目的是從結(jié)構(gòu)化數(shù)據(jù)庫(kù)中獲取屬于特定關(guān)系的實(shí)體對(duì)。在此之前,需要將已經(jīng)定義的關(guān)系與知識(shí)庫(kù)中描述的關(guān)系類型進(jìn)行對(duì)應(yīng)。
為保證所抽取實(shí)體對(duì)的可靠性及多樣性,本文采用維基百科作為輔助的外部數(shù)據(jù)庫(kù)。我們下載了離線的中文維基百科數(shù)據(jù)庫(kù)*https://dumps.wikimedia.org/zhwiki/,共包含11GB語(yǔ)料,包含約400萬(wàn)詞條。每個(gè)詞條對(duì)應(yīng)一個(gè)維基百科頁(yè)面,維基百科中人名、組織機(jī)構(gòu)名等頁(yè)面都包含實(shí)體關(guān)系描述部分,如圖2所示是詞條奧巴馬的關(guān)系描述部分。
圖2 維基百科頁(yè)面示例
這部分信息記錄在離線數(shù)據(jù)庫(kù)的info-box部分,含有info-box的詞條共20萬(wàn)個(gè)。通過(guò)人工篩選,我們得到了與這41個(gè)英文關(guān)系所對(duì)應(yīng)的維基關(guān)系描述共331條,如與altername對(duì)應(yīng)的維基關(guān)系有別名、alias、nickname等。通過(guò)抽取這些關(guān)系包含的實(shí)體,并經(jīng)過(guò)一些簡(jiǎn)單的字符處理,最終得到候選關(guān)系對(duì)共24多萬(wàn)條,如表2所示。
表2 關(guān)系對(duì)實(shí)例
3.3 包含實(shí)體對(duì)的句子獲取
在對(duì)TAC-KBP任務(wù)數(shù)據(jù)集進(jìn)行分析的過(guò)程中,我們發(fā)現(xiàn)通過(guò)新聞?wù)Z料獲取的句子形式不夠豐富,不能充分地包含各種類型的句子。因此,我們?cè)诰渥映槿∵^(guò)程中加入了百度搜索的結(jié)果,既可以很方便地得到包含實(shí)體對(duì)的句子,又能得到各種類型的句子形式,且能方便地拓展句子數(shù)量,解決類別間樣本不平衡的問(wèn)題。
我們首先使用了搜狗實(shí)驗(yàn)室提供的sogouCA新聞數(shù)據(jù)集,來(lái)自搜狐新聞2012年6—7月期間國(guó)內(nèi)、國(guó)際、體育、社會(huì)、娛樂(lè)等18個(gè)頻道共3GB的新聞數(shù)據(jù)。從中匹配包含已獲得實(shí)體對(duì)的句子。同時(shí),為保證候選句子類型的多樣性,我們利用百度API,抓取了搜索目標(biāo)實(shí)體對(duì)后的返回頁(yè)面內(nèi)容,通過(guò)字符匹配得到包含目標(biāo)實(shí)體對(duì)的句子,這樣大大地豐富了原有的結(jié)果。最終我們從sougouCA得到了5萬(wàn)多條候選句子,從百度返回結(jié)果中獲取了15萬(wàn)多條句子。由于百度結(jié)果的豐富性,結(jié)果可隨時(shí)進(jìn)行擴(kuò)充。
為方便接下來(lái)的句子分類任務(wù),我們?cè)诰渥又屑尤霕?biāo)記符對(duì)包含的實(shí)體進(jìn)行定位。最終句子形式如下:
lt;e1gt;劉墉lt;/e1gt;,臺(tái)灣著名lt;e2gt;作家lt;/e2gt;,由造成轟動(dòng)的《螢窗小語(yǔ)》開(kāi)始,到近年《愛(ài)就注定了一生的漂泊》,總共出版了30多本書(shū)。
使用半監(jiān)督的方法,可以確保抽取的句子中包含特定關(guān)系的實(shí)體對(duì),但由于句子源自自由文本,仍存在很大的冗余,直接提交人工標(biāo)注仍需較大工作量。因而本文采用了一種半自動(dòng)的標(biāo)注方式,將得到的句子首先交由訓(xùn)練好的RNN(recurrent neural network)關(guān)系抽取系統(tǒng)打分,選擇置信度較高的提交人工標(biāo)注,進(jìn)一步降低了人工標(biāo)注的數(shù)量,且每個(gè)句子有預(yù)設(shè)的類別,降低了標(biāo)注的復(fù)雜度。
4.1 RNN框架介紹
傳統(tǒng)關(guān)系抽取方法如基于模式匹配的關(guān)系抽取、基于字典驅(qū)動(dòng)的關(guān)系抽取等,都需要根據(jù)句子的語(yǔ)法特性,設(shè)定具體的模式,結(jié)果依賴于模式的優(yōu)劣及多樣性。與傳統(tǒng)關(guān)系抽取方法相比,基于機(jī)器學(xué)習(xí)的方法有更好的拓展性。該方法的實(shí)質(zhì)是將關(guān)系抽取看作一個(gè)分類問(wèn)題,通過(guò)具體的機(jī)器學(xué)習(xí)算法,借助標(biāo)注語(yǔ)料構(gòu)造分類器,然后將其應(yīng)用于特定關(guān)系的判別。
隨著深度學(xué)習(xí)理論的不斷發(fā)展,RNN在自然語(yǔ)言處理,尤其是句子級(jí)的分類任務(wù)中取得了很大進(jìn)展。相較于傳統(tǒng)方法依賴自然語(yǔ)言處理工具,進(jìn)行實(shí)體識(shí)別、詞性標(biāo)注、句法解析等預(yù)處理工作,RNN可只利用詞向量來(lái)表示每一個(gè)詞,作為網(wǎng)絡(luò)的輸入。并且利用神經(jīng)網(wǎng)絡(luò)來(lái)做句子分類的效果已逐漸超過(guò)傳統(tǒng)方法。
如圖3所示,分類器共包含三個(gè)部分,分別是: ①詞向量層,將輸入句子中的每個(gè)詞轉(zhuǎn)為詞向量表示;②雙向的循環(huán)層,將詞序列正向反向分別輸入,得到詞級(jí)別的特征;③最大池化層,將前一層得到的詞級(jí)別特征合并成句子級(jí)別的特征。最終將句子級(jí)別的特征用于分類。
借助詞向量的表達(dá)能力及RNN本身對(duì)詞的記憶能力,該模型在關(guān)系抽取任務(wù)中取得了很好的效果,已被廣泛應(yīng)用于各種句子分類任務(wù)。以上模型經(jīng)過(guò)訓(xùn)練,可以在英文訓(xùn)練集SemEval-2010 Task 8上取得80.0%的準(zhǔn)確率。
4.2 半監(jiān)督標(biāo)注過(guò)程
在半監(jiān)督標(biāo)注過(guò)程中, 我們采用了基于置信度的標(biāo)注策略,使用一個(gè)句子S被分為某一類別的最大概率值p0=maxpi(S)作為置信度,置信度越高
圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
的句子越容易被標(biāo)注為“是”從而加入訓(xùn)練數(shù)據(jù)集,但太高的閾值會(huì)導(dǎo)致待標(biāo)注句子數(shù)過(guò)少。本文最終選定0.75作為閾值,保證有足夠的結(jié)果加入最終數(shù)據(jù)集。如果置信度大于某一閾值,則認(rèn)為該句子具有更大的標(biāo)注價(jià)值,需要提交人工標(biāo)注。針對(duì)標(biāo)注任務(wù),我們?cè)O(shè)計(jì)了簡(jiǎn)易的標(biāo)注工具,如圖4所示。
圖4 簡(jiǎn)易標(biāo)注工具
從圖4可以看出:標(biāo)注選項(xiàng)共有五個(gè):“是”“否”“不確定”“丟棄”“其他”,分別代表: 句子屬于該類別、句子不屬于該類別、不能確定句子是否屬于該類別、句子格式或表述有問(wèn)題,直接丟棄、句子不屬于41個(gè)關(guān)系中的任一類別。標(biāo)注中,若標(biāo)注人員一致標(biāo)注為“是”或“其他”,則直接加入數(shù)據(jù)集。對(duì)于標(biāo)注不一致或標(biāo)為“不確定”的部分,可以幫助我們找出標(biāo)注過(guò)程中定義不清楚的情況。
初始階段,我們隨機(jī)地從每個(gè)類別中選取一些句子進(jìn)行標(biāo)注,以完成對(duì)RNN的初始訓(xùn)練,接著從余下的數(shù)據(jù)集中選擇句子放入分類器打分,根據(jù)打分結(jié)果決定是否提交人工標(biāo)注,標(biāo)注完成后的句子將繼續(xù)應(yīng)用于RNN的訓(xùn)練。重復(fù)以上步驟,完成對(duì)句子的處理,得到最終的數(shù)據(jù)集。
最終,我們選擇了41個(gè)關(guān)系類別,通過(guò)人工標(biāo)注的方式,從維基百科中選擇了331種關(guān)系定義作為這41種關(guān)系的拓展;通過(guò)半監(jiān)督的方式,從維基百科中獲取中文實(shí)體對(duì)24萬(wàn)多個(gè),從百度結(jié)果頁(yè)面及sougouCA新聞?wù)Z料中抽取句子20萬(wàn)余句。經(jīng)由RNN抽取系統(tǒng),選擇了約一萬(wàn)個(gè)句子提交人工標(biāo)注,經(jīng)過(guò)人工標(biāo)注,將5 031個(gè)句子加入數(shù)據(jù)集,作為最終的結(jié)果。該方法可供中文關(guān)系抽取及多類別句子分類任務(wù)使用,填補(bǔ)了中文數(shù)據(jù)集的空白。
經(jīng)過(guò)半監(jiān)督的抽取過(guò)程及分類器的打分,我們對(duì)候選句子進(jìn)行了有效的刪減,保留的句子包含候選類別,大大降低了人工標(biāo)注的難度。標(biāo)注過(guò)程中,我們通過(guò)分析標(biāo)注不一致及標(biāo)注結(jié)果為“不確定”的句子,逐步明確了各類別的定義。最后,針對(duì)標(biāo)注結(jié)果中某些類別句子數(shù)很少的情況,我們重新拓展了這些類別的句子數(shù),保證各類別句子數(shù)不會(huì)太少。
我們利用文中提到的RNN結(jié)構(gòu)在最終的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。隨機(jī)抽取每個(gè)關(guān)系中80%的句子作為訓(xùn)練集,20%的句子作為測(cè)試集。最終在41個(gè)類別上的分類準(zhǔn)確率為76%。相同分類器在TAC-KBP的數(shù)據(jù)集上,三萬(wàn)個(gè)句子、41個(gè)類別上的分類準(zhǔn)確率為61.6%。說(shuō)明最終的數(shù)據(jù)集更加規(guī)范有效,適用于關(guān)系抽取任務(wù)。
本文采用弱監(jiān)督和半自動(dòng)的方法,構(gòu)建了一份中文關(guān)系抽取數(shù)據(jù)集,填補(bǔ)了中文關(guān)系抽取數(shù)據(jù)集的空白。在數(shù)據(jù)集構(gòu)建過(guò)程中,參考現(xiàn)有英文數(shù)據(jù)集的構(gòu)建方式,并針對(duì)其關(guān)系類別少、句子形式不夠豐富、標(biāo)注復(fù)雜等缺陷,采用弱監(jiān)督的方式抽取句子,采用半自動(dòng)的方法對(duì)結(jié)果進(jìn)行進(jìn)一步處理,大大降低了人工標(biāo)注的難度。最終對(duì)數(shù)據(jù)集的評(píng)測(cè)效果證明了數(shù)據(jù)集的實(shí)用性。
由于中文關(guān)系抽取任務(wù)并沒(méi)有廣泛開(kāi)展,本文中的關(guān)系定義參考了英文數(shù)據(jù)集的定義方式,后續(xù)可逐步拓展和完善。分類器設(shè)計(jì)部分也可根據(jù)中文語(yǔ)法句法等的特點(diǎn)加入更多信息,或修改神經(jīng)網(wǎng)絡(luò),以達(dá)到很好的效果。
[1] 陳立瑋, 馮巖松, 趙東巖. 基于弱監(jiān)督學(xué)習(xí)的海量網(wǎng)絡(luò)數(shù)據(jù)關(guān)系抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(9): 1825-1835.
[2] 劉克彬, 李芳, 劉磊, 等. 基于核函數(shù)中文關(guān)系自動(dòng)抽取系統(tǒng)的實(shí)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2007, 44(8): 1406-1411.
[3] 牟晉娟, 包宏. 中文實(shí)體關(guān)系抽取研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2009 (15): 3587-3590.
[4] 余東, 李諾, 申德榮, 等. ERE: 基于半結(jié)構(gòu)化 Web 頁(yè)面的實(shí)體關(guān)系抽取系統(tǒng)[J]. 計(jì)算機(jī)與數(shù)字工程, 2014, 42(9): 1581-1586.
[5] 楊靜, 徐蔚然, 譚松波. COAE2014 情感關(guān)鍵句評(píng)測(cè)任務(wù)和評(píng)測(cè)數(shù)據(jù)設(shè)計(jì)[C]. 第六屆中文傾向性分析評(píng)測(cè)委員會(huì), 2015: 51.
[6] 楊博, 蔡?hào)|風(fēng), 楊華. 開(kāi)放式信息抽取研究進(jìn)展[J]. 中文信息學(xué)報(bào), 2014, 28(4):1-11.
[7] HENDRICKX I, KIM S N, KOZAREVA Z, et al. Semeval-2010 task 8: multi-way classification of semantic relations between pairs of nominals[C]//Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions. Association for Computational Linguistics, 2009: 94-99.
[8] 賈真, 何大可, 楊燕, 等. 基于弱監(jiān)督學(xué)習(xí)的中文網(wǎng)絡(luò)百科關(guān)系抽取[J]. 智能系統(tǒng)學(xué)報(bào), 2015, 10(1): 113-119.
[9] 楊宇飛, 戴齊, 賈真, 等. 基于弱監(jiān)督的屬性關(guān)系抽取方法[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(1): 64-68.
[10] 涂新輝, 張紅春, 周琨峰,等. 中文維基百科的結(jié)構(gòu)化信息抽取及詞語(yǔ)相關(guān)度計(jì)算方法[J]. 中文信息學(xué)報(bào), 2012, 26(3):109-115.
[11] Mikolov T, KarafiT M, Burget L, et al. Recurrent neural network based language model[C]//Proceedings of the Interspeech, 2010(2): 3.
[12] 戴敏, 朱珠, 李壽山,等. 面向中文文本的情感信息抽取語(yǔ)料庫(kù)構(gòu)建[J]. 中文信息學(xué)報(bào), 2015, 29(4):67-73.
[13] Zhang Z. Weakly-supervised relation classification for information extraction[C]//Proceedings of the thirteenth ACM international conference on Information and knowledge management. ACM, 2004: 581-588.
馬超義(1991—),通信作者,碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理和信息抽取。
E-mail: machaoyi@bupt.edu.cn
徐蔚然(1975—),副教授,博士,研究生導(dǎo)師,主要研究領(lǐng)域?yàn)樾畔⒊槿?、知識(shí)圖譜等。
E-mail: xuweiran@bupt.edu.cn
Semi-automaticConstructionofChineseRelationExtractionDataSetBasedonaWeaklySupervisedMethod
MA Chaoyi, XU Weiran
(School of Information and Communication Engineering, Beijing University of Posts and Telecommunications, Beijing 100876, China)
The relation extraction is a fundamental task in information extraction, with practical significance in information retrieval, question answering system and knowledge mapping, etc. The existing relation extraction data set are for English, containing very limited categories and neglecting sentence level annotations. This paper constructs a Chinese relation extraction data set using a weakly supervised and semi-automatic method. It firstly extracts a large amount of relation pairs from Wikipedia, then extracts sentences that contains entity pairs from the corpus of Sougou News and Baidu. Thus the weakly supervised sentence extracting is completed. These sentences are then scored in an RNN-based relation extraction system, selecting sentences with higher score for manual annotation. Finally the Chinese relation extraction data set is completed after manual annotation.
relation extraction; data set; weakly supervised; semi-automatic
1003-0077(2017)05-0114-06
TP391
A
2016-08-16定稿日期2017-04-26
教育部博士點(diǎn)學(xué)科專項(xiàng)科研基金(20130005110004)