亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向招投標(biāo)領(lǐng)域的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取研究

        2020-09-04 03:16:20陳雨婷劉旭紅劉秀磊
        關(guān)鍵詞:知識(shí)庫(kù)示例實(shí)體

        陳雨婷 ,劉旭紅 ,劉秀磊

        1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101

        2.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101

        1 引言

        近年來,我國(guó)招標(biāo)投標(biāo)(簡(jiǎn)稱招投標(biāo))行業(yè)發(fā)展迅速。招投標(biāo)已成為企業(yè)間對(duì)接工程項(xiàng)目的常規(guī)交易方式。與此同時(shí),各大招投標(biāo)網(wǎng)站相繼出現(xiàn),Web 中積累了規(guī)模龐大的企業(yè)交易數(shù)據(jù)。但目前,招投標(biāo)信息化程度還相對(duì)滯后,如何更好地利用這些非結(jié)構(gòu)化的Web文本資源,從中快速獲取企業(yè)間的交易關(guān)系并實(shí)現(xiàn)信息結(jié)構(gòu)化管理,受到了業(yè)內(nèi)人士的廣泛關(guān)注。

        隨著信息抽取技術(shù)的快速發(fā)展,相關(guān)研究開始采用基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取方法。該方法無需人工構(gòu)建語(yǔ)料庫(kù),而是借助知識(shí)庫(kù)對(duì)齊文本實(shí)現(xiàn)自動(dòng)標(biāo)注數(shù)據(jù),降低了信息抽取任務(wù)的成本,但引入了噪聲數(shù)據(jù)的干擾問題。此外,招投標(biāo)領(lǐng)域中缺乏較為完善的中文知識(shí)庫(kù),導(dǎo)致面向中文資源的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取研究目前尚未能滿足該專業(yè)領(lǐng)域的特定需求。

        針對(duì)上述問題,本文將選取招投標(biāo)網(wǎng)站的交易數(shù)據(jù)作為研究對(duì)象,圍繞信息抽取方法展開相關(guān)技術(shù)研究工作。

        本文的主要貢獻(xiàn)如下:

        (1)利用Web中非結(jié)構(gòu)化的招投標(biāo)領(lǐng)域企業(yè)歷史交易數(shù)據(jù)及企業(yè)名稱語(yǔ)料集構(gòu)建企業(yè)關(guān)系知識(shí)庫(kù),實(shí)現(xiàn)自動(dòng)標(biāo)注原始語(yǔ)料中的企業(yè)關(guān)系實(shí)例,并按本文方法實(shí)現(xiàn)企業(yè)關(guān)系實(shí)例抽取的迭代擴(kuò)充。

        (2)為有效減弱遠(yuǎn)程監(jiān)督方法引入的噪聲干擾,提出結(jié)合領(lǐng)域規(guī)則的知識(shí)融合方法以優(yōu)化實(shí)體抽取質(zhì)量,在此基礎(chǔ)上,進(jìn)一步提出基于負(fù)例數(shù)據(jù)學(xué)習(xí)的降噪方法。

        (3)結(jié)合招投標(biāo)領(lǐng)域語(yǔ)義特征,提出基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法,可有效判別企業(yè)間的關(guān)系,具有一定的領(lǐng)域拓展性。

        2 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取研究現(xiàn)狀

        將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)是文本信息抽取的一項(xiàng)重要任務(wù),實(shí)體關(guān)系抽取是其重要步驟之一。傳統(tǒng)的實(shí)體關(guān)系抽取方法可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。其中,監(jiān)督學(xué)習(xí)方法的研究成果顯著。近些年,基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)實(shí)體關(guān)系抽取研究受到了廣泛關(guān)注,現(xiàn)已應(yīng)用在生物醫(yī)學(xué)、煤礦安全生產(chǎn)等諸多領(lǐng)域。但該類方法需要借助大量標(biāo)注語(yǔ)料,在Web數(shù)據(jù)日益增長(zhǎng)的情況下,該類方法的應(yīng)用受到了制約。半監(jiān)督學(xué)習(xí)方法在迭代過程中易產(chǎn)生“語(yǔ)義漂流”問題,而無監(jiān)督學(xué)習(xí)方法在映射過程中易出現(xiàn)實(shí)例聚合錯(cuò)誤等連帶問題。目前,這三類實(shí)體關(guān)系抽取方法都遇到了一定困難。

        為此,Mintz 等[1]在2009 年首次提出基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取方法。該方法通過非結(jié)構(gòu)化文本與外部知識(shí)庫(kù)(Knowledge Base,KB)對(duì)齊操作,自動(dòng)化構(gòu)建大量訓(xùn)練數(shù)據(jù),大大降低了模型構(gòu)建過程對(duì)人工標(biāo)注數(shù)據(jù)的依賴,提高了模型跨領(lǐng)域的可移植性。但該方法在獲取標(biāo)注數(shù)據(jù)時(shí)基于如下假設(shè):若非結(jié)構(gòu)化句子中所包含的兩個(gè)實(shí)體在知識(shí)庫(kù)中存在某種關(guān)系,則該句蘊(yùn)含這一潛在關(guān)系。由于該假設(shè)過于理想,導(dǎo)致自動(dòng)標(biāo)注數(shù)據(jù)過程中可能會(huì)產(chǎn)生大量噪聲數(shù)據(jù)或忽略掉重要信息。為此,2010年Riedel等[2]提出一種相對(duì)松弛的假設(shè):若已知某實(shí)體對(duì)存在某種實(shí)體關(guān)系,則至少有一個(gè)包含該實(shí)體對(duì)的句子潛在地表達(dá)了這種實(shí)體關(guān)系。文獻(xiàn)[2]基于該假設(shè),得到了更為準(zhǔn)確的標(biāo)注數(shù)據(jù)。

        在此基礎(chǔ)上,為更好地降低噪聲數(shù)據(jù)對(duì)關(guān)系抽取效果的影響,Roth等[3]提出結(jié)合主題模型和判別學(xué)習(xí)方法識(shí)別噪聲數(shù)據(jù),以優(yōu)化抽取結(jié)果的排序質(zhì)量。Fan 等[4]通過將一個(gè)由文本特征矩陣和標(biāo)簽矩陣逐項(xiàng)聯(lián)合而得的稀疏矩陣,分解為最小秩矩陣,再經(jīng)矩陣填充恢復(fù)底層低秩矩陣,以此擬合噪聲分布,進(jìn)而擬合真實(shí)分布。Ru 等[5]通過在詞向量中結(jié)合語(yǔ)義JacCard,對(duì)知識(shí)庫(kù)中的關(guān)系短語(yǔ)與句子中兩個(gè)實(shí)體之間的依賴短語(yǔ)進(jìn)行語(yǔ)義相似度測(cè)量,以過濾錯(cuò)誤的標(biāo)簽。Qin 等[6]提出一種新的深度強(qiáng)化學(xué)習(xí)框架,基于RL Agent 策略自動(dòng)識(shí)別數(shù)據(jù)集中的假正例,并放回負(fù)例集以減少噪聲數(shù)據(jù),同時(shí)保證了遠(yuǎn)程監(jiān)督關(guān)系抽取的性能及模型魯棒性。

        上述研究主要針對(duì)英文文本進(jìn)行處理,近些年,針對(duì)中文資源的遠(yuǎn)程監(jiān)督關(guān)系抽取的技術(shù)研究也在不斷發(fā)展,但還僅以人物關(guān)系抽取方向?yàn)橹?。潘云等[7]利用互動(dòng)百科中文數(shù)據(jù)構(gòu)建人物關(guān)系知識(shí)庫(kù),以自動(dòng)標(biāo)記關(guān)系抽取訓(xùn)練數(shù)據(jù),并引入標(biāo)簽傳播算法匹配部分未標(biāo)記人名對(duì)的關(guān)系。該方法未對(duì)噪聲數(shù)據(jù)進(jìn)行處理,準(zhǔn)確率在68.2%左右。黃蓓靜等[8]針對(duì)人物實(shí)體關(guān)系抽取任務(wù),利用詞向量及句子模式聚類、模式評(píng)分的方法,通過過濾原始訓(xùn)練集中的噪聲句子,實(shí)現(xiàn)數(shù)據(jù)集降噪的目的。黃楊琛等[9]提出在訓(xùn)練數(shù)據(jù)生成階段,引入多示例學(xué)習(xí)的思想,并基于TF-IDF 的關(guān)系指示詞發(fā)現(xiàn)的方法對(duì)遠(yuǎn)程監(jiān)督產(chǎn)生的數(shù)據(jù)進(jìn)行去噪處理,具有較好的可拓展性。

        綜上所述,相比針對(duì)英文文本進(jìn)行關(guān)系抽取的研究,在處理中文文本上,遠(yuǎn)程監(jiān)督方法的噪音問題仍然沒有較好的解決方案,原因之一是中文表達(dá)在句式和語(yǔ)義上更為復(fù)雜,增加了關(guān)系抽取和降噪處理的難度。本文針對(duì)以上問題,研究面向遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注的降噪方法,提出融入語(yǔ)義特征的因子圖模型,并將其應(yīng)用于招投標(biāo)領(lǐng)域的企業(yè)關(guān)系抽取,最后進(jìn)行了實(shí)驗(yàn)驗(yàn)證。

        3 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取及降噪研究

        通過遠(yuǎn)程監(jiān)督方法對(duì)齊領(lǐng)域關(guān)系知識(shí)庫(kù)和自然語(yǔ)言文本語(yǔ)料獲得候選關(guān)系實(shí)體對(duì),并引入領(lǐng)域知識(shí)作為規(guī)則,將這些候選關(guān)系實(shí)體對(duì)標(biāo)記為匹配正確關(guān)系的企業(yè)對(duì)(正例)、匹配錯(cuò)誤關(guān)系的企業(yè)對(duì)(負(fù)例)和未匹配上關(guān)系的企業(yè)對(duì)(未知實(shí)例),作為關(guān)系抽取模型學(xué)習(xí)的輸入,共同構(gòu)建特征模型,以提高后續(xù)分類性能。

        因子圖能夠?qū)崿F(xiàn)對(duì)隨機(jī)變量之間的復(fù)雜關(guān)系進(jìn)行概率建模[10],有助于區(qū)分具有相似特征的關(guān)系實(shí)體對(duì)。目前,該模型已有效應(yīng)用于事件關(guān)聯(lián)分析[11]、用戶群組識(shí)別[12]、社區(qū)發(fā)現(xiàn)[13-14]等任務(wù)。因此,本文為準(zhǔn)確識(shí)別候選關(guān)系實(shí)體對(duì)的關(guān)系,提出結(jié)合候選關(guān)系實(shí)體對(duì)的詞法和語(yǔ)義特征共同構(gòu)建因子圖模型,用于實(shí)體關(guān)系分類。

        3.1 招投標(biāo)領(lǐng)域的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架

        結(jié)合招投標(biāo)領(lǐng)域數(shù)據(jù)的特點(diǎn),通過Web文本挖掘技術(shù)實(shí)現(xiàn)信息抽取,有效抽取招標(biāo)人、招標(biāo)代理機(jī)構(gòu)和中標(biāo)人所對(duì)應(yīng)的項(xiàng)目單位及其間發(fā)生的“委托”關(guān)系(招標(biāo)人-招標(biāo)代理機(jī)構(gòu))和“承辦”關(guān)系(招標(biāo)人-中標(biāo)人)。

        通過觀察招投標(biāo)網(wǎng)頁(yè)內(nèi)容,可將招投標(biāo)網(wǎng)頁(yè)內(nèi)容分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。為保證抽取效果,需對(duì)兩種數(shù)據(jù)類型采用不同的信息抽取方法。

        招標(biāo)代理機(jī)構(gòu)會(huì)幫助招標(biāo)人評(píng)定一個(gè)或多個(gè)最終中標(biāo)人,常借助二維表格公示該結(jié)果。本文利用結(jié)構(gòu)化數(shù)據(jù)的上下位關(guān)系定位實(shí)體,以獲取“承辦”關(guān)系。而招標(biāo)人和招標(biāo)代理機(jī)構(gòu)的“委托”關(guān)系普遍蘊(yùn)含在自然語(yǔ)言描述的非結(jié)構(gòu)化文本數(shù)據(jù)中。本文引入實(shí)體關(guān)系抽取技術(shù)獲取“委托”關(guān)系。遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架如圖1所示。

        圖1 結(jié)合降噪處理的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架

        處理非結(jié)構(gòu)化數(shù)據(jù)時(shí),獲取招標(biāo)人-招標(biāo)代理機(jī)構(gòu)間發(fā)生的“委托”關(guān)系的方法及思路:

        (1)對(duì)招投標(biāo)網(wǎng)站中各篇文檔進(jìn)行數(shù)據(jù)清洗。

        (2)對(duì)文檔進(jìn)行詞法和句法分析,包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依賴性解析等序列標(biāo)注處理。

        (3)根據(jù)步驟(2)的NER 等序列標(biāo)注結(jié)果,抽取句中候選實(shí)體,并結(jié)合領(lǐng)域知識(shí)庫(kù)進(jìn)行實(shí)體鏈接,以實(shí)現(xiàn)知識(shí)融合。

        (4)對(duì)各句中的候選實(shí)體進(jìn)行笛卡爾積運(yùn)算,結(jié)合限制條件,得到對(duì)應(yīng)的候選實(shí)體對(duì)集合V。實(shí)體對(duì)(A,B)∈V,其中A為招標(biāo)人,B為招標(biāo)代理機(jī)構(gòu)。

        (5)根據(jù)步驟(2)和(4)的結(jié)果,提取基于候選實(shí)體對(duì)上下文的語(yǔ)義特征。

        (6)采用遠(yuǎn)程監(jiān)督方法構(gòu)建訓(xùn)練數(shù)據(jù),即通過與招投標(biāo)領(lǐng)域知識(shí)庫(kù)對(duì)齊,為候選實(shí)體對(duì)匹配關(guān)系標(biāo)簽,并引入領(lǐng)域規(guī)則提高標(biāo)注質(zhì)量。

        (7)以步驟(5)和(6)的結(jié)果作為輸入,構(gòu)建因子圖模型,統(tǒng)計(jì)推理候選實(shí)體對(duì)間具備指定關(guān)系的置信度;其間迭代使用吉布斯采樣和隨機(jī)梯度下降算法學(xué)習(xí)得到候選實(shí)體對(duì)的特征權(quán)重及邊界概率,最終抽取置信度高于規(guī)定閾值的候選實(shí)體對(duì),即為具有“委托”關(guān)系的招標(biāo)人和招標(biāo)代理機(jī)構(gòu)。

        (8)基于步驟(7)的結(jié)果,并結(jié)合由表格上下位關(guān)系抽取所得的“承辦”關(guān)系構(gòu)建企業(yè)關(guān)系網(wǎng)絡(luò)并完善知識(shí)庫(kù),用于后續(xù)研究與分析。

        上述步驟中,利用遠(yuǎn)程監(jiān)督方法構(gòu)建訓(xùn)練語(yǔ)料,可降低數(shù)據(jù)標(biāo)注對(duì)人工的依賴,但同時(shí)會(huì)引入噪聲數(shù)據(jù),易導(dǎo)致因子圖模型的推理和判別效果不佳。為此,本文在自動(dòng)標(biāo)注關(guān)系標(biāo)簽前,引入知識(shí)融合技術(shù)優(yōu)化實(shí)體抽取質(zhì)量,以提升遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的有效性;在自動(dòng)標(biāo)注關(guān)系標(biāo)簽后,再引入領(lǐng)域知識(shí)作為規(guī)則,以提高遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的準(zhǔn)確性,并利用由正例、負(fù)例和未知實(shí)例組成的關(guān)系抽取訓(xùn)練語(yǔ)料作為輸入分別學(xué)習(xí),由此降低噪聲數(shù)據(jù)對(duì)因子圖模型學(xué)習(xí)效果的影響。下面展開詳細(xì)論述。

        3.2 基于知識(shí)融合優(yōu)化招投標(biāo)領(lǐng)域?qū)嶓w抽取

        正確抽取原始語(yǔ)料中所含實(shí)體,是減少遠(yuǎn)程監(jiān)督方法引入噪聲數(shù)據(jù)的重要前提。但在招投標(biāo)交易公告中,普遍存在同一主體(主要涉及招標(biāo)方、招標(biāo)代理機(jī)構(gòu)和中標(biāo)方)具有“多重指稱”的情況,會(huì)直接影響實(shí)體抽取的效果。

        為提高實(shí)體抽取質(zhì)量,本文從語(yǔ)言學(xué)角度將“多重實(shí)體指稱項(xiàng)”問題分為:情況①單位全稱-別稱,情況②特定指稱項(xiàng),其中情況①又分為無歧義別稱、含歧義別稱兩類。

        知識(shí)融合技術(shù)是解決這類問題的有效方法,實(shí)體鏈接和知識(shí)合并是知識(shí)融合的兩個(gè)重要子任務(wù)。實(shí)體鏈接(Entity Linking)[15]旨在對(duì)實(shí)體抽取結(jié)果進(jìn)行實(shí)體消歧和共指消解處理,并將處理結(jié)果鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象。經(jīng)實(shí)體鏈接后,將知識(shí)元素加入知識(shí)庫(kù),從而實(shí)現(xiàn)知識(shí)合并,有效剔除抽取結(jié)果中冗余和錯(cuò)誤的實(shí)體。因此,本文首先通過實(shí)體消歧方法確定含歧義別稱所指代實(shí)體,再引入共指消解方法解決上述兩種情況中對(duì)應(yīng)的問題。

        針對(duì)情況①,以圖2所示情況為例,招投標(biāo)領(lǐng)域知識(shí)庫(kù)中含有兩個(gè)實(shí)體概念“榆林市田浩商貿(mào)有限公司”和“上海田浩商貿(mào)有限公司”,公告標(biāo)題包含實(shí)體“榆林市田浩商貿(mào)有限公司”,但公告內(nèi)容中出現(xiàn)公司別稱“田浩商貿(mào)有限公司”,這類含有歧義的公司別稱在鏈接到知識(shí)庫(kù)后可能得到錯(cuò)誤結(jié)果,降低知識(shí)融合質(zhì)量。

        圖2 招投標(biāo)領(lǐng)域知識(shí)融合示例

        由此,本文引入基于實(shí)體共現(xiàn)的實(shí)體消歧方法,通過從公告標(biāo)題和內(nèi)容中識(shí)別出的實(shí)體對(duì)象迭代進(jìn)行實(shí)體匹配,若兩個(gè)匹配實(shí)體存在公共字符串,則采用具有更完整命名信息的實(shí)體名稱命名兩個(gè)實(shí)體。上述實(shí)例由于公告標(biāo)題中實(shí)體命名更加完整,故通過該方法可確定公司實(shí)體“田浩商貿(mào)有限公司”實(shí)指“榆林市田浩商貿(mào)有限公司”。

        針對(duì)情況②,表1 對(duì)出現(xiàn)特定指稱詞(如公司簡(jiǎn)稱、該公司、我公司、招標(biāo)人、招標(biāo)方、null 等)的常見句式進(jìn)行了總結(jié)(②-a、b、c情況)。由此,基于情況①的處理結(jié)果,并針對(duì)當(dāng)前句S2中僅含有一個(gè)實(shí)體指稱詞的情況,提出針對(duì)特定指稱詞的共指消解算法(見算法1),將企業(yè)實(shí)體的指稱詞還原為企業(yè)全稱,即標(biāo)準(zhǔn)化命名實(shí)體。

        表1 “多重指稱項(xiàng)”情況

        算法1共指消解算法

        輸入:S2,含有實(shí)體指稱詞的當(dāng)前句;S1,指稱詞所在句S2的上一句;comp_title,公告標(biāo)題中的實(shí)體;pron_word,S2中指稱詞;comp_b,S2中的唯一企業(yè)實(shí)體;feature_word,特征詞(如[招標(biāo)人,招標(biāo)方…]);target_word,S1中的先行詞(如A公司)

        輸出:comp_a:指稱詞指向的原實(shí)體

        1.初始化數(shù)據(jù):comp_a←null;

        2.當(dāng)comp_title 未含有comp_b,并且S2含有唯一指稱詞pron_word時(shí),判別該篇文檔標(biāo)題comp_title中是否含有S2中的唯一企業(yè)實(shí)體comp_b;

        3.如果S1含有先行詞target_word:

        當(dāng)S1中含有指定特征詞feature_word 時(shí),令 omp_a←target_word,以解決示例②-a情況;

        而當(dāng)S1中未含指定特征詞feature_word 時(shí),令comp_a←comp_title,以解決示例②-c情況;

        4.如果S1未含有先行詞target_word,令comp_a←comp_title,以解決示例②-b情況。

        綜合上述解決方案,將實(shí)體消歧和共指消解后的各命名實(shí)體鏈接到招投標(biāo)領(lǐng)域知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體;再通過知識(shí)合并,統(tǒng)一以公司全稱進(jìn)行命名。該方法不僅能夠降低實(shí)體抽取結(jié)果的冗余度和歧義性,保證最終獲取信息的質(zhì)量,還有助于提高候選實(shí)體對(duì)與領(lǐng)域知識(shí)庫(kù)對(duì)齊時(shí)的匹配效果,為后續(xù)實(shí)體關(guān)系抽取、噪聲處理等任務(wù)提供更為準(zhǔn)確的知識(shí)基礎(chǔ)。

        3.3 面向遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注的負(fù)例學(xué)習(xí)降噪方法

        本文首先利用Web 上半結(jié)構(gòu)化的招投標(biāo)領(lǐng)域企業(yè)歷史交易數(shù)據(jù)及企業(yè)名稱語(yǔ)料集構(gòu)建企業(yè)關(guān)系知識(shí)庫(kù),以保證在遠(yuǎn)程監(jiān)督標(biāo)注關(guān)系數(shù)據(jù)時(shí),準(zhǔn)確獲取更多的企業(yè)關(guān)系實(shí)例。再借助上述企業(yè)關(guān)系知識(shí)庫(kù)自動(dòng)對(duì)齊招投標(biāo)公告文本中具有對(duì)應(yīng)交易關(guān)系的企業(yè)實(shí)體對(duì)。此時(shí),新的關(guān)系抽取語(yǔ)料集中包括含有“噪聲”的關(guān)系企業(yè)對(duì)和未匹配上關(guān)系的企業(yè)對(duì)。然后根據(jù)噪聲數(shù)據(jù)情況提出降噪方法,從而得到最終訓(xùn)練語(yǔ)料。

        根據(jù)“遠(yuǎn)程監(jiān)督”易引入多實(shí)例問題和多標(biāo)簽問題這兩類“噪聲”,結(jié)合招投標(biāo)領(lǐng)域數(shù)據(jù)情況加以分析。本節(jié)待解決問題是與外部知識(shí)庫(kù)對(duì)齊后得到的關(guān)系企業(yè)實(shí)體對(duì)并不具有指定關(guān)系,即產(chǎn)生了多實(shí)例問題。本文將該類數(shù)據(jù)記為“負(fù)例”。

        招投標(biāo)企業(yè)關(guān)系知識(shí)庫(kù)中存在具有“委托”關(guān)系的實(shí)體對(duì)集,記為relation<A,B>,A表示招標(biāo)方,B表示招標(biāo)代理機(jī)構(gòu)。通過遠(yuǎn)程監(jiān)督方法獲得的新語(yǔ)料集中含有噪聲數(shù)據(jù),如表2 中示例b、c、d 所示。其中示例d可采用3.2 節(jié)中還原指代項(xiàng)的方法加以解決,獲得正確關(guān)系標(biāo)簽。

        表2 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取噪聲數(shù)據(jù)示例

        多實(shí)例情況易產(chǎn)生由關(guān)系指向錯(cuò)誤(如示例b)和關(guān)系誤判錯(cuò)誤(如示例c中的非“委托”關(guān)系誤判為“委托”關(guān)系)等問題所引入的噪聲數(shù)據(jù),從而影響分類模型的判別效果。

        為減少噪聲數(shù)據(jù)的影響,本文通過分析和統(tǒng)計(jì)大量招投標(biāo)公告文書的語(yǔ)言特征,并結(jié)合領(lǐng)域?qū)<医?jīng)驗(yàn)的引導(dǎo)與驗(yàn)證,構(gòu)建和完善領(lǐng)域知識(shí)規(guī)則。并結(jié)合實(shí)驗(yàn)的準(zhǔn)確率和召回率(實(shí)驗(yàn)結(jié)果見4.2 節(jié)),完善領(lǐng)域知識(shí)規(guī)則的構(gòu)建,以保證其合理性和完備性。

        領(lǐng)域知識(shí)規(guī)則的符號(hào)含義如下:

        (A,B):表示公告中含有的候選實(shí)體對(duì)。

        relation(A,B):表示經(jīng)判斷候選實(shí)體對(duì)(A,B)具有“委托”關(guān)系。

        before(A) 、between(A,B)、behind(B):分別表示實(shí)體A之前、實(shí)體A和實(shí)體B之間的分詞結(jié)果集合。

        KeyWord={委托,…},kw∈KeyWord:表示關(guān)系詞集合。

        PassiveWord={受,被,…},pw∈PassiveWord:表示被動(dòng)詞集合。

        comma={',',','},wd∈comma:表示中、英文逗號(hào)集合。

        領(lǐng)域知識(shí)規(guī)則如下:

        規(guī)則1識(shí)別示例a中“委托”關(guān)系的情況。

        若pw∈before(A)、wd∈between(A,B),并且kw∈between(A,B),則滿足relation(A,B)。

        規(guī)則2修正示例b中“關(guān)系指向錯(cuò)誤”的情況。

        若pw∈between(A,B),并且kw∈behind(B),則滿足relation(B,A) 。

        規(guī)則3識(shí)別示例c中“非委托關(guān)系”的情況。

        若kw?before(A) 、kw?between(A,B),并且kw?behind(B),則一定不存在relation(A,B)。

        通過領(lǐng)域知識(shí)規(guī)則可有效區(qū)別出由遠(yuǎn)程監(jiān)督方法構(gòu)建的訓(xùn)練數(shù)據(jù)集中的有效標(biāo)注數(shù)據(jù)和噪聲數(shù)據(jù),有利于后續(xù)因子圖模型的構(gòu)建及推理學(xué)習(xí)。

        3.4 基于因子圖模型的實(shí)體關(guān)系抽取方法

        經(jīng)遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注后,新的關(guān)系抽取語(yǔ)料集中還存在部分待匹配關(guān)系的企業(yè)實(shí)體對(duì)。針對(duì)該部分?jǐn)?shù)據(jù),本文借助因子圖模型進(jìn)行概率建模,解決隨機(jī)變量之間的復(fù)雜關(guān)系。面向招投標(biāo)領(lǐng)域的因子圖模型構(gòu)建主要基于兩類節(jié)點(diǎn):變量節(jié)點(diǎn)和因子節(jié)點(diǎn)。關(guān)鍵元素及公式定義如下。

        定義1(變量節(jié)點(diǎn))模型中可觀測(cè)到的候選關(guān)系實(shí)體對(duì)集合V={v1,v2,…,vn},每個(gè)實(shí)體對(duì)vi作為變量節(jié)點(diǎn)。每個(gè)vi都具有關(guān)系標(biāo)簽label(vi)∈{0,1,null},其中0為負(fù)標(biāo),1為正標(biāo),null為待預(yù)測(cè)標(biāo)簽。

        定義2(特征因子)模型中每個(gè)變量節(jié)點(diǎn)都具有一個(gè)或多個(gè)句內(nèi)特征項(xiàng),各特征項(xiàng)作為特征因子節(jié)點(diǎn)fi,即有特征因子節(jié)點(diǎn)集合F={f1,f2,…,fm}。

        句內(nèi)特征項(xiàng)包含該句分詞后的詞語(yǔ)、詞性、命名實(shí)體等序列標(biāo)注特征。

        當(dāng)且僅當(dāng)變量節(jié)點(diǎn)vi是特征因子節(jié)點(diǎn)fi的自變量(即實(shí)體對(duì)具有某一特征)時(shí),對(duì)應(yīng)的變量節(jié)點(diǎn)vi和特征因子節(jié)點(diǎn)fi相連,其連線作為因子圖的邊集E={e1,e2,…,en}。

        定義3(關(guān)聯(lián)權(quán)重因子)模型中各邊ei具有關(guān)聯(lián)權(quán)重因子wi,構(gòu)成關(guān)聯(lián)權(quán)重因子集W={w1,w2,…},是由各特征因子經(jīng)過函數(shù)映射獲得的實(shí)數(shù)集,即wi=func(fi)。在構(gòu)建因子圖模型過程中,關(guān)聯(lián)權(quán)重因子wi經(jīng)多次迭代學(xué)習(xí)完成權(quán)值優(yōu)化,直至模型學(xué)習(xí)完成。關(guān)聯(lián)權(quán)重因子wi反映了變量節(jié)點(diǎn)間的關(guān)聯(lián)程度。

        定義4(possible world模型)用以描述不確定性數(shù)據(jù)的通用模型,常記為Iσ。Iσ中包含若干個(gè)實(shí)例Ii={vi1,vi2,…,vin},每個(gè)實(shí)例發(fā)生的概率為該實(shí)例中各變量發(fā)生的概率之積,即。

        為方便理解,本文中Iσ的實(shí)例Ii由各變量節(jié)點(diǎn)vi及其關(guān)系標(biāo)簽label(vi)表示為Ii:{vi→label(vi)}。

        本文基于招投標(biāo)公告數(shù)據(jù)構(gòu)建因子圖模型,根據(jù)各實(shí)體對(duì)共享不同特征的情況,計(jì)算實(shí)體對(duì)具有的某種關(guān)系的邊界概率。不同的變量節(jié)點(diǎn)vi,通過共享fi而關(guān)聯(lián)。若兩個(gè)變量節(jié)點(diǎn)共享fi數(shù)量越多,則兩個(gè)變量節(jié)點(diǎn)屬于同類關(guān)系的概率就越大。因此,需要定義求解邊緣概率的相關(guān)公式。

        各特征因子fi在當(dāng)前Iσ實(shí)例上的聚合值:

        Iσ所有實(shí)例的聚合概率:

        Iσ實(shí)例各變量和先驗(yàn)變量的關(guān)系標(biāo)簽label(vi)一致的實(shí)例集合為τe,其中關(guān)系標(biāo)簽為1 的集合label(vi)=1},關(guān)系標(biāo)簽為0的集合由此計(jì)算變量vi的關(guān)系標(biāo)簽取值為1的邊緣概率:

        但由于Iσ中存在2n種實(shí)例情況,若按上述方法求解,計(jì)算復(fù)雜度很高。因此采用吉布斯采樣進(jìn)行參數(shù)估計(jì),以降低計(jì)算維度,提高算法的運(yùn)行效率,并采用隨機(jī)梯度下降進(jìn)行迭代學(xué)習(xí),直至模型收斂。算法思想見算法2。

        算法2因子圖模型參數(shù)學(xué)習(xí)算法

        結(jié)合本文所采用的因子圖模型構(gòu)建思路,給出一個(gè)因子圖模型的局部示例,如表3所示。假設(shè)局部任務(wù)中有4 個(gè)候選實(shí)體對(duì)(Ai,Bi),i=1,2,3,4,4 個(gè)變量節(jié)點(diǎn)構(gòu)成實(shí)例I0:{v1→ null,v2→ 0,v3→ 1,v4→ null} ,各變量節(jié)點(diǎn)vi分別具有多種序列化標(biāo)注特征fi:feature。

        表3 變量節(jié)點(diǎn)-特征示例

        根據(jù)表3,變量因子間共享不同的特征因子fi,i=1,2,3,4,特征經(jīng)函數(shù)映射轉(zhuǎn)化為關(guān)聯(lián)權(quán)重因子wi,統(tǒng)計(jì)特征因子的共享情況(見表4)。

        表4 特征因子-特征函數(shù)示例

        由此可根據(jù)表4中的示例數(shù)據(jù)構(gòu)建因子圖模型(見圖3)?,F(xiàn)已知先驗(yàn)候選關(guān)系實(shí)體對(duì)v2、v3關(guān)系標(biāo)簽分別為0、1,Iσ的實(shí)例Ii應(yīng)在和先驗(yàn)變量對(duì)應(yīng)的關(guān)系標(biāo)簽值保持一致的條件下,根據(jù)算法2 分別計(jì)算label(v1)和label(v4)取值為1的概率,進(jìn)而可依次判別v1和v4是否具有“委托”關(guān)系。

        圖3 因子圖模型示例

        本文借助因子圖模型良好的統(tǒng)計(jì)和推理性能,并按照上述步驟,計(jì)算獲得招標(biāo)人和招標(biāo)代理機(jī)構(gòu)之間具有“委托”關(guān)系的邊界概率,該值高于預(yù)定閾值的對(duì)應(yīng)候選實(shí)體對(duì)即具有“委托”關(guān)系。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)描述

        本文實(shí)驗(yàn)使用語(yǔ)料來源于中國(guó)招投標(biāo)網(wǎng)、中國(guó)采購(gòu)與招標(biāo)網(wǎng)2019 年首季度建筑工程類項(xiàng)目招標(biāo)信息;為提高關(guān)系抽取模型訓(xùn)練效率,進(jìn)一步篩選出由招標(biāo)代理機(jī)構(gòu)開展公開競(jìng)標(biāo)的公告,共計(jì)4 000 篇。本文實(shí)驗(yàn)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料比例為4∶1。針對(duì)抽取招標(biāo)人-招標(biāo)代理機(jī)構(gòu)間的“委托”關(guān)系,實(shí)驗(yàn)基于命名實(shí)體標(biāo)注結(jié)果和知識(shí)融合技術(shù),抽取得到實(shí)體458例,包括256家招標(biāo)方和202家招標(biāo)代理機(jī)構(gòu);實(shí)體經(jīng)笛卡爾積組成候選實(shí)體對(duì)8 284 條;結(jié)合遠(yuǎn)程監(jiān)督學(xué)習(xí)和啟發(fā)式規(guī)則為候選實(shí)體對(duì)自動(dòng)標(biāo)注關(guān)系類型。

        文本特征提取采用候選實(shí)體對(duì)上下文的語(yǔ)義特征。通過分析招投標(biāo)領(lǐng)域詞匯統(tǒng)計(jì)特征和語(yǔ)言學(xué)特征,以句為單位,提取句內(nèi)候選實(shí)體對(duì)(A,B)前-中-后的窗口特征,窗口特征選擇詞匯、詞性(POS)、命名實(shí)體(NER)、依存語(yǔ)法關(guān)系(DP)、詞匯長(zhǎng)度(LENGTH)這5個(gè)序列標(biāo)注信息(見表5)。

        表5 特征類型-特征提取結(jié)果示例

        基于以上步驟,實(shí)驗(yàn)采用吉布斯采樣和隨機(jī)梯度下降方法迭代學(xué)習(xí)模型參數(shù),優(yōu)化因子圖模型,并通過多次實(shí)驗(yàn),確定關(guān)系判別的閾值α(如α=0.5)。

        4.2 實(shí)驗(yàn)分析

        為驗(yàn)證本文方法的有效性,設(shè)計(jì)了不同去噪強(qiáng)度下的實(shí)驗(yàn)對(duì)比和不同關(guān)系抽取方法下的實(shí)驗(yàn)對(duì)比。

        本文首先設(shè)計(jì)了3 個(gè)實(shí)驗(yàn):實(shí)驗(yàn)1 采用基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法抽取實(shí)體關(guān)系,并未做任何降噪處理;實(shí)驗(yàn)2 在實(shí)驗(yàn)1 的基礎(chǔ)上,采用3.2 節(jié)提出的解決公告文本中的“多重指稱項(xiàng)”問題的知識(shí)融合方法進(jìn)行降噪;實(shí)驗(yàn)3 在實(shí)驗(yàn)2 的基礎(chǔ)上,采用3.3 節(jié)基于領(lǐng)域知識(shí)和負(fù)例學(xué)習(xí)的降噪方法,以進(jìn)一步提高抽取質(zhì)量。最后,對(duì)3 次迭代優(yōu)化的實(shí)驗(yàn)結(jié)果進(jìn)行比較(如表6和圖4所示)。

        表6 不同去噪強(qiáng)度下的實(shí)驗(yàn)數(shù)據(jù)

        圖4 不同去噪強(qiáng)度下的實(shí)驗(yàn)結(jié)果

        由圖表數(shù)據(jù)可知,實(shí)驗(yàn)2 引入知識(shí)融合方法后,識(shí)別出了實(shí)驗(yàn)1 中遺漏的314 例實(shí)體對(duì),但抽取性能略有下降。這是由于候選實(shí)體對(duì)增多的同時(shí),遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注也產(chǎn)生大量負(fù)例未能去除。

        實(shí)驗(yàn)3 的精準(zhǔn)率(P)和F1 值顯著提高,主要是由于實(shí)驗(yàn)3 通過負(fù)例學(xué)習(xí),有效判別出在實(shí)驗(yàn)2 中未能剔除的2 196例具有錯(cuò)誤關(guān)系指向的實(shí)體對(duì)。

        此外,為對(duì)比不同關(guān)系抽取方法的抽取效果,選擇已被廣泛應(yīng)用于信息抽取任務(wù)中的兩種判別式模型,分別是經(jīng)典算法條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)和研究熱點(diǎn)雙向長(zhǎng)短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)神經(jīng)網(wǎng)絡(luò)。與本文采用的因子圖方法進(jìn)行對(duì)比,實(shí)驗(yàn)統(tǒng)一以經(jīng)本文降噪方法處理后的遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注結(jié)果作為模型的輸入,實(shí)驗(yàn)結(jié)果如圖5所示。

        圖5 不同關(guān)系抽取方法的實(shí)驗(yàn)結(jié)果

        由圖5可見,本文提出的基于因子圖模型的關(guān)系抽取方法在F1值上均略高于CRF方法和Bi-LSTM方法。

        上述兩組實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法具有更好的抽取性能。此外,針對(duì)招投標(biāo)網(wǎng)站每日更新擴(kuò)增的海量公告,采用本文方法可比傳統(tǒng)監(jiān)督學(xué)習(xí)方法大幅減少標(biāo)注數(shù)據(jù)的工作量,從而提高關(guān)系抽取效率。圖6示意了通過本文的關(guān)系抽取方法構(gòu)建的企業(yè)關(guān)系知識(shí)庫(kù)的局部圖譜。針對(duì)新增招投標(biāo)公告信息,可循環(huán)迭代采用本文方法更新知識(shí)庫(kù)中的知識(shí),在一定程度上解決了招投標(biāo)領(lǐng)域中文知識(shí)庫(kù)匱乏的問題。

        5 結(jié)束語(yǔ)

        本文提出了一種基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法,并借助知識(shí)融合、負(fù)例學(xué)習(xí)及領(lǐng)域知識(shí)等方法,解決了招投標(biāo)領(lǐng)域知識(shí)庫(kù)“遠(yuǎn)程監(jiān)督”標(biāo)注數(shù)據(jù)時(shí)出現(xiàn)的“噪聲”干擾問題;借助因子圖模型良好的性能,實(shí)現(xiàn)了招投標(biāo)領(lǐng)域?qū)嶓w關(guān)系自動(dòng)抽取任務(wù)。本文提出的信息抽取方法具有較好的可拓展性,可以移植于其他領(lǐng)域。

        對(duì)比實(shí)驗(yàn)結(jié)果說明本文方法能夠在一定程度降低人工標(biāo)注數(shù)據(jù)的高額成本,減少冗余、歧義信息,提高招投標(biāo)領(lǐng)域?qū)嶓w關(guān)系抽取的準(zhǔn)度與精度,進(jìn)而保證了獲取重要信息的質(zhì)量和時(shí)效性。本文方法所獲關(guān)系實(shí)例可迭代擴(kuò)充現(xiàn)有招投標(biāo)領(lǐng)域知識(shí)庫(kù),可有效協(xié)助和支持相關(guān)項(xiàng)目單位、企業(yè)制定管理決策等活動(dòng),也可以協(xié)助招標(biāo)方客觀選擇招標(biāo)代理機(jī)構(gòu),便于監(jiān)管部門及時(shí)查看招投標(biāo)參與主體的交易情況。

        本文聚焦于信息抽取技術(shù),能否同步抽取多類關(guān)系及屬性等多維信息,如關(guān)系關(guān)聯(lián)抽取、事件抽取方法等是下一階段的研究重點(diǎn)。

        猜你喜歡
        知識(shí)庫(kù)示例實(shí)體
        大還是小
        2019年高考上海卷作文示例
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        常見單位符號(hào)大小寫混淆示例
        山東冶金(2019年5期)2019-11-16 09:09:22
        基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
        “全等三角形”錯(cuò)解示例
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
        av狼人婷婷久久亚洲综合| 国产乡下三级全黄三级| 夜夜躁狠狠躁2021| 国产女人精品视频国产灰线| 中文字幕乱码亚洲美女精品一区| 精品亚洲一区二区三区四区五| 免费视频爱爱太爽了| 亚洲色欲在线播放一区| 亚洲av激情久久精品人| 亚洲中文字幕久久在线| s级爆乳玩具酱国产vip皮裤| 午夜AV地址发布| 久久婷婷国产五月综合色| 人成在线免费视频网站| 日韩乱码人妻无码中文字幕久久| 色吧综合网| 日本大胆人体亚裔一区二区| 日本一二三区在线观看视频| 免费中文熟妇在线影片| 美女污污网站| 日韩亚洲一区二区三区在线| 永久天堂网av手机版| 久久这里只精品国产免费10| 国产乱人伦AⅤ在线麻豆A| 亚洲不卡在线免费视频| 久久青青草原亚洲av无码麻豆| 免费一区在线观看| 亚洲影院在线观看av| 美女国产毛片a区内射| 亚洲av综合av国产av| 亚洲欧美变态另类综合| 蜜桃视频第一区免费观看| 国产人妻精品无码av在线| 91久久国产精品视频| 国产午夜视频高清在线观看| 四虎影视久久久免费观看 | 日本草逼视频免费观看| 精品亚洲天堂一区二区三区| 国内精品久久久久影院一蜜桃 | 又粗又粗又黄又硬又深色的| 色噜噜狠狠色综合中文字幕|