亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于金融領(lǐng)域的因果事件抽取算法研究

        2023-04-13 11:40:06席建文
        現(xiàn)代計(jì)算機(jī) 2023年3期
        關(guān)鍵詞:因果關(guān)系向量文本

        席建文

        (西南民族大學(xué)電子信息學(xué)院,成都 610041)

        0 引言

        因果事件抽取技術(shù)是信息抽取領(lǐng)域重要的研究方向。而金融領(lǐng)域中含有大量的因果事件,這些因果事件直接地反映了一個(gè)經(jīng)濟(jì)事件對(duì)另一個(gè)經(jīng)濟(jì)事件的影響程度,這對(duì)于領(lǐng)域決策和分析具有一定的指導(dǎo)作用,為知識(shí)問(wèn)答、數(shù)據(jù)預(yù)測(cè)、因果推斷等應(yīng)用提供數(shù)據(jù)來(lái)源。但由于中文語(yǔ)言的復(fù)雜性、描述方式的多變性,真實(shí)文本中因果情況復(fù)雜難解,有大量的多因多果的情況,增加了抽取因果事件的難度。

        為了解決金融領(lǐng)域因果抽取的難題,我們構(gòu)建了金融領(lǐng)域中的因果數(shù)據(jù)集,對(duì)因果事件中的組成結(jié)構(gòu)進(jìn)行定義,方便從因果句中抽取因果事件。同時(shí)研究了如何更準(zhǔn)確地抽取因果關(guān)系,并提出了基于BERT 改進(jìn)pipeline 結(jié)構(gòu)的因果事件抽取模型PUBERT。

        1 相關(guān)工作

        本文相關(guān)的工作主要分為因果事件數(shù)據(jù)集的構(gòu)建和因果事件關(guān)系抽取研究。

        針對(duì)因果事件標(biāo)注的數(shù)據(jù)集目前主要有兩種標(biāo)注方式,一是以詞級(jí)別的標(biāo)注,將事件標(biāo)注為詞語(yǔ)的形式,包括SemEval-2007 task 04[1]、SemEval-2010 task 8[2]、CaTeRS[3]和中文因果標(biāo)注數(shù)據(jù)集CEC[4]等,另一種是以長(zhǎng)句或長(zhǎng)文段的標(biāo)注方式,如Fincausal[5],將因果事件標(biāo)注為一個(gè)完整的句子或者段落。

        事件因果關(guān)系抽取上的研究最早可追溯到20 世紀(jì)90 年代,早期研究圍繞基于規(guī)則的方法展開(kāi)。Grishman 等[6]提出了PROTEUS 工具,使用語(yǔ)法和語(yǔ)義信息自動(dòng)抽取文本中的時(shí)序關(guān)系和因果關(guān)系。Kaplan等[7]將文本表示為命題的集合,每個(gè)命題包含一個(gè)謂詞(通常為動(dòng)詞)和多個(gè)論元,通過(guò)定義命題模板的方式抽取命題中的因果關(guān)系。Garcia[8]提出了COATIS 工具,該工具使用包含23 個(gè)因果性動(dòng)詞的語(yǔ)言學(xué)模板自動(dòng)地從法語(yǔ)文本中抽取因果關(guān)系。

        2000 年后,因果關(guān)系抽取研究逐漸轉(zhuǎn)移到基于統(tǒng)計(jì)與機(jī)器學(xué)習(xí)的方法上來(lái)。Girju[9]提出了使用C4.5 決策樹(shù)判斷“NP1-Verb-NP2”元組是否構(gòu)成因果關(guān)系。Chang等[10]采用無(wú)監(jiān)督的方法從文本中學(xué)習(xí)短語(yǔ)指示因果關(guān)系的概率與詞對(duì)出現(xiàn)在因果關(guān)系中的概率,作為額外特征訓(xùn)練貝葉斯分類器,判斷因果關(guān)系是否成立。2007 年,SemEval-2007 task 04[1]中提出了常見(jiàn)語(yǔ)義關(guān)系分類任務(wù),其中包含因果關(guān)系。Girju等[11]使用SVM 在該任務(wù)上取得了當(dāng)時(shí)最佳的效果。Sil 等[12]提出了PREPOST 系統(tǒng),使用基于RBF 核的SVM 結(jié)合PMI 特征判斷因果關(guān)系是否成立。付劍鋒等[13]提出使用層疊條件隨機(jī)場(chǎng)的方法,在事件序列上同時(shí)標(biāo)注多個(gè)因果關(guān)系對(duì)。Silva 等[14]將CNN 應(yīng)用于因果關(guān)系抽取任務(wù)中。這一系列的研究將因果關(guān)系抽取建模為分類任務(wù),輸入是已經(jīng)抽取好的事件或?qū)嶓w及其上下文,判斷它們是否構(gòu)成因果關(guān)系,而并未關(guān)注原因、結(jié)果事件或?qū)嶓w本身的抽取工作。

        隨著自然語(yǔ)言處理技術(shù)的發(fā)展,一些研究者開(kāi)始嘗試使用序列標(biāo)注模型解決因果關(guān)系抽取問(wèn)題。Dasgupta 等[15]提出將因果關(guān)系抽取建模為序列標(biāo)注任務(wù),在文本中直接標(biāo)注出原因提及與結(jié)果提及的短語(yǔ)。Li 等[16]提出使用帶有自注意力機(jī)制的雙向LSTM-CRF 模型,結(jié)合經(jīng)過(guò)領(lǐng)域遷移的詞向量應(yīng)用于因果抽取任務(wù)?;谛蛄袠?biāo)注模型的因果抽取方法是一種端到端的方法,可直接由文本得到因果事件和實(shí)體對(duì),為因果關(guān)系抽取研究指明了新的方向。

        本工作分為四個(gè)部分,第一部分介紹金融領(lǐng)域因果數(shù)據(jù)集的建設(shè)和數(shù)據(jù)統(tǒng)計(jì)情況;第二部分介紹實(shí)驗(yàn)方案,由事件抽取和因果關(guān)系抽取構(gòu)建的整體pipeline 結(jié)構(gòu);第三部分進(jìn)行對(duì)比實(shí)驗(yàn)設(shè)計(jì),并對(duì)結(jié)果進(jìn)行分析;第四部分為總結(jié)。

        2 數(shù)據(jù)集構(gòu)建

        本節(jié)目的是構(gòu)建金融領(lǐng)域的因果事件數(shù)據(jù)集,包括數(shù)據(jù)來(lái)源的選擇、數(shù)據(jù)處理過(guò)程、標(biāo)注規(guī)范的定義,以及對(duì)數(shù)據(jù)集的樣本情況進(jìn)行統(tǒng)計(jì)分析。

        2.1 數(shù)據(jù)來(lái)源

        為使得數(shù)據(jù)集盡量貼合真實(shí)情況,我們從多個(gè)信息來(lái)源中獲取數(shù)據(jù),包括騰訊新聞、搜狗新聞的金融新聞和CCKS(China Conference on Knowledge Graph and Semantic Computing)金融因果事件比賽數(shù)據(jù)。

        本工作針對(duì)上述來(lái)源的文本進(jìn)行分句,收集因果觸發(fā)詞方式,構(gòu)造AC 自動(dòng)機(jī)進(jìn)行快速匹配,得到一批候選因果事件句子的數(shù)據(jù)。

        例如:

        “報(bào)告要點(diǎn)產(chǎn)品價(jià)格變動(dòng)分析:油價(jià)下跌,甘氨酸、醋酸續(xù)漲原油價(jià)格下跌,主要因?yàn)镺PE增產(chǎn)疊加美油產(chǎn)量持續(xù)增加”

        “國(guó)際貿(mào)易保護(hù)愈演愈烈,貿(mào)易摩擦升級(jí),多國(guó)減少進(jìn)口貿(mào)易量,導(dǎo)致特鋼出口難度進(jìn)一步加大”

        “近期棉花價(jià)格上漲,推動(dòng)二道絨價(jià)格上漲,并進(jìn)一步傳導(dǎo)至棉漿粕”

        2.2 標(biāo)注定義與規(guī)范

        我們使用標(biāo)注工具label-studio,在經(jīng)過(guò)規(guī)則篩選的候選數(shù)據(jù)集合中進(jìn)行因果標(biāo)注。任務(wù)定義為:在給定句子中,標(biāo)注出事件片段、觸發(fā)詞,并標(biāo)注出兩兩成對(duì)的事件片段之間是否存在因果關(guān)系。關(guān)于標(biāo)注做出以下定義:

        事件片段定義為:描述了事物發(fā)展、狀態(tài)、動(dòng)作的片段,形式可為詞語(yǔ)、短句、短語(yǔ)等,如“洪災(zāi)”“各國(guó)經(jīng)濟(jì)增長(zhǎng)”“供需失衡”等。

        因果關(guān)系定義為:在邏輯、語(yǔ)法結(jié)構(gòu)的表達(dá)上體現(xiàn)并能推理出來(lái)事件A 使得事件B 發(fā)生的情況,如“洪災(zāi)對(duì)CPI 的影響主要在食品項(xiàng),會(huì)導(dǎo)致糧食、蔬菜等價(jià)格階段性上漲”,其中事件“洪災(zāi)” 與事件“糧食、蔬菜等價(jià)格階段性上漲”有因果關(guān)系。

        觸發(fā)詞定義為:在語(yǔ)句描述中為指示或說(shuō)明了兩事件之間具有因果關(guān)系的詞或短語(yǔ),如“導(dǎo)致”“因?yàn)椤薄坝绊憽薄皩?huì)”“由于”“隨著”等。

        因果數(shù)據(jù)構(gòu)建難以快速發(fā)展的原因在于真實(shí)情況中文本的復(fù)雜性,而標(biāo)注中往往需要一定程度的語(yǔ)言邏輯判斷,同時(shí)難免會(huì)帶有個(gè)人的主觀性,所以我們需要對(duì)標(biāo)注因果事件的標(biāo)注邊界有一個(gè)統(tǒng)一的規(guī)范。給出以下三條標(biāo)注規(guī)范:

        (1)觸發(fā)詞必存原則:一條有效的因果事件數(shù)據(jù)樣本中應(yīng)該至少包含一個(gè)觸發(fā)詞;

        (2)語(yǔ)義完備性原則:為了使得事件具有完備的語(yǔ)義,片段必須體現(xiàn)實(shí)際的動(dòng)詞、名詞,指示代詞忽略掉;

        (3)語(yǔ)言簡(jiǎn)明性原則:對(duì)于事件,在不影響理解語(yǔ)義的情況下,選擇最短的片段作為邊界。

        2.3 數(shù)據(jù)集統(tǒng)計(jì)分析

        為了避免數(shù)據(jù)集的構(gòu)建出現(xiàn)漏標(biāo)錯(cuò)標(biāo)的情況,我們采用兩人交叉標(biāo)注,最后通過(guò)人工校驗(yàn)并整理,獲得金融領(lǐng)域共計(jì)4000 條帶有因果關(guān)系的數(shù)據(jù)集,對(duì)數(shù)據(jù)集做以下分析:

        2.3.1 觸發(fā)詞統(tǒng)計(jì)

        我們統(tǒng)計(jì)了所有觸發(fā)詞的頻次,列出具有代表性的頻次top10的觸發(fā)詞如下:

        導(dǎo)致(1681)、影響(765)、由于(605)、預(yù)計(jì)(567)、使(394)、隨著(230)、有望(255)、推動(dòng)(244)、因?yàn)椋?18)、如果(66)。

        2.3.2 因果事件長(zhǎng)度統(tǒng)計(jì)

        對(duì)數(shù)據(jù)集文本從樣本數(shù)量、文本平均長(zhǎng)度、事件平均長(zhǎng)度、觸發(fā)詞平均長(zhǎng)度進(jìn)行了統(tǒng)計(jì),結(jié)果如表1所示。

        表1 因果事件長(zhǎng)度分布 單位:字

        2.3.3 多因果事件分布統(tǒng)計(jì)

        我們對(duì)單因果和多因果數(shù)據(jù)分布情況進(jìn)行統(tǒng)計(jì)說(shuō)明,內(nèi)容如表2所示。

        表2 因果事件分布 單位:條

        其中單因果表示一條數(shù)據(jù)中只含有一對(duì)因果事件,如“市場(chǎng)乙二醇供應(yīng)量的增加導(dǎo)致中國(guó)乙二醇進(jìn)口量出現(xiàn)下降”。

        多對(duì)因果表示一條數(shù)據(jù)中包含有多對(duì)獨(dú)立(非連鎖)因果事件,如“美國(guó)等西方國(guó)家指責(zé)伊朗進(jìn)行核活動(dòng)是為了發(fā)展核武器,但伊朗堅(jiān)稱其核活動(dòng)僅用于和平目的”。

        多因多果表示一條數(shù)據(jù)中含有一因多果或多因一果事件,如:“美國(guó)頁(yè)巖氣供給的增加和美國(guó)、中國(guó)原油進(jìn)口量回落導(dǎo)致原油大幅下跌”(多因一果);“厄爾尼諾可能導(dǎo)致巴西、印度的蔗糖減產(chǎn),東南亞的橡膠及棕櫚油減產(chǎn),阿根廷大豆增產(chǎn)、印度、澳大利亞的小麥減產(chǎn)”(一因多果)。

        連鎖因果表示一條數(shù)據(jù)中含有關(guān)系為:事件既為關(guān)系對(duì)中的果事件,同時(shí)也為另一個(gè)因果關(guān)系對(duì)中的因事件,如“隨著冬季國(guó)內(nèi)氣溫下降,建筑工地開(kāi)工受到明顯影響,對(duì)建材需求進(jìn)一步萎縮,鋼材冬儲(chǔ)行情遲遲未能啟動(dòng),國(guó)內(nèi)鋼材貨價(jià)格出現(xiàn)下降,越來(lái)越多的鋼企提出下調(diào)焦炭?jī)r(jià)格要求”。

        3 模型

        本工作針對(duì)因果事件關(guān)系的抽取主要采用pipeline 的結(jié)構(gòu),固而分為兩部分進(jìn)行構(gòu)建:事件抽取和關(guān)系抽取。

        3.1 pipeline結(jié)構(gòu)

        模型流程如圖1 所示:文本數(shù)據(jù)輸入-> 事件抽取模塊-> 關(guān)系抽取模塊->輸出抽取結(jié)果。針對(duì)給定的句子,先進(jìn)行事件抽取,得到事件實(shí)體,然后將得到的事件實(shí)體信息輸入到關(guān)系抽取模型中,最終得到正確的因果關(guān)系對(duì)。

        圖1 整體抽取模型結(jié)構(gòu)

        3.2 事件抽取模塊

        本研究的事件抽取模塊采取命名實(shí)體識(shí)別BIO 的方式,使用BERT+CRF 結(jié)構(gòu)有效地抽取事件和觸發(fā)詞。如圖2所示。

        圖2 事件抽取模塊

        3.3 關(guān)系抽取模塊

        為了更好地抽取出因果關(guān)系,同時(shí)充分利用事件抽取結(jié)果的語(yǔ)義信息,通過(guò)在輸入層融合實(shí)體信息(包括類型信息和邊界信息)來(lái)實(shí)現(xiàn)關(guān)系的預(yù)測(cè)。

        首先在輸入層實(shí)體前后插入自定義字符“TM”“EM”,當(dāng)文本經(jīng)過(guò)BERT 模型后,我們得到每個(gè)字的上下文表示作為中間層的向量。然后,將事件A 的前后兩個(gè)字符“TM”“EM”向量相加求平均獲得新向量“E_A”,在事件B和觸發(fā)詞C 上進(jìn)行相同的操作得到新向量“E_B”和“E_C”,再將三個(gè)向量拼接,輸入到最后的liner層+softmax層后,即可得到最終的關(guān)系分類。

        在訓(xùn)練過(guò)程中,我們會(huì)對(duì)除了正確組合以外的所有實(shí)體構(gòu)成負(fù)樣本進(jìn)行訓(xùn)練,來(lái)提高模型對(duì)正確關(guān)系組識(shí)別的準(zhǔn)確度。

        如下圖3所示。

        圖3 關(guān)系抽取模塊結(jié)構(gòu)

        充分利用觸發(fā)詞的作用,將兩個(gè)事件中心位置最近的觸發(fā)詞作為一對(duì),但觸發(fā)詞表示向量與事件表示向量之間的位置拼接受到實(shí)際位置的影響,我們認(rèn)為這里包含的語(yǔ)義信息將為進(jìn)一步的關(guān)系識(shí)別提供更好的抽取效果。

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)環(huán)境

        操作系統(tǒng)為Ubuntu16.04,使用Python 編程語(yǔ)言和Pytorch 深度學(xué)習(xí)框架,其中GPU 型號(hào)為GeForce GTX 2080Ti。

        4.2 評(píng)估指標(biāo)

        對(duì)模型進(jìn)行評(píng)估時(shí),采用以下指標(biāo):

        其中:TP為預(yù)測(cè)中正確的關(guān)系個(gè)數(shù);TP+FP為預(yù)測(cè)的關(guān)系個(gè)數(shù);TP+FN為數(shù)據(jù)中真實(shí)的關(guān)系個(gè)數(shù)。評(píng)估pipeline 的結(jié)果時(shí),需要對(duì)整體結(jié)構(gòu)進(jìn)行評(píng)估,故而除了預(yù)測(cè)的關(guān)系類型要求正確,預(yù)測(cè)的實(shí)體類型也必須正確,才認(rèn)為預(yù)測(cè)的關(guān)系為正確。P、R、F1 公式不變,但按照更嚴(yán)格的標(biāo)準(zhǔn)進(jìn)行計(jì)算。

        4.3 實(shí)驗(yàn)效果分析

        表3所示為實(shí)驗(yàn)結(jié)果。通過(guò)將PUBERT 和另外兩種模型進(jìn)行對(duì)比,可以看到PUBERT 有更好的表現(xiàn),在金融領(lǐng)域復(fù)雜因果事件環(huán)境中,基于就近規(guī)則的BERT+Rule 模型難以處理多因多果的情況,而引入觸發(fā)詞語(yǔ)義信息的PUBERT模型能夠更好地理解因果事件之間的關(guān)系,在抽取上有明顯提升。

        表3 實(shí)驗(yàn)效果對(duì)比

        5 結(jié)語(yǔ)

        PUBERT 以pipeline 結(jié)構(gòu)搭建了獨(dú)特的關(guān)系抽取模型,不僅充分利用了事件抽取所得到的信息,而且能夠很好地識(shí)別事件之間的因果關(guān)系,相比較于BERT+MTB 和BERT+Rule 方法,其在金融因果數(shù)據(jù)集上有更好的表現(xiàn)。當(dāng)然,受限于pipeline 結(jié)構(gòu)本身,其結(jié)果比較依賴于事件抽取的效果,容易造成誤差積累,這些不足是我們下一步研究需要解決的問(wèn)題。

        猜你喜歡
        因果關(guān)系向量文本
        向量的分解
        玩忽職守型瀆職罪中嚴(yán)重不負(fù)責(zé)任與重大損害后果的因果關(guān)系
        聚焦“向量與三角”創(chuàng)新題
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        做完形填空題,需考慮的邏輯關(guān)系
        幫助犯因果關(guān)系芻議
        向量垂直在解析幾何中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        色综合久久精品中文字幕| 久久99精品久久久久久野外| 国产欧美日韩在线观看一区二区三区| 精品一区二区三区长筒靴| 午夜大片在线播放观看| 久久久久久国产精品免费免费| 无码视频一区二区三区在线观看| 国产伦码精品一区二区| 日本视频在线播放一区二区| 亚洲综合成人婷婷五月网址| 欧美性猛交xxxx乱大交丰满| 亚洲成AV人久久| av天堂免费在线播放| 高清偷自拍亚洲精品三区| 精品国产高清a毛片无毒不卡| 中文字幕日本人妻一区| 成人自拍一二在线观看| 性xxxx18免费观看视频| 四虎成人免费| 午夜精品一区二区三区视频免费看| 久久精品国产亚洲av天| 成人h视频在线观看| 国产日韩精品一区二区在线观看播放 | 狠色人妻丝袜中文字幕| 亚洲国产精品久久人人爱| 91视频免费国产成人| 一本色道久久88综合亚精品| 久久久久免费精品国产| 18成人片黄网站www| 久久久亚洲精品蜜桃臀| 熟女免费观看一区二区| 男人边做边吃奶头视频| 亚洲综合网在线观看首页| 日韩av中文字幕一卡二卡| 国产精品亚洲专区无码不卡| 久久人人爽人人爽人人片av麻烦| 亚洲人成网站18男男| 国产亚洲午夜精品久久久| 国产亚洲日本精品无码| 欧美精品AⅤ在线视频| 97女厕偷拍一区二区三区|