亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理的監(jiān)管文本知識圖譜構(gòu)建

        2021-12-31 03:24:26高赫
        中國科技縱橫 2021年21期
        關(guān)鍵詞:圖譜實體語義

        高赫

        (北京金融安全產(chǎn)業(yè)園,北京 100005)

        近年來,互聯(lián)網(wǎng)與金融不斷融合,大數(shù)據(jù)和云計算等信息技術(shù)使傳統(tǒng)金融業(yè)務(wù)得以重塑,推動類金融機(jī)構(gòu)和新金融業(yè)態(tài)快速發(fā)展,但也衍生出一定風(fēng)險,對金融監(jiān)管提出新的挑戰(zhàn)。通過調(diào)整監(jiān)管方式、明確監(jiān)管職能,一系列監(jiān)管法規(guī)陸續(xù)出臺,力求維護(hù)金融體系健康有序發(fā)展。

        就網(wǎng)絡(luò)借貸行業(yè)而言,目前已形成“3+1”架構(gòu)的監(jiān)管體系(“1”即《網(wǎng)絡(luò)借貸信息中介機(jī)構(gòu)業(yè)務(wù)活動管理暫行辦法》;“3”即《網(wǎng)絡(luò)借貸信息中介備案登記管理指引》《網(wǎng)絡(luò)借貸資金存管業(yè)務(wù)指引》和《網(wǎng)絡(luò)借貸信息中介機(jī)構(gòu)信息披露指引》)。為便利上述監(jiān)管體系落地,作者所在機(jī)構(gòu)與北京市相關(guān)監(jiān)管部門合作,基于相關(guān)監(jiān)管文本,采用NLP技術(shù)構(gòu)建知識圖譜,實現(xiàn)文本內(nèi)容的邏輯化,為相關(guān)金融業(yè)務(wù)的合規(guī)檢查提供支撐。

        1.工作目標(biāo)設(shè)定及技術(shù)方案選擇

        監(jiān)管文本邏輯化的核心技術(shù)方案為條件隨機(jī)場(Conditional Random Fields,CRF)以及深度學(xué)習(xí)方法的結(jié)合。

        1.1 監(jiān)管文本實體抽取

        實體抽取主要涉及從文本中抽取出特定實體信息。目前較成熟的方法主要包括基于規(guī)則、基于統(tǒng)計及基于深度學(xué)習(xí)3種。

        1.1.1 基于規(guī)則的方法

        基于相關(guān)領(lǐng)域?qū)<姨峁I(yè)知識,人工構(gòu)造抽取規(guī)則,再將之與文本字符匹配,以識別實體。其優(yōu)點在于算法實現(xiàn)簡單;缺點在于隨數(shù)據(jù)集增大,人工成本增加,且規(guī)則可移植性差,不同領(lǐng)域的應(yīng)用效果懸殊。

        1.1.2 基于統(tǒng)計模型的方法

        基于經(jīng)人工標(biāo)注語料訓(xùn)練模型,常見模型包括隱馬爾可夫(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)和條件隨機(jī)場(CRF)。將實體抽取轉(zhuǎn)化為序列標(biāo)注,預(yù)測標(biāo)簽序列以達(dá)到抽取目的,性能明顯優(yōu)于基于規(guī)則的方法。

        1.1.3 基于深度學(xué)習(xí)的方法

        以詞向量作為輸入,借助神經(jīng)網(wǎng)絡(luò)完成端到端實體抽取。常見模型包括:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)及包含注意力機(jī)制(Attention Mechanism)的神經(jīng)網(wǎng)絡(luò)。

        單向長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory Networks,LSTM)模型[1]基于RNN優(yōu)化,結(jié)合詞向量特征進(jìn)行實體抽取。雙向LSTM(Bi-directional Long Shortterm Memory,BiLSTM)模型[2],則通過順逆序計算增強(qiáng)語義信息理解力,并結(jié)合CRF模型抽取實體,進(jìn)一步提升準(zhǔn)確率。

        綜合上述方法優(yōu)勢,本研究選擇基于已有的標(biāo)注數(shù)據(jù)集和規(guī)則模板,并采用BiLSTM-CRF模型實現(xiàn)。

        1.2 監(jiān)管文本實體關(guān)系抽取

        實體關(guān)系抽取本質(zhì)是對抽取出的實體及各實體間關(guān)系的可能分類進(jìn)行預(yù)測。與實體抽取類似,主流方法同樣是基于規(guī)則、基于統(tǒng)計機(jī)器學(xué)習(xí)及基于深度學(xué)習(xí)3種。

        1.2.1 基于規(guī)則的方法

        深入分析數(shù)據(jù)后,由專家人工設(shè)定規(guī)則,盡可能覆蓋全部領(lǐng)域。該方法同樣有明顯局限性,只適用特定領(lǐng)域,移植困難。

        1.2.2 基于統(tǒng)計機(jī)器學(xué)習(xí)的方法

        此類方法主要有2種:即基于特征向量和基于核函數(shù)。前者缺點在于可移植性差,而特征選擇也對模型效果影響顯著;后者的劣勢則在于計算復(fù)雜度高、模型訓(xùn)練耗時長,效果也取決于所選特征。

        1.2.3 基于深度學(xué)習(xí)的方法

        該方法優(yōu)勢在于可自主發(fā)現(xiàn)隱含語義特征,且抽取精度高。基于RNN 的實體關(guān)系抽取[3],輸入變量為向量和矩陣,以掌握詞義及其相互關(guān)系;缺點在于需學(xué)習(xí)的參數(shù)較多。基于CNN的實體關(guān)系抽取[4],預(yù)先將詞轉(zhuǎn)為輸入向量進(jìn)行關(guān)系分類。Nian Yang等人于2019年提出SDP-BGRU模型[5],從非結(jié)構(gòu)化數(shù)據(jù)中抽取企業(yè)(實體)關(guān)系,轉(zhuǎn)化為分類問題處理。模型使用兩實體之間最短依賴路徑(SDP),通過雙向門控循環(huán)單元網(wǎng)絡(luò)(BiGRU)獲取特征向量,采用支持向量機(jī)作為分類器。實驗表明,模型在測試數(shù)據(jù)集上效果良好。

        鑒于監(jiān)管文本部分抽象關(guān)系無法直接提取,決定采用基于BERT的雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)合注意力機(jī)制(BERT-Att-BiGRU)來訓(xùn)練關(guān)系抽取模型,輸出形如“實體I~關(guān)系~實體 II ”的關(guān)系組合。

        1.3 監(jiān)管文本知識圖譜構(gòu)建

        語義網(wǎng)絡(luò)(Semantic Network)本質(zhì)是一種有向圖:頂點代表概念,而邊表示概念間語義關(guān)系,并由此發(fā)展出多種優(yōu)秀語義知識圖譜。

        常見構(gòu)建方法包括:基于專家知識、基于眾包數(shù)據(jù)及基于機(jī)器學(xué)習(xí)。

        1.3.1 基于專家知識

        Cyc和Wordnet等通過語言學(xué)家人工構(gòu)建語義關(guān)系,具有結(jié)果準(zhǔn)確度高的優(yōu)點,但構(gòu)建速度也因此受制約,只能適用小規(guī)模數(shù)據(jù)集。

        1.3.2 基于眾包數(shù)據(jù)

        ConceptNet、Yago、Wikidata、DBpedia等英文知識圖譜為此類代表。由大量志愿者共同合作構(gòu)建,成本低,速度快;但個體認(rèn)知差異決定了圖譜質(zhì)量無法保證。

        1.3.3 基于機(jī)器學(xué)習(xí)

        構(gòu)建方法主要基于從海量數(shù)據(jù)中獲得RDF三元組,適用于處理主、客觀世界中數(shù)量龐大的概念和實體,以及實體和概念間的復(fù)雜關(guān)系[6]。

        在完成實體和實體關(guān)系抽取后,本研究將獲得的結(jié)果在圖數(shù)據(jù)庫中保存,并支持查詢操作及內(nèi)容展示。

        2.監(jiān)管文本實體抽取

        本項工作的主要任務(wù)是提取文本中行為主體名、金融產(chǎn)品名等要素。首先利用規(guī)則模板抽取出文本首尾的半結(jié)構(gòu)化信息,對正文的復(fù)雜邏輯則采用BiLSTM-CRF模型,結(jié)構(gòu)如圖1所示。

        圖1 BiLSTM-CRF模型

        基于1998年人民日報標(biāo)注數(shù)據(jù)、MSRA微軟亞洲研究院、玻森等數(shù)據(jù)集,采用Pytorch的BiLSTM_CRF模型訓(xùn)練,結(jié)果如表1所示。

        表1 BiLSTM-CRF模型測試結(jié)果

        該模型既可減少工作量,又較好地完成實體抽取任務(wù),為后續(xù)實體關(guān)系抽取任務(wù)打下良好基礎(chǔ)。

        3.監(jiān)管文本實體關(guān)系抽取

        本項工作的主要任務(wù)是對抽取出的各實體間的關(guān)系進(jìn)行預(yù)測,本節(jié)針對法律文書中正文的實體關(guān)系抽取任務(wù),使用 BERT-Att-BiGRU模型,以一段文本及2個實體作為輸入,輸出實體間關(guān)系。模型結(jié)構(gòu)如圖2所示。

        圖2 BERT-Att-BiGRU模型

        模型融合BERT、雙向門控循環(huán)單元以及注意力機(jī)制,對經(jīng)人工標(biāo)注的2000條監(jiān)管規(guī)定進(jìn)行訓(xùn)練,結(jié)果如表2所示。

        表2 BERT-Att-BiGRU模型測試結(jié)果

        實驗結(jié)果證明該模型準(zhǔn)確率可達(dá)80%以上,能夠有效提取關(guān)系三元組,為構(gòu)建復(fù)雜知識圖譜系統(tǒng)提供了便利。

        4.監(jiān)管文本知識圖譜構(gòu)建

        將前兩步從監(jiān)管文本中提取出的實體及實體關(guān)系三元組存儲至Neo4j圖數(shù)據(jù)庫(如圖3所示),共抽取43項合規(guī)風(fēng)險指標(biāo)、21項管理風(fēng)險指標(biāo)(如表3所示),實現(xiàn)對網(wǎng)貸業(yè)務(wù)的合規(guī)監(jiān)測。

        表3 風(fēng)險監(jiān)測指標(biāo)抽取結(jié)果

        圖3 Neo4j圖數(shù)據(jù)庫(局部)

        5.結(jié)語

        本次研究圍繞監(jiān)管文本知識圖譜構(gòu)建,探索了具體構(gòu)建方法并實際測試。實驗結(jié)果表明,所采用的方法能有效抽取監(jiān)管文本中的實體及實體關(guān)系,并構(gòu)建知識圖譜,便利相關(guān)金融風(fēng)險的監(jiān)測和預(yù)警。

        猜你喜歡
        圖譜實體語義
        繪一張成長圖譜
        語言與語義
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
        振興實體經(jīng)濟(jì)地方如何“釘釘子”
        主動對接你思維的知識圖譜
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        久久洲Av无码西西人体| 91精品手机国产在线能| 麻豆精产国品| 亚洲av无码一区二区三区观看| 亚洲免费国产中文字幕久久久| av天堂亚洲另类色图在线播放| a级三级三级三级在线视频| 国产亚洲综合另类色专区| 国产区女主播一区在线| 国产色视频一区二区三区qq号| 欧美又大粗又爽又黄大片视频| 我和隔壁的少妇人妻hd| 比较有韵味的熟妇无码| 国产成本人片无码免费2020| 青青久在线视频免费观看| 亚洲精品老司机在线观看 | 无码丰满少妇2在线观看| 中国女人a毛片免费全部播放| 亚洲av永久青草无码精品| 青青草久久久亚洲一区| 色婷婷久久精品一区二区| 搡女人真爽免费视频大全| 中文无码精品a∨在线观看不卡| 国产成人一区二区三区| 久久精品无码中文字幕| 色综合自拍| 91日本在线精品高清观看| 国产精品国产三级国产专区51区 | 亚洲另类丰满熟妇乱xxxx| 波多野结衣av一区二区全免费观看 | 欧美日韩区1区2区3区| 国产亚洲视频在线观看播放| 久久久一本精品久久久一本| 深夜一区二区三区视频在线观看| 大香蕉av一区二区三区| 狼人青草久久网伊人| 精品无码一区二区三区亚洲桃色| 好爽…又高潮了毛片免费看| 69天堂国产在线精品观看| 国内专区一区二区三区| 国产麻豆一区二区三区在|