亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于事件抽取技術(shù)的聽證公開文本挖掘方法研究*

        2022-01-28 03:08:10丁思媛喬曉東張運良
        情報雜志 2022年1期
        關(guān)鍵詞:論元標簽文本

        丁思媛 喬曉東 張運良

        (1.中國科學技術(shù)信息研究所 北京 100038;2.富媒體數(shù)字出版內(nèi)容組織與知識服務(wù)重點實驗室 北京 100038;3.北京萬方數(shù)據(jù)股份有限公司 北京 100038)

        近年來,隨著開放政務(wù)信息的日益增多,也隨著文本挖掘和自然語言處理技術(shù)不斷提升,從海量政府公開文本中抽取出有價值的信息,并以結(jié)構(gòu)化的形式呈現(xiàn)出來,成為研究熱點與難點。其中,聽證是決策過程中的必要環(huán)節(jié),會議披露的相關(guān)資料是一類重要的政府公開文件,通過收集特定議題中有價值的信息,能夠及時發(fā)現(xiàn)相關(guān)領(lǐng)域的熱點和重大研究進展,例如通過政府設(shè)立的基金情況分析產(chǎn)業(yè)發(fā)展重心,通過企業(yè)的科技成果分析領(lǐng)域的研究熱點和前沿技術(shù)等。然而,現(xiàn)有對聽證文本的研究更多采用傳統(tǒng)的內(nèi)容解讀與分析方法,信息獲取效率較低,無法滿足當前從大規(guī)模聽證文本語料中快速獲取有價值信息的需求。

        基于此,本研究針對科技領(lǐng)域,圍繞利用聽證過程中產(chǎn)生的各類文件,結(jié)合聽證文本的特點,探索一套框架來實現(xiàn)聽證文本有價值信息的識別與抽取工作,以此推動聽證文本信息的利用,該方法的建立可為進一步分析此類文本信息提供新思路。

        1 相關(guān)研究

        1.1聽證文本的相關(guān)研究隨著開放政務(wù)信息的日益增多,從海量的政府公開文本中識別有價值的信息,成為研究熱點與難點。

        從研究方法上看,現(xiàn)有研究對政府公開文本信息的分析主要包括:a.基于內(nèi)容解讀的定性分析。此類研究主要通過專家解讀的方式把握政策文本的背景和思想,高度依賴專家的學習背景和專業(yè)程度。b.基于內(nèi)容分析的文本量化。此類研究以政策文本為樣本,將非結(jié)構(gòu)化政策文本轉(zhuǎn)換為數(shù)量表示資料,并用統(tǒng)計數(shù)字進行描述和分析,其研究效果與信度很大程度上取決于研究設(shè)計。c.基于文獻計量的政策計量分析。此類研究采用數(shù)學、統(tǒng)計學等學科的計量方法,基于官方頒布的政策文獻,通過文本的主題詞、發(fā)文機構(gòu)等研究主題分布、引文分析等,其研究未深入到內(nèi)容層面。d.基于社會網(wǎng)絡(luò)的政策網(wǎng)絡(luò)分析。此類研究構(gòu)建社會網(wǎng)絡(luò),通過分析其節(jié)點、屬性及關(guān)系揭示個體和群體特征,涉及的元素類型比較單一,且數(shù)據(jù)量較小。e.基于大數(shù)據(jù)的文本挖掘。此類研究運用大數(shù)據(jù)思維,利用自然語言處理、機器學習等方法,對文本進行結(jié)構(gòu)解析和信息抽取,目前較缺乏針對政府公文的大數(shù)據(jù)分析和智能化處理技術(shù)[1]。

        從涉及的研究對象來看,現(xiàn)有對政府公開文本信息的研究主要集中于政府公文、工作報告、統(tǒng)計數(shù)據(jù)等。然而,政府公開文本類型多樣,美國在《情報自由法》中規(guī)定,除了法律規(guī)定需要保密的事項外,所有政府機構(gòu)的書面版和電子版記錄都應(yīng)該公開[2]。聽證文本屬于政府公開文本的重要部分,是一類重要的情報資源,對其進行研究是有必要的。然而,現(xiàn)有對聽證文本的研究方法集中于內(nèi)容解讀和文本量化,如Segal等[3]對1941年至1985年間有關(guān)軍人婦女的國會證詞進行分析,總結(jié)了有關(guān)婦女在軍人中作用的主張政策的轉(zhuǎn)變。Hall等[4]針對太平洋西北地區(qū)鮭魚政策的幾次聽證的100多名證人的證詞進行了話語分析。此外,也有基于社會網(wǎng)絡(luò)的政策網(wǎng)絡(luò)分析,如Fisher等[5]將社交網(wǎng)絡(luò)分析應(yīng)用于國會聽證中的氣候變化政治研究,重點關(guān)注證人之間的政治觀點的關(guān)系。張海洋[6]利用鋪平話語分析和基于網(wǎng)絡(luò)的內(nèi)容分析對有關(guān)中國空間發(fā)展議題的聽證話語進行解讀,并構(gòu)建觀點圖譜。

        以上對聽證文本的研究更多的依賴于人工標注和篩選,對聽證話語進行分析和解讀,從而揭示聽證詞中的主題、觀點和話語策略等,信息獲取效率較低。本研究運用大數(shù)據(jù)思維,提出一套基于事件抽取技術(shù)的信息識別與抽取方法,滿足當前從大規(guī)模聽證文本語料中快速獲取有價值信息的需求。

        1.2事件抽取技術(shù)相關(guān)研究事件抽取是信息抽取的一個子任務(wù),是從自然語言文本中抽取指定類型的事件信息,形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)。

        從抽取流程來看,事件抽取方法可以分為流水線抽取和聯(lián)合抽取兩大類,流水線抽取模式按照觸發(fā)詞識別、事件類型識別和事件要素識別的順序執(zhí)行,其中觸發(fā)詞識別和事件類型識別又可以合成為事件檢測,而聯(lián)合抽取模式則將幾種任務(wù)聯(lián)合執(zhí)行,同時得到結(jié)果。

        從抽取技術(shù)來看,事件抽取方法又有基于模式匹配的方法、基于機器學習的方法和基于深度學習的方法?;谀J狡ヅ涞姆椒ㄔ谔囟I(lǐng)域可以取得比較好的效果,但是系統(tǒng)的可移植性較差,且模式的構(gòu)建費時費力,為解決此類問題,Marco等[7]提出了一種領(lǐng)域無關(guān)的基于規(guī)則的事件抽取框架,Araki等[8]提出了一種能夠生成高質(zhì)量訓練數(shù)據(jù)的遠程監(jiān)管方法,均取得較好的改進效果。基于機器學習的方法多借鑒文本分類的思想,將事件類型及事件元素的識別轉(zhuǎn)化成為分類問題,其難點在分類器的構(gòu)造和特征的選擇上,Majumder等[9]提出了一種用于生物醫(yī)學文本事件提取的堆疊泛化模型,Liu等[10]使用概率軟邏輯模型以邏輯形式編碼全局信息,通過聯(lián)合局部信息和全局信息提高分類性能。之后,隨著深度學習的不斷發(fā)展,更多學者將輔助信息和深度學習方法混合使用進行事件抽取,在基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中加入注意力機制、遠監(jiān)督學習、圖神經(jīng)網(wǎng)絡(luò)、遷移學習等技術(shù)。

        最近還有一些利用事件抽取技術(shù)分析非結(jié)構(gòu)化文本的工作。例如,Qiu等[11]從中文新聞中提取網(wǎng)絡(luò)攻擊信息。Taneeya等[12]提出一個基于深度學習的模塊化網(wǎng)絡(luò)攻擊事件信息提取管道。還有學者從公司公開公告中抽取中文金融事件,對文學事件和生物醫(yī)學事件等進行檢測[13-16]。這說明事件抽取技術(shù)在特定文本信息抽取上有著明顯的效果。

        綜上,事件抽取技術(shù)是當前自然語言處理領(lǐng)域的研究熱點,并且在標準語料庫上已經(jīng)做了大量的研究。但是這些方法未被運用到聽證文本的信息處理與分析中,未針對聽證文本形成事件抽取任務(wù)的標準定義,也未形成抽取任務(wù)中所使用的預(yù)定義框架。如何結(jié)合聽證文本的特點,探索一套行之有效的抽取框架以全面、快速地獲取聽證文本中與科技有關(guān)的知識內(nèi)容和有效信息值得深入探索。

        2 有價值信息的界定

        聽證公開文本篇幅長,內(nèi)容多,因此,應(yīng)該對文本中的信息進行合理界定與分類,把有限的時間與精力用在研究更有價值的信息上。本研究對聽證的基本流程和公開文本類型進行梳理,根據(jù)文本內(nèi)容特征界定其中有價值的信息,定義抽取任務(wù)。

        2.1聽證公開文本的類型在國外議會立法中,聽證主要分立法聽證、監(jiān)督聽證和調(diào)查聽證三種類型,一個完整的聽證流程包括[17]:a.公告。在決定舉行聽證后,委員會主席提前公布聽證的日期、地點、主題等信息。b.登記作證和邀請證人。委員會公告聽證列表,證人報名簽字,最后委員會選擇合適的證人并發(fā)布正式邀請函。c.提交證詞副本。證人作證前需向委員會提供個人簡歷和書面證詞副本,以及一份證詞披露的真實性說明。d.準備文件。委員會在舉行聽證前和聽證中需要為委員們準備必要的文件,包括議題相關(guān)的背景資料及政策研究資料。e.公開聽證。除特殊原因外,公開舉行聽證,首先由委員會主任做開場陳述,再由證人進行陳述,證人陳述后,由委員針對證人進行詢問,最后將聽證的相關(guān)視頻和文本進行公開。

        根據(jù)流程對聽證公開文本類型進行梳理,見圖1。

        圖1 聽證公開文本的類型

        聽證作為收集信息的重要渠道,其內(nèi)容的新穎性和信息的實時性表明其公開文本具有較高的研究價值。分析聽證公開文本的內(nèi)容特征,可以發(fā)現(xiàn),議員開幕詞、證人證詞、問答記錄和聽證會簡報四類文本含有更多信息,且具有篇幅長,語義信息豐富,觀點鮮明,內(nèi)容概括度高等特點,應(yīng)作為重點關(guān)注對象。

        2.2有價值信息的界定與分類信息的獲取過程包括“發(fā)現(xiàn)信息—收集信息—判斷信息價值—提取信息”四個階段,其中,信息價值的判斷是提取有價值信息的重要前提和基礎(chǔ)。郭慧芳[18]認為不同主體對同樣的信息價值存在較大差異,可以認為信息的價值是一種主觀價值,受個體特性的影響。本文中涉及的有價值信息主要是指包含特定事件,即在某個特定時間和地域范圍發(fā)生的,涉及一個或多個參與者的事情或狀態(tài)的變化的信息,包含多種事件類型及其相應(yīng)的事件結(jié)構(gòu)。因此,本研究通過事件抽取的方式,分析聽證文本以識別有價值信息的描述,并根據(jù)文本中的信息構(gòu)建其語義表示。

        本研究以幾則聽證文本為樣例,借助實例分析結(jié)果來歸納總結(jié)事件信息的類型。此外,由于本研究聚焦于科技領(lǐng)域,因此,進一步參照文獻[19]對科技事件的分類,將聽證文本中的有價值信息歸為以下幾類:a.稅收:政府的稅務(wù)變動;b.資助:政府和企業(yè)對某一項目、技術(shù)、產(chǎn)品或特定群體的投資和資助;c.合作:組織者協(xié)調(diào)企業(yè)間、政府各部門間以及政企間展開的合作;d.組織設(shè)立:成立或解散各志愿者組織、協(xié)會、政府機構(gòu)和部門及其他社會組織;e.會議召開:召開的各種會議;f.提議:提出的各種建議、意見、倡議、期望和政策提議等;g.政策頒布:政府頒布的各項政策、戰(zhàn)略、命令、法案法規(guī)、備忘錄、規(guī)則、標準和正式計劃等;h.項目啟動:包括已啟動或計劃啟動的各類科技項目;i.成果發(fā)布:政府、企業(yè)、科研人員等一系列的科技產(chǎn)出,包括產(chǎn)品、技術(shù)、其他專利等。

        本研究將信息的主要要素歸為主體、客體、目的3個關(guān)鍵詞,以表示一個簡單事件的邏輯結(jié)構(gòu)(見圖2),一個簡單事件至少包含一個及以上的關(guān)鍵詞,其中主體和客體包含政府機構(gòu)、科技機構(gòu)、院校、企業(yè)、其它公私組織和個人在內(nèi)的各個實體。此外,設(shè)置了時間、地點等約束詞作為事件補充信息,并設(shè)計了各個事件類型的角色(見表1)。

        圖2 簡單事件邏輯模型

        3 數(shù)據(jù)集的構(gòu)建

        本研究以聽證披露的5G科技相關(guān)資料為實證研究對象,選取2015年至2021年4月間與5G議題有關(guān)的18場聽證的公開文件(部分聽證信息見表2),包括聽證簡報、議員開幕詞、證人證詞和問答記錄,并重點研究資助、提議、政策頒布、成果發(fā)布四種信息類型。

        經(jīng)過數(shù)據(jù)清洗,共收集201篇聽證文本,刪除文檔標題、引用、證人介紹語、感謝語等無關(guān)內(nèi)容,僅保留正文部分,并按句子進行切分,共得到14 117個句子,其中事件句有3 333條,包含345條資助事件句,399條提議事件句,621條政策頒布事件句,256條成果發(fā)布事件句。對以上四種類型的事件句進行事件角色的論元標注,最后得到6 799個標記。將所有數(shù)據(jù)分為訓練集、驗證集和測試集,比例為8∶1∶1。數(shù)據(jù)集的統(tǒng)計情況見表3。

        表3 事件分類與論元抽取數(shù)據(jù)集統(tǒng)計

        4 事件檢測與論元抽取

        4.1設(shè)計思路通過對聽證文本內(nèi)容的分析,以及對含有事件的句子進一步細致分析可以發(fā)現(xiàn):a.聽證會證詞一般以演講稿的形式進行描述,復雜句較多,信息量大,多運用蘊含較多信息的長句,尤其是復合句的采用。b.由于證人陳述和詢問時間一般控制在5分鐘內(nèi),且發(fā)言多為總結(jié)性話語,主要表達觀點意見,雖然聽證文本篇幅較長,但提及的事件往往用一到兩句話進行概括。c.需要抽取的事件句在文本中分布較為分散和稀疏,非事件句數(shù)與事件句數(shù)比值較大。因此,相對于全篇幅的事件抽取,以句子為單位即可滿足抽取要求。傳統(tǒng)的事件檢測任務(wù)往往先識別文本中的事件觸發(fā)詞,然后對觸發(fā)詞進行分類,需要耗費大量時間對觸發(fā)詞進行標注,鑒于本研究需要構(gòu)造自己的數(shù)據(jù)集,相比于傳統(tǒng)方法,無觸發(fā)詞的事件檢測更便于減少人工成本。此外,本研究意圖從事件類型和事件論元等多方面對事件信息進行分析,為了有效減少訓練過程中的錯誤累積,相比于聯(lián)合抽取模式,流水線抽取模式更符合要求。

        基于以上思路,本研究將抽取任務(wù)分為事件句識別、事件類型檢測和事件論元抽取三個階段。首先,根據(jù)定義的事件類型,采用雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Gate Recurrent Unity, BiGRU)結(jié)合注意力機制[20](Attention Mechanism)來檢測句子中是否包含事件,并構(gòu)建候選事件句集合。其次,將句子的實體標簽和角色標簽嵌入輸入語料,采用長短期記憶網(wǎng)絡(luò)(Long-Short Term Memory, LSTM)結(jié)合注意力機制[21]對候選事件句進行事件類型檢測,通過實施兩次分類任務(wù),緩解訓練過程中產(chǎn)生的類不平衡問題。最后,將句子的詞性標簽和角色標簽嵌入輸入語料,采用序列標注的方式實現(xiàn)對事件論元的抽取。

        4.2事件句識別方法設(shè)計本研究將內(nèi)容按標點符號切分成句子,將其處理成多個句子的集合,給定包含N個句子{S1,S2,…,SN}的語料,每個句子賦予一個事件標簽Y∈{0,1},其中1表示句子中含有事件(即含有上文定義的九類事件中的1個及以上),將其看成一個二分類任務(wù),通過預(yù)測每個句子的標簽,篩選含有事件的句子,構(gòu)建候選事件句集合。該事件句識別模型BERT_BiGRU_att架構(gòu)見圖3。

        圖3 事件句識別模型框架

        a.輸入層:假設(shè)一個句子S有m個單詞,每個單詞有位置標簽w,則輸入句子Sn={tokensw1,tokensw2,…,tokenswm},利用BERT詞向量模型將文本信息轉(zhuǎn)化成詞向量矩陣。

        b.隱含層:使用BiGRU序列生成模型對文本深層次語義信息進行特征提取,將正向和反向提取的文本深層次特征信息輸入到注意力機制層中,計算不同時刻詞向量的概率權(quán)重,再利用全連接神經(jīng)網(wǎng)絡(luò)整合特征提取層的信息進行最終的特征提取。

        c.輸出層:最后加入softmax層,通過sigmoid函數(shù)將全連接層提取到的特征進行歸一化處理,得到事件類別標簽值。

        4.3事件類型檢測方法設(shè)計在事件檢測中,一個普遍現(xiàn)象是同一個句子中會存在多個事件,例如句子“Commission proposed the 5G Fund, which would make up to $9 billion in Universal Service Fund support available to carriers to deploy advanced 5G mobile wireless services in rural America”中包含“提議”和“資助”兩個事件類型,因此,這就意味著一個句子中存在0到多個事件類型標簽。為解決多標簽問題,本研究將多標簽分類任務(wù)轉(zhuǎn)化為多個二分類任務(wù),假設(shè)給定n個目標事件類型{t1,t2,…,tn},則可以用0或1來表示一個事件句s是否包含一個事件類型t,如表4。

        情境的選取:主題同步。選用同一本教材,在同一教學周內(nèi),選取相同的情境,通過情境下的角色扮演,反復強化對話訓練和詞句運用,促進融會貫通。

        表4 多個二分類實例

        為解決觸發(fā)詞缺失問題,在Liu等[22]研究的基礎(chǔ)上,本研究通過補充實體類型標簽和角色類型標簽豐富句子的語義信息,從而提高事件句類型檢測性能。該事件類型檢測模型LSTM_att架構(gòu)見圖4。

        圖4 事件類型檢測模型框架

        a.輸入層:利用Stanford CoreNLP工具對給定的事件句的實體類型進行解析,結(jié)果示例見圖5,本研究的角色標注結(jié)果示例見圖6。假設(shè)一個類型為T的句子S有m個單詞,每個單詞有位置標簽w,實體標簽p,角色標簽q,則輸入語料為{tokensw1,p1,q1,tokensw2,p2,q2,…,tokenswm,pm,qm,T},w,p,q∈[0,m],將單詞嵌入wi,實體標簽嵌入pi,角色標簽嵌入qi,利用Word2Vec詞向量模型將輸入的語料信息轉(zhuǎn)化成詞向量矩陣。

        圖5 Stanford CoreNLP工具實體解析結(jié)果

        圖6 事件角色標注結(jié)果

        b.隱含層:使用LSTM序列生成模型對文本深層次語義信息進行特征提取,將正向和反向提取的文本深層次特征信息和事件類型信息輸入到注意力機制層中,再利用全連接神經(jīng)網(wǎng)絡(luò)整合特征提取層的信息進行最終的特征提取。

        c.輸出層:加入softmax層,通過sigmoid函數(shù)將全連接層提取得到的特征和事件類型特征進行歸一化處理得到事件類別標簽值。

        4.4事件論元抽取方法設(shè)計事件抽取任務(wù)的目標是通過給定目標事件類型和角色集合,識別候選事件句中所有的目標類型事件,并根據(jù)角色集合抽取事件對應(yīng)的各個論元。由于本研究定義的事件角色所對應(yīng)的論元類型包括實體,如機構(gòu)、時間、地點等,也包括名詞詞組和短語,如“consumer education”“5G Fast Plan”“Spectrum Relocation Fund”等,這類詞組與命名實體相比在詞形上不具有特殊屬性。因此,本研究采用了一種融合角色特征和詞性特征的序列標注方法實現(xiàn)對事件論元的抽取。該事件論元抽取模型BERT_LSTM架構(gòu)見圖7。

        圖7 事件論元抽取模型框架

        a.輸入層:由于本研究數(shù)據(jù)體量小,因此,可以將所有類型的事件句進行統(tǒng)一的論元抽取,即將各類事件的主體、客體、目的3個邏輯關(guān)鍵詞都賦以角色標簽“subject”“object”“purpose”,以此緩解數(shù)據(jù)量小的問題,如“資助者(sponsor)”被標記為“subject”,“接受者(recipient)”被標記為“object”。利用Stanford CoreNLP對詞性進行解析,最后得到詞性解析結(jié)果如圖8。假設(shè)一個類型為T的句子S有m個單詞,每個單詞有位置標簽w,角色標簽q,詞性標簽r,則輸入語料為{tokensw1,q1,r1,tokensw2,q2,r2,…,tokenswm,qm,rm},w,q,r∈[0,m]。結(jié)合動態(tài)詞向量表示的BERT模型將輸入的語料信息轉(zhuǎn)化成詞向量矩陣。

        圖8 Stanford CoreNLP工具詞性解析結(jié)果

        b.隱含層:轉(zhuǎn)換為綜合向量序列X={Xw1,q1,r1,Xw2,q2,r2, …,Xwm,qm,rm}之后,使用LSTM序列生成模型對文本深層次語義信息進行特征提取。

        c.輸出層:加入softmax層,通過sigmoid函數(shù)將特征進行歸一化處理得到事件論元類別標簽。

        5 結(jié)果評測與分析

        本研究三階段實驗均通過人工標注的數(shù)據(jù)集對模型進行訓練并測試,與現(xiàn)有模型的實驗結(jié)果進行比較驗證模型的有效性,評測標準選擇精確率、召回率和F1值。然后,選取與5G議題有關(guān)的其它聽證的公開文件,并入初始數(shù)據(jù)集,使用前述方法分別進行事件句識別、事件類型檢測和事件論元抽取,對所收集的數(shù)據(jù)進行統(tǒng)計分析,并對結(jié)果進行展示。

        5.1結(jié)果評測選擇支持向量機(Support Vector Machines, SVM)[23]和因式分解雙線性多角度注意力機制(Factorized Bilinear Multi-aspect Attention Mechanism, FBMA)模型分別進行事件句識別,作為對比以判斷BERT_BiGRU_att模型的有效性。其中,F(xiàn)BMA模型由Sneha等[24]提出,該模型在事件檢測任務(wù)中取得不錯的效果。經(jīng)過實驗,BERT_BiGRU_att模型在事件句上的召回率為0.76,F(xiàn)1值為0.71,在非事件句上的精確率為0.92,F(xiàn)1值為0.90,達到較好的分類效果,可選擇作為最優(yōu)事件句識別模型,見表5。

        表5 事件句識別測試集結(jié)果

        由于BERT_BiGRU_att模型在第一階段的二分類效果較好,因此將其繼續(xù)運用于多分類任務(wù)中,以判斷LSTM_att模型的有效性。經(jīng)過實驗,BERT_BiGRU_att模型在事件類型檢測上的精確率為0.67,召回率為0.66,F(xiàn)1值為0.66,LSTM_att模型的精確率為0.68,召回率為0.65,F(xiàn)1值為0.66,模型效果差異不大,可選擇作為最優(yōu)事件類型檢測模型,見表6。

        表6 事件類型檢測測試集結(jié)果

        此外,利用不加入詞性特征的基于BERT和CRF的BERT_CRF模型進行論元抽取,判斷BERT_LSTM模型的有效性。經(jīng)過實驗,BERT_LSTM模型在事件論元抽取中的精確率為0.65,召回率為0.57,F(xiàn)1值為0.61。相比基準模型有所提升,可選擇作為最優(yōu)事件論元抽取模型,見表7。

        表7 事件論元抽取測試集結(jié)果

        5.2特定論元的分析由于對事件論元進行了細致的劃分與抽取,因此,可以對特定論元進行統(tǒng)計與分析。

        對抽取出的主體或客體進行分析,發(fā)現(xiàn)存在多處共指現(xiàn)象,通過人工比較和判斷的方式找出同一實體的所有不同表達結(jié)果費時費力,因此,可以對其進行相似度計算,主體間的相似程度越高,表達為同一實體的可能性也越高。本研究利用difflib標準庫計算文本差異,如經(jīng)過計算“FCC Mobility Fund”“FCCs Mobility Fund”“FCCs Mobility Fund Phase II”“Mobility Fund I”“Mobility Fund Phase I”“Mobility Fund Phase II”之間的相似度均超過0.6,代表同一實體“Mobility Fund”。

        選取一個事件中出現(xiàn)的所有主體和客體,通過相似度計算快速查找同一實體的不同表述并進行消歧處理,處理后的數(shù)據(jù)可以用來構(gòu)建共現(xiàn)網(wǎng)絡(luò)(見圖9),圖中節(jié)點越大表示該實體在不同事件中出現(xiàn)的次數(shù)越多,邊越寬表示兩個實體在不同事件中共同出現(xiàn)的次數(shù)越多,它們之間的關(guān)系強度也越大,箭頭由主體指向客體。由圖發(fā)現(xiàn):a.國會與FCC有強關(guān)聯(lián),F(xiàn)CC承擔著5G建設(shè)中的重要作用。b.一個實體既可以為一個事件主體,又可以為另一個事件的客體,如國會向FCC投資,F(xiàn)CC又將資金投入別的項目或機構(gòu),可用于分析和溯源資金的去向。c.網(wǎng)絡(luò)中獨立節(jié)點或連接數(shù)較少的節(jié)點說明其出現(xiàn)頻次較低,但作為主客體同樣具有重要性,例如,Verizon,T-Mobile,CSMAC等,可以作為進一步的研究對象。d.“congress”到“FCC”到“Connect America Fund”到“rural broadband”之間有一條連線,可以理解為國會聯(lián)合FCC提出了連接美國基金,該基金的一個重點項目是推動美國農(nóng)村的無線和寬帶服務(wù),可見,通過分析主客體之間的路徑,可以快速地了解機構(gòu)間的聯(lián)系以及事件的演化。

        圖9 主體客體共現(xiàn)網(wǎng)絡(luò)

        5.3特定事件的分析由于對事件類型進行了統(tǒng)一劃分與識別,因此可以針對不同的事件類型進行分析。

        5.3.1 提議事件分析 通過LDA主題建模歸納提議中的主要話題[25],采用困惑度調(diào)節(jié)主題個數(shù)以確保模型的聚類效果。根據(jù)困惑度公式,當主題數(shù)為13時,困惑度達到最低。因此,需要訓練得到包含13個主題的LDA主題模型。根據(jù)LDA主題的詞特征,發(fā)現(xiàn)5G議題下提議的主要內(nèi)容包括以下方面:a.提議關(guān)注5G基金和頻譜拍賣的相關(guān)政策。b.提議支持無線業(yè)務(wù)的發(fā)展并關(guān)注其應(yīng)用與選址問題。c.提議支持政府對寬帶頻譜等基礎(chǔ)設(shè)施的進一步部署。d.提議認為應(yīng)該加強衛(wèi)星和移動通訊技術(shù)的發(fā)展。e.提議支持政府加強對美國農(nóng)村的網(wǎng)絡(luò)建設(shè)。f.提議認為政府應(yīng)繼續(xù)就5G進行系列改革以確保美國在5G領(lǐng)域的領(lǐng)先地位。g.提議建議進一步加強5G標準和法案的制定。h.提議關(guān)注授權(quán)的和非授權(quán)的商用頻譜。i.提議建議頻譜拍賣的資金用于農(nóng)村5G網(wǎng)絡(luò)服務(wù)。j.提議關(guān)注5G服務(wù)的提供者/消費者利益。k.提議關(guān)注農(nóng)村交通服務(wù)和5G安全性。l.提議支持通過頻譜拍賣提供無線和寬帶建設(shè)和服務(wù)的基金。m.提議關(guān)注5G的基礎(chǔ)設(shè)施和技術(shù)發(fā)展。

        5.3.2 資助事件分析 選取資助主體“congress”“commission”“FCC”“government”,按時間順序?qū)κ录腕w與金額進行統(tǒng)計分析,見圖10。美國的《電信法》通過建立四個計劃來保證農(nóng)村和島嶼消費者的服務(wù)支持,其中,連通美國基金于2018年提出第二階段將在未來十年每年投入19.8億美元,生命線計劃從2020年起年預(yù)算更改為23.85億美元,電子費率計劃2.0版本(E-rate program)從2014年開始將年度最高限度設(shè)定為41.5億美元,農(nóng)村醫(yī)療保健計劃從2016年醫(yī)療保健提供商對高速寬帶融資請求超過上限開始,也由原先的每年4億美元提高到5.71億美元??梢?,美國在2012年開始對已有基金進行修訂或頒布新基金以支持5G發(fā)展,近兩年對通信領(lǐng)域的投入加大,并計劃分配十年內(nèi)的資金支持。

        圖10 政府投資項目與金額

        5.3.3 政策頒布事件和成果發(fā)布事件 以政策頒布事件和成果發(fā)布事件為例,分別選取事件對應(yīng)的所有客體,以及與客體對應(yīng)的主體、時間,進行統(tǒng)計分析,見圖11??梢钥闯?,2017-2020年間國會提議了較多法案,例如,2017年的“New Deal Rural Broadband Act”“ AIRWAVES Act”“Spectrum Auctions Deposit Act”,2018年的“RAY BAUM'S Act”“Access Broadband Act”“5G FAST plan”等。此期間,成果產(chǎn)出也逐漸增多,例如,思科公司于2019年發(fā)布wi-fi6的可接入點,2020年小型蜂窩的建設(shè)已初具規(guī)模,且此后幾年的目標將繼續(xù)建設(shè)千萬個蜂窩網(wǎng)絡(luò)。

        圖11 政策頒布和成果發(fā)布展示

        相比于已有對聽證公開文本的研究,使用預(yù)定義的事件框架對文本特定信息進行抽取,并將該信息的核心內(nèi)容分解為事件的不同組成部分,不僅提高了大規(guī)模聽證公開文本信息抽取的效率,同時有利于進行多維度的信息分析,并為知識圖譜、系統(tǒng)檢索等多種下游任務(wù)提供了基礎(chǔ)的結(jié)構(gòu)化數(shù)據(jù)。

        6 結(jié)束語

        本研究在聽證公開文本中有價值信息的通用性識別和抽取方法上做了一些研究。第一,對聽證公開文本的類型和內(nèi)容做了分析,界定并細分文本中有價值的信息。第二,采用事件抽取為主要技術(shù)手段,將有價值的信息定義為不同事件類型并設(shè)計相應(yīng)的事件角色,根據(jù)文本內(nèi)容特點提出了一種三階段式信息抽取方法。實驗研究表明,該方法取得了一定的抽取效果,提高了大規(guī)模聽證公開文本信息抽取效率,為進一步文本分析提供新思路。

        本研究的抽取方法還存在一些問題,特別是數(shù)據(jù)集規(guī)模較小和標注數(shù)據(jù)的不足,后續(xù)研究將擴展標注其他五類事件的數(shù)據(jù),并引入半監(jiān)督學習方法減少對標注數(shù)據(jù)的依賴。此外,后續(xù)將對事件之間的因果關(guān)系和順承關(guān)系抽取進行研究,更好地用結(jié)構(gòu)化的方式呈現(xiàn)聽證文本中的有效信息。

        猜你喜歡
        論元標簽文本
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
        基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
        標簽化傷害了誰
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        英語中動構(gòu)式中施事論元句法隱含的認知研究
        国产成人精品蜜芽视频| 亚洲人成人网站在线观看| 亚洲精品女人天堂av麻| 日韩好片一区二区在线看| 中文字幕亚洲精品一区二区三区 | 国产成人精品免费视频大全软件| 国产一区二区三区免费精品| 亚洲一本大道无码av天堂| 精品综合久久久久久888蜜芽| 毛茸茸的女性外淫小视频| 天天综合久久| 免费乱理伦片在线观看| 男人天堂插插综合搜索| 亚洲AV无码一区二区三区ba| 国语对白做受xxxxx在线| 日韩在线不卡一区三区av| 亚洲黄色免费网站| 免费精品一区二区三区第35| 性av一区二区三区免费| 成人免费无码视频在线网站| 亚洲综合无码一区二区三区| 狠狠色噜噜狠狠狠狠97首创麻豆| 熟女人妻一区二区在线观看| 亚洲精品中国国产嫩草影院美女| 中文字幕人妻中文| 中文字幕亚洲精品久久| 日韩精品av在线一区二区| 精品人妻无码中文字幕在线| 处破痛哭a√18成年片免费| 99久久精品无码一区二区毛片| 女同欲望一区二区三区| 91久久国产精品视频| 欧美aa大片免费观看视频| 亚洲欧美精品suv| 中文字幕有码人妻在线| 牛仔裤人妻痴汉电车中文字幕| 亚洲人成网站在线播放小说| 永久黄网站色视频免费| 人妻夜夜爽天天爽一区| 亚洲国产精品成人久久久| 亚洲国产日韩综合天堂|