亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國內(nèi)外事件抽取技術(shù)應(yīng)用研究分析

        2022-11-25 03:49:21閆文浩
        科學(xué)與信息化 2022年20期
        關(guān)鍵詞:文本信息研究

        閆文浩

        南京農(nóng)業(yè)大學(xué)信息管理學(xué)院 江蘇 南京 210095

        引言

        事件抽取是信息抽取的主要任務(wù)之一,其主要任務(wù)是將非結(jié)構(gòu)化文本中的事件以結(jié)構(gòu)化方式抽取出來。與信息抽取任務(wù)中的命名實(shí)體識(shí)別任務(wù)不同,事件信息中往往包含多個(gè)組成元素,并且各個(gè)元素相互影響。ACE[1]定義中的事件由事件觸發(fā)詞(Event Trigger)和描述事件結(jié)構(gòu)的元素(Argument)構(gòu)成。因此事件抽取任務(wù)往往需要經(jīng)過觸發(fā)詞識(shí)別來判斷事件類型,然后抽取描述事件結(jié)構(gòu)的元素加以分類形成最終的事件信息。

        事件抽取作為信息抽取的重要內(nèi)容之一,一直以來也是國內(nèi)學(xué)者關(guān)注的重點(diǎn)。目前國內(nèi)學(xué)者重心在于對事件抽取技術(shù)更迭的歸納探究,還鮮有學(xué)者從事件抽取應(yīng)用領(lǐng)域分析事件抽取技術(shù)應(yīng)用研究的發(fā)展歷程。為了分析國內(nèi)外事件抽取技術(shù)應(yīng)用發(fā)展與演變過程,本文選取CNKI和Web of Science核心合集的論文數(shù)據(jù)對國內(nèi)外事件抽取技術(shù)應(yīng)用研究發(fā)展歷程展開分析。

        1 數(shù)據(jù)來源與研究方法

        為分析國內(nèi)外事件抽取技術(shù)應(yīng)用研究發(fā)展歷程,本文分別選取CNKI數(shù)據(jù)庫以及Web of Science核心合集數(shù)據(jù)庫作為本文數(shù)據(jù)來源。在CNKI數(shù)據(jù)庫中,以“事件抽取”為檢索詞,時(shí)間跨度為2000年至2022年2月,得到國內(nèi)論文共674篇,并將題錄信息導(dǎo)出。在Web of Science核心合集數(shù)據(jù)中,以“Event Extraction”、“Content Extraction”為檢索詞,時(shí)間跨度為2000年至2022年2月,得到國外論文數(shù)據(jù)共1153篇,并將題錄信息導(dǎo)出。

        為表現(xiàn)論文主題詞隨時(shí)間發(fā)展的變化特點(diǎn),本文借助Vosviewer工具繪制國內(nèi)外事件抽取研究關(guān)鍵詞疊加時(shí)間圖,可以得到各個(gè)時(shí)期研究主題詞的變化特點(diǎn)以及各時(shí)間段國內(nèi)外的研究熱點(diǎn)。

        2 事件抽取技術(shù)應(yīng)用方向分析

        為探究國內(nèi)外事件抽取技術(shù)應(yīng)用發(fā)展的時(shí)間演化趨勢,進(jìn)而對國內(nèi)外事件抽取技術(shù)應(yīng)用研究內(nèi)容進(jìn)行梳理,需要獲取國內(nèi)外相關(guān)研究關(guān)鍵詞各時(shí)間段的分布規(guī)律。因此本文選取前文所導(dǎo)出的國內(nèi)外文獻(xiàn)題錄信息導(dǎo)入Vosviewer工具,選擇關(guān)鍵詞出現(xiàn)次數(shù)為5次以上,并為保證準(zhǔn)確性,去除出現(xiàn)頻次最高的“事件抽取”,“Event Extraction”等關(guān)鍵詞,最終得到國內(nèi)外事件抽取研究關(guān)鍵詞疊加時(shí)間圖,其中節(jié)點(diǎn)顏色由深到潛分別代表了某個(gè)關(guān)鍵詞出現(xiàn)時(shí)間從由遠(yuǎn)及近。最終得到的關(guān)鍵詞結(jié)果可大致分為三大塊,分別代表2000至2010年,2010至2017年,2016至2022年間出現(xiàn)的熱門關(guān)鍵詞。

        在2000至2010年間,國內(nèi)出現(xiàn)的關(guān)鍵詞主要體現(xiàn)技術(shù)變化,沒有表現(xiàn)出事件抽取技術(shù)的應(yīng)用方向;而國外出現(xiàn)較多的關(guān)鍵詞有蛋白質(zhì),基因等關(guān)鍵詞。在2010至2017年間,國內(nèi)關(guān)鍵詞出現(xiàn)了新聞事件、突發(fā)事件、微博等;這個(gè)階段國外的研究熱點(diǎn)詞有生物學(xué)文本挖掘,社交媒體等。在2017至2022年間,國內(nèi)出現(xiàn)了生物醫(yī)學(xué)事件抽取、醫(yī)療事件抽取、知識(shí)圖譜、事理圖譜等關(guān)鍵詞;此階段國外與事件抽取技術(shù)應(yīng)用相關(guān)的熱點(diǎn)詞有推特、知識(shí)圖譜等。

        綜上所述,國內(nèi)外事件抽取技術(shù)的應(yīng)用領(lǐng)域已經(jīng)十分廣泛,主要可分為以下四大類。一是新聞?lì)愂录槿⊙芯?。新聞文本作為傳播信息的重要途徑之一,其中蘊(yùn)含大量事件信息:二是生物醫(yī)學(xué)類事件抽取研究,許多學(xué)者將事件抽取應(yīng)用生物醫(yī)學(xué)領(lǐng)域各類文本,抽取關(guān)鍵信息;三是社交媒體文本事件抽取研究。社交媒體文本蘊(yùn)含大量生活事件信息;四是知識(shí)圖譜構(gòu)建。知識(shí)圖譜的構(gòu)建所需要的知識(shí)數(shù)據(jù)依賴于實(shí)體識(shí)別,關(guān)系抽取,事件抽取等技術(shù)的識(shí)別結(jié)果。

        3 事件抽取技術(shù)應(yīng)用研究現(xiàn)狀分析

        由上文分析可知,雖然國內(nèi)外不同時(shí)間段研究的側(cè)重點(diǎn)不同,但是總的來說,主要的應(yīng)用方向有新聞事件文本抽取研究,生物醫(yī)學(xué)類文本事件抽取研究,社交媒體文本事件抽取研究以及事件抽取技術(shù)在事理圖譜、知識(shí)圖譜構(gòu)建中的應(yīng)用。

        3.1 新聞事件抽取研究

        對于新聞文本中事件抽取一直以來就是國內(nèi)外事件抽取技術(shù)應(yīng)用的重點(diǎn)方向之一。在新聞事件文本中,文本規(guī)模大且事件種類繁雜,且不同事件類型數(shù)量分布不均勻,因此如何給新聞事件分類是新聞文本中事件抽取的研究熱點(diǎn)之一。李響[1]等基于支持向量機(jī)模型,融合了詞法、句法和語義三類不同類型的特征,完成了新聞事件的類型識(shí)別。此外,國內(nèi)學(xué)者開始關(guān)注外文新聞文本中事件抽取研究,如有些學(xué)者已經(jīng)開始對越南語以及泰語新聞文本中的事件信息進(jìn)行抽取。

        目前國內(nèi)外關(guān)于事件抽取技術(shù)在新聞文本上的逐漸趨于成熟,并且我國學(xué)者開始將研究目光轉(zhuǎn)向非中文新聞文本,未來國內(nèi)學(xué)者對于新聞事件抽取的研究可能將不再局限于中文新聞文本,而是面向各種的語言新聞文本。

        3.2 生物醫(yī)學(xué)類事件抽取研究

        近年來,事件抽取技術(shù)在生物醫(yī)學(xué)類文本上的應(yīng)用研究成為國內(nèi)外學(xué)者共同的研究熱點(diǎn),國外對于生物學(xué)文本事件抽取研究起步更早。

        國內(nèi)外對于生物醫(yī)學(xué)類事件抽取研究主要還是對于生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別的問題,以及復(fù)雜生物事件信息的抽取等。生物醫(yī)學(xué)領(lǐng)域有一些非常規(guī)的數(shù)據(jù),如生理儀器記錄的測量值等,可以看作是生理信號(hào),其往往是波形數(shù)據(jù)。為了從生物醫(yī)學(xué)信號(hào)中提取各類事件,Yazdani[2]等提出了一種名為相對能量(Rel-En)的快速新型非線性濾波方法,可以提取信號(hào)中的波形信息,從而識(shí)別相應(yīng)的事件。近年來,對醫(yī)療事件的抽取成為國內(nèi)研究的熱點(diǎn),余輝[3]等基于BiLSTM-CRF模型,提出了一種抽取治療事件的方法,可以有效識(shí)別并抽取中文臨床指南中的治療事件信息。

        對事件抽取技術(shù)在生物醫(yī)學(xué)類文本上的應(yīng)用一直以來都是國內(nèi)外學(xué)者的研究重點(diǎn),相關(guān)研究也逐漸趨于成熟,并且開始將事件抽取技術(shù)應(yīng)用到生物醫(yī)學(xué)領(lǐng)域的非常規(guī)數(shù)據(jù)上。事件抽取技術(shù)在生物醫(yī)學(xué)領(lǐng)域中非常規(guī)數(shù)據(jù)上的應(yīng)用將會(huì)是未來的研究方向之一。現(xiàn)有的研究中對于醫(yī)療事件信息的抽取起步相對較晚,研究也較少,近年來越來越多的學(xué)者將自然語言處理技術(shù)應(yīng)用到醫(yī)療信息文本之中,醫(yī)療事件信息抽取將是未來研究的熱點(diǎn)之一。

        3.3 社交媒體類文本事件抽取研究

        社交媒體類文本包含大量生活文本,其中大部分內(nèi)容往往與民眾生活狀態(tài)息息相關(guān),因此將事件抽取技術(shù)應(yīng)用到社交媒體文本之中是近幾年來國內(nèi)外共同的研究熱點(diǎn)。

        國內(nèi)外主流的社交媒體工具有所區(qū)別,國內(nèi)最好文本來源為微博數(shù)據(jù),國內(nèi)諸多學(xué)者就如何抽取微博文本中的事件信息展開研究。微博文本數(shù)量大、信息豐富,同時(shí)其文本短小,內(nèi)容種類繁雜,包含大量冗余信息。為了從微博文本中提取更多的有效信息,張炫[4]將實(shí)體之間的關(guān)聯(lián)關(guān)系考慮進(jìn)來,提出了基于詞向量的狄利克雷過程事件混合模型為核心的事件信息抽取算法,在微博文本事件抽取實(shí)驗(yàn)中取得了更優(yōu)異的結(jié)果。

        國外的主流的社交媒體工具則是推特,因此國對于社交媒體文本事件抽取的研究主要集中在推特文本上。推特文本和微博文本相似,其中蘊(yùn)含著大量事件信息,如何從中抽取事件信息是國外學(xué)者的研究重點(diǎn)。推特作為國外主流的社交媒體,大量用戶在推特上分析他們的生活日常。為了提取推特文本中的生活事件信息,Yen[5]等利用推特上共享的視覺和文本信息來提取生活事件信息,實(shí)驗(yàn)結(jié)果表明,該方法在生活事件提取上是有效的。

        社交媒體信息蘊(yùn)含著大量事件信息,但同時(shí)其包含的事件種類事件元素多而雜,給事件抽取技術(shù)應(yīng)用帶來諸多困擾,國內(nèi)外學(xué)者對于社交媒體文本事件抽取上的主要的研究內(nèi)容就是去除無用信息,盡可能全面的獲取有價(jià)值的事件信息,將社交媒體文本中的無序事件信息轉(zhuǎn)換可為可供分析研究的信息是現(xiàn)在以及未來研究的重心所在。

        3.4 知識(shí)圖譜研究

        事理圖譜、知識(shí)圖譜是我國近期的研究熱點(diǎn)內(nèi)容之一,而事件抽取是構(gòu)建領(lǐng)域事件知識(shí)圖譜重要環(huán)節(jié)之一。國內(nèi)目前許多的知識(shí)圖譜研究都需要以事件抽取為基礎(chǔ)。廖豪勁[6]先提出了一個(gè)事件抽取模型ON-TLNN,然后提出了ON-LSTM與圖卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型完成了事件關(guān)系抽取任務(wù),最終實(shí)現(xiàn)了基于特定場景事理圖譜的知識(shí)問答系統(tǒng)。

        隨著信息抽取技術(shù)不斷進(jìn)步,現(xiàn)在的學(xué)者已經(jīng)不僅僅滿足于抽取信息,而是將抽取出的信息整合起來構(gòu)建事理圖譜、知識(shí)圖譜等,這都要以成熟的事件抽取方法作為基礎(chǔ)。未來隨著事件抽取技術(shù)愈加成熟,也將進(jìn)一步推動(dòng)知識(shí)圖譜構(gòu)建研究。

        4 事件抽取技術(shù)應(yīng)用研究發(fā)展趨勢分析

        隨著事件抽取技術(shù)不斷成熟,目前事件抽取技術(shù)已經(jīng)有諸多應(yīng)用,結(jié)合上文對事件抽取技術(shù)應(yīng)用研究的梳理,本文認(rèn)為,未來該領(lǐng)域存在一些發(fā)展趨勢。

        4.1 應(yīng)用文本種類進(jìn)一步拓展

        目前事件抽取技術(shù)已經(jīng)應(yīng)用多種文本之中,除上文所說的生物醫(yī)學(xué)文本、新聞文本、社交媒體文本外,事件抽取技術(shù)還應(yīng)用到了金融文本、古文文本等文本中,都取得了一定的成績。不同種類的文本各有特點(diǎn),包含獨(dú)特的事件信息,將事件抽取技術(shù)應(yīng)用到更多的領(lǐng)域文本之中,是學(xué)者們未來探究的方向之一。

        4.2 非常規(guī)文本事件抽取研究

        目前生物醫(yī)學(xué)領(lǐng)域已經(jīng)有將事件抽取技術(shù)應(yīng)用到非常規(guī)文本上的研究,并證實(shí)了可行性。除了生物醫(yī)學(xué)領(lǐng)域外,其他各領(lǐng)域都也有著非常規(guī)文本的數(shù)據(jù),其中也蘊(yùn)含不同種類的事件信息。如何將事件抽取技術(shù)應(yīng)用到這些非常規(guī)文本的數(shù)據(jù)之中,提取其中的事件的信息需要學(xué)者們進(jìn)一步展開探索。

        5 結(jié)束語

        本文以CNKI和Web of Science收錄的論文為數(shù)據(jù)來源,并借助Vosviewer工具獲取國內(nèi)外自2000年至2022年間的熱門研究關(guān)鍵詞來分析梳理國內(nèi)外事件抽取技術(shù)應(yīng)用研究發(fā)展歷程,主要得出以下結(jié)論:①事件抽取技術(shù)主要的應(yīng)用有新聞事件文本抽取研究,生物醫(yī)學(xué)類文本事件抽取研究,社交媒體文本事件抽取研究以及事件抽取在事理圖譜、知識(shí)圖譜構(gòu)建中的應(yīng)用;②事件抽取技術(shù)在更多領(lǐng)域文本上的應(yīng)用和非常規(guī)文本上的應(yīng)用是未來需要學(xué)者們進(jìn)一步研究的方向。

        猜你喜歡
        文本信息研究
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        在808DA上文本顯示的改善
        EMA伺服控制系統(tǒng)研究
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        久青青草视频手机在线免费观看| 美女视频黄的全免费视频网站| 国产精品内射后入合集| 精品久久久久久电影院| 日本中文字幕官网亚洲| 级毛片内射视频| 国产精品ⅴ无码大片在线看 | 亚洲乱码中文字幕久久孕妇黑人| 国产午夜精品久久久久免费视| 91久久福利国产成人精品| 邻居少妇张开腿让我爽视频| 中文字幕亚洲精品久久| 人妻无码一区二区视频| 美女在线国产| 亚洲一区二区三区一站| 日本伦理精品一区二区三区| 国产女厕偷窥系列在线视频| 国产成人久久精品二区三区牛 | 98bb国产精品视频| 国产大陆av一区二区三区| av在线免费观看大全| 人人妻人人狠人人爽天天综合网| 日韩AV不卡六区七区| 日韩精品极品视频在线观看蜜桃| 麻豆69视频在线观看| 中文字幕人妻被公上司喝醉| 久久青草免费视频| 一区二区三区在线观看视频| 欧美xxxxx高潮喷水| 成全高清在线播放电视剧| 一区二区三区婷婷在线| 国产日本精品一区二区免费| 亚洲av综合av一区| 亚洲国产精品尤物yw在线观看| 台湾佬中文偷拍亚洲综合| 日韩人妻精品中文字幕专区| 精精国产xxxx视频在线播放| 精品欧美久久99久久久另类专区| 日产一区二区三区的精品| 亚洲乱码国产乱码精品精| 欧美在线视频免费观看|