亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然語言處理在其他學科領(lǐng)域的影響考察*
        ——基于CNKI的中文文獻挖掘

        2022-01-21 02:12:20蔣彥廷胡韌奮
        情報雜志 2021年12期
        關(guān)鍵詞:分類學科模型

        蔣彥廷 胡韌奮

        (1. 成都航空職業(yè)技術(shù)學院 成都 610100;2. 四川傳媒學院 成都 611745;3. 北京師范大學中文信息處理研究所 北京 100875;4. 北京師范大學漢語文化學院 北京 100875)

        0 引 言

        近年來,自然語言處理(Natural Language Processing, NLP)作為人工智能的一個分支蓬勃發(fā)展。作為一門讓計算機有效地理解與處理人類語言的學科,它在文本分類[1]、信息檢索[2]、機器翻譯[3]、閱讀理解[4]等技術(shù)上均取得了長足進步。隨著社會經(jīng)濟科技發(fā)展,信息傳播越來越便捷,各個專業(yè)學科相互溝通、相互交融的趨勢愈加明顯。邊緣學科乃至跨學科的專著、論文也不斷涌現(xiàn)[5]。考察自然語言處理在其他專業(yè)的影響,探索NLP與其他學科的交叉領(lǐng)域,不僅有利于在學科專業(yè)之間找到創(chuàng)新點,助力科學研究;而且也能推動NLP技術(shù)在各領(lǐng)域應用落地,促進產(chǎn)研合作與研究成果轉(zhuǎn)化。

        1 相關(guān)研究

        在既往的研究中,一些研究者注意到了自然語言處理與其他學科的交叉領(lǐng)域。例如王煜[6]介紹了詞頻分析、依存句法分析、文本分類、信息檢索和知識圖譜等技術(shù)在建筑工程領(lǐng)域的用途,包括合同管理、工程輿情分析、施工事故原因識別等。薛蕊等[7]指出鐵路領(lǐng)域有著大量非結(jié)構(gòu)化文本,NLP技術(shù)能將數(shù)據(jù)結(jié)構(gòu)化,在鐵路智能客服、資產(chǎn)設備管理、智能維修、輔助決策等方面發(fā)揮作用。此外還有介紹NLP在法律[8]、軍事地理情報[9]、教育[10]、社會傳播學[11]的應用情況。這一類文獻往往是綜述性質(zhì)的,關(guān)注NLP在某一個具體方面的成果,且考察方式為定性分析。而通過定量方式、盡可能全面展示NLP與其他學科領(lǐng)域交融發(fā)展、NLP知識擴散的情況,還是一個值得填補的研究空白。

        在運用定量手段發(fā)現(xiàn)學科交叉主題、探索跨學科知識擴散的研究中,引文網(wǎng)絡、共詞分析、聚類法是常用的方法。

        引文網(wǎng)絡法基于這樣假設:引用相似文獻的兩篇論文,在研究主題上也具有相似性。通過構(gòu)建共被引網(wǎng)絡、進行網(wǎng)絡密度、核心度等指標的復雜網(wǎng)絡分析,可發(fā)現(xiàn)具有相似主題的文獻,進而發(fā)現(xiàn)學科間主題交叉、知識擴散的現(xiàn)象[12, 13]。采用引文網(wǎng)絡進行跨學科的知識擴散探索,主要的關(guān)注點是文獻之間的引用關(guān)系[14],忽略了文獻本身的主題內(nèi)容,主題粒度較粗[15]。該方法難以探尋具體研究主題的跨學科擴散狀況。

        共詞分析法主要以文獻關(guān)鍵詞為計量項,通過尋找不同學科文獻之中共同出現(xiàn)的關(guān)鍵詞,構(gòu)建共現(xiàn)網(wǎng)絡,發(fā)現(xiàn)交叉研究的主題。共詞分析法簡便易行,但許多學術(shù)文獻的關(guān)鍵詞設置有很強的人為主觀性。一方面部分文獻關(guān)鍵詞不規(guī)范、概念混亂、粒度大小不一[16];另一方面也難以解決多詞一義、一詞多義的問題,例如論文關(guān)鍵詞中的“LSTM”與“LSTM模型”、“LSTM網(wǎng)絡”、“長短期記憶”、“長短期記憶神經(jīng)網(wǎng)絡”多詞一義;而“深度學習”概念在教育學和人工智能領(lǐng)域的含義大相徑庭。

        聚類法首先通過對不同學科的文獻進行語義聚類,構(gòu)建學科交叉文獻集。每一個聚類簇內(nèi)可能包含學科不同但主題相似的文獻。進而對每一個類簇,運用以LDA(Latent Dirichlet Allocation)為代表的主題模型求解,將交叉文獻轉(zhuǎn)變?yōu)榻徊嬷黝}[15]。這是一種無監(jiān)督數(shù)據(jù)挖掘的方法,不依賴人為標注的數(shù)據(jù)。但聚類方法的類別數(shù)量往往需要人為設置。在數(shù)據(jù)量大、樣本成員之間總體的語義距離較小的情況下,聚類的效果往往不盡如人意。此外,以LDA為代表的主題模型會生成由若干關(guān)鍵詞構(gòu)成的主題,主題的意義需要人為歸納。

        我們認為,發(fā)現(xiàn)學科交叉研究的主題,包含兩個子任務:第一是交叉領(lǐng)域文獻集的確定;第二是交叉領(lǐng)域文獻集主題的識別。針對這兩個任務,該文的研究方法將在第2節(jié)中詳述。

        2 研究方法

        本文的研究方法涉及兩方面。第一,針對交叉領(lǐng)域文獻集的確定,我們將利用《中國圖書館分類法》與文獻之間的引證關(guān)系,確定NLP與其他領(lǐng)域的交叉研究文獻。第二,針對交叉領(lǐng)域文獻集的主題識別,我們構(gòu)建了一個“數(shù)據(jù)資源-算法模型-關(guān)鍵技術(shù)-應用系統(tǒng)”的4層級的NLP知識分類體系與文獻數(shù)據(jù)集,通過文獻的多標簽分類(Multi-label classification),實現(xiàn)有監(jiān)督的文獻主題識別,從而使NLP在其他領(lǐng)域的影響作用更具體地呈現(xiàn)出來。

        2.1依據(jù)文獻分類號、引證關(guān)系構(gòu)建交叉領(lǐng)域文獻集要發(fā)現(xiàn)NLP在其他學科領(lǐng)域的影響力,首先需要收集NLP與其他學科交叉研究的文獻。在中國知網(wǎng)(CNKI)論文數(shù)據(jù)庫中,許多論文均標注了文獻分類號。文獻分類號設置的依據(jù)就是《中國圖書館分類法》(以下簡稱“《中圖法》”)?!吨袌D法》是一個針對圖書、文獻的大型知識分類體系,是當今國內(nèi)圖書館使用最廣泛的分類體系。《中圖法》包含22個一級類別,以下又區(qū)分約250個二級類別和更多的小類,層層隸屬,逐級細分。

        NLP在《中圖法》知識分類體系中的定位是怎樣的?我們經(jīng)過對代表性NLP論文所屬分類號的分析調(diào)研,認為具有以下《中圖法》分類號(以下簡稱“中圖分類號”)的文獻,就屬于NLP的典型文獻,如表1所示。

        表1 自然語言處理的典型中圖分類號及其含義

        根據(jù)《中圖法》,TP391.1“文字信息處理”不僅包括文字錄入技術(shù),而且也涉及范圍更廣的、非語音而是書寫形式的文字處理系統(tǒng)。TP391.2“翻譯系統(tǒng)”與H085“機器翻譯”兩個分類號的區(qū)別在于,前者主要收錄與翻譯軟件及其應用相關(guān)的圖書文獻,后者則偏重機器翻譯及其理論[17]。每篇文獻的分類號,由作者或期刊編輯人工標記確定,嚴謹性和準確性較強。

        我們依據(jù)上述分類號,從CNKI中國知網(wǎng)數(shù)據(jù)庫中收集了2159篇文獻的題名、刊物名、摘要、關(guān)鍵詞、中圖分類號等信息。這些包含表1典型NLP分類號的文獻,就是NLP領(lǐng)域的典型文獻。值得指出的是,這2159篇典型文獻中,也有不少文獻包含了多個中圖分類號。

        除了采集NLP領(lǐng)域的典型文獻,我們也收集了NLP領(lǐng)域的非典型文獻。我們對于NLP領(lǐng)域非典型文獻的界定標準是:它們雖然本身不含表1所示的NLP文獻分類號,但引用參考了NLP領(lǐng)域的典型文獻。我們依照此標準,搜尋NLP典型文獻的引證文獻,從中采集了1376篇NLP的非典型論文。

        2.2建立NLP知識分類體系,構(gòu)建論文主題數(shù)據(jù)集“NLP-others”如第1節(jié)所述,學術(shù)論文關(guān)鍵詞普遍存在主觀性強,一致性較弱的現(xiàn)象。一詞多義、多詞一義、上位詞和下位詞的問題也不利于直接通過統(tǒng)計關(guān)鍵詞,反映NLP與其他學科領(lǐng)域交叉研究的研究主題。另外,根據(jù)我們對3535篇NLP典型與非典型論文的數(shù)據(jù)統(tǒng)計,論文的關(guān)鍵詞同時存在于摘要或標題中的比例不到30%。這意味著難以通過詞向量學習,在論文的標題或摘要中獲得關(guān)鍵詞的嵌入(embedding)表示。

        針對這樣的情況,我們依據(jù)參考對采集到的部分論文主題的考察,并參考宗成慶[18]對NLP領(lǐng)域內(nèi)容、層次的梳理,構(gòu)建了一個4層級的NLP知識分類體系,并據(jù)此體系,人工標注了一個NLP與其他領(lǐng)域交叉研究的論文主題的多標簽分類數(shù)據(jù)集“NLP-others”。該NLP知識分類體系如表2所示。

        表2 NLP的4層級知識多標簽分類體系

        NLP的4層級知識多標簽分類體系的第一層次是“數(shù)據(jù)資源”,任何一個信息處理系統(tǒng),都離不開數(shù)據(jù)和知識庫的支持, 自然語言處理系統(tǒng)也不例外。第二層次是“模型算法”,它主要涉及自然語言處理領(lǐng)域的統(tǒng)計方法與機器學習方法。第三層次是“關(guān)鍵任務”,主要涉及從詞語、句子序列、篇章等角度,對自然語言文本進行分析并從中提取有價值的信息。第四層次是“應用系統(tǒng)”,它是NLP知識分類體系中最宏觀抽象的一層,其下包含的具體label,通常都是集成性、實用性較強的落地的系統(tǒng)。

        為了讓表2的分類體系更好地指導NLP文獻主題數(shù)據(jù)標注,增強標注的準確度與一致性。我們對該體系做出如下標注說明:

        a.知識庫/知識圖譜。知識庫與知識圖譜都屬于經(jīng)由人為提煉、加工后的形式化的知識資源,因此歸入同一個label中。詞典、辭書、本體、語義網(wǎng)、圖數(shù)據(jù)庫等主題也歸入該label中。

        b. 語言模型。包括但不限于經(jīng)典的n-gram語言模型與預訓練深層語言模型。

        c.神經(jīng)網(wǎng)絡?!吧窠?jīng)網(wǎng)絡”label包括“詞向量”“LSTM”“CNN”“BERT”等下位概念。當一篇文獻中包括這些下位概念時,也需要標注“神經(jīng)網(wǎng)絡”這一上位概念。

        d.詞向量、LSTM、CNN、LDA主題模型等。這些標簽分別是所屬的一類模型算法的通稱。與它們密切相關(guān)的改進、變種版算法/模型,也歸入對應的標簽里。例如“循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network)”、“雙向的長短期記憶(Bi-LSTM)”模型也歸入“LSTM”標簽中。

        e.詞法分析。該label具體包括自動分詞、詞性標注、詞頻統(tǒng)計與詞語共現(xiàn)相關(guān)的內(nèi)容。另外有關(guān)語素(Morpheme)、詞類、復合詞內(nèi)部結(jié)構(gòu)等的語言理論研究,也歸入此label。而“關(guān)鍵詞抽取”相關(guān)內(nèi)容不歸入此label,而歸入“應用系統(tǒng)”層次的“自動文摘”label。

        f.句法分析。該label既涉及短語結(jié)構(gòu)語法、依存語法的自動分析,也包括形式語言、自動機理論、構(gòu)式語法等語言學語法理論的探索。

        g.語義分析。該label主要涉及對語言意義的分析研究,包括語義角色標注、語義依存、詞義消歧等。也包括理論語言學領(lǐng)域相關(guān)的語義研究(如動詞配價理論)。“知識庫/知識圖譜”label中涉及語言意義形式化分析的內(nèi)容(如WordNet、HowNet知網(wǎng)),也同時歸入“語義分析”label中。

        h.網(wǎng)絡分析。包括圖論、復雜網(wǎng)絡、社會網(wǎng)絡分析等內(nèi)容。該label與“知識圖譜”的區(qū)別在于,“網(wǎng)絡分析”側(cè)重于動態(tài)的算法過程與網(wǎng)絡性質(zhì)的分析,例如社群發(fā)現(xiàn)、關(guān)鍵節(jié)點挖掘、網(wǎng)絡表示學習等。

        i.輿情分析。該label主要包括監(jiān)測、情感分析、謠言識別、信息傳播等內(nèi)容。它與網(wǎng)絡社交媒體密切相關(guān)。

        j.分類系統(tǒng)。該label主要包括句子分類、文本分類,也包括廣義上的機器學習分類任務。若“輿情分析”label中涉及到分類任務,也同時標記“分類系統(tǒng)”這個label。但同層級除了“輿情分析”的其他label,如命名實體識別、信息檢索、問答系統(tǒng)、閱讀理解、自動文摘等若涉及了分類的子任務,也不再標記“分類系統(tǒng)”label,以避免類別范圍無限制地擴大。

        k.回歸系統(tǒng)。該label主要涉及對樣本數(shù)值的預測。例如電影評分預測、溫度預測、廣告點擊率預測、作文評分預測。

        l.其他。當一篇文獻不屬于其他任何一個label時,就標記為“其他”類別。

        該分類體系在指導文獻主題標注時,以文獻的簡介信息(包括標題、摘要、關(guān)鍵詞)為參考的材料依據(jù)。一篇文獻可能只有一個label,也可能有多個label。在主題標注時,應當彰顯文獻論述的顯式的重點,例如若文獻簡介明確提到了詞向量,除非在文獻簡介也明確提到了自動分詞、詞性標注等內(nèi)容,否則該文獻僅標注“詞向量”的label,不標注“詞法分析”的label。

        我們依據(jù)此分類體系,對采集的文獻進行主題標注。在一位NLP專業(yè)的教師、兩位NLP專業(yè)研究生的合作下,人工標注了每篇NLP相關(guān)論文的主題label,構(gòu)建了NLP與其他領(lǐng)域交叉研究的論文主題數(shù)據(jù)集“NLP-others”。下載鏈接為:https://www.mediafire.com/file/q5gy8iurtr7am76/NLP_topic_classification_dataset.xlsx/file。它包含1484篇帶NLP主題標記的論文。這1 484篇論文或多或少均與其他學科領(lǐng)域有所關(guān)聯(lián)(如表3所示)。這為后續(xù)的主題統(tǒng)計、論文多主題識別奠定了基礎(chǔ)。

        3 實驗數(shù)據(jù)

        如第2.1節(jié)所述,實驗數(shù)據(jù)包括1 376篇NLP非典型文獻,以及2 159篇NLP的典型文獻。而標注的NLP論文主題數(shù)據(jù)集,則包括1 376篇NLP非典型文獻的全部,以及108篇典型文獻。這108篇典型文獻同時包含了表1的NLP典型分類號,以及表1之外的其他中圖分類號。如表3所示。

        表3 實驗數(shù)據(jù)的類型及其規(guī)模

        4 實驗過程與分析

        4.1文獻的來源期刊分析我們首先統(tǒng)計了NLP的典型文獻、非典型文獻來源的期刊分布情況,根據(jù)期刊的頻次高低繪制了詞云圖。如圖1、圖2所示。

        對比圖1、圖2可以發(fā)現(xiàn),NLP領(lǐng)域的典型文獻主要來源于計算機學科相關(guān)的學術(shù)雜志,尤其以《中文信息學報》《計算機學報》《軟件學報》《計算機研究與發(fā)展》等為代表。而NLP領(lǐng)域的非典型文獻,則主要分布在圖書館學、情報學領(lǐng)域的學術(shù)期刊中,如《圖書情報工作》《情報理論與實踐》《情報科學》。這說明,圖情領(lǐng)域的許多論文雖然沒有標注NLP的中圖分類號,但參考引用了NLP領(lǐng)域的許多典型文獻,受到NLP的影響較大。

        圖1 2 159篇NLP典型文獻的來源期刊

        圖2 1 376篇NLP非典型文獻的來源期刊

        總的來看,除計算機學科外,圖情學科與NLP的關(guān)聯(lián)最為密切。此外,也可以看到其他領(lǐng)域的學術(shù)雜志涉及了一些NLP的邊緣性、交叉性研究,如醫(yī)學領(lǐng)域的《醫(yī)學信息學雜志》、農(nóng)業(yè)領(lǐng)域的《農(nóng)業(yè)機械學報》、教育學領(lǐng)域的《中國遠程教育》、傳播學領(lǐng)域的《現(xiàn)代傳播》、語言學領(lǐng)域的《語言文字應用》、《語言科學》等。

        4.2文獻的中圖分類號分析NLP在其他領(lǐng)域的影響力,可以由NLP文獻涉及的其他學科分類號的出現(xiàn)頻次來定量地衡量。我們統(tǒng)計了3 535篇NLP典型與非典型的文獻中,除表1以外的其他中圖分類號頻次。這些中圖分類號要么與典型的NLP分類號同現(xiàn),要么是參考引用了NLP典型論文的文獻的分類號。它們代表著與NLP相關(guān)的其他學科領(lǐng)域。經(jīng)歸并小類的整理,如表4所示。

        表4 與NLP相關(guān)的其他領(lǐng)域分類號(部分)

        由表4可知,與NLP有聯(lián)系的領(lǐng)域十分廣泛。限于篇幅,我們闡述分析頻次前8位的分類號對應的領(lǐng)域。分類號頻次最突出的是TP18人工智能理論領(lǐng)域,分類號出現(xiàn)的頻次高達639。NLP作為人工智能的一個分支,與人工智能中的機器學習、知識工程、人工神經(jīng)網(wǎng)絡有著千絲萬縷的聯(lián)系[17]。

        頻次位居第二是G353“情報資料處理”的領(lǐng)域。根據(jù)對該領(lǐng)域下198篇文獻的考察,它們主要探討了各領(lǐng)域知識圖譜的構(gòu)建與應用,以及科研學術(shù)信息的挖掘與分析。具體涉及知識圖譜[19-21]、主題發(fā)現(xiàn)及演化[22, 23]等技術(shù)。

        頻次第三的是G206“傳播理論”。該領(lǐng)域涉及輿情管理分析、社交媒體數(shù)據(jù)挖掘與計算視角下的傳播學研究。如唐存琛等[24]通過模塊化采集、文本分類與聚類,提升了獲取社交網(wǎng)站輿情信息的速度與質(zhì)量。胡吉明[25]、麻友[26]等分別利用BiLSTM-CRF、LDA模型從微博等社交媒體中抽取機構(gòu)、觀點等關(guān)鍵實體,實現(xiàn)輿情的挖掘與結(jié)構(gòu)化。譚振華[27]、劉麗群[28]、徐建民[29]等則從網(wǎng)絡傳播的角度,對用戶轉(zhuǎn)發(fā)微博的行為進行特點分析或建模預測。

        頻次第四的是G252“信息資源服務、文獻檢索”領(lǐng)域。如名稱所示,該領(lǐng)域著眼于為用戶提供有效的信息資源。主要涉及相關(guān)數(shù)據(jù)庫、開放數(shù)據(jù)集的建設[30-31]、知識檢索[32-33]、智能推薦[34-36]、問答服務[37]等。

        頻次第五的是F724、F274“商品流通、企業(yè)營銷管理與市場”領(lǐng)域。NLP在該領(lǐng)域處理的文本類型,既包括電商平臺的消費者評論[38-40],也涉及招聘網(wǎng)站信息[41]與企業(yè)微博內(nèi)容[42]。NLP發(fā)揮的作用主要是挖掘文本關(guān)鍵信息,為企業(yè)人員與消費者提供決策支持。

        頻次第六的是G254“信息組織理論”領(lǐng)域。該領(lǐng)域的文獻主要涉及信息加工、知識標注與結(jié)構(gòu)化工作。例如學術(shù)知識描述體系[43]、古籍知識本體[44]、就業(yè)知識需求模型的構(gòu)建[45, 46],也包括機器學習對圖書[5]、文獻[47]多標簽分類相關(guān)的研究等等。

        頻次第七的是G250“圖書館學,情報學工作”。該領(lǐng)域與NLP交叉研究的突出主題,就是圖書館工作的網(wǎng)絡化與自動化(數(shù)字圖書館)。數(shù)字圖書館是未來圖書館的發(fā)展趨勢,數(shù)字人文、文化遺產(chǎn)的數(shù)字化[48]以及移動圖書館、數(shù)字出版、數(shù)字資源的共享[49]都是與NLP緊密聯(lián)系的領(lǐng)域。

        頻次第八的是G434“計算機化教學、電化教學”領(lǐng)域。該領(lǐng)域與NLP交叉研究的領(lǐng)域較為廣泛。包括學生書面成績的自動評價[50, 51]、學習者情感文本分析[52, 53]、運用深度學習方法的MOOC在線課程信息挖掘[54-56]、知識推薦[57]與教育知識圖譜[58]等。

        我們按照《中圖法》將中圖分類號轉(zhuǎn)化成領(lǐng)域名稱,根據(jù)分類號出現(xiàn)的頻次,繪制了圖3所示的詞云圖??梢钥闯?,NLP與自然、社會與人文學科均有程度不同的影響力。這反映了當代學科間的相互滲透、融合的趨勢。只要某領(lǐng)域存在需要處理分析的大量文本,NLP就能發(fā)揮重要作用,例如漁業(yè)標準的命名實體識別[59]。此外,NLP技術(shù)甚至在非自然語言的序列中,也有用武之地,例如向量空間模型用于RNA序列物種鑒定[60];又如注意力機制、LSTM模型用于基于實時負荷、歷史電價、日期類型、天氣等非文本特征的未來電價預測[61]。

        圖3 NLP聯(lián)系密切的其他領(lǐng)域一覽圖

        4.3“NLP-others”論文主題數(shù)據(jù)集的統(tǒng)計與多標簽分類“NLP-others”論文主題數(shù)據(jù)集標注工作完成后,我們統(tǒng)計了NLP主題標簽的數(shù)量,依據(jù)頻次繪制了如圖4的詞云,它反映了NLP的數(shù)據(jù)資源、模型算法、關(guān)鍵任務、應用系統(tǒng)被其他學科領(lǐng)域提及或應用的頻繁程度。

        圖4 NLP主題在其他學科領(lǐng)域提及/應用的頻繁程度

        由圖4可以看出,知識庫與知識圖譜(占比約9.71%)、神經(jīng)網(wǎng)絡(占比約9.23%)、輿情分析(占比約9.16%)是在其他學科領(lǐng)域廣泛提及或應用的NLP知識的前3位。而篇章分析、閱讀理解、自然語言生成、多模態(tài)信息處理等目前仍然是富有挑戰(zhàn)的NLP任務,還有較大的發(fā)展空間,因此這些主題在其他領(lǐng)域還較少被提及或應用。在具體模型算法上,擅長序列分析的LSTM相關(guān)模型、擅長序列標注的CRF模型、擅長主題挖掘的LDA相關(guān)模型、擅長分類的SVM模型在其他領(lǐng)域應用較為廣泛。此外,近年來興起的預訓練語言模型BERT也迅速被與NLP相關(guān)的其他領(lǐng)域所應用。

        為了預測未來產(chǎn)生的NLP相關(guān)論文的主題,發(fā)揮“NLP-others”的主題識別作用,實現(xiàn)知識擴散的精細化探測。我們在“NLP-others”數(shù)據(jù)集上進行多標簽分類。我們選取了label數(shù)量最高的前30個label作為多標簽分類的標簽,其余低頻的label均轉(zhuǎn)變?yōu)椤捌渌眑abel。

        文本多標簽分類(Multi-label classification)意味著給每個文本分配一個或多個label。例如一篇文獻同時論述了詞向量與語言模型相關(guān)的內(nèi)容,那么它至少應標記表2中“詞向量”、“語言模型”兩個label。在樣本量較少的情況下,它至今仍是一個充滿挑戰(zhàn)的NLP任務[62]。對于多標簽分類,目前的常用方法是通過一定手段,將其轉(zhuǎn)化成單標簽分類的任務。手段包括二元關(guān)聯(lián)(Binary Relevance)、分類器鏈(Classifier Chains)、標簽子集(Label Powerset)[63]。

        二元關(guān)聯(lián)是最簡易的方法,對于總計N個標簽的多標簽分類任務,它將訓練集中所有屬于類別i的數(shù)據(jù)標記為正類,包括多標簽的情況,而不屬于類別i的數(shù)據(jù)標記為負類別,以此構(gòu)建N個二元分類器。分類器鏈則在二元關(guān)聯(lián)的基礎(chǔ)上,考慮了標簽之間的相關(guān)性:首個二元分類器只在輸入數(shù)據(jù)上進行訓練,之后的分類器則在訓練數(shù)據(jù)和所有之前的分類器上進行訓練。標簽子集則將數(shù)據(jù)集中每個多標簽的組合情況,都轉(zhuǎn)換為一個單獨的類別。從而將原任務轉(zhuǎn)化成單標簽的多類分類任務。

        我們對所有的文本均按字切分,使用單字、2-gram、3-gram與TF-IDF特征,并把每個label的名稱在文本中的出現(xiàn)次數(shù)作為補充特征。我們選用支持向量機(SVM)與邏輯回歸(Logistic Regression,LR)作為分類器。按9∶1的比例劃分訓練集與測試集,進行10折交叉驗證(10-fold Cross-validation)。在測試集上計算每個樣本的每個真實label的準確率、召回率與F1值,如表5所示。

        表5 “NLP-others”數(shù)據(jù)集的多標簽分類實驗結(jié)果

        如表5所示,SVM分類器顯著優(yōu)于邏輯回歸。另外Label Powerset的多標簽分類策略,略優(yōu)于Binary Relevance與Classifier Chains,這是因為Label Powerset方法把問題轉(zhuǎn)化成單標簽多類的分類任務,比起另外兩者“一對多”的二元分類,類別間數(shù)據(jù)不平衡問題有所緩解。30類多標簽分類的F1值最優(yōu)達到76.60%。這證明對于NLP與其他學科交叉研究的文獻,“NLP-others”數(shù)據(jù)集可以成為預測它們論文主題的基礎(chǔ)性資源。

        5 結(jié) 語

        該文依據(jù)《中圖法》文獻分類號與文獻之間的引證關(guān)系,從CNKI數(shù)據(jù)庫采集了3 535篇NLP典型與非典型文獻。提出了4層級的NLP知識分類體系,并據(jù)此構(gòu)建了NLP論文主題識別數(shù)據(jù)集“NLP-others”。實驗發(fā)現(xiàn)自然語言處理在圖書館學情報學、傳播學、企業(yè)營銷與市場、電化教學、醫(yī)學信息學、軍事學、行政管理、英語翻譯、地理信息系統(tǒng)、電力系統(tǒng)等領(lǐng)域均有著廣泛的影響。學科領(lǐng)域交叉的態(tài)勢顯著。知識庫與知識圖譜、神經(jīng)網(wǎng)絡、輿情分析等NLP技術(shù)在其他學科領(lǐng)域被廣泛提及或應用。而篇章分析、閱讀理解、自然語言生成等技術(shù)在其他領(lǐng)域的應用發(fā)展還有較大潛力。我們在“NLP-others”數(shù)據(jù)集上進行30類的論文多標簽分類,基于Label Powerset方法的SVM分類器取得了當前最好效果,F(xiàn)1值達到76.60%。實驗證明,該文提出的NLP主題分類體系,與構(gòu)建的數(shù)據(jù)集“NLP-others”能為未來相關(guān)論文主題識別、NLP跨學科研究提供有力支撐。當未來在其他領(lǐng)域出現(xiàn)了引用NLP典型論文的文獻時,我們不僅可以根據(jù)引證關(guān)系,將其識別為受NLP影響的文獻,而且可以利用“NLP-others”數(shù)據(jù)集與多標簽分類算法,識別出NLP的哪些具體的數(shù)據(jù)資源、模型算法、關(guān)鍵任務、應用系統(tǒng)對該領(lǐng)域文獻產(chǎn)生了影響。實現(xiàn)知識擴散路徑的精細化探測。

        由于與NLP相關(guān)的外文文獻大都未標注《中圖法》分類號,本研究的數(shù)據(jù)采集范圍限于CNKI數(shù)據(jù)庫的中文文獻。在未來的研究中,我們將基于外文NLP文獻數(shù)據(jù),探索自然語言處理在其他領(lǐng)域的知識擴散情況。

        猜你喜歡
        分類學科模型
        一半模型
        【學科新書導覽】
        土木工程學科簡介
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “超學科”來啦
        制服丝袜视频国产一区| 国产果冻豆传媒麻婆精东| 人妻有码中文字幕| 人妻无码中文人妻有码| 乱色视频中文字幕在线看| 国产三级av在线精品| av无码国产精品色午夜| 精品国产人成亚洲区| 亚洲午夜无码AV不卡| 国产精品一区一区三区| 亚洲av高清一区二区三| 无码福利写真片视频在线播放| 免费一级毛片麻豆精品| 国产三级三级三级看三级日本| 日本中文字幕婷婷在线| 国产农村乱辈无码| 亚洲区在线| 91麻豆精品一区二区三区| 久久国产黄色片太色帅| 亚洲中文字幕久久精品无码喷水| 99热这里有免费国产精品| 亚洲天堂av免费在线| 成午夜福利人试看120秒| 精品人妻伦九区久久aaa片69| 欧美日韩中文亚洲另类春色| 亚洲免费精品一区二区| 韩国三级在线观看久| 久久夜色撩人精品国产小说| 人妻精品一区二区免费| 亚洲国产精品高清在线| 久久精品噜噜噜成人| 亚洲爆乳大丰满无码专区| 久久亚洲国产高清av一级| 加勒比hezyo黑人专区| 麻豆乱码国产一区二区三区| 免费国产在线精品三区| 亚洲国产美女高潮久久久| 精品少妇人妻av一区二区| 精品国产性色av网站| 你懂的视频在线看播放| 爆乳熟妇一区二区三区霸乳|