亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        主題模型自動標記方法研究綜述

        2023-12-08 11:48:32何東彬朱艷紅任延昭褚云霞
        計算機與生活 2023年12期
        關(guān)鍵詞:語料庫排序短語

        何東彬,陶 莎,朱艷紅,任延昭,褚云霞+

        1.石家莊學院 河北省物聯(lián)網(wǎng)安全與傳感器檢測工程研究中心,石家莊 050035

        2.中國農(nóng)業(yè)大學 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)信息化標準化重點實驗室,北京 100083

        3.石家莊郵電職業(yè)技術(shù)學院 河北省物聯(lián)網(wǎng)智能感知與應(yīng)用技術(shù)創(chuàng)新中心,石家莊 050021

        4.北京工商大學 計算機與信息工程學院,北京 100048

        主題模型(topic model)是一種從非結(jié)構(gòu)化數(shù)據(jù)中自動提取隱含語義主題的生成概率模型,常用于大規(guī)模語料庫和離散數(shù)據(jù)建模。該模型將語料庫中的文檔理解成特定隱含主題的分布,因而可以按照隱含的語義特征來發(fā)現(xiàn)抽象的主題,并通過詞列表的形式表示。目前最為流行的主題模型是2003年由Blei等人[1]提出的潛在狄利克雷分配模型(latent Dirichlet allocation,LDA),在文本分類、異常檢測、推薦系統(tǒng)、文本摘要、觀點抽取、詞義歸納、情感分析、信息檢索等諸多領(lǐng)域[2-3]得到廣泛應(yīng)用,并快速發(fā)展。但由于主題采用詞列表形式,如表1 所示,通常會對用戶正確理解造成一定的障礙。特別是在用戶缺乏主題領(lǐng)域相關(guān)背景知識的情況下[4],其對主題的理解可能是破碎、片面和不準確的。

        表1 APNews某主題的top-20主題詞Table 1 top-20 terms of a topic in APNews

        為提高主題模型發(fā)現(xiàn)結(jié)果的可解釋性,通常的做法是進行主題標記[5-6]。具有特定領(lǐng)域知識的專家給出的主題標簽通常更容易理解,對主題的說明也更加充分和準確[7]。但面對海量的語料數(shù)據(jù),人工標記主題工作耗時費力,甚至成為不可能完成的任務(wù)。此外,局限于個人認識,標簽的客觀性也會受到影響。因此,利用機器進行自動標記,可提高主題標記的效率并增強準確性和客觀性[8]。

        本文與凌洪飛等人[9]的主題自動標記綜述文獻相比,不同于其以生成來源為線索,對現(xiàn)有主題標記方法進行分類比較,本文按照生成主題標簽的不同形式分類,創(chuàng)新性地采用文本特征表示方法與主題標記模型所使用的技術(shù)相結(jié)合,并從這兩個層面對現(xiàn)有研究成果進行總結(jié),詳細描述了不同方法的建模過程和適用場景,從全局和微觀兩個不同視角對現(xiàn)有方法進行闡述和分析。結(jié)合具體應(yīng)用和相關(guān)領(lǐng)域的創(chuàng)新性研究,指出基于預(yù)訓(xùn)練語言模型以及多種深度學習技術(shù)相融合的方法應(yīng)是未來突破的重點和方向。

        1 主題模型介紹

        對主題建模的研究,在早期通常利用空間向量模型[10-11]將相關(guān)文本聚合到同一類簇下。但該方法只對文本進行簡單分類,未深入挖掘文本所蘊含的語義信息,也未對用戶理解挖掘結(jié)果提供幫助。

        為解決上述問題,Deerwester 等人[12]提出了潛在語義索引或潛在語義分析方法,利用文本語義挖掘出更深層次的聚類信息(主題)[13]。該方法利用奇異值分解,通過將數(shù)據(jù)從高維空間映射到低維語義空間,以獲得抽象的主題分布,并降低了整體開銷。缺點是時間復(fù)雜度高,通過分解矩陣發(fā)現(xiàn)的主題解釋性不強,不能區(qū)分一詞多義的情況[14]。

        針對該問題,Hofmann[15]提出一種概率潛在語義索引(概率潛在語義分析)模型,認為一篇文檔由多個主題組成,且主題詞服從于多項式分布。由于隱含了高斯分布假設(shè),更符合文本特性。因其利用強化期望最大化算法訓(xùn)練模型參數(shù),所以解決了同義詞和多義詞問題。由于其并非完備概率模型,會逐漸增長并出現(xiàn)過擬合現(xiàn)象[14]。

        2003 年,Blei 等人[1]在概率潛在語義索引基礎(chǔ)上,提出一種由文檔、主題和單詞構(gòu)成的三層貝葉斯概率模型,潛在狄利克雷分配(LDA)將文檔看作詞袋的集合,根據(jù)主題分布,以及詞對主題的隸屬度,生成集合中的文檔。LDA 不僅克服了模型隨語料數(shù)量增長而逐漸增大的缺點,同時也避免了過擬合問題。如圖1所示。

        圖1 LDA模型表示Fig.1 Graphical representation of LDA model

        LDA 本質(zhì)上是一種無監(jiān)督學習算法,其生成一篇文檔的過程如下:

        1.文檔長度為服從泊松分布值N

        2.從Dirichlet(α)分布中取出第m個文檔的主題分布θm

        3.Forn=1 toN:

        4.為當前第m個文檔的第n個詞從多項式分布θm中抽取出一個主題Zm,n

        5.從Dirichlet(β)分布中取出第k個主題的主題詞多項式分布φk,且k=Zm,n

        6.選擇一個服從φk多項式分布的詞wm,n,作為第m個文檔的第n個詞,將其寫入該文檔

        α和β是先驗參數(shù),采用近似估計算法(變分期望最大化或折疊吉布斯采樣)來估計參數(shù)θm和φk。前者推斷速度快,但模型參數(shù)估計不如后者準確;后者易于實現(xiàn),缺點是較前者收斂速度慢。

        LDA 模型出現(xiàn)后,因其擁有良好的先驗概率假設(shè)和簡單高效的抽樣推理算法,逐漸成為主題建模事實上的標準化模型[9],并廣泛應(yīng)用于文本分類、檢索、摘要和主題演化等領(lǐng)域,開啟了主題模型研究的熱潮,相關(guān)研究成果也不斷涌現(xiàn)[16-21]。

        2 主題標記方法

        對現(xiàn)有主題自動標記方法,單純按照主題標簽的表現(xiàn)形式分類,有三種類型:基于短語、摘要和圖片的主題標簽[22]。如圖2 所示,列舉了生成這三類主題標簽所對應(yīng)的所有主題自動標記方法。

        使用形式簡潔的短語或概念[2-3,7-8,23-36]對主題進行標記,標簽短小凝練,具有高度概括性,適合用戶快速瀏覽主題內(nèi)容。例如對基于APNews語料庫[2,4,37]進行LDA 主題建模,其中某一主題中的top-20 主題詞如表1 所示,可采用上位詞“economy”作為短語標簽來解釋主題。

        雖然采用短語主題標簽可幫助用戶理解主題,但在主題含義豐富或涉及領(lǐng)域較為寬泛時,因長度較短,實際效果不能令人滿意。若當前短語本身具有多重含義,在缺乏前后文的情況下,無法確定其真實含義。此外,如果當前主題中的重要主題詞之間缺乏內(nèi)在聯(lián)系,則很難找到一個合適的短語去準確地描述主題。對用戶來說,一個不恰當?shù)闹黝}標簽只會使得正確理解主題變得更加困難[4,37]。

        為克服短語主題標簽的缺陷,通常需要信息豐富、描述充分的方式。因此,采用長文本來描述主題成為更佳的選擇。長文本主題標簽可單獨使用,也可作為短語標簽的補充[4]。目前,主要通過文本摘要技術(shù)來生成長文本主題標簽,以提供更豐富和多樣的信息,幫助用戶充分理解主題的內(nèi)涵[4,37-41]。

        此外,還有研究者采用圖片或文本配圖形式的主題標簽[22,42-44]在特定場景下對主題進行解釋。由于圖片標簽表達較為生動、直觀,且具有跨越語言鴻溝的優(yōu)勢,對幫助用戶理解主題具有積極作用。三種不同主題標簽的優(yōu)缺點及適用場景總結(jié)如表2所示。

        表2 三種類型的主題標簽Table 2 Three types of topic labels

        Sorodoc等人[43]認為不同主題應(yīng)選擇不同類型的主題標簽,某些主題可能適用短語解釋,有些主題可能適合長文本描述,另外一些主題可能更適合采用圖片展示。綜合來看,三種不同形式的主題標簽各有特點,使用時需要考慮具體的應(yīng)用場景。不論采用哪種形式,對主題標簽的質(zhì)量要求是沒有區(qū)別的,生成的標簽應(yīng)符合如下標準[2,4]:(1)相關(guān)性,生成主題標簽與主題在語義上高度相關(guān);(2)覆蓋性,生成主題標簽包含更多主題詞,則多樣性越強,冗余度越低;(3)區(qū)分性,不同主題標簽間的區(qū)別性越大,說明所表達語義的區(qū)分度越高,標簽質(zhì)量更高。

        3 基于短語的主題標記方法

        三種類型的主題標簽差異明顯,其適用的范圍和場景也不同。本章將按主題標簽的類型,對不同的主題標記方法分類闡述。

        Aletras 等人[45]認為,短語主題標簽對用戶更友好,更容易理解和使用。在文獻檢索任務(wù)中,短語標簽可以很好地概括主題主旨,短時間內(nèi)幫助用戶檢索到更多的相關(guān)文獻[45]。此外,當用戶需要快速了解語料庫內(nèi)包含文檔的種類、范疇等信息時,簡短且概括性強的短語標簽就成為不二之選。目前,主題自動標記方法大多采用短語主題標簽,詳情列表如表3所示。

        3.1 基于統(tǒng)計方法

        早期的主題自動標記研究通常將主題詞的頻率視為基本特性之一[34],大部分研究利用文本的淺層特征,例如基于BOW 和N-gram[2-3,7-8,34,46]生成候選標簽,再通過主題和候選標簽間的相似度排序確定最優(yōu)主題標簽。

        Mei等人[2]最早提出一種使用短語或N元語法對主題進行標記的方法,將主題標記過程視為一個優(yōu)化問題,即單詞分布間的KL(Kullback-Leibler)散度最小化,以及主題模型和主題標簽間的互信息最大化。其主要利用短語的淺層特征,并根據(jù)當前短語和主題模型之間的KL 散度對候選標簽排序,以選取最優(yōu)短語標簽。Mao 等人[46]采用與Mei等人[2]類似方法,使用塊分析(chunking parsing)和N元語法檢驗(N-gram testing)[49]方法從文檔中抽取候選標簽。不同的是,其利用了層次主題模型的結(jié)構(gòu)化信息,分別基于全局詞頻權(quán)重和Jensen-Shannon 散度對每個主題的候選標簽進行排序,以獲得最佳的主題標簽。

        相對Mao 等人[46]提出的對層次主題模型主題自動標記方法,Magatti等人[8]更早提出一種利用Google Directory(谷歌目錄服務(wù)已于2011 年7 月21 日停用)構(gòu)造主題樹對層次主題模型進行自動主題標記的方法ALOT(automatic labeling of topics)。該方法包含兩部分:首先通過谷歌目錄(當前已停用)構(gòu)造的主題樹獲得主題層次結(jié)構(gòu),然后基于一組相似性度量(Cosine、Overlap、Mutual、Dice、Tanimoto和Jaccard),來尋找最優(yōu)的主題標簽。通常,層次主題模型將主題組織為層次結(jié)構(gòu),其中每個主題都是從更通用的主題中派生而來。這種層次結(jié)構(gòu)可以幫助人們更好地理解文本的主題結(jié)構(gòu),因此也能在更高的概率上生成質(zhì)量更佳的主題標簽。

        實踐中,主題標記任務(wù)通常需要大量的標注數(shù)據(jù)來訓(xùn)練標記模型。然而,由于數(shù)據(jù)收集和標注的成本很高,很難在每個領(lǐng)域中都獲得足夠的標注數(shù)據(jù)。因此,遷移學習成為解決這個問題的一種有效方法。Lau等人[7]提出了一種使用無監(jiān)督學習技術(shù)對候選標簽進行排序的主題標記方法。對給定主題,首先選擇top-N個主題詞在英文Wikipedia(https://www.wikipedia.org/)中進行查詢,并從得分最高文檔的標題中獲取候選標簽。Lau 認為一個良好的主題標簽應(yīng)該和主題詞之間存在著某種較強的聯(lián)系,因此使用了以下幾種基于詞法的關(guān)系評估措施:點間互信息(pointwise mutual information)、T檢驗(student's t-test)、Dice 系數(shù)(Dice's coefficient)、皮爾森卡方檢驗(Pearson's χ2test)和似然比檢驗(likelihood ratio test)等。Lau使用了一個寬度為20的滑動窗口,在維基百科語料上進行分析,以獲取候選標簽和主題詞詞頻統(tǒng)計信息,最后計算每個主題的top-10主題詞與候選標簽間的多個關(guān)系評估得分,并將同一個候選標簽不同的評估分數(shù)進行算數(shù)平均,最終根據(jù)每個候選標簽的平均分數(shù)獲得最佳主題標簽。

        采用遷移學習方法,利用從外源性語料庫中已獲得的知識,不僅可以減少目標領(lǐng)域的標注數(shù)據(jù)量需求,也能獲得更豐富和概括能力更強的候選主題標簽,模型的泛化能力也得到提升。但該類方法也存在一定的局限性:首先,外源語料庫與當前文本集應(yīng)存在一定的共通性,否則難以實現(xiàn)主題標簽的遷移;此外,外源性主題標簽往往未出現(xiàn)在當前文本集中,對目標主題的覆蓋度和準確性可能會存在偏差。

        在主題標記任務(wù)中,相對于使用傳統(tǒng)的BOW 和N-gram,使用稠密向量表示文本有助于提高標記模型的性能,因為其可以更好地表示文本之間的相似性和差異性,所以使模型更準確地分類文本。Kou等人[3]使用OpenNLP[50]對給定主題的全部文檔進行解析,抽取出包含top-10 關(guān)鍵詞的短語,作為候選標簽集。為評估主題與候選主題標簽之間的相關(guān)性,將該主題與候選標簽映射到同一向量空間,并基于LTV(letter trigram vectors)、CBOW(continuous bag-of-words)和Skip-gram[51]三種不同詞向量表示計算余弦相似度,以選擇得分最高的標簽。

        word2vec[51]是一個包含CBOW 和Skip-gram 兩種模型的框架,只能對單個單詞進行建模,無法直接處理文檔級別的語義關(guān)系。相比之下,doc2vec[52]可以將整個文檔表示為一個向量,從而能夠更好地處理文檔級別的語義關(guān)系?;诖?,為獲取COVID-19大流行期間的熱點事件,Shahriar 等人[36]提出一個基于word2vec和doc2vec的主題框架SATLabel,用于從COVID-19 相關(guān)的推文中提取主題并自動標記。該框架利用情感術(shù)語和方面術(shù)語的單字特征通過LDA輸出主題聚類,從情感詞和方面術(shù)語中各取20 個組成不同向量集,利用軟性余弦相似度找到與主題最為接近的主題標簽。

        相比word2vec 和doc2vec 只能處理局部上下文,GloVe[53]是一種使用全局統(tǒng)計信息生成詞向量的方法,該方法不僅考慮了局部的上下文,還考慮了整個語料庫的全局統(tǒng)計信息,因此可以更好地處理稀有詞匯,但仍無法處理上下文信息。BERT(bidirectional encoder representations from transformers)[54]是一種預(yù)訓(xùn)練語言模型,可用于處理上下文動態(tài)相關(guān)性信息,在許多自然語言處理任務(wù)中都優(yōu)于其他方法。因此,針對層次主題中不同級主題詞和候選標簽之間可能不存在共同術(shù)語,以及無法通過詞匹配了解二者相關(guān)關(guān)系的問題,Tiwari等人[34]使用200維的GloVe和384 維的BERT all-Mini-LM-L6-v2(https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)詞嵌入,向量化語料庫、主題以及候選標簽,通過動態(tài)上下文語義的引入,確保層級標記的主題一致性,可有效利用主題間的并列和從屬關(guān)系來提高主題標記的有效性和準確性。

        3.2 基于圖排序方法

        自動主題標記算法在生成候選標簽后,通常會計算其與主題之間的距離(相關(guān)關(guān)系)并以此排序選擇最優(yōu)的主題標簽。例如,Mei 等人[2]利用KL 散度,Mao 等人[46]采用一組相似性度量方法,包括Cosine、Overlap、Mutual、Dice、Tanimoto 和Jaccard 距離,Lau等人[7]使用PMI(pairwise mutual information)、t-test、χ2test 和LLR(log likelihood ratio)等方法。但上述方法僅限于直接計算候選標簽和主題間的關(guān)系,并未利用到候選標簽間的相互關(guān)系和信息。而圖排序算法可以利用結(jié)點間的關(guān)系,通過隨機游走過程發(fā)現(xiàn)網(wǎng)絡(luò)中的重要結(jié)點或路徑,相較于前述方法僅單純依賴向量空間中的距離(關(guān)系)計算方法,可以有效利用不同候選標簽間的相關(guān)關(guān)系選出更具代表性和概括性的標簽。

        Hulpus 等人[55]提出一種基于數(shù)據(jù)結(jié)構(gòu)化信息的主題自動標記方法,分為四個階段:(1)通過LDA模型發(fā)現(xiàn)主題;(2)利用DBpedia(http://wiki.dbpedia.org/)的結(jié)構(gòu)化數(shù)據(jù),將top-N主題詞與其中的具體概念聯(lián)系起來,進行詞義消歧;(3)所獲概念作為結(jié)點,不同結(jié)點的分類概念在DBpedia中的從屬關(guān)系表示為邊,構(gòu)建候選標簽圖;(4)利用圖排序的隨機游走算法,迭代得到全部結(jié)點的聚焦信息中心度(focused information centrality)值,最后選擇得分最高的結(jié)點(對應(yīng)DBpedia中的概念)成為主題標簽。

        相比Hulpus等人的方法,Aletras等人[23]提出一種基于圖排序的無監(jiān)督主題標記方法。除了利用外源性的知識庫,還引入了谷歌搜索引擎,其覆蓋了大量的互聯(lián)網(wǎng)信息,可以提供與特定主題相關(guān)的多樣化和廣泛的搜索結(jié)果。這些搜索結(jié)果可以作為構(gòu)建主題標記的基礎(chǔ),從中提取關(guān)鍵詞、短語和主題相關(guān)的內(nèi)容。首先,利用Wikipedia 產(chǎn)生候選標簽[7]。然后,對候選標簽排序,包括三個步驟:(1)基于Bing 搜索引擎,使用top-N主題詞進行檢索。(2)利用OpenNLP(http://opennlp.apache.org/)對返回結(jié)果中的標題句子進行形式化標記,并將標記詞和搜索結(jié)果中的元數(shù)據(jù)作為結(jié)點構(gòu)建無向圖,基于維基百科作為參考語料庫來計算詞的共現(xiàn)率,并使用歸一化逐點互信息(normalized pointwise mutual information,NPMI)[56]給圖中的兩個相鄰結(jié)點的邊賦值。為避免偶然出現(xiàn)的詞共現(xiàn)所導(dǎo)致的噪聲,設(shè)定只有當NPMI>0.2 時才認為兩個結(jié)點間存在鏈接。(3)通過PageRank 算法[57]進行排序,每個結(jié)點(候選標簽)的得分按照其中所包含的所有關(guān)鍵詞的權(quán)重求和,選擇分數(shù)最高的作為主題標簽。

        對于生成候選標簽子集后再利用圖排序算法獲取最優(yōu)解的辦法,在排序過程中未再考慮候選標簽和主題間的關(guān)系,可能會導(dǎo)致主題標簽的重心發(fā)生偏移。針對該問題,Sanjaya 等人[28]利用Lau 等人[7]的方法生成候選標簽子集后,構(gòu)建了一個包含主題、詞、維基百科文章和候選標簽的異構(gòu)圖,引入了更多維度的相關(guān)性特征,對排序結(jié)果的改善具有積極的意義。但該方法并未考慮不同類型的結(jié)點之間是否天然具有平等的關(guān)系,以及對投票結(jié)果會產(chǎn)生怎樣的影響。特別的,Sanjaya 認為如果能夠獲取語料庫中主題領(lǐng)域與候選標簽間關(guān)系的先驗知識,可能對其排序方法的最終排序結(jié)果有積極的影響。

        3.3 基于本體方法

        短語主題標簽通常將一或多個單詞組合成一個短語來描述主題。其存在以下問題:(1)多義性問題。同一個短語在不同的上下文中可能具有不同的含義。例如“apple pie”可以是一種美食,或是一個品牌。(2)歧義性問題。同一個短語可能被用于描述不同的主題。例如,“social media”可能被用于描述互聯(lián)網(wǎng)媒體領(lǐng)域或用于描述社交網(wǎng)絡(luò)。(3)連貫性問題。一些短語可能不具備連貫性,難以形成一個完整的主題。例如,“in the news”可用于描述不同的主題,但之間并不存在明顯關(guān)聯(lián)。(4)預(yù)定義問題。使用短語主題標簽需事先定義,因此無法處理一些新出現(xiàn)的詞匯或短語。

        一些研究者[27,30,32,35]嘗試使用本體(ontology)方法來解決上述問題。先驗知識是本體方法非常重要的一部分,為本體的構(gòu)建和推理提供了基礎(chǔ)。本體方法的核心目標之一就是將先驗知識形式化地表示為概念、關(guān)系和約束的集合,并利用這些先驗知識進行推理和語義處理。

        本體可以通過手動構(gòu)建或自動構(gòu)建(如從現(xiàn)有文本中抽取概念和關(guān)系)得到。然后,對于給定的文本,本體方法可以將其表示為一個向量,該向量反映了文本與本體中各個概念之間的關(guān)系。例如,可以使用基于本體的詞嵌入技術(shù)(如word2vec)來生成文本向量。最后,可使用機器學習方法(如邏輯回歸、樸素貝葉斯、支持向量機等)來構(gòu)建分類器,輸入文本向量后給出合適的主題標簽。

        使用本體方法進行主題標記,通常利用本體中的語義信息對文本數(shù)據(jù)進行理解和分析,或通過推理機制發(fā)現(xiàn)文本中隱含的語義關(guān)系和概念;其目標是將本體中的先驗知識與文本特征結(jié)合,獲取更準確的主題標記結(jié)果。Allahyaria 等人[35]將本體概念和主題模型集成在一個框架OntoLDA(如圖3所示)中,每個主題表示為概念上的多項分布,每個概念是單詞上的多項分布。通過本體概念和主題,以及本體概念之間的關(guān)系就可以確定文檔的主題。與已有研究類似,整個過程分為兩個階段:(1)抽取并篩選出與主題密切相關(guān)的候選主題標簽。先確定本體概念集C={c1,c2,…,ci,…,cC},然后對當前第j個主題φj和第i個本體概念ci,根據(jù)OntoLDA 主題模型的邊緣概率公式p(ci|φj)選取邊緣概率最高的K個本體概念,構(gòu)建主題語義圖。(2)針對每個主題,提取其主題圖作為子圖,根據(jù)語義相似度進行圖排序,以獲取最適合的主題標簽。

        圖3 OntoLDA模型表示Fig.3 Graphical representation of OntoLDA model

        Allahyaria 等人提出的方法將本體概念集成到LDA 中,提高了主題模型的內(nèi)聚性,但該方法較為復(fù)雜,適用性不高。與其他主題模型一樣,OntoLDA 的性能受到主題數(shù)的影響。如果主題數(shù)設(shè)置得不當,可能會導(dǎo)致一些主題被合并或分裂成不合理的子主題,降低了本體概念和主題的匹配度,從而削弱了主題標簽的準確性。

        為提高本體概念和主題的匹配度,Kim等人[27]提出一種基于社會網(wǎng)絡(luò)分析(social network analysis,SNA)和本體的方法來標記科研文獻中有影響力的主題。該方法利用SNA 方法選擇熱點主題,為增強主題的可解釋性,構(gòu)建了一個建立在Wikipedia 上的挖掘結(jié)果集UniDM 本體,考慮到主題間的相互關(guān)系,可利用多種方法在UniDM 和主題間進行映射,例如通過決策樹和K近鄰等方法建立起對主題的映射關(guān)系,有效提高了主題和候選標簽的匹配程度,對最優(yōu)的主題標簽的選擇具有積極作用。

        為進一步提升對主題候選標簽和主題關(guān)系的理解,提取文本的層次特征,將深度學習技術(shù)與本體方法結(jié)合,Zosa 等人[30]針對多語言主題自動標記,提出一種本體映射方法,將主題映射到與語言無關(guān)的新聞本體中的概念。Zosa 將本體映射問題視為一個多標簽分類任務(wù),利用一個基于Transformer 的微調(diào)預(yù)訓(xùn)練語言模型SBERT(sentence-BERT)[47],將主題表示為上下文相關(guān)的嵌入形式。其中,一個主題可以被分類為屬于本體中的一個或多個概念。需要注意的是,新聞本體分類概念與具體語言無關(guān),其目的是為了無需額外訓(xùn)練就可以在多種語言上生成主題標簽。

        本體方法的優(yōu)點是能夠利用豐富的領(lǐng)域知識,提高主題標記的準確性和一致性,但建立和維護一個本體結(jié)構(gòu)需要耗費大量的人力和時間。為降低構(gòu)建本體的成本,Kinariwala 等人[32]使用開源軟件tool-Protégé 生成了一個涉及“體育”“犯罪”“政治”和“環(huán)境”四個領(lǐng)域的本體CEPS-Ontology,并將主題中的top 詞匯作為輸入,獲得最多歸屬計數(shù)的上位詞被選為該主題的標簽。該方法局限于上述四個領(lǐng)域的新聞?wù)Z料,并且需要事先構(gòu)建本體作為主題標簽池,主題標記質(zhì)量與特定本體相關(guān),其適用性受到限制,只能應(yīng)用于特定領(lǐng)域。從上可知,本體方法對新領(lǐng)域或新概念的適應(yīng)性較差,需要手動或自動擴展本體結(jié)構(gòu)以涵蓋新的概念和關(guān)系。

        3.4 基于神經(jīng)網(wǎng)絡(luò)

        主題標記是一項極具挑戰(zhàn)性的NLP 任務(wù),目前仍面臨諸多困難,包括:(1)多義性和歧義性。由于主題是由主題詞集構(gòu)成,同一個詞或短語可能在不同的上下文中具有不同的含義,可能導(dǎo)致主題標記失效。(2)數(shù)據(jù)稀疏性。對于某些主題,訓(xùn)練數(shù)據(jù)中可能只包含很少的示例,使得準確地標記這些主題變得困難。(3)領(lǐng)域特定性。主題標記的性能可能會受到領(lǐng)域特定的詞匯和表達方式的影響,需要具備跨領(lǐng)域的泛化能力。(4)多語言問題。在多語言環(huán)境下,同一個主題可能會以不同的詞匯和表達方式出現(xiàn),需要解決跨語言的主題標記問題。

        針對上述問題,不同研究者將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于自動主題標記任務(wù)。Bhatia等人[25]提出了一個基于word2vec[51]和doc2vec[52]的主題自動標記模型NETL(neural embedding topic labelling)。標記過程分為兩個階段:首先,生成候選主題標簽集合;然后利用一個有監(jiān)督學習的排序模型對候選標簽排序。關(guān)鍵步驟詳述如下:

        第一階段,參照Lau等人[7]的方法產(chǎn)生候選標簽。Bhatia 利用Wikipedia[7]語料訓(xùn)練doc2vec 模型,并使用文檔嵌入表示文檔的標題a。若給定主題為T,則a與T的相關(guān)性定義為reld2v(a,T),若基于word2vec,則相關(guān)性定義為relw2v(a,T),且最終相關(guān)性定義為reld2v+w2v(a,T)。上述公式定義如下所示:

        第二階段,利用CrowdFlower(https://www.crowdflower.com/)獲得人工標注[7]以及候選標簽的四個特征數(shù)據(jù),訓(xùn)練基于多特征的回歸模型NETL,對候選主題標簽進行重排序。四種特征數(shù)據(jù)包括:(1)候選標簽和主題詞間的字母三元組(letter trigram)重疊統(tǒng)計[3];(2)令a為結(jié)點,Wikipedia 中的超鏈接為邊,構(gòu)建有向圖,利用PageRank 方法[57]獲得每個結(jié)點的權(quán)重;(3)詞的個數(shù);(4)候選標簽與top-10主題詞的重疊個數(shù)[7]。

        Bhatia 等人的研究結(jié)果表明,利用神經(jīng)網(wǎng)絡(luò)獲得詞嵌入和句嵌入,可以學習到單詞和文本的語義表示,從而更好地捕捉主題之間的語義關(guān)聯(lián)和差異。此外,神經(jīng)網(wǎng)絡(luò)通過上下文窗口或序列模型來捕捉詞語之間的關(guān)聯(lián),更好地理解主題在上下文中的含義和語義,最終提高主題標記任務(wù)的準確性。

        對層次主題,如果使用NETL[25]直接進行主題標記,且只有主題詞作為輸入,則生成的主題標簽與子主題缺乏聯(lián)系,而且可能出現(xiàn)重復(fù)。針對該問題,Kozono等人[29]提出一種NETL的改進模型,將子主題獲取的主題標簽和相關(guān)的文檔作為輸入,根據(jù)Mao等人[46]的主題自動標記方法,利用主題間的兄弟及父子關(guān)系,基于doc2vec 和word2vec 獲得不同向量編碼,并計算候選標簽成績,選擇排序后的top-10 主題標簽。同理,對上一級主題依次迭代求取每個父主題的主題標簽。該方法屬于兩階段標記方法,首先生成候選標簽集,然后進行排序。問題在于,從現(xiàn)有的內(nèi)源性語料庫或外源性的知識庫中可能找不到合適的概括性的短語標簽,此時主題標記的結(jié)果與實際相差可能會非常大。

        為了獲得與主題相關(guān)性更高、覆蓋性更強的主題標簽,Alokaili 等人[33]提出一種基于seq2seq 模型的主題標記方法,可生成當前語料庫或知識庫中不存在的短語標簽。該模型的編碼器和解碼器均采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),將主題詞編碼為300 維的詞嵌入輸入到雙向GRU(gated recurrent unit)中,解碼器生成一系列詞嵌入,作為前饋神經(jīng)網(wǎng)絡(luò)的輸入,最終選擇概率值最高的詞作為主題標簽。由于產(chǎn)生候選主題標簽使用生成式神經(jīng)網(wǎng)絡(luò),實時性可能會差一些,但生成的主題標簽相關(guān)性和概括性可能會更好。

        相比GRU、LSTM(long short-term memory)等傳統(tǒng)RNN,Transformer 在并行計算、長期依賴建模、全局信息獲取、編碼器-解碼器結(jié)構(gòu)、模塊化和可擴展性等方面具有明顯的優(yōu)勢,因此在自然語言處理任務(wù)中取得了顯著的性能提升。為進一步提升自動主題標記模型的效果,Popa 等人[31]提出了一個基于BART(bidirectional and auto-regressive transformers)[48]的NETL的改進模型,該模型也采用了經(jīng)典的兩階段主題標簽生成方法。第一階段,構(gòu)建了NETL 標記器,生成用于微調(diào)BART 的數(shù)據(jù)集(標簽候選子集)。為避免過擬合,NETL labeler 采用了top-5 主題詞,通過嵌入相似度,并參考主題詞概率分布增大在評分中的權(quán)重。除此之外,還利用N-gram 從語料庫中抽取名詞性短語作為候選標簽。第二階段,利用seq2seq 模型構(gòu)建了一個從主題到候選標簽的一個一對多序列映射,其中主題表示為由空格分隔的前20 個主題詞的串聯(lián)字符串。預(yù)訓(xùn)練模型BART 在生成的數(shù)據(jù)集上進行微調(diào)訓(xùn)練后,最終的預(yù)測模型BART-TL 可以為任意單個主題輸出主題標簽。

        Popa等人構(gòu)建的主題標記模型基于BART,一種大規(guī)模預(yù)訓(xùn)練語言模型,由FAIR 團隊于2019 年推出。BART基于Transformer架構(gòu),并使用海量的無標注數(shù)據(jù)訓(xùn)練。大規(guī)模的預(yù)訓(xùn)練模型可以學習主題和候選標簽的文本表示,提取深層特征,優(yōu)化標記過程,增強泛化性,在不同的領(lǐng)域中都能獲得較好的標記結(jié)果。還能通過共享嵌入空間或聯(lián)合學習多語言表示來解決跨語言的主題標記問題。

        3.5 討論

        在表3 中,根據(jù)數(shù)據(jù)來源,主題標記所依賴的語料庫可分為內(nèi)源性和外源性兩種。前者僅限于語料庫自身,后者需要依靠外部擴展知識,或借助外部數(shù)據(jù)以更廣泛(或具象)的表現(xiàn)形式(例如圖片)來描述主題以及主題間的關(guān)系,以提高生成主題標簽的準確性和多樣性[7,22-23,25,42,58]。

        內(nèi)源性主題標記方法[4,38]基于自身語料庫來抽取或生成主題標簽,在語義相關(guān)性上更接近原始語料庫。但該方法對語料庫要求較高,只有規(guī)模足夠大,語料足夠豐富時,生成的主題標簽才能夠反映主題的本質(zhì)。而那些規(guī)模較小、文本較短、表達欠規(guī)范語料庫,很難抽取出高質(zhì)量的候選標簽。但信息足夠豐富的大規(guī)模語料庫,進行文本解析和抽取候選標簽所消耗的資源也十分可觀。

        外源性主題標記方法[7,23-25]通常會利用外部知識庫中已有的先驗知識來抽取和選擇主題標簽。外源性語料庫的內(nèi)容更全面,范圍更廣闊,提供的方法或服務(wù)更新穎,得到高質(zhì)量主題標簽的可能性也更高。但也存在一定缺陷,例如:(1)外源性內(nèi)容或服務(wù)通常來自互聯(lián)網(wǎng),產(chǎn)生和消亡的速度都很快,例如Google Directory 分類目錄服務(wù)已在2011 年停止;(2)主題可能不存在于外部源中;(3)其他一些不可控因素,對依賴外源語料或服務(wù)的主題自動標記模型的穩(wěn)定性,可能會造成一定的影響。

        當前主題標記的研究重點在于候選標簽的生成,以及標簽排序算法的選擇上。通常基于外源性方法生成的主題標簽概括性更好,但實現(xiàn)復(fù)雜度也更高。如果主題在外部語料庫中不存在,則標記工作會比較困難,此時結(jié)合內(nèi)源性語料生成候選標簽可能會是更好的選擇。此外,基于稠密向量建模方法的局限性在于主題標簽生成的質(zhì)量依賴于詞向量的質(zhì)量,其質(zhì)量又受到語料庫的影響[3]。因此,利用外源性語料庫中所蘊涵的更為豐富的語義表示和先驗知識,引入預(yù)訓(xùn)練語言模型,并基于其建構(gòu)主題自動標記模型可能是一個更好的選擇。

        4 基于摘要的主題標記方法

        對于內(nèi)涵較為豐富的主題,短語標簽的表達能力受限于其長度,通常無法對主題給予全面和充分的描述。面對短語主題標簽解釋能力不足的問題,基于摘要的方法對主題進行標記逐漸受到研究者的重視,該類研究多采用抽取式摘要方法對主題進行標記,表4概述如下。

        4.1 基于詞法特征

        Basave 等人[38]認為外源性的主題自動標記方法并非總是適用的,這是因為主題詞有時并不存在于外部源中。因此提出一種內(nèi)源性多文本摘要算法框架[38],利用四種不同方法評估所有候選句與主題的相關(guān)性:(1)SB(sum basic),對給定主題,利用句子所包含主題詞的邊緣分布概率均值評分;(2)混合詞頻逆文檔頻率(Hybrid Tf-idf),選取對主題具有較高隸屬度文檔中的句子,采用Tf-idf 均值進行評分;(3)最大邊界相關(guān)(maximal marginal relevance,MMR)[59],在計算句子與主題的相關(guān)性時,避免與已有句子產(chǎn)生疊加冗余,以均衡評分;(4)根據(jù)句間相似度,利用TextRank[60]對句子評分。

        根據(jù)實驗結(jié)果發(fā)現(xiàn),基于詞頻的方法優(yōu)于SB、TextRank 和MMR。通常新聞事件很難在外源語料中找到相關(guān)內(nèi)容,因此只能依賴內(nèi)源性語料生成主題標簽。Basave等人[38]提出的方法基于詞法特征,關(guān)注單個詞匯的統(tǒng)計信息,無法利用詞間的語義關(guān)系和上下文信息,難以充分理解主題和候選標簽的真實含義,導(dǎo)致生成的摘要缺乏準確性和表達力。

        使用多維特征可以從不同角度對文本進行建模,包括語義、句法、結(jié)構(gòu)、情感等。通過綜合考慮不同特征之間的關(guān)系和權(quán)衡,可以更好地理解文本的含義、結(jié)構(gòu)和上下文關(guān)系,從而生成更優(yōu)質(zhì)的摘要主題標簽。

        Barawi 等人[39]認為,對情感主題建模,如果只基于詞法特征的相關(guān)性,將導(dǎo)致模型趨于選擇信息量有限的短句,難以捕捉有效的情感信息,無法生成適合的情感類主題標簽。Barawi 提出一種對情感主題進行自動標記的模型,建模過程中引入情感維度特征的處理,選擇與主題一致且情感耦合的句子構(gòu)成候選主題標簽集;排序算法主要考慮了句子與主題的相關(guān)性Rel(s|tl,z)和句子對情感的覆蓋度Cov(s|tl,z)兩方面內(nèi)容,候選標簽成績的計算公式定義如下:

        其中,s為候選句,l為情感標簽,z為給定主題。實驗證明,該方法對情感主題進行自動標記優(yōu)于其他基線方法,屬于一種通用方法,無任何特定的依賴關(guān)系,可直接應(yīng)用于任何情感多項式分布主題模型的改進。

        4.2 基于子模優(yōu)化方法

        摘要生成方式通常有生成式(Abstractive)和抽取式(Extractive)兩種。前者對生成文本的文法和語法要求嚴格,實現(xiàn)較為困難;后者從原文檔中抽取句子組成摘要文本,實現(xiàn)簡單且無生成文本的文法和語法問題。因此現(xiàn)有研究大多采用抽取式方法生成摘要主題標簽[4,37,61],通常分為兩個階段:首先對語料庫中的句子進行評分,然后選擇合適的句子生成摘要(主題標簽)[4,62]。通常來說,抽取式方法存在一個算法的下界,由于在句子評分過程中未考慮生成摘要時所產(chǎn)生的冗余,會導(dǎo)致句子排序的準確性被削弱[63]。因此,如何抑制由于句子重疊所導(dǎo)致的冗余成為抽取式摘要方法研究的難點和重點。

        子模性在組合優(yōu)化中具有重要作用,當目標函數(shù)具有子模性時,組合優(yōu)化問題通常能夠在多項式時間內(nèi)得到最優(yōu)或近似解[64]。Lin 等人[65]首次將子模函數(shù)應(yīng)用于多文檔自動摘要,并將其定義為預(yù)算約束下的子模函數(shù)最大化問題。由于利用MMR 構(gòu)建的目標函數(shù)仍然是子模且非單調(diào),采用一種新的貪心算法來優(yōu)化目標函數(shù)[66]以保持單調(diào)不減,最終解決摘要中出現(xiàn)冗余的問題。根據(jù)已有研究,Wan 等人[4]利用預(yù)算約束下最大化具有子模性的評分函數(shù),提出一種子模優(yōu)化(submodular)的兩階段主題自動標記方法:

        第一階段,濾除大部分與主題相關(guān)性低的句子,句子s與主題θ間的KL散度[4]計算如下所示:

        根據(jù)KL(θ,s)對句子集合排序,分別選取與每個主題最相關(guān)的top-500句子作為候選句集合V。

        第二階段,對每個主題θ,利用子模最大化方法從V中尋找構(gòu)成主題標簽的真子集E,該方法通常是一個NP-hard 的問題,采用貪心算法[65]獲得近似最優(yōu)解[4],公式如下:

        實驗結(jié)果表明,該方法有效抑制標記過程中的冗余產(chǎn)生,生成的主題標簽在相關(guān)性、覆蓋性和可區(qū)分性三個維度上獲得較大提升。該子模函數(shù)優(yōu)化模型基于貪心算法實現(xiàn),雖然對設(shè)計NP-hard 問題的有效逼近算法有效,但對貪心算法進行優(yōu)化較為困難,通常計算代價較大,且得到的是近似最優(yōu)解。

        4.3 基于圖排序方法

        圖排序是生成抽取式摘要的另一種較為重要的方法,其特點是算法收斂速度快、易于得到全局最優(yōu)解[67]。其中PageRank[68]是最具代表性的圖排序算法,基于圖定義隨機游走過程(一階馬爾可夫鏈),根據(jù)轉(zhuǎn)移矩陣隨機訪問各個結(jié)點進行投票,收斂到平穩(wěn)狀態(tài)后,結(jié)點的最終得票率為其評分。

        LexRank[69]和TextRank[60]為PageRank 的改進方法,可直接用于生成主題標簽,雖然句子評分可獲得全局最優(yōu)解,但由于圖排序過程中未考慮句間冗余控制的問題,導(dǎo)致生成的主題標簽效果不佳。

        針對上述問題,He 等人[37]對次模函數(shù)優(yōu)化模型[4]和圖排序模型[60,69]進行研究,提出一種冗余感知的、基于圖排序的三階段主題自動標記模型TLRank[37],標記過程如圖4所示。

        第一階段,抽取候選句[4],為每個主題θ生成相應(yīng)的候選句集合CSSet。

        第二階段,借鑒子模函數(shù)優(yōu)化模型中的獎勵函數(shù),從相關(guān)性、覆蓋性和區(qū)分性三方面獲得句子的綜合中心性評分,公式分別定義如下:

        為使用一個統(tǒng)一尺度來衡量句子的整體質(zhì)量,定義整體中心性(OverAllCen),公式如下:

        式中,OverAllCeny為候選句y的整體中心性,sy代表候選句y,并有α>0,β>0,α+β<1。

        第三階段,根據(jù)句子的綜合中心性評分和句間相似度,提出一種抑制和擴張策略:通過構(gòu)建一個正定的轉(zhuǎn)移矩陣實現(xiàn)馬爾可夫過程,使模型在圖排序過程中能夠感知冗余并改變投票比率,從而生成冗余度更低、更具多樣性的主題標簽。過程概述如下:

        以CSSet中句子為結(jié)點構(gòu)建有向完全圖,圖中結(jié)點y計算公式[57,60,68-69]如下:

        式中,edgexy為x指向y的邊。當x的整體中心性值大于y時,edgexy受到抑制,公式如下:

        反之,擴張edgexy的值公式如下:

        式中,Degreex和Degreey為結(jié)點x和結(jié)點y的度值[69],edge·y為任何指向結(jié)點y的邊。擴張和抑制策略的目標是改變結(jié)點的投票比率,加權(quán)重要結(jié)點并抑制非重要結(jié)點。

        實驗結(jié)果表明,TLRank 與對照算法相比更優(yōu)。但圖排序模型屬于無監(jiān)督學習,很難獲取候選句的深層特征,也無法捕捉詞語、句子和文本之間的復(fù)雜關(guān)系,不能準確地理解文本的語義信息,進行更復(fù)雜和層次更深的句間關(guān)系建模,難以進一步提高生成主題標簽的多樣性和有效抑制標簽中的冗余。

        4.4 基于神經(jīng)網(wǎng)絡(luò)方法

        神經(jīng)網(wǎng)絡(luò)能夠?qū)W習豐富的語義表示,通過隱層的非線性變換和特征提取,可以捕捉詞語、句子和文本之間的復(fù)雜關(guān)系。這使得神經(jīng)網(wǎng)絡(luò)能夠更好地理解文本的語義信息,從而提高主題標記的準確性和語義一致性。

        Kozbagarov 等人[41]認為,句子與單詞不同,具有完整的語法和語義結(jié)構(gòu)且信息量更大,更適合用來解釋主題,因此未采用通用標準方法中的詞法特征,而是使用了預(yù)訓(xùn)練語言模型BERT 對主題和語料庫文本進行向量化,并在此基礎(chǔ)上進行自動主題標記,整個過程分為六個步驟:(1)首先將語料庫中的句子依次輸入BERT 模型,獲得的句嵌入為輸出頂端4 個隱層的均值;(2)如果數(shù)據(jù)規(guī)模較大,為了提高計算效率,可從語料庫中隨機抽取一個子集;(3)根據(jù)主題數(shù)K值,基于句子的嵌入表示,利用最小平方和聚類(min-sum-of-square clustering,MSSC)和k-means等方法進行聚類;(4)根據(jù)前述步驟獲得的所有句嵌入和聚類質(zhì)心,重新計算句子的概率分布值;(5)在已獲聚類的基礎(chǔ)上,計算句子的聚類分布矩陣Fn×m;(6)最后應(yīng)用EM(expectation maximization)算法完成指定次數(shù)的迭代計算,獲得模型參數(shù)的估計量,得到句子的主題概率分布和主題在文本中的概率分布,并選擇一個嵌入最接近給定聚類質(zhì)心的代表性句子作為主題標簽。

        相比傳統(tǒng)的詞法特征方法,神經(jīng)網(wǎng)絡(luò)能夠更準確地獲取主題和句子的含義和上下文,以提高主題標記的精度。但主題標簽使用單個句子也有不足,因為單個句子受限于長度和結(jié)構(gòu),不能充分揭示主題的意義和背景。一個主題往往涉及多個相關(guān)的概念、事實或論點,需要更廣泛的語境才能被準確地理解和描述。因此,利用神經(jīng)網(wǎng)絡(luò)生成的長文本主題標簽,采用多個句子的摘要形式更為常見。

        在生成抽取式摘要時,無監(jiān)督學習很難獲取候選句的深層特征,進行更復(fù)雜和層次更深的句間關(guān)系建模。因此,He 等人[40]提出一種基于注意力機制的三層神經(jīng)網(wǎng)絡(luò)主題標記模型TLPA(topic labeling model with a paired-attention),其結(jié)構(gòu)如圖5所示。

        TLPA 模型底層“BERT 編碼層”運行于句子級別,將N個候選句[s1,s2,…,sk,…,si,…,sN]動態(tài)編碼為前后文連續(xù)特征向量[C1,C2,…,Ck,…,Ci,…,CN];相對于BertSum[70]采用兩層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),為增進對主題的理解,增加了一個“主題特征提取層”,運行于句子級別,從[C1,C2,…,Ck,…,Ci,…,CN]中抽取出深層特征[f1,f2,…,fk,…,fi,…,fN];主題標記層位于模型頂層,運行于文檔級別,采用成對注意力對句間關(guān)系編碼,模仿人類決策過程。最終通過線性分類器選取適合的句子,生成主題標簽。

        以Transformer 的正向(Positive)注意力編碼為例,公式定義如下:

        其中,PosAttTran為基于Transformer 的正向注意力實現(xiàn)。將候選句集視為輸入文檔D,則標記任務(wù)轉(zhuǎn)化為二分類優(yōu)化問題,預(yù)測句子si是否屬于主題標簽的概率值,公式如下所示:

        為準確而全面地評估TLPA 主題標記模型的有效性,選用公開數(shù)據(jù)集SIGMOD 和AP[4]。實驗表明,TLPA 生成的主題標簽在與主題的相關(guān)性、覆蓋性和區(qū)分性上顯著優(yōu)于圖排序及其他對比方法。雖然采用基于成對注意力的句間關(guān)系編碼器來模仿人類決策過程,為分類器提供高質(zhì)量的句間關(guān)系編碼,有效提升了模型的冗余控制水平和求解精度,但當前尚不能通過單詞級和句子級的語義表示來發(fā)現(xiàn)潛在語義主題模式,并基于神經(jīng)網(wǎng)絡(luò)實現(xiàn)對文本深層特征的提取,以克服傳統(tǒng)主題模型的局限性。

        4.5 討論

        文本摘要方法通常分為單文檔和多文檔兩種不同類型。由于發(fā)現(xiàn)主題結(jié)果來源于多個文檔,借鑒多文檔摘要方式來對主題建模結(jié)果進行標記。此外,文本摘要根據(jù)生成文本的過程又分為生成式和抽取式兩種。前者生成全新的摘要文本,多樣性高、冗余度小,但由于生成文本對文法和語法要求較為嚴格,實現(xiàn)困難;后者使用原文檔中抽取出的句子組成摘要主題標簽,實現(xiàn)簡單,也無需擔心生成文法和語法問題。但是該方法缺點也很明顯,抽取句子組成的摘要通常存在句子重疊所導(dǎo)致的冗余。因此,結(jié)合二者的優(yōu)點,使用抽取式方法生成候選句集合,并在此基礎(chǔ)上采用生成式摘要方法生成主題標簽可能是一種更加可行的策略。

        當前使用文本摘要對主題進行標記的研究主要基于抽取式方法,標記任務(wù)通常分為三個過程:(1)從語料庫中抽取出句子;(2)提取句子特征并排序;(3)根據(jù)排序結(jié)果選擇合適的句子,以最小冗余代價生成主題標簽。也有研究為優(yōu)化整體效果,將第二和第三個過程合為一個整體[4,37]。

        對于生成短語和摘要主題標簽,一些研究采用了圖排序方法。這是因為其優(yōu)勢在于結(jié)合圖的全局信息來計算結(jié)點權(quán)重,充分利用句間關(guān)系,以抑制生成主題摘要過程中出現(xiàn)的冗余。例如TLRank[37]就是通過控制轉(zhuǎn)移矩陣對圖中結(jié)點的投票率進行增強或抑制,從而達到整體排序結(jié)果最優(yōu)。但該方法中一些超參數(shù)的設(shè)置源于經(jīng)驗,針對不同語料庫還需人工調(diào)整。因此,利用圖排序進行主題標記的下一階段的研究重點應(yīng)該放在增強模型的泛化性上,對圖排序過程中冗余控制的作用機理進行研究,實現(xiàn)模型參數(shù)的自動學習。

        為進一步抑制主題標簽中的冗余,解決一詞多義和手工調(diào)參的問題,一種基于注意力機制的神經(jīng)網(wǎng)絡(luò)模型TLPA[40]被用于主題標記。該模型采用動態(tài)詞嵌入解決了一詞多義問題;利用Transformer 編碼器提取深層特征,有效減少了噪聲信息的干擾,并增強了模型對主題的理解;采用基于成對注意力的句間關(guān)系編碼器來模仿人類決策過程,為分類器提供高質(zhì)量的句間關(guān)系編碼,有效提升了模型的冗余控制水平和求解精度。

        5 基于圖片的主題標記方法

        圖片主題標簽在特定場景下,具有更加直觀的闡釋能力,但不足以解釋含義復(fù)雜的主題。Sorodoc等人[43]認為不同類型的主題選用不同的主題標記方式可能是更好的選擇。目前采用的方法大多是基于對圖片相關(guān)文本信息的解讀,通過對圖片進行評分的方式來選擇最相關(guān)的圖片主題標簽,方法總結(jié)如表5所示。

        表5 基于圖片的主題標記方法Table 5 Topic labeling method based on image

        與基于文本的主題標記研究不同,Aletras等人首次提出一種利用圖像進行主題標記的三階段方法[42]:首先,使用top-5主題詞通過谷歌搜索英文維基百科,并將top-20 搜索結(jié)果作為候選圖片集;其次,候選圖片具有搜索得到的元數(shù)據(jù)文本和利用尺度不變特征變換算法[71-72]低階圖像關(guān)鍵特征算子抽取的視覺信息兩種模態(tài)形式;最后,將候選圖片作為結(jié)點構(gòu)建無向圖,并排序[57]。實驗證明,該方法通??梢哉业竭m合的圖片標簽,其中視覺信息起到重要的作用。

        使用圖片對主題進行標記,最難以逾越的語義鴻溝,就是從圖像的低層特征到高層語義間建立有效的關(guān)聯(lián)。由于圖像本身是一種多語義對象,Nguyen等人[44]在多示例多標記學習框架(multi-instance multilabel learning,MIML)[73]的基礎(chǔ)上,提出了一種多模態(tài)、多示例和多標簽的潛在狄利克雷分配模型(M3LDA),實現(xiàn)對LDA 主題的圖片標記。模型由三部分組成:可視標記、文本標記和標記主題。其中,可視標記和文本標記的主要任務(wù)都是從視覺空間或文本空間到主題標簽空間的映射。而標記主題的目標在于發(fā)現(xiàn)和維護主題標簽之間的聯(lián)系,即根據(jù)不同主題將高度相關(guān)的主題標簽分組,以形成圖片、文本標記和主題之間一對一的客觀對應(yīng)關(guān)系。

        Aletras和Mittal[22]在其后續(xù)研究中提出一種利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測任意主題和圖像間的關(guān)聯(lián)程度方法。主題T中包含10 個具有最高概率分布的主題詞T={t1,t2,…,t10},圖片的可視化信息表示為V,C={c1,c2,…,cn}為對應(yīng)的文本信息表示。使用詞嵌入[74]方法計算T和C中所有向量均值,分別表示為xt和xc;同時將可視化信息V轉(zhuǎn)換為稠密向量表示xv;使用ImageNet 數(shù)據(jù)集[75],利用牛津大學和谷歌共同研發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)(16 層VGG-net)[76]進行訓(xùn)練。輸入X=[xt||xc||xv],輸出為VGG-net 所能提供最大的1 000維分類輸出向量?;诠_數(shù)據(jù)集(NYT&WIKI)[42]上的實驗結(jié)果證明該模型具有廣泛的通用性,能準確預(yù)測主題和圖像間的相關(guān)系數(shù),給出合理的圖片主題標簽。

        6 結(jié)論與展望

        生成式概率主題模型近年來在文本分類、異常檢測、推薦系統(tǒng)、文本摘要、觀點抽取、詞義歸納、情感分析和信息檢索等領(lǐng)域[2-3]得到廣泛的應(yīng)用。但主題模型的發(fā)現(xiàn)結(jié)果通常由一組詞匯的概率分布表示,會對用戶理解主題造成一定的困擾,也成為主題模型進一步應(yīng)用與發(fā)展的障礙,成為亟需解決的問題。

        針對主題模型的自動標注問題,本文綜述回顧了現(xiàn)有研究所采用的不同主題標簽形式(短語、摘要、圖片)和具體方法,從多個維度對標記方法的具體實現(xiàn)和使用場景進行了分析、討論。并認為主題標記仍存在諸如準確性、擴展性、適用性和理解問題:(1)在處理復(fù)雜文本時,容易受到語言表述、噪聲等因素的影響,需要進一步提高標記算法的準確性和魯棒性;(2)目前在處理大規(guī)模文本數(shù)據(jù)時很難保證高效和實時,適用性有限,因此如何解決主題標記算法的擴展性是研究重點之一;(3)不同語言、領(lǐng)域的文本有不同的表達習慣、文化特征和主題偏好,需要研究如何處理不同場景下的主題標記,提高標記方法的普適性和場景適應(yīng)性;(4)主題標記算法需要更好地理解文本內(nèi)容和上下文關(guān)系,抽取更深層次的語義特征,以提高標記結(jié)果的語義表現(xiàn)和精度。

        通過對現(xiàn)有研究的梳理、總結(jié)和分析,未來主題標記的研究將聚焦于以下方面:

        (1)基于深度學習的主題標記。隨著深度學習技術(shù)在NLP 領(lǐng)域研究的不斷深入,特別是三個里程碑研究成果:詞嵌入[77]的文本特征向量化、word2vec[78]引入大規(guī)模預(yù)訓(xùn)練語言模型以及Transformer[79]的并行化處理的出現(xiàn),使得很多NLP 中較為困難的任務(wù)獲得了創(chuàng)新性的解決和突破,如閱讀理解、情感分析、推薦系統(tǒng)、信息檢索、文本生成等。一些構(gòu)建在預(yù)訓(xùn)練模型上的系統(tǒng)在很多下游任務(wù)中已經(jīng)超越了人類的表現(xiàn)。因此,利用深度學習技術(shù)進行主題標記有著廣闊的市場潛力和應(yīng)用場景。特別是在相關(guān)性排序過程中對冗余的控制[61],例如利用注意力機制對候選句與主題間的相關(guān)性,以及候選句與摘要主題標簽冗余度聯(lián)合建模[40]。此外,基于龐大的外源性語料庫的預(yù)訓(xùn)練語言模型應(yīng)用于主題標記,以及多種深度學習方法的融合,應(yīng)該是未來突破的重點和方向?;谏舷挛牡恼Z義理解[30,36],能更加準確地對相關(guān)性和冗余性建模,從而得到與主題更加相關(guān)、覆蓋性更好、區(qū)分性更強和更具解釋性的主題標簽。

        (2)主題標記與情感分析技術(shù)的結(jié)合。主題標記和情感分析技術(shù)相互結(jié)合,可獲得更準確的文本處理結(jié)果,例如可以分析用戶對某個主題的情感傾向或從文本中提取情感總結(jié)等。Barawi 等人[39]首先提出一個與主題一致且情感耦合的摘要標記模型,對情感主題的解釋和理解更加有效,可擴展用于從文字語料中提取基于情感分析的不同觀點總結(jié)。Shahriar等人[36]提出一個基于情感術(shù)語和方面術(shù)語的單字特征增強分類效果的數(shù)據(jù)驅(qū)動挖掘框架,通過LDA 模型輸出主題聚類標簽,用以揭示與COVID-19大流行相關(guān)的各種問題。作者認為結(jié)合深度學習技術(shù)用于從海量的社交媒體語料中提取情感主題,并生成重要的主題標簽,可有效應(yīng)對社交媒體語料快速增長所導(dǎo)致的數(shù)據(jù)過載問題。

        (3)主題標記應(yīng)用場景的拓展。在未來,主題標記技術(shù)將應(yīng)用于更多的場景,如智能客服、智能設(shè)備等?;ヂ?lián)網(wǎng)+時代,對主題發(fā)現(xiàn)結(jié)果進行自動標記,通??梢杂糜诜诸惡吞崛∮脩裘枋鰡栴}的主題,幫助虛擬助手或人工客服快速了解文本的主要內(nèi)容和關(guān)鍵特征,將用戶問題和數(shù)據(jù)庫中已有的問題進行自動匹配,為用戶提供更為精準的幫助,并及時響應(yīng)。例如,隨著消費者對金融服務(wù)投訴數(shù)量的快速攀升,CFPB(consumer financial protection bureau)[80]意識到由人類專家對這些意見進行人工審查是不可行的,因此構(gòu)建了一個基于潛在狄利克雷分配的智能分析模型來對投訴意見進行智能分析。通過用戶調(diào)研和在線調(diào)查發(fā)現(xiàn),對客戶負面情緒的安撫是提升客戶服務(wù)的一個非常重要的關(guān)鍵因素[81]。綜上可知,主題標記在智能客服中的應(yīng)用,能夠為用戶提供更高效便捷的服務(wù),也能為企業(yè)提供更精準的數(shù)據(jù)支持,對于提升客戶滿意度和企業(yè)的服務(wù)質(zhì)量都具有非常重要的意義。

        猜你喜歡
        語料庫排序短語
        排序不等式
        恐怖排序
        《語料庫翻譯文體學》評介
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        把課文的優(yōu)美表達存進語料庫
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        語料庫語言學未來發(fā)展趨勢
        精品国产黄一区二区三区| 无遮挡十八禁在线视频国产制服网站 | 国产精品污www一区二区三区| 欧美xxxx新一区二区三区| 人妻av中文字幕精品久久| 久久久精品国产亚洲av网深田| 亚洲欧美日韩在线不卡| 在线综合网| 91大神蜜桃视频在线观看| 日本一二三四高清在线| 777国产偷窥盗摄精品品在线| 国产98在线 | 免费| 淫欲一区二区中文字幕| av手机在线观看不卡| 九九热线有精品视频86| 伊人色综合久久天天人手人停| 国产蜜臀精品一区二区三区| 中文乱码字字幕在线国语| 九一九色国产| 女人体免费一区二区| 一区二区三区免费自拍偷拍视频| 久久99亚洲精品久久久久| 国产suv精品一区二人妻| 国内精品久久久久国产盗摄 | 99国产综合精品-久久久久| 亚洲一区二区三区在线视频| 国产午夜手机精彩视频| 狠狠久久亚洲欧美专区| 亚洲精品熟女乱色一区| 日本一级特黄aa大片| 成人免费看www网址入口| 手机看片福利日韩国产| 国产一区二区熟女精品免费| 精品久久久久久久久午夜福利| 极品熟妇大蝴蝶20p| 日本熟女人妻一区二区三区| 亚洲最大免费福利视频网| 18禁黄网站禁片免费观看| 国产精品久久久亚洲第一牛牛| 日韩美腿丝袜三区四区| 国产白袜脚足j棉袜在线观看|