亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)增強的地質(zhì)文本主題模型①

        2022-08-04 09:59:20張競元周大雙陳麒玉
        計算機系統(tǒng)應(yīng)用 2022年7期
        關(guān)鍵詞:文本模型

        張競元,劉 剛,2,曾 粵,周大雙,陳麒玉,2

        1(中國地質(zhì)大學(xué)(武漢)計算機學(xué)院,武漢 430074)

        2(智能地學(xué)信息處理湖北省重點實驗室,武漢 430074)

        地質(zhì)科學(xué)文獻、地質(zhì)勘查報告以及野外記錄等地質(zhì)類文本數(shù)據(jù)數(shù)量急劇增加,人們?nèi)绻褂靡酝姆椒◤暮A康慕Y(jié)構(gòu)化與非結(jié)構(gòu)化文本數(shù)據(jù)[1]中發(fā)掘、獲取信息意味著巨大的時間、精力的投入,導(dǎo)致工作效率的低下. 地質(zhì)文本數(shù)據(jù)相較于其他領(lǐng)域的數(shù)據(jù),在復(fù)雜度與專業(yè)程度上絲毫不低. 文本聚類[2]作為一種無監(jiān)督的機器學(xué)習(xí)方法,其優(yōu)勢在于能夠?qū)ξ谋緮?shù)據(jù)進行較為有效地組織、摘要和導(dǎo)航. 而這些也正是地質(zhì)文本數(shù)據(jù)處理所需要的. 由于地質(zhì)學(xué)科的龐大復(fù)雜,所以產(chǎn)生的文本數(shù)據(jù)也是種類繁多,而面向主題的思想能夠使我們有針對性地組織、管理和獲取數(shù)據(jù),從而得到所需的信息,是一個能對文檔集進行整體分析的視角和工具[3].

        為了完成文本聚類的同時挖掘文本數(shù)據(jù)的主題,文本主題模型是常用的方法. 不過相較于普通文本,專業(yè)領(lǐng)域的文本對文本主題控制會有進一步要求,這對文本模型提取主題信息提出了挑戰(zhàn). 基于文本主題模型自身的優(yōu)勢,目前有應(yīng)用于地質(zhì)大數(shù)據(jù)表示技術(shù)[4]、地質(zhì)文本分類[5]、 地質(zhì)實體識別[6]等. 而在地質(zhì)文本主題提取方面,樊中奎[7]使用信息提取技術(shù)對已進行粗分類的地質(zhì)資料的具體內(nèi)容進行按主題獲取,可以提高資料的利用效率; 王永志等[8]研發(fā)了融合加權(quán)與詞頻兩種方法的組合關(guān)鍵詞提取算法,該算法具有較高的地學(xué)關(guān)鍵詞命中率,能夠反映文本的主題信息; 邱芹軍[9]使用基于本體與增強詞向量的方法(OEWE)獲取文本關(guān)鍵詞從而提取主題信息; 陳喜文[10]提出了基于地質(zhì)資料特征的主題模型GIC-LDA,該方法基于時空權(quán)重,同時聯(lián)合摘要、目錄等元信息進行聯(lián)合建模,從而提升模型的主題推薦效果. 但目前仍存在以下問題: (1)需要大量的人力搜集較為齊全的外部詞典等先驗知識,另外為提高關(guān)鍵詞或?qū)I(yè)名詞命中率保留了大量冗余詞,故在存儲效率和詞語篩選效率上仍有待改進. (2)較少關(guān)注對地質(zhì)文本主題信息的挖掘分析,這在主題關(guān)鍵詞的連續(xù)性上有直接表現(xiàn),需要增強文本的地質(zhì)主題特征,減少雜詞的干擾,提高主題可描述性.

        本文將以多種大類主題的地質(zhì)文本數(shù)據(jù)作為處理對象,針對以上的問題,在現(xiàn)有分詞器的基礎(chǔ)之上改進一般算法在保留地質(zhì)專業(yè)詞語的同時節(jié)省內(nèi)存、時間花銷以提升效率; 另外在對文本進行聚類時結(jié)合面向主題[11]的思想,利用主題模型提取準(zhǔn)確度、連續(xù)性較高的主題描述詞. 針對傳統(tǒng)主題模型難以處理噪聲詞語和短文本的問題,采用基于TF-IDF 算法和詞向量模型的數(shù)據(jù)增強算法,增強文本的主題特征,增強主題模型建模的先驗信息,提升模型效果. 最后展示文本集包含的主題信息及模型對比指標(biāo),以此驗證該方法的有效性及優(yōu)勢.

        1 地質(zhì)文本主題模型

        為了實現(xiàn)基于數(shù)據(jù)增強的地質(zhì)文本主題模型,本方法包含以下步驟: (1)將搜集到的地質(zhì)文本逐一進行預(yù)處理. 預(yù)處理的過程分為兩步: 第1 步獲取專業(yè)名詞并將其作為保留詞; 第2 步利用獲得的保留詞進行二次分詞. 經(jīng)過預(yù)處理,則得到經(jīng)過分詞處理的語料.(2)計算詞語的TF-IDF 權(quán)重和詞向量. (3)利用TF-IDF權(quán)重和詞向量模型使用數(shù)據(jù)增強算法處理分詞語料.(4)使用步驟(3)中的語料對整個語料庫根據(jù)不同的主題個數(shù)建立模型,通過主題關(guān)鍵詞的描述選取主題個數(shù)合理的模型. 之后可以根據(jù)模型得到每篇文本的主題概率分布,由主題概率分布確定每篇文本所屬主題完成聚類. 具體處理流程如圖1 所示.

        圖1 總體技術(shù)方案圖

        1.1 預(yù)處理

        預(yù)處理階段主要解決通用分詞器對未登錄詞無法識別誤將其切分的問題,盡可能保留地質(zhì)專業(yè)名詞,從而保證主題關(guān)鍵詞的完整性,增強主題可描述性. 如圖2,該步驟細分為兩個階段: 在第一階段,使用通用分詞器直接對地質(zhì)語料進行分詞,得到首次切分語料,使用的通用分詞器為jieba 分詞器. 第二階段,在首次切分結(jié)果上使用重復(fù)詞串提取算法,該算法首先獲取專業(yè)名詞候選集,之后添加約束條件對候選集進行過濾,篩選出需要保留的地質(zhì)專業(yè)名詞,以得到地質(zhì)專業(yè)名詞.

        圖2 預(yù)處理流程圖

        為獲取候選集本文采用了一種基于詞頻統(tǒng)計的重復(fù)詞串提取算法,通過統(tǒng)計各個切分部分在切分語料中出現(xiàn)的頻率(如表1)得到詞頻序列,以詞頻序列中詞頻為1 的詞串為間隔,對詞頻大于1 的詞串進行組合[12](如表2). 此處使用的約束條件為詞串組合頻率和字符長度,對于出現(xiàn)頻率低于2 的詞串組合以及超過最大字符長度的詞串組合直接過濾,最終得到專業(yè)名詞保留詞文檔. 由于《地質(zhì)礦產(chǎn)術(shù)語分類代碼》(GB 9649—1988)中的地質(zhì)專業(yè)術(shù)語長度大多數(shù)不超過10,所以字符長度閾值取該值. 該算法事先判斷了高頻詞串的位置,從而能直接對其進行組合,避開了未重復(fù)部分,大幅減少需要存儲的垃圾或冗余詞串,提升處理效率. 雖然詞頻為1 的詞串也有可能組成專業(yè)名詞,但是由于其出現(xiàn)頻率過低,說明其與文本主題關(guān)聯(lián)不大,故可以忽略. 經(jīng)過預(yù)處理的兩個處理步驟后則得到保留詞文檔,將該文檔作為用戶自定義詞典,再次使用通用分詞器對原始語料進行分詞處理,得到最終分詞語料.由于加載了用戶自定義詞典,通用分詞器能識別一定的地質(zhì)專業(yè)名詞,對其進行保留,從而提升分詞效果.在兩次分詞過程中,均有去停用詞.

        表1 詞頻序列(示例)

        表2 詞串組合(示例)

        基于詞頻統(tǒng)計的重復(fù)詞串提取算法偽代碼如算法1.

        算法1. 基于詞頻統(tǒng)計的重復(fù)詞串提取算法輸入: 首次切分語料M輸出: 保留詞串K

        初始化詞頻序列N,其值均為0,其長度等于M 中詞串?dāng)?shù)量;for i in 0 to length(M)if N[i]>0 i+=1;統(tǒng)計M[i]在M索引序列L,其 0 to length(N)else 中的出現(xiàn)次數(shù)n,N[i]=n.初始化元素為詞頻為1 的詞串在N 中的索引;for i in if N[i]==1 將i 保存入L;if length(L)== 0 對M 進行詞串組合并保存入K;else for i in 0 to length(L)if i!=length(L)–1 and L[i+1]–L[i]!=1 對M[L[i]+1]~ M[L[i+1]]進行詞串組合并保存入K;for i in 0 to length(K)if K[i]在K 中出現(xiàn)次數(shù)<2 and length(K[i])<10 刪除K[i];return K.

        1.2 TF-IDF 算法、詞向量模型與LDA 主題模型

        在最終分詞語料基礎(chǔ)上應(yīng)該確定詞串對其所在文本的重要程度,本文采用TF-IDF (term frequency-inverse document frequency)權(quán)重作為度量標(biāo)準(zhǔn). TF-IDF 算法[13]的主要原理是: 如果某個詞語在一篇文本中出現(xiàn)的頻率TF 很高,并且在其他文章中很少出現(xiàn),則認為該詞或者短語具有很好的類別區(qū)分能力,適合用來對文章進行分類. 其中TF (詞頻)的計算較為簡單,即對于任意一個詞語其在文本中出現(xiàn)的次數(shù)與文本詞語總數(shù)之比. 而IDF (逆向文件頻率)的意義是,對于某個詞語,得到出現(xiàn)該詞語的文檔數(shù)量,然后使全部文本文檔數(shù)目除以該文檔數(shù),再求自然對數(shù). 常用的TF-IDF 公式如下:

        其中,ni,d表示詞條ti在文檔d中出現(xiàn)的次數(shù),|d|表示全部樣本文檔的總數(shù),ni,D表示D中包含詞條ti的文檔數(shù). 根據(jù)該公式的性質(zhì),文本數(shù)據(jù)集中包含某一詞語的文本越多,它區(qū)分文檔類別的能力越低,其權(quán)重越小; 在某一文本中,某一詞語的出現(xiàn)頻率越高,說明區(qū)分文本類別的能力越高,其權(quán)重就越大.

        詞向量技術(shù)能夠?qū)⑽谋局袉蝹€詞語轉(zhuǎn)化為一個對應(yīng)的高維空間向量,通過該向量多維的屬性來表征該詞語. 詞向量模型的編碼表示主要有獨熱(one-hot)表示和分布式表示兩種方式,其中獨熱方式雖然簡單但是由于只有該詞對應(yīng)的詞典索引位置為1 外其余全為0,造成數(shù)據(jù)稀疏; 此外如果數(shù)據(jù)量大時還會造成維度災(zāi)難. 而分布式表示方法能夠?qū)⒃~語轉(zhuǎn)化為一個對應(yīng)的稠密向量,當(dāng)詞語表示為該種方式的向量時,則可以通過計算向量的距離來計算詞語間的相似性.

        LDA 模型[14]目標(biāo)在于分析文本的主題分布,識別主題,主要是用于文本主題分類[15]由文本-詞語矩陣生成文本-主題矩陣(分布)和主題-詞語矩陣(分布).LDA 模型是一個包含了詞語、主題、文本3 層的貝葉斯概率模型,以主題層作為核心層,包含多個相互獨立的主題,每個主題是詞語層上的詞語多項式分布,每篇文本由多個主題隨機混合而成,是多個主題上的多項式分布[16]. 建立LDA 模型其生成文檔的過程如下.

        (1)依照先驗概率從語料集中選擇一篇語料.

        (2)從超參數(shù)為α的狄利克雷分布中取樣生成該篇文本語料的主題分布.

        (3)從主題的多項式分布中獲取某一個主題.

        (4)從超參數(shù)為β的狄利克雷分布中取樣生成該文本主題的詞語分布.

        (5)從詞語的多項式分布中獲取詞語.

        其中,Dirichlet 的概率密度函數(shù)為:

        多項分布概率密度函數(shù)為:

        模型訓(xùn)練過程如下.

        (1)對每篇語料中的每一個詞語賦予一個隨機的編號.

        (2)再次掃描整個語料庫,使用Gibbs sampling 方法對每個詞語采樣,求出其歸屬的主題.

        (3)重復(fù)步驟(2),直至Gibbs sampling 結(jié)果收斂.

        (4)統(tǒng)計整個語料庫的主題-詞語共現(xiàn)頻率矩陣,得到LDA 主題模型.

        利用主題模型可以得到數(shù)據(jù)集的主題概率分布,通過主題概率分布可確定每篇文本的主題歸屬,最終完成文本聚類. 所謂主題分布即每篇文本與每個主題相關(guān)的概率,某一主題概率越高就越有可能歸入該主題,其分布形式如表3 所示.

        表3 文本語料的主題分布(示例)

        2 數(shù)據(jù)增強算法

        一篇文本一般會圍繞一個中心主題展開敘述,為獲取能描述文本主題的詞語本文使用了TF-IDF 算法尋找文本中權(quán)值較大的關(guān)鍵詞,這些詞語往往與文本主題高度相關(guān). 但是由于TF-IDF 算法本身的局限性,該算法無法體現(xiàn)詞語間的關(guān)系,為此采用詞向量技術(shù)對每個詞語生成對應(yīng)的稠密向量,從而能夠計算詞語間的相似性,此處相似度選用余弦相似度. 首先,通過TF-IDF 算法得到每篇文本中一定數(shù)量的權(quán)值最大的關(guān)鍵詞集合. 之后訓(xùn)練文本詞向量模型,利用關(guān)鍵詞對應(yīng)的詞向量,逐個計算每個關(guān)鍵詞與其他關(guān)鍵詞的相似度,將相似性范圍最廣的關(guān)鍵詞視為中心詞. 此時可能會出現(xiàn)有多個中心詞的情況,那么則生成該篇文本的中心詞集合. 之后,計算各個中心詞能覆蓋到的關(guān)鍵詞集合,將所有中心詞均無法覆蓋的關(guān)鍵詞剔除出關(guān)鍵詞集合,此時得到抽樣集.

        利用得到的抽樣集開始對分詞語料中的無關(guān)詞語進行替換,增強文本主題特征. 逐篇語料逐個詞語的與對應(yīng)的中心詞集合中的中心詞進行相似度計算判斷是否需要進行抽樣替換. 如果需要進行替換,則需先判斷當(dāng)前文本詞語對中心詞的相似傾向程度,從抽樣集中抽取相應(yīng)的中心詞傾向程度的關(guān)鍵詞對原詞進行替換,直至遍歷結(jié)束. 在抽樣階段本文采用的是等概率抽樣,如果根據(jù)TF-IDF 權(quán)重來分配抽樣概率采取輪盤賭手法進行抽樣,算法效果則會嚴(yán)重依賴TF-IDF 權(quán)重,如果關(guān)鍵詞采集出現(xiàn)偏差則會帶來不利后果. 算法具體流程如圖3 所示.

        圖3 數(shù)據(jù)增強算法流程圖

        3 實驗分析

        3.1 實驗數(shù)據(jù)集

        本文從知網(wǎng)等文獻資源網(wǎng)站收集整理10006 篇地質(zhì)文獻摘要,共選取礦物、巖石、地質(zhì)工程技術(shù)、地球化學(xué)、地質(zhì)災(zāi)害、地質(zhì)構(gòu)造等十余種主題,構(gòu)建地質(zhì)文本數(shù)據(jù)集. 每一篇文獻摘要生成一個文本文檔,文獻標(biāo)題作為該文本文檔的文件名. 之后將所有文本文檔放入一個文件夾,則原始語料庫建立完成.

        3.2 實驗及結(jié)果討論

        文本數(shù)據(jù)集制作完成后首先需要對數(shù)據(jù)集進行預(yù)分詞處理. 以語料《三維旋轉(zhuǎn)水射流與水力壓裂聯(lián)作增透技術(shù)研究》為例,該篇文本包含較多少見且冗長的專業(yè)術(shù)語. 表4 為使用通用分詞器處理后的語料與經(jīng)本文重復(fù)詞串提取算法處理后的語料對比結(jié)果,通過準(zhǔn)確率(Precision)、召回率(Recall)和F值(Fmeasure)對結(jié)果進行評價. 由表可知,通用分詞器在地質(zhì)專業(yè)名詞充斥的情況下分詞效果很差,而本文算法一定程度保留了專業(yè)名詞,故分詞效果顯著. 本文在一般重復(fù)詞串提取算法的基礎(chǔ)上進行改進,通過統(tǒng)計詞頻,直接對高頻部分進行組合,忽略詞頻為1 的切分部分,減少詞串組合時需要存儲的候選詞串?dāng)?shù)量,節(jié)約存儲空間; 另外,由于候選集詞串?dāng)?shù)量減少,加快了詞串的篩選過濾. 兩者的對比結(jié)果見表5,經(jīng)改進的算法得到的候選集詞串?dāng)?shù)量僅為一般算法的1.24%,一般算法得到的詞串候選集最終真正得到保留的只有原來的0.31%,經(jīng)改進后達到原來的22.45%.

        表4 分詞評價結(jié)果 (%)

        表5 兩種算法獲取的詞串?dāng)?shù)量對比

        經(jīng)過分詞處理,接下來要對處理后的語料計算其TF-IDF 權(quán)重和詞向量. 其中詞向量模型采用了Word2vec(CBOW 模型)和Glove 兩種常用方法. 之后,利用TFIDF 權(quán)重和詞向量文件進行數(shù)據(jù)增強處理得到特征強化語料,在該語料上建立主題模型. 本文除LDA 模型外還使用BTM 模型進行了實驗對比,實驗參數(shù)α=50/K,β=0.01,Gibbs sampling 最大迭代數(shù)為800,其中K為主題個數(shù). 數(shù)據(jù)增強算法中的相似度閾值根據(jù)具體數(shù)據(jù)集以及詞向量模型來確定,選擇標(biāo)準(zhǔn)是既能保證排除無關(guān)詞又能保證抽樣集有相對充足的樣本,本文實驗使用的相似度閾值范圍是0.11–0.13. 在實驗過程中發(fā)現(xiàn),經(jīng)數(shù)據(jù)增強處理后,兩種模型訓(xùn)練的時間得到了減少,LDA 模型表現(xiàn)更為顯著,如圖4、圖5 所示.

        圖4 LDA 模型訓(xùn)練時間折線圖

        圖5 BTM 模型訓(xùn)練時間折線圖

        為定量地衡量模型的優(yōu)劣程度,本文采用了主題間距離和模型困惑度(perplexity)兩種常用指標(biāo)對LDA模型進行評估. 其中主題距離采用JS (Jensen-Shannon)散度,相較于KL 散度,它解決了計算結(jié)果非對稱的問題. 其計算公式如下:

        其中,KL為KL 散度. 模型困惑度是評價LDA 模型最常用的方法之一,其值越小表示模型的泛化性能越優(yōu).其計算公式如下:

        其中,N為文本數(shù)量,Nd為文本d中包含的詞語數(shù)量.

        結(jié)果見圖6 和圖7. 可以看出,經(jīng)本文方法處理過后建立的LDA 模型(TW-LDA)在主題距離和模型困惑度兩項指標(biāo)上均優(yōu)于傳統(tǒng)LDA 模型,即經(jīng)數(shù)據(jù)強化后模型泛化性能和主題獨立性均有提高,體現(xiàn)了本文方法的優(yōu)越性. 其中,使用Glove 方法訓(xùn)練得到的詞向量最終得出的LDA 模型的困惑度低于Word2Vec方法,這是由于相較于Word2Vec,Glove 引用了詞共現(xiàn)矩陣,同時考慮了詞語的局部和整體信息; 而Word2Vec只關(guān)注窗口內(nèi)的局部信息,故生成的詞向量準(zhǔn)確率相對較低. BTM 模型的實驗結(jié)果見圖8、圖9 所示. 因為BTM 模型沒有對文檔的生成過程進行建模,所以無法使用困惑度指標(biāo)進行評估[17]. 故選擇H-score對其進行評價.H-score在文本聚類的結(jié)果上同時考慮類內(nèi)和類間因素進行考量,以評價文本主題模型,其值越小則代表模型輸出結(jié)果越優(yōu). 其計算方法如下:

        圖6 LDA 模型平均主題距離折線圖

        圖7 LDA 模型困惑度折線圖

        圖8 BTM 模型平均主題距離折線圖

        圖9 BTM 模型 H-score 折線圖

        其中,Intra_Dis為類內(nèi)文本的平均距離,Inter_Dis為類間文本的平均距離.

        兩者計算公式如下:

        其中,C為文本聚類的類簇集合,Ck為C中第k個類簇,K為主題個數(shù),di為第i個文本.

        由平均主題距離指標(biāo)可知,BTM 模型與Glove 結(jié)合的方法(TW-BTM(Glove))效果并沒有與Word2Vec結(jié)合(TW-BTM(Word2Vec))的效果好,該方法沒有發(fā)揮出Glove 全局詞向量的優(yōu)勢. 同時,BTM 模型的主題獨立性較差,3 種模型中最高平均主題距離仍低于傳統(tǒng)LDA 模型. 另外,H-score指標(biāo)同樣是TW-BTM(Word2Vec)有最好的表現(xiàn). 綜上,誠然BTM 模型能很好地緩解短文本建模稀疏的問題,使用詞對建模能夠挖掘詞語間一定的隱藏關(guān)系,有助于提取文本主題,但如此便削弱了詞向量技術(shù)帶來的提升,Glove 詞向量因利用詞共現(xiàn)矩陣采集詞對用于訓(xùn)練故情況尤甚. 而BTM 模型對規(guī)模較大的主題有較差細分能力的劣勢便體現(xiàn)出來,即主題間獨立性差. 另外,由于使用詞對建模,BTM 模型的訓(xùn)練時間以及模型收斂迭代次數(shù)對比LDA 模型沒有優(yōu)勢.

        下面對主題模型進行定性分析. 在傳統(tǒng)LDA、BTM 模型中,主題關(guān)鍵詞均出現(xiàn)了重復(fù)以及雜詞,這導(dǎo)致主題之間獨立性較差,這也表現(xiàn)了直接使用主題模型對大類主題難以進行適當(dāng)?shù)募毞? 如表6 所示,LDA 模型中主題9 和主題12 的最高主題關(guān)鍵詞均是“儲層”,主題間產(chǎn)生了重疊,并且主題9 雜糅了儲層和礦物浮選兩個主題,而主題14 關(guān)鍵詞連續(xù)性差難以對主題進行描述,BTM 模型也出現(xiàn)了上述類似情況. 經(jīng)數(shù)據(jù)增強算法(Word2Vec)處理后的模型,有了較大改觀,見表7. 但LDA 模型主題1 的主題關(guān)鍵詞的連續(xù)性很弱,BTM 模型主題關(guān)鍵詞雖然連續(xù)性較高,但仍有主題詞重復(fù)的問題.

        表6 傳統(tǒng)LDA、BTM 模型主題關(guān)鍵詞表(局部)

        表7 TW-LDA (Word2Vec)、TW-BTM (Word2Vec)模型主題關(guān)鍵詞表(局部)

        采用Glove 詞向量技術(shù)后,BTM 模型每個主題相關(guān)概率最高的關(guān)鍵詞已經(jīng)沒有重復(fù)出現(xiàn),但主題間仍有交叉. 由表8 可知,主題2 與主題7 雖然都與礦物有關(guān),但主題2 為成礦主題,主題7 為找礦主題,而主題7 最高概率詞語仍為“成礦”; 另外主題15 應(yīng)為隧道、巖溶作用以及溶洞類主題,但與主題5 產(chǎn)生重疊. 另外,由于使用Glove 發(fā)掘了隧道、巖溶主題,但是由于BTM 模型本身的特性并沒有剝離與主題5 的交叉部分; 然而使用Word2Vec 的模型并沒有該主題,說明數(shù)據(jù)增強的效果相對Glove 較明顯,故在前面指標(biāo)評估上遜于TW-BTM (Word2Vec). LDA 模型的主題關(guān)鍵詞的主題描述性最強,內(nèi)部沒有雜詞,且主題之間沒有重疊,如表9 所示. 通過對比各個主題個數(shù)的模型的主題描述詞,發(fā)現(xiàn)主題個數(shù)為16 時,主題關(guān)鍵詞能夠更好地對主題進行解釋,故選取16 為最優(yōu)主題個數(shù). 由實驗得數(shù)據(jù)集包含的主題有: 地質(zhì)災(zāi)害、礦物浮選、油藏開采、巖土工程、城市地下空間、地質(zhì)構(gòu)造、花崗巖與巖漿、巖土力學(xué)、沉積礦物、土壤、儲層、礦床及成礦、地質(zhì)遺跡、化石、地質(zhì)數(shù)據(jù)建模、火山巖及其儲層.

        表8 TW-BTM (Glove)模型主題關(guān)鍵詞表(局部)

        表9 TW-LDA (Glove)模型主題關(guān)鍵詞表

        4 結(jié)論與展望

        在本文所建立的地質(zhì)文本聚類流程基礎(chǔ)之上,有以下總結(jié):

        (1)本文采用基于統(tǒng)計詞頻序列的重復(fù)詞串提取算法,避開低頻詞語,減少冗余詞串的產(chǎn)生節(jié)省存儲空間. 通過實驗結(jié)果可以看出能夠有效保留專業(yè)詞語. 但是本文算法是運行在通用分詞器的分詞結(jié)果之上的,如何提升和保障第一次分詞的準(zhǔn)確度,是進一步需要研究的問題.

        (2)TW-LDA 算法雖然使用了詞向量技術(shù)提取語義信息,但是對于地質(zhì)專業(yè)名詞效果仍欠佳,在設(shè)置相似度閾值時難以確定,而地質(zhì)專業(yè)名詞對于地質(zhì)文本的主題又至關(guān)重要,這也是需待解決的問題.

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产色第一区不卡高清| 日本免费人成视频播放| 欧美第五页| 蜜桃成人永久免费av大| 偷拍视频十八岁一区二区三区| 日本道色综合久久影院| 亚洲码国产精品高潮在线| 午夜一级韩国欧美日本国产| 精品黄色av一区二区三区| 久久久精品亚洲人与狗| 亚洲av无码久久| 天美麻花果冻视频大全英文版| 欧美成人a视频免费专区| 国产毛片视频一区二区三区在线| 一本久久综合亚洲鲁鲁五月天| 国产高清乱理伦片| 一区二区在线亚洲av蜜桃| 亚洲天堂av在线观看免费| 厨房人妻hd中文字幕| 永久免费的av在线电影网无码| 久久精品无码一区二区三区不卡| 亚洲中文中文字幕乱码| 成人爽a毛片免费视频| 欧美 日韩 国产 成人 在线观看| 精品无码一区二区三区小说| 色婷婷久久综合中文蜜桃| 插我一区二区在线观看| jizz国产精品免费麻豆| 亚洲精品在线观看一区二区 | 免费观看人妻av网站| 99国产精品自在自在久久| 精品国产看高清国产毛片| 日韩av中文字幕一卡二卡| 午夜视频在线瓜伦| 51久久国产露脸精品国产| 亚洲中字幕永久在线观看| 美女露出奶头扒开内裤的视频| 亚洲国产天堂久久综合| 国产网站视频| 国产激情小视频在线观看的 | 亚洲情精品中文字幕99在线|