亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BTM和長(zhǎng)文本語(yǔ)義增強(qiáng)的用戶評(píng)論分類

        2023-07-21 07:50:22宗福焱
        關(guān)鍵詞:語(yǔ)義分類特征

        關(guān) 慧,宗福焱,曲 盼

        (1.沈陽(yáng)化工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 沈陽(yáng) 110142;2.遼寧省化工過(guò)程工業(yè)智能化技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧 沈陽(yáng) 110142)

        0 引 言

        隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),智能移動(dòng)終端和各類電子商務(wù)平臺(tái)也得到了飛速的發(fā)展。微博、通訊信息、用戶評(píng)論等以短文本形式呈現(xiàn)的信息正在以飛快的速度增長(zhǎng)[1]。各類短文本涵蓋了人們對(duì)各種社會(huì)現(xiàn)象的立場(chǎng)與觀點(diǎn),在輿情調(diào)查、熱點(diǎn)話題的識(shí)別發(fā)現(xiàn)、問(wèn)題反饋、需求挖掘等領(lǐng)域有著重要的應(yīng)用前景[2-5]。因此,如何在大量且復(fù)雜的文本中獲取最有效的信息是信息處理目標(biāo)之一。短文本分類可以幫助用戶快速定位需求信息和進(jìn)行信息分流[6],同時(shí)分類也是對(duì)短文本中大量有價(jià)值信息進(jìn)一步挖掘的重要步驟[7],因此,短文本分類越來(lái)越受到人們的關(guān)注。

        從當(dāng)前實(shí)際來(lái)看,西方哲學(xué)和馬克思主義哲學(xué)早已深入中國(guó)人的現(xiàn)實(shí)生活和精神系統(tǒng),是構(gòu)建當(dāng)代中國(guó)形而上學(xué)新形態(tài)中不可分割的有機(jī)組成部分。雖然上述兩者還未真正實(shí)現(xiàn)與中國(guó)傳統(tǒng)哲學(xué)的融會(huì)貫通,但三種思想資源的融合是有著深刻的歷史和現(xiàn)實(shí)基礎(chǔ)的。

        短文本分類與長(zhǎng)文本分類不同。長(zhǎng)文本蘊(yùn)含較為完備的語(yǔ)義信息和規(guī)范的表達(dá)模式,對(duì)長(zhǎng)文本進(jìn)行分類時(shí)傳統(tǒng)的自然語(yǔ)言處理技術(shù)和分類方法可以達(dá)到很好的效果[8]。而短文本分類所面臨的挑戰(zhàn)在于短文本具有本身長(zhǎng)度比較短、表達(dá)形式不規(guī)范、實(shí)時(shí)性強(qiáng)和海量性等特點(diǎn)[9],使得對(duì)短文本進(jìn)處理時(shí)會(huì)產(chǎn)生特征異常稀疏、數(shù)據(jù)噪聲大、上下文信息量少等問(wèn)題。因此,傳統(tǒng)的自然語(yǔ)言處理中的文本分類方法直接運(yùn)用到短文本分類時(shí)分類效果不佳[10]。

        針對(duì)上述問(wèn)題,近年來(lái)對(duì)短文本分類方法的研究主要分為基于語(yǔ)義和基于規(guī)則兩種方法?;谡Z(yǔ)義的方法一般是借助外部語(yǔ)料庫(kù)或搜索引擎來(lái)擴(kuò)充短文本中的語(yǔ)義信息。外部語(yǔ)料庫(kù)通常是指維基百科、百度百科或知網(wǎng)等含有大量文本內(nèi)容及語(yǔ)言素材的大型語(yǔ)料庫(kù)。這些外部的語(yǔ)料庫(kù)能給予短文本充分的信息補(bǔ)充與信息擴(kuò)展從而增加文本內(nèi)容。王海燕等人[11]通過(guò)Wikipedia知識(shí)庫(kù)挖掘出單詞、句子之間的語(yǔ)義關(guān)系、語(yǔ)序關(guān)系和詞語(yǔ)的同義詞信息進(jìn)行輔助分類來(lái)提高分類效果。康衛(wèi)等人[12]在綜合考慮文本數(shù)據(jù)集規(guī)模、文檔長(zhǎng)度、類別數(shù)量分布情況下對(duì)樸素貝葉斯算法進(jìn)行改進(jìn),提出了一種基于搜索的NaiveBayes短文本分類方法。丁連紅等人[13]等通過(guò)構(gòu)建知識(shí)圖譜來(lái)推理短文本信息并將其運(yùn)用于短文本特征上。彭晨淼等人[14]通過(guò)外部信息構(gòu)建了短文本的領(lǐng)域本體,并結(jié)合BTM主題模型進(jìn)行特征擴(kuò)展來(lái)改善短文本分類。Gu Y等人[15]針對(duì)短文本語(yǔ)義缺失對(duì)分類性能的制約,利用外部語(yǔ)料庫(kù)訓(xùn)練Word2Vec模型,對(duì)傳統(tǒng)關(guān)鍵詞提取算法基于外部語(yǔ)義信息提取的關(guān)鍵詞進(jìn)行擴(kuò)展,研究了基于外部語(yǔ)義信息的短文本關(guān)鍵詞根據(jù)不同擴(kuò)展方式進(jìn)行擴(kuò)展的可行性。

        基于規(guī)則的方法一般是分析短文本內(nèi)容、挖掘短文本潛在的語(yǔ)義關(guān)系來(lái)構(gòu)建基于文本的特征集。李昌兵等人[16]基于卡方統(tǒng)計(jì)來(lái)選取特征詞,改善權(quán)重計(jì)算方法TF-IWF來(lái)提高短文本的分類。黃賢英等人[17]將Word2Vec訓(xùn)練的詞向量與BTM主題模型訓(xùn)練的主題向量拼接作為特征向量進(jìn)行特征擴(kuò)展,結(jié)果表明分類效果有所提高。Lei Shi等人[18]提出一種自聚集的方法將短文本聚合為聚集文檔捕獲短文本的動(dòng)態(tài)變化并解決短文本的稀疏性問(wèn)題。王云云等人[19]針對(duì)短文本中的一詞多義問(wèn)題,提出了融合詞向量與BTM的Multi-TWE多維詞向量模型進(jìn)行短文本分類,分類效果有所提高。鄭騰等人[20]針對(duì)短文本信息量少、特征稀疏等特點(diǎn),在短文本的基礎(chǔ)上利用LDA主題模型得到文檔主題分布并將主題詞擴(kuò)充到原短文本中。

        綜上,基于語(yǔ)義的方法對(duì)引入外部語(yǔ)料庫(kù)質(zhì)量依賴性較高,在增加語(yǔ)義信息的同時(shí)也會(huì)引入泛化能力不強(qiáng)的樣本;而基于規(guī)則的方法則依賴于文本本身內(nèi)容和潛在的語(yǔ)義關(guān)系來(lái)構(gòu)建特征集,但是在構(gòu)建這種特征集合的精確度上有一定的局限性。

        考慮到以上兩種方面的特點(diǎn),該文將上述兩種方法相結(jié)合,提出了融合詞向量[21]及BTM主題模型[22]并輔以長(zhǎng)文本擴(kuò)充語(yǔ)義的用戶需求分類方法,通過(guò)引用長(zhǎng)文本作為外部語(yǔ)料庫(kù)對(duì)短文本信息內(nèi)容進(jìn)行擴(kuò)充,來(lái)解決短文本的信息量少和缺少上下文的問(wèn)題。通過(guò)運(yùn)用BTM主題模型在文本中的主題概率特征,詞向量在LSTM中的編碼特征作為分類的特征擴(kuò)展,用以解決特征的稀疏問(wèn)題。

        1 基于BTM和長(zhǎng)文本語(yǔ)義增強(qiáng)的分類方法

        1.1 方法流程

        對(duì)于用戶評(píng)論來(lái)說(shuō),由于其文本較短,所以其包含的信息量較少、特征稀疏、缺少上下文信息。傳統(tǒng)的LDA主題模型對(duì)于長(zhǎng)文本具有很好的分類效果,但對(duì)于用戶評(píng)論這類短文本的分類效果不佳。主要原因是其無(wú)法計(jì)算出各個(gè)詞在主題中的重要性。該文提出了基于BTM和長(zhǎng)文本語(yǔ)義增強(qiáng)的用戶評(píng)論分類方法,結(jié)合LDA模型在長(zhǎng)文本中的優(yōu)勢(shì),用長(zhǎng)文本來(lái)彌補(bǔ)短文本語(yǔ)義信息缺乏的問(wèn)題。首先,選取特定的長(zhǎng)文本作為外部語(yǔ)料庫(kù)進(jìn)行短文本擴(kuò)展;然后,運(yùn)用Word2vec和LSTM(Long Short Term Memory)訓(xùn)練得到的短文本的編碼特征與BTM主題模型訓(xùn)練下得到的主題概率特征拼接得到擴(kuò)展后的短文本特征;最后,使用SVM進(jìn)行用戶評(píng)論短文本的分類檢驗(yàn),并與傳統(tǒng)分類及單一模型進(jìn)行對(duì)比。其用戶評(píng)論分類流程框架如圖1所示。

        圖1 分類流程框架

        ①長(zhǎng)文本主題訓(xùn)練:外部語(yǔ)料庫(kù)得到的與類別相關(guān)的長(zhǎng)文本預(yù)處理后運(yùn)用LDA主題模型訓(xùn)練并進(jìn)行最大主題概率主題下詞項(xiàng)的提取。

        工程水土保持監(jiān)測(cè)區(qū)劃分為路基工程區(qū)、橋涵隧道工程區(qū)、取土場(chǎng)與臨時(shí)堆土及棄渣場(chǎng)區(qū)、沿線附屬設(shè)施區(qū)和施工場(chǎng)地及便道區(qū)。監(jiān)測(cè)的重點(diǎn)區(qū)域?yàn)槿⊥翀?chǎng)、棄渣場(chǎng)、臨時(shí)堆土場(chǎng)、大型開(kāi)挖邊坡及路基邊坡、施工場(chǎng)地及收費(fèi)管理所等服務(wù)設(shè)施。

        ③長(zhǎng)文本語(yǔ)義增強(qiáng):將長(zhǎng)文本中提取到的詞項(xiàng)基于匹配規(guī)則對(duì)預(yù)處理后的文本樣本進(jìn)行短文本擴(kuò)充,增強(qiáng)短文本的語(yǔ)義信息。

        ②訓(xùn)練文本樣本預(yù)處理:將用戶評(píng)論分為測(cè)試集和訓(xùn)練集后進(jìn)行人工標(biāo)注、分詞、去除停止詞、詞性標(biāo)注等預(yù)處理。

        ④特征擴(kuò)展與分類預(yù)測(cè):基于BTM主題模型選取文本概率特征;基于Word2vec和LSTM提取文本的編碼特征并進(jìn)行特征組合實(shí)現(xiàn)特征擴(kuò)展,并將其作為分類文本樣本的總體特征。利用支持向量機(jī)的方法進(jìn)行文本樣本分類預(yù)測(cè),檢驗(yàn)該方法的分類效果。

        1.2 長(zhǎng)文本對(duì)短文本基于匹配的擴(kuò)充方法

        該文研究的中文用戶評(píng)論屬于短文本中的一類,其文本長(zhǎng)度最長(zhǎng)不超過(guò)一百個(gè)字符??梢酝ㄟ^(guò)引入外部語(yǔ)料庫(kù)來(lái)擴(kuò)充該類短文本的信息。但引入外部語(yǔ)料庫(kù)內(nèi)容的質(zhì)量會(huì)直接影響短文本擴(kuò)充的效果,因?yàn)橐霐U(kuò)充信息的同時(shí)也會(huì)引入大量的噪音數(shù)據(jù),而且這些引入的外部文本數(shù)據(jù)缺少與原文所對(duì)應(yīng)的上下文信息,引入之后會(huì)造成短文本原文語(yǔ)義內(nèi)容和含義上的變化。因此,該文引入的外部預(yù)料信息與主題模型相結(jié)合,將其作為長(zhǎng)文本放到主題模型中,長(zhǎng)文本中最符合短文本語(yǔ)句內(nèi)容的詞項(xiàng)作為短文本信息內(nèi)容的擴(kuò)展。該文以小米手機(jī)的用戶評(píng)論為研究案例,將在網(wǎng)絡(luò)上爬取的用戶評(píng)論分為三大類別,分別是:功能贊揚(yáng)、功能改進(jìn)和其他。

        (1)功能贊揚(yáng):對(duì)小米手機(jī)內(nèi)在功能、性能、系統(tǒng)、運(yùn)行等正面的評(píng)價(jià),是用戶對(duì)手機(jī)各方面高滿意度的認(rèn)可。

        (2)功能改進(jìn):對(duì)小米手機(jī)存在的一些缺陷,需要改善的方面的中性的或是負(fù)面的評(píng)價(jià)。是用戶對(duì)手機(jī)各方面潛在的需求。

        Step 3 Build the mapping form ujto pj,and complete the establishment of the DWWIKPof the manipulator.

        首先,引入長(zhǎng)文本,運(yùn)用LDA主題模型挖掘最大概率下主題下的詞匯進(jìn)行短文本的擴(kuò)充。對(duì)于LDA主題模型來(lái)說(shuō)其主題數(shù)是不確定的,該文使用困惑度參數(shù)來(lái)確定長(zhǎng)文本的最佳主題數(shù)。困惑度是度量概率分布或概率模型預(yù)測(cè)結(jié)果與樣本的契合程度,即:對(duì)于一個(gè)文檔D,所訓(xùn)練出來(lái)的模型對(duì)于文檔D屬于哪個(gè)主題的確定程度。困惑度越小,說(shuō)明模型的效果越好,困惑度計(jì)算公式如下所示:

        以上獲取到的這三類用戶評(píng)論都是短文本類型。由于短文本本身篇幅較短,導(dǎo)致本身特征偏少、信息量少。經(jīng)過(guò)去除停止詞、特征選擇之后,去掉了一部分特征詞,使得特征詞更少,有些短文本中甚至就只剩下一兩個(gè)特征詞。特征詞數(shù)量少雖然可以降低計(jì)算的復(fù)雜度,但是容易在分類中造成特征稀疏的嚴(yán)重后果,影響分類效率。為了降低文本特征稀疏對(duì)分類帶來(lái)的影響,更好的進(jìn)行分類操作需要在其他語(yǔ)料庫(kù)中獲取與之相匹配的長(zhǎng)文本,將其放到LDA主題模型中進(jìn)行訓(xùn)練。LDA主題模型以單個(gè)詞的多項(xiàng)式分布對(duì)應(yīng)主題分布,對(duì)短文本進(jìn)行主題建模的效果不佳,但適合于長(zhǎng)文本的主題建模。因此,該文設(shè)計(jì)了基于匹配規(guī)則的短文本擴(kuò)充方法,既在外部擴(kuò)充了短文本的文本信息又兼顧了短文本的上下文信息,對(duì)后面分類也起到了良好的效果。當(dāng)分類文本樣本的分詞與長(zhǎng)文本LDA模型訓(xùn)練后得出的最大概率主題下n個(gè)詞項(xiàng)的任意一個(gè)詞項(xiàng)重合時(shí),將最大概率主題下全部的前n個(gè)詞項(xiàng)都分配給分類文本樣本,其基于匹配的短文本擴(kuò)充方法具體流程如下所示:

        輸入:長(zhǎng)文本在LDA主題模型下最大主題概率下的詞項(xiàng)C{c1,c2,…,cm},需要擴(kuò)充的短文本文檔Ti{d1,d2,…,dn}

        算法1:

        輸出:長(zhǎng)文本擴(kuò)充后的用戶評(píng)論短文本

        步驟:

        常用的磨損顆粒檢測(cè)法有鐵譜分析法、磁塞檢測(cè)法、紅外光譜法、顆粒消光計(jì)數(shù)法[6].顆粒消光法利用含有顆粒的介質(zhì)對(duì)激光的反射和吸收特征判斷顆粒的大小和數(shù)量[7-10],該方法測(cè)量精度高,可同時(shí)獲得顆粒的尺寸和數(shù)量信息,且實(shí)現(xiàn)方法簡(jiǎn)單,便于便攜設(shè)計(jì),達(dá)到“在線”測(cè)試目的.

        ②將Ti中的dj送入詞匯集合C{c1,c2,…,cm}中;

        ③if短文本dj滿足集合C{c1,c2,…,cm}中某個(gè)詞項(xiàng),則將集合C{c1,c2,…,cm}中的全部詞項(xiàng)添加到Ti{d1,d2,…,dn}中

        ifi

        令i=i+1,重復(fù)②③步驟;

        else

        21世紀(jì),農(nóng)業(yè)的可持續(xù)發(fā)展和保障糧食安全是全球的主要關(guān)注點(diǎn)。2010年,全球饑餓總?cè)藬?shù)增長(zhǎng)到了10億,隨后聯(lián)合國(guó)、G20和APEC都把農(nóng)業(yè)發(fā)展作為了重要討論議題。在國(guó)際方面,對(duì)農(nóng)業(yè)的國(guó)際合作也展開(kāi)討論,將農(nóng)業(yè)發(fā)展作為主要發(fā)展目標(biāo)。農(nóng)業(yè)發(fā)展速度較快時(shí),農(nóng)業(yè)合作便成為了當(dāng)前國(guó)家和國(guó)家外交的重要主題[1]。

        自從易非買(mǎi)了房后,他們的關(guān)系就不知不覺(jué)地進(jìn)了一大步,有一天陳留送易非回來(lái),老媽正好在家,他們就這樣見(jiàn)面了,陳留表現(xiàn)得大方得體,母親似乎也很喜歡。再后來(lái),易非過(guò)生日,陳留帶了蛋糕和鮮花來(lái),就算是正式見(jiàn)面了。

        令j=j+1,i=1,重復(fù)②③步驟;

        else

        11月30日,國(guó)家統(tǒng)計(jì)局服務(wù)業(yè)調(diào)查中心和中國(guó)物流與采購(gòu)聯(lián)合會(huì)發(fā)布了中國(guó)采購(gòu)經(jīng)理指數(shù),11月份,制造業(yè)PMI為50.0%,環(huán)比小幅回落0.2個(gè)百分點(diǎn),處于臨界點(diǎn)。對(duì)此,國(guó)家統(tǒng)計(jì)局服務(wù)業(yè)調(diào)查中心高級(jí)統(tǒng)計(jì)師趙慶河表示,11月中國(guó)制造業(yè)采購(gòu)經(jīng)理指數(shù)小幅回落,制造業(yè)景氣度雖回落,但結(jié)構(gòu)持續(xù)改善。

        令j=j+1 ,i=1,重復(fù)②③步驟

        1.3 訓(xùn)練集、測(cè)試集預(yù)處理及人工標(biāo)注

        對(duì)測(cè)試集、訓(xùn)練集進(jìn)行去除停止詞、分詞、詞性標(biāo)注等預(yù)處理,在人工標(biāo)注的處理下分為三大類:功能贊揚(yáng)、功能改進(jìn)和其他。預(yù)處理結(jié)束前后訓(xùn)練文本如表1所示。

        表1 預(yù)處理前后訓(xùn)練文本

        1.4 短文本BTM主題訓(xùn)練、詞向量訓(xùn)練及SVM分類

        通過(guò)計(jì)算機(jī)課程實(shí)踐教學(xué)內(nèi)容、教學(xué)方式、教學(xué)評(píng)價(jià)貼近實(shí)際,研究增強(qiáng)學(xué)生主體意識(shí)能力,優(yōu)化學(xué)習(xí)方式和策略,養(yǎng)成良好的習(xí)慣等,激發(fā)學(xué)生學(xué)習(xí)興趣,提高學(xué)生的課程實(shí)踐素養(yǎng),促進(jìn)學(xué)生發(fā)展計(jì)算機(jī)實(shí)踐技能以及綜合分析、發(fā)現(xiàn)和解決問(wèn)題的能力,讓學(xué)生創(chuàng)新精神和實(shí)踐能力。

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)包括來(lái)自京東APP的小米11型號(hào)手機(jī)的真實(shí)用戶評(píng)論和從百度百科、維基百科、小米官網(wǎng)、知乎等平臺(tái)獲取的小米11型號(hào)手機(jī)測(cè)評(píng)介紹相關(guān)的長(zhǎng)文本。其中長(zhǎng)文本共計(jì)11 551個(gè)字符。真實(shí)用戶評(píng)論6 016條,其評(píng)論時(shí)間在2021年6月到10月之間。將用戶評(píng)論分割為句子,進(jìn)行人工標(biāo)記(筆者及兩名計(jì)算機(jī)專業(yè)碩士生共同參與用戶評(píng)論句子標(biāo)記)標(biāo)記完成后總共得到三類用戶評(píng)論(功能贊揚(yáng),功能改進(jìn)和其他)用戶評(píng)論為4 490條。其各類用戶評(píng)論的數(shù)量和示例描述如表2所示。

        表2 用戶評(píng)論數(shù)量及示例

        2.2 評(píng)價(jià)標(biāo)準(zhǔn)

        問(wèn)題的分類結(jié)果及評(píng)價(jià)標(biāo)準(zhǔn)在文中采用3項(xiàng)指標(biāo)來(lái)衡量,即:準(zhǔn)確率(Precision)、召回率(Recall)及F-measure(F1或F-score),如下所示:

        (1)

        (2)

        (3)

        其中,TPi為用戶評(píng)論分類模型分類為類別i的用戶評(píng)論中實(shí)際屬于類別i的用戶評(píng)論數(shù);FPi為用戶評(píng)論分類模型分類為類別i的用戶評(píng)論中實(shí)際不屬于類別i的用戶評(píng)論數(shù);FNi為用戶評(píng)論分類模型沒(méi)有分類為i的用戶評(píng)論但實(shí)際屬于i的用戶評(píng)論數(shù)。類型i的準(zhǔn)確率是指分類得到的類型i的用戶評(píng)論中真正屬于類別i的比例;類型i的召回率是指分類得到的真正類型i的用戶評(píng)論占數(shù)據(jù)集中類型i的用戶評(píng)論的比例。召回率和準(zhǔn)確率兩者是相互制約的。F-measure是評(píng)估準(zhǔn)確率和召回率的調(diào)和平均值,提供了兩者結(jié)合的精確度量。

        2.3 實(shí)驗(yàn)過(guò)程

        其中,M為文檔集合中文檔的總數(shù)目,Nd為第d篇文檔中詞項(xiàng)的數(shù)目,p(wd)為第d篇文檔的概率,也即這篇文檔中每個(gè)詞項(xiàng)概率的乘積,而對(duì)于任意一個(gè)單詞w,單詞概率p(w)=∑p(z|d)×p(w|z),z代表主題,p(z|d)為各個(gè)主題下該詞所在文檔的概率,p(w|z)為該詞在各個(gè)主題下的概率。圖2表示長(zhǎng)文本在LDA主題模型中各個(gè)主題數(shù)下困惑度的折線圖。由圖2可知,在主題數(shù)為30時(shí),困惑度最小。因此,選取主題數(shù)為30為最佳主題數(shù),并選取其中最大概率主題下的詞項(xiàng)作為短文本的擴(kuò)充。

        (3)其他:不包括前兩方面,一些其他的評(píng)價(jià),例如物流、客服、價(jià)格等。

        ①令i=1,j=1;

        (4)

        2.3.1 長(zhǎng)文本主題確定

        圖2 長(zhǎng)文本在各個(gè)主題下的困惑度

        2.3.2 長(zhǎng)文本語(yǔ)義增強(qiáng)

        對(duì)預(yù)處理后外部語(yǔ)料庫(kù)中的長(zhǎng)文本運(yùn)用LDA主題模型進(jìn)行文檔-主題概率,主題-詞矩陣的共現(xiàn)。首先,選取所有主題中概率最大的主題;之后,選取最大主題下概率最大的詞項(xiàng),選取的最大概率主題下的前30個(gè)詞項(xiàng)按概率排序依次為“支持,屏幕,視頻,電影,提升,拍照,性能,模式,素皮,鏡頭,高清,像素,藍(lán)牙,功能,采用,玻璃,智能,曲面,機(jī)身,旗艦,全新,切換,影像,系統(tǒng),無(wú)線,夜景,搭載,美顏,專業(yè),充電”。分別選取不同數(shù)量的主題詞基于匹配規(guī)則進(jìn)行短文本的擴(kuò)充,其擴(kuò)充示例如表3所示(選取最大概率主題下的前5個(gè)詞項(xiàng)擴(kuò)充)。擴(kuò)充后的短文本語(yǔ)義信息與上下文關(guān)系更加完備,于是將其作為下一步特征擴(kuò)展和分類的文本數(shù)據(jù)集。至此完成了分類流程中的第三部分。

        顧實(shí)《漢書(shū)藝文志講疏》云:“此《屈原賦》之屬,蓋主抒情者也?!薄?〕179“此《陸賈賦》之屬,蓋主說(shuō)辭者也?!薄?〕183“此《荀卿賦》之屬,蓋主效物者也?!薄?〕188

        表3 詞項(xiàng)擴(kuò)充示例

        2.3.3 特征擴(kuò)展與分類

        將長(zhǎng)文本中獲取的詞項(xiàng)擴(kuò)充到用戶評(píng)論中,使短文本獲得了較為完備的語(yǔ)義信息,下一步是進(jìn)行分類流程中的第四部分:即短文本特征擴(kuò)展。首先,將詞項(xiàng)擴(kuò)充后的短文本作為本文的分類樣本數(shù)據(jù)集。運(yùn)用BTM主題模型進(jìn)行訓(xùn)練得到文本樣本的概率特征數(shù)據(jù)集,如圖3所示,其中行數(shù)代表需要進(jìn)行分類的文本樣本數(shù)據(jù)數(shù)量,列數(shù)代表BTM主題模型提取的主題數(shù)量;運(yùn)用Word2vec進(jìn)行訓(xùn)練構(gòu)建文本樣本的詞向量編碼特征數(shù)據(jù)集,如圖4所示,其中行數(shù)代表需要進(jìn)行分類的文本樣本數(shù)據(jù)數(shù)量,列數(shù)代表詞嵌入矩陣的維度;運(yùn)用LSTM長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)其特征是進(jìn)入模型后的中間編碼特征數(shù)據(jù)集,如圖5所示,其中行數(shù)代表需要進(jìn)行分類的文本樣本數(shù)據(jù)數(shù)量,列數(shù)代表中間編碼特征的維度。將上述得到的三類特征結(jié)合作為文本特征,完成了對(duì)短文本特征擴(kuò)展。最后放到SVM分類器中進(jìn)行分類訓(xùn)練,檢驗(yàn)文中方法的分類效果。

        圖3 BTM主題概率特征集(部分)

        圖4 詞向量編碼特征集(部分)

        圖5 LSTM神經(jīng)網(wǎng)絡(luò)編碼特征集(部分)

        2.4 文中方法及對(duì)比方法結(jié)果分析

        2.4.1 實(shí)驗(yàn)對(duì)比

        在Anaconda的tensorflow虛擬環(huán)境下,使用Pycharm作為開(kāi)發(fā)平臺(tái)進(jìn)行文本預(yù)處理、LDA主題模型進(jìn)行主題概率的訓(xùn)練和預(yù)測(cè)(alpha=50/T,beta=0.005,獲取前30個(gè)主題的概率特征,迭代300次)、BTM主題模型進(jìn)行主題概率的訓(xùn)練和預(yù)測(cè)(alpha=50/T,beta=0.005,獲取前100個(gè)主題的概率特征,迭代500次)、構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)。為測(cè)試文中方法在用戶評(píng)論短文本分類上的效果,選擇基于向量空間模型的分類方法,基于詞向量和LSTM模型分類方法,基于LDA主題概率、詞向量和LSTM模型分類方法,基于BTM主題概率、詞向量和LSTM模型分類方法與文中方法進(jìn)行對(duì)比實(shí)驗(yàn)。其具體內(nèi)容和實(shí)驗(yàn)結(jié)果如表4所示。

        自2011年3月任職黑龍江省食品藥品檢驗(yàn)檢測(cè)所所長(zhǎng)以來(lái),短短5年時(shí)間,安宏就先后獲得省科技進(jìn)步二等獎(jiǎng)兩次,三等獎(jiǎng)兩次;省科技發(fā)明三等獎(jiǎng)一次;省醫(yī)藥行業(yè)科技進(jìn)步一等獎(jiǎng)一次,二等獎(jiǎng)一次;省高校科技二等獎(jiǎng)一次。同時(shí),他還擔(dān)任著省科學(xué)技術(shù)獎(jiǎng)勵(lì)委員會(huì)“醫(yī)藥制藥與生物醫(yī)學(xué)工程”行業(yè)評(píng)審組評(píng)審委員,省科學(xué)技術(shù)獎(jiǎng)“醫(yī)藥行業(yè)”評(píng)審組評(píng)審委員,省科技經(jīng)濟(jì)顧問(wèn)委員會(huì)“食品藥品”專家組副組長(zhǎng)。2012年,他獲得全國(guó)醫(yī)藥衛(wèi)生系統(tǒng)爭(zhēng)先創(chuàng)優(yōu)先進(jìn)個(gè)人稱號(hào);2014年被評(píng)為省直機(jī)關(guān)“十佳公仆”;2015年被評(píng)為全省“優(yōu)秀公仆”。

        表4 對(duì)比實(shí)驗(yàn)的方法和數(shù)據(jù)

        表4中,方法一采用的是傳統(tǒng)的VSM向量空間模型,引入TF-IDF表示文本特征,雖然可以完成短文本分類但是由于短文本蘊(yùn)含的信息量少、語(yǔ)句短小,因此這類傳統(tǒng)方法會(huì)造成特征矩陣的稀疏性,從而導(dǎo)致分類效果不佳;方法二引入了詞向量和深度學(xué)習(xí)模型,雖然可以解決方法一中特征矩陣稀疏造成的分類效果不佳的問(wèn)題,但是僅僅引入了詞向量一個(gè)特征維度并沒(méi)有與主題模型相結(jié)合;方法三在方法二的基礎(chǔ)上引入了LDA主題模型的文本主題概率特征的維度,對(duì)分類效果有一定的提升。但是LDA主題模型主要針對(duì)的是長(zhǎng)文本文檔下各個(gè)主題概率的共現(xiàn),對(duì)短文本訓(xùn)練效果不佳;方法四是針對(duì)短文本的特征使用基于詞對(duì)共現(xiàn)的BTM主題概率特征,雖然提高了分類效果,但是并沒(méi)有與長(zhǎng)文本結(jié)合解決短文本語(yǔ)義缺失的本質(zhì)。文中所提出的結(jié)合長(zhǎng)文本的分類方法在準(zhǔn)確率、召回率、F-measure上明顯好于前四種分類方法,既引入了結(jié)合LDA主題模型的長(zhǎng)文本最大概率主題的主題詞,對(duì)用戶評(píng)論進(jìn)行語(yǔ)義增強(qiáng)解決了短文本信息缺乏、上下文語(yǔ)義不足的問(wèn)題,又引入了詞向量、神經(jīng)網(wǎng)絡(luò)編碼特征和BTM主題概率特征,解決了特征稀疏的問(wèn)題,增強(qiáng)了分類效果。

        2.4.2 長(zhǎng)文本主題詞數(shù)對(duì)短文本分類效果的影響

        2.2.3 對(duì)鐵磁性材質(zhì)類植入物,或說(shuō)明書(shū)未標(biāo)明材質(zhì)性質(zhì)并且未說(shuō)明若行MRI檢查的條件或注意事項(xiàng)的植入物,歸于MRI禁忌類。

        一是加大涉農(nóng)案件執(zhí)行力度,加強(qiáng)失信聯(lián)合懲戒,強(qiáng)化執(zhí)行強(qiáng)制措施,切實(shí)維護(hù)鄉(xiāng)村當(dāng)事人的勝訴權(quán)益。二是積極開(kāi)展國(guó)家司法救助,對(duì)權(quán)利受到侵害但無(wú)法獲得有效賠償?shù)纳孓r(nóng)案件當(dāng)事人,給予適當(dāng)經(jīng)濟(jì)資助,幫助他們擺脫困境。三是對(duì)經(jīng)濟(jì)確有困難的當(dāng)事人,依法緩減免交訴訟費(fèi),確保困難鄉(xiāng)村群眾能夠打得起官司。四是大力開(kāi)展巡回審判,讓法官多跑路、讓群眾少跑腿,降低群眾訴訟成本,減少群眾訴累,讓鄉(xiāng)村群眾切實(shí)享受到便捷高效優(yōu)質(zhì)的訴訟服務(wù)。

        表5表示文中方法結(jié)合長(zhǎng)文本不同主題詞數(shù)下對(duì)分類效果的影響。由表5分析得出,當(dāng)引入長(zhǎng)文本最大概率主題下的詞數(shù)為30、25時(shí),F-measure分別為0.930 6和0.942 2;引入詞數(shù)為10、5和0時(shí),F-measure分別為0.937 6、0.936 4和0.892 9;當(dāng)引入的長(zhǎng)文本最大概率主題下的詞數(shù)為20和15時(shí),F-measure分別為0.944 8和0.957 2;引入15個(gè)主題詞時(shí)的分類效果最好,F-measure能達(dá)到0.957 2。這說(shuō)明當(dāng)引入長(zhǎng)文本主題詞的數(shù)量太多或太少都會(huì)影響分類效果。這是因?yàn)楫?dāng)引入的主題詞數(shù)較多時(shí)會(huì)將泛化能力不強(qiáng)的噪聲詞擴(kuò)充到短文本中,使得分類的噪聲增多降低分類的效果;而引入的主題詞數(shù)較少時(shí),并不能擴(kuò)充足夠與樣本相關(guān)的文本信息,造成上下文信息缺乏同樣影響分類的結(jié)果。引入適當(dāng)數(shù)量的主題詞是提高分類效果的關(guān)鍵。

        表5 文中方法結(jié)合長(zhǎng)文本不同主題詞數(shù)下的分類效果

        3 結(jié)束語(yǔ)

        該文提出了基于BTM主題模型和長(zhǎng)文本語(yǔ)義增強(qiáng)的用戶評(píng)論分類方法。從基于語(yǔ)義的層面上提出運(yùn)用相關(guān)長(zhǎng)文本在LDA主題模型上對(duì)短文本進(jìn)行擴(kuò)充,解決了短文本信息量少、缺乏上下文信息的問(wèn)題;從基于規(guī)則的層面上提出用BTM文本主題概率和詞向量作為特征進(jìn)行特征擴(kuò)展,解決了特征稀疏的問(wèn)題。從京東APP獲取的小米手機(jī)真實(shí)的用戶評(píng)論和從百度百科、維基百科、小米官網(wǎng)、知乎等平臺(tái)獲取的小米11型號(hào)手機(jī)相關(guān)的長(zhǎng)文本進(jìn)行實(shí)驗(yàn)研究,利用支持向量機(jī)的分類方法多次與其他方法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明提出的方法在選取適合數(shù)量的長(zhǎng)文本主題詞時(shí)其預(yù)測(cè)準(zhǔn)確率、召回率、F-measure均有良好的表現(xiàn)。但是,該方法仍然有一定的不足,例如對(duì)用戶評(píng)論進(jìn)行人工標(biāo)注時(shí)具有一定的主觀性,會(huì)造成標(biāo)注誤差;在運(yùn)用主題模型進(jìn)行概率特征預(yù)測(cè)時(shí)最佳參數(shù)的選取等。在下一階段的研究中可以挖掘更具有代表性的特征進(jìn)行特征擴(kuò)展來(lái)解決特征稀疏的問(wèn)題;進(jìn)一步嘗試不同主題概率特征的數(shù)量對(duì)分類效果的影響;進(jìn)一步驗(yàn)證該方法在不同數(shù)據(jù)集上的分類效果。這些是未來(lái)需要研究和解決的問(wèn)題。

        猜你喜歡
        語(yǔ)義分類特征
        分類算一算
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        久久精品国产清自在天天线| 亚洲视频在线免费不卡| 手机久草视频福利在线观看| 亚洲中文字幕人妻久久| 国产免费又爽又色又粗视频| 两个人看的www免费视频中文| 国产白丝无码视频在线观看| 日韩毛片在线| 伊人久久五月丁香综合中文亚洲 | 日韩av无卡无码午夜观看| 日韩av最新在线地址| 在线观看国产一区二区av | 国产免费又爽又色又粗视频| 免费无码午夜福利片69| 人人妻人人澡av天堂香蕉| 欧美久久久久中文字幕| 国产一区二区三区av免费观看| 日韩一区二区中文字幕视频 | 少妇饥渴偷公乱a级无码| 日韩精品一区二区三区在线观看 | 日本久久精品视频免费| 国产精品免费无遮挡无码永久视频| 麻豆国产在线精品国偷产拍| 丰满爆乳一区二区三区| 精品国产免费久久久久久| 一区二区三区手机看片日本韩国| 亚洲av成熟国产一区二区| 99久久久无码国产精品秋霞网| 免费观看性欧美大片无片| 亚洲色图在线观看视频| 亚洲国产精品综合福利专区| 人妻精品一区二区三区蜜桃| 免费成人电影在线观看| 亚洲av福利无码无一区二区| 日韩AV不卡一区二区三区无码| 男人的av天堂狠狠操| 亚洲国产日韩一区二区三区四区| 国内最真实的xxxx人伦| 嗯啊哦快使劲呻吟高潮视频| 亚洲成a∨人片在线观看无码| 超短裙老师在线观看一区|