亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word2Vec的中文短文本分類問題研究①

        2018-05-17 06:48:08王德強(qiáng)
        關(guān)鍵詞:短文文檔權(quán)重

        汪 靜,羅 浪,王德強(qiáng)

        (中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074)

        1 引言

        移動(dòng)終端的智能化和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展促使人們在移動(dòng)互聯(lián)網(wǎng)上交流的越來越頻繁,由此產(chǎn)生了大量的信息數(shù)據(jù)[1],這些數(shù)據(jù)多以短文本的形式作為信息傳遞的載體,例如微博和即時(shí)推送新聞等,其內(nèi)容通常都是簡潔精煉并且含義概括,具有很高的研究價(jià)值.因此,如何通過機(jī)器對這些短文本內(nèi)容進(jìn)行自動(dòng)分類以及對短文本所具有的豐富含義進(jìn)行有效的理解鑒別已經(jīng)成為自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)和難點(diǎn)[2].

        短文本自動(dòng)分類首先需要將文本轉(zhuǎn)化為計(jì)算機(jī)能理解處理的形式,即文本數(shù)據(jù)的表示,其對文本分類至關(guān)重要,可直接影響分類效果.傳統(tǒng)的文本表示方法主要基于空間向量模型 (Vector Space Model,VSM),俗稱詞袋模型[3],該方法認(rèn)為文檔是無序詞項(xiàng)的集合,丟棄了詞序、語法等文檔結(jié)構(gòu)信息,忽略了詞語間的語義關(guān)系,存在數(shù)據(jù)高維稀疏問題,對分類效果的提升存在瓶頸.于是一些學(xué)者引入外部的知識庫(如搜索引擎、維基百科等)對文本進(jìn)行特征擴(kuò)展,豐富詞語間語義關(guān)系[4,5],但其嚴(yán)重依賴外部知識庫的質(zhì)量,對于知識庫中未收錄的概念無能為力且計(jì)算量大、耗時(shí)長.另有部分學(xué)者挖掘文本潛在的語義結(jié)構(gòu)[6],生成主題模型如LSA,pLSI和 LDA[7–9],但模型構(gòu)建屬于“文本”層面,缺少細(xì)節(jié)性研究.因此短文本的表示方法還有待研究.

        Bengio在2003年首次提出了神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model,NNLM),但由于其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相對較復(fù)雜,許多學(xué)者在其基礎(chǔ)上進(jìn)行改進(jìn)優(yōu)化,最具代表性之一的當(dāng)屬T.Mikolov等人在2013年基于神經(jīng)網(wǎng)絡(luò)提出的Word2Vec模型[10].Word2Vec模型通過對詞語的上下文及詞語與上下文的語義關(guān)系進(jìn)行建模,將詞語映射到一個(gè)抽象的低維實(shí)數(shù)空間,生成對應(yīng)的詞向量.Word2vec詞向量的維度通常在100~300維之間,每一維都代表了詞的淺層語義特征[11],通過向量之間的距離反映詞語之間的相似度,這使得Word2Vec模型生成的詞向量廣泛應(yīng)用于自然語言處理 (Natural Language Processing,NLP)的各類任務(wù)中,如中文分詞[12],POS 標(biāo)注[13],文本分類[14,15],語法依賴關(guān)系分析[16]等.與傳統(tǒng)的空間向量文本表示模型相比,使用詞向量表示文本,既能解決傳統(tǒng)向量空間模型的特征高維稀疏問題,還能引入傳統(tǒng)模型不具有的語義特征解決“詞匯鴻溝”問題,有助于短文本分類[17].但如何利用詞向量有效表示短文本是當(dāng)前的一個(gè)難點(diǎn),目前在這方面的研究進(jìn)展緩慢,常見的方法有對短文本所包含的所有詞向量求平均值[18],但卻忽略了單個(gè)詞向量對文本表示的重要程度不同,對短文本向量的表示并不準(zhǔn)確.Quoc Le和Tomas Mikolov[19]在2014年提出的Doc2Vec方法在句子訓(xùn)練過程中加入段落ID,在句子的訓(xùn)練過程中共享同一個(gè)段落向量,但其效果與Word2Vec模型的效果相當(dāng),甚至有時(shí)訓(xùn)練效果不如Word2Vec模型.唐明等人[20]注重單個(gè)單詞對整篇文檔的影響力,利用TF-IDF算法計(jì)算文檔中詞的權(quán)重,結(jié)合Word2Vec詞向量生成文檔向量,但其單純以詞頻作為權(quán)重考慮因素太單一,生成文本向量精確度不夠,未考慮文本中所含有的利于文本分類的因素的重要性,比如名詞、動(dòng)詞等不同詞性的詞對于文本內(nèi)容的反映程度是不同的,詞性對于特征詞語的權(quán)重應(yīng)該也是有影響的.在上述研究的基礎(chǔ)上,考慮到不同詞性的詞語對短文本分類的貢獻(xiàn)度不同,引入基于詞性的貢獻(xiàn)因子與TF-IDF算法結(jié)合作為詞向量的權(quán)重對短文本中的詞向量進(jìn)行加權(quán)求和,并在復(fù)旦大學(xué)中文文本分類語料庫上進(jìn)行測試,測試結(jié)果驗(yàn)證了改進(jìn)方法的有效性.

        2 相關(guān)工作

        短文本自動(dòng)分類是在預(yù)定義的分類體系下,讓計(jì)算機(jī)根據(jù)短文本的特征(詞條或短語)確定與它關(guān)聯(lián)的類別,是一個(gè)有監(jiān)督的學(xué)習(xí)過程.在自動(dòng)文本分類領(lǐng)域常用的技術(shù)有樸素貝葉斯分類器(Navie Bayes Classifier)、支持向量機(jī) (Support Vector Machine,SVM)、K 進(jìn)鄰算法(KNN)等.本文提出的短文本分類算法結(jié)合Word2Vec和改進(jìn)的TF-IDF兩種模型.

        2.1 Word2Vec模型

        Word2Vec 模型包含了 Continuous Bag of Word(CBOW)和Skip-gram兩種訓(xùn)練模型,這兩種模型類似于NNLM,區(qū)別在于NNLM是為了訓(xùn)練語言模型,詞向量只是作為一個(gè)副產(chǎn)品同時(shí)得到,而CBOW和Skip-gram模型的直接目的就是得到高質(zhì)量的詞向量,且簡化訓(xùn)練步驟優(yōu)化合成方式,直接降低了運(yùn)算復(fù)雜度.兩種模型都包括輸入層、投影層、輸出層,其中CBOW模型利用詞wt的上下文wct去預(yù)測給定詞wt,而Skip-gram模型是在已知給定詞wt的前提下預(yù)測該詞的上下文wct.上下文wct的定義如公式(1)所示:

        其中c是給定詞wt的前后詞語數(shù)目.CBOW模型和Skip-gram模型的優(yōu)化目標(biāo)函數(shù)分別為公式(2)和公式(3)的對數(shù)似然函數(shù):

        其中C代表包含所有詞語的語料庫,k代表當(dāng)前詞wt的窗口大小,即取當(dāng)前詞的前后各k個(gè)詞語.針對NNLM輸出層采用Softmax函數(shù)進(jìn)行歸一化處理計(jì)算復(fù)雜度較大的問題,Word2Vec模型結(jié)合赫夫曼編碼的Hierachical Softmax 算法和負(fù)采樣 (Negative Sampling)技術(shù)對式中的條件概率函數(shù)的構(gòu)造進(jìn)行優(yōu)化,處理如公式(4)所示,vw和vw'分別代表詞w的輸入輸出詞向量,W代表詞典大小.之后采用隨機(jī)梯度下降算法對模型的最優(yōu)參數(shù)進(jìn)行求解.

        當(dāng)模型訓(xùn)練完成時(shí)即可得到所有詞語對應(yīng)的詞向量,發(fā)現(xiàn)詞向量間往往存在類似的規(guī)律:由此可以看出Word2Vec模型對語義特征的有效表達(dá).

        2.2 TF-IDF模型

        詞頻與逆文檔頻率(Term Frequency-inverse Document Frequency,TF-IDF)是一種統(tǒng)計(jì)方法,用以評估詞語對于一份文件或者一個(gè)文件集的重要程度.字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會隨著它在語料庫中出現(xiàn)的頻率成反比下降.通俗表達(dá)的意思是如果某個(gè)詞或短語在一個(gè)類別中出現(xiàn)的頻率較高,并且在其他類別中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類[21].TF-IDF由詞頻和逆文檔頻率兩部分統(tǒng)計(jì)數(shù)據(jù)組合而成,即 TF×IDF.詞頻 (Term Frequency,TF)指的是某一個(gè)給定的詞語在該文檔中出現(xiàn)的頻率,計(jì)算公式如(5)所示:

        其中ni, j表示詞語ti在文檔dj中的出現(xiàn)次數(shù),分母則是在文檔dj中所有字詞的出現(xiàn)次數(shù)之和,k代表文檔dj中的總詞數(shù).已知語料庫中的文檔總數(shù),一個(gè)詞語的逆向文件頻率 (Inverse Document Frequency,IDF)可由總文檔數(shù)目除以包含有該詞語的文檔的數(shù)目得到,計(jì)算公式如(6)所示:

        其中表示語料庫中的文檔總數(shù),代表包含詞語ti的文檔數(shù)目(即的文檔數(shù)目),如果該詞語不在語料庫中會導(dǎo)致分母為零,因此一般情況下使用由此可得出詞語ti的TF-IDF權(quán)重歸一化后的計(jì)算公式如(7)所示:

        3 基于改進(jìn)的TF-IDF算法的加權(quán)Word2Vec分類模型

        短文本分類的關(guān)鍵在于短文本的表示,一般的做法是利用向量空間模型將文檔表示為TF-IDF的加權(quán)向量,但這樣得到的短文本向量往往有特征高維稀疏等問題.Word2Vec模型提供了一種獨(dú)特的方法解決特征稀疏問題,而且引入了語義特征,能訓(xùn)練出更加豐富準(zhǔn)確的詞向量,短文本向量即可由這些包含語義關(guān)系的詞向量表示.

        在Word2Vec詞向量的基礎(chǔ)上,結(jié)合改進(jìn)的TFIDF算法即PTF-IDF算法提出了短文本向量的表示方法及短文本分類模型.

        3.1 PTF-IDF

        傳統(tǒng)的TF-IDF權(quán)重計(jì)算方法用于短文本分類時(shí)是將文檔集作為整體考慮的,未體現(xiàn)出詞性對短文本分類的影響程度,但在實(shí)際的分類過程中,不同詞性的詞語對短文本分類的貢獻(xiàn)度和影響力是不同的.因此,本文考慮在TF-IDF基礎(chǔ)上根據(jù)詞語的詞性引入一個(gè)貢獻(xiàn)因子,通過調(diào)整詞性的特征權(quán)重,減少噪音項(xiàng)的干擾,凸顯特征詞的重要程度,使得不同類的短文本差別更明顯.

        通過已有的研究可以了解到,名詞、動(dòng)詞對文本內(nèi)容的反映程度更強(qiáng),更能表征文本的主題,而形容詞、副詞次之,其他詞性的詞對于短文本分類的貢獻(xiàn)更小.文獻(xiàn)[22]更是直接指出中文短文本主要依靠名詞、動(dòng)詞、形容詞、副詞4種詞性進(jìn)行表達(dá),文中給出了各種詞性的詞語對短文本內(nèi)容的表征能力,其中動(dòng)詞和名詞對短文本內(nèi)容的表征能力最強(qiáng),對分類類別具有更高的貢獻(xiàn)度.基于此,本文引入基于詞性的貢獻(xiàn)因子與TF-IDF算法結(jié)合作為詞向量的權(quán)重,改進(jìn)的TF-IDF算法(PTF-IDF算法)計(jì)算公式如(8)所示:

        式中,ti表示短文本中的當(dāng)前詞,e即為根據(jù)當(dāng)前詞的詞性所分配的權(quán)重系數(shù),且滿足即為公式(7).

        3.2 Word2Vec模型結(jié)合PTF-IDF算法表示短文本

        將Word2Vec模型應(yīng)用于文本分類解決了傳統(tǒng)空間向量模型的特征高維稀疏問題和“詞匯鴻溝”問題,但鑒于短文本具有篇幅短小、組成文本的特征詞少等不同于長文本的特點(diǎn),單個(gè)詞語的重要程度顯得尤為重要,因此與引入了詞性貢獻(xiàn)因子的PTF-IDF算法結(jié)合,借助PTF-IDF算法從詞頻和詞性兩方面計(jì)算短文本中詞匯的權(quán)重.

        Mikolov在文獻(xiàn)[10]中指出詞向量的學(xué)習(xí)不僅能學(xué)習(xí)到其語法特征,還能利用向量相加減的方式進(jìn)行語義上面的計(jì)算.為了突出單個(gè)詞語對文本內(nèi)容的影響,考慮其詞頻、詞性特征作為權(quán)重,可直接對短文本中的詞語進(jìn)行加權(quán)求和.在分類效果相差不大的情況下,相比于通過神經(jīng)網(wǎng)絡(luò)構(gòu)建短文本向量具有較高的復(fù)雜度,加權(quán)求和構(gòu)造短文本向量數(shù)學(xué)模型構(gòu)造簡單且更容易理解.對于每篇短文本其短文本向量可以表示為如(9)所示的形式:

        其中,wi表示分詞ti經(jīng)過Word2Vec模型訓(xùn)練出來的詞向量,通常將詞向量的維數(shù)定為200,因此短文本向量同樣是200維,大大減少了分類過程中的計(jì)算量.即為詞語ti引入了詞性貢獻(xiàn)因子的PTFIDF權(quán)重,Word2Vec詞向量乘以對應(yīng)的PTF-IDF權(quán)重得到加權(quán)Word2Vec詞向量.累加短文本中詞語的加權(quán)Word2Vec詞向量,得到短文本向量dj.

        3.3 短文本分類的工作流程

        對未知短文本的分類過程如圖1所示.首先利用Word2Vec模型對大型分好詞的語料庫進(jìn)行訓(xùn)練,將所有詞語根據(jù)其上下文語義關(guān)系映射到一個(gè)低維實(shí)數(shù)的空間向量,即可獲得每個(gè)詞語對應(yīng)的Word2Vec詞向量.利用結(jié)巴分詞工具對訓(xùn)練集中的短文本進(jìn)行分詞并與訓(xùn)練Word2Vec模型得到的詞向量一一對應(yīng).結(jié)巴分詞工具同樣可以對分好的詞語進(jìn)行詞性標(biāo)注,根據(jù)詞語的詞頻和詞性計(jì)算PTF-IDF值,與Word2Vec詞向量結(jié)合進(jìn)行加權(quán)求和得到短文本向量.

        很多研究表明,與其他分類系統(tǒng)相比,SVM在分類性能上和系統(tǒng)健壯性上表現(xiàn)出很大優(yōu)勢[23],因此實(shí)驗(yàn)選用SVM作為分類工具,根據(jù)短文本向量及其對應(yīng)的標(biāo)簽訓(xùn)練出分類器.測試過程與訓(xùn)練過程相似,只是最后通過已訓(xùn)練好的分類器預(yù)測測試短文本的標(biāo)簽.

        圖1 短文本分類的工作流程

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)集來自于由復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國際數(shù)據(jù)庫中心自然語言處理小組收集發(fā)布的文本分類數(shù)據(jù)集.原始數(shù)據(jù)集共20個(gè)分類,包含文本9804篇文檔,每個(gè)類別中所包含的文檔數(shù)量不等.本文選取其中文檔數(shù)量大于500的類別參與實(shí)驗(yàn),一共包含3435篇文檔,分別是藝術(shù)類、農(nóng)業(yè)類、經(jīng)濟(jì)類和政治類,每個(gè)分類下的文檔數(shù)量如表1所示.從中抽取新聞標(biāo)題作為中文短文本分類數(shù)據(jù)集,并把數(shù)據(jù)集隨機(jī)劃分成5份,每次取其中4份作為訓(xùn)練集,1份作為測試集,然后把5次分類結(jié)果的平均值作為最終結(jié)果.所有20個(gè)類別的正文內(nèi)容用Word2Vec模型訓(xùn)練詞向量.

        表1 數(shù)據(jù)集各類別文檔數(shù)量

        4.2 分類性能評價(jià)指標(biāo)

        分類任務(wù)的常用評價(jià)指標(biāo)有準(zhǔn)確率(Precision),召回率(Recall)和調(diào)和平均值F1.其中準(zhǔn)確率P是指分類結(jié)果中被正確分類的樣本個(gè)數(shù)與所有分類樣本數(shù)的比例.召回率R是指分類結(jié)果中被正確分類的樣本個(gè)數(shù)與該類的實(shí)際文本數(shù)的比例.F1是綜合考慮準(zhǔn)確率與召回率的一種評價(jià)標(biāo)準(zhǔn).計(jì)算公式分別如下所示:

        各參數(shù)含義如表2所示.

        表2 分類評價(jià)指標(biāo)參數(shù)含義表

        4.3 PTF-IDF算法的權(quán)重系數(shù)確定

        本文提出的分類模型在短文本分類問題上的準(zhǔn)確率受PTF-IDF權(quán)重系數(shù)的影響較大.為得到較好的分類效果,需要確定PTF-IDF算法中的最優(yōu)權(quán)重系數(shù).當(dāng)設(shè)置不同權(quán)重系數(shù)時(shí),基于Word2Vec模型與PTFIDF算法結(jié)合表示的短文本向量在SVM分類器中的分類效果不同,選取分類效果最好即F1值最大時(shí)的系數(shù)值作為PTF-IDF算法的權(quán)重系數(shù).

        由于動(dòng)詞和名詞對短文本內(nèi)容的表征能力最強(qiáng),因此實(shí)驗(yàn)中將名詞或者動(dòng)詞的權(quán)重系數(shù)α從0.5開始取值,按的規(guī)則,采用三重循環(huán)依次以0.1的步長增大的值.部分實(shí)驗(yàn)結(jié)果如表3所示.

        表3 F1 值與權(quán)重系數(shù)關(guān)系

        實(shí)驗(yàn)結(jié)果顯示當(dāng)分別取0.6、0.3、0.2時(shí),分類效果最好,F1 值可達(dá) 93.01%.當(dāng)取 0.8、0.4、0.2 時(shí)其次,F1 值也達(dá)到 92.79%,而當(dāng)三者系數(shù)相近時(shí),如分別取0.5、0.4、0.3和0.7、0.6、0.5時(shí)類似于原TF-IDF算法與Word2Vec詞向量加權(quán)求和,分類效果適中,由此也驗(yàn)證了引入詞性貢獻(xiàn)因子改進(jìn)TF-IDF算法對短文本分類的有效性.但并不是所有的詞性貢獻(xiàn)因子的組合都能取得不錯(cuò)的效果,當(dāng)過分看重名詞和動(dòng)詞的權(quán)重而忽略其他詞性的貢獻(xiàn)度時(shí)結(jié)果反而差強(qiáng)人意.因此通過合理調(diào)整詞性貢獻(xiàn)因子組合,獲得最優(yōu)的詞向量權(quán)重系數(shù),可以提升短文本的分類效果.

        4.4 實(shí)驗(yàn)對比與分析

        本文將分別使用TF-IDF、均值Word2Vec、TFIDF加權(quán)Word2Vec以及PTF-IDF加權(quán)Word2Vec四種模型對實(shí)驗(yàn)數(shù)據(jù)集中的新聞標(biāo)題進(jìn)行分類.

        對于TF-IDF分類模型,使用Scikit-learn提供的TfidfVectorizer模塊提取文本特征并將短文本向量化.均值Word2Vec模型是計(jì)算一篇短文本中所有通過Word2Vec模型訓(xùn)練出的Word2Vec詞向量的均值.TF-IDF加權(quán)Word2Vec模型是將短文本中詞向量和對應(yīng)詞匯的TF-IDF權(quán)重相乘得到的加權(quán)Word2Vec詞向量,累加加權(quán)詞向量得到加權(quán)短文本向量化表示.PTF-IDF加權(quán)Word2Vec模型與TF-IDF加權(quán)Word2Vec模型類似,只是引入詞性貢獻(xiàn)因子改進(jìn)TFIDF算法,綜合考慮詞性與詞頻為詞向量賦予不同的權(quán)重,根據(jù) 4.3小節(jié)中權(quán)重系數(shù)確定的實(shí)驗(yàn),將分別設(shè)置為0.6、0.3、0.2.

        實(shí)驗(yàn)中分類算法均使用Scikit-learn提供的LinearSVM算法,所有實(shí)驗(yàn)采用五分交叉驗(yàn)證,測試結(jié)果用準(zhǔn)確率(P)、召回率(R)、F1指標(biāo)進(jìn)行測評,測試結(jié)果如表4–表7所列.其中類別 C1、C2、C3、C4分別代表藝術(shù)類、農(nóng)業(yè)類、經(jīng)濟(jì)類、政治類,avg代表C1–C4的平均值.

        表4 TF-IDF 模型 (單位: %)

        表5 均值 Word2Vec 模型 (單位: %)

        表6 TF-IDF 加權(quán) Word2Vec 模型 (單位: %)

        表7 PTF-IDF 加權(quán) Word2Vec 模型 (單位: %)

        由表4–表7的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),均值Word2Vec模型在SVM分類器上的準(zhǔn)確率、召回率以及F1值比TF-IDF模型稍有提升,由此也驗(yàn)證了Word2Vec模型應(yīng)用于短文本分類的可行性以及Word2Vec模型所生成的詞向量比傳統(tǒng)模型所生成的詞向量更能有效地表示文檔特征.

        基于TF-IDF加權(quán)的Word2Vec模型相比均值Word2Vec模型又有所提高,在SVM分類器上所有類別的平均準(zhǔn)確率、召回率、F1值分別提升了2.08%,0.21%,1.04%.這歸因于 TF-IDF 權(quán)重可以權(quán)衡Word2Vec模型生成的每個(gè)詞向量在短文本中的重要性,TF-IDF加權(quán)的Word2Vec詞向量使用于文本分類的短文本表示更合理準(zhǔn)確.

        本文提出的引入詞性貢獻(xiàn)因子的PTF-IDF加權(quán)Word2Vec模型較對比的分類模型效果最好,由圖2也可以清楚地看出,基于PTF-IDF加權(quán)的Word2Vec模型在多數(shù)類別上均有不錯(cuò)的表現(xiàn),所有類別的平均F1值驗(yàn)證了所提出的基于Word2Vec的PTF-IDF加權(quán)求和計(jì)算短文本向量表示方法在短文本分類方面的有效性.

        圖2 4種短文本向量表示模型分類效果比較

        5 結(jié)束語

        針對當(dāng)前短文本向量表示方法的不足,借助Word2Vec模型的優(yōu)點(diǎn),將Word2Vec模型與引入詞性貢獻(xiàn)因子的改進(jìn)TF-IDF算法結(jié)合,綜合考慮詞頻和詞性特征,提出了一種基于Word2Vec的PTF-IDF加權(quán)求和計(jì)算短文本向量算法,并應(yīng)用于短文本分類問題,在復(fù)旦大學(xué)中文文本分類語料庫上的實(shí)驗(yàn)表明,相較于傳統(tǒng)的TF-IDF模型、均值Word2Vec模型以及TD-IDF加權(quán)Word2Vec模型,本算法模型有更好的短文本分類效果.但文章也有一些不足之處,數(shù)據(jù)集較少,實(shí)驗(yàn)中采用的類別不夠豐富,后續(xù)可在多個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,加強(qiáng)所提算法模型的可移植性; 在進(jìn)行短文本向量表示時(shí)只是簡單加權(quán)求和,未考慮詞與詞之間的順序及位置關(guān)系,有待后續(xù)進(jìn)一步的研究和實(shí)驗(yàn).

        參考文獻(xiàn)

        1Manyika J,Chui M,Brown B,et al.Big data: The next frontier for innovation,competition,and productivity.McKinsey Global Institute.https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-datathe-next-frontier-for-innovation.[2015-09-05 ].

        2余凱,賈磊,陳雨強(qiáng).深度學(xué)習(xí): 推進(jìn)人工智能的夢想.程序員,2013,(6): 22–27.

        3Ling W,Luís T,Marujo L,et al.Finding function in form:Compositional character models for open vocabulary word representation.Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon,Portugal.2015.1520–1530.

        4朱征宇,孫俊華.改進(jìn)的基于《知網(wǎng)》的詞匯語義相似度計(jì)算.計(jì)算機(jī)應(yīng)用,2013,33(8): 2276–2279,2288.

        5王榮波,諶志群,周建政,等.基于 Wikipedia 的短文本語義相關(guān)度計(jì)算方法.計(jì)算機(jī)應(yīng)用與軟件,2015,32(1): 82–85,92.

        6Rubin TN,Chambers A,Smyth P,et al.Statistical topic models for multi-label document classification.Machine Learning,2012,88(1-2): 157 –208.[doi: 10.1007/s10994-011-5272-5]

        7Dumais ST.Latent semantic analysis.Annual Review of Information Science and Technology,2004,38(1): 188–230.

        8Hofmann T.Probabilistic latent semantic indexing.Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Berkeley,CA,USA.1999.50–57.

        9Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation.J Machine Learning Research Archive,2003,(3): 993–1022.

        10Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality.Proceedings of the 26th International Conference on Neural Information Processing Systems.Lake Tahoe,NV,USA.2013.3111–3119.

        11Zheng XQ,Chen HY,Xu TY.Deep learning for Chinese word segmentation and POS tagging.Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing.Seattle,WA,USA.2013.647-657.

        12Tang DY,Wei FR,Yang N,et al.Learning sentimentspecific word embedding for twitter sentiment classification.Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.Baltimore,MD,USA.2014.1555–1565.

        13Kim HK,Kim H,Cho S.Bag-of-concepts: Comprehending document representation through clustering words in distributed representation.Neurocomputing,2017,(266):336–352.[doi: 10.1016/j.neucom.2017.05.046]

        14Socher R,Bauer J,Manning CD,et al.Parsing with compositional vector grammars.Proceedings of the 51st Meeting of the Association for Computational Linguistics.Sofia,Bulgaria.2013.455–465.

        15Lilleberg J,Zhu Y,Zhang YQ.Support vector machines and Word2vec for text classification with semantic features.Proceedings of the IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing.Beijing,China.2015.136–140.

        16Xing C,Wang D,Zhang XW,et al.Document classification with distributions of word vectors.Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA).Siem Reap,Cambodia.2014.1–5.

        17Le QV,Mikolov T.Distributed representations of sentences and documents.Proceedings of the 31st International Conference on Machine Learning.Beijing,China.2014.1188–1196.

        18唐明,朱磊,鄒顯春.基于 Word2Vec 的一種文檔向量表示.計(jì)算機(jī)科學(xué),2016,43(6): 214–217,269.[doi: 10.11896/j.issn.1002-137X.2016.06.043]

        19Turian J,Ratinov L,Bengio Y.Word representations: A simple and general method for semi-supervised learning.Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Uppsala,Sweden.2010.384–394.

        20Sun YM,Lin L,Yang N,et al.Radical-enhanced Chinese character embedding.In: Loo CK,Yap KS,Wong KW,et al.eds.Neural Information Processing.Cham: Springer,2014,(8835): 279–286.

        21張玉芳,彭時(shí)名,呂佳.基于文本分類 TFIDF 方法的改進(jìn)與應(yīng)用.計(jì)算機(jī)工程,2006,32(19): 76–78.[doi: 10.3969/j.issn.1000-3428.2006.19.028]

        22黃賢英,張金鵬,劉英濤,等.基于詞項(xiàng)語義映射的短文本相似度算法.計(jì)算機(jī)工程與設(shè)計(jì),2015,36(6): 1514–1518,1534.

        23李玲俐.數(shù)據(jù)挖掘中分類算法綜述.重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,28(4): 44–47.

        猜你喜歡
        短文文檔權(quán)重
        有人一聲不吭向你扔了個(gè)文檔
        權(quán)重常思“浮名輕”
        KEYS
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        Keys
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
        河南科技(2014年15期)2014-02-27 14:12:51
        短文改錯(cuò)
        亚洲中久无码永久在线观看同| 波多野结衣在线播放一区| 北岛玲中文字幕人妻系列 | 欧美自拍区| 日本二区视频在线观看| 蜜桃av人妻精品一区二区三区| 亚洲精品中文字幕一二三区| 久久99国产精一区二区三区| 中国精品久久精品三级| 在线观看中文字幕一区二区三区| 91精品久久久老熟女91精品 | 在教室伦流澡到高潮hgl视频| 揄拍成人国产精品视频肥熟女| 少妇特殊按摩高潮对白| 亚洲中国精品精华液| 欧美天欧美天堂aⅴ在线| 一本一本久久a久久精品综合| 中文字幕人妻被公喝醉在线| 在线观看av片永久免费 | 亚洲春色AV无码专区在线播放| 亚洲三区av在线播放| 精品精品国产高清a毛片| 亚洲av无码片在线观看| 久久久久久AV无码成人| 亚洲第一区二区精品三区在线 | 欧美精品videossex少妇| 国产一区二区牛影视| 情头一男一女高冷男女| 午夜免费电影| 亚洲男人第一av网站| 午夜人妻中文字幕福利| 久久99热只有频精品8国语| 97色伦综合在线欧美视频| 深夜国产成人福利在线观看女同| 国产一区二三区中文字幕| 亚洲国产精品成人精品无码区在线| 99久久免费精品高清特色大片 | 在线观看一区二区蜜桃| 国产女主播白浆在线观看| 久久午夜伦鲁片免费无码| 国产啪精品视频网站免|