亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本表示方法對(duì)微博Hashtag推薦影響研究*——以T w i t t e r上H 7 N 9微博為例

        2015-03-09 07:41:04章成志
        圖書(shū)與情報(bào) 2015年3期
        關(guān)鍵詞:正確率文檔語(yǔ)義

        邵 健 章成志,2

        (1.南京理工大學(xué)信息管理系 江蘇南京 210094)

        (2.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)) 江蘇南京 210023)

        1 引言

        當(dāng)前,各種主流微博平臺(tái)都提供Hashtag標(biāo)注功能,如關(guān)于馬航墜機(jī)事件的Hashtag在Twitter中為“#MH370”,在新浪微博中為“#MH370#”,雖然不同微博平臺(tái)中Hashtag的具體標(biāo)記形式可能不同,但功能基本相同,都具有主題標(biāo)注和話(huà)題參與的功能。主題標(biāo)注功能指Hashtag能夠表達(dá)一條微博中的主題信息;話(huà)題參與功能指用戶(hù)使用Hashtag參與同一個(gè)話(huà)題的討論。在微博平臺(tái)中,上述功能使Hashtag在信息組織和信息檢索方面具有優(yōu)勢(shì),因此越來(lái)越多的學(xué)者開(kāi)始深入研究Hashtag。但在實(shí)際的微博數(shù)據(jù)中Hashtag的標(biāo)注數(shù)量較少,這大大降低了Hashtag的信息檢索和信息組織的效率。Potts等認(rèn)為主要有兩種因素降低了Hashtag的標(biāo)注數(shù)量和標(biāo)注質(zhì)量:(1)大部分用戶(hù)不對(duì)自己的微博標(biāo)注Hashtag;(2)有些用戶(hù)隨意的標(biāo)注Hashtag,出現(xiàn)許多難以理解的和使用的Hashtag,導(dǎo)致信息傳播效率降低。因此,為了提高Hashtag的標(biāo)注數(shù)量和質(zhì)量,學(xué)者們提出了多種不同的Hashtag推薦方法,為用戶(hù)自動(dòng)推薦合適的Hashtag。

        當(dāng)前,Hashtag推薦方法主要有基于頻次和相似度的方法、基于機(jī)器學(xué)習(xí)的方法和基于主題模型的方法等。K最近鄰作為一種經(jīng)典的文本分類(lèi)方法,無(wú)需標(biāo)注語(yǔ)料,并且無(wú)需花費(fèi)大量時(shí)間訓(xùn)練模型。因此,本文嘗試將K最近鄰方法用于微博的Hashtag推薦。由于傳統(tǒng)的權(quán)重計(jì)算方法和文本表示方法不適合短文本的處理。為此,本文對(duì)比了向量空間模型 (Vector Space Model)、 潛 在 語(yǔ) 義 分 析 (Latent Semantic Analysis)、隱含狄利克雷分布模型(Latent Dirichlet Allocation)和基于深度學(xué)習(xí)(Deep Learning)的文本表示等四種方法,以選擇適合于基于KNN的Hashtag推薦任務(wù)的文本表示方法。

        2 Hashtag推薦相關(guān)研究概述

        Hashtag推薦主要依據(jù)文本內(nèi)容與用戶(hù)信息,目的是從微博文本中抽取關(guān)鍵詞或者直接提取已有的Hashtag推薦給用戶(hù),用以提高Hashtag的標(biāo)注數(shù)量和質(zhì)量。在Hashtag推薦中,對(duì)微博短文本預(yù)處理和表示的效果直接影響到最后結(jié)果的好壞,因此需要對(duì)微博文本進(jìn)行預(yù)處理,并深入挖掘文本,以表示出詞匯之間的語(yǔ)義信息。

        2.1 Hashtag推薦方法

        Hashtag推薦技術(shù)包括基于頻次或相似度排序方法、分類(lèi)算法、主題模型、協(xié)同過(guò)濾、神經(jīng)網(wǎng)絡(luò)等方法。其中按頻次或相似度排序的方法是指對(duì)最終的候選Hashtag按其頻次排序,或者按照Hashtag之間相似度或Tweets之間的相似度對(duì)Hashtag進(jìn)行排序。所利用的信息可分為三種:Tweets的內(nèi)容特征;用戶(hù)的偏好特征;Hashtag的頻次和時(shí)間特征。其中用戶(hù)的偏好特征指用戶(hù)的關(guān)注關(guān)系,興趣等特征。

        Mazzia和Shin等將Hashtag推薦問(wèn)題轉(zhuǎn)化為分類(lèi)問(wèn)題,利用樸素貝葉斯、支持向量機(jī)等方法選擇合適的Hashtag?;谥黝}模型的方法主要依據(jù)文本的主題信息推薦 Hashtag,Zhang和 Ding提出主題翻譯模型,取得了很好效果。與以上方法相比,K最近鄰方法較為簡(jiǎn)單,模型中考慮的信息較少,無(wú)需標(biāo)注語(yǔ)料、訓(xùn)練模型等步驟,并且能夠取得令人滿(mǎn)意的效果。2009年,張慶國(guó)等利用VSM進(jìn)行文本表示,依據(jù)K最近鄰方法抽取關(guān)學(xué)術(shù)論文的關(guān)鍵詞,其實(shí)驗(yàn)表明該方法有效的提高了準(zhǔn)確率和召回率。與該工作不同的是,本文以微博短文本作為研究對(duì)象,考察四種不同文本表示方法在基于KNN的Hashtag推薦中的實(shí)際效果,以期找到適合微博短文本的文本表示方法,從而提高基于KNN的Hashtag推薦效果。

        2.2 微博文本表示方法

        向量空間模型將文本映射到一個(gè)特征空間中,用向量的方式表示文本,以方便計(jì)算。常配合TF*IDF等權(quán)重計(jì)算方法計(jì)算每個(gè)詞匯的權(quán)重。在Hashtag推薦中,多數(shù)學(xué)者使用向量空間模型對(duì)短文本進(jìn)行表示,并且針對(duì)短文本的特點(diǎn)提出了多種權(quán)重計(jì)算方法。在傳統(tǒng)的權(quán)重計(jì)算方法中,Zangerle等的實(shí)驗(yàn)顯示使用TF*IDF的方法取得了最好的 Hashtag 推薦結(jié)果。

        但Li等認(rèn)為傳統(tǒng)的方法不適合短文本的表示,因此學(xué)者們針對(duì)Hashtag推薦具體問(wèn)題,借鑒TF*IDF的思想提出了新的方法,如Xiao等提出的Term Frequency-Inverted Hashtag Frequency(TFIHF)和 Probabilistic Inside-Outside Log(P-IOLogH)方法,Otsuka 等提出的 HF-IHU 方法。

        向量空間模型的缺點(diǎn)是當(dāng)詞匯數(shù)量增多,維度也會(huì)相應(yīng)增加,導(dǎo)致計(jì)算速度緩慢、特征稀疏等問(wèn)題,該模型也無(wú)法表示出詞匯之間的語(yǔ)義關(guān)系。潛在語(yǔ)義分析和隱含狄利克雷分布模型都能表示詞匯的語(yǔ)義信息,因此出現(xiàn)大量使用潛在語(yǔ)義分析和LDA對(duì)微博短文本進(jìn)行處理的研究。如Yan等使用潛在語(yǔ)義分析發(fā)現(xiàn)微博中的主題,Liang等將LDA應(yīng)用在Twitter中用于用戶(hù)的推薦。隨著近些年深度學(xué)習(xí)技術(shù)的興起,在Hashtag推薦問(wèn)題中,Tomar等使用基于深度學(xué)習(xí)方法將微博中的詞匯表示為300維度的詞向量,并使用神經(jīng)網(wǎng)絡(luò)推薦Hashtag,Vergeest等使用基于神經(jīng)網(wǎng)絡(luò)的詞嵌入方法推薦Hashtag,皆取得了令人滿(mǎn)意的效果。

        綜上所述,當(dāng)前的Hashtag推薦方法主要使用向量空間模型對(duì)文本進(jìn)行表示,缺少對(duì)其它文本表示方法的研究。因此,本文比較了向量空間模型(VSM)、潛在語(yǔ)義分析(LSA)、隱含狄利克雷分布模型(LDA)、深度學(xué)習(xí)(DL)等四種文本表示方法對(duì)基于KNN的Hashtag推薦效果的影響。

        3 基于K最近鄰方法的Hashtag推薦方法

        K最近鄰方法是由Cover和Hart兩人提出的,基本思想是考察訓(xùn)練集中與當(dāng)前文本距離最近的K個(gè)樣本點(diǎn),由這K個(gè)樣本點(diǎn)決定當(dāng)前文本的類(lèi)別,是機(jī)器學(xué)習(xí)中經(jīng)典的方法之一。本文利用K最近鄰方法為用戶(hù)推薦Hashtag,基本假設(shè)為:在微博文本集合中,距離當(dāng)前微博文本距離最近的微博文本所包含的Hashtag也最相似。在該方法中,文本表示和距離計(jì)算是關(guān)鍵的步驟。因此本文將向量空間模型、潛在語(yǔ)義分析、隱含狄利克雷分布以及深度學(xué)習(xí)等四種文本表示進(jìn)行比較分析,找出在基于KNN的Hashtag提取任務(wù)中,最合適的微博文本表示方法。

        3.1 基于KNN的Hashtag推薦方法的基本思路

        Hashtag推薦流程(見(jiàn)圖1)如下:

        圖1 基于最近鄰的Hashtag推薦方法流程圖

        (1)對(duì)抓取到的文本微博進(jìn)行一系列的預(yù)處理,作為訓(xùn)練集;

        (2)對(duì)訓(xùn)練集進(jìn)行文本表示,以向量的形式存儲(chǔ);

        (3)當(dāng)用戶(hù)輸入一條微博時(shí),將其表示為向量,并與訓(xùn)練集中的每條微博文本計(jì)算相似度 (本文使用向量夾角的余弦值作為相似度),余弦相似度計(jì)算公式為:

        (4)從與當(dāng)前微博最相似的K個(gè)微博中抽取候選Hashtag。對(duì)于包含Hashtag的微博,直接提取其中的Hashtag作為候選Hashtag。針對(duì)不含Hashtag的微博,為了縮短程序的執(zhí)行時(shí)間和提高執(zhí)行效率,本文使用了簡(jiǎn)化的關(guān)鍵詞抽取方法,使用句法分析器抽取其中的名詞短語(yǔ),以及將去除停用詞后的單個(gè)詞匯作為候選Hashtag。Hashtag大多數(shù)由名詞短語(yǔ)以及單個(gè)的詞匯所組成,因此句子中的名詞短語(yǔ)和單個(gè)句子也可以作為候選的Hashtag。

        (5)根據(jù)候選集中每個(gè)候選Hashtag出現(xiàn)的頻次與候選Hashtag所在微博與當(dāng)前微博相似度的乘積推薦Hashtag,計(jì)算方法為:

        其中 score 為候選 Hashtag 得分,F(xiàn)req(Hashtag)為候選 Hashtag在候選集中的頻次,sim(Hashtag,t)為候選Hashtag所在微博與當(dāng)前微博的相似度。

        Hashtag所在微博與當(dāng)前微博的相似度越高說(shuō)明兩條微博越相似,那么這條微博中包含的Hashtag是用戶(hù)所需要的Hashtag的概率更大。Hashtag在候選集中的頻次一定成度上表示出了候選集的主題分布,高頻次的Hashtag表明候選集的主題更傾向于這個(gè)Hashtag所代表的主題。因此,Hashtag所在微博與目標(biāo)微博的相似度乘以Hashtag在候選集中的頻次的計(jì)算方法綜合考慮了相似度與一定范圍內(nèi)的主題信息。

        對(duì)于不同的用戶(hù)來(lái)說(shuō),有不同的Hashtag使用習(xí)慣和使用目的,用戶(hù)在選擇Hashtag時(shí),即使有相同的目的,由于文化背景或思維等因素的差異,也可能會(huì)選擇不同的Hashtag,“最正確”的Hashtag不一定是用戶(hù)“最想要”的Hashtag,因此應(yīng)每次推薦多個(gè)Hashtag以供用戶(hù)選擇。

        3.2 微博文本表示

        3.2.1 向量空間模型

        向量空間模型由Salton在1968年提出,是信息檢索領(lǐng)域的經(jīng)典方法。向量空間模型使用向量表示文本,將文本表示成向量空間,每個(gè)維度為文本特征。向量空間模型忽略文本的結(jié)構(gòu)信息,如段落、句子及詞語(yǔ)之間的信息,無(wú)法體現(xiàn)語(yǔ)義信息。

        以向量D(d,d,……,d)來(lái)表示文本,其中d為向量D的第i個(gè)特征項(xiàng)的權(quán)重。特征項(xiàng)權(quán)重計(jì)算使用TF*IDF公式為:

        其中,T為詞匯,D為文本,freq(T,D)表示詞匯T在文本D中出現(xiàn)的次數(shù),|D|表示文本D中的詞匯總數(shù),count(T,D)表示包含詞匯T的文檔數(shù),N為文檔總數(shù)。

        3.2.2 潛在語(yǔ)義分析模型

        潛在語(yǔ)義分析是由Dumais等提出的信息檢索模型,使用奇異值分解(Singular Value Decomposition,SVD)將高維的向量空間模型映射到低維的語(yǔ)義空間中,對(duì)原本的文檔向量進(jìn)行了降維,去除了一些“噪音”,并且反映出詞語(yǔ)之間隱含的語(yǔ)義關(guān)系。

        潛在語(yǔ)義分析是對(duì)“詞匯-文檔”矩陣進(jìn)行奇異值分解,因此首先構(gòu)造“詞匯-文檔”矩陣,在這個(gè)矩陣中,對(duì)其中的詞匯計(jì)算權(quán)重,區(qū)別每個(gè)詞語(yǔ)的重要性。本文使用TF*IDF計(jì)算矩陣中每個(gè)詞匯的權(quán)重。首先構(gòu)建“詞項(xiàng)-文檔矩陣”C(見(jiàn)圖2)。

        圖2 詞項(xiàng)-文檔矩陣

        矩陣中列代表文檔,行代表詞匯,x為第m篇文檔的第n個(gè)詞所對(duì)應(yīng)的權(quán)重。然后對(duì)矩陣C進(jìn)行奇異值分解分解,計(jì)算公式為:

        保留矩陣U、V、P的前K列,將其它列去除后得到 U、V、P,再重新構(gòu)建矩陣 C:

        這時(shí)新的C即為文本的向量形式,潛在語(yǔ)義分析通過(guò)SVD這種數(shù)學(xué)方法對(duì)原矩陣進(jìn)行降維,最終結(jié)果可解釋性較差。

        3.2.3 隱含狄利克雷分布模型

        隱含狄利克雷分布LDA是由Blei提出的一種概率主題模型,與LSA有著密切的聯(lián)系。由于LSA生成的向量無(wú)法被很好的解釋?zhuān)虼薍uffman等針對(duì)LSA的缺點(diǎn)提出了概率潛在語(yǔ)義分析(probabilistic latent semantic analysis,PLSA)較好的解決了多義詞的問(wèn)題,每個(gè)維度可以被解釋為詞典中的概率分布。PLSA中參數(shù)數(shù)量會(huì)隨著文檔的增加而增加,并且容易出現(xiàn)過(guò)擬合。2003年,Blei等為了克服PLSA的上述缺點(diǎn),引入了狄利克雷先驗(yàn)分布,提出了LDA模型。

        LDA能夠?qū)⒏呔S的向量空間映射到低維的主題空間,避免了特征稀疏問(wèn)題的出現(xiàn)。微博這類(lèi)短文本不僅詞匯少,且存在縮寫(xiě)詞匯、網(wǎng)絡(luò)俚語(yǔ)以及大量未登錄詞,這些干擾因素都會(huì)影響文本間相似度的計(jì)算,LDA用主題分布的概率對(duì)文本進(jìn)行表示,減少了上述噪音的影響。與上述兩種方法相比,由于加入了狄利克雷先驗(yàn)分布,因此LDA的缺點(diǎn)是計(jì)算量大。LDA是一個(gè)三層貝葉斯概率模型,包含詞項(xiàng)、主題和文檔三層結(jié)構(gòu)(見(jiàn)圖3)。

        圖3 LDA的概率圖模型[27]

        其中φ表示主題中的詞項(xiàng)概率分布,θ表示第m篇文檔的主題概率分布,φ和θ分別作為多項(xiàng)式分布的參數(shù)用于生成主題和單詞。K代表主題數(shù)量,W和Z分別表示第m篇文檔中第n個(gè)單詞及其主題。其中α和β是LDA的先驗(yàn)參數(shù),α反應(yīng)了文本集合中主題的相對(duì)強(qiáng)弱,β則代表了所有主題自身的概率分布。在LDA中,首先生成整個(gè)文檔集合的主題分布,然后計(jì)算每個(gè)文檔對(duì)每個(gè)主題的概率分布,將文檔映射到主題空間,以此將文本用整個(gè)文檔集合的主題進(jìn)行表示。

        3.2.4 深度學(xué)習(xí)模型

        目前常用的詞匯表示方法是 “One-Hot Representation”,詞匯出現(xiàn)的位置值為“1”,其它位置為“0”。這種方法無(wú)法表示出詞匯之間的語(yǔ)義關(guān)系。Hinton提出的分布式特征表示方法(Distributed representation)克服了“One-Hot Representation”的缺點(diǎn)[30]。

        Bengio等基于分布式表示的思想,提出了使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型的方法,詞向量就是在訓(xùn)練語(yǔ)言模型的過(guò)程中得到的。詞項(xiàng)量包含詞匯的上下文信息,通過(guò)一些相似度的計(jì)算方法,能夠準(zhǔn)確的衡量不同詞匯的語(yǔ)義關(guān)系。Mikolov等提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型的方法,并發(fā)布深度學(xué)習(xí)的開(kāi)源工具“Word2vec”,大大提高了詞向量的訓(xùn)練速度。

        在Word2vec中將詞匯使用Huffman樹(shù)存儲(chǔ),在訓(xùn)練語(yǔ)言模型時(shí),輸入層為詞匯的上下文,輸出為經(jīng)過(guò)隱含層轉(zhuǎn)換之后的向量。將從Huffman樹(shù)的根節(jié)點(diǎn)出發(fā)到查找到該詞匯的過(guò)程看作一個(gè)連續(xù)的二分類(lèi)的過(guò)程,該詞匯在該上下文環(huán)境下出現(xiàn)的概率即為二分類(lèi)過(guò)程的乘積,當(dāng)語(yǔ)言模型訓(xùn)練完成時(shí),輸出層的向量即為最終的詞量。

        基于上述工作,Le和Mikolov等于2014年提出了基于深度學(xué)習(xí)的句子向量和文檔向量的訓(xùn)練方法,本文使用該方法作為文本的表示方法,并將其記為“Doc2vec”。由深度學(xué)習(xí)得到的文本向量與詞項(xiàng)量具有相同的優(yōu)點(diǎn),含有豐富的語(yǔ)義信息。對(duì)于微博短文本來(lái)說(shuō),這種方法能夠表示出縮寫(xiě)詞、網(wǎng)絡(luò)俚語(yǔ)和正常詞語(yǔ)之間的語(yǔ)義關(guān)系,相似度的計(jì)算更加準(zhǔn)確。

        在Doc2vec中“Paragraph id”代表一個(gè)段落,與Word2vec的方法相似,通過(guò)詞匯的上下文來(lái)預(yù)測(cè)這個(gè)詞匯的概率,區(qū)別是doc2vec中將段落也看作一個(gè)詞,這個(gè)詞由段落的矩陣表示“Paragraph matrix”。段落中也包含了該詞匯的上下文信息,在這個(gè)模型中由于詞匯之間有著前后的關(guān)系,因此這種方稱(chēng)為“Distributed Memory Model”,另外一種不區(qū)分詞匯順序的方法使用了詞袋模型,稱(chēng)為“Distributed Bag of Words”,Doc2vec訓(xùn)練的過(guò)程與Word2vec相似 (見(jiàn)圖4)。

        圖4 神經(jīng)網(wǎng)絡(luò)文本表示框架圖[30]

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)概述

        Twitter是世界著名的微博平臺(tái),使用人數(shù)眾多,在Twitter中用戶(hù)發(fā)表的微博文本為T(mén)weets,本文使用從Twitter中采集的Tweets作為實(shí)驗(yàn)數(shù)據(jù)。在Twitter中以“H7N9”為主題采集數(shù)據(jù),具體查詢(xún)式為“h7n9 lang:en since:2014-03-08 until:2015-03-08”,從2014年3月8日到2015年3月8日在Twitter中進(jìn)行搜索,一共采集了87382條Tweets,其中Hashtag被使用的總次數(shù)為81305次,將這些數(shù)據(jù)作為訓(xùn)練集(具體的信息見(jiàn)表1)。

        表1 訓(xùn)練集數(shù)據(jù)組成

        從訓(xùn)練集隨機(jī)選擇1000條只包含一個(gè)Hashtag的Tweets,經(jīng)過(guò)去除亂碼,排除長(zhǎng)度小于等于兩個(gè)字符Tweets后,剩下740條作為測(cè)試集。

        從Hashtag的頻次和數(shù)量分布圖可以看出,橫軸為Hashtag出現(xiàn)的頻次統(tǒng)計(jì),縱軸為在當(dāng)前頻次下Hashtag的數(shù)量,可以看出Hashtag的頻次越高,則數(shù)量越少(見(jiàn)圖5)。

        4.2 實(shí)驗(yàn)結(jié)果及討論

        (1)評(píng)估方法

        圖5 Hashtag頻次-數(shù)量分布圖

        在實(shí)驗(yàn)中分別計(jì)算了四種文本表示方法下Hashtag推薦的正確率,本文采用Kywe等提出的計(jì)算方法,具體公式為:

        其中U為最后的推薦結(jié)果,V為測(cè)試集中Tweets原本包含的Hashtag,將測(cè)試集中包含的Hashtag稱(chēng)為正確的 Hashtag,count(U∩V)表示推薦的結(jié)果和正確的Hashtag的交集中Hashtag的數(shù)量。上述公式的含義可表述為,若推薦結(jié)果中至少包含一個(gè)正確的Hashtag,則認(rèn)為此條推薦結(jié)果正確,若不包含正確的Hashtag,則認(rèn)為此條推薦結(jié)果錯(cuò)誤。Hit代表正確與否,正確為1,錯(cuò)誤為0,其正確率計(jì)算公為:

        其中,count(Hit)為正確推薦結(jié)果的數(shù)量,count(V)為測(cè)試集的個(gè)數(shù),HitRate表示推薦結(jié)果的正確率。

        (2)實(shí)驗(yàn)參數(shù)設(shè)置

        在實(shí)驗(yàn)中,本文調(diào)用開(kāi)源工具gensim中的向量空間模型、潛在語(yǔ)義分析、隱含狄利克雷分布和Doc2vec等四種文本表示方法。其中向量空間模型和潛在語(yǔ)義分析采用TF*IDF計(jì)算每個(gè)詞匯的權(quán)重。隱含狄利克雷分布的實(shí)現(xiàn)采用了Hoffman提出的方法,迭代次數(shù)設(shè)置為50次,其它參數(shù)為默認(rèn)值?;谏疃葘W(xué)習(xí)的文本表示參數(shù)設(shè)置為:窗口設(shè)置為15,最低頻次閾值設(shè)置為1,其它參數(shù)為默認(rèn)值?;贙NN的Hashtag推薦中,設(shè)置K值為100,即每次從訓(xùn)練集中取前100個(gè)與當(dāng)前Tweets最相似的Tweets。

        (3)實(shí)驗(yàn)結(jié)果分析

        本文分別測(cè)試推薦 1,2,3,4,5 個(gè) Hashtag 的正確率。實(shí)驗(yàn)結(jié)果(見(jiàn)圖6、圖7、圖8、圖9)表明:

        圖6 基于VSM的選取難度與HitTate關(guān)系

        圖7 基于LSA的選取難度與HitTate關(guān)系

        圖8 基于LDA的選取難度與HitTate關(guān)系

        圖9 基于Doc2vec的選取難度與HitTate關(guān)系

        (1)使用向量空間模型(VSM)進(jìn)行文本表示的Hashtag推薦結(jié)果,(橫坐標(biāo)為推薦的Hashtag數(shù)量,縱坐標(biāo)為正確率),隨著推薦數(shù)量的增加而增加。使用向量空間模型表示的微博文本,向量維度很高,特征很稀疏。

        (2)使用潛在語(yǔ)義分析(LSA進(jìn)行文本表示得到的推薦結(jié)果隨著其維度的上升而上升,本文測(cè)試到800維度,正確率仍然在上升,但是非常緩慢,(為了與其它方法的維度數(shù)量統(tǒng)一,因此在圖中只顯示到600維度)。

        (3)隱含狄利克雷分布(LDA)與Doc2vec 的推薦正確率會(huì)出現(xiàn)波動(dòng),不隨著維度的增加而增加,Doc2vec在400維度時(shí)取得了最高的正確率。潛在語(yǔ)義分析和隱含狄利克雷分布的實(shí)驗(yàn)從100維度開(kāi)始,Doc2vec從50維度開(kāi)始,并且正確率高于其它方法。雖然各自的維度具有不同的含義,但從降維的角度考慮,Doc2vec取得了更好的降維效果。

        通過(guò)對(duì)四種文本表示方法在不同維度上的平均正確率比較 (見(jiàn)圖10,其中橫坐標(biāo)為最終推薦Hashtag的數(shù)量,縱坐標(biāo)為HitRat),可以看出,在基于KNN的Hashtag推薦任務(wù)中,Doc2vec的文本表示方法取得了最好效果。

        圖10 不同表示方法的平均正確率

        本文通過(guò)候選Hashtag的頻次與候選Hashtag所在微博與當(dāng)前微博的相似度這兩個(gè)因素衡量候選Hashtag是否應(yīng)該為真正的Hashtag,這兩個(gè)因素皆受到相似度計(jì)算結(jié)果的影響。對(duì)文本表示的越準(zhǔn)確,含義相近的文本之間相似度也會(huì)越高,當(dāng)更多的包含正確Hashtag的微博與當(dāng)前微博相似度提高時(shí),前K個(gè)微博中包含正確Hashtag微博的數(shù)量將會(huì)提高,相應(yīng)的在候選集中正確Hashtag的頻次也將有所增加,這將提高正確Hashtag的得分在候選集中的排名。從以上兩個(gè)關(guān)鍵因素可以看出,準(zhǔn)確的計(jì)算相似度是抽取正確 Hashtag的關(guān)鍵。VSM、LSA、LDA、Doc2vec四種文本表示方法中Doc2vec取得了最高的推薦正確率,說(shuō)明Doc2vec的文本表示方法能夠排除噪聲的干擾,最準(zhǔn)確的表達(dá)文本含義。

        造成VSM、LSA、LDA三種方法效果差的原因可能有以下幾點(diǎn):(1)VSM無(wú)法表示出文本中同義詞和多義詞的信息,且微博文本中存在大量噪聲,VSM也不能很好的應(yīng)對(duì)噪聲造成的干擾;(2)文本中的多義詞將對(duì)LSA造成較大干擾;(3)LDA的效果受到文本的長(zhǎng)度和文本數(shù)量的影響較大,而實(shí)驗(yàn)的語(yǔ)料是微博短文本,因此LDA的效果較差。

        5 結(jié)論與展望

        本文對(duì)比了向量空間模型、潛在語(yǔ)義分析、隱含狄利克雷分布模型和基于深度學(xué)習(xí)的四種文本表示方法,在基于KNN的Hashtag推薦的實(shí)際效果,依據(jù)Twitter上的H7N9微博語(yǔ)料的實(shí)驗(yàn)結(jié)果表明,基于深度學(xué)習(xí)的文本表示方法取得了最高正確率。

        在未來(lái)的研究工作中,本文擬將進(jìn)一步在中文微博語(yǔ)料上進(jìn)行試驗(yàn),測(cè)試不同的文本表示方法對(duì)中文微博 Hashtag推薦的效果。本文還將利用其它的Hashtag推薦方法,對(duì)不同文本表示方法最終取得的效果進(jìn)行比較分析,從而確定最佳的文本表示方法與推薦方法組合。由于微博的用戶(hù)眾多,用戶(hù)的關(guān)注點(diǎn)和興趣不同,因此在Hashtag推薦中應(yīng)盡可能覆蓋用戶(hù)對(duì)不同主題Hashtag標(biāo)注的需求。這對(duì)Hashtag推薦技術(shù)提出了更高的要求,在未來(lái)的研究中應(yīng)考慮更多的信息,如用戶(hù)的興趣,關(guān)系、時(shí)間信息等。

        [1] Dwyer N,Marsh S.What can the hashtag#trust tell us about how users conceptualise trust? [C].Proceedings of the Privacy,Security and Trust(PST),2014 Twelfth Annual International Conference on,IEEE,2014:398-402.

        [2] Zappavigna M.Discourse of Twitter and social media:How we use language to create affiliation on the web [M].A&C Black,2012.

        [3] Ivanova M.Understanding microblogging hashtags for learning enhancement[J].Form@re-Open Journal per la formazione in rete,2013,11(74):17-23.

        [4] Dixon K.Feminist Online Identity:Analyzing the Presence of Hashtag Feminism [J].Journal of Arts and Humanities,2014,3(7):34-40.

        [5] Komori L.We shouldn't have to smoke and hide The legalize hashtag as a platform for collective identity and collective action framing [D].University of Alberta,2013.

        [6] Skalbeck R V.Anatomy of a Conference Twitter Hashtag:#AALL2010[J/OL].[2015-05-16].http://scholarship.law.georgetown.edu/digitalpreservation_publications/5.

        [7] Potts L,Seitzinger J,Jones D,et al.Tweeting disaster:hashtag constructions and collisions [C].Proceedings of the Proceedings of the 29th ACM international conference on Design of communication,ACM,2011:235-240.

        [8] Li Z,Zhou D,Juan Y-F,et al.Keyword extraction for social snippets [C].Proceedings of the Proceedings of the 19th international conference on World wide web,ACM,2010:1143-1144.

        [9] Mazzia A,Juett J.Suggesting hashtags on twitter [R].Machine Learning,Computer Science and Engineering,University of Michigan,2009.

        [10] Shin Y,Lee S-J,Park J.Composition pattern oriented tag extraction from short documents using a structural learning method [J].Knowledge and information systems,2014,38(2):447-468.

        [11] She J,Chen L.Tomoha:Topic model-based hashtag recommendation on twitter [C].Proceedings of the Proceedings of the companion publication of the 23rd international conference on World wide web companion,International World Wide Web Conferences Steering Committee,2014:371-372.

        [12] Ma Z,Sun A,Yuan Q,et al.Tagging Your Tweets:A Probabilistic Modeling of Hashtag Annotation in Twitter [C].Proceedings of the Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management,ACM,2014:999-1008.

        [13] Zhang Q,Gong Y,Sun X,etal.Time-aware Personalized Hashtag Recommendation on Social Media[J/OL].[2015-05-16].http://wing.comp.nus.edu.sg/~antho/C/C14/C14-1021.pdf.

        [14] Ding Z,Qiu X,Zhang Q,et al.Learning topical translation model for microblog hashtag suggestion[C].Proceedings of the Proceedings of the Twenty-Third international joint conference on Artificial Intelligence,AAAI Press,2013:2078-2084.

        [15] 張慶國(guó),章成志,薛德軍,等.適用于隱含主題抽取的K最近鄰關(guān)鍵詞自動(dòng)抽取[J].情報(bào)學(xué)報(bào),2009,(2):163-168.

        [16] Xiao F,Noro T,Tokuda T.News-topic oriented hashtag recommendation in Twitter based on characteristic co-occurrence word detection [M].Web Engineering.Springer,2012:16-30.

        [17] Tariq A,Karim A,Gomez F,et al.Exploiting Topical Perceptions over Multi-Lingual Text for Hashtag Suggestion on Twitter[C].Proceedings of the FLAIRS Conference,2013.

        [18] Zangerle E,Gassler W,Specht G.On the impact of text similarity functions on hashtag recommendations in microblogging environments [J].Social Network Analysis and Mining,2013,3(4):889-898.

        [19] Otsuka E,Wallace S A,Chiu D.Design and evaluation of a Twitter hashtag recommendation system [C].Proceedings of the Proceedings of the 18th International Database Engineering&Applications Symposium,ACM,2014:330-333.

        [20] Yan X,Zhao H.Chinese microblog topic detection based on the latent semantic analysis and structural property [J].Journal of Networks,2013,8(4):917-923.

        [21] Liang D,Yong-ping D.Application of LDA Model in Microblog User Recommendation [J].Computer Engineering,2014,5(002).

        [22] Tomar A,Godin F,Vandersmissen B,et al.Towards Twitter hashtag recommendation using distributed word representations and a deep feed forward neural network [C].Proceedings of the Advances in Computing,Communications and Informatics(ICACCI,2014 International Conference on,IEEE,2014:362-368.

        [23] Lucas Vergeest.Using N-grams and Word Embeddings for Twitter Hashtag Suggestion [D].Holland Tilburg:Tilburg University,2014.

        [24] Cover T,Hart P.Nearest neighbor pattern classification [J].Information Theory,IEEE Transactions on,1967,13(1):21-27.

        [25] Salton G,Wong A,Yang C-S.A vector space model for automatic indexing [J].Communications of the ACM,1975,18(11):613-620.

        [26] Dumais S,Platt J,Heckerman D,et al.Inductive learning algorithms and representations for text categorization [C].Proceedings of the Proceedings of the seventh international conference on Information and knowledge management,ACM,1998:148-155.

        [27] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation [J].The Journal of machine Learning research,2003 (3):993-1022.

        [28] Hofmann T.Probabilistic latent semantic indexing [C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1999:50-57.

        [29] Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learning [C].Proceedings of the Proceedings of the 48th annual meeting of the association for computational linguistics,Association for Computational Linguistics,2010:384-394.

        [30] Hinton,McClelland.Distributed representations [A].D.E.Rumelhart&J.L.McCleland (Eds.),Parallel distributed processing:Explorations in the microstructure of cognition{M}.Cambridge,MA:MIT Press,1986:77-109.

        [28] Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model [J].The Journal of Machine Learning Research,2003(3):1137-1155.

        [31] Mikolov T,Karafiát M,Burget L,et al.Recurrent neural network based language model [C].Proceedings of the INTERSPEECH 2010,11th Annual Conference of the International Speech Communication Association,Makuhari,Chiba,Japan,September 26-30,2010,2010:1045-1048.

        [32] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301.3781,2013.

        [33] Le Q V,Mikolov T.Distributed representations of sentences and documents[J].arXiv preprint arXiv:1405.4053,2014.

        [34] Kywe S M,Hoang T-A,Lim E-P,et al.On recommending hashtags in twitter networks [M].Social Informatics.Springer.2012:337-350.

        [35] ehek R,Sojka P.Software framework for topic modelling with large corpora[C].Proceedings of the LREC 2010 Workshop on new Challenges for NLP Frameworks,Valletta,Malta:ELRA,2010:45-50.

        [36] Hoffman M,Bach F R,Blei D M.Online learning for latent dirichlet allocation [C].Proceedings of the advances in neural information processing systems,2010:856-864.

        猜你喜歡
        正確率文檔語(yǔ)義
        有人一聲不吭向你扔了個(gè)文檔
        門(mén)診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
        語(yǔ)言與語(yǔ)義
        生意
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
        生意
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        認(rèn)知范疇模糊與語(yǔ)義模糊
        乱伦一区二| 免费不卡在线观看av| 欧美怡红院免费全部视频| 亚洲无码一二专区| 国产三级国产精品国产专区| 男奸女永久免费视频网站| 成人影院yy111111在线| 国产美女在线精品免费观看网址| 亚洲成AV人片在一线观看| 欧美黑人性色黄在线视频| 偷拍激情视频一区二区| 国产一区二区白浆在线观看| 无码国产精成人午夜视频一区二区 | 亚洲av在线观看播放| 手机在线观看免费av网站| 亚洲色国产欧美日韩| 亚洲色自偷自拍另类小说| 日本午夜国产精彩| 一区二区三区在线观看高清视频| 午夜秒播久久精品麻豆| 性色av一区二区三区| 人妻无码AⅤ不卡中文字幕| 99亚洲女人私处高清视频| 国产精品天干天干| 久久综合精品国产丝袜长腿| 久久亚洲aⅴ精品网站婷婷| 日本高清视频在线观看一区二区| 久久久国产乱子伦精品作者 | 婷婷一区二区三区在线| 一卡二卡国产av熟女| 亚洲人成网网址在线看| 婷婷综合久久中文字幕蜜桃三电影| 欧美综合区| 亚洲粉嫩视频在线观看| 青青草亚洲视频社区在线播放观看 | 青青草手机在线免费视频| 日本中国内射bbxx| 久久久精品久久波多野结衣av| 激情五月婷婷六月俺也去| 色狠狠一区二区三区中文| 中国a级毛片免费观看|