劉德元,魏晶晶,吳運(yùn)兵,廖祥文*
(1.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350116;2.福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室(福州大學(xué)),福建 福州 350116;3.福建江夏學(xué)院 電子信息科學(xué)學(xué)院,福建 福州 350108)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)中涌現(xiàn)了大量的論壇、博客等社交媒體,吸引大量用戶(hù)在這些社交媒體上分享他們關(guān)于政治、產(chǎn)品、公司、事件的觀點(diǎn)。觀點(diǎn)檢索旨在從社交媒體等文檔集中檢索出與查詢(xún)主題相關(guān)并且表達(dá)用戶(hù)觀點(diǎn)(贊同或反對(duì))的文檔,是自然語(yǔ)言處理領(lǐng)域里的一項(xiàng)重要課題[1-2]。
目前,觀點(diǎn)檢索研究大體上可以分為三類(lèi)。第一類(lèi)觀點(diǎn)檢索方法是兩階段模型,首先利用傳統(tǒng)的信息檢索模型獲得與查詢(xún)相關(guān)的候選相關(guān)文檔,然后將候選相關(guān)文檔根據(jù)觀點(diǎn)得分進(jìn)行重排序。例如,Zhang等[3]首先利用信息檢索模型(BM25)和查詢(xún)擴(kuò)展技術(shù)找出主題相關(guān)的文檔,接著用支持向量機(jī)(SVMs)分類(lèi)器對(duì)主題相關(guān)文檔進(jìn)行觀點(diǎn)分類(lèi)并重排序。Santos等[4]首先利用兩種現(xiàn)有方法找出觀點(diǎn)語(yǔ)句,接著將查詢(xún)與觀點(diǎn)語(yǔ)句的鄰近關(guān)系融入DFR(Divergence From Randomness)鄰近關(guān)系模型中,最終得到文檔的觀點(diǎn)檢索評(píng)分。Wang等[5]把重點(diǎn)放在觀點(diǎn)分類(lèi)方面,通過(guò)整合推文、Hashtag間的共現(xiàn)關(guān)系等特征,采用三種圖模型的分類(lèi)算法進(jìn)行觀點(diǎn)分類(lèi)。兩階段模型結(jié)構(gòu)簡(jiǎn)單,容易理解,但是缺乏合理的理論解釋。
第二類(lèi)方式將主題相關(guān)度與觀點(diǎn)結(jié)合起來(lái)的統(tǒng)一檢索模型。該模型借助當(dāng)前信息檢索和觀點(diǎn)挖掘領(lǐng)域的最新模型,直接挖掘描述主題的觀點(diǎn)對(duì)文檔進(jìn)行排序。Eguchi等[6]提出一種概率生成模型框架下的觀點(diǎn)檢索模型,通過(guò)考慮查詢(xún)依賴(lài)的觀點(diǎn)得分將主題相關(guān)模型與觀點(diǎn)得分聯(lián)合起來(lái),進(jìn)而計(jì)算文檔的排序得分。Zhang等[7]提出一個(gè)基于詞典的生成模型,通過(guò)二次組合(Quadratic Combination)方式將主題相關(guān)得分與觀點(diǎn)評(píng)分結(jié)合,但該模型假設(shè)觀點(diǎn)詞是均勻分布的。Huang等[8]通過(guò)查詢(xún)相關(guān)與查詢(xún)無(wú)關(guān)的混合傾向性擴(kuò)展將主題檢索與傾向性分類(lèi)的兩階段方法轉(zhuǎn)換成一個(gè)統(tǒng)一的觀點(diǎn)檢索進(jìn)程。Liao等[9]考慮了觀點(diǎn)詞針對(duì)不同查詢(xún)所含觀點(diǎn)信息的差異性,首先基于異質(zhì)圖計(jì)算觀點(diǎn)詞權(quán)重,然后將其融入Zhang等[7]提出的生成模型。論文[10]則利用外源知識(shí)和機(jī)器學(xué)習(xí)的方法擴(kuò)展用戶(hù)的查詢(xún)?cè)~并融入生成模型。
第三類(lèi)方式是學(xué)習(xí)排序模型(Learning to Rank)。Luo等[11]利用文檔特征、博主特征和主觀性特征,采用RankSVM排序?qū)W習(xí)模型對(duì)推文進(jìn)行觀點(diǎn)檢索。Kim等[12]進(jìn)一步利用了博主特征和標(biāo)簽特征的主觀性信息來(lái)描述文檔的主觀傾向。但該模型需要大量的人工標(biāo)注數(shù)據(jù)構(gòu)建訓(xùn)練集,因此這一方法的應(yīng)用場(chǎng)景相對(duì)于前兩種方法而言較為有限,并且該模型針對(duì)不同的査詢(xún),其相關(guān)文檔數(shù)量的差異會(huì)對(duì)學(xué)習(xí)的效果評(píng)價(jià)造成偏置。
上述第二類(lèi)方式中的模型往往無(wú)法根據(jù)上下文將詞匯進(jìn)行知識(shí)、概念層面的抽象。如例句所示:
例:Ios5updategetsandroidlikenotificationbar!?Applebowedtogoogle!
譯:IOS5更新得到類(lèi)似Android的通知欄!蘋(píng)果向谷歌低頭了!
上述文本提到“apple蘋(píng)果”,現(xiàn)有模型無(wú)法識(shí)別其是指蘋(píng)果公司還是蘋(píng)果水果。因此上述基于詞袋的檢索模型缺乏對(duì)文本詞匯在概念層面上的的語(yǔ)義理解。
知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,實(shí)體間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)[13]。概念知識(shí)圖譜是一種單一關(guān)系知識(shí)圖譜,與傳統(tǒng)的知識(shí)圖譜不同,它只包含一種isA關(guān)系,例如“Microsoft微軟”isA“Company公司”。利用知識(shí)圖譜,機(jī)器不僅能夠豐富原始查詢(xún)信息,同時(shí)能夠通過(guò)分析文本的概念空間以提高對(duì)文本詞匯的語(yǔ)義理解能力,從而可以計(jì)算文本間的語(yǔ)義相似度。例如Dalton等[14]利用實(shí)體的相關(guān)特征和實(shí)體與知識(shí)庫(kù)的連接(包括結(jié)構(gòu)化的屬性和文本)來(lái)豐富原始查詢(xún)。Xiong等[15]提出利用freebase獲取與查詢(xún)相關(guān)的實(shí)體,然后利用非監(jiān)督或者監(jiān)督的方法得到最終的擴(kuò)展詞。Wang等[16]在文本分類(lèi)任務(wù)中利用概念圖譜推理文本的概念集合以表示文本的主題。Wang等[17]通過(guò)分析查詢(xún)文本的概念空間確定查詢(xún)中實(shí)體的語(yǔ)義,從而制定更加精確的查詢(xún)關(guān)鍵詞。Wang等[18]提出借助知識(shí)圖譜為文本構(gòu)建統(tǒng)一的候選詞關(guān)系圖,并使用隨機(jī)漫步(Random Walk)的方法推導(dǎo)出最優(yōu)的分詞、詞性和詞的概念,提高實(shí)體概念化的準(zhǔn)確率。另有學(xué)者利用知識(shí)圖譜提高問(wèn)答系統(tǒng)的性能[19-20]。
為此,本文提出了基于文本概念化的觀點(diǎn)檢索方法,首先引入概念知識(shí)圖譜,通過(guò)有效分析查詢(xún)和文本的概念空間,判斷對(duì)應(yīng)多個(gè)概念的實(shí)體在具體上下文中的正確概念語(yǔ)義,以此來(lái)實(shí)現(xiàn)概念級(jí)別的推理。同時(shí)在概念空間計(jì)算查詢(xún)與文本的主題相似度,接著基于詞典計(jì)算文檔的觀點(diǎn)得分,最后將相關(guān)度得分與文本的觀點(diǎn)得分二次組合成相關(guān)觀點(diǎn)得分,以此提高觀點(diǎn)檢索的性能。
本文提出了一種基于文本概念化的觀點(diǎn)檢索方法,首先利用知識(shí)圖譜分別將用戶(hù)查詢(xún)和文本概念化到概念空間上,然后在概念空間計(jì)算查詢(xún)與文本的主題相似度,接著基于詞典計(jì)算文檔的觀點(diǎn)得分。最后將相關(guān)度得分與文本的觀點(diǎn)得分組合成相關(guān)觀點(diǎn)得分,以此返回文檔的排名結(jié)果。
為了方便研究,本節(jié)將觀點(diǎn)檢索研究問(wèn)題形式化描述為:給定一個(gè)查詢(xún)q,觀點(diǎn)詞典T={ti,i=1,2,…,M},待檢索的文檔集合D={di,i=1,2,…,N},以及知識(shí)圖譜G=(V,E)。計(jì)算每個(gè)待檢索文檔di與查詢(xún)q的主題相關(guān)度得分Irel(d,q,G)和di的觀點(diǎn)得分Iopn(d,q,T),根據(jù)檢索模型將相關(guān)度得分和觀點(diǎn)得分組合得到最終的相關(guān)觀點(diǎn)得分Rank(d)=Score(q,d,T,G)。并根據(jù)相關(guān)觀點(diǎn)評(píng)分從高到低排序。
文本概念化的目的是借助概念知識(shí)圖譜推理出文本中每個(gè)實(shí)體的概念分布,即將實(shí)體按照其上下文語(yǔ)境映射到正確的概念集合上[21](Bags-of-Concepts,BOC)。例如:
例:Ios5updategetsandroidlikenotificationbar!?Applebowedtogoogle!
譯:IOS5更新得到類(lèi)似Android的通知欄!蘋(píng)果向谷歌低頭了!
在上述文本中,通過(guò)知識(shí)圖譜Probase[22],機(jī)器可以獲悉“apple蘋(píng)果”這個(gè)實(shí)體有“Fruit水果”和“Company公司”等概念,“google谷歌”這個(gè)實(shí)體有“Company公司”等概念。當(dāng)“apple蘋(píng)果”與“google谷歌”同時(shí)出現(xiàn)在文本中時(shí),通過(guò)貝葉斯公式可以分析出該文本中的“apple蘋(píng)果”有較高的概率屬于“Company公司”這一概念。
給定文檔集合D={di,i=1,2,…,N},本文利用Probase推理每篇文檔的概念集合。文檔的相關(guān)概念最終表示為一個(gè)概念集合di=(〈c1,w1〉,…,〈cj,wj〉,…,〈ck,wk〉),i=1,2,…,N,j=1,2,…,k, 其中wj表示概念cj屬于該文檔的權(quán)重,反映了概念cj對(duì)該文檔的解釋能力。概念化過(guò)程分為兩部分:實(shí)體識(shí)別與概念推理。
1.2.1 基于逆向最大匹配的實(shí)體識(shí)別
為了獲得文本的概念集合,首先需要識(shí)別文本中的實(shí)體,以便通過(guò)實(shí)體推理概念。對(duì)于多詞表達(dá)的實(shí)體,本文僅考慮長(zhǎng)度最大的一項(xiàng),實(shí)體之間不相互包含。例如“apple inc蘋(píng)果公司”可能有兩種實(shí)體識(shí)別結(jié)果: “apple蘋(píng)果”、“inc公司”或者“apple inc蘋(píng)果公司”,因?yàn)槿叨荚谠~典中,但本文僅考慮“apple inc蘋(píng)果公司”這一實(shí)體。因此采用基于詞典的逆向最大匹配算法來(lái)識(shí)別文檔中的實(shí)體。并選用知識(shí)圖譜Probase中的所有實(shí)體(約1200萬(wàn)個(gè)實(shí)體)作為匹配詞典。匹配過(guò)程中,采用波特提取器*http:∥tartarus.org/~martin/PorterStemmer/對(duì)文檔和詞典分別做詞干提取處理。具體算法描述如下:
基于逆向最大匹配的實(shí)體識(shí)別算法輸入:文檔集合、實(shí)體詞典輸出:每篇文檔的實(shí)體集合初始化:對(duì)實(shí)體詞典每個(gè)詞項(xiàng)做詞干提取處理。設(shè)詞典中實(shí)體最大長(zhǎng)度(包含詞匯個(gè)數(shù))為maxLen,設(shè)輸出實(shí)體集合entity?Set為空。對(duì)每篇文檔進(jìn)行如下處理:Step1:對(duì)文檔詞匯做詞干提取處理,得到文本s=s1s2…sn。Step2:計(jì)算s包含詞匯個(gè)數(shù),設(shè)為n,如果n等于0,轉(zhuǎn)7。如果n 1.2.2 基于樸素貝葉斯模型的概念推理 給定文檔的實(shí)體集合E={ei,i=1,2,…,M},概念生成的目的是利用Probase中的實(shí)體-概念對(duì)(Instance-Concept Pairs)推理出最能描述該實(shí)體集合的概念集合。為了評(píng)估概念對(duì)文檔的表示能力,采用樸素貝葉斯模型進(jìn)行評(píng)估: (1) 通過(guò)貝葉斯公式計(jì)算每個(gè)概念的后驗(yàn)概率,獲得高后驗(yàn)概率值的概念顯然就是最能代表給定實(shí)體集合的概念。同時(shí)把后驗(yàn)概率值作為這個(gè)概念表達(dá)該文檔的解釋能力,即為該概念的權(quán)重。 在式(1)中,給定概念,得到實(shí)體的概率的公式為: (2) 其中n(ei,ck)表示ei和ck的共現(xiàn)次數(shù),n(ck)表示ck出現(xiàn)的次數(shù),這兩個(gè)值都可以從Probase中直接或經(jīng)計(jì)算得到。兩個(gè)文本例子和它們經(jīng)概念化后的概念集合如表1展示。 表1 文本概念化樣例Table 1 Samples of text conceptualization. 觀點(diǎn)檢索的目標(biāo)是檢索出與查詢(xún)相關(guān)且包含作者觀點(diǎn)的文檔。在以往的研究工作中,有以下統(tǒng)一檢索模型: (3) (4) 其中σ(x)=1/(1+exp(-x))是sigmoid函數(shù)。 最后,將Irel(d,q)和觀點(diǎn)得分Iopn(d,q,T)二次組合可得本文最終的觀點(diǎn)檢索評(píng)分公式為: (5) 本文在實(shí)驗(yàn)部分使用了兩個(gè)數(shù)據(jù)集。首先,根據(jù)2014年文獻(xiàn)[9]的推特觀點(diǎn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),這一數(shù)據(jù)集共含49個(gè)查詢(xún)和3 308篇文檔(在下文簡(jiǎn)稱(chēng)為推特2014數(shù)據(jù)集)。由于這一數(shù)據(jù)集的數(shù)據(jù)量較少,本文利用推特提供的搜索結(jié)果及爬蟲(chóng)技術(shù)擴(kuò)展數(shù)據(jù)集,共爬取10個(gè)查詢(xún)的英文推特29 634篇。標(biāo)注前采用緩沖池(pooling)技術(shù):針對(duì)每個(gè)查詢(xún),將本文檢索模型和基準(zhǔn)檢索模型的各自檢索結(jié)果中前500篇文檔加入緩沖池,最后得到的緩沖池含7 172文檔。5名標(biāo)注人員對(duì)緩沖池的文檔進(jìn)行二值標(biāo)注,將與對(duì)應(yīng)查詢(xún)相關(guān)并且包含觀點(diǎn)信息的文檔標(biāo)為1,否則為0。根據(jù)少數(shù)服從多數(shù)的原則對(duì)每篇文檔進(jìn)行判斷,對(duì)緩沖池外的文檔均標(biāo)注為0。下文將這一數(shù)據(jù)集記作擴(kuò)展數(shù)據(jù)集。兩個(gè)數(shù)據(jù)集的基本信息如表2所示。觀點(diǎn)詞典來(lái)自SentiWordNet[23],本文選用評(píng)分大于0.6的正面或負(fù)面觀點(diǎn)詞,共3 908個(gè)。 表2 數(shù)據(jù)集基本信息Table 2 Basic statistics of datasets. 評(píng)價(jià)指標(biāo)采用文本觀點(diǎn)檢索領(lǐng)域常用的Mean Average Precision(MAP),NDCG@10,R-precision(R-prec)和binary Preference(bPref),具體計(jì)算公式如下: (6) (7) (8) (9) 公式(6)中,Nq指查詢(xún)的數(shù)量,N指總的文檔數(shù)量,若第i個(gè)文檔為帶觀點(diǎn)的主題相關(guān)文檔,則ri=1,否則ri=0。公式(7)中Zn為標(biāo)準(zhǔn)化因子,用理想返回列表的NDCG@n作為因子進(jìn)行歸一化。r(j)指返回文檔的評(píng)分,若相關(guān)設(shè)為2,否則設(shè)為1。公式(8)中R指與查詢(xún)相關(guān)并帶有對(duì)查詢(xún)觀點(diǎn)的文檔數(shù)量,Rj指檢索結(jié)果中第j個(gè)文檔的評(píng)分,若是正確結(jié)果集中的文檔,則取1,否則取0。公式(9)中,R指與查詢(xún)相關(guān)的文檔個(gè)數(shù),r指具體的某一個(gè)相關(guān)文檔,|nrankedhigherthanr|指排名比r靠前的非相關(guān)文檔的數(shù)量。 Fig.1 MAP with different number of concepts圖1 不同概念數(shù)量對(duì)MAP的影響 為了驗(yàn)證本文方法的有效性,將本文方法與以下模型對(duì)比: (1)BM25+Lexicon[9]:使用傳統(tǒng)信息檢索方法BM25和基于詞典的觀點(diǎn)得分模型分別計(jì)算查詢(xún)與文檔的相關(guān)度和文檔的觀點(diǎn)得分。 (2)BM25-KG+Lexicon[10]:在文獻(xiàn)[9]的基礎(chǔ)上使用知識(shí)圖譜freebase的文本描述信息為用戶(hù)查詢(xún)進(jìn)行查詢(xún)擴(kuò)展。 (3)BOC+Lexicon:本文方法,基于概念模型計(jì)算查詢(xún)與文檔的相關(guān)度并結(jié)合基于詞典的觀點(diǎn)得分方法。 實(shí)驗(yàn)1不同概念數(shù)量對(duì)MAP的影響 本文方法在概念化過(guò)程中涉及一個(gè)參數(shù):每個(gè)實(shí)體推理出的概念詞數(shù)量k。實(shí)驗(yàn)1研究不同參數(shù)k下的MAP值。本文設(shè)置概念詞數(shù)量k的范圍10~50,步長(zhǎng)為10。 觀察圖1可以發(fā)現(xiàn),在推特2014數(shù)據(jù)集中,MAP隨概念詞數(shù)量k的變化趨勢(shì)比較不明顯,折線比較平緩,而且當(dāng)k為20的時(shí)候,MAP獲得最優(yōu)值。在擴(kuò)展數(shù)據(jù)集中,當(dāng)概念詞數(shù)量k小于20,MAP呈上升趨勢(shì)且在k為20達(dá)到最高值,當(dāng)k大于20的時(shí)候,MAP開(kāi)始明顯下降。值得注意的是,在兩個(gè)數(shù)據(jù)集上,觀點(diǎn)檢索的性能均在k為20的時(shí)候達(dá)到了最高,說(shuō)明對(duì)于每個(gè)實(shí)體來(lái)說(shuō),包含20個(gè)概念詞是較為合理的。這種合理性并沒(méi)有隨著數(shù)據(jù)集的擴(kuò)大而改變,這也說(shuō)明了k取20是一個(gè)較為合理的參數(shù)設(shè)置。因此,本文在后續(xù)實(shí)驗(yàn)中,兩個(gè)數(shù)據(jù)集上的概念詞數(shù)量k均設(shè)置為20。 實(shí)驗(yàn)2方法有效性分析 為了驗(yàn)證本文方法的有效性,對(duì)比本文方法和基準(zhǔn)方法在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。結(jié)果在表3和表4顯示。 表4 本文方法與基準(zhǔn)方法在擴(kuò)展數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of our approache and benchmark approaches on extended dataset 從實(shí)驗(yàn)結(jié)果可以看出: (1)在推特2014數(shù)據(jù)集中(表3),BM25-KG+Lexicon四個(gè)指標(biāo)均優(yōu)于BM25+Lexicon,而B(niǎo)OC+Lexicon(本文方法)除了R-Prec指標(biāo)與BM25+Lexicon,其余三個(gè)指標(biāo)均優(yōu)于BM25+Lexicon。在擴(kuò)展數(shù)據(jù)集中(表4),BM25-KG+Lexicon在MAP指標(biāo)上與BOC+Lexicon基本持平,但其余三個(gè)指標(biāo)都優(yōu)于BOC+Lexicon。而B(niǎo)OC+Lexicon(本文方法)除了NDCG@10指標(biāo)外,其余三個(gè)指標(biāo)都比BM25+Lexicon好。說(shuō)明引入知識(shí)圖譜,可以提高模型的對(duì)查詢(xún)和文本詞匯的語(yǔ)義分析能力,進(jìn)而提高原有觀點(diǎn)檢索的性能。 (2)在推特2014數(shù)據(jù)集中(表3),對(duì)比本文方法BOC+Lexicon與BM25-KG+Lexicon,BOC+Lexicon優(yōu)于BM25-KG+Lexicon,雖然在R-Prec,NDCG@10,bPref指標(biāo)上基本持平,但MAP指標(biāo)提升了4.2%。在擴(kuò)展數(shù)據(jù)集中(表4),BOC+Lexicon除了在NDCG@10指標(biāo)上低于BM25-KG+Lexicon,在MAP,R-Prec,bPref三個(gè)指標(biāo)分別提升了12.6%,6.1%,16.6%。說(shuō)明本文方法優(yōu)于基于知識(shí)庫(kù)擴(kuò)展方法,不僅可以有效分析用戶(hù)查詢(xún)的信息需求,同時(shí)可以準(zhǔn)確理解文本集和查詢(xún)?cè)~匯的語(yǔ)義信息,改善了特征空間的稀疏問(wèn)題,進(jìn)而能夠提高觀點(diǎn)檢索的性能。 本文提出了一種基于文本概念化觀點(diǎn)檢索模型,與已有的研究工作不同,本文充分利用了知識(shí)圖譜的結(jié)構(gòu)化信息對(duì)用戶(hù)查詢(xún)和文本集進(jìn)行語(yǔ)義分析。通過(guò)概念知識(shí)圖譜對(duì)文本進(jìn)行概念層面的抽象,同時(shí)在概念空間計(jì)算查詢(xún)與文本的主題相似度,接著基于詞典計(jì)算文檔的觀點(diǎn)得分,最后將相關(guān)度得分與文本的觀點(diǎn)得分二次組合成相關(guān)觀點(diǎn)得分。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有工作對(duì)比,本文方法在MAP等指標(biāo)上有明顯的提升。但是,本文模型目前仍是基于詞匹配的模型,在概念化過(guò)程中產(chǎn)生的依然是稀疏的概念空間,因此,詞匯之間的語(yǔ)義相似度計(jì)算在匹配失敗的前提下可能產(chǎn)生一定錯(cuò)誤的概率。因此在未來(lái)的工作中,將利用網(wǎng)絡(luò)表示的方法,通過(guò)表示學(xué)習(xí)利用知識(shí)庫(kù)潛在的結(jié)構(gòu)信息,將文本嵌入低維空間以計(jì)算文本相關(guān)度。通過(guò)這種泛化能力較強(qiáng)的建模方式,希望可以彌補(bǔ)概念化過(guò)程中的錯(cuò)誤,進(jìn)一步提高觀點(diǎn)檢索的性能。 參考文獻(xiàn): [1] Ounis I,Macdonald C,Rijke M D,etal.Overview of the TREC 2006 Blog Track[C]∥Fifteenth Text Retrieval Conference,Trec 2006,Gaithersburg,Maryland,November,2006:86-95. [2] Pang B,Lee L.Opinion Mining and Sentiment Analysis [M].Foundations and Trends in Information Retrieval,2008:1-135. [3] Zhang W,Yu C,Meng W.Opinion Retrieval from Blogs[C]∥Proceedings of the 6th ACM Conference on Information and Knowledge Management.ACM,2007:831-840.DOI:10.1145/1321440.1321555. [4] Santos R L,He B,Macdonald C,etal.Integrating Proximity to Subjective Sentences for Blog Opinion Retrieval[C]∥European Conference on Information Retrieval.Springer,2009:325-336.DOI:10.1007/978-3-642-00958-7-30. [5] Wang X,Wei F,Liu X,etal.Topic Sentiment Analysis in Twitter:a Graph-based Hashtag Sentiment Classification Approach[C]∥Proceedings of the 20th ACM International Conference on Information and Knowledge Management.ACM,2011:1031-1040.DOI:10.1145/2063576.2063726. [6] Eguchi K,Lavrenko V.Sentiment Retrieval Using Generative Models[C]∥Conference on Empirical Methods in Natural Language Processing.2006:345-354.DOI:10.3115/1610075.1610124. [7] Zhang M,Ye X.A Generation Model to Unify Topic Relevance and Lexicon-based Sentiment for Opinion Retrieval[C]∥Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2008:411-418.DOI:10.1145/1390334.1390405. [8] Huang X,Croft W B.A Unified Relevance Model for Opinion Retrieval[C]∥Proceedings of the 18th ACM Conference on Information and Knowledge Management.ACM,2009:947-956.DOI:10.1145/1645953.1646075. [9] Liao X W,Chen H,Wei J J,etal.A Weighted Lexicon-based Generative Model for Opinion Retrieval[C]∥Machine Learning and Cybernetics (ICMLC),2014 International Conference on.IEEE,2014,2:821-826.DOI:10.1109/ICMLC.2014.7009715. [10] 馬飛翔,廖祥文,於志勇,等.基于知識(shí)圖譜的文本觀點(diǎn)檢索方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2016,51(11):33-40.DOI:10.6040/j.issn.1671-9352.0.2016.250. [11] Luo Z,Osborne M,Wang T.Opinion Retrieval in Twitter[C]∥In Proceedings of AAAI’12.2012:507-510. [12] Kim Y S,Song Y I,Rim H C.Opinion Retrieval Systems using Tweet-external Factors[C]∥COLING,26th International Conference on Computational Linguistics,Proceedings of the Conference System Demonstrations.Osaka,Japan:ACL,2016:126-130. [13] 劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述 [J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.DOI:10.7544/issn1000-1239.2016.20148228. [14] Dalton J,Dietz L,Allan J.Entity Query Feature Expansion using Knowledge Base Links[C]∥Proceedings of the 37th international ACM SIGIR Conference on Research & Development in Information Retrieval.ACM,2014:365-374.DOI:10.1145/2600428.2609628. [15] Xiong C,Callan J.Query Expansion with Freebase[C]∥Proceedings of the 2015 International Conference on The Theory of Information Retrieval.ACM,2015:111-120.DOI:10.1145/2808194.2809446. [16] Wang F,Wang Z,Li Z,etal.Concept-based Short Text Classification and Ranking[C]∥Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:1069-1078.DOI:10.1145/2661829.2662067. [17] Wang Y,Li H,Wang H,etal,Toward Topic Search on the Web[R]:Technical Report,Microsoft Research,2010. [18] Wang Z,Zhao K,Wang H,etal.Query Understanding Through Knowledge-based Conceptualization[C]∥International Conference on Artificial Intelligence.2015:3264-3270. [19] Zheng W G,Cheng H,Zou L,etal.Natural Language Question/Answering:Let Users Talk With The Knowledge Graph[C]∥Proceedings of the 2017 ACM on Conference on Information and Knowledge Management,Singapore,2017:217-226. [20] Hao Y C,Zhang Y Z,Liu K,etal.An End-to-End Model for Question Answering Over Knowledge Base with Cross-Attention Combining Global Knowledge[C]∥Meeting of the Association for Computational Linguistics,2017:221-231. [21] 王仲遠(yuǎn),程健鵬,王海勛,等.短文本理解研究 [J].計(jì)算機(jī)研究與發(fā)展,2016,53(2):262-269.DOI:10.7544/issn1000-1239.2016.20150742. [22] Wu W,Li H,Wang H,etal.Probase:A Probabilistic Taxonomy for Text Understanding[C]∥Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data.ACM,2012:481-492.DOI:10.1145/2213836.2213891. [23] Esuli A,Sebastlani F.Determining the Semantic Orientation of Terms Through Gloss Classification[C]∥ACM CIKM International Conference on Information and Knowledge Management,Bremen,Germany,October 31-November,2005:617-624.DOI:10.1145/1099554.1099713.1.3 基于文本概念化的觀點(diǎn)檢索模型
2 實(shí)驗(yàn)結(jié)果與分析
2.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)
2.2 實(shí)驗(yàn)對(duì)比
3 結(jié)論