亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SimRank的跨領(lǐng)域情感傾向性分析算法研究

2012-10-15 01:51:42呂韶華林鴻飛

中文信息學(xué)報 2012年6期

呂韶華，楊亮，林鴻飛

（大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，遼寧大連116024）

1 引言

隨著Web2.0的快速發(fā)展，主觀文本數(shù)量呈指數(shù)增長，對主觀文本進行傾向性判斷是情感計算領(lǐng)域的熱點問題。傳統(tǒng)的傾向性分析［1－2］均是判斷特定領(lǐng)域的情感傾向性，投入大量時間和資金對文本進行標(biāo)注，然后利用監(jiān)督分類方法對標(biāo)注后的文本進行訓(xùn)練，得到傾向性分析的模型，然后用此模型來對新的文本進行傾向性判斷。但是面對不同領(lǐng)域的文本，如果直接利用由監(jiān)督分類方法實驗所得出的模型進行傾向性分析，準(zhǔn)確率偏低。面臨這個難題，各種跨領(lǐng)域情感傾向性分析方法應(yīng)運而生。

跨領(lǐng)域情感傾向性分析是指利用源領(lǐng)域中已標(biāo)注情感傾向性的文本，得到新目標(biāo)領(lǐng)域中未標(biāo)注情感傾向性的文本的傾向性。文獻［3］利用圖排序算法處理跨領(lǐng)域情感傾向性分析問題，文中同時考慮了新舊兩個領(lǐng)域之間文檔的相似度從而對其進行賦值：首先，在舊領(lǐng)域和新領(lǐng)域文本之間建立內(nèi)容相似矩陣；再對該矩陣進行標(biāo)準(zhǔn)化后得到與新領(lǐng)域每個文檔的相似度最大的前K個舊領(lǐng)域中的文檔；然后，使用同樣的方法找到新領(lǐng)域中文檔內(nèi)容之間相似的文檔；最后，依據(jù)標(biāo)注文本的傾向性和得到的K個相似文檔，計算各個文檔的情感傾向性分?jǐn)?shù)，對上述兩個分?jǐn)?shù)進行線性加和后得到文檔的最后情感分，進而依據(jù)最后的得分確定新領(lǐng)域中各個文本的情感傾向性。但該方法在多個實驗中所得到的結(jié)果相比于本文提出的方法所得到的實驗結(jié)果好。文獻［4］借助與領(lǐng)域相獨立的詞語作為連接源領(lǐng)域和目標(biāo)領(lǐng)域的橋梁，運用文中所提出的SFA算法，把不同領(lǐng)域的詞語映射到統(tǒng)一的潛在空間，從而對目標(biāo)領(lǐng)域的文本進行情感傾向性判斷?？墒牵涮幚淼奈谋緝H包括英語語料，未考慮中文文本的情感傾向性分析問題。文獻［5］利用基于圖的算法判斷不同語言中詞語的傾向性，實驗表明文中的方法比傳統(tǒng)的SO－PMI方法效果好，但是該方法只考慮了形容詞的傾向性，處理的是跨語言的情感傾向性分析問題，與本文中處理的跨領(lǐng)域情感傾向性不同。

本文在前人工作的基礎(chǔ)上，提出基于SimRank的跨領(lǐng)域情感傾向性分析算法，具體步驟如下：首先，參照文獻［4］，將源領(lǐng)域和目標(biāo)領(lǐng)域中的詞語分為領(lǐng)域相關(guān)詞和領(lǐng)域無關(guān)詞，并把領(lǐng)域無關(guān)詞作為兩個領(lǐng)域情感傾向判定的種子詞；然后，利用Sim－Rank算法和情感詞典，計算領(lǐng)域相關(guān)詞與種子詞的相似度并擴展種子詞的規(guī)模，從而找出潛在情感空間；最后得到的潛在情感空間中的詞作為特征詞，借助SVM對已經(jīng)標(biāo)注情感傾向性的源領(lǐng)域文本進行訓(xùn)練，利用得到的模型對未知情感傾向性的目標(biāo)領(lǐng)域文本進行情感傾向性判定。

本文的組織結(jié)構(gòu)如下：第2節(jié)是相關(guān)工作介紹；第3節(jié)介紹基于SimRank的跨領(lǐng)域情感傾向性分析算法；第4節(jié)是本文的實驗結(jié)果計算及分析；最后一節(jié)對本研究進行了總結(jié)和展望。

2 相關(guān)工作

2.1 情感傾向性分析

有關(guān)情感傾向性分析的研究成果眾多［1－2，6］，但是，當(dāng)面對不同的領(lǐng)域文本，如果直接利用有監(jiān)督模型進行傾向性分析，準(zhǔn)確率不高，因為不同領(lǐng)域的文本在詞的分布上難以一致，這就造成在訓(xùn)練階段得到的模型難以用于預(yù)測新的領(lǐng)域的文本的情感傾向性。例如，文獻［1］利用句子之間的連詞等信息作為突破口來判定詞語的情感傾向性；文獻［2］把傳統(tǒng)的有監(jiān)督分類方法用在情感傾向性分析方面，利用多種分類器對文本的傾向性進行判斷，并在電影語料上做實驗，結(jié)果表明有監(jiān)督的方法得到的準(zhǔn)確率最高達(dá)到82.9%；文獻［6］則利用 WordNet中形容詞的同義詞集和反義詞集判斷情感詞的傾向性，進而在句子級別上判定情感傾向性。

雖然實驗結(jié)果表明有監(jiān)督的方法對情感傾向性判定比較有效，但是該方法需要大量的標(biāo)注語料，耗時費事，代價頗大，且其準(zhǔn)確性難以保證。同時，當(dāng)面對不同的領(lǐng)域文本，如果直接利用有監(jiān)督模型進行傾向性分析，準(zhǔn)確率不高，因為不同領(lǐng)域的文本在詞的分布上難以一致，這就造成在訓(xùn)練階段得到的模型難以用于預(yù)測新的領(lǐng)域的文本的情感傾向性。

2.2 SCL算法

SCL［7］算法是一種有效的跨領(lǐng)域情感傾向性分析算法。它的主要思想是：利用源領(lǐng)域和目標(biāo)領(lǐng)域中多次出現(xiàn)的帶有明確情感傾向性的種子詞作為樞紐特征，然后通過訓(xùn)練得出非樞紐特征與樞紐特征的權(quán)值模型，最后利用所得到的模型對目標(biāo)領(lǐng)域的文本進行情感傾向性預(yù)測分析。

2.3 遷移學(xué)習(xí)

遷移學(xué)習(xí)是指把源領(lǐng)域的知識遷移到相關(guān)的目標(biāo)領(lǐng)域。許多文獻對此問題進行了研究［8－10］，文獻［8］采用重新對源領(lǐng)域的實例進行賦予權(quán)值的方法，達(dá)到對目的領(lǐng)域遷移的目的；文獻［9］用新的特征表示來處理遷移學(xué)習(xí)問題；文獻［10］提出一種“兩段法”來解決遷移學(xué)習(xí)問題。廣義上，本文的跨領(lǐng)域情感傾向性分析研究也屬于遷移學(xué)習(xí)，所以近年來出現(xiàn)一些用遷移學(xué)習(xí)的方法來解決跨領(lǐng)域情感傾向性分析研究成果［7，11］。

2.4 SimRank算法

SimRank［12］是利用圖模型計算圖上各點之間的相似度，其主要思想是：一個點與其本身的相似度最高，相同或相似的節(jié)點的鄰節(jié)點也相似。具體定義如下：

對圖G上的任意兩點a和b，假定相似度為s（a，b），那么

其中C（0＜C＜1）為衰減系數(shù)，表示相似度在傳遞過程中的衰減速度。I（V）表示節(jié)點V的入度集，Ii（V）表示第i個入邊相鄰節(jié)點。

SimRank算法及其改進算法已廣泛應(yīng)用于計算對象之間的相似性［13］。本文把源領(lǐng)域和目標(biāo)領(lǐng)域文本中包含的所有詞視為圖上的節(jié)點，并分別構(gòu)建由源領(lǐng)域和目標(biāo)領(lǐng)域的詞組成的圖，若兩個詞語在一個句子中共現(xiàn)，那么兩者之間就存在一條邊，利用SimRank算法計算該圖上任意兩個點之間的相似度。

SimRank算法及其改進算法已廣泛應(yīng)用于計算對象之間的相似性［13］。文獻［12］的實驗顯示SimRank算法在挖掘節(jié)點相似性的結(jié)果相對于對比實驗?zāi)軌蛱岣?6%到45%。本文把源領(lǐng)域和目標(biāo)領(lǐng)域文本中包含的所有詞作為圖的節(jié)點，借助潛在情感空間，利用SimRank算法計算該圖上任意兩個點之間的相似度，從而實現(xiàn)源領(lǐng)域到目標(biāo)領(lǐng)域的情感傾向性分析。

3 基于SimRank的跨領(lǐng)域情感傾向性分析算法

為了后文敘述方便，把基本術(shù)語在此做集中介紹。

源領(lǐng)域（Ds）：已經(jīng)標(biāo)注情感傾向性的文本，可以利用這些標(biāo)注信息作為跨領(lǐng)域情感傾向性分析進行訓(xùn)練；

目標(biāo)領(lǐng)域（Dt）：未標(biāo)注情感傾向性文本，即待判定情感傾向性文本，且該領(lǐng)域的文本與源領(lǐng)域（Ds）不屬于同一領(lǐng)域；

種子詞（Seeds）：在源領(lǐng)域和目標(biāo)領(lǐng)域出現(xiàn)次數(shù)最多的情感詞，這些種子詞有明確的傾向性，它們需要借助情感詞典進行判斷，這些種子詞對計算SimRank有重要影響；

潛在情感空間（Latent Emotional Space）：在源領(lǐng)域和目標(biāo)領(lǐng)域中，獲取與同一個種子詞的Sim－Rank最大的詞，將這些詞構(gòu)成詞空間，該空間中的這些“詞”即可作為連接源領(lǐng)域和目標(biāo)領(lǐng)域的橋梁，這就解決了2.1節(jié)提到的跨領(lǐng)域情感傾向性分析中源領(lǐng)域和目標(biāo)領(lǐng)域不同而引起的問題。例如，若源領(lǐng)域和目標(biāo)領(lǐng)域中與種子詞w的SimRank值最大的詞分別是ws和wt，那么ws＿wt即為潛在空間里的一個詞，可用作分類特征；

情感詞典（Dic）：用于判定詞的傾向性，從而形成種子詞，判定的方法為：正向為1，負(fù)向為－1，無情感為0。

具體而言，跨領(lǐng)域情感傾向性分析問題可用上述術(shù)語表達(dá)如下：對給定的源領(lǐng)域Ds和目標(biāo)領(lǐng)域Dt，有

其中Ds由ns對標(biāo)注情感傾向性的評論組成，xsi是第i個文本內(nèi)容，ysi是xsi對應(yīng)的情感傾向性，其取值范圍為｛1，0，－1｝，分別表示評論的情感傾向性為正向、無情感和負(fù)向，Dt僅由nt個文本組成。

跨領(lǐng)域情感傾向性分析的任務(wù)是利用Ds中的文本和情感傾向性標(biāo)注信息，預(yù)測Dt中每個文本的傾向性。相對于特定領(lǐng)域的情感傾向性分析研究，跨領(lǐng)域情感傾向性分析涉及的難點有以下兩點。

1）同一個詞語在一個領(lǐng)域中的情感傾向性相對固定，但是它在不同領(lǐng)域中表達(dá)的情感傾向性不一定相同。這類問題與詞所在的領(lǐng)域相關(guān)，所以不能直接使用傳統(tǒng)的情感傾向性分析方法。比如表1所示的關(guān)于酒店評論和電子產(chǎn)品評論。

表1 評論舉例

在這兩個出自不同領(lǐng)域的句子中“小”在各自領(lǐng)域中的傾向性比較固定，但是當(dāng)它出現(xiàn)在不同的領(lǐng)域中的時候，則表達(dá)了兩種相反的傾向性，前者表示否定，而后者表示肯定。如何在跨領(lǐng)域情感傾向性分析中準(zhǔn)確判斷領(lǐng)域內(nèi)的詞語的情感傾向，并把它遷移到不同領(lǐng)域是跨領(lǐng)域情感傾向分析的一個難點。

2）一些詞語只在特定領(lǐng)域中有情感傾向，在不同領(lǐng)域中可能不包含情感，甚至不出現(xiàn)，這樣也導(dǎo)致了傳統(tǒng)的情感傾向性分析方法無法判斷傾向性，因為這兩個領(lǐng)域的詞空間分布不同。例如，針對電子產(chǎn)品的評論——“這個相機很好，耐用”，“耐用”在電子產(chǎn)品評論中經(jīng)常出現(xiàn)，表示評論者認(rèn)為該產(chǎn)品結(jié)實，表達(dá)肯定情感，但是在酒店領(lǐng)域的評論中出現(xiàn)的幾率很小，如果直接使用特定領(lǐng)域中情感傾向性分析的方法，那么會丟失很多特征，準(zhǔn)確率也隨之降低。

類似SCL，本文的算法也同樣利用多次出現(xiàn)的帶有明確情感傾向性的種子詞作為連接源領(lǐng)域和目標(biāo)領(lǐng)域的樞紐特征，進而構(gòu)建由這兩個領(lǐng)域中樞紐特征和非樞紐特征形成的圖，計算圖中所有點之間的SimRank值，從而找到潛在情感空間，最后，把潛在情感空間中的詞語作為特征，對源領(lǐng)域中已經(jīng)標(biāo)注情感傾向性的全部文本和目標(biāo)領(lǐng)域中未標(biāo)注情感傾向性的部分文本進行訓(xùn)練，得到傾向性分類模型，再利用此模型對目標(biāo)領(lǐng)域中未標(biāo)注情感傾向性的文本進行傾向性分析判斷。下面通過例句具體說明一下：

Elec領(lǐng)域：“Nokia 8800外觀漂亮，十分大氣”

Stock領(lǐng)域：“綜合看今天強勢的反彈，筆者認(rèn)為節(jié)前的調(diào)整已經(jīng)全部結(jié)束，多頭將在最后一個交易日展開全面反擊，以一個漂亮的紅色周K線迎接國慶的可能很大。”

來自不同領(lǐng)域的傾向性詞匯“大氣”和“強勢”在“漂亮”作為樞紐特征即種子詞的“鏈接”下，通過SimRank方法計算相似度，用于分析未標(biāo)注文本的情感傾向性。

具體算法如下：

（1）構(gòu)造樞紐特征集合P以及Ds和Dt的詞語組成的圖G。

tf（w）為詞語在某個領(lǐng)域中出現(xiàn)次數(shù)，Maxk表示出現(xiàn)次數(shù)最多的前k個詞。源領(lǐng)域和目的領(lǐng)域的圖G中節(jié)點代表詞語，同時出現(xiàn)在一個句子中的各個詞語之間存在一條邊。

（2）選擇種子詞Seeds。利用Dic標(biāo)注出P中有明顯情感傾向性的詞作為Seeds。本文所用的Dic是由文獻［14］的情感詞匯本體和 HowNet［15］中情感詞構(gòu)成。

（3）計算圖G中的各個詞語之間的SimRank值，構(gòu)建潛在情感空間。

LES表示潛在情感空間，其是由滿足上式的ws和wt詞語對ws＿wt組成，MaxSim（i，j）表示與詞語i的SimRank值最大的詞。

（4）把LES和Seeds中的詞語作為特征詞，對Ds的文本和部分Dt文本進行SVM訓(xùn)練，Seeds中的權(quán)值為1，LES的權(quán)重為其所屬領(lǐng)域的SimRank值，利用得到的模型對Dt中的文本進行傾向性預(yù)測。

（5）該算法能夠解決前文提到的兩個問題。對于第一個問題，在酒店領(lǐng)域的評論“我很討厭這個酒店，房間太小”中，“小”與具有否定傾向的“討厭”共現(xiàn)，根據(jù)算法判斷其傾向性為否定，同理，在電子領(lǐng)域的評論“我就喜歡這么小的電池”中，“小”的傾向性為肯定。同樣，由于上述算法計算了所有共現(xiàn)詞之間的SimRank值，在選擇特征時能夠考慮到特定領(lǐng)域的詞，從而解決（1）提到的第二個問題。例如，在如圖1所示中，Ds表示對酒店的評論文本，Dt表示電子產(chǎn)品的評論文本，由算法所得到的源領(lǐng)域和目標(biāo)領(lǐng)域中與種子詞“完美”的SimRank最大的詞分別是“不錯”和“耐用”，故“不錯＿耐用”成為潛在情感空間中的一個詞，可以用在后續(xù)的分類特征。

圖1 LES示意圖

4 實驗結(jié)果與分析

4.1 語料來源

實驗語料來自文獻［3］，該語料的規(guī)模如表2所示（“詞典長度”表示數(shù)據(jù)集中不同詞的數(shù)量），語料中包括三個領(lǐng)域的評論，分別是：電子評論Elec（來源于：http：／／detail.zol.com.cn／），財經(jīng)評論Stock（來源于：http：／／blog.sohu.com／stock／）及酒店評論 Hotel（來源于：http：／／www.ctrip.com／）。所有評論均已由專家進行了傾向性標(biāo)注。

表2 實驗語料規(guī)模

4.2 對比實驗的描述

本文對實驗語料所包括的三個領(lǐng)域，兩兩之間分別作跨領(lǐng)域傾向性分析實驗，共計6組實驗。本文的實驗進行了如下的預(yù)處理：首先，使用中國科學(xué)院ICTCLAS分詞系統(tǒng)［16］對所有語料文本進行分詞，然后去停用詞，并針對各領(lǐng)域進行詞頻統(tǒng)計，去除出現(xiàn)次數(shù)小于3次的低頻詞。最后利用詞頻統(tǒng)計結(jié)果和Dic得到Seeds。

本文所用的Dic的規(guī)模如表3所示。

分別計算Ds和Dt中經(jīng)處理后得到的詞之間的SimRank值，按照本文上述算法，得到LES。對Ds和部分Dt文本使用SVM－light工具包［17］進行訓(xùn)練，使用其中的線性核，所有參數(shù)都使用默認(rèn)值。針對Dt文本，利用訓(xùn)練后得到的模型進行傾向性預(yù)測。

表3 Dic的規(guī)模

4.3 實驗結(jié)果

本文使用準(zhǔn)確率（Accuracy）作為評價指標(biāo)，準(zhǔn)確率是指預(yù)測的文本傾向性和經(jīng)專家標(biāo)注的文本的傾向性一致的文本數(shù)目占所預(yù)測文本總數(shù)的比例。

文獻［3］中把用SVM訓(xùn)練分類作為Baseline，同時使用SCL和文中算法進行了實驗，本文以文獻［3］的實驗結(jié)果作為對比實驗。本文實驗結(jié)果如表4所示。

表4 實驗結(jié)果對比

4.4 實驗結(jié)果分析

本文提出的基于SimRank的方法（以下簡稱SR算法）在實驗（1）（2）（3）（5）中取得了最佳的結(jié)果，體現(xiàn)了本文方法的有效性及魯棒性，但在實驗（4）（6）中沒有文獻［3］中的SentiRank方法突出，以下部分將對實驗結(jié)果進行深入的分析。

SentiRank方法以SCL算法作為對比算法，結(jié)果顯示：在（1）（2）（3）上使用SCL算法得到的結(jié)果都優(yōu)于SentiRank方法，可見種子詞即同時出現(xiàn)在源領(lǐng)域和目標(biāo)領(lǐng)域的高頻詞匯對跨領(lǐng)域情感分析起著重要作用。

正如第3節(jié)所述，本文的算法本質(zhì)上和SCL算法的思想一致，均是利用兩個領(lǐng)域中與領(lǐng)域無關(guān)的詞語作為橋梁，從而解決跨領(lǐng)域情感傾向性分析問題，但是原始的SCL算法考慮的較為簡單，僅僅是對矩陣進行SVD分解，不能夠準(zhǔn)確、深入地挖掘出兩個領(lǐng)域的潛在情感空間，進而影響了實驗結(jié)果的準(zhǔn)確度，SR算法是對其的一個改進，考慮到利用SimRank算法挖掘共現(xiàn)的詞語的相似性，將源領(lǐng)域及目標(biāo)領(lǐng)域中與種子詞SimRank值最大的詞形成詞對，從而更準(zhǔn)確地構(gòu)成潛在情感空間，實現(xiàn)了利用種子詞把兩個領(lǐng)域更好地聯(lián)系了起來，所以在實驗（1）（2）（3）中都取得了最好的效果，從實驗結(jié)果我們可以看到，本文使用SimRank算法進行潛在情感空間的選擇在一定程度上能夠提高SCL算法的性能，因此本文的SR算法在這個三組實驗的結(jié)果要優(yōu)于SCL算法。

文獻［3］的實驗結(jié)果表明SentiRank方法在實驗（4）（5）（6）中得到的結(jié)果好于SCL算法，分析原因可知，由于SCL算法的思想主要考慮詞匯的共現(xiàn)信息且分析對象粒度為整個篇章（在本文實驗中即為整條評論），很大程度上會受到低頻詞及數(shù)據(jù)集大小影響，同時樞紐特征的選擇也對SCL算法有至關(guān)重要的影響。

而本文的SR算法同時也有一定局限性，在后三個實驗中只有一組結(jié)果優(yōu)于對比實驗的結(jié)果，即在（5）上結(jié)果要好于SCL及SentiRank方法，而在實驗（4）（6）中的結(jié)果沒有SentiRank方法表現(xiàn)的好，分析原因可知，從另一個方面是因為SR算法類似于SCL算法，但是要優(yōu)于SCL算法，其同樣會受到低頻詞、數(shù)據(jù)集大小及種子詞選擇的方面的影響，這一點可以從三個數(shù)據(jù)詞典的長度得出（Elec：6 200，Stock：13 012，Hotel：11 336）。在實驗（4）（6）中都是由于Stock和Hotel領(lǐng)域的數(shù)據(jù)詞典長度都約為Elec的2倍，其不可避免的引入了一定的噪音，影響了實驗的結(jié)果，而實驗（5）由于Hotel與Stock領(lǐng)域數(shù)據(jù)大小相似，故SR方法的結(jié)果在三種方法中表現(xiàn)最好。

同時較之SentiRank提出的方法，未考慮源領(lǐng)域和目標(biāo)領(lǐng)域之間文本的相似性，也是SR算法的結(jié)果在（4）（6）兩組實驗上不如SentiRank結(jié)果的原因之一，其也是以后的研究中進一步需要考慮的問題，將SR算法結(jié)合不同領(lǐng)域間文本相似性這一重要信息深入挖掘跨領(lǐng)域文本的情感傾向性。

5 總結(jié)與展望

本文提出一種基于SimRank的跨領(lǐng)域傾向性分析算法用于解決不同領(lǐng)域中情感傾向性分析的問題。該算法使用源領(lǐng)域和目標(biāo)領(lǐng)域中出現(xiàn)次數(shù)最多的情感詞作為連接兩者的樞紐特征，利用兩個領(lǐng)域中詞語構(gòu)成的圖上計算這些樞紐特征的SimRank值，進而構(gòu)建潛在情感空間，把潛在情感空間中的詞語作為分類特征，使用SVM分類器對源領(lǐng)域進行訓(xùn)練，用得到的分類模型對目標(biāo)領(lǐng)域的文本進行情感傾向性判斷。6組實驗的結(jié)果表明本文算法是有效的。下一步的工作可以考慮融入語法分析，對算法加入與領(lǐng)域相關(guān)的情感傾向性判定因素，同時，本文僅僅考慮兩個領(lǐng)域之間的情感傾向性遷移問題，以后的工作可以在多個領(lǐng)域間進行情感傾向性判定。

［1］V.Hatzivassiloglou，K.R.McKeown.Predicting the semantic orientation of adjectives［C］／／Proceedings of ACL97，Madrid，ES，1997：174－181.

［2］Pang B，Lee L，Vaithyanathan S.Thumbs up？Sentiment classification using machine learning techniques［C］／／Proceedings of EMNLP2002， Philadelphia，USA，2002：79－86.

［3］Qiong Wu，Songbo Tan，et al.SentiRank：Cross－Domain Graph Ranking for Sentiment Classification［C］／／2009IEEE／WIC／ACM International Conference on Web Intelligence and Intelligent Agent Technology，Milano，Italy，2009：309－314.

［4］S.J.Pan，X.C.Ni，J.T.S，et al.Cross－domain sentiment classification via spectral feature alignment［C］／／Proceedings of the 19th International Conference on World Wide Web，Raleigh NC，USA，2010：751－760.

［5］Christian Scheible.Sentiment Translation through Lexicon Induction［C］／／Proceedings of the ACL 2010 Student Research Workshop，Uppsala，Sweden，2010：25－30.

［6］Hu M，Liu B.Mining and summarizing customer reviews［C］／／Proceedings of the 2004ACM SIGKDD，Washington，USA，2004：168－177.

［7］J.Blitzer，M.Dredze，F(xiàn).Pereira.Biographies，bollywood，boom－boxes and blenders：domain adaptation for sentiment classification［C］／／Proceedings of the 45th Annual Meeting of the Association for Computa－tional Linguistics，Prague，Czech Republic，2007：440－447.

［8］W.Dai，Q.Yang，G.Xue，et al.Boosting for transfer learning［C］／／Proceedings of the 24th International Conference on Machine Learning，Corvallis，OR，2007：193－200.

［9］S.－I.Lee，V.Chatalbashev，D.Vickrey，et al.Learning a meta－level prior for feature relevance from multiple related tasks［C］／／Proceedings of the 24th International Conference on Machine Learning，Corvallis，OR，2007：489－496.

［10］J.Jiang，C.X.Zhai.A two－stage approach to domain adaptation for statistical classifiers［C］／／Proceedings of the 16th ACM Conference on Information and Knowledge Management ，Lisboa，Portugal，2007：401－410.

［11］Aue，Anthony，Gamon，et al.Customizing Sentiment Classifiers to New Domains：a Case Study［C］／／Proceedings of the International Conference on Recent Advances in Natural Language Processing，Borovets，BG，2005.

［12］Glen Jeh，Jennifer Widom.SimRank：A Measure of Structural－Context Similarity［C］／／Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，Alberta，Canada，2002：538－543.

［13］許晟，李亞楠，王斌.基于加權(quán)SimRank的中文查詢推薦研究［C］／／第五屆全國信息檢索學(xué)術(shù)會議（CCIR2009），上海，中國，2009：242－251.

［14］徐琳宏，林鴻飛，潘宇，等.情感詞匯本體的構(gòu)造［J］.情報學(xué)報，2008，27（2）：180－185.

［15］http：／／www.keenage.com／

［16］http：／／ictclas.org／

［17］Vapnik V.The nature of statistical learning theory［M］.New York：Springer－Verlag，1995.