亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種無(wú)指導(dǎo)的情感短語(yǔ)極性判別方法

        2011-10-13 01:11:42羅侃海量信息技術(shù)有限公司北京100190
        天津科技 2011年2期
        關(guān)鍵詞:傾向性極性負(fù)面

        羅侃(海量信息技術(shù)有限公司北京100190)

        寧建軍(文匯新民聯(lián)合報(bào)業(yè)集團(tuán)·新民網(wǎng)上海200041)

        一種無(wú)指導(dǎo)的情感短語(yǔ)極性判別方法

        羅侃(海量信息技術(shù)有限公司北京100190)

        寧建軍(文匯新民聯(lián)合報(bào)業(yè)集團(tuán)·新民網(wǎng)上海200041)

        在情感分析任務(wù)中,情感詞或情感短語(yǔ)的極性判別是一項(xiàng)非常重要的任務(wù)。提出一種新的基于無(wú)指導(dǎo)學(xué)習(xí)的情感短語(yǔ)極性判別的方法。在該方法中,首先從新聞網(wǎng)站上抓取大量無(wú)標(biāo)注的新聞評(píng)論數(shù)據(jù)。經(jīng)過(guò)去除噪音并進(jìn)行分詞和詞性標(biāo)注之后,使用預(yù)先設(shè)定的模板抽取情感短語(yǔ)。然后人工標(biāo)注少量種子詞。通過(guò)分析種子詞和情感短語(yǔ)的共現(xiàn)信息,最終得到情感短語(yǔ)的極性值。實(shí)驗(yàn)證明,這種方法可以有效判別情感短語(yǔ)的極性,并且能夠用于句子級(jí)別的情感傾向分析。

        情感分析情感極性判別情感短語(yǔ)

        0 引言

        隨著Web 2.0概念的深入人心,越來(lái)越多的網(wǎng)站開(kāi)始注重以與用戶交互的方式來(lái)吸引用戶;另一方面,用戶也習(xí)慣在各個(gè)平臺(tái)上發(fā)表自己對(duì)于產(chǎn)品、人物、事件等各個(gè)要素的評(píng)論。這些評(píng)論不但數(shù)量巨大,且覆蓋面極廣。無(wú)論是潛在的消費(fèi)者、商家還是政府,甚至更多的個(gè)人和組織都可以從這些海量的評(píng)論中得到有用的信息以幫助決策。例如,一個(gè)潛在的消費(fèi)者可以通過(guò)查找其他消費(fèi)者對(duì)于某款產(chǎn)品的評(píng)論而了解到該產(chǎn)品的優(yōu)劣,繼而可以幫助用戶選購(gòu)到合適的商品。又如,政府可以通過(guò)分析大量的評(píng)論了解廣大民眾最關(guān)心的時(shí)政問(wèn)題并據(jù)此進(jìn)行相應(yīng)的決策。

        然而,互聯(lián)網(wǎng)上的評(píng)論數(shù)量往往非常巨大。在如此多的評(píng)論面前,僅憑人力難以逐個(gè)閱讀。因此,將評(píng)論分類并得到相應(yīng)的統(tǒng)計(jì)信息是一個(gè)非常自然的想法。在已有的情感分析任務(wù)中,有的研究者延循傳統(tǒng)的文本分類方法:整理收集有標(biāo)簽的語(yǔ)料并抽取相應(yīng)的特征,然后使用統(tǒng)計(jì)模型進(jìn)行分類。這種方法在實(shí)際應(yīng)用中面臨兩方面的問(wèn)題:①不同領(lǐng)域的特征差異較大。例如在手機(jī)這個(gè)領(lǐng)域中,“大”是一個(gè)表達(dá)正面情緒的特征;而在筆記本這個(gè)領(lǐng)域中,該特征卻是一個(gè)表達(dá)負(fù)面情緒的特征。②在某些領(lǐng)域,例如時(shí)政新聞?lì)?,還沒(méi)有公開(kāi)的有標(biāo)注的數(shù)據(jù)。此外,博客、論壇上還有大量的未標(biāo)注評(píng)論。這兩點(diǎn)原因?qū)е禄谟兄笇?dǎo)學(xué)習(xí)的方法難以滿足現(xiàn)實(shí)的要求。

        有的研究者關(guān)注于如何構(gòu)建一個(gè)情感詞典。在這樣的體系下,情感傾向的判斷依賴于詞典的覆蓋率和準(zhǔn)確率。然而,將詞的情感傾向進(jìn)行轉(zhuǎn)義是非常常見(jiàn)的語(yǔ)言現(xiàn)象。例如,“滿意”是一個(gè)正面的詞語(yǔ)。在收集的評(píng)論中,“滿意”出現(xiàn)的次數(shù)為2 568次,“不滿意”出現(xiàn)的次數(shù)為725次,“……才滿意?”類型的反問(wèn)或疑問(wèn)句類型出現(xiàn)的次數(shù)為68次。因此,一個(gè)好的基于詞表的情感傾向的判別系統(tǒng)還要處理各種變化的否定式等轉(zhuǎn)義現(xiàn)象。而且,領(lǐng)域的相關(guān)性也是在構(gòu)造詞表過(guò)程中出現(xiàn)的非常困難的一個(gè)問(wèn)題。此外,在現(xiàn)實(shí)數(shù)據(jù)中,大量的評(píng)論有錯(cuò)別字、漏字、簡(jiǎn)寫(xiě)、縮寫(xiě)等現(xiàn)象。綜合以上這些因素,基于詞表的系統(tǒng)在判別文檔情感極性時(shí)面臨很大的困難。

        針對(duì)以上提出的問(wèn)題,本文將抽取的對(duì)象鎖定在短語(yǔ)級(jí)別。與單個(gè)詞相比,短語(yǔ)具有如下幾個(gè)優(yōu)點(diǎn):①在不同語(yǔ)境下存在不同傾向性的可能性更小。例如“期待奇跡發(fā)生”表達(dá)了非常明確的正面情感傾向。單個(gè)詞“期待”則有可能在正面或是負(fù)面的情形下使用,例如“還是別期待”就表述了負(fù)面的情緒。②在某些情況下,單個(gè)詞沒(méi)有主觀傾向性或者傾向性不明。例如,“取消”在一般情形下表達(dá)了否定的含義。“稅收”則是一個(gè)客觀性的名詞。兩者結(jié)合之后形成的短語(yǔ)“取消了稅收”在大部分語(yǔ)言環(huán)境下蘊(yùn)含了正面的情感傾向。

        本文提出的基于無(wú)指導(dǎo)學(xué)習(xí)的情感短語(yǔ)極性判別方法能夠在極少量的人工標(biāo)注基礎(chǔ)上得到質(zhì)量較高的情感短語(yǔ)及其情感傾向,并且抽取出來(lái)的情感短語(yǔ)能夠有效的用于評(píng)論的傾向性判別。

        1 相關(guān)工作的分析

        國(guó)內(nèi)面向中文的情感分析研究,隨著兩屆《中文傾向性分析評(píng)測(cè)》(Chinese Opinion Analysis Evaluation,COAE2008,COAE2009)的召開(kāi),獲得了極大的關(guān)注,而之前的研究則較為零散。COAE評(píng)測(cè)的任務(wù)涵蓋了情感分析這一方向的大部分問(wèn)題,如情感詞的識(shí)別與極性判斷、情感相關(guān)要素的抽取、句子及篇章的主客觀識(shí)別與褒貶傾向判斷等。在情感表達(dá)的語(yǔ)言單位上,大部分國(guó)內(nèi)的研究定位于詞匯,即識(shí)別情感詞以及判斷其極性。對(duì)這一問(wèn)題的主要方法是在HowNet等現(xiàn)有的情感語(yǔ)義資源的基礎(chǔ)上進(jìn)行領(lǐng)域擴(kuò)展,從而獲得領(lǐng)域相關(guān)的情感詞詞表。擴(kuò)展的主要依據(jù)有詞性、句式、句法等語(yǔ)言學(xué)約束條件,[1-2]與HowNet等現(xiàn)有情感詞的共現(xiàn)關(guān)系,[1]情感詞的上下文模版等。[3]

        一個(gè)詞的情感性質(zhì)(是否是情感詞,極性如何)依賴于其出現(xiàn)的上下文。因此,COAE要求抽取而得的情感詞要注明前后的語(yǔ)境,以判斷其是否確實(shí)作為情感詞出現(xiàn)。這是一種消除詞匯情感不確定性的手段,如果直接將情感識(shí)別定位于短語(yǔ)層面,這樣的不確定性將很自然的基本得到消除。

        文獻(xiàn)[4]的研究不是以詞匯為基礎(chǔ)進(jìn)行情感分析。在文獻(xiàn)中,作者在人工標(biāo)注好的主客觀訓(xùn)練語(yǔ)料中抽取了連續(xù)雙詞詞類組合模式作為區(qū)分主觀文本與客觀文本的特征,進(jìn)而對(duì)文本進(jìn)行主客觀性的分類。因?yàn)槭情L(zhǎng)度為2的順序詞類,這樣的特征比詞匯顯得更“抽象”,也無(wú)法談到褒貶極性的區(qū)分。

        國(guó)外情感分析的研究起步更早,在各個(gè)級(jí)別的會(huì)議上都已發(fā)表了大量的相關(guān)文獻(xiàn)。研究詞的情感極性問(wèn)題最早見(jiàn)于文獻(xiàn)[5]。在文獻(xiàn)[5]中,研究者通過(guò)分析形容詞之間組成的詞對(duì)來(lái)判別形容詞的情感傾向。這些詞對(duì)通過(guò)“and”、“or”、“but”、“either-or”以及“nether-nor”連接起來(lái)。這個(gè)方法是基于這樣一種假設(shè):通過(guò)這些詞連接的詞對(duì)擁有相同或是相反的情感極性。例如使用“and”相連接的詞對(duì)就含有相同的極性。通過(guò)輸入一些初始詞及其情感極性,最終能夠得到大量形容詞的情感極性。

        Turney[6]提出了另一種方法來(lái)計(jì)算詞語(yǔ)的情感極性。該方法先輸入少量的正面和負(fù)面的種子詞,通過(guò)搜索引擎搜索種子詞與目標(biāo)詞共現(xiàn)的次數(shù),并通過(guò)點(diǎn)間互信息(Point-wise Mutual Information,PMI)得到目標(biāo)詞的情感極性。然而,該方法需要連接到外部的網(wǎng)絡(luò)資源。此外,主流中文搜索引擎不支持該方法所需的“NEAR”修飾符:即兩個(gè)詞只在一定距離之內(nèi)共現(xiàn)。

        文獻(xiàn)[7]則是通過(guò)分析WordNet來(lái)得到目標(biāo)詞的情感極性。該方法首先通過(guò)WordNet以及同義詞構(gòu)建出詞網(wǎng)絡(luò)。每個(gè)目標(biāo)詞的極性則是通過(guò)判斷該詞與“Good”和“Bad”之間的距離哪一個(gè)更近來(lái)獲得。

        2 基于無(wú)指導(dǎo)學(xué)習(xí)的情感短語(yǔ)極性判別方法

        該方法的第一步是抽取帶有情感傾向的短語(yǔ)。已有工作闡述了單個(gè)形容詞表達(dá)情感傾向的重要性。[8]正如第一點(diǎn)提到的,單個(gè)形容詞在不同上下文會(huì)存在轉(zhuǎn)義的現(xiàn)象,并且不同領(lǐng)域的形容詞可能含有不同的主觀傾向。因此,本文使用短語(yǔ)作為基本的情感傾向單元。通過(guò)人工方式總結(jié)了一批模板,使用這些模板作為抽取短語(yǔ)的方式。

        首先,算法需要將評(píng)論進(jìn)行切詞和詞性標(biāo)注。使用海量分詞研究版作為切詞工具以及BasePoS1http://bcmi.sjtu.edu.cn/~zhaohai/index.ch.htm l作為詞性標(biāo)注工具。該詞性標(biāo)注工具的標(biāo)準(zhǔn)依照賓州樹(shù)庫(kù)的詞性標(biāo)注標(biāo)準(zhǔn)。表1列出了抽取短語(yǔ)過(guò)程中所使用的模板。其中,AD為副詞,VA為表語(yǔ)形容詞,VV為其他類動(dòng)詞,AS為語(yǔ)助詞,DEC為“的”字語(yǔ)助詞,NN為名詞等等。更多的解釋可以參考相關(guān)文檔2ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz。

        該方法的第二步是計(jì)算每個(gè)短語(yǔ)的情感極性。使用淺層語(yǔ)義分析(Latent Semantic Analysis,LSA)技術(shù)來(lái)比較情感短語(yǔ)與種子詞之間的強(qiáng)弱關(guān)系。LSA使用矩陣奇異值分解(Singular Value Decomposition,SVD)來(lái)分析詞語(yǔ)間的統(tǒng)計(jì)關(guān)系。LSA首先需要將文本轉(zhuǎn)換為矩陣形式,其中行向量表示短語(yǔ),列向量表示文檔。和傳統(tǒng)做法不同的是,將屬于同一篇新聞的評(píng)論整合為一個(gè)文檔。這種做法暗含了一個(gè)假設(shè),即隸屬于同一篇新聞的評(píng)論往往含有類似的情感極性。通過(guò)觀察發(fā)現(xiàn),這個(gè)假設(shè)在大部分情況下是成立的。另外一個(gè)原因是:新聞?lì)愒u(píng)論的文本往往很短,一句話往往只有一個(gè)候選短語(yǔ)。因此如果把單篇評(píng)論作為一個(gè)文檔來(lái)對(duì)待,很難得到短語(yǔ)間的共現(xiàn)信息。

        表1 短語(yǔ)模板

        SVD分解會(huì)將矩陣X分解為3個(gè)矩陣的積,即:X=UΣVT。假設(shè)矩陣X的秩為r,選擇K≤r。那么Xk=UkΣk是秩為K時(shí)對(duì)X矩陣的最好近似。假設(shè)Phrase1和Phrase2在矩陣中相應(yīng)的行向量分別那么它們的相似度:LSA(Phrase1,Phrase2)

        人工選擇了4個(gè)正面種子詞和4個(gè)負(fù)面種子詞共計(jì)8個(gè)種子詞作為初始輸入。8個(gè)種子詞的列表見(jiàn)表2。這些種子詞在語(yǔ)料中都有很高的出現(xiàn)頻率,而且出現(xiàn)轉(zhuǎn)義等情形也較少。

        表2 種子詞列表

        對(duì)于任意一個(gè)短語(yǔ)Phrase,其情感極性SP用如下公式計(jì)算:

        其中s表示種子詞。當(dāng)SP大于零時(shí),該短語(yǔ)為正面性短語(yǔ),反之當(dāng)SP小于零時(shí),該短語(yǔ)為負(fù)面性短語(yǔ)。

        該方法的第三步是計(jì)算文檔的情感極性。將文檔中所有已計(jì)算極性值的情感短語(yǔ)抽取出來(lái)。然后對(duì)所有的情感極性值取平均。當(dāng)平均值大于0.05時(shí),評(píng)論被歸類到正面類評(píng)論。當(dāng)平均值小于-0.05時(shí)評(píng)論被歸類到負(fù)面類評(píng)論。當(dāng)平均值居于-0.05和0.05之間時(shí)則為中立類評(píng)論。

        3 實(shí)驗(yàn)及其結(jié)果

        3.1 實(shí)驗(yàn)數(shù)據(jù)說(shuō)明

        抓取了新民網(wǎng)32 006 538條時(shí)政、民生類新聞評(píng)論。通過(guò)隨機(jī)的方式選擇了977篇新聞及其對(duì)應(yīng)的15 004條評(píng)論進(jìn)行標(biāo)注。標(biāo)注的類別為:正面、負(fù)面、中立和未知。正面類的主要包括了贊揚(yáng)、同意、支持等主觀傾向。負(fù)面類的主要包括了憤怒、貶損、辱罵、抗議等主觀傾向。中立類的主要包括了感慨等主觀傾向以及客觀類評(píng)論。未知類的標(biāo)注準(zhǔn)則則是當(dāng)該評(píng)論難以判斷其所屬的類別時(shí)使用。4個(gè)類別對(duì)應(yīng)的數(shù)量見(jiàn)表3:

        3.2 情感分類實(shí)驗(yàn)

        考察了不同大小的情感極性值對(duì)于分類結(jié)果的影響。結(jié)果見(jiàn)表4所示。其中,短語(yǔ)集大小的百分比指的是依據(jù)SP值從大到小選取的短語(yǔ)占所有抽取短語(yǔ)的比例。例如,10%表示實(shí)驗(yàn)中使用了正面短語(yǔ)集合和負(fù)面短語(yǔ)集合各自SP值最大的10%短語(yǔ)。第二列指的是15 004條評(píng)論中含有特定短語(yǔ)集中短語(yǔ)的比例。第三列指的是只考慮正面和負(fù)面類評(píng)論時(shí)得到的準(zhǔn)確率。第四列指的是考慮正面、負(fù)面以及中立評(píng)論得到的準(zhǔn)確率。準(zhǔn)確率的計(jì)算公式為:實(shí)驗(yàn)結(jié)果顯示,當(dāng)只考慮正面以及負(fù)面類評(píng)論時(shí),基于短語(yǔ)情感極性最高能得到87.15%的準(zhǔn)確率。相應(yīng)的代價(jià)是只能命中大約1/5的評(píng)論。而此時(shí),分為3類的準(zhǔn)確率也能達(dá)到65.8%。隨著短語(yǔ)集的增大,準(zhǔn)確率隨之減小而命中的評(píng)論數(shù)量則隨之增大。短語(yǔ)集合中SP值較小的短語(yǔ)大多為出現(xiàn)頻率很低的短語(yǔ)。因此,可以認(rèn)為當(dāng)候選短語(yǔ)出現(xiàn)了足夠多的數(shù)量,基于無(wú)指導(dǎo)學(xué)習(xí)的方式能夠有效的學(xué)習(xí)到其情感傾向。

        4 結(jié)論與展望

        提出了一種基于短語(yǔ)與種子詞的共現(xiàn)信息來(lái)計(jì)算情感短語(yǔ)的極性。大規(guī)模真實(shí)語(yǔ)料上的實(shí)驗(yàn)表明,當(dāng)問(wèn)題定義為正負(fù)面的二類問(wèn)題時(shí),使用該方法得到的情感短語(yǔ)用以判斷評(píng)論的情感傾向最高能得到87%的準(zhǔn)確率。

        基于短語(yǔ)的方法主要的問(wèn)題是不能命中大部分的評(píng)論,且短語(yǔ)的抽取工作依靠人工總結(jié)的規(guī)則。下一步的研究方向是擴(kuò)大短語(yǔ)抽取的規(guī)則集合以及機(jī)器自動(dòng)識(shí)別情感短語(yǔ)的方法?!?/p>

        [1]喬春庚,孫麗華,吳韶.基于模式的中文傾向性分析研究[C].北京:第一屆中文傾向性分析評(píng)測(cè)論文集,2008:21-31.

        [2]劉軍,劉全升,陳漠沙.第一屆中文傾向性分析評(píng)測(cè)結(jié)果淺析[C].北京:第一屆中文傾向性分析評(píng)測(cè)論文集,2008:125-141.

        [3]王秉卿,張姝,張奇.中文情感詞識(shí)別[C].北京:第一屆中文傾向性分析評(píng)測(cè)論文集,2008:63-69.

        [4]葉強(qiáng),張紫瓊,羅振雄.面向互聯(lián)網(wǎng)評(píng)論情感分析的中文主觀性自動(dòng)判別研究[J].信息系統(tǒng)學(xué)報(bào),2007(1):79-91.

        [5]Hatzivassiloglou and McKeown.Predicting the semantic orientation of adjectives[M].Madrid,Spain:Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics,1997:174-181.

        [6]P.D.Turney.Thumbs up or Thumbs down?Semantic orientation applied to unsupervised classification of reviews[C].Philadelphia:Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,2002:417-424.

        [7]J.Kamps,M.Marx,R.J.Mokken et.al.Using WordNet to measure semantic orientation of adjectives[J].Lisbon,Portugal:Proceedings of the 4th International Conference on Language Resources and Evaluation,2004(4):1115-1118.

        [8]J.M.Wiebe.Learning subjective adjectives f rom corpora[C].Menlo Park:Proceedings of the 17th National Conference on Artificial Intelligence,2000:735-740.

        注:本文為基金項(xiàng)目論文,獲上海市科學(xué)技術(shù)委員會(huì)科研項(xiàng)目《新聞網(wǎng)站專題頁(yè)面富媒體信息搜編技術(shù)研究及其系統(tǒng)實(shí)現(xiàn)》(課題號(hào):09dz1502000)資金資助。

        2011-03-08

        猜你喜歡
        傾向性極性負(fù)面
        基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
        跟蹤導(dǎo)練(四)
        負(fù)面清單之后的電改
        能源(2018年8期)2018-09-21 07:57:22
        遠(yuǎn)離負(fù)面情緒
        表用無(wú)極性RS485應(yīng)用技術(shù)探討
        關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
        一種新型的雙極性脈沖電流源
        “沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀性差異
        一種面向博客群的主題傾向性分析模型
        鍵的極性與分子極性判斷的探究
        亚洲精品一区二区三区新线路| 亚洲中文高清乱码av中文| 国产高清av首播原创麻豆| 国产中文字幕亚洲国产| 国产69精品一区二区三区| 少妇对白露脸打电话系列| 初尝人妻少妇中文字幕| 精品久久人妻av中文字幕| 少妇高潮无码自拍| 欧美精品中文字幕亚洲专区| 天天影视性色香欲综合网| 婷婷色综合视频在线观看| av一区二区在线免费观看| 丝袜人妻无码中文字幕综合网 | 久久久久人妻精品一区蜜桃| 欧美又大又硬又粗bbbbb| 国产影院一区二区在线| 国产精品亚洲A∨无码遮挡| 人人妻人人爽人人做夜欢视频九色| 亚洲av无码乱码精品国产| 青青青草视频手机在线| 国产美女69视频免费观看| 女邻居的大乳中文字幕| 亚洲av综合色区一区二区| 男女上床视频免费网站| 国产精品久免费的黄网站| 中文字幕肉感巨大的乳专区| 一本一道久久综合久久| 亚洲中文字幕日本日韩| 娇柔白嫩呻吟人妻尤物| 伊人色综合视频一区二区三区 | 一区二区三区在线观看视频精品| 国产成年无码久久久久下载| 久久久国产精品樱花网站| 国产99久久亚洲综合精品| 精品人妻午夜一区二区三区四区| 人妻体内射精一区二区三区 | 亚洲精品国产av一区二区| 人妻av一区二区三区av免费| 亚洲区在线| 欧美婷婷六月丁香综合色|