林琛,李弼程,周杰
(解放軍信息工程大學(xué)信息工程學(xué)院,河南鄭州450002)
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的飛速普及,它已成為人們發(fā)布、交流信息的重要渠道。社會輿情在互聯(lián)網(wǎng)上反應(yīng)為網(wǎng)絡(luò)輿情,社會輿情和網(wǎng)絡(luò)輿情在內(nèi)容上具有一致性。但由于網(wǎng)絡(luò)表達快捷、信息多元,方式互動等特點使得網(wǎng)絡(luò)輿情形成迅速,對社會影響更巨大。
近年來,社會管理部門急需了解當前人們關(guān)注事件、輿論方向等信息,能夠?qū)Τ霈F(xiàn)的網(wǎng)絡(luò)輿情進行及時地監(jiān)控。2008年6月,胡主席在人民網(wǎng)與網(wǎng)友聊天,指出他上網(wǎng)主要關(guān)注人們關(guān)心什么問題,對這些問題的看法、態(tài)度、意見等。
目前,網(wǎng)絡(luò)輿情分析技術(shù)正處于起步階段,國內(nèi)外研究不是很多,沒有具體的研究內(nèi)容和統(tǒng)一定義。網(wǎng)絡(luò)新聞口語評論文本(以下簡稱網(wǎng)絡(luò)新聞口語評論)的分析研究則更少,而它作為網(wǎng)民意見的最直接和最重要的載體,是輿情分析的重要內(nèi)容。我們結(jié)合輿情學(xué)、輿論學(xué)[1-2]的研究成果,給出以下定義:
定義1:網(wǎng)絡(luò)新聞口語評論分析
網(wǎng)絡(luò)新聞口語評論分析是對突發(fā)、熱點和重點網(wǎng)絡(luò)新聞事件的相關(guān)評論進行分析,獲取重要輿情信息,即評論者對評論對象的態(tài)度、情緒、意志等主觀信息。
定義2:網(wǎng)絡(luò)新聞口語評論對象
網(wǎng)絡(luò)新聞口語評論對象是網(wǎng)民進行評論的對象,是評論內(nèi)容的指向。
我們將新聞口語評論對象分為全局對象和局部對象。全局對象是指整個新聞事件;局部對象是指用戶評論的與新聞事件相關(guān)的關(guān)鍵性人物、機構(gòu)、話題等。通常,大部分評論不直接發(fā)表反對或支持全局對象,而是圍繞一些局部對象進行討論,其中很大一部分為人物對象。
這里,人物對象是指在評論中出現(xiàn)與新聞事件相關(guān)的,被網(wǎng)民使用和評論的人名。例如:“劉忠德批超女”事件中的“劉忠德、劉老、老劉、劉”;“逃跑老師范美忠”事件中的“范美忠、范跑跑、范”等。網(wǎng)絡(luò)新聞口語評論中人物對象不同于傳統(tǒng)的書面語人名,無論表達方式和所在的上下文環(huán)境都具有很強的口語化特點。
本文在分析人物對象特點的基礎(chǔ)上,研究網(wǎng)絡(luò)新聞口語評論中人物對象的自動識別方法。其他部分組織如下:第2節(jié)介紹相關(guān)研究;第3節(jié)分析網(wǎng)絡(luò)新聞口語評論中人物對象特點;第4節(jié)提出一種人物對象自動識別方法;第5節(jié)在網(wǎng)絡(luò)真實語料上進行實驗檢測方法有效性;最后總結(jié)全文并介紹下一步研究工作。
目前還沒有見到直接面向網(wǎng)絡(luò)新聞口語評論的人物對象識別的研究報道。相關(guān)性研究主要是人名識別技術(shù)。目前人名識別技術(shù)主要面向書面語的新聞?wù)Z料,語法規(guī)范,人物用名正規(guī)。研究方法包括:規(guī)則方法[3-4]、統(tǒng)計方法[5-6]和規(guī)則與統(tǒng)計結(jié)合的方法[7-8]。其中,基于規(guī)則的方法需要人為建立規(guī)則,方法簡單、代價昂貴并且難以擴展;基于統(tǒng)計的方法利用人工標注語料,結(jié)合概率統(tǒng)計模型進行識別,但方法依賴于模型和訓(xùn)練語料質(zhì)量和規(guī)模;規(guī)則與統(tǒng)計結(jié)合是主流識別技術(shù),該類方法統(tǒng)計姓名用字概率以及姓名邊界信息等大量的數(shù)據(jù)信息,然后根據(jù)閾值對候選姓名進行取舍,主要問題在于閾值設(shè)定不當會影響到性能。
但網(wǎng)絡(luò)新聞口語評論中人物對象識別又不同于一般人名識別。與人名識別通常處理的書面語文本不同,網(wǎng)絡(luò)新聞口語評論屬于口語文本。目前,對評論性口語文本的分析稱為意見挖掘,處理對象主要
為產(chǎn)品,例如:汽車、數(shù)碼照相機的評論,研究集中在產(chǎn)品特征識別、情感傾向性分析等方面。其中,產(chǎn)品特征識別即識別產(chǎn)品評論對象,識別方法主要利用本體資源[9-10]、語法結(jié)構(gòu)[11-12]、統(tǒng)計學(xué)習(xí)[13]。產(chǎn)品隸屬特定領(lǐng)域,特征相對固定,而網(wǎng)絡(luò)新聞不同評論者看待事件角度不同,對同一人物對象表達可能就不同,因此,評論中包含了大量口語特色的人名,給目前識別方法帶來了挑戰(zhàn)。
文獻[4]中提出基于角色標注的人名識別方法,取得了較高召回率。它包含在中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS(Institute of computing technology,Chinese Lexical A-nalysis System)中。下面利用該方法對網(wǎng)絡(luò)新聞口語評論數(shù)據(jù)中人物對象進行識別,分析新數(shù)據(jù)環(huán)境下面臨的問題及原因。
以代表性的網(wǎng)絡(luò)新聞事件“逃跑老師范美忠”為例,利用ICTCLAS對其口語評論中人物對象進行識別。所有數(shù)據(jù)來自互聯(lián)網(wǎng),經(jīng)過規(guī)范化預(yù)處理,主要是規(guī)范標點符號使用。因為有些網(wǎng)民在書寫評論時隨意添加各種符號、空格等,例如:“范美 忠應(yīng)該 道 歉” 、“堅/決/支/持/范/跑/跑”,這些會影響ICTCLAS的識別結(jié)果。
部分識別結(jié)果如表1。由表可見,文獻[4]中方法對口語評論中的人物對象整體識別效果不理想,存在問題包括:
(1)對同一表達形式的人物對象識別結(jié)果不穩(wěn)定,如表1中:1、2、3或 9、10;(2)無法完整識別人物對象的別稱,如:4、5;(3)無法識別人物對象別稱,如,6;(4)其他識別錯誤,如:7,8,9。
表1 基于角色標注方法的人物對象識別結(jié)果
續(xù)表
原因主要是網(wǎng)絡(luò)新聞口語評論者來自社會各個階層,對人物對象稱呼的聯(lián)想范圍廣泛,出現(xiàn)了大量的簡稱、別稱等口語特色表達形式,且口語表達方式對詞法、語法的使用要求不嚴格。而目前的識別方法均依賴于從大規(guī)模標注語料庫抽取出的書面語人名統(tǒng)計數(shù)據(jù)和用字規(guī)律,無法適應(yīng)口語人物表達不規(guī)范和形式多樣的特點。
通過大量實際口語評論數(shù)據(jù)的統(tǒng)計分析,人物對象主要具有以下特點:(1)人物對象集中,一般評論者通常只圍繞幾個關(guān)鍵性人物進行討論;(2)對同一人物對象表達形式多樣,大部分表達形式圍繞人姓或名的“變形”;(3)某些表達形式得到網(wǎng)民的肯定,評論中會大量重復(fù)出現(xiàn);
網(wǎng)絡(luò)新聞口語評論中人物對象的主要表達形式,如表2所示。
表2 網(wǎng)絡(luò)新聞口語評論中人物對象表達形式
我們結(jié)合網(wǎng)絡(luò)新聞口語評論中人物對象的表達特點,在ICTCLAS切分基礎(chǔ)上提出一種人物對象識別方法。該方法首先從ICTCLAS切分結(jié)果提取單字,利用基于多頻率綜合判別的單字可靠度評估方法,提取人物對象識別線索;然后,以線索為中心劃定處理窗口,結(jié)合人物對象表達相鄰、有序、頻繁的特點,利用改進的頻繁項挖掘算法生成候選人物對象;最后,對候選人物對象中的冗余進行優(yōu)化,確定人物對象。
網(wǎng)絡(luò)新聞口語評論經(jīng)ICTCLAS切分后,人物對象存在于切分產(chǎn)生的碎片中,識別可以看作某個區(qū)域內(nèi)重新組合字串碎片將其連接起來構(gòu)成整體對象的過程。
從表1可以看出,ICTCLAS對某些表達形式的人物對象雖無法完整識別,但可將其“部分”識別出來,例如:姓氏“范”:
早/tg就/d該/v把/pba范/nr1跑/v跑/v炒/v掉/v
堅決/ad支持/v取消/v范/nr1美/b忠/vg教師/n資格/n
大部分/m老師/n認為/v范/nr1美/b忠言/n論/v不當/a
在實際評論數(shù)據(jù)中,人物對象的表達大部分是圍繞人姓氏或名的“變形”。因此,從ICTCLAS識別結(jié)果中提取可靠度高的人物對象識別線索,以線索為中心劃定對象獲取區(qū)域,這樣既能縮小識別范圍,降低了處理復(fù)雜度,同時最大程度地減少冗余。
本文選用切分結(jié)果中的單字作為線索單元。一般而言,某單字在切分結(jié)果中出現(xiàn)的次數(shù)越多說明用戶使用率越高,作為對象組成部分的可能性就越大,書面語文本中可以直接采用其評估可靠度,但對于口語評論文本,不能簡單的應(yīng)用。因為口語表達隨意,評論者可能在一個評論中大量重復(fù)同一對象,而該對象只存在于這一個評論中,并不受其他評論者關(guān)注,為評論無關(guān)對象,但在切分結(jié)果中表現(xiàn)為該對象包含的某個單字出現(xiàn)頻率很高,這樣勢必影響評估結(jié)果的可信性。針對上述問題,我們結(jié)合新聞口語評論文本和人物對象表達特點,提出以下兩個假設(shè):
(1)人物對象表達形式越多樣越重要;
(2)人物對象在評論中分布越廣越重要。
以此分別對應(yīng)引入兩個度量值,即出現(xiàn)某單字的切分結(jié)果個數(shù)、出現(xiàn)包含某單字的切分結(jié)果的評論條數(shù)。結(jié)合以上反映單字作為人物對象組成部分可能性的三個因素,對單字可靠度進行評估,計算表達式如式(1)。
其中,fr為某單字在切分結(jié)果中出現(xiàn)的次數(shù),ftr為所有單字在切分結(jié)果中出現(xiàn)的次數(shù)和,fp為出現(xiàn)某單字的切分結(jié)果個數(shù),ftp為切分結(jié)果的個數(shù);fis為出現(xiàn)包含某單字的第i個切分結(jié)果的評論條數(shù),fts為評論總條數(shù)。fp ftp f is fts采用平方運算是為了體現(xiàn)其對可靠度的影響更大。
關(guān)聯(lián)規(guī)則挖掘[14-15]表述如下:設(shè)I={i1,i2,…im}是所有項目的集合,D={T1,T2,…Tn}是所有事務(wù)的集合,每個事務(wù) T是一些項目的集合,T?I。若X?T則稱事務(wù)T支持X。關(guān)聯(lián)規(guī)則形如X?Y的蘊涵關(guān)系,其中X?I,Y?I且X∩Y=?。如果D有s%的事務(wù)同時支持X和Y,s%稱為關(guān)聯(lián)規(guī)則X?Y的支持度。如果D中支持X的事務(wù)中,有c%的事務(wù)同時也支持Y,c%稱為關(guān)聯(lián)規(guī)則X?Y的可信度??尚哦仁菍﹃P(guān)聯(lián)規(guī)則準確度的衡量,支持度是對關(guān)聯(lián)規(guī)則重要性的衡量。
關(guān)聯(lián)規(guī)則挖掘就是從事務(wù)集合D中找出滿足用戶指定的最小支持度s%和最小可信度c%的關(guān)聯(lián)規(guī)則,主要包含以下兩個步驟:(1)發(fā)現(xiàn)所有的頻繁項集,項集的頻度至少應(yīng)等于s%;(2)根據(jù)所獲得的頻繁項集,產(chǎn)生相對應(yīng)的強關(guān)聯(lián)規(guī)則,規(guī)則必須滿足c%。目前關(guān)聯(lián)規(guī)則挖掘研究基本圍繞(1)進行,稱為頻繁項集挖掘。通常,最小支持度s%的值由用戶或?qū)<以O(shè)定。本文主要利用(1)獲取候選人物對象,其中支持度取經(jīng)驗最優(yōu)值5%。
一般而言,中文人物對象字符不超過3個。這里,我們假設(shè)完整人物對象包含單字數(shù)不多于3個。針對某些得到網(wǎng)民的肯定的人物對象表達形式會在評論中大量重復(fù)出現(xiàn)的特點,以3.1提取的線索為中心左右劃入2個字符,組成處理窗口,對處理窗口中的字符串利用繁項集挖掘算法獲取頻繁項作為候選人物對象。其中,為了盡量減少處理窗口中單字數(shù)量,降低結(jié)果冗余,考慮到評論頭位置、標點符號一定程度上提供了完整人物對象的邊界信息,例如:“范是人民”、“門.范跑跑”、“反對范美忠!”,方法在劃定處理窗口時,將其作為一個字符劃入。
經(jīng)典頻繁項集挖掘算法所處理的事務(wù)中各項是無序的,且所抽取頻繁項集中的各項在原事務(wù)中不相鄰,也沒有先后次序。而人物對象是由組成對象的各個單字的字義、字與字之間相鄰有序的關(guān)系決定。不同于經(jīng)典的頻繁項集挖掘算法,本文所處理的事務(wù)是包含人物對象的單字串,它們之間具有相對固定的順序;所提取的頻繁字串,即候選人物對象,是由處理窗口中相鄰、有序、頻繁出現(xiàn)的單字組成。
針對這一特點,方法對Ap riori頻繁項集挖掘算法中每次掃描生成的候選字符串進行判斷,只保留相鄰、有序候選字符串。對候選字符串的篩選同時解決了Apriori算法由于候選項過多而造成的算法效率低下問題。本文算法具體步驟如下:
(1)對評論數(shù)據(jù)進行掃描,獲取線索w i為中心
的處理窗口[w i-2 wi-1 wiw i+1 wi+2];
(2)掃描所有處理窗口,生成1-候選項集C1,統(tǒng)計各字符出現(xiàn)頻次,根據(jù)設(shè)定最小支持度確定1-頻繁集L1;
(3)由1-頻繁集L1確定候選集C2,對處理窗口進行掃描,統(tǒng)計C2中每個候選項相鄰、有序出現(xiàn)的頻次,由頻次大于最小支持度的候選項組成2-頻繁集L2;
(4)循環(huán)依照上述步驟產(chǎn)生頻繁集L3;
(5)將頻繁集Li(i=1,2,3)不包括標點符號的頻繁項作為候選人物對象。
4.2節(jié)所述方法已較大程度地減少了頻繁項集中的冗余項,但由于Ap ririo算法中頻繁項集的所有非空子集一定是頻繁字串,決定了生成的候選人物對象中還存在很多冗余。例如:“劉忠德”被選定,則“劉忠”、“忠德”一定被選中。如果評論中沒有獨立出現(xiàn)這類稱呼,即使為正確的稱呼,如“忠德”,也認為選錯,應(yīng)該刪除。
為了提高人物對象質(zhì)量,需要對結(jié)果進一步處理。由于假設(shè)完整人物對象包含單字數(shù)不多于3個,這里分別對頻繁項集Li(i=1~3)中頻繁項,即候選人物對象進行優(yōu)化,刪除冗余項,獲取單字、雙字和三字人物對象。優(yōu)化策略如下:
(1)單字人物對象選取
考慮口語中比較普遍地直接使用姓氏作為人物對象。假設(shè)某單字候選人物對象w1出現(xiàn)頻次f(w1),統(tǒng)計w1作為所有二字候選人物對象頭和尾的頻次>∑f(w jw1)且f(w1)-∑f(w1 wi)≥β,即w1作為頭且頻次超過閾值時為單字人物對象。
(2)雙字人物對象選取
設(shè)二字候選人物對象w1 w2,頻次為 f(w1 w2),統(tǒng)計w1 w2在所有三字候選人物對象中作為頭兩個字和后兩個字的頻次 ∑ f(w1 w2 w i)、∑f(w jw1 w2)。
F<α,w1w2不為雙字候選人物對象;
F≥β,w1 w2直接作為雙字人物對象,其個數(shù)為F;
α≤F<β,取窗口中w1w2后面第一個單字(wi除外),統(tǒng)計各單字出現(xiàn)頻次。若某單字w頻次 f(w)≥0.5F,即某單字數(shù)量超過所有單字數(shù)量的50%,則w1 w2 w為個數(shù)為 f(w)的三字人物對象,同時將w1 w2從雙字候選對象中去除,否則直接作為雙字人物對象。
b)若 ∑f(w1w2wi)≤∑f(wjw1w2),則同a)處理;
c)若∑f(w1 w2 w i)=∑f(w j w1 w2)=0,即w1 w2沒有被包含在三字候選對象,則直接作為雙字人物對象;
(3)三字人物對象選取
設(shè)三字候選人物對象w1 w2 w3出現(xiàn)頻次為f(w1 w2 w3),f(w1 w2)、f(w2 w3)為其有序子串w1w2、w2w3在雙字候選對象中出現(xiàn)的頻次。
計算 f(w1 w2 w3)3/f(w1 w2)f(w2 w3),其值越大說明w1 w2 w3越緊密,若值大于閾值β,則判定為三字人物對象。其中,f(w1w2w3)/f(w1w2)反映w3字與 w1 w2字串的緊密度,而 f(w1 w2 w3)/f(w2w3)反映w1字與w2w3字串的緊密度。
規(guī)則(1)~(3)中相關(guān)閾值α、β取經(jīng)驗最優(yōu)值,α=20,β=5%×δ(其中,δ為某線索為中心提取的處理窗口數(shù)目)。
實驗使用了包括“逃跑老師范美忠”、“劉忠德批超女”、“周正龍假華南虎照”、“劉翔退賽”等4個熱點新聞事件的中文評論數(shù)據(jù)。所有數(shù)據(jù)為從網(wǎng)易、強國論壇等中文評論網(wǎng)站采集。
語料采集后,通過網(wǎng)頁分析進行數(shù)據(jù)抽取,去重和規(guī)范化處理后轉(zhuǎn)換為同一文本格式,并進行人工標注,最終得到實驗使用的數(shù)據(jù)集。人工標注樣本數(shù)目見表3。
表3 人物對象識別性能比較
實驗采用召回率(recall)、準確率(precision)對識別方法的性能進行評價,計算表達式如下:
其中,correctNum為正確識別的人物對象數(shù)目;rea lNum為人工標注人物對象的數(shù)目;ex tract-Num為識別出的人物對象數(shù)目。召回率反映識別結(jié)果的完整程度,準確率反映識別結(jié)果的準確程度。
表3為ICTCLAS識別[4]、候選對象識別、論文整體方法識別的性能比較。表4為部分識別結(jié)果。從表3中可以看出:對于不同的網(wǎng)絡(luò)新聞事件,ICTCLAS方法識別性能不穩(wěn)定,主要是受口語評論中人物對象表達形式的影響。一方面,若別稱使用頻率較高,則ICTCLAS識別效果不理想。如:"逃跑老師范美忠",其人物對象識別的召回率和正確率均不足35%,主要是評論中大量別稱的使用,其中"范跑跑"就占了人物對象總數(shù)的45%。另一方面若書面語人名使用頻率高,則ICTCLAS識別的效果較好。如:“劉忠德批超女”、“劉翔退賽”中,使用了較多“劉忠德”、“劉翔”等ICTCLAS能夠識別出的書面語稱呼。
表4 識別的部分人物對象
與ICTCLAS方法相比,本文方法具有較較高的穩(wěn)定度和識別率。其中,候選人物對象識別作為方法的一部分,有效地提高召回率,能夠發(fā)現(xiàn)包括單字姓氏、雙字和三字別稱等多種表達形式的人物對象。
但由于單字、雙字、三字候選人物對象存在的大量冗余項,其準確率低下,如:單字“老”、“有”、“多” ;雙字“劉忠”、“周正” 、“范真” ;三字“得范美” 、“支持劉”等。方法通過對候選人物對象的一系列優(yōu)化處理,刪除結(jié)果冗余項來提升識別的準確率。與此同時,召回率得到小幅度提升,主要是由于雙字人物對象選擇策略中發(fā)現(xiàn)了部分非頻繁項的三字人物對象。如:“范美忠”頻次129,二字候選人物對象“范美”頻次 152。差值大于閾值β,查找“范美”后面的第一個單字(除候選對象中已包含的單字)。其中,“中”頻次為20,超過單字總數(shù) 50%,“范美中”視為三字人物對象。
總之,新方法能夠較好地適應(yīng)網(wǎng)絡(luò)新聞口語評論中的人物對象特點,穩(wěn)定、完整地提取出不同網(wǎng)絡(luò)新聞事件下的核心人物對象。
網(wǎng)絡(luò)新聞口語評論中人物對象是網(wǎng)絡(luò)輿情的重要內(nèi)容,對需求者及時掌握輿情具有重要意義。
本文結(jié)合口語評論中人物對象特點,以分詞為基礎(chǔ),提出一種網(wǎng)絡(luò)新聞口語評論中的人物對象自動識別方法。在網(wǎng)絡(luò)真實語料上進行實驗,新方法取得了良好的識別效果。在下一步工作中,還需要對同一人物對象的各種表達形式進行聚合處理,即合并不同稱呼的同一目標對象,例如:“范跑跑”、“范美忠”、“范”,以滿足情感傾向性分析的需要。
[1] 劉毅.網(wǎng)絡(luò)輿情研究概論[M].天津:天津人民出版社,2007.
[2] 韓運榮,喻國明.輿論學(xué)[M].北京:中國傳媒大學(xué)出版社,2005.
[3] 呂雅娟,等.基于分解與動態(tài)規(guī)劃策略的漢語未登錄詞識別[J].中文信息學(xué)報,2001,15(1):33-38.
[4] Jin Rong,Yan Rong,Zhmag Jian.A faster iterative scaling algorithm for conditional exponential model[C]//Proceedings of the Twentieth International Conference on M achine Learning(ICM L-2003),Washington DC,2003.
[5] 張華平,劉群.基于角色標注的中國人名自動識別研究[J].計算機學(xué)報,2004,27(1):85-91.
[6] 王振華,孔祥龍,等.結(jié)合決策樹方法的中文姓名識別[J].中文信息學(xué)報,2004,18(6):10-15.
[7] 李中國,劉穎.基于邊界模版和局部統(tǒng)計相結(jié)合的中國人名識別[J].中文信息學(xué)報,2006,20(5):44-50.
[8] 季姬,羅振聲.基于統(tǒng)計與規(guī)則的中文姓名自動辨識別[J].語言文字應(yīng)用,2001,31(1):14-18.
[9] X.Cheng.Automatic topic term detection and sentiment classification for opinion mining[D].Master Thesis.Saarbr cken,Germany:The University of Sarrland,2007.
[10] 姚天昉,婁德成.漢語語句主題語義傾向分析方法的研究[J].中文信息學(xué)報,2007,21(5):73-79.
[11] Ana-M aria Popescu and Oren Etzioni.Extracting Produc t Features and Opinion from Review s[C]//Proceedings of the H uman Language Technology Conference on Empirical Methods in Natural Language Processing.Vancouver,Canada,2005:339-346.
[12] J.Yi,Nasukawa,R.Bunescu,and E.N iblack.Sentiment Analyzer:Extracting sentiments about a given topic using natural languages processing Techniques[C]//Proceeding of the 3rdIEEE International Conference on Data M ining.Me lbourne,USA.2003:427-434.
[13] 劉非凡,趙軍,等.面向商務(wù)信息抽取的產(chǎn)品命名實體識別研究[J].中文信息學(xué)報,2006,20(1):7-13.
[14] H an J W,Kember M.Data M ining Concep ts and Techniques[M].Beijing:H igher Education Press.2001:240-243.
[15] 朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社.2002:135-141.
附錄A
在進行人物對象人工標注時,考慮到后續(xù)情感傾向性分析研究需要,構(gòu)建了網(wǎng)絡(luò)新聞口語評論情感語料庫。人工標注樣例如下:
表A1 語料標注參數(shù)說明