【摘要】本文以文本信息中的情感偏向性數(shù)據(jù)挖掘作為出發(fā)點(diǎn),對中國用戶使用產(chǎn)品的評論文本信息加以分析和討論,采用Apriori算法解讀文本信息的特征挖掘,并結(jié)合監(jiān)督形式的情感分析技術(shù),實(shí)現(xiàn)了對使用產(chǎn)品評論信息的情感傾向性數(shù)據(jù)挖掘,以便于更好地幫助生產(chǎn)服務(wù)商改進(jìn)自我的生產(chǎn)缺陷,提高行業(yè)內(nèi)的競爭力。
【關(guān)鍵詞】情感傾向性數(shù)據(jù)挖掘文本信息
伴隨著現(xiàn)代化的電子商務(wù)迅猛發(fā)展,大多數(shù)的用戶開始選擇瀏覽網(wǎng)絡(luò)產(chǎn)品評論來了解產(chǎn)品和服務(wù)的信息,以便更好的選擇出自己最滿意的產(chǎn)品類型。同時,用戶評論信息也是一種信息的反饋途徑,幫助了產(chǎn)品制造商及時的發(fā)現(xiàn)產(chǎn)品的缺陷和服務(wù)體制的漏洞,提高自身的競爭力。這就必須得依靠有效的數(shù)據(jù)挖掘手段來提高用戶獲取信息的全面性和準(zhǔn)確性。
一、研究背景
Popescu等人把用戶評論的文本信息挖掘任務(wù)分為以下步驟:(a)挖掘評論中的主要產(chǎn)品屬性;(b)挖掘用戶評論文本信息中對于產(chǎn)品屬性的主要觀點(diǎn);(c)分析用戶評論文本信息中的情感傾向;(d)對提取出的有效信息進(jìn)行重要性排名。本文的研究內(nèi)容主要涉及的就是以下幾個方面。
1、挖掘產(chǎn)品的特征屬性
由于國外的研究者較早的意識到分析挖掘有效信息對于產(chǎn)品生產(chǎn)商的重要性,所以在英文的信息挖掘方面,他們已經(jīng)取得了較好的研究領(lǐng)域發(fā)展的成果。在2004年時Hu等人就采用應(yīng)用關(guān)聯(lián)分類的方法對文本信息中進(jìn)行有效的挖掘。利用這種非監(jiān)督性的方法對一些產(chǎn)品評論的文本信息進(jìn)行挖掘研究,平均的調(diào)查準(zhǔn)確率達(dá)到了72%,然后在此基礎(chǔ)上再對信息進(jìn)行后續(xù)加工處理,就得到了用戶對于產(chǎn)品主要特征的情感傾向性。
由于網(wǎng)絡(luò)評論信息數(shù)據(jù)挖掘的范圍較大,并且信息的專業(yè)性不強(qiáng),信息變化快,人工參與監(jiān)督型的方法不滿足于對整體信息的挖掘,這就需要采用非監(jiān)督型的數(shù)據(jù)挖掘方式,總體的對文本信息進(jìn)行分析研究。本文在以上研究的基礎(chǔ)上,運(yùn)用關(guān)聯(lián)規(guī)則的非監(jiān)督型挖掘方式和情感傾向性分析技術(shù)來更好地對評論進(jìn)行挖掘深析。
2、情感分析
情感分析也叫做觀點(diǎn)挖掘,和本文的研究主題相比較,觀點(diǎn)挖掘更偏向于文本中對相關(guān)主題內(nèi)容所表達(dá)觀點(diǎn)的發(fā)現(xiàn)和挖掘。文本信息具有主觀性和客觀性之分:主觀性的文本偏向于對一種觀點(diǎn)的表達(dá)和認(rèn)知;二客觀性文本偏向于對一種事實(shí)的說明和稱述。觀點(diǎn)挖掘的目的就是將文本中的主觀性文本信息識別出來,分析其中含有的觀點(diǎn)信息以及她們之間還存在的潛在的聯(lián)系,將得到的結(jié)論應(yīng)用到實(shí)際問題中去。主體在主觀性文章中表達(dá)對某些或者某一實(shí)體的認(rèn)知,這其中就包含著大量的主觀性情感。情感分析的目的就是判斷文本信息中體現(xiàn)的情感傾向,可以分為正面、負(fù)面和中性三類。
二、文本信息挖掘方法
本文在以上研究的基礎(chǔ)上,運(yùn)用關(guān)聯(lián)規(guī)則的非監(jiān)督型挖掘方式和情感傾向性分析技術(shù)來更好地對評論進(jìn)行挖掘深析。具體的分析方法可以分為以下幾個步驟:(a)利用中文語言的分析工具對文本信息中的詞性進(jìn)行標(biāo)注。(b)按照產(chǎn)品的屬性分類模型,逐字逐句的分析信息的情感傾向。分類則采用LingPipe自然語言分析工具。對文本信息的情感傾向進(jìn)行匯總,加入到觀點(diǎn)評論的數(shù)據(jù)庫中。(c)對進(jìn)行詞性標(biāo)注后的文本信息建立關(guān)聯(lián)規(guī)則的事務(wù)文件。(d)在關(guān)聯(lián)規(guī)則的Apriori算法基礎(chǔ)上,挖掘出頻繁項(xiàng)集作為候選的特征屬性集合I0。(e)將抽取的產(chǎn)品特征文本信息屬性集I0按照近鄰規(guī)則進(jìn)行篩選,篩選后的結(jié)果作為候選特征屬性集I1。(f)將候選特征屬性集I1按照獨(dú)立支持度的規(guī)則進(jìn)行分析抽取,形成候選特征屬性集I2。(g)將I2過濾形成特征屬性集合I3;再從中過濾掉單字名詞的項(xiàng)目,包括單字名詞的n項(xiàng)頻繁項(xiàng)(n≤3)。剩余的則成為了最終的產(chǎn)品特征屬性集I。(h)在觀點(diǎn)數(shù)據(jù)庫中挖掘到關(guān)于產(chǎn)品特征屬性的語句,分析出句子包含的情感傾向。(i)再按照句子出現(xiàn)的頻率性大小進(jìn)行排列,并總結(jié)出正面和負(fù)面信息的數(shù)量。
按照這種方法對文本信息進(jìn)行挖掘,不用建立特征屬性的概念模型就可以得出文本信息的特征屬性。本文中以獲取產(chǎn)品特征分析為例,運(yùn)用觀點(diǎn)挖掘結(jié)合情感分析的技術(shù),從大量的用戶文本信息中得到了有效的評論信息,使用這種方法進(jìn)行分析挖掘?qū)嶒?yàn)表現(xiàn)出了極大的優(yōu)越性,為生產(chǎn)制造商和客戶提供了經(jīng)濟(jì)實(shí)用的決策手段。
參考文獻(xiàn)
[1]唐明.文本挖掘及其在多文化交流平臺中的應(yīng)用[D].西南大學(xué),2006
[2]黃立冬.基礎(chǔ)教育資源搜索引擎中的中文分詞技術(shù)研究[D].南京師范大學(xué),2006