亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺析文本信息中情感偏向性的數(shù)據(jù)挖掘

2013-04-29 00:00:00謝振立

中國新通信 2013年12期

【摘要】本文以文本信息中的情感偏向性數(shù)據(jù)挖掘作為出發(fā)點(diǎn)，對中國用戶使用產(chǎn)品的評論文本信息加以分析和討論，采用Apriori算法解讀文本信息的特征挖掘，并結(jié)合監(jiān)督形式的情感分析技術(shù)，實(shí)現(xiàn)了對使用產(chǎn)品評論信息的情感傾向性數(shù)據(jù)挖掘，以便于更好地幫助生產(chǎn)服務(wù)商改進(jìn)自我的生產(chǎn)缺陷，提高行業(yè)內(nèi)的競爭力。

【關(guān)鍵詞】情感傾向性數(shù)據(jù)挖掘文本信息

伴隨著現(xiàn)代化的電子商務(wù)迅猛發(fā)展，大多數(shù)的用戶開始選擇瀏覽網(wǎng)絡(luò)產(chǎn)品評論來了解產(chǎn)品和服務(wù)的信息，以便更好的選擇出自己最滿意的產(chǎn)品類型。同時，用戶評論信息也是一種信息的反饋途徑，幫助了產(chǎn)品制造商及時的發(fā)現(xiàn)產(chǎn)品的缺陷和服務(wù)體制的漏洞，提高自身的競爭力。這就必須得依靠有效的數(shù)據(jù)挖掘手段來提高用戶獲取信息的全面性和準(zhǔn)確性。

一、研究背景

Popescu等人把用戶評論的文本信息挖掘任務(wù)分為以下步驟：（a）挖掘評論中的主要產(chǎn)品屬性；（b）挖掘用戶評論文本信息中對于產(chǎn)品屬性的主要觀點(diǎn)；（c）分析用戶評論文本信息中的情感傾向；（d）對提取出的有效信息進(jìn)行重要性排名。本文的研究內(nèi)容主要涉及的就是以下幾個方面。

1、挖掘產(chǎn)品的特征屬性

由于國外的研究者較早的意識到分析挖掘有效信息對于產(chǎn)品生產(chǎn)商的重要性，所以在英文的信息挖掘方面，他們已經(jīng)取得了較好的研究領(lǐng)域發(fā)展的成果。在2004年時Hu等人就采用應(yīng)用關(guān)聯(lián)分類的方法對文本信息中進(jìn)行有效的挖掘。利用這種非監(jiān)督性的方法對一些產(chǎn)品評論的文本信息進(jìn)行挖掘研究，平均的調(diào)查準(zhǔn)確率達(dá)到了72%，然后在此基礎(chǔ)上再對信息進(jìn)行后續(xù)加工處理，就得到了用戶對于產(chǎn)品主要特征的情感傾向性。

由于網(wǎng)絡(luò)評論信息數(shù)據(jù)挖掘的范圍較大，并且信息的專業(yè)性不強(qiáng)，信息變化快，人工參與監(jiān)督型的方法不滿足于對整體信息的挖掘，這就需要采用非監(jiān)督型的數(shù)據(jù)挖掘方式，總體的對文本信息進(jìn)行分析研究。本文在以上研究的基礎(chǔ)上，運(yùn)用關(guān)聯(lián)規(guī)則的非監(jiān)督型挖掘方式和情感傾向性分析技術(shù)來更好地對評論進(jìn)行挖掘深析。

2、情感分析

情感分析也叫做觀點(diǎn)挖掘，和本文的研究主題相比較，觀點(diǎn)挖掘更偏向于文本中對相關(guān)主題內(nèi)容所表達(dá)觀點(diǎn)的發(fā)現(xiàn)和挖掘。文本信息具有主觀性和客觀性之分：主觀性的文本偏向于對一種觀點(diǎn)的表達(dá)和認(rèn)知；二客觀性文本偏向于對一種事實(shí)的說明和稱述。觀點(diǎn)挖掘的目的就是將文本中的主觀性文本信息識別出來，分析其中含有的觀點(diǎn)信息以及她們之間還存在的潛在的聯(lián)系，將得到的結(jié)論應(yīng)用到實(shí)際問題中去。主體在主觀性文章中表達(dá)對某些或者某一實(shí)體的認(rèn)知，這其中就包含著大量的主觀性情感。情感分析的目的就是判斷文本信息中體現(xiàn)的情感傾向，可以分為正面、負(fù)面和中性三類。

二、文本信息挖掘方法

本文在以上研究的基礎(chǔ)上，運(yùn)用關(guān)聯(lián)規(guī)則的非監(jiān)督型挖掘方式和情感傾向性分析技術(shù)來更好地對評論進(jìn)行挖掘深析。具體的分析方法可以分為以下幾個步驟：（a）利用中文語言的分析工具對文本信息中的詞性進(jìn)行標(biāo)注。（b）按照產(chǎn)品的屬性分類模型，逐字逐句的分析信息的情感傾向。分類則采用LingPipe自然語言分析工具。對文本信息的情感傾向進(jìn)行匯總，加入到觀點(diǎn)評論的數(shù)據(jù)庫中。（c）對進(jìn)行詞性標(biāo)注后的文本信息建立關(guān)聯(lián)規(guī)則的事務(wù)文件。（d）在關(guān)聯(lián)規(guī)則的Apriori算法基礎(chǔ)上，挖掘出頻繁項(xiàng)集作為候選的特征屬性集合I0。（e）將抽取的產(chǎn)品特征文本信息屬性集I0按照近鄰規(guī)則進(jìn)行篩選，篩選后的結(jié)果作為候選特征屬性集I1。（f）將候選特征屬性集I1按照獨(dú)立支持度的規(guī)則進(jìn)行分析抽取，形成候選特征屬性集I2。（g）將I2過濾形成特征屬性集合I3；再從中過濾掉單字名詞的項(xiàng)目，包括單字名詞的n項(xiàng)頻繁項(xiàng)（n≤3）。剩余的則成為了最終的產(chǎn)品特征屬性集I。（h）在觀點(diǎn)數(shù)據(jù)庫中挖掘到關(guān)于產(chǎn)品特征屬性的語句，分析出句子包含的情感傾向。（i）再按照句子出現(xiàn)的頻率性大小進(jìn)行排列，并總結(jié)出正面和負(fù)面信息的數(shù)量。

按照這種方法對文本信息進(jìn)行挖掘，不用建立特征屬性的概念模型就可以得出文本信息的特征屬性。本文中以獲取產(chǎn)品特征分析為例，運(yùn)用觀點(diǎn)挖掘結(jié)合情感分析的技術(shù)，從大量的用戶文本信息中得到了有效的評論信息，使用這種方法進(jìn)行分析挖掘?qū)嶒?yàn)表現(xiàn)出了極大的優(yōu)越性，為生產(chǎn)制造商和客戶提供了經(jīng)濟(jì)實(shí)用的決策手段。

參考文獻(xiàn)

[1]唐明.文本挖掘及其在多文化交流平臺中的應(yīng)用[D].西南大學(xué)，2006

[2]黃立冬.基礎(chǔ)教育資源搜索引擎中的中文分詞技術(shù)研究[D].南京師范大學(xué)，2006

中國新通信2013年12期

中國新通信的其它文章: 基于FPGA的數(shù)字信號處理算法研究與高效實(shí)現(xiàn); 淺談地鐵通信工程安全管理; 移動核心網(wǎng)絡(luò)設(shè)備均衡技術(shù)研究; 網(wǎng)絡(luò)無法替代有線電視的原因分析; 無線傳感器網(wǎng)絡(luò)安全技術(shù)分析