亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

文本相似度視角下的虛擬社區(qū)評論的可信性分析

2011-12-31 00:00:00夏火松劉建

現(xiàn)代情報 2011年9期

〔摘要〕隨著Web2.0的成熟，信息交流與信息共享都達到前所未有的廣度和深度，這也給虛擬社區(qū)中虛假信息傳播提供了良好的條件。這篇文章通過對大量的虛擬社區(qū)評論的分析研究，提出了一個基于文本相似度的虛擬社區(qū)評論的可信度分析方案，以快速的發(fā)現(xiàn)虛擬社區(qū)中可能存在的虛假信息，給組織和個人做出決策提供依據(jù)，同時也為虛擬社區(qū)管理者提供了一個管理的方向。

〔關(guān)鍵詞〕虛擬社區(qū)；文本相似度；可信度；向量空間模型；余弦系數(shù)

DOI：10.3969／j.issn.1008－0821.2011.09.007

〔中圖分類號〕G209 〔文獻標識碼〕A 〔文章編號〕1008－0821（2011）09－0033－05

收稿日期：2011－05－20

基金項目：本文為湖北省教育廳科學技術(shù)研究重大項目（項目編號：Z20091701）、湖北省科技計劃軟科學研究專項項目（項目編號：2010DEA025）、湖北省社會科學基金項目（項目編號：［2010］064），武漢市軟科學研究計劃項目（項目編號：200940833384-02）、2010年校第二批重大教育教學改革項目（項目編號：ZD20100202）和中國紡織工業(yè)協(xié)會（項目編號：2007082）等項目資助。

作者簡介：夏火松（1964－），男，院長，教授，博士，研究生導師，研究方向：知識管理、離群數(shù)據(jù)挖掘、信息管理和電子商務、DSS、電子商務。

Credibility Analysis of Commentsof Virtual Community

Based on Text Similarity Computing

Xia Huosong Liu Jian

（School of Management Wuhan Textile University，Wuhan 430073，China）

〔Abstract〕With the maturity of Web2.0，information exchange and information sharing have reached an unprecedented breadth and depth，which also provide a good condition for the spreading of 1 information in virtual communities.Through the analysis of a large number of comments of virtual communities，this paper presented a solution of credibility analysis of comments of virtual community based on text similarity computing in order to quickly find a virtual community that may exist 1 information，and which can the basis that helps give organizations and individuals make decisions correctly，at same time it also gave some advice forvirtual community supervisors to manage their virtual communities.

〔Key words〕virtual communitytext similaritycredibilityVSMcosine coefficient

虛擬社區(qū)的概念是由Rheingold提出來的，他最初的認定是：在計算機網(wǎng)絡中，人們像朋友一樣交流知識，分享知識［1］。隨著互聯(lián)網(wǎng)的發(fā)展，虛擬社區(qū)（virtual community，VC）在國內(nèi)迅速成長起來，例如：Blog、BBS、SNS、WIKI、Second life、China ren、iuWorld、Novoking、hapworld、mworld、天涯社區(qū)、網(wǎng)易社區(qū)、豆瓣網(wǎng)等，極大的促進了人類信息共享和信息交流的深度和廣度［2］。有調(diào)查顯示，國內(nèi)60%～70%的虛擬社區(qū)成立于2006－2007年之間，且大部分的主題都是關(guān)于生活和娛樂［3］。調(diào)查表明，網(wǎng)絡、電視和報紙是網(wǎng)民獲取信息的主要途徑，網(wǎng)民選擇的比例分別為網(wǎng)絡85.0%，電視66.1%，報紙61.1%［4］。虛擬社區(qū)的成員在虛擬社區(qū)中投入了大量的時間，調(diào)查發(fā)現(xiàn)，74%的社區(qū)用戶每天會在虛擬社區(qū)中待上1～6個小時，這其中為了尋找問題解決方案的占74.8%，討論感興趣話題的占67.4%，在網(wǎng)上沖浪的占66.3%［5］。文獻［6］表明虛擬社區(qū)的建設和管理是沒有任何專門的行政機構(gòu)進行規(guī)劃和安排，而是基于相同或相近的興趣、愛好以及互補的利益需求，用戶自組織形成動態(tài)演化的系統(tǒng)結(jié)構(gòu)。

而在信息的急劇增長和媒體的商業(yè)化運作過程中，信息市場機制尚不健全，信息立法尚不完善，且缺乏行之有效的信息監(jiān)督系統(tǒng)，信息可信度的高低不僅決定了信息中介的命運前途，也極大地影響了信息使用者的決策效果。因此，研究人員和從業(yè)人員在信息科學、市場營銷、管理信息系統(tǒng)、通信研究、人機交互以及心理學等不同領(lǐng)域，從各種角度開展了可信度評估與測量研究［7］。文獻［8］研究了公眾對網(wǎng)絡危機信息可信度的評價及其相關(guān)因素，探討了網(wǎng)絡危機信息對公眾網(wǎng)絡信息行為的影響。文獻［9］從文獻型、數(shù)值型和事實型3種不同類型的信息檢索典型案例，分析了信息獲取過程中的可信度問題。文獻［10］提出信息中介機構(gòu)在向用戶進行信息專題提供時，對于信息尤其是含有主觀判斷的軟信息，應建立一套信息篩選機制，以客觀、真實地反映事件或事物。文獻［4］指出互聯(lián)網(wǎng)傳播的特殊性使準確鑒別個人信源的可信度成為所有信息利用者需要解決的突出問題，指出了網(wǎng)上個人信源信息的重要意義，并探討了對其信譽進行有效論證、評估的多種手段和方法。文獻［11］從理論上證明了現(xiàn)有在線信譽系統(tǒng)的信任模型存在忽視評分用戶信任度的缺陷。文獻［12］提出了消費者在做出決策時應當考慮網(wǎng)絡信息愿的可信度，同時提出了基于信息復雜程度的信息源可信程度模型。以上文獻從不同角度分析了確定網(wǎng)絡信息可信度的重要性，并提出了解決方案，但這些解決方案大部分都是基于人工的，面臨著網(wǎng)絡信息的增長速度，人工判斷是跟不上信息增長的速度的，因此，這篇文章提出一種基于文本相似度的虛擬社區(qū)評論的可信度分析方案，以加快人們處理網(wǎng)絡信息可信度的速度，幫助人們快速的做出決策。

1 研究方法虛擬社區(qū)評論的可信度是指對虛擬社區(qū)評論可以信賴的程度。虛擬社區(qū)現(xiàn)在已經(jīng)成為是企業(yè)進行營銷活動的重要場所。大多數(shù)的人們需要一個產(chǎn)品或一項服務的時候往往會選擇先查看網(wǎng)上對該產(chǎn)品或服務的評價然后才做打算，但虛擬社區(qū)的評論是否真實可信，已經(jīng)成為人們關(guān)注的一個重要問題［13］。企業(yè)為了宣傳自己產(chǎn)品或服務，可能在虛擬社區(qū)中夸大自己的產(chǎn)品或服務甚至加入虛假的信息，例如請人在自己企業(yè)的門戶網(wǎng)站上大量吹夸自己的產(chǎn)品，從而誤導消費者；甚至有的組織利用大量的虛擬社區(qū)評論來惡意攻擊競爭對手的產(chǎn)品或服務。

在大量的虛擬社區(qū)評論的調(diào)查分析中，發(fā)現(xiàn)虛擬社區(qū)評論中蓄意散播的虛假信息在表達模式上往往趨于一致且目的性比較強。例如，在虛擬社區(qū)評論的調(diào)查中，對一種品牌的電腦的描述出現(xiàn)大量以下的描述：這電腦質(zhì)量好；質(zhì)量很好；質(zhì)量很強大；這公司的電腦很好等等；對一項服務的評論：我試過，絕對超值；超值，我試過；我試過的，很好；我試過的，很強大等等。因此，我們可以利用文本相似度的計算，找出在表達模式上趨于一致的評論，表達模式越相似則越有理由認為它們是實現(xiàn)“約定的”既是虛假的。如果在評論中大量出現(xiàn)這樣的評論，那么則有理由相信這些評論是不可信的。

文本相似度是表示兩個或多個文本之間匹配程度的一個度量參數(shù)，相似度大，說明文本相似程度高，反之文本相似度低。對于文本聚類、信息檢索、問答系統(tǒng)、網(wǎng)頁去重、文本分類等很多領(lǐng)域，文本相似度的有效計算問題是其進行信息處理的關(guān)鍵［14］。目前對于文檔相似度的計算的方法主要有內(nèi)積、Dice系數(shù)、Jaccard系數(shù)和余弦系數(shù)等［15］。計算對象相關(guān)度的常用模型主要有向量空間模型和集合運算模型等。由于后者的局限性比較大，最常用的是向量空間模型。這篇文章采用向量空間模型表示文本，利用余弦系數(shù)計算文本的相似度。

2 基于向量空間模型的文本相似度計算

2.1 虛擬社區(qū)評論數(shù)據(jù)預處理無論是結(jié)構(gòu)化數(shù)據(jù)挖掘還是非結(jié)構(gòu)化數(shù)據(jù)挖掘，數(shù)據(jù)預處理都是非常關(guān)鍵的一步。文本挖掘預處理主要包括：分詞；特征選擇；權(quán)重計算和向量表示。

2.1.1 特征選擇技術(shù)

（1）文檔頻度（Document Frequency，DF）

定義：一個特征在語料中出現(xiàn)的文檔數(shù)。然后根據(jù)DF排序，再取出最大的前n個特征詞。DF方法用包含某個特征的文本占整個訓練集的比例來衡量該特征的重要性。其一個基本的假設思想是低頻詞要么是垃圾數(shù)據(jù)對文本分類有負作用要么對文本分類的貢獻不大，刪除它們不但會降低計算量而且還會增加分類的準確度。其一個顯著的優(yōu)點是：算法簡單，計算量小，當?shù)皖l詞為噪音時，可提高分類效果。DF的一個重大問題就是當它賴以存在的假設思想不成立時，其測量的準確度是不高的。

（2）信息增益（Information Gain，IG）

定義：信息增益表示文本中包含某一特征時文本類的平均信息增量，定義為某一特征在文本中出現(xiàn)前后的信息熵之差（具體計算方法見文獻［4］）。

IG廣泛的應用于機器學習領(lǐng)域，其基本的思想就是通過測量當文本包含某詞條時對其類別確定的信息的增加值即信息增益。IG考慮了詞條在類別中出現(xiàn)和不出現(xiàn)的概率，其暗含的一個思想就是當詞條不在類別中出現(xiàn)時，對文本的類別的確定也是有貢獻的，因此當特征不出現(xiàn)對文本類別確定貢獻比較小時，IG就給算法帶了不必要的復雜性。

（3）互信息（Mutual Information，MI）

定義：衡量的是某個詞和類別之間的統(tǒng)計獨立關(guān)系，MI在統(tǒng)計語言模型中使用較多，其基本的思想是計算詞條ti與類別cr之間的相關(guān)度，其相關(guān)度越大ti的類別就越有可能是cr，當其相關(guān)度為0是，也就是詞條和該類別是獨立的。MI的特點是考慮了低頻詞帶有信息量的情況，低頻詞的互信息比常用詞的互信息高，而沒有考慮單詞發(fā)生的頻度，因此導致其經(jīng)常傾向于選擇稀有單詞。

在計算文本相似度過程中，如果兩兩文本之間全部計算相似度，那么計算的效率很低。因此，為了有效的比較文本之間的相似程度，我們先求出每一類別的類別中心。用每一類的文本與該類的類別中心計算器相似度，然后，比較它們與類別中心的相似度，最后畫出文本相似度分布圖，即可看出文本相似度的分布情況。中心向量是用代表某一類別的文本向量，它是通過每個類別中所有的訓練文本向量的簡單的算術(shù)平均而得到。

3 虛擬社區(qū)評論可信度分析流程

3.1 語料搜集收集虛擬社區(qū)對某產(chǎn)品的評論，建立評論語料庫，并按照對產(chǎn)品的支持和反對將評論分為兩類。

3.2 預處理去除標記；去停用詞、進行數(shù)字合并；分詞、詞性標注、短語識別；詞頻統(tǒng)計；進行數(shù)據(jù)清洗出去不適合的噪音文檔或文檔中的垃圾數(shù)據(jù)，這里采用的中國科學院計算技術(shù)研究所漢語詞法分析系統(tǒng)ICTCLAS的開源代碼。在最終得到的關(guān)鍵詞列表里面不包括停用詞，這些處理后的關(guān)鍵詞構(gòu)成了文本的特征向量。

3.3 文本特征選擇在常用的選擇算法中以信息增益和χ²統(tǒng)計量的效果為最好。特征空間的維度確定問題非常重要，但是，目前對此問題尚無理想的方法，基本上是根據(jù)實驗效果而定。本文采用χ2統(tǒng)計量的方法利用Lucene進行文本特征選擇，特征項維度選為200維，利用TF-IDF計算特征值權(quán)重，建立正負樣本的向量空間模型。

利用matlab編程計算正文本和負文本兩類的類別中心。

利用matlab編程計算每一向量與所屬類別中心的相似度，并畫出相似度分布圖。根據(jù)圖中相似度的集中程度即可判斷文本的可信度。

4 實驗結(jié)果及分析本文搜集了在某電子商務網(wǎng)站中對某種產(chǎn)品的2 059條評論，經(jīng)過人工的初篩選剔除表達模糊語言不明的評論以及評論中夾雜的圖片最終選定900條做為我們實驗的語料庫，其中支持樣本即為正樣本400條，反對樣本即為負樣本500條。為了使實驗更有說服力，我們在我校經(jīng)濟管理學院300名學生中事先告訴他們要評價的主題和方向?qū)ι鲜霎a(chǎn)品進行正方向評論，然后隨機的抽取100條正樣本加入正樣本語料庫中。按照3中流程進行數(shù)據(jù)處理，為了清楚地看到文本相似度的分布情況，本實驗先把相似度排序，再作圖，最終結(jié)果如下圖：

4.1 實驗結(jié)果由圖中可以清晰地看出圖2正樣本中從文本編號145～290存在著明顯的相似，即它們在表達的模式上是一致的。由圖3可以看出它是一條基本光滑的曲線，雖然在小范圍內(nèi)它也存在著相似性，但是文本數(shù)量并不多。由此可以看出，文本一中被加進去的實現(xiàn)約定好的評論被找了出來，證明了本方案的有效性。

4.2 結(jié)果分析隨著WEB2.0的出現(xiàn)到成熟，互聯(lián)網(wǎng)已經(jīng)滲透到了人們生活的各個方面，同時，虛擬社區(qū)迅速發(fā)展，人們可以隨意的在虛擬社區(qū)內(nèi)發(fā)表個人意見和觀點，這使得消費者在做出交易決策時非常輕松的就能查閱到虛擬社區(qū)的其他消費者的評論。虛擬社區(qū)中所包含的信息80%左右的是非結(jié)構(gòu)化的文本數(shù)據(jù)形式存在的，這些數(shù)據(jù)中包含著對產(chǎn)品或服務的評價信息，這些信息對消費者了解產(chǎn)品或服務信息、做出消費決策是有很大意義的。

然而，在互聯(lián)網(wǎng)這個虛擬的網(wǎng)絡中，人們彼此之間可能并不相識，關(guān)系強度很弱，彼此之間建立聯(lián)系的就是對產(chǎn)品或服務的評論和對產(chǎn)品或服務的閱讀，而對產(chǎn)品或服務的閱讀者而言對產(chǎn)品或服務的評論者所做出的評論是否應該相信，這是一個問題。有調(diào)查發(fā)現(xiàn)，只有30%的閱讀者愿意相信評論者的評論信息。此時，如何識別一個虛擬社區(qū)中存在的大量信息是否值得相信成為了亟待解決的問題。這篇文章基于虛擬社區(qū)虛假評論在表達上相似性，利用文本相似度計算，來確定虛擬社區(qū)中的評論信息是否可信。根據(jù)實驗結(jié)果，當虛假信息傳播者在傳播虛假信息時所用的表達是相似的情況下，這篇文章的模型是十分有效的。因此，這也可以作為消費者在判斷虛擬社區(qū)中評論信息是否值得相信的一個依據(jù)，對虛擬社區(qū)的管理者而言，這篇文章的模型可以加快決策者對信息的了解，以更快的做出管理決策。

5 結(jié) 論在當今信息急速增長的時代，由于監(jiān)管信息傳播的機構(gòu)以及法制的不健全，導致虛假信息層出不窮，這篇文章就是企圖建立一種有效的識別虛擬社區(qū)評論真實性的方案，為企業(yè)個人組織做出正確的決策做出依據(jù)。網(wǎng)絡虛假信息的傳播不僅僅表現(xiàn)在虛擬社區(qū)中評論的虛假性，同時在新聞報道等等之中都是存在的。所以，虛假信息的表現(xiàn)形式也不局限于他們之間的表現(xiàn)模式的相似性，這也是下一步研究工作應該努力的方向。同時這篇文章使用的文本相似度計算方法過于簡單，在今后的研究中對于算法的選擇也是一個重要的方向。另外，這篇文章在搜集數(shù)據(jù)過程中直接對語料進行了分類，在實際應用中面臨海量文本時，可以選用文本自動分類技術(shù)對文本進行分類，以加快我們的分析速度。

這篇文章是對虛擬社區(qū)評論信息可信度分析的一個初步的測試，要建立一個準確有效的網(wǎng)絡信息可信分析模式需要更多的研究者的不斷的努力。

參考文獻

［1］Rheingold H.The virtual community［M］.MA:Addison Wesley，1993:5.

［2］漆賢軍，陳明紅.基于復雜適應系統(tǒng)的虛擬社區(qū)系統(tǒng)動態(tài)演化分析［J］.情報理論與實踐，2009，32（12）:95-98.

［3］趙玲，魯耀斌，鄧朝華.基于社會資本理論的虛擬社區(qū)感研究［J］.管理學報，2009，6（9）:1169-1175.

［4］鄭智斌，鄧蘭花.網(wǎng)絡個人信源及其可信度分析［J］.情報理論與實踐，2008，31（6）:857-859.

［5］iResearch Consulting Group.Consulting Group，China Online Social Network Research Report［EB／OL］.http://www.iresearch.com.cn/html/consulting/web2/Free-Classid-20-id-1081.html，2008-06-09.

［6］PAN Wei，LAN Xiaoyuan.Building a virtual community platform for subject information services at Shanghai Jiao Tong University Library［J］.The Electronic Library，2009，27（2）:271-282.

［7］Hilligoss B，Rieh S Y.Developing a unifying framework of credibility assessment:Construct，heuristics，and interaction in context［J］.Information Processing Management，2008，44（4）:1467-1484.

［8］彭志華，楊瓊.基于可信度的網(wǎng)絡危機信息對公眾信息行為的影響分析［J］.當代社科視野，2010，（1）:8-11.

［9］朱寧，陳紅勤，聶應高.網(wǎng)絡信息有效獲取與可信度的案例分析［J］.圖書館學研究，2009，（11）:55-57.

［10］鄧發(fā)云.信息報道的可信度分析與保證［J］.圖書情報工作，2009，3（10）:63-66.

［11］朱艷春，劉魯，張巍，基于評分用戶可信度的信任模型分析與構(gòu)建［J］.管理工程學報，2007，21（4）:151-152.

［12］Pandelaere M，Dewitte S.On-Line versus Memory-based Information Credibility Inferences:Implications for Memorybased Product Judgments［J］.Advances in Consumer Research，2006，33:565-567.

［13］潘國清.VSM中用語片為特征項計算文本相似度［J］.計算機與數(shù)字工程，2007，10（35）24-25.

［14］張啟宇，朱玲，孫愛娥.文本相似度的計算［J］.電腦知識與技術(shù)，2008，4（7）：1677.

［15］宋玲，馬軍，連莉，等.文檔相似度綜合計算研究［J］.計算機工程與應用，2006，30：160-162.

［16］Salton G，Wong A，Yang C S.A Vector Space Model for automated indexing［J］.Communications of the ACM，1975，18（1）:613－620.

現(xiàn)代情報2011年9期

現(xiàn)代情報的其它文章: 我國知識服務研究現(xiàn)狀分析; 城市水資源管理信息系統(tǒng)的安全性; 醫(yī)學情報領(lǐng)域發(fā)展演進與研究前沿的可視化分析; 基于專利數(shù)據(jù)分析的高校技術(shù)創(chuàng)新能力研究; 淺談RFID在開架文獻閱覽室的應用與探索; 從吸收能力角度研究動態(tài)市場下的新建企業(yè)創(chuàng)新