亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于公開信息的微博用戶可信性評價研究

        2018-05-29 08:31:02趙麗華李衛(wèi)康
        天津大學學報(社會科學版) 2018年3期
        關鍵詞:可信性影響力特征

        趙麗華, 楊 勇,2 , 聞 西, 李衛(wèi)康

        (1. 天津職業(yè)技術師范大學經濟與管理學院, 天津 300222; 2. 天津大學管理與經濟學部, 天津 300072; 3. 湖南大學工商管理學院, 長沙 410082)

        Web 2.0時代,人們已經習慣于從虛擬社區(qū)獲取信息和表達情感。作為虛擬社區(qū)的典型,微博是一個基于用戶關系的信息分享、傳播及獲取平臺。其共享性、實時性和互動性等特點使得其用戶群逐漸穩(wěn)定并持續(xù)增長。截止到2014年9月,僅新浪微博,其日活躍用戶已達到7 660萬人,月活躍用戶達到11.67億人。

        然而,微博公眾平臺的快速發(fā)展,在給人們帶來便利的同時,也帶來了許多煩惱。例如,垃圾信息、謠言、欺詐信息等在微博平臺中的泛濫。作為信息的發(fā)起者和傳播者,微博用戶的信譽對信息質量有著重要影響。雖然認證可以有效評估用戶信譽,但微博平臺實際存在的是更多的非認證用戶。顯然,單一的認證手段無法對用戶信譽進行有效評估。對微博用戶及其發(fā)布的信息進行人工識別判斷也不現實。自微博面世以來,雖然已經對其進行了許多研究,然而,如何有效評價或度量非認證微博用戶的信譽還沒有公認的解決方案。事實上,公開的微博用戶注冊信息、社交關系信息及其行為信息中,蘊含了豐富的信譽信息。

        如何對這些信息進行有效地提取和量化,并以此作為判別依據,是實踐中的一個難點。 本文以新浪微博用戶為研究對象,依據其公開的資料信息,考察分析了相關信息與微博用戶信譽之間的關系,嘗試抽取并構造了可信度評價特征集合,通過數據挖掘的方式,最終構建了非認證微博用戶可信度評價模型,為辨別微博用戶信譽提供了一個可行的解決方案。

        一、 文獻回顧

        微博以Twitter于2006年的誕生為標志,研究者基本從2008年才開始對微博進行關注和研究。根據已有文獻,關于微博的研究主要從3個方面開展:微博信息、微博用戶影響力和微博社交網絡。

        (1) 對微博信息的研究。主要包括垃圾信息檢測[1]、謠言檢測[2-3]、話題的可信度分析[4-10]等。研究對象和方法集中于微博消息本身和結合用戶關系的消息傳播的拓撲結構。其中有部分研究微博用戶本身的特征結合考慮進去,例如粉絲數、微博數量等[1]。

        (2) 對微博用戶影響力的研究。Bakshy等[10]通過追蹤Twitter上7 400萬新聞事件的用戶傳播圖譜調查了160萬用戶的特征和影響力,應用了粉絲數、關注數、Tweets數量和注冊時間4個用戶特征;Cha等[11]研究了入度、轉發(fā)數和提及數3種影響力指標,分析了用戶影響力隨時間和主題的變化規(guī)律;Ghosh等[12]提出了一個用戶影響力模型來評估用戶在社交網絡上的影響力;Ghosh等[13]通過對用戶的關注列表進行挖掘找出話題專家;原福永等[14]則通過對用戶關注度的計算得到微博用戶的影響力和活躍度,進而得到用戶的影響力;王峰等[15]選取微博用戶的微博數、粉絲數、關注數、收藏數和互粉數5個因素,借鑒網頁排名的思想提供了一種用戶排名的模型對用戶可信度進行了排序。

        (3) 對微博社交網絡的研究。主要是研究微博用戶及信息在微博平臺的傳播特點。Bakshy等[10]在研究用戶影響力時,對Twitter上7 400萬事件的用戶傳播圖譜進行了分析應用;Canin等[16]利用用戶對某一話題的相關性和專業(yè)性,對用戶在社交網絡上的影響力進行了自動識別和排序;Al-Sharawneh等[17]研究了在危急情形下如何去識別社交網絡上的領導者,利用了用戶的專業(yè)性和信用度計算用戶的可信度。

        三者的研究角度和重點雖然不同,但彼此之間存在一定關系。例如,微博信息的有效性、真實性與微博用戶(發(fā)布者或傳播者)的影響力相關,而社交網絡的傳播特性也常牽涉到用戶的影響力以及信息本身的特性。與“信息”的可信性和用戶的“影響力”不同,本文關注的是微博用戶的“可信性”,這也是一個值得探討的有趣問題,具有很好的應用前景。例如,用戶的可信性信息可幫助人們篩選關注對象,也可為微博平臺運營商提供監(jiān)管便利;可為第三方機構提供信用評價、用戶畫像等參考信息;另外,也可作為一項衡量微博信息的可信性指標??傊@對促進健康微博信息的分享、傳播、發(fā)展與利用有著重要意義。

        然而,對用戶進行可信評價最首要的問題是“以什么數據來源作為評價依據?”不同學者利用潛藏在網絡上的各種數據,提出了不同的評價模型。例如Gupta等[18]基于用戶所發(fā)布的微博信息、微博事件數據構建基于圖的模型來判斷微博信息是否是流言,并以此評價用戶的可信性。Chu[19]收集了50萬個Twitter賬戶,根據其用戶行為、信息內容數據判別賬戶的可信性。閆光輝等[20]基于用戶社交關系數據構建了用戶可信度評價模型。徐建民等[21]基于微博用戶在線時長、發(fā)帖時間、互動程度等用戶行為數據判別用戶是否是僵尸賬戶,以此評估用戶可信性。上述這些方法或者數據難以獲取(甚至涉及隱私,只有通過后臺獲得),或者處理相當復雜,導致準確率和計算效率受到限制。事實上,微博平臺上存在著微博用戶的一些公開的個人資料信息,這類信息獲得比較便利,而且不牽涉法律和隱私等可行性問題。因此,本文探討的興趣點便是這些公開的個人資料信息是否可以作為用戶可信度評價的原始數據來源。如果可以,怎么來提取這些信息?怎樣形成評價結果?

        二、 公開資料中的可信信息分析

        1. 用戶可信度

        用戶可信度是指根據用戶的特征、行為表現而給出的用戶可信程度的判斷。本文將用戶可信度分為4類,分別是可信、偏向可信、偏向不可信、不可信,每個用戶唯一地被分配到其中的某一類??尚庞脩魝€人信息全面真實,并有較大的公眾影響力;偏向可信的用戶具有一定的微博活躍度、粉絲基礎,并在各特征的數據表現上存在一定的互解釋性;偏向不可信的用戶微博活躍度、粉絲數等存在一定不足,或特征表現的互解釋性上存在一些矛盾;不可信用戶在微博活躍度、粉絲數等方面存在明顯不足,或在特征表現上存在強烈的矛盾。用戶的可信度存在一定的偏序關系,即可信>偏向可信>偏向不可信>不可信。

        2. 微博用戶原始特征

        準確劃分用戶可信度,需找出有效度。量用戶可信度差異的特征,即準確選擇并確定與用戶可信度識別有關的信息。通過觀察新浪、騰訊微博公眾平臺的信息傳播特點及用戶公開信息,借鑒已有研究成果,剔除一些與用戶可信度評價無關信息,本文將蘊含微博用戶可信度的公開資料信息劃分為兩類,即用戶的真實性特征和用戶的權威性特征(見表1)。

        表1 用戶可信度的特征說明

        真實性特征主要為微博用戶的個人信息,是對用戶的靜態(tài)描述,越是可信的用戶,這些特征表現得越完備真實;權威性特征主要為用戶的類型和級別及其在微博社會網絡的影響力,是對用戶的動態(tài)描述,可以反應出用戶在平臺的活動特征。

        3. 用戶可信度分布特征

        文獻[17]選取用戶的微博數、粉絲數、關注數、收藏數和互粉數5個特征項,對用戶可信度進行了研究,在一定程度上說明用戶的權威性特征項對用戶可信度具有辨別效果。因此,本節(jié)主要探索分析真實性特征對用戶可信度的辨別效果。

        風險管理,知易行難。引入澳新風險管理標準,風險化“無形”為“有形”。多措并舉構建多元化方案,一切盡在運籌帷幄之中。

        為方便起見,探索分析時,將其轉化為二分類問題,即可信用戶與不可信用戶。由于認證用戶一般具有很高的可信性,因此以其作為可信用戶的替代,而非認證用戶作為不可信用戶的替代。由于用戶個人描述、用戶個性化域名等特征項處理較為復雜,簡化為二分類問題,即以該特征項是否為空值為處理標準。

        在新浪微博中隨機抓取了1 470名用戶,其中,1 394 名未進行認證,76名為認證用戶。如圖1所示,這是在不同真實性特征下,認證用戶和非認證用戶的分布情況。每個柱狀圖均表示認證用戶與非認證用戶中該信息項含有該值的用戶數與不含該值用戶數的比值??梢?,除了“是否允許所有人評論特征項”之外,其余各個特征項下,認證用戶與非認證用戶的概率分布存在非常明顯的差異,暗示這些特征蘊含了豐富的用戶可信度信息,可以作為用戶可信度劃分的判別依據。

        圖1 認證用戶與非認證用戶真實性特征對比

        三、 評價模型

        1. 模型構建

        圖2 微博用戶可信度評價模型

        微博用戶可信度評價模型的構建過程如圖2所示。這是一個典型的基于數據挖掘技術的建模過程。

        首先,基于微博用戶公開的個人原始資料信息,通過特征轉換和特征選擇,獲得對用戶可信度具有較好辨別能力的輸入特征集合,而后基于該特征集合,應用分類算法對微博用戶數據進行訓練,獲得用戶可信度評價器。該過程中,如何處理數據,構建最終的評價輸入特征集合是本文評價模型的基礎和核心,下面重點對其進行介紹。

        2. 數據處理

        數據處理的目的是利用已有的原始數據處理成一個抽象程度更高的特征集。蘊含用戶可信度信息的原始特征進行處理后,才能更好地用于用戶可信度的辨別。原始的公開資料信息可劃分為兩類:真實性和權威性。

        真實性特征是對用戶的靜態(tài)描述,主要體現微博用戶信息的完備性。本文進行處理時,根據用戶是否填寫相應信息,將其處理為一系列的二元屬性,包含相應信息時,取值為1,否則取值為0, 如表2所示。

        權威性特征取值為數值,主要體現了用戶的行為特征。名人、專家、普通用戶等微博用戶之間和內部在這些特征的取值上存在一定差異。深入分析用戶在這些特征上的不同表現之后,對其進行了數據歸約和數據變換處理,而不是簡單地進行離散處理。

        表2 真實性特征轉換結果說明

        (1)

        (2)

        (3)

        漲粉速率可以體現用戶受關注的程度;微博活躍度可以體現用戶在微博平臺的參與度;收藏活躍度可以體現用戶從微博平臺上獲取高價值信息的程度。

        類似地,通過觀察分析微博用戶名人、專家、普通用戶在互粉數、關注數、粉絲數的不同表現,對原始特征進行了數據變換,延伸衍生出BiFo(互粉比例系數)、BiFr(關注相熟度)、FrFo(關注粉絲比) 3個特征指標,計算公式為

        (4)

        (5)

        (6)

        互粉比例系數和漲粉速率結合,可以更全面反應用戶受關注的程度;關注相熟度,體現的是微博平臺上的熟人社交程度,假設相互關注的人的連接強于單方面關注這種弱關系;關注粉絲比,體現的是用戶在微博平臺上是偏向散布信息還是獲取信息,將微博間的關注行為等同于信息流的訂閱與被訂閱。

        經過數據變換后,對獲得的特征項進行檢驗,選取那些最具有判別能力的特征項構成最終的輸入特征集合。評價用戶可信度的微博用戶權威性特征最終如表3所示。

        表3 權威性特征轉換結果說明

        圖3 不同特征項下認證用戶(1)/非認證用戶(2) 分布盒

        仍以在新浪微博平臺隨機抓取的1 470名用戶為例,以認證用戶作為可信用戶的替代,非認證用戶作為不可信用戶的替代,將其轉化為二分類問題,考察特征集合中各特征對微博用戶帶可信度的辨別能力。如盒圖3所示,這是在不同權威性特征下,認證用戶和非認證用戶的分布情況。由圖3可見,可信用戶在是否有個人描述、是否有個性化域名、是否有微號等特征方面趨向為真,可信用戶更愿意通過信息的完備性讓外界了解自己,但在是否允許標識用戶的地理位置、是否允許所有人給自己發(fā)微信方面又趨向于假,說明可信用戶可能還比較注重私人空間。在微博使用年限上,可信用戶趨向于一些使用年限在4年及以上的用戶。在FoPd、StPd、FavPm、BiFr、FrFo等特征方面,偏向可信用戶與偏向不可信用戶的特征分布也有較明顯的不同,可信用戶的關注相熟度普遍較高,在微博平臺上表現得也比較活躍。

        四、 實驗

        1. 實驗數據

        實驗數據根據新浪微博提供的開放API,應用網絡爬蟲程序收集。首先按一定比例關注了不同類型的微博用戶,例如微博名人、專家、明星和普通用戶。其次,以所關注賬號為中心,每天不定時地對所關注用戶發(fā)出的微博進行采集。實驗數據便來源于所采集的微博發(fā)布者、微博評論人的信息。

        對所采集數據進行隨機抽樣,抽取1 600名非認證用戶進行人工標注(表4為若干標注用戶的實例)。標注采用3人一起進行標注的模式,對每一微博用戶最終的標注結果由3人都贊同的結果決定。標注實例如表4所示。通常高可信度用戶和不可信用戶通過人的直覺,可以很容易地被分辨出來,而偏向可信與偏向不可信用戶則差異較小,難以判別。為提高標注效率,標注時設計了一個小的標注系統(tǒng),將用戶特征友好的展現給標注者,在減少其工作量的同時,提高標注準確度。對1 600用戶數據進行標注,最終3人標注意見一致的數據為1 203條,以其作為本文的實驗數據,該數據中各類用戶的分布情況如圖4所示。

        表4 標注用戶實例

        圖4 標注用戶的可信度分布

        2. 實驗方法及評估指標

        實驗步驟如下:步驟一,將1 203條數據隨機按約75%和25%分成兩部分;步驟二,基于CART決策樹(CART)、樸素貝葉斯(NB)和支持向量機(SVM)3種常用分類方法在75%的實驗數據上應用三折交叉驗證,選取最佳分類器;步驟三,應用最佳分類器在該75%的數據集上生成訓練模型,然后在剩余25%的實驗數據上進行測試以評估可信度評價模型性能。

        鑒于可信度評價模型應用分類方法,模型評估主要采用了評估分類方法的常用指標,即準確率、召回率和F值。同時,也考察了模型的穩(wěn)定性,提供了評估結果在一定置信區(qū)間內的標準差。

        3. 實驗結果

        步驟二各模型實驗結果如表5所示。 由表5可見,CART決策樹取得了較好的實驗結果。在對用戶可信度進行判別時,CART在95%的置信區(qū)間內達到[75.27%, 79.27%]的準確率。

        表5 各分類器實驗結果對比

        鑒于CART效果較好,選取CART在75%的實驗數據上訓練,并應用生成的訓練模型在測試集上進行測試。CART在測試集上的表現如表6、表7所示。

        表6 用戶可信度分類測試結果

        表7 用戶可信度分類測試結果的混淆矩陣

        注:0 可信;1 偏向可信;2 偏向不可信;3 不可信.

        由表6、表7可見,模型對可信用戶的識別有較高的準確度和召回率,這說明可信用戶被判斷為可信的概率比較高,而其他類別的用戶被誤判為可信用戶的概率又比較低。在其他3個類別中,準確度、召回率、F值的表現都較均衡,在0.65~0.78之間,說明該模型對微博用戶可信度有較好的辨別效果。

        判別錯誤用戶主要發(fā)生在相鄰類別,跨類別誤判的情況較少。分析其原因,可能是數據標注質量欠佳,也有可能是預測模型未擁有足夠的信息更準確地區(qū)分相鄰類別間的細微差別。也進一步說明,構建的微博用戶特征集合還存在改善的空間,例如改善特征的組合方式,挖掘新特征加入特征集合。

        總體而言,對測試集上用戶可信度分類的準確率達到76%左右,在多分類問題中,該結果明顯優(yōu)于隨機猜測,表明模型能通過用戶的特征對用戶可信度進行較有效的自動分類。

        五、 結 語

        隨著微博的快速發(fā)展,圍繞微博問題的研究正引起越來越多學者的興趣。微博用戶可信度度量是其中一個有趣而且有意義的問題。本文分析了將公開資料數據用于評價用戶可信度的可行性,應用不同的數據挖掘分類算法,實驗考察了這些數據對用戶可信度的識別性能。結果表明,通過數據挖掘方法構建的評價模型,其評價準確率達到了76%的水平。這充分說明,這些公開的資料信息蘊含著豐富的用戶信譽信息。本文的主要貢獻在于:1) 用于用戶可信度評估的基礎數據具有易獲得性,相比于微博信息本身,或者微博用戶之間的關聯信息之類的數據,本文建議的數據更加便于處理,且不涉及個人隱私的侵犯;2) 本文從用戶真實性和權威性兩個角度對用戶相關信息進行梳理,提出若干用戶可信度評價特征抽取公式,這對模型構建具有至關重要的作用。需要指出的是,構建評價模型時,各特征并未根據對可信度的辨別效果的不同而賦予不同權重;數據挖掘算法也僅應用了單一的分類算法,未進行綜合。改善上述問題,構建更為有效的微博用戶特征集合,進一步提高微博用戶可信度模型的評估性能,也是下一步的研究工作。

        [1] Gupta A, Kumaraguru P. Credibility ranking of tweets during high impact events[C]//Proceedingsofthe1stWorkshoponPrivacyandSecurityinOnlineSocialMedia. New York:ACM Press, 2012: 2.

        [2] Mendoza M, Poblete B, Castillo C. Twitter under crisis: Can we trust what we RT? [C]//ProceedingsoftheFirstWorkshoponSocialMediaAnalytics. New York:ACM Press, 2010: 71-79.

        [3] Qazvinian V, Rosengren E, Radev D R, et al. Rumor has it: Identifying misinformation in microblogs[C]//ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing. Stroudsburg:Association for Computational Linguistics, 2011: 1589-1599.

        [4] Kwak H, Lee C, Park H, et al. What is twitter, a social network or a news media? [C]//Proceedingsofthe19thinternationalConferenceonWorldWideWeb. New York: ACM Press, 2010: 591-600.

        [5] Castillo C, Mendoza M, Poblete B. Information credibility on twitter[C]//Proceedingsofthe20thInternationalConferenceonWorldWideWeb. New York:ACM Press, 2011: 675-684.

        [6] Gupta M, Zhao P, Han J. Evaluating event credibility on twitter[C]//ProceedingsoftheTwelfthSIAMInternationalConferenceonDateMining.Anaheim:Omni Press, 2012: 153-164.

        [7] Morris M R, Counts S, Roseway A, et al. Tweeting is believing?: Understanding microblog credibility perceptions[C]//ProceedingsoftheACM2012ConferenceonComputerSupportedCooperativeWork. New York: ACM Press, 2012: 441-450.

        [8] Suzuki Y. A credibility assessment for message streams on microblogs[C]//P2P,Parallel,Grid,CloudandInternetComputing(3PGCIC), 2010InternationalConference. Piscataway: IEEE, 2010: 527-530.

        [9] 王 晟, 王子琪, 張 銘. 個性化微博推薦算法[J]. 計算機科學與探索, 2012, 6(10): 895-902.

        [10] Bakshy E, Hofman J M, Mason W A, et al. Everyone’s an influencer: Quantifying influence on twitter[C]//ProceedingsoftheFourthInternationalConferenceonWebSearchandDataMining. New York: ACM Press, 2011: 65-74.

        [11] Cha M, Haddadi H, Benevenuto F, et al. Measuring user influence in twitter: The million follower fallacy[J].ICWSM, 2010, 10(10-17): 30.

        [12]GhoshR,LermanK.CommunityDetectionUsingaMeasureofGlobalInfluence[M].Berlin:Springer:2010:20-35.

        [13] Ghosh S, Sharma N, Benevenuto F, et al. Cognos: Crowdsourcing search for topic experts in microblogs[C]//Proceedingsofthe35thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval. New York: ACM Press, 2012: 575-590.

        [14] 原福永, 馮 靜, 符茜茜. 微博用戶的影響力指數模型[J]. 現代圖書情報技術, 2012, 28(6): 60-64.

        [15] 王 峰, 余 偉, 李石君. 新浪微博平臺上的用戶可信度評估[J]. 計算機科學與探索, 2013, 7(12): 1125-1134.

        [16] Canini K R, Suh B, Pirolli P L. Finding credible information sources in social networks based on content and social structure[C]//ProceedingsoftheThirdIEEEInernationalConferenceonSocialComputing(SocialCom). Piscataway: IEEE, 2011: 1-8.

        [17] Al-Sharawneh J, Sinnappan S, Williams M A. Credibility-based twitter social network analysis [C]//WebTechnologiesandApplications. Berlin: Springer, 2013: 323-331.

        [18] Gupta M, Zhao P, Han J. Evaluating event credibility on twitter[C]//ProceedingsoftheTwolfthSIAMInternationalConferenceonDataMining. Anaheim: Omni Press, 2012: 153-164.

        [19] Chu Z, Gianvecchio S, Wang H, et al. Detecting automation of twitter accounts: Are you a human, bot, or cyborg?[J].IEEETransactionsonDependableandSecureComputing, 2012, 9(6): 811-824.

        [20] 閆光輝, 劉曉飛, 王夢陽. 基于鏈接的微博用戶可信度研究[J]. 計算機應用研究, 2015, 32(10): 2910-2913.

        [21] 徐建民, 粟武林, 吳樹芳, 等. 基于邏輯回歸的微博用戶可信度建模[J]. 計算機工程與設計, 2015, 36(3): 772-777.

        猜你喜歡
        可信性影響力特征
        可變情報板發(fā)布內容可信性檢測系統(tǒng)探究
        基于可信性的鍋爐安全質量綜合評價研究
        在區(qū)間上取值的模糊變量的可信性分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        Five golden rules for meeting management
        天才影響力
        NBA特刊(2018年14期)2018-08-13 08:51:40
        抓住特征巧觀察
        黃艷:最深遠的影響力
        人大建設(2017年11期)2017-04-20 08:22:49
        3.15消協(xié)三十年十大影響力事件
        在线观看老湿视频福利| 国产精品一区二区久久毛片| 国产自拍视频一区在线| 亚洲精品无码不卡在线播he| 久久久久久人妻毛片a片| 国产xxxxx在线观看免费 | 在线观看免费午夜大片| 欧美黑人性暴力猛交喷水黑人巨大 | 中文字幕一区日韩精品| 99久久综合狠狠综合久久| 亚洲无码观看a| 日本一区二区三区四区啪啪啪| 国产福利永久在线视频无毒不卡| 日本大片免费观看完整视频| 无码av专区丝袜专区| 一本久久精品久久综合| 免费a级毛片无码av| 国产精品无码专区视频| 一级一片内射在线播放| 熟女一区二区三区在线观看| 伊人久久大香线蕉av一区| 欧美成人免费看片一区| 日本女同av在线播放| 国产精品成熟老女人| a国产一区二区免费入口| 亚洲乱码一区AV春药高潮| 青青草小视频在线观看| 国产人妻精品无码av在线| 无码国产精品一区二区免费97 | 国产成人久久蜜一区二区| 国产黄片一区二区三区| 伊人久久大香线蕉av色| 国产一区二区波多野结衣| 日韩av中文字幕亚洲天| 曰批免费视频播放免费| 麻豆国产人妻欲求不满谁演的 | 无码午夜人妻一区二区三区不卡视频| 在线a人片免费观看高清| 日韩高清不卡一区二区三区| 久久综合狠狠色综合伊人| 国产精品99精品一区二区三区∴ |