常天舒,林鴻飛
(1.大連理工大學(xué) 信息檢索實(shí)驗(yàn)室,遼寧 大連 116024)
維基模式與其相關(guān)的Web 2.0技術(shù)可能帶來的信息革命的新浪潮,其影響力已經(jīng)滲透到各類與互聯(lián)網(wǎng)相關(guān)的產(chǎn)品與服務(wù)中,更為學(xué)術(shù)界其他領(lǐng)域的研究提供了參考與信息獲取的平臺(tái)。Wiki是一種采用“多人協(xié)作”模式的超文本協(xié)作系統(tǒng)。2001年1月,由Jimmy Wales和Larry Sanger創(chuàng)建的維基百科英文版開始運(yùn)行。截止2010年3月,英文維基百科已經(jīng)擁有320萬個(gè)條目,成為條目數(shù)最多的語言版本,除英文外,還包含了其他多達(dá)271種語言,總條目數(shù)達(dá)到1 500萬個(gè),總注冊(cè)用戶超過2 200萬人,總編輯次數(shù)突破8.6億次。維基百科各語言版本發(fā)展并不均勻,其中條目總數(shù)前15名的語言版本占總條目的71%[1]。一項(xiàng)由Nature雜志于2005年的調(diào)查數(shù)據(jù)顯示,維基百科中科學(xué)技術(shù)相關(guān)主題的準(zhǔn)確程度與大不列顛百科全書中的對(duì)應(yīng)詞條基本一致[2]。
隨著維基百科中文章和貢獻(xiàn)者數(shù)目的不斷增長(zhǎng),越來越多的爭(zhēng)議也隨之出現(xiàn)。如圖1所示,用戶Gogo Dudo 與用戶Fanforclark13反復(fù)將對(duì)方修改的版本進(jìn)行回滾操作,互相堅(jiān)信自己的觀點(diǎn)正確,這就是一種典型的爭(zhēng)議現(xiàn)象。
圖1 維基百科中爭(zhēng)議性的例子,用戶Gogo Dudo 與 用戶FanforClark13之間的爭(zhēng)議
互聯(lián)網(wǎng)社區(qū)結(jié)構(gòu)中的沖突是一種復(fù)雜的現(xiàn)象,即使它經(jīng)常被認(rèn)為是一種負(fù)面的效應(yīng),但同時(shí)它也存在正面的影響[3]。文章中用戶因意見或觀點(diǎn)不同所表現(xiàn)出的沖突體現(xiàn)在文章的編輯歷史中,我們稱之為文章的沖突結(jié)構(gòu)。包含較多沖突結(jié)構(gòu)的文章,我們稱為爭(zhēng)議性文章或爭(zhēng)議性條目(Controversial article)。若一篇文章中具有更多的爭(zhēng)論發(fā)生,則認(rèn)為該文章具有較大的爭(zhēng)議性。維基百科為使用者提供了多種標(biāo)注爭(zhēng)議性的工具,包括標(biāo)簽(Tag),類別(Category)和維基百科爭(zhēng)議性文章列表(Wikipedia list of controversial articles)。從眾多的維基百科條目中發(fā)現(xiàn)這些爭(zhēng)議性較強(qiáng)的條目有著重要且深遠(yuǎn)的意義[4]。
? 出現(xiàn)在維基百科文章中的爭(zhēng)議通常是現(xiàn)實(shí)世界的真實(shí)反映。發(fā)現(xiàn)維基百科中的爭(zhēng)議性文章有助于民眾和學(xué)術(shù)研究者更好地理解現(xiàn)實(shí)世界中的爭(zhēng)論;
? 快速且高效地發(fā)現(xiàn)維基百科中爭(zhēng)議性條目可以幫助編輯者和貢獻(xiàn)者更快地定位相應(yīng)的條目,從而對(duì)爭(zhēng)議性問題進(jìn)行處理并解決;
? 爭(zhēng)議性條目往往是近期或長(zhǎng)期以來持續(xù)引起關(guān)注的話題,能夠迅速且有效地定位這些條目將會(huì)對(duì)熱點(diǎn)話題追蹤等應(yīng)用有著重要意義。
維基百科自身雖然提供了爭(zhēng)議性文章列表,但只是將用戶顯示標(biāo)注為“Controversial”的文章列入其中,除這些文章外,仍然存在大量未被標(biāo)注的爭(zhēng)議性文章。本文通過文章—用戶爭(zhēng)議度結(jié)合的方式,利用編輯歷史中所提供的元數(shù)據(jù),對(duì)爭(zhēng)議性條目根據(jù)其爭(zhēng)議度得分進(jìn)行排序,從而發(fā)現(xiàn)爭(zhēng)議性較強(qiáng)的文章,為維基百科發(fā)現(xiàn)并解決爭(zhēng)議提供可供參考的解決方案。本文的主要貢獻(xiàn)如下:
? 本文對(duì)當(dāng)前爭(zhēng)議性發(fā)現(xiàn)的若干方法進(jìn)行了探索和深入研究;
? 利用已有的文章—用戶爭(zhēng)議度迭代計(jì)算框架,即考慮文章的爭(zhēng)議度得分的同時(shí),引入相應(yīng)文章貢獻(xiàn)者的爭(zhēng)議度得分,對(duì)文章的爭(zhēng)議度進(jìn)行預(yù)測(cè);
? 本文在研究并分析維基百科編輯歷史的基礎(chǔ)上,定義了一類特別的用戶,即強(qiáng)爭(zhēng)議性用戶,并對(duì)這一特定用戶群在發(fā)現(xiàn)爭(zhēng)議性的問題的重要性進(jìn)行了探索和實(shí)驗(yàn)。
本文后續(xù)部分的組織結(jié)構(gòu)為: 第2節(jié)敘述相關(guān)工作,介紹相關(guān)領(lǐng)域的研究現(xiàn)狀和主要方法;第3節(jié)介紹強(qiáng)爭(zhēng)議度用戶這一新的概念;第4節(jié)重點(diǎn)介紹爭(zhēng)議性排序模型的基本理論和本文主要提出的爭(zhēng)議度排序模型;第5節(jié)敘述本文的實(shí)驗(yàn)部分,將本文提出的改進(jìn)的爭(zhēng)議度排序模型與其他模型進(jìn)行對(duì)比及分析;第6節(jié)對(duì)本文進(jìn)行總結(jié),提出未來的研究方向。
維基百科中爭(zhēng)議性文章的發(fā)現(xiàn)是一項(xiàng)新的同時(shí)兼具挑戰(zhàn)性的研究課題,至今專門從事這方面研究的學(xué)者和相應(yīng)的學(xué)術(shù)成果并不多。從事該領(lǐng)域的學(xué)者早期主要將更多的精力放在維基百科特色條目或文章自身質(zhì)量的評(píng)價(jià)上[5-7]。
維基百科中爭(zhēng)議性文章的研究最早來源于對(duì)維基百科中用戶間的協(xié)同網(wǎng)絡(luò)和沖突結(jié)構(gòu)的研究,A. Kittur[8]首次將發(fā)現(xiàn)爭(zhēng)議性文章作為研究沖突結(jié)構(gòu)的媒介引入到對(duì)維基百科的研究中。通過對(duì)維基百科提供的全局信息,文章相關(guān)信息,用戶相關(guān)信息等幾個(gè)層面的研究,分析并總結(jié)出若干對(duì)沖突結(jié)構(gòu)直接相關(guān)的影響因素。用戶通過機(jī)器學(xué)習(xí)的方法,利用維基百科中已經(jīng)標(biāo)記為“Controversial”文章作為訓(xùn)練集訓(xùn)練SVM分類器,預(yù)測(cè)潛在的爭(zhēng)議文章。A. Kittur在文章層面的研究發(fā)現(xiàn)影響文章沖突度的積極因素和消極因素。與此同時(shí),該文章通過Revert-Graph將用戶之間用Revert信息聯(lián)系起來,直觀的展現(xiàn)了用戶間的沖突結(jié)構(gòu)。這篇文章從文章本身和用戶角度為后續(xù)的爭(zhēng)議性文章相關(guān)研究提供了諸多極具價(jià)值的參考因素。但用戶層面所考慮的因素只有單一的revert信息,顯得并不全面,更多相關(guān)可用信息有待挖掘。
U. Brandes[9]為分析研究維基百科中協(xié)同結(jié)構(gòu),在文章中定義了編輯網(wǎng)絡(luò) (Edit network) 這種結(jié)構(gòu),來描述維基百科中文章與用戶之間的關(guān)系。文章通過對(duì)這種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行可視化并計(jì)算其兩極化得分來作為文章最終的爭(zhēng)議度得分,其研究貢獻(xiàn)在于首次將用戶對(duì)文章的增刪量化,片面性在于只考慮了文章的兩極化結(jié)構(gòu),對(duì)存在多級(jí)沖突結(jié)構(gòu)的文章分析誤差較大,另一方面,對(duì)增刪量化的同時(shí),增加了算法的復(fù)雜度。U. Brandes[10]隨后又提出一種修訂版網(wǎng)絡(luò) (Revision network), 認(rèn)為對(duì)同一篇文章相鄰的兩次修改可以作為衡量?jī)蓚€(gè)用戶之間存在沖突的標(biāo)準(zhǔn),時(shí)間間隔越短,則沖突度越大。R. Jesus[11]利用社會(huì)網(wǎng)絡(luò)分析的方法識(shí)別和發(fā)現(xiàn)爭(zhēng)議性文章中的用戶和文章簇。
B.-Q. Vuong[4]首次直接研究維基百科中的爭(zhēng)議性文章,作者不僅考慮到文章的爭(zhēng)議度得分,同時(shí)也將用戶的爭(zhēng)議度得分考慮在內(nèi),利用相互增強(qiáng)原理得到了較好的效果。本文的主要工作就是基于Vuong提出的迭代爭(zhēng)議度計(jì)算框架,引入新的特征,進(jìn)而提出更有效的爭(zhēng)議性文章發(fā)現(xiàn)算法。
維基百科為參與者提供自由的編輯平臺(tái),每一篇維基百科中的文章都有一個(gè)最初的創(chuàng)建者,創(chuàng)建者為相應(yīng)的詞條撰寫第一個(gè)版本的描述。此后,任何參與者均可以完善詞條為目的在原文的基礎(chǔ)上進(jìn)行修改,修改一旦經(jīng)管理員審核通過,新的版本將被采用來替代舊版本作為該詞條的描述頁面。同時(shí),兩個(gè)版本的內(nèi)容和相關(guān)修改信息都會(huì)被保留下來,以供用戶恢復(fù)原版本或進(jìn)行回滾操作。我們的研究就是基于這種優(yōu)良的維基平臺(tái)機(jī)制所提供的信息,根據(jù)以上描述,我們給出若干關(guān)于強(qiáng)爭(zhēng)議性的定義如下。
定義1交互假設(shè)R是文章r的所有版本的集合,ri和ri-1是R中兩個(gè)相鄰的版本,用戶v是版本ri-1的用戶,用戶u是版本ri的用戶。由ri和ri-1的先后順序可知,用戶u修改了用戶v的版本,這種用戶u對(duì)用戶v的版本進(jìn)行的修改行為稱為一次交互(Revise)。
定義2強(qiáng)爭(zhēng)議性用戶在文章rk中,若存在用戶ui和uj,他們之間的交互次數(shù)(Revise Count, RC)滿足公式(1)的限制條件:
即用戶ui對(duì)用戶uj的版本進(jìn)行過不止一次的修改操作,此時(shí),稱用戶ui為強(qiáng)爭(zhēng)議性用戶。在這里我們?nèi)绻x擇閾值為1,則所有用戶均滿足條件,所以沒有意義,而如果選擇大于2的閾值,將會(huì)極大的縮小強(qiáng)爭(zhēng)議用戶的規(guī)模,從而影響實(shí)驗(yàn)效果,所以這里我們選取一個(gè)可選范圍內(nèi)滿足條件的最小值來進(jìn)行有效性的驗(yàn)證。
在對(duì)維基百科爭(zhēng)議性文章進(jìn)行的早期研究中,很少有學(xué)者將文章中的不同貢獻(xiàn)者區(qū)別對(duì)待,而是將用戶的爭(zhēng)議度體現(xiàn)在對(duì)他們貢獻(xiàn)度的計(jì)算中。如計(jì)算用戶回滾的次數(shù)[8],作為衡量其爭(zhēng)議度的一個(gè)標(biāo)準(zhǔn),這種情況下往往存在著管理員維護(hù)維基百科正常秩序的原因,回滾操作并非是由用戶的爭(zhēng)議性或文章的爭(zhēng)議性引起的,而是由一些惡意用戶的修改導(dǎo)致的常規(guī)維護(hù)行為。與此同時(shí),執(zhí)行回滾操作的用戶也并非全部都是管理員或維護(hù)人員,現(xiàn)實(shí)中往往包含大量的維基百科用戶,他們自發(fā)的維護(hù)行為是不易識(shí)別的。除此之外,還有基于用戶刪除比例的爭(zhēng)議度計(jì)算模型[4,9],即通過用戶刪除行為所產(chǎn)生的貢獻(xiàn)占用戶所有貢獻(xiàn)的比例來衡量用戶的爭(zhēng)議度。這種計(jì)算方式看似更合乎邏輯,但取得的效果并不是很好。本文引入對(duì)用戶爭(zhēng)議性的分析,在計(jì)算文章爭(zhēng)議度時(shí),剔除普通用戶可能會(huì)對(duì)文章爭(zhēng)議性計(jì)算所起到的負(fù)面影響,降低雜音,強(qiáng)調(diào)爭(zhēng)議性用戶的作用。
通常情況下的用戶與項(xiàng)目的迭代計(jì)算采用的相互激勵(lì)的原則,即被高分用戶標(biāo)注的對(duì)應(yīng)項(xiàng)目理應(yīng)得到更高的分?jǐn)?shù),如此反復(fù)迭代,強(qiáng)者更強(qiáng),弱者更弱。在考慮爭(zhēng)議性這一特殊屬性時(shí),這一原則將不再適用。用戶與爭(zhēng)議度的關(guān)系,滿足如下的互增強(qiáng)原則(Mutual Reinforcement Principle)。具體包含兩條規(guī)則:
規(guī)則1若文章中的爭(zhēng)論多發(fā)生在爭(zhēng)議度較低的用戶間,則該文章具有高的爭(zhēng)議程度。
規(guī)則2若用戶參與更多爭(zhēng)議度較低的文章中的爭(zhēng)論,則該用戶具有較高的爭(zhēng)議程度。
該理論恰當(dāng)?shù)慕沂玖擞脩襞c文章爭(zhēng)議性之間的關(guān)系。如果詞條自身就具有較高的爭(zhēng)議程度,它理應(yīng)吸引更多的參與者發(fā)表不同的看法,其中不乏那些不易與人發(fā)生沖突的參與者。同理,如果用戶本身易發(fā)生沖突,則有很大概率他也會(huì)在低爭(zhēng)議性的文章中發(fā)生沖突,這些沖突并不能有力地說明該文章的爭(zhēng)議性。
本節(jié)給出基于統(tǒng)計(jì)量的簡(jiǎn)單統(tǒng)計(jì)模型,同時(shí)給出用戶與文章迭代計(jì)算爭(zhēng)議度的基本方法和框架,并作為本文提出的模型的基礎(chǔ)和改進(jìn)的對(duì)象。
最直觀的用來評(píng)價(jià)文章爭(zhēng)議程度的方法就是利用文章的版本數(shù)目或參與其中的用戶數(shù)目來衡量文章的爭(zhēng)議程度。公式(2)中Revision Model和公式(3)中的Contributor Count Model為計(jì)算文章爭(zhēng)議度的排序模型。
然而,這兩種簡(jiǎn)單的計(jì)算方法存在著明顯的缺陷。發(fā)生在用戶間的爭(zhēng)論或質(zhì)疑是最能夠體現(xiàn)文章爭(zhēng)議性的因素,而這種爭(zhēng)論或質(zhì)疑明顯不能通過文章的版本多少或參與者的多少衡量,它們不能很好的識(shí)別出爭(zhēng)論結(jié)構(gòu)。一些惡意用戶更可以通過多次修改文章來增加版本數(shù)目,進(jìn)而提高文章的爭(zhēng)議性,達(dá)到某種目的。同理,基于貢獻(xiàn)者數(shù)目的模型同樣也不是很可取的,通過這種評(píng)分方式很容易將高質(zhì)量的維基百科特色文章定義為爭(zhēng)議性文章。
Controversial Rank Model(CR-Model)是B.-Q. Vuong等在文獻(xiàn)[4]中根據(jù)互增強(qiáng)理論得到的一種表現(xiàn)最好的爭(zhēng)議性排序模型CR-Model,通過分別定義用戶與文章的爭(zhēng)議度,迭代計(jì)算文章的爭(zhēng)議性。式(4)和式(5)分別定義了CR-Model中文章和用戶爭(zhēng)議度的計(jì)算公式。
在關(guān)注文章爭(zhēng)議度時(shí),我們考慮將強(qiáng)爭(zhēng)議性用戶的交互爭(zhēng)議度作為衡量文章爭(zhēng)議性的標(biāo)準(zhǔn),就得到了強(qiáng)爭(zhēng)議性用戶的排序模型(High Controversial Contributor Model, HC-Model),式(6)和式(7)分別給出了HC-Model中文章爭(zhēng)議度和用戶爭(zhēng)議度的計(jì)算公式。
公式(6)中的,計(jì)算文章爭(zhēng)議度得分時(shí),只考慮文章中強(qiáng)爭(zhēng)議性用戶的貢獻(xiàn)值,oik和ojk為強(qiáng)爭(zhēng)議性用戶在文章rk中的貢獻(xiàn)值,Age(rk)為版本數(shù)的正比例函數(shù),如公式(8)中所示。為使得到的文章爭(zhēng)議度得分在0到1之間,使用強(qiáng)爭(zhēng)議性用戶的最大貢獻(xiàn)值進(jìn)行歸一化。
revk為文章rk中的版本總數(shù),avg為文章revk的平均值,乘以系數(shù)-0.001使得該函數(shù)值在0到1之間具有很大的區(qū)分度。公式(7)中計(jì)算用戶爭(zhēng)議度時(shí),H(i,k)為一個(gè)二值函數(shù),當(dāng)用戶ui為文章rk中的強(qiáng)爭(zhēng)議性用戶時(shí),函數(shù)值為1,否則為0。
我們將強(qiáng)爭(zhēng)議性用戶的思想與B.-Q. Vuong等提出的基于刪除貢獻(xiàn)比的CR-Model進(jìn)行融合,引入強(qiáng)爭(zhēng)議性用戶的概念。于是得到了基于強(qiáng)爭(zhēng)議性排序模型(High Controversial Rank Model, HCR-Model)。HCR-Model中文章爭(zhēng)議度得分的計(jì)算仍采用CR-Model的計(jì)算方法。而用戶爭(zhēng)議度的計(jì)算則采用HC-Model中為強(qiáng)爭(zhēng)議性用戶設(shè)計(jì)的爭(zhēng)議度得分計(jì)算公式,公式(9)和公式(10)分別為HCR-Model中文章爭(zhēng)議度得分和用戶爭(zhēng)議度得分的計(jì)算方式。
上述模型中,我們雖然分別給出了用戶與文章爭(zhēng)議度的計(jì)算方式和相應(yīng)的理論模型。但本文旨在發(fā)現(xiàn)維基百科中的爭(zhēng)議性文章,所以,本文并未對(duì)用戶爭(zhēng)議度計(jì)算的準(zhǔn)確性加以考量,而是通過融入用戶爭(zhēng)議度計(jì)算模型后得到相應(yīng)的文章爭(zhēng)議性加以評(píng)價(jià)。
維基百科的數(shù)據(jù)量非常龐大,完整的維基百科編輯歷史文件大小在TB級(jí)別以上。針對(duì)所研究的問題規(guī)模,我們選擇了維基百科數(shù)據(jù)集enwiki-20080103-pages-meta-history.xml的一個(gè)子集。經(jīng)整理后,可以從每個(gè)版本的記錄中獲取如圖2所示的屬性信息。其中主要包括版本號(hào)、標(biāo)題、版本的用戶、版本的分類信息、用戶評(píng)論信息和次要性標(biāo)志。通過這些屬性,我們可以得到同一文章中不同版本間的修改信息。
我們從該數(shù)據(jù)集中抽取了所有宗教類共計(jì)16 745篇文章截止2008年1月的所有版本信息作為實(shí)驗(yàn)語料。與此同時(shí),我們從維基百科網(wǎng)站的list of Controversial Articles頁面中下載了宗教類共651篇文章的標(biāo)題信息,其中有76篇文章出現(xiàn)在實(shí)驗(yàn)數(shù)據(jù)集中。這76篇文章是經(jīng)過龐大的維基百科用戶群體及維基百科管理員所認(rèn)可的爭(zhēng)議性文章,我們將以這76篇文章作為檢驗(yàn)標(biāo)準(zhǔn),來驗(yàn)證各個(gè)模型的表現(xiàn)。
圖2 每個(gè)維基百科文章版本中的屬性信息
實(shí)驗(yàn)的基本任務(wù)可以看作是從16 745篇文檔構(gòu)成的文檔集合中檢索到76篇爭(zhēng)議性(相關(guān))文檔的任務(wù),這與信息檢索的過程頗為類似,因此,我們選取信息檢索中常用的NDCG值來進(jìn)行評(píng)價(jià)。由于76篇爭(zhēng)議性文章并未有先后順序之分,所以本文選取二值相關(guān)性來進(jìn)行計(jì)算,相關(guān)為1,否則為0。式(11)定義了NDCG@k,為:
NDCG@k表征從結(jié)果排序位置p=1到p=k的貢獻(xiàn)量,其中當(dāng)位置p的文檔為76篇標(biāo)準(zhǔn)文章之一時(shí),relp=1,否則為0。Z為理想情況下的排序DCG值,作為歸一化常量存在。理想情況下的排序結(jié)果就是將76篇文檔排在最前面。
圖3所示為HC-Model、 HCR-Model和CR-Model、 Revision Model、 Contributor Count Model在NDCG@5分值上的表現(xiàn),可以看出只考慮強(qiáng)爭(zhēng)議性用戶的HC-Model在NDCG@k的表現(xiàn)較好,甚至優(yōu)于CR-Model。這說明我們考慮強(qiáng)爭(zhēng)議性用戶這一思想對(duì)于發(fā)現(xiàn)文章中的沖突結(jié)構(gòu)是有積極作用的。本組實(shí)驗(yàn)結(jié)果表現(xiàn)最優(yōu)的為HCR-Model,即將對(duì)用戶的強(qiáng)爭(zhēng)議度計(jì)算與其他計(jì)算文章爭(zhēng)議度的方法結(jié)合起來,使得用戶的爭(zhēng)議程度得到區(qū)分,突出爭(zhēng)議性較強(qiáng)的用戶,并強(qiáng)化他們對(duì)文章的爭(zhēng)議度影響,進(jìn)而取得更好的結(jié)果。
整體趨勢(shì)上本文所提出的HCR-Model和HC-Model較CR-Model的效果有所提升,但不難看出,HCR-Model對(duì)排名靠前的文檔表現(xiàn)尤為突出。究其原因,是由強(qiáng)爭(zhēng)議性用戶自身的稀疏性所決定的。表1所示為數(shù)據(jù)集中強(qiáng)爭(zhēng)議性用戶和含有強(qiáng)爭(zhēng)議性用戶所參與交互的文章數(shù)目。不難看出,在所有四十多萬名用戶中,只有4.05%的用戶為強(qiáng)爭(zhēng)議性用戶。而所有16 745篇文檔中,只有29.7%的文檔含有這種強(qiáng)交互行為。正是由于強(qiáng)爭(zhēng)議性本身的稀疏性,導(dǎo)致少數(shù)強(qiáng)爭(zhēng)議性的文章受到更多的重視,使得更多的強(qiáng)爭(zhēng)議性文檔排在前面。HCR-Model的返回結(jié)果中,76篇爭(zhēng)議性文章中81.6%的文檔都囊括在返回結(jié)果的1 000名之內(nèi)。得到較高的召回率,這也是我們所希望看到的結(jié)果。
圖3 HC-Model、 HCR-Model、CR-Model、Revision Model、Contributor Count Model在NDCG@k上的結(jié)果
TypeTotalHCCinvolvedRatio/%Author448673181654.05Article16745498229.7
由于涵蓋16 745篇文章的數(shù)據(jù)集中,只有76篇文章被標(biāo)記為相關(guān)文檔,所以,當(dāng)k增大到一定程度后,所出現(xiàn)的相關(guān)文檔越來越少,而作為基數(shù)的排序值不斷上升。這將導(dǎo)致當(dāng)k增大到一定程度后,上述模型的NDCG值區(qū)分度將變小,不再能夠明顯的表征模型的性能。因此,本文提供另外一種更為直觀的方式來體現(xiàn)模型在整體性能上的優(yōu)劣。表2~表4為76篇爭(zhēng)議性文章中在HC-Model、 HCR-Model和CR-Model中按先后順序最后出現(xiàn)的10篇,并給出它們?cè)诟髯耘判蚰P椭兴幍奈恢???梢钥闯?,HC-Model的最后10篇文檔中,9篇都是在4 000名以內(nèi)的,4篇是3 000名以內(nèi)的,最后一名排在稍差的5 059位。HCR-Model的最后10篇文檔中,7篇是排在4 000名以內(nèi)的,5篇是3 000名以內(nèi)的,甚至有2篇是排在2 000以內(nèi)的,排名最后的文檔在7 504位。而未引入強(qiáng)爭(zhēng)議性用戶的CR-Model則表現(xiàn)較差,最后10篇文檔中,只有6篇排在4 000名以內(nèi),2篇排在3 000以內(nèi),最后一篇文檔排到了8 415,基本處于文檔集的二分之一處,即在維基百科發(fā)現(xiàn)所有爭(zhēng)議性文檔時(shí),可能需要取二分之一的結(jié)果才能找全。
表2 HC-Model的最后10篇文檔
表3 HCR-Model的最后10篇文檔
表4 CR-Model的最后10篇文檔
隨著近年來維基百科的迅速發(fā)展,發(fā)現(xiàn)維基百科爭(zhēng)議性文章作為維基百科研究領(lǐng)域中社會(huì)網(wǎng)絡(luò)分析的一個(gè)分支,得到了迅速的發(fā)展,同時(shí)也兼具更多的挑戰(zhàn)。龐大的維基百科數(shù)據(jù)集往往令研究者望而卻步,本文從維基百科的小部分?jǐn)?shù)據(jù)出發(fā),以小窺大,通過對(duì)文章用戶群體的研究給出了如何發(fā)現(xiàn)爭(zhēng)議性文章的一種解決方案。
本文的主要貢獻(xiàn)是通過對(duì)維基百科貢獻(xiàn)者行為的分析研究,定義了一類特殊的用戶群體,即強(qiáng)爭(zhēng)議性用戶。他們通過反復(fù)修改同一用戶的行為體現(xiàn)出更強(qiáng)的爭(zhēng)議性,這恰好符合了爭(zhēng)議性文章發(fā)現(xiàn)的關(guān)鍵因素,更多的沖突導(dǎo)致更多的爭(zhēng)議。本文根據(jù)強(qiáng)爭(zhēng)議性用戶這一新的概念,提出了純粹的基于強(qiáng)爭(zhēng)議性用戶行為的HC-Model和HCR-Model。實(shí)驗(yàn)結(jié)果表明,在識(shí)別爭(zhēng)議性文章的過程中,引入強(qiáng)爭(zhēng)議性用戶的概念進(jìn)行建模,可以提高精確度。
在下一階段的研究工作中,強(qiáng)爭(zhēng)議性用戶這一概念將繼續(xù)沿用,我們會(huì)嘗試將這一概念與已經(jīng)存在的表現(xiàn)良好的識(shí)別模型結(jié)合,以用戶為中心,重新設(shè)計(jì)新模型來發(fā)現(xiàn)爭(zhēng)議性文章。
[1] Wikipedia. What is Wikipedia [OL].http://wikipedia.jaylee.cn/.
[2] J Giles. Internet encyclopedias go head to head [OL]. http://www.nature.com/news/2005/051212/full/438 900a.html.
[3] V Franco, R Piirto, H Y Hu, et al. Anatomy of a flame: conflict and community building on the Internet [J]. Tech. and Society Magazine, IEEE, 1995,14: 12-21.
[4] B Q Vuong, E P Lim, A Sun, et al. On ranking controversies in Wikipedia: models and evaluation[C]//Proceedings of the International Conference on Web Search and Web Data Mining (WSDM’08), Palo Alto, California, USA, February 11-12, 2008: 171-182.
[5] N Lipka, B Stein. Identifying featured articles in Wikipedia: writing style matters[C]//Proceedings of International World Wide Web Conferences (WWW’10). Raleigh, North Carolina, USA, 2010: 1147-1148.
[6] B T Adler, L de Alfaro. A content-driven reputation system for the Wikipedia[C]//Proceedings of International World Wide Web Conferences (WWW’07), Banff, Canada, 2007: 261-270.
[7] J E Blumenstock. Size matters: word count as a measure of quality on Wikipedia[C]//Proceedings of International World Wide Web Conferences (WWW’08), Beijing, China, 2008: 1095-1096.
[8] A Kittur, B Suh, B A Pendleton, et al. He says, she says: conflict and coordination in Wikipedia[C]//Proceedings of SIGCHI Conf. Human Factors in Computing Systems, Son Jose, California, USA, 2007: 453-462.
[9] U Brandes, P Kenis, J Lerner, et al. Network analysis of collaboration structure in Wikipedia[C]//Proceedings of International World Wide Web Conferences (WWW’09), Madrid, Spain, 2009: 731-740.
[10] U Brandes, J Lerner. Visual analysis of controversy in contributor-generated encyclopedias [J]. Information Visualization, 2008,11: 34-48.
[11] R Jesus. Bipartite networks of wikipedia’s articles and authors: a meso-level approach[C]//Proceedings of International Symposium on Wikis and Open Collaboration (WikiSym’09). Orlando, Florida, USA, 2009: 1-10.