趙東杰, 王 華, 李德毅, 李 智, 趙洪利, 楊海濤
(1.63628部隊,北京 101601;2.裝備學院,北京 101416;3.中國航天員科研訓練中心,北京 100094;4.軍事醫(yī)學科學院,北京 100850;5.中國電子系統工程研究所,北京 100840;6.總裝備部,北京 100720)
Wiki是一種“允許”互聯網上多個不同的用戶以瀏覽器作為客戶端,來直接修改網頁內容的機制.采用這種機制的站點,可被多個用戶修改,形成面向社區(qū)的、由大眾參與的對等生產,體現了人人參與創(chuàng)造Web 2.0這一理念.2011年2月,美國哈佛大學公布了當前及未來亟需解決的10大社會科學問題,其中“人類如何增加自身群體智能”、“我們如何才能集合每個人所擁有的信息來作出最佳決定”和“怎樣理解人類創(chuàng)造和表達知識的能力”這3個問題位列其中.維基百科利用互聯網上大眾用戶的集體參與來創(chuàng)作百科知識,是利用大眾普遍參與、編輯交互形成群體智能的典型應用,為研究以上問題提供了高價值數據資源.目前,一些研究者已對大眾交互的互聯網環(huán)境下人的群體行為展開研究[1-8],對維基百科的研究,主要集中在語義知識挖掘[9-11]和優(yōu)良條目的自動發(fā)現與挖掘方面[1,12],對詞條演化研究不足.同時,對于大眾不斷參與的在線群體協作演化過程,仍缺乏有效研究方法,有待深入研究.本文基于復雜適應性系統(complex adaptive system,CAS)理論建立群體協作詞條編輯模型,利用Netlogo仿真軟件實現對群體協作詞條編輯的建模仿真,是對大眾交互的互聯網環(huán)境下群體智能(以下稱為網絡群體智能)和社會計算這門新興學科研究的有益探索,是信息科學與社會科學的交叉研究,可深化對網絡群體智能和以上3個社會科學問題的認識.
在維基百科中,詞條相當于一個針對某特定主題的“黑板”,任何人遵循一定規(guī)則都可以對詞條進行增、刪、改等編輯,但對瀏覽者而言詞條仍是針對特定主題的完整體.如圖1,詞條I的m個版本{v1,v2,…,vm}按編輯時間先后順序均被Wiki系統保存下來,v1是由編輯者u1創(chuàng)建的最初版本,版本vi(1≤i≤m)是由編輯者uj(1≤j≤n,i≤j)通過編輯動作ei所形成的版本.ei包括多種類型,如創(chuàng)建詞條、修改詞條、編輯詞條鏈接和詞條分類等,其中,編輯者un對版本vm的貢獻(如修改量)可用onm表示.維基中眾人對公共詞條的共同編輯相當于他們同時在一張白紙上作畫,得到大家共識的部分才能因為筆墨線條的不斷加重而“涌現”出來[13].詞條演化的主要驅動力來源于編輯者對詞條的持續(xù)編輯及其交互協作(體現為詞條版本增加,詞條內容質量提高).持續(xù)不斷地編輯交互協作使頻繁發(fā)生的破壞行為和錯誤內容被快速而高效地糾正,依靠群體協作使詞條質量不斷改善提高,達到了“真理越辯越明”的效果,實現詞條從初始階段(低質量詞條)到高級階段(高質量詞條)的演化,直至達到至善至美的水平.
圖1 Wiki基本機制Fig.1 Basic mechanism of Wiki
維基允許互聯網上不同用戶以瀏覽器作為客戶端直接修改網頁產生內容,是無集中控制下群體協作的一種典型形態(tài).采用維基機制的站點形成面向社區(qū)、大眾參與的對等生產[14],可視為人類計算[15]和群體智能的重要形式.維基百科是有人參與的知識生產系統,具有開放共享、互動協作、平等中立、簡單快捷等特點.由于人的智能性、主動性和適應性,能夠了解其所處的周圍環(huán)境,預測其變化,按照設定的目標行動,因此,維基百科詞條編輯者和瀏覽者(稱其為主體)對詞條演化起著決定性作用,是維基百科詞條“適應性、自組織性”的根本來源.隨著詞條不斷演化,編輯群體結構也逐漸演化為由不同小社區(qū)組成的網絡,群體結構趨于穩(wěn)定,具有小世界性、抱團性和層次性[7].編輯交互網絡累積度分布符合漂移冪律分布[8],參與主體的行為、角色等呈現差異性,具有合作—競爭網絡的特性.
1994年Holland提出的復雜適應系統理論是研究復雜系統的重要研究成果,其核心理論“信息涌現理論”成為信息自組織研究的重要理論基礎.CAS理論的基本思想可以概括如下[16]:系統中的成員稱為具有適應性的個體(adaptive agent),簡稱主體.所謂具有適應性,是指主體能夠與環(huán)境以及其他主體進行交互作用.主體在這樣持續(xù)不斷地交互作用過程中,不斷“學習”或“積累經驗”,并根據學習到的經驗改變自身的結構和行為方式.最重要的是,CAS理論認為,正是這種主動性以及它與環(huán)境的反復相互作用,才是系統發(fā)展和進化的基本動因.自組織過程會出現涌現現象,涌現是CAS的一個重要特征.通常,將涌現用來指稱這樣的微—宏觀效應——“因局部組分之間的交互而產生系統全局行為”[17]或“緣起于微觀的宏觀效應”[18].Holland歸納出了復雜適應系統通用的4個特性(聚集、非線性、流、多樣性)和3個機制(標識、內部模型、積木)[19],他認為復雜適應系統的其它共性都可以通過這7個基本點的適當組合“派生”出來.利用復雜適應系統理論可論證群體協作詞條編輯具有復雜適應性.
詞條編輯群體為編輯出高質量詞條而相互編輯交互,在模型的構建中,編輯群體中每個用戶表示為具有適應能力的Agent主體.基于CAS理論,根據維基百科用戶(編輯者和瀏覽者)行為特點及實證分析,可將維基百科用戶抽象為5種主體,其角色分類如表1所示,并構建群體協作詞條編輯模型(collective collaboration article edit model,CCAEM),包括環(huán)境模型和主體模型.
表1 主體角色分類及描述Tab.1 Sort and description of agentroles
環(huán)境由n×n個方格組成,方格總數可表征某個詞條的語量,所有方格區(qū)域是主體能夠訪問覆蓋的區(qū)域,設定一個主體每次可以訪問一個方格區(qū)域.
主體根據環(huán)境條件及行為準則來調整自身的行為,以達到自身期望目標.在此采用“在黑板上涂色”的形式建立主體模型.
a.主體屬性
主體屬性是對其自身情況的描述,定義如下:
(X,Y):二維網格中的坐標;r:Agent的視野半徑,所能觀察到的區(qū)域半徑,取值在1~3之間.
b.交互規(guī)則
主體交互規(guī)則如表2所示,主體按各自的行為規(guī)則在屏幕方格上涂色,并根據環(huán)境的變化,調整各自行為.黑色表示空白內容,紅色表示正確內容,紫色、黃色和藍色分別表示不完全正確內容B、C、D.屏幕內紅色格數的多少表征詞條質量的高低,當紅色格數達到很高的比例時,表明詞條質量很高,編輯群體趨于達成共識,群體智能水平很高.
表2 主體交互規(guī)則Tab.2 Agent interaction rules
基于群體協作詞條編輯模型,利用Netlogo軟件構建仿真平臺,從詞條演化的視角實現對群體協作詞條編輯建模仿真.突出的核心思想是:詞條從初始階段(低質量詞條)逐漸演化到高級階段(高質量詞條),體現了群體編輯交互協作群體智能的涌現;詞條演化的主要驅動力來源于主體對詞條的持續(xù)編輯及其交互協作(體現為詞條版本數增加,詞條質量提高).
Netlogo程序運行窗口中的黑色屏幕是各種主體的活動場所,該屏幕由20×20個小方格組成.將詞條質量從高到低依次分為L1,L2,L3和L4,主體出現概率配置如表3所示(5種主體初始狀態(tài)及形狀如圖2(a)所示,5種不同顏色形狀標識代表5種不同主體),仿真步長設為1,仿真時刻為t,其最大值T設為10 000.根據詞條質量與詞條聲譽、吸引力的關系分別將質量為L1,L2,L3和L4的內容瀏覽者出現概率設為0.8,0.7,0.3和0.2.程序開始運行后,主體向隨機方向移動,每個仿真步長移動3步,按各自的行為規(guī)則在屏幕上涂色(根據維基的時序編輯特點,在此設置每個仿真步長內只有一個主體進行編輯涂色),并根據環(huán)境的變化,調整各自行為.分別對不同配置的模型進行600次仿真,得到詞條演化仿真的統計平均結果,如表4所示;群體協作詞條編輯不同時刻仿真場景(主體編輯涂色情況)運行狀態(tài)如圖2所示.
表3 主體參與出現概率配置Tab.3 Configuration of agent appearance probabilities
表4 詞條編輯仿真結果Tab.4 Article edit simulation results
圖2 不同時刻的群體協作詞條編輯仿真場景Fig.2 Simulation scenes of collective collaboration article edit at different time
由表3、表4可知,主體出現概率配置不同,生成的詞條質量也不同,得到主要結論如下:
a.多樣編輯者出現概率越大,對應生成詞條質量越高.當其出現概率達到0.7時,生成詞條質量達到L1,最高.說明多樣編輯者在詞條從低級到高級演化過程中扮演重要角色,是詞條質量提升的主要推動者.內容添加者出現概率越大,對應生成詞條質量越低.當其出現概率達到0.67時,生成詞條質量為L4,最低.說明內容添加者對詞條質量提升作用不大,其出現概率過大會阻礙詞條質量提升.
b.從L4到L1的4種配置中,內容修改者和內容刪除者的出現概率變化不大,多樣編輯者和內容添加者出現概率變化較大,呈現出多樣編輯者和內容添加者出現概率分別增大和減小,說明多樣編輯者和內容添加者的出現概率對詞條質量具有較大影響.低質量詞條演化過程中內容修改者占據統治地位,隨著詞條質量由L4到L3到L2再到L1的逐步提高,內容修改者和多樣編輯者的角色地位逐漸發(fā)生變化,內容修改者的地位逐漸減弱,多樣編輯者的地位逐漸增強,呈現出此消彼長的現象;在L4和L1中多樣編輯者和內容添加者出現概率配置中存在對稱性(0.07對應0.10,0.67對應0.70).
c.多樣編輯者修改其以前自己編輯內容的概率較內容修改者要大,在高質量詞條演化過程中編輯者自我修改比例明顯比低質量詞條要高,說明編輯者“自我修改”(對以前自己編輯內容的“否定之否定”)行為對提升詞條質量起到重要促進作用,體現了編輯者對詞條認知水平螺旋式上升過程.
d.多樣編輯者出現概率達到0.7左右時,生成詞條質量會達到很高水平,說明多樣編輯者出現概率的配置存在閾值0.7(近似符合黃金分割律比例介于0.6~0.8),當達到閾值時,即使再增大出現概率,對詞條質量提升影響也不大,反而會增加主體編輯詞條創(chuàng)作成本,投入產出率不高;在對編輯主體出現概率進行配置時可以黃金分割律為指導,提高投入產出率,使群體績效趨于最大化,以達到“事半功倍”的效果.
由圖2、圖3(橫坐標為仿真時間,縱坐標為紅格數量)可知,根據紅色塊數的變化發(fā)現:隨著時間的推移,詞條質量逐漸升高,編輯群體朝著更有序的方向演化,表現出3個演化階段:
a.當t<2 000時,是詞條編輯演化的初期,紅色塊數較少.編輯者間交互不多,個體間相互影響不強,交流爭論有限;詞條內容不準確,存在較大冗余,詞條質量較低;詞條知名度不高,瀏覽者較少;編輯行為注重完整性,使詞條內容更完整、全面;主要以量的積累為主,群體智能水平較低.
b.當2 000≤t<6 000時,是詞條編輯演化的中期,紅色塊數較多.詞條質量和知名度較高,瀏覽者較多;編輯者間交互增多,個體間相互影響增強;觀點、知識不斷碰撞、融合,新觀點、新知識逐漸涌現;編輯行為注重準確性,使詞條內容更正確、可信;詞條冗余內容減少,正確內容大量增加,是量積累基礎上質的提升,群體智能水平較高.
c.當t≥6 000時,詞條編輯演化的后期,紅色塊數很多,變化逐漸趨于平緩.詞條質量和知名度很高,瀏覽者很多;編輯行為注重可讀性,使詞條內容更精煉、易懂;編輯者間交互減少,群體逐漸達成共識,基本達到動態(tài)平衡,群體結構趨于穩(wěn)定,是質提升基礎上量的微調,群體智能水平很高.
由以上分析可知,詞條編輯演化不同階段的主要矛盾不同.隨著時間推移,主要矛盾發(fā)生變化,即“從注重完整性到注重準確性再到注重可讀性”,存在“去冗余”過程,即存在“語量與語義之間此消彼長”的過程,最終語量與語義之間達到動態(tài)平衡,這體現了精益涌現[20]的思想,統計分析可知這個平衡的臨界點大概介于6 000~8 000(與總仿真時間10 000的比例約為0.6~0.8)之間,與黃金分割比例0.618近似,即語量與語義平衡臨界點近似為黃金分割點,符合黃金分割律.詞條編輯演化似乎遵循著黃金分割律,當達到量與質的動態(tài)平衡后,詞條質量會達到較高水平,令人賞心悅目,具有美學意義.
圖3 L1質量詞條編輯演化紅色格數變化曲線圖Fig.3 Variational graph of red grid number of L1 article edit evolution
本文基于CAS理論建立了群體協作詞條編輯模型CCAEM,利用Netlogo軟件構建仿真平臺實現了對群體協作詞條編輯的多主體建模仿真.仿真實驗表明多樣編輯者是詞條質量提升的重要驅動力,編輯者“自我修改”行為對提升詞條質量起到重要促進作用;主體出現概率配置遵循黃金分割律時,可使群體績效趨于最大化;詞條編輯存在從低到高的“三階段演化”,并遵循著黃金分割律.研究深化了對詞條編輯演化、網絡群體智能和社會計算的認識,在知識管理創(chuàng)造、群體協作決策和群體績效管理等領域具有推廣應用價值.
[1]Dennis W,Bernardo H.Cooperation and quality in Wikipedia[C]//WikiSym 2007.Montreal,2007:157-164.
[2]Cattuto C,Loreto V,Pietronero L.Semiotic dynamics and collaborative tagging[J].PNAS,2007,104(5):1461-1464.
[3]Liu D,Hua X S,Yang L J,et al.Tag ranking[C]//Proceedings of the 18th International World Wide Web Conference (WWW2009).Madrid,2009:351-360.
[4]Zhao D J,Jiang J,Zhang H S,et al.Research on internet evolution mode based on user behavior[C]//2010 Asia-Pacific Youth Conference on Communication Technology.Kunming,2010:835-839.
[5]趙東杰,張海粟,楊海濤,等.基于網絡交互演化的智能涌現研究[J].計算機科學,2010,37(10A):112-116.
[6]Zhao D J,Zhang H S,Han Y N,et al.An approach to study collective intelligence based on networked data mining[C]//2010 3rd International Conference on Computational Intelligence and Industrial Application.Wuhan,2010:239-243.
[7]趙東杰,郝黎,李德毅,等.維基百科詞條編輯特性研究[J].計算機科學,2011,38(10A):153-156.
[8]Zhao D J,Yang H T,Jiang J,et al.A research for the centrality of article edit collective in Wikipedia[C]//2011International Conference of Information Technology,Computer Engineering and Management Sciences(ICM 2011).Nanjing,2011:363-366.
[9]Ponzetto S,Strube M.Deriving a large scaletaxonomy from Wikipedia [C]//Proceedings of the 22nd National Conference on Artificial Intelligence(AAAI-07).Vancouver,2007:1440-1447.
[10]Yeh E,Ramage D,Christopher D M,et al.WikiWalk:random walks on Wikipedia for semantic relatedness[C]//Proceedings of the 2009Workshop on Graphbased Methods for Natural Language Processing.Suntec,2009:41-49.
[11]Weld D S,Wu F,Adar E,et al.Intelligence in Wikipedia[C]//AAAI’08Proceedings of the 23rd National Conference on Artificial Intelligence.Chicago,2008:1609-1614.
[12]Adler B T,Alfaro L D.A content-driven reputation system for the Wikipedia[C]//Proceedings of the 16th International Conference on World Wide Web Conference(WWW2007).Banff,2007:261-270.
[13]張樹人.從社會性軟件,Web 2.0到復雜適應信息系統研究[M].北京:中國人民大學出版社,2006
[14]Tapscott D,Williams A.Wikinomics:how mass collaboration changes everything [M].Richmond:Portfolio Books,2006.
[15]von Ahn L.Human computation [D].Pittsburgh:Carnegie Mellon University,2005.
[16]胡曉峰,羅批,司光亞,等.戰(zhàn)爭復雜系統建模與仿真[M].北京:國防大學出版社,2005.
[17]de Wolf T,Holvoet T.Emergence versus selforganization:different concepts but promising when combined[M]//Brueckner S,Di Marzo Serugendo G,Karageorgos A,et al.Engineering Self Organising Systems:Methodologies and Applications.Berlin:Springer-Verlag,2005.
[18]Russ A.Emergence explained:abstractions:getting epiphenomena to do real work[J].Complexity,2006,12(1):13-26.
[19]Holland J H.Hidden order:how adaptation builds complexity[M].Reading,MA:Addison-Wesley Publishing Company,1995.
[20]張英華,蔣麗華.復雜系統“精益涌現”的形成機理研究[J].天津師范大學學報:社會科學版,2011(3):72-76.