楊建梅 曾進(jìn)群 張建功
(1.華南理工大學(xué) 工商管理學(xué)院,廣東 廣州 510640;2.華南理工大學(xué) 環(huán)境與能源學(xué)院,廣東 廣州 510006)
《科學(xué)》雜志近期發(fā)表了知識(shí)團(tuán)隊(duì)生產(chǎn)的相關(guān)研究成果[1],而物理學(xué)界從本世紀(jì)初開(kāi)始就一直重視科學(xué)家的合作結(jié)構(gòu)與功能的研究[2].開(kāi)源軟件社區(qū)就是一種網(wǎng)絡(luò)上的基于團(tuán)隊(duì)合作的知識(shí)生產(chǎn)組織,但是對(duì)開(kāi)源社區(qū)的研究才剛剛起步[3].按照筆者的定義[4-5],這種社區(qū)是一個(gè)人類(lèi)活動(dòng)系統(tǒng),其結(jié)構(gòu)不再是層級(jí)部門(mén)的結(jié)構(gòu),而是由其基本活動(dòng)形成的活動(dòng)結(jié)構(gòu).在這種思想的指導(dǎo)下,文中的社區(qū)組織結(jié)構(gòu)包含以下3 種類(lèi)型:人員參與項(xiàng)目開(kāi)發(fā)活動(dòng)而形成的生產(chǎn)結(jié)構(gòu),伴隨生產(chǎn)活動(dòng)的與bug 有關(guān)的質(zhì)量保障活動(dòng)結(jié)構(gòu),以及搜集對(duì)軟件產(chǎn)品需求及其他信息的溝通活動(dòng)結(jié)構(gòu).生產(chǎn)、質(zhì)量保障與了解需求的活動(dòng),是非商業(yè)的、開(kāi)放的大眾生產(chǎn)社區(qū)的最為重要的活動(dòng),從這3 個(gè)維度可以揭示出這種組織結(jié)構(gòu)的特點(diǎn).
近年來(lái)異質(zhì)性一詞頻頻在文獻(xiàn)中出現(xiàn),但是較多的是口語(yǔ)化采用,即使是專業(yè)性采用,也往往局限在各自學(xué)科的語(yǔ)境下,對(duì)何為異質(zhì)性、異質(zhì)性分類(lèi)以及如何測(cè)量異質(zhì)性鮮有一般性的簡(jiǎn)明闡述.在復(fù)雜網(wǎng)絡(luò)學(xué)界,有的人認(rèn)為冪率分布指數(shù)的絕對(duì)值大時(shí)異質(zhì)性強(qiáng),有的人卻有完全相反的看法.下面先給出筆者對(duì)異質(zhì)性的一些思考.
長(zhǎng)期以來(lái),人們認(rèn)為我們生活的世界僅僅是高斯正態(tài)分布的世界.在高斯世界,事件之間具有加法獨(dú)立性.這些事件的數(shù)據(jù)點(diǎn)產(chǎn)生的鐘形分布曲線由均值與方差就可以完全描述.因?yàn)槠鋽?shù)據(jù)點(diǎn)以99.7%的概率落在均值加減3 倍標(biāo)準(zhǔn)差的范圍內(nèi),而標(biāo)準(zhǔn)正態(tài)分布的期望為0,標(biāo)準(zhǔn)差僅為1,所以可以認(rèn)為在高斯世界,事件的屬性是同質(zhì)的,就像人的身高那樣,存在一個(gè)典型的高度,也就是說(shuō)具有代表性的尺度.
1897年意大利經(jīng)濟(jì)學(xué)家帕累托研究個(gè)人收入時(shí),發(fā)現(xiàn)20%的人口占據(jù)了80%的社會(huì)財(cái)富的所謂帕累托分布.帕累托分布完全不同于正態(tài)分布,由于研究對(duì)象的數(shù)據(jù)極不均勻,其均值和方差失去意義,這樣在個(gè)人收入中就不存在一個(gè)財(cái)富值可以作為個(gè)人財(cái)富的代表尺度.帕累托分布不僅存在于經(jīng)濟(jì)領(lǐng)域,還廣泛地存在于其他領(lǐng)域,因此我們生活的世界不僅有高斯世界,還包括異質(zhì)的無(wú)代表性尺度的帕累托世界,在今天的互聯(lián)網(wǎng)與大數(shù)據(jù)時(shí)代尤其如此.
異質(zhì)性來(lái)源于帕累托分布,受帕累托分布以及各種專業(yè)文獻(xiàn)的啟發(fā),文中認(rèn)為異質(zhì)性具有多樣性與非均勻性兩方面的含義.這里的多樣性指的是對(duì)象的某個(gè)指標(biāo)的取值范圍廣因而差異大,非均勻性指的是各種取值出現(xiàn)的頻率具有較大的差異.這樣,對(duì)象的某種指標(biāo)僅取值的范圍廣還不能說(shuō)具有異質(zhì)性,因?yàn)樗赡苁蔷鶆蚍植嫉?同樣,僅取值的頻率有較大差異,也不能說(shuō)具有異質(zhì)性,因?yàn)樗娜≈捣秶赡芎苷?因此,對(duì)于一個(gè)研究對(duì)象來(lái)說(shuō),只有當(dāng)其某種指標(biāo)的取值范圍廣,而且其分布也不均勻時(shí),才能稱得上在某方面具有異質(zhì)性.簡(jiǎn)言之,異質(zhì)性等于多樣性加非均勻性.
互聯(lián)網(wǎng)時(shí)代造就了更多的連接關(guān)系.統(tǒng)計(jì)物理學(xué)家巴拉巴斯發(fā)現(xiàn),由實(shí)際連接關(guān)系形成的大規(guī)模網(wǎng)絡(luò),不像隨機(jī)網(wǎng)絡(luò)那樣,節(jié)點(diǎn)具有大致相同的連接,而是少數(shù)節(jié)點(diǎn)具有大量的連接、大量的節(jié)點(diǎn)僅具有少數(shù)的連接[6].這樣,節(jié)點(diǎn)之間連接關(guān)系的多寡就具有了異質(zhì)性.基于巴拉巴斯的發(fā)現(xiàn),筆者將異質(zhì)性分為兩類(lèi):屬性異質(zhì)性與關(guān)系異質(zhì)性.比反映財(cái)富屬性異質(zhì)性的帕累托分布大約晚100年的巴拉巴斯的無(wú)尺度復(fù)雜網(wǎng)絡(luò)模型,為分析關(guān)系的異質(zhì)性提供了工具.
對(duì)象屬性的異質(zhì)性可直接用帕累托分布來(lái)測(cè)量.在帕累托分布中X 是隨機(jī)變量,對(duì)X 的累積分布函數(shù),復(fù)雜網(wǎng)絡(luò)學(xué)界常用以下形式:
概率密度函數(shù)
式中,x 為任何一個(gè)大于xmin的數(shù),xmin為X 最小的可能值(正數(shù)),k 為正的參數(shù).圖1 所示的累積分布的示意圖摘自維基百科,這里畫(huà)的是常見(jiàn)的累積分布表達(dá)式F(x)=P(X≤x)的曲線.帕累托分布屬于冪律分布,冪律分布在雙對(duì)數(shù)坐標(biāo)下是一條斜率為負(fù)數(shù)的直線,因此屬性的異質(zhì)性可通過(guò)累積分布圖,尤其是雙對(duì)數(shù)坐標(biāo)下的累積分布圖是否是長(zhǎng)尾的冪律分布來(lái)確定.由圖1 可以看出:k 越小分布越均勻,但取值的范圍廣、差異大;k 越大分布越不均勻,但取值的范圍窄、差異小.兼顧多樣性(取值有數(shù)量級(jí)的差別)與非均勻性兩個(gè)條件,并考慮復(fù)雜網(wǎng)絡(luò)有關(guān)度分布冪指數(shù)的研究,這里用k 是否在1~3 之間來(lái)判斷異質(zhì)性(概率密度的冪指數(shù)比k 大1,若用概率密度指數(shù),則是在2~4 之間),這意味著屬性的冪律分布并不總是表示其存在著異質(zhì)性.
圖1 帕累托累積分布示意圖[7]Fig.1 Pareto cumulative distribution function[7]
與屬性不同,在測(cè)量大規(guī)模活動(dòng)關(guān)系的異質(zhì)性時(shí),首先要確定關(guān)系是什么,并建立描述此關(guān)系的復(fù)雜網(wǎng)絡(luò)模型[8-11],在找到復(fù)雜網(wǎng)絡(luò)的相關(guān)特征參數(shù)后,再使用分析屬性變量異質(zhì)性的方法去分析這些特征參數(shù),以測(cè)量關(guān)系的異質(zhì)性.
下面以CodePlex 為例,分析開(kāi)源軟件大眾生產(chǎn)社區(qū)結(jié)構(gòu)的異質(zhì)性.由于結(jié)構(gòu)是關(guān)系的總合,因此用到的是關(guān)系的異質(zhì)性測(cè)量方法,不同的關(guān)系可以從不同的角度來(lái)揭示結(jié)構(gòu)的異質(zhì)性.此外,在數(shù)據(jù)缺少時(shí)還可使用傳統(tǒng)的定性方法作為輔助分析手段.
CodePlex 是微軟建置的開(kāi)源軟件社區(qū)(http:∥www.codeplex.com),2006年開(kāi)始運(yùn)作,截至2012年11月,社區(qū)共有32118 個(gè)項(xiàng)目,其中最活躍的有C#、Sharepoint 等子社區(qū),每個(gè)子社區(qū)的主頁(yè)都分8 個(gè)欄目記錄了所有數(shù)據(jù).我們用火車(chē)頭軟件,挖掘了Codeplex C#子社區(qū)(下文簡(jiǎn)稱社區(qū))從2006年5月至2012年7月間的下列數(shù)據(jù):1)所有生產(chǎn)記錄,共計(jì)198616 條,包含項(xiàng)目2136 個(gè),參與者3233 人;2)所有bug 討論記錄,共計(jì)6 萬(wàn)多條;3)所有溝通記錄,共144342 條.社區(qū)組織的結(jié)構(gòu)是由其基本活動(dòng)形成的網(wǎng)絡(luò)結(jié)構(gòu),將參與者與項(xiàng)目看成節(jié)點(diǎn),將活動(dòng)形成的聯(lián)系看成邊,就得到了相關(guān)活動(dòng)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)模型.這里的靜態(tài)復(fù)雜網(wǎng)絡(luò)模型基于2006年5月至2012年7月的全部記錄,而動(dòng)態(tài)網(wǎng)絡(luò)模型以半年為一期,基于2006年下半年到2012年上半年的記錄.由于篇幅所限,復(fù)雜網(wǎng)絡(luò)模型的大量數(shù)學(xué)計(jì)算在下文中將不予列出.
從生產(chǎn)模式與網(wǎng)絡(luò)結(jié)構(gòu)兩個(gè)方面來(lái)分析生產(chǎn)結(jié)構(gòu)的異質(zhì)性.
(1)模型構(gòu)建 為分析生產(chǎn)模式,首先建立了生產(chǎn)者與項(xiàng)目的二分布爾復(fù)雜網(wǎng)絡(luò)模型.網(wǎng)絡(luò)是點(diǎn)與邊的集合,將Codeplex C#社區(qū)的所有生產(chǎn)者定義為底部節(jié)點(diǎn),所有項(xiàng)目定義為頂部節(jié)點(diǎn),如果一個(gè)生產(chǎn)者在2006年5月至2012年7月之間開(kāi)發(fā)過(guò)某個(gè)項(xiàng)目,那么就在他們之間連一條邊,這樣就得到了該社區(qū)的2006-2012年間的生產(chǎn)者與項(xiàng)目的二分布爾復(fù)雜網(wǎng)絡(luò)模型,簡(jiǎn)稱2006-2012 二分布爾網(wǎng)絡(luò).2006-2012 二分布爾網(wǎng)絡(luò)共有5 369 個(gè)節(jié)點(diǎn),其中頂部節(jié)點(diǎn)2136 個(gè)、底部節(jié)點(diǎn)3233 個(gè),3785 條邊.為動(dòng)態(tài)分析生產(chǎn)結(jié)構(gòu),文中還按照同樣的思路,建立了從2006年下半年到2012年上半年、以半年為一期的、生產(chǎn)者與項(xiàng)目的二分布爾網(wǎng)絡(luò)序列模型.
(2)分析思路 筆者認(rèn)為,生產(chǎn)模式體現(xiàn)在生產(chǎn)者對(duì)項(xiàng)目的生產(chǎn)關(guān)系所形成的生產(chǎn)圈子中,而連通圖是生產(chǎn)圈子的數(shù)學(xué)描述,因此通過(guò)分析二分布爾網(wǎng)絡(luò)的連通圖來(lái)尋找開(kāi)源社區(qū)的生產(chǎn)模式.
(3)連通圖的發(fā)現(xiàn) 網(wǎng)絡(luò)中的連通圖是其內(nèi)部任意節(jié)點(diǎn)對(duì)之間都有路徑相連的網(wǎng)絡(luò)子圖,網(wǎng)絡(luò)常常含有多個(gè)獨(dú)立的連通子圖.經(jīng)計(jì)算,2006-2012二分布爾網(wǎng)絡(luò)共有1614 個(gè)連通圖,其中的1 039 個(gè)連通圖是由1 個(gè)項(xiàng)目與1 個(gè)生產(chǎn)者形成的(見(jiàn)圖2中的A 型);299 個(gè)是1 個(gè)項(xiàng)目與多個(gè)生產(chǎn)者節(jié)點(diǎn)形成的(見(jiàn)圖2 中的B 型),這樣含有1 個(gè)項(xiàng)目的連通圖共有1338 個(gè);而130 個(gè)連通圖則是由多個(gè)項(xiàng)目節(jié)點(diǎn)形成的(見(jiàn)圖2 中的C 型),剩下的146 個(gè)連通圖是1 個(gè)生產(chǎn)者開(kāi)發(fā)2 個(gè)及以上項(xiàng)目形成的(見(jiàn)圖2中的D 型).
圖2 洞穴式與網(wǎng)絡(luò)式生產(chǎn)模式Fig.2 Cave and network-based pattern
圖2 中A 型生產(chǎn)模式就像1 個(gè)人在挖1 個(gè)洞,B 型就像多個(gè)人在挖1 個(gè)洞,它們都僅含1 個(gè)項(xiàng)目“洞”,因此都可形象地稱為洞穴式生產(chǎn)模式[12];而C 型與D 型(尤其是C 型)與A、B 型截然不同,是多個(gè)項(xiàng)目的多“洞”網(wǎng)絡(luò)化生產(chǎn)模式,在網(wǎng)絡(luò)化模式中不同項(xiàng)目節(jié)點(diǎn)之所以能夠相連,是因?yàn)橛腥碎_(kāi)發(fā)了2 個(gè)及以上的項(xiàng)目.2006-2012 二分網(wǎng)絡(luò)中,規(guī)模最大的C 型含有239 個(gè)節(jié)點(diǎn),其中項(xiàng)目節(jié)點(diǎn)29個(gè),生產(chǎn)者節(jié)點(diǎn)211 個(gè).
(4)結(jié)論 對(duì)2006-2012 二分布爾網(wǎng)絡(luò)連通圖的分析說(shuō)明,開(kāi)源大眾生產(chǎn)模式是洞穴與網(wǎng)絡(luò)式并存的,1614 個(gè)生產(chǎn)圈子中有82.9%(1388/1614)的生產(chǎn)方式是洞穴式.進(jìn)一步統(tǒng)計(jì)分析還顯示,2006-2012 二分布爾網(wǎng)絡(luò)1 614 個(gè)連通圖規(guī)模的累積分布,是k 為1.5 的冪律分布(可決系數(shù)R2=0.89),也就是說(shuō),大多數(shù)連通圖包含的節(jié)點(diǎn)很少,少數(shù)的連通圖包含的節(jié)點(diǎn)很多,而節(jié)點(diǎn)數(shù)很少的連通圖都是僅有1 個(gè)項(xiàng)目節(jié)點(diǎn)的洞穴式生產(chǎn)圈子,因此可以說(shuō),開(kāi)源大眾生產(chǎn)模式是洞穴與網(wǎng)絡(luò)式共存,具有明顯的異質(zhì)性,但是以洞穴式為主.
時(shí)間序列的二分布爾網(wǎng)絡(luò)根據(jù)每半年實(shí)際發(fā)生的生產(chǎn)行為建立.從2006年7月到2012年6月,實(shí)際有開(kāi)發(fā)行為的人數(shù)從140 人增加到828 人,涉及的項(xiàng)目數(shù)從81 個(gè)增加到566 個(gè),但是在生產(chǎn)圈子中,網(wǎng)絡(luò)型占有的比例卻基本穩(wěn)定在10%~12%左右.網(wǎng)絡(luò)型的比例雖然不高,但是畢竟占有10%以上,因此支持了2006-2012 二分布爾網(wǎng)絡(luò)模型的分析結(jié)論(即開(kāi)源大眾生產(chǎn)模式是洞穴式與網(wǎng)絡(luò)式并存,具有明顯的異質(zhì)性).
3.2.1 二分網(wǎng)絡(luò)的異質(zhì)性
在2006-2012 生產(chǎn)者與項(xiàng)目的二分布爾網(wǎng)絡(luò)模型的基礎(chǔ)上,以生產(chǎn)者參與相應(yīng)項(xiàng)目的累計(jì)次數(shù)作為相關(guān)邊的權(quán)重就得到生產(chǎn)者與項(xiàng)目的二分加權(quán)網(wǎng)絡(luò)模型.節(jié)點(diǎn)的邊權(quán)之和就是該節(jié)點(diǎn)的權(quán)重.二分網(wǎng)絡(luò)頂部節(jié)點(diǎn)度值表示項(xiàng)目的生產(chǎn)者人數(shù),底部節(jié)點(diǎn)度值表示生產(chǎn)者參加的項(xiàng)目數(shù).二分網(wǎng)絡(luò)頂部節(jié)點(diǎn)的權(quán)值表示項(xiàng)目被生產(chǎn)的次數(shù),底部節(jié)點(diǎn)的權(quán)值表示生產(chǎn)者對(duì)所有項(xiàng)目的生產(chǎn)次數(shù).圖3 顯示出二分網(wǎng)絡(luò)的度或權(quán)的累積分布與隨機(jī)網(wǎng)絡(luò)零模型有明顯不同,加權(quán)網(wǎng)絡(luò)與布爾網(wǎng)絡(luò)的累積權(quán)和度都呈現(xiàn)冪律分布,除底部節(jié)點(diǎn)的度之外,它們的取值都有數(shù)量級(jí)的差別,且k 大約在1~3 之間,因此可以說(shuō)二分網(wǎng)絡(luò)的結(jié)構(gòu)具有異質(zhì)性.
圖3 二分網(wǎng)絡(luò)節(jié)點(diǎn)度與權(quán)的累積分布Fig.3 Cumulative distribution of node degree and weight in bipartite network
底部節(jié)點(diǎn)度表示生產(chǎn)者開(kāi)發(fā)的項(xiàng)目的個(gè)數(shù),由于人的能力的同質(zhì)性,雖然仍是冪律分布,但按文中的標(biāo)準(zhǔn)就不具有異質(zhì)性了.
3.2.2 合作網(wǎng)絡(luò)的異質(zhì)性
3.2.1 節(jié)是從生產(chǎn)者與生產(chǎn)任務(wù)的關(guān)系來(lái)看生產(chǎn)結(jié)構(gòu),下面將從生產(chǎn)者之間的合作關(guān)系來(lái)看生產(chǎn)結(jié)構(gòu),這需要建立生產(chǎn)者合作關(guān)系的網(wǎng)絡(luò)模型.
(1)模型構(gòu)建 將2006-2012 生產(chǎn)者與項(xiàng)目的二分布爾網(wǎng)絡(luò)向底部生產(chǎn)者節(jié)點(diǎn)投影,就得到生產(chǎn)者的布爾合作網(wǎng)絡(luò).布爾合作網(wǎng)絡(luò)節(jié)點(diǎn)間的連邊表示這對(duì)生產(chǎn)者至少共同開(kāi)發(fā)過(guò)一個(gè)項(xiàng)目.進(jìn)一步找出兩個(gè)生產(chǎn)者共同開(kāi)發(fā)的每一個(gè)項(xiàng)目各自的生產(chǎn)次數(shù),然后以較小的生產(chǎn)次數(shù)作為他們?cè)谶@個(gè)項(xiàng)目上的合作強(qiáng)度,并以他們共同開(kāi)發(fā)的所有項(xiàng)目的合作強(qiáng)度之和作為兩個(gè)生產(chǎn)者之間連邊的權(quán)重,這樣就得到生產(chǎn)者的加權(quán)合作網(wǎng)絡(luò).
(2)從權(quán)與度值看異質(zhì)性 加權(quán)合作網(wǎng)絡(luò)的節(jié)點(diǎn)最大權(quán)值為5221,權(quán)值為0 的節(jié)點(diǎn)共有1185 個(gè),占節(jié)點(diǎn)總數(shù)的36.7%,累積權(quán)值呈k 為0.85(R2=0.90)的冪律分布;而度呈分段冪律分布.以上說(shuō)明,36.7%的節(jié)點(diǎn)的合作強(qiáng)度為0,而節(jié)點(diǎn)的最大合作強(qiáng)度為5221,因此從合作強(qiáng)度來(lái)看網(wǎng)絡(luò)近似具有異質(zhì)性(圖4).
圖4 合作網(wǎng)絡(luò)的累積度與權(quán)的分布Fig.4 Cumulative distribution of node degree and weight in cooperation network
(3)從拓?fù)渲笜?biāo)看異質(zhì)性 布爾合作網(wǎng)絡(luò)反映了合作關(guān)系的結(jié)構(gòu).經(jīng)計(jì)算3233 節(jié)點(diǎn)布爾合作網(wǎng)絡(luò)的介數(shù)呈現(xiàn)k 為0.36 的冪律分布(R2= 0.86),而緊密度值較集中,集聚系數(shù)大多分布在0 或1.點(diǎn)的介數(shù)表示通過(guò)該點(diǎn)的最短路的條數(shù),介數(shù)的計(jì)算結(jié)果表示從中介位置來(lái)看網(wǎng)絡(luò)存在著多樣性但不具有非均勻性,因此布爾合作網(wǎng)絡(luò)從3 個(gè)拓?fù)渲笜?biāo)來(lái)看都不具有異質(zhì)性.
(4)從連通圖看異質(zhì)性 加權(quán)合作網(wǎng)絡(luò)共有3233 節(jié)點(diǎn)、25 188 條邊,其中1 185 個(gè)孤立點(diǎn).除過(guò)孤立點(diǎn)外,共有429 個(gè)連通圖,最大連通圖有210 個(gè)節(jié)點(diǎn),占非孤立點(diǎn)的比例為10.25%,6 632 條邊,這些連通圖所含節(jié)點(diǎn)的數(shù)量呈冪律分布,累積分布的k 為1.27(R2=0.95),因此從連通圖的規(guī)模來(lái)看網(wǎng)絡(luò)具有異質(zhì)性.
(5)從社團(tuán)結(jié)構(gòu)看異質(zhì)性 從連通圖規(guī)??串愘|(zhì)性,是從節(jié)點(diǎn)之間有無(wú)連接通路的角度來(lái)看的,而從社團(tuán)結(jié)構(gòu)看異質(zhì)性,則進(jìn)一步從連通圖內(nèi)部連接關(guān)系的多寡與強(qiáng)弱來(lái)看.社團(tuán)內(nèi)部節(jié)點(diǎn)之間的聯(lián)系比社團(tuán)之間節(jié)點(diǎn)的聯(lián)系既多又強(qiáng).經(jīng)分析發(fā)現(xiàn),社團(tuán)的實(shí)際背景就是項(xiàng)目的團(tuán)隊(duì).社團(tuán)劃分有許多算法[13],最新算法是與隨機(jī)圖比較的Potts 算法[14].Potts 算法有0 階(保持平均度不變)與1 階(保持度序列不變)零模型算法.Q 值是衡量社團(tuán)性強(qiáng)弱的指標(biāo),一般以Q=0.3 作為網(wǎng)絡(luò)具有明顯社團(tuán)結(jié)構(gòu)的最低標(biāo)準(zhǔn).采用Potts 的1 階零模型算出布爾與加權(quán)合作網(wǎng)絡(luò)的最大連通圖分別有10 個(gè)與11 個(gè)社團(tuán),最大社團(tuán)含有50 或51 個(gè)節(jié)點(diǎn),而最小的社團(tuán)僅有2 個(gè)節(jié)點(diǎn),所以不同社團(tuán)之間在規(guī)模上也存在著多樣性(如表1 所示).
表1 合作網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)1)Table 1 Community structure in the cooperation network
(6)從富人俱樂(lè)部看異質(zhì)性 社會(huì)上富人和富人來(lái)往多的現(xiàn)象被稱為富人俱樂(lè)部現(xiàn)象,通常采用以下指標(biāo)來(lái)判斷[15]:
式中:r 表示財(cái)富,財(cái)富大于等于r 的富人為俱樂(lè)部成員;Wl,rank是邊權(quán)(交往強(qiáng)度),表示排序?yàn)榈趌 大的邊的權(quán)值,W>r是俱樂(lè)部?jī)?nèi)的邊權(quán)之和;E>r是俱樂(lè)部成員之間的邊數(shù);φw(r)表示俱樂(lè)部?jī)?nèi)的邊權(quán)之和與整個(gè)網(wǎng)絡(luò)邊權(quán)從大到小排列的同樣邊數(shù)的邊權(quán)之和的比值.進(jìn)一步以相應(yīng)的隨機(jī)化網(wǎng)絡(luò)為比較對(duì)象就得到ρw(r),若ρw(r)大于1,則表明實(shí)際的加權(quán)網(wǎng)絡(luò)存在富人俱樂(lè)部現(xiàn)象.
以節(jié)點(diǎn)權(quán)表示財(cái)富指標(biāo)r,從圖5 可以看出,加權(quán)合作網(wǎng)絡(luò)存在著明顯的富人俱樂(lè)部現(xiàn)象,尤其是在r 大于2000 以后.這說(shuō)明合作活躍的生產(chǎn)者主要是在彼此之間進(jìn)行合作的,因此活躍者之間的合作強(qiáng)度與其他類(lèi)型的合作強(qiáng)度之間存在著差異性.
圖5 加權(quán)合作網(wǎng)絡(luò)的富人俱樂(lè)部系數(shù)Fig.5 Rich club coefficient curve of the weighted cooperative network
開(kāi)源軟件的生產(chǎn)必然伴隨著信息的流通,因此開(kāi)源社區(qū)不僅是生產(chǎn)的平臺(tái),也是信息溝通的平臺(tái).Codeplex C#社區(qū)有兩個(gè)信息溝通的版塊:issues 欄目下的bug 討論版塊與discussions 欄目下的更一般的信息溝通版塊.
為分析bug 討論結(jié)構(gòu)的異質(zhì)性,首先需要建立bug 討論關(guān)系的復(fù)雜網(wǎng)絡(luò)模型.與生產(chǎn)、項(xiàng)目的二分關(guān)系不同,bug 帖子與討論人的二分關(guān)系主要是網(wǎng)絡(luò)模式,而且對(duì)于社區(qū)結(jié)構(gòu)來(lái)說(shuō),帖子遠(yuǎn)沒(méi)有項(xiàng)目重要,因此不需要建立帖子與討論人的二分網(wǎng)絡(luò)模型.這樣Bug 討論網(wǎng)絡(luò)以參與bug 討論的人為節(jié)點(diǎn)(刪除了僅提交了bug 但沒(méi)有人回應(yīng)的人),在bug 的提交人與回復(fù)人之間建立有向邊,方向指向回復(fù)人,有向邊的權(quán)等于這種提交與回復(fù)關(guān)系的次數(shù).按照上述規(guī)則,2006年5月至2012年7月整個(gè)時(shí)間段的bug 討論加權(quán)有向網(wǎng)絡(luò)共有5842 個(gè)節(jié)點(diǎn)、5741 條邊.
bug 討論有向加權(quán)網(wǎng)的節(jié)點(diǎn)的入度表示該節(jié)點(diǎn)回復(fù)過(guò)多少人所提出的bug,入權(quán)表示該節(jié)點(diǎn)回復(fù)過(guò)多少次別人所提出的bug;出度表示回復(fù)過(guò)該節(jié)點(diǎn)所提交的bug 的人數(shù),出權(quán)表示回復(fù)過(guò)該節(jié)點(diǎn)提交的bug 的次數(shù).一般來(lái)說(shuō),入度或入權(quán)越大,表示節(jié)點(diǎn)所解決的bug 越多;出度或出權(quán)越大,表明節(jié)點(diǎn)所提出的bug 越多.
2006-2012年bug 討論有向加權(quán)網(wǎng)的5 842 個(gè)節(jié)點(diǎn)中,入度為0 的節(jié)點(diǎn)共有2 876 個(gè),占總數(shù)的49.2%,最大的入度與入權(quán)值分別為49 與89;出度為0 的節(jié)點(diǎn)共有2377 個(gè),占總數(shù)的40.6,最大的出度與出權(quán)值分別為117 與344.剔除這些出度或入度為0 的節(jié)點(diǎn)后,累積度和權(quán)的冪律分布如圖6 所示.從圖6 可見(jiàn),節(jié)點(diǎn)的度或權(quán)的取值都有著數(shù)量級(jí)的差異,且出度與出權(quán)的k 在1~2 之間,入權(quán)的k為1.91,而入度的k 接近2,因此bug 討論結(jié)構(gòu)從節(jié)點(diǎn)討論廣度(度)與強(qiáng)度(權(quán))來(lái)看都具有異質(zhì)性,不過(guò)節(jié)點(diǎn)的回復(fù)bug 的多樣性略小于提交的,與強(qiáng)度有關(guān)的異質(zhì)性大于廣度.
圖6 bug 討論有向加權(quán)網(wǎng)的累積度和權(quán)的分布Fig.6 Cumulative distribution of node degree and weight in directed and weighted bug discussion network
經(jīng)計(jì)算5842 個(gè)節(jié)點(diǎn)的bug 討論網(wǎng)絡(luò),其節(jié)點(diǎn)的介數(shù)呈冪律分布,累積分布的k 為0.48(R2=0.88);緊密度分布與布爾合作網(wǎng)絡(luò)的相似,而集聚系數(shù)與布爾合作網(wǎng)絡(luò)的雙峰不同,呈多峰分布,且多在0.5 以下.bug 討論網(wǎng)絡(luò)從介數(shù)來(lái)看具有多樣性,而從3 個(gè)拓?fù)渲笜?biāo)來(lái)看都不具有異質(zhì)性(如圖7所示).
圖7 bug 討論網(wǎng)絡(luò)拓?fù)渲笜?biāo)的直方圖Fig.7 Topology index histogram of bug discussion network
5842 個(gè)節(jié)點(diǎn)的bug 討論有向加權(quán)網(wǎng)絡(luò)共有860 個(gè)連通圖(有邊就算連通).最大連通圖有2 630 個(gè)節(jié)點(diǎn),占總節(jié)點(diǎn)數(shù)的45%,規(guī)模最小的含2 個(gè)節(jié)點(diǎn)(不包括孤立節(jié)點(diǎn)),但連通圖的規(guī)模呈指數(shù)分布(指數(shù)為-0.00167,R2=0.81),說(shuō)明從連通圖規(guī)模來(lái)看bug 討論網(wǎng)不具有異質(zhì)性.另外,生產(chǎn)結(jié)構(gòu)的二分網(wǎng)絡(luò)與加權(quán)合作網(wǎng)絡(luò)的最大連通圖的節(jié)點(diǎn)比例分別僅為4.45%與10.25%,可見(jiàn)生產(chǎn)結(jié)構(gòu)有較大的碎片性,而bug 討論網(wǎng)絡(luò)的整體性較強(qiáng),這進(jìn)一步說(shuō)明開(kāi)源社區(qū)的bug 討論結(jié)構(gòu)與生產(chǎn)結(jié)構(gòu)之間也有差異:bug 討論的圈子大而生產(chǎn)合作的圈子小.這是由生產(chǎn)的專業(yè)性與信息溝通的廣泛性造成的.
為分析信息溝通結(jié)構(gòu)的異質(zhì)性,首先需要建立溝通關(guān)系的復(fù)雜網(wǎng)絡(luò)模型.文中不僅建立了2006年5月至2012年7月的整個(gè)時(shí)間段的溝通關(guān)系網(wǎng)絡(luò)模型,也建立了以半年為一期的時(shí)間序列溝通網(wǎng)絡(luò)模型,后者具體的時(shí)段劃分與生產(chǎn)者和項(xiàng)目的時(shí)間序列二分網(wǎng)絡(luò)一樣.模型中溝通者為節(jié)點(diǎn),如果兩個(gè)溝通者討論過(guò)共同的主題,則它們之間就有一條邊,這樣得到的是無(wú)權(quán)的溝通網(wǎng)絡(luò)模型;進(jìn)一步以討論次數(shù)代替生產(chǎn)次數(shù),采用與加權(quán)合作網(wǎng)絡(luò)同樣的邊權(quán)生成方法,就得到加權(quán)的溝通網(wǎng)絡(luò)模型.2006-2012 時(shí)段的溝通關(guān)系網(wǎng)絡(luò)共有個(gè)26481 個(gè)節(jié)點(diǎn)(包括孤立節(jié)點(diǎn))、467622 條邊.
溝通網(wǎng)絡(luò)節(jié)點(diǎn)的度表示溝通者溝通過(guò)的人數(shù),26481 個(gè)節(jié)點(diǎn)2006-2012 溝通關(guān)系網(wǎng)絡(luò)的度呈冪律分布,累積分布的k 為1.52(R2=0.86)(見(jiàn)圖8).邊權(quán)表示兩人之間溝通的強(qiáng)度,節(jié)點(diǎn)權(quán)是邊權(quán)之和,代表了節(jié)點(diǎn)的總溝通強(qiáng)度.從時(shí)間序列溝通網(wǎng)絡(luò)分布的相關(guān)數(shù)據(jù)可知,各時(shí)段網(wǎng)絡(luò)的節(jié)點(diǎn)權(quán)也都呈現(xiàn)冪律分布,累積分布的k 值接近,從1.01~2.00(R2從0.92~0.97),且各有數(shù)量級(jí)的差別.權(quán)值最大的溝通者是項(xiàng)目的核心人員或者項(xiàng)目的發(fā)起人.以上說(shuō)明,溝通網(wǎng)絡(luò)的節(jié)點(diǎn)在溝通的廣度與強(qiáng)度方面都存在異質(zhì)性,核心成員與一般成員之間的差異最大.
圖8 2006-2012 溝通網(wǎng)絡(luò)累積度分布圖Fig.8 Cumulative distribution of node degree in communication network in 2006-2012
26481 個(gè)節(jié)點(diǎn)2006-2012 溝通關(guān)系網(wǎng)絡(luò)的介數(shù)、緊密度與集聚系數(shù)的分布見(jiàn)圖9.介數(shù)呈冪律分布,累積分布的k 為0.39(R2=0.74),說(shuō)明溝通網(wǎng)絡(luò)在中介位置方面存在多樣性.同樣,溝通網(wǎng)絡(luò)從這3 個(gè)拓?fù)渲笜?biāo)來(lái)看不存在異質(zhì)性.
圖9 2006-2012 溝通網(wǎng)絡(luò)拓?fù)渲笜?biāo)的直方圖Fig.9 Topology index histogram of communication network in 2006-2012
以2011年上半年為例,其溝通網(wǎng)絡(luò)共4 125 個(gè)節(jié)點(diǎn)、14690 條邊,經(jīng)計(jì)算共分為833 個(gè)連通圖(包含孤立點(diǎn)),833 個(gè)連通圖中最大規(guī)模的含有2458 個(gè)節(jié)點(diǎn),占總節(jié)點(diǎn)數(shù)的59.6%.規(guī)模最小的僅含1 個(gè)節(jié)點(diǎn)(但有577 個(gè)),連通圖節(jié)點(diǎn)個(gè)數(shù)呈冪律分布,累積分布的k 為0.94(R2=0.80).這說(shuō)明溝通網(wǎng)絡(luò)從連通圖規(guī)模來(lái)看近似具有異質(zhì)性.但與bug 討論網(wǎng)絡(luò)一樣,與生產(chǎn)網(wǎng)絡(luò)相比,信息溝通網(wǎng)絡(luò)的整體性也較強(qiáng),這也是由生產(chǎn)的專業(yè)性與信息溝通的廣泛性造成的.
采用Potts 算法,得到每半年溝通網(wǎng)絡(luò)最大連通圖的社團(tuán)分析結(jié)果,發(fā)現(xiàn)無(wú)權(quán)溝通網(wǎng)絡(luò)存在社團(tuán)(Q大于0.3),但從各種零模型的Q 值在0.1 附近可知,與加權(quán)生產(chǎn)網(wǎng)絡(luò)不同,加權(quán)溝通網(wǎng)絡(luò)沒(méi)有社團(tuán),這說(shuō)明生產(chǎn)與溝通的強(qiáng)度結(jié)構(gòu)存在差異性.
采用與加權(quán)生產(chǎn)網(wǎng)絡(luò)同樣的分析方法,發(fā)現(xiàn)加權(quán)溝通網(wǎng)絡(luò)也具有顯著的富人俱樂(lè)部現(xiàn)象.2008年下半年的分析結(jié)果如圖10 所示.圖10 說(shuō)明活躍的溝通者主要是在彼此之間進(jìn)行溝通,活躍者之間的溝通與其他類(lèi)型的溝通之間存在著異質(zhì)性.
圖10 加權(quán)溝通網(wǎng)絡(luò)的富人俱樂(lè)部現(xiàn)象Fig.10 Rich club phenomenon in weighted communication network
在對(duì)異質(zhì)性進(jìn)行思考的基礎(chǔ)上,建立了開(kāi)源社區(qū)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)模型,在對(duì)復(fù)雜網(wǎng)絡(luò)的參數(shù)進(jìn)行分析中,找出可反映社區(qū)結(jié)構(gòu)異質(zhì)性的參數(shù).以上結(jié)果匯集在表2 中.
Codeplex C# 開(kāi)源社區(qū)結(jié)構(gòu)的異質(zhì)性.首先,連通圖分析反映出,存在兩種性質(zhì)不同的生產(chǎn)模式:洞穴式與網(wǎng)絡(luò)式,且生產(chǎn)的二分與合作網(wǎng)絡(luò)的連通圖規(guī)模都呈現(xiàn)出異質(zhì)性與碎片性;bug 討論結(jié)構(gòu)與溝通結(jié)構(gòu)則不同,它們以網(wǎng)絡(luò)式為主且大多數(shù)成員都處于最大連通圖內(nèi),從而具有整體性;信息溝通連通圖的規(guī)模具有異質(zhì)性,但bug 討論網(wǎng)絡(luò)的連通圖規(guī)模具有同質(zhì)性,由此可見(jiàn),從連通圖來(lái)看,生產(chǎn)結(jié)構(gòu)的異質(zhì)性最強(qiáng),信息溝通結(jié)構(gòu)次之.其次,3 種活動(dòng)結(jié)構(gòu)網(wǎng)絡(luò)的節(jié)點(diǎn)的權(quán)都有很好的冪律擬合且滿足異質(zhì)性標(biāo)準(zhǔn),因此從節(jié)點(diǎn)的各種強(qiáng)度來(lái)看社區(qū)都具有異質(zhì)性,而bug 討論結(jié)構(gòu)的節(jié)點(diǎn)強(qiáng)度最符合異質(zhì)性的標(biāo)準(zhǔn).度的冪律分布說(shuō)明,社區(qū)從項(xiàng)目的參與人數(shù)、bug 發(fā)帖人數(shù)與回帖人數(shù)以及溝通的人數(shù)方面也具有異質(zhì)性.再次,社區(qū)的各種結(jié)構(gòu)的介數(shù)盡管存在多樣性,但是介數(shù)、緊密度與集聚系數(shù)這些重要的拓?fù)渲笜?biāo)都不具有異質(zhì)性.最后,加權(quán)合作網(wǎng)絡(luò)與加權(quán)溝通網(wǎng)絡(luò)都具有顯著的富人俱樂(lè)部現(xiàn)象;生產(chǎn)網(wǎng)絡(luò)、無(wú)權(quán)溝通網(wǎng)絡(luò)的最大連通圖存在著社團(tuán)結(jié)構(gòu),這些也反映出社區(qū)結(jié)構(gòu)的異質(zhì)性.
開(kāi)源社區(qū)結(jié)構(gòu)異質(zhì)性復(fù)雜網(wǎng)絡(luò)分析的具體步驟如下:開(kāi)源社區(qū)結(jié)構(gòu)的異質(zhì)性常常體現(xiàn)在復(fù)雜網(wǎng)絡(luò)模型的度、權(quán)等指標(biāo)以及連通圖、社團(tuán)結(jié)構(gòu)與富人俱樂(lè)部等方面,所以在建立社區(qū)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)模型后,先用生產(chǎn)者與項(xiàng)目的二分網(wǎng)絡(luò)連通圖去分析生產(chǎn)結(jié)構(gòu)在生產(chǎn)模式方面的異質(zhì)性,然后從度、權(quán)等指標(biāo)的分布去探討其他各種網(wǎng)絡(luò)結(jié)構(gòu)在節(jié)點(diǎn)關(guān)系的廣度、強(qiáng)度以及信息中介地位方面表現(xiàn)出的異質(zhì)性,再?gòu)倪B通圖的規(guī)模以及最大連通圖內(nèi)社團(tuán)的規(guī)模,分別看關(guān)系有無(wú)以及關(guān)系的密切性反映出的結(jié)構(gòu)異質(zhì)性,最后用富人俱樂(lè)部方法從節(jié)點(diǎn)強(qiáng)度與成對(duì)關(guān)系的強(qiáng)度(邊權(quán))來(lái)看結(jié)構(gòu)的異質(zhì)性.
我們認(rèn)為,有關(guān)Codeplex C#社區(qū)的結(jié)論對(duì)開(kāi)源社區(qū)是否具有普遍意義還需要多個(gè)案例的驗(yàn)證,但由此社區(qū)總結(jié)出的開(kāi)源社區(qū)結(jié)構(gòu)異質(zhì)性的復(fù)雜網(wǎng)絡(luò)分析步驟卻具有普適性.
文中用冪律分布來(lái)測(cè)量異質(zhì)性,另一方面,物理學(xué)的自組織臨界態(tài)(復(fù)雜態(tài),相變態(tài))也是由冪律分布體現(xiàn)的,這樣通過(guò)冪律分布,異質(zhì)性與物理學(xué)的自組織臨界性就聯(lián)系在一起了.我們認(rèn)為這就是組織異質(zhì)性研究的物理背景.另外,世界上,有的組織是他組織的,有的組織是自組織的,大眾生產(chǎn)社區(qū)是一種典型的自組織的組織.自組織的組織會(huì)自發(fā)地向臨界態(tài)(吸引子)進(jìn)化,所以臨界性是自組織進(jìn)化程度的判據(jù),由此可知組織異質(zhì)性研究的意義.
[1]Wuchty S,Jones B F,Uzzi B.The increasing dominance of teams in production of knowledge[J].Science,2007,316(5827):1036-1039.
[2]Newman M.Scientific collaboration networks network construction and fundamental results [J].Physical Review E,2001,64:016131.
[3]Crowston K,Wei K,Howison J,et al.Free/libre open source software development:what we know and what we do not know[J].ACM Computing Surveys,2012,44(2):7-35.
[4]楊建梅.組織的系統(tǒng)結(jié)構(gòu)定義探討[J].系統(tǒng)工程學(xué)報(bào),2002,17(5):441-444.Yang Jian-mei.Research on definition of system structure of organization[J].Journal of System Engineering,2002,17(5):441-444.
[5]楊建梅.人類(lèi)活動(dòng)系統(tǒng)的復(fù)雜性[J].華南理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2011,13(4):1-1.Yang Jian-mei.Complexity of human activity systems[J].Journal of South China University of Technology:Social Science Edition,2011,13 (4):1-1.
[6]Barabasi A.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.
[7]維基百科.Pareto distribution [EB/OL].http:∥zh.wikipedia.org/wiki/Pareto DistributionCDF.png.
[8]方衛(wèi)東,李坤,張建功.香港恒生指數(shù)的波動(dòng)性分析[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2008,36(12):138-141.Fang Wei-dong,Li Kun,Zhang Jian-gong.Analysis of fluctuation of Hong Kong Hang Seng index[J].Journal of South China University of Technology:Natural Science Edition,2008,36(12):138-141.
[9]Yang Jianmei,Lu Lvping,Xie Wangdan,et al.On competitive relationship networks:a new method for industrial competition analysis[J].Physica A,2007,382(2):704-714.
[10]Yang Jianmei,Wang Wenjie,Chen Guanrong.A two-level complex network model and its application[J].Physica A,2009,388(12):2435-2449.
[11]Yang Jianmei,Yao Canzhong,Ma Weicheng,et al.A study of the spreading scheme for viral marketing based on a complex network model[J].Physica A,2010,389(4):859-870.
[12]Krishnamurthy S.Cave or community an empirical exa-mination of 100 mature open source projects [J/OL].First Monday,2002,7(6).http:∥www.firstmonday.dk/issues/issue7_6/krishnamurthy
[13]Lancichinetti A,Radicchi F,Ramasco J.Statistical significance of communities in networks[J].Physical Review E ,2010,81(4):046110.
[14]Reichardt J,Bomholdt S.Detecting fuzzy community structures in complex networks with a Potts model[J].Phys Rev Lett,2004,93(21):218701.
[15]Opsahl T,Colizza V.Prominence and control:the weighted rich-club effect[J].Phys Rev Lett,2008,101(6):168702.