馬宇彤 胡平
摘 要:知乎成為Web 2.0在線知識(shí)傳播的重要平臺(tái),本文基于知乎問答社區(qū)回答的傳播機(jī)制,歸納知乎平臺(tái)上知識(shí)傳播三種途徑。以SEIR模型為基礎(chǔ)建立知識(shí)傳播模型,模型所包含的傳播途徑占真實(shí)傳播途徑的90.9%??紤]關(guān)鍵用戶挖掘和熱點(diǎn)問題識(shí)別對(duì)傳播過程的影響,運(yùn)用HITS算法再次改進(jìn)模型描述知識(shí)在用戶間的傳播規(guī)律。通過穩(wěn)定解分析和參數(shù)對(duì)閾值影響分析,揭示知識(shí)傳播“冷啟動(dòng)”較難、規(guī)模受限的規(guī)律。使用用戶和問題影響力調(diào)整參數(shù),得出被關(guān)鍵用戶傳播、或處于熱點(diǎn)問題下的回答傳播力更大。進(jìn)一步以知乎平臺(tái)動(dòng)態(tài)回答數(shù)據(jù)驗(yàn)證,顯示改進(jìn)的H-SEIR模型擬合度優(yōu)于SEIR模型,H-SEIR模型更適于描述知識(shí)傳播規(guī)律。最后,給出問答平臺(tái)知識(shí)推廣的啟示建議。
關(guān)鍵詞:用戶影響力;問題影響力;知識(shí)傳播;傳染病模型
中圖分類號(hào):G206.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5192(2021)05-0048-08 doi:10.11847/fj.40.5.48
Abstract:Since Zhihu has become the important platform of online knowledge dissemination in Web 2.0, this article summarizes three paths of knowledge dissemination on the Zhihu platform in view of its answer propagation mechanism. This article proposes knowledge dissemination model based on SEIR, which accounts for 90.9% actual dissemination paths. Furthermore, considering the key users and hot spots impact on the dissemination process, we use HITS improving the model for describing the rule of knowledge dissemination among users. By stable-state analysis and thresholds analysis, we find the law of knowledge dissemination-Hard cold start and limit scale. Then, using user and question status to adjust parameters, it is concluded that the higher status questions and users have, the more propagation power their answers have. Moreover, it shows H-SEIR model, which is more suitable for describing the knowledge dissemination process, has better fit than SEIR model by Zhihu dynamic answer data. Finally, we try to give advice on knowledge promotion in Q&A platforms.
Key words:user influence; question influence; knowledge dissemination; SIR model
1 引言
迎著Web 2.0,人們傳播知識(shí)的方式發(fā)生顛覆性變化,在線問答社交平臺(tái)應(yīng)運(yùn)而生。本文的研究對(duì)象是最大的中文問答社區(qū)平臺(tái)—知乎,其借鑒Quora模式[1],通過用戶關(guān)注關(guān)系和“寫回答”“點(diǎn)贊回答”“關(guān)注問題”等用戶行為形成的回答傳播途徑,將問題的回答所蘊(yùn)含的知識(shí)進(jìn)行在線傳播擴(kuò)散。Polanyi[2]將知識(shí)分為顯性知識(shí)和隱性知識(shí),前者以文字、圖表和數(shù)學(xué)公式加以表述,后者無法用語言表示,根據(jù)個(gè)人行為積累和完善的經(jīng)驗(yàn)或心得。林東清和李東[3]對(duì)知識(shí)和信息做出區(qū)分,認(rèn)為知識(shí)是人類通過原始信息的轉(zhuǎn)化和處理得到的、是可以減少環(huán)境不確定性認(rèn)知的信息。信息是知識(shí)的基礎(chǔ),知識(shí)是信息的升華。知乎平臺(tái)上的回答,大多是回答貢獻(xiàn)者根據(jù)多年學(xué)習(xí)、生活或從事相關(guān)行業(yè)積累而來的信息,加入自己的經(jīng)驗(yàn)或主觀的看法,以文字、圖片和鏈接等形式呈現(xiàn),是知識(shí)的體現(xiàn)。所以,本文使用知乎問答社區(qū)上的回答代表知識(shí)。
大多數(shù)知識(shí)傳播模型建立在SIR傳染病傳播模型基礎(chǔ)上,其是一種自上而下建模方式。SIR傳播模型的開端是Daley和Kendall[4]提出的DK模型。在該模型中人群被分為三種狀態(tài):未知者(S),對(duì)知識(shí)不了解的人;傳播者(I),傳播知識(shí)的人;免疫者(R),不再傳播知識(shí)的人。傳播者遇到未知者時(shí),未知者以一定概率變?yōu)閭鞑フ?傳播行為發(fā)生在兩傳播者之間時(shí),兩者都以一定概率轉(zhuǎn)化為免疫者。此后,Maki[5]對(duì)DK模型做出修改,將傳播規(guī)則改進(jìn)為,當(dāng)兩傳播者相遇時(shí),只有一個(gè)傳播者以一定概率變?yōu)槊庖哒撸K模型。此后文獻(xiàn)根據(jù)不同的研究情景,增加人群狀態(tài)對(duì)模型進(jìn)行改進(jìn):Mutz等[6]加入已知者(E),認(rèn)為不是所有未知者在獲得知識(shí)后都會(huì)選擇傳播,而是先轉(zhuǎn)換為已知者,已知者以一定概率轉(zhuǎn)換為傳播者,從而提出SEIR模型。Zhao等[7]考慮在線社交平臺(tái)中的遺忘機(jī)制,建立知識(shí)傳播SIHR模型。Zan等[8]建立SICR模型刻畫考慮阻礙傳播情形下的知識(shí)傳播規(guī)律。Wang等[9]建立2SI2R模型研究同時(shí)存在兩種謠言傳播時(shí)的相互影響情形。然而,上述文獻(xiàn)將知識(shí)傳播主體間的關(guān)系網(wǎng)絡(luò)看作均勻網(wǎng)絡(luò),未考慮真實(shí)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)知識(shí)傳播的影響。事實(shí)上,無論線下疾病或謠言傳播[10],還是在線社交網(wǎng)站知識(shí)傳播[11],其所參與個(gè)體組成的社會(huì)網(wǎng)絡(luò)具有冪律特性和無標(biāo)度特性。Barabasi和Albert[12]認(rèn)為“偏好連接機(jī)制”促進(jìn)“富者愈富”的形成,揭示許多網(wǎng)絡(luò)的度分布都是冪律現(xiàn)象的潛在機(jī)制。研究證明在線社交網(wǎng)站用戶關(guān)系網(wǎng)絡(luò)為復(fù)雜網(wǎng)絡(luò)[13]。關(guān)于復(fù)雜網(wǎng)絡(luò)上知識(shí)傳播的研究,Moreno等[14],Nekovee等[15]基于MK模型,研究無標(biāo)度網(wǎng)絡(luò)中的知識(shí)傳播,推導(dǎo)出穩(wěn)定狀態(tài)下傳播程度與網(wǎng)絡(luò)平均連接數(shù),傳染率的關(guān)系。Zanette[16]建立小世界網(wǎng)絡(luò)中的SIR模型并得出知識(shí)傳播的臨界值。Cowan等[17]提出復(fù)雜網(wǎng)絡(luò)中的知識(shí)增長模型,指出小世界網(wǎng)絡(luò)在演化為均衡網(wǎng)絡(luò)過程中,其知識(shí)傳播效率能夠達(dá)到最大值。Zhao等[18]基于SIHR模型,證實(shí)與隨機(jī)網(wǎng)絡(luò)相比,無標(biāo)度網(wǎng)絡(luò)中 “遺忘-記憶機(jī)制”對(duì)知識(shí)傳播力影響更大。然而,這些研究關(guān)注復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)特征對(duì)在線知識(shí)傳播的宏觀傳播效果,缺乏初始傳播點(diǎn)的網(wǎng)絡(luò)地位對(duì)知識(shí)傳播效率分析這樣微觀層面的探索。此外,雖然文獻(xiàn)通過嚴(yán)密的數(shù)學(xué)推導(dǎo)揭示知識(shí)傳播規(guī)律,但較少采用在線知識(shí)傳播平臺(tái)數(shù)據(jù)驗(yàn)證模型。
已有研究討論在線網(wǎng)絡(luò)初始傳播用戶的關(guān)鍵程度對(duì)知識(shí)傳播過程的影響[19]。然而鮮有研究聚焦在線知識(shí)傳播過程中,探討知識(shí)所涉及問題是否具有熱度,知識(shí)貢獻(xiàn)者是否為關(guān)鍵個(gè)體對(duì)知識(shí)傳播效果的影響。關(guān)于網(wǎng)絡(luò)關(guān)鍵點(diǎn)識(shí)別,主要有介數(shù)中心性和K-shell中心度、PageRank算法、HITS算法[20]。相較于前兩種識(shí)別方法,HITS可同時(shí)發(fā)現(xiàn)問答平臺(tái)的熱點(diǎn)問題和權(quán)威用戶,更適用于本文研究。目前,HITS算法已運(yùn)用到“問答社區(qū)關(guān)鍵用戶和熱點(diǎn)話題發(fā)現(xiàn)”等研究中。Jurczyk和Agichtein[21]基于用戶提問的中心度和答題的權(quán)威值,發(fā)掘雅虎問答社區(qū)的不同話題下明星用戶,并驗(yàn)證HITS算法預(yù)測(cè)“專家”的準(zhǔn)確率優(yōu)于中心度識(shí)別方法。本文通過細(xì)化知乎傳播途徑改進(jìn)傳統(tǒng)SEIR模型,進(jìn)一步地考慮回答關(guān)聯(lián)的用戶和問題屬性對(duì)回答傳播的影響,建立H-SEIR知識(shí)傳播改進(jìn)模型。之前的傳染病模型中用戶是否獲得知識(shí)的狀態(tài)轉(zhuǎn)換只受其他用戶影響,本文既考慮用戶層面又考慮知識(shí)所處的問題環(huán)境層面影響。進(jìn)一步地,本文從各初始傳播點(diǎn)網(wǎng)絡(luò)影響力的微觀視角,探索關(guān)鍵用戶和熱點(diǎn)問題對(duì)在線網(wǎng)絡(luò)知識(shí)傳播規(guī)律的影響;此外,以往文獻(xiàn)主要運(yùn)用仿真手段驗(yàn)證模型的適用性,缺少實(shí)際數(shù)據(jù)的支持,而本文采用知乎平臺(tái)“流行音樂”和“英語學(xué)習(xí)”兩話題下的用戶回答動(dòng)態(tài)數(shù)據(jù),驗(yàn)證改進(jìn)后模型擬合程度,彌補(bǔ)已有文獻(xiàn)的缺憾。
2 知識(shí)傳播過程的H-SEIR改進(jìn)模型
2.1 知乎平臺(tái)發(fā)現(xiàn)回答三種途徑
借鑒已有文獻(xiàn)[22],本文將用戶對(duì)回答點(diǎn)贊行為視為知乎的回答傳播方式,知乎知識(shí)傳播研究轉(zhuǎn)化成為用戶如何發(fā)現(xiàn)回答并對(duì)其點(diǎn)贊,及點(diǎn)贊用戶對(duì)關(guān)聯(lián)用戶發(fā)現(xiàn)并點(diǎn)贊回答這一過程產(chǎn)生怎樣影響?;谥蹶P(guān)注系統(tǒng)推送機(jī)制,用戶在“關(guān)注”欄目下可看到關(guān)注了的用戶“回答了的問題”“贊同了的回答”中回答的內(nèi)容,“關(guān)注了的問題”中問題的描述。對(duì)此,歸納三條發(fā)現(xiàn)回答的途徑:途徑1基于回答者的啟動(dòng)途徑:依據(jù)“回答了問題”,回答者的關(guān)注者(在平臺(tái)上關(guān)注了回答者的用戶)在知乎首頁“關(guān)注”欄目下閱讀該回答。途徑2基于問題的啟動(dòng)途徑:依據(jù)“關(guān)注了的問題”,回答所屬問題的關(guān)注者在知乎首頁“關(guān)注”欄目下瀏覽并點(diǎn)擊該問題后,有機(jī)會(huì)在“問題答案”界面閱讀該回答;此外,在首頁“關(guān)注”欄目下,關(guān)注了該回答所屬問題的其余回答者的用戶閱讀并點(diǎn)擊問題的其余回答后,進(jìn)入“問題答案”界面,之后通過點(diǎn)擊“下一個(gè)回答”有機(jī)會(huì)閱讀該回答?;卮饐?dòng)傳播以途徑1和2兩種方式進(jìn)行,當(dāng)回答者關(guān)注者、問題關(guān)注者、回答所屬問題的其余回答者的關(guān)注者閱讀該回答,對(duì)回答內(nèi)容感興趣并“點(diǎn)贊”,他們轉(zhuǎn)化為點(diǎn)贊者(傳播者)進(jìn)入途徑3傳播。途徑3基于回答點(diǎn)贊者的擴(kuò)散途徑:依據(jù)“贊同了的回答”,這些點(diǎn)贊者的關(guān)注者在知乎首頁“關(guān)注”欄目下閱讀到點(diǎn)贊者“贊同了的”該回答。若點(diǎn)贊者的關(guān)注者對(duì)回答內(nèi)容也感興趣并“點(diǎn)贊”,則不斷重復(fù)途徑3。使用Python對(duì)知乎問答社區(qū)2011~2017年“流行音樂”和“英語學(xué)習(xí)”話題的68362個(gè)問題的421849個(gè)回答的回答者,回答點(diǎn)贊者,點(diǎn)贊者關(guān)注者,回答者關(guān)注者,問題關(guān)注者等數(shù)據(jù)進(jìn)行爬取,之后使用MySQL進(jìn)行數(shù)據(jù)匹配,得出知識(shí)傳播各途徑占比情況:途徑1占比為4.3%;途徑2占比為45.7%;途徑3占比為40.9%。三種途徑下點(diǎn)贊占比之和為90.9%。本文未考慮到9.1%知識(shí)傳播的途徑可能是用戶分享到的“微信”“微博”等外鏈,不是基于知乎內(nèi)部的傳播途徑。
2.2 基于三種回答發(fā)現(xiàn)途徑改進(jìn)的SEIR模型
以上述發(fā)現(xiàn)回答的三種途徑為基礎(chǔ),本節(jié)改進(jìn)用戶狀態(tài)轉(zhuǎn)化的SEIR模型,刻畫回答在發(fā)布后的傳播過程:回答在知乎平臺(tái)上產(chǎn)生之前,所有用戶都不了解該回答的內(nèi)容,即這段時(shí)間用戶都是未知者。當(dāng)回答由回答者發(fā)布后,其內(nèi)容在用戶間傳遞,傳遞過程中不同狀態(tài)的用戶轉(zhuǎn)換關(guān)系如下:
(1)初始未知者(S)→已知者(E):包括用戶群體和回答所屬問題環(huán)境兩層面。根據(jù)途徑1,回答發(fā)布時(shí),該回答的回答者關(guān)注者從未知者轉(zhuǎn)換為已知者。參數(shù)r為標(biāo)準(zhǔn)發(fā)生率,表示基于回答者關(guān)系網(wǎng)絡(luò)特征的模型感染概率。另一方面,根據(jù)途徑2,在回答發(fā)布后回答所屬問題的問題關(guān)注者,問題其他回答的相關(guān)行為者通過問題層面的推送機(jī)制間接地瀏覽所屬問題下的該回答。這時(shí),這些用戶從未知者轉(zhuǎn)換為新一輪的已知者。參數(shù)q為標(biāo)準(zhǔn)發(fā)生率,表示基于回答所屬問題層面的未知者轉(zhuǎn)換為已知者的概率。公式(1)中q的乘數(shù)dI可理解為:單位時(shí)間內(nèi)回答傳播者越多,該回答越容易被系統(tǒng)推薦為對(duì)應(yīng)問題的優(yōu)秀回答進(jìn)而被未知者發(fā)現(xiàn),這樣從問題途徑分到的關(guān)注度越多。
(2)已知者(E)→傳播者(I)或已知者(E)→免疫者(R):經(jīng)(1)步轉(zhuǎn)換的已知者認(rèn)同該回答并對(duì)其 “點(diǎn)贊”。點(diǎn)贊行為發(fā)生時(shí),回答會(huì)出現(xiàn)在這些點(diǎn)贊者的關(guān)注者界面,這時(shí)點(diǎn)贊者從已知者轉(zhuǎn)換為傳播者。已知者選擇傳播的概率由p表示。如果這些已知者對(duì)該回答無興趣,無分享意愿,未對(duì)該回答進(jìn)行“點(diǎn)贊”,這部分用戶會(huì)直接從已知者轉(zhuǎn)換為免疫者狀態(tài)。該轉(zhuǎn)換過程中涉及的免疫概率由λ表示。
(3)新一輪未知者(S)→已知者(E):根據(jù)途徑3,通過(2)步該回答出現(xiàn)在點(diǎn)贊者關(guān)注者的界面中,引起點(diǎn)贊者的關(guān)注者發(fā)現(xiàn)回答。這時(shí),點(diǎn)贊者的關(guān)注者從未知者轉(zhuǎn)換為新一輪的已知者。該轉(zhuǎn)換過程中,傳播者對(duì)未知者的傳播概率同樣用標(biāo)準(zhǔn)發(fā)生率參數(shù)r表示。重復(fù)(2)(3)步轉(zhuǎn)換過程,直到各狀態(tài)達(dá)到穩(wěn)定。通過轉(zhuǎn)換過程提煉出的傳播動(dòng)力學(xué)方程見公式(1)~(4)。
模型假設(shè)有:1)p+λ=1,即每步擴(kuò)散中原有的已知者全部傳播轉(zhuǎn)換為其他者;2)起始狀態(tài)的已知者狀態(tài)占比非常小;3)給定時(shí)間t,四種狀態(tài)密度之和為1。即:傳播過程中用戶的總量不變,新進(jìn)入知乎平臺(tái)用戶比率和退出知乎平臺(tái)用戶比率趨近于零;4)新增的傳播者對(duì)未知者的影響僅在一次知識(shí)傳播中發(fā)揮作用,不多次產(chǎn)生影響,所以傳統(tǒng)輿情傳播SEIR模型中的I改為dI。
2.3 考慮“關(guān)鍵用戶”和“熱點(diǎn)問題”的H-SEIR改進(jìn)模型
以知乎問答社區(qū)“問題”和“用戶”為節(jié)點(diǎn),“答題關(guān)系”為有向邊,構(gòu)建“問題-回答者”傳播網(wǎng)絡(luò)。將問題看作HITS算法中的“中介頁面”,將回答者看作“權(quán)威頁面”,并基于問題關(guān)注者數(shù)和回答者關(guān)注者數(shù)調(diào)整HITS算法。具體步驟如下:
(1)在有J個(gè)回答者構(gòu)成的回答者集合,K個(gè)問題構(gòu)成的問題集合中,以問題關(guān)注者數(shù)和回答者關(guān)注者數(shù)分別作為問題和回答者的中心度和權(quán)威值的初始值。之后用(5)、(6)式將其標(biāo)準(zhǔn)化。其中aj表示第j個(gè)回答者的初始權(quán)威值;hk表示第k個(gè)問題的初始中心度;Z(aj)表示第j個(gè)回答者的標(biāo)準(zhǔn)化權(quán)威值,Z(hk)表示第k個(gè)問題的標(biāo)準(zhǔn)化中心度。
(2)計(jì)算下一次迭代的中心度和權(quán)威值:某個(gè)回答者的權(quán)威值等于上一步的權(quán)威值和與其相連(即回答過的)所有問題的中心度之和的加值;某個(gè)問題的中心度等于上一步的中心度和與其相連(即被回答過的)所有回答者的權(quán)威值之和的加值。并將新得到的權(quán)威值和中心度標(biāo)準(zhǔn)化。如(7)~(10)式所示。其中H表示“問題-回答者”網(wǎng)絡(luò)轉(zhuǎn)化出的0-1鄰接矩陣。矩陣中的行(k)表示“問題”,列(j)表示“回答者”,H(k,j)=1表示第j個(gè)回答者回答過第k個(gè)問題,H(k,j)=0表示第j個(gè)回答者沒有回答過第k個(gè)問題。a0表示所有回答者初始權(quán)威值向量,h0表示所有問題初始中心度向量。
(3)如果本次得出的權(quán)威值和中心度與上一次趨于相等(誤差小于10-8),停止運(yùn)行,回答者最終權(quán)威值為向量aN,問題最終中心度為向量hN;反之循環(huán)步驟(2)。
在知識(shí)傳播三種途徑中,與用戶關(guān)聯(lián)的途徑1和3會(huì)受到用戶權(quán)威度的影響。與問題有關(guān)的途徑2會(huì)受到問題中心度的影響。因此,本文基于HITS算法運(yùn)用回答者的權(quán)威值(a)、問題的中心度(h)對(duì)SEIR模型的參數(shù)r,q進(jìn)行調(diào)整。改進(jìn)后的H-SEIR模型考慮了回答所關(guān)聯(lián)的問題、回答者的屬性及回答所處的“問題-回答者”網(wǎng)絡(luò)屬性對(duì)回答傳播的影響,相較于SEIR模型,從微觀視角更好地刻畫屬于特定問題下來自特定回答者做出的回答的傳播規(guī)律。改進(jìn)后模型見(11)~(14)式。aj表示第j個(gè)用戶t時(shí)刻的權(quán)威值,hk表示第k個(gè)問題t時(shí)刻的中心度;avg(aj)為網(wǎng)絡(luò)中所有用戶權(quán)威值的均值;avg(hk)為網(wǎng)絡(luò)中所有問題中心度的均值。模型假設(shè)、約束條件與模型改進(jìn)前相同。
模型退化:當(dāng)網(wǎng)絡(luò)中所有用戶節(jié)點(diǎn)的權(quán)威值都相等且所有問題的中心度都相等時(shí),對(duì)于所有產(chǎn)生回答的用戶都有ajavg(aj)=1,回答所屬問題都有hkavg(hk)=1,此時(shí)H-SEIR模型退化為不考慮節(jié)點(diǎn)權(quán)威度的SEIR模型(1)~(4)。
其中ΔS2為基于途徑2未知者的變化量;w2為基于途徑2未知者的變化量權(quán)重。根據(jù)發(fā)現(xiàn)回答的途徑中途徑2占比,得w2=0.457。綜上,可得q=0.457×23.7÷13.5=0.80。通過實(shí)際數(shù)據(jù)設(shè)定r=0.9,q=0.8。根據(jù)引理1和2三種情形下傳播者穩(wěn)定解分析,結(jié)合Runge-Kutta方法,可求出無傳播、部分傳播和完全傳播對(duì)應(yīng)的參數(shù)p的取值范圍。設(shè)定p值,做出仿真圖1。(1)處于無傳播狀態(tài)時(shí):p的取值范圍為[0,0.58],令p=0.5做出仿真圖見圖1(a);(2)處于部分傳播狀態(tài)時(shí):p的取值范圍為(0.58,0.84),令p=0.7 做出仿真圖見圖1(b);(3)處于完全傳播狀態(tài)時(shí):p的取值范圍為[0.84,1],令p=0.9做出仿真圖見圖1(c)。通過數(shù)值仿真結(jié)果可看出,知識(shí)能夠發(fā)生傳播和能夠完全傳播的p的閾值較高,說明知識(shí)傳播實(shí)現(xiàn)“冷啟動(dòng)”較困難,并且很難完成大規(guī)模傳播,該傳播規(guī)律有別于輿情傳播速度快,范圍廣的特點(diǎn)[7]。圖1的橫坐標(biāo)表示傳播輪次(t),縱坐標(biāo)表示各狀態(tài)密度(所占整個(gè)群體的比例)。
5 實(shí)驗(yàn)與評(píng)估
本節(jié)將“知乎”流行音樂和英語學(xué)習(xí)話題在2016年4月到2017年6月產(chǎn)生的問題隨機(jī)抽選三分之一;接著爬取問題在后5個(gè)月內(nèi)產(chǎn)生的回答;之后爬取這些回答在2017.11.9~2018.1.13點(diǎn)贊數(shù)、回答者關(guān)注數(shù)和回答所屬問題的關(guān)注者數(shù)每周的變化量。篩選上述回答從第1周到第10周點(diǎn)贊數(shù)變化值超過10個(gè)的回答,英語學(xué)習(xí)49個(gè)(1.27%),流行音樂514個(gè)(14.46%)。如果點(diǎn)贊數(shù)在10周變化數(shù)少于10,說明該回答屬于無法傳播情形或者已經(jīng)完成傳播的情形,不適于本文對(duì)回答傳播變化過程的研究。在563個(gè)回答樣本中,除去匿名用戶回答,剩余420個(gè)(74.60%)回答樣本作為最終樣本。420個(gè)回答所屬于203個(gè)問題,來自369個(gè)回答者,共有9933個(gè)點(diǎn)贊行為變化。運(yùn)用HITS算法計(jì)算420個(gè)回答對(duì)應(yīng)的問題,回答者每周的中心度值和權(quán)威值。之后,將回答樣本按照上述兩種屬性中位數(shù)劃分高HITS得分回答組和低HITS得分回答組。通過獨(dú)立樣本t檢驗(yàn)驗(yàn)證點(diǎn)贊數(shù)是否在兩組間有顯著差異,結(jié)果為高分組均值顯著大于低分組均值(高組均值為26.86,標(biāo)準(zhǔn)差為30.78;低組均值為20.50,標(biāo)準(zhǔn)差為14.03,t=2.73***)。印證回答所屬問題及回答者的屬性影響回答點(diǎn)贊數(shù),用HITS算法改進(jìn)傳統(tǒng)SEIR是有意義的。通過 “問題-回答者”隸屬網(wǎng)絡(luò)可視化,可知HITS加權(quán)挖掘出的關(guān)鍵點(diǎn)是以關(guān)注者數(shù)和點(diǎn)的網(wǎng)絡(luò)中間中心度加權(quán)挖掘出的關(guān)鍵點(diǎn)的結(jié)合,表明HITS算法具有良好的關(guān)鍵點(diǎn)識(shí)別功能,從而支持了用其表示問題和回答者的影響力改進(jìn)傳統(tǒng)SEIR模型的可靠性。
結(jié)合Runge-Kutta方法求解SEIR、H-SEIR微分方程數(shù)值近似解。將兩模型的I狀態(tài)穩(wěn)定解的擬合值與實(shí)際點(diǎn)贊數(shù)據(jù)(共420個(gè)樣本)進(jìn)行比較,計(jì)算擬合指標(biāo),分析模型的擬合優(yōu)度。在SEIR模型中,參數(shù)設(shè)置為:r=0.9,q=0.8,傳播次數(shù)t=70。在H-SEIR模型中,參數(shù)設(shè)置為:r(at)=0.9×at/avg(at),q(ht)=0.8×ht/avg(ht),傳播次數(shù)t=70。這里,at指t時(shí)刻回答者的權(quán)威值,avg(at)指所有不同時(shí)刻回答者權(quán)威值的均值;qt指t時(shí)刻回答隸屬問題的中心度值,avg(qt)指所有不同時(shí)刻回答隸屬問題的中心度的均值。此外,p的取值范圍在(0.58,0.84)時(shí),回答呈部分傳播狀態(tài),因此,p取0.6,0.7,0.8,以保證擬合檢驗(yàn)的穩(wěn)定性。接著,使用RMSE(均方根誤差)、 MAE(平均絕對(duì)誤差)、MRE(平均相對(duì)誤差)指標(biāo)比較兩模型的I狀態(tài)穩(wěn)定解的擬合值與實(shí)際數(shù)據(jù)最后一周的新增點(diǎn)贊數(shù),結(jié)果見表1。發(fā)現(xiàn):(1)p取不同值時(shí),SEIR和H-SEIR各自的擬合指標(biāo)都比較穩(wěn)定;(2)p取不同值時(shí),H-SEIR的三個(gè)擬合指標(biāo)都小于SEIR的指標(biāo)。說明改進(jìn)后的H-SEIR對(duì)實(shí)際數(shù)據(jù)的擬合效果好于SEIR。
6 結(jié)論與啟示
基于知乎平臺(tái)的知識(shí)傳播途徑,從各初始傳播點(diǎn)網(wǎng)絡(luò)影響力的微觀視角研究在線問答社區(qū)知識(shí)傳播規(guī)律。主要研究成果和啟示有:第一,總結(jié)三條知識(shí)傳播途徑;并通過對(duì)實(shí)際數(shù)據(jù)分析,得出三條途徑占比為90.9%。第二,基于知識(shí)傳播途徑改進(jìn)知識(shí)傳播模型,并運(yùn)用HITS算法將問題、用戶權(quán)威度代入?yún)?shù)r(用戶關(guān)系途徑傳染率),q(問題途徑傳染率),進(jìn)而提出H-SEIR改進(jìn)模型刻畫在線社交網(wǎng)絡(luò)的知識(shí)傳播規(guī)律。分析傳播者狀態(tài)的穩(wěn)定解,及參數(shù)對(duì)穩(wěn)定解的影響。得出不同參數(shù)下,穩(wěn)定時(shí)的知識(shí)傳播存在三種情形:未能傳播、部分傳播和完全傳播。部分、完全傳播閾值較高,說明知識(shí)傳播有別于輿情、突發(fā)事件傳播,其“冷啟動(dòng)”較困難。第三,用戶及問題權(quán)威度對(duì)知識(shí)傳播過程有正向影響,即關(guān)鍵用戶參與的、熱點(diǎn)問題下的回答更容易被推廣。第四,以2017年11至2018年1月知乎 “流行音樂”和“英語學(xué)習(xí)”兩話題的回答動(dòng)態(tài)數(shù)據(jù)驗(yàn)證,得出改進(jìn)后H-SEIR模型的擬合程度好于SEIR模型。對(duì)此,提出的管理建議是:第一,對(duì)于問答社區(qū)平臺(tái)而言,知乎平臺(tái)可以通過向用戶個(gè)性化推送“大V”用戶參與、“熱點(diǎn)問題”下的回答供其閱讀,促進(jìn)平臺(tái)知識(shí)的傳播效率,進(jìn)而緩解“冷啟動(dòng)”困難的問題,提升平臺(tái)活躍度、增加用戶黏性。第二,對(duì)于平臺(tái)貢獻(xiàn)知識(shí)的用戶而言,應(yīng)盡量在高熱點(diǎn)問題下作答,這樣其回答的曝光率較高,帶來的點(diǎn)贊激勵(lì)更多,促進(jìn)其知識(shí)分享的積極性。實(shí)際上,用戶閱讀回答后點(diǎn)贊與否(參數(shù)p)受回答文本特征、回答者屬性、用戶與回答者網(wǎng)絡(luò)關(guān)系等因素影響[23]。后續(xù)的研究可進(jìn)一步探索知識(shí)傳播過程中的影響因素。此外,該模型在知乎平臺(tái)流行音樂和英語學(xué)習(xí)兩個(gè)不同類型話題數(shù)據(jù)中適配度較好,未來研究可繼續(xù)驗(yàn)證在知乎其他話題知識(shí)傳播表現(xiàn)情況,或者其他競爭型問答社交平臺(tái)傳播規(guī)律。
參 考 文 獻(xiàn):
[1]沈洪洲,史俊鵬.基于人類動(dòng)力學(xué)的社會(huì)化問答社區(qū)優(yōu)秀貢獻(xiàn)者行為研究——以“知乎”為例[J].情報(bào)科學(xué),2019,37(5):85-91.
[2]Polanyi M. Book reviews: personal knowledge: towards a post—critical philosophy[J]. Science, 1959, 129(1): 831-832.
[3]林東清,李東.知識(shí)管理理論與實(shí)踐[M].北京:電子工業(yè)出版社,2005.3-7.
[4]Daley D J, Kendall D G. Stochastic rumours[J]. IMA Journal of Applied Mathematics, 1965, 85(3): 42-55.
[5]Maki D. Mathematical models and applications, with emphasis on social, life, and management sciences[M]. New Jersey: Prentice Hall College Press, 1973. 34-54.
[6]Mutz S, Diana C, Yong L. Communication and public opinion plus change[J]. Public Opinion Quarterly, 2011, 75(7): 1018-1044.
[7]Zhao L J, Wang J J, Chen Y C,et al.. SIHR rumor spreading model in social networks[J]. Physica A, 2012, 39(1): 2444-2453.
[8]Zan Y L, Wu J L, Li P, et al.. SICR rumor spreading model in complex networks: counterattack and self-resistance[J]. Physica A, 2014, 40(5): 159-170.
[9]Wang J J, Zhao L J, Huang R B. 2SI2R rumor spreading model in homogeneous networks[J]. Physica A, 2014, 41(1): 153-161.
[10]Christakis N, Fowler J. The spread of obesity in a large social network over 32 years[J]. The New England Journal of Medicine, 2007, 35(7): 370-379.
[11]Mislove A, Marcon M, Gummadi K. Measurement and analysis of online social networks[A]. Proceedings of the 7th ACM SIGCOMM Conference on Internet measurement[C]. ACM Press, Augsburg, 2007.29-42.
[12]Barabasi A L, Albert R. Emergence of scaling in random networks[J]. Science, 1999, 286(9): 509-512.
[13]Centola D. The spread of behavior in an online social network experiment[J]. Science, 2010, 329(6): 1194-1197.
[14]Moreno Y, Pastor S R, Vespignani A. Epidemic outbreaks in complex heterogeneous networks[J]. The European Physical Jonrnal B, 2002, 26(4): 521-529.
[15]Nekovee M, Moreno Y, Bianconi G, et al.. Theory of rumour spreading in complex social networks[J]. Physica A, 2007, 37(4): 457-470.
[16]Zanette D H. Dynamics of rumor propagation on small-world networks[J]. Physical Review E, 2002, 65(7): 419-427.
[17]Cowan R, Jonard N, Ozman M. Knowledge dynamics in a network industry[J]. Technological Forecasting & Social Change, 2004, 71(5): 469-484.
[18]Zhao Z J, Liu Y M, Wang K X. An analysis of rumor propagation based on propagation force[J]. Physica A, 2016, 44(3): 263-271.
[19]Shakya J M, Holly B, Perkins M, et al.. Social network correlates of IPV acceptance in rural Honduras and rural Uganda[J]. SSM-Population Health, 2018, 4(1): 236-243.
[20]Kleinberg L. Authoritative sources in a hyperlinked environment[A]. Proceodings of the 9th ACM-SIAM Symposium on Discrete Algorithms[C]. ACM Press, Augsburg, 1998.1-3.
[21]Jurczyk P, Agichtein E. Discovering authorities in question answer communities by using link analysis[A]. 16th ACM Conference on Information and Knowledge Management[C]. ACM Press, Augsburg, 2007.919-922.
[22]Zhai L, Li Y J, Yan X B, et al.. Evolutionary analysis of collaboration networks in the field of information systems[J]. Scientometrics, 2015, 101(3): 1657-1677.
[23]Suh B, Hong L, Pirolli P. Want to be retweeted? Large scale analytics on factors impacting retweet in Twitter network[A]. Proceedings of IEEE 2nd International Social Computing Conference[C]. Pergamon Press, Oxford, 2010. 177-184.