明曉樂, 江長(zhǎng)柱, 周蓓蓓
(江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 江蘇 鎮(zhèn)江 212003)
知識(shí)社區(qū)(Knowledge Community)是一種新型的、交互的、開放的新型知識(shí)社區(qū)模式,更好地滿足了用戶的個(gè)性化的知識(shí)服務(wù)需求。Web2.0 時(shí)代,知識(shí)社區(qū)以用戶服務(wù)為中心,以專家與用戶的知識(shí)交互為核心,用戶是知識(shí)社區(qū)中的提問者和評(píng)價(jià)者,專家則是知識(shí)的提供者和問題的解決者。 目前,利用(Yahoo! Answers)和百度知道等為代表的知識(shí)社區(qū),專家、用戶可以方便地參與知識(shí)的交流和共享。 然而,如果專家不能夠持續(xù)地回答用戶的提問、 不能夠貢獻(xiàn)知識(shí)來幫助用戶,知識(shí)社區(qū)就不能夠?qū)崿F(xiàn)共享知識(shí)的價(jià)值。 知識(shí)社區(qū)的建立最大的挑戰(zhàn)在于專家知識(shí)的供給,也就是專家是否愿意向其他用戶貢獻(xiàn)自己的專業(yè)知識(shí)。 知識(shí)社區(qū)被用戶歡迎的魅力并不是構(gòu)建的技術(shù),而是擁有大量的專家以及專家為知識(shí)社區(qū)中做出的巨大貢獻(xiàn)。 知識(shí)社區(qū)的可持續(xù)性以及它的繁榮程度取決于該社區(qū)的專家成員規(guī)模和他們所貢獻(xiàn)的內(nèi)容。 因此, 知識(shí)社區(qū)的成功構(gòu)建和持續(xù)發(fā)展關(guān)鍵在于專家們(Experts)的知識(shí)貢獻(xiàn),本文研究知識(shí)社區(qū)中的專家貢獻(xiàn)度評(píng)價(jià)方法,從而激勵(lì)專家們?yōu)橹R(shí)社區(qū)做出更多的貢獻(xiàn)。
知識(shí)社區(qū),是基于用戶與專家之間相互交流行為,用來共享、傳播和獲取知識(shí),具有傳播、共享和互動(dòng)很快很強(qiáng)的特點(diǎn)。 知識(shí)社區(qū)中,用戶可以隨時(shí)提出問題,并根據(jù)自己的意愿公開尋找專家回答。 用戶選擇指定的專家回答或者任何專家都可以回答。 專家的貢獻(xiàn)度能力是指用自己的專業(yè)知識(shí),回答用戶提出的問題的一種能力,是專家在知識(shí)社區(qū)中的重要性的衡量。 大量的活躍的專家、高質(zhì)量的問答信息,使得知識(shí)社區(qū)成為重要的、廣泛應(yīng)用的知識(shí)共享和拓展平臺(tái),對(duì)用戶的日常生活和工作產(chǎn)生越來越大的影響。 專家貢獻(xiàn)度能力是專家在知識(shí)社區(qū)中行為的重要性衡量。 本文研究了知識(shí)社區(qū)中用戶與專家的交互行為,包括用戶提出問題、專家回復(fù)問題、用戶采納答案、用戶評(píng)價(jià)答案等。 本文研究了知識(shí)社區(qū)中專家活動(dòng)的行為特征, 構(gòu)建了專家貢獻(xiàn)度的評(píng)價(jià)指標(biāo)體系,提出了一種基于PageRank 的專家貢獻(xiàn)度的評(píng)價(jià)算法模型。
對(duì)現(xiàn)有的相關(guān)知識(shí)社區(qū)的文獻(xiàn)閱讀,國(guó)內(nèi)外對(duì)于專家的貢獻(xiàn)及其評(píng)價(jià)的研究相對(duì)較少,已有的主要有下面的幾種文獻(xiàn)研究:葉順[1]提出知識(shí)、個(gè)人和環(huán)境3 個(gè)因素來評(píng)價(jià)知識(shí)貢獻(xiàn),在虛擬社區(qū)中,構(gòu)建了一個(gè)新的個(gè)體知識(shí)貢獻(xiàn)模型,采取問卷調(diào)查的方式, 分析促進(jìn)個(gè)體貢獻(xiàn)知識(shí)的關(guān)鍵因素有五種,分別是自我的效能、自我的形象、樂于助人、信任和系統(tǒng)的可用性。 顧巍以及關(guān)培蘭[2]設(shè)計(jì)、構(gòu)建了研發(fā)人員對(duì)知識(shí)的貢獻(xiàn)評(píng)價(jià)模型,從6 個(gè)方面來評(píng)價(jià),有知識(shí)的結(jié)構(gòu)的完善、知識(shí)的顯性化的難度、 企業(yè)知識(shí)存量與知識(shí)增量的耦合度、知識(shí)發(fā)揮的作用、知識(shí)的可破解性、知識(shí)的可破解性等等。 吳繼蘭[3]提出了基于平衡積分卡績(jī)效評(píng)價(jià)的員工知識(shí)結(jié)構(gòu)及知識(shí)貢獻(xiàn)的指標(biāo)體系,從體系結(jié)構(gòu)的角度建立了企業(yè)知識(shí)。 蔣甜甜、經(jīng)懷明和劉心報(bào)[4]等采用群體層次分析法,考評(píng)工作能力、學(xué)習(xí)與改善、工作業(yè)績(jī)、綜合素質(zhì)與道德品格這4 個(gè)因素對(duì)知識(shí)貢獻(xiàn)度的影響。 張建華和劉仲英[5]構(gòu)建了員工的知識(shí)貢獻(xiàn)考核的指標(biāo)體系,在此基礎(chǔ)上建立了員工知識(shí)貢獻(xiàn)等級(jí)排名的評(píng)測(cè)方法,并且設(shè)計(jì)了評(píng)價(jià)員工知識(shí)貢獻(xiàn)等級(jí)的獎(jiǎng)懲方法。 肖媛[6]從行為可分為可觀察與不可觀察的這兩個(gè)角度評(píng)價(jià)員工的知識(shí)貢獻(xiàn)能力, 在此基礎(chǔ)上構(gòu)建了評(píng)價(jià)考核模型。 金曉玲[7]探討了問答社區(qū)中用戶回答問題的持續(xù)性和用戶的滿意度、知識(shí)自我效能相互之間的聯(lián)系,并且研究了用戶的滿意度與知識(shí)自我效能是否與知識(shí)貢獻(xiàn)的績(jī)效有關(guān),最后通過實(shí)驗(yàn)得出如何調(diào)節(jié)用戶在社區(qū)中的被承認(rèn)度傾向。
多個(gè)因素共同作用和影響知識(shí)社區(qū)中的專家貢獻(xiàn)度,專家收到的用戶的“贊同數(shù)”( the number of followers)是一個(gè)蠻重要的影響因素。 可以使用“贊同數(shù)”來體現(xiàn)專家的受用戶的關(guān)注程度。 贊同數(shù)雖然從一定程度上可以體現(xiàn)出專家對(duì)社區(qū)的貢獻(xiàn)度,但是更多地呈現(xiàn)了專家的人氣特別的旺盛或者專家比較受歡迎,其實(shí)就是專家吸引用戶的能力,但知識(shí)社區(qū)中的一些僵尸用戶隨意點(diǎn)贊,或者專家讓朋友點(diǎn)贊來獲得知識(shí)社區(qū)的知名度,這就使得點(diǎn)贊數(shù)并不真實(shí)。 因此,采用這個(gè)因素評(píng)價(jià)專家貢獻(xiàn)度時(shí)需要考慮存在的不真實(shí)問題。 從行為的執(zhí)行者和行為的被執(zhí)行者角度,將知識(shí)社區(qū)中專家的行為分成主動(dòng)的與被動(dòng)的兩種。 知識(shí)社區(qū)中專家的主動(dòng)行為有回答問題的數(shù)量、幫助過的人數(shù)、給自己貼的領(lǐng)域標(biāo)簽等等。 其中最主要有回答問題的數(shù)量、幫助過的人數(shù)。 專家的被動(dòng)行為包括被用戶關(guān)注、被用戶點(diǎn)贊、答案被評(píng)為優(yōu)質(zhì)回答數(shù)等。
Sergey Brin(謝爾蓋·布林)和Lawrence Page(拉里·佩奇)在1998 年提出了PageRank[8]算法,同年J.Kleinberg(J·克萊因伯格)提出了HITS 算法。 PageRank 是根據(jù)網(wǎng)頁之間存在的鏈入與鏈出的關(guān)系,來計(jì)算搜索引擎中網(wǎng)頁的排名。PageRank 是Google 用來衡量網(wǎng)頁的重要程度和等級(jí)。 PR 的值越大說明該網(wǎng)頁重要性越強(qiáng)。PageRank 就相當(dāng)于一個(gè)用戶,是指用戶隨機(jī)地在Internet 上單擊鏈接會(huì)到達(dá)特定網(wǎng)頁的可能性。 一般來說, 從更多地方通過鏈接能夠單擊到達(dá)的網(wǎng)頁的重要性比其他網(wǎng)頁要高,具有的PageRank 的值也就越大。
PageRank 算法的核心思想是利用了網(wǎng)頁之間的相互鏈接的結(jié)構(gòu),統(tǒng)計(jì)網(wǎng)頁被鏈接的次數(shù),就能計(jì)算網(wǎng)頁的重要性,如果網(wǎng)頁A 有一個(gè)鏈接指向B, 就等于A 給B 投了一票,排名系統(tǒng)統(tǒng)計(jì)網(wǎng)頁收到的投票數(shù)量來計(jì)算該網(wǎng)頁的重要性。PageRank 算法是可以衡量網(wǎng)絡(luò)中的節(jié)點(diǎn)的重要性的經(jīng)典算法,該算法基于網(wǎng)絡(luò)拓?fù)鋱D上的相互鏈接關(guān)系,計(jì)算網(wǎng)頁的重要性。 PageRank 算法的表達(dá)式為:
其中,P1,P2,P3,…,PN表示的是被評(píng)價(jià)頁面,O(Pj)表示從頁面Pj鏈出到其他特定頁面的鏈接數(shù)目集合,E(Pi)是鏈入到頁面Pi的鏈接數(shù)目集合,d 表示阻尼因子,表示在瀏覽某個(gè)頁面后,用戶繼續(xù)以(1-d)的概率單擊瀏覽由這個(gè)頁面鏈出的某個(gè)頁面,或者以d 的概率重新選擇單擊一個(gè)隨機(jī)的頁面瀏覽。根據(jù)上述的公式我們得出,如果一個(gè)網(wǎng)頁有很多鏈入的網(wǎng)頁,說明很多的其它的網(wǎng)頁默認(rèn)為這個(gè)網(wǎng)頁重要性很高; 如果PageRank 的值很高的網(wǎng)頁指向這個(gè)網(wǎng)頁,說明重要性很高的網(wǎng)頁認(rèn)為這個(gè)網(wǎng)頁的重要性是極其高的, 即可以認(rèn)為這個(gè)網(wǎng)頁的權(quán)威度很高; 如果別的網(wǎng)頁只有一個(gè)網(wǎng)頁鏈出且指向這個(gè)網(wǎng)頁,那么就說明別的網(wǎng)頁只認(rèn)為這個(gè)網(wǎng)頁最重要,因此推薦的可能性就更大。 但是, 該算法的存在問題有: 網(wǎng)頁的PageRank 的值是均勻地分散開傳遞到鏈出的網(wǎng)頁上去的,卻忽略了網(wǎng)頁本身的重要性。 本文在評(píng)價(jià)知識(shí)社區(qū)中的專家貢獻(xiàn)度中應(yīng)用PageRank 算法的時(shí)候?qū)<易陨韺傩缘奶卣?,作為分配PageRank 值時(shí)的考慮因素。
本文在評(píng)價(jià)知識(shí)社區(qū)中專家的貢獻(xiàn)度時(shí), 根據(jù)專家自身屬性的行為特征,構(gòu)建了3 個(gè)評(píng)價(jià)指標(biāo),它們分別是專家的活躍度、收到用戶的點(diǎn)贊數(shù)、優(yōu)質(zhì)回答數(shù)。
2.2.1 專家的活躍度
如果專家在知識(shí)社區(qū)中不夠活躍, 自身知識(shí)的發(fā)布活躍度不夠,解決用戶問題的能力也比較弱,該專家對(duì)知識(shí)社區(qū)的貢獻(xiàn)度是有限的。 因此,在知識(shí)社區(qū)中,從以下兩個(gè)角度對(duì)專家的活躍度進(jìn)行分析評(píng)價(jià):1)發(fā)表知識(shí)的數(shù)量,知識(shí)社區(qū)中專家發(fā)表知識(shí)體現(xiàn)了專家的積極態(tài)度,知識(shí)數(shù)量發(fā)表的越多,表明專家更愿意表達(dá)自己的知識(shí)愿望, 從而專家對(duì)知識(shí)社區(qū)的投入貢獻(xiàn)度也越大;2)回答問題的數(shù)量,專家看到他感興趣的問題,有能力解決的問題,進(jìn)而回答用戶提出的問題,回答的問題數(shù)量越多,也能迅速提高專家對(duì)知識(shí)社區(qū)的貢獻(xiàn)度。在知識(shí)社區(qū)中, 定義專家的活躍度為專家在一個(gè)月內(nèi) (單位時(shí)間內(nèi)) 發(fā)表知識(shí)和回答用戶的問題的平均次數(shù)(average frequency)。 表達(dá)式為
其中,AFi表示專家i 的最近的活躍度,TNi是專家i 在單位時(shí)間內(nèi)發(fā)表知識(shí)和回答用戶的問題數(shù)量的總數(shù)(total number),CPi為統(tǒng)計(jì)的單位周期(count period)。本文統(tǒng)計(jì)的單位周期暫定為一個(gè)月,即CPi=30 天。
2.2.2 專家的受歡迎度
專家的受歡迎度反映了用戶對(duì)專家回答問題的質(zhì)量的滿意度。 將該指標(biāo)定義為用戶j 曾經(jīng)采納專家i 的答案與專家i所回答問題的總的比率(rate of adoption)。 表達(dá)式為
其中,AA(i,j)是專家i 回答的問題被用戶j 采納(adopt answer)的次數(shù),AQ(i)為專家回答問題(answer question)的數(shù)量。如果用戶j 在統(tǒng)計(jì)周期內(nèi)高頻率地采納專家的回答答案,說明用戶j 對(duì)專家i 所回答的答案比較認(rèn)可,也就是感興趣,今后該用戶更傾向于向該專家提出問題并采納專家的答案。RA(i,j)是將專家的受歡迎度的進(jìn)行了歸一化。
2.2.3 專家的知識(shí)貢獻(xiàn)能力
綜合了專家的活躍度和專家的受歡迎度這兩個(gè)指標(biāo),提出新的概念為專家的知識(shí)貢獻(xiàn)能力(contribution),表示專家i受用戶j 的歡迎度與專家i 在知識(shí)社區(qū)中的活躍度的乘積,表達(dá)式為
通過以上表達(dá)式我們得出,本文提出的指標(biāo)專家在知識(shí)社區(qū)中的知識(shí)貢獻(xiàn)能力, 能夠反映專家i 在統(tǒng)計(jì)的單位周期內(nèi)貢獻(xiàn)給用戶j 的平均的知識(shí)量大小, 也表示了一定程度上專家i 解決了用戶j 的平均的能力大小。
在PageRank 算法中,由于網(wǎng)頁的PageRank 值是均勻地傳遞到鏈出的網(wǎng)頁上, 沒有考慮該網(wǎng)頁本身的重要性程度。因此為了更加全面地評(píng)價(jià)專家對(duì)知識(shí)社區(qū)的貢獻(xiàn),本文將專家回答用戶問題時(shí)影響專家自身屬性的行為特征的一些因素添加到傳統(tǒng)的算法中。
算法的核心思想是將本文定義的專家的知識(shí)貢獻(xiàn)能力因素作為影響專家權(quán)威度值的傳遞因素, 專家的知識(shí)貢獻(xiàn)能力越高, 獲得貢獻(xiàn)度的值也就越高, 相對(duì)應(yīng)的知識(shí)貢獻(xiàn)能力越低,獲得的貢獻(xiàn)度的值也就越低,這樣就避免了貢獻(xiàn)度的值均勻傳遞帶來的影響, 解決了只依靠用戶與專家相互鏈接的關(guān)系來排名的問題,使得專家貢獻(xiàn)度排名更加地客觀真實(shí)。 基于PageRank 算法的expert contribution rank 算法表達(dá)式為
其中,為了保證計(jì)算的最終結(jié)果能夠收斂,d 取0.25,f(e)為向?qū)<襡 提問的用戶好友的集合,C(e,u)是用戶u 分配給專家e 的ECR 值的比例值,依據(jù)專家e 知識(shí)的貢獻(xiàn)能力占用戶u 的所有回答過用戶u 的專家知識(shí)貢獻(xiàn)能力之和的大小決定,假設(shè)用戶u 有N 個(gè)回答過用戶u 問題的專家,那么用戶u分配給專家e 的ECR 值比例為
假使所有專家的ECR 在初始值為1,然后經(jīng)過多數(shù)次的迭代后ECR 值逐漸趨于收斂,就能得到知識(shí)社區(qū)中中的所有專家的ECR 值。
本文研究的重點(diǎn)是知識(shí)社區(qū)中的專家與用戶之間的交流行為。 交互行為包括用戶提出問題、專家回答問題、用戶采納答案、用戶關(guān)注專家、專家被關(guān)注等。 實(shí)驗(yàn)語料選取的數(shù)據(jù)來源是百度知道, 通過百度知道的開放的API 得到了相關(guān)的數(shù)據(jù),將收集到語料按照以下方式存儲(chǔ)進(jìn)行統(tǒng)計(jì):
1)專家表 專家的ID、專業(yè)領(lǐng)域、被用戶贊數(shù)、幫助用戶數(shù)、回答問題數(shù)、被采納數(shù);
2)問題表 問題的ID、提問用戶的ID、提問時(shí)間、問題標(biāo)題、問題內(nèi)容、被咨詢專家的ID;
3)用戶表 用戶的ID、關(guān)注的專家ID;
4)問題統(tǒng)計(jì)表 問題的ID、專家的回復(fù)數(shù)、訪問數(shù)、好評(píng)的總數(shù)。
語料數(shù)據(jù)采集后處理的流程見下圖1。
圖1 數(shù)據(jù)采集與處理流程圖Fig. 1 The flow chart of data acquisition and processing
通過API 訪問接口后, 共得到了6 235 個(gè)專家的數(shù)據(jù)信息,數(shù)據(jù)信息統(tǒng)計(jì)情況見表1。
表1 語料集的描述Tab. 1 A description of the language set
表2 知識(shí)社區(qū)中專家貢獻(xiàn)度排名前十的專家(PageRank)Tab. 2 Contribution of the top 10 experts in knowledge community (PageRank)
經(jīng)過PageRank 算法與本文提出的expert contribution rank 算法,計(jì)算了知識(shí)社區(qū)中的專家的貢獻(xiàn)度排名,得到了專家貢獻(xiàn)度的排名前十的結(jié)果。 兩種算法得到的影響力排名前十的專家結(jié)果分別見表2 和表3。
對(duì)比兩種算法,發(fā)現(xiàn)專家貢獻(xiàn)度的排名中,前3 名的用戶排名不變, 表明PageRank 算法與expert contribution rank算法在專家貢獻(xiàn)度的排名上是總體上接近的。 但是, 因?yàn)镻ageRank 算法僅僅考慮專家與用戶之間的鏈接關(guān)系這個(gè)因素,專家的用戶點(diǎn)贊數(shù)數(shù)量主要決定了貢獻(xiàn)度的值。 比如專家名為“咪哞厷”的這個(gè)專家,其回答用戶的問題數(shù)量(回答數(shù))園園高于排在其前面的幾位,但經(jīng)過分析發(fā)現(xiàn)其回答問題被用戶采納的數(shù)量和質(zhì)量均較低,并且其中有不少的用戶隨意對(duì)該專家點(diǎn)贊,可能是該專家的朋友,點(diǎn)贊數(shù)和受歡迎度不真實(shí)。 因此通過expert contribution rank 算法的計(jì)算,這位專家的排名比PageRank 算法得到的排名要靠后了。 我們還發(fā)現(xiàn), 兩種算法所得的專家貢獻(xiàn)度的排名在第5 到第10位落差較大,原因是expert contribution rank 算法較PageRank算法關(guān)注了專家自身屬性的的行為特點(diǎn), 專家的活躍度、專家的受歡迎度、專家的答案被采納數(shù)是導(dǎo)致排名改變的原因之一。
表3 知識(shí)社區(qū)中專家貢獻(xiàn)度排名前十的專家(expert contribution rank)Tab.2 Knowledge in the community contribution of the top 10 experts (expert contribution rank)
由于引入了專家自身屬性的行為特點(diǎn),因此算法的執(zhí)行效率上發(fā)生了變化, 增加算法的復(fù)雜度,expert contribution rank 算法較PageRank 算法下降了不少。 如圖2 為兩種算法經(jīng)過了迭代40 次后,對(duì)不同規(guī)模、不同能力的專家進(jìn)行貢獻(xiàn)度排名后經(jīng)歷的耗費(fèi)執(zhí)行時(shí)間對(duì)比。
圖2 算法的執(zhí)行時(shí)間比較Fig. 2 Comparing the execution time of the algorithm
本文針對(duì)知識(shí)社區(qū)中的專家貢獻(xiàn)度排名機(jī)制進(jìn)行研究,結(jié)合用戶的行為特征對(duì)傳統(tǒng)的PageRank 算法進(jìn)行了改進(jìn),最后通過實(shí)例分析對(duì)結(jié)果進(jìn)行了研究。 實(shí)驗(yàn)結(jié)果表明,由于添加了專家本身的行為特征,expert contribution rank 算法能夠更加準(zhǔn)確客觀地評(píng)價(jià)知識(shí)社區(qū)中的專家貢獻(xiàn)度。
[1] YE Shun. An empirical study of the factors of individual knowledge contribution in virtual community [D].Hefei:University of Science and Technology of China,2007.
[2] 關(guān)培蘭,顧巍. 研發(fā)人員知識(shí)貢獻(xiàn)的影響因素及評(píng)價(jià)模型研究[J]. 武漢大學(xué)學(xué)報(bào) (哲學(xué)社會(huì)科學(xué)版),2007,60(5):652-656.
GUAN Pei-lan,GU Wei. R & D personnelps knowledge contribution:influence factor & evaluation model[J]. Wuhan University Journal:Philosophy & Social Sciences,2007,60(5):652-656.
[3] WU Jilan. The research on employee knowledge contribution measurement[D]. Shanghai:Tongji University,2006.
[4] 蔣甜甜,劉心報(bào),經(jīng)懷明,等. 運(yùn)用GAHP法建立研發(fā)人員績(jī)效考評(píng)體系[J]. 價(jià)值工程,2006,25(6):88-90.
JIANG Tiantian,LIU Xinbao,JING Huaiming. Establishing the perfomance assessment system of researchers with GAH P[J]. Value Engineering,2006,33(6):88-90.
[5] ZHANG Jianhua,LIU Zhongying. Knowledge contribution inspiriting mechanism for knowledge management[J]. Journal of Tongji University:Nature Science,2004,32(7):966-970.
[6] 肖媛. 知識(shí)型員工的勞動(dòng)度量與考核方法探析[J]. 科研管理,2004,25(1):84-89.
XIAO Yuan. Research measurement approaches and check based on the knowledge-based employee[J]. Science Research Management,2004,25(1):84-89.
[7] 金曉玲,湯振亞,周中允,等. 用戶為什么在問答社區(qū)中持續(xù)貢獻(xiàn)知識(shí):積分等級(jí)的調(diào)節(jié)作用[J]. 管理評(píng)論,2013,25(12):138-146.
JIN Xiao-lin,TANG Zhen-ya,ZHOU Zhong-yun,et al. Why Users Keep Contributing Knowledge in Q&A Communities:The Moderating Effect of Level of points [J]. Management Review,2013,25(12):138-146.
[8] Page Lawrence,Brin Sergey. The PageRank Citation Ranking:Bring Order to the Web[R].Technical report,Stanford Digital Library Technologies Project,1998.