劉曉娟 孫鏝莉
(北京師范大學(xué)政府管理學(xué)院,北京,100875)
Altmetrics是基于社交網(wǎng)絡(luò)發(fā)展新型學(xué)術(shù)計(jì)量標(biāo)準(zhǔn)的學(xué)科[1]。相比于傳統(tǒng)引文分析,Altmetrics的計(jì)量指標(biāo)更多、測量對象更廣、評價速度更快[2]。越來越多的科研人員通過社交媒體進(jìn)行非正式的學(xué)術(shù)交流,以提高研究的關(guān)注度和可信度[3];科研管理人員也可以借助Altmetrics更全面、多元、及時地了解研究者的學(xué)術(shù)工作及影響力[4]。常用的Altmetrics整合工具包括Altmetric.com、PLOS ALM、Plum Analytics等,其Altmetrics指標(biāo)多來自社交媒體網(wǎng)站、文獻(xiàn)管理軟件和新聞媒體網(wǎng)站等[5]。然而,這些工具往往由于商業(yè)利益考慮或技術(shù)壁壘,所選取的指標(biāo)數(shù)據(jù)來源是存在傾向性的,比如Twitter、Facebook等在中國大陸普及率極低的社交媒體是其中重要的指標(biāo)數(shù)據(jù)來源,而中文社交媒體幾乎未被納入這些整合工具[6],僅有Altmetric.com從2014年開始支持新浪微博,但由于登錄限制,自2015年已停止跟蹤。因此當(dāng)前主流的Altmetrics指標(biāo)具有一定的偏向性,很難公平地評價中文研究成果的影響力,且無法捕捉中文用戶對于學(xué)術(shù)成果的認(rèn)可度[7]。為進(jìn)一步完善Altmetrics指標(biāo)體系,提升Altmetrics在學(xué)術(shù)評價中應(yīng)用的可行性,有必要深入探討中文社交媒體納入Altmetrics的可行性。
2010年底向公眾開放的“知乎”網(wǎng)站(http://www.zhihu.com/)是目前國內(nèi)最受歡迎的網(wǎng)絡(luò)問答社區(qū),用戶通過提問、回答、專欄文章等形式分享彼此的知識、經(jīng)驗(yàn)和見解,在交流過程中,用戶會因討論、評價或介紹某個話題,或者為了證明某個觀點(diǎn)而提及學(xué)術(shù)論文。在研究用戶的學(xué)術(shù)交流行為時,相較于其他中文社交媒體,知乎具有獨(dú)特的優(yōu)勢。如微信由于私密性較強(qiáng),用戶的學(xué)術(shù)交流行為數(shù)據(jù)不易獲取;而知乎的公開度較高,用戶交流數(shù)據(jù)便于獲取。微博的話題屬于平級結(jié)構(gòu),用戶在一條微博中需自主添加多個標(biāo)簽才能提高討論的關(guān)注度;而知乎用戶在發(fā)文時則必須綁定話題,該平臺的全部話題通過父子關(guān)系構(gòu)成樹形結(jié)構(gòu),如機(jī)器學(xué)習(xí)的父話題包括人工智能算法和數(shù)據(jù)科學(xué)等,子話題包括社會網(wǎng)絡(luò)分析和貝葉斯統(tǒng)計(jì)等,子話題中的內(nèi)容會被推送至父話題討論頁面,這種信息組織形式使學(xué)術(shù)交流效率得以提高,也便于話題相關(guān)數(shù)據(jù)的抓取。由于社交媒體的開放性特點(diǎn),用戶使用論文的場景、形式、動機(jī)、內(nèi)容等各不相同,而這些多樣性體現(xiàn)了用戶對學(xué)術(shù)論文的多種觀點(diǎn)和態(tài)度,以及被使用論文的價值所在。通過調(diào)研發(fā)現(xiàn),在知乎中,用戶對學(xué)術(shù)論文的提及和討論等使用行為比較活躍,適合作為樣本展開研究?;谝陨媳尘埃疚囊灾鯙槔?,對中文社交媒體中用戶使用學(xué)術(shù)論文的行為進(jìn)行深入研究,探索用戶的行為特點(diǎn),從用戶行為的角度探討將知乎用于補(bǔ)充Altmetrics數(shù)據(jù)源、評價論文影響力的價值。
對于學(xué)術(shù)論文中的引用行為,相關(guān)研究已經(jīng)相對成熟,對引用行為進(jìn)行了全面和深入的挖掘,特別是對引用動機(jī)、情感傾向等方面的討論。Moravcsik等[8]從四個維度對引用行為進(jìn)行分類—概念性或操作性、陳述性或敷衍性、擴(kuò)展或同質(zhì)、肯定或否定;Shadish等[9]通過問卷調(diào)查和因子分析研究心理學(xué)領(lǐng)域的引用行為,發(fā)現(xiàn)了6種主要的引用動機(jī):舉例式、負(fù)面性、支持型、創(chuàng)造性、基于個人影響力、基于社會原因的引用;邱均平等[10]將引用動機(jī)分為內(nèi)在引用動機(jī)和外在引用動機(jī)兩個大類,以及知識主張、價值感知、信息源便利性、引用輸出、引用重要性五個子類,通過問卷調(diào)查和數(shù)據(jù)分析,研究引用動機(jī)對引用行為以及不同引用動機(jī)間的影響關(guān)系;趙蓉英等人[11]提出全文本引文分析法,即以施引文獻(xiàn)的全文數(shù)據(jù)為研究對象,量化和識別引用行為所反映的文獻(xiàn)之間的影響關(guān)系,進(jìn)而更加全面、準(zhǔn)確地計(jì)算和評價學(xué)術(shù)影響力;胡志剛[12]通過開發(fā)系統(tǒng)提取論文的引用行為信息,包括引用位置、引用次數(shù)和引用語境,揭示引用行為的規(guī)律和特征,從而發(fā)現(xiàn)作者的引用動機(jī),以及被引文獻(xiàn)在原文中的功能和作用。
本研究所指的社交媒體中的論文使用行為是指在各種平臺上通過某種手段(如鏈接、標(biāo)識符、特定操作等)提及科研文獻(xiàn)的行為[13]。社交媒體中的論文使用行為與學(xué)術(shù)論文中的引用行為具有相似性,其動機(jī)可能是為了證明自己的觀點(diǎn)、梳理相關(guān)主題的研究動向和借鑒研究方法與結(jié)論等。在對這兩種行為開展的研究中,多是通過調(diào)查、歸納等方法建立論文的使用或引用行為的分類體系,通過內(nèi)容分析法對行為展開研究。
相對于發(fā)表學(xué)術(shù)論文的科研人員來說,社交媒體用戶的職業(yè)種類更多、科研水平差異更大,使用論文的行為和情境更復(fù)雜。已有不少研究對社交媒體上的論文使用行為展開研究。Shema等人通過對科學(xué)類博客ResearchBlogging.org進(jìn)行研究,發(fā)現(xiàn)該博客的用戶傾向于使用高影響力的期刊論文[14],而在博客中被使用的論文,其被引頻次也要高于同年內(nèi)同一期刊中未被使用的論文[15]。Thelwall等[16]對270條鏈接到學(xué)術(shù)論文的推文進(jìn)行動機(jī)分析,發(fā)現(xiàn)大部分推文只是復(fù)述論文標(biāo)題或提供摘要,95%的用戶對論文不發(fā)表意見,很難通過推文內(nèi)容深入了解用戶對論文的看法。2015年,Shema等人[17]針對博客上的學(xué)術(shù)論文使用行為,創(chuàng)建了一個較為通用的動機(jī)分類方案,包括討論、批判、建議、轉(zhuǎn)發(fā)、延伸、自引等十大類和若干子類,通過對391篇健康類博客文章進(jìn)行內(nèi)容分析,發(fā)現(xiàn):自引現(xiàn)象極少,存在少量對論文的批評,且博文作者試圖與廣泛的非學(xué)術(shù)受眾進(jìn)行互動。Na基于上述Shema等人的分類方案,使用內(nèi)容分析法先后對Twitter[18]和Facebook[19]上與論文相關(guān)的討論進(jìn)行研究,發(fā)現(xiàn)將近一半的討論只是簡單分享論文,并沒有深入討論學(xué)術(shù)問題,且推文的情感多是中性的,很少有負(fù)面情緒表露。
社交媒體是否能成為Altmetrics數(shù)據(jù)源取決于其指標(biāo)在評價論文影響力時的有效性,以往研究常通過對社交媒體的Altmetrics指標(biāo)和論文影響力評價的傳統(tǒng)指標(biāo)進(jìn)行相關(guān)性分析而加以判斷。常用的社交媒體指標(biāo)包括Mendeley讀者數(shù),Altmetric Attention Score,以及Twitter、Blog、Facebook和Google+的提及數(shù)等;常用的論文影響力評價傳統(tǒng)指標(biāo)包括Web of Science被引頻次、谷歌學(xué)術(shù)被引頻次和h指數(shù)等。通過相關(guān)性分析,Eysenbach[20]指出論文發(fā)表后三天內(nèi)在推特上的討論度可以預(yù)測其是否會成為高被引論文;郝若揚(yáng)[6]認(rèn)為高Altmetrics指標(biāo)的論文同時具有較高的學(xué)術(shù)影響力;黃曉等人[21]指出高被引論文的被引頻次與大多數(shù)Altmetrics指標(biāo)都具有顯著相關(guān)性,但相關(guān)屬性和程度有所差別。以往研究發(fā)現(xiàn)Altmetrics指標(biāo)與傳統(tǒng)的引文指標(biāo)在評價結(jié)果上既有相似性也有差異性,認(rèn)為所分析的Altmetrics指標(biāo)可以體現(xiàn)論文的社會影響力,不能取代傳統(tǒng)引文指標(biāo),但可以對論文影響力評價起補(bǔ)充作用[22-24]。
本文主要借助內(nèi)容分析法對社交媒體中用戶的論文使用行為進(jìn)行研究。通過調(diào)查和歸納,對用戶的論文使用行為構(gòu)建分類體系,由兩位編碼員共同編碼,并對編碼的信度進(jìn)行檢驗(yàn)。基于編碼結(jié)果對用戶的論文使用行為進(jìn)行分析,并將論文使用次數(shù)、所獲總點(diǎn)贊數(shù)和評論數(shù)等用戶行為數(shù)據(jù)分別與常用的論文影響力評價指標(biāo)進(jìn)行相關(guān)性分析,從而發(fā)現(xiàn)用戶行為規(guī)律,在此基礎(chǔ)上討論知乎作為Altmetrics數(shù)據(jù)源的可能性。
3.1.1 數(shù)據(jù)源選擇及數(shù)據(jù)處理
作為廣受歡迎的中文社交媒體,知乎通過問答、專欄文章等方式為用戶提供話題交流平臺,并向用戶推薦相關(guān)話題的討論內(nèi)容,根據(jù)點(diǎn)贊數(shù)、評論數(shù)對討論進(jìn)行排序,其內(nèi)容推送與評價機(jī)制可以使討論及時地被更多用戶瀏覽和回應(yīng)、鼓勵用戶積極參與交流、提高學(xué)術(shù)交流的效率。在良好的網(wǎng)絡(luò)社區(qū)生態(tài)中,用戶的交流意愿也較高。以“機(jī)器學(xué)習(xí)”話題為例,截至2021年1月,該話題有106萬左右的關(guān)注者和4.4萬左右的問題,因話題具有專業(yè)性和前沿性,其中用戶的學(xué)術(shù)交流較為頻繁。由于研究者的學(xué)科領(lǐng)域會對其社交媒體中的學(xué)術(shù)交流活動產(chǎn)生影響[25-27],論文的學(xué)科領(lǐng)域會對Altmetrics的覆蓋率產(chǎn)生影響[21,28],因此在研究社交媒體上的論文使用行為時,應(yīng)對學(xué)科因素進(jìn)行控制。綜合以上因素,本研究將知乎的“機(jī)器學(xué)習(xí)”話題內(nèi)容作為研究對象,在討論頁面(https://www.zhihu.com/topic/19559450/hot)抓取了共1,267篇回答和專欄文章,數(shù)據(jù)最終獲取時間為2020年1月16日,抓取的字段為回答或?qū)谖恼碌臉?biāo)題、鏈接,以及作者的主頁鏈接、昵稱、簡介、關(guān)注數(shù)、被關(guān)注數(shù)和成就。
對數(shù)據(jù)進(jìn)行預(yù)處理,若回答或?qū)谖恼轮谐霈F(xiàn)了學(xué)術(shù)論文的標(biāo)題或鏈接,即視為存在論文使用行為,并以此為標(biāo)準(zhǔn)進(jìn)行人工篩選和摘錄,最終得到424篇有論文使用行為的回答和專欄文章,以及共計(jì)3,882條論文使用行為記錄,并通過去重得到3,301篇被使用的學(xué)術(shù)論文。
在進(jìn)行預(yù)處理時,發(fā)現(xiàn)所抓取的回答和專欄文章中,有6組共15篇內(nèi)容幾乎相同,涉及到260條被使用的論文數(shù)據(jù),占總體的6.70%。這種情況多是因?yàn)樽髡咿D(zhuǎn)載并發(fā)布了同一來源的內(nèi)容,或者作者一稿多投等,但考慮到這些回答和專欄文章的點(diǎn)贊數(shù)、評論數(shù)和發(fā)布作者都不同,數(shù)據(jù)占比較低,且此現(xiàn)象是社交媒體上用戶行為的體現(xiàn),故未對重復(fù)數(shù)據(jù)進(jìn)行嚴(yán)格剔除。
3.1.2 回答和專欄文章數(shù)據(jù)基本情況
對所獲取的424篇回答和專欄文章的數(shù)據(jù)發(fā)布時間進(jìn)行統(tǒng)計(jì)分析,結(jié)果如圖1(a)所示。由于知乎話題頁面只提供近期內(nèi)容以供瀏覽,因此本研究所獲取數(shù)據(jù)的發(fā)布時間主要集中在2019年10月-2020年1月。
對所獲取數(shù)據(jù)的點(diǎn)贊數(shù)和評論數(shù)的分布進(jìn)行分析,結(jié)果分別如圖1(b)、1(c)所示。由于數(shù)據(jù)的發(fā)布時間與獲取時間相隔較近,故整體數(shù)值偏低;點(diǎn)贊數(shù)和評論數(shù)大多集中在較低值范圍,較高值范圍的數(shù)據(jù)很少。
對所獲取回答和專欄文章的作者情況進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)大多數(shù)作者沒有公開身份,在可獲取用戶身份的回答和專欄文章中,超過一半均是碩博研究生發(fā)布的。這表明社交媒體中的用戶更傾向于保持匿名狀態(tài),試圖使學(xué)術(shù)交流更關(guān)注內(nèi)容而非用戶本人;而在公開身份的用戶中,處于科研成長期的用戶的學(xué)術(shù)交流行為更為活躍。
3.1.3 論文數(shù)據(jù)基本情況
對被使用的3,301篇論文展開分析,這些論文的公開發(fā)表時間如圖2(a)所示,論文發(fā)表時間跨度較大,最早可至1948年,絕大多數(shù)論文的發(fā)表時間集中在2013-2020年。
對近五年發(fā)表且能獲取發(fā)表月份的2,911篇論文展開分析,其發(fā)表月份分布如圖2(b)所示。從圖中可知,2015-2019年被使用的論文逐漸增多;論文的發(fā)表月份相對均衡,但2019年9月、2019年12月、2020年1月的論文相對較多,尤其是2019年12月的論文達(dá)到了極高值772篇。多數(shù)論文的發(fā)表時間與回答和專欄文章的發(fā)布時間接近,這體現(xiàn)了社交媒體中用戶使用論文的及時性。
3.2.1 構(gòu)建編碼體系
在借鑒以往研究的基礎(chǔ)上,結(jié)合知乎網(wǎng)站的實(shí)際情況,本研究將用戶的學(xué)術(shù)論文使用行為分為三個方面:使用場景、使用形式和使用語境,其中使用形式又細(xì)分為提及方式和詳細(xì)程度,使用語境又分為情感態(tài)度和使用動機(jī),共五大類,每類又細(xì)分了若干子類進(jìn)行編碼。分類及具體說明見表1。
圖2 ?被使用論文的發(fā)表時間情況Fig.2 Publication Time of the Used Papers
表1 知乎用戶的論文使用行為分類編碼體系Table1 Classification and Coding System of Zhihu Users' Papers Usage Behaviors
使用場景是指用戶撰寫回答或?qū)谖恼碌哪康?,編碼單位是回答或?qū)谖恼拢瑢ζ湫再|(zhì)進(jìn)行區(qū)分,從而發(fā)現(xiàn)論文使用行為的整體背景。
使用形式包括提及方式和詳細(xì)程度,其編碼單位是回答或?qū)谖恼轮忻恳黄皇褂玫膶W(xué)術(shù)論文。提及方式指用戶在回答或?qū)谖恼轮刑峒罢撐臅r,給出的論文信息形式。了解用戶使用論文時的提及方式,可以探索社交媒體用戶使用論文的主要形式和規(guī)范意識,同時討論在知乎捕獲論文使用行為時所需采用的手段及其可行性。詳細(xì)程度指回答或?qū)谖恼轮袑φ撐慕榻B的詳細(xì)程度,分為列舉、簡單提及和有一定篇幅的使用三類。
使用語境包括情感態(tài)度和使用動機(jī),編碼單位是回答或?qū)谖恼轮忻恳黄皇褂玫膶W(xué)術(shù)論文。情感態(tài)度主要分為四類,用來描述作者對所使用論文的情感偏向。使用動機(jī)從三個角度進(jìn)行分類:使用原因側(cè)重于描述論文得以吸引用戶使用的特質(zhì),如新穎度、主題相關(guān)度、認(rèn)可度等;使用內(nèi)容側(cè)重于描述用戶使用的具體內(nèi)容,若使用了正文內(nèi)容,則可進(jìn)一步細(xì)分為四類;自引側(cè)重于用戶使用自己所發(fā)表論文的情況。了解用戶使用論文時的詳細(xì)程度,并結(jié)合使用場景、使用語境等信息,可對用戶行為規(guī)律進(jìn)行更深入的分析,從而發(fā)現(xiàn)社交媒體中被使用論文的價值所在。
由于用戶的使用行為具有復(fù)雜性和多樣性,在編碼時,A、B、C、D四類每一類都只選擇一個子類標(biāo)注,E類可以選擇一到三個子類進(jìn)行標(biāo)注。
3.2.2 預(yù)編碼
本研究采用兩位編碼員共同編碼的形式,在正式編碼前學(xué)習(xí)編碼體系、進(jìn)行預(yù)編碼并驗(yàn)證信度。由于部分回答或?qū)谖恼麓嬖诙嗥信e型論文使用行為,即在同一篇回答或?qū)谖恼轮杏脩粢粤信e形式使用多篇論文、且未對每篇論文展開介紹的情況,而這類行為在數(shù)據(jù)中占比較大、標(biāo)注規(guī)則又較為統(tǒng)一,因此編碼員抽取了非多篇列舉型論文使用行為的10%進(jìn)行預(yù)編碼。完成預(yù)編碼后,編碼員再次進(jìn)行討論和學(xué)習(xí),明確并細(xì)化了編碼規(guī)則,得到預(yù)編碼中使用場景、使用形式和使用語境各類的一致性系數(shù)均超過90%。
3.2.3 正式編碼
對未進(jìn)行預(yù)編碼的3,692條數(shù)據(jù)進(jìn)行正式編碼,除使用場景、提及方式、詳細(xì)程度、情感態(tài)度和使用動機(jī)外,需要標(biāo)注的字段還有每篇回答或?qū)谖恼碌狞c(diǎn)贊數(shù)、評論數(shù)、發(fā)布時間,以及每篇論文的公開發(fā)表時間。前三項(xiàng)數(shù)據(jù)的獲取截止日期為2020年3月1日,第四項(xiàng)數(shù)據(jù)采用論文公開發(fā)表的時間也是論文最早開始產(chǎn)生影響的時間,包括以非正式的形式發(fā)表在預(yù)收錄、學(xué)術(shù)交流或公開評審平臺(如arXiv、ResearchGate、OpenReview等)的時間。完成正式編碼后,研究人員隨機(jī)抽取了50條數(shù)據(jù)進(jìn)行二次編碼,得到各類編碼一致性系數(shù)均超過了95%,再次證明了本次內(nèi)容編碼的可信度。編碼示例如表2所示。
通過內(nèi)容編碼,對使用行為中使用場景、使用形式、使用語境、使用次數(shù)的編碼結(jié)果進(jìn)行分析,并結(jié)合各類之間的交叉分析,發(fā)現(xiàn)不同類別之間可能存在的聯(lián)系,以對知乎用戶的使用行為進(jìn)行原因探索和規(guī)律總結(jié)。
對424篇有論文使用行為的回答或?qū)谖恼碌氖褂脠鼍斑M(jìn)行分析,結(jié)果如圖3(a)所示。使用了論文的回答或?qū)谖恼麓蠖嗍桥c某些研究問題、主題等相關(guān)(42.93%),以及整篇偏向于對論文的討論、解讀、評價等(39.62%);相比于其他使用場景,在與論文討論相關(guān)的場景中,使用行為對論文描述的詳細(xì)程度更高、對論文的情感態(tài)度更明確。因介紹期刊而使用論文的情況極少(0.47%),而因介紹學(xué)術(shù)會議而使用論文的情況稍多一些(4.95%),這可能是因?yàn)樵跈C(jī)器學(xué)習(xí)領(lǐng)域,部分會議論文相較于期刊論文更受到關(guān)注和認(rèn)可,許多學(xué)者也更偏向于在學(xué)術(shù)會議上分享自己最新的研究成果和進(jìn)展。此外,存在論文使用行為的424篇回答或?qū)谖恼轮校c職業(yè)、學(xué)習(xí)和資源提供相關(guān)的場景占10.85%,但該類別中的論文使用行為卻在3,882條使用行為中占據(jù)48.43%,且這些使用行為中93.62%為簡單的列舉、98.67%持中性的情感態(tài)度,可見該類回答或?qū)谖恼鲁J褂么罅空撐牡凑归_介紹或評價。
知乎用戶通常在討論某個主題或論文時使用論文,說明用戶在知乎使用論文的行為并不是無目的、無意義或隨機(jī)的,而是期望形成有效的專業(yè)交流,這也表明知乎存在較多愿意進(jìn)行學(xué)術(shù)交流的用戶和有利于學(xué)術(shù)交流的環(huán)境,其中的論文使用行為在一定程度上能夠反映中文社交媒體用戶對論文的關(guān)注度和認(rèn)可度。
圖3 ?用戶論文使用行為的編碼結(jié)果分析Fig.3 Analysis of Coding Results of Users’Paper Usage Behaviors
對3,882條使用行為對論文的提及方式進(jìn)行分析,結(jié)果如圖3(b)所示。提及論文時,使用標(biāo)準(zhǔn)引文格式的行為占16.41%;使用形似引文格式、但信息不全的非標(biāo)準(zhǔn)引文格式的行為占15.77%;其他不太規(guī)范的使用行為中,使用標(biāo)題和鏈接的情況較多(51.70%)。可見在對論文引用格式并無嚴(yán)格規(guī)定的知乎,大多數(shù)情況下用戶對論文的提及方式不是標(biāo)準(zhǔn)的引文格式,而是傾向于多種不規(guī)范的形式,這體現(xiàn)了用戶在知乎發(fā)布內(nèi)容時的隨意性,可能會給捕獲論文使用行為、準(zhǔn)確統(tǒng)計(jì)論文使用情況等帶來困難。
對3,882條使用行為對論文使用的詳細(xì)程度進(jìn)行分析,結(jié)果如圖3(c)所示。大部分論文被使用的詳細(xì)程度為簡單的列舉(68.11%),除了論文的部分題錄信息,對論文幾乎沒有更多的解釋或說明;除標(biāo)題、作者等信息外,對論文還有簡要介紹的占比為20.38%;對論文有一定篇幅的解讀、評價或說明的情況占比最少,為11.51%。由此可見,相比于學(xué)術(shù)論文中的引用行為,知乎用戶在使用論文時,較少對論文展開詳細(xì)介紹,因此有時需結(jié)合回答或?qū)谖恼碌母鄡?nèi)容對其使用目的進(jìn)行識別和分類。
對3,882條使用行為的情感態(tài)度進(jìn)行分析,結(jié)果如圖3(d)所示。證明、解答、客觀討論、解讀等中性的評價占了絕大多數(shù)(92.50%);明確的推薦、贊賞等正面評價占比6.88%;而批評、質(zhì)疑和反對等負(fù)面評價僅占0.23%,少于雙向評價(0.39%)??梢娪脩粼谥跏褂谜撐臅r極少表露明確的情感態(tài)度。
對3,882條使用行為的使用動機(jī)進(jìn)行分析, 結(jié)果如圖3(e)所示。從編碼結(jié)果看,絕大多數(shù)對論文的使用動機(jī)是論文與某個問題或主題相關(guān)(87.87%),這種情況在各種使用場景下的回答或?qū)谖恼轮芯休^高占比。由于論文的新穎性而使用論文的行為占26.46%,其中超過90%發(fā)生在提供資源的回答或?qū)谖恼轮?,且僅以列舉形式使用,說明知乎用戶會積極分享近期新發(fā)表的論文,但很少進(jìn)行介紹和評價。由于論文被認(rèn)可而使用論文的情況僅占6.16%,其中64.83%均對論文有所介紹,說明用戶傾向于對受到認(rèn)可的論文進(jìn)行更詳細(xì)的描述。部分行為使用了論文內(nèi)容,24.76%使用了論文的正文內(nèi)容,對論文摘要信息、論文的實(shí)踐應(yīng)用的使用占比很少,分別為2.60%和2.37%。相對于其他場景而言,用戶更傾向于在介紹論文的回答或?qū)谖恼轮惺褂谜撐膬?nèi)容,尤其是正文內(nèi)容,而在與職業(yè)、學(xué)習(xí)和資源提供相關(guān)的場景中極少使用論文內(nèi)容,這可能是由于用戶在解讀論文時更容易使用論文的內(nèi)容加以說明,而在提供資源時不會介紹太多。自引行為極為少見,機(jī)構(gòu)自引與作者自引的情況分別為0.80%、0.77%,均不超過1.00%,但自引在各類回答或?qū)谖恼轮卸加谐霈F(xiàn),大多數(shù)均傾向于對論文展開介紹,作者自引的介紹篇幅整體多于機(jī)構(gòu)自引;作者自引中對論文持正面態(tài)度的多于機(jī)構(gòu)自引,占28.57%,其余均為中性態(tài)度,沒有負(fù)面評價。
表2 ?知乎用戶的論文使用行為編碼示例Table 2 Examples of Coding of Paper Usage Behavior of Zhihu Users
在961條使用了論文正文內(nèi)容的使用行為中,大多數(shù)使用行為都使用了論文的理論、模型、算法和方法等內(nèi)容(73.78%),使用了論文中的結(jié)果、結(jié)論和觀點(diǎn)等內(nèi)容的行為占比也高達(dá)50.16%,提及論文數(shù)據(jù)的行為較少,僅占6.87%,說明用戶更關(guān)心論文的主體內(nèi)容。
結(jié)合使用語境、使用形式和使用場景共同分析,發(fā)現(xiàn)在使用論文時,對論文介紹的詳細(xì)程度越高,正面、負(fù)面或雙向等非中性的情感態(tài)度越有可能表露,使用動機(jī)越有可能得到較多體現(xiàn)。因此,詳細(xì)程度、使用場景、使用動機(jī)不同的論文使用行為中,被使用論文所體現(xiàn)的價值可能有所差別,論文產(chǎn)生的影響力也不同,在進(jìn)行論文影響力評價時可用加權(quán)等方法對其指標(biāo)稍作調(diào)節(jié)。
對論文在3,882條使用行為中的被使用次數(shù)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)絕大多數(shù)論文都只被使用了一次(88.25%),被使用2次的論文占8.21%;而被使用較高頻次的論文極少,5次以上的總計(jì)只有16篇。在相關(guān)研究中,也曾發(fā)現(xiàn)多個Altmetrics數(shù)據(jù)源存在高頻使用論文為極少數(shù)的現(xiàn)象[28]?;趦?nèi)容編碼的結(jié)果,分別對數(shù)據(jù)集內(nèi)被使用了1-2次和被使用了5-15次的論文對應(yīng)的使用行為進(jìn)行分析,以比較對于低頻和高頻使用的論文,用戶在使用時的行為特征。
低頻使用的論文較多地出現(xiàn)在與職業(yè)、學(xué)習(xí)和資源提供相關(guān)的場景中(52.30%),這些使用行為大部分是列舉形式(72.19%),詳細(xì)程度較低。高頻使用的論文較多出現(xiàn)在與研究問題、主題、方向、領(lǐng)域等相關(guān)的場景中(61.00%),這些使用行為多數(shù)會對論文展開介紹(67.00%),詳細(xì)程度稍高;在動機(jī)方面,這些論文會因得到某種認(rèn)可而被使用(23.00%),其正文內(nèi)容更多地被使用(41.00%),但極少因新穎度而被使用。
論文被使用的次數(shù)在一定程度上反映了論文在知乎的關(guān)注度,高頻和低頻使用的論文在被使用過程中存在的用戶行為差異,表明知乎用戶有識別論文質(zhì)量和影響力的能力,從而說明論文的知乎關(guān)注度可以部分體現(xiàn)論文的影響力。
從3,301篇論文中抽取樣本,在置信度為95%、誤差為5%的情況下,通過Z檢驗(yàn)計(jì)算得到樣本量為344,再以論文被使用次數(shù)作為分層標(biāo)準(zhǔn)進(jìn)行分層抽樣。由于部分論文存在難以獲取DOI等信息、未被追蹤等問題,無法通過Altmetric.com得到論文的AAS和使用了對應(yīng)論文的推特?cái)?shù),因此用于相關(guān)性分析的最終樣本量為286。對樣本論文在所獲知乎數(shù)據(jù)中所有使用行為的點(diǎn)贊數(shù)和評論數(shù)求和,得到每篇論文的總點(diǎn)贊數(shù)和總評論數(shù)。
對286篇樣本論文所獲得的總點(diǎn)贊數(shù)、總評論數(shù)、知乎使用次數(shù)、AAS和推特?cái)?shù)分別進(jìn)行K-S檢驗(yàn),得知這五項(xiàng)均不符合正態(tài)分布,因此分別對論文的AAS和提及該論文的推特?cái)?shù)與所獲取知乎數(shù)據(jù)中對這篇論文的總點(diǎn)贊數(shù)、總評論數(shù)和使用次數(shù)進(jìn)行Spearman相關(guān)性分析。
由表3、表4可知,推特?cái)?shù)、AAS分別與總點(diǎn)贊數(shù)、總評論數(shù)、使用次數(shù)均通過了相關(guān)性的顯著檢驗(yàn),其中與總點(diǎn)贊數(shù)的相關(guān)程度更高。這表明,上述三種論文使用行為數(shù)據(jù)一方面能在一定程度上與現(xiàn)有的常用Altmetrics指標(biāo)共同反映論文的社會影響力,另一方面也可能關(guān)注到這些Altmetrics指標(biāo)未反映的情況,從而有可能提供新的Altmetrics數(shù)據(jù)源和評價指標(biāo)。
同樣地,完成樣本抽取后,由于部分論文無法通過Web of Science獲取到被引頻次,因此用于相關(guān)性分析的最終樣本量為174。
對174篇樣本論文所獲得的總點(diǎn)贊數(shù)、總評論數(shù)、使用次數(shù)和被引頻次分別進(jìn)行K-S檢驗(yàn),得知這四項(xiàng)均不符合正態(tài)分布,因此將論文的被引頻次分別與所獲取知乎數(shù)據(jù)中對這篇論文的總點(diǎn)贊數(shù)、總評論數(shù)和使用次數(shù)進(jìn)行Spearman相關(guān)性分析。
由表5可知,被引頻次與總點(diǎn)贊數(shù)、總評論數(shù)具有顯著相關(guān)性,但與使用次數(shù)不具有相關(guān)關(guān)系??梢娚鲜鋈N論文使用行為數(shù)據(jù)中,總點(diǎn)贊數(shù)和總評論數(shù)能在一定程度上反映論文的學(xué)術(shù)價值。
當(dāng)前主流的Altmetrics指標(biāo)對中文社交媒體的關(guān)注較少,在評價中文研究成果和反映中文用戶觀點(diǎn)時存在缺漏之處,因此需探索中文社交媒體上的論文使用行為,挖掘行為的屬性、動機(jī)與模式。作為用戶眾多、交流活躍、內(nèi)容豐富的專業(yè)平臺,知乎具有較高的研究價值。因此,本研究以中文社交媒體知乎為例,針對機(jī)器學(xué)習(xí)領(lǐng)域的用戶,對其學(xué)術(shù)論文使用行為展開研究,討論在該平臺發(fā)展Altmetrics指標(biāo)的可能性,為Altmetrics數(shù)據(jù)源的補(bǔ)充和學(xué)術(shù)論文影響力的評價提供參考。同時,本研究也為此類問題增加了研究實(shí)例,為后續(xù)基于社交媒體的學(xué)術(shù)交流行為研究提供理論、方法等方面的借鑒和參考。本研究的主要發(fā)現(xiàn)如下:
(1)知乎用戶對學(xué)術(shù)論文的使用行為具有多樣性和復(fù)雜性,也存在一定的規(guī)律性。用戶在各種場景的回答或?qū)谖恼轮芯赡苁褂谜撐?,且以討論研究主題或論文的場景為主;用戶對論文的提及方式有多種形式,且通常不使用規(guī)范的引文格式;用戶對論文介紹的詳細(xì)程度、使用論文的情感態(tài)度和動機(jī)各有不同,大多數(shù)情況下,論文使用行為的詳細(xì)程度較低、情感態(tài)度為中性、動機(jī)是論文與主題相關(guān);用戶的使用行為之間具有關(guān)聯(lián)性,比如用戶在介紹某篇論文,特別是該論文已得到廣泛認(rèn)可時,往往會對論文進(jìn)行更為詳細(xì)的描述。
(2)知乎是一個適合開展學(xué)術(shù)交流的中文社交媒體,用戶在交流中使用論文的行為可以反映他們對論文的關(guān)注和各種態(tài)度。知乎用戶會積極且及時地在社交媒體上使用或分享論文,從而增加新論文的關(guān)注度,但對論文的討論不太深入和具體,能形成高討論度的內(nèi)容也較少。該平臺還存在一些不足,如用戶提及論文時其格式缺少統(tǒng)一或規(guī)范,使用行為不易捕獲和統(tǒng)計(jì);用戶對論文的介紹或討論篇幅較短,不便于分析情感態(tài)度和使用動機(jī)等。
(3)結(jié)合相關(guān)性分析來看,針對機(jī)器學(xué)習(xí)領(lǐng)域的論文,知乎作為中文社交媒體,有成為各Altmetrics聚合平臺的新數(shù)據(jù)源的可能性,可以補(bǔ)充現(xiàn)有主流Altmetrics評價體系,從而更加全面地評價學(xué)術(shù)論文的社會影響力。
表3 ?推特?cái)?shù)與總點(diǎn)贊數(shù)、總評論數(shù)、使用次數(shù)的相關(guān)性Table 3 Correlation Between the Number of Tweets and Total Likes, Total Comments, and the Number of Usage
表4 ?AAS與總點(diǎn)贊數(shù)、總評論數(shù)、使用次數(shù)的相關(guān)性Table 4 Correlation Between AAS and Total Likes, Total Comments, and the Number of Usage
表5 ?被引頻次與總點(diǎn)贊數(shù)、總評論數(shù)、使用次數(shù)的相關(guān)性Table 5 Correlation Between Citations Frequency and Total Likes, Total Comments, and the Number of Usage
結(jié)合以上分析和發(fā)現(xiàn),本文對于將知乎作為新Altmetrics數(shù)據(jù)源評價學(xué)術(shù)論文的社會影響力提出以下建議。
首先,知乎網(wǎng)站官方可以考慮為用戶對學(xué)術(shù)論文的使用提供一些輔助手段,如論文特殊標(biāo)識符、論文信息格式規(guī)范等,同時提供API接口、開放部分?jǐn)?shù)據(jù),這樣不僅能為論文使用行為的識別、Altmetrics聚合平臺的數(shù)據(jù)獲取與統(tǒng)計(jì)提供便利,還能幫助用戶更高效地使用論文,一定程度上可以吸引更多用戶在知乎上進(jìn)行學(xué)術(shù)交流,有利于提高知乎的學(xué)術(shù)內(nèi)容質(zhì)量;其次,由于點(diǎn)贊數(shù)和評論數(shù)的浮動性,應(yīng)對使用論文的行為進(jìn)行持續(xù)關(guān)注和更新,以更好地反映論文的即時影響力;再次,考慮到不同用戶的影響力差異,在必要時應(yīng)將用戶的關(guān)注度作為調(diào)節(jié)系數(shù)適當(dāng)?shù)丶{入影響力評價中,但該調(diào)節(jié)系數(shù)應(yīng)根據(jù)具體情況決定調(diào)節(jié)的方向(正向或負(fù)向);最后,在可能的情況下,應(yīng)將用戶在社交媒體中的論文使用行為分類,為每個類別賦予不同的權(quán)重后,再將數(shù)據(jù)納入Altmetrics指標(biāo)體系,計(jì)算論文的社會影響力。
本研究也存在一些不足之處。第一,由于知乎的網(wǎng)頁限制,所獲取的數(shù)據(jù)在時間上相對集中,研究中的分析和結(jié)論是基于特定時間內(nèi)的數(shù)據(jù),但在一定程度上依然反映了社交媒體用戶的論文使用行為規(guī)律。第二,本研究的數(shù)據(jù)僅從知乎“機(jī)器學(xué)習(xí)”話題抓取,其中的分析與結(jié)論僅能反映這一領(lǐng)域的情況,是否能夠推廣至其他領(lǐng)域還需要更多的研究驗(yàn)證。第三,由于所獲取數(shù)據(jù)中被使用的論文多是因近期發(fā)表而未被收錄的,其在Web of Science上的被引頻次無法獲得,因此在對知乎論文使用行為數(shù)據(jù)與被引頻次做相關(guān)性分析時,樣本數(shù)據(jù)存在一定缺失,可能導(dǎo)致分析結(jié)果略有偏差。最后,本研究對社交媒體上用戶行為的分類還有進(jìn)一步細(xì)化的空間。
作者貢獻(xiàn)說明
劉曉娟:提出研究思路與框架,論文最終版本修訂;
孫鏝莉:設(shè)計(jì)研究方案,數(shù)據(jù)獲取、處理及分析,論文撰寫及修改。
支撐數(shù)據(jù)
支撐數(shù)據(jù)由作者自存儲,Email:202021260065@mail.bnu.edu.cn。
1、孫鏝莉. All data.xlsx. 用戶的論文使用數(shù)據(jù)及編碼結(jié)果.