畢崇武 沈雪瑩 彭澤 祁寧杰
摘 要: [目的/ 意義] 為改變“以刊評文” 的學(xué)術(shù)質(zhì)量評價方法, 本文嘗試從文本片段入手開展知識單元粒度的學(xué)術(shù)質(zhì)量評價。[方法/ 過程] 首先基于知識單元的描述規(guī)則抽取學(xué)術(shù)文獻(xiàn)中的知識單元; 其次梳理現(xiàn)有的學(xué)術(shù)質(zhì)量評價指標(biāo), 構(gòu)建初步的知識單元質(zhì)量評價體系; 然后完善初選的評價指標(biāo)體系, 并根據(jù)領(lǐng)域?qū)<乙庖妼Υu的知識單元質(zhì)量進(jìn)行賦分; 最后利用回歸分析擬合各量化指標(biāo)與專家賦分, 實現(xiàn)知識單元質(zhì)量的自動評價。[結(jié)果/ 結(jié)論] 構(gòu)建起以形式評價、內(nèi)容評價和效用評價為核心的三維評價模型, 實現(xiàn)了融合領(lǐng)域?qū)<乙庖姷闹R質(zhì)量自動化計量方法, 克服了長久以來學(xué)術(shù)質(zhì)量評價過度依賴于學(xué)術(shù)載體的不足, 真正將學(xué)術(shù)評價的單位從知識載體深入到知識內(nèi)容中。
關(guān)鍵詞: 知識質(zhì)量; 知識單元; 知識計量; 知識評價
DOI:10.3969 / j.issn.1008-0821.2023.11.009
〔中圖分類號〕G203 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2023) 11-0112-11
自1665 年世界上第一本學(xué)術(shù)期刊《學(xué)者雜志》(Journal des Scavans)問世以來, 以期刊出版為核心的學(xué)術(shù)交流體系為學(xué)術(shù)研究提供了極大保障,并由此衍生出以學(xué)術(shù)期刊為基礎(chǔ)的學(xué)術(shù)評價活動。
目前, 影響因子、被引頻次等指標(biāo)已廣泛應(yīng)用至學(xué)位申請、績效考核、職稱評審等科研環(huán)節(jié)[1] , “以刊評文” 的現(xiàn)象越演越烈。事實上, 根據(jù)引文分析的研究結(jié)果, 學(xué)術(shù)期刊的引用存在著高度集中的分布規(guī)律, 學(xué)術(shù)期刊的評測質(zhì)量并不能反映單篇論文的實際質(zhì)量。
2020 年2 月, 科技部、教育部連續(xù)出臺《關(guān)于破除科研評價中“唯論文” 不良導(dǎo)向的若干措施(試行)》《關(guān)于規(guī)范高等學(xué)校SCI 論文相關(guān)指標(biāo)使用 樹立正確評價導(dǎo)向的若干意見》, 直指學(xué)術(shù)評價中“唯論文” “SCI 至上” 等“以刊評文” 的不良導(dǎo)向。由此可見, 科技管理部門對破除現(xiàn)有學(xué)術(shù)評價頑疾早已有所導(dǎo)向, 但對于如何構(gòu)建一個科學(xué)、合理的評價體系仍在探索。
為徹底摒棄“以刊評文” 的評價理念, 本文提出了一種知識單元粒度的學(xué)術(shù)質(zhì)量評價方法。該方法從形式、內(nèi)容和效用3 個維度展開學(xué)術(shù)評價,并融合專家意見實現(xiàn)知識質(zhì)量的自動化計量。研究成果旨在克服以往學(xué)術(shù)質(zhì)量評價過度依賴學(xué)術(shù)載體的不足, 將學(xué)術(shù)評價單位從知識載體深入到知識內(nèi)容中。
1 文獻(xiàn)回顧與啟示
知識的定義方式?jīng)Q定了知識質(zhì)量的概念。管理學(xué)領(lǐng)域評價科研成果時, 知識通常指人類在特定時空針對某一問題形成的解答[2] , 而知識質(zhì)量通常指這一解答在提高生產(chǎn)力、影響社會生活、節(jié)約試錯成本以及知識增值等特性上滿足要求的程度[3] 。本文通過回溯已有研究成果, 試圖尋找知識單元的質(zhì)量計量方法。
1.1 相關(guān)文獻(xiàn)回顧
國內(nèi)外少有文獻(xiàn)探討過知識質(zhì)量的計量或評價問題。邱均平等[4] 曾提出, 知識質(zhì)量計量是知識計量研究中的重要內(nèi)容, 是對知識及其成果的學(xué)術(shù)質(zhì)量和社會影響的評價。周波等[5] 從信號、過程、模型、本體4 個維度探索了知識市場情景下的知識質(zhì)量評價模型。Rao L 等[6] 和Yoo D K 等[7] 分別以企業(yè)內(nèi)部知識管理、項目團(tuán)隊成員合作為情景提出了多維度的知識質(zhì)量評價模型。此外, 也有少數(shù)學(xué)者探究在線問答社區(qū)或管理信息系統(tǒng)中的知識質(zhì)量評估問題, 尤其是在線醫(yī)療平臺中的用戶內(nèi)容評估問題[8-10] 。事實上, 這些稀少的研究成果無法為本文提供充分的研究基礎(chǔ)。因此, 本文從更寬泛的研究視角回顧有關(guān)學(xué)術(shù)質(zhì)量評價、信息質(zhì)量評價的相關(guān)文獻(xiàn), 以求為本文研究構(gòu)建基礎(chǔ)。
1) 學(xué)術(shù)質(zhì)量評價方法
學(xué)術(shù)質(zhì)量評價經(jīng)歷了從表面到內(nèi)在、從單維到多維、從人工到自動的發(fā)展過程, 所聚焦的評價指標(biāo)體系涵蓋了規(guī)范性評價、科學(xué)性評價、影響力評價、創(chuàng)新性評價等[11] 。目前開展學(xué)術(shù)質(zhì)量評價最普遍的研究思路是: 在設(shè)計科學(xué)、客觀的評價體系的基礎(chǔ)上, 以同行評議及其改進(jìn)方法為主, 以文獻(xiàn)計量、科學(xué)計量等引文評價方法為輔, 力求將人工智能技術(shù)應(yīng)用于學(xué)術(shù)質(zhì)量的自動化評價中。在同行評議方面, 現(xiàn)有研究對不同方法的可靠性、公平性、有效性開展了廣泛而深入的討論, 并設(shè)置了保障措施確保評議結(jié)果的質(zhì)量[12-14] 。在引文評價方面, 學(xué)者們基于學(xué)術(shù)文獻(xiàn)的引用機制, 利用引用內(nèi)容、引用位置、引用情感等信息, 設(shè)計評價指標(biāo)來間接地開展學(xué)術(shù)質(zhì)量評價[15-16] 。此外, 人工智能技術(shù)的日益成熟使海量的定量分析和高效的定性分析成為可能。大量研究致力于利用自動化評價減輕評審負(fù)擔(dān)、增加評審效率, 也由此成為學(xué)術(shù)質(zhì)量評價的一個方向[17-18] 。
2) 信息質(zhì)量評價方法
信息質(zhì)量評價由起初僅評價信息資源的好壞,逐步發(fā)展為如今包含用戶主觀價值取向因素在內(nèi)的多屬性評估[19] 。Marschak J[20] 最早提出信息質(zhì)量表征的是信息資源描述客觀事物或事件的準(zhǔn)確程度, 在此基礎(chǔ)上Juran J M[21] 拓展出有用性和適用性兩個信息質(zhì)量評價維度。此后, 大量學(xué)者從信息產(chǎn)品服務(wù)角度提出高質(zhì)量的信息應(yīng)滿足受眾群體的用戶需求, 并構(gòu)建了諸多多維度、多屬性的信息質(zhì)量評價模型[22-25] 。隨著社交網(wǎng)絡(luò)的發(fā)展, 網(wǎng)絡(luò)中的信息質(zhì)量受到廣泛關(guān)注, 不少學(xué)者以官方門戶網(wǎng)站、在線問答社區(qū)為代表, 對網(wǎng)絡(luò)信息質(zhì)量開展了全面、系統(tǒng)的研究工作, 并成為當(dāng)前的研究熱點[26-27] 。通過梳理已有研究可知, 當(dāng)前評價方法可分為定性、定量和半定量3 類。其中, 定性評價有利于從整體上把握信息質(zhì)量的核心概念, 能夠?qū)﹄y以量化的評價對象進(jìn)行評估, 而定量評估能夠獲得更加客觀、公正的評價結(jié)果。但需注意的是, 無論選用何種信息質(zhì)量評價方法, 其評估工作均是一項系統(tǒng)性工程, 必須遵守規(guī)范化的評估程序[28] 。
1.2 已有文獻(xiàn)啟示
回顧已有文獻(xiàn)不難發(fā)現(xiàn), 無論是學(xué)術(shù)質(zhì)量評價還是信息質(zhì)量評價, 每項研究的評價過程各有優(yōu)劣, 選取的評價指標(biāo)均對應(yīng)特定情境, 因此知識質(zhì)量評價無法完全照搬任何一個評價模型或評價體系, 但是既有理論也提供了如下啟示。
1) 選用多維度評價體系全面測量知識質(zhì)量
知識本身較為抽象, 難以像普通產(chǎn)品通過定量參數(shù)直接測量其質(zhì)量, 因此需要多個評價維度使其質(zhì)量的概念由抽象變得具體。此外, 單維度評價體系會產(chǎn)生較大的主觀偏差, 而多維度評價體系能夠在一定程度上降低誤判風(fēng)險。
2) 融合主觀的定性評價與客觀的定量評價
定性評價能夠借助評價者的邏輯分析與經(jīng)驗判斷克服知識本身較為抽象的問題, 而定量評價能夠具體、精準(zhǔn)地排除主觀因素影響??傮w說來, 定性評價與定量評價各有優(yōu)勢, 應(yīng)該將兩者結(jié)合起來,形成綜合的評價方法[29] 。
3) 借助人工智能實現(xiàn)知識質(zhì)量的快速評估
以往學(xué)術(shù)評價活動受限于數(shù)據(jù)獲取、數(shù)據(jù)分析等問題, 其評價結(jié)果難以全面反映客觀事實。隨著人工智能技術(shù)逐步滲透到學(xué)術(shù)評價的各個流程, 利用計算機完成知識質(zhì)量評測, 可以解決主觀判斷弊端, 并極大地提高評測效率。
2 知識單元的質(zhì)量評價指標(biāo)體系構(gòu)建
2.1 評價指標(biāo)的初步篩選
通過閱讀和綜述關(guān)于知識質(zhì)量、信息質(zhì)量和學(xué)術(shù)質(zhì)量的相關(guān)文獻(xiàn), 本文認(rèn)為知識單元的質(zhì)量可以根據(jù)多方面因素來測量。例如, 來源、認(rèn)證、推介等外部特征; 準(zhǔn)確性、創(chuàng)新性、可驗性等內(nèi)部特征;實際作用、有效程度、影響范圍等使用特征。在此基礎(chǔ)上, 本文借鑒葉繼元教授[30] 提出的“全評價”體系框架, 將定性評價和定量評價相融合, 進(jìn)而擴展到以形式評價、內(nèi)容評價和效用評價為核心的三維評價模式, 并初步選?。保?個評價指標(biāo)納入考慮范圍, 如表1 所示。
在劃定評價指標(biāo)范圍后, 為實現(xiàn)評價指標(biāo)的規(guī)范化篩選, 本文依據(jù)訪談結(jié)果修正評價指標(biāo)的相關(guān)表述, 重點從合理性和完整性兩個方面, 探討評價指標(biāo)的劃分是否合理、名稱是否恰當(dāng)、語義是否模糊、操作是否可行等問題。由于表1 中部分指標(biāo)間的邏輯關(guān)系存在著交叉部分, 為了后續(xù)設(shè)計問卷時簡潔明了, 本文前期采用非結(jié)構(gòu)化訪談確定初步的知識單元質(zhì)量評價指標(biāo)體系。為了保證訪談結(jié)果的準(zhǔn)確性和有效性, 本文邀請了圖書情報領(lǐng)域研究方向為“科學(xué)計量” 和“知識組織” 的6 名博士研究生作為被訪談?wù)?。訪談過程共分為兩個部分, 前期與被訪談?wù)呔椭R單元質(zhì)量評價應(yīng)該需要什么指標(biāo)進(jìn)行一對一訪談; 后期將被訪談?wù)呔奂谝黄?,開展小型座談會, 就得到的結(jié)果進(jìn)行篩選與總結(jié)。最終, 本文得到如圖1 所示的知識單元質(zhì)量評價指標(biāo)體系的初選結(jié)果。
由圖1 可知, 形式評價、內(nèi)容評價和效用評價各有側(cè)重。其中, 形式評價針對知識質(zhì)量的信號特征, 依據(jù)知識自生產(chǎn)至應(yīng)用等諸多環(huán)節(jié)中的質(zhì)量信號, 可將其概括為知識來源、知識認(rèn)證和知識推介。雖然知識質(zhì)量的信號特征并不等同于知識質(zhì)量, 但是甄別、對比和理解知識質(zhì)量的信號特征卻是推斷知識質(zhì)量的重要手段[5] 。內(nèi)容評價針對知識單元的實際描述, 根據(jù)分結(jié)構(gòu)化訪談結(jié)果, 圖1 將表1中的“新穎性” 和“創(chuàng)新性” 統(tǒng)稱為“創(chuàng)新性”,將“可驗性” 和“科學(xué)性” 統(tǒng)稱為“科學(xué)性”。因為在訪談過程中, 大部分被訪談?wù)哒J(rèn)為知識主題的新穎程度也屬于廣泛意義上的創(chuàng)新程度。本文結(jié)合文獻(xiàn)[31]中將學(xué)術(shù)創(chuàng)新劃分為“大創(chuàng)新” 和“小創(chuàng)新”, 即從創(chuàng)新的理論本身出發(fā), 不管是主題性的“大創(chuàng)新” 還是方法上的“小創(chuàng)新”, 均屬于創(chuàng)新的范疇, 因此將“新穎性” 和“創(chuàng)新性” 統(tǒng)稱為“創(chuàng)新性”。另外, 在小型座談會中, 被訪談?wù)咭恢抡J(rèn)為“可驗性” 可以歸屬于“科學(xué)性”, 因為如果不能通過實際操作來檢驗的知識內(nèi)容, 則知識內(nèi)容缺乏說服力, 也無法稱為知識。在此基礎(chǔ)上,本文參考文獻(xiàn)[44-45]中的想法———可驗性是檢驗內(nèi)容是否科學(xué)的重要指標(biāo)之一, 將表1 中的“可驗性” 指標(biāo)歸類于“科學(xué)性” 指標(biāo)。效應(yīng)評價針對知識單元的應(yīng)用效果, 本文將其劃分為實際作用、有效程度和影響范圍。
2.2 指標(biāo)體系的檢測與分析
2.2.1 問卷設(shè)計與發(fā)放
為進(jìn)一步驗證指標(biāo)體系的可行性和合理性, 本文通過在網(wǎng)絡(luò)和實地發(fā)放調(diào)查問卷, 獲取科研人員針對不同評價指標(biāo)的真實態(tài)度。由于問卷的發(fā)放目的是探究知識單元的質(zhì)量評價指標(biāo)體系, 涉及到學(xué)術(shù)文獻(xiàn)中的知識單元使用及評價, 因此調(diào)查對象需要對學(xué)術(shù)研究具有一定了解。鑒于此, 本文通過設(shè)置“是否參與過科研工作” 這一選項過濾出有效問卷; 并且, 為了保證調(diào)查文件的數(shù)據(jù)可靠, 降低被試者的習(xí)慣性好評或壞評, 本文對量表中的每個問題設(shè)置了正反面, 根據(jù)正反面的得分情況再一次篩選出有效問卷。有效問卷篩選規(guī)則為“是否參與過科研工作” =“是”, 正反面回答的平均得分位于區(qū)間[2.5,3.5]。最終, 本文總計回收的調(diào)查問卷324 份, 其中有效問卷200 份。以這些數(shù)據(jù)為基礎(chǔ), 本文根據(jù)信度分析和效度分析的常規(guī)流程, 對圖1 中由初選結(jié)果構(gòu)建的指標(biāo)體系進(jìn)行完善。
首先, 檢測有效問卷的可靠性, 計算Alpha 為0.755(<0.7,0.8>), 說明量表中具有較高的內(nèi)在一致性。然后, 依據(jù)KMO 檢驗和Bartlett 球形檢驗,以檢測問卷數(shù)據(jù)是否適合做因子分析, 如表2 所示。其中, KMO 值為0.754(>0.6); 球形檢驗顯著性為0.000(<0.005), 表明量表數(shù)據(jù)具有效度。
2.2.2 探索性因子分析
使用SPSS 23.0 對隨機選取的102 份有效問卷進(jìn)行探索性因子分析。首先計算每個因子的正反面平均得分, 以此作為每個因子分析的輸入數(shù)據(jù)。每個因子記為Ki , 對應(yīng)圖1 中的具體指標(biāo)。然后選擇“主成分分析” 方法, 提取特征值大于1 的因子, 并選取“最大方差法” 獲得旋轉(zhuǎn)后的成分矩陣如表3 所示。
由表3 可知, 形式評價包括知識來源K1、知識認(rèn)證K2、知識推介K3 和相容性K5; 內(nèi)容評價包括準(zhǔn)確性K4 和科學(xué)性K7; 效用評價包括實際作用K8、有效程度K9、影響范圍K10。創(chuàng)新性K6 的最高值為0.464<0.5, 效度較低, 因此將該指標(biāo)刪除。表3 結(jié)果與圖1 中的指標(biāo)體系較為相符, 接下來結(jié)合驗證性因子對指標(biāo)體系進(jìn)行修正和確立。后續(xù)2.3 小節(jié)將針對指標(biāo)的修改給出合理解釋。
2.2.3 驗證性因子分析
使用IBM SPSS Amos 21.0 工具進(jìn)行驗證性因子分析, 即利用剩下的98 份有效問卷對3 個潛變量、9 個觀測變量和9 個殘差變量的模型進(jìn)行效度驗證。本文采用最大似然估計(Maximum Likeli?hood)得到因子載荷系數(shù)如表4 所示。
表4 展示了不同因子與關(guān)聯(lián)變量間的相關(guān)關(guān)系, 通常使用標(biāo)準(zhǔn)化載荷系數(shù)來表示相關(guān)關(guān)系。從P 值可以看出, P(K1 )= 0.372>0.001, 并且其標(biāo)準(zhǔn)化載荷系數(shù)僅為0.104<0.4, 說明K1 與F1 之間的對應(yīng)關(guān)系非常弱, 需從F1 中移除; K5 的標(biāo)準(zhǔn)化載荷系數(shù)為0.369<0.4, 說明K5 與F1 之間的對應(yīng)關(guān)系也較弱, 可將其從F1 中移除。移除K1、K5 指標(biāo)之后, 本文得到的模型擬合指標(biāo)結(jié)果如表5 所示。表5 數(shù)據(jù)顯示, 移除指標(biāo)后的模型擬合程度相對較好。
2.3 指標(biāo)體系的修正與確立
本文綜合考慮了探索性因子分析和驗證性因子分析的計算結(jié)果, 調(diào)整了最初的知識單元質(zhì)量評價指標(biāo)體系, 如圖2 所示。圖2 與圖1 的前期結(jié)果相比, 知識來源K1、相容性K5 和創(chuàng)新性K6 經(jīng)過信度和效度的測驗, 均已移除。從這一結(jié)果來看, 科研人員在利用知識時, 更加關(guān)注知識的準(zhǔn)確性和效用, 而知識來源和相容性相對來說不是很重要; 此外, 檢測結(jié)果顯示知識單元的創(chuàng)新性需要從指標(biāo)體系中移除。筆者認(rèn)為這一原因在于: 知識單元的質(zhì)量評價體系不等同于學(xué)術(shù)評價體系, 知識單元作為最小、獨立的知識單位, 是存在于人類知識庫中結(jié)構(gòu)化的有價值信息, 其中強調(diào)的知識并非必須具有創(chuàng)新性, 而是必須具有科學(xué)性, 因此知識的創(chuàng)新性在知識單元的質(zhì)量評價體系中未被領(lǐng)域?qū)<抑匾暋?/p>
3 融合專家意見的知識質(zhì)量自動化計量方法
當(dāng)前學(xué)術(shù)評價的主要方式是專家評審, 這不僅需要大量評審專家, 耗時、耗力, 而且受主觀偏見、研究方向等因素影響。如果能夠由計算機自動化完成評價過程, 并給出評價結(jié)果的分析報告, 可以在一定程度上解決上述問題。本文設(shè)計了知識單元質(zhì)量的自動化評估思路, 如圖3 所示。
首先, 從輸入數(shù)據(jù)中提取各計量指標(biāo)對應(yīng)的質(zhì)量特征x; 然后, 構(gòu)建回歸模型刻畫知識單元的質(zhì)量特征x 和預(yù)測結(jié)果p 之間的潛在關(guān)系, 并通過模型訓(xùn)練確定各評價指標(biāo)的實際參數(shù); 最后, 選取優(yōu)化算法不斷縮小預(yù)測結(jié)果p 與專家評分y 之間的誤差數(shù)值, 實現(xiàn)專家評測結(jié)果與自動計量結(jié)果趨于一致。
3.1 評價指標(biāo)的獲取與量化
3.1.1 形式評價維度計量指標(biāo)
1) 知識認(rèn)證
知識單元是組成知識的基本單元, 對其認(rèn)證可依據(jù)其載體的認(rèn)證結(jié)果。學(xué)術(shù)期刊是知識單元的重要載體, 其影響因子雖可在一定程度上揭示學(xué)術(shù)期刊的實際水平, 但容易受到單篇高被引論文影響。