基于關(guān)鍵詞價值細(xì)分的高價值熱點(diǎn)主題識別方法研究

2022-03-07 08:29:30孫佳佳李雅靜

情報(bào)學(xué)報(bào) 2022年2期

孫佳佳，李雅靜

（武漢大學(xué)信息管理學(xué)院，武漢 430072）

1 引言

近年來，關(guān)鍵詞的相關(guān)研究一直是各學(xué)科領(lǐng)域關(guān)注的熱點(diǎn)。關(guān)鍵詞是研究成果的高度概括性表達(dá)，體現(xiàn)了其核心思想或重點(diǎn)內(nèi)容。研究關(guān)鍵詞分布情況、演化趨勢等規(guī)律，有助于揭示學(xué)科發(fā)展動態(tài)和領(lǐng)域前沿。當(dāng)前，已有研究大多是運(yùn)用共詞分析[1]、詞頻分析[2]或知識圖譜[3]等方法，揭示某個領(lǐng)域內(nèi)、某個時期內(nèi)的學(xué)科熱點(diǎn)或主題演化，這些方法的本質(zhì)是關(guān)鍵詞頻次及其共現(xiàn)次數(shù)的研究，鮮有學(xué)者在同時考慮關(guān)鍵詞的價值屬性和生存周期的基礎(chǔ)上，研究熱點(diǎn)主題的識別。關(guān)鍵詞是文獻(xiàn)主題的外在體現(xiàn)，在某個研究領(lǐng)域內(nèi)，其頻次的累計(jì)反映該主題的熱點(diǎn)程度，并未反映出該主題的價值高低，且隨著時間的推移，頻次不斷地發(fā)生變化[4]，呈現(xiàn)出一定的生命周期[5]。因此，對關(guān)鍵詞進(jìn)行價值細(xì)分，并考慮關(guān)鍵詞生命周期，有助于發(fā)現(xiàn)高價值熱點(diǎn)主題。本文所論述的關(guān)鍵詞，皆指作者關(guān)鍵詞，即在撰寫文獻(xiàn)過程中，由作者提煉或標(biāo)注出來的一系列關(guān)鍵詞匯[6]。

價值細(xì)分在客戶營銷領(lǐng)域一直是研究重點(diǎn)，指以客戶價值為細(xì)分指標(biāo)，根據(jù)客戶價值的大小，將所有客戶分為具有不同價值的客戶群體[7]。企業(yè)或者機(jī)構(gòu)以此為依據(jù)，制定最優(yōu)的客戶管理策略。當(dāng)前，價值細(xì)分已被廣泛應(yīng)用于工商管理、信息科學(xué)以及社會科學(xué)等多個領(lǐng)域，在圖書情報(bào)與檔案管理領(lǐng)域（下文簡稱“圖情檔領(lǐng)域”）也有學(xué)者開始關(guān)注，特別是RFM（recency，frequency，monetary）模型，在圖書館用戶與精準(zhǔn)服務(wù)[8]、情報(bào)學(xué)用戶與知識共享[9]等研究領(lǐng)域已經(jīng)有了相應(yīng)的研究。

生存分析（survival analysis）起源于生物醫(yī)學(xué)研究領(lǐng)域，將事件出現(xiàn)終點(diǎn)所經(jīng)歷的時間（即sur‐vival time，生存時間）作為標(biāo)準(zhǔn)，分析各種影響因素的現(xiàn)代統(tǒng)計(jì)方法，也稱為風(fēng)險模型或者持續(xù)模型（hazard model/duration model）[10]。生存分析在分析過程中考慮了研究目標(biāo)的生命周期，可以深刻地反映一段時期內(nèi)各種因素對研究目標(biāo)的影響程度，因此，在醫(yī)藥衛(wèi)生科技、工程科技及信息科技等學(xué)科領(lǐng)域，生存分析都得到了廣泛的關(guān)注和應(yīng)用。生存分析方法基于生命周期的核心理念，在圖情檔領(lǐng)域的主題識別[11]、文獻(xiàn)老化[12]等方面都有所應(yīng)用。

本文將營銷領(lǐng)域的客戶價值細(xì)分RFM模型和醫(yī)學(xué)領(lǐng)域廣泛使用的生存分析方法結(jié)合起來，引入到圖情檔領(lǐng)域，形成跨學(xué)科研究方法，深入探討該方法的適用性和合理性，將客戶價值細(xì)分的研究對象遷移到關(guān)鍵詞，形成多方位、多角度的關(guān)鍵詞價值細(xì)分結(jié)果，對學(xué)科領(lǐng)域的高價值研究熱點(diǎn)進(jìn)行識別，以期為圖情檔領(lǐng)域關(guān)鍵詞和主題的相關(guān)研究提供一種新的方法和思路。

2 相關(guān)研究

本文將兩個不同領(lǐng)域的研究方法結(jié)合起來，以作者關(guān)鍵詞為研究對象，探討高價值熱點(diǎn)主題的識別方法。因此，本文主要梳理圖情檔領(lǐng)域價值細(xì)分、生存分析以及熱點(diǎn)主題發(fā)現(xiàn)相關(guān)的研究。

2.1 價值細(xì)分相關(guān)研究

價值細(xì)分在客戶管理工作中具有重要作用，具體表現(xiàn)在客戶識別、客戶策略制定及客戶忠誠度分析等方面。在圖情檔領(lǐng)域，研究者主要運(yùn)用價值細(xì)分的理論和方法，來解決圖書館評價體系、大數(shù)據(jù)服務(wù)平臺建設(shè)、用戶信息行為分析等問題。在圖書館評價體系方面，陳宇奇等[13]將RFM模型進(jìn)行適用性改進(jìn)，應(yīng)用到圖書館圖書評價體系的研究中，對完善圖書評價體系和提高圖書館用戶服務(wù)具有重要意義；張海營[14]引入RFM模型探索構(gòu)建圖書評價系統(tǒng)；在用戶及用戶行為方面，樂承毅等[15]構(gòu)建改進(jìn)RFM模型，為高校圖書館用戶構(gòu)建畫像，深入研究了高校圖書館用戶行為和偏好；趙洪波[16]將RFM模型應(yīng)用于高校圖書館的精準(zhǔn)服務(wù)，以期為用戶提供更加優(yōu)質(zhì)的服務(wù)；在大數(shù)據(jù)服務(wù)平臺建設(shè)方面，邢海龍等[17]將價值細(xì)分模型應(yīng)用到大數(shù)據(jù)服務(wù)平臺，構(gòu)建改進(jìn)RFM模型對用戶進(jìn)行價值識別；李杭[18]將RFM模型應(yīng)用于圖書質(zhì)量評價系統(tǒng)的實(shí)現(xiàn)中，是較為新穎的研究思路。從上述研究可以看出，RFM模型在價值細(xì)分研究方法中應(yīng)用較為廣泛，且在圖情檔領(lǐng)域也有較多應(yīng)用。

2.2 生存分析相關(guān)研究

在生物醫(yī)學(xué)領(lǐng)域，生存分析方法已經(jīng)得到非常廣泛的應(yīng)用，特別是在分析患有某種疾病人群的生存率及影響因素方面[19]，有相當(dāng)多的研究成果。生存分析方法的優(yōu)勢在于考慮了目標(biāo)客體的某事件結(jié)束的時間因素及周期性，這使得揭示影響因素時可以進(jìn)行多組對比。近年來，在工程學(xué)、社會科學(xué)等領(lǐng)域也有研究者關(guān)注并使用該方法。在圖情檔領(lǐng)域，生存分析主要應(yīng)用于引文分析、專利研究及互聯(lián)網(wǎng)用戶數(shù)據(jù)分析等方面。例如，張中文等[20]將生存分析方法引入論文被引次數(shù)的研究，提出了學(xué)術(shù)論文生存被引次數(shù)的概念；宋爽等[21]探討了生存分析應(yīng)用于專利維持研究的適用性和有效性；鄭為益[22]使用生存分析方法構(gòu)建了客戶流失模型，為客戶流失問題提供了一種新的解決方案；賴院根等[23]在考慮信息服務(wù)特點(diǎn)的基礎(chǔ)上，使用生存分析方法對用戶生存狀況和影響因素進(jìn)行了研究。

2.3 熱點(diǎn)主題識別相關(guān)研究

熱點(diǎn)主題識別（hot topic detection，HTD）指將一系列文檔按照其主題分組以后，找到一段時間內(nèi)頻繁出現(xiàn)的主題集[24]。熱點(diǎn)主題反映某個學(xué)科或者研究領(lǐng)域在某個時間段內(nèi)，研究者們關(guān)注的重點(diǎn)內(nèi)容。熱點(diǎn)主題識別立足于生命周期理論，對于揭示研究熱點(diǎn)和進(jìn)展具有重要作用。國內(nèi)外對于熱點(diǎn)主題識別的研究主要集中于計(jì)算機(jī)算法設(shè)計(jì)和具體應(yīng)用上。在算法設(shè)計(jì)方面，Sun等[25]針對短信的文本特征，提出了一種基于特征關(guān)聯(lián)分析的短信熱點(diǎn)提取算法；Zhu等[26]對TF-IDF（term frequency-inverse document frequency）算法進(jìn)行改進(jìn)，提出了一種基于時間分布和用戶關(guān)注度的熱點(diǎn)主題識別算法TA TF-IDF；張申旭等[27]通過情感分析和LDA（latent Dirichlet allocation）構(gòu)建模型，提出了基于多特征的微博熱點(diǎn)主題發(fā)現(xiàn)算法，并通過實(shí)驗(yàn)驗(yàn)證了該算法的有效性；陸蓓等[28]將對蟻群聚類算法進(jìn)行改進(jìn)，并提出了類別關(guān)注度（category attention degree，CAD）的概念，實(shí)現(xiàn)了熱點(diǎn)主題集的抽取工作。在具體應(yīng)用方面，研究者們著重將已有研究方法應(yīng)用于互聯(lián)網(wǎng)信息平臺以及學(xué)術(shù)研究領(lǐng)域。例如，王林等[29]通過構(gòu)造基于興趣的論壇用戶網(wǎng)絡(luò)，將社區(qū)結(jié)構(gòu)發(fā)現(xiàn)的理論和方法應(yīng)用于社區(qū)論壇的熱點(diǎn)主題發(fā)現(xiàn)研究中，獲得了較好的實(shí)驗(yàn)效果；唐果等[30]將熱點(diǎn)主題發(fā)現(xiàn)作為一種方法，應(yīng)用于BBS（bulletin board system）文本聚類的研究中；吳立峰[31]將復(fù)雜網(wǎng)絡(luò)的自相似性應(yīng)用于BBS興趣網(wǎng)絡(luò)，通過仿真實(shí)驗(yàn)將其運(yùn)用于BBS網(wǎng)絡(luò)中的熱點(diǎn)主題發(fā)現(xiàn)，驗(yàn)證了方法的有效性。

綜上所述，熱點(diǎn)主題識別研究一直是國內(nèi)外研究者關(guān)注的重點(diǎn)，其識別結(jié)果是由一系列表達(dá)文檔核心含義且在一段時間內(nèi)被高頻關(guān)注的關(guān)鍵詞所組成的主題集合。已有研究大多聚焦于算法設(shè)計(jì)和理論方法應(yīng)用等方面，鮮有研究從細(xì)粒度的角度，對關(guān)鍵詞的價值進(jìn)行研究，實(shí)現(xiàn)高價值熱點(diǎn)主題的識別。從第2.1節(jié)可知，價值細(xì)分在圖情檔領(lǐng)域已經(jīng)有較多研究成果，且RFM模型是廣泛應(yīng)用的模型之一；從第2.2節(jié)可知，生存分析方法在應(yīng)用時重點(diǎn)關(guān)注事物的生命周期，這與熱點(diǎn)主題識別立足于生命周期理論的出發(fā)點(diǎn)是相同的。鑒于上述因素，本文從細(xì)粒度的角度，提出動態(tài)權(quán)重的RFM模型，對關(guān)鍵詞進(jìn)行價值細(xì)分，并在此基礎(chǔ)上對不同價值層次的關(guān)鍵詞進(jìn)行生存分析，通過Logrank檢驗(yàn)，確定最優(yōu)的價值細(xì)分結(jié)果，依據(jù)帕累托法則[32]確定熱點(diǎn)關(guān)鍵詞集合，通過聚類算法實(shí)現(xiàn)具有價值區(qū)分度的熱點(diǎn)主題識別。

3 基于關(guān)鍵詞價值細(xì)分的學(xué)科熱點(diǎn)主題識別方法

3.1 識別方法概述

本文在構(gòu)建關(guān)鍵詞RFM模型的基礎(chǔ)上，充分考慮近度、頻度、值度三個指標(biāo)的權(quán)重，實(shí)現(xiàn)動態(tài)權(quán)重，在多次實(shí)驗(yàn)的情況下，結(jié)合生存分析函數(shù)（survival function）和Logrank檢驗(yàn)，確定最優(yōu)的權(quán)重參數(shù)，實(shí)現(xiàn)關(guān)鍵詞價值細(xì)分，識別高價值關(guān)鍵詞，具體構(gòu)建流程如圖1所示。

圖1 識別方法構(gòu)建流程

數(shù)據(jù)是可行性研究的基礎(chǔ)，足夠準(zhǔn)確的數(shù)據(jù)是研究工作得出科學(xué)可靠的研究結(jié)論的前提。秉承上述原則，在數(shù)據(jù)層中，凡是涉及數(shù)據(jù)處理的操作，全部使用Python語言編寫程序，實(shí)現(xiàn)數(shù)據(jù)的自動化處理，避免人工處理可能造成的數(shù)據(jù)失真。其中，數(shù)據(jù)搜集環(huán)節(jié)對目標(biāo)數(shù)據(jù)源數(shù)據(jù)進(jìn)行搜集與存儲；數(shù)據(jù)預(yù)處理環(huán)節(jié)對所采集到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理，去除不滿足實(shí)驗(yàn)要求的條目；提取特征環(huán)節(jié)針對本文模型和方法的要求，將隱性信息提取為顯性特征數(shù)據(jù)。

核心層是整個實(shí)驗(yàn)的關(guān)鍵環(huán)節(jié)，經(jīng)過對R、F、M三個指標(biāo)進(jìn)行動態(tài)權(quán)重實(shí)驗(yàn)，在計(jì)算RFM評分的基礎(chǔ)上，結(jié)合生存分析函數(shù)，確定出最為合適的權(quán)重值，從而得到價值細(xì)分層次。

識別層的功能是高價值熱點(diǎn)主題的識別。在RFM模型的設(shè)計(jì)原則中，價值細(xì)分層次的最上層為高價值層次，據(jù)此得到高價值關(guān)鍵詞。將該層中的關(guān)鍵詞按照頻次進(jìn)行降序排序，依據(jù)帕累托法則，20%的成員貢獻(xiàn)了80%的價值，本文選取排序結(jié)果中前20%的關(guān)鍵詞作為熱點(diǎn)關(guān)鍵詞，計(jì)算關(guān)鍵詞的相似度矩陣，通過K-means++算法進(jìn)行主題聚類，識別出高價值熱點(diǎn)主題。

3.2 識別關(guān)鍵技術(shù)

3.2.1 構(gòu)建關(guān)鍵詞RFM模型

1）關(guān)鍵詞價值及價值細(xì)分的定義

目前，國內(nèi)外關(guān)鍵詞價值的相關(guān)研究較少，還未形成統(tǒng)一的定義。Nishikido等[33]對關(guān)鍵詞的動態(tài)演化進(jìn)行了研究，提出了關(guān)鍵詞價值主要體現(xiàn)在其在網(wǎng)絡(luò)中的關(guān)系上，并在實(shí)驗(yàn)中驗(yàn)證了關(guān)鍵詞價值隨著時間和網(wǎng)絡(luò)關(guān)系的變化而變化。在信息檢索研究領(lǐng)域，關(guān)鍵詞價值研究主要在搜索引擎推廣方面。例如，Byers等[34]提出，在搜索引擎的廣告活動中，關(guān)鍵詞價值主要體現(xiàn)在貨幣價值上；Hou等[35]使用貝葉斯網(wǎng)絡(luò)設(shè)計(jì)了關(guān)鍵詞競標(biāo)價值預(yù)測模型，考慮了關(guān)鍵詞的出價、點(diǎn)擊次數(shù)和時間等維度。從上述研究中可以得到啟示，關(guān)鍵詞價值與時間、頻次、價格及網(wǎng)絡(luò)關(guān)系密切相關(guān)。此外，李劍鋒[36]認(rèn)為，價值是指客體能夠滿足主體需要的那些功能和屬性?；诖耍疚膶﹃P(guān)鍵詞價值的概念進(jìn)行闡述：關(guān)鍵詞價值是指關(guān)鍵詞的時間、頻次及經(jīng)濟(jì)效益等屬性對主體或使用者的有效性和有益性。

Kamakura等[37]認(rèn)為，價值細(xì)分是對群體進(jìn)行劃分，從而識別出具有正向意義和經(jīng)濟(jì)意義的部分。結(jié)合關(guān)鍵詞價值的概念，關(guān)鍵詞的價值細(xì)分是指通過對關(guān)鍵詞的時間、頻次、經(jīng)濟(jì)效益等屬性進(jìn)行綜合考慮，按照一定的規(guī)則和方法，對關(guān)鍵詞集合進(jìn)行劃分，從而識別出影響力、有效性或有益性更大的部分。秦嘉杭[38]認(rèn)為，學(xué)術(shù)價值是國家社科基金項(xiàng)目的研究成果（論文、專著等形式）的特征之一，而關(guān)鍵詞表達(dá)了研究成果的核心內(nèi)容，因此，關(guān)鍵詞具有一定的學(xué)術(shù)價值。本文立足于中文社會科學(xué)引文索引（Chinese Social Sciences Citation In‐dex，CSSCI）期刊論文的關(guān)鍵詞數(shù)據(jù)，通過綜合考慮頻次、時間以及基金項(xiàng)目次數(shù)，識別出對研究者進(jìn)行項(xiàng)目申請選題、把握學(xué)科動態(tài)具有指導(dǎo)意義的關(guān)鍵詞集合，可以看出，關(guān)鍵詞的價值是對使用者和研究者的價值。

2）關(guān)鍵詞RFM模型定義

傳統(tǒng)RFM模型由Hughes[39]于1994年提出，是企業(yè)根據(jù)顧客數(shù)據(jù)庫中的交易信息記錄對顧客價值進(jìn)行識別和評估的模型，包括三種指標(biāo)：近度（R）、頻率（F）和額度（M）。其中，R表示最近一次購買時間離樣本數(shù)據(jù)截止日的時間距離，F(xiàn)表示研究期限內(nèi)（樣本的時間跨度）的購買次數(shù)，M表示購買總金額[39]。本文的研究目的與該模型相似，將關(guān)鍵詞視為“顧客”，識別其價值能夠預(yù)測出未來相應(yīng)主題的發(fā)展方向，因此，采用該模型具有合理性。相應(yīng)地，本文將R用關(guān)鍵詞最近出現(xiàn)離實(shí)驗(yàn)數(shù)據(jù)截止的時間距離表示；F用實(shí)驗(yàn)數(shù)據(jù)時間跨度內(nèi)出現(xiàn)的總頻次表示；M則用關(guān)鍵詞所在文獻(xiàn)獲基金資助的頻次表示。一般來說，基金項(xiàng)目是由國家部署實(shí)施的科技創(chuàng)新驅(qū)動規(guī)劃方針，往往代表前瞻性和探索性，有利于情報(bào)跟蹤和推動學(xué)科研究，也有較多研究從基金項(xiàng)目的角度出發(fā)，研究主題的識別。例如，楊辰毓妍等[40]基于國家社會科學(xué)基金和國家自然科學(xué)基金項(xiàng)目，用科學(xué)計(jì)量的方法研究了圖情檔學(xué)科的知識結(jié)構(gòu)和主題；張蒙等[41]對國家社會科學(xué)基金項(xiàng)目的圖書館、情報(bào)與文獻(xiàn)學(xué)學(xué)科進(jìn)行了熱點(diǎn)可視化分析；王效岳等[42]從基金項(xiàng)目和論文數(shù)據(jù)出發(fā)，在考慮項(xiàng)目資助因素的情況下，提出了一種前瞻性和更高價值主題識別方法。因此，本文認(rèn)為獲得的基金資助次數(shù)越多的文獻(xiàn)，其關(guān)鍵詞的價值越高。最終，得到關(guān)鍵詞RFM模型指標(biāo)體系，如表1所示。為了綜合衡量關(guān)鍵詞的價值程度，引入加權(quán)平均數(shù)的計(jì)算思想，給出RFM score的計(jì)算方法，即

表1 關(guān)鍵詞R、F和M特征的定義與影響

其中，R、F、M分別為關(guān)鍵詞的近度、頻度和值度；wr、wf、wm分別為R、F、M的權(quán)重，取值范圍為(0,1)，且滿足wr+wf+wm=1。三個特征分?jǐn)?shù)的計(jì)算公式為

其中，X表示指標(biāo)R、F、M；L表示價值細(xì)分總層次數(shù)，本文中L=5；N為排序等分后，關(guān)鍵詞所在的層次數(shù)。

RFM模型每個指標(biāo)得分實(shí)現(xiàn)步驟：①計(jì)算每個作者關(guān)鍵詞的R、F和M的特征值；②對所有作者關(guān)鍵詞分別按照R、F、M特征值進(jìn)行排序；③本文的指標(biāo)賦值標(biāo)準(zhǔn)依據(jù)Hughes的五等分思想，將三個指標(biāo)分別進(jìn)行排序，按照公式(2)得到每個關(guān)鍵詞的R、F、M指標(biāo)得分；④依據(jù)公式(1)計(jì)算每個關(guān)鍵詞的價值得分（RFM score）。

3）關(guān)鍵詞價值層次定義

在對關(guān)鍵詞劃分層次以后，需要在理論上對關(guān)鍵詞價值層次進(jìn)行定義。Ha等[43]提出自組織特征映射網(wǎng)絡(luò)（self-organizing feature map，SOM）對客戶RFM指標(biāo)進(jìn)行分類，將客戶的價值劃分為重要和一般價值客戶、重要發(fā)展和保持客戶、一般發(fā)展和保持客戶、重要和一般挽留客戶共8種價值類型。該分類方法更加適用于以客戶為研究對象的領(lǐng)域，本文以關(guān)鍵詞為研究對象，對該方法進(jìn)行適用性改進(jìn)。參考楊琳等[44]的細(xì)分方法，結(jié)合本文的5等分思想，將關(guān)鍵詞的價值層次分為5層，其定義如表2所示。

表2 關(guān)鍵詞價值層次定義

3.2.2 最優(yōu)RFM指標(biāo)權(quán)重確定方法

為了對關(guān)鍵詞進(jìn)行價值細(xì)分更具有區(qū)分度，需要確定最優(yōu)RFM權(quán)重。具體過程分為三個步驟：①動態(tài)調(diào)整RFM模型每個指標(biāo)的權(quán)重值，計(jì)算RFM score，共37種組合；②對每一種結(jié)果依據(jù)RFM score降序排序，劃分為5等份，得到關(guān)鍵詞價值細(xì)分層次；③引入生存分析方法，考量不同價值層中關(guān)鍵詞的生存函數(shù)，畫出Kaplan-Meier曲線，采用觀察法和對比法進(jìn)行篩選，利用Logrank檢驗(yàn)驗(yàn)證結(jié)果，得到最優(yōu)RFM權(quán)重，確定最優(yōu)價值細(xì)分層次。下文將對以上步驟的實(shí)現(xiàn)方法進(jìn)行詳細(xì)敘述。

1）計(jì)算關(guān)鍵詞RFM score

在大多數(shù)RFM模型應(yīng)用中，識別客戶價值時認(rèn)為各指標(biāo)權(quán)重相同，也有學(xué)者質(zhì)疑三個權(quán)重同樣重要的假定，認(rèn)為學(xué)者應(yīng)根據(jù)研究目的彈性設(shè)定指標(biāo)權(quán)重[45]。因此，為了解決三個指標(biāo)所占權(quán)重不一致問題，學(xué)者一般采用的價值權(quán)重設(shè)置原則是R、F、M三個指標(biāo)的權(quán)重相加等于1[46]，即wr+wf+wm=1。需要說明的是，當(dāng)前確定權(quán)重采取的方法主要是主觀賦值法[47]和層次分析法[48]；也有學(xué)者結(jié)合其他方法確定權(quán)重，如熵權(quán)法[49]；較少有學(xué)者采用枚舉法。由于當(dāng)前缺乏可參考的文獻(xiàn)，且枚舉法求取最優(yōu)解具有較高的效率和較大的準(zhǔn)確性，因此，本文采用枚舉法，遍歷所有可能存在的情況。令wr、wf、wm在(0,1)的范圍內(nèi)取值，開區(qū)間保證三個指標(biāo)同時存在，分別枚舉三個權(quán)重的值，得到多組權(quán)重組合，依據(jù)公式(1)和公式(2)，計(jì)算每個作者關(guān)鍵詞的RFM score。

2）確定最優(yōu)RFM權(quán)重與關(guān)鍵詞價值細(xì)分層次

在計(jì)算每個作者關(guān)鍵詞的RFM score以后，按照得分從高到低進(jìn)行排序，然后對排序列表進(jìn)行5等分，得到作者關(guān)鍵詞價值細(xì)分結(jié)果。該過程動態(tài)調(diào)整RFM權(quán)重，得到多組實(shí)驗(yàn)結(jié)果，考慮到時間因素影響，如果某關(guān)鍵詞最近出現(xiàn)的時間較近，次數(shù)卻不高，那么可能會影響識別結(jié)果。在圖情檔領(lǐng)域，已有學(xué)者使用生存分析函數(shù)分析作者關(guān)鍵詞的生存狀況以及衡量關(guān)鍵詞的生命周期[19]，因此，為了排除關(guān)鍵詞時間因素的影響，本文引入生存分析方法，對價值細(xì)分層次繪制Kaplan-Meier曲線，使用Logrank驗(yàn)證來確定最優(yōu)的RFM權(quán)重和價值細(xì)分層次。Kaplan-Meier曲線是對Kaplan-Meier估計(jì)量[50]（也稱為乘積極限估計(jì)量）的圖形化表達(dá)，該估計(jì)量是一種非參數(shù)統(tǒng)計(jì)量，用于從具有生命周期的數(shù)據(jù)集中估計(jì)生存函數(shù)。在醫(yī)學(xué)領(lǐng)域研究中，經(jīng)常被用來測量患病人在治療后一定時間內(nèi)的存活率，近年來也被廣泛應(yīng)用在其他領(lǐng)域，例如，衡量人們失業(yè)后處于失業(yè)狀態(tài)的時間長度[51]。生存函數(shù)Ka‐plan-Meier估計(jì)量的數(shù)學(xué)表達(dá)式為

其中，ti表示發(fā)生終點(diǎn)事件的時間；di表示在時間點(diǎn)ti發(fā)生終點(diǎn)事件的個體數(shù)量；ni表示已知存活到時間ti的個體總數(shù)。

Logrank驗(yàn)證也稱為對數(shù)秩檢驗(yàn)，是一種統(tǒng)計(jì)分析測試方法，用于比較兩個或者多個組別之間的生存函數(shù)是否具有顯著差異性，該檢驗(yàn)的原假設(shè)為各組別的生存函數(shù)之間沒有顯著差異性，在檢測結(jié)果中，如果P<0.005，則拒絕原假設(shè)，表明各個組別的生存函數(shù)具有顯著性差異。

對各個價值細(xì)分組別的生存曲線可視化以后，本文采用觀察法和對比法篩選出曲線劃分最為明顯的實(shí)驗(yàn)結(jié)果，并使用Logrank檢驗(yàn)各個組別生存函數(shù)是否具有顯著性差異，從而確定最優(yōu)的價值細(xì)分結(jié)果以及對應(yīng)的RFM權(quán)重。

4 實(shí)證研究

4.1 數(shù)據(jù)源

本文選取中文社會科學(xué)引文索引（CSSCI）作為數(shù)據(jù)源，以期刊名稱為檢索對象，將檢索條件設(shè)置為精確匹配，檢索1998—2019年共22年的文獻(xiàn)題錄數(shù)據(jù)。期刊名稱來源于《CSSCI來源期刊（2019—2020）目錄》，“圖書館、情報(bào)與文獻(xiàn)學(xué)”學(xué)科上榜的20種期刊。數(shù)據(jù)搜集下載時間為2020/04/13—2020/04/14，共搜集到83369條題錄數(shù)據(jù)，共包含關(guān)鍵詞321020個，去重合并后共86344個。圖2是文章數(shù)目、作者數(shù)目、關(guān)鍵詞數(shù)目隨著時間變化的趨勢。由圖2可以看出，1998—2009年，文章數(shù)目逐年升高，2009年達(dá)到頂峰；之后文章數(shù)目雖呈下降趨勢但較為平穩(wěn)。一般來說，一篇文章對應(yīng)若干個作者和關(guān)鍵詞，因此，作者數(shù)目、關(guān)鍵詞數(shù)目的趨勢由文章數(shù)目的趨勢決定，這也符合上述描述。

圖2 數(shù)據(jù)集變化趨勢

4.2 數(shù)據(jù)處理

按照第3.1節(jié)中的識別方法概述，本文需要對所搜集的數(shù)據(jù)進(jìn)行特征提取。CSSCI題錄數(shù)據(jù)是以文章為單位，將其處理為以關(guān)鍵詞為單位的數(shù)據(jù)形式，僅保留實(shí)驗(yàn)過程需要的數(shù)據(jù)，以JSON格式保存，所包含的具體字段如表3所示。其中，status字段表示該關(guān)鍵詞是否出現(xiàn)終點(diǎn)事件，即若其最后出現(xiàn)的年份小于數(shù)據(jù)集時間年份2019，則用1表示出現(xiàn)終點(diǎn)事件，反之，則用0表示未出現(xiàn)終點(diǎn)事件。

表3 作者關(guān)鍵詞字段示例

4.3 實(shí)驗(yàn)過程

4.3.1 計(jì)算RFM score

依據(jù)第3.2.1節(jié)中的方法，計(jì)算作者關(guān)鍵詞對應(yīng)的R、F和M；按照第3.2.2節(jié)中的方法，對三個維度指標(biāo)的權(quán)重進(jìn)行調(diào)節(jié)，計(jì)算RFM score。為了保證適量的實(shí)驗(yàn)次數(shù)，同時保證后續(xù)實(shí)驗(yàn)易于分析和觀察，本文將每個特征權(quán)重的小數(shù)位數(shù)設(shè)置為1。動態(tài)權(quán)重的RFM score計(jì)算過程如圖3所示，首先令wr在(0,1)的范圍內(nèi)依次取值，然后分別枚舉wf、wm的值，并確保三個權(quán)重的和為1，得到36種權(quán)重值組合；考慮到wr=wf=wm的情況，共37種權(quán)重值組合，使用公式(1)計(jì)算每個關(guān)鍵詞的RFM score。

圖3 動態(tài)權(quán)重RFM score計(jì)算過程

4.3.2 確定最優(yōu)RFM權(quán)重和價值細(xì)分層次

依據(jù)RFM score進(jìn)行關(guān)鍵詞價值細(xì)分，按照降序?qū)ζ渑判?，并劃分?等份，每個關(guān)鍵詞價值細(xì)分層次稱為RFM level。RFM模型考慮了關(guān)鍵詞的近度，但忽略了生命周期對關(guān)鍵詞的影響，因此，使用Python語言編寫程序，對37種權(quán)重組合分別繪制Kaplan-Meier曲線圖，用于考量關(guān)鍵詞的生命周期，將生命周期的長短因素納入到價值細(xì)分層次劃分中，但鑒于篇幅所限，本文挑選出wr在[0.1,0.2,…,0.8]中取值時，每種權(quán)重組合情況下，層次最為明顯的曲線圖，如圖4所示；三個權(quán)重值相等情況下的曲線圖，如圖5所示。從圖4中可以清晰地看出，在權(quán)重值wr、wf和wm分別為0.8、0.1和0.1時，關(guān)鍵詞價值細(xì)分層次的區(qū)分最為明顯，且較為均勻；而其他權(quán)重值組合下，均不滿足價值細(xì)分均勻的條件；在圖5中，三個權(quán)重值相等時，RFM level為1的線條在第1年全部出現(xiàn)終點(diǎn)事件，即該層次下，作者關(guān)鍵詞存在時間過短，因此，排除此種情況。

圖4 動態(tài)權(quán)重價值細(xì)分的Kaplan-Meier曲線圖(部分)(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

圖5 3個權(quán)重值相等情況下價值細(xì)分的Kaplan-Meier曲線圖(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

在初步獲取最優(yōu)RFM權(quán)重以后，還需要使用Logrank檢驗(yàn)進(jìn)行顯著性驗(yàn)證，目的是確定各個價值細(xì)分層次的關(guān)鍵詞生命周期具有顯著性差異，驗(yàn)證結(jié)果如表4所示。可以發(fā)現(xiàn)，各個層次之間的P值均小于0.005，拒絕原假設(shè)（各層次沒有顯著性差異），這說明，在R、F、M三個指標(biāo)的權(quán)重分別為0.8、0.1、0.1時，各個作者關(guān)鍵詞價值細(xì)分層次之間具有顯著性差異。也就是說，最終得到關(guān)鍵詞RFM模型最優(yōu)指標(biāo)權(quán)重如表5所示。

表4 Logrank檢驗(yàn)結(jié)果

表5 關(guān)鍵詞RFM模型最優(yōu)指標(biāo)權(quán)重

4.3.3 高價值熱點(diǎn)主題識別

在得到關(guān)鍵詞的最優(yōu)RFM權(quán)重及價值細(xì)分層次以后，本文將每個層次中的關(guān)鍵詞按照頻次進(jìn)行降序排列，依據(jù)帕累托法則——20%的成員貢獻(xiàn)了80%的價值，從每個價值層次中提取前20%作為熱點(diǎn)關(guān)鍵詞。對熱點(diǎn)關(guān)鍵詞構(gòu)建共現(xiàn)矩陣，并計(jì)算相似度矩陣，使用K-means++算法進(jìn)行聚類，聚類數(shù)目的確定方法是，使用枚舉法在[2,30]范圍內(nèi)多次實(shí)驗(yàn)，依據(jù)Silhouette Coefficient（即輪廓系數(shù)）和SSE（the sum of squares due to error，誤差平方和）評價指標(biāo)確定最合適的聚類數(shù)目。根據(jù)高頻特征詞對聚類所得的各個類別進(jìn)行主題概念概括。表6展示了每個價值層次所提取的熱點(diǎn)主題及其基金支持平均值。其中，位于高價值層次的熱點(diǎn)主題，是本文識別出的高價值熱點(diǎn)主題。

表6 熱點(diǎn)主題識別結(jié)果

4.4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)對高價值熱點(diǎn)主題識別結(jié)果進(jìn)行對比分析和總結(jié)。為了說明實(shí)驗(yàn)的效果，本文增加了基于頻次排序的分類方法作為實(shí)驗(yàn)對照組。首先，從總體上進(jìn)行分析，說明應(yīng)用本文識別方法是有效的；其次，與實(shí)驗(yàn)對照組進(jìn)行對比分析，來說明本文識別出來的熱點(diǎn)主題是具有高價值的，證明有效性；最后，歸納總結(jié)各個價值層次的主題特征。

4.4.1 識別方法的有效性

在第4.3節(jié)中，本文通過使用動態(tài)權(quán)重的RFM模型對關(guān)鍵詞進(jìn)行了價值細(xì)分，同時，為了考慮生命周期對關(guān)鍵詞價值細(xì)分的影響，引入生存分析Kaplan-Meier曲線對多組實(shí)驗(yàn)結(jié)果進(jìn)行篩選，最終識別出高價值熱點(diǎn)關(guān)鍵詞，通過聚類算法得到高價值熱點(diǎn)主題。為了對第4.3.3節(jié)中的結(jié)果加以解釋和說明，本文再次對數(shù)據(jù)集中的關(guān)鍵詞進(jìn)行處理，采用傳統(tǒng)的基于詞頻提取重要關(guān)鍵詞的方法，對關(guān)鍵詞降序排列，分為5等份，稱為頻次分類。對比價值細(xì)分和頻次細(xì)分兩組實(shí)驗(yàn)結(jié)果，如圖6所示，可以看出，與頻次分類方法相比，價值細(xì)分方法在考慮了關(guān)鍵詞的近度和值度特征后，有31%的關(guān)鍵詞層級升高，16%的關(guān)鍵詞層級降低。其中，有6%的關(guān)鍵詞降低了1個層級，1%降低了4個層級?？梢缘贸鼋Y(jié)論，關(guān)鍵詞的近度和值度對價值的衡量存在影響，本文提出的識別方法具有有效性。

圖6 對比實(shí)驗(yàn)下關(guān)鍵詞等級變化情況

4.4.2 關(guān)鍵詞參數(shù)對比分析

為了進(jìn)一步說明本文提出的高價值熱點(diǎn)關(guān)鍵詞識別方法的優(yōu)勢，本文將其與傳統(tǒng)的頻次細(xì)分方法進(jìn)行對比實(shí)驗(yàn)，分析兩組實(shí)驗(yàn)下關(guān)鍵詞相關(guān)參數(shù)的變化情況（表7），表中每個參數(shù)值是該層次下關(guān)鍵詞參數(shù)的平均值。以下從對比分析和整體效果分析兩個角度進(jìn)行分析。

表7 對比實(shí)驗(yàn)下關(guān)鍵詞相關(guān)參數(shù)變化情況

（1）對比分析角度。采用本文價值細(xì)分方法后，相較于傳統(tǒng)頻次細(xì)分方法可以發(fā)現(xiàn)以下規(guī)律：①對于最高層次5，除了基金項(xiàng)目參數(shù)平均值出現(xiàn)小幅上升，各項(xiàng)參數(shù)平均值均出現(xiàn)小幅下降，究其原因，主要有兩點(diǎn)：其一，頻次細(xì)分方法并未考慮基金項(xiàng)目對關(guān)鍵詞的影響，在納入指標(biāo)M后，出現(xiàn)小幅上升，證明本文的識別方法在識別熱點(diǎn)關(guān)鍵詞過程中較好地考慮了價值因素，為關(guān)鍵詞賦予了價值屬性；其二，其余參數(shù)平均值下降，說明引入RFM模型以后，將某些依賴于頻次較高而劃分到高層次的關(guān)鍵詞被降權(quán)，說明對關(guān)鍵詞引入近度和值度指標(biāo)以后，能夠更全面地衡量關(guān)鍵詞。②除了層次5以外，各項(xiàng)參數(shù)平均值均出現(xiàn)了上升，說明本文的識別方法具有較高的區(qū)分度和調(diào)節(jié)作用。③頻次細(xì)分實(shí)驗(yàn)對照組中，層次3、2和1中出現(xiàn)多個1.000參數(shù)值，說明在這些層次中，傳統(tǒng)的頻次細(xì)分方法已經(jīng)不具有較好的區(qū)分度，而本文提出的價值細(xì)分方法，參數(shù)在每個層次上的平均值呈相對平穩(wěn)的下降趨勢，說明層次區(qū)分度較好。

（2）整體效果分析角度。本文基于價值細(xì)分的識別方法，得到的關(guān)鍵詞價值層次更具有區(qū)分度，符合關(guān)鍵詞RFM模型的定義，即重要價值關(guān)鍵詞、一般價值關(guān)鍵詞、重要發(fā)展關(guān)鍵詞、一般發(fā)展關(guān)鍵詞和低價值關(guān)鍵詞。

4.4.3 高價值熱點(diǎn)關(guān)鍵詞分析

本節(jié)對每個層次下識別出的高價值關(guān)鍵詞進(jìn)行分析。如圖6所示，部分關(guān)鍵詞在不同識別方法下，所處細(xì)分層次發(fā)生變化。舉例分析識別出來的每個層次中的高價值熱點(diǎn)關(guān)鍵詞的層次變化情況，對說明本文提出的識別方法的思想具有較大的意義。在實(shí)驗(yàn)過程中，本文計(jì)算了每個高價值熱點(diǎn)關(guān)鍵詞的基于頻次的層級（count level）和基于RFM模型的層級（RFM level），下文針對層級發(fā)生變化的高價值熱點(diǎn)關(guān)鍵詞進(jìn)行分析，如表8所示，變化情況是指關(guān)鍵詞的RFM level相對于count level升高或者降低，由于篇幅所限，僅舉例分析。示例中，升高情況下，多數(shù)關(guān)鍵詞的頻次較低，因此在劃分層級的時候，劃分為4；但在使用本文的識別方法中，由于充分考慮了最后年份（近度）、基金項(xiàng)目數(shù)目（值度）和終點(diǎn)事件（用于生存分析）三個參數(shù)以后，這些關(guān)鍵詞的層級從count level為4提升到RFM level為5，分析發(fā)現(xiàn)該類關(guān)鍵詞符合兩個特征：①近幾年被作者最新提到或者使用；②雖然存在生命周期較短和頻次較少的現(xiàn)象，但被基金項(xiàng)目支持的次數(shù)較高，價值量較大。以上兩個特征，表明該類關(guān)鍵詞較為新穎，且價值量較大，未來可能成長為新的高價值熱點(diǎn)關(guān)鍵詞。降低情況下，該類關(guān)鍵詞的重要特征是其最后年份（近度）在數(shù)據(jù)截止年份（2019年年底）已經(jīng)超過3年，本文在第4.3.2節(jié)中得到的最優(yōu)RFM權(quán)重中，近度所占權(quán)重為0.8，因此，該類關(guān)鍵詞在使用本文識別方法后，所處層級降低，表明其屬于重要發(fā)展關(guān)鍵詞，若未來在較長一段時間仍然沒有被再次關(guān)注或使用，則可能不再是學(xué)科關(guān)注或研究的重點(diǎn)主題。

表8 高價值熱點(diǎn)關(guān)鍵詞層級變化舉例（部分）

4.4.4 高價值熱點(diǎn)主題識別結(jié)果驗(yàn)證

鑒于熱點(diǎn)主題識別方法目前沒有統(tǒng)一的驗(yàn)證標(biāo)準(zhǔn)，本節(jié)采用資料驗(yàn)證法和數(shù)據(jù)對比分析方法，對實(shí)驗(yàn)設(shè)計(jì)進(jìn)行驗(yàn)證。

（1）資料驗(yàn)證法。本文對目前我國圖情檔領(lǐng)域研究主題分類的文獻(xiàn)進(jìn)行深入調(diào)研，發(fā)現(xiàn)本文高價值熱點(diǎn)主題的識別結(jié)果與已有研究成果具有一致性。例如，宋娜等[52]通過基金項(xiàng)目名稱檢索相關(guān)學(xué)術(shù)論文成果，采用內(nèi)容分析法分析了1991—2019年的論文關(guān)鍵詞，識別出的熱點(diǎn)主題；趙蓉英等[53]以2001—2012年國家科學(xué)基金為演技視角，透視圖書情報(bào)檔案學(xué)科的研究主題。與上述研究對比來看，本文提取的主題基本覆蓋了上述研究中提到的主題，證明了本文提出的識別方法具有準(zhǔn)確性和合理性。

（2）數(shù)據(jù)對比分析法。將價值細(xì)分方法和頻次細(xì)分方法提取的熱點(diǎn)主題進(jìn)行對比，計(jì)算每個主題下關(guān)鍵詞基金項(xiàng)目數(shù)的平均值，再從大到小進(jìn)行排序，如圖7所示。由圖7可知，從主題數(shù)量來看，兩種識別方法一致，但主題排序有所變動。兩者結(jié)合分析發(fā)現(xiàn)，相較于頻次細(xì)分方法，價值細(xì)分方法更能識別出國家高度重視的主題。例如，“圖書館”是國家基金長期重點(diǎn)支持的研究主題，排名第一；大數(shù)據(jù)作為一門新興技術(shù)主題，排名第二。這充分說明了大數(shù)據(jù)主題也是我國基金項(xiàng)目的資助重點(diǎn)，同時反映了圖情檔是一個交叉學(xué)科，大數(shù)據(jù)是研究的一個重要組成部分。此外，在新興主題識別上，本文價值細(xì)分方法能識別出當(dāng)前熱點(diǎn)主題，如價值細(xì)分方法識別出大數(shù)據(jù)、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)輿情是熱點(diǎn)主題，在價值上高于頻次細(xì)分方法識別出的相應(yīng)主題，為研究者的科研選題和研究方向提供了新的依據(jù)。

圖7 識別結(jié)果驗(yàn)證

5 總結(jié)與展望

本文所實(shí)現(xiàn)的高價值熱點(diǎn)關(guān)鍵詞識別方法，考慮了關(guān)鍵詞的多個維度的屬性，包括時間維度、頻次維度和價值維度。在實(shí)現(xiàn)過程中，時間維度重點(diǎn)探索兩個屬性：關(guān)鍵詞最近一次出現(xiàn)的時間和關(guān)鍵詞的生命周期。關(guān)鍵詞的高價值主要體現(xiàn)在基金項(xiàng)目的支持頻次，熱點(diǎn)主要體現(xiàn)在生命周期內(nèi)被使用的頻次。相較于傳統(tǒng)的熱點(diǎn)主題識別方法大多只考慮關(guān)鍵詞的頻次，缺少層次劃分和價值體現(xiàn)，本文提出的識別方法彌補(bǔ)了上述不足。同時，本文也存在一定的不足之處，如使用基金項(xiàng)目支持頻次作為價值尺度是一個較為粗粒度的角度，未來使用基金項(xiàng)目資助金額可以進(jìn)一步完善價值衡量標(biāo)準(zhǔn)。由于篇幅所限，本文僅探索了高價值熱點(diǎn)主題的識別方法，沒有對主題演化做進(jìn)一步探索，在未來的研究中，將結(jié)合知識圖譜對高價值熱點(diǎn)主題的演化進(jìn)行研究。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放