亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)鍵詞價值細(xì)分的高價值熱點(diǎn)主題識別方法研究

        2022-03-07 08:29:30孫佳佳李雅靜
        情報學(xué)報 2022年2期
        關(guān)鍵詞:細(xì)分熱點(diǎn)權(quán)重

        孫佳佳,李雅靜

        (武漢大學(xué)信息管理學(xué)院,武漢 430072)

        1 引言

        近年來,關(guān)鍵詞的相關(guān)研究一直是各學(xué)科領(lǐng)域關(guān)注的熱點(diǎn)。關(guān)鍵詞是研究成果的高度概括性表達(dá),體現(xiàn)了其核心思想或重點(diǎn)內(nèi)容。研究關(guān)鍵詞分布情況、演化趨勢等規(guī)律,有助于揭示學(xué)科發(fā)展動態(tài)和領(lǐng)域前沿。當(dāng)前,已有研究大多是運(yùn)用共詞分析[1]、詞頻分析[2]或知識圖譜[3]等方法,揭示某個領(lǐng)域內(nèi)、某個時期內(nèi)的學(xué)科熱點(diǎn)或主題演化,這些方法的本質(zhì)是關(guān)鍵詞頻次及其共現(xiàn)次數(shù)的研究,鮮有學(xué)者在同時考慮關(guān)鍵詞的價值屬性和生存周期的基礎(chǔ)上,研究熱點(diǎn)主題的識別。關(guān)鍵詞是文獻(xiàn)主題的外在體現(xiàn),在某個研究領(lǐng)域內(nèi),其頻次的累計反映該主題的熱點(diǎn)程度,并未反映出該主題的價值高低,且隨著時間的推移,頻次不斷地發(fā)生變化[4],呈現(xiàn)出一定的生命周期[5]。因此,對關(guān)鍵詞進(jìn)行價值細(xì)分,并考慮關(guān)鍵詞生命周期,有助于發(fā)現(xiàn)高價值熱點(diǎn)主題。本文所論述的關(guān)鍵詞,皆指作者關(guān)鍵詞,即在撰寫文獻(xiàn)過程中,由作者提煉或標(biāo)注出來的一系列關(guān)鍵詞匯[6]。

        價值細(xì)分在客戶營銷領(lǐng)域一直是研究重點(diǎn),指以客戶價值為細(xì)分指標(biāo),根據(jù)客戶價值的大小,將所有客戶分為具有不同價值的客戶群體[7]。企業(yè)或者機(jī)構(gòu)以此為依據(jù),制定最優(yōu)的客戶管理策略。當(dāng)前,價值細(xì)分已被廣泛應(yīng)用于工商管理、信息科學(xué)以及社會科學(xué)等多個領(lǐng)域,在圖書情報與檔案管理領(lǐng)域(下文簡稱“圖情檔領(lǐng)域”)也有學(xué)者開始關(guān)注,特別是RFM(recency,frequency,monetary)模型,在圖書館用戶與精準(zhǔn)服務(wù)[8]、情報學(xué)用戶與知識共享[9]等研究領(lǐng)域已經(jīng)有了相應(yīng)的研究。

        生存分析(survival analysis)起源于生物醫(yī)學(xué)研究領(lǐng)域,將事件出現(xiàn)終點(diǎn)所經(jīng)歷的時間(即sur‐vival time,生存時間)作為標(biāo)準(zhǔn),分析各種影響因素的現(xiàn)代統(tǒng)計方法,也稱為風(fēng)險模型或者持續(xù)模型(hazard model/duration model)[10]。生存分析在分析過程中考慮了研究目標(biāo)的生命周期,可以深刻地反映一段時期內(nèi)各種因素對研究目標(biāo)的影響程度,因此,在醫(yī)藥衛(wèi)生科技、工程科技及信息科技等學(xué)科領(lǐng)域,生存分析都得到了廣泛的關(guān)注和應(yīng)用。生存分析方法基于生命周期的核心理念,在圖情檔領(lǐng)域的主題識別[11]、文獻(xiàn)老化[12]等方面都有所應(yīng)用。

        本文將營銷領(lǐng)域的客戶價值細(xì)分RFM模型和醫(yī)學(xué)領(lǐng)域廣泛使用的生存分析方法結(jié)合起來,引入到圖情檔領(lǐng)域,形成跨學(xué)科研究方法,深入探討該方法的適用性和合理性,將客戶價值細(xì)分的研究對象遷移到關(guān)鍵詞,形成多方位、多角度的關(guān)鍵詞價值細(xì)分結(jié)果,對學(xué)科領(lǐng)域的高價值研究熱點(diǎn)進(jìn)行識別,以期為圖情檔領(lǐng)域關(guān)鍵詞和主題的相關(guān)研究提供一種新的方法和思路。

        2 相關(guān)研究

        本文將兩個不同領(lǐng)域的研究方法結(jié)合起來,以作者關(guān)鍵詞為研究對象,探討高價值熱點(diǎn)主題的識別方法。因此,本文主要梳理圖情檔領(lǐng)域價值細(xì)分、生存分析以及熱點(diǎn)主題發(fā)現(xiàn)相關(guān)的研究。

        2.1 價值細(xì)分相關(guān)研究

        價值細(xì)分在客戶管理工作中具有重要作用,具體表現(xiàn)在客戶識別、客戶策略制定及客戶忠誠度分析等方面。在圖情檔領(lǐng)域,研究者主要運(yùn)用價值細(xì)分的理論和方法,來解決圖書館評價體系、大數(shù)據(jù)服務(wù)平臺建設(shè)、用戶信息行為分析等問題。在圖書館評價體系方面,陳宇奇等[13]將RFM模型進(jìn)行適用性改進(jìn),應(yīng)用到圖書館圖書評價體系的研究中,對完善圖書評價體系和提高圖書館用戶服務(wù)具有重要意義;張海營[14]引入RFM模型探索構(gòu)建圖書評價系統(tǒng);在用戶及用戶行為方面,樂承毅等[15]構(gòu)建改進(jìn)RFM模型,為高校圖書館用戶構(gòu)建畫像,深入研究了高校圖書館用戶行為和偏好;趙洪波[16]將RFM模型應(yīng)用于高校圖書館的精準(zhǔn)服務(wù),以期為用戶提供更加優(yōu)質(zhì)的服務(wù);在大數(shù)據(jù)服務(wù)平臺建設(shè)方面,邢海龍等[17]將價值細(xì)分模型應(yīng)用到大數(shù)據(jù)服務(wù)平臺,構(gòu)建改進(jìn)RFM模型對用戶進(jìn)行價值識別;李杭[18]將RFM模型應(yīng)用于圖書質(zhì)量評價系統(tǒng)的實(shí)現(xiàn)中,是較為新穎的研究思路。從上述研究可以看出,RFM模型在價值細(xì)分研究方法中應(yīng)用較為廣泛,且在圖情檔領(lǐng)域也有較多應(yīng)用。

        2.2 生存分析相關(guān)研究

        在生物醫(yī)學(xué)領(lǐng)域,生存分析方法已經(jīng)得到非常廣泛的應(yīng)用,特別是在分析患有某種疾病人群的生存率及影響因素方面[19],有相當(dāng)多的研究成果。生存分析方法的優(yōu)勢在于考慮了目標(biāo)客體的某事件結(jié)束的時間因素及周期性,這使得揭示影響因素時可以進(jìn)行多組對比。近年來,在工程學(xué)、社會科學(xué)等領(lǐng)域也有研究者關(guān)注并使用該方法。在圖情檔領(lǐng)域,生存分析主要應(yīng)用于引文分析、專利研究及互聯(lián)網(wǎng)用戶數(shù)據(jù)分析等方面。例如,張中文等[20]將生存分析方法引入論文被引次數(shù)的研究,提出了學(xué)術(shù)論文生存被引次數(shù)的概念;宋爽等[21]探討了生存分析應(yīng)用于專利維持研究的適用性和有效性;鄭為益[22]使用生存分析方法構(gòu)建了客戶流失模型,為客戶流失問題提供了一種新的解決方案;賴院根等[23]在考慮信息服務(wù)特點(diǎn)的基礎(chǔ)上,使用生存分析方法對用戶生存狀況和影響因素進(jìn)行了研究。

        2.3 熱點(diǎn)主題識別相關(guān)研究

        熱點(diǎn)主題識別(hot topic detection,HTD)指將一系列文檔按照其主題分組以后,找到一段時間內(nèi)頻繁出現(xiàn)的主題集[24]。熱點(diǎn)主題反映某個學(xué)科或者研究領(lǐng)域在某個時間段內(nèi),研究者們關(guān)注的重點(diǎn)內(nèi)容。熱點(diǎn)主題識別立足于生命周期理論,對于揭示研究熱點(diǎn)和進(jìn)展具有重要作用。國內(nèi)外對于熱點(diǎn)主題識別的研究主要集中于計算機(jī)算法設(shè)計和具體應(yīng)用上。在算法設(shè)計方面,Sun等[25]針對短信的文本特征,提出了一種基于特征關(guān)聯(lián)分析的短信熱點(diǎn)提取算法;Zhu等[26]對TF-IDF(term frequency-inverse document frequency)算法進(jìn)行改進(jìn),提出了一種基于時間分布和用戶關(guān)注度的熱點(diǎn)主題識別算法TA TF-IDF;張申旭等[27]通過情感分析和LDA(latent Dirichlet allocation)構(gòu)建模型,提出了基于多特征的微博熱點(diǎn)主題發(fā)現(xiàn)算法,并通過實(shí)驗(yàn)驗(yàn)證了該算法的有效性;陸蓓等[28]將對蟻群聚類算法進(jìn)行改進(jìn),并提出了類別關(guān)注度(category attention degree,CAD)的概念,實(shí)現(xiàn)了熱點(diǎn)主題集的抽取工作。在具體應(yīng)用方面,研究者們著重將已有研究方法應(yīng)用于互聯(lián)網(wǎng)信息平臺以及學(xué)術(shù)研究領(lǐng)域。例如,王林等[29]通過構(gòu)造基于興趣的論壇用戶網(wǎng)絡(luò),將社區(qū)結(jié)構(gòu)發(fā)現(xiàn)的理論和方法應(yīng)用于社區(qū)論壇的熱點(diǎn)主題發(fā)現(xiàn)研究中,獲得了較好的實(shí)驗(yàn)效果;唐果等[30]將熱點(diǎn)主題發(fā)現(xiàn)作為一種方法,應(yīng)用于BBS(bulletin board system)文本聚類的研究中;吳立峰[31]將復(fù)雜網(wǎng)絡(luò)的自相似性應(yīng)用于BBS興趣網(wǎng)絡(luò),通過仿真實(shí)驗(yàn)將其運(yùn)用于BBS網(wǎng)絡(luò)中的熱點(diǎn)主題發(fā)現(xiàn),驗(yàn)證了方法的有效性。

        綜上所述,熱點(diǎn)主題識別研究一直是國內(nèi)外研究者關(guān)注的重點(diǎn),其識別結(jié)果是由一系列表達(dá)文檔核心含義且在一段時間內(nèi)被高頻關(guān)注的關(guān)鍵詞所組成的主題集合。已有研究大多聚焦于算法設(shè)計和理論方法應(yīng)用等方面,鮮有研究從細(xì)粒度的角度,對關(guān)鍵詞的價值進(jìn)行研究,實(shí)現(xiàn)高價值熱點(diǎn)主題的識別。從第2.1節(jié)可知,價值細(xì)分在圖情檔領(lǐng)域已經(jīng)有較多研究成果,且RFM模型是廣泛應(yīng)用的模型之一;從第2.2節(jié)可知,生存分析方法在應(yīng)用時重點(diǎn)關(guān)注事物的生命周期,這與熱點(diǎn)主題識別立足于生命周期理論的出發(fā)點(diǎn)是相同的。鑒于上述因素,本文從細(xì)粒度的角度,提出動態(tài)權(quán)重的RFM模型,對關(guān)鍵詞進(jìn)行價值細(xì)分,并在此基礎(chǔ)上對不同價值層次的關(guān)鍵詞進(jìn)行生存分析,通過Logrank檢驗(yàn),確定最優(yōu)的價值細(xì)分結(jié)果,依據(jù)帕累托法則[32]確定熱點(diǎn)關(guān)鍵詞集合,通過聚類算法實(shí)現(xiàn)具有價值區(qū)分度的熱點(diǎn)主題識別。

        3 基于關(guān)鍵詞價值細(xì)分的學(xué)科熱點(diǎn)主題識別方法

        3.1 識別方法概述

        本文在構(gòu)建關(guān)鍵詞RFM模型的基礎(chǔ)上,充分考慮近度、頻度、值度三個指標(biāo)的權(quán)重,實(shí)現(xiàn)動態(tài)權(quán)重,在多次實(shí)驗(yàn)的情況下,結(jié)合生存分析函數(shù)(survival function)和Logrank檢驗(yàn),確定最優(yōu)的權(quán)重參數(shù),實(shí)現(xiàn)關(guān)鍵詞價值細(xì)分,識別高價值關(guān)鍵詞,具體構(gòu)建流程如圖1所示。

        圖1 識別方法構(gòu)建流程

        數(shù)據(jù)是可行性研究的基礎(chǔ),足夠準(zhǔn)確的數(shù)據(jù)是研究工作得出科學(xué)可靠的研究結(jié)論的前提。秉承上述原則,在數(shù)據(jù)層中,凡是涉及數(shù)據(jù)處理的操作,全部使用Python語言編寫程序,實(shí)現(xiàn)數(shù)據(jù)的自動化處理,避免人工處理可能造成的數(shù)據(jù)失真。其中,數(shù)據(jù)搜集環(huán)節(jié)對目標(biāo)數(shù)據(jù)源數(shù)據(jù)進(jìn)行搜集與存儲;數(shù)據(jù)預(yù)處理環(huán)節(jié)對所采集到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,去除不滿足實(shí)驗(yàn)要求的條目;提取特征環(huán)節(jié)針對本文模型和方法的要求,將隱性信息提取為顯性特征數(shù)據(jù)。

        核心層是整個實(shí)驗(yàn)的關(guān)鍵環(huán)節(jié),經(jīng)過對R、F、M三個指標(biāo)進(jìn)行動態(tài)權(quán)重實(shí)驗(yàn),在計算RFM評分的基礎(chǔ)上,結(jié)合生存分析函數(shù),確定出最為合適的權(quán)重值,從而得到價值細(xì)分層次。

        識別層的功能是高價值熱點(diǎn)主題的識別。在RFM模型的設(shè)計原則中,價值細(xì)分層次的最上層為高價值層次,據(jù)此得到高價值關(guān)鍵詞。將該層中的關(guān)鍵詞按照頻次進(jìn)行降序排序,依據(jù)帕累托法則,20%的成員貢獻(xiàn)了80%的價值,本文選取排序結(jié)果中前20%的關(guān)鍵詞作為熱點(diǎn)關(guān)鍵詞,計算關(guān)鍵詞的相似度矩陣,通過K-means++算法進(jìn)行主題聚類,識別出高價值熱點(diǎn)主題。

        3.2 識別關(guān)鍵技術(shù)

        3.2.1 構(gòu)建關(guān)鍵詞RFM模型

        1)關(guān)鍵詞價值及價值細(xì)分的定義

        目前,國內(nèi)外關(guān)鍵詞價值的相關(guān)研究較少,還未形成統(tǒng)一的定義。Nishikido等[33]對關(guān)鍵詞的動態(tài)演化進(jìn)行了研究,提出了關(guān)鍵詞價值主要體現(xiàn)在其在網(wǎng)絡(luò)中的關(guān)系上,并在實(shí)驗(yàn)中驗(yàn)證了關(guān)鍵詞價值隨著時間和網(wǎng)絡(luò)關(guān)系的變化而變化。在信息檢索研究領(lǐng)域,關(guān)鍵詞價值研究主要在搜索引擎推廣方面。例如,Byers等[34]提出,在搜索引擎的廣告活動中,關(guān)鍵詞價值主要體現(xiàn)在貨幣價值上;Hou等[35]使用貝葉斯網(wǎng)絡(luò)設(shè)計了關(guān)鍵詞競標(biāo)價值預(yù)測模型,考慮了關(guān)鍵詞的出價、點(diǎn)擊次數(shù)和時間等維度。從上述研究中可以得到啟示,關(guān)鍵詞價值與時間、頻次、價格及網(wǎng)絡(luò)關(guān)系密切相關(guān)。此外,李劍鋒[36]認(rèn)為,價值是指客體能夠滿足主體需要的那些功能和屬性。基于此,本文對關(guān)鍵詞價值的概念進(jìn)行闡述:關(guān)鍵詞價值是指關(guān)鍵詞的時間、頻次及經(jīng)濟(jì)效益等屬性對主體或使用者的有效性和有益性。

        Kamakura等[37]認(rèn)為,價值細(xì)分是對群體進(jìn)行劃分,從而識別出具有正向意義和經(jīng)濟(jì)意義的部分。結(jié)合關(guān)鍵詞價值的概念,關(guān)鍵詞的價值細(xì)分是指通過對關(guān)鍵詞的時間、頻次、經(jīng)濟(jì)效益等屬性進(jìn)行綜合考慮,按照一定的規(guī)則和方法,對關(guān)鍵詞集合進(jìn)行劃分,從而識別出影響力、有效性或有益性更大的部分。秦嘉杭[38]認(rèn)為,學(xué)術(shù)價值是國家社科基金項(xiàng)目的研究成果(論文、專著等形式)的特征之一,而關(guān)鍵詞表達(dá)了研究成果的核心內(nèi)容,因此,關(guān)鍵詞具有一定的學(xué)術(shù)價值。本文立足于中文社會科學(xué)引文索引(Chinese Social Sciences Citation In‐dex,CSSCI)期刊論文的關(guān)鍵詞數(shù)據(jù),通過綜合考慮頻次、時間以及基金項(xiàng)目次數(shù),識別出對研究者進(jìn)行項(xiàng)目申請選題、把握學(xué)科動態(tài)具有指導(dǎo)意義的關(guān)鍵詞集合,可以看出,關(guān)鍵詞的價值是對使用者和研究者的價值。

        2)關(guān)鍵詞RFM模型定義

        傳統(tǒng)RFM模型由Hughes[39]于1994年提出,是企業(yè)根據(jù)顧客數(shù)據(jù)庫中的交易信息記錄對顧客價值進(jìn)行識別和評估的模型,包括三種指標(biāo):近度(R)、頻率(F)和額度(M)。其中,R表示最近一次購買時間離樣本數(shù)據(jù)截止日的時間距離,F(xiàn)表示研究期限內(nèi)(樣本的時間跨度)的購買次數(shù),M表示購買總金額[39]。本文的研究目的與該模型相似,將關(guān)鍵詞視為“顧客”,識別其價值能夠預(yù)測出未來相應(yīng)主題的發(fā)展方向,因此,采用該模型具有合理性。相應(yīng)地,本文將R用關(guān)鍵詞最近出現(xiàn)離實(shí)驗(yàn)數(shù)據(jù)截止的時間距離表示;F用實(shí)驗(yàn)數(shù)據(jù)時間跨度內(nèi)出現(xiàn)的總頻次表示;M則用關(guān)鍵詞所在文獻(xiàn)獲基金資助的頻次表示。一般來說,基金項(xiàng)目是由國家部署實(shí)施的科技創(chuàng)新驅(qū)動規(guī)劃方針,往往代表前瞻性和探索性,有利于情報跟蹤和推動學(xué)科研究,也有較多研究從基金項(xiàng)目的角度出發(fā),研究主題的識別。例如,楊辰毓妍等[40]基于國家社會科學(xué)基金和國家自然科學(xué)基金項(xiàng)目,用科學(xué)計量的方法研究了圖情檔學(xué)科的知識結(jié)構(gòu)和主題;張蒙等[41]對國家社會科學(xué)基金項(xiàng)目的圖書館、情報與文獻(xiàn)學(xué)學(xué)科進(jìn)行了熱點(diǎn)可視化分析;王效岳等[42]從基金項(xiàng)目和論文數(shù)據(jù)出發(fā),在考慮項(xiàng)目資助因素的情況下,提出了一種前瞻性和更高價值主題識別方法。因此,本文認(rèn)為獲得的基金資助次數(shù)越多的文獻(xiàn),其關(guān)鍵詞的價值越高。最終,得到關(guān)鍵詞RFM模型指標(biāo)體系,如表1所示。為了綜合衡量關(guān)鍵詞的價值程度,引入加權(quán)平均數(shù)的計算思想,給出RFM score的計算方法,即

        表1 關(guān)鍵詞R、F和M特征的定義與影響

        其中,R、F、M分別為關(guān)鍵詞的近度、頻度和值度;wr、wf、wm分別為R、F、M的權(quán)重,取值范圍為(0,1),且滿足wr+wf+wm=1。三個特征分?jǐn)?shù)的計算公式為

        其中,X表示指標(biāo)R、F、M;L表示價值細(xì)分總層次數(shù),本文中L=5;N為排序等分后,關(guān)鍵詞所在的層次數(shù)。

        RFM模型每個指標(biāo)得分實(shí)現(xiàn)步驟:①計算每個作者關(guān)鍵詞的R、F和M的特征值;②對所有作者關(guān)鍵詞分別按照R、F、M特征值進(jìn)行排序;③本文的指標(biāo)賦值標(biāo)準(zhǔn)依據(jù)Hughes的五等分思想,將三個指標(biāo)分別進(jìn)行排序,按照公式(2)得到每個關(guān)鍵詞的R、F、M指標(biāo)得分;④依據(jù)公式(1)計算每個關(guān)鍵詞的價值得分(RFM score)。

        3)關(guān)鍵詞價值層次定義

        在對關(guān)鍵詞劃分層次以后,需要在理論上對關(guān)鍵詞價值層次進(jìn)行定義。Ha等[43]提出自組織特征映射網(wǎng)絡(luò)(self-organizing feature map,SOM)對客戶RFM指標(biāo)進(jìn)行分類,將客戶的價值劃分為重要和一般價值客戶、重要發(fā)展和保持客戶、一般發(fā)展和保持客戶、重要和一般挽留客戶共8種價值類型。該分類方法更加適用于以客戶為研究對象的領(lǐng)域,本文以關(guān)鍵詞為研究對象,對該方法進(jìn)行適用性改進(jìn)。參考楊琳等[44]的細(xì)分方法,結(jié)合本文的5等分思想,將關(guān)鍵詞的價值層次分為5層,其定義如表2所示。

        表2 關(guān)鍵詞價值層次定義

        3.2.2 最優(yōu)RFM指標(biāo)權(quán)重確定方法

        為了對關(guān)鍵詞進(jìn)行價值細(xì)分更具有區(qū)分度,需要確定最優(yōu)RFM權(quán)重。具體過程分為三個步驟:①動態(tài)調(diào)整RFM模型每個指標(biāo)的權(quán)重值,計算RFM score,共37種組合;②對每一種結(jié)果依據(jù)RFM score降序排序,劃分為5等份,得到關(guān)鍵詞價值細(xì)分層次;③引入生存分析方法,考量不同價值層中關(guān)鍵詞的生存函數(shù),畫出Kaplan-Meier曲線,采用觀察法和對比法進(jìn)行篩選,利用Logrank檢驗(yàn)驗(yàn)證結(jié)果,得到最優(yōu)RFM權(quán)重,確定最優(yōu)價值細(xì)分層次。下文將對以上步驟的實(shí)現(xiàn)方法進(jìn)行詳細(xì)敘述。

        1)計算關(guān)鍵詞RFM score

        在大多數(shù)RFM模型應(yīng)用中,識別客戶價值時認(rèn)為各指標(biāo)權(quán)重相同,也有學(xué)者質(zhì)疑三個權(quán)重同樣重要的假定,認(rèn)為學(xué)者應(yīng)根據(jù)研究目的彈性設(shè)定指標(biāo)權(quán)重[45]。因此,為了解決三個指標(biāo)所占權(quán)重不一致問題,學(xué)者一般采用的價值權(quán)重設(shè)置原則是R、F、M三個指標(biāo)的權(quán)重相加等于1[46],即wr+wf+wm=1。需要說明的是,當(dāng)前確定權(quán)重采取的方法主要是主觀賦值法[47]和層次分析法[48];也有學(xué)者結(jié)合其他方法確定權(quán)重,如熵權(quán)法[49];較少有學(xué)者采用枚舉法。由于當(dāng)前缺乏可參考的文獻(xiàn),且枚舉法求取最優(yōu)解具有較高的效率和較大的準(zhǔn)確性,因此,本文采用枚舉法,遍歷所有可能存在的情況。令wr、wf、wm在(0,1)的范圍內(nèi)取值,開區(qū)間保證三個指標(biāo)同時存在,分別枚舉三個權(quán)重的值,得到多組權(quán)重組合,依據(jù)公式(1)和公式(2),計算每個作者關(guān)鍵詞的RFM score。

        2)確定最優(yōu)RFM權(quán)重與關(guān)鍵詞價值細(xì)分層次

        在計算每個作者關(guān)鍵詞的RFM score以后,按照得分從高到低進(jìn)行排序,然后對排序列表進(jìn)行5等分,得到作者關(guān)鍵詞價值細(xì)分結(jié)果。該過程動態(tài)調(diào)整RFM權(quán)重,得到多組實(shí)驗(yàn)結(jié)果,考慮到時間因素影響,如果某關(guān)鍵詞最近出現(xiàn)的時間較近,次數(shù)卻不高,那么可能會影響識別結(jié)果。在圖情檔領(lǐng)域,已有學(xué)者使用生存分析函數(shù)分析作者關(guān)鍵詞的生存狀況以及衡量關(guān)鍵詞的生命周期[19],因此,為了排除關(guān)鍵詞時間因素的影響,本文引入生存分析方法,對價值細(xì)分層次繪制Kaplan-Meier曲線,使用Logrank驗(yàn)證來確定最優(yōu)的RFM權(quán)重和價值細(xì)分層次。Kaplan-Meier曲線是對Kaplan-Meier估計量[50](也稱為乘積極限估計量)的圖形化表達(dá),該估計量是一種非參數(shù)統(tǒng)計量,用于從具有生命周期的數(shù)據(jù)集中估計生存函數(shù)。在醫(yī)學(xué)領(lǐng)域研究中,經(jīng)常被用來測量患病人在治療后一定時間內(nèi)的存活率,近年來也被廣泛應(yīng)用在其他領(lǐng)域,例如,衡量人們失業(yè)后處于失業(yè)狀態(tài)的時間長度[51]。生存函數(shù)Ka‐plan-Meier估計量的數(shù)學(xué)表達(dá)式為

        其中,ti表示發(fā)生終點(diǎn)事件的時間;di表示在時間點(diǎn)ti發(fā)生終點(diǎn)事件的個體數(shù)量;ni表示已知存活到時間ti的個體總數(shù)。

        Logrank驗(yàn)證也稱為對數(shù)秩檢驗(yàn),是一種統(tǒng)計分析測試方法,用于比較兩個或者多個組別之間的生存函數(shù)是否具有顯著差異性,該檢驗(yàn)的原假設(shè)為各組別的生存函數(shù)之間沒有顯著差異性,在檢測結(jié)果中,如果P<0.005,則拒絕原假設(shè),表明各個組別的生存函數(shù)具有顯著性差異。

        對各個價值細(xì)分組別的生存曲線可視化以后,本文采用觀察法和對比法篩選出曲線劃分最為明顯的實(shí)驗(yàn)結(jié)果,并使用Logrank檢驗(yàn)各個組別生存函數(shù)是否具有顯著性差異,從而確定最優(yōu)的價值細(xì)分結(jié)果以及對應(yīng)的RFM權(quán)重。

        4 實(shí)證研究

        4.1 數(shù)據(jù)源

        本文選取中文社會科學(xué)引文索引(CSSCI)作為數(shù)據(jù)源,以期刊名稱為檢索對象,將檢索條件設(shè)置為精確匹配,檢索1998—2019年共22年的文獻(xiàn)題錄數(shù)據(jù)。期刊名稱來源于《CSSCI來源期刊(2019—2020)目錄》,“圖書館、情報與文獻(xiàn)學(xué)”學(xué)科上榜的20種期刊。數(shù)據(jù)搜集下載時間為2020/04/13—2020/04/14,共搜集到83369條題錄數(shù)據(jù),共包含關(guān)鍵詞321020個,去重合并后共86344個。圖2是文章數(shù)目、作者數(shù)目、關(guān)鍵詞數(shù)目隨著時間變化的趨勢。由圖2可以看出,1998—2009年,文章數(shù)目逐年升高,2009年達(dá)到頂峰;之后文章數(shù)目雖呈下降趨勢但較為平穩(wěn)。一般來說,一篇文章對應(yīng)若干個作者和關(guān)鍵詞,因此,作者數(shù)目、關(guān)鍵詞數(shù)目的趨勢由文章數(shù)目的趨勢決定,這也符合上述描述。

        圖2 數(shù)據(jù)集變化趨勢

        4.2 數(shù)據(jù)處理

        按照第3.1節(jié)中的識別方法概述,本文需要對所搜集的數(shù)據(jù)進(jìn)行特征提取。CSSCI題錄數(shù)據(jù)是以文章為單位,將其處理為以關(guān)鍵詞為單位的數(shù)據(jù)形式,僅保留實(shí)驗(yàn)過程需要的數(shù)據(jù),以JSON格式保存,所包含的具體字段如表3所示。其中,status字段表示該關(guān)鍵詞是否出現(xiàn)終點(diǎn)事件,即若其最后出現(xiàn)的年份小于數(shù)據(jù)集時間年份2019,則用1表示出現(xiàn)終點(diǎn)事件,反之,則用0表示未出現(xiàn)終點(diǎn)事件。

        表3 作者關(guān)鍵詞字段示例

        4.3 實(shí)驗(yàn)過程

        4.3.1 計算RFM score

        依據(jù)第3.2.1節(jié)中的方法,計算作者關(guān)鍵詞對應(yīng)的R、F和M;按照第3.2.2節(jié)中的方法,對三個維度指標(biāo)的權(quán)重進(jìn)行調(diào)節(jié),計算RFM score。為了保證適量的實(shí)驗(yàn)次數(shù),同時保證后續(xù)實(shí)驗(yàn)易于分析和觀察,本文將每個特征權(quán)重的小數(shù)位數(shù)設(shè)置為1。動態(tài)權(quán)重的RFM score計算過程如圖3所示,首先令wr在(0,1)的范圍內(nèi)依次取值,然后分別枚舉wf、wm的值,并確保三個權(quán)重的和為1,得到36種權(quán)重值組合;考慮到wr=wf=wm的情況,共37種權(quán)重值組合,使用公式(1)計算每個關(guān)鍵詞的RFM score。

        圖3 動態(tài)權(quán)重RFM score計算過程

        4.3.2 確定最優(yōu)RFM權(quán)重和價值細(xì)分層次

        依據(jù)RFM score進(jìn)行關(guān)鍵詞價值細(xì)分,按照降序?qū)ζ渑判?,并劃分?等份,每個關(guān)鍵詞價值細(xì)分層次稱為RFM level。RFM模型考慮了關(guān)鍵詞的近度,但忽略了生命周期對關(guān)鍵詞的影響,因此,使用Python語言編寫程序,對37種權(quán)重組合分別繪制Kaplan-Meier曲線圖,用于考量關(guān)鍵詞的生命周期,將生命周期的長短因素納入到價值細(xì)分層次劃分中,但鑒于篇幅所限,本文挑選出wr在[0.1,0.2,…,0.8]中取值時,每種權(quán)重組合情況下,層次最為明顯的曲線圖,如圖4所示;三個權(quán)重值相等情況下的曲線圖,如圖5所示。從圖4中可以清晰地看出,在權(quán)重值wr、wf和wm分別為0.8、0.1和0.1時,關(guān)鍵詞價值細(xì)分層次的區(qū)分最為明顯,且較為均勻;而其他權(quán)重值組合下,均不滿足價值細(xì)分均勻的條件;在圖5中,三個權(quán)重值相等時,RFM level為1的線條在第1年全部出現(xiàn)終點(diǎn)事件,即該層次下,作者關(guān)鍵詞存在時間過短,因此,排除此種情況。

        圖4 動態(tài)權(quán)重價值細(xì)分的Kaplan-Meier曲線圖(部分)(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

        圖5 3個權(quán)重值相等情況下價值細(xì)分的Kaplan-Meier曲線圖(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

        在初步獲取最優(yōu)RFM權(quán)重以后,還需要使用Logrank檢驗(yàn)進(jìn)行顯著性驗(yàn)證,目的是確定各個價值細(xì)分層次的關(guān)鍵詞生命周期具有顯著性差異,驗(yàn)證結(jié)果如表4所示??梢园l(fā)現(xiàn),各個層次之間的P值均小于0.005,拒絕原假設(shè)(各層次沒有顯著性差異),這說明,在R、F、M三個指標(biāo)的權(quán)重分別為0.8、0.1、0.1時,各個作者關(guān)鍵詞價值細(xì)分層次之間具有顯著性差異。也就是說,最終得到關(guān)鍵詞RFM模型最優(yōu)指標(biāo)權(quán)重如表5所示。

        表4 Logrank檢驗(yàn)結(jié)果

        表5 關(guān)鍵詞RFM模型最優(yōu)指標(biāo)權(quán)重

        4.3.3 高價值熱點(diǎn)主題識別

        在得到關(guān)鍵詞的最優(yōu)RFM權(quán)重及價值細(xì)分層次以后,本文將每個層次中的關(guān)鍵詞按照頻次進(jìn)行降序排列,依據(jù)帕累托法則——20%的成員貢獻(xiàn)了80%的價值,從每個價值層次中提取前20%作為熱點(diǎn)關(guān)鍵詞。對熱點(diǎn)關(guān)鍵詞構(gòu)建共現(xiàn)矩陣,并計算相似度矩陣,使用K-means++算法進(jìn)行聚類,聚類數(shù)目的確定方法是,使用枚舉法在[2,30]范圍內(nèi)多次實(shí)驗(yàn),依據(jù)Silhouette Coefficient(即輪廓系數(shù))和SSE(the sum of squares due to error,誤差平方和)評價指標(biāo)確定最合適的聚類數(shù)目。根據(jù)高頻特征詞對聚類所得的各個類別進(jìn)行主題概念概括。表6展示了每個價值層次所提取的熱點(diǎn)主題及其基金支持平均值。其中,位于高價值層次的熱點(diǎn)主題,是本文識別出的高價值熱點(diǎn)主題。

        表6 熱點(diǎn)主題識別結(jié)果

        4.4 實(shí)驗(yàn)結(jié)果與分析

        本節(jié)對高價值熱點(diǎn)主題識別結(jié)果進(jìn)行對比分析和總結(jié)。為了說明實(shí)驗(yàn)的效果,本文增加了基于頻次排序的分類方法作為實(shí)驗(yàn)對照組。首先,從總體上進(jìn)行分析,說明應(yīng)用本文識別方法是有效的;其次,與實(shí)驗(yàn)對照組進(jìn)行對比分析,來說明本文識別出來的熱點(diǎn)主題是具有高價值的,證明有效性;最后,歸納總結(jié)各個價值層次的主題特征。

        4.4.1 識別方法的有效性

        在第4.3節(jié)中,本文通過使用動態(tài)權(quán)重的RFM模型對關(guān)鍵詞進(jìn)行了價值細(xì)分,同時,為了考慮生命周期對關(guān)鍵詞價值細(xì)分的影響,引入生存分析Kaplan-Meier曲線對多組實(shí)驗(yàn)結(jié)果進(jìn)行篩選,最終識別出高價值熱點(diǎn)關(guān)鍵詞,通過聚類算法得到高價值熱點(diǎn)主題。為了對第4.3.3節(jié)中的結(jié)果加以解釋和說明,本文再次對數(shù)據(jù)集中的關(guān)鍵詞進(jìn)行處理,采用傳統(tǒng)的基于詞頻提取重要關(guān)鍵詞的方法,對關(guān)鍵詞降序排列,分為5等份,稱為頻次分類。對比價值細(xì)分和頻次細(xì)分兩組實(shí)驗(yàn)結(jié)果,如圖6所示,可以看出,與頻次分類方法相比,價值細(xì)分方法在考慮了關(guān)鍵詞的近度和值度特征后,有31%的關(guān)鍵詞層級升高,16%的關(guān)鍵詞層級降低。其中,有6%的關(guān)鍵詞降低了1個層級,1%降低了4個層級??梢缘贸鼋Y(jié)論,關(guān)鍵詞的近度和值度對價值的衡量存在影響,本文提出的識別方法具有有效性。

        圖6 對比實(shí)驗(yàn)下關(guān)鍵詞等級變化情況

        4.4.2 關(guān)鍵詞參數(shù)對比分析

        為了進(jìn)一步說明本文提出的高價值熱點(diǎn)關(guān)鍵詞識別方法的優(yōu)勢,本文將其與傳統(tǒng)的頻次細(xì)分方法進(jìn)行對比實(shí)驗(yàn),分析兩組實(shí)驗(yàn)下關(guān)鍵詞相關(guān)參數(shù)的變化情況(表7),表中每個參數(shù)值是該層次下關(guān)鍵詞參數(shù)的平均值。以下從對比分析和整體效果分析兩個角度進(jìn)行分析。

        表7 對比實(shí)驗(yàn)下關(guān)鍵詞相關(guān)參數(shù)變化情況

        (1)對比分析角度。采用本文價值細(xì)分方法后,相較于傳統(tǒng)頻次細(xì)分方法可以發(fā)現(xiàn)以下規(guī)律:①對于最高層次5,除了基金項(xiàng)目參數(shù)平均值出現(xiàn)小幅上升,各項(xiàng)參數(shù)平均值均出現(xiàn)小幅下降,究其原因,主要有兩點(diǎn):其一,頻次細(xì)分方法并未考慮基金項(xiàng)目對關(guān)鍵詞的影響,在納入指標(biāo)M后,出現(xiàn)小幅上升,證明本文的識別方法在識別熱點(diǎn)關(guān)鍵詞過程中較好地考慮了價值因素,為關(guān)鍵詞賦予了價值屬性;其二,其余參數(shù)平均值下降,說明引入RFM模型以后,將某些依賴于頻次較高而劃分到高層次的關(guān)鍵詞被降權(quán),說明對關(guān)鍵詞引入近度和值度指標(biāo)以后,能夠更全面地衡量關(guān)鍵詞。②除了層次5以外,各項(xiàng)參數(shù)平均值均出現(xiàn)了上升,說明本文的識別方法具有較高的區(qū)分度和調(diào)節(jié)作用。③頻次細(xì)分實(shí)驗(yàn)對照組中,層次3、2和1中出現(xiàn)多個1.000參數(shù)值,說明在這些層次中,傳統(tǒng)的頻次細(xì)分方法已經(jīng)不具有較好的區(qū)分度,而本文提出的價值細(xì)分方法,參數(shù)在每個層次上的平均值呈相對平穩(wěn)的下降趨勢,說明層次區(qū)分度較好。

        (2)整體效果分析角度。本文基于價值細(xì)分的識別方法,得到的關(guān)鍵詞價值層次更具有區(qū)分度,符合關(guān)鍵詞RFM模型的定義,即重要價值關(guān)鍵詞、一般價值關(guān)鍵詞、重要發(fā)展關(guān)鍵詞、一般發(fā)展關(guān)鍵詞和低價值關(guān)鍵詞。

        4.4.3 高價值熱點(diǎn)關(guān)鍵詞分析

        本節(jié)對每個層次下識別出的高價值關(guān)鍵詞進(jìn)行分析。如圖6所示,部分關(guān)鍵詞在不同識別方法下,所處細(xì)分層次發(fā)生變化。舉例分析識別出來的每個層次中的高價值熱點(diǎn)關(guān)鍵詞的層次變化情況,對說明本文提出的識別方法的思想具有較大的意義。在實(shí)驗(yàn)過程中,本文計算了每個高價值熱點(diǎn)關(guān)鍵詞的基于頻次的層級(count level)和基于RFM模型的層級(RFM level),下文針對層級發(fā)生變化的高價值熱點(diǎn)關(guān)鍵詞進(jìn)行分析,如表8所示,變化情況是指關(guān)鍵詞的RFM level相對于count level升高或者降低,由于篇幅所限,僅舉例分析。示例中,升高情況下,多數(shù)關(guān)鍵詞的頻次較低,因此在劃分層級的時候,劃分為4;但在使用本文的識別方法中,由于充分考慮了最后年份(近度)、基金項(xiàng)目數(shù)目(值度)和終點(diǎn)事件(用于生存分析)三個參數(shù)以后,這些關(guān)鍵詞的層級從count level為4提升到RFM level為5,分析發(fā)現(xiàn)該類關(guān)鍵詞符合兩個特征:①近幾年被作者最新提到或者使用;②雖然存在生命周期較短和頻次較少的現(xiàn)象,但被基金項(xiàng)目支持的次數(shù)較高,價值量較大。以上兩個特征,表明該類關(guān)鍵詞較為新穎,且價值量較大,未來可能成長為新的高價值熱點(diǎn)關(guān)鍵詞。降低情況下,該類關(guān)鍵詞的重要特征是其最后年份(近度)在數(shù)據(jù)截止年份(2019年年底)已經(jīng)超過3年,本文在第4.3.2節(jié)中得到的最優(yōu)RFM權(quán)重中,近度所占權(quán)重為0.8,因此,該類關(guān)鍵詞在使用本文識別方法后,所處層級降低,表明其屬于重要發(fā)展關(guān)鍵詞,若未來在較長一段時間仍然沒有被再次關(guān)注或使用,則可能不再是學(xué)科關(guān)注或研究的重點(diǎn)主題。

        表8 高價值熱點(diǎn)關(guān)鍵詞層級變化舉例(部分)

        4.4.4 高價值熱點(diǎn)主題識別結(jié)果驗(yàn)證

        鑒于熱點(diǎn)主題識別方法目前沒有統(tǒng)一的驗(yàn)證標(biāo)準(zhǔn),本節(jié)采用資料驗(yàn)證法和數(shù)據(jù)對比分析方法,對實(shí)驗(yàn)設(shè)計進(jìn)行驗(yàn)證。

        (1)資料驗(yàn)證法。本文對目前我國圖情檔領(lǐng)域研究主題分類的文獻(xiàn)進(jìn)行深入調(diào)研,發(fā)現(xiàn)本文高價值熱點(diǎn)主題的識別結(jié)果與已有研究成果具有一致性。例如,宋娜等[52]通過基金項(xiàng)目名稱檢索相關(guān)學(xué)術(shù)論文成果,采用內(nèi)容分析法分析了1991—2019年的論文關(guān)鍵詞,識別出的熱點(diǎn)主題;趙蓉英等[53]以2001—2012年國家科學(xué)基金為演技視角,透視圖書情報檔案學(xué)科的研究主題。與上述研究對比來看,本文提取的主題基本覆蓋了上述研究中提到的主題,證明了本文提出的識別方法具有準(zhǔn)確性和合理性。

        (2)數(shù)據(jù)對比分析法。將價值細(xì)分方法和頻次細(xì)分方法提取的熱點(diǎn)主題進(jìn)行對比,計算每個主題下關(guān)鍵詞基金項(xiàng)目數(shù)的平均值,再從大到小進(jìn)行排序,如圖7所示。由圖7可知,從主題數(shù)量來看,兩種識別方法一致,但主題排序有所變動。兩者結(jié)合分析發(fā)現(xiàn),相較于頻次細(xì)分方法,價值細(xì)分方法更能識別出國家高度重視的主題。例如,“圖書館”是國家基金長期重點(diǎn)支持的研究主題,排名第一;大數(shù)據(jù)作為一門新興技術(shù)主題,排名第二。這充分說明了大數(shù)據(jù)主題也是我國基金項(xiàng)目的資助重點(diǎn),同時反映了圖情檔是一個交叉學(xué)科,大數(shù)據(jù)是研究的一個重要組成部分。此外,在新興主題識別上,本文價值細(xì)分方法能識別出當(dāng)前熱點(diǎn)主題,如價值細(xì)分方法識別出大數(shù)據(jù)、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)輿情是熱點(diǎn)主題,在價值上高于頻次細(xì)分方法識別出的相應(yīng)主題,為研究者的科研選題和研究方向提供了新的依據(jù)。

        圖7 識別結(jié)果驗(yàn)證

        5 總結(jié)與展望

        本文所實(shí)現(xiàn)的高價值熱點(diǎn)關(guān)鍵詞識別方法,考慮了關(guān)鍵詞的多個維度的屬性,包括時間維度、頻次維度和價值維度。在實(shí)現(xiàn)過程中,時間維度重點(diǎn)探索兩個屬性:關(guān)鍵詞最近一次出現(xiàn)的時間和關(guān)鍵詞的生命周期。關(guān)鍵詞的高價值主要體現(xiàn)在基金項(xiàng)目的支持頻次,熱點(diǎn)主要體現(xiàn)在生命周期內(nèi)被使用的頻次。相較于傳統(tǒng)的熱點(diǎn)主題識別方法大多只考慮關(guān)鍵詞的頻次,缺少層次劃分和價值體現(xiàn),本文提出的識別方法彌補(bǔ)了上述不足。同時,本文也存在一定的不足之處,如使用基金項(xiàng)目支持頻次作為價值尺度是一個較為粗粒度的角度,未來使用基金項(xiàng)目資助金額可以進(jìn)一步完善價值衡量標(biāo)準(zhǔn)。由于篇幅所限,本文僅探索了高價值熱點(diǎn)主題的識別方法,沒有對主題演化做進(jìn)一步探索,在未來的研究中,將結(jié)合知識圖譜對高價值熱點(diǎn)主題的演化進(jìn)行研究。

        猜你喜歡
        細(xì)分熱點(diǎn)權(quán)重
        熱點(diǎn)
        權(quán)重常思“浮名輕”
        深耕環(huán)保細(xì)分領(lǐng)域,維爾利為環(huán)保注入新動力
        華人時刊(2020年23期)2020-04-13 06:04:12
        熱點(diǎn)
        車迷(2019年10期)2019-06-24 05:43:28
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        結(jié)合熱點(diǎn)做演講
        快樂語文(2018年7期)2018-05-25 02:32:00
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        1~7月,我國貨車各細(xì)分市場均有增長
        專用汽車(2016年9期)2016-03-01 04:17:02
        整體低迷難掩細(xì)分市場亮點(diǎn)
        專用汽車(2015年2期)2015-03-01 04:05:42
        熱點(diǎn)
        中國記者(2014年6期)2014-03-01 01:39:53
        久久综合狠狠综合久久综合88| 极品人妻少妇一区二区| 在线观看女同一区二区| 玖玖色玖玖草玖玖爱在线精品视频| 国产福利视频在线观看| 亚洲成a人片在线观看天堂无码| 无码一区二区三区不卡AV| 麻豆三级视频网站在线观看 | 精品人妻人人做人人爽夜夜爽| 国产精品九九九久久九九| 自拍偷拍另类三级三色四色 | 国产福利永久在线视频无毒不卡| 久久中文字幕人妻熟av女蜜柚m| 偷拍区亚洲区一区二区| 国产精品日韩亚洲一区二区| 亚洲av中文无码乱人伦下载| 国精产品一品二品国在线| 黄色大片一区二区中文字幕| 亚洲男人的天堂av一区| 亚洲av无码专区在线观看成人| 天美麻花果冻视频大全英文版| 日本国产在线一区二区| 国模91九色精品二三四| 人妻熟女一区二区三区app下载| 香蕉视频一级片| 一区二区三区国产亚洲网站| 午夜视频国产在线观看| 亚洲第一无码xxxxxx| 国产精品白浆视频一区| 亚洲无人区乱码中文字幕动画| 人妻 偷拍 无码 中文字幕| 麻豆av传媒蜜桃天美传媒| 中文字幕精品永久在线| 中文字幕亚洲乱码熟女1区| 亚洲av无码之国产精品网址蜜芽| 青青国产成人久久91| 蓝蓝的天空,白白的云| 久久综合九色综合久99| 爽妇网国产精品| 久久精品亚洲乱码伦伦中文| 亚洲国产精品无码aaa片|