亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于密度聚類算法改進(jìn)的語義主路徑分析方法研究

        2024-05-06 08:26:26陳亮余池尚瑋姣許海云呂世炅陳利利
        情報(bào)學(xué)報(bào) 2024年3期
        關(guān)鍵詞:語義策略方法

        陳亮,余池,尚瑋姣,許海云,呂世炅,陳利利

        (1. 中國科學(xué)技術(shù)信息研究所,北京 100038;2. 中國林業(yè)科學(xué)研究院林業(yè)科技信息研究所,北京 100091;3. 山東理工大學(xué)管理學(xué)院,淄博 255000)

        0 引 言

        了解科技發(fā)展的歷史過程、研究現(xiàn)狀是規(guī)劃科技發(fā)展戰(zhàn)略和預(yù)測科技發(fā)展趨勢的重要手段。當(dāng)前,學(xué)科知識更替加速、不同學(xué)科之間日漸交融,科技文獻(xiàn)和科研數(shù)據(jù)的規(guī)模、類型不斷增加,傳統(tǒng)的以信息檢索和文獻(xiàn)綜述等方式進(jìn)行科技知識脈絡(luò)梳理易受分析人員主觀偏見、知識局限的影響,而且分析過程耗時(shí)較長、對專家知識依賴較大,方法難以推廣。近年來,主路徑分析方法逐漸成為科技領(lǐng)域知識脈絡(luò)發(fā)現(xiàn)的重要方法,其采用引文網(wǎng)絡(luò)來表示文獻(xiàn)之間知識的傳播通道,采用網(wǎng)絡(luò)遍歷計(jì)數(shù)來表示引文關(guān)系在知識傳播過程中的重要程度,進(jìn)而從引文網(wǎng)絡(luò)中提取重要文獻(xiàn)之間的骨架結(jié)構(gòu)來表示該科技領(lǐng)域的主要發(fā)展過程,幫助研究者快速了解科技領(lǐng)域發(fā)展過程,為國家科技政策制定和產(chǎn)業(yè)發(fā)展方向選擇提供決策支持。

        但是這種無涉文獻(xiàn)內(nèi)容的引文分析方法存在明顯不足:基于路徑遍歷權(quán)重的主路徑篩選方法會(huì)錯(cuò)過地位重要但分屬不同子領(lǐng)域的其他主路徑。對此,陳亮等[1]將文獻(xiàn)內(nèi)容納入主路徑分析法的考量范圍之內(nèi),以施引文獻(xiàn)和被引文獻(xiàn)之間的文本相似度作為引文連線權(quán)重,從而產(chǎn)生多條能夠反映不同子領(lǐng)域知識脈絡(luò)的主路徑;并進(jìn)一步提出一套新的主路徑分析框架,即語義主路徑分析方法[2]。該方法除了將文本相似度和遍歷權(quán)重相結(jié)合以形成復(fù)合連線權(quán)重外,還利用文本聚類技術(shù)將引文網(wǎng)絡(luò)中的候選主路徑劃分到不同聚簇,進(jìn)而從每個(gè)聚簇中選出遍歷權(quán)重最大的候選主路徑以作為代表相應(yīng)子領(lǐng)域知識脈絡(luò)的主路徑;在實(shí)證分析中,該方法能夠準(zhǔn)確抽取電動(dòng)汽車領(lǐng)域三大核心模塊,即電池、電機(jī)和電控的技術(shù)發(fā)展軌跡,并取得了良好的分析效果[2]。

        然而,Chen等[2]認(rèn)為,這種以遍歷權(quán)重為標(biāo)準(zhǔn)從每個(gè)聚簇中選擇主路徑的做法仍然存在明顯不足:①所選主路徑的位置可能偏離聚簇中心,其能否代表這一子領(lǐng)域的知識脈絡(luò)存疑;②不同聚簇的主路徑可能彼此相近,影響不同主路徑之間的主題區(qū)分度。本文在綜合考量路徑的遍歷權(quán)重及其所在聚簇位置的基礎(chǔ)上,提出一種基于密度聚類算法改進(jìn)的主路徑分析方法,對上述不足加以改進(jìn)。實(shí)證階段,除沿用Chen等[2]的電動(dòng)汽車相關(guān)領(lǐng)域?qū)@麛?shù)據(jù)用于對比分析之外,還選用材料科學(xué)領(lǐng)域高影響力的論文數(shù)據(jù)集用于驗(yàn)證本文方法在不同領(lǐng)域、不同類型數(shù)據(jù)上的適用性。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的語義主路徑分析法抽取的主路徑不僅在路徑聚類圖上的分布更加合理,而且選中不適合路徑(如路徑節(jié)點(diǎn)較少、拓?fù)錂?quán)重較低)的可能性也大大降低。

        本文其他部分安排如下:第1節(jié)總結(jié)主路徑分析方法的相關(guān)研究進(jìn)展,第2節(jié)對基于改進(jìn)密度聚類算法的主路徑優(yōu)化分析方法展開敘述,第3節(jié)分別使用電動(dòng)汽車鋰離子電池專利數(shù)據(jù)集和材料科學(xué)領(lǐng)域高影響力論文數(shù)據(jù)進(jìn)行實(shí)證說明,第4節(jié)對論文整體進(jìn)行總結(jié)和前瞻。

        1 相關(guān)研究進(jìn)展

        1.1 主路徑分析方法概述

        主路徑分析方法是一種基于文獻(xiàn)引文信息的知識演化路徑抽取方法,用于對領(lǐng)域知識發(fā)生的各種變化進(jìn)行總結(jié)、歸納與展示[3]。相比于其他使用主題詞、SAO(subject-action-object)結(jié)構(gòu)、問題-解決方案二元組等信息的知識演化路徑抽取方法,主路徑分析法具有成本低、效率高、可移植性和可復(fù)用性好等諸多優(yōu)點(diǎn),備受科技情報(bào)用戶青睞,尤其是知名社會(huì)網(wǎng)絡(luò)分析軟件Pajek[4]實(shí)現(xiàn)了主路徑分析法的多個(gè)變體,進(jìn)一步推廣了這種知識演化路徑抽取方法的應(yīng)用范圍。

        主路徑分析法最早由Hummon等[5]于1989年提出,他們發(fā)現(xiàn)引文網(wǎng)絡(luò)中連線的重要程度并不相等,有些引文關(guān)系充當(dāng)重要角色,若將其移除,會(huì)改變引文網(wǎng)絡(luò)中的整個(gè)知識流動(dòng)過程,而有些引文關(guān)系產(chǎn)生的影響則小得多。這些充當(dāng)重要角色的引文關(guān)系構(gòu)成了引文網(wǎng)絡(luò)中的“主路徑”,而主路徑分析法就是從引文網(wǎng)絡(luò)中識別出這些重要引文關(guān)系,并按照先后順序展示該領(lǐng)域的重要文獻(xiàn)及其知識的傳承過程[6]。在當(dāng)前海量科技文獻(xiàn)數(shù)據(jù)所造成的信息過載環(huán)境下,主路徑分析方法提供了一種基于連通性降低引文網(wǎng)絡(luò)復(fù)雜程度并從中識別關(guān)鍵路徑的定量方法,在知識發(fā)展路徑抽取中具有重要意義[7]。在算法層面,主路徑被定義為非循環(huán)網(wǎng)絡(luò)中從源點(diǎn)(即入度為0的節(jié)點(diǎn))到匯點(diǎn)(即出度為0的節(jié)點(diǎn))的一條通路,該通路上所有弧的權(quán)重之和具有最高遍歷權(quán)重[8]。雖然主路徑分析方法在長期發(fā)展中形成了規(guī)模龐大的家族體系,但總體而言這些家族成員仍然遵從圖1所示的統(tǒng)一流程框架:在從文獻(xiàn)數(shù)據(jù)庫中獲取數(shù)據(jù)并生成引文網(wǎng)絡(luò)后,首先,計(jì)算引文網(wǎng)絡(luò)中每條連線的遍歷權(quán)重;其次,搜索自源點(diǎn)至終點(diǎn)之間的候選路徑,所謂源點(diǎn),即只有出度沒有入度的節(jié)點(diǎn),反之,則為終點(diǎn)[9];最后,將每條候選路徑上的連線權(quán)重累加起來,并將符合條件(如遍歷權(quán)重最大)的路徑篩選出來作為主路徑,下文將分別對主路徑分析法的各個(gè)重要環(huán)節(jié)展開詳細(xì)介紹。

        圖1 當(dāng)前主路徑分析的方法步驟

        1.2 主路徑分析法的連線遍歷權(quán)重計(jì)算

        在從文獻(xiàn)數(shù)據(jù)庫中獲取數(shù)據(jù)集并構(gòu)建引文網(wǎng)絡(luò)后,需要根據(jù)引文連線在引文網(wǎng)絡(luò)中的重要程度為其賦予權(quán)重。連線重要性一般根據(jù)引文網(wǎng)絡(luò)中與該連線相關(guān)的路徑數(shù)量統(tǒng)計(jì)得到。比如,SPNP(search path node pair)指標(biāo)就是通過統(tǒng)計(jì)經(jīng)過某條邊的路徑數(shù)量來測度這條邊的重要程度,還有類似指標(biāo)SPLC(search path link count)和NPPC(node pair projection count)[5,10],但它們在篩選路徑方式上有所不同;Batagelj[11]認(rèn)為這些路徑權(quán)重指標(biāo)計(jì)算方式過于復(fù)雜、低效,他將直接引用和間接引用同時(shí)納入考量范圍,形成了更加高效的連線權(quán)重指標(biāo)SPC(search path count)。當(dāng)前,常用連線權(quán)重指標(biāo)的詳細(xì)情況如表1[12]所示。Liu等[10,13]深入剖析了這些權(quán)重指標(biāo)之間的區(qū)別:在SPC中引文網(wǎng)絡(luò)的中間節(jié)點(diǎn)只具有知識傳導(dǎo)的作用;而在SPNP中,引文網(wǎng)絡(luò)的中間節(jié)點(diǎn)則是一個(gè)知識存儲單元;相比之下,SPLC更接近實(shí)際情況——中間節(jié)點(diǎn)不僅在知識擴(kuò)散的過程中具有中轉(zhuǎn)站的作用,它還引入了新的知識;計(jì)算NPPC指標(biāo)的時(shí)間復(fù)雜度較高,極少在實(shí)際場景中使用。基于以上原因可以發(fā)現(xiàn),Xu等[14]、Huang等[15]和Lai等[16]學(xué)者傾向使用SPLC指標(biāo),盡管Batagelj[11]、Martinelli[17]、Chen等[2]注意到不同遍歷權(quán)重指標(biāo)下產(chǎn)生的主路徑結(jié)果幾乎一致。

        表1 主路徑方法中主要的弧權(quán)重指標(biāo)[12]

        近年來出現(xiàn)了一些關(guān)于此類指標(biāo)的新觀點(diǎn),包括無法反映知識傳播時(shí)所產(chǎn)生的信息損失[10]、基于這些指標(biāo)的主路徑上各個(gè)文獻(xiàn)的主題一致性較弱等[19-20]。Liu等[21]將知識傳播中的延遲效應(yīng)納入考量范圍,并形成SPAD(search-path arithmetic de‐cay)、SPGD(search-path geometric decay)和SPHD(search-path harmonic decay)等一系列新指標(biāo),以緩解信息損失。至于主路徑上文獻(xiàn)主題不一致的問題,目前主要解決思路是將文獻(xiàn)的文本信息納入連線權(quán)重計(jì)算之中,使主路徑分析法在搜索主路徑時(shí)能夠確保同一路徑上文獻(xiàn)具有較高的主題相似度[1,22],也有研究者進(jìn)一步將文獻(xiàn)本身重要性[20]、引用結(jié)構(gòu)相似性、引用情感等信息與主題相似度相結(jié)合[23],以提升主路徑的主題一致性。夏紅玉等[24]認(rèn)為已有研究忽略了同一引用關(guān)系在全文的出現(xiàn)頻次以及出現(xiàn)位置,而這兩個(gè)因素同樣對引文權(quán)重產(chǎn)生重要影響;Jiang等[25]將引用動(dòng)機(jī)引入引文網(wǎng)絡(luò),使得引文連線對應(yīng)不同分析目的。Oh等[26]運(yùn)用SAO和DEMATEL(decision mak‐ing trial and evaluation laboratory)方法捕捉專利引用所隱藏的因果關(guān)系,并將其量化后賦值于專利引文連線,用于識別能反映技術(shù)因果關(guān)系的主路徑。

        1.3 主路徑分析法的候選路徑生成

        一旦連線權(quán)重準(zhǔn)備完畢,下一步就是在源點(diǎn)和終點(diǎn)之間搜索候選路徑,以便從中篩選出最終的主路徑結(jié)果。為了方便表述,本文將該步驟簡稱為“候選路徑生成”。當(dāng)前路徑搜索主要有兩種策略,即貪心策略和窮舉策略。其中,前者從源點(diǎn)出發(fā),使用貪心法游走引文網(wǎng)絡(luò),即在由當(dāng)前節(jié)點(diǎn)發(fā)出的連線中,選取最大權(quán)重連線作為通路行進(jìn)至下一節(jié)點(diǎn),直至遇到終點(diǎn)[27];后者則窮舉出引文網(wǎng)絡(luò)中所有可能的路徑,進(jìn)而選取路徑權(quán)重最高的路徑作為結(jié)果輸出[28]。

        由于貪心策略并不保障搜索結(jié)果為全局最優(yōu)路徑,所以也被稱為局部搜索策略。與此相對,窮舉策略被稱為全局搜索策略。根據(jù)搜索方向的不同,這些策略還能進(jìn)一步被細(xì)分為由源點(diǎn)到終點(diǎn)的前向局部搜索、前向全局搜索,以及由終點(diǎn)到源點(diǎn)的后向局部搜索、后向全局搜索[29]。Liu等[29]觀察到,無論局部搜索策略還是全局搜索策略,所產(chǎn)生的主路徑均無法確保包含引文網(wǎng)絡(luò)中遍歷權(quán)重最大的連線;因此,他們建議使用一種新的路徑搜索策略,即關(guān)鍵路徑搜索(key-route search)。所謂關(guān)鍵路徑搜索就是先找出引文網(wǎng)絡(luò)中遍歷權(quán)重最大的連線并將其作為種子,進(jìn)而從種子出發(fā)向前搜索直至遇到終點(diǎn)、向后搜索直至遇到源點(diǎn),最終輸出一條新的主路徑。馬瑞敏等[30]注意到,候選路徑搜索算法基于連線權(quán)重展開,而將同樣值得關(guān)注的節(jié)點(diǎn)重要性排除在外;為此,他們將Pathfinder算法作為候選路徑搜索算法,針對重要節(jié)點(diǎn)、最大信息承載量和關(guān)鍵關(guān)系,構(gòu)建更具綜合性和包含性的主路徑。

        從路徑搜索角度來看,主路徑上出現(xiàn)文獻(xiàn)主題不一致現(xiàn)象的一個(gè)重要原因是,算法只根據(jù)當(dāng)前節(jié)點(diǎn)信息選擇下一節(jié)點(diǎn)而遺忘當(dāng)前節(jié)點(diǎn)的前趨節(jié)點(diǎn)?;诖耍琘eo等[27]使用二階馬爾科夫鏈對候選路徑展開2跳(2-hop)搜索,用于對抗因遺忘前趨節(jié)點(diǎn)所帶來的語義漂移問題。與此不同的是,Tu等[31]通過將主路徑上主題類似的文獻(xiàn)加以合并來區(qū)分不同主題,并形成一種新的主路徑形式——概念路徑;沿著該研究方向,Kim等[20]進(jìn)一步集成PageRank算法[32]和引文影響力模型(citation influence model,CIM)[33-34]來改善路徑的主題一致性,進(jìn)而抽取蛋白質(zhì)p53領(lǐng)域的多條主路徑。

        1.4 主路徑選擇

        早期的主路徑分析方法主要選取路徑長度最長或者連線累加權(quán)重最大的單條路徑作為主路徑[27]。然而,單條路徑由于覆蓋面較小,在探索領(lǐng)域知識演化脈絡(luò)時(shí)受限很大[34],同時(shí)容易遺失重要節(jié)點(diǎn)、連線和路徑[19]。為此,Verspagen[28]將路徑選擇條件放寬,若同時(shí)存在多條連線累計(jì)權(quán)重并列第一的路徑,則將其全部納入進(jìn)來以形成主路徑網(wǎng)絡(luò);Fon‐tana等[35]更進(jìn)一步,將連線累計(jì)權(quán)重排名第二、第三的候選路徑擴(kuò)充至主路徑網(wǎng)絡(luò)。由于這些主路徑網(wǎng)絡(luò)不僅包含了連線累計(jì)權(quán)重最大的路徑,還包含了排名靠后的其他路徑,因此,Liu等[34]稱這種新方法為多主路徑分析法。

        然而,在多主路徑分析法中,遍歷權(quán)重最大的連線仍然可能未被包含在主路徑網(wǎng)絡(luò)結(jié)果中。一方面,Xiao等[36]將關(guān)鍵路徑搜索策略引入多主路徑分析法中。具體來說,他們將遍歷權(quán)重排名靠前的連線作為種子,對每個(gè)種子執(zhí)行關(guān)鍵路徑搜索策略以產(chǎn)生多條主路徑,并將這些主路徑合并后得到最終結(jié)果。由于加持了關(guān)鍵路徑搜索策略的多主路徑方法在展示科技領(lǐng)域知識演化細(xì)節(jié)上的良好表現(xiàn),該方法得到了學(xué)者們的廣泛關(guān)注[14,36-37]。例如,萬小萍等[38]將多主路徑分析方法推廣到多源前向局部路徑搜索、多匯反向路徑搜索、全局組合路徑,用于提升路徑的多樣性和重要節(jié)點(diǎn)的包含性。

        另一方面,Kim等[19]和Yu等[37]將研究焦點(diǎn)投向從主路徑上旁生的重要分支。具體來說,他們首先采用社區(qū)探測算法將引文網(wǎng)絡(luò)劃分為若干子網(wǎng),繼而利用傳統(tǒng)主路徑分析法從每個(gè)子網(wǎng)中抽取子主路徑,將全部子主路徑合并后即可用于主路徑分支分析。Martinelli[17]提出另一種策略,即固定文獻(xiàn)的起始年份而改變文獻(xiàn)的終止年份,通過篩選符合條件的文獻(xiàn)集合形成不同時(shí)間段所對應(yīng)的引文網(wǎng)絡(luò),在對不同引文網(wǎng)絡(luò)進(jìn)行路徑抽取并拼接成總主路徑后,就可以分析不同時(shí)間段上的知識發(fā)展變化情況。Chen等[2]發(fā)現(xiàn)遍歷權(quán)重排名靠前的多主路徑通常由于具有相同主題而缺乏多樣性,他們將候選路徑轉(zhuǎn)化為文本向量后進(jìn)行聚類,并抽取每個(gè)聚簇中遍歷權(quán)重最大的路徑代表這一子領(lǐng)域的知識發(fā)展路徑,有效解決了多主路徑方法的主題單一問題。

        2 研究方法

        語義主路徑分析方法雖然將引文節(jié)點(diǎn)所依附的文本信息納入連線權(quán)重計(jì)算之中,以優(yōu)化主路徑上文獻(xiàn)的主題一致性,但是在使用聚類算法從候選路徑所形成的聚簇中選擇主路徑時(shí),直接選取最大遍歷權(quán)重路徑的做法可能導(dǎo)致主路徑偏離聚簇中心,無法展示該聚簇所隱藏的知識演化過程,同時(shí)減弱不同子領(lǐng)域主路徑之間的主題差異。對此,本文提出一種基于改進(jìn)密度聚類算法的語義主路徑分析方法,除了將語義信息融入主路徑以提升節(jié)點(diǎn)的語義相似度外,更重要的是將聚簇中候選路徑所在節(jié)點(diǎn)的密度和候選路徑的遍歷權(quán)重疊加起來形成復(fù)合密度,并重新進(jìn)行密度聚類和輸出位于新聚簇中心的主路徑。該方法的技術(shù)路線如圖2所示,下文將對其中主要步驟進(jìn)行詳細(xì)說明。

        圖2 技術(shù)路線

        2.1 數(shù)據(jù)預(yù)處理

        本文需要兩種類型數(shù)據(jù):一是文獻(xiàn)之間的引用信息;二是引文網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)所依附的文本信息。對于前者,需要在構(gòu)建引文網(wǎng)絡(luò)時(shí)去除孤立節(jié)點(diǎn)、網(wǎng)絡(luò)碎片和引文回路;對于后者,需要通過文本預(yù)處理完成大小寫轉(zhuǎn)換、抽詞干、詞形還原、去停用詞等一系列操作,從文本集合中匯集詞匯、形成詞典并完成文本向量化,即采用向量空間模型將文本轉(zhuǎn)化為向量,從而形成文檔-詞匯權(quán)重矩陣。由于詞典規(guī)模較大,每個(gè)文本向量化后的維度會(huì)很高,對應(yīng)的文檔-詞匯矩陣非常稀疏,因此,需要使用LSI(latent semantic index)[39]、LDA(latent Dirichelet allocation)[40]等主題模型對其降維以節(jié)省存儲空間和計(jì)算時(shí)間,繼而在文檔主題表示基礎(chǔ)上采用余弦公式計(jì)算文本之間的相似度。

        2.2 連線權(quán)重計(jì)算

        在計(jì)算引文連線時(shí),本文將傳統(tǒng)遍歷權(quán)重與語義權(quán)重相結(jié)合,形成連線綜合權(quán)重,即

        其中,weight(i,j)表示節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的綜合權(quán)重,由節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的遍歷權(quán)重weightt(i,j)和語義權(quán)重weights(i,j)組成。語義權(quán)重由節(jié)點(diǎn)i和節(jié)點(diǎn)j上文檔的主題相似度計(jì)算得到;遍歷權(quán)重根據(jù)1.2節(jié)中連線權(quán)重指標(biāo)計(jì)算得到;α是一個(gè)取值區(qū)間為[0,1] 的超參數(shù),用于調(diào)整連線上語義權(quán)重和遍歷權(quán)重的占比。

        與此同時(shí),路徑的權(quán)重計(jì)算方式也做了調(diào)整。傳統(tǒng)主路徑分析方法將路徑上所有連線的權(quán)重進(jìn)行累加,將其作為路徑的權(quán)重。然而,這種方法被應(yīng)用于語義權(quán)重會(huì)導(dǎo)致路徑搜索過程中發(fā)生語義漂移。所謂語義漂移是指在一條路徑中,直接相連的兩個(gè)文檔之間的主題具有一致性,但相隔較遠(yuǎn)的、間接相連的文檔之間主題并不一致。以圖3中的路徑為例,節(jié)點(diǎn)1和節(jié)點(diǎn)2、節(jié)點(diǎn)2和節(jié)點(diǎn)3、節(jié)點(diǎn)3和節(jié)點(diǎn)4所依附的文本之間主題高度相似,但節(jié)點(diǎn)1和節(jié)點(diǎn)4的主題完全偏離。

        圖3 路徑語義偏移示意圖

        為了解決這一問題,本文提出了一種新的路徑權(quán)重計(jì)算方法,具體表示為

        即在計(jì)算路徑遍歷權(quán)重時(shí)仍然沿用傳統(tǒng)的連線權(quán)重累加方法,具體表示為

        但在計(jì)算路徑語義權(quán)重時(shí),將該路徑上所有節(jié)點(diǎn)兩兩配對,并將其主題相似度進(jìn)行累加,表示為

        由于路徑語義權(quán)重和遍歷權(quán)重的取值區(qū)間處于不同量級,因此,在計(jì)算路徑綜合權(quán)重時(shí),需要將其規(guī)范化使其處于同一區(qū)間。本文選擇常用的minmax規(guī)范化方法,最終路徑的綜合權(quán)重計(jì)算方法為

        其中,Wp表示綜合路徑權(quán)重;min(weightp,s)和max(weightp,s)分別表示路徑語義權(quán)重的最小值和最大值;min(weightp,t)和max(weightp,t)分別表示路徑遍歷權(quán)重的最小值和最大值;超參數(shù)β用于調(diào)節(jié)歸一化處理后路徑遍歷權(quán)重與語義權(quán)重的比值,取值范圍為[0,1] 。

        2.3 主路徑選擇

        所謂主路徑選擇,是指在利用路徑搜索算法獲取由每個(gè)源點(diǎn)引出的最大權(quán)重路徑后,從這些最大權(quán)重路徑集合中篩選主路徑的過程。原語義主路徑分析方法[2]使用基于聚類的主路徑選擇思路:①將候選路徑上全部節(jié)點(diǎn)所依附的文本拼接起來,并采用向量表示,用于完成候選路徑的向量化;②對候選路徑向量應(yīng)用密度聚類算法[41],并將其劃分到不同聚簇中;③從每個(gè)聚簇所代表的子領(lǐng)域中遍歷權(quán)重最大的候選路徑代表這一聚簇的知識發(fā)展路徑。但是,這種以遍歷權(quán)重為標(biāo)準(zhǔn)的主路徑選擇方法可能導(dǎo)致所選主路徑處于聚簇的邊緣位置,無法代表這一聚簇的知識發(fā)展路徑。

        對此,本文將聚簇中代表候選路徑的節(jié)點(diǎn)的密度和節(jié)點(diǎn)所在候選路徑的遍歷權(quán)重進(jìn)行疊加,形成節(jié)點(diǎn)的復(fù)合密度,即

        其中,ρ'表示節(jié)點(diǎn)復(fù)合密度,ρ表示節(jié)點(diǎn)原始密度,通過統(tǒng)計(jì)某節(jié)點(diǎn)周圍單位面積中所包含的節(jié)點(diǎn)數(shù)量計(jì)算得到;weightp,t表示節(jié)點(diǎn)所在候選路徑的遍歷權(quán)重;γ表示用于調(diào)解原始密度與路徑遍歷權(quán)重的平衡參數(shù),取值范圍為[0,+∞)。本文方法的主路徑選擇過程是,在密度聚類算法框架下,使γ值從0開始逐步遞增,并實(shí)時(shí)刷新復(fù)合密度下各個(gè)聚簇中心的變化情況,當(dāng)聚簇中心的變化趨于穩(wěn)定后,將各條位于不同聚簇中心的候選路徑作為主路徑結(jié)果輸出。

        3 實(shí)證分析

        為展開對比分析以驗(yàn)證本文方法的有效性,本文沿用Chen等[2]使用的電動(dòng)汽車鋰離子電池專利數(shù)據(jù)集開展實(shí)證分析,并在3.4節(jié)的實(shí)驗(yàn)結(jié)果分析中輔以材料科學(xué)領(lǐng)域高影響力作者論文數(shù)據(jù)集,用于展示本文方法在不同學(xué)科領(lǐng)域和數(shù)據(jù)類型上的適用性。

        3.1 數(shù)據(jù)介紹

        本文數(shù)據(jù)集的數(shù)據(jù)來源為德溫特創(chuàng)新索引數(shù)據(jù)庫(Derwent Innovation Index Database),采用Zhang等[42]提出的檢索式得到初步專利數(shù)據(jù),經(jīng)領(lǐng)域?qū)<液Y選、前向引用和后向引用擴(kuò)充、專利家族合并、最大連通子圖抽取后,得到包含3603個(gè)專利家族的獨(dú)立引文網(wǎng)絡(luò),分為1248個(gè)源點(diǎn)、1085個(gè)中間節(jié)點(diǎn)和1270個(gè)終點(diǎn)。專利家族數(shù)量隨基本專利發(fā)布年份的分布情況如圖4所示。可以看到,電動(dòng)汽車鋰離子電池專利最早出現(xiàn)于1975年,1990年以后為快速發(fā)展時(shí)期。

        圖4 基于基本專利公開年份的專利家族數(shù)量分布

        3.2 超參數(shù)調(diào)整和候選路徑生成

        本文遵循主路徑方法的基礎(chǔ)假設(shè),即路徑的遍歷權(quán)重反映了經(jīng)過該路徑的知識流量。為使本文方法產(chǎn)生的主路徑能夠反映引文網(wǎng)絡(luò)中的主要知識發(fā)展路徑,這些主路徑的遍歷權(quán)重應(yīng)該盡量接近傳統(tǒng)主路徑分析方法的路徑遍歷權(quán)重,同時(shí)融入盡可能多的語義信息以提升主路徑的語義權(quán)重。需要說明的是,傳統(tǒng)主路徑方法是語義主路徑方法β=0即不考慮語義信息的特殊情況,為調(diào)節(jié)超參數(shù)β達(dá)到上述目的,β不可能偏離原點(diǎn)較遠(yuǎn)。本文將β取值范圍[0,1] 按0.01的單位步長進(jìn)行劃分,并將每個(gè)值分配給β以生成對應(yīng)候選路徑。由于引文網(wǎng)絡(luò)中包含1248個(gè)源點(diǎn),因此,每個(gè)β對應(yīng)由1248條候選路徑所組成的路徑集合。圖5展示了不同β取值下候選路徑集合的最大遍歷權(quán)重、最大語義權(quán)重以及平均綜合權(quán)重變化情況。從圖5a可以發(fā)現(xiàn),最大遍歷路徑權(quán)不隨β取值不同發(fā)生變化,即無論β如何取值,語義主路徑搜索得到的遍歷權(quán)重最大的路徑是穩(wěn)定的,它與傳統(tǒng)主路徑分析法輸出主路徑以及遍歷權(quán)重保持一致;當(dāng)β=0.05(圖5中的垂直虛線)時(shí),能夠滿足β在距離源點(diǎn)較近的前提下候選路徑的兩種類型權(quán)重的變化處于相對穩(wěn)定狀態(tài),因此,將其作為β的數(shù)值,并生成相應(yīng)的候選路徑。

        圖5 不同路徑權(quán)重隨β值的變化情況

        此外,考慮到公式(5)中引入語義路徑權(quán)重的目的在于對多主路徑各自的主題聚焦程度進(jìn)行優(yōu)化,為驗(yàn)證該公式的正確性,本文分別取β=0,0.05,1來考察當(dāng)語義路徑權(quán)重的重要性不斷提升時(shí),所抽取多主路徑的變化情況。具體來說,本文將不同β值分別代入語義主路徑分析法,并基于節(jié)點(diǎn)上的文本信息將抽取的多主路徑連同其所在的引文網(wǎng)絡(luò)分別投射到3個(gè)二維語義平面,如圖6所示。可以發(fā)現(xiàn),隨著β的增加,各條主路徑越發(fā)聚焦于單一子領(lǐng)域,這表明了公式(5)的正確性。

        圖6 不同β值下的多主路徑在語義空間的分布

        3.3 主路徑選擇

        在改進(jìn)密度聚類算法以選擇主路徑時(shí),本文選取的改進(jìn)對象是密度峰值聚類算法[41]。該聚類算法假設(shè)每個(gè)聚簇中心被具有較低局部密度的鄰居包圍,并且與具有較高局部密度的其他數(shù)據(jù)點(diǎn)的距離相對較大,因此,可以通過對比數(shù)據(jù)點(diǎn)的局部密度及其與較高密度數(shù)據(jù)點(diǎn)的距離來獲得聚類數(shù)量和每個(gè)聚簇的中心點(diǎn)[43]。該算法的另一個(gè)優(yōu)點(diǎn)是聚類過程不包含隨機(jī)操作,因此,在相同配置下每次執(zhí)行不會(huì)產(chǎn)生不同結(jié)果。

        在使用公式(6)優(yōu)化主路徑的選取過程中,將γ的初始值設(shè)置為0,步長設(shè)定為1,根據(jù)每次γ增加后的候選路徑密度與距離來更新各個(gè)聚簇中心,具體如表2所示??梢园l(fā)現(xiàn):①聚簇中心并不隨γ值持續(xù)變化,而是當(dāng)γ值位于臨界點(diǎn)即表2第一列時(shí),發(fā)生突然跳躍;②不同聚簇中心的跳躍并不同步,例如,當(dāng)γ值由2增加到3時(shí),編號為1的候選路徑替代編號為160的候選路徑成為路徑1的聚簇中心,而其他聚簇中心保持不變;當(dāng)γ值由172增加到173時(shí),編號為62的候選路徑替代編號為251的候選路徑成為路徑4的聚簇中心,而其他聚簇中心同樣保持不變;③γ值的臨界點(diǎn)數(shù)量有限,當(dāng)γ取值超過最大臨界點(diǎn)后,聚簇中心不再發(fā)生變化;④隨著γ值的增加,各條位于聚簇中心的候選路徑的路徑長度和遍歷權(quán)重不斷提升,多主路徑選擇結(jié)果得到持續(xù)優(yōu)化。

        表2 中心路徑隨γ值的變化情況

        同時(shí),不同主路徑的跳躍距離也存在很大區(qū)別。為了清楚展示這一現(xiàn)象,分別使用3種主路徑選擇策略:直接以聚簇中心所在候選路徑作為主路徑(簡稱“策略1”),如圖7a所示;以聚簇中遍歷權(quán)重最大的候選路徑作為主路徑(簡稱“策略2”),若有多個(gè)并列權(quán)重最大的候選路徑則將其全部輸出,如圖7b所示;使用改進(jìn)密度聚類算法在最大臨界點(diǎn),即γ=896時(shí)篩選出的主路徑(簡稱“策略3”),如圖7c所示??梢园l(fā)現(xiàn),相比于圖7a中的各個(gè)聚簇中心點(diǎn),即采用改進(jìn)密度聚類算法時(shí)各條主路徑的初始位置,優(yōu)化結(jié)束后路徑1、路徑2和路徑3的位置相對穩(wěn)定,路徑5略有變化,路徑4變化最大。

        圖7 不同路徑選擇策略下的主路徑分布

        3.4 結(jié)果與分析

        本節(jié)深入分析主路徑上文獻(xiàn)的文本內(nèi)容,對本文方法的正確性、有效性及其與顛覆性技術(shù)之間的關(guān)系展開進(jìn)一步探究。同時(shí),為驗(yàn)證本文方法在不同科技領(lǐng)域和不同類型數(shù)據(jù)上的普適性,選取材料科學(xué)作為實(shí)證領(lǐng)域,對該領(lǐng)域高影響力作者論文引文網(wǎng)絡(luò)展開主路徑分析。

        3.4.1 改進(jìn)方法的正確性驗(yàn)證

        本文調(diào)研了相關(guān)文獻(xiàn)并獲取電動(dòng)汽車的主要架構(gòu),如圖8[43]所示;本文提出的語義主路徑的輸出結(jié)果如圖9所示,其含義如表3中策略3對應(yīng)條目所示??梢园l(fā)現(xiàn),本文方法成功識別了大多數(shù)關(guān)于電池的電動(dòng)汽車汽車組件,如路徑1和路徑2識別的電池控制器、路徑3和路徑4識別的電池設(shè)計(jì)技術(shù)以及路徑5所識別的電機(jī)控制器。進(jìn)一步地,由于每條主路徑主題之間的區(qū)別較大,用戶可以使用語義主路徑分析法觀察針對同一組件的不同研究方向,比如,盡管路徑1和路徑2都在討論電池控制器,但路徑1討論的是溫度控制技術(shù),而路徑2討論的是充放電時(shí)電壓、電流的控制技術(shù)和剩余電量的測度技術(shù)。根據(jù)文獻(xiàn)調(diào)研可知,這些路徑反映了電池管理系統(tǒng)(battery man‐agement system,BMS)中兩個(gè)關(guān)鍵技術(shù),即溫度控制和充放電控制的發(fā)展軌跡[44-45]。此外,雖然路徑5的遍歷權(quán)重最小,但這并不意味著電機(jī)控制技術(shù)不重要,相反地,它是圖8中電動(dòng)汽車主要架構(gòu)的組成部分,相較于鋰離子電池,這部分內(nèi)容相對獨(dú)立。路徑4與路徑1雖然看起來內(nèi)容較為相似,但是路徑1主要描述電池的外在組件,例如,電池固定結(jié)構(gòu)、電池保護(hù)套或者電池之間用到的冷卻介質(zhì)分配板;而路徑4主要是基于電池組結(jié)構(gòu)設(shè)計(jì)來達(dá)到電池冷卻目的的技術(shù)路線。兩條路徑雖然均與電池技術(shù)相關(guān),但是側(cè)重點(diǎn)不同。上述實(shí)驗(yàn)結(jié)果和真實(shí)情況的相互印證,驗(yàn)證了本文方法的正確性。

        表3 不同選擇策略下的主路徑主題匯總

        圖8 電動(dòng)汽車架構(gòu)示意圖[43]

        圖9 語義主路徑抽取結(jié)果

        3.4.2 改進(jìn)方法的有效性及其能力驗(yàn)證

        首先,分析三類策略所產(chǎn)生主路徑的主題差異。從主路徑在語義空間的布局(圖7)可以看出,策略1的主路徑結(jié)果經(jīng)策略2調(diào)整后,路徑1和路徑5在保持路徑主題沒有發(fā)生變化或發(fā)生較小變化的情況下,提升了路徑長度和遍歷權(quán)重,路徑2保持穩(wěn)定不變,這表明Chen等[2]提出的語義主路徑分析方法具備一定的主路徑優(yōu)化能力。路徑3和路徑4遷移至各自聚簇的邊緣位置(圖7b)。結(jié)合表3和表4可知,雖然路徑3和路徑4的長度和遍歷權(quán)重得到了提升,兩者主題相比于聚簇中心主題已經(jīng)發(fā)生了較大變化:路徑3的主題由“鋰離子二級電池正極材料合成技術(shù)”轉(zhuǎn)變?yōu)椤半娮?、電氣設(shè)備的二級電池技術(shù)”,路徑4的主題由“電池冷卻結(jié)構(gòu)”轉(zhuǎn)變?yōu)椤颁嚩夒姵丶夹g(shù)和電池包技術(shù)”;而這些主題均處于各自聚簇的邊緣位置,難以代表各自的知識發(fā)展脈絡(luò)。需要說明的是,表3中主路徑的主題采用人工方式提取,先獲取主路徑上所有節(jié)點(diǎn)所依附的文獻(xiàn)摘要,再從中解讀出主路徑的主題內(nèi)容。

        表4 不同選擇策略下主路徑的統(tǒng)計(jì)信息

        使用本文提出的策略3對策略1的主路徑結(jié)果進(jìn)行調(diào)整后,主路徑的總體布局(圖7c)相對于各個(gè)聚簇中心(圖7a)基本保持穩(wěn)定,只有路徑4發(fā)生較大偏移。與策略2類似,經(jīng)過策略3調(diào)整后,除路徑2保持不變外,其他主路徑的路徑長度和遍歷權(quán)重均取得了顯著提升,但該策略帶來的提升幅度弱于策略2。比如,路徑3的遍歷權(quán)重經(jīng)過策略2調(diào)整后由1.07×10-4提升至4.76×10-3,但經(jīng)策略3調(diào)整后提升至6.60×10-4;路徑4的遍歷權(quán)重經(jīng)過策略2調(diào)整后提升至0.24,但經(jīng)策略3調(diào)整后提升至0.22。從路徑主題來看,策略3能夠維持主路徑的主題穩(wěn)定。仍然以路徑3和路徑4為例,在策略3下,路徑3的主題由“鋰離子二級電池正極材料合成技術(shù)”轉(zhuǎn)變?yōu)椤鞍嚦煞值碾姵卣龢O材料合成技術(shù)”,路徑4的主題由“電池冷卻結(jié)構(gòu)”轉(zhuǎn)變?yōu)椤盎陔姵亟M結(jié)構(gòu)設(shè)計(jì)的電池冷卻技術(shù)”,這些主路徑的主題并未發(fā)生變化。由此可見,本文方法(策略3)可以在保持主路徑主題和聚簇中心主題一致的前提下,對路徑長度和遍歷權(quán)重進(jìn)行優(yōu)化,使主路徑能夠反映聚簇內(nèi)的知識發(fā)展路徑,且能夠避免出現(xiàn)策略2中過于強(qiáng)調(diào)路徑長度和遍歷權(quán)重導(dǎo)致主路徑主題發(fā)生偏離的問題。

        3.4.3 主路徑與顛覆性創(chuàng)新的關(guān)系探究

        主路徑是否包含顛覆式創(chuàng)新是一個(gè)值得探究的問題。其中顛覆性測度選用CD指數(shù)[46],該指標(biāo)從后續(xù)引用角度,通過局域引用結(jié)構(gòu)衡量專利對已有知識的替代作用和對未來專利的影響程度,并以此定義顛覆性。CD指數(shù)自2017年被提出后,分別于2019年和2022年被應(yīng)用于兩篇Nature文章中的顛覆性研究[47-48],引起科學(xué)界廣泛關(guān)注與認(rèn)可。本文采用CD指數(shù)測度實(shí)證專利的顛覆性,時(shí)間窗口按慣例設(shè)置為5年,從實(shí)證數(shù)據(jù)中共獲得CD5=1的顛覆性專利家族121個(gè)(下文簡稱“顛覆性專利”),其公開年份分布如圖10所示,不同策略下各條主路徑上所包含的顛覆性專利數(shù)量如表5所示。在3種策略下,5條主路徑包含的顛覆性專利數(shù)量極少,分別為1、1、2。

        表5 不同選擇策略下主路徑的顛覆性專利家族數(shù)量

        圖10 專利家族及其顛覆性專利的數(shù)量分布

        繪制不同年份顛覆性專利在語義空間的位置分布(圖11),能夠在一定程度上解釋主路徑上顛覆性專利稀少的原因。在圖11中,從出現(xiàn)顛覆性專利的20個(gè)年份中較平均地選取了6個(gè)年份。對于每個(gè)年份,以1982年為例,在將實(shí)證數(shù)據(jù)集中公開年份在1982年及其之前的專利匯總后,利用MDS(multi-dimension scaling)方法將這些專利的文本信息投射到二維平面,并將1982年出現(xiàn)的顛覆性專利用灰底黑邊方框凸顯出來。從圖11可見,在該數(shù)據(jù)集的前半階段,即1982年、1986年和1995年,突破式革新技術(shù)因與傳統(tǒng)技術(shù)在語義上差異較大,相應(yīng)專利會(huì)出現(xiàn)在聚簇邊緣位置,而且這些專利與同時(shí)期其他專利的語義相似度較弱,削弱了這個(gè)突破式專利進(jìn)入主路徑的可能性;在該數(shù)據(jù)集的后半階段,雖然突破性專利同樣難以進(jìn)入主路徑,但由于這一時(shí)期專利數(shù)量急劇增加,以及專利中技術(shù)公開的制度要求和申請者避免競爭對手發(fā)現(xiàn)、模仿己方技術(shù)之間的矛盾,專利中存在大量同義詞、近義詞、模糊術(shù)語、上下位概念替換等語言現(xiàn)象,使得顛覆性專利即使創(chuàng)造性很強(qiáng),仍可能在語義空間上處于聚簇的中心位置,如圖11d~圖11f所示。

        圖11 不同年份顛覆性專利在語義空間的位置分布

        3.4.4 材料科學(xué)領(lǐng)域?qū)嵶C分析

        材料科學(xué)是一門多學(xué)科交叉的應(yīng)用科學(xué)領(lǐng)域,在推動(dòng)經(jīng)濟(jì)發(fā)展、社會(huì)建設(shè)和科技進(jìn)步上應(yīng)用廣泛、潛力巨大。本文基于美國科學(xué)信息研究所(In‐stitute for Scientific Information,ISI)制定的高被引作者遴選方法[49],創(chuàng)建包含該領(lǐng)域中18569篇論文的高影響力作者論文引文網(wǎng)絡(luò),這些論文的發(fā)表時(shí)間為1964—2021年。其中,最大獨(dú)立子網(wǎng)包括18504篇論文和119384條引文關(guān)系,該獨(dú)立子網(wǎng)與電動(dòng)汽車鋰離子電池專利引文網(wǎng)絡(luò)在常見網(wǎng)絡(luò)指標(biāo)上的描述性統(tǒng)計(jì)如表6所示,可以發(fā)現(xiàn)這兩個(gè)網(wǎng)絡(luò)存在顯著差別:在節(jié)點(diǎn)數(shù)量上差距約為5倍,在連線數(shù)量上差距約為20倍。由此可見,論文引文網(wǎng)絡(luò)的節(jié)點(diǎn)之間關(guān)聯(lián)密切,其連線的稠密程度遠(yuǎn)高于專利引文網(wǎng)絡(luò),從而導(dǎo)致前者的層次數(shù)量雖然高于后者,但前者的網(wǎng)絡(luò)直徑和網(wǎng)絡(luò)傳遞性卻低于后者。

        表6 兩個(gè)引文網(wǎng)絡(luò)的網(wǎng)絡(luò)指標(biāo)統(tǒng)計(jì)

        通過執(zhí)行策略2和策略3,對原語義主路徑方法和改進(jìn)后的方法展開對比分析。這兩種策略產(chǎn)生的主路徑的位置分布如圖12所示,統(tǒng)計(jì)信息和主題含義如表7和表8所示,路徑詳情如圖13所示。從表7可以看到,兩種策略下得到的路徑2、路徑3和路徑4完全相同。路徑1中僅在初始的少許節(jié)點(diǎn)上存在差別,導(dǎo)致改進(jìn)后的方法在該路徑的長度上減少了1,但在路徑遍歷權(quán)重和主題上保持不變。路徑5完全不同,在原語義主路徑方法的主路徑選擇結(jié)果中,路徑4和路徑5在語義空間上距離過近,結(jié)合表7和表8可以看出,這兩條路徑均涉及電池電極制造,缺乏主題區(qū)分度,且路徑5中僅包含3個(gè)節(jié)點(diǎn)、路徑遍歷權(quán)重為2.87×10-3,并不適合展示該領(lǐng)域中的知識發(fā)展脈絡(luò);經(jīng)過本文方法優(yōu)化后,路徑5的節(jié)點(diǎn)數(shù)量增加至12,路徑遍歷權(quán)重增加至0.23(表7),更易于反映該領(lǐng)域的知識發(fā)展,同時(shí)該主路徑在語義空間的位置與其他主路徑距離較遠(yuǎn)(圖12b),其主題為“基于金屬鹵化物的鈣鈦礦材料研究,可用于太陽能光伏發(fā)電”(表8),與其他路徑主題存在明顯區(qū)分度。

        表7 不同策略下主路徑的統(tǒng)計(jì)信息

        表8 不同策略下主路徑的主題匯總

        圖12 不同策略下主路徑在語義空間的布局

        圖13 不同策略下的主路徑詳情

        4 總結(jié)與前瞻

        主路徑分析法因追蹤領(lǐng)域知識發(fā)展脈絡(luò)的強(qiáng)大能力,而被廣泛用于科技情報(bào)領(lǐng)域,以確定科學(xué)、技術(shù)的主要發(fā)展過程。當(dāng)引文網(wǎng)絡(luò)規(guī)模龐大、結(jié)構(gòu)復(fù)雜時(shí),主路徑分析法顯著減輕了用戶從過載信息中查找文獻(xiàn)并將其梳理歸納為知識發(fā)展脈絡(luò)的工作負(fù)擔(dān)。然而,當(dāng)政府管理者面臨科技發(fā)展政策規(guī)劃和戰(zhàn)略方向判斷、高校院所科研人員面臨科技創(chuàng)新機(jī)會(huì)發(fā)現(xiàn)和研究計(jì)劃制訂、企業(yè)研發(fā)人員面臨技術(shù)路線選擇和未來態(tài)勢研判時(shí),傳統(tǒng)主路徑分析方法側(cè)重于單一知識發(fā)展脈絡(luò)抽取、全景覆蓋能力羸弱的特點(diǎn),使之難以應(yīng)對這些應(yīng)用場景;語義主路徑分析法則給出一套更為科學(xué)、合理、有效的解決方案,但其在主路徑選擇時(shí),偏重于路徑遍歷權(quán)重的做法使得部分主路徑偏離聚簇中心,不僅在能否代表這一子領(lǐng)域知識發(fā)展脈絡(luò)方面存疑,而且不同主路徑的主題可能相互重疊,區(qū)分并不明顯。對此,本文提出一種基于改進(jìn)密度聚類算法的語義主路徑分析方法,即把候選路徑聚簇密度和路徑遍歷權(quán)重進(jìn)行疊加形成復(fù)合密度,通過調(diào)節(jié)復(fù)合密度中兩個(gè)要素的比重來優(yōu)化主題聚簇中心的定位;聚簇中心的位置變化收斂后,將位于不同主題聚簇中心的路徑作為結(jié)果輸出。

        為驗(yàn)證本文方法的有效性和普適性,本文選取兩個(gè)完全不同領(lǐng)域、不同類型的數(shù)據(jù)集展開實(shí)證分析,即電動(dòng)汽車鋰離子電池專利數(shù)據(jù)集和材料科學(xué)高影響力作者論文引文數(shù)據(jù)集。研究結(jié)果表明,在這兩類數(shù)據(jù)集中,本文方法均可以顯著優(yōu)化部分主路徑偏離聚簇中心的現(xiàn)象,避免了其在語義空間和路徑遍歷權(quán)重之間的失衡。然而,該方法仍然存在可優(yōu)化之處,在復(fù)合密度調(diào)節(jié)過程中,聚簇中心的數(shù)量會(huì)發(fā)生變化,因此,需要人工干預(yù)以使聚簇中心的數(shù)量保持不變;如何在徹底避免人工干預(yù)的情況下實(shí)現(xiàn)主路徑的優(yōu)化選取,是未來重要研究任務(wù)之一。當(dāng)前,各類主路徑分析方法使用的引文網(wǎng)絡(luò)通常聚焦于某領(lǐng)域的局部引文網(wǎng)絡(luò),在構(gòu)建網(wǎng)絡(luò)過程中,難免出現(xiàn)數(shù)據(jù)遺漏或者噪聲現(xiàn)象,影響主路徑的結(jié)果;而基于全局引文網(wǎng)絡(luò)的測度指標(biāo)如CD指數(shù),則給出了良好的啟發(fā),即形成基于全局引文網(wǎng)絡(luò)的節(jié)點(diǎn)或連線重要性測度指標(biāo),以獲得更加穩(wěn)健的主路徑分析結(jié)果。本文還發(fā)現(xiàn),主路徑難以將高顛覆性文獻(xiàn)納入其中;然而,顛覆性是測度文獻(xiàn)創(chuàng)造性和影響力的重要指標(biāo),因此,如何將顛覆性測度指標(biāo)與主路徑分析方法相結(jié)合,形成由最具顛覆性的文獻(xiàn)串聯(lián)起來的知識發(fā)展脈絡(luò),也是未來重要研究方向之一。

        猜你喜歡
        語義策略方法
        例談未知角三角函數(shù)值的求解策略
        語言與語義
        我說你做講策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        可能是方法不對
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認(rèn)知范疇模糊與語義模糊
        91免费国产| 成人精品一级毛片| 久久免费国产精品| 亚洲欧洲日产国产AV无码| 亚洲中文字幕乱码免费| 无码国产精品一区二区免费式芒果| 国产三级国产精品国产专区| 水蜜桃在线观看一区二区国产 | 高潮内射双龙视频| 精品人妻一区二区三区浪人在线 | 国产freesexvideos中国麻豆| 亚洲国产精品无码专区| 欧美最猛性xxxxx免费| 中文乱码人妻系列一区二区| 无码中文日韩Av| 亚洲不卡av不卡一区二区| 日本特殊按摩在线观看| 国产精品亚洲一区二区麻豆| 亚洲欧洲日产国码av系列天堂| 美女网站免费福利视频| 国产亚洲精品aaaa片app| 人妻丰满熟妇av一区二区| 日本av一区二区三区四区| 国产乱码一区二区三区精品| 国产精品无码素人福利| 色综合中文综合网| 亚洲AV无码精品呻吟| 国产爆乳美女娇喘呻吟久久| 久久精品国产亚洲av夜夜| 久久精品国产亚洲av高清三区 | а天堂中文地址在线| 波多野42部无码喷潮在线| 精品无码国产自产野外拍在线| 亚洲国产成人久久一区www妖精 | 国产自拍在线观看视频| 天天躁夜夜躁av天天爽| 理论片87福利理论电影| 综合色久七七综合尤物| 网红极品女神精品视频在线| 亚洲熟女熟妇另类中文| 香蕉视频在线观看亚洲|