亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LSTM模型與加權(quán)鏈路預(yù)測的學(xué)科新興主題成長性識別研究

        2022-09-01 00:37:42段慶鋒劉東霞閆緒嫻張紅兵
        現(xiàn)代情報 2022年9期
        關(guān)鍵詞:模型

        段慶鋒 陳 紅 劉東霞 閆緒嫻 張紅兵

        (山西財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,山西 太原 030006)

        新興主題已經(jīng)成為科技情報學(xué)界持續(xù)關(guān)注的熱點和難點。代表科技趨勢的學(xué)科新興主題能夠為國家科技戰(zhàn)略規(guī)劃、企業(yè)增強科技競爭力、研發(fā)人員尋找技術(shù)機會提供關(guān)鍵的決策依據(jù),具有極高的戰(zhàn)略價值。成長性是新興主題的重要表現(xiàn),更是識別新興主題的關(guān)鍵。通過梳理相關(guān)文獻可以發(fā)現(xiàn),盡管新興主題識別采用的邏輯依據(jù)各有不同,但出現(xiàn)最多的就是成長性(Growth)特征[1]。通過捕捉成長性特征發(fā)現(xiàn)新興主題識別領(lǐng)域的基本共識。然而,成長性具有鮮明的動態(tài)屬性,學(xué)科趨勢面臨諸多不確定性,預(yù)測甚至洞見學(xué)科未來存在挑戰(zhàn)性。

        以深度神經(jīng)網(wǎng)絡(luò)及鏈路預(yù)測為代表的信息技術(shù)前沿進展為新興主題識別提供了有力工具。已有研究采用的方法多樣,以曲線擬合分析、時間序列預(yù)測、網(wǎng)絡(luò)分析等為代表的模型工具得到廣泛應(yīng)用,但在識別有效性及預(yù)見能力方法仍存探討空間。LSTM具有很強的時序依賴分析預(yù)測能力,有助于捕捉新興主題快速增長態(tài)勢;鏈路預(yù)測能夠通過網(wǎng)絡(luò)依賴關(guān)系預(yù)測二元關(guān)系形成幾率,有助于從網(wǎng)絡(luò)演化視角揭示新興主題的成長性。兩種模型從不同層面形成趨勢預(yù)見能力,通過它們的融合分析,有助于提升學(xué)科新興主題成長性的綜合識別能力,進而推進學(xué)科新興主題領(lǐng)域研究。

        1 相關(guān)研究概述

        關(guān)于學(xué)科新興主題識別的文獻豐富且探討相對深入。學(xué)科主題的內(nèi)涵理解與外延邊界把握是識別分析的基礎(chǔ),以LDA、BERT等為代表的語義分析模型及工具極大地促進了文本語義理解能力[2-3],與基于主題詞的定性化分析形成效能互補[3]。新興特征的準(zhǔn)確捕捉與有效區(qū)分成為影響識別效果的關(guān)鍵。從思路上看,識別邏輯大致可以分為兩大類:一是主題特征序列視角的新興演化,強調(diào)時間維度下的主題狀態(tài)演化趨勢規(guī)律;二是結(jié)構(gòu)視角的關(guān)系變化,通過知識結(jié)構(gòu)變化揭示新興過程中的主題要素關(guān)系(如引用關(guān)系、共現(xiàn)關(guān)系)規(guī)律,通過聚類分析、社區(qū)探測等方法揭示主題簇的涌現(xiàn)或知識模式的呈現(xiàn)[4-6]。

        近年隨著機器學(xué)習(xí)理論及算法的不斷成熟,面向主題的定量化預(yù)測模型及算法開始受到關(guān)注[7],尤其深度學(xué)習(xí)的應(yīng)用趨勢最為明顯。例如,Liang Z T等[8]融合深度神經(jīng)網(wǎng)絡(luò)模型和文獻計量指標(biāo)用于預(yù)測新興主題。霍朝光等[9]構(gòu)建基于LSTM神經(jīng)網(wǎng)絡(luò)的學(xué)科主題熱度預(yù)測模型(TPP-LSTM),反映了LSTM對于主題熱度時間序列的良好預(yù)測能力。朱光等[10]將LDA主題模型和LSTM模型相結(jié)合,構(gòu)建主題預(yù)測模型,并對科學(xué)基金主題趨勢開展了預(yù)測分析。陳偉等[11]利用LDA主題模型捕捉技術(shù)主題聚類,結(jié)合應(yīng)用包含雙重隨機過程的隱馬爾可夫模型(HMM)開展未來技術(shù)趨勢的定量預(yù)測。Xu S等[12]構(gòu)建了融合多種機器學(xué)習(xí)模型的新興主題預(yù)測識別方法。許學(xué)國等[13]構(gòu)建結(jié)合經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition)和LSTM模型的時間序列技術(shù)主題預(yù)測模型,通過與Clarivate Analytics機構(gòu)2018年報告的比對驗證,說明了方法的有效性。李靜等[14]對比分析了BP神經(jīng)網(wǎng)絡(luò)、支持向量機和LSTM模型在熱點趨勢預(yù)測應(yīng)用方面的異同。值得注意的是,近年鏈路預(yù)測開始成為主題識別的分析工具。比如,Huang L等[15]基于鏈路預(yù)測指標(biāo)構(gòu)建共詞網(wǎng)絡(luò)演化神經(jīng)網(wǎng)絡(luò)預(yù)測模型,基于預(yù)測網(wǎng)絡(luò)設(shè)計4個識別指標(biāo),以識別新興主題。Cho J H等[16]采用基于鏈路預(yù)測的機器學(xué)習(xí)方法預(yù)測技術(shù)主題的融合模式。黃璐等[17]將鏈路預(yù)測方法引入主題識別問題領(lǐng)域,基于加權(quán)鏈路預(yù)測和神經(jīng)網(wǎng)絡(luò),圍繞主題新穎性和影響力兩方面,構(gòu)建識別預(yù)測模型。另外,融合多種類型媒介數(shù)據(jù)的主題預(yù)測方法也成為不可忽視趨勢。比如,Akella A P等[18]證實了以替代計量指標(biāo)為代表的社交媒介在學(xué)科預(yù)測及時性方面的優(yōu)勢;段慶鋒等[19]構(gòu)建融合社交媒介和出版媒介的新興主題識別指標(biāo),基于此構(gòu)建更加高敏感的新興趨勢預(yù)見與主題識別方法。

        綜上所述,LSTM模型和鏈路預(yù)測已經(jīng)被科技情報學(xué)界關(guān)注,開始將其引入并應(yīng)用于學(xué)科新興主題研究領(lǐng)域。然而,還鮮有結(jié)合兩種模型預(yù)測優(yōu)勢構(gòu)建的新興主題研究。LSTM模型并未考慮不同主題之間的內(nèi)在關(guān)系,而面向二元關(guān)系的鏈路預(yù)測則彌補了LSTM時序模型在主題網(wǎng)絡(luò)演化方面的局限。本文結(jié)合兩者特征,針對學(xué)科新興主題成長性識別問題,構(gòu)建新型組合模型,提升成長性特征的動態(tài)刻畫與預(yù)測能力。

        2 研究方法

        2.1 分析框架

        新興主題的成長性成為識別的關(guān)鍵依據(jù)。按照生命周期理論,新生、新興、成熟、衰退、消亡依序構(gòu)成發(fā)展過程,新興階段通常表現(xiàn)出的高增長性成為趨向成熟過程中呈現(xiàn)的外部可觀察特征[20],更重要的是當(dāng)前的新興狀態(tài)是實現(xiàn)未來成熟的不可避免歷程,這種新興特征很大程度上為將來狀態(tài)提供了重要啟示,是科學(xué)預(yù)見的客觀基礎(chǔ)。

        新興主題不但具有成為未來熱門主題的潛力,更應(yīng)該在未來學(xué)科知識體系中承擔(dān)重要地位與影響力。由此,主題成長性可以從兩方面加以考察:熱度和影響力。一是聚焦于主題本身的發(fā)展規(guī)律,開展時序預(yù)測,從數(shù)量層面反映其狀態(tài)預(yù)期;二是通過主題間關(guān)系演化,開展網(wǎng)絡(luò)預(yù)測,從關(guān)系結(jié)構(gòu)層面反映其未來影響力預(yù)期?;谮厔蓊A(yù)測的思路,結(jié)合主題新興階段的生命周期特征,設(shè)計學(xué)科新興主題識別方法流程,如圖1所示。

        圖1 基于組合預(yù)測的學(xué)科新興主題識別流程

        首先,構(gòu)建結(jié)合文獻計量指標(biāo)與Altmetrics指標(biāo)的主題熱度指標(biāo),并采用長短記憶神經(jīng)網(wǎng)絡(luò)LSTM,預(yù)測主題未來的熱度狀態(tài);其次,采用鏈路預(yù)測方法,預(yù)測未來的主題詞共現(xiàn)網(wǎng)絡(luò),通過PageRank算法揭示主題的未來影響力;最后,基于預(yù)測結(jié)果,將預(yù)測狀態(tài)與歷史狀態(tài)進行比較刻畫,揭示主題熱度的增長性預(yù)期與影響力演化預(yù)期,由此通過二維動態(tài)特征的綜合研判,形成學(xué)科新興主題的識別依據(jù)。

        2.2 主題熱度預(yù)測

        2.2.1 主題熱度指標(biāo)

        主題熱度指主題在學(xué)科領(lǐng)域的受關(guān)注或者流行程度[21],可以從兩個層面加以考察,一是狹義學(xué)術(shù)層面;二是廣義社會層面。在狹義學(xué)術(shù)層面,主題內(nèi)容在學(xué)科領(lǐng)域的發(fā)表曝光程度體現(xiàn)了主題在學(xué)術(shù)層面的流行熱度,反映學(xué)者對主題的關(guān)注程度,可以通過主題所出現(xiàn)的文獻數(shù)量加以衡量[22]。在廣義社會層面,主題通過更廣泛多樣社會媒介加以傳播,主題內(nèi)容受到更多相關(guān)利益者的關(guān)注、討論,體現(xiàn)了主題在更廣泛社會層面的流行熱度,更多地反映了社會大眾對于主題內(nèi)容的興趣與關(guān)注程度。主題在廣義社會層面的傳播熱度可以通過Altmetrics指標(biāo)加以衡量。作為科學(xué)計量學(xué)的新型度量工具,Altmetrics指標(biāo)捕捉了作為主題內(nèi)容載體的學(xué)術(shù)文獻在多種網(wǎng)絡(luò)媒介(尤其學(xué)術(shù)社交媒介)的傳播及交互事件(如點贊、轉(zhuǎn)發(fā)、提及等),通過相關(guān)事件計量的方式刻畫了學(xué)術(shù)內(nèi)容的社會關(guān)注程度[23],非常適用于刻畫主題在社會層面的流行關(guān)注程度。

        考慮到學(xué)科主題熱度是不同媒介層面的綜合體現(xiàn),由此構(gòu)建第i個主題的加權(quán)熱度總指標(biāo)H:

        Hi=α·Pi+(1-α)·Ai

        (1)

        其中,α為權(quán)重系數(shù),且0≤α≤1,這里將其設(shè)定為0.8。指標(biāo)P代表主題出現(xiàn)的文獻篇數(shù),指標(biāo)A代表主題在社會媒體受到的關(guān)注程度,其定義為:

        Ai=Altmetricsj·Iij

        (2)

        其中,Altmetricsj為第j篇文獻的替代計量指標(biāo)值,Iij為指示變量,將其定義為:

        (3)

        指標(biāo)P和A通過計量方式分別刻畫了主題在學(xué)術(shù)文獻和大眾媒介的傳播與關(guān)注程度,從不同層面體現(xiàn)了主題熱度??紤]到指標(biāo)P和A分別來源于不同媒介,數(shù)值存在明顯的量級差別,因此采用極大極小法對兩個指標(biāo)分別進行歸一化處理,消除指標(biāo)量綱。

        2.2.2 主題熱度預(yù)測模型

        長短期記憶模型LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(luò),相關(guān)文獻已證實其在時序序列預(yù)測方面的優(yōu)異性能,能夠很好地滿足主題熱度預(yù)測任務(wù)[14]。首先,以年份為時間單元,計算主題熱度指標(biāo)H,形成包含若干主題的面板數(shù)據(jù);其次,以跨度T年為時間窗口,前T-1期指標(biāo)數(shù)據(jù)為輸入,第T期為輸出,構(gòu)造LSTM預(yù)測模型,如圖2所示。通過訓(xùn)練集樣本進行模型學(xué)習(xí)訓(xùn)練,考察損失函數(shù)、AUC等性能指標(biāo),經(jīng)過多輪更新迭代,直至得到性能滿意的LSTM擬合模型;最后,采用擬合模型預(yù)測主題未來熱度值。

        圖2 基于LSTM的主題熱度預(yù)測模型

        2.3 主題影響力預(yù)測

        共現(xiàn)關(guān)系是刻畫主題語義結(jié)構(gòu)的重要途徑,能夠揭示學(xué)科知識分布及演化規(guī)律,已成為情報科學(xué)領(lǐng)域的成熟范式。主題間相互作用關(guān)系及拓撲結(jié)構(gòu)嵌入是個體相對影響力的重要體現(xiàn)。預(yù)測主題間潛在共現(xiàn)關(guān)系能夠為主題影響力演化提供前瞻性啟示。

        鏈路預(yù)測利用拓撲結(jié)構(gòu)信息預(yù)測二元關(guān)系的形成或消失,能夠被用于預(yù)測主題間共現(xiàn)關(guān)系的涌現(xiàn)。基于此,使用鏈路預(yù)測相似性指標(biāo)構(gòu)建主題共現(xiàn)網(wǎng)絡(luò)預(yù)測模型,并基于未來主題網(wǎng)絡(luò),通過PageRank算法識別學(xué)科主題的潛在影響力。整體上,主題影響力預(yù)測包括3個階段:主題共現(xiàn)網(wǎng)絡(luò)構(gòu)建;主題共現(xiàn)關(guān)系預(yù)測;主題潛在影響力。

        2.3.1 主題共現(xiàn)網(wǎng)絡(luò)構(gòu)建

        如果兩主題至少共同出現(xiàn)在同一篇學(xué)術(shù)文獻的標(biāo)題、關(guān)鍵詞及摘要,則認為兩者存在共現(xiàn)關(guān)系。采用Ochiai系數(shù)法[24],將主題i和j的共現(xiàn)強度wij定義為:

        (4)

        其中Oij代表主題i和j共同出現(xiàn)的文獻篇數(shù),Oi.代表主題i與其他所有主題共現(xiàn)篇數(shù)的加總求和,O.j的定義同理。共現(xiàn)強度反映了主題間語義關(guān)系的緊密程度,取值范圍為0~1之間,取值越大,語義連接越緊密,否則相反;當(dāng)取值為0時,代表主題無語義關(guān)聯(lián)。以主題為節(jié)點,共現(xiàn)強度為連接權(quán)重,構(gòu)建形成主題共現(xiàn)網(wǎng)絡(luò)。

        2.3.2 主題共現(xiàn)網(wǎng)絡(luò)預(yù)測

        1)加權(quán)鏈路預(yù)測指標(biāo)

        網(wǎng)絡(luò)環(huán)境下,節(jié)點之間形成連接的可能性可以通過一系列相似性指標(biāo)加以估計預(yù)測,即相似性越高,形成鏈路的幾率越高。目前,常見的鏈路預(yù)測指標(biāo)方法大多針對非加權(quán)網(wǎng)絡(luò),只有少數(shù)學(xué)者基于加權(quán)網(wǎng)絡(luò)對加權(quán)網(wǎng)絡(luò)鏈路預(yù)測問題開展探討。借鑒呂琳媛等的研究[25],采用18個基于加權(quán)網(wǎng)絡(luò)的鏈路預(yù)測相似性指標(biāo),用于鏈路預(yù)測。整體上,依據(jù)指標(biāo)原理,主要分為4大類,即基于局部信息、路徑、隨機游走及其他類型,如表1所示。局部信息主要指共同鄰居,加權(quán)網(wǎng)絡(luò)下體現(xiàn)為與共同鄰居鏈路的加權(quán)和,共同鄰居多的節(jié)點間容易形成連接是預(yù)測鏈路的基本出發(fā)點;基于路徑的指標(biāo)考慮了三階路徑(LP指標(biāo))或者更高階路徑(Katz指標(biāo)),彌補了基本共同鄰居(相當(dāng)于二階路徑)指標(biāo)信息有限的不足;基于隨機游走的指標(biāo)主要利用隨機游走過程工具考察節(jié)點間的距離,通常認為路徑步數(shù)越短,節(jié)點越相似;另外,MFI指數(shù)以矩陣森林理論(Matrix-Forest Theory)為基礎(chǔ)構(gòu)建,自洽轉(zhuǎn)移相似性指數(shù)Tr基于節(jié)點間相似性可傳遞假設(shè)來刻畫節(jié)點的間接相似程度。上述不同類型相似性指標(biāo)具有互補優(yōu)勢,將其加入預(yù)測模型更有利于適用復(fù)雜網(wǎng)絡(luò)環(huán)境并提高預(yù)測精度。

        表1 加權(quán)鏈路預(yù)測指標(biāo)

        2)鏈路預(yù)測模型

        采用鏈路預(yù)測指標(biāo),構(gòu)建預(yù)測主題共現(xiàn)的BP神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)通過信息前向信息傳播、梯度后向傳播的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)節(jié)點連接權(quán)重,能夠擬合逼近任意非線性函數(shù),具有極強大的數(shù)據(jù)學(xué)習(xí)能力,是擬合主題間鏈路相似性指標(biāo)與主題共現(xiàn)強度之間規(guī)律的有效工具。具體地,搭建三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:以表1中主題相似性指標(biāo)為輸入,形成18個節(jié)點構(gòu)成的輸入層;輸出層只包含1個節(jié)點,代表主題共現(xiàn)網(wǎng)絡(luò)關(guān)系;依據(jù)以往經(jīng)驗及相關(guān)文獻確定隱藏層節(jié)點數(shù)量,設(shè)定包含36個隱節(jié)點。同時,設(shè)定隱藏層激活函數(shù)為ReLU,輸出層激活函數(shù)為Sigmod。

        針對輸出節(jié)點的二元分類取值,設(shè)定基于交叉熵的損失函數(shù)為:

        (5)

        其中yi表示第i個樣本的實際取值(1代表存在主題共現(xiàn)關(guān)系,否則為0),表示第i個樣本的模型估計值。泛化能力是模型設(shè)定與選取的參考依據(jù),這里主要考察指標(biāo)AUC,其量化了ROC曲線的分類能力,取值越大分類效果越好,輸出概率越合理。另外,AUC表示隨機抽取一個正樣本和一個負樣本,分類器正確給出正樣本的score高于負樣本的概率。因此,參考Lü L等[26]的計算方法,采用擬合模型,針對隨機選取的存在鏈接關(guān)系樣本與不存在鏈接關(guān)系樣本分別進行預(yù)測,則AUC取值為:

        (6)

        其中n表示總共隨機抽樣比較次數(shù),n1表示存在鏈接關(guān)系樣本取值大于不存在鏈接關(guān)系樣本的次數(shù),n2為兩者數(shù)量相同次數(shù)。

        3)數(shù)據(jù)處理

        出于機器學(xué)習(xí)算法需要,按照時間先后順序,將學(xué)科文獻數(shù)據(jù)依次劃分為3個子集。采用式(4),針對不同數(shù)據(jù)子集,分別構(gòu)建主題共現(xiàn)網(wǎng)絡(luò),即N1、N2、N3。3個網(wǎng)絡(luò)具有相同的主題節(jié)點,但擁有不同連接權(quán)重。網(wǎng)絡(luò)N1為訓(xùn)練集、N2為測試集、N3為待預(yù)測網(wǎng)絡(luò)。

        作為神經(jīng)網(wǎng)絡(luò)輸入節(jié)點,加權(quán)鏈路相似性指標(biāo)具有完全不同量綱,需要對數(shù)據(jù)進行歸一化處理。采用極大極小法,對18個輸入指標(biāo)進行歸一化,得到0~1區(qū)間的統(tǒng)一量綱數(shù)據(jù)。另外,每個樣本的輸出為二元分類標(biāo)簽,主題間存在共現(xiàn)關(guān)系(共現(xiàn)強度不為0)取值1,否則取值0。

        不平衡數(shù)據(jù)是影響模型分類性能的不可忽視因素。主題共現(xiàn)網(wǎng)絡(luò)是典型稀疏網(wǎng)絡(luò),存在鏈接的正例樣本只占很小比例,分類算法過多關(guān)注于負例樣本,導(dǎo)致鏈路預(yù)測分類性能下降。因此,采用基于隨機過采樣的SMOTE算法修正不平衡數(shù)據(jù),通過對少數(shù)正例樣本的分析,合成新正例樣本加入數(shù)據(jù)集,以實現(xiàn)正負樣本的基本平衡。

        采用上述方法,以數(shù)據(jù)集N1為訓(xùn)練集,數(shù)據(jù)集N2為測試集,經(jīng)過多輪訓(xùn)練及測試,直至得到滿意的預(yù)測模型。

        2.3.3 鏈路預(yù)測與主題潛在影響力預(yù)測

        將訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型用于鏈路預(yù)測,預(yù)測主題網(wǎng)絡(luò)N3的潛在主題共現(xiàn)機會。以主題網(wǎng)絡(luò)N3中不存在共現(xiàn)關(guān)系的主題對為預(yù)測對象,估計這些主題對在未來構(gòu)建新關(guān)系的可能性。預(yù)測模型輸出節(jié)點表示二元關(guān)系形成概率,因此將預(yù)測值大于0.5的主題對判定為潛在新關(guān)系(網(wǎng)絡(luò)邊)?;诖?,將新的共現(xiàn)關(guān)系加入主題網(wǎng)絡(luò)N3,借鑒黃璐等[17]的研究,預(yù)測網(wǎng)絡(luò)邊的權(quán)重計算公式為:

        (7)

        其中Si為預(yù)測概率值,max(S)為預(yù)測得分最大值,max(W)為網(wǎng)絡(luò)中存在邊的權(quán)重最大值。預(yù)測網(wǎng)絡(luò)邊與原有網(wǎng)絡(luò)合并形成主題未來網(wǎng)絡(luò)N′3,用于主題影響力預(yù)測。

        主題未來網(wǎng)絡(luò)是在當(dāng)前數(shù)據(jù)基礎(chǔ)上對主題未來趨勢的最新預(yù)測,而主題節(jié)點所處的中心位置及嵌入環(huán)境狀態(tài)也反映了其潛在發(fā)展趨勢。因此,通過挖掘分析預(yù)測網(wǎng)絡(luò)可以發(fā)現(xiàn)主題個體的未來可能。網(wǎng)絡(luò)理論認為節(jié)點的影響力可以通過其嵌入環(huán)境(如鄰居節(jié)點)加以刻畫,即認為如果某節(jié)點以高影響力節(jié)點為鄰居,則其亦應(yīng)擁有較高影響力。PageRank算法是度量這種網(wǎng)絡(luò)節(jié)點影響力的經(jīng)典算法,能夠定量刻畫主題共現(xiàn)網(wǎng)絡(luò)節(jié)點的相對影響力?;谥黝}預(yù)測網(wǎng)絡(luò)N′3,采用加權(quán)的PageRank算法,主題i潛在影響力的預(yù)測值PRi計算公式如下:

        (8)

        其中節(jié)點j為i的鄰居Γ(i),Wij為i與j連邊的網(wǎng)絡(luò)權(quán)重,Dj表示j的度中心性,α為取值0~1區(qū)間的阻尼系數(shù),這里設(shè)定為常見的0.85。

        2.4 新興主題綜合識別

        借鑒相關(guān)研究可知,未來狀態(tài)趨勢通常成為判定新興主題的關(guān)鍵依據(jù),對主題動態(tài)的預(yù)測把握是捕捉新興特征的基本思路。高速成長通常是主題新興階段的外在呈現(xiàn),這種特征可以通過未來狀態(tài)與當(dāng)前狀態(tài)的動態(tài)變化加以描述和刻畫?;谥黝}熱度和影響力的預(yù)測值,構(gòu)建其增長率指標(biāo),以反映動態(tài)成長性特征。

        1)主題熱度增長率定義為:

        (9)

        2)主題影響力增長率定義為:

        (10)

        其中PR(N3)和PR(N′3)分別為基于當(dāng)前網(wǎng)絡(luò)N3和未來預(yù)測網(wǎng)絡(luò)N′3計算得到的主題影響力,反映指標(biāo)PR的預(yù)測值與當(dāng)前值,ΔPR反映了指標(biāo)預(yù)測值相對當(dāng)前值的增長率,是對增長趨勢的定量預(yù)測。

        熱度增長率是新興主題的數(shù)量層面體現(xiàn),影響力增長率是新興主題的結(jié)構(gòu)層面體現(xiàn),綜合兩者狀態(tài)有助于更全面把握新興主題本質(zhì)規(guī)律。基于上述兩方面指標(biāo),構(gòu)建二維識別空間,綜合判定主題新興性,即兩個指標(biāo)水平越高,則認為主題新興趨勢越強烈。

        3 實證分析

        3.1 數(shù)據(jù)源及預(yù)處理

        研究選取情報學(xué)學(xué)科為實證領(lǐng)域,相關(guān)數(shù)據(jù)包括兩部分:科學(xué)文獻元數(shù)據(jù)和Altmetrics指標(biāo)。首先,文獻元數(shù)據(jù)來源于WoS數(shù)據(jù)庫,通過選定檢索策略,獲得查詢結(jié)果,并從中抽取實證所需元數(shù)據(jù),主要包括DOI號(DI)、關(guān)鍵詞(DE)、標(biāo)題(TI)、摘要(AB)、期刊(SO)、年份(PY)。借鑒相關(guān)文獻,篩選出情報學(xué)代表性期刊,包括《Journal of the Association for Information Science and Technology》《Information Processing & Management》《Scientometrics》《Information & Management》《Journal of Informetrics》,這些期刊是本學(xué)科高影響力代表且議題新穎活躍,是探測學(xué)科新興主題的最佳載體。具體地,以情報學(xué)領(lǐng)域代表期刊為線索,檢索得到跨度8年(2013—2020)且文獻類型為Article的記錄共計6 326條,查詢時間為2021年6月。

        其次,Altmetrics指標(biāo)來源于網(wǎng)站Altmetric.com。該網(wǎng)站成立于2011年,具有數(shù)據(jù)免費、開源、覆蓋率高、指標(biāo)豐富等優(yōu)點,是目前主流的Altmetrics服務(wù)提供商,尤其提供面向科研用途的公開查詢API,能夠滿足本文數(shù)據(jù)需要。Altmetrics指標(biāo)具有不同類型,本文從中選取了總指標(biāo)Altmetric Mention Score,其為多種不同來源及社交媒介指標(biāo)的加權(quán)和,能夠綜合地反映文獻在社交媒介關(guān)注程度。DOI是科學(xué)文獻的唯一標(biāo)識符,因此以文獻DOI號為線索,一對一地查詢獲得每篇文獻的Altmetrics指標(biāo)。具體地,采用Python程序查詢文獻的Altmetrics指標(biāo),刪去指標(biāo)缺失的文獻,最終獲得用于實證的3 208條記錄,其基本統(tǒng)計特征如表2所示。

        表2 采集文獻基本統(tǒng)計特征

        主題抽取與共現(xiàn)網(wǎng)絡(luò)構(gòu)建是開展實證分析的基礎(chǔ)。首先,從文獻元數(shù)據(jù)的DE字段,提取主題詞,作為備選主題,這些主題詞由文獻作者給出,能夠精準(zhǔn)地表達文獻核心內(nèi)容。為了進一步縮小目標(biāo)搜索范圍,過濾掉探測意義不大的極低頻主題,根據(jù)樣本分布特征,選取出現(xiàn)頻率前250個主題作為備選主題集。其次,以主題為節(jié)點,共現(xiàn)關(guān)系為邊,共現(xiàn)強度為權(quán)重,構(gòu)建主題共現(xiàn)網(wǎng)絡(luò)。分別以2013—2015年、2016—2017年、2018—2020年數(shù)據(jù)為子集,構(gòu)建主題共現(xiàn)網(wǎng)絡(luò)N1、N2、N3。

        3.2 指標(biāo)計算及模型設(shè)定

        依據(jù)式(1)~(3),計算主題熱度指標(biāo)P、A和H,各個指標(biāo)的年度均值如表3所示。從時間維度看,主題熱度H均值隨著時間逐步增高,直至2018年達到最大值,這種數(shù)據(jù)膨脹很大程度上是近年社交媒介平臺用戶規(guī)模快速擴張導(dǎo)致的,比如作為構(gòu)成部分的指標(biāo)A采用替代計量指標(biāo)計算得到,亦呈現(xiàn)同樣數(shù)據(jù)特征。因此,應(yīng)用于時間序列預(yù)測模型,本文將指標(biāo)H歸一化處理,采用極大極小法得到[0,1]區(qū)間的數(shù)值分布,以保證時間維度可比性。

        表3 主題熱度指標(biāo)年度均值

        針對不同階段主題共現(xiàn)網(wǎng)絡(luò),分別計算相應(yīng)的相似性指標(biāo),其基本統(tǒng)計特征如表4所示。整體上,數(shù)據(jù)分布特征差異較大,除simRank指標(biāo)之外,其余指標(biāo)取值都偏小,比如基于局部信息的指標(biāo)幾乎都集中于0~0.1之間。因此,將指標(biāo)導(dǎo)入模型之前,進行了歸一化處理。

        表4 加權(quán)鏈路相似性指標(biāo)基本數(shù)據(jù)特征

        使用Python語言,編程實現(xiàn)面向主題熱度預(yù)測的時間序列LSTM模型。具體地,基于主題熱度指標(biāo)H,以2013—2019年數(shù)據(jù)為輸入,以2020年數(shù)據(jù)為輸出,調(diào)用Keras模塊中的LSTM函數(shù),構(gòu)建面向時間序列的神經(jīng)網(wǎng)絡(luò)模型。選取均方誤差MSE為誤差函數(shù),使用隨機梯度下降算法SGD,進行多輪模型訓(xùn)練,結(jié)果如圖3所示。經(jīng)過大約10輪訓(xùn)練之后,可以看到訓(xùn)練誤差和測試誤差都穩(wěn)定地下降到很小數(shù)值,說明模型擬合參數(shù)達到收斂狀態(tài),完成主題熱度預(yù)測模型訓(xùn)練任務(wù)。

        圖3 主題熱度預(yù)測模型訓(xùn)練

        表5給出了模型在測試集上的預(yù)測表現(xiàn)。ARIMA模型是常見的時間序列分析工具,這里用作基準(zhǔn)模型作為參照對比。通過比較可以發(fā)現(xiàn),不論是平均絕對誤差MAE還是均方誤差MSE,本文采用的LSTM模型都明顯優(yōu)于ARIMA模型,LSTM模型適用于主題熱度指標(biāo)序列的預(yù)測任務(wù)。

        表5 模型性能比較

        類似地,使用Keras模塊實現(xiàn)主鏈路預(yù)測模型。具體地,由主題網(wǎng)絡(luò)N1和N2得到訓(xùn)練集和測試集,采用隨機梯度下降算法SGD,以二元交叉熵BinaryCrossentropy為損失函數(shù),進行多輪訓(xùn)練,結(jié)果如圖4所示。大約經(jīng)過150輪訓(xùn)練之后,訓(xùn)練誤差和測試誤差都呈現(xiàn)穩(wěn)定收斂狀態(tài),數(shù)值上小于0.05,反映模型擬合良好;而AUC指標(biāo)在訓(xùn)練集合測試集上非常接近,都達到0.98,反映了滿意的預(yù)測性能。

        圖4 主題影響力預(yù)測模型訓(xùn)練

        為了檢驗指標(biāo)的選取合理性,分別使用4種類型指標(biāo)(基于局部信息、基于路徑、基于隨機游走及其他)進行鏈路預(yù)測模型訓(xùn)練,與本文基于全部指標(biāo)的訓(xùn)練結(jié)果進行比較,如表6所示??梢?,采用全部指標(biāo)的鏈路預(yù)測性能基本都處于較明顯優(yōu)勢,只有在準(zhǔn)確率方面比基于隨機游走指標(biāo)的結(jié)果略低??傮w上,包含全部18個指標(biāo)的鏈路預(yù)測模型能夠取得較為滿意預(yù)測性能。

        表6 不同指標(biāo)的鏈路預(yù)測性能比較

        3.3 新興主題識別

        采用訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,預(yù)測主題未來狀態(tài),包括主題熱度與影響力。將2014—2020年主題熱度指標(biāo)輸入熱度預(yù)測模型,得到主題的熱度預(yù)測值H2021;使用鏈路預(yù)測模型,預(yù)測主題網(wǎng)絡(luò)N3的潛在鏈接,得到主題未來網(wǎng)絡(luò)N′3,并計算得到主題節(jié)點的影響力預(yù)測值PR′。為了進一步展示主題動態(tài)趨勢,分別計算了兩個指標(biāo)預(yù)測值相對于當(dāng)前值的增長率。

        表7給出了按照上述4個指標(biāo)降序排列的主題。通過對比,可以顯然發(fā)現(xiàn)兩個基于增長率的指標(biāo)對于新興主題表現(xiàn)出更強的敏感性。對于主題熱度與影響力指標(biāo),排名前列的大都是熱門主題,既包含了持續(xù)創(chuàng)新且熱度不斷的成熟主題(bibliometrics、citation analysis、patent等),也包含了近年興起受到普遍關(guān)注的新興主題(altmetrics、scopus、social media等)。對于基于增長率的指標(biāo),排名前列主題不但包含了一般新興主題,更重要的是篩選出了更多高價值主題——出現(xiàn)時間相對短暫但創(chuàng)新潛力巨大的新興主題,比如COVID-19、blockchain、convolutional neural network、Internet of things,這些主題未出現(xiàn)在表2的主題熱度與影響力排行榜之中,但都進入主題熱度增長率和影響力增長率排行榜,甚至COVID-19和blockchain的熱度增長率預(yù)測值排名分別達到了第1和第3。

        表7 按不同指標(biāo)預(yù)測值降序排序的主題詞(前15名)

        總之,可以看出基于增長率的指標(biāo)(熱度增長率和影響力增長率)比規(guī)模性指標(biāo)(熱度和影響力)更適用于新興主題識別任務(wù),前者能夠更早地發(fā)現(xiàn)新興主題的增長潛力,這些主題雖然當(dāng)前關(guān)注程度相對較小,但后續(xù)發(fā)展動能強勁,這種前瞻優(yōu)勢對于科技決策者具有重要參考價值。

        為了形成對新興主題的綜合研判,以主題熱度增長率預(yù)測值為縱軸,影響力增長率預(yù)測值為橫軸,繪制主題散點圖,如圖5所示。其中,散點大小正比于指標(biāo)P,反映主題在文獻的呈現(xiàn)熱度。二維識別空間中,除了成熟主題bibliometrics和citation analysis之外,其他主題位于橫軸之上,具有正向的熱度增長率預(yù)測值,反映情報學(xué)領(lǐng)域較高的活躍性預(yù)期。近半主題位于縱軸右側(cè),具有正向的影響力增長預(yù)測值,反映了這些主題持續(xù)增長的影響力預(yù)期,它們將不斷與本領(lǐng)域知識元素相互融合嵌入并通過網(wǎng)絡(luò)連接形成增長擴散的影響力。可以發(fā)現(xiàn),第1象限主題具有“兩高一低”特征,即出現(xiàn)頻率低(散點面積偏小)和兩指標(biāo)(熱度增長率預(yù)測和影響力增長率預(yù)測)取值高,更符合新興主題早期階段屬性,是探測高潛力新興主題的重點觀察區(qū)域。

        采用聚類分析,可以得到3個相對聚集的主題群落。聚類1位于第1象限上方,屬于關(guān)注熱度高增長型,具有出現(xiàn)時間較短但關(guān)注程度增長迅猛的特點,是發(fā)現(xiàn)新興主題的高概率區(qū)域;聚類2位于第1象限右下方,屬于影響力高增長型,具有影響力增長迅速特點,意味著這些主題日益融入領(lǐng)域知識網(wǎng)絡(luò),與越多的主題形成語義連接,并通過網(wǎng)絡(luò)嵌入形成更大的主題影響力,同樣也是新興主題的重要探測區(qū)域;聚類3主要位于第2象限,呈現(xiàn)關(guān)注熱度高且增長快,但知識網(wǎng)絡(luò)影響力偏低甚至下降的特征,主要以熱門主題為主,新興主題相對偏少。

        聚類1包含3個主題,COVID-19、blockchain、deep learning都是具有重要價值的領(lǐng)域新興主題。為了揭示主題的爆發(fā)性增長態(tài)勢,表8給出了不同年度的主題相關(guān)文獻數(shù)量。①主題COVID-19出現(xiàn)時間最短暫,卻被預(yù)測出最強烈的增長態(tài)勢,情報學(xué)界對2019年暴發(fā)的新冠肺炎疫情(COVID-19)給出了積極的學(xué)術(shù)反饋,比如2020年只有7篇相關(guān)文獻,而2021年卻猛增至27篇,意味著將來極可能成為領(lǐng)域重點關(guān)注的“明星”主題;②主題blockchain近兩年開始受到情報學(xué)領(lǐng)域重視,作為分布式共享賬本和數(shù)據(jù)庫,區(qū)塊鏈(blockchain)具有去中心化、不可篡改、全程留痕、可以追溯等獨特優(yōu)勢,相關(guān)文獻從2020年的6篇增至2021年的25篇,是其在情報組織與數(shù)據(jù)管理等方面巨大應(yīng)用潛力的集中體現(xiàn);③主題deep learning從2018年開始形成穩(wěn)定的快速增長路徑,相關(guān)文獻在2020年增至47篇,反映了隨著深度學(xué)習(xí)理論與技術(shù)的不斷成熟,其多元應(yīng)用不斷擴展深化,同樣也成為情報學(xué)領(lǐng)域的關(guān)注熱點,日益成為情報體系的方法要素,推動情報方法的智能化發(fā)展??傊?,本文基于機器學(xué)習(xí)方法的預(yù)測程序準(zhǔn)確地揭示了上述主題的爆發(fā)式增長,對2021年的熱度預(yù)測與現(xiàn)實吻合程度高,體現(xiàn)了該方法對于新興主題動態(tài)特征的敏感捕捉能力。

        表8 聚類1主題的年度文獻分布

        聚類2包含10個主題,基本上都涉及信息技術(shù)方法,其共同表現(xiàn)出影響力高增長特征。通過綜合分析,進一步分為兩個子群落,即以convolutional neural network、artificial intelligence、internet of things、link prediction為代表的新興技術(shù),與以topic models、complex networks、sentiment analysis為代表的常見領(lǐng)域熱門技術(shù)。主題熱度方面,前者雖然出現(xiàn)時間相對更短,但快速吸引情報領(lǐng)域關(guān)注,整體擁有更高的熱度增長潛力。主題影響力方面,除convolutional neural network之外,大部分新興技術(shù)都比傳統(tǒng)熱門技術(shù)擁有相對較低的影響力增長性預(yù)期,此現(xiàn)象反映了兩者技術(shù)擴散能力的差異,領(lǐng)域?qū)τ趥鹘y(tǒng)熱門技術(shù)的接受程度更高,更利于傳統(tǒng)技術(shù)主題與更多不同領(lǐng)域及方向知識要素建立并形成語義關(guān)聯(lián),而新興技術(shù)更多地處于技術(shù)導(dǎo)入應(yīng)用初期,還未形成明顯的知識網(wǎng)絡(luò)影響力優(yōu)勢。

        聚類3基本為情報學(xué)領(lǐng)域核心熱門主題,數(shù)量眾多,成熟度較高。相對于典型成熟主題(如citation impact、h-index、information retrieval),以twitter、altmetrics、social networks為代表主題表現(xiàn)出一定新興特征;但是,這些主題不如聚類1主題的新穎性與熱度增長性高,也不如聚類2中新興主題的影響力增長性顯著。顯然,該領(lǐng)域主題新興特征偏低,篩選出的3個新興主題雖然仍為情報學(xué)領(lǐng)域值得重點關(guān)注的未來方向,但其已呈現(xiàn)出相對平穩(wěn)傾向,不再表現(xiàn)為爆發(fā)性增長態(tài)勢,而是開始趨于穩(wěn)定發(fā)展模式。

        通過二維識別空間的綜合性聚類分析,識別出3類不同特征的新興主題:一是高新穎、高增長潛力的新興主題群,包括COVID-19、blockchain、deep learning,位于識別空間上方位置(聚類1),以高熱度增長率預(yù)期為基本判別特征,成為學(xué)科關(guān)注“新星”;二是以convolutional neural network等為代表的新興主題群,內(nèi)容上聚焦于信息技術(shù)方法,位于識別空間右下位置(聚類2),以高影響力增長預(yù)期為基本判別特征;三是以altmetrics等為代表的預(yù)期穩(wěn)定型新興主題群,位于識別空間左側(cè)位置(聚類3),呈現(xiàn)關(guān)注熱度和影響力都趨于相對穩(wěn)定的發(fā)展模式??梢钥闯?,構(gòu)建的預(yù)測性指標(biāo)能夠有效識別新興主題成長性,而且對于不同類型新興主題形成良好區(qū)分能力。

        表9給出了采用不同模型方法的識別結(jié)果比較,識別出的主題按照成長趨勢程度降序排列。①直接預(yù)測主題指標(biāo)趨勢是最常見的分析方法,ARIMA模型和LSTM模型給出的新興主題各有側(cè)重,不過ARIMA沒有識別出以blockchain、deep learning為代表的最新議題,總體上看LSTM模型的識別結(jié)果更加精準(zhǔn);②網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)與PageRank算法是網(wǎng)絡(luò)關(guān)系嵌入環(huán)境的常見分析方法,分別采用兩個度量指標(biāo)(度中心性Degree和PageRank指標(biāo))進行新興主題成長識別,與本文鏈路預(yù)測+PageRank方法進行比較。顯然,基于度中心性的結(jié)果相對較差,雖然也能將以word embedding為代表的多數(shù)新興主題篩選發(fā)現(xiàn),但是對于短期萌發(fā)的主題敏感度不夠,尤其沒有識別出近兩年發(fā)展的主題COVID-19和blockchain??梢钥闯?,單純基于PageRank方法與鏈路預(yù)測+PageRank方法相比,識別召回的新興主題范疇基本相差不大,但是對于短期新興主題的敏感性存在差異,以COVID-19、blockchain為代表的萌芽主題在后者采用鏈路預(yù)測的識別結(jié)果中被賦予了更高的優(yōu)先級,更利于發(fā)現(xiàn)時間短、頻次低、潛力大的新興主題,顯然更吻合新興主題的識別初衷。此種結(jié)果也反映了鏈路預(yù)測在趨勢前瞻方面的優(yōu)勢,非常適應(yīng)于發(fā)現(xiàn)高成長價值新興主題;③本文采用了指標(biāo)時序和影響力相結(jié)合的二維識別方法,雖然與基于影響力的一維識別方法(鏈路預(yù)測+PageRank)相比結(jié)果基本相同,但是通過二維識別空間能夠?qū)χ笜?biāo)進行類型細分,比如識別出“學(xué)科‘新星’”與“學(xué)科方法工具”兩類新興主題,它們存在差異化的增長動力與新興特征??梢姡疚姆椒ň哂懈毜闹黝}成長性識別能力,這種敏銳分析能力有助于加深學(xué)科新興主題的把握洞見。

        表9 不同模型識別結(jié)果比較

        4 結(jié) 論

        把握未來成長潛力是識別學(xué)科新興主題的關(guān)鍵。本文從熱度和影響力兩個方面,對學(xué)科新興主題開展組合預(yù)測與綜合研判。熱度方面,設(shè)計融合文獻計量和替代計量的主題熱度指標(biāo),并構(gòu)建基于LSTM的熱度時間序列預(yù)測模型,旨在預(yù)測主題未來熱度增長性;影響力方面,基于主題共現(xiàn)網(wǎng)絡(luò),采用PageRank算法刻畫主題節(jié)點的學(xué)科知識網(wǎng)絡(luò)影響力,并使用加權(quán)網(wǎng)絡(luò)鏈路預(yù)測指標(biāo),構(gòu)建主題影響力預(yù)測模型,旨在預(yù)測主題未來影響力增長性。以熱度和影響力的增長率為未來成長性的刻畫指標(biāo),構(gòu)建二維識別空間,形成對新興主題高成長特征的綜合研判,并通過聚類分析揭示新興主題的不同類型特征。

        針對情報學(xué)學(xué)科的實證研究充分檢驗了方法的有效性。實證結(jié)果發(fā)現(xiàn),反映成長性的預(yù)測指標(biāo)能夠有效捕捉新興特征,例如高熱度增長率預(yù)期基本成為判定新興主題的必要條件,而高影響力增長預(yù)期則成為識別“方法類型”新興主題的重要條件。進一步通過二維識別空間的聚類分析,可以對新興主題形成更加細致區(qū)分,主要包括3種子類型:以COVID-19為代表的熱度高增長預(yù)期新興主題群、以convolutional neural network為代表的影響力高增長預(yù)期新興主題群、以altmetrics為代表的預(yù)期穩(wěn)定型新興主題群。不同類型新興主題具有特定的內(nèi)在創(chuàng)新特征和演化趨勢,細粒度的類型區(qū)分為深入理解把握學(xué)科趨勢提供了有效洞見??傊治鼋Y(jié)果說明,本文構(gòu)造的成長性預(yù)測性指標(biāo)對新興主題具有良好的識別能力,不但能夠?qū)⑿屡d主題從包含各種干擾信號的海量數(shù)據(jù)中篩選出來,而且能夠通過聚類分析分辨出新興主題的不同子類型特征,反映了基于成長性預(yù)測性指標(biāo)的識別方法對于新興主題具有良好適用性。

        不同于基于客觀證據(jù)的主觀性預(yù)測,本文借助機器學(xué)習(xí)算法,構(gòu)建預(yù)測模型,直接對主題的發(fā)展趨勢開展客觀預(yù)測,進而形成基于新興特征預(yù)期的識別方法。該方法聚焦于主題未來預(yù)期,充分借助基于機器學(xué)習(xí)算法的大數(shù)據(jù)預(yù)測能力,更適應(yīng)于知識快速迭代并復(fù)雜演化的學(xué)科場景,有助于為決策者提供更具前瞻性的科技戰(zhàn)略決策支持。隨著機器學(xué)習(xí)算法的不斷進化和科技大數(shù)據(jù)的日益豐富細化,數(shù)據(jù)驅(qū)動的科技預(yù)測能力不斷提升,前瞻性學(xué)科情報探測及趨勢分析必然成為重要發(fā)展方向。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        久久久亚洲欧洲日产国码aⅴ| 日本草逼视频免费观看| 日韩一区中文字幕在线| 日本不卡高字幕在线2019| 久久不见久久见中文字幕免费| 911国产精品| 日韩精品一区二区av在线| 亚洲乱码av乱码国产精品| 亚洲国产成人久久综合| 波多野结衣中文字幕在线视频| 抖射在线免费观看视频网站| 国产在线视频91九色| 日本免费a级毛一片| 成人国产精品一区二区网站| 日韩熟女精品一区二区三区视频| 麻豆文化传媒精品一区观看| 亚洲综合区图片小说区| 国内成人精品亚洲日本语音| 蜜桃av在线播放视频| 内射干少妇亚洲69xxx| 伊人久久无码中文字幕| 午夜无码片在线观看影院y| 美女脱掉内裤扒开下面让人插| 免费人妻无码不卡中文字幕系 | 日韩网红少妇无码视频香港| 亚洲中文字幕高清av| 西西午夜无码大胆啪啪国模 | 99久久精品国产一区二区蜜芽| 日本视频精品一区二区 | 中文字幕精品一区二区精品| 亚洲人成人影院在线观看| 淫欲一区二区中文字幕| 国产一区二区三区仙踪林| 日本免费一区二区三区| 中日韩欧美高清在线播放| 亚州av高清不卡一区二区 | 4hu四虎永久在线观看| 欧美日本道免费二区三区| 成年人视频在线观看麻豆| 性色av免费网站| 国产午夜亚洲精品不卡福利|