亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        情報(bào)學(xué)研究中的時(shí)間序列分析:任務(wù)、過程與問題

        2023-12-21 10:58:52陳果王凱月
        圖書情報(bào)知識(shí) 2023年6期
        關(guān)鍵詞:情報(bào)學(xué)輿情預(yù)測

        陳果 王凱月

        1 引言

        在時(shí)間維度上,對(duì)每一時(shí)刻數(shù)據(jù)的記錄就是時(shí)間序列[1]。時(shí)間序列數(shù)據(jù)在生活中無處不在,對(duì)其開展研究具有十分廣闊的應(yīng)用前景。在傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)中,時(shí)間序列分析關(guān)注的是經(jīng)濟(jì)指標(biāo)的日常變化,其中受關(guān)注較多的是周期性問題,如季節(jié)效應(yīng)[2]。情報(bào)學(xué)定量研究中多關(guān)注文獻(xiàn)數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、政府?dāng)?shù)據(jù)等分析對(duì)象的變化[3],其變化趨勢更接近階段性。典型的如利用生命周期理論,劃分文獻(xiàn)主題、輿情話題在不同時(shí)期的變化階段。除此以外,利用回歸、擬合等方式對(duì)時(shí)間變化曲線進(jìn)行數(shù)理統(tǒng)計(jì)和描述,也是情報(bào)學(xué)研究中時(shí)間序列分析的一個(gè)重要方面。

        近年來,時(shí)間序列分析方法不斷發(fā)展優(yōu)化,在時(shí)間序列分類、預(yù)測、聚類、回歸分析、異常檢測等方面都得到了深入的應(yīng)用[4]。然而,在情報(bào)學(xué)研究中,盡管大量研究引入了時(shí)間因素,但多是從劃分時(shí)間段的視角來對(duì)所關(guān)注對(duì)象的變化狀態(tài)進(jìn)行描述性分析,或沿用基本的回歸模型來擬合其整體變化趨勢,而對(duì)情報(bào)研究對(duì)象時(shí)間序列模式的深入挖掘和分析依然較為缺乏[5]。當(dāng)前,情報(bào)學(xué)研究的模型化、預(yù)測化發(fā)展趨勢,迫切要求研究者更為深入地應(yīng)用時(shí)間序列分析方法開展研究。因此,有必要對(duì)現(xiàn)階段情報(bào)學(xué)中涉及時(shí)間序列分析的研究進(jìn)行系統(tǒng)性的梳理。

        鑒于此,本文采用文獻(xiàn)調(diào)研的方式,梳理國內(nèi)外情報(bào)學(xué)領(lǐng)域與時(shí)間序列分析相關(guān)的研究現(xiàn)狀。首先,依據(jù)《中文核心期刊要目總覽》和SSCI-INFORMATION SCIENCE&LI-BRARY SCIENCE-JOURNAL LIST[4]選定了情報(bào)學(xué)代表性期刊,如表1所示。其次,利用CNKI全文期刊數(shù)據(jù)庫以及Web of Science數(shù)據(jù)庫,以“時(shí)間序列”和“time series”為主題詞分別篩選中英文代表性期刊中的相關(guān)文獻(xiàn),檢索時(shí)間截至2023年4月30日。結(jié)果表明,情報(bào)學(xué)領(lǐng)域與時(shí)間序列相關(guān)的國內(nèi)外研究論文分別有222篇和202篇。隨后,在對(duì)這些論文進(jìn)行初步定性分析的基礎(chǔ)上,本文先按應(yīng)用場景歸納其中的應(yīng)用類論文,再按時(shí)間序列分析過程歸納相關(guān)論文在各環(huán)節(jié)上的典型處理方法。具體歸納時(shí),對(duì)某些值得探索的問題,本文進(jìn)一步追溯了上述論文的參考文獻(xiàn),最終選取了其中質(zhì)量較高、具有代表性的82篇論文進(jìn)行綜述?;诖耍疚淖詈筇接懥饲閳?bào)學(xué)研究中時(shí)間序列分析存在的問題,以期為其深入發(fā)展和有效應(yīng)用提供借鑒。

        表1 中外情報(bào)學(xué)十種核心期刊中相關(guān)論文統(tǒng)計(jì)結(jié)果Table 1 Statistical Results of Related Papers in Ten Core Domestic and Foreign Journals of Information Science Research

        2 情報(bào)學(xué)研究中時(shí)間序列分析的主要任務(wù)場景

        在情報(bào)學(xué)研究中,時(shí)間序列分析主要是用作解決相關(guān)研究問題的方法手段。因此,有必要根據(jù)所解決問題的任務(wù)場景,來歸納時(shí)間序列分析方法在情報(bào)學(xué)研究中的應(yīng)用。此外,時(shí)間序列分析的核心思想是“分析過去,預(yù)測未來”,故而各任務(wù)場景下的應(yīng)用模式又可根據(jù)研究目標(biāo),劃分為對(duì)歷史規(guī)律的揭示和對(duì)未來趨勢的預(yù)測。相應(yīng)地,本節(jié)從任務(wù)場景和研究目標(biāo)兩個(gè)維度,對(duì)情報(bào)學(xué)研究中的幾種時(shí)間序列研究任務(wù)進(jìn)行歸納,如圖1所示。

        圖1 情報(bào)學(xué)研究中時(shí)間序列分析的研究任務(wù)歸納Fig.1 Task Scenarios for Time Series Analysis in Information Science Research

        2.1 學(xué)科主題演化

        學(xué)科主題演化是指用一系列技術(shù)方法,觀測學(xué)科主題在時(shí)間維度上的變化與發(fā)展趨勢[6]。學(xué)科主題演化是近年來情報(bào)學(xué)研究的重點(diǎn),在分析學(xué)科領(lǐng)域熱點(diǎn)主題演化趨勢的基礎(chǔ)上,研究者開始探索新興主題預(yù)測以發(fā)現(xiàn)新的學(xué)科知識(shí)增長點(diǎn)。對(duì)學(xué)科主題演化的研究可以幫助研究人員確定科研主題,幫助研究資助機(jī)構(gòu)選擇有發(fā)展?jié)摿Φ闹黝}進(jìn)行資助,還可以識(shí)別領(lǐng)域?qū)W術(shù)貢獻(xiàn)突出的研究人員與研究機(jī)構(gòu)。

        當(dāng)前的學(xué)科主題演化研究,主要是在對(duì)不同時(shí)間窗口下各研究主題進(jìn)行匹配的基礎(chǔ)上,通過文獻(xiàn)數(shù)量、關(guān)鍵詞頻次等數(shù)值序列的變化以揭示相關(guān)主題在不同時(shí)間窗口的熱度變化,進(jìn)而描述重要主題的出現(xiàn)、融合、分裂、消失等演化狀態(tài)。一般認(rèn)為,主題相關(guān)發(fā)文量的變化可以體現(xiàn)主題的熱度演變[7]。但該指標(biāo)過于主觀籠統(tǒng),隨著主題識(shí)別的技術(shù)手段的不斷豐富,情報(bào)學(xué)研究開始以關(guān)鍵詞或主題詞等為主要研究對(duì)象[8]。例如,Yan等以圖情領(lǐng)域的文獻(xiàn)數(shù)據(jù)主題詞為數(shù)據(jù)來源,結(jié)合層次化分析的方法揭示了主題的傳播演化過程[9]。同時(shí),也有學(xué)者將時(shí)間因素引入到主題模型中,提出了非馬爾可夫連續(xù)時(shí)間模型TOT(Topics Over Time)[10]、先離散概率模型DTM(Dynamic Topic Model)等方法,進(jìn)一步體現(xiàn)了主題的時(shí)序演變過程。此外,對(duì)于語義相似的時(shí)間序列曲線,也可以通過DTW(Dynamic Time Warping)算法對(duì)其聚合表示,以便于觀測其組合變化趨勢[11]。

        情報(bào)學(xué)研究者十分關(guān)注前沿主題或新興主題的預(yù)測,目前這類研究主要利用各種指標(biāo)來度量主題在時(shí)間序列曲線上的變化,通過時(shí)間序列回歸等模型來擬合曲線規(guī)律以預(yù)測其未來趨勢。例如,岳麗欣等使用ARIMA模型(Autoregressive Integrated Moving Average model,差分整合移動(dòng)平均自回歸模型)預(yù)測了信息構(gòu)建領(lǐng)域的主題演變趨勢[5]。Liang等使用LSTM模型(Long Short Term Memory)預(yù)測了候選主題的未來受歡迎程度分?jǐn)?shù)[12]。Lee等使用ATM模型(Associative Topic Model),根據(jù)主題過去的文本和數(shù)值特征來預(yù)測下一個(gè)時(shí)間數(shù)值[13]。目前,主題時(shí)間序列預(yù)測研究的觀測對(duì)象大多是單變量數(shù)據(jù),使用多元時(shí)間序列預(yù)測方法的研究較少。事實(shí)上,科學(xué)研究的主題是相互關(guān)聯(lián)的,有必要充分考慮主題間的關(guān)聯(lián),來提高對(duì)特定主題未來變化的預(yù)測效果[14]。

        2.2 網(wǎng)絡(luò)輿情分析

        監(jiān)測輿情的變化動(dòng)態(tài)并挖掘其話題演變規(guī)律是情報(bào)學(xué)研究者持續(xù)關(guān)注的焦點(diǎn),其時(shí)間序列分析主要圍繞輿情的話題或情感變化來探索演化規(guī)律或預(yù)測發(fā)展趨勢[15]。

        在輿情演化方面,研究者通常從輿情事件的時(shí)空關(guān)聯(lián)、主題分布和傳播特征等方面出發(fā),將文本中提取的信息按照時(shí)間維度開展演化分析[16]。目前已有較多研究從定性的視角,將輿情演化按時(shí)間軸劃分為若干個(gè)階段[17]。例如,李綱等[18]根據(jù)Web2.0時(shí)代網(wǎng)絡(luò)輿情的傳播特征,將其過程劃分潛伏、成長、蔓延、爆發(fā)、衰退和消亡等6個(gè)階段。有學(xué)者運(yùn)用定性、定量相結(jié)合的方式對(duì)輿情的演化規(guī)律進(jìn)行研究[19],以避免定性分析的主觀影響。例如,曹學(xué)艷等[20]利用基于最小二乘法的多項(xiàng)式擬合法,根據(jù)網(wǎng)絡(luò)輿情的時(shí)間序列函數(shù)特征,將其演化模式分為突發(fā)型、連續(xù)型和復(fù)合型。

        網(wǎng)絡(luò)輿情傳播規(guī)律的研究通常依托于其關(guān)注熱度、網(wǎng)民情感態(tài)度、熱點(diǎn)主題等的變化。具體研究開展中,輿情熱度常用百度指數(shù)、微博轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)[21]等數(shù)據(jù)來表征。例如,徐敏捷等利用微博熱議數(shù)來表征“東方之星”沉船事件的輿情熱度變化趨勢[22],趙磊等以百度指數(shù)構(gòu)建輿情熱度時(shí)間序列[23],孫永歷等綜合用戶關(guān)注度、參與度和話題回復(fù)數(shù)三個(gè)指標(biāo)來計(jì)算輿情熱度的熵值[24]。輿情情感態(tài)度可用情感分析方法對(duì)輿情話題進(jìn)行情感計(jì)算,再按時(shí)間序列形成輿情情感的走勢。例如,崔彥琛等[25]構(gòu)建了微博突發(fā)事件“杭州保姆縱火案”的專屬情感詞典,利用ARIMA模型分析了該事件的事態(tài)演進(jìn)。輿情熱點(diǎn)主題的變化可通過對(duì)帶有時(shí)間戳的社交媒體語料進(jìn)行主題分析得到。例如,張帥等統(tǒng)計(jì)了不同時(shí)間段各類主題出現(xiàn)的頻次,并劃分了其時(shí)間序列階段[26]。

        目前針對(duì)輿情數(shù)據(jù)的預(yù)測主要有三種思路:一是根據(jù)相似話題的時(shí)間序列規(guī)律來預(yù)測新事件的發(fā)展走向。例如,聶恩倫等[27]通過相似歷史話題點(diǎn)擊數(shù)的時(shí)間序列來預(yù)測新話題的熱度。二是更為常見的利用時(shí)間序列分析模型來預(yù)測輿情數(shù)據(jù),如移動(dòng)平均法[28]、馬爾科夫鏈[21]、ARIMA/ARIMAX預(yù)測模型[29]等。三是依托時(shí)間序列聚類方法,即將形狀變化相似的時(shí)間序列聚集在一起,再預(yù)測其熱度趨勢。例如,高燁等[11]利用時(shí)間序列降維算法將輿情熱度的時(shí)間序列曲線聚成三類變化模式,再通過DTW距離方法來預(yù)測網(wǎng)絡(luò)輿情事件熱度的高峰期時(shí)間區(qū)。需要注意的是,不同輿情事件的傳播規(guī)律、持續(xù)時(shí)間不盡相同,輿情數(shù)據(jù)預(yù)測的精度又嚴(yán)重依賴于其算法和參數(shù),因此如何提高時(shí)序預(yù)測方法在應(yīng)用中的適用性是一個(gè)亟需解決的問題。

        2.3 技術(shù)趨勢分析

        專利蘊(yùn)含技術(shù)概念、主題和研發(fā)活動(dòng)等顯性技術(shù)信息和隱性知識(shí)[30],是技術(shù)趨勢分析和預(yù)測的常用數(shù)據(jù)源。專利情報(bào)研究者常使用生長曲線(如S曲線[31])表示技術(shù)的演化過程,并使用時(shí)間序列分析方法發(fā)現(xiàn)技術(shù)發(fā)展趨勢的軌跡和模式。

        技術(shù)演化是指技術(shù)領(lǐng)域內(nèi)部的技術(shù)活動(dòng)、子技術(shù)或技術(shù)主題隨著時(shí)間推移的發(fā)展、繼承和變化的過程。在專利分析中,可使用文獻(xiàn)計(jì)量方法來識(shí)別技術(shù)演化的基本特征數(shù)據(jù),如特定技術(shù)的專利申請(qǐng)數(shù)量、引文數(shù)、專利分類號(hào)等。曾聞等分析了人工智能技術(shù)的專利申請(qǐng)數(shù)量、國別等專利信息隨時(shí)間的變化[32]。Wang等[33]利用國際專利分類(IPCs)來追蹤技術(shù)領(lǐng)域和演進(jìn)路徑中的技術(shù)變化。Liu等[34]使用三個(gè)S曲線模型擬合日本雙足機(jī)器人行走技術(shù)的專利時(shí)間序列曲線,以揭示其演化趨勢。

        預(yù)測技術(shù)變化的方向和速度也是時(shí)間序列分析在情報(bào)學(xué)研究中的典型應(yīng)用之一,常用的方法包括文獻(xiàn)計(jì)量分析、趨勢外推法、動(dòng)態(tài)線性模型等。專利數(shù)量、發(fā)表數(shù)量或引用數(shù)量等指標(biāo)可以用來衡量和解釋技術(shù)進(jìn)步。例如,You等基于專利和專利子類之間的兩級(jí)知識(shí)轉(zhuǎn)移網(wǎng)絡(luò),利用巴斯擴(kuò)散模型和ARIMA兩種典型時(shí)間序列模型比較并預(yù)測了技術(shù)的發(fā)展趨勢[35]。為了更有效地?cái)M合專利數(shù)據(jù)的時(shí)間序列曲線,機(jī)器學(xué)習(xí)方法越來越多地運(yùn)用于技術(shù)趨勢預(yù)測。專利數(shù)據(jù)通常是短時(shí)間序列,Xin等[36]利用參數(shù)量更少的卷積神經(jīng)網(wǎng)絡(luò)CNN模型捕捉時(shí)間序列模式以預(yù)測技術(shù)趨勢。需要指出的是,在技術(shù)趨勢預(yù)測中,現(xiàn)有技術(shù)方法容易忽視技術(shù)創(chuàng)新的隨機(jī)性,高估了現(xiàn)有技術(shù)主題的持續(xù)發(fā)展能力,低估了新技術(shù)的出現(xiàn)速度[37]。

        2.4 學(xué)術(shù)影響力評(píng)價(jià)

        引文是評(píng)價(jià)學(xué)術(shù)影響力的一個(gè)重要依據(jù),典型的相關(guān)指標(biāo)有期刊影響因子、H指數(shù)等。進(jìn)一步關(guān)注引文相關(guān)指標(biāo)在時(shí)間維度的動(dòng)態(tài)分布規(guī)律,可揭示其被引模式、預(yù)測其未來影響力增長的可能性,從而更有效地評(píng)價(jià)相關(guān)對(duì)象的學(xué)術(shù)影響力。

        目前,研究者基于文獻(xiàn)被引頻次的時(shí)間序列數(shù)據(jù),對(duì)文獻(xiàn)被引的生命周期規(guī)律進(jìn)行了總結(jié)。A.Avramescu[38]發(fā)現(xiàn)引文時(shí)間曲線的變化規(guī)律有5種類型:變化規(guī)律相近的3種經(jīng)典曲線、“天才型”曲線以及“曇花一現(xiàn)”型曲線。在此基礎(chǔ)上,H.P.Van Dalen和K.Henkens[39]提出了“被遺忘”的論文以及“睡美人”論文。此后很多研究者基于引文時(shí)序曲線的特征來識(shí)別“睡美人”文獻(xiàn),例如Ke等[40]通過測量論文的“美麗系數(shù)”來識(shí)別“睡美人”文獻(xiàn)的被引曲線。為了更好的理解引文模式的作用機(jī)制,Hu等[41]引入格蘭杰因果推理來研究下載和引用之間的方向性。

        學(xué)術(shù)影響力預(yù)測主要對(duì)論文、學(xué)者、機(jī)構(gòu)等對(duì)象的未來學(xué)術(shù)影響力指標(biāo)進(jìn)行預(yù)測,以期識(shí)別潛力學(xué)者、學(xué)科、期刊等。Bai等人[42]利用時(shí)間序列回歸模型預(yù)測了論文的未來被引頻次。Du等改進(jìn)了LSTM模型以擬合論文被引頻次的分布和演變趨勢[43]。Xie等對(duì)機(jī)構(gòu)發(fā)文數(shù)量的時(shí)間序列進(jìn)行回歸分析以預(yù)測其未來影響力[44]。盡管研究者已設(shè)計(jì)各種指標(biāo)來量化評(píng)估學(xué)術(shù)影響力,并基于利用時(shí)間序列方法對(duì)這些指標(biāo)進(jìn)行預(yù)測,但人們對(duì)學(xué)術(shù)影響力是如何產(chǎn)生和演變的仍知之甚少[45]。因此,融合復(fù)雜網(wǎng)絡(luò)分析和時(shí)間序列分析方法,對(duì)引文網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)及其演化機(jī)制進(jìn)行研究,也是目前學(xué)術(shù)影響力預(yù)測研究的一個(gè)重要方向[46]。

        3 情報(bào)學(xué)研究中的時(shí)間序列分析過程

        在情報(bào)學(xué)研究中,可用于時(shí)間序列分析的數(shù)據(jù)指標(biāo)種類繁多,相應(yīng)的分析方法尚未形成固定的過程環(huán)節(jié)。為此,本文按照時(shí)間序列分析方法的基本過程,依次從觀測數(shù)據(jù)選取、時(shí)間序列切片方式、時(shí)間序列形態(tài)規(guī)律挖掘、預(yù)測與評(píng)價(jià)四個(gè)環(huán)節(jié),對(duì)情報(bào)學(xué)中的時(shí)間序列分析研究進(jìn)行梳理,具體流程如圖2所示。

        圖2 時(shí)間序列分析研究流程圖Fig.2 Flow Chart of Time Series Analysis Study in Information Science

        3.1 時(shí)間序列觀測數(shù)據(jù)選取

        時(shí)間序列分析的第一個(gè)步驟就是選取和處理觀測數(shù)據(jù)。情報(bào)學(xué)通常根據(jù)研究目標(biāo)來選定構(gòu)成時(shí)間序列的定量指標(biāo),例如文本的主題指標(biāo)[47,49]、科學(xué)計(jì)量學(xué)相關(guān)指標(biāo)等??傮w而言,這些觀測指標(biāo)可分為單一性指標(biāo)和綜合性指標(biāo)兩種。單一性指標(biāo)是從單一維度對(duì)數(shù)據(jù)進(jìn)行描述,例如用論文數(shù)、引文數(shù)、關(guān)鍵詞頻次等指標(biāo)描述研究主題的熱度;綜合性指標(biāo)是綜合多方面因素構(gòu)造數(shù)據(jù)指標(biāo),例如h指數(shù)、p指數(shù)等綜合論文的被引量和發(fā)文量來度量論文的影響力。表2列舉了不同情報(bào)分析任務(wù)中典型的時(shí)間序列觀測指標(biāo)。

        表2 情報(bào)學(xué)研究中典型時(shí)間序列觀測指標(biāo)Table 2 Observation Indicators of Typical Time Series in Information Science Studies

        3.2 時(shí)間序列切片方式

        獲得時(shí)間序列基礎(chǔ)數(shù)據(jù)后,需要對(duì)其進(jìn)行切片,即明確時(shí)間序列數(shù)據(jù)單元對(duì)應(yīng)的時(shí)間窗口大小。切片方式有離散時(shí)間窗口和交叉時(shí)間窗口兩種,離散窗口是選取不重疊的獨(dú)立時(shí)間單元來對(duì)數(shù)據(jù)進(jìn)行分段,目前這種切片方式比較普遍。交叉時(shí)間窗口切片中的時(shí)間序列單元?jiǎng)t與前一單元有部分時(shí)間重疊。

        離散時(shí)間窗口往往按自然時(shí)間粒度劃分,如年、月、日。與計(jì)量經(jīng)濟(jì)中常用的以日為單元不同,情報(bào)學(xué)研究的時(shí)間窗口粒度相對(duì)較大,例如對(duì)詞語、引文分析往往是以年為單元。在對(duì)主題、輿情的分析中,時(shí)間窗口往往是多個(gè)自然時(shí)間粒度的組合。主題分析以若干年為一觀測階段,輿情分析則以若干天為一觀測階段。在實(shí)際分析中,為了便于歸納主題或輿情變化的整體趨勢,比較不同階段的特點(diǎn),研究者往往采用等長[66]或不等長的方式對(duì)“年”或“天”的時(shí)間序列進(jìn)行劃分,通常分割為3-5段。等長[66]的劃分方法操作簡單,但是在整個(gè)時(shí)間序列中,有規(guī)律的時(shí)間序列模式長度不定,因此等長劃分方式不利于后續(xù)的規(guī)律發(fā)現(xiàn)。為了降低等長劃分方式的主觀性影響,有學(xué)者根據(jù)時(shí)間序列曲線的階段性規(guī)律來劃分時(shí)間片段,典型的是結(jié)合生命周期理論或者根據(jù)曲線拐點(diǎn)來切分時(shí)間序列窗口。朱光等[67]基于文獻(xiàn)增長理論,將文獻(xiàn)數(shù)量時(shí)間序列劃分為初步探索期(2005-2007年)、穩(wěn)定發(fā)展期(2008-2017年)和快速增長期(2018-2020年)3個(gè)不等長區(qū)間。

        使用交叉窗口的時(shí)間序列的優(yōu)點(diǎn),是可以利用相鄰時(shí)間窗口的重疊更好地捕捉數(shù)據(jù)背后事物演變的連續(xù)性,以避免連續(xù)過程被獨(dú)立切片操作打散。具體操作上,有的學(xué)者主觀地選擇時(shí)間窗口的重合區(qū)間,例如Henry Small[68]直接將數(shù)據(jù)集切分為三個(gè)重疊時(shí)間窗,分別為1996-2001年,1997-2002年和1998-2003年。也有學(xué)者利用滑動(dòng)窗口的方法,按指定長度的時(shí)間窗口持續(xù)向后平移構(gòu)成時(shí)間片,以比較各窗口內(nèi)的統(tǒng)計(jì)指標(biāo)。例如,Lu等[69]通過滑動(dòng)窗口和切片相結(jié)合的方式,設(shè)計(jì)了一個(gè)步長固定為3的滑動(dòng)窗口來預(yù)測關(guān)鍵詞的增長頻次。

        3.3 時(shí)間序列形態(tài)規(guī)律挖掘

        時(shí)間序列分析的最終目標(biāo)是從原始或轉(zhuǎn)換后的時(shí)間序列數(shù)據(jù)中發(fā)現(xiàn)蘊(yùn)含的規(guī)律。本節(jié)主要討論利用生命周期理論或時(shí)序聚類方法對(duì)時(shí)間序列模式進(jìn)行分析的相關(guān)研究。除此以外,有大量關(guān)于時(shí)間序列曲線擬合的情報(bào)學(xué)研究,因其主要目標(biāo)是開展預(yù)測,故而歸入3.4節(jié)討論。

        時(shí)間序列形態(tài)規(guī)律的一個(gè)重要方面是其表征事物的演化過程規(guī)律,即其典型階段與各階段延續(xù)方式。情報(bào)學(xué)研究中對(duì)時(shí)序演化規(guī)律的分析通常依托生命周期理論,即將研究對(duì)象(如研究主題、技術(shù)發(fā)展)的全時(shí)序過程劃分為因果關(guān)聯(lián)、前后相繼的各個(gè)階段,典型的生命周期狀態(tài)可分為新生、成長、成熟、收縮和消亡五個(gè)階段。例如,在學(xué)科主題演化分析中,Wu等[70]根據(jù)生命周期理論將主題劃分為萌芽期、緩慢增長期以及快速增長期。在網(wǎng)絡(luò)輿情演化分析中,馬曉悅等[71]將突發(fā)公共衛(wèi)生事件社交媒體信息的生命周期劃分為潛伏期、爆發(fā)期、衰退期、穩(wěn)定期。在專利演化分析中,Cong等[72]將產(chǎn)品的技術(shù)發(fā)展周期劃分為嬰兒期、成長期、成熟期、衰退期。馬建紅等人[73]發(fā)現(xiàn)產(chǎn)品技術(shù)主題的語義信息會(huì)隨著其生命周期的發(fā)展而逐漸豐富,詞匯從獨(dú)立轉(zhuǎn)向組合演變從而形成主題的分化和融合。

        此外,還可以通過對(duì)演化趨勢相似的時(shí)間序列進(jìn)行聚類,根據(jù)其共性變化特征來識(shí)別時(shí)間序列的不同模式。常用的聚類依據(jù)是通過基于距離表示的時(shí)間序列相似度。在主題演化方面,李海林等[74]利用DTW算法計(jì)算了研究主題流行度時(shí)間序列的相似度,再用AP聚類算法聚合具有相似發(fā)展趨勢的主題簇。在引文分析方面,黃思雨等[75]對(duì)期刊篇均引用值時(shí)間序列進(jìn)行聚類,根據(jù)其變化趨勢探索參考文獻(xiàn)與引證文獻(xiàn)兩種來源期刊間隱含的相關(guān)關(guān)系。

        3.4 時(shí)間序列的預(yù)測與評(píng)價(jià)

        時(shí)間序列的預(yù)測需要將時(shí)間序列劃分為兩個(gè)序列,一個(gè)用于構(gòu)建擬合模型,一個(gè)用于測試擬合模型的質(zhì)量。然后根據(jù)數(shù)據(jù)特征選擇預(yù)測模型用于預(yù)測,再評(píng)估模型的準(zhǔn)確性。

        時(shí)序預(yù)測的方法分為統(tǒng)計(jì)學(xué)的方法和機(jī)器學(xué)習(xí)的方法。統(tǒng)計(jì)回歸方法包括線性回歸、ARIMA、VAR(Vector Autoregressive)多元時(shí)間序列等模型。例如,陳娟等采用ARIMA模型擬合了能夠代表用戶價(jià)值的人均滿意程度演變曲線[76],S Bjork等通過創(chuàng)新擴(kuò)散的Bass模型分析了諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者的引用軌跡[55]。Xie等運(yùn)用VAR多元時(shí)間序列模型預(yù)測了來年預(yù)計(jì)錄用的會(huì)議論文數(shù)量[44]。機(jī)器學(xué)習(xí)方法強(qiáng)調(diào)在特征輔助下對(duì)時(shí)間序列進(jìn)行預(yù)測,包括BP神經(jīng)網(wǎng)絡(luò)模型、LSTM模型等方法。例如,Zhang等[77]通過LSTM模型預(yù)測了未來COVID-19病例數(shù)量。研究表明,用于時(shí)間序列預(yù)測的機(jī)器學(xué)習(xí)算法的效果經(jīng)常優(yōu)于統(tǒng)計(jì)模型[78]。

        預(yù)測結(jié)果的評(píng)價(jià)至關(guān)重要,因?yàn)椴煌哪P捅M管可能具有相似的特征,但會(huì)產(chǎn)生截然不同的預(yù)測值。一般而言,預(yù)測的精度越高,表明模型的效果越好。研究時(shí)可以通過比較不同的模型擬合效果來選擇最優(yōu)方案。例如,許海云等[79]使用ARIMA、LSTM以及Prophet三種模型進(jìn)行趨勢預(yù)測,通過計(jì)算RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)、R2Score值衡量了觀測值與真實(shí)值之間的誤差,最終發(fā)現(xiàn)Prophet模型的預(yù)測精度最高。

        4 情報(bào)學(xué)研究中時(shí)間序列分析的問題

        本文梳理了情報(bào)學(xué)研究中有關(guān)時(shí)間序列分析的任務(wù)場景和處理流程,盡管當(dāng)前研究已取得了一定進(jìn)展,但仍面臨諸多問題。

        4.1 對(duì)時(shí)間序列模式的挖掘研究不足

        當(dāng)前情報(bào)學(xué)研究中的時(shí)間序列分析多側(cè)重計(jì)量指標(biāo)的趨勢分析,較少利用時(shí)間序列模式識(shí)別和特征挖掘來揭示研究對(duì)象的發(fā)展過程、規(guī)律、動(dòng)因及態(tài)勢等。情報(bào)分析與預(yù)測一直是情報(bào)學(xué)研究中的核心工作,可相關(guān)研究中的預(yù)測方法與工具較少。相關(guān)研究或是識(shí)別學(xué)科在上升、平穩(wěn)或下降等方向的趨勢[7],或是回歸擬合未來某一時(shí)間段里的預(yù)測值[80],對(duì)學(xué)科發(fā)展過程和動(dòng)態(tài)變化規(guī)律的研究還不足,并沒有進(jìn)一步歸納總結(jié)學(xué)科興起、衰退等狀態(tài)轉(zhuǎn)移的共性規(guī)律和基本模式。時(shí)間序列分析研究中引入數(shù)理模型并非刻意抬高或復(fù)雜化研究問題,而是為了避免人工解讀的主觀性影響,提升情報(bào)分析的科學(xué)性和精確性[5]。因此,在未來情報(bào)學(xué)研究中,應(yīng)提高對(duì)時(shí)間序列數(shù)理模型、特征變換與分解、相似性度量、分類聚類等方面的重視,運(yùn)用定量方法以更客觀地解決時(shí)間序列分析問題,以將相關(guān)研究推進(jìn)到更深入的規(guī)律總結(jié)、模式發(fā)現(xiàn)層面。

        4.2 缺乏針對(duì)短時(shí)間序列分析的研究優(yōu)化

        情報(bào)學(xué)研究中,時(shí)間序列分析對(duì)象以短序列為主,原因是數(shù)據(jù)的時(shí)序記錄點(diǎn)相對(duì)較少,各時(shí)序點(diǎn)數(shù)據(jù)的特征維度也低。例如,在論文[49]、專利[33]數(shù)據(jù)中,往往按照年為時(shí)間粒度提取文獻(xiàn)的關(guān)鍵詞、摘要或者引文等信息,而在觀測輿情事件時(shí),則以若干天為一觀察階段。如趙磊等[23]以14天為一滾動(dòng)周期,將輿情數(shù)據(jù)分為21組?,F(xiàn)有的時(shí)間序列分析方法和理論大多側(cè)重于長時(shí)間序列分析,不能很好地適應(yīng)短時(shí)間序列數(shù)據(jù)分析。例如,ARIMA模型想要取得較好的預(yù)測效果,通常需要至少50個(gè)觀測值。如果數(shù)據(jù)量少或數(shù)據(jù)不完整,短時(shí)間序列分析的結(jié)果也不可靠。如何優(yōu)化這些原本應(yīng)用于長時(shí)間序列分析的挖掘方法,以處理科技情報(bào)分析普遍存在的短時(shí)間序列,是未來需要重點(diǎn)關(guān)注的問題。目前,已有學(xué)者提出了一些短時(shí)間序列分析方法。例如,Martin等[81]提出基于分?jǐn)?shù)布朗運(yùn)動(dòng)的赫斯特指數(shù)估計(jì)方法,適用于長度大于10且滿足分段獨(dú)立性的短時(shí)間序列。在未來的研究中,應(yīng)多關(guān)注短時(shí)間序列分析和挖掘方法,例如利用分組時(shí)間序列[82]解決單條序列數(shù)據(jù)較短而分組數(shù)較多的問題。

        4.3 對(duì)研究結(jié)果的評(píng)估較為欠缺

        情報(bào)學(xué)研究中時(shí)間序列分析還存在結(jié)果評(píng)估不足的問題。很多研究僅僅通過時(shí)間序列模型擬合曲線,而沒有進(jìn)一步評(píng)估擬合預(yù)測結(jié)果的準(zhǔn)確性,這在一定程度上無法確保結(jié)果的可靠性。實(shí)際上,在情報(bào)學(xué)諸多研究場景中,時(shí)間序列分析是最有條件開展量化評(píng)估的。針對(duì)不同的時(shí)間序列模型,在進(jìn)行曲線擬合及趨勢預(yù)測時(shí),可以通過均方根誤差、平均絕對(duì)值誤差[79]等指標(biāo)來計(jì)算觀測值與真實(shí)值之間的差距,評(píng)價(jià)趨勢預(yù)測結(jié)果的好壞。因此,如何借助情報(bào)學(xué)研究的預(yù)測性導(dǎo)向,形成一套可用的時(shí)間序列分析結(jié)果評(píng)估方法,仍有待于進(jìn)一步研究。

        作者貢獻(xiàn)說明

        陳果:提出論文思路,設(shè)計(jì)框架,修改定稿;

        王凱月:文獻(xiàn)調(diào)研,初稿撰寫。

        猜你喜歡
        情報(bào)學(xué)輿情預(yù)測
        開放與融合:公安情報(bào)學(xué)進(jìn)入情報(bào)學(xué)方式研究*
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        構(gòu)建中國特色的情報(bào)學(xué)
        不必預(yù)測未來,只需把握現(xiàn)在
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        數(shù)據(jù)挖掘技術(shù)在情報(bào)學(xué)領(lǐng)域的應(yīng)用
        河南科技(2014年11期)2014-02-27 14:16:48
        免费人成再在线观看网站| 国产亚洲av看码精品永久| 热re99久久精品国99热| 依依成人精品视频在线观看| 久99久精品视频免费观看v| 日韩精品无码久久久久久 | 精品无码久久久久久久动漫| 国产成人久久精品流白浆| 深夜黄色刺激影片在线免费观看| 夜夜爽妓女8888888视频| 成人片黄网站色大片免费观看app 亚洲av无码专区亚洲av | av在线播放免费观看| 亚洲av无码一区二区三区网址| 亚洲欧美日韩在线一区 | 无码精品国产一区二区三区免费| 国产精品无圣光一区二区| 国产麻豆一精品一AV一免费软件 | av国产免费在线播放| 成人免费无码大片a毛片抽搐色欲| 国产亚洲日韩在线三区| 高清国产亚洲va精品| 国产三区三区三区看三区| 又爽又黄又无遮挡网站| 午夜大片又黄又爽大片app| 国产三级精品三级在线观看粤语| 亚洲中文字幕在线综合| 国产精品无码久久久久久久久久| 女女同性黄网在线观看| 亚洲免费精品一区二区| 亚洲av无码乱码在线观看富二代 | 国产成人精品一区二区三区视频 | 制服丝袜天堂国产日韩| 亚洲不卡毛片在线观看| 亚洲av成人片色在线观看| 国产午夜视频在线观看| 免費一级欧美精品| 精品一区中文字幕在线观看| 男人j进女人j啪啪无遮挡| 亚洲精品中文字幕观看| 国产精品久久久黄色片 | 国产成人综合久久精品免费 |