亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA和LSTM模型的研究主題關聯(lián)與預測研究

        2020-08-19 12:59:27朱光劉蕾李鳳景
        現(xiàn)代情報 2020年8期
        關鍵詞:隱私

        朱光 劉蕾 李鳳景

        摘 要:[目的/意義]如何挖掘海量學術論文中的研究主題,梳理研究主題的演化脈絡和關聯(lián)關系,預測主題前沿熱點,對掌握科技競爭先機至關重要。[方法/過程]針對當前主題關聯(lián)和預測研究中存在的不足,提出基于隱含狄利克雷(Latent Dirichlet allocation,LDA)和長短期記憶(Long Short Term Memory,LSTM)模型的研究關聯(lián)與預測方法,首先基于生命周期理論劃分多時序窗口,并利用LDA主題模型挖掘學術文獻中的隱性研究主題,分析主題間的關聯(lián)關系;基于主題預測指標的時間序列特征,運用LSTM模型對主題研究的發(fā)展趨勢和研究熱點進行預測,并結合基金立項和論文發(fā)表情況對預測結果進行定性修正。[結果/結論]案例分析結果表明,本文方法可以準確挖掘研究主題,分析主題關聯(lián)關系,對研究主題研究走勢和熱點的預測具有實用價值。

        關鍵詞:LDA;LSTM;主題關聯(lián);主題預測;隱私

        Abstract:[Purpose/Significance]Mining the research topics from a large number of academic literature,investigating the research evolution process and topic relation,and predicting the research fronts have significant importance to the technological competition.[Method/Process]Considering the research limitations of topic relation and prediction,a research framework of topic relation and prediction based on LDA and LSTM was proposed.First,multi-temporal windows were divided based on life cycle theory.Then,the hidden research topics from academic literature were mined based on LDA topic model,as well as the topic relation was analyzed.Furthermore,considering the characteristics of time series of topic predictors,research trends and fronts were explored based on LSTM,while the research results were improved in combination with funding programs and literature publication.[Result/Conclusion]The experimental results showed that the proposed method can accurately mine the discipline topics and analyze the topic relation,while has practical values in predicting the research trend.

        Key words:LDA;LSTM;topic relation;topic prediction;privacy

        進入21世紀后,互聯(lián)網(wǎng)技術、移動通信技術、生物科技、新能源技術等成為新興產業(yè)發(fā)展的強大推動力。為提升國際影響力,各國都在開展新一代科技革命,如中國實施5G通信戰(zhàn)略,德國提出工業(yè)4.0戰(zhàn)略,美國提出智能制造戰(zhàn)略[1]。在此背景下,科技工作者和決策者需要準確把握領域發(fā)展趨勢,對研究前沿動態(tài)進行識別與預測,以支撐國家科技政策的制定。學術論文作為重要和權威的知識載體,如何運用科學計量和文本挖掘等方法從海量文獻中梳理研究脈絡,預測研究前沿,對掌握全球科技競爭先機,建設科技強國起著極為關鍵的作用[2]。

        近年來,眾多學者在研究主題挖掘與識別、關聯(lián)演化和前沿預測等領域開展了諸多研究,研究方法包括引文分析、社會網(wǎng)絡分析、文本挖掘、技術路線圖等[3-4],已形成一定范式,但仍存在以下不足:其一,主題關聯(lián)的相似度計算方法不科學,詞頻分析、幾何距離、余弦夾角等計算方法不能很好地反映主題和關鍵詞的概率分布情況;其二,時序窗口切分不合理,多數(shù)研究將時間跨度平均切分,沒有考慮到研究主題的生命周期特性;其三,主題預測較少分析時序變化趨勢,指標設計不夠全面,沒有考慮到研究主題在時間維度上存在演化性和遷徙性。同時,基于時間序列的預測結果存在誤差,現(xiàn)有研究缺乏定性修正的分析。

        基于此,本文提出基于LDA(Latent Dirichlet Allocation)和LSTM(Long Short Term Memory)模型的多時序研究主題關聯(lián)與預測方法,首先基于生命周期理論將主題跨度切分為萌芽期、成長期和成熟期等時序窗口,對不同窗口下的數(shù)據(jù)進行LDA主題挖掘和識別,并計算不同主題間的概率分布相似度,分析研究主題的演化趨勢。進一步,引入主題熱度、新穎度和遷徙度等前沿預測指標,利用LSTM神經(jīng)網(wǎng)絡模型對研究主題的發(fā)展態(tài)勢和前沿熱點進行預測,并結合近年的基金立項和論文發(fā)表對模型預測結果進行定性修正。最后,以隱私研究主題為例,通過實證分析驗證所提方法的正確性和有效性。

        1 相關研究

        1.1 主題挖掘

        主題挖掘是指情報分析人員從學術論文、技術專利、政策文件等科技文獻中探測和識別隱含主題,追蹤學科研究動態(tài)的過程[5]。目前,不同領域的主題挖掘研究主要運用文本聚類、共詞分析、主題模型等文本分析方法,譚章祿等[6]以CNKI數(shù)據(jù)庫中的研究文獻為數(shù)據(jù)來源,抽取文章關鍵詞并構建詞頻矩陣,運用SPSS軟件對其進行聚類分析,并采用卡方統(tǒng)計抽取高關聯(lián)度關鍵詞對聚類結果進行分析;曲靖野等[7]以國家科技報告服務系統(tǒng)中的科技報告為數(shù)據(jù)源,采用Ward與K-means相結合的聚類算法對文本向量進行聚類分析;楊穎等[8]基于共詞分析和社會復雜網(wǎng)絡理論,利用科學計量工具BICOMB分析近兩年間發(fā)文主題的社會網(wǎng)絡結構,同時利用gCLUTO軟件對其詞頻矩陣進行雙向聚類,探索研究前沿。然而,文本分析方法依賴于詞頻統(tǒng)計和文本空間距離的計算,聚類結果也無法體現(xiàn)隱含的語義。

        主題模型是一種概率統(tǒng)計方法,其假設主題根據(jù)一定的規(guī)則和概率生成關鍵詞,因此在已知關鍵詞的情況下,可以通過概率統(tǒng)計反推出文檔的主題分布情況[9]。最具代表性的主題模型是2003年Blei D M等提出的LDA主題模型:引入Dirichlet先驗分布,構建“文檔—主題—關鍵詞”三層貝葉斯模型,運用概率方法對模型求解,挖掘文檔主題[10]。目前LDA模型在不同領域的主題挖掘研究中已被深入應用,曾子明等[11]以霧霾謠言為數(shù)據(jù)來源,定義用戶可信度和微博影響力特征變量,采用LDA主題模型深入挖掘微博文本的主題分布特征,并采用隨機森林算法進行謠言識別的模型訓練;吳江等[12]基于社會支持理論,運用LDA模型研究在線醫(yī)療社區(qū)中的社會支持類型和用戶參與程度;Kim Y等[13]利用LDA主題模型對Twitter用戶發(fā)布的信息進行興趣主題挖掘,實現(xiàn)興趣內容推送和好友推薦;Song B等[14]構建基于“主語—行為—賓語”結構的LDA主題模型,實現(xiàn)對產業(yè)領域中專利文獻主題的內容分析。

        1.2 主題關聯(lián)與演化

        主題關聯(lián)與演化是指對不同階段的研究主題進行相似度計算或相關性分析,揭示主題的發(fā)展變化,從而了解當前研究的演化脈絡[15]。主題關聯(lián)與演化的研究方法主要有兩種,一種是引文分析方法;另一種是文本挖掘方法。引文網(wǎng)絡作為描述主題結構和關聯(lián)的分析方法,可以深入挖掘主題信息,并憑借引用與被引用關系分析主題的關聯(lián)和演化情況,但引文網(wǎng)絡側重于時間維度上的主題挖掘和演化分析,且容易因“跟風效應”產生虛假派系而阻礙主題辨識[16]。

        近年來,研究學者嘗試將時間維度引入LDA主題模型,提出了TOT(Topic Over Topic)、DTM(Dynamic Topic Model)、OLDA(Online Latent Dirichlet Allocation)等主題時序演化模型[17-18],關鵬等[19]以鋰離子電池領域為例,基于時間窗口將文檔劃分為多個數(shù)據(jù)集,將研究過程分為成長期、快速發(fā)展期和融合期;夏立新等[20]利用LDA主題模型獲取不同時間段的用戶標簽主題,通過標簽興趣度來動態(tài)感知用戶興趣,進而分析用戶興趣層級結構的演化規(guī)律;劉雅姝等[21]運用LDA模型對網(wǎng)絡輿情數(shù)據(jù)進行主題劃分,從實體屬性、時間屬性等多維特征追蹤輿情話題的演化情況;Garroppo R G等[22]運用LDA模型對不同時間窗口的用戶生成內容(User Generated Content,UGC)進行主題聚類,通過比較關鍵詞突變分析主題的演化趨勢。然而,現(xiàn)有主題關聯(lián)與演化研究大多基于主題的時間跨度平均切分窗口,未考慮學科領域的生命周期特性。同時,LDA模型訓練得到的“主題—文檔—關鍵詞”具有多項式概率分布特性,幾何距離和余弦夾角的關聯(lián)分析方法并不科學。

        1.3 主題前沿預測

        1965年,Price D J D S[23]最早提出研究前沿(Research Front)這一概念,此后眾多學者分別從定性和定量角度對研究前沿的識別與預測展開研究,定性方法主要包括文獻綜述法和德爾菲法,然而定性研究的結果具有主觀性和不確定性[24]。定量方法主要包括引文分析和文本分析方法,Kessler M M[25]最早將文獻耦合分析方法引入到前沿識別與預測領域,該方法有效揭示文獻的內在聯(lián)系和學科架構變化;Morris S A等[26]基于文獻耦合方法可視化展示熱點主題分布、演變與衰老動態(tài)時序變化;侯劍華等[27]通過繪制文獻共被引和引文結構變換的知識圖譜,分別從共被引文獻和施引文獻的視角,對大數(shù)據(jù)領域的研究前沿進行預測。然而,引文分析法存在時間探測的滯后性,同時存在未深入文本語義內容等問題,一定程度上制約了研究前沿預測的準確性。

        針對上述問題,研究學者采用文本分析方法,從詞頻探測和主題演化角度,追蹤學科領域的發(fā)展趨勢,預測研究前沿。He X等[28]利用突發(fā)詞檢測算法,通過分析文獻的關鍵詞和參考文獻,研究其前沿趨勢;張英杰等[29]采用基于高頻詞的因子分析法和戰(zhàn)略坐標圖法,預測領域的研究前沿;劉自強等[30]利用關鍵詞詞頻排序、熱點關鍵詞群構建和時間序列模型分析等方法,分析梳理了近10年競爭情報領域的研究現(xiàn)狀,運用關鍵詞群分析、社會網(wǎng)絡分析和時間序列模型分析預測其研究熱點的發(fā)展趨勢;陳偉等[31]利用雙重隨機過程的隱馬爾可夫模型對技術主題的演化趨勢進行定量預測。

        針對文本分析方法中前沿預測指標的片面性,研究人員嘗試利用多維指標識別和預測研究前沿,鄭彥寧等[32]采用關鍵詞共現(xiàn)方法,對研究主題的新穎性、集中性和時效性進行分析,規(guī)避了詞頻分析單一性的缺點;張麗華[33]從研究時效性、突破性、跨學科性和繼承性等指標入手,對主題演化情況進行了詳細的指標量化;Funk R J等[34]從主題強度和主題結構出發(fā),從主題演化角度設計了主題前沿識別與預測指標。然而,現(xiàn)有預測指標體系未考慮主題的演化與遷徙特征,且缺乏定性與定量結合的分析。

        1.4 研究述評

        綜合來看,現(xiàn)有研究在主題挖掘、主題關聯(lián)與演化、主題前沿預測等領域已取得諸多成果,但仍存在以下問題:

        1)現(xiàn)有研究大多對主題的時間跨度進行平均切分,未考慮研究主題的生命周期特性;

        2)現(xiàn)有主題關聯(lián)分析大多采用詞頻統(tǒng)計、幾何距離和余弦夾角的相似度計算方法,未考慮“主題—關鍵詞”的多項式概率分布特征;

        3)相對于詞頻變化的突發(fā)性和片面性,研究主題在其生命周期演化過程中具有遷徙的穩(wěn)定性和規(guī)律性,現(xiàn)有主題前沿的預測指標不夠全面。

        基于此,本文提出基于LDA和LSTM模型的多時序研究主題關聯(lián)與預測方法,主要貢獻在于:

        1)從研究主題的生命周期視角切入,將主題時間跨度切分為萌芽期、發(fā)展期和快速成長期等多個時序窗口;

        2)對不同時序窗口進行LDA主題挖掘與識別,采用JS散度(Jensen-Shannon Divergence)更合理地描述主題間的概率分布相似度和關聯(lián)關系;

        3)考慮主題演化的遷徙特征和時序特征,設計主題熱度、新穎度和遷徙度等主題前沿預測指標,利用LSTM神經(jīng)網(wǎng)絡模型對研究主題的發(fā)展態(tài)勢和前沿熱點進行預測。進一步,結合基金立項和論文發(fā)表的定性分析,對定量預測結果進行修正。

        2 研究設計

        本文以生命周期理論和時間序列分析為理論基礎,歸納研究領域的生命周期特性,挖掘多時序窗口下的研究主題,分析主題研究熱度、新穎度和遷徙度等時間序列數(shù)據(jù)的短期可預測性,以之為基礎,設計研究思路與框架。

        2.1 理論基礎

        1)生命周期理論

        生命周期理論源于個體發(fā)展模型,是指一個生命體從出生到死亡所經(jīng)歷的各個階段。經(jīng)延伸和擴展后,生命周期理論被廣泛應用于產品管理、行業(yè)發(fā)展、客戶關系管理和信息計量學等諸多領域[35]。馬費成等[36]指出某個領域的研究主題也遵循生命周期的一般規(guī)律,經(jīng)歷萌芽期、成長期、成熟期、穩(wěn)定期和衰退期等不同階段,不同階段的研究主題存在產生、遷徙、轉移、交叉、融合和消亡等不同狀態(tài)。因此,基于生命周期理論對研究主題的時間跨度進行切分,并對多時序窗口下的研究主題進行挖掘與識別,有助于梳理主題的研究脈絡,為學科知識的演化分析提供支撐。

        2)時間序列分析理論

        時間序列分析理論指出,如果某個時序窗口下的變量與前后時序窗口的變量存在某種關聯(lián),則可以根據(jù)過往的變量值來預測未來某一時序窗口的變量值[37]。相對于詞頻變化的突變性和引文關聯(lián)的波動性,多時序窗口下研究主題的關鍵詞概率分布更加穩(wěn)定,主題變量與相鄰窗口的主題變量的相似度關聯(lián)更加緊密,具有明顯的時序變化特征。因此,LSTM等時間序列預測模型可應用于多時序窗口下的主題關聯(lián)和預測。

        2.2 研究思路與方法

        本文研究框架如圖1所示,主要包括3個模塊:LDA主題挖掘與關聯(lián)、前沿預測指標設計、LSTM神經(jīng)網(wǎng)絡預測。

        2.2.1 LDA主題挖掘與關聯(lián)

        LDA是一種文檔主題生成模型,包含詞、主題和文檔3層結構[38]。LDA主題模型認為文檔到主題服從多項式分布,主題到關鍵詞也服從多項式分布。與傳統(tǒng)文本分析方法相比,LDA主題模型克服了文本矩陣稀疏、忽略文本語義等缺陷,是分析大規(guī)模非結構化文檔集的最有效方法之一[39],其基本結構如圖2所示。

        其中,表示關鍵詞分布,θ表示主題分布,α是主題分布θ的先驗分布(即Dirichlet分布)參數(shù),β是關鍵詞分布的先驗分布參數(shù),z表示模型生成的主題,w表示模型最終生成的關鍵詞,S表示文檔的詞語數(shù)量,D表示文檔數(shù)量。LDA主題模型生成過程主要包括以下步驟:

        1)從參數(shù)為β的Dirichlet分布中為每個主題采樣“主題—關鍵詞分布”;

        2)從參數(shù)為α的Dirichlet分布中為每個文檔采樣“文檔—主題分布θ”;

        3)從參數(shù)為θ的多項式分布中采樣1個主題z;

        4)從參數(shù)為的多項式分布中采用1個關鍵詞w。

        本文基于生命周期理論將研究數(shù)據(jù)劃分為多個時序窗口,利用Python語言下的Sklearn包(https://scikit-learn.org/stable/)進行LDA主題挖掘。進一步,本文采用JS散度(Jensen-Shannon Divergence)描述不同時序窗口下學科主題的相似度和關聯(lián)關系,JS散度計算如式(1)所示[40]:

        相對于詞頻分析、幾何距離和余弦夾角等文本相似度的計算方法,JS散度是一種衡量概率分布相似度的指標,且解決了KL散度非對稱的問題,更適用于LDA模型中“主題—關鍵詞”的多項式概率分布特征。

        2.2.2 前沿預測指標設計

        研究主題前沿是指針對特定研究領域和特定時間,具有較高學術關注度的新穎主題[41]。本文在借鑒相關研究的基礎上,結合研究主題演化的遷徙特征和時序特征,設計前沿預測指標,包括主題熱度、主題新穎度和主題遷徙度。

        1)主題熱度:主題熱度是指某個時間段該主題的受關注程度,其表現(xiàn)形式可以定義為該主題下文獻數(shù)量的多少。因此,本文在LDA模型主題挖掘的基礎上,定義主題熱度的計算公式為:

        2)主題新穎度:某個主題下文獻第1次的發(fā)表年限越近,則表明該主題的新穎度越高。定義主題新穎度計算公式為[42]:

        其中,NT(t)為某個時序窗口下主題T的研究新穎度,t為當前時序窗口的上限,Tstart為主題T下文獻第1次的發(fā)表時間。可以看出,隨著主題出現(xiàn)時間的推移,新穎度也不斷下降。比如Tstart=2010,當t=2011時,NT(t)=0.5;當t=2015時,NT(t)=0.167;當t=2019時,NT(t)=0.1。

        3)主題遷徙度:主題遷徙度是指當前時序窗口下t的某個主題Ti轉移至下一個時序窗口t+1下的主題Tj的概率,反映了研究主題的演化趨勢和時序特征。本文采用相鄰時序窗口主題間的JS散度來描述主體遷徙度。

        2.2.3 基于LSTM的主題預測

        LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN),可以解決長序列訓練過程中的梯度消失和爆炸問題,目前廣泛地應用于時間序列分析、機器翻譯和語音識別等領域[43]。相對于RNN的單層結構,LSTM神經(jīng)網(wǎng)絡增加了單元狀態(tài)層用來保存長期的狀態(tài),其輸入?yún)?shù)包括:t時刻的輸入值xi、t-1時刻的輸出值ht-1、t-1時刻的單元狀態(tài)ct-1,輸出參數(shù)包括t時刻的輸出值ht和單元狀態(tài)ct,基本結構如圖3所示。LSTM神經(jīng)網(wǎng)絡通過遺忘門(Forget Gate)決定t-1的單元狀態(tài)ct-1有多少保留到t時刻的狀態(tài)ct,通過輸入門(Input Gate)決定t時刻的輸入xt有多少保存到單元狀態(tài)ct,通過輸出門決定單元狀態(tài)ct有多少輸出到t時刻的輸出值ht[44]。

        本文基于前文設計的主題預測指標,采用LSTM神經(jīng)網(wǎng)絡對研究主題的演化趨勢及前沿熱點進行預測,進一步結合近年基金立項和論文發(fā)表情況,對定量預測結果進行定性修正,基本步驟如表1所示。

        輸入:過去若干個時序窗口下的主題熱度、新穎度和遷徙度

        輸出:未來若干個時序窗口下主題熱度、新穎度和遷徙度的預測值

        方法:

        1)劃分多個時序窗口,設置步長。將輸入數(shù)據(jù)劃分為訓練集與測試集,并進行規(guī)范化處理;

        2)將輸入?yún)?shù)傳遞到隱藏層進行門閥計算,結合Sigmoid神經(jīng)網(wǎng)絡產生二維分布0和1以決定信息是否通過;

        3)運用tanh函數(shù)計算xt、ht-1和ct-1等參數(shù)值經(jīng)過遺忘門后的t時刻單元狀態(tài)值ct;

        4)利用Sigmoid函數(shù)得到初始輸出,并利用tanh函數(shù)進行數(shù)據(jù)縮放得到預測輸出ht;

        5)輸入測試數(shù)據(jù)集,驗證模型準確性;

        6)運用訓練后的LSTM模型對未來研究主題的熱度、新穎度和遷徙度進行預測;

        7)主題預測的定性修正。

        3 案例分析

        隨著大數(shù)據(jù)及移動通訊技術的發(fā)展和成熟,個性化和定制式的泛在信息服務逐漸應用至社交網(wǎng)絡、智慧城市和地圖導航等多個領域,給用戶帶來了全新的服務體驗。然而,用戶在享受高質量便捷服務的同時,大數(shù)據(jù)環(huán)境的開放性和共享性導致各類隱私泄露事件層出不窮,如“棱鏡門”事件、“Icloud”云泄露事件、“夜鶯計劃”等[45]。因此,如何有效地保護個人隱私成為業(yè)界和學術界共同關注的問題。從國內外學術文獻來看,眾多研究學者在隱私保護的法律法規(guī)、技術方法、行為模型等領域取得了諸多研究成果?;诖耍疚牟捎玫?節(jié)提出的研究方法,對隱私研究領域進行主題挖掘,梳理隱私研究主題的演化脈絡,分析不同時序窗口主題間的關聯(lián)關系,并對研究主題的發(fā)展趨勢和前沿熱點進行預測。

        3.1 數(shù)據(jù)來源及預處理

        本文使用CNKI中的期刊論文數(shù)據(jù)庫進行文獻檢索,檢索關鍵詞為“隱私”、“個人信息”、“信息泄露”等,檢索時間為2019年11月30日,時間跨度為2000-2019年。去除新聞、短評、征稿啟事等數(shù)據(jù)來源后,得到相關文獻13 298篇。整體來看,文獻數(shù)量呈穩(wěn)步增長態(tài)勢(2019年數(shù)據(jù)未統(tǒng)計完全)。

        為更好地分析隱私研究主題的演化趨勢和路徑,本文從時間維度對文獻分布進行多時序窗口切分?;谘芯恐黝}的生命周期,并結合文獻數(shù)量增長的趨勢線,本文將整個時間跨度分為萌芽發(fā)展期和快速成長期,共分為2000-2005年、2006-2007年、2008-2009年、2010-2011年、2012-2013年、2014年、2015年、2016年、2017年、2018年和2019年共11個時序窗口,如圖4所示。在此基礎上,根據(jù)隱私研究主題,結合多個中文停用詞表,運用Jieba分詞工具每個時序窗口下的文獻標題和摘要進行分詞,得到“隱私權”、“侵犯”、“立法”、“認證”、“匿名”、“風險”、“披露”、“加密”、“媒體”、“公眾”等領域詞匯。對分詞后的文本向量進行tf-idf特征提取,作為LDA主題模型的輸入?yún)?shù)。

        3.2 主題挖掘分析

        LDA主題模型是一種無監(jiān)督機器學習算法,可以用來挖掘大規(guī)模文檔集中隱含的主題信息,其主題挖掘效果與迭代次數(shù)(Iteration)密切相關。本文以文獻數(shù)量最多的2018年區(qū)間為例,設置測試主題數(shù)分別為10、20、30,當?shù)螖?shù)增加時,模型迅速收斂,迭代至100次之后,不同主題數(shù)的收斂效果均無明顯區(qū)別。綜合考慮運算速度和收斂效果,本文將迭代次數(shù)設定為200次。

        本文運用LDA模型中的Perplexity(困惑度)參數(shù)確定不同區(qū)間下文獻的最優(yōu)主題數(shù),如圖5所示。進一步,對每個區(qū)間的主題進行篩選,如去除文獻數(shù)量為0的主題、去除由虛詞組成的主題聚類、去除與隱私研究無關或相關度較小的主題聚類等。對篩選后的主題進行編號和命名,結果如表2所示。

        基于LDA主題挖掘結果,繪制論文主題的數(shù)量趨勢熱度圖,如圖6所示,可以得出如下結論:

        1)根據(jù)LDA主題挖掘的結果,可以將不同區(qū)間下的論文主題分為5個類別:類別1—隱私權利與隱私法律(隱私權利、隱私法律法規(guī)、隱私倫理等)、類別2—隱私技術研究(隱私匿名算法、差分隱私、隱私加密等)、類別3—數(shù)據(jù)開放與隱私保護(公眾隱私、個人信息保護、數(shù)據(jù)流動與隱私監(jiān)管等)、類別4—隱私行為(隱私感知與行為、隱私偏好)、類別5—不同應用領域的隱私保護(醫(yī)療隱私、圖書館隱私、金融隱私等)。

        2)熱度圖中顏色較深的區(qū)域為論文數(shù)量較多的研究主題,主要包括隱私法律法規(guī)、隱私匿名算法、隱私權利、公眾隱私、圖書館隱私、醫(yī)療隱私等,論文數(shù)量較少的研究主題主要包括隱私感知、隱私偏好、隱私倫理、金融隱私等。

        3)早在2000年,最高人民檢察院的楊立新對公民隱私權的范圍進行了界定,并對其法律保護形式進行了闡述[46]。此后,國外法律制度的借鑒、新興信息技術的發(fā)展以及各類隱私泄露事件都促使了國內隱私法律法規(guī)的制定和完善,典型事件包括:①2008年初,“艷照門”事件引發(fā)社會各界對個人隱私的關注,呼吁政府部門加強隱私監(jiān)管和隱私立法;②2013年,工信部頒布《電信和互聯(lián)網(wǎng)用戶個人信息保護規(guī)定》,該方案為互聯(lián)網(wǎng)環(huán)境下隱私信息的收集、分析與利用提供了保障;③2014年5月,白宮發(fā)布《Big Data and Privacy:A Technological Perspective》白皮書,探討了大數(shù)據(jù)環(huán)境

        下個人隱私泄露的風險及保護機制,為各國大數(shù)據(jù)隱私法律的制定提供了參考。

        4)隱私技術研究大致分為兩方面:匿名和訪問控制。匿名是指在獲取用戶隱私信息時,通過匿名的方式,防止將獲取的信息與用戶身份相關聯(lián),以此來達到隱私保護的目的??突仿〈髮W的Sweeney教授于2002年提出K-anonymity隱私匿名算法,該算法對隱私匿名研究具有開創(chuàng)性意義,此后國內關于隱私匿名算法研究的文獻一直保持較高熱度[47]。

        5)在不同應用領域的隱私保護中,醫(yī)療隱私和圖書館隱私是國內研究學者關注的焦點,原因主要包括兩點:①醫(yī)療數(shù)據(jù)具有高度的私密性和敏感性,如過敏藥品、家族病史、影像報告等醫(yī)療記錄如果泄露,會給患者帶來嚴重的隱私侵害和人身安全問題。因此,眾多學者從患者醫(yī)療信息使用、電子醫(yī)療記錄共享(Electronic Medical Record,EMR)、移動醫(yī)療APP權限等角度對醫(yī)療隱私保護的相關問題展開了研究;②隨著數(shù)據(jù)開放和共享的進一步深入,以及大數(shù)據(jù)、物聯(lián)網(wǎng)等新興技術的飛速發(fā)展,圖書館的運營、管理和服務模式也發(fā)生了改變。如何有效采集讀者閱讀行為、身份特征、個人愛好與習慣和社會關系等隱私數(shù)據(jù),實現(xiàn)對讀者閱讀需求和閱讀行為準確、詳細的跟蹤、挖掘、分析和預測,成為圖書館提高服務針對性和市場競爭力的關鍵[48]。為避免侵害讀者隱私,圖書館必須從保障和維護讀者權益出發(fā),自覺遵守相關的法律、法規(guī),形成保護讀者個人隱私的長效機制。

        6)2018年,區(qū)塊鏈隱私主題逐漸受到研究學者的關注。區(qū)塊鏈是隨著比特幣等數(shù)字加密貨幣普及而興起的技術,具有“去中心化”和“不可篡改”等特點,可應用于物聯(lián)網(wǎng)、社交媒體、電子醫(yī)療記錄等多個領域的隱私保護[49]。2019年10月,習近平總書記提出區(qū)塊鏈技術的集成應用在新的技術革新和產業(yè)變革中起著重要作用,應加快推動區(qū)塊鏈技術和產業(yè)創(chuàng)新發(fā)展[50]??梢灶A見,未來區(qū)塊鏈隱私主題的研究熱度會顯著提升。

        3.3 主題演化分析

        為了解研究主題間的演化規(guī)律和關聯(lián)關系,本文通過LDA模型挖掘得到的主題及關鍵詞,計算相鄰時間窗口下研究主題的JS散度。JS散度值相似度越高,主題間出現(xiàn)遷徙和演化的概率越大。為了使演化路徑更加清晰,本文篩選文獻數(shù)量較少(數(shù)量少于20)和相似度較低的研究主題(相似度小于0.3),研究主題的演化路徑和關聯(lián)關系如圖7所示,矩形塊之間連線的粗細代表主題相似度,連線越粗,相似度越高。具體結論如下:

        1)類別1(隱私法律法規(guī))一直是隱私研究主題的重點和熱點,主題文獻數(shù)量較多,不同時間窗口的主題相似度也較高。從關鍵詞分布來看,隨著隱私法律法規(guī)的修訂和完善,主題研究重點從普通公民的隱私權保護演化為如何構建法制社會。與此同時,隨著互聯(lián)網(wǎng)的發(fā)展和普及,研究主題從關注網(wǎng)絡隱私安全逐漸演化至如何規(guī)范、合理的使用個人信息。

        2)不同于類別1(隱私法律法規(guī))在研究主題上的延續(xù)性,類別2(隱私技術研究)的主題演化存在較強的關聯(lián)性和遷徙性,比較顯著的演化路徑包括:

        ①隱私挖掘(2006-2007)→(0.511)隱私挖掘(2008-2009)→…→(0.304)隱私加密(2019)

        ②RFID隱私(2006-2007)→(0.667)RFID隱私(2008-2009)→…→(0.652)位置隱私(2017)

        ③LBS隱私(2010-2011)→(0.34)隱私認證協(xié)議(2012-2013)→…→(0.391)隱私匿名(2019)

        與此同時,隱私技術是眾多應用領域隱私保護的重要手段,與隱私法律法規(guī)互為補充。從時間維度上看,隨著隱私技術研究的深入,其研究主題逐漸應用至醫(yī)療、金融、圖書館服務等具體領域,比較顯著的演化路徑包括:

        ①隱私匿名(2010-2011)→(0.468)醫(yī)療隱私(2012-2013)→…→(0.468)醫(yī)療隱私(2019)

        ②隱私挖掘(2008-2009)→(0.458)隱私匿名(2010-2011)→…→(0.52)金融隱私(2019)

        ③隱私挖掘(2008-2009)→(0.371)隱私匿名(2010-2011)→…→(0.36)圖書館隱私(2018)

        3)類別4(隱私行為研究)與類別1(隱私法律法規(guī))、類別2(隱私技術)、類別5(具體應用領域的隱私保護)的主題關聯(lián)性和相似度都較高,原因在于針對不同應用領域的隱私問題,不同類型主體的隱私關注程度和隱私披露意愿具有差異性。然而,宏觀層面的隱私法律法規(guī)和微觀層面的隱私技術無法解決這一問題,因此眾多學者運用計劃行為理論、期望確認理論、享樂理論等理論模型去研究隱私悖論、隱私憂慮、隱私披露意愿等隱私感知與行為問題。比較顯著的演化路徑包括:

        ①無線通信隱私(2012-2013)→(0.565)隱私認證協(xié)議(2014)→…→(0.478)隱私匿名(2018)→(0.383)隱私披露與意愿(2019)

        ②隱私匿名(2010-2011)→(0.426)位置隱私(2012-2013)→…→(0.468)隱私感知與行為(2018)→(0.426)隱私感知與行為(2019)

        4)從研究主題擴散和演化的角度分析,隱私匿名研究的衍生路徑較多,遷徙概率較大,說明其是隱私研究中的基礎和橋梁,如消費者隱私和醫(yī)療隱私的主要保護措施就是匿名機制。比較顯著的衍生路徑包括:

        ①隱私匿名(2010-2011)→(0.304)醫(yī)療隱私(2012-2013)

        ②隱私匿名(2010-2011)→(0.391)無線通信隱私(2012-2013)

        ③隱私匿名(2015)→(0.314)圖書館隱私(2016)

        ④隱私匿名(2018)→(0.383)隱私披露與意愿(2019)

        ⑤隱私匿名(2018)→(0.391)個人信息保護(2019)

        ⑥隱私匿名(2018)→(0.347)隱私感知與行為(2019)

        3.4 主題預測分析

        在主題挖掘和關聯(lián)分析的基礎上,本文選取主題熱度、新穎度和遷徙度作為LSTM神經(jīng)網(wǎng)絡模型的預測指標,并定義相對誤差(RE,Relative Error)來評估模型預測的準確度:

        其中ya為實際數(shù)值,yp為模型預測值。本文同時選取BP神經(jīng)網(wǎng)絡和支持向量機進行預測結果對比,以驗證LSTM神經(jīng)網(wǎng)絡模型的有效性和優(yōu)越性。BP神經(jīng)網(wǎng)絡選用三層神經(jīng)元結構,神經(jīng)元參數(shù)為1-20-1分布,迭代次數(shù)為200,支持向量機Gamma參數(shù)設置為1,懲罰系數(shù)設置為1.5,兩種機器學習算法均采用Python語言的Sklearn庫實現(xiàn)。LSTM神經(jīng)網(wǎng)絡模型在Keras框架下搭建兩層10維神經(jīng)元和一層Dense輸出,迭代次數(shù)設置為200。

        將前8個時序窗口的數(shù)據(jù)作為訓練數(shù)據(jù)集,后3個時序窗口的數(shù)據(jù)作為測試數(shù)據(jù)集,部分主題的預測評估結果如表3所示??梢钥闯?,相對于BP神經(jīng)網(wǎng)絡和支持向量機的預測模型,LSTM神經(jīng)網(wǎng)絡模型預測的準確度更高,誤差更小。

        基于此,本文利用LSTM神經(jīng)網(wǎng)絡模型對未來3個時序窗口(2020年、2021年、2022年)下隱私研究主題的演化趨勢和前沿熱點進行預測,部分主題的預測結果如表4所示,在未來3年,隱私法律法規(guī)、隱私匿名、區(qū)塊鏈隱私、隱私感知與行業(yè)等主題是隱私研究領域的熱點。

        結合近年來的基金立項和論文發(fā)表情況,對模型預測結果進行定性修正,可以得到以下結論:

        1)國家自然科學基金中隱私主題的立項主要集中在信息學部和管理學部,信息學部立足于隱私技術研究,主要涉及云計算、車聯(lián)網(wǎng)、位置服務、社交網(wǎng)絡等不同領域的隱私保護技術,管理學部立足于隱私行為和宏觀隱私保護研究,主要涉及隱私風險、隱私行為、隱私關注和隱私?jīng)Q策等領域。結合LSTM神經(jīng)網(wǎng)絡模型的預測結果,隱私匿名、位置隱私以及數(shù)據(jù)關聯(lián)與隱私挖掘等研究主題會保持熱度,文獻數(shù)量穩(wěn)步增長。

        2)國家社會科學基金中隱私主題的立項范圍涵蓋較廣,涵蓋了隱私行為、隱私法律和不同應用領域的隱私保護,不同于國家自然科學基金偏重微觀研究,集中于隱私技術和隱私行為研究,國家社會科學基金偏重于宏觀政策和機制研究。基于此,隱私感知和隱私行為、隱私法律法規(guī)以及個人信息保護等主題的文獻數(shù)量也會保持穩(wěn)步增長。

        3)考慮到國外研究對國內研究主題的借鑒性和啟發(fā)性,本文對近3年UTD 24期刊中隱私主題的論文進行歸納,未來隱私研究的前沿熱點包括區(qū)塊鏈隱私(Block Chain Privacy )隱私關注(Privacy Concern)、隱私計算(Privacy Calculation)、隱私悖論(Privacy Paradox)及隱私態(tài)度(Privacy Attitude)等主題,即隱私行為研究主題的文獻數(shù)量會顯著增長。

        4 結 語

        本文在生命周期理論和時間序列分析理論的基礎上,提出基于LDA和LSTM模型的主題關聯(lián)與預測方法,可以用來梳理具體領域的研究脈絡和主題關聯(lián),預測研究主題的發(fā)展趨勢和前沿熱點。創(chuàng)新之處主要有兩點:一是基于生命周期理論,合理劃分多時序窗口,并用JS散度描述主題間的關聯(lián)關系;二是基于主題預測指標的時間序列特征,利用LSTM模型進行主題預測。最后以隱私研究領域為例,選取2000-2019年間共13 298篇學術論文作為數(shù)據(jù)源進行了實證研究,證明了本文方法的準確性和有效性。未來的研究可以進一步改進LDA主題挖掘的準確性,綜合宏觀文獻引用維度和微觀主題演化維度進行關聯(lián)分析。

        參考文獻

        [1]劉自強,許海云,岳麗欣.面向研究前沿預測的主題擴散演化滯后效應研究[J].情報學報,2018,37(10):979-988.

        [2]李樵.外部引用視角下的中國圖書情報學知識影響力研究[J].中國圖書館學報,2019,45(6):1-19.

        [3]李綱,巴志超.共詞分析過程中的若干問題研究[J].中國圖書館學報,2017,43(4):93-113.

        [4]Lu Y,Xiong X.Topic Analysis of Microblog About“Didi Taxi”Based on K-means Algorithm[J].American Journal of Information Science and Technology,2019,3(3):72-79.

        [5]廖海涵,王曰芬,關鵬.微博輿情傳播周期中不同傳播者的主題挖掘與觀點識別[J].圖書情報工作,2018,62(19):77-85.

        [6]譚章祿,彭勝男,王兆剛.基于聚類分析的國內文本挖掘熱點與趨勢研究[J].情報學報,2019,38(6):578-585.

        [7]曲靖野,陳震,鄭彥寧.基于主題模型的科技報告文檔聚類方法研究[J].圖書情報工作,2018,62(4):113-120.

        [8]楊穎,許丹,陳斯斯,等.基于自然指數(shù)刊文數(shù)據(jù)對全球醫(yī)學研究領域熱點的探析[J].情報學報,2019,38(11):1129-1137.

        [9]張穎怡,章成志,陳果.基于關鍵詞的學術文本聚類集成研究[J].情報學報,2019,38(8):860-871.

        [10]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.

        [11]曾子明,王婧.基于LDA和隨機森林的微博謠言識別研究——以2016年霧霾謠言為例[J].情報學報,2019,38(1):89-96.

        [12]吳江,侯紹新,靳萌萌,等.基于LDA模型特征選擇的在線醫(yī)療社區(qū)文本分類及用戶聚類研究[J].情報學報,2017,36(11):1183-1191.

        [13]Kim Y,Shim K.TWILITE:A Recommendation System for Twitter Using a Probabilistic Model Based on Latent Dirichlet Allocation[J].Information Systems,2014,42:59-77.

        [14]Song B,Suh Y.Identifying Convergence Fields and Technologies for Industrial Safety:LDA-based Network Analysis[J].Technological Forecasting and Social Change,2019,138:115-126.

        [15]趙蓉英,張心源,張揚,等.我國“五計學”演化過程及其進展研究[J].圖書情報工作,2018,62(13):127-138.

        [16]張嫻,方曙.專利引用網(wǎng)絡主路徑方法研究述評與展望[J].圖書情報工作,2016,60(20):140-148.

        [17]Ibrahim R,Elbagoury A,Kamel M S,et al.Tools and Approaches for Topic Detection from Twitter Streams:Survey[J].Knowledge and Information Systems,2018,54(3):511-539.

        [18]Li Q,Liu L,Xu M,et al.GDTM:A Gaussian Dynamic Topic Model for Forwarding Prediction Under Complex Mechanisms[J].IEEE Transactions on Computational Social Systems,2019,6(2):338-349.

        [19]關鵬,王曰芬,傅柱.基于LDA的主題語義演化分析方法研究——以鋰離子電池領域為例[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(7):61-72

        [20]夏立新,曾杰妍,畢崇武,等.基于LDA主題模型的用戶興趣層級演化研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(7):1-13.

        [21]劉雅姝,張海濤,徐海玲,等.多維特征融合的網(wǎng)絡輿情突發(fā)事件演化話題圖譜研究[J].情報學報,2019,38(8):798-806.

        [22]Garroppo R G,Ahmed M,Niccolini S,et al.A Vocabulary for Growth:Topic Modeling of Content Popularity Evolution[J].IEEE Transactions on Multimedia,2018,20(10):2683-2692.

        [23]Price D J D S.Networks of Scientific Papers[J].Science,1965,149(3683):510-515.

        [24]范云滿,馬建霞.基于LDA 與新興主題特征分析的新興主題探測研究[J].情報學報,2014,33(7):698-711.

        [25]Kessler M M.Bibliographic Coupling Between Scientific Papers[J].Journal of the American Society for Information Science & Technology,1963,14(1):10-25.

        [26]Morris S A,Yen G Wu Z,et al.Time Line Visualization of Research Fronts[J].Journal of the Association for Information Science & Technology,2003,54(5):413-422.

        [27]侯劍華,李蓮姬,楊秀財.基于引文網(wǎng)絡結構變換的大數(shù)據(jù)研究前沿預測[J].情報科學,2018,36(6):142-148,168.

        [28]He X,Wu Y,Yu D,et al.Exploring the Ordered Weighted Averaging Operator Knowledge Domain:A Bibliometric Analysis[J].International Journal of Intelligent Systems,2017,32(11):1151-1166.

        [29]張英杰,冷伏海.基于案例的科學前沿探測方法比較研究[J].圖書情報工作,2012,56(20):42-46.

        [30]劉自強,王效岳,白如江.基于時間序列模型的研究熱點分析預測方法研究[J].情報理論與實踐,2016,39(5):27-33.

        [31]陳偉,林超然,李金秋,等.基于LDA-HMM的專利技術主題演化趨勢分析——以船用柴油機技術為例[J].情報學報,2018,37(7):732-741.

        [32]鄭彥寧,許曉陽,劉志輝.基于關鍵詞共現(xiàn)的研究前沿識別方法研究[J].圖書情報工作,2016,60(4):85-92.

        [33]張麗華.研究前沿探測及其演化分析方法與實證研究[D].北京:中國科學院大學,2015.

        [34]Funk R J,Owen-Smith J.A Dynamic Network Measure of Technologic Change[J].Management Science,2017,63(3):791-817.

        [35]Santos A C,Mendes P,Teixeira M R.Social Life Cycle Analysis as a Tool for Sustainable Management of Illegal Waste Dumping in Municipal Services[J].Journal of Cleaner Production,2019,210:1141-1149.

        [36]馬費成,夏永紅.網(wǎng)絡信息的生命周期實證研究[J].情報理論與實踐,2009,32(6):1-7.

        [37]Feyrer J.Trade and Income—Exploiting Time Series in Geography[J].American Economic Journal:Applied Economics,2019,11(4):1-35.

        [38]Blei D M,Jordan M I,Griffiths T L.The Nested Chinese Restaurant Process and Bayesian Nonparametric inference of Topic Hierarchies[J].Advances in Neural Information Processing Systems,2010,57(2):17-24.

        [39]Tazibt A A,Aoughlis F.Latent Dirichlet Allocation-based Temporal Summarization[J].International Journal of Web Information Systems,2019,15(1):83-102.

        [40]Bai L,Hancock E R.Graph Kernels from the Jensen-Shannon Divergence[J].Journal of Mathematical Imaging and Vision,2013,47(1-2):60-69.

        [41]牌艷欣,李長玲,劉運梅.基于z指數(shù)的AAS高關注度學科研究主題識別[J].情報資料工作,2019,40(6):30-37

        [42]范云滿,馬建霞.基于LDA與新興主題特征分析的新興主題探測研究[J].情報學報,2014,33(7):698-711.

        [43]Graves A,Schmidhuber J.Framewise Phoneme Classification with Bidirectional LSTM and other Neural Network Architectures[J].Neural networks,2005,18(5-6):602-610.

        [44]Greff K,Srivastava R K,Koutník J,et al.LSTM:A Search Space Odyssey[J].IEEE Transactions on Neural Networks and Learning Systems,2016,28(10):2222-2232.

        [45]朱光,豐米寧,陳葉,等.大數(shù)據(jù)環(huán)境下社交網(wǎng)絡隱私風險的模糊評估研究[J].情報科學,2016,34(9):94-98.

        [46]楊立新.關于隱私權及其法律保護的幾個問題[J].人民檢察,2000,(1):26-28.

        [47]Sweeney L.K-anonymity:A Model for Protecting Privacy[J].International Journal of Uncertainty,F(xiàn)uzziness and Knowledge-Based Systems,2002,10(5):557-570.

        [48]白美程,陽廣元.近五年我國數(shù)字圖書館用戶隱私保護研究進展[J].圖書館理論與實踐,2019,(8):79-84.

        [49]艾瓊,劉純璐,游林.科研用戶訪問國外學術數(shù)據(jù)庫的隱私保護與對策[J].圖書情報工作,2019,63(10):12-20.

        [50]光明網(wǎng).區(qū)塊鏈創(chuàng)新中國價值鏈 創(chuàng)新技術發(fā)展廣泛惠及民生[EB/OL].http://politics.gmw.cn/2019-12/26/content_33430734.htm,2019-12-21.

        (責任編輯:陳 媛)

        猜你喜歡
        隱私
        論網(wǎng)絡隱私權的法律保護
        數(shù)據(jù)安全事件頻發(fā) “隱私”何處安放?
        新形勢下個人信息隱私保護研究
        網(wǎng)絡環(huán)境下的隱私保護
        青春歲月(2016年21期)2016-12-20 15:56:01
        室內窗簾裝飾性探析
        戲劇之家(2016年22期)2016-11-30 17:18:18
        淺議隱私權的邊界
        基于大數(shù)據(jù)時代下的網(wǎng)絡安全問題分析
        大數(shù)據(jù)時代下“被直播”問題現(xiàn)狀調研報告
        今傳媒(2016年5期)2016-06-01 00:11:19
        被遺忘權的理論探討
        商(2016年14期)2016-05-30 10:04:04
        移動互聯(lián)網(wǎng)時代信息安全問題淺談
        国产粉嫩美女一区二区三| 国产自拍一区在线视频| 精品一区二区在线观看免费视频| 伊人精品久久久久中文字幕| 欧美巨大xxxx做受l| 亚洲一区二区三区久久蜜桃| 亚洲最稳定资源在线观看| 亚洲一本二区偷拍精品| 免费人成小说在线观看网站| 国产特级毛片aaaaaa高清| 激情人妻在线视频| 国产精品天堂在线观看 | 精人妻无码一区二区三区| 内射囯产旡码丰满少妇| 日韩亚洲中文图片小说| 黄色三级视频中文字幕| 一区二区在线观看视频高清| 亚欧美日韩香蕉在线播放视频| 国产在线白丝DVD精品| 偷拍激情视频一区二区| 自拍偷自拍亚洲精品第按摩| 国产操逼视频| 亚洲中文字幕久久精品蜜桃| 亚洲一区二区三区av天堂| 亚洲2022国产成人精品无码区| 精品久久久中文字幕人妻| 精品国产AⅤ一区二区三区V免费| 狼狼色丁香久久女婷婷综合| 天天摸夜夜摸摸到高潮| 国产最新网站| 在线日韩中文字幕乱码视频| 精品国产亚洲亚洲国产| 色狠狠av老熟女| 国产亚洲精品国看不卡| 国产亚洲午夜精品久久久| 国产农村妇女精品一二区| 国产白丝网站精品污在线入口| 亚洲一区亚洲二区中文字幕| 摸丰满大乳奶水www免费| 欧美真人性做爰一二区| 性感人妻一区二区三区|