亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文文獻(xiàn)關(guān)鍵詞分布特性研究

        2019-12-12 07:06:36冶忠林趙海興楊燕琳
        關(guān)鍵詞:詞頻定律學(xué)者

        孟 磊 冶忠林 趙海興,4* 楊燕琳

        1(青海師范大學(xué)計(jì)算機(jī)學(xué)院 青海 西寧 810016)2(青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室 青海 西寧 810008)3(藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室 青海 西寧 810008)4(陜西師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 陜西 西安 710062)

        0 引 言

        近年來,如何根據(jù)文獻(xiàn)中的一些字詞的分布特征,去更好地了解語言的發(fā)展、各個(gè)學(xué)科領(lǐng)域之間的關(guān)系、知識(shí)擴(kuò)散和科研話題成為一個(gè)熱門研究方向,而其中最常用的方法為Zipf定律。例如,劉宇凡等[1]通過分析唐代以來漢語文學(xué)中字頻的分布,發(fā)現(xiàn)了在每個(gè)不同的歷史時(shí)期漢字的使用存在差異,但在比較相近時(shí)期漢字的使用習(xí)慣是基本一致的;曹盼盼等[2]建立寫信間隔時(shí)間漂移冪律分布模型,說明了人類書信時(shí)間既服從Zipf定律又滿足冪律分布;鄭亞斌等[3]通過用自然語言處理對(duì)歌詞做了一些相關(guān)實(shí)驗(yàn),驗(yàn)證了歌詞分布基本符合Zipf定律;劉勝久等[4]提出了網(wǎng)絡(luò)信息計(jì)量學(xué)可能存在Zipf定律的猜想,并通過實(shí)驗(yàn)結(jié)果很好地證明了此猜想。

        目前,針對(duì)自動(dòng)文本摘要生成的研究已經(jīng)取得了巨大的成功[5],而基于這些成熟的摘要生成算法,構(gòu)建文本的關(guān)鍵詞也是較為容易的。因此,研究如何生成文本(如,科研論文)的摘要或者關(guān)鍵詞的理論體系和工程框架已經(jīng)成熟,但是,針對(duì)構(gòu)建出來的關(guān)鍵詞的特性的研究成果卻較為少見。

        關(guān)鍵詞作為表述論文的中心內(nèi)容有實(shí)質(zhì)意義的代表詞匯,既反映了研究成果的核心內(nèi)容,又揭示了科研內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的方向,更為檢索提供了重要手段。同時(shí),關(guān)鍵詞分析是研究文獻(xiàn)計(jì)量學(xué)的重要手段,關(guān)鍵詞分析是通過將文獻(xiàn)著作中的眾多影響因素聯(lián)合分析,客觀評(píng)價(jià)文獻(xiàn)和相關(guān)學(xué)者的學(xué)術(shù)水平,預(yù)測(cè)熱點(diǎn)研究趨勢(shì)[6-7]。

        本文主要研究中文文獻(xiàn)中關(guān)鍵詞在不同學(xué)科內(nèi)的分布特性。為了實(shí)現(xiàn)該研究目標(biāo),可將本文研究的具體細(xì)節(jié)歸納為三個(gè)方面。

        首先,本文將關(guān)鍵詞分類,即在本文中主要研究三個(gè)領(lǐng)域內(nèi)(人工智能、生物、財(cái)經(jīng))的關(guān)鍵詞在不同搜索引擎中搜索結(jié)果數(shù)和排名分布特性;其次,在百度學(xué)術(shù)中爬取三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞,分析每個(gè)關(guān)鍵詞近三年(2018年、2017年、2016年)的搜索結(jié)果數(shù)和排名在各自的領(lǐng)域內(nèi)是否符合Zipf定律,并歸納不同科學(xué)領(lǐng)域在不同年份內(nèi)的Zipf參數(shù)規(guī)律;最后,為了研究關(guān)鍵詞和相關(guān)學(xué)者之間的關(guān)系,本文又構(gòu)建了關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型,并基于該超網(wǎng)絡(luò)模型對(duì)一些指標(biāo)進(jìn)行了衡量,歸納總結(jié)了關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型的一些特性。

        本文主要對(duì)以上三個(gè)方面展開研究工作,且本文的研究成果可提供一些有趣的結(jié)論,對(duì)于研究關(guān)鍵詞分布特征特性提供了理論支撐和數(shù)據(jù)支持。

        1 相關(guān)工作

        目前,針對(duì)引文網(wǎng)絡(luò)的研究主要是基于普通的點(diǎn)邊網(wǎng)絡(luò)進(jìn)行研究。例如,Kajikawa等[8]采用引文網(wǎng)絡(luò)分析的方法,對(duì)能源研究中的新興研究領(lǐng)域進(jìn)行了跟蹤研究,證實(shí)了燃料電池和太陽能電池在能源研究領(lǐng)域正在迅速發(fā)展;肖雪等[9]對(duì)每個(gè)領(lǐng)域的知識(shí)研究進(jìn)展、關(guān)鍵詞的分布、主題功能的分析,對(duì)引文網(wǎng)絡(luò)的社團(tuán)劃分進(jìn)展進(jìn)行綜述性研究;陳云偉[10]通過引文網(wǎng)絡(luò)演化結(jié)構(gòu)特征等的分析對(duì)新方法、新領(lǐng)域和新應(yīng)用進(jìn)行了解讀;White等[11]通過對(duì)引文網(wǎng)絡(luò)中的合作者之間的通訊方式及社會(huì)距離的分析,解釋了合作在科研中的作用,并且分析了一些學(xué)派、團(tuán)隊(duì)形成的過程;劉萍等[12]構(gòu)建了加權(quán)文獻(xiàn)引文網(wǎng)絡(luò),并結(jié)合傳統(tǒng)引文網(wǎng)絡(luò)指標(biāo)和學(xué)者文獻(xiàn)的引用關(guān)系,對(duì)學(xué)者的學(xué)術(shù)影響力進(jìn)行綜合評(píng)測(cè)。

        由于普通的點(diǎn)邊網(wǎng)絡(luò)無法表示網(wǎng)絡(luò)中的高階的信息關(guān)聯(lián),所以超網(wǎng)絡(luò)模型逐漸被引入到網(wǎng)絡(luò)分析任務(wù)中。例如,索琪等[13]就基于超圖的超網(wǎng)絡(luò)進(jìn)行討論,分析了這類超網(wǎng)絡(luò)的結(jié)構(gòu)及其演化機(jī)制;胡楓等[14]構(gòu)建了基于超圖的科研合作超網(wǎng)絡(luò)模型,通過理論和實(shí)驗(yàn)數(shù)據(jù)分析了此超網(wǎng)絡(luò)的超度,發(fā)現(xiàn)超度分布基本符合冪律分布;劉勝久等[15]從超網(wǎng)絡(luò)的關(guān)聯(lián)矩陣出發(fā),對(duì)超網(wǎng)絡(luò)進(jìn)行分析研究,總結(jié)出了一些基于矩陣運(yùn)算的構(gòu)建超網(wǎng)絡(luò)模型的性質(zhì);孫海生[16]選擇前沿論文中的主題特征詞作為研究對(duì)象并且構(gòu)建超網(wǎng)絡(luò)模型,通過對(duì)該超網(wǎng)絡(luò)的特性分析表明,這種方法能夠體現(xiàn)出特征詞在各個(gè)聚類主題中的重要性;梁曉賀等[17]構(gòu)建基于微博輿情的超網(wǎng)絡(luò)模型,包含用戶—觀點(diǎn)—情感—時(shí)序四層,揭示了每層子網(wǎng)的特征信息,超網(wǎng)絡(luò)模型的超邊可用于輿情預(yù)警、輿情主題挖掘及輿情主題演化分析。

        2 方法設(shè)計(jì)

        2.1 方法流程

        本文主要是分析引文網(wǎng)絡(luò)中關(guān)鍵詞的分布特性,并分析關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型特征。為了實(shí)現(xiàn)這兩個(gè)研究目標(biāo),本文設(shè)計(jì)了一種方法驗(yàn)證流程,如圖1所示。首先使用Python程序進(jìn)行關(guān)鍵詞爬??;然后把爬取到三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞輸入到三個(gè)學(xué)術(shù)搜索引擎中進(jìn)行搜索,并將得到的詞的頻數(shù)存入本地,同時(shí)將三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞在百度學(xué)術(shù)搜索引擎中進(jìn)行搜索,把得到的近三年的詞頻和相關(guān)學(xué)者存入本地;最后,本文通過對(duì)爬取得到的關(guān)鍵詞的數(shù)據(jù)進(jìn)行擬合、分析,驗(yàn)證其頻數(shù)是否符合Zipf定律并對(duì)構(gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型進(jìn)行分析。

        圖1 本文主要研究方法流程

        2.2 關(guān)鍵詞爬取

        本文研究的關(guān)鍵詞是中文文獻(xiàn)中的關(guān)鍵詞,主要研究了人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞。

        本文通過Python程序在中國科學(xué)等雜志期刊上爬取人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域的文獻(xiàn),然后將關(guān)鍵詞提取出來,對(duì)提取出來的關(guān)鍵詞進(jìn)行去除重復(fù)、去除單個(gè)字、去除英文處理,最終得到我們需要的關(guān)鍵詞。主要步驟如圖2所示。

        圖2 關(guān)鍵詞獲取流程圖

        (1) 論文獲取。對(duì)本文研究的三個(gè)領(lǐng)域(人工智能、生物和財(cái)經(jīng))在中國科學(xué)等雜志期刊中進(jìn)行搜索并爬取論文的作者、關(guān)鍵詞、摘要等內(nèi)容。

        (2) 關(guān)鍵詞提取。在爬取得到的論文中將關(guān)鍵詞提取出來。

        (3) 關(guān)鍵詞篩選。將提取出來的關(guān)鍵詞做去重、去單個(gè)字和去英文處理。

        2.3 關(guān)鍵詞詞頻與相關(guān)學(xué)者獲取

        本文研究的關(guān)鍵詞詞頻是指關(guān)鍵詞在搜索引擎中搜索了以后得到的搜索結(jié)果數(shù)。如圖3所示,橢圓框里面的搜索結(jié)果為關(guān)鍵詞詞頻。

        (a) 知網(wǎng)關(guān)鍵詞詞頻示例

        (b) 百度學(xué)術(shù)關(guān)鍵詞詞頻示例

        (c) Bing學(xué)術(shù)關(guān)鍵詞詞頻示例圖3 三個(gè)搜索引擎中關(guān)鍵詞詞頻示例

        另外,本文還對(duì)三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞在百度學(xué)術(shù)搜索引擎中近三年的詞頻分布、與關(guān)鍵詞相關(guān)的學(xué)者進(jìn)行分析研究,圖4為獲取的百度學(xué)術(shù)中近三年詞頻和相關(guān)作者展示。長方框內(nèi)為關(guān)鍵詞2018年、2017年和2016年的詞頻,橢圓框內(nèi)為與此關(guān)鍵詞相關(guān)的學(xué)者作家。

        圖4 百度學(xué)術(shù)搜索引擎近三年詞頻與相關(guān)學(xué)者

        2.4 Zipf定律

        Zipf定律最早由美國語音學(xué)家George Kingsley Zipf提出,是最早被提出的文獻(xiàn)計(jì)量學(xué)定律之一。Zipf定律的描述[20]如下: 設(shè)一個(gè)文本為T(詞量充分多),其含有W個(gè)不同的詞。若將這W個(gè)不同的詞在文本T中出現(xiàn)的頻次f統(tǒng)計(jì)出來,并且把詞的頻次按照從高到低的順序排列起來,然后用自然數(shù)順序從1(對(duì)應(yīng)最高頻次)到s(對(duì)應(yīng)最低頻次)將每個(gè)頻次編上序號(hào)r(r=1,2,…,s),則rf=c(c為一常數(shù))。還有另外一種指數(shù)形式p(r)=Cr-β,其中p(r)為排序在第r位置的詞出現(xiàn)的頻率,β為Zipf指數(shù),C為常數(shù)。

        Zipf定律的提出在文獻(xiàn)計(jì)量學(xué)、語言學(xué)界引起轟動(dòng),通過其他專家學(xué)者陸續(xù)不斷的研究,證實(shí)了各種語言的詞頻分布都基本符合這一定律,使得人們對(duì)詞頻的分布認(rèn)識(shí)更為深刻,這一定律也對(duì)其他許多學(xué)科產(chǎn)生一定的影響[18-20]。構(gòu)建Zipf實(shí)驗(yàn)的算法部分MATLAB偽代碼如下:

        data=xlsread(′Bing學(xué)術(shù)-財(cái)經(jīng).xlsx′);

        x=data(:,2);

        y=data(:,1);

        loglog(x,y,′.′);

        xlabel;

        ylabel;

        2.5 超網(wǎng)絡(luò)模型

        目前為止,對(duì)于超網(wǎng)絡(luò)的概念并沒有明確的定義,在學(xué)術(shù)界現(xiàn)在公認(rèn)的超網(wǎng)絡(luò)的定義主要有兩種:基于超圖的超網(wǎng)絡(luò)和基于網(wǎng)絡(luò)的超網(wǎng)絡(luò)。基于網(wǎng)絡(luò)的超網(wǎng)絡(luò)是指那些鏈接方式比較復(fù)雜,規(guī)模比較巨大的網(wǎng)絡(luò),還有一些超網(wǎng)絡(luò)是一個(gè)網(wǎng)絡(luò)中嵌套著另一個(gè)網(wǎng)絡(luò)的大型網(wǎng)絡(luò),這些都是基于網(wǎng)絡(luò)的超網(wǎng)絡(luò)(Supernetwork)[21-22]。

        本文中構(gòu)建的超網(wǎng)絡(luò)模型是基于超圖的超網(wǎng)絡(luò),其中關(guān)鍵詞作為超網(wǎng)絡(luò)的超邊,相關(guān)知名學(xué)者作為超網(wǎng)絡(luò)的節(jié)點(diǎn)?;跇?gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型,可以構(gòu)建出超網(wǎng)絡(luò)在雙對(duì)數(shù)坐標(biāo)下的超度分布,具體算法如下:

        (1) 初始化:超網(wǎng)絡(luò)中的節(jié)點(diǎn)vi,i=1,2,3,…,n。

        (2) 遞歸:檢查超網(wǎng)絡(luò)中的所有節(jié)點(diǎn),若節(jié)點(diǎn)vi和vj屬于同一關(guān)鍵詞,那么就將節(jié)點(diǎn)vi和vj放入表示該關(guān)鍵詞的超邊E中。

        (3) 算法結(jié)束:超網(wǎng)絡(luò)中的所有節(jié)點(diǎn)全部檢查完畢。

        構(gòu)建關(guān)聯(lián)矩陣部分Java代碼和構(gòu)建超網(wǎng)絡(luò)模型的超度分布的部分MATLAB代碼如下:

        構(gòu)建關(guān)聯(lián)矩陣

        Scanner sc=new Scanner(System.in);

        int VexNum=sc.nextInt();

        int HyperEgeNum=sc.nextInt();

        int CMatirx=new int[HyperEgeNum+1][VexNum+1];

        int indexVex=new int[HyperEgeNum+1][VexNum+1];

        int c=0;

        try {

        Scanner in=new Scanner(new File(".txt"));

        while (in.hasNextLine()) {

        int k=1;

        c++;

        for (int j=0;j

        k++;

        }

        }

        in.close();

        }

        超網(wǎng)絡(luò)的超度分布

        B=關(guān)聯(lián)矩陣; A=B′;

        df=sum(A>0);

        pp2=tabulate(df);

        sw=find(pp2(:,3)>0);

        x_value=pp2(sw,1);

        y_value=pp2(sw,3)/100;

        p3=polyfit(log(x_value),log(y_value),1);

        kx=p3(1);

        b=p3(2);

        x2=minvalue:maxvalue;

        y2=exp(polyval(p3,log(x2)));

        loglog(pp2(sw,1),pp2(sw,3);

        xlabel;ylabel;

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)集說明

        由于目前還沒有比較完整、權(quán)威的中文文獻(xiàn)關(guān)鍵詞數(shù)據(jù)庫,本文的所有實(shí)驗(yàn)數(shù)據(jù)集均由互聯(lián)網(wǎng)搜集所得,此數(shù)據(jù)集是通過我們?cè)O(shè)計(jì)的一個(gè)Python爬蟲程序爬取得到。

        首先,本文在《中國科學(xué)》期刊分三個(gè)領(lǐng)域(人工智能、生物、財(cái)經(jīng))共爬取約6 000篇文章(每個(gè)領(lǐng)域約2 000篇)并將關(guān)鍵詞提取出來,得到約18 000個(gè)關(guān)鍵詞。又由于在這約18 000個(gè)關(guān)鍵詞中存在單個(gè)字、純英文、重復(fù)以及一些地名人名,對(duì)其進(jìn)行去重和篩選,最終得到能用于本文研究的關(guān)鍵詞共有約7 500詞(每個(gè)領(lǐng)域約2 500詞)。其次,我們將這7 500個(gè)關(guān)鍵詞分別輸入到百度學(xué)術(shù)、Bing學(xué)術(shù)和知網(wǎng)這三個(gè)學(xué)術(shù)搜索引擎中進(jìn)行搜索并將其得到的搜索結(jié)果數(shù)進(jìn)行統(tǒng)計(jì),然后對(duì)所得結(jié)果數(shù)按照降序排列,即得到我們最終需要的研究數(shù)據(jù)。另外,在百度學(xué)術(shù)搜索引擎中,本文不僅爬取了總的結(jié)果數(shù),還爬取了近三年(2018、2017和2016年)的搜索結(jié)果數(shù)和與此關(guān)鍵詞有關(guān)的相關(guān)知名學(xué)者。

        3.2 實(shí)驗(yàn)結(jié)果及其分析

        本文主要通過三方面對(duì)關(guān)鍵詞的分布特性進(jìn)行研究。一方面是驗(yàn)證不同學(xué)科的關(guān)鍵詞詞頻與其排名分布是否符合Zipf定律,另一方面是分析不同學(xué)科內(nèi)的關(guān)鍵詞近幾年內(nèi)的分布是否符合Zipf定律。本文將詞頻與其排名放在雙堆數(shù)坐標(biāo)系中進(jìn)行擬合,觀察其分布是否符合冪律分布,若符合冪律分布,則關(guān)鍵詞分布符合Zipf定律。最后,本文還對(duì)構(gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型進(jìn)行分析,超網(wǎng)絡(luò)模型的分析主要是分析其超度的分布,本文在雙對(duì)數(shù)坐標(biāo)系下將關(guān)鍵詞-超網(wǎng)絡(luò)模型超度分布擬合出來,從而對(duì)此超網(wǎng)絡(luò)模型進(jìn)行進(jìn)一步研究。

        3.2.1Zipf定律驗(yàn)證

        圖5是人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域的關(guān)鍵詞在知網(wǎng)、百度學(xué)術(shù)和Bing學(xué)術(shù)三個(gè)學(xué)術(shù)搜索引擎中搜索結(jié)果數(shù)目和其對(duì)應(yīng)排名在雙對(duì)數(shù)坐標(biāo)下的關(guān)鍵詞詞頻排名分布圖。

        (a) 知網(wǎng)-人工智能

        (b) 知網(wǎng)-生物

        (c) 知網(wǎng)-財(cái)經(jīng)

        (d) 百度學(xué)術(shù)-人工智能

        (e) 百度學(xué)術(shù)-生物

        (f) 百度學(xué)術(shù)-財(cái)經(jīng)

        (g) Bing學(xué)術(shù)-人工智能

        (h) Bing學(xué)術(shù)-生物

        (i) Bing學(xué)術(shù)-財(cái)經(jīng)圖5 搜索結(jié)果數(shù)與排名分布圖

        可以看出,除了尾部以外,所有的點(diǎn)都幾乎分布在同一條直線上。我們對(duì)上面三組數(shù)據(jù)進(jìn)行擬合,得到如表1所示的回歸方程。從表1中的回歸方程中可以發(fā)現(xiàn),關(guān)鍵詞的搜索結(jié)果數(shù)和與其相對(duì)應(yīng)的排名之間是近似冪律分布。中文文獻(xiàn)關(guān)鍵詞的分布在各自的領(lǐng)域內(nèi)基本符合Zipf定律。

        表1 搜索結(jié)果數(shù)與排名分布回歸方程

        圖6是人工智能、生物和財(cái)經(jīng)三個(gè)學(xué)科領(lǐng)域的關(guān)鍵詞在百度學(xué)術(shù)這個(gè)學(xué)術(shù)搜索引擎中近三年(2018年、2017年和2016年)的搜索結(jié)果數(shù)目與其對(duì)應(yīng)排名在雙對(duì)數(shù)坐標(biāo)下的關(guān)鍵詞詞頻排名分布圖。

        (j) 人工智能-2018年

        (k) 人工智能-2017年

        (l) 人工智能-2016年

        (m) 生物-2018年

        (n) 生物-2017年

        (o) 生物-2016年

        (p) 財(cái)經(jīng)-2018年

        (q) 財(cái)經(jīng)-2017年

        (r) 財(cái)經(jīng)-2016年圖6 近三年搜索結(jié)果數(shù)與排名分布圖

        可以看出,除去尾部以外的部分,所有的點(diǎn)依然都幾乎分布在同一條直線上。對(duì)上面三組數(shù)據(jù)進(jìn)行擬合,得到如表2所示的回歸方程。從表2中的回歸方程中可以發(fā)現(xiàn),關(guān)鍵詞近三年的搜索結(jié)果數(shù)和與其相對(duì)應(yīng)的排名之間依然是近似冪律分布的。中文文獻(xiàn)中的關(guān)鍵詞在各自的領(lǐng)域內(nèi),每年都基本符合Zipf定律。

        表2 近三年搜索結(jié)果數(shù)與排名分布回歸方程

        基于以上實(shí)驗(yàn)結(jié)果,本文得出了如下結(jié)論:

        (1) 在每個(gè)搜索引擎中三個(gè)學(xué)科領(lǐng)域內(nèi)的Zipf指數(shù)是相差不多的(比如在知網(wǎng)中人工智能、生物、財(cái)經(jīng)的Zipf指數(shù)分別是-2.2、-2.299、-2.287);

        (2) 人工智能和財(cái)經(jīng)領(lǐng)域在Bing學(xué)術(shù)搜索引擎中的R指數(shù)都是0.8左右,比在知網(wǎng)和百度學(xué)術(shù)搜索引擎中的R指數(shù)0.9小很多;

        (3) 在近三年的詞頻分布中,三個(gè)學(xué)科領(lǐng)域都有較好的擬合結(jié)果,R指數(shù)基本都在0.95左右。

        在上述分布曲線圖中,可以明顯看出分布圖的尾部呈現(xiàn)急速的下垂現(xiàn)象,導(dǎo)致這種現(xiàn)象的主要原因是在關(guān)鍵詞詞頻比較低的區(qū)域的關(guān)鍵詞數(shù)量急劇增加。為了分析這種現(xiàn)象,本文對(duì)三個(gè)學(xué)科領(lǐng)域低頻詞的研究。表3為三個(gè)學(xué)科領(lǐng)域一些低頻詞代表,研究發(fā)現(xiàn)低頻詞急劇增加的原因主要有兩方面:一方面是這些低頻詞在自己學(xué)科領(lǐng)域內(nèi)比較專業(yè),都是一些專業(yè)名詞,比如生物領(lǐng)域內(nèi)的固氨率、共基質(zhì)代謝等詞都是專業(yè)名詞;另一方面,還有一些低頻詞在自己的領(lǐng)域內(nèi)不是研究熱點(diǎn),沒有得到大家的關(guān)注,比如克隆網(wǎng)絡(luò)和財(cái)經(jīng)倫理等詞,都是比較陌生的關(guān)鍵詞。由于這些低頻詞的急劇增加導(dǎo)致尾部出現(xiàn)急速下垂現(xiàn)象,但是對(duì)大多數(shù)的文本來說,Zipf定律對(duì)詞頻的高中區(qū)域基本比較吻合。

        表3 低頻詞詞頻統(tǒng)計(jì)

        續(xù)表3

        此外,由于每個(gè)學(xué)術(shù)搜索引擎都是每時(shí)每刻在更新變化,故在本文中對(duì)上述數(shù)據(jù)的分析可能略有一些波動(dòng),但是如果某個(gè)關(guān)鍵詞沒有在短時(shí)間內(nèi)被極度關(guān)注或者成為一個(gè)研究爆點(diǎn),上述實(shí)驗(yàn)結(jié)果具有一定的代表性。

        本文又根據(jù)關(guān)鍵詞的詞頻描繪出三個(gè)知識(shí)領(lǐng)域的詞云圖。圖7為三個(gè)領(lǐng)域的關(guān)鍵詞的云詞展示。

        (a) 人工智能

        (b) 財(cái)經(jīng)

        (c) 生物圖7 關(guān)鍵詞詞云可視化

        由圖7可以清楚地了解到在每個(gè)學(xué)科領(lǐng)域中目前較為關(guān)注的熱點(diǎn)話題,比如在人工智能詞云圖中可以發(fā)現(xiàn)目前研究熱點(diǎn)為機(jī)器人、專家系統(tǒng)、控制等。

        3.2.2超網(wǎng)絡(luò)模型的構(gòu)建與分析

        為了更詳細(xì)地了解中文文獻(xiàn)中關(guān)鍵詞的分布,我們分研究領(lǐng)域構(gòu)建了三個(gè)關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型,并對(duì)這些超網(wǎng)絡(luò)模型做了如下分析。圖8為中文文獻(xiàn)中關(guān)鍵詞在人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域內(nèi)構(gòu)建的關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型的超度分布圖。其中,我們把關(guān)鍵詞當(dāng)作超邊,把相關(guān)知名學(xué)者當(dāng)作節(jié)點(diǎn)。

        (a) 人工智能

        (b) 生物

        (c) 財(cái)經(jīng)圖8 超網(wǎng)絡(luò)模型超度分布

        可以看出,節(jié)點(diǎn)的超度分布大致呈冪律分布,說明每個(gè)關(guān)鍵詞對(duì)應(yīng)的相關(guān)知名學(xué)者在每個(gè)領(lǐng)域內(nèi)都呈冪律分布,顯示了無標(biāo)度特性。根據(jù)數(shù)據(jù)擬合出來的回歸方程如表4所示。

        表4 超網(wǎng)絡(luò)模型超度分布回歸方程

        可以看出,關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型在人工智能、生物和財(cái)經(jīng)三個(gè)領(lǐng)域中的冪指數(shù)分別為2.857 7、2.220 6、3.058 4。

        在超網(wǎng)絡(luò)動(dòng)態(tài)模型動(dòng)態(tài)演化時(shí),累積性和優(yōu)先連接性是無標(biāo)度超度分布呈現(xiàn)冪律分布的最主要的兩個(gè)原因。累計(jì)性就是節(jié)點(diǎn)的增加,對(duì)應(yīng)本文中所構(gòu)造的超網(wǎng)絡(luò)模型就是指研究某個(gè)關(guān)鍵詞的相關(guān)學(xué)者的增加;優(yōu)先連接性是指度比較大的節(jié)點(diǎn)優(yōu)先連接的概率較大,在本文中指相關(guān)學(xué)者在選取研究話題時(shí)通常會(huì)優(yōu)先選取比較熱門的話題來研究。

        4 結(jié) 語

        本文從Zipf定律和超網(wǎng)絡(luò)等幾個(gè)方面對(duì)中文文獻(xiàn)中的關(guān)鍵詞進(jìn)行分析研究。通過對(duì)三個(gè)領(lǐng)域內(nèi)的關(guān)鍵詞在三個(gè)代表性的學(xué)術(shù)搜索引擎中的搜索結(jié)果數(shù)據(jù)的研究得到驗(yàn)證,在每個(gè)研究領(lǐng)域內(nèi),關(guān)鍵詞搜索結(jié)果數(shù)和其排名符合Zipf定律。探討了關(guān)鍵詞近三年的搜索結(jié)果數(shù)與其排名是否符合Zipf定律,實(shí)驗(yàn)表明,在每個(gè)領(lǐng)域內(nèi)關(guān)鍵詞近三年的搜索結(jié)果數(shù)和其排名也是符合Zipf定律的。構(gòu)造了一個(gè)關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型,通過對(duì)其超度分布的分析,在每個(gè)領(lǐng)域內(nèi)關(guān)鍵詞對(duì)應(yīng)的相關(guān)知名學(xué)者遵循冪律分布,表現(xiàn)出比較明顯的無標(biāo)度特征。

        猜你喜歡
        詞頻定律學(xué)者
        學(xué)者介紹
        學(xué)者簡介
        學(xué)者介紹
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        多一盎司定律和多一圈定律
        倒霉定律
        萬有引力定律
        學(xué)者介紹
        詞頻,一部隱秘的歷史
        云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
        人妻 日韩精品 中文字幕| 国产自产二区三区精品| 日韩亚洲欧美久久久www综合| 精品亚洲成a人7777在线观看| 亚洲AV肉丝网站一区二区无码| 久久综合这里只有精品| 精品人妻码一区二区三区剧情| 男人j进女人j啪啪无遮挡| AV无码中文字幕不卡一二三区| 天堂av一区二区在线| 亚洲综合色区一区二区三区| 免费观看又色又爽又黄的| 久久精品一品道久久精品9| 国产一区二区三区av观看| 久久精品国产99国产精品澳门 | 国产成年人毛片在线99| 欧美人与动牲交a精品| 久久久久久人妻精品一区百度网盘| 性一交一乱一乱一视频亚洲熟妇| 国产精品一区二区三区在线免费 | 色综合久久加勒比高清88| 少妇一区二区三区精选| 精品亚洲成a人在线观看| 久久婷婷香蕉热狠狠综合| 欧美h久免费女| 五月婷婷六月丁香久久综合| 人人妻人人爽人人澡欧美一区| 国产亚洲欧美日韩综合一区在线观看 | 人人妻人人爽人人澡欧美一区| 不卡高清av手机在线观看| 精品国产麻豆免费人成网站| 奇米影视色777四色在线首页| 亚洲精品无码不卡av| 无码熟妇人妻av在线c0930| 亚洲女人的天堂网av| 中文字幕无线码| 中文人妻无码一区二区三区信息| 免费av一区男人的天堂| 亚洲中文字幕无码天然素人在线| 色婷婷七月| 国产自拍在线视频观看|