亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        共詞分析國內(nèi)外生物信息學領(lǐng)域研究態(tài)勢

        2020-11-03 10:03:02劉亞文張紅燕陽靈燕
        生物信息學 2020年3期
        關(guān)鍵詞:數(shù)據(jù)庫生物分析

        劉亞文,張紅燕,陽靈燕

        (湖南農(nóng)業(yè)大學 信息與智能科學技術(shù)學院,長沙 410128)

        生物信息學(Bioinformatics)是一門由生命科學、計算機科學、數(shù)學、物理學和化學等學科交叉而形成的前沿學科,其研究內(nèi)容涵蓋了大規(guī)模的基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等多個組學層次的各自及整合性研究,應用領(lǐng)域也覆蓋了生物、醫(yī)學、藥學、農(nóng)學、環(huán)境監(jiān)測等多個領(lǐng)域[1]。生物信息學發(fā)展史可分為3個主要階段[2]:(1)前基因組時代(50~80年代)是基本生物信息學理論、方法、模型和軟件體系形成階段;(2)基因組時代(80年代末~2003年),人類基因組計劃的實施進一步推動生物信息學的發(fā)展;(3)后基因組時代(2003年-至今)的核心內(nèi)容之一是充分利用大量生物數(shù)據(jù)挖掘其生物信息和規(guī)律。作為一門新興學科,生物信息學領(lǐng)域的研究文獻逐年增加,這些文獻客觀記錄了該領(lǐng)域的發(fā)展概貌,開展相關(guān)文獻分析以了解生物信息學領(lǐng)域的研究現(xiàn)狀和研究熱點,對把握其未來的發(fā)展趨勢意義重大。目前,已有不少學者開展了文獻分析在生物信息學領(lǐng)域中的應用研究,如宋茂海等基于CNKI、中華醫(yī)學會數(shù)據(jù)庫采用共詞分析和可視化方法探討了生物信息學領(lǐng)域的學科分類和熱點內(nèi)容[3];王俊等基于大數(shù)據(jù)背景,從迅速發(fā)展、主要研究模塊、基礎(chǔ)背景等方面分析了生物信息學的研究現(xiàn)狀[4];王蕊等基于Web of science數(shù)據(jù)庫分析了生物信息學數(shù)據(jù)庫研究的發(fā)展趨勢[5]。但利用文獻計量分析和關(guān)鍵詞共詞分析,同時基于CNKI中文數(shù)據(jù)庫和Web of science外文數(shù)據(jù)庫來對比分析國內(nèi)外生物信息學領(lǐng)域研究的相關(guān)報道卻極其鮮見。

        當兩個或兩個以上的關(guān)鍵詞同時出現(xiàn)在同一篇文獻中時,則稱之存在共現(xiàn)關(guān)系[6]。這種共現(xiàn)關(guān)系的緊密程度體現(xiàn)在關(guān)鍵詞共現(xiàn)的頻次上。關(guān)鍵詞共詞分析通過捕捉關(guān)鍵詞關(guān)系,分析它們所代表的學科和主題的結(jié)構(gòu)變化,來跟蹤該研究領(lǐng)域的研究熱點,揭示其研究主題的演變過程[7]。本文以國內(nèi)外生物信息學領(lǐng)域相關(guān)論文為研究對象,利用R語言編程工具,對文獻進行計量分析、關(guān)鍵詞共詞聚類分析,并以圖文展示了國內(nèi)和國際生物信息領(lǐng)域的研究熱點與發(fā)展趨勢,以期為我國生物信息學領(lǐng)域科研人員的后續(xù)研究提供參考。

        1 數(shù)據(jù)與方法

        1.1 數(shù)據(jù)來源

        采用的國內(nèi)文獻來源于CNKI數(shù)據(jù)庫,以“生物信息學”為主題詞進行檢索,選擇全部期刊文獻,共檢索到1996~2018年共23年相關(guān)期刊論文6 893篇;國際文獻來源于Web of science數(shù)據(jù)庫,以“bioinformatics”為主題詞進行檢索,選擇核心合集論文,共檢索到2007~2018年共12年相關(guān)SCI收錄論文32 406篇。數(shù)據(jù)均于2019年1月采集。

        1.2 研究方法

        1.2.1 數(shù)據(jù)預處理

        數(shù)據(jù)預處理主要通過利用R語言編程環(huán)境(RStudio Version 3.5.1)編寫R程序?qū)υ紨?shù)據(jù)進行數(shù)據(jù)清洗,數(shù)據(jù)清洗包括刪除作者為空的文獻記錄、刪除關(guān)鍵字為空的文獻記錄等操作,清洗處理后最終得到中文文獻6 717條記錄,外文文獻30 160條記錄。

        1.2.2 高頻關(guān)鍵詞提取

        預處理后的數(shù)據(jù)包含多個字段,CNKI文獻數(shù)據(jù)中包含的字段有Title(標題)、Author(作者)、Keyword(關(guān)鍵詞)、Summary(摘要)、Year(年份)等,Web of science文獻數(shù)據(jù)中包含的字段有AU(作者)、TI(標題)、PY(出版年)、AB(摘要)、DE(作者添加的關(guān)鍵詞)、ID(Web of science根據(jù)文章內(nèi)容增加的關(guān)鍵詞)等。無論是中文文獻還是外文文獻,本文用于處理分析的主要是年份字段和關(guān)鍵詞字段。其中,國際文獻的關(guān)鍵詞字段有作者關(guān)鍵詞“DE”和WOS增加的關(guān)鍵詞“ID”,考慮到“ID”更具客觀性,故選用“ID”關(guān)鍵詞字段為后續(xù)分析所用。

        年份字段主要應用于文獻的計量分析和熱點變遷的分段研究,關(guān)鍵詞字段則主要用于研究熱點和研究主題的提取。通常一個關(guān)鍵詞字段會包含多個以“,”或“;”分隔開的關(guān)鍵詞,我們先采用R語言擴展包tidytext中的unnest_tokens函數(shù)來提取關(guān)鍵詞;接著將其中的同義關(guān)鍵詞合并,如:關(guān)鍵詞“mirna”和“microrna”合并為“mirna”;最后,統(tǒng)計關(guān)鍵詞詞頻,并按頻次由高到低排序,得到關(guān)鍵詞詞頻表,并從中選取頻次較高的前n個關(guān)鍵詞作為高頻關(guān)鍵詞。

        1.2.3 共詞分析

        將高頻關(guān)鍵詞兩兩配對,構(gòu)造高頻關(guān)鍵詞共現(xiàn)矩陣,矩陣中的元素為兩兩關(guān)鍵詞的共現(xiàn)次數(shù)。進一步,以共現(xiàn)矩陣為基礎(chǔ),構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。具體而言,共現(xiàn)網(wǎng)絡(luò)以n個高頻關(guān)鍵詞為網(wǎng)絡(luò)節(jié)點,當兩個關(guān)鍵詞之間的共現(xiàn)次數(shù)大于等于k次時,兩個關(guān)鍵詞節(jié)點間存在連線。

        在共詞分析中,n和k的設(shè)置并無統(tǒng)一標準。高頻關(guān)鍵詞選取過多或是共現(xiàn)次數(shù)設(shè)置過小將導致所得研究熱點過于寬泛,而高頻關(guān)鍵詞選取過少或是共現(xiàn)次數(shù)設(shè)置過大將導致所得研究熱點缺乏代表性。綜合考慮文獻數(shù)量和關(guān)鍵詞詞頻情況,最終設(shè)置n=40、k=3,即選取前40個高頻關(guān)鍵詞用于構(gòu)建共現(xiàn)矩陣,共現(xiàn)次數(shù)大于等于3次設(shè)置網(wǎng)絡(luò)連線。

        1.2.4 聚類分析

        基于關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)利用R中的cluster_louvain函數(shù)創(chuàng)建可視化聚類圖,并對其展開聚類分析。cluster_louvain函數(shù)采用的是Louvain聚類算法,即通過計算相鄰節(jié)點間的模塊度增量,實現(xiàn)節(jié)點間的動態(tài)聚合[8]。Louvain算法快速、準確,被公認為性能最好的社區(qū)發(fā)現(xiàn)算法之一。節(jié)點中心度是社會網(wǎng)絡(luò)分析的量化指標之一,中心度高的節(jié)點通常是較為關(guān)鍵的研究熱點[9]。特征向量中心度更是把相鄰節(jié)點的中心度也考慮在內(nèi)[10]。通過分析聚類網(wǎng)絡(luò)圖和特征向量中心度,找出每類的核心關(guān)鍵詞及主要特征,進而挖掘出生物信息學領(lǐng)域的研究熱點及發(fā)展趨勢。

        2國內(nèi)生物信息學領(lǐng)域研究態(tài)勢分析

        2.1 國內(nèi)文獻量年變化趨勢分析

        對1996~2018年CNKI數(shù)據(jù)庫中生物信息學相關(guān)的期刊論文量進行統(tǒng)計,利用R軟件中的plot函數(shù)繪制文獻量年變化趨勢圖,如圖1所示。從圖中可以看出相近年份間文獻量略微有些波動,但總體上文獻量呈增長趨勢。這也從一定程度上反映了我國生物信息學的發(fā)展處于持續(xù)上升的成長期。

        圖1 1996~2018國內(nèi)生物信息學文獻量變化趨勢圖Fig.1 Trend of domestic bioinformatics literature quantity between 1996 and 2018

        2.2 國內(nèi)研究熱點分析

        關(guān)鍵詞是某一研究主題的提煉和對文章核心思想的高度概括[11]。通過對關(guān)鍵詞頻次和中心度的統(tǒng)計分析,得到40個高頻關(guān)鍵詞的相關(guān)結(jié)果(見表1)。其中,頻次排名靠前的關(guān)鍵詞有“克隆”、“基因克隆”、“序列分析”、“基因”、“數(shù)據(jù)庫”、“電子克隆”等,各關(guān)鍵詞前后的頻次差距不大,體現(xiàn)了生物信息學領(lǐng)域研究熱點的多方向發(fā)展。

        進一步共詞分析和聚類分析,得到國內(nèi)生物信息學文獻關(guān)鍵詞聚類圖(見圖2),圖中關(guān)鍵詞節(jié)點的顏色不同表示所屬類別不同,40個關(guān)鍵詞被聚成了4類。整體分析時所得表1中中心度較高的關(guān)鍵詞有克隆、基因表達、基因克隆、序列分析等也基本上是各類別中的核心關(guān)鍵詞。

        依據(jù)聚類結(jié)果及中心度情況,結(jié)合具體文獻和專業(yè)知識,可將國內(nèi)生物信息學領(lǐng)域研究熱點歸納如下:

        (1)基因克隆及生物信息學分析研究 這一類的高頻詞有克隆、序列分析、基因克隆、表達分析、race、原核表達、rt-pcr等。傳統(tǒng)的基因克隆方法利用限制性內(nèi)切酶和連接酶在體外連接的方法構(gòu)建重組載體,步驟繁瑣且受限于酶切位點,隨著測序技術(shù)的發(fā)展,一些簡化組裝流程的DNA克隆及組裝新技術(shù)競相發(fā)展[12]。生物信息學分析包括了序列分析、基因分析和蛋白分析等多種方法。利用基因克隆技術(shù)結(jié)合生物信息學分析研究以達到對基因功能、結(jié)構(gòu)預測的目的是國內(nèi)生物信息學領(lǐng)域的研究熱點之一。

        (2)生物信息學數(shù)據(jù)庫與基因挖掘研究分析 這一類中包含的高頻關(guān)鍵詞有數(shù)據(jù)庫、基因表達、人類基因組計劃、數(shù)據(jù)挖掘、計算生物學、序列比對等。生物信息學的數(shù)據(jù)主要貯藏在數(shù)據(jù)庫中,而數(shù)據(jù)挖掘則從生物信息學數(shù)據(jù)庫中調(diào)用、提取數(shù)據(jù)[13]。生物信息學數(shù)據(jù)庫的主要特點有:數(shù)據(jù)庫種類的多樣性、數(shù)據(jù)庫數(shù)據(jù)量增長驚人、逐漸形成綜合性生物信息學數(shù)據(jù)庫平臺、數(shù)據(jù)庫高度網(wǎng)絡(luò)化等[14]。如何利用生物信息學數(shù)據(jù)庫并采用合適的數(shù)據(jù)挖掘算法進行有效的基因挖掘研究分析是國內(nèi)生物信息學領(lǐng)域的研究熱點之一。

        (3)miRNA研究分析 這一類中包含的高頻關(guān)鍵詞有生物信息學、mirna、啟動子、靶基因、轉(zhuǎn)錄因子、基因芯片等。miRNA也就是MicroRNA,是基因表達的負調(diào)控因子,主要通過RNA干擾(RNAi)途徑進行調(diào)控[15]。隨著生物信息學技術(shù)的發(fā)展,新miRNA的發(fā)現(xiàn)及其相關(guān)調(diào)控機制的研究分析已成為國內(nèi)生物信息學領(lǐng)域的研究熱點之一。

        (4)電子克隆分析 這一類的高頻詞有基因家族、水稻、擬南芥、玉米、電子克隆、表達序列標簽。電子克隆技術(shù)是近年來發(fā)展起來的基因克隆新方法,其應用是基于數(shù)據(jù)庫、計算機網(wǎng)絡(luò)和應用軟件這三部分生物信息學資源而展開的[16]。電子克隆技術(shù)是發(fā)現(xiàn)新基因和確定基因功能的重要手段,也是國內(nèi)生物信息學領(lǐng)域的研究熱點之一。

        表1 1996~2018生物信息學中文文獻高頻關(guān)鍵詞表Table 1 High frequency keywords in Chinese literature of bioinformatics between 1996 and 2018

        圖2 1996~2018國內(nèi)生物信息學文獻關(guān)鍵詞聚類圖Fig.2 Keywords cluster of domestic bioinformatics literature between 1996 and 2018

        2.3 國內(nèi)研究趨勢分析

        前文對國內(nèi)生物信息學領(lǐng)域研究熱點做了整體分析,此處對國內(nèi)研究熱點隨時間變遷作進一步分析。以40個高頻關(guān)鍵詞為行,年份為列,分年度統(tǒng)計每個關(guān)鍵詞出現(xiàn)的頻次,構(gòu)建國內(nèi)文獻年份-關(guān)鍵詞統(tǒng)計表(見表2)。

        為了便于國內(nèi)外的對比分析,將1996~2006年的國內(nèi)文獻高頻關(guān)鍵詞作為整體分析,結(jié)果表明國內(nèi)早期生物信息學的研究熱點主要集中在基因數(shù)據(jù)庫研究,其代表高頻關(guān)鍵詞有“數(shù)據(jù)庫”、“人類基因組計劃”等;對2007~2018年的文獻,通過分析各高頻關(guān)鍵詞的頻數(shù)相對密集年份等特征可知:2007~2010年更側(cè)重于蛋白質(zhì)數(shù)據(jù)庫研究以及本體和結(jié)構(gòu)域研究,代表關(guān)鍵詞有“蛋白質(zhì)組學”、“數(shù)據(jù)挖掘”、“結(jié)構(gòu)”等;2011~2013年主要是電子克隆研究,代表關(guān)鍵詞有“電子克隆”、“水稻”、“序列分析”等;2014~2018年該領(lǐng)域研究熱點更加多樣,主要在miRNA分析、基因和蛋白質(zhì)結(jié)構(gòu)和功能預測分析等,代表關(guān)鍵詞有“亞細胞定位”、“基因芯片”、“miRNA”、“功能”、“計算生物學”等。

        表2 國內(nèi)文獻年份-關(guān)鍵詞統(tǒng)計表(部分)Table 2 Year-keyword statistics of domestic literature (partial)

        3 國際生物信息學領(lǐng)域研究態(tài)勢分析

        3.1 國際文獻年變化趨勢分析

        2007~2018年SCI數(shù)據(jù)庫中生物信息學相關(guān)文獻量的年份變化趨勢(見圖3)。從圖中可以看出文獻量逐年增長,速度較快??偟膩碚f,國際文獻的年份統(tǒng)計結(jié)果顯示了生物信息學領(lǐng)域的研究正處于發(fā)展中。

        圖3 2007~2018國際生物信息學文獻量變化趨勢圖Fig.3 Trend of international bioinformatics literature quantity between 2007 and 2018

        3.2 國際研究熱點分析

        通過對國際文獻關(guān)鍵詞頻次的統(tǒng)計分析,得到40個高頻關(guān)鍵詞(見表3)。從表3中不難發(fā)現(xiàn),關(guān)鍵詞expression、identification、protein、gene、gene-expression的頻次較高。而主題檢索詞“bioinformatics”并不是頻次最高的關(guān)鍵詞,這一現(xiàn)象也從側(cè)面說明了選取WOS的關(guān)鍵詞字段“ID”進行共詞分析是合理的。

        表3 2007-2018生物信息學國際文獻高頻關(guān)鍵詞表Table 3 High frequency keywords in international literature of bioinformatics between 2007 and 2018

        同上,通過共詞分析和聚類分析,得到的國際生物信息學文獻關(guān)鍵詞聚類圖,40個關(guān)鍵詞被聚成了2類(見圖4)。

        同上,依據(jù)聚類結(jié)果及中心度情況,并結(jié)合具體文獻和專業(yè)知識,可將國際生物信息學領(lǐng)域研究熱點歸納如下:

        (1)miRNA及與之相關(guān)的分子間相互作用研究 這一類包含的高頻關(guān)鍵詞有cells(細胞)、proliferation(增殖)、apoptosis(細胞凋亡)、micrornas、pathway(神經(jīng)通路)等。miRNA及其產(chǎn)物mRNAs形成復雜的調(diào)控網(wǎng)絡(luò),參與細胞的生長、分化、增殖、死亡等一系列重要的生命過程,基因表達譜微陣列的生物信息學分析已被廣泛用于識別各種疾病中的重要分子機制和生物標志物[17]。利用生物信息學分析方法挖掘miRNA功能并得到與之相關(guān)的分子間相互作用成為了國際生物信息學領(lǐng)域的研究熱點之一。

        (2)基因、蛋白質(zhì)等功能預測與應用研究 這一類包含的高頻關(guān)鍵詞有identification(識別)、expression(表達)、protein(蛋白質(zhì))、database(數(shù)據(jù)庫)、prediction(預測)、sequence(序列)。眾所周知,生物實驗的實施大都費用昂貴且費時,而生物信息學的產(chǎn)生就是為了攻破這些傳統(tǒng)的生物學難題。例如,蛋白質(zhì)組學領(lǐng)域的一個重要研究方向就是利用有效的算法對DNA結(jié)合蛋白進行鑒定與預測[18]。因此,利用數(shù)據(jù)庫和有效的計算預測方法在基因、蛋白質(zhì)等功能預測與應用方面的研究是國際生物信息學領(lǐng)域的研究熱點之一。

        3.3 國際研究趨勢分析

        分年度統(tǒng)計40個國際文獻高頻關(guān)鍵詞出現(xiàn)的頻次,構(gòu)建國際文獻年份-關(guān)鍵詞統(tǒng)計表(見表4)。 并參照國內(nèi)文獻劃分時間段來進行研究趨勢分析,即分為2007~2010年、2011~2013年、2014~2018年三個時間段。結(jié)果表明,2007~2010年該領(lǐng)域在國際的研究熱點側(cè)重于數(shù)據(jù)庫分析以及實驗工具、算法的改進;2011~2013年的研究熱點集中在蛋白質(zhì)分析及應用;2014~2018年的研究熱點較為偏向于miRNA分析及應用。

        圖4 2007~2018國際生物信息學文獻關(guān)鍵詞聚類圖Fig.4 Keywords cluster of international bioinformatics literature between 2007 and 2018

        表4 國際文獻年份-關(guān)鍵詞統(tǒng)計表(部分)Table 4 Year-keyword statistics of international literature (partial)

        4 討論與總結(jié)

        以國內(nèi)外生物信息學領(lǐng)域期刊論文為研究對象,從年文獻量變化趨勢、研究熱點、分階段研究趨勢三個方面進行分析,得出結(jié)論如下:

        1)國內(nèi)外年文獻量變化趨勢分析 國內(nèi)外生物信息學研究均處于高速發(fā)展期,文獻量均呈逐年增長趨勢,不過國內(nèi)文獻的增長速度小于國際文獻的增長速度。

        2)研究熱點分析 國內(nèi)的研究熱點有基因克隆及生物信息學分析研究、生物信息學數(shù)據(jù)庫與基因挖掘研究分析、miRNA研究分析、電子克隆分析等;國際的研究熱點有基因、蛋白質(zhì)等功能預測與應用研究和miRNA及與之相關(guān)的分子間相互作用研究等。國內(nèi)外研究熱點均聚焦在基因挖掘、蛋白質(zhì)結(jié)構(gòu)與功能預測、miRNA分析等,但國內(nèi)的生物信息學領(lǐng)域研究更側(cè)重于理論研究,而國際生物信息學領(lǐng)域研究則更加注重其在疾病(癌癥)治療、藥物設(shè)計等方面的實際應用。

        3)分階段研究趨勢分析 國內(nèi)生物信息學領(lǐng)域研究熱點在不同階段內(nèi)略有波動,呈現(xiàn)了較為明顯的熱點變遷狀況;而國際生物信息學領(lǐng)域研究熱點在不同階段內(nèi)的變化很小,高頻關(guān)鍵詞的頻次幾乎都是逐年增加,而且關(guān)鍵詞之間的聯(lián)系較強,是較為均衡的發(fā)展。整體來看,國內(nèi)外生物信息學的研究范圍均在不斷拓寬。

        猜你喜歡
        數(shù)據(jù)庫生物分析
        生物多樣性
        天天愛科學(2022年9期)2022-09-15 01:12:54
        生物多樣性
        天天愛科學(2022年4期)2022-05-23 12:41:48
        上上生物
        隱蔽失效適航要求符合性驗證分析
        第12話 完美生物
        航空世界(2020年10期)2020-01-19 14:36:20
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        国自产精品手机在线观看视频| 亚洲永久精品日韩成人av| 中文字幕影片免费人妻少妇| 亚洲成aⅴ人片久青草影院| 韩国v欧美v亚洲v日本v| 欧美精品高清在线xxxx| 久久久精品国产三级精品| 中国女人内谢69xxxxxa片| 国模少妇一区二区三区| 美女视频很黄很a免费国产| 国产在线观看一区二区三区av| 亚洲av色香蕉一区二区三区| 真实单亲乱l仑对白视频| 巨乳av夹蜜桃站台蜜桃机成人| 麻豆成人久久精品二区三区免费 | а√中文在线资源库| 亚洲欧美精品aaaaaa片| 杨幂Av一区二区三区| 少妇高潮久久蜜柚av| 国产精品v片在线观看不卡| 日韩AVAV天堂AV在线| 青青草免费在线视频导航| 亚洲中文字幕国产视频| 一区二区三区国产亚洲网站| 窄裙美女教师在线观看视频| 国产韩国一区二区三区| 国产精品国三级国产av| 国产欧美日韩在线观看| 狼人av在线免费观看| 国产精品亚洲av无人区一区香蕉| 亚洲精品字幕| 国产乱人视频在线观看播放器| 我揉搓少妇好久没做高潮| 亚欧中文字幕久久精品无码| av中文字幕综合在线| 91青青草视频在线播放| 少妇被又大又粗又爽毛片久久黑人| 欧美 日韩 国产 成人 在线观看| 久久亚洲精彩无码天堂| 青青草在线免费播放视频| 日韩激情无码免费毛片|