亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生物醫(yī)學(xué)領(lǐng)域全文期刊多類(lèi)型文件量化分析

        2017-03-21 10:50:08,,,
        關(guān)鍵詞:附件全文表格

        ,, ,

        在科研文獻(xiàn)呈指數(shù)增長(zhǎng)的大背景下,文獻(xiàn)中的非文本型(圖片、表格、數(shù)據(jù)等)文件逐漸累積。隨著數(shù)字出版技術(shù)的興起,隨之而來(lái)的是科技期刊、文獻(xiàn)及其包含的非文本文件的全新展現(xiàn)形式和交互方式:在線閱讀、圖片的展示與檢索、表格的動(dòng)態(tài)操作、數(shù)據(jù)的外部鏈接等等[1]。非文本型文件的內(nèi)容大多簡(jiǎn)單易讀,能直接反映文獻(xiàn)所涉及的研究?jī)?nèi)容、研究方法和研究結(jié)果,對(duì)文獻(xiàn)內(nèi)容的描述具有不可替代的作用。尤其是在生物醫(yī)學(xué)領(lǐng)域,圖片等是醫(yī)學(xué)知識(shí)傳播的重要載體。研究人員在閱讀醫(yī)學(xué)類(lèi)文獻(xiàn)時(shí),首先會(huì)關(guān)注到文獻(xiàn)中的圖表信息,對(duì)圖表信息的感興趣度也會(huì)直接影響到研究人員閱讀科技文獻(xiàn)的方式。

        由于全文文獻(xiàn)中的非文本型文件類(lèi)型多樣、描述信息復(fù)雜,對(duì)其管理造成了困難。到目前為止,各大出版社、圖書(shū)館在基于非文本型文件的文獻(xiàn)聚類(lèi)與檢索領(lǐng)域的工作已開(kāi)展相關(guān)研發(fā)工作[2]。本文以生物醫(yī)學(xué)領(lǐng)域全文期刊為研究對(duì)象,量化分析多類(lèi)型文件的類(lèi)型與規(guī)模等信息,并尋求有效的管理和利用方法,進(jìn)而充分利用文獻(xiàn)的各類(lèi)資源。

        1 相關(guān)研究

        數(shù)字出版是期刊文獻(xiàn)中多類(lèi)型文件量化分析的前提,其相關(guān)技術(shù)的不斷發(fā)展豐富了科技期刊的出版形式,使文獻(xiàn)的閱讀不僅限于面上文字。視頻、外部鏈接等附件形式的出現(xiàn),提升了讀者的閱讀興趣。20世紀(jì) 90 年代互聯(lián)網(wǎng)技術(shù)快速崛起,數(shù)字出版技術(shù)也隨之興起[3]。在經(jīng)歷了多年的迅猛發(fā)展之后,全球數(shù)字出版產(chǎn)業(yè)發(fā)展勢(shì)頭趨于平穩(wěn),我國(guó)數(shù)字出版產(chǎn)業(yè)繼續(xù)保持強(qiáng)勁增長(zhǎng)勢(shì)頭。2014年國(guó)內(nèi)數(shù)字出版產(chǎn)業(yè)整體收入規(guī)模為 3 387.7 億元[4],2015年為4 403.85億元,比2014年增長(zhǎng)30%。其中,互聯(lián)網(wǎng)期刊、電子圖書(shū)、數(shù)字報(bào)紙的總收入為74.45億元,比2014年增長(zhǎng)了6.66%[5-6]。

        數(shù)字出版的興起和發(fā)展,使得科技期刊的出版形式、傳播手段、閱讀方式、市場(chǎng)主體等都發(fā)生了巨大變化[7]。國(guó)際上領(lǐng)先的出版商,包括 Thomson、John Wiley、Springer、Elsevier 等都已依托數(shù)據(jù)庫(kù),建立了成熟的專(zhuān)業(yè)化數(shù)字出版模式。與此同時(shí),圖書(shū)館和機(jī)構(gòu)知識(shí)庫(kù)作為科技期刊和科技文獻(xiàn)的重要載體,也在著力研究數(shù)字出版技術(shù)、數(shù)據(jù)庫(kù)存儲(chǔ)和管理技術(shù)等。

        華盛頓大學(xué)的Po-shen Lee等人[8]對(duì)科技文獻(xiàn)中圖片類(lèi)文件的存在現(xiàn)狀進(jìn)行了統(tǒng)計(jì),并對(duì)其進(jìn)行了識(shí)別和分析:按照方程、示意圖、照片、線性圖和表格將PMC文獻(xiàn)中的圖片分為5類(lèi)(包括對(duì)組合圖的拆解),其中線形圖占比最多,為35.0%;其次為照片,占22.7%。為了方便文獻(xiàn)中圖片文件的檢索和查詢(xún),該團(tuán)隊(duì)還在此研究基礎(chǔ)上開(kāi)發(fā)了VizioMetrix檢索系統(tǒng),支持對(duì)PMC文獻(xiàn)的圖片文件按照方程、示意圖、照片、線性圖和表格進(jìn)行分類(lèi)檢索和閱讀,并可以通過(guò)點(diǎn)擊圖片獲得其所在文章的相關(guān)信息,如作者、摘要、鏈接和相關(guān)文件等。

        美國(guó)密歇根大學(xué)的Zhe Chen等人[9]研發(fā)了一種科技文獻(xiàn)中圖片的分析與識(shí)別工具DiagramFlyer。該工具能夠識(shí)別出153 000篇文獻(xiàn)中的319 000個(gè)圖片信息,并解析出圖片的文本標(biāo)簽,如圖片的坐標(biāo)軸信息、圖例信息等。用戶(hù)可使用關(guān)鍵詞檢索的方法對(duì)圖片進(jìn)行檢索。

        本文對(duì)生物醫(yī)學(xué)領(lǐng)域全文文獻(xiàn)所包含的所有文件類(lèi)型進(jìn)行了解析和量化分析。

        2 數(shù)據(jù)處理

        2.1 數(shù)據(jù)集

        本文以PMC(PubMed Central)收錄的1 815種期刊中包含的891 334篇文獻(xiàn)作為研究數(shù)據(jù)。PMC將期刊全文按照J(rèn)ATS(Journal Article Tag Suite)標(biāo)準(zhǔn)存儲(chǔ)[10]在nxml文件中,其他附件如圖片、壓縮包、數(shù)據(jù)文件、視頻等附在對(duì)應(yīng)的nxml文件所在文件夾中。通過(guò)對(duì)JATS標(biāo)準(zhǔn)的文件內(nèi)容進(jìn)行標(biāo)簽解析,將提取出所需標(biāo)簽內(nèi)的數(shù)據(jù)存儲(chǔ)到MongoDB數(shù)據(jù)庫(kù)中,附件則以文章名稱(chēng)命名的方式與該期刊全文進(jìn)行映射,同時(shí)進(jìn)行結(jié)構(gòu)化存儲(chǔ)。

        一篇PMC的全文文獻(xiàn)可以大致分為3個(gè)主體部分,分別用,,back>標(biāo)簽[11-12]標(biāo)記。為了能夠?qū)崿F(xiàn)文獻(xiàn)中所有附件的相互映射,實(shí)驗(yàn)通過(guò)提取標(biāo)簽中的信息,得出文獻(xiàn)的PMC編號(hào),以此編號(hào)重命名該文獻(xiàn)中的所有附件。再通過(guò)標(biāo)簽獲取文中表格的相關(guān)信息,如表格的首行內(nèi)容、表格的首列內(nèi)容等,并統(tǒng)計(jì)其包含的表格數(shù)量。本文所使用的標(biāo)簽及其含義如表1所示。

        表1 科技文獻(xiàn)圖表結(jié)構(gòu)化描述信息的提取方法研究所使用的JATS標(biāo)簽及其含義

        2.2 處理流程

        對(duì)數(shù)據(jù)集進(jìn)行了初步結(jié)構(gòu)化存儲(chǔ)之后,共獲得891 334篇文獻(xiàn),其附件數(shù)量為9 613 877。根據(jù)附件后綴名和附件表現(xiàn)形式將其分為幾個(gè)大類(lèi)以便對(duì)期刊全文多類(lèi)型附件能進(jìn)行更直觀的分析。分類(lèi)方法如表2所示。

        表2 全文期刊附件類(lèi)型分類(lèi)統(tǒng)計(jì)表

        經(jīng)統(tǒng)計(jì),圖片在附件中所占的比例為80.91%,表格在附件中的比例為14.89%,分列附件所占比例的前兩位,二者共占附件總數(shù)的95%以上,而文檔、數(shù)據(jù)、視頻、網(wǎng)頁(yè)、壓縮包等其他格式則只占附件總數(shù)的5%。由此可見(jiàn),圖片和表格是期刊文獻(xiàn)中對(duì)實(shí)驗(yàn)流程及實(shí)驗(yàn)結(jié)果的主要展示形式。因此,圖片和表格是本文中多類(lèi)型文件量化分析的重點(diǎn)。為了對(duì)生物醫(yī)學(xué)領(lǐng)域全文期刊中多類(lèi)型附件進(jìn)行進(jìn)一步分析,本文根據(jù)JATS數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn),對(duì)全文文獻(xiàn)進(jìn)行解析,并將提取出來(lái)的標(biāo)簽信息存儲(chǔ)在MongoDB數(shù)據(jù)庫(kù)中。再?gòu)母郊鄻有?、附件?shù)量、出版時(shí)間、出版來(lái)源覆蓋面等方面進(jìn)行期刊遴選,最終篩選出30種目標(biāo)期刊。

        選取這30種期刊1996年至2015年期間刊載的文獻(xiàn)作為下一步實(shí)驗(yàn)數(shù)據(jù)。期刊種類(lèi)的權(quán)重篩選方法如下:首先通過(guò)標(biāo)簽提取出文獻(xiàn)所屬期刊名稱(chēng),統(tǒng)計(jì)出所有期刊下所包含的文章數(shù)量;然后通過(guò)提取出該文獻(xiàn)的出版時(shí)間,統(tǒng)計(jì)每年該期刊下所包含的文章數(shù)量,同時(shí)根據(jù)名稱(chēng)映射得到期刊文獻(xiàn)對(duì)應(yīng)附件的相關(guān)信息。本文以期刊附件的多樣性和數(shù)量級(jí)為權(quán)重值進(jìn)行篩選,最終得到BMCBioinformatics、PLoSComputationalBiology等30種期刊作為實(shí)驗(yàn)數(shù)據(jù),總計(jì)251 458篇文章。實(shí)驗(yàn)流程圖如圖1所示。

        圖1 多類(lèi)型文件量化分析的實(shí)驗(yàn)流程

        3 結(jié)果分析

        3.1 多類(lèi)型附件的時(shí)間變化

        如圖2所示,壓縮包、視頻、數(shù)據(jù)和文檔這4類(lèi)附件的坐標(biāo)軸為左側(cè)主坐標(biāo)軸,圖片使用的坐標(biāo)軸為右側(cè)副坐標(biāo)軸。該柱狀圖展現(xiàn)了30種目標(biāo)期刊在1996-2015年附件類(lèi)型的變化趨勢(shì)。

        從圖2可以看出,在2006年之前,全文期刊中的附件數(shù)量是比較少的,從2006年以后才開(kāi)始快速增長(zhǎng);在2014-2015年期間出版的文獻(xiàn)中,壓縮包的數(shù)量為3 949個(gè),視頻的數(shù)量為8 516個(gè),數(shù)據(jù)文件的數(shù)量為31 862個(gè),文檔的數(shù)量為52 545個(gè),圖片的數(shù)量為1 445 167個(gè)。

        圖2 1996-2015年目標(biāo)期刊附件數(shù)量的變化趨勢(shì)

        由圖2可以看出,2014-2015年的數(shù)量是其他4類(lèi)附件總數(shù)的15倍左右,可見(jiàn)圖片在當(dāng)前的生物醫(yī)學(xué)領(lǐng)域全文期刊附件中占比相當(dāng)高。相比其他附件,作者更傾向于使用圖片作為論文內(nèi)容的展示形式。同時(shí), doc/docx格式在文檔類(lèi)附件中所占比例在80%以上,jpg/jpeg格式在圖片類(lèi)附件中所占比例在50%以上,說(shuō)明這兩種格式在科技論文的發(fā)表及展示過(guò)程中尤為常見(jiàn)。因此對(duì)于我們后續(xù)的分析有較高的研究?jī)r(jià)值。

        3.2 圖片/文章數(shù)比例變化趨勢(shì)

        為了獲悉每篇科技文獻(xiàn)中圖片的出現(xiàn)頻率,統(tǒng)計(jì)了這30種期刊每年的文章數(shù)量及圖片數(shù)量,得出文章數(shù)量變化趨勢(shì)圖和圖片/文章數(shù)量變化趨勢(shì)(圖3、圖4)。

        圖3 1996-2014年目標(biāo)期刊文章數(shù)量變化趨勢(shì)

        圖4 1996-2014年目標(biāo)期刊圖片/文章數(shù)量變化趨勢(shì)

        2005年以前PMC收錄這30種期刊的文章數(shù)比較有限,從2005年開(kāi)始呈現(xiàn)大幅度的增長(zhǎng),2006年收錄4 635篇文章,2014年增至42 374篇。圖片/文章數(shù)也從2006年的平均10.7張/篇,增長(zhǎng)到了2014年的20.69張/篇。由于2005年之前每年的文章數(shù)量比較少,因此統(tǒng)計(jì)出的圖片與文章數(shù)之比參考意義不大。

        統(tǒng)計(jì)分析結(jié)果顯示,自2005年期刊文章數(shù)量與篇級(jí)圖片數(shù)均有有顯著增長(zhǎng),這與數(shù)字出版行業(yè)的發(fā)展密切相關(guān)。生物醫(yī)學(xué)領(lǐng)域開(kāi)放獲取期刊電子化程度也越來(lái)越高,存儲(chǔ)PMC的相關(guān)文章也開(kāi)始逐漸增多。通過(guò)對(duì)統(tǒng)計(jì)數(shù)據(jù)的調(diào)查研究發(fā)現(xiàn),PMC的圖片附件中一般對(duì)于圖片都保存有低分辨率和高分辨率兩個(gè)版本,低分辨率圖一般作為網(wǎng)頁(yè)縮略圖展示使用,而高分辨率圖一般在作為圖片解釋頁(yè)使用。同時(shí),在部分期刊中有大部分的數(shù)學(xué)公式是以圖片的形式存儲(chǔ)的。這些因素導(dǎo)致我們統(tǒng)計(jì)結(jié)果中圖片與文章數(shù)之比相對(duì)較高,但眾多的圖片數(shù)量仍然體現(xiàn)了圖片在文獻(xiàn)中的重要作用。

        4 結(jié)語(yǔ)

        本文發(fā)現(xiàn)非文本型(圖片,表格、視頻等)文件急劇增長(zhǎng),且圖片和表格的占比較高、增速較快。科技文獻(xiàn)中的圖片和表格將作為下一步研究對(duì)象,將從圖像和表格管理與利用、圖片和表格標(biāo)簽信息提取與挖掘等方面開(kāi)展的研究,如圖片和表格類(lèi)型的識(shí)別,圖片和表格文本以及語(yǔ)義標(biāo)簽的提取等。通過(guò)對(duì)文獻(xiàn)的非文本文件的分析,將提高全文科技文獻(xiàn)的存儲(chǔ)管理及挖掘利用。

        猜你喜歡
        附件全文表格
        《現(xiàn)代臨床醫(yī)學(xué)》來(lái)稿表格要求
        附件三:擬制定的標(biāo)準(zhǔn)匯總表
        全文中文摘要
        統(tǒng)計(jì)表格的要求
        統(tǒng)計(jì)表格的要求
        統(tǒng)計(jì)表格的要求
        關(guān)于TSG 07——2019附件M與TSG Z0004——2007內(nèi)容的對(duì)照
        全文中文摘要
        青年再造
        新型武器及附件展呈
        輕兵器(2017年3期)2017-03-13 19:15:42
        久久久久九九精品影院| 国产毛片精品av一区二区| 亚洲女同免费在线观看| 日本一道高清在线一区二区| av黄页网国产精品大全| 精品无码国产一区二区三区av| 国自产偷精品不卡在线| 国产日韩一区二区精品| 嫩呦国产一区二区三区av| 猫咪av成人永久网站在线观看 | 9 9久热re在线精品视频| 亚洲精品日韩自慰喷水白浆| 男人的天堂av一二三区| 手机久草视频福利在线观看| 无码成人一区二区| 9191在线亚洲精品| 黑丝国产精品一区二区| 国产在线一区二区三区四区| 又爽又黄又无遮挡网站动态图| 色综合自拍| 无码人妻一区二区三区免费手机| 国产伦精品一区二区三区在线| 亚洲一区二区三区,日本| 久久亚洲国产成人精品性色| 国产精品亚洲片夜色在线| 国产一区二区三区在线av| 人妻少妇精品久久久久久| 人妻少妇久久中文字幕一区二区| 亚洲av中文无码乱人伦在线播放| 色综合天天网| 激情乱码一区二区三区| 夜夜爽夜夜叫夜夜高潮| 亚洲av综合色区无码一二三区| 亚洲色欲色欲大片WWW无码| 黄页国产精品一区二区免费| 国产一区二区视频免费在| 国产成人无码a区在线观看视频| 久久久国产精品福利免费| 色婷婷亚洲一区二区三区在线| 久久国产精品亚洲婷婷片| 亚洲av永久无码精品网站在线观看|