亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

CrossRef文本和數(shù)據(jù)挖掘服務(wù)
——《浙江大學(xué)學(xué)報(bào)（英文版）》的實(shí)踐

2015-03-26 02:24:10張欣欣繆弈洲張?jiān)录t

中國(guó)科技期刊研究 2015年6期

■張欣欣繆弈洲張?jiān)录t

《浙江大學(xué)學(xué)報(bào)（英文版）》編輯部，杭州市浙大路38號(hào) 310027

1 引言

文本和數(shù)據(jù)挖掘跨越多學(xué)科領(lǐng)域，并結(jié)合語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)技術(shù)來(lái)構(gòu)建工具，可以有效地檢索和提取數(shù)字化的文本信息。過(guò)去，無(wú)論是對(duì)于開(kāi)放獲取期刊還是基于訂閱模式的期刊，研究人員進(jìn)行文本和數(shù)據(jù)挖掘沒(méi)有一個(gè)簡(jiǎn)單普遍的獲取全文的方法。研究人員對(duì)學(xué)術(shù)內(nèi)容進(jìn)行數(shù)據(jù)挖掘的興趣和需求與日俱增，這就需要對(duì)大量的文章全文進(jìn)行自動(dòng)地訪問(wèn)。研究人員發(fā)現(xiàn)，為獲得對(duì)已經(jīng)訂閱內(nèi)容進(jìn)行數(shù)據(jù)挖掘的授權(quán)，他們需要與眾多的基于訂閱購(gòu)買模式的出版商協(xié)商復(fù)雜的雙邊協(xié)議，但這顯然不太實(shí)際，并常常被困于曲折的接洽和談判中。比如加利福尼亞大學(xué)計(jì)算生物學(xué)家MaxHaeussler，花費(fèi)三年多時(shí)間與出版商爭(zhēng)論要求獲得許可以便從300萬(wàn)文章中抽取DNA數(shù)據(jù)為人類基因在線地圖做注釋。出版商也認(rèn)為與大量的研究人員和眾多的研究機(jī)構(gòu)基于復(fù)雜的雙邊協(xié)議進(jìn)行授權(quán)談判，同樣很難實(shí)現(xiàn)[1-3]。

CrossRef公司于2014年5月啟用的CrossRef文本和數(shù)據(jù)挖掘服務(wù)提供了一個(gè)簡(jiǎn)單通行的方法，即可用于文本和數(shù)據(jù)挖掘的標(biāo)準(zhǔn)應(yīng)用程序界面CrossRef Metadata API（Application Program Interface）。不論出版商的商業(yè)模式如何（開(kāi)放獲取、訂閱或者二者兼而有之），都可以使用CrossRef Metadata API，而且對(duì)于任何研究者都是免費(fèi)使用的。CrossRef文本和數(shù)據(jù)挖掘創(chuàng)新服務(wù)依托于出版業(yè)，不僅滿足了研究人員對(duì)文本和數(shù)據(jù)挖掘的迫切需求，支持科學(xué)研究，解決了出版商與研究人員進(jìn)行雙邊協(xié)議的談判問(wèn)題，同時(shí)也擴(kuò)大了出版商期刊的顯示度[1]。

中國(guó)科技期刊近年來(lái)愈發(fā)重視學(xué)術(shù)影響力的提升與國(guó)際化發(fā)展[4]。《浙江大學(xué)學(xué)報(bào)（英文版）》一直關(guān)注全球期刊行業(yè)的創(chuàng)新動(dòng)態(tài)，爭(zhēng)取與國(guó)際出版標(biāo)準(zhǔn)接軌。在中國(guó)科技期刊國(guó)際影響力提升計(jì)劃項(xiàng)目的資助下，繼2014年成為國(guó)內(nèi)首家在網(wǎng)站平臺(tái)與論文中同時(shí)標(biāo)注CrossMark、FundRef和ORCID的期刊后[5]，《浙江大學(xué)學(xué)報(bào)（英文版）》繼續(xù)研究和實(shí)踐CrossRef文本和數(shù)據(jù)挖掘創(chuàng)新服務(wù)，并藉此擴(kuò)大期刊的國(guó)際顯示度，從多角度增強(qiáng)期刊的國(guó)際影響力。本文將著重從出版商的角度介紹如何參與CrossRef文本和數(shù)據(jù)挖掘，并將從研究者角度使用數(shù)據(jù)挖掘應(yīng)用程序界面CrossRef REST API[1]。

2 CrossRef文本和數(shù)據(jù)挖掘

圖1 CrossRef文本和數(shù)據(jù)挖掘流程圖[1]

對(duì)于出版商而言，數(shù)據(jù)挖掘很可能存在一個(gè)增長(zhǎng)潛力巨大的市場(chǎng)和快速發(fā)展的機(jī)遇。英國(guó)政府已于2014年6月實(shí)現(xiàn)了對(duì)非商業(yè)目的的文本挖掘的著作權(quán)費(fèi)用的免除，這使得研究者能夠挖掘他們已付費(fèi)訂購(gòu)的任何內(nèi)容。歐盟等慮及計(jì)算式研究的障礙可能阻礙科學(xué)創(chuàng)新，也在積極推進(jìn)數(shù)據(jù)挖掘。這些都為出版業(yè)的數(shù)據(jù)挖掘鋪平道路，給出版業(yè)的蓬勃發(fā)展帶來(lái)了新的契機(jī)[6-7]。

出版商希望研究人員可以從他們的在線平臺(tái)直接訪問(wèn)和抓取所需內(nèi)容，這樣不僅訪問(wèn)效率更高，同時(shí)防止短時(shí)間內(nèi)的大量訪問(wèn)對(duì)其他使用者造成影響[6-7]。CrossRef文本和數(shù)據(jù)挖掘應(yīng)運(yùn)而生，并于2014年5月28日正式啟用。發(fā)起和推動(dòng)這個(gè)項(xiàng)目的出版商和贊助者包括American Institute of Physics（AIP）、American Physical Society（APS）、Elsevier、HighWire Press、 Springer、 Taylor&Francis和Wiley等眾多知名出版機(jī)構(gòu)和組織。CrossRef文本和數(shù)據(jù)挖掘服務(wù)使用一個(gè)可用于文本和數(shù)據(jù)挖掘的標(biāo)準(zhǔn)應(yīng)用程序界面CrossRef Metadata API。不論何種商業(yè)模式的出版商（開(kāi)放獲取、訂閱或者二者兼而有之）都可以使用CrossRef API，并對(duì)研究人員免費(fèi)[1]。

CrossRef擁有多達(dá)4000多家的出版商會(huì)員，這些會(huì)員都使用DOI。每個(gè)DOI都有對(duì)應(yīng)的元數(shù)據(jù)，帶有描述了不同內(nèi)容片段的信息片段，比如期刊文章、圖書(shū)章節(jié)或者會(huì)議論文。這些存儲(chǔ)的元數(shù)據(jù)可以擴(kuò)展并識(shí)別哪些內(nèi)容片段對(duì)應(yīng)的全文是可以找到的，并且此信息可以被對(duì)數(shù)據(jù)挖掘感興趣的研究人員所使用。CrossRef Metadata API使用CrossRef DOI為研究人員提供在出版商頁(yè)面的全文鏈接。出版商有義務(wù)保證滿足研究人員獲取全文鏈接的請(qǐng)求并可直接批量給予其全文。開(kāi)放獲取期刊的出版商可以簡(jiǎn)單地將請(qǐng)求的內(nèi)容直接傳送給研究人員，而基于訂閱模式的出版商需要控制訪問(wèn)權(quán)限。CrossRef文本和數(shù)據(jù)挖掘的流程如圖1所示。

除了CrossRef，Elsevier和IOP Science等也提供對(duì)學(xué)術(shù)內(nèi)容進(jìn)行文本和數(shù)據(jù)挖掘的服務(wù)[8]，并且仍積極更新文本挖掘政策以改善研究人員的獲取狀況[7，9，10]。

3 《浙江大學(xué)學(xué)報(bào)（英文版）》的參與和實(shí)踐

《浙江大學(xué)學(xué)報(bào)（英文版）》從2014年10月開(kāi)始，嘗試實(shí)踐CrossRef文本和數(shù)據(jù)挖掘服務(wù)。首先從出版商角度參與CrossRef文本和數(shù)據(jù)挖掘，包括申請(qǐng)參與CrossRef文本和數(shù)據(jù)挖掘、存儲(chǔ)元數(shù)據(jù)、提供全文鏈接、明示版權(quán)信息以及提供Click-through服務(wù)等。并從研究者角度使用數(shù)據(jù)挖掘應(yīng)用程序界面CrossRef REST API且成功獲取所挖掘的全文。

3.1 注冊(cè)

首先在 CrossRef網(wǎng)站上注冊(cè)，網(wǎng)址為 http：//www.crossref.org/tdm/contact-form.html，申請(qǐng)參與CrossRef文本和數(shù)據(jù)挖掘（CrossRef Text and Data Mining Contact Form）（見(jiàn)圖2）。

3.2 元數(shù)據(jù)存儲(chǔ)

作為出版商參與CrossRef文本和數(shù)據(jù)挖掘，需要做如下兩件事情：（1）為每個(gè)DOI存儲(chǔ)帶有全文鏈接的元數(shù)據(jù)，使研究人員能夠據(jù)此鏈接找到文章全文；（2）在上述的元數(shù)據(jù)中存儲(chǔ)版權(quán)信息，方便研究人員據(jù)此查詢他們是否能夠獲取挖掘此內(nèi)容片段的許可。存儲(chǔ)上述信息的xml文件需要上傳到CrossRef系統(tǒng)的Metadata處。

3.2.1 全文鏈接

根據(jù)出版商自身平臺(tái)是否支持內(nèi)容協(xié)商[12]，存儲(chǔ)內(nèi)容的全文鏈接分為兩種方式。絕大多數(shù)的出版商不在自身平臺(tái)支持內(nèi)容協(xié)商，則使用CrossRef提供的方法1（Method 1：Publisher provides specific URIs for each mime-type they support）[1]。以《浙江大學(xué)學(xué)報(bào)（英文版）》為例，提供數(shù)據(jù)的xml文件包含文章的基本信息（如 DOI、年、卷和頁(yè)碼等）、ORCID和FundRef等信息，并且提供可以直接獲取文章內(nèi)容的全文鏈接（見(jiàn)圖3）。此xml文件信息高度豐富，直接體現(xiàn)文本和數(shù)據(jù)挖掘的真實(shí)價(jià)值[6，9，10]。

3.2.2 版權(quán)訪問(wèn)信息

元數(shù)據(jù)需要給文本和數(shù)據(jù)挖掘使用者一個(gè)明確的指示，告知其是否被允許使用CrossRef DOI所指向的內(nèi)容。若研究人員不能自動(dòng)得知其是否被允許訪問(wèn)全文，那么出版商僅為其提供全文鏈接是沒(méi)有意義的。存儲(chǔ)的數(shù)據(jù)中的版權(quán)信息部分需提供允許訪問(wèn)全文鏈接的時(shí)間范圍。一般而言，出版商設(shè)定的允許訪問(wèn)時(shí)間為一年（見(jiàn)圖3）。開(kāi)放獲取期刊僅提供開(kāi)放獲取版權(quán)信息即可，如通用的Creative Comments，并沒(méi)有時(shí)間限制。

3.3 提供全文

出版商必須保證存儲(chǔ)內(nèi)容中所顯示的鏈接與文章的實(shí)際鏈接一致。如果訪問(wèn)鏈接有所變動(dòng)，必須隨時(shí)更新以保證存儲(chǔ)內(nèi)容中的鏈接的有效性。

3.4 訪問(wèn)速度控制

文本和數(shù)據(jù)挖掘可能會(huì)增大網(wǎng)站的訪問(wèn)量，出版商的服務(wù)器必須能夠應(yīng)對(duì)和支持大流量的數(shù)據(jù)下載。出版商可以通過(guò)控制訪問(wèn)速度減輕網(wǎng)站負(fù)擔(dān)，這取決于其自身情況。

3.5 附加版權(quán)條款

圖3 《浙江大學(xué)學(xué)報(bào)(英文版)》文本和數(shù)據(jù)挖掘的存儲(chǔ)數(shù)據(jù)(xm l)示例

出版商可能要求研究人員同意一些額外的版權(quán)條款。這就必須使用URI指引使用者到Clickthrough服務(wù)。研究人員可以通過(guò)Click-through服務(wù)閱讀出版商的條款和限制條件（Terms and Conditions（T&Cs）），并判斷是否接受或拒絕。出版商上傳和管理T&Cs，必須提供如下內(nèi)容：（1）出版商的網(wǎng)站 URI；（2）出版商名稱；（3）T&Cs的簡(jiǎn)短描述；（4）T&Cs的全文，并用Markdown格式顯示。《浙江大學(xué)學(xué)報(bào)（英文版）》在Click-through中的T&Cs如圖4所示。T&Cs必須申明，文本和數(shù)據(jù)挖掘僅用于非商業(yè)目的，每次挖掘的片段內(nèi)容不能超過(guò)200個(gè)字，且必須通過(guò)機(jī)器挖掘而非人工處理，同時(shí)遵守CC-BY 3.0協(xié)議等[13-15]。T&Cs正式上線之后一旦被研究人員閱讀并執(zhí)行了同意或者拒絕命令，將不可修改；除非作廢此T&Cs，并提供新的版本。

圖4 《浙江大學(xué)學(xué)報(bào)(英文版)》的Click-through頁(yè)面(a)及其Terms and Conditions(b)

出版商使用CrossRef系統(tǒng)的賬號(hào)和密碼使用Click-through服務(wù)，并獲取其API驗(yàn)證碼（Publisher APIToken （PAT）），如《浙江大學(xué)學(xué)報(bào)（英文版）》的PAT為 e873add9-f850525e-4d233b2e-xxxxxxxx（最后八位數(shù)字隱去）。研究人員在爬取數(shù)據(jù)時(shí)發(fā)送了包含客戶端API驗(yàn)證碼（Client APIToken（CAT））的內(nèi)容（如本文作者的 CAT為9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx（最后八位數(shù)字隱去））。出版商結(jié)合PAT和CAT，可以很容易通過(guò)簡(jiǎn)單的HTTP請(qǐng)求（比如使用Linux系統(tǒng)中常見(jiàn)的訪問(wèn)網(wǎng)頁(yè)命令curl）來(lái)檢查哪些條款被遵守，哪些沒(méi)有。研究人員在發(fā)送HTTP請(qǐng)求時(shí)，在頭部（header）包含PAT，在URI研究人員對(duì)應(yīng)的部分填寫(xiě)CAT，形式如下：

curl-k-H ″CR-Clickthrough-Publisher-Token：e873add9-f850525e-4d233b2e-xxxxxxxx″

″https：//apps.crossref.org/clickthrough/api/licenses/9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″-D--L-O

返回信息（為JSON格式，故需在網(wǎng)頁(yè)上安裝JSONView插件）給出了研究人員所接受或拒絕的出版商列出的條款。出版商可以通過(guò)迭代這樣的結(jié)果，查看研究人員是否已簽署相關(guān)內(nèi)容的協(xié)議，以此判斷是否同意其下載所請(qǐng)求的全文[16-17]。

3.6 研究人員使用CrossRef REST API簡(jiǎn)介

《浙江大學(xué)學(xué)報(bào)（英文版）》扮演研究人員的角色，實(shí)踐了如何使用CrossRef API獲取全文。研究人員使用CrossRef API的教程請(qǐng)參見(jiàn)Geoffrey Bilder的報(bào)告[17]，使用簡(jiǎn)介請(qǐng)參見(jiàn) https：//github.com/CrossRef/rest-api-doc/blob/master/rest-api-tour.md，其參數(shù)說(shuō)明請(qǐng)?jiān)L問(wèn) https：//github.com/CrossRef/rest-api-doc/blob/master/rest-api.md。

研究人員在 https：//apps.crossref.org/clickthrough/researchers/#/login/處使用 ORCID登錄，在Publisher-Specific Agreements處可以查看、接受或拒絕各出版商已經(jīng)發(fā)表的 T&Cs，并可獲取CAT。研究人員將包含接受或拒絕的條款信息的CAT提供給出版商，出版商即可知道該研究人員是否具有相應(yīng)的許可。一旦研究人員接受或拒絕相應(yīng)的Click-through許可，在發(fā)送HTTP請(qǐng)求并要求下載文章全文時(shí)，在header部分提供一個(gè)CR-TDMClient-Token。那些不需要Click-through功能或者開(kāi)放獲取期刊的出版商，可直接忽略這個(gè)頭文件；而需要Click-through服務(wù)的出版商可以核對(duì)研究人員是否遵守和簽訂了條款。出版商使用研究人員提供的CAT來(lái)判斷其是否已經(jīng)接受了相應(yīng)的條款和協(xié)議，如果研究人員接受，則將給予其全文[1-2]。

比如本文作者扮演研究人員角色通過(guò)Clickthrough服務(wù)請(qǐng)求獲取某些特定DOI的文章，示例如下：

curl-k-H ″CR-Clickthrough-Client-Token： 9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″″http：//www.zju.edu.cn/jzus/opentxt.php？ doi=10.1631/jzus.A1400195″-D--L-O

curl-k-H ″CR-Clickthrough-Client-Token： 9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″″http：//www.zju.edu.cn/jzus/opentxt.php？ doi=10.1631/jzus.A1400192″-D--L-O

curl-k-H ″CR-Clickthrough-Client-Token： 9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″″http：//www.zju.edu.cn/jzus/opentxt.php？ doi=10.1631/jzus.A1400263″-D--L-O

表示本文作者使用的CAT為9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx，請(qǐng) 求獲取 DOI為10.1631/jzus.A1400195，10.1631/jzus.A1400192 和10.1631/jzus.A1400263這三篇文章的全文，并得以實(shí)現(xiàn)。

通過(guò)CrossRef API及其提供的Click-through服務(wù)，可以方便獲取大量數(shù)據(jù)的DOI及其對(duì)應(yīng)的全文鏈接。研究人員通過(guò)簡(jiǎn)單的HTTP等請(qǐng)求或語(yǔ)言，批量獲取文章的全文。比如研究人員使用CrossRef API，搜索在 CrossRef元數(shù)據(jù)中，包含 “血液（Blood）”這個(gè)關(guān)鍵詞并且提供版權(quán)信息和全文鏈接的記錄有多少條，要求如下所示：http：//api.crossref.org/works？ filter=has-license：true，has-fulltext：true&query=blood&rows=0，由此可以獲取大量記錄，并可繼續(xù)增加限制條件來(lái)縮小獲取數(shù)據(jù)的范圍從而精準(zhǔn)地得到最符合要求的文獻(xiàn)。如果需要從API的結(jié)果中獲取特定的DOI及其全文鏈接，并且批量下載全文，則需要用Python或Ruby等語(yǔ)言編輯小程序來(lái)實(shí)現(xiàn)，在此不再贅述。

4 結(jié)語(yǔ)

文本和數(shù)據(jù)挖掘市場(chǎng)增長(zhǎng)潛力巨大。CrossRef文本和數(shù)據(jù)挖掘解決了傳統(tǒng)數(shù)據(jù)挖掘手段存在的諸多問(wèn)題，滿足了研究人員對(duì)學(xué)術(shù)內(nèi)容進(jìn)行文本和數(shù)據(jù)挖掘的需求，方便地解決了出版商需要與大量的研究人員和眾多的研究機(jī)構(gòu)基于復(fù)雜的雙邊協(xié)議進(jìn)行授權(quán)談判的問(wèn)題，并且出版商參與方式也簡(jiǎn)單便捷，必將會(huì)吸引越來(lái)越多的期刊加入此創(chuàng)新服務(wù)行列?！墩憬髮W(xué)學(xué)報(bào)（英文版）》一直關(guān)注全球期刊行業(yè)的動(dòng)態(tài)并積極追求國(guó)際創(chuàng)新服務(wù)。在參與和使用 CrossMark、FundRef和 ORCID之后，在科技期刊國(guó)際影響力提升計(jì)劃的資助成為國(guó)內(nèi)首家實(shí)踐CrossRef文本和數(shù)據(jù)挖掘創(chuàng)新服務(wù)項(xiàng)目的期刊。這不僅滿足科研人員進(jìn)行數(shù)據(jù)挖掘的迫切需求，支持科學(xué)研究，順應(yīng)國(guó)際出版業(yè)的潮流和發(fā)展；同時(shí)藉此擴(kuò)大期刊的國(guó)際顯示度，從國(guó)際創(chuàng)新技術(shù)服務(wù)等多角度提升期刊的國(guó)際影響力。

致謝：感謝浙江大學(xué)軟件學(xué)院金小剛教授提供技術(shù)支持，并感謝CrossRef公司Rachael女士提供詳細(xì)的咨詢服務(wù)。

[1]CrossRef.CrossRef Text and Data Mining[EB/OL].[2015-01-21].http：//tdmsupport.crossref.org/.

[2]Lammey R.CrossRef Text and Data Mining Services.CrossRef ALPSPAnnual Meeting，September，2014，London，UK.

[3]Van Noorden R.Trouble at the textmine[J].Nature，2012，483：134-135.

[4]任勝利.《中國(guó)科技期刊國(guó)際化發(fā)展》專題序[J].中國(guó)科技期刊研究，2015，26（3）：217-217.

[5]張欣欣，張?jiān)录t，繆弈洲，等.創(chuàng)新與“棒”期刊——《浙江大學(xué)學(xué)報(bào)（英文版）》在科技期刊國(guó)際影響力提升計(jì)劃中的思考與實(shí)踐[J].科技與出版，2015，4：28-33.

[6]ALPSP.Member briefing text and data mining.ALPSP International Conference，2014.London，UK.

[7]史雙青，彭乃珠.Elsevier更新文本挖掘政策以改善研究人員的獲取狀況[EB/OL].[2015-04-08].http：//www.openaccess.net.cn.

[8]Elsevier.Text mining of Elsevier full-text content[EB/OL].[2015-03-14].http：//dev.elsevier.com/text-mining.html.

[9]Chris Shillum.Elsevier updates text-mining policy to improve access for researchers[EB/OL].[2015-04-08].http：//www.elsevier.com/connect/elsevier-updates-text-mining-policyto-improve-access-for-researchers.

[10]Van Noorden R.Elsevieropens its papers to text-mining[EB/OL].[2015-04-08].Nature News，2014.http：//www.nature.com/news/elsevier-opens-its-papers-to-text-mining-1.14659.

[11]CrossRef.CrossRef Text and Data Ming Contact Form[EB/OL].[2014-10-08].http：//www.crossref.org/tdm/contact-form.html.

[12]張善友.內(nèi)容協(xié)商[EB/OL].[2015-3-6].http：//www.cnblogs.com/shanyou/archive/2012/06/12/2547019.html.

[13]Springer API.Springer's text-and data-mining policy[EB/OL].[2015-02-13].http：//www.springer.com/gp/rightspermissions/springer-s-text-and-data-mining-policy/29056.

[14]IOPScience.Textand Data Mining（T&DM）[EB/OL].[2015-02-13].http：//iopscience.iop.org/info/page/text-anddata-mining.

[15]Elsevier.Terms and conditions of text and data mining[EB/OL].[2015-2-13].http：//www.elsevier.com/about/policies/content-mining-policies conditions-of-text-mining.

[16]Lammey R.CrossRef Text and Data Mining Webinar，June 3，2014[EB/OL].[2015-03-14].https：//www.youtube.com/watch？v=1BX6A0fshDw.

[17]Bilder G.Geoffrey Bilder's presentation from the 2014 CrossRef Workshops，2014[EB/OL].[2015-03-06].http：//rivervalley.zeeba.tv/text-data-mining-api-researcher-use/.