■張欣欣 繆弈洲 張?jiān)录t
《浙江大學(xué)學(xué)報(bào)(英文版)》編輯部,杭州市浙大路38號(hào) 310027
文本和數(shù)據(jù)挖掘跨越多學(xué)科領(lǐng)域,并結(jié)合語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)技術(shù)來(lái)構(gòu)建工具,可以有效地檢索和提取數(shù)字化的文本信息。過(guò)去,無(wú)論是對(duì)于開(kāi)放獲取期刊還是基于訂閱模式的期刊,研究人員進(jìn)行文本和數(shù)據(jù)挖掘沒(méi)有一個(gè)簡(jiǎn)單普遍的獲取全文的方法。研究人員對(duì)學(xué)術(shù)內(nèi)容進(jìn)行數(shù)據(jù)挖掘的興趣和需求與日俱增,這就需要對(duì)大量的文章全文進(jìn)行自動(dòng)地訪問(wèn)。研究人員發(fā)現(xiàn),為獲得對(duì)已經(jīng)訂閱內(nèi)容進(jìn)行數(shù)據(jù)挖掘的授權(quán),他們需要與眾多的基于訂閱購(gòu)買模式的出版商協(xié)商復(fù)雜的雙邊協(xié)議,但這顯然不太實(shí)際,并常常被困于曲折的接洽和談判中。比如加利福尼亞大學(xué)計(jì)算生物學(xué)家MaxHaeussler,花費(fèi)三年多時(shí)間與出版商爭(zhēng)論要求獲得許可以便從300萬(wàn)文章中抽取DNA數(shù)據(jù)為人類基因在線地圖做注釋。出版商也認(rèn)為與大量的研究人員和眾多的研究機(jī)構(gòu)基于復(fù)雜的雙邊協(xié)議進(jìn)行授權(quán)談判,同樣很難實(shí)現(xiàn)[1-3]。
CrossRef公司于2014年5月啟用的CrossRef文本和數(shù)據(jù)挖掘服務(wù)提供了一個(gè)簡(jiǎn)單通行的方法,即可用于文本和數(shù)據(jù)挖掘的標(biāo)準(zhǔn)應(yīng)用程序界面CrossRef Metadata API(Application Program Interface)。不論出版商的商業(yè)模式如何(開(kāi)放獲取、訂閱或者二者兼而有之),都可以使用CrossRef Metadata API,而且對(duì)于任何研究者都是免費(fèi)使用的。CrossRef文本和數(shù)據(jù)挖掘創(chuàng)新服務(wù)依托于出版業(yè),不僅滿足了研究人員對(duì)文本和數(shù)據(jù)挖掘的迫切需求,支持科學(xué)研究,解決了出版商與研究人員進(jìn)行雙邊協(xié)議的談判問(wèn)題,同時(shí)也擴(kuò)大了出版商期刊的顯示度[1]。
中國(guó)科技期刊近年來(lái)愈發(fā)重視學(xué)術(shù)影響力的提升與國(guó)際化發(fā)展[4]。《浙江大學(xué)學(xué)報(bào)(英文版)》一直關(guān)注全球期刊行業(yè)的創(chuàng)新動(dòng)態(tài),爭(zhēng)取與國(guó)際出版標(biāo)準(zhǔn)接軌。在中國(guó)科技期刊國(guó)際影響力提升計(jì)劃項(xiàng)目的資助下,繼2014年成為國(guó)內(nèi)首家在網(wǎng)站平臺(tái)與論文中同時(shí)標(biāo)注CrossMark、FundRef和ORCID的期刊后[5],《浙江大學(xué)學(xué)報(bào)(英文版)》繼續(xù)研究和實(shí)踐CrossRef文本和數(shù)據(jù)挖掘創(chuàng)新服務(wù),并藉此擴(kuò)大期刊的國(guó)際顯示度,從多角度增強(qiáng)期刊的國(guó)際影響力。本文將著重從出版商的角度介紹如何參與CrossRef文本和數(shù)據(jù)挖掘,并將從研究者角度使用數(shù)據(jù)挖掘應(yīng)用程序界面CrossRef REST API[1]。
圖1 CrossRef文本和數(shù)據(jù)挖掘流程圖[1]
對(duì)于出版商而言,數(shù)據(jù)挖掘很可能存在一個(gè)增長(zhǎng)潛力巨大的市場(chǎng)和快速發(fā)展的機(jī)遇。英國(guó)政府已于2014年6月實(shí)現(xiàn)了對(duì)非商業(yè)目的的文本挖掘的著作權(quán)費(fèi)用的免除,這使得研究者能夠挖掘他們已付費(fèi)訂購(gòu)的任何內(nèi)容。歐盟等慮及計(jì)算式研究的障礙可能阻礙科學(xué)創(chuàng)新,也在積極推進(jìn)數(shù)據(jù)挖掘。這些都為出版業(yè)的數(shù)據(jù)挖掘鋪平道路,給出版業(yè)的蓬勃發(fā)展帶來(lái)了新的契機(jī)[6-7]。
出版商希望研究人員可以從他們的在線平臺(tái)直接訪問(wèn)和抓取所需內(nèi)容,這樣不僅訪問(wèn)效率更高,同時(shí)防止短時(shí)間內(nèi)的大量訪問(wèn)對(duì)其他使用者造成影響[6-7]。CrossRef文本和數(shù)據(jù)挖掘應(yīng)運(yùn)而生,并于2014年5月28日正式啟用。發(fā)起和推動(dòng)這個(gè)項(xiàng)目的出版商和贊助者包括American Institute of Physics(AIP)、American Physical Society(APS)、Elsevier、HighWire Press、 Springer、 Taylor&Francis和Wiley等眾多知名出版機(jī)構(gòu)和組織。CrossRef文本和數(shù)據(jù)挖掘服務(wù)使用一個(gè)可用于文本和數(shù)據(jù)挖掘的標(biāo)準(zhǔn)應(yīng)用程序界面CrossRef Metadata API。不論何種商業(yè)模式的出版商(開(kāi)放獲取、訂閱或者二者兼而有之)都可以使用CrossRef API,并對(duì)研究人員免費(fèi)[1]。
CrossRef擁有多達(dá)4000多家的出版商會(huì)員,這些會(huì)員都使用DOI。每個(gè)DOI都有對(duì)應(yīng)的元數(shù)據(jù),帶有描述了不同內(nèi)容片段的信息片段,比如期刊文章、圖書(shū)章節(jié)或者會(huì)議論文。這些存儲(chǔ)的元數(shù)據(jù)可以擴(kuò)展并識(shí)別哪些內(nèi)容片段對(duì)應(yīng)的全文是可以找到的,并且此信息可以被對(duì)數(shù)據(jù)挖掘感興趣的研究人員所使用。CrossRef Metadata API使用CrossRef DOI為研究人員提供在出版商頁(yè)面的全文鏈接。出版商有義務(wù)保證滿足研究人員獲取全文鏈接的請(qǐng)求并可直接批量給予其全文。開(kāi)放獲取期刊的出版商可以簡(jiǎn)單地將請(qǐng)求的內(nèi)容直接傳送給研究人員,而基于訂閱模式的出版商需要控制訪問(wèn)權(quán)限。CrossRef文本和數(shù)據(jù)挖掘的流程如圖1所示。
除了CrossRef,Elsevier和IOP Science等也提供對(duì)學(xué)術(shù)內(nèi)容進(jìn)行文本和數(shù)據(jù)挖掘的服務(wù)[8],并且仍積極更新文本挖掘政策以改善研究人員的獲取狀況[7,9,10]。
《浙江大學(xué)學(xué)報(bào)(英文版)》從2014年10月開(kāi)始,嘗試實(shí)踐CrossRef文本和數(shù)據(jù)挖掘服務(wù)。首先從出版商角度參與CrossRef文本和數(shù)據(jù)挖掘,包括申請(qǐng)參與CrossRef文本和數(shù)據(jù)挖掘、存儲(chǔ)元數(shù)據(jù)、提供全文鏈接、明示版權(quán)信息以及提供Click-through服務(wù)等。并從研究者角度使用數(shù)據(jù)挖掘應(yīng)用程序界面CrossRef REST API且成功獲取所挖掘的全文。
首先在 CrossRef網(wǎng)站上注冊(cè),網(wǎng)址為 http://www.crossref.org/tdm/contact-form.html,申請(qǐng)參與CrossRef文本和數(shù)據(jù)挖掘(CrossRef Text and Data Mining Contact Form)(見(jiàn)圖2)。
作為出版商參與CrossRef文本和數(shù)據(jù)挖掘,需要做如下兩件事情:(1)為每個(gè)DOI存儲(chǔ)帶有全文鏈接的元數(shù)據(jù),使研究人員能夠據(jù)此鏈接找到文章全文;(2)在上述的元數(shù)據(jù)中存儲(chǔ)版權(quán)信息,方便研究人員據(jù)此查詢他們是否能夠獲取挖掘此內(nèi)容片段的許可。存儲(chǔ)上述信息的xml文件需要上傳到CrossRef系統(tǒng)的Metadata處。
根據(jù)出版商自身平臺(tái)是否支持內(nèi)容協(xié)商[12],存儲(chǔ)內(nèi)容的全文鏈接分為兩種方式。絕大多數(shù)的出版商不在自身平臺(tái)支持內(nèi)容協(xié)商,則使用CrossRef提供的方法1(Method 1:Publisher provides specific URIs for each mime-type they support)[1]。 以《浙江大學(xué)學(xué)報(bào)(英文版)》為例,提供數(shù)據(jù)的xml文件包含文章的基本信息(如 DOI、年、卷和頁(yè)碼等)、ORCID和FundRef等信息,并且提供可以直接獲取文章內(nèi)容的全文鏈接(見(jiàn)圖3)。此xml文件信息高度豐富,直接體現(xiàn)文本和數(shù)據(jù)挖掘的真實(shí)價(jià)值[6,9,10]。
元數(shù)據(jù)需要給文本和數(shù)據(jù)挖掘使用者一個(gè)明確的指示,告知其是否被允許使用CrossRef DOI所指向的內(nèi)容。若研究人員不能自動(dòng)得知其是否被允許訪問(wèn)全文,那么出版商僅為其提供全文鏈接是沒(méi)有意義的。存儲(chǔ)的數(shù)據(jù)中的版權(quán)信息部分需提供允許訪問(wèn)全文鏈接的時(shí)間范圍。一般而言,出版商設(shè)定的允許訪問(wèn)時(shí)間為一年(見(jiàn)圖3)。開(kāi)放獲取期刊僅提供開(kāi)放獲取版權(quán)信息即可,如通用的Creative Comments,并沒(méi)有時(shí)間限制。
出版商必須保證存儲(chǔ)內(nèi)容中所顯示的鏈接與文章的實(shí)際鏈接一致。如果訪問(wèn)鏈接有所變動(dòng),必須隨時(shí)更新以保證存儲(chǔ)內(nèi)容中的鏈接的有效性。
文本和數(shù)據(jù)挖掘可能會(huì)增大網(wǎng)站的訪問(wèn)量,出版商的服務(wù)器必須能夠應(yīng)對(duì)和支持大流量的數(shù)據(jù)下載。出版商可以通過(guò)控制訪問(wèn)速度減輕網(wǎng)站負(fù)擔(dān),這取決于其自身情況。
圖3 《浙江大學(xué)學(xué)報(bào)(英文版)》文本和數(shù)據(jù)挖掘的存儲(chǔ)數(shù)據(jù)(xm l)示例
出版商可能要求研究人員同意一些額外的版權(quán)條款。這就必須使用URI指引使用者到Clickthrough服務(wù)。研究人員可以通過(guò)Click-through服務(wù)閱讀出版商的條款和限制條件(Terms and Conditions(T&Cs)),并判斷是否接受或拒絕。出版商上傳和管理T&Cs,必須提供如下內(nèi)容:(1)出版商的網(wǎng)站 URI;(2)出版商名稱;(3)T&Cs的簡(jiǎn)短描述;(4)T&Cs的全文,并用Markdown格式顯示。《浙江大學(xué)學(xué)報(bào)(英文版)》在Click-through中的T&Cs如圖4所示。T&Cs必須申明,文本和數(shù)據(jù)挖掘僅用于非商業(yè)目的,每次挖掘的片段內(nèi)容不能超過(guò)200個(gè)字,且必須通過(guò)機(jī)器挖掘而非人工處理,同時(shí)遵守CC-BY 3.0協(xié)議等[13-15]。T&Cs正式上線之后一旦被研究人員閱讀并執(zhí)行了同意或者拒絕命令,將不可修改;除非作廢此T&Cs,并提供新的版本。
圖4 《浙江大學(xué)學(xué)報(bào)(英文版)》的Click-through頁(yè)面(a)及其Terms and Conditions(b)
出版商使用CrossRef系統(tǒng)的賬號(hào)和密碼使用Click-through服務(wù),并獲取其API驗(yàn)證碼(Publisher APIToken (PAT)),如《浙江大學(xué)學(xué)報(bào)(英文版)》的PAT為 e873add9-f850525e-4d233b2e-xxxxxxxx(最后八位數(shù)字隱去)。研究人員在爬取數(shù)據(jù)時(shí)發(fā)送了包含客戶端API驗(yàn)證碼(Client APIToken(CAT))的內(nèi)容(如本文作者的 CAT為9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx(最后八位數(shù)字隱去))。出版商結(jié)合PAT和CAT,可以很容易通過(guò)簡(jiǎn)單的HTTP請(qǐng)求(比如使用Linux系統(tǒng)中常見(jiàn)的訪問(wèn)網(wǎng)頁(yè)命令curl)來(lái)檢查哪些條款被遵守,哪些沒(méi)有。研究人員在發(fā)送HTTP請(qǐng)求時(shí),在頭部(header)包含PAT,在URI研究人員對(duì)應(yīng)的部分填寫(xiě)CAT,形式如下:
curl-k-H ″CR-Clickthrough-Publisher-Token:e873add9-f850525e-4d233b2e-xxxxxxxx″
″https://apps.crossref.org/clickthrough/api/licenses/9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″-D--L-O
返回信息(為JSON格式,故需在網(wǎng)頁(yè)上安裝JSONView插件)給出了研究人員所接受或拒絕的出版商列出的條款。出版商可以通過(guò)迭代這樣的結(jié)果,查看研究人員是否已簽署相關(guān)內(nèi)容的協(xié)議,以此判斷是否同意其下載所請(qǐng)求的全文[16-17]。
《浙江大學(xué)學(xué)報(bào)(英文版)》扮演研究人員的角色,實(shí)踐了如何使用CrossRef API獲取全文。研究人員使用CrossRef API的教程請(qǐng)參見(jiàn)Geoffrey Bilder的報(bào)告[17],使用簡(jiǎn)介請(qǐng)參見(jiàn) https://github.com/CrossRef/rest-api-doc/blob/master/rest-api-tour.md,其參數(shù)說(shuō)明請(qǐng)?jiān)L問(wèn) https://github.com/CrossRef/rest-api-doc/blob/master/rest-api.md。
研究人員在 https://apps.crossref.org/clickthrough/researchers/#/login/處使用 ORCID登錄,在Publisher-Specific Agreements處可以查看、接受或拒絕各出版商已經(jīng)發(fā)表的 T&Cs,并可獲取CAT。研究人員將包含接受或拒絕的條款信息的CAT提供給出版商,出版商即可知道該研究人員是否具有相應(yīng)的許可。一旦研究人員接受或拒絕相應(yīng)的Click-through許可,在發(fā)送HTTP請(qǐng)求并要求下載文章全文時(shí),在header部分提供一個(gè)CR-TDMClient-Token。那些不需要Click-through功能或者開(kāi)放獲取期刊的出版商,可直接忽略這個(gè)頭文件;而需要Click-through服務(wù)的出版商可以核對(duì)研究人員是否遵守和簽訂了條款。出版商使用研究人員提供的CAT來(lái)判斷其是否已經(jīng)接受了相應(yīng)的條款和協(xié)議,如果研究人員接受,則將給予其全文[1-2]。
比如本文作者扮演研究人員角色通過(guò)Clickthrough服務(wù)請(qǐng)求獲取某些特定DOI的文章,示例如下:
curl-k-H ″CR-Clickthrough-Client-Token: 9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″″http://www.zju.edu.cn/jzus/opentxt.php? doi=10.1631/jzus.A1400195″-D--L-O
curl-k-H ″CR-Clickthrough-Client-Token: 9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″″http://www.zju.edu.cn/jzus/opentxt.php? doi=10.1631/jzus.A1400192″-D--L-O
curl-k-H ″CR-Clickthrough-Client-Token: 9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″″http://www.zju.edu.cn/jzus/opentxt.php? doi=10.1631/jzus.A1400263″-D--L-O
表示本文作者使用的CAT為9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx,請(qǐng) 求 獲 取 DOI為10.1631/jzus.A1400195,10.1631/jzus.A1400192 和10.1631/jzus.A1400263這三篇文章的全文,并得以實(shí)現(xiàn)。
通過(guò)CrossRef API及其提供的Click-through服務(wù),可以方便獲取大量數(shù)據(jù)的DOI及其對(duì)應(yīng)的全文鏈接。研究人員通過(guò)簡(jiǎn)單的HTTP等請(qǐng)求或語(yǔ)言,批量獲取文章的全文。比如研究人員使用CrossRef API,搜索在 CrossRef元數(shù)據(jù)中,包含 “血液(Blood)”這個(gè)關(guān)鍵詞并且提供版權(quán)信息和全文鏈接的記錄有多少條,要求如下所示:http://api.crossref.org/works? filter=has-license:true,has-fulltext:true&query=blood&rows=0,由此可以獲取大量記錄,并可繼續(xù)增加限制條件來(lái)縮小獲取數(shù)據(jù)的范圍從而精準(zhǔn)地得到最符合要求的文獻(xiàn)。如果需要從API的結(jié)果中獲取特定的DOI及其全文鏈接,并且批量下載全文,則需要用Python或Ruby等語(yǔ)言編輯小程序來(lái)實(shí)現(xiàn),在此不再贅述。
文本和數(shù)據(jù)挖掘市場(chǎng)增長(zhǎng)潛力巨大。CrossRef文本和數(shù)據(jù)挖掘解決了傳統(tǒng)數(shù)據(jù)挖掘手段存在的諸多問(wèn)題,滿足了研究人員對(duì)學(xué)術(shù)內(nèi)容進(jìn)行文本和數(shù)據(jù)挖掘的需求,方便地解決了出版商需要與大量的研究人員和眾多的研究機(jī)構(gòu)基于復(fù)雜的雙邊協(xié)議進(jìn)行授權(quán)談判的問(wèn)題,并且出版商參與方式也簡(jiǎn)單便捷,必將會(huì)吸引越來(lái)越多的期刊加入此創(chuàng)新服務(wù)行列?!墩憬髮W(xué)學(xué)報(bào)(英文版)》一直關(guān)注全球期刊行業(yè)的動(dòng)態(tài)并積極追求國(guó)際創(chuàng)新服務(wù)。在參與和使用 CrossMark、FundRef和 ORCID之后,在科技期刊國(guó)際影響力提升計(jì)劃的資助成為國(guó)內(nèi)首家實(shí)踐CrossRef文本和數(shù)據(jù)挖掘創(chuàng)新服務(wù)項(xiàng)目的期刊。這不僅滿足科研人員進(jìn)行數(shù)據(jù)挖掘的迫切需求,支持科學(xué)研究,順應(yīng)國(guó)際出版業(yè)的潮流和發(fā)展;同時(shí)藉此擴(kuò)大期刊的國(guó)際顯示度,從國(guó)際創(chuàng)新技術(shù)服務(wù)等多角度提升期刊的國(guó)際影響力。
致謝:感謝浙江大學(xué)軟件學(xué)院金小剛教授提供技術(shù)支持,并感謝CrossRef公司Rachael女士提供詳細(xì)的咨詢服務(wù)。
[1]CrossRef.CrossRef Text and Data Mining[EB/OL].[2015-01-21].http://tdmsupport.crossref.org/.
[2]Lammey R.CrossRef Text and Data Mining Services.CrossRef ALPSPAnnual Meeting,September,2014,London,UK.
[3]Van Noorden R.Trouble at the textmine[J].Nature,2012,483:134-135.
[4]任勝利.《中國(guó)科技期刊國(guó)際化發(fā)展》專題序[J].中國(guó)科技期刊研究,2015,26(3):217-217.
[5]張欣欣,張?jiān)录t,繆弈洲,等.創(chuàng)新與“棒”期刊——《浙江大學(xué)學(xué)報(bào)(英文版)》在科技期刊國(guó)際影響力提升計(jì)劃中的思考與實(shí)踐[J].科技與出版,2015,4:28-33.
[6]ALPSP.Member briefing text and data mining.ALPSP International Conference,2014.London,UK.
[7]史雙青,彭乃珠.Elsevier更新文本挖掘政策以改善研究人員的獲取狀況[EB/OL].[2015-04-08].http://www.openaccess.net.cn.
[8]Elsevier.Text mining of Elsevier full-text content[EB/OL].[2015-03-14].http://dev.elsevier.com/text-mining.html.
[9]Chris Shillum.Elsevier updates text-mining policy to improve access for researchers[EB/OL].[2015-04-08].http://www.elsevier.com/connect/elsevier-updates-text-mining-policyto-improve-access-for-researchers.
[10]Van Noorden R.Elsevieropens its papers to text-mining[EB/OL].[2015-04-08].Nature News,2014.http://www.nature.com/news/elsevier-opens-its-papers-to-text-mining-1.14659.
[11]CrossRef.CrossRef Text and Data Ming Contact Form[EB/OL].[2014-10-08].http://www.crossref.org/tdm/contact-form.html.
[12]張善友.內(nèi)容協(xié)商[EB/OL].[2015-3-6].http://www.cnblogs.com/shanyou/archive/2012/06/12/2547019.html.
[13]Springer API.Springer's text-and data-mining policy[EB/OL].[2015-02-13].http://www.springer.com/gp/rightspermissions/springer-s-text-and-data-mining-policy/29056.
[14]IOPScience.Textand Data Mining(T&DM)[EB/OL].[2015-02-13].http://iopscience.iop.org/info/page/text-anddata-mining.
[15]Elsevier.Terms and conditions of text and data mining[EB/OL].[2015-2-13].http://www.elsevier.com/about/policies/content-mining-policies conditions-of-text-mining.
[16]Lammey R.CrossRef Text and Data Mining Webinar,June 3,2014[EB/OL].[2015-03-14].https://www.youtube.com/watch?v=1BX6A0fshDw.
[17]Bilder G.Geoffrey Bilder's presentation from the 2014 CrossRef Workshops,2014[EB/OL].[2015-03-06].http://rivervalley.zeeba.tv/text-data-mining-api-researcher-use/.