亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        增強(qiáng)機(jī)構(gòu)知識庫內(nèi)容發(fā)現(xiàn)和利用影響的策略與方法實(shí)踐

        2012-04-29 10:16:03盧利農(nóng)祝忠明張旺強(qiáng)劉巍姚曉娜
        圖書與情報 2012年5期

        盧利農(nóng) 祝忠明 張旺強(qiáng) 劉巍 姚曉娜

        摘 要:文章以中國科學(xué)院機(jī)構(gòu)知識庫CAS OpenIR為例,采用基于學(xué)術(shù)搜索引擎Google Scholar優(yōu)化的策略和方法,如針對Google Scholar收錄原則、Google Scholar元數(shù)據(jù)體系、sitemaps、Robots協(xié)議等策略和方法進(jìn)行分析和實(shí)踐,通過提升機(jī)構(gòu)知識庫在Google Scholar中的收錄比率,進(jìn)而增強(qiáng)機(jī)構(gòu)知識庫中內(nèi)容被發(fā)現(xiàn)引用的機(jī)率,以擴(kuò)大IR利用影響力。

        關(guān)鍵詞:機(jī)構(gòu)知識庫 谷歌學(xué)術(shù)搜索 學(xué)術(shù)搜索引擎優(yōu)化 中科院機(jī)構(gòu)知識庫

        中圖分類號: G252 G255.76文獻(xiàn)標(biāo)識碼: A 文章編號: 1003-6938(2012)05-0085-05

        1 引言

        近年來機(jī)構(gòu)知識庫(Institutional Repository,IR)快速穩(wěn)步增長,已覆蓋了大部分知名高校和科研機(jī)構(gòu)。目前在開放獲取機(jī)構(gòu)資源庫OpenDOAR中注冊登記的IR已有2163家[1],除此以外還有相當(dāng)一部分?jǐn)?shù)量的IR未在OpenDOAR中注冊。IR做為支持開放獲取的一種重要形式,支持機(jī)構(gòu)實(shí)施數(shù)字知識資產(chǎn)的長期保存和管理,提高機(jī)構(gòu)及科研人員智力成果的發(fā)現(xiàn)幾率、傳播范圍和影響,是吸引機(jī)構(gòu)及科研人員重視和參與IR建設(shè)的重要因素。相關(guān)的研究也表明,支持開放獲取的論文其引用影響可獲得25%~250%的提升[2]。 而Arlitsch等人[3]的調(diào)查結(jié)果顯示,當(dāng)前IR內(nèi)容被Google Scholar收錄的比率總體上維持在10%~30%的水平,甚至有0%的IR(見圖1)。也就是說,大部分IR的內(nèi)容沒有得到充分的發(fā)現(xiàn)和利用,仍然局限在小范圍內(nèi)進(jìn)行交流傳播。

        Google Scholar作為一項針對學(xué)者和科研人員的免費(fèi)學(xué)術(shù)文獻(xiàn)搜索服務(wù),現(xiàn)在已成為學(xué)者、研究人員和學(xué)生查找專業(yè)文獻(xiàn)資料的首選工具[4]。其搜索的范圍涵蓋了幾乎所有知識領(lǐng)域的高質(zhì)量學(xué)術(shù)研究資料,包括論文、專業(yè)書籍以及技術(shù)報告等。Google Scholar不但可以過濾普通網(wǎng)絡(luò)搜索引擎中對學(xué)術(shù)人士無用的大量信息,通過與眾多學(xué)術(shù)文獻(xiàn)出版商的合作,還加入了許多普通搜索引擎無法搜索到的內(nèi)容。目前,科研用戶通過網(wǎng)絡(luò)來獲取資源,第一選擇就是通過Google等搜索引擎進(jìn)行大范圍搜索,其次考慮利用專業(yè)的學(xué)術(shù)數(shù)據(jù)庫,最后才會去翻閱學(xué)術(shù)期刊。這種檢索順序已經(jīng)形成了一種社會習(xí)慣。

        因此,如何解決IR被搜索引擎Google Scholar收錄,提升IR中學(xué)術(shù)文章被Google Scholar收錄的比率,已成為增強(qiáng)IR內(nèi)容可發(fā)現(xiàn)性和可見性的關(guān)鍵。本文以中國科學(xué)院研究所IR平臺CAS OpenIR[5]為例,采用學(xué)術(shù)搜索引擎優(yōu)化(Academic Search Engine Optimization,ASEO)的策略和方法,通過提升IR在Google Scholar中的索引比率,進(jìn)而增強(qiáng)IR中內(nèi)容被發(fā)現(xiàn)引用和利用影響力。

        [圖1 IR被Google Scholar收錄情況調(diào)查表[3]]

        2 ASEO策略和目的

        ASEO建立在傳統(tǒng)的SEO[6]基礎(chǔ)之上,是從普通的SEO發(fā)展而來。由于學(xué)術(shù)搜索引擎Google Scholar與普通搜索引擎有著明確的定位區(qū)別,因此ASEO與SEO有著明顯的不同之處。

        SEO指通過采用易于搜索引擎索引的合理技術(shù)手段和策略,使網(wǎng)站各項要素適合搜索引擎的檢索原則,從而更容易被搜索引擎收錄和優(yōu)先排序。SEO基于網(wǎng)頁(Web Page),收錄過程較靈活和容易。IR屬于學(xué)術(shù)產(chǎn)出的數(shù)據(jù)庫平臺,有著自身的元數(shù)據(jù)元素集,其中的學(xué)術(shù)文章屬于“Academic Invisible Web”[7],不能被Google Scholar直接訪問和索引。因此,在被學(xué)術(shù)搜索引擎Google Scholar收錄前,需要對IR進(jìn)行ASEO改造,使其符合Google Scholar索引標(biāo)準(zhǔn),易于被Google Scholar收錄爬取。即:

        (1) 使IR可以被搜索引擎Google Scholar更好地收錄和更新(包括IR的元數(shù)據(jù)和全文);

        (2) 使搜索引擎在規(guī)則允許的范圍內(nèi)進(jìn)行索引,明確IR的哪些頁面可以被索引收錄,哪些頁面不能被索引收錄;

        (3) 在用戶使用Google Scholar搜索時,可以排名靠前的呈現(xiàn)IR中的相關(guān)條目,起到推介IR的作用;

        (4) 將IR中開放權(quán)限的全文納入Google Scholar的全文檢索中,增加IR中論文的可見性,提高論文的被引用率。

        3 Google Scholar收錄原則和排名算法

        Google Scholar針對學(xué)術(shù)性數(shù)據(jù)庫內(nèi)容的收錄和索引,有明確的收錄原則[8],如:① 被收錄文章需要有唯一的URL;②匿名用戶可免費(fèi)地通過原文URL進(jìn)入閱讀被收錄文章;③數(shù)據(jù)庫服務(wù)的Robots.txt協(xié)議正確配置,明確允許及禁止Googlebot爬取的路徑及內(nèi)容范圍;④數(shù)據(jù)記錄的Meta標(biāo)簽符合Google Scholar Meta規(guī)則,并且必須包含DC.title,DC.creator,DCTERMS.issued三項描述元數(shù)據(jù);⑤記錄除了題錄文摘信息外,被收錄記錄必須要有全文;⑥全文格式為PDF格式。

        Google Scholar檢索排名繼承了普通Google檢索中應(yīng)用的PageRank算法[9],即主要看某項學(xué)術(shù)內(nèi)容、頁面被引用的情況,同時還將文章全文、作者和出版物等因素納入算法,從而保證檢索結(jié)果的高相關(guān)性,提高查準(zhǔn)率。學(xué)術(shù)論文被引述的頻度越多,一般判斷這篇論文的權(quán)威性就越高,它的PageRank值就越高。

        4 面向IR的ASEO策略與方法實(shí)現(xiàn)

        根據(jù)學(xué)術(shù)搜索引擎Google Scholar收錄、排名的要約特點(diǎn),本文中筆者將選取ASEO中的關(guān)鍵環(huán)節(jié),就設(shè)計思路和實(shí)現(xiàn)的過程做一分析說明。

        4.1 搜索引擎注冊

        在傳統(tǒng)SEO過程中,網(wǎng)站管理員不用太擔(dān)心網(wǎng)站的收錄情況,在網(wǎng)站運(yùn)行一定時間后搜索引擎的機(jī)器人會自動通過已被索引的外部鏈接發(fā)現(xiàn)該網(wǎng)站。而學(xué)術(shù)搜索引擎ASEO過程中,往往需要通過管理員在Google Scholar中對相關(guān)的服務(wù)進(jìn)行注冊,來通知機(jī)器人將其納入爬取對象。有鑒于此,在研究所IR部署完成后:

        (1)要求或者幫助研究所盡快在Google Scholar中完成其IR的注冊和發(fā)布。在Google Scholar注冊IR過程中,除了聲明Google Scholar要求的收錄原則外,還需要聲明IR所用軟件、論文數(shù)量、語種、訪問地址。

        (2)由于Google Scholar的PageRank算法對網(wǎng)絡(luò)分類目錄尤為重視,如果網(wǎng)站被ODP(http://www.dmoz.org)、Yahoo! Directory(http://dir.yahoo.com)等網(wǎng)絡(luò)分類目錄收錄,則可大幅提升其PR值。因此,積極幫助研究所IR在重要網(wǎng)絡(luò)分類目錄中進(jìn)行注冊。

        (3)隨著OpenROAR(http://www.opendoar.org)、ROAR(http://roar.eprints.org)等開放知識庫注冊登記服務(wù)在知識庫服務(wù)領(lǐng)域日益產(chǎn)生重要影響和Google Scholar等搜索引擎的合作,我們也應(yīng)積極引導(dǎo)和幫助研究所IR在這些專門性目錄服務(wù)中進(jìn)行注冊,以加強(qiáng)和提升IR被搜索引擎發(fā)現(xiàn)和索引的幾率。

        4.2 建立適合Google Scholar發(fā)現(xiàn)和索引的描述元標(biāo)簽體系

        Meta(網(wǎng)頁描述元標(biāo)簽)為Google Scholar檢索結(jié)果的輸出格式提供了基于DC元數(shù)據(jù)標(biāo)準(zhǔn)的標(biāo)題、作者、出版物名、出版年/期、摘要等內(nèi)容描述信息。當(dāng)用戶通過Google Scholar進(jìn)行檢索時,Google Scholar自動辨識學(xué)術(shù)文章的格式與內(nèi)容,取得描述信息,并針對論文指示的信息建立自動的引用分析。因此,描述元標(biāo)簽及其描述信息十分重要。

        要保證IR所有內(nèi)容為Google Scholar成功索引,就必須為IR所有的記錄提供帶有Meta描述元標(biāo)簽的頁面。為此,在CAS OpenIR中設(shè)計Meta標(biāo)簽組為自動生成,不同論文記錄頁面中的Meta值自動從記錄對應(yīng)的內(nèi)部元數(shù)據(jù)字段中讀取。由于IR中條目元數(shù)據(jù)字段為內(nèi)部元數(shù)據(jù)存儲字段,并不能直接用于Meta標(biāo)簽,因此需要在使用前建立CAS OpenIR元數(shù)據(jù)字段與Meta之間的映射關(guān)系(見圖2)[10]。

        4.3 構(gòu)建IR動態(tài)網(wǎng)站地圖

        由于目前大部分搜索引擎只跟蹤網(wǎng)站內(nèi)有限數(shù)量的鏈接,例如Google并不會主動抓取網(wǎng)站的所有頁面,尤其是網(wǎng)址里帶有“?”的動態(tài)鏈接。因此,當(dāng)網(wǎng)站較大時,例如IR會隨著學(xué)術(shù)產(chǎn)出的逐年不斷增長而頁面快速增多,就必須有有效的策略來保證IR中每一條記錄目頁面都可以被搜索引擎收錄。目前來看,通過生成和提供網(wǎng)站地圖(sitemap)已成為一種相對可靠的策略和方法。

        在Google官方指南中可看到,網(wǎng)站生成SiteMap文件將有利于搜索引擎機(jī)器人的索引,會大大提高索引網(wǎng)站內(nèi)容的效率和準(zhǔn)確度。SiteMap主要有以下作用[11]:

        *為搜索引擎機(jī)器人提供可以瀏覽整個網(wǎng)站的鏈接;

        *為搜索引擎機(jī)器人提供一些鏈接,指向動態(tài)頁面或者采用其他方法比較難以到達(dá)的頁面;

        *作為一種潛在的著陸頁面,可以為搜索流量進(jìn)行優(yōu)化;

        *如果訪問者試圖訪問網(wǎng)站所在域內(nèi)并不存在的URL,那么這個訪問者就會被轉(zhuǎn)到“無法找到文件”的錯誤頁面,而網(wǎng)站地圖可以作為該頁面的“準(zhǔn)”內(nèi)容。

        目前sitemap地圖在網(wǎng)站應(yīng)用中越來越受重視,但是人工制作sitemap地圖的難度隨著網(wǎng)站網(wǎng)頁數(shù)目的增多也變得越來越困難。因此,CAS OpenIR系統(tǒng)中設(shè)計增加了自動生成和發(fā)布SiteMap的功能,系統(tǒng)自動索引內(nèi)部所有記錄頁面生成索引文件(SiteMap),不限制數(shù)量和深度。CAS OpenIR中SiteMap流程圖(見圖3)如下:

        ①SiteMap模塊觸發(fā)索引機(jī)制后生成sitemaps文件,一般會根據(jù)系統(tǒng)內(nèi)頁面鏈接的數(shù)量生成1個主索引文件(索引文件的索引文件)和10~50個二級索引文件。

        ②在創(chuàng)建好站點(diǎn)地圖后,需要主動將其提交給搜索引擎,節(jié)省收錄時間。使用Google Webmaster Tools工具提交sitemaps后,會生成相應(yīng)報表(見圖4),顯示已提交URLs數(shù)量、被收錄URLs數(shù)量、被搜索信息、URL錯誤信息等。

        ③使用rebots.txt文件中添加sitemap地址的來自動提交sitemap。

        [圖3 CAS OpenIR中SiteMap流程圖]

        [圖4 Google Webmaster Tools 中sitemaps反饋統(tǒng)計圖]

        ④編寫批處理腳本文件,以觸發(fā)時間節(jié)點(diǎn)的定時執(zhí)行sitemap索引任務(wù)。

        ⑤通過Ping請求向google提示。Ping是基于XML_RPC標(biāo)準(zhǔn)協(xié)議的更新通告服務(wù),用于內(nèi)容更新快速通知給搜索引擎,以便搜索引擎及時進(jìn)行抓取和更新。因此當(dāng)IR中內(nèi)容發(fā)生了改變,會生成不同的sitemap索引文件,此時需要通過Ping請求通知搜索引擎進(jìn)行重新收錄。

        4.4 其他ASEO策略和方法

        在CAS OpenIR支持ASEO優(yōu)化過程中,同時采用了以下多種輔助性的策略和方法來進(jìn)一步豐富和完善其整體ASEO方法框架。

        (1) 優(yōu)化配置Robots協(xié)議文件。通過界定Robots搜索引擎收錄規(guī)則,告知Google Scholar機(jī)器人哪些頁面可以收錄,哪些頁面不能收錄。同時使用 Robots協(xié)議告知搜索引擎有關(guān)站點(diǎn)地圖SiteMap的信息。在robots.txt 文件中包含SiteMap鏈接的好處是,開發(fā)人員不用到搜索引擎的站點(diǎn)管理員頁面去提交自己的sitemap文件,搜索引擎的機(jī)器人會主動抓取robots.txt,讀取其中的sitemap路徑,接著進(jìn)行相關(guān)頁面的抓取和索引。

        (2) 動態(tài)URL優(yōu)化。IR的一些頁面使用動態(tài)的URL,往往附帶有很多參數(shù),并比較長,會不利于搜索引擎收錄和提升排名。因此,這對這一問題,主要通過URL重寫的方法[12]進(jìn)行了優(yōu)化調(diào)整,以獲得偽靜態(tài)和簡潔友好的URL網(wǎng)址。如IR動態(tài)生成的URL地址http://[IR域名]/profile?action=eperson-profile&unique_id=0-000343,通過重寫和優(yōu)化后將成為 http://[IR域名]/ unique_id=0-000343。

        (3) 英文場景SEO優(yōu)化。解決英文場景下的Google Scholar對IR的收錄和索引。CAS OpenIR目前通過定制中英文字符集,提供中文、英文兩種字符描述,在英文環(huán)境下,欄目分類、導(dǎo)航、指引文字均為英文描述,并且頁面Meta標(biāo)簽組包含有英文題名、英文關(guān)鍵詞、英文摘要,可以被搜索引擎英文狀態(tài)所搜索收錄。

        5 ASEO實(shí)踐效果

        CAS OpenIR在ASEO前,學(xué)術(shù)內(nèi)容在Google、Google Scholar中被索引的情況較不理想。本文選擇未進(jìn)行ASEO功能優(yōu)化的中科院遙感所IR(http://ir.irsa.ac.cn)為例, 其中內(nèi)容2906條,Google Scholar中被索引率為0(見圖5)。

        [圖5 IRSA 在Google Scholar中搜索結(jié)果圖]

        經(jīng)過ASEO技術(shù)全面改進(jìn)后,在Google Scholar中,筆者以中科院國家科學(xué)圖書館機(jī)構(gòu)知識庫(http://ir.las.ac.cn)為例進(jìn)行搜索,顯示“About 516 results (0.14 seconds)”。意即這516篇論文不僅題錄信息,其全文也納入了Google Scholar的全文檢索。

        6 結(jié)語

        增強(qiáng)IR內(nèi)容發(fā)現(xiàn)和利用影響非朝夕工作,是一項系統(tǒng)工程,需要大量的積累和嘗試。其中ASEO過程已不僅是技術(shù),而是一種思想,一種策略,許多技巧的組合。通過ASEO策略可以將機(jī)構(gòu)知識庫收錄入學(xué)術(shù)搜索引擎中,在科研人員和學(xué)生使用搜索引擎科研過程中,無縫推介和曝光IR內(nèi)容。下一步,我們會繼續(xù)提高CAS OpenIR學(xué)術(shù)內(nèi)容在搜索引擎中的索引收錄率,使IR和其中的論文得以充分可見,積極提高IR內(nèi)容發(fā)現(xiàn)和利用影響力。本文中基于SEO策略的增強(qiáng)知識內(nèi)容發(fā)現(xiàn)和利用影響的實(shí)踐過程,對其他數(shù)字圖書館服務(wù)系統(tǒng)也有著積極的借鑒作用和意義。

        參考文獻(xiàn):

        [1]OpenDOAR chart[EB/OL].[2012-06-18].http://opendoar.

        org/find.php?format=charts.

        [2]Brody, T. and Harnad,S. Comparing the Impact of Open Access (OA) vs. Non-OA Articles in the Same Journals[J/OL].[2012-07-10].http://eprints.ecs.soton.ac.uk/10207/.

        [3]Arlitsch,K.and O'Brien P.Invisible institutional repositories: Addressing the low indexing ratios of IRs in Google Scholar [J].Library Hi Tech, 2012, 30(1):60-81.

        [4]蘇悅,張文德.Google Scholar與現(xiàn)代圖書館[J].情報探索,2007,(11):10-12.

        [5]祝忠明.中國科學(xué)院機(jī)構(gòu)知識庫建設(shè)軟件[R].Post-Co

        nference of Berlin 8 Open Access Conference,2010.

        [6]Search Engine Optimization(SEO)[EB/OL].[2012-05-25].http://zh.wikipedia.org/wiki/SEO.

        [7]Dirk Lewandowski,Philipp Mayr.Exploring the Academic Invisible Web[J].Library Hi Tech. 2006,24(4):529539.

        [8]Google.Inclusion Guidelines for Webmasters[EB/OL]. [2012-06-18].http://scholar.google.com/intl/en/scholar/inclusion.html.

        [9]Page,L.,Brin,S.,Motwani,R.andet al.The PageRank Citation Ranking: Bringing Order to the Web[EB/OL].[2012-06-18].http://citeseerxist psu.edu/viewdoc/summary?doi=10.1.1.31.1768.

        [10]Dublin Core Collection Description Application Profile[EB/OL].[2012-05-10]. http://www.ukoln.ac.uk/meta

        data/dcmi/collection-application-profile/.

        [11]Sitemap[EB/OL].[2012-05-18].http://zh.wikipedia.org

        /wiki/Sitemap.

        [12]Rewrite engine[EB/OL].[2012-02-25].http://en.wikpe

        dia.org/wiki/Mod_rewrite.

        作者簡介:盧利農(nóng)(1985-),男,中科院國家科學(xué)圖書館蘭州分館館員;祝忠明(1968-),男,中科院國家科學(xué)圖書館蘭州分館研究員;張旺強(qiáng)(1985-), 男,中科院國家科學(xué)圖書館蘭州分館館員;劉?。?980-),男,中科院國家科學(xué)圖書館蘭州分館館員;姚曉娜(1985-),女,中科院國家科學(xué)圖書館蘭州分館館員。

        日本大片在线看黄a∨免费| 国产自拍在线观看视频| 国产 高潮 抽搐 正在播放 | 欧美精品中文| 亚洲一区二区观看网站| 国产一区二区黄色的网站| 又色又爽又高潮免费视频国产| 欧美日韩不卡视频合集| 吃下面吃胸在线看无码| 国产精品久久婷婷六月丁香| 久久精品国产99久久无毒不卡| 天堂影院一区二区三区四区| 日韩国产欧美成人一区二区影院 | 亚洲综合激情五月丁香六月| 日韩国产精品一区二区Hd| av亚洲在线一区二区| 日韩av毛片在线观看| 无码av天堂一区二区三区| 二区在线视频| 日本在线观看一区二区三区视频| 国产免费观看黄av片| 热re99久久精品国产99热| 无码高清视频在线播放十区| 亚洲精品一区二区网站| 欧美猛少妇色xxxxx猛交| 男人扒开女人双腿猛进女人机机里 | 一本色道久久爱88av| 精品丝袜人妻久久久久久| 国产一区二区三区av免费观看| 精品一区二区在线观看免费视频| 日本最大色倩网站www| 制服丝袜视频国产一区| 国产精品中文字幕日韩精品| 日韩一区二区三区无码影院| 精品一区二区三区在线观看| 国产免费视频一区二区| 国产在线视频一区二区天美蜜桃| 国产精品免费大片| 久久99久久99精品观看| 亚州终合人妖一区二区三区| 午夜精品一区二区三区的区别 |