亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)的實(shí)施:實(shí)踐與思考

        2014-12-05 00:24:36朱玲崔海媛聶華
        關(guān)鍵詞:實(shí)施

        朱玲 崔海媛 聶華

        摘要 近年來(lái),網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)在圖書(shū)館業(yè)界迅速興起。方案選定之后如何實(shí)施,就成為發(fā)現(xiàn)服務(wù)從評(píng)估走向應(yīng)用、從產(chǎn)品推向服務(wù)的關(guān)鍵。文章以“未名學(xué)術(shù)搜索”的實(shí)踐為基礎(chǔ),介紹了網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)在北大圖書(shū)館的實(shí)施背景、目標(biāo)和組織方式及以下實(shí)施要點(diǎn):本地館藏的映射與同步,商業(yè)電子資源的訂購(gòu)與配置,檢索機(jī)制的優(yōu)化,界面和檢索框架的客制化,系統(tǒng)發(fā)布與服務(wù)。

        關(guān)鍵詞 發(fā)現(xiàn)服務(wù) 實(shí)施 未名學(xué)術(shù)搜索

        1 引言

        網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)自問(wèn)世以來(lái)就受到圖書(shū)館業(yè)界的強(qiáng)烈關(guān)注,并在全球迅速得到廣泛應(yīng)用。市場(chǎng)上的幾種主流產(chǎn)品分別是:OCLC的WorldCat Lo-cal(2008年正式推出),SerialsSolutions的Sum-mon(2009年7月發(fā)布),Exlibris的Primo Cen-tral(2010年6月正式發(fā)布),EBSCO的EBSCODiscovery Service(EDS)(2010年1月發(fā)布),以及Innovatives的Encore Synergy(2010年4月發(fā)布)。近幾年來(lái),國(guó)內(nèi)對(duì)幾種主流發(fā)現(xiàn)產(chǎn)品和方案的考察和評(píng)估一直是數(shù)字圖書(shū)館領(lǐng)域的研究熱點(diǎn),但對(duì)于其具體實(shí)施過(guò)程未有專門(mén)論述。2011年6月,北大圖書(shū)館在引進(jìn)美國(guó)SerialsSolut-ions公司發(fā)現(xiàn)服務(wù)方案所含產(chǎn)品(Summon,360Link,Knowledgeworks)后隨即啟動(dòng)實(shí)施工作,主要任務(wù)包括:資源的全面整合、檢索機(jī)制的優(yōu)化、界面的客制化、上線籌備等。經(jīng)過(guò)實(shí)施小組的通力協(xié)作和緊張籌備,“未名學(xué)術(shù)搜索”在同年11月順利向讀者推出,標(biāo)志著發(fā)現(xiàn)服務(wù)在北大圖書(shū)館率先進(jìn)入應(yīng)用階段。本文以上述實(shí)踐為基礎(chǔ),詳細(xì)介紹和探討了發(fā)現(xiàn)服務(wù)在北大圖書(shū)館的實(shí)施細(xì)節(jié),包括背景、目標(biāo)、組織方式和要點(diǎn)。

        2 背景與思路

        2.1 背景

        2011年6月,北大圖書(shū)館與美國(guó)SerialsSolut-ions公司正式簽訂了購(gòu)買(mǎi)該公司發(fā)現(xiàn)服務(wù)方案所含產(chǎn)品的合同,成為網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)Summon在中國(guó)大陸地區(qū)的第一家用戶。盡管此前在發(fā)現(xiàn)服務(wù)的評(píng)估和試用中已經(jīng)積累了一定的經(jīng)驗(yàn)和團(tuán)隊(duì)基礎(chǔ),Summon在北大圖書(shū)館正式應(yīng)用之前依然面臨著不少挑戰(zhàn),如:系統(tǒng)首次全面處理CNMARC記錄、多種個(gè)性化的中文數(shù)字特藏;電子資源知識(shí)庫(kù)中首次引入和配置中文數(shù)據(jù)庫(kù);系統(tǒng)首次推出中文檢索功能;SaaS模式的產(chǎn)品實(shí)施在本館還未有成熟經(jīng)驗(yàn);與廠商支持團(tuán)隊(duì)的合作受到語(yǔ)言和遠(yuǎn)程交流的局限等。

        2.2 系統(tǒng)架構(gòu)特點(diǎn)

        發(fā)現(xiàn)服務(wù)從系統(tǒng)架構(gòu)上可以分為兩種類型:(1)單一型(單純基于中心索引/元數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)),(2)混合型(基于中心索引+本地索引,元數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)+元搜索技術(shù)),兩種類型的特點(diǎn)對(duì)比如圖1所示。

        Summon在系統(tǒng)架構(gòu)上屬于單一型。從用戶體驗(yàn)的角度看:基于標(biāo)準(zhǔn)化的中心索引,用戶可以得到更為快速的檢索反饋和更加規(guī)范清晰的相關(guān)度排序;采用SaaS模式,用戶可以從系統(tǒng)靈活的功能更新和短至2~3周的版本升級(jí)中獲益,率先體會(huì)發(fā)現(xiàn)服務(wù)領(lǐng)域新技術(shù)在系統(tǒng)中的應(yīng)用。從后臺(tái)實(shí)施的角度看:?jiǎn)我恍图軜?gòu)減少了本地硬件設(shè)施投入和后期維護(hù)負(fù)擔(dān),但也造成了對(duì)廠商支持力度和網(wǎng)絡(luò)環(huán)境的依賴加強(qiáng),系統(tǒng)對(duì)接的調(diào)試難度加大,知識(shí)庫(kù)的配置精度要求提高,在實(shí)施計(jì)劃、人員協(xié)作、工作質(zhì)量和進(jìn)度控制上都對(duì)實(shí)施團(tuán)隊(duì)提出了更高的要求。

        2.3 實(shí)施目標(biāo)與內(nèi)容

        在分析本館資源情況和調(diào)研讀者需求的基礎(chǔ)上,北大圖書(shū)館將發(fā)現(xiàn)服務(wù)的實(shí)施目標(biāo)概括為:對(duì)北大圖書(shū)館所藏/所建/所購(gòu)的全部學(xué)術(shù)資源進(jìn)行元數(shù)據(jù)級(jí)的深度整合,構(gòu)建海量、高質(zhì)、標(biāo)準(zhǔn)化的元數(shù)據(jù)中心索引,通過(guò)功能強(qiáng)大的搜索引擎以及與讀者熟悉的網(wǎng)絡(luò)服務(wù)相比擬的界面體驗(yàn),向讀者提供統(tǒng)一、快速的搜索服務(wù)。在搜索結(jié)果鏈接中,分層次地嵌入圖書(shū)館相關(guān)系統(tǒng)命中該條資源的全文鏈接、信息頁(yè)、系統(tǒng)入口或服務(wù)申請(qǐng)人口,帶動(dòng)讀者對(duì)圖書(shū)館現(xiàn)有系統(tǒng)和服務(wù)更好的了解和實(shí)踐,以此增進(jìn)讀者對(duì)本館學(xué)術(shù)資源類型、形態(tài)、獲取方式的理解和把握能力,促進(jìn)讀者綜合信息素養(yǎng)的提升,并提高圖書(shū)館學(xué)術(shù)資源的有效使用率。在實(shí)施過(guò)程中,重新梳理所涉及資源的管理方式,借機(jī)清理數(shù)據(jù)中的遺留問(wèn)題,力爭(zhēng)促進(jìn)業(yè)務(wù)流程和分工的優(yōu)化與合理調(diào)整。對(duì)SaaS模式的產(chǎn)品實(shí)施和服務(wù)應(yīng)用進(jìn)行有益的嘗試和探索,為今后的系統(tǒng)選型和實(shí)施積累經(jīng)驗(yàn)。

        實(shí)施內(nèi)容主要包括:本地館藏的映射與同步,商業(yè)電子資源的訂購(gòu)與配置,檢索機(jī)制的優(yōu)化,界面和檢索框架的客制化,系統(tǒng)發(fā)布與服務(wù)。

        2.4 組織與實(shí)施方式

        在前期多部門(mén)共同參與發(fā)現(xiàn)服務(wù)試用和評(píng)估的基礎(chǔ)上,北大圖書(shū)館針對(duì)實(shí)施工作成立了專門(mén)的項(xiàng)目小組,抽調(diào)多部門(mén)的骨干館員共同參與,在資源映射與配置、系統(tǒng)數(shù)據(jù)與檢索功能、界面框架與發(fā)現(xiàn)體系、讀者需求與反饋等方面各有分工并密切配合。同時(shí),在“圖書(shū)館主導(dǎo)實(shí)施方案和計(jì)劃,廠商提供技術(shù)支持和人員嵌入”的原則下,實(shí)施小組與廠商共同制定了實(shí)施計(jì)劃,協(xié)調(diào)人員安排和進(jìn)度。與以往引入的系統(tǒng)有所不同,發(fā)現(xiàn)服務(wù)廠商的支持團(tuán)隊(duì)分散于國(guó)內(nèi)外的幾個(gè)服務(wù)中心,因此,除郵件之外,雙方還大量、頻繁地使用了網(wǎng)絡(luò)視頻會(huì)議作為越洋溝通的主要方式。同時(shí),由于上述方式在語(yǔ)言差異、上下文語(yǔ)義、即時(shí)反應(yīng)上存在較大的局限性,實(shí)施小組在重/難點(diǎn)問(wèn)題的討論上,依然堅(jiān)持與廠商的核心支持團(tuán)隊(duì)召開(kāi)直接的面對(duì)面會(huì)談。充分依托高校圖書(shū)館的人文環(huán)境,圖書(shū)館還邀請(qǐng)到了北大計(jì)算語(yǔ)言學(xué)研究所、北大信息科學(xué)技術(shù)學(xué)院網(wǎng)絡(luò)與信息系統(tǒng)研究所的師生來(lái)館交流學(xué)習(xí),在自然語(yǔ)言處理、搜索技術(shù)和策略等問(wèn)題上進(jìn)行了深入探討。

        3 實(shí)踐與思考

        3.1 資源的全面整合

        發(fā)現(xiàn)服務(wù)的核心是格式統(tǒng)一、結(jié)構(gòu)清晰、內(nèi)容全面的元數(shù)據(jù)中心索引和基于標(biāo)準(zhǔn)化索引的快速檢索。相應(yīng)地,實(shí)施過(guò)程的核心任務(wù)是將圖書(shū)館所藏/所建/所購(gòu)的全部資源通過(guò)一系列的處理步驟全部納入該中心索引,并以此為基礎(chǔ)提供強(qiáng)大的搜索和鏈接功能。endprint

        資源整合的總體框架如圖2所示,整合工作可劃分為本地資源和商業(yè)電子資源兩部分:(1)本地資源:館藏書(shū)目/數(shù)字特藏元數(shù)據(jù)的抽取、映射、收割、導(dǎo)人中心索引(用于Summon中本地資源的搜索、揭示和鏈接),(2)商業(yè)電子資源:本館所購(gòu)電子資源在統(tǒng)一電子資源知識(shí)庫(kù)Knowledgeworks中的匹配、狀態(tài)訂閱和自有數(shù)據(jù)建設(shè)(用于Summon中電子資源的搜索范圍設(shè)定和360Link中的全文鏈接)。

        3.2 本地館藏的映射與同步

        北大圖書(shū)館的本地館藏資源豐富、類型多樣、特色鮮明,數(shù)據(jù)基本情況如表1所示。

        本地館藏的處理可分為數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)映射與導(dǎo)入以及數(shù)據(jù)同步三個(gè)主要步驟。

        數(shù)據(jù)準(zhǔn)備:包括元數(shù)據(jù)的導(dǎo)出和清理。導(dǎo)出時(shí),需在系統(tǒng)支持的范圍內(nèi),盡量選擇便于處理的格式(優(yōu)先順序?yàn)镸ARC、XML、其它),盡量選擇國(guó)際通行的字符編碼(但個(gè)別特藏除外),并注意數(shù)據(jù)的狀態(tài)(是否刪除、是否屏蔽等)。導(dǎo)出后需仔細(xì)核對(duì)數(shù)目和完整性,并整理每種數(shù)據(jù)類型的元數(shù)據(jù)字段說(shuō)明表。

        數(shù)據(jù)映射與導(dǎo)入:為了使這些數(shù)據(jù)在Summon中被正確地索引和揭示,需要將各個(gè)本地系統(tǒng)的各個(gè)元數(shù)據(jù)字段通過(guò)一個(gè)標(biāo)準(zhǔn)化的提取規(guī)則存入中心索引中相應(yīng)的標(biāo)準(zhǔn)字段,這個(gè)標(biāo)準(zhǔn)化規(guī)則即為從該本地?cái)?shù)據(jù)到中心索引的映射。完成映射后,即可按照此規(guī)則進(jìn)行數(shù)據(jù)導(dǎo)入和揭示。實(shí)施小組首先針對(duì)北大館的多個(gè)本地館藏確定了“由通及變”的處理順序,即先從有成熟經(jīng)驗(yàn)可借鑒的USMARC書(shū)目記錄著手,再到初次處理但結(jié)構(gòu)相似的CNMARC書(shū)目記錄,最后到更加個(gè)性化、多樣化的特藏?cái)?shù)據(jù)。對(duì)每一種數(shù)據(jù)類型,充分發(fā)揮小組成員各自的經(jīng)驗(yàn)與優(yōu)勢(shì),先由最熟悉該種數(shù)據(jù)的編目館員通過(guò)兩種數(shù)據(jù)的字段對(duì)照、存疑假定等填寫(xiě)完成初始映射表,冉由所有成員從不同的角度進(jìn)行細(xì)致、全面的測(cè)試和調(diào)整,步驟為:映射→數(shù)據(jù)導(dǎo)入→測(cè)試→反饋→映射修正→數(shù)據(jù)再導(dǎo)人,如此往復(fù)若干次直至檢驗(yàn)結(jié)果完全滿意。為了最大程度地保證映射的全面和準(zhǔn)確,測(cè)試對(duì)象既有從館員角度挑選的典型測(cè)例,也覆蓋了從讀者角度隨機(jī)抽取的大量記錄。例如,書(shū)目記錄測(cè)試中的典型測(cè)例包括:各種內(nèi)容類型的記錄,各種語(yǔ)種的記錄,各個(gè)分館的記錄,各個(gè)時(shí)間段的記錄,以及一些較復(fù)雜較特殊的字段(例如,需要先進(jìn)行指示符判斷的字段/多層次字段等)。對(duì)測(cè)試中發(fā)現(xiàn)的問(wèn)題,編目館員、小組其他成員、以及公司的編目專員共同進(jìn)行了分析和處理。書(shū)目記錄遇到的主要問(wèn)題有:顯示字段映射不準(zhǔn)確(不顯示/顯示不對(duì)或不全/相似字段混淆/顯示格式不當(dāng)),索引字段映射不準(zhǔn)確,提取程序處理不當(dāng),標(biāo)識(shí)字段格式不規(guī)范等。相應(yīng)的處理方法為修正映射,修正程序,調(diào)整數(shù)據(jù)格式的識(shí)別方式等。對(duì)數(shù)字特藏,問(wèn)題則集中在不能嚴(yán)格匹配的個(gè)性化字段如何變通處理,例如,多媒體數(shù)據(jù)的責(zé)任者類型繁多(導(dǎo)演/演員/演講者/編劇/作曲/編曲/演奏/演唱……),最終都統(tǒng)一作為著者字段映射和揭示;北大名師的元數(shù)據(jù)本質(zhì)上是以人物為核心的復(fù)合型數(shù)據(jù),但在系統(tǒng)內(nèi)容類型不支持的情況下,最終取其人物介紹的類型映射到“文章”。

        數(shù)據(jù)同步:數(shù)據(jù)同步是保障Summon中檢索內(nèi)容時(shí)效性的關(guān)鍵環(huán)節(jié),包括基本信息和實(shí)時(shí)狀態(tài)的同步。(1)基本信息的同步:理想情況下Summon中的數(shù)據(jù)基本信息應(yīng)隨原系統(tǒng)數(shù)據(jù)的變化而立即更新,但實(shí)踐中通常隨系統(tǒng)支持情況和自身更新頻率采取彈性策略。例如:北大圖書(shū)館的ILS系統(tǒng)自身的更新頻率較高,策略為自動(dòng)日更新;學(xué)位論文一般隨著每年學(xué)生畢業(yè)進(jìn)行數(shù)據(jù)更新,策略為手動(dòng)年更新;電子書(shū)和大部分特藏?cái)?shù)據(jù)的更新具有批量性和項(xiàng)目階段性,策略為緊隨原系統(tǒng)作不定期更新。更新方式主要為ftp自動(dòng)或手動(dòng)上傳。測(cè)試中也考慮過(guò)通過(guò)OAI-PMH協(xié)議自動(dòng)收割,其優(yōu)點(diǎn)是自動(dòng)化和時(shí)效性更高。但由于支持該協(xié)議的系統(tǒng)本身的更新頻率較低,且收割范圍和字段在接口中難以準(zhǔn)確界定,最終并未采用。(2)實(shí)時(shí)狀態(tài)的同步:基于本地自動(dòng)化系統(tǒng)的支持情況,實(shí)施中成功實(shí)現(xiàn)了兩種方式:“頁(yè)面提取”方式和“Z39.50協(xié)議”方式。但由于本地自動(dòng)化系統(tǒng)對(duì)頁(yè)面訪問(wèn)壓力的承受力較低,而Z39.50協(xié)議接口的響應(yīng)速度較慢,如何穩(wěn)定地實(shí)現(xiàn)實(shí)時(shí)狀態(tài)的快速同步仍需結(jié)合ILS系統(tǒng)的具體情況,進(jìn)一步研究探索更優(yōu)方案。

        在對(duì)本地館藏的導(dǎo)出和處理過(guò)程中,北大圖書(shū)館擇機(jī)發(fā)現(xiàn)和清理了一批圖書(shū)館本地系統(tǒng)數(shù)據(jù)中存在的問(wèn)題,例如CNMARC的001字段問(wèn)題,并借此契機(jī)促進(jìn)了書(shū)目數(shù)據(jù)的批量修正。另外,小組成員在實(shí)施中還提出了若干難以兩全、未有定論的問(wèn)題,例如:元數(shù)據(jù)中心索引的標(biāo)準(zhǔn)字段應(yīng)該盡量提高包容性(擴(kuò)展、細(xì)化更多的字段)還是保持簡(jiǎn)潔通用性?分面中記錄的劃分應(yīng)該盡量滿足細(xì)分性還是簡(jiǎn)潔唯一性?這些問(wèn)題值得在產(chǎn)品改進(jìn)和應(yīng)用深入的過(guò)程中繼續(xù)思考。

        3.3 商業(yè)電子資源的訂購(gòu)與配置

        近年來(lái),圖書(shū)館一直在大量引進(jìn)國(guó)內(nèi)外電子資源。例如,近五年來(lái)(2008—2012),北京大學(xué)圖書(shū)館在館藏建設(shè)總經(jīng)費(fèi)基本持平的情況下,電子資源經(jīng)費(fèi)平均年增長(zhǎng)率達(dá)到12.6%。電子資源數(shù)量眾多、更新迅速、學(xué)術(shù)研究?jī)r(jià)值巨大,在圖書(shū)館資源中占據(jù)了重要的地位,有力地支持了用戶的學(xué)習(xí)和研究需求。以北大圖書(shū)館為例,截至2014年6月5日,所購(gòu)置的中外文數(shù)據(jù)庫(kù)中(不包括試用數(shù)據(jù)庫(kù))為活躍狀態(tài)的達(dá)237個(gè),且涵蓋多種資源類型,其中僅覆蓋的電子期刊即達(dá)到近5萬(wàn)種,所包納的論文篇目更是數(shù)以億計(jì),電子資源基本情況如表2所示。

        網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)Summon中,對(duì)商業(yè)電子資源的訪問(wèn)和全文獲取鏈接通過(guò)對(duì)后臺(tái)的統(tǒng)一知識(shí)庫(kù)Knowledgeworks進(jìn)行配置得以實(shí)現(xiàn)。知識(shí)庫(kù)統(tǒng)一存儲(chǔ)和管理圖書(shū)館的電子資源館藏信息(主要為電子刊、電子書(shū)、學(xué)位論文等),是電子資源整合服務(wù)最核心的數(shù)據(jù)基礎(chǔ)。

        北大圖書(shū)館在原有本地導(dǎo)航系統(tǒng)的基礎(chǔ)上,對(duì)數(shù)據(jù)庫(kù)列表、期刊列表進(jìn)行了仔細(xì)整理,并通過(guò)與資源商溝通、索取最新數(shù)據(jù)進(jìn)行了更新,據(jù)此在Knowlegeworks知識(shí)庫(kù)中進(jìn)行了全面配置。借資源徹底梳理和更新的契機(jī),北大圖書(shū)館還將電子資源的后臺(tái)管理和維護(hù)從本地系統(tǒng)遷移到了更加規(guī)范化、標(biāo)準(zhǔn)化的Knowledgeworks知識(shí)庫(kù)管理端,并對(duì)業(yè)務(wù)流程和分工進(jìn)行了優(yōu)化和調(diào)整,以便進(jìn)一步提升管理和服務(wù)水平。endprint

        電子資源的配置中,電子刊/電子書(shū)全文數(shù)據(jù)庫(kù)是最重要的部分,其全面性和精確性直接決定了Summon中檢索結(jié)果的全文鏈接是否完整和準(zhǔn)確。實(shí)施中,首先做數(shù)據(jù)庫(kù)層級(jí)的配置:基于本館數(shù)據(jù)庫(kù)列表中的每一個(gè)數(shù)據(jù)庫(kù),在Knowledgeworks知識(shí)庫(kù)中通過(guò)考察關(guān)鍵屬性(平臺(tái)商、鏈接站點(diǎn)、包含的資源集等)進(jìn)行最優(yōu)匹配,并對(duì)其詳細(xì)信息(描述信息、關(guān)聯(lián)信息、權(quán)限賬號(hào)信息、可見(jiàn)性信息等)進(jìn)行精確設(shè)置或修改。這之后,再進(jìn)行期刊層級(jí)的配置:若數(shù)據(jù)庫(kù)為整庫(kù)購(gòu)買(mǎi),全部訂閱即可;若數(shù)據(jù)庫(kù)為部分購(gòu)買(mǎi),則需將本地電子刊/電子書(shū)列表與選中標(biāo)準(zhǔn)庫(kù)中的列表通過(guò)唯一標(biāo)識(shí)符(一般為ISSN或ISBN)進(jìn)行自動(dòng)匹配,并個(gè)性化設(shè)置匹配成功記錄的訂閱年限等狀態(tài)信息,再人工處理匹配失敗的少數(shù)記錄(原因包括:數(shù)據(jù)庫(kù)確未覆蓋,記錄標(biāo)識(shí)信息缺失,記錄標(biāo)識(shí)信息有誤或有變動(dòng))。對(duì)極少數(shù)人工依然無(wú)法識(shí)別的記錄,還需要與公司電子資源專員和數(shù)據(jù)庫(kù)商進(jìn)行多方討論和求證,盡量提高覆蓋率。由于同一條電子刊/電子書(shū)記錄可能被多個(gè)數(shù)據(jù)庫(kù)或多個(gè)鏡像站覆蓋,所以,將所有數(shù)據(jù)庫(kù)及其鏡像站配置完成后,還需總覽全局,對(duì)數(shù)據(jù)庫(kù)之間以及鏡像站之間進(jìn)行優(yōu)先級(jí)排序。對(duì)英文數(shù)據(jù)庫(kù)來(lái)說(shuō),在配置中最常見(jiàn)的問(wèn)題是匹配發(fā)生歧義和多鏡像站并存時(shí)如何全面配置。對(duì)于前者,解決方法為根據(jù)情況靈活地拆分訂閱,必要時(shí)進(jìn)行單刊補(bǔ)充;對(duì)于后者,需要全面訂閱本館有訪問(wèn)權(quán)限的鏡像站,對(duì)標(biāo)準(zhǔn)庫(kù)不含的中國(guó)鏡像站,要盡快補(bǔ)充建立。對(duì)中文數(shù)據(jù)庫(kù)來(lái)說(shuō),實(shí)施時(shí)知識(shí)庫(kù)中覆蓋率幾乎為零。為了保證發(fā)現(xiàn)服務(wù)中文資源也能盡快推出,北大館根據(jù)自己的訂購(gòu)情況,詳細(xì)梳理了中文電子刊數(shù)據(jù)庫(kù)(例如:CNKI,維普,萬(wàn)方)和中文電子書(shū)數(shù)據(jù)庫(kù)(例如:超星電子書(shū),方正電子書(shū))的資源列表,并據(jù)此快速新建了北大館專用知識(shí)庫(kù)。同時(shí),在推動(dòng)SerialsSolut-ions公司與中文電子資源商合作不斷加強(qiáng)、知識(shí)庫(kù)中中文標(biāo)準(zhǔn)庫(kù)不斷增加的過(guò)程中,將北大專用庫(kù)逐步過(guò)渡到標(biāo)準(zhǔn)庫(kù)。

        除了全文電子刊/電子書(shū)資源外,北大館訂購(gòu)的商業(yè)數(shù)據(jù)庫(kù)覆蓋的類型還包括:二次文獻(xiàn)、學(xué)位論文、報(bào)紙、事實(shí)、資訊、百科全書(shū)、法律法規(guī)等。對(duì)于這些庫(kù),一般只做數(shù)據(jù)庫(kù)層級(jí)的訂閱,并將其中的篇目級(jí)內(nèi)容在Summon中賦予訪問(wèn)權(quán)限即可。

        由于商業(yè)電子資源的數(shù)量龐大,并且其狀態(tài)、年限等可能由于各種因素而發(fā)生變動(dòng),在實(shí)踐中達(dá)到配置和訂閱的絕對(duì)精確是非常困難的。因此,在實(shí)施完成之后,還需要持續(xù)追蹤數(shù)據(jù)庫(kù)的更新,并且重視讀者使用反饋的收集和響應(yīng),據(jù)此及時(shí)地對(duì)知識(shí)庫(kù)進(jìn)行動(dòng)態(tài)維護(hù)和調(diào)整。

        完成電子資源的訂購(gòu)和配置后,北大圖書(shū)館還基于電子資源知識(shí)庫(kù)Knowledgeworks開(kāi)發(fā)和推出了新的數(shù)據(jù)庫(kù)導(dǎo)航和電子期刊導(dǎo)航系統(tǒng),在110周年館慶之際(1902-2012)與新的圖書(shū)館門(mén)戶系統(tǒng)同期發(fā)布。

        3.4 檢索機(jī)制的優(yōu)化

        對(duì)于借鑒網(wǎng)絡(luò)搜索引擎的技術(shù)框架,基于海量元數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)的網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù),衡量其檢索效果的核心指標(biāo)與網(wǎng)絡(luò)搜索引擎相似,分別為召回率(又稱查全率),精度(又稱查準(zhǔn)率),以及在系統(tǒng)返回的全部相關(guān)文檔集合上進(jìn)行的更為精細(xì)的相關(guān)度得分計(jì)算和排序。相應(yīng)地,在檢索機(jī)制的優(yōu)化中,北大圖書(shū)館將這三個(gè)指標(biāo)列為重點(diǎn)考量的因素。在大規(guī)模數(shù)據(jù)集合中,召回率和精度這兩個(gè)指標(biāo)是相互制約的,需要尋求一個(gè)平衡點(diǎn)。對(duì)于學(xué)術(shù)性的資源檢索系統(tǒng),高質(zhì)量的數(shù)據(jù)和可靠的召回率至關(guān)重要。因此,北大圖書(shū)館在改進(jìn)中文檢索機(jī)制時(shí)的指導(dǎo)思路是:確保高的召回率,在兼顧較高精度的同時(shí),通過(guò)相關(guān)度排序幫助用戶在結(jié)果前列快速查找信息。實(shí)施小組對(duì)檢索機(jī)制進(jìn)行了深入的調(diào)查和研究,并通過(guò)大量實(shí)例評(píng)測(cè)了檢索效果,提出了建議的改進(jìn)方案。在此基礎(chǔ)上,與公司負(fù)責(zé)中文檢索的工程師進(jìn)行了多次集中研討,根據(jù)評(píng)測(cè)結(jié)果分析問(wèn)題實(shí)質(zhì)并提出解決方法,最終有效地推動(dòng)公司在隨后的幾次升級(jí)版本中逐步實(shí)現(xiàn)相應(yīng)的改進(jìn)。

        3.4.1 相關(guān)度排序的優(yōu)化

        Summon的相關(guān)度排序因子包括兩方面:動(dòng)態(tài)因子(詞頻、字段、鄰接度等),靜態(tài)因子(內(nèi)容類型,時(shí)間等),具體算法則基于統(tǒng)計(jì)模型。實(shí)施小組從用戶角度對(duì)系統(tǒng)相關(guān)度排序效果進(jìn)行了評(píng)測(cè),評(píng)測(cè)結(jié)果可分為兩類:

        一、取得一致的改進(jìn)意見(jiàn)。例如:標(biāo)題匹配的記錄應(yīng)該更加提前,完全逐字匹配的記錄應(yīng)該更加提前,中文記錄的排序應(yīng)該考慮語(yǔ)序因素等。相應(yīng)地,實(shí)施中根據(jù)測(cè)試反饋對(duì)相關(guān)度排序進(jìn)行了優(yōu)化:1.微調(diào)個(gè)別字段權(quán)重。對(duì)標(biāo)題字段權(quán)重在可允范圍內(nèi)適當(dāng)加大。2.對(duì)完全匹配記錄給予獎(jiǎng)勵(lì)權(quán)重。對(duì)符合與輸入字串完全逐字匹配,甚至整個(gè)字段完全匹配的記錄給予獎(jiǎng)勵(lì)權(quán)重。3.根據(jù)中文特點(diǎn)引入語(yǔ)序獎(jiǎng)勵(lì)權(quán)重。同等條件下當(dāng)記錄中詞串語(yǔ)序與輸入語(yǔ)序相同時(shí)該條記錄提前。

        二、有爭(zhēng)議的改進(jìn)意見(jiàn)。例如:1.內(nèi)容類型的權(quán)重調(diào)整。有的意見(jiàn)認(rèn)為紙本書(shū)目代表圖書(shū)館館藏的優(yōu)勢(shì)和特點(diǎn),應(yīng)該給予盡量提前;有的意見(jiàn)認(rèn)為期刊論文的時(shí)效性、學(xué)術(shù)性較高,應(yīng)該盡量給予提前;還有的意見(jiàn)認(rèn)為數(shù)字特藏最能突出本館特色,應(yīng)該盡量給予提前。2.中外文記錄的混排。有的意見(jiàn)認(rèn)為應(yīng)該將與用戶使用界面語(yǔ)種相同的記錄提前,或?qū)⑴c用戶輸入檢索詞語(yǔ)種相同的記錄提前,另外的意見(jiàn)則認(rèn)為當(dāng)用戶使用某語(yǔ)種界面或使用某語(yǔ)種輸入時(shí),對(duì)記錄的語(yǔ)種屬性并無(wú)明確期待。對(duì)這類評(píng)測(cè)意見(jiàn),實(shí)施中則保持原狀,未做調(diào)整。但是,對(duì)于面向多種類型和多語(yǔ)種資源的發(fā)現(xiàn)服務(wù),如何在繁多資源類型和不同語(yǔ)種之間進(jìn)行權(quán)衡和平衡,是個(gè)無(wú)法回避的問(wèn)題,有待進(jìn)一步研討。

        3.4.2 中文檢索相關(guān)

        提高中文分詞的精度和系統(tǒng)對(duì)分詞歧義的容錯(cuò)性:中文分詞技術(shù)是所有中文信息處理步驟的基礎(chǔ),分詞結(jié)果的好壞對(duì)中文檢索系統(tǒng)的三個(gè)核心指標(biāo)都有影響。北大圖書(shū)館通過(guò)分詞評(píng)測(cè)(SigHan標(biāo)準(zhǔn))和檢索測(cè)試,對(duì)系統(tǒng)中原來(lái)存在的主要分詞問(wèn)題進(jìn)行了診斷和改進(jìn)。1.人名和新詞識(shí)別率較低,往往被切分為單字,導(dǎo)致檢索返回大量不相關(guān)結(jié)果。針對(duì)這一問(wèn)題,分詞系統(tǒng)引入后處理模塊和專用詞典(該詞典覆蓋了系統(tǒng)元數(shù)據(jù)作者字段中抽取的高頻人名、機(jī)構(gòu)名等,并利用其它數(shù)據(jù)源進(jìn)行了大量補(bǔ)充),對(duì)分詞后不能有效識(shí)別的字詞碎片,與專用詞典進(jìn)行匹配和二次識(shí)別。這種方式在基本不影響召回率的前提下,有效提高了檢索精度。2.分詞歧義(此處特指真歧義)的存在,對(duì)召回率和精度都造成了不利影響。針對(duì)這一問(wèn)題,在索引中對(duì)典型切分歧義保留了多重分詞路徑,使得這些記錄不再因?yàn)榍蟹制缌x而被漏檢,在存在歧義的情況下提高了系統(tǒng)召回率。需要說(shuō)明的是,這種方式對(duì)精度有一定的放寬,但通過(guò)在相關(guān)度排序中計(jì)入不同分詞路徑的權(quán)重,對(duì)用戶體驗(yàn)的影響并不大。endprint

        優(yōu)化中文作者字段的查詢策略:對(duì)未指定字段的檢索輸入,系統(tǒng)同等地將其解析為對(duì)每個(gè)字段的查詢表達(dá)式并分別執(zhí)行,再將查詢結(jié)果合并,并按相關(guān)度排序。由于中文人名基本不具有變異寫(xiě)法,往往只有嚴(yán)格匹配時(shí)才具有檢索意義。因此,優(yōu)化中將作者字段的查詢表達(dá)式作了更嚴(yán)格的限定,使大量不相關(guān)記錄被濾除,在基本不影響召回率的前提下提高了精度。

        3.5 界面和檢索框架的客制化

        對(duì)于發(fā)現(xiàn)服務(wù)而言,界面和檢索框架意味著從資源發(fā)現(xiàn)到資源獲取的完整的探索體系。北大圖書(shū)館立足于用戶需求的求證來(lái)指導(dǎo)客制化,以“簡(jiǎn)潔、明晰”為主要定位,最大程度地契合網(wǎng)絡(luò)環(huán)境下的用戶習(xí)慣,同時(shí)也通過(guò)“鏈接解析”和“接口嵌入”引導(dǎo)讀者更準(zhǔn)確地獲取資源,更好地了解和使用圖書(shū)館現(xiàn)有資源系統(tǒng),更加熟悉圖書(shū)館資源的類型、形態(tài)、獲取方式,幫助讀者準(zhǔn)確檢索、深入挖掘所需的信息,并能結(jié)合各種手段和資源獲取資源。

        在資源發(fā)現(xiàn)過(guò)程中,讀者通過(guò)檢索界面輸入關(guān)鍵詞,并借助相關(guān)度排序和分面導(dǎo)航等功能探索和發(fā)掘感興趣的記錄。北大圖書(shū)館在系統(tǒng)上線前進(jìn)行了試用、用戶問(wèn)卷調(diào)查和后臺(tái)日志分析,為這部分功能客制化提供依據(jù)。例如,根據(jù)用戶調(diào)查結(jié)果中更多用戶傾向于直接檢索而非先選擇檢索范圍,系統(tǒng)采用類似Google的單一檢索框,略去了帶有圖書(shū)館傳統(tǒng)檢索痕跡的資源集合的劃分;根據(jù)日志分析結(jié)果中分面按照點(diǎn)擊率的排序,將“內(nèi)容類型”和“主題”置于最靠前的位置;根據(jù)用戶調(diào)查結(jié)果,希望提高中文檢索的準(zhǔn)確性和相關(guān)性,系統(tǒng)著重針對(duì)中文檢索進(jìn)行了優(yōu)化。

        對(duì)檢索返回的每條記錄,系統(tǒng)分層次地嵌入圖書(shū)館相關(guān)系統(tǒng)命中該條資源的全文鏈接、信息頁(yè)、系統(tǒng)入口或服務(wù)申請(qǐng)入口。第一層:標(biāo)題鏈接直達(dá)書(shū)刊紙本獲取頁(yè)/多媒體點(diǎn)播頁(yè)/電子資源全文獲取頁(yè)。第二層:“更多獲取途徑”根據(jù)對(duì)資源的全面解析列出所有可能的選項(xiàng):(1)開(kāi)放鏈接服務(wù)器360Link通過(guò)對(duì)資源信息與KnowledgeWorks知識(shí)庫(kù)中電子資源館藏的匹配和計(jì)算,列出覆蓋該條資源的所有數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)中的篇目全文鏈接和電子書(shū)/刊目錄頁(yè)鏈接。當(dāng)存在多個(gè)數(shù)據(jù)庫(kù)/鏡像站時(shí),按照KnowledgeWorks中設(shè)定的優(yōu)先級(jí)進(jìn)行排序。全文鏈接的解析主要依賴于OpenURL規(guī)范,對(duì)個(gè)別還未遵守此規(guī)范的數(shù)據(jù)庫(kù)(例如CNKI),北大館另外進(jìn)行了特殊拼接,以保證讀者能夠“透明”地使用。(2)北大館常用資源系統(tǒng)中該條資源的檢索入口:包括館藏書(shū)目OPAC系統(tǒng)、Google學(xué)術(shù)搜索、CALLS聯(lián)合目錄等。(3)相關(guān)服務(wù)的申請(qǐng)入口:包括館際互借和圖書(shū)館咨詢等。

        3.6 發(fā)布與服務(wù)

        在完成了系統(tǒng)準(zhǔn)備(檢索接口嵌入門(mén)戶、界面調(diào)整、用戶測(cè)試、壓力測(cè)試),宣傳與推廣準(zhǔn)備(個(gè)性化命名、宣傳海報(bào)、系統(tǒng)介紹、發(fā)布通知)和人員準(zhǔn)備(成立應(yīng)用小組)后,2011年11月7日,“未名學(xué)術(shù)搜索”系統(tǒng)上線,圖書(shū)館門(mén)戶進(jìn)行了切換,同時(shí)上線通知在圖書(shū)館門(mén)戶、未名BBS和圖書(shū)館學(xué)科博客等多處發(fā)布,標(biāo)志著網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)在北大圖書(shū)館率先進(jìn)入應(yīng)用階段。

        服務(wù)推出后,北大圖書(shū)館多渠道收集和深入分析讀者反饋,并優(yōu)化應(yīng)用小組的協(xié)作機(jī)制,以此推動(dòng)網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)在北大的應(yīng)用不斷深入:(1)集中性的問(wèn)卷調(diào)查:2012年4月,進(jìn)行“未名學(xué)術(shù)搜索”使用效果問(wèn)卷調(diào)查,共回收問(wèn)卷381份。問(wèn)卷覆蓋了系統(tǒng)宣傳、訪問(wèn)速度、檢索效果、全文獲取、界面功能以及文獻(xiàn)題錄導(dǎo)出等。結(jié)果表明系統(tǒng)得到了絕大部分讀者的認(rèn)可和嘉許,尤其是豐富的學(xué)術(shù)資源,便捷的一站式檢索和清晰的相關(guān)度排序,快捷的全文獲取/文獻(xiàn)題錄導(dǎo)出功能等。同時(shí),調(diào)查也反映了讀者對(duì)系統(tǒng)依然持有更高的期望,例如:更快的訪問(wèn)速度,更全面、準(zhǔn)確的檢索效果等。(2)隨時(shí)提供通暢的反饋渠道:讀者直接發(fā)送郵件,或在系統(tǒng)內(nèi)部填寫(xiě)界面右上角的“反饋”即可將問(wèn)題提交給pkusum-mon郵件列表中的所有應(yīng)用小組成員。如果讀者通過(guò)電話或BBS反饋,通常也能在第一時(shí)間由值班的咨詢館員轉(zhuǎn)接/轉(zhuǎn)發(fā)給小組成員。(3)優(yōu)化應(yīng)用小組的協(xié)作機(jī)制:當(dāng)郵件列表成員同時(shí)接收到最新反饋后,由最熟悉情況的小組成員進(jìn)行答復(fù)。這種方式擴(kuò)大了圖書(shū)館向讀者開(kāi)放的服務(wù)面,節(jié)省了問(wèn)題轉(zhuǎn)發(fā)、轉(zhuǎn)述的中間環(huán)節(jié),不僅能夠最快地響應(yīng)該讀者反饋的問(wèn)題,而且所有成員都能實(shí)時(shí)跟蹤和更新問(wèn)題進(jìn)展,提高應(yīng)用小組整體服務(wù)水平。對(duì)于疑難問(wèn)題,更有利于跨部門(mén)的問(wèn)題溝通和協(xié)調(diào),以及給出更有力的解決措施。

        截至目前,系統(tǒng)已經(jīng)穩(wěn)定運(yùn)行兩年,并且得到了廣泛的讀者認(rèn)可,每日的綜合檢索次數(shù)已接近或突破萬(wàn)次,有力地支持了讀者學(xué)習(xí)和研究過(guò)程對(duì)高質(zhì)量學(xué)術(shù)資源的搜索和使用需求,提高了北大圖書(shū)館的資源使用效率,增強(qiáng)了對(duì)教學(xué)科研的資源保障力度。

        4 結(jié)語(yǔ)

        網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)的核心可以歸結(jié)為“數(shù)據(jù)”、“搜索”和“界面”三要素。落到實(shí)施環(huán)節(jié)上:“數(shù)據(jù)”要素側(cè)重于關(guān)注本地資源的映射與同步、商業(yè)電子資源的訂購(gòu)與配置;“搜索”要素著力于提升系統(tǒng)三大核心檢索指標(biāo):召回率、精度和相關(guān)度排序;“界面”要素則強(qiáng)調(diào)根據(jù)用戶需求對(duì)資源發(fā)現(xiàn)獲取框架進(jìn)行客制化?!拔疵麑W(xué)術(shù)搜索”的實(shí)施正是關(guān)注并圍繞上述核心要素而展開(kāi)。本文以“未名學(xué)術(shù)搜索”的實(shí)踐為基礎(chǔ),詳細(xì)介紹和探討了網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)在北大圖書(shū)館的實(shí)施細(xì)節(jié),并提出了若干在深入應(yīng)用中值得繼續(xù)思考的問(wèn)題。endprint

        猜你喜歡
        實(shí)施
        “雙師型”教師隊(duì)伍建設(shè)的保障與實(shí)施
        人間(2016年27期)2016-11-11 17:26:06
        中職美術(shù)創(chuàng)新教學(xué)實(shí)施的方法探究
        人間(2016年27期)2016-11-11 16:12:22
        談?wù)勎覈?guó)會(huì)計(jì)準(zhǔn)則的實(shí)施與完善
        幼兒教育中如何實(shí)施挫折教育芻議
        人間(2016年26期)2016-11-03 19:01:10
        加強(qiáng)對(duì)學(xué)生思想政治教育
        品三口而知味
        人力資源管理在水利水電建設(shè)中的有效實(shí)施
        新形勢(shì)下高校二級(jí)學(xué)院教務(wù)管理優(yōu)化路徑探析
        考試周刊(2016年77期)2016-10-09 12:01:57
        房地產(chǎn)項(xiàng)目策劃課程案例教學(xué)探索與實(shí)施
        共情教學(xué)模式在科學(xué)課堂的構(gòu)建與實(shí)施研究
        成才之路(2016年25期)2016-10-08 10:30:56
        中文亚洲爆乳av无码专区| 日本顶级metart裸体全部| 国产l精品国产亚洲区久久| 无码国产精品一区二区免费16| 国产亚洲日本人在线观看| 国产又黄又湿又爽的免费视频| 一本无码中文字幕在线观| 日本丰满熟妇bbxbbxhd| 亚洲色欲大片AAA无码| 亚洲国产av午夜福利精品一区| 精品国产一区二区三区色搞| 亚洲国产日韩欧美一区二区三区| 欧美日韩国产在线观看免费| 亚洲国产人成自精在线尤物| 免费a级毛片在线播放| 亚洲精品乱码久久久久久久久久久久| 国产人澡人澡澡澡人碰视频| 午夜婷婷国产麻豆精品| 国产精品日日做人人爱| 青青草原综合久久大伊人| 婷婷激情六月| 日本免费一区二区久久久 | 精品国产精品国产偷麻豆| 亚洲中文字幕无码永久在线 | 中文亚洲欧美日韩无线码 | 91精品国产综合久久久蜜| 欧美亚洲熟妇一区二区三区| 色综合久久丁香婷婷| 国产三级三级精品久久| 欧美性猛交xxx嘿人猛交| 国产激情精品一区二区三区| 日韩成人精品日本亚洲| 丝袜美腿亚洲综合第一页| 人妻少妇出轨中文字幕| 无码国产亚洲日韩国精品视频一区二区三区| 日本成人免费一区二区三区 | 久久久精品人妻一区二区三区蜜桃 | jk制服黑色丝袜喷水视频国产| 国产白色视频在线观看| 国产精品毛片一区二区| 亚洲区日韩精品中文字幕|