楊凡
關(guān)鍵詞:“互聯(lián)網(wǎng)+”;數(shù)字化;文獻開發(fā)
摘要:“互聯(lián)網(wǎng)+”是國家戰(zhàn)略層面的發(fā)展方向,是今后新科技應(yīng)用的趨勢。而“互聯(lián)網(wǎng)+”連接一切的特性隨著網(wǎng)絡(luò)媒體的興起、社交軟件的普及和3D虛擬現(xiàn)實技術(shù)的出現(xiàn),促使因新興技術(shù)而產(chǎn)生的數(shù)據(jù)成倍增長,巨大的數(shù)據(jù)量使互聯(lián)網(wǎng)技術(shù)與傳統(tǒng)產(chǎn)業(yè)的跨行業(yè)融合成為可能。數(shù)字化產(chǎn)品普遍運用于人們的日常生活,如何能在紛繁復(fù)雜的數(shù)據(jù)流中獲取及時、有效的信息是“互聯(lián)網(wǎng)+”有效利用的關(guān)鍵性難題。文章結(jié)合圖書館開展文獻數(shù)字化發(fā)展的實踐,就新技術(shù)對圖書館文獻開發(fā)造成的沖擊進行分析,并提出應(yīng)對數(shù)字化發(fā)展的對策。
中圖分類號:G250.73文獻標識碼:A文章編號:1003-1588(2018)02-0123-03
易觀國際董事長兼首席執(zhí)行官于揚在“易觀第五屆移動互聯(lián)網(wǎng)博覽會”上提出“互聯(lián)網(wǎng)+”理念,而“互聯(lián)網(wǎng)+”概念上升到國家戰(zhàn)略層面是在十二屆全國人民代表大會三次會議上,由李克強總理在《政府工作報告》中首次提出。李克強總理指出:“推動移動互聯(lián)網(wǎng)、云計算、“互聯(lián)網(wǎng)+”、物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)結(jié)合,促進電子商務(wù)、工業(yè)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)金融健康發(fā)展,引導(dǎo)互聯(lián)網(wǎng)企業(yè)拓展國際市場。”[1]因此,“互聯(lián)網(wǎng)+”不僅是一種技術(shù)革新或行業(yè)標準,而是更多地轉(zhuǎn)化為國家戰(zhàn)略層面,代表著發(fā)展的趨勢。
1“互聯(lián)網(wǎng)+”的概念與特征
“互聯(lián)網(wǎng)+”指的是以網(wǎng)絡(luò)信息技術(shù)為手段,以傳統(tǒng)行業(yè)為基礎(chǔ),組成有機的整體,以優(yōu)化生產(chǎn)資源,提高效率,重新建構(gòu)“互聯(lián)網(wǎng)+”環(huán)境下的產(chǎn)業(yè)模式等方式完成從傳統(tǒng)模式向數(shù)據(jù)模式的轉(zhuǎn)型?!盎ヂ?lián)網(wǎng)+”的核心是網(wǎng)絡(luò)數(shù)據(jù)流的優(yōu)勢,將網(wǎng)絡(luò)數(shù)據(jù)與傳統(tǒng)產(chǎn)業(yè)相結(jié)合,以產(chǎn)業(yè)模式重構(gòu)提高社會生產(chǎn)力?!盎ヂ?lián)網(wǎng)+”的概念是以網(wǎng)絡(luò)數(shù)據(jù)為原點,數(shù)據(jù)是信息的表現(xiàn)形式和載體,是事實或觀察的結(jié)果,是對客觀事物的邏輯歸納,并用于表示客觀事物的原始素材。
跨界融合、創(chuàng)新驅(qū)動、重塑結(jié)構(gòu)、尊重人性、開放生態(tài)、連接一切是“互聯(lián)網(wǎng)+”具有的基本特征[2]?!盎ヂ?lián)網(wǎng)+”與不同行業(yè)的融合過程本身就是一種重新創(chuàng)造的過程,以計算機網(wǎng)絡(luò)技術(shù)橫跨別的行業(yè)本身就是一種創(chuàng)新,是行業(yè)間融合的先決條件,不同的行業(yè)在經(jīng)歷跨界融合后重塑成新的行業(yè)模式就是“互聯(lián)網(wǎng)+”的最終模式。
“互聯(lián)網(wǎng)+”帶動傳統(tǒng)產(chǎn)業(yè)數(shù)據(jù)化,而數(shù)據(jù)化是指傳統(tǒng)產(chǎn)業(yè)以互聯(lián)網(wǎng)數(shù)據(jù)為手段,以實現(xiàn)用戶數(shù)據(jù)挖掘、匯總和分析,實現(xiàn)用戶信息需求為目的的轉(zhuǎn)型過程。通過產(chǎn)業(yè)數(shù)據(jù)化,傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)變原有的模式,形成以線下實體產(chǎn)品為基礎(chǔ),以供需關(guān)系為導(dǎo)向,以物流為通道的精準化商業(yè)模式。數(shù)據(jù)化的商業(yè)模式是以數(shù)據(jù)流為基礎(chǔ),基于新的商業(yè)模式,通過調(diào)整生產(chǎn)模式,從產(chǎn)品制作的固有思維中解脫出來,以眾籌的形式分解產(chǎn)品生產(chǎn)過程中的成本,形成具有數(shù)據(jù)思維的新型模式。新技術(shù)的應(yīng)用是“互聯(lián)網(wǎng)+”的重要手段,將實驗室中的新技術(shù)與傳統(tǒng)產(chǎn)業(yè)相融合創(chuàng)造出新的市場空間?;ヂ?lián)網(wǎng)開放、共享的特性使產(chǎn)業(yè)市場實現(xiàn)了跨地域式的擴展。
2圖書館數(shù)字化的現(xiàn)狀及存在問題
2.1圖書館文獻數(shù)字化的概念及發(fā)展軌跡
圖書館文獻數(shù)字化是從利用和保護文獻的目的出發(fā),采用計算機技術(shù),將常見的語言文字或圖形符號轉(zhuǎn)化為能被計算機識別的數(shù)字符號,從而制成書目數(shù)據(jù)庫和全文數(shù)據(jù)庫,用以揭示文獻信息資源的一項系統(tǒng)工作[3]。
文獻數(shù)字化將文獻屬性與數(shù)字技術(shù)及網(wǎng)絡(luò)數(shù)字特點相結(jié)合。在具體實踐中,文獻數(shù)字化就是通過信息技術(shù)對文獻進行加工,使其成為可重復(fù)利用的數(shù)據(jù)資源。將紙質(zhì)載體轉(zhuǎn)換為數(shù)據(jù)載體,數(shù)據(jù)被賦予了復(fù)制、傳播的屬性。圖書館通過建模采集、分析等方式將文獻數(shù)字化資源組建成數(shù)據(jù)庫,既能保護珍貴的文獻,又能擴大實用性,方便大眾使用。
文獻數(shù)字化并非新生事物,其隨著計算機技術(shù)的發(fā)展經(jīng)歷了以下幾個階段:首先是文本的數(shù)字化。即以人工錄入或光學(xué)字符識別(OCR)的方式將文字輸入數(shù)據(jù)庫而形成的文獻,此類數(shù)字文獻可以閱讀,也能進行定位檢索,具有檢索性,但無法客觀表現(xiàn)底本的原貌。其次是同時提供原書影和與文本參照。即使用書影查看原本的原貌,用矢量文本進行定位和檢索。此類數(shù)據(jù)資源是對文本數(shù)字化準確率太低所做的妥協(xié),兼具客觀性和檢索性,但制作和使用都很煩瑣,發(fā)展空間較小。最后是雙層PDF技術(shù)。即通過將書影與文本文字進行映射,以檢索文本文字定位書影位置的方式達到檢索效果。這種技術(shù)廣泛應(yīng)用于數(shù)字圖書館中文電子資源的制作,但中豎排的行文方式和字體的不規(guī)則,使雙層PDF在實際操作中準確率不高。
隨著文獻數(shù)字化研究的深入和科學(xué)技術(shù)的迅猛發(fā)展,用戶對數(shù)字化的需求不斷提高,數(shù)字化的成果出現(xiàn)“互聯(lián)網(wǎng)+”的特征。數(shù)字化數(shù)據(jù)的體量巨大,不僅有雙層PDF和各種類型的數(shù)據(jù)庫,而且還有用戶下載使用時的信息,包括用戶對數(shù)字化成果的滿意度和評價信息。隨著數(shù)字化的普及和社會關(guān)注度的提高,用戶本身所產(chǎn)生的數(shù)據(jù)越來越需要引起圖書館的重視。將數(shù)字化成果和與之相對應(yīng)的用戶信息結(jié)合在一起建立數(shù)據(jù)集,是下一階段圖書館文獻數(shù)字化需要解決的問題。
2.2文獻數(shù)字化在“互聯(lián)網(wǎng)+”框架下所面臨的問題
首先是在“互聯(lián)網(wǎng)+”的沖擊下,現(xiàn)有的標準存在內(nèi)容不夠全面、缺少細節(jié)規(guī)范等問題。在數(shù)據(jù)管理方面,涉及數(shù)字化的項目選題、驗收的時間周期等細節(jié)問題;在技術(shù)方面,數(shù)字化的加工工序、底本選取原則、文字的字體設(shè)置也沒有統(tǒng)一的規(guī)范。這些標準上的缺失導(dǎo)致各制作單位的數(shù)據(jù)在細節(jié)上不能統(tǒng)一。其次是數(shù)據(jù)的安全問題?!盎ヂ?lián)網(wǎng)+”的本質(zhì)就是數(shù)據(jù)的集合,只要有數(shù)據(jù)就存在數(shù)據(jù)安全問題。在原有的模式下,數(shù)據(jù)安全只存在于數(shù)字化的數(shù)據(jù)庫本身。在“互聯(lián)網(wǎng)+”的影響下,數(shù)據(jù)安全管理還應(yīng)包括用戶使用數(shù)字化成果時所產(chǎn)生的所有數(shù)據(jù),這在現(xiàn)階段的數(shù)據(jù)庫功能下是無法實現(xiàn)的。最后是“互聯(lián)網(wǎng)+”沖擊下文獻發(fā)展存在的兩大突出矛盾:①數(shù)字化和數(shù)據(jù)化的矛盾。很多全文數(shù)據(jù)庫通過OCR技術(shù)將格式轉(zhuǎn)化為可以被人工智能識別的全文文本格式,并加注句讀。這樣的形式破壞了底本的客觀性,使用戶無法獲得文獻本身自帶的信息。這種矛盾正是“互聯(lián)網(wǎng)+”新技術(shù)對文獻數(shù)字化原有模式的最大沖擊。②文獻數(shù)字化文獻檢索便捷性與客觀性的矛盾。要想保證數(shù)字化文獻的客觀性,并兼顧用戶的直觀感受,文獻最好使用純書影的方式建立數(shù)據(jù)庫,但這樣做帶來的問題是便于瀏覽而無法檢索。無法檢索的數(shù)字化產(chǎn)品是不可能讓用戶快速、有效地獲取文獻數(shù)據(jù)的,也不符合“互聯(lián)網(wǎng)+”時代的數(shù)據(jù)特點,其后果必然是被大部分用戶所拋棄。便捷性和客觀性的矛盾是困擾文獻數(shù)字化產(chǎn)業(yè)發(fā)展的主要技術(shù)原因。
3基于“互聯(lián)網(wǎng)+”的文獻數(shù)字化發(fā)展策略
3.1加強標準化建設(shè),成立數(shù)字化領(lǐng)導(dǎo)機構(gòu)
在“互聯(lián)網(wǎng)+”的框架下,圖書館必須加強標準化建設(shè),確保按照數(shù)字資源格式統(tǒng)一、數(shù)據(jù)規(guī)范、長期可讀、便于共享的原則制定標準、統(tǒng)一的規(guī)范[4]。在文獻數(shù)字化管理工作中,圖書館可以根據(jù)數(shù)字化基礎(chǔ),參考國際標準和國外成功的經(jīng)驗,制定適合文獻數(shù)字化開發(fā)的管理標準。如:借鑒已經(jīng)成熟的數(shù)字化經(jīng)驗,以國家保護中心為核心,聯(lián)合全國各收藏單位,統(tǒng)一數(shù)字化標準,成立獨立領(lǐng)導(dǎo)機構(gòu),最終完成數(shù)字化行業(yè)的標準化建設(shè)。
3.2利用“互聯(lián)網(wǎng)+”的特性進行跨界融合
“互聯(lián)網(wǎng)+”的核心就是跨界融合、連接一切,它通常被視為人工智能的一部分,或更確切地說被視為一種機器學(xué)習。它是把數(shù)學(xué)算法運用到海量數(shù)據(jù)上以便預(yù)測事件發(fā)生的可能性,也就是說,“互聯(lián)網(wǎng)+”通過數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系找到關(guān)聯(lián)物并預(yù)測可能性。一般的數(shù)據(jù)分析是通過隨機采樣的方式找尋數(shù)據(jù)背后的“為什么”,而“互聯(lián)網(wǎng)+”的數(shù)據(jù)分析是通過檢索所有數(shù)據(jù)的相關(guān)關(guān)系,以此推導(dǎo)數(shù)據(jù)背后的“是什么”。因此,“互聯(lián)網(wǎng)+”可以通過新聞、社交軟件連接時下的社會熱點,再在資源中定位與熱點具有相關(guān)關(guān)系的數(shù)據(jù)資源,最后向社會用戶進行分類推送。
3.3建立文獻數(shù)字化標準數(shù)據(jù)庫
文獻數(shù)字化標準數(shù)據(jù)庫是指按照“互聯(lián)網(wǎng)+”標準化流程進行數(shù)字化制作的數(shù)據(jù),是擁有檢索功能,復(fù)合“互聯(lián)網(wǎng)+”特點的數(shù)據(jù)庫類型。數(shù)字化標準數(shù)據(jù)庫是對數(shù)字化基礎(chǔ)性先天不足的補充,可以解決互聯(lián)網(wǎng)新技術(shù)沖擊下暴露出來的各種問題,使數(shù)字化工作能為社會認知,為用戶認可。
文獻數(shù)字化標準數(shù)據(jù)庫可以解決盲目開發(fā)、亂開發(fā)的問題。通過文獻數(shù)字化標準數(shù)據(jù)庫,國家局對全國各個單位的藏量有了大致的掌握,已經(jīng)形成了系統(tǒng)的書目信息。國家局可以根據(jù)社會熱點,按照已經(jīng)掌握的信息有針對性地指導(dǎo)各個單位制訂開發(fā)計劃,這樣做既可以使開發(fā)的數(shù)字化文獻得到社會的認可,又可以避免重復(fù)性選題,節(jié)約資源以便開發(fā)更好的項目。
文獻數(shù)字化標準數(shù)據(jù)庫可以消除工作人員與其他學(xué)科研究人員認識上的差異。工作人員對于文獻的認知來源于工作實踐,是文獻整理后積累下來的感覺,注重微觀,講究觀風望氣,可通過細節(jié)判定版本。其他學(xué)科的研究人員是數(shù)據(jù)化的支持者,因為數(shù)據(jù)化的文獻更有助于科研活動。這部分用戶注重全文文本的數(shù)字化,而不在意是否能客觀體現(xiàn)原貌。圖書館通過制作標準數(shù)據(jù)庫將兩種用戶的需求放在一起,可以通過個性化需求的升級服務(wù)消除他們之間的矛盾。
文獻數(shù)字化標準數(shù)據(jù)庫可以解決數(shù)字標準化與用戶服務(wù)個性化的矛盾。省級館作為文獻數(shù)字化標準數(shù)據(jù)庫的母庫,其余單位制作的數(shù)據(jù)庫作為補充,在統(tǒng)一標準的規(guī)范下進行數(shù)字化采集和數(shù)據(jù)庫的制作,在數(shù)據(jù)設(shè)計、制作和管理驗收等環(huán)節(jié)做到標準化。在此基礎(chǔ)上,所有用戶可按照他們對數(shù)據(jù)的要求進行個性化升級,既能保證標準化的數(shù)據(jù)格式,又能滿足各個層次用戶的個性化需求。
文獻數(shù)字化標準數(shù)據(jù)庫也便于進入市場。商業(yè)公司進行文獻數(shù)字化是因為看到了數(shù)字化產(chǎn)業(yè)的發(fā)展空間。商業(yè)公司的優(yōu)勢在于市場運作,但他們不具備文獻的相關(guān)積累,所開發(fā)的數(shù)字化數(shù)據(jù)的質(zhì)量不高,不能滿足用戶的需求。文獻數(shù)字化標準數(shù)據(jù)庫的出現(xiàn)可以使商業(yè)公司揚長避短,既降低了開發(fā)成本,減少了開發(fā)時間,又可以集中精力尋找社會輿情與文獻的相關(guān)點,便于把握市場熱點。以文獻標準數(shù)據(jù)庫為基礎(chǔ)的商業(yè)公司可以結(jié)合社會熱點,適時推出與之相對應(yīng)的產(chǎn)品。產(chǎn)品不應(yīng)僅局限于數(shù)據(jù)庫,還可以將信息及時、分類推送到使用各種移動終端的用戶手中。
4結(jié)語
隨著數(shù)字化信息與人們生活的密切程度越來越高,社會各行業(yè)與“互聯(lián)網(wǎng)+”的聯(lián)系也越來越緊密,“互聯(lián)網(wǎng)+”新技術(shù)也為數(shù)字化行業(yè)帶來了沖擊和挑戰(zhàn)。在這種前所未有的沖擊下,文獻數(shù)字化暴露出原有模式的不足與缺陷,如缺乏必要的數(shù)字化基礎(chǔ)性建設(shè)、沒有統(tǒng)一的制作標準等。同時,“互聯(lián)網(wǎng)+”新思維也沖擊著文獻數(shù)字化標準、數(shù)據(jù)庫結(jié)構(gòu)等制作問題,這是文獻數(shù)字化行業(yè)可持續(xù)發(fā)展面臨的巨大挑戰(zhàn)和機遇。要解決這一問題,各個單位需要整合多方力量,取長補短,建立全新的權(quán)威機構(gòu)完成數(shù)字化基礎(chǔ)性建設(shè),建立文獻標準化數(shù)據(jù)庫,提高社會對數(shù)字化行業(yè)的認知度,最終建立完整意義上的文獻數(shù)字化超大型數(shù)據(jù)庫共享體系。
參考文獻:
[1]中國新聞網(wǎng).李克強:制定“互聯(lián)網(wǎng)+”計劃促電子商務(wù)健康發(fā)展[EB/OL].[2015-03-05].http://www.chinanews.com/gn/2015/0305/7103116.shtml.
[2]龍潤琛.“互聯(lián)網(wǎng)+”時代中小城市地方文獻可持續(xù)發(fā)展的思考[J].內(nèi)蒙古科技與經(jīng)濟,2017(17):126-127.
[3]葛懷東.論數(shù)字化標準體系建設(shè)[J].圖書館學(xué)刊,2013(1):47-49.
[4]范佳.“數(shù)字人文”內(nèi)涵與數(shù)字化的深度開發(fā)[J].圖書館學(xué)研究,2013(3):29-32.
(編校:周雪芹)