紀(jì)婧怡李 岳韓 博
(1.天津音樂學(xué)院圖書館;2.南開大學(xué)軟件學(xué)院,天津 300000)
紀(jì)婧怡 女,1985年生。碩士,助理館員。研究方向:中國傳統(tǒng)音樂。
李 岳 男,1980年生。博士,副教授。研究方向:軟件圖像研究。
近 10年來,隨著通信、電子技術(shù)的高速發(fā)展,信息存儲和交流變得越發(fā)重要。圖書館作為承載大量資料的主流數(shù)據(jù)庫,更是面臨著巨大挑戰(zhàn)。面對著呈爆發(fā)性增長的各種書籍、網(wǎng)絡(luò)、電子化信息,如何正確地進行收集和管理就成為圖書館管理的重中之重[1-2]。以音樂高校的樂譜圖書館為例,樂譜的采編往往需要管理員花費大量的時間和精力[3-4]。在采編和編輯資源庫的過程中,由于資料的特殊性,如樂譜的難以識別,樂譜收藏時需要收集大量譜音分析、演奏技巧等信息等,大量工作需要由采編管理員人工完成,導(dǎo)致采編工作效率普遍較低。
現(xiàn)階段,傳統(tǒng)圖書館面臨著向自動化、電腦輔助管理、互聯(lián)網(wǎng)、信息化圖書館方向轉(zhuǎn)型的過程[4]。筆者根據(jù)在音樂圖書館的工作經(jīng)驗,分析了現(xiàn)階段音樂學(xué)院圖書館中樂譜采編系統(tǒng)的工作流程和現(xiàn)階段采編系統(tǒng)效率較低的原因,進而提出了樂譜資源庫自動采編系統(tǒng)的設(shè)計方案,同時采用自行編寫軟件與現(xiàn)有軟件結(jié)合使用的方法,創(chuàng)立了該自動采編系統(tǒng)。
在樂譜資源庫采編過程中,系統(tǒng)需要完成一系列的工作,從流程上分析如下(圖1所示)。
在采編過程中,管理員首先需要根據(jù)條形碼獲取該書籍信息,而后人工判斷該書籍是否收錄于數(shù)據(jù)庫中;如果書籍已經(jīng)收錄數(shù)據(jù)庫中,管理員需要根據(jù)個人對于音樂的專業(yè)知識,對書籍中的樂譜數(shù)據(jù)進行更新。更新數(shù)據(jù)一般來自于各個網(wǎng)絡(luò)數(shù)據(jù)庫、互聯(lián)網(wǎng)信息等信息源頭。更新后的本地數(shù)據(jù)信息將等待最后全市音樂圖書館整合時統(tǒng)一處理;如果該書籍?dāng)?shù)據(jù)不存在,則管理員需要人工輸入書籍所有的文字信息及分類號等基本信息,并進行分類記錄。其后錄入樂譜的所有相關(guān)信息,主要包含作者信息、樂譜評論、譜音分析、演奏注意事項等,之后管理員需要掃描該樂譜,并錄入圖像數(shù)據(jù)。
圖1 音樂圖書館采編系統(tǒng)工作流程
為完成整個業(yè)務(wù)流程,采編系統(tǒng)需要由數(shù)據(jù)交互、數(shù)據(jù)錄入、相關(guān)信息收集以及數(shù)據(jù)庫管理4個主要模塊構(gòu)成(圖2所示)。
在上述功能模塊中,數(shù)據(jù)交互模塊主要完成書目/樂譜數(shù)據(jù)的上傳下載功能,滿足圖書管理員在線查詢“總圖書館”圖書資源信息,并在需要匯總時完成本地圖書館上傳與合并工作。
圖2 音樂圖書館采編系統(tǒng)功能模塊
數(shù)據(jù)錄入模塊下設(shè)3個子功能模塊,分別為書目錄入模塊、樂譜錄入模塊與樂譜圖像錄入模塊。其中書目錄入模塊管理員需要人工錄入書目的所有信息,并完成信息的整合工作;樂譜錄入模塊管理員需要分別對書中的每個樂譜進行相關(guān)信息錄入;而樂譜圖像錄入模塊主要由管理員完成將紙質(zhì)樂譜掃描并上傳至數(shù)據(jù)庫,以具備查詢的功能。圖2的虛線所代表的電子樂譜錄入功能子模塊為作者建議增加的自動化模塊。
相關(guān)信息收集模塊主要功能是用于管理員收集樂譜的各種信息,包括樂譜的譜音信息、演奏技巧等。該功能模塊現(xiàn)階段仍需要手工完成。
數(shù)據(jù)庫模塊用于存儲所有數(shù)據(jù)的相關(guān)信息。如工作流程中所描述的,樂譜信息上傳至市圖書館往往不是即時完成的,而是需要將樂譜信息暫時保存在本地數(shù)據(jù)庫,等待特定時間進行綜合信息匯總,再統(tǒng)一上傳。故此數(shù)據(jù)庫模塊需要建立并管理一個當(dāng)?shù)財?shù)據(jù)庫。
基于上述描述,該采編系統(tǒng)具有以下幾個缺點,對此,筆者提出相應(yīng)改進意見。
①系統(tǒng)中除交互模塊由相應(yīng)的軟件完成(圖3所示),且數(shù)據(jù)庫模塊交由軟件后臺自動管理(圖4所示)外,其余模塊全部需要管理員手動完成,導(dǎo)致效率非常低。其中尤以數(shù)據(jù)錄入模塊手動輸入工作量較大,不能滿足高效率的自動化辦公的要求。②作為新時代的多媒體圖書館系統(tǒng),往往要求其保存的資料可以多方面地展示,增加視聽可讀性。而本系統(tǒng)所存儲的資料往往是只有文字資料和掃描的樂譜圖像。故此,作者建議增加電子樂譜錄入功能,在錄入文字信息和掃描樂譜后,同時將紙質(zhì)樂譜轉(zhuǎn)化為電子樂譜,進行輸入。③相關(guān)信息采集模塊現(xiàn)階段需要由管理員手動完成信息采集,且大部分信息來自互聯(lián)網(wǎng)、其他圖書館等機構(gòu)的復(fù)雜資源。鑒于信息收集的困難程度及手動輸入信息的復(fù)雜程度,筆者建議引入網(wǎng)絡(luò)信息抓取功能,通過使用部分特定軟件,自動化搜索目標(biāo)數(shù)據(jù)庫上的相關(guān)信息,并對所獲得信息進行優(yōu)化整理及歸檔。
圖3 系統(tǒng)抓取數(shù)據(jù)的頁面
筆者所在圖書館已通過合作開發(fā)軟件的方法,基本實現(xiàn)數(shù)據(jù)錄入功能的所有過程自動化并允許輸入電子樂譜。另一方面,鑒于現(xiàn)階段技術(shù)原因,完全自動化的網(wǎng)絡(luò)信息抓取難以實現(xiàn),故該功能模塊的自動化處理仍在開發(fā)中。
圖4 系統(tǒng)選擇數(shù)據(jù)庫抓取已存數(shù)據(jù)
如前所述,現(xiàn)階段智能化的網(wǎng)絡(luò)信息抓取系統(tǒng)仍在開發(fā)中[5-6],故本系統(tǒng)著眼于數(shù)據(jù)錄入模塊的自動化實現(xiàn)。筆者將按照數(shù)據(jù)錄入各個子模塊的順序介紹采編系統(tǒng)自動化實現(xiàn)的過程。
書目錄入模塊主要有兩個功能:圖書條形碼掃描功能及圖書書目信息錄入功能。其中書目條形碼掃描已有較成熟技術(shù)[7],該類條形碼“編碼—掃描—識別—比對”技術(shù)已經(jīng)被廣泛應(yīng)用于圖書館書目管理及其他類似信息管理系統(tǒng)中。
對于書目輸入系統(tǒng),需要管理員輸入書目扉頁上所有相關(guān)信息。對此功能筆者提出自動化設(shè)計處理流程如圖5。
圖5 書目信息自動錄入系統(tǒng)處理流程
在本模塊中,書籍扉頁掃描功能可以通過掃描儀或攝像頭抓取圖像獲得,如圖6(a)所示。其后,系統(tǒng)可以使用絕大部分收費或免費的OCR軟件對書籍扉頁圖像中文字加以識別。圖6(b)所示為使用abbxy軟件掃描軟件的識別效果[8]。經(jīng)試驗,大部分OCR軟件都可以達到較為理想的效果。
圖6 書目扉頁掃描及識別效果(a)、掃描圖像(b)識別word文檔
本模塊的核心在于自動完成書目信息填表的功能。然而,鑒于不同書籍扉頁的信息分布往往并不一致。如圖7(a)、(b)所示,兩本書扉頁上書名、作者、出版等位置都不一樣。
圖7 不同書目扉頁所含信息內(nèi)容及位置不同
盡管通過語言分析[9]技術(shù)可以完成所有文字的自動識別,但該類技術(shù)需要較高的技術(shù)成本,進而增加了本系統(tǒng)的開發(fā)、運行與維護成本。故此,筆者開發(fā)了一套半自動系統(tǒng)。該系統(tǒng)可以允許用戶將掃描識別后的文字自動存入浮動窗的剪貼板。而用戶只要雙擊剪貼板的內(nèi)容,就可以完成自動填表。具體效果如圖8所示。本插件處理對象是掃描以后的Word文檔。鑒于文檔內(nèi)容的復(fù)雜性,本插件只將掃描的內(nèi)容,以行為單位拷入剪貼板,同時剪貼板懸浮于左側(cè),允許用戶快速雙擊可見剪貼板的內(nèi)容,并將其拷入所需填寫的欄目。另外,該插件的功能需要使用VC開發(fā),需要安裝微軟的.netframe work和of fice 2007以上com的支持。
圖8 書目信息自動錄入系統(tǒng)
在完成本系統(tǒng)自動化錄入系統(tǒng)并生成電子樂譜的模塊中,由于其使用技術(shù)較為類似,故將這兩個子模塊合并論述。本模塊設(shè)計思路如圖9所示。
圖9 書目信息自動錄入系統(tǒng)
在本模塊中,所有樂譜首先要使用掃描儀或攝像頭進行掃描/拍照,以獲得該類樂譜的圖像資源。該類資源將被自動保存至數(shù)據(jù)庫,從而完成樂譜圖像錄入功能模塊的任務(wù)。之后本系統(tǒng)可以使用較為成熟的商業(yè)樂譜OCR軟件如SmartScore[9]對樂譜圖像進行識別。用戶只需要使用軟件載入掃描后的樂譜,該軟件就可以自動完成MIDI音樂生成(圖 10)。經(jīng)測試,大部分專業(yè)識別軟件都可以較為準(zhǔn)確地識別出該類樂譜。
圖10 樂譜掃描及電子樂譜(MIDI)生成
綜上所述,在完成書目錄入模塊與樂譜相關(guān)信息(包含樂譜信息、樂譜圖像與電子樂譜)自動化錄入階段后,本采編系統(tǒng)已經(jīng)基本實現(xiàn)了辦公自動化,并增加了多媒體系統(tǒng)的視聽多樣性。
基于現(xiàn)階段的研究,下一階段的科研方向為使用數(shù)據(jù)采集技術(shù)提高相關(guān)信息收集工作的效率,實現(xiàn)相關(guān)功能模塊的自動化,進而完成對整個采編系統(tǒng)的自動化改造。
[1] 鄧宗極.高校圖書館信息化建設(shè)問題初探[J].教育探索,2003(6).
[2] 黃晨.圖書館信息化的技術(shù)工程[J].情報雜志,2001(3).
[3] 朱海燕.音樂文獻編目中應(yīng)注意的幾個問題[J].圖書館論壇,2008(2).
[4] 張繼紅.數(shù)字時代的音樂學(xué)院圖書館[J].星海音樂學(xué)院學(xué)報,2011(2).
[5] 趙德平,等.面向高校信息的垂直搜索引擎的研究與實現(xiàn)[J].沈陽建筑大學(xué)學(xué)報:自然科學(xué)版,2012(3).
[6] 周立柱,林玲.聚焦爬蟲技術(shù)研究綜述[J].計算機應(yīng)用,2005(9).
[7] 李偉.條形碼閱讀器在現(xiàn)場采購圖書中的應(yīng)用[J].圖書館建設(shè),2004(6).
[8] 陳耀東,王挺,陳火旺.淺層語義分析研究[J].計算機研究與發(fā)展,2008(1).