孫雨生 汪怡敏 李萬蓉
(1.湖北工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院 武漢 430068)
(2.湖北工業(yè)大學(xué)湖北農(nóng)村社會管理創(chuàng)新研究中心 武漢 430068)
(3.南昌大學(xué)管理學(xué)院 南昌 330031)
(4.首都師范大學(xué)管理學(xué)院 北京 100048)
伴隨移動互聯(lián)網(wǎng)發(fā)展、社會化媒體環(huán)境形成,作為新型網(wǎng)絡(luò)服務(wù)載體的數(shù)字圖書館資源爆炸式增長且海量復(fù)雜異構(gòu)特點日趨明顯,但限于認(rèn)知能力,用戶獲取有效信息的認(rèn)知負(fù)荷加劇、效率降低并致使數(shù)字圖書館信息資源難充分利用。為解決該問題,數(shù)字圖書館利用信息可視化技術(shù),從用戶角度出發(fā)高效組織、分析和形象直觀揭示信息及其關(guān)系,挖掘潛在信息,激發(fā)用戶能動性、靈活性高效檢索信息并輔助其更好接受、理解信息,從而滿足用戶個性化信息需求并提升其使用體驗;通過人機(jī)交互界面可視化顯示信息檢索結(jié)果、過程與館藏資源,形象化并智能化數(shù)字圖書館信息資源,提升信息檢索精度并降低其成本,提高信息資源處理效率及利用程度。因此,有必要系統(tǒng)研究數(shù)字圖書館信息可視化核心問題。
本文全面檢索、清洗知網(wǎng)、萬方及維普數(shù)據(jù)庫中相關(guān)文獻(xiàn),共得109 篇有效文獻(xiàn);詳讀全部文獻(xiàn)并從中精選39 篇作為參考文獻(xiàn),最后,遵循信息可視化參考模型,從可視化表征、可視化機(jī)制、信息資源組織三方面闡述國內(nèi)數(shù)字圖書館信息可視化核心內(nèi)容研究進(jìn)展。
主要從信息瀏覽、信息檢索及信息資源組織三方面研究數(shù)字圖書館信息可視化表征內(nèi)容、形式及實現(xiàn)技術(shù)、方法與工具,詳見表1。
表1 數(shù)字圖書館信息可視化表征
數(shù)字圖書館信息可視化表征內(nèi)容主要有信息瀏覽可視化(可視化操作,促進(jìn)人機(jī)交互)、信息檢索可視化(可視化檢索過程、結(jié)果,以便引導(dǎo)用戶檢索并支持其決策)、信息資源組織可視化(可視化館藏、網(wǎng)絡(luò)資源內(nèi)容與分布以便用戶理解)。
2.2.1 信息瀏覽可視化
黃田青[1]、馮雙玲[2]、孫倩[3]、孫雨生[4]認(rèn)為信息瀏覽主要表征為顆粒圖[1~2,4](文檔在三維空間內(nèi)按字順以顆粒排列,通過空間位置表示文檔間關(guān)系(顆粒間作用力使相近度高者靠近、低者遠(yuǎn)離),常用于多維可視化)[1]、主題地圖[1~2,4](表達(dá)主題詞間關(guān)聯(lián)度,單擊可放大查看源文檔)[1]、魚眼圖[1~2,4](基于逐點詳述原理,支持概覽完整信息概念時交互細(xì)覽所選數(shù)據(jù),通過鼠標(biāo)懸浮方式(視角不變)按需放大畫面局部區(qū)域細(xì)節(jié)視圖(周圍變?yōu)榭梢姳尘埃?]、拓?fù)鋱D[3~4](匹配連接不同國家規(guī)范文檔,顯示相應(yīng)匹配方式及標(biāo)識號,幫助用戶整體感知規(guī)范文檔并有效選擇數(shù)據(jù))[3]、熱力圖[3~4](動態(tài)演示某類文獻(xiàn)歷史演變進(jìn)程)[3]、時間軸[3~4](互操作性時間標(biāo)尺,提供整體概覽同時細(xì)分各類文獻(xiàn)并結(jié)合圖文,使用戶直觀了解所需文獻(xiàn)館藏布局與歷史發(fā)展進(jìn)程,簡化文獻(xiàn)資源檢索過程)[3]等。
2.2.2 信息檢索可視化
1)檢索結(jié)果可視化表征形式
黃田青[1]、孫倩[3]、劉瑩[5]認(rèn)為檢索結(jié)果主要表征為文檔透鏡(將多頁一維文檔數(shù)據(jù)映像成三維物體,可直接查閱某頁)[1]、場景圖(樹形結(jié)構(gòu)圖,根節(jié)點表示場景,節(jié)點表示場景各成分并由相應(yīng)對象實現(xiàn),對象幾何屬性聚合成三維用戶界面“物理”模型)[1,5]、互動式地圖(交互顯示地域資源,清晰顯示世界范圍內(nèi)文獻(xiàn)資源分布以便跨區(qū)域、國家共建共享資源)[3]等。
2)檢索過程可視化表征形式
黃田青[1]、馮雙玲[2]認(rèn)為檢索過程主要表征為刷圖(選中點陣圖中某區(qū)域一子集,可同時選中刷圖事件、屬性相同的數(shù)據(jù))[1]、表透鏡(瀏覽大數(shù)據(jù)表并徑向分離出需細(xì)覽子表)[1]、主題詞云圖(在網(wǎng)狀結(jié)構(gòu)概念空間內(nèi)合理布局由線連接的主題詞,多用二維樹狀結(jié)構(gòu)圖示(復(fù)雜度隨節(jié)點數(shù)增加而增大)表示用戶檢索主題詞(用節(jié)點表示,其大小、顏色分別表示含主題詞的書目信息量、用戶訪問歷史)與系統(tǒng)返回結(jié)果,其字體大小、節(jié)點間物理距離表示檢索主題詞與各主題詞相關(guān)度(字體越大、距離越近則相關(guān)度越大),隨用戶所點擊主題詞變化動態(tài)調(diào)整主題詞間空間關(guān)系并變換顏色顯示主題詞屬性,用圖示引導(dǎo)用戶檢索行為(點擊放大檢索結(jié)果圖示可從中抽取所需結(jié)果))[1]、透視墻(將二維轉(zhuǎn)為三維墻,用投影將對象貼圖到墻上,在透視區(qū)觀察細(xì)節(jié)、水平旋轉(zhuǎn)瀏覽信息以擴(kuò)大可視范圍并提供流暢視覺過渡,實現(xiàn)時空維瀏覽)[1]等。
2.2.3 信息資源組織可視化
崔曉菡[6]認(rèn)為信息資源組織主要表征為平面視圖(傳統(tǒng)可視化表現(xiàn)形式主要有柱形圖、扇形圖[6]、折線圖[6~8]、直方圖、圓餅圖[7~8]等,隨社會需求、網(wǎng)絡(luò)技術(shù)發(fā)展出現(xiàn)更直觀的雷達(dá)圖、氣泡圖、散點圖[6]、映像圖、模型圖[6~8]等)、標(biāo)簽云(以大小、顏色深淺不同的標(biāo)簽排列顯示關(guān)鍵詞出現(xiàn)頻率)[9]、時間軸和互動式地圖(兩者貫穿網(wǎng)站各維度資源顯示)[3]等。
2.3.1 信息瀏覽可視化
1)技術(shù)
杜慧敏[10~11]、張洪敏[12]、馬音寧[13]、王亞鳳[14]、趙文宇[15]、孫雨生[16]認(rèn)為信息瀏覽可視化技術(shù)主要有GIS[10~14,16](獲取、存儲、分析、管理、檢索、可視化顯示[12]地理空間信息[10~14]及其他信息[10~11,13~14]以實現(xiàn)空間實體定義、空間關(guān)系查詢[10~11,13~14]的計算機(jī)管理系統(tǒng),借助空間分析能力以圖形、圖像為主呈現(xiàn)于屏幕[4,10~11,13~14])、VR[15~16](借助計算機(jī)、三維傳感技術(shù)模擬生成視覺、聽覺、觸覺動態(tài)交互三維虛擬世界[15],可基于遠(yuǎn)程沉浸技術(shù)[7,17]、VRML 語言[5]實現(xiàn))等。
2)工具
孫雨生[16]、陳偉[18]、秦?。?9]認(rèn)為三維信息瀏覽可視化工具主要有Autodesk 公司開發(fā)的3D Max 建模(可構(gòu)建三維室內(nèi)外模型;設(shè)置場景動畫、運動路徑,計算動畫長度,創(chuàng)建攝像機(jī)并調(diào)節(jié)動畫;設(shè)計建筑材質(zhì),賦予模型表面貼圖、材質(zhì),真實模擬自然界;支持CAD、SketchUp 等文件導(dǎo)入及3D 模型、2D平面圖和AVI 格式動畫等文件導(dǎo)出)、美國ESRI 公司開發(fā)的ArcScene 技術(shù)(ArcG1S 軟件桌面系統(tǒng)3D分析擴(kuò)展模塊中核心應(yīng)用,可將二維數(shù)據(jù)轉(zhuǎn)換為三維GIS 數(shù)據(jù)并高效分析編輯管理、創(chuàng)建三維圖層)[16,18]、D3.js(應(yīng)用廣泛的信息可視化JavaScript庫,用D3(數(shù)據(jù)驅(qū)動文檔)綁定數(shù)據(jù)與文檔對象模型并由數(shù)據(jù)決定文檔對象可視化模型,用CSS、HTML 及可縮放矢量圖形可視化顯示)[16,19]等。此外,ActiveX 控件通過專用標(biāo)準(zhǔn)接口用屬性、方法、事件三種機(jī)制與所處環(huán)境(容器)交互[16,20]。
2.3.2 信息檢索可視化
1)技術(shù)
黃田青[1]、孫雨生[16]、王曼茹[21]、李巧蓉[22]、杜鵑[23]、閆實[24]、顏培亮[25]認(rèn)為檢索結(jié)果可視化常用顯示技術(shù)主要有聚焦+上下文[16,21~22,24~25](在有限可視空間內(nèi)[22,24]放大聚焦節(jié)點同時縮小周邊對象,離聚焦節(jié)點越遠(yuǎn)對象越小以突出重點、揭示信息上下文關(guān)系[21])、廣角與聚焦技術(shù)(可視化切換總體概要信息顯示與個別具體信息顯示)[16,21]、徑向填充[16,22,24](以圓環(huán)(將圓環(huán)劃分成數(shù)個扇形區(qū)域,圓環(huán)外層局部區(qū)域和內(nèi)層子節(jié)點間存在對應(yīng)關(guān)系)及漸進(jìn)色(顏色沿直線變換且可隨意更改直線方向)分別表示層次結(jié)構(gòu)信息[22,24]及連續(xù)型信息,能顯示整體信息、焦點、上下文信息和局部放大信息[22,24])、樹圖[1,6,16,25](現(xiàn)代可視化表現(xiàn)形式,多含算法,在同一視圖顯示數(shù)據(jù)層次里所有單節(jié)點信息,圖形大小表示樹形圖在整個層次中相對大小,其他屬性由顏色等表示[1])、雙曲線樹[25](雙曲線瀏覽[1],通過兩條空間曲線顯示節(jié)點,按節(jié)點到焦點距離縮小圖示,以便在有限視覺范圍內(nèi)顯示盡量多節(jié)點,可用鼠標(biāo)轉(zhuǎn)移焦點觀察結(jié)構(gòu)圖示)[1]、錐形樹(半透明錐形三維空間圖,根節(jié)點位于錐形樹頂端或空間(凸輪樹)最左端,子節(jié)點均勻分布在根節(jié)點下方或右側(cè)錐形延展部分,鼠標(biāo)點擊某節(jié)點可使其高亮顯示并旋轉(zhuǎn)錐形樹使其位于圖形前端)[1~2,25]、關(guān)聯(lián)更新技術(shù)(兩個或多個窗口數(shù)據(jù)間相互關(guān)聯(lián),其數(shù)據(jù)隨相關(guān)窗口信息設(shè)置更新而改變)、空間顯示技術(shù)(基于對象間相似度將對象繪制成歐氏空間內(nèi)點或區(qū)域以構(gòu)成散列圖,揭示對象內(nèi)部及相互間關(guān)系)、濾鏡技術(shù)(在窗口上重疊各種效果“濾鏡”,輔助實現(xiàn)信息交互式選擇、移動過濾與分析轉(zhuǎn)換)[16,21]、Web 三維顯示(使用戶高效檢索圖書實際空間地址)[23]等。
孫雨生[16]、石明芳[17]、王曼茹[21]、李巧蓉[22]、閆實[24]、顏培亮[25]、徐剛[26]、陳俊鳳[27]認(rèn)為檢索過程可視化技術(shù)主要是降維映射技術(shù),包含自組織特征映射[24~25](通過人工神經(jīng)網(wǎng)絡(luò)(模擬人腦處理信號特點)抽象歸類錄入數(shù)據(jù)或信號特征[24~25],用簡單幾何關(guān)系揭示拓?fù)浣Y(jié)構(gòu)并將非線性高維數(shù)據(jù)映射到低維空間[24])、潛在語義標(biāo)引(通過統(tǒng)計方法尋找詞內(nèi)語義結(jié)構(gòu),分解奇異值,投影文檔向量到較低維度空間以有效轉(zhuǎn)化數(shù)據(jù))等[16,25]、多維尺度分析[16~17,21~22,24,26~27](用非線性變換將高維數(shù)據(jù)轉(zhuǎn)為低維數(shù)據(jù)并以疏密不同的散點在低維空間近似表示其關(guān)系(點間距離表示數(shù)據(jù)間相似性)[22,24])、尋徑網(wǎng)絡(luò)[16~17,21~22,24,26~27](根據(jù)經(jīng)驗性數(shù)據(jù)評估概念或?qū)嶓w間聯(lián)系相似(異)性,用圖論相關(guān)概念及原理得出相應(yīng)網(wǎng)狀模型[22,24])等。
2)方法
孫雨生[4,16]、閆實[24]、徐剛[26]、張繼東[28]、周靜怡[29]認(rèn)為檢索結(jié)果可視化聚類方法主要有基于分類簇圖法[28](按分類標(biāo)準(zhǔn)(關(guān)聯(lián)關(guān)鍵詞、形成日期、類型等)將相似檢索結(jié)果歸為同簇形成虛擬節(jié)點[28],根據(jù)語義內(nèi)容[26]添加標(biāo)簽[28],再按網(wǎng)狀、層次結(jié)構(gòu)排列簇(集)以揭示簇間邏輯關(guān)系[26])、分類文檔簇法(找出共詞文檔并聚類包含共詞最多文檔于同簇,根據(jù)文檔語義內(nèi)容命名簇標(biāo)題以便檢索,同時以簇為節(jié)點用層、網(wǎng)狀結(jié)構(gòu)排列以揭示文檔簇(集)間邏輯關(guān)系,缺點是準(zhǔn)確度難保證)[16,24,26,29]、關(guān)鍵詞詞頻排序樹法(抽取分析用戶檢索所得文獻(xiàn)關(guān)鍵詞并得到其降序排序列表(縱向不同顏色表示關(guān)鍵詞在該頁中出現(xiàn)次數(shù),橫向排列小矩形根據(jù)關(guān)鍵詞個數(shù)用縱向不同顏色區(qū)域分別表示每頁各關(guān)鍵詞詞頻分布信息),將文獻(xiàn)按關(guān)鍵詞分類,通過關(guān)鍵詞出現(xiàn)頻率揭示大量文獻(xiàn)知識整體結(jié)構(gòu)以便用戶高效獲取相關(guān)學(xué)科知識)[16,28]、Texttiling 算法[4,26](根據(jù)頁、章、段將文獻(xiàn)分為主題塊[7,21,26],按用戶所輸關(guān)鍵詞自動檢索并用長方條(長度代表文獻(xiàn)長度并分成多個對應(yīng)文本單元塊的小矩形,其顏色深淺、長度分別揭示關(guān)鍵詞出現(xiàn)頻率、段落長度[7,21,24,29])表示檢索結(jié)果且依次按檢索詞組命中總頁數(shù)、檢索詞被命中總數(shù)、基于共現(xiàn)頻率的相似檢索橫向排序[26,29],用戶點擊對應(yīng)位置[21,29]選擇性瀏覽文獻(xiàn)[7,21,24,29],通過檢索詞位置、共現(xiàn)情況發(fā)現(xiàn)隱藏信息)等。
孫雨生[16]、王曼茹[21]、朱成[30]認(rèn)為檢索過程可視化方法主要有動態(tài)查詢與過濾技術(shù)(通過控制實時反饋、調(diào)整過濾參數(shù)、修訂檢索提問來過濾信息資源中不必要信息、聚焦用戶興趣)[16,21]、三維圖像處理技術(shù)(簡單二維圖像直接顯示成三維圖像,復(fù)雜二維圖像平滑處理(基于濾波、插值等算法[16])尖銳凸凹部分以達(dá)到理想三維圖像顯示效果,圖像三維坐標(biāo)中x、y 表示圖像列、行坐標(biāo),z=f(x,y)是關(guān)于(x,y)點的函數(shù),f 可?。▁,y)像素點處灰度值、像素顏色分量、色調(diào)、飽和度等)[30]等。
2.3.3 信息資源組織可視化
1)技術(shù)
趙文宇[15]、孫雨生[16]、莫耀評[31]認(rèn)為信息資源組織數(shù)據(jù)可視化技術(shù)主要有基于幾何投影數(shù)據(jù)可視化技術(shù)(包括平行坐標(biāo)法,用N 條平行且等間距坐標(biāo)軸(對應(yīng)不同維度空間)映射N 維空間為二維空間,表示為折線[15,31],具體實現(xiàn)工具為報表(顯示動態(tài)變化數(shù)據(jù)、趨勢性參數(shù)值并實現(xiàn)報告和表格一體化)[31],缺點是依賴屏幕寬度,存在大量數(shù)據(jù)可視化結(jié)果重疊問題[15])、面向像素數(shù)據(jù)可視化技術(shù)(顏色、窗口內(nèi)像素排列、屬性順序分別反映數(shù)據(jù)某一維度信息、數(shù)據(jù)聚類及相關(guān)性、屬性間依賴及相關(guān)性)[15,31]、基于圖標(biāo)數(shù)據(jù)可視化技術(shù)(圖標(biāo)屬性如大小、顏色、形狀等表示對應(yīng)數(shù)據(jù)項維,具體實現(xiàn)方法主要有Chemoff-faces、Shape Coding、Stick Figures、Color Icons 等)[15,31]、基于層次數(shù)據(jù)可視化技術(shù)[15,31](分層處理數(shù)據(jù)量不大且維度不多數(shù)據(jù)集[15],理順數(shù)據(jù)結(jié)構(gòu)[31],形成樹圖、圓錐樹[15,31]等可視化形式)等。此外,XSLT 技術(shù)可轉(zhuǎn)換空間數(shù)據(jù)形成圖書屬性[23]。
2)方法
張琪[7]、周寧[8]、閆實[24]、陳俊鳳[27]、張繼東[28]、田蔚然[32]認(rèn)為文本可視化方法主要有2D 法[24,27,32](節(jié)點代表文獻(xiàn),節(jié)點位置、顏色、大小分別揭示文獻(xiàn)關(guān)系、類別、屬性,支持動態(tài)查詢、過濾、縮放[24,27,32],典型代表為可視化HTML 文件的Starfield 技術(shù),其用節(jié)點顏色、大小分別表示文件HTTP 狀態(tài)、長短[24,27])、圖標(biāo)映射法(構(gòu)建圖標(biāo)集,在相關(guān)標(biāo)準(zhǔn)和圖標(biāo)集間構(gòu)建固定映射函數(shù),用不同圖標(biāo)表示不同文本以向用戶展現(xiàn)文本信息內(nèi)容,缺點是圖標(biāo)反映含義有限且粗糙)[28]、圖符法[7~8](圖符表示各分類領(lǐng)域具體含義[7],圖符信息存儲采用邏輯壓縮等方法[8])、高維空間描述法(描述文獻(xiàn)主題內(nèi)容)[7~8]、群集映射法(統(tǒng)計文獻(xiàn)關(guān)鍵詞出現(xiàn)頻率并用高頻關(guān)鍵詞構(gòu)建高維信息空間,如通過轉(zhuǎn)換群集映射到三維空間構(gòu)建三維知識群集圖)、自組織地圖算法(即自組織特征映射)、上下文關(guān)聯(lián)法、新聞星系法[24]等。
崔曉菡[6]認(rèn)為可視化技術(shù)、方法與工具有真實可靠性和直觀性(將繁雜數(shù)據(jù)(統(tǒng)計)轉(zhuǎn)化為直觀圖形),可多維處理數(shù)據(jù),用不同屬性管理數(shù)據(jù),實現(xiàn)數(shù)字圖書館的信息瀏覽、檢索和資源組織可視化。
信息瀏覽可視化主要運用可視化工具,通過ActiveX[20]、GraphLayout[28]等組件基于后臺繪制器按表征形式所做視圖(文檔透鏡、顆粒圖[1~3]等)構(gòu)建人機(jī)交互可視化界面并實現(xiàn)縮放與旋轉(zhuǎn)、導(dǎo)航、人機(jī)交互。此外,張棋[7]、石明芳[17]提到人機(jī)交互界面應(yīng)具有直觀性、吸引性、便捷性、智能性且人性化。
顏培亮[25]認(rèn)為信息檢索可視化通過圖形或圖像(如刷圖、雙曲線瀏覽[1~2]等)顯示空間數(shù)據(jù)以明確數(shù)據(jù)間聯(lián)系與規(guī)律、透明化信息檢索過程,提供良好人機(jī)交互環(huán)境以便用戶高效獲取、分析、理解數(shù)據(jù),增強(qiáng)用戶認(rèn)知能力,提高查全率和查準(zhǔn)率。信息檢索可視化涉及檢索結(jié)果(聚類、顯示)、過程(映射[25])可視化[16~17,21~22,24~28,33]。
3.2.1 檢索結(jié)果可視化
檢索結(jié)果可視化主要采用聚類分析和可視化顯示技術(shù)[22,24],前者通過檢索詞與后臺索引項鏈接到相關(guān)信息并對其聚類以得到初步檢索結(jié)果(文獻(xiàn)及其隱含關(guān)系),且可按檢索結(jié)果與檢索需求間關(guān)系優(yōu)化檢索式(基于可視化技術(shù)和檢索詞語義使用戶準(zhǔn)確表達(dá)檢索需求[7]);后者根據(jù)檢索過程中的聚類特點及數(shù)據(jù)集維度選擇適當(dāng)方式可視化顯示結(jié)果集。
3.2.2 檢索過程可視化
孫雨生[4]、石明芳[17]、王曼茹[21]、李巧蓉[22]、閆實[24]、徐剛[26]、陳俊鳳[27]、程翔[34]認(rèn)為在檢索過程可視化中,首先用Shneiderman 的信息可視化分類法分析、拓展[17,22]信息空間檢索路徑[17,21~22,24,26~27]并根據(jù)檢索過程精確測量用戶行為[34],其次基于多維尺度分析、尋徑網(wǎng)絡(luò)[4,21,24,27]和自組織特征映射[4,24~25]技術(shù)通過隱性馬爾可夫模型序列行為分析信息檢索行為[4,26]來將理想檢索路徑插入隱性馬爾可夫模型程序,最后在相應(yīng)語義空間動態(tài)比較以形成最優(yōu)路徑[26,34]。
檢索過程可視化引入數(shù)據(jù)映射機(jī)制,主要是映射技術(shù),集成相應(yīng)數(shù)據(jù)處理算法組織處理大數(shù)據(jù)集[33,35]并將高維數(shù)據(jù)映射到低維空間以便計算機(jī)處理[25];錢力[33]、馬雨佳[35]認(rèn)為數(shù)據(jù)映射機(jī)制設(shè)計過程為先根據(jù)可視化模型集成相應(yīng)數(shù)據(jù)處理算法到系統(tǒng)中,再用可視化引擎驅(qū)動錄入并根據(jù)規(guī)則算法自動處理以將原始數(shù)據(jù)轉(zhuǎn)換成可視化數(shù)據(jù)格式,最后傳輸并顯示于可視化組件。
信息資源組織可視化主要通過特征抽取資源內(nèi)容特征并按數(shù)據(jù)信息選擇特定技術(shù)(基于幾何投影、面向像素、基于圖標(biāo)、基于層次等)進(jìn)行處理,形成平面視圖、標(biāo)簽云等表征形式。張棋[7]、周寧[8]、李玉萍[9]、閆實[24]、陳俊鳳[27]、田蔚然[32]認(rèn)為館藏信息(空間、屬性信息[27])按其表現(xiàn)形式分為文本、圖像[9,24]、語音和視頻[7~9,27,32]信息。
3.3.1 文本資源可視化
文本資源可視化分提煉文字信息(分析原始文字、忽略資源格式、剔除無用信息以提煉關(guān)鍵詞、分析詞頻、總結(jié)特征)、轉(zhuǎn)為圖像(圖像要忠于文字資源含義且符合用戶審美)、人機(jī)交互(圖像直觀便捷、吸引用戶目光,提供舒適視覺觀感)三步[9]。
3.3.2 圖像資源可視化
圖像資源可視化分整理圖像內(nèi)容(涉及簡單(色彩、形狀等)、較復(fù)雜(所示對象等)、更高級(描述信息與所示對象關(guān)系等)內(nèi)容)[9]、用數(shù)據(jù)庫法[7]分類存儲圖像(標(biāo)注圖像間關(guān)系)、選擇顯示模式(使圖像內(nèi)容直觀、易理解,如根據(jù)圖像間聯(lián)系關(guān)聯(lián)圖像)三步[9]。
3.3.3 語音資源可視化
語音資源可視化可用文本方式可視化[24],分音頻文字性轉(zhuǎn)換(采樣漢語語音資源、播放語音信息、分離語音音素、基于語音音素庫識別語音并轉(zhuǎn)為漢字字符串、存儲漢字文本信息生成漢字文本文件[7~8,32])、文字資源可視化轉(zhuǎn)換(抽取、可視化內(nèi)容特征(需相應(yīng)圖符庫、詞庫、平臺支持)[7~8,32])兩步[9]。
3.3.4 視頻資源可視化
視頻資源可視化(有可視化特性[27,32])分抽取數(shù)字視頻信息特征構(gòu)建特征庫[8~9](可通過MPEG-7與相關(guān)知識庫[27]抽取特征內(nèi)容(文本、音頻與視頻(分鏡頭、場景(關(guān)鍵幀、預(yù)測幀))特征[7~8],包括顏色、形狀、紋理、運動、位置、柵格分布、時間系列、多視點、空間坐標(biāo)等[7~8])實現(xiàn))、數(shù)字化視頻信息、存儲到視頻庫[27]三步。
韓全惜[36]認(rèn)為數(shù)字圖書館信息構(gòu)建(結(jié)構(gòu)化設(shè)計信息空間,以組織和運用有意義、清晰、直觀的內(nèi)容、結(jié)構(gòu)表達(dá)數(shù)據(jù)內(nèi)容并提供直觀訪問途經(jīng))應(yīng)按用戶需求(使用信息特點)組織信息、設(shè)計界面以提升用戶體驗,構(gòu)建利于用戶組織、導(dǎo)航、標(biāo)引、檢索的信息可視化系統(tǒng)以便與信息工作者互動、高效采集信息。數(shù)字圖書館資源組織涉及空間、屬性數(shù)據(jù)[10~14,23,37~38]的采集、處理和存儲。
杜慧敏[10~11]、張洪敏[12]、馬音寧[13]、王亞鳳[14]、杜娟[23]、劉麗[37]、王雅坤[38]認(rèn)為空間數(shù)據(jù)(圖書館結(jié)構(gòu)及館藏布局(館舍結(jié)構(gòu)、空間布局、地理背景、圖書分類等))按數(shù)據(jù)結(jié)構(gòu)類型分矢量、柵格數(shù)據(jù)(通過透明格網(wǎng)采集、掃描輸入)[14],結(jié)合GIS 數(shù)據(jù)分層組織法將圖書館空間數(shù)據(jù)存入地理背景、建筑物、樓層、閱覽室、書架號、書架層等[10,12,38]等圖層并逐級細(xì)化顯示[10~13,23,37~38]以詳細(xì)標(biāo)明圖書空間位置[13],具體通過掃描圖紙等數(shù)字化或坐標(biāo)繪圖法(用計算機(jī)自動畫線編程和實地采集的坐標(biāo)點值保證圖書館部門間及房間設(shè)備、書架等間相對位置,確保地理圖形精度[10,12,38])采集;屬性數(shù)據(jù)分圖書空間(對應(yīng) 空 間 實 體 地 理特 征信 息[10~12,14,23,37~38]與空 間 模型[10~12,14,37~38])、文獻(xiàn)資源屬性信息(書名、作者、出版社、藏書地及關(guān)鍵詞等),通過對書目數(shù)據(jù)、數(shù)字文獻(xiàn)資源進(jìn)行標(biāo)引來完成[14],數(shù)據(jù)錄入需先在ArcCatelog(地理數(shù)據(jù)資源管理器)中定義對應(yīng)屬性結(jié)構(gòu)并檢查邏輯一致性,鏈接圖形要素、屬性記錄,多先以手工錄入為主,后自動批量轉(zhuǎn)換錄入(需二次開發(fā)ArcGIS模塊并與MIS數(shù)據(jù)庫鏈接)[14]。
馬曉亭[39]認(rèn)為信息資源空間、屬性數(shù)據(jù)預(yù)處理包括補充、剔冗、濾噪、關(guān)系描述、格式標(biāo)準(zhǔn)化與模式規(guī)范化等,通過ETL等實現(xiàn)數(shù)據(jù)萃取、轉(zhuǎn)置、加載以在可視化精度范圍內(nèi)控制因采集、處理、計算、分析、可視化等階段數(shù)據(jù)不確定性、應(yīng)用過程不對稱性產(chǎn)生并累積的誤差、偏差、信息缺失比例及程度,通過隨機(jī)選取、等比例調(diào)整樣本規(guī)模以平衡數(shù)據(jù)集規(guī)模與清洗難度,真實、全面、準(zhǔn)確、客觀反映大數(shù)據(jù)價值和關(guān)系,提高數(shù)據(jù)價值密度、經(jīng)濟(jì)性、可用性和可控性。
王亞鳳[14]認(rèn)為ArcGIS(功能強(qiáng)大完備、應(yīng)用廣泛的GIS 軟件)數(shù)據(jù)庫分別用數(shù)據(jù)庫實體(存儲如矢量、柵格數(shù)據(jù)等數(shù)據(jù)文件)、數(shù)據(jù)庫管理系統(tǒng)(增刪改查及維護(hù)數(shù)據(jù))兩子系統(tǒng)(通過標(biāo)識碼(ID)連接,實現(xiàn)雙向檢索)存儲空間(存儲為線或面狀實體弧段文件)、屬性數(shù)據(jù)(存儲于關(guān)系數(shù)據(jù)庫管理系統(tǒng)[14],圖書空間、文獻(xiàn)資源屬性信息分別存入建筑物、樓層、房間、書架等屬性表[10~12,14,37~38]和文獻(xiàn)資料、讀者、設(shè)備等信息表,通過關(guān)鍵字與書架號鏈接[23]并由圖書館管理系統(tǒng)中SQL Server[11,37]存儲管理[10~12,14,37~38])。
綜上,本文從可視化表征、可視化機(jī)制、信息資源組織三方面闡述了國內(nèi)數(shù)字圖書館信息可視化核心內(nèi)容研究進(jìn)展:可視化表征主要從信息瀏覽、信息檢索及信息資源組織三方面研究其表征內(nèi)容、形式及實現(xiàn)技術(shù)、方法與工具;可視化機(jī)制重點研究信息瀏覽(集中于可視化工具運用)、信息檢索(集中于檢索結(jié)果、過程可視化)、信息資源組織可視化(集中于文本、圖像、語音、視頻資源)具體過程;信息資源組織核心研究數(shù)字圖書館空間、屬性信息資源的采集、處理和存儲。接下來,筆者將嘗試構(gòu)建大數(shù)據(jù)環(huán)境下智慧圖書館可視化總體方案。