陳玉玲 龍洋洋 貴州大學 公共大數(shù)據(jù)國家重點實驗室 計算機科學與技術學院 姜軍志 貴州大學 計算機科學與技術學院
在非物質文化遺產的理念被提出后,各國都開始重視本國的非物質文化遺產保護。在聯(lián)合國公布的人類非物質文化遺產名錄中,中國的非物質文化遺產資源豐富,遠超其他國家。據(jù)調查,我國擁有非物質文化遺產項目多達87 萬項,國家圖書館累積全文影像保護已達1.1 億萬頁,音頻數(shù)字轉換的音樂超過50 萬首,戲劇種類300 余項、昆曲、古琴等30 余項。另外,國家圖書館主動擔當面臨無法永久保存老電影檔案以及影像資料遺產修復工作,做搶救性數(shù)字化修復1600 多部。
我國傳統(tǒng)的非物質文化遺產保護方法包括手工記錄、拍照等,書本、照片等很難長時間存放。在數(shù)字技術在不斷發(fā)展的時代,傳統(tǒng)的手工保護方法耗時耗力,難以對非物質文化遺產資源進行有效的保護。數(shù)字化技術的出現(xiàn)為非物質文化遺產的保護、管理與傳承提供了新的方式。因此,結合數(shù)字化技術,將非物質文化遺產進行數(shù)字化、可視化,是十分必要的。
非物質文化遺產可視化平臺主要運用于無人監(jiān)管的情況下,通過對網絡上的非遺數(shù)據(jù)進行爬取,在對數(shù)據(jù)處理后,更新非遺的信息,為非遺保護人員提供便捷的管理。同時,非遺傳承人也可以通過此平臺來發(fā)布相關的非物質文化遺產。近年來我國政府和社會為有效的保護非物質文化遺產投入了很多精力,各省份都開始建立和完善具有地方特色的非物質文化遺產檔案與數(shù)據(jù)庫,如“數(shù)字敦煌”,“數(shù)字故宮”,“上海非物質文化遺產網”,“浙江省非物質文化遺產網”等。但在非物質文化遺產數(shù)據(jù)庫的建設過程中仍然存在很多問題:①我國的非物質文化遺產數(shù)目繁多,難以百分百的覆蓋所有資源。據(jù)資料顯示,我國的公共圖書館數(shù)據(jù)庫中非物質文化遺產數(shù)據(jù)資料只占總體數(shù)據(jù)庫資料的百分之六。②非物質文化遺產的保護,需要政府與全民的參與。因此,針對文化遺產建立專題數(shù)據(jù)庫,通過數(shù)字化技術整理非遺信息、使用網絡展示的方式來對其進行傳播與交流是必不可少的。
針對貴陽市非物質文化遺產的保護,本文結合大數(shù)據(jù)可視化技術,提出一個建設貴陽非物質文化遺產可視化平臺的架構方案,來幫助貴陽非遺保護工作者開展工作,健全貴陽市非物質文化遺產管理體制,并對貴陽非物質文化遺產進行保護。
貴陽市非物質文化遺產可視化平臺可以基于云計算、大數(shù)據(jù)等先進技術進行建設,主要目的是實現(xiàn)非遺信息的數(shù)據(jù)可視化和科學管理化。本文采用組件化建設的模式為貴陽市非物質文化遺產可視化平臺提供統(tǒng)一標準化環(huán)境下的組件化建設支撐,實現(xiàn)實戰(zhàn)需求的快速開發(fā)響應、應用快速部署。方案的架構分為應用服務層、服務支撐層以及基礎層三個部分。
應用服務層:該層主要為貴陽非遺可視化平臺用戶提供應用服務,提供統(tǒng)一的登錄門戶來輔助非遺保護工作者實現(xiàn)非遺的科學化管理。用戶登錄后可根據(jù)應用導航,對非遺信息查詢、展示、更新等功能。
服務支持層:借助基礎層的幫助,提供數(shù)據(jù)管理、數(shù)據(jù)共享、數(shù)據(jù)分析、數(shù)據(jù)調度、數(shù)據(jù)監(jiān)控等服務,實現(xiàn)非遺相關數(shù)據(jù)的統(tǒng)一管理,并對各類數(shù)據(jù)合理銜接、高效利用。
基礎層:基礎層是實現(xiàn)非遺可視化平臺的保障,基礎層將硬件資源、存儲資源、網絡資源等進行整合,形成可按需求動態(tài)擴展的高性能計算環(huán)境和大容量存儲環(huán)境以滿足海量非遺數(shù)據(jù)存儲。
貴陽非物質文化遺產可視化平臺體系架構中,涉及到數(shù)據(jù)交換整合、資源管理、運行維護、應用服務等各個層面。在各個層面中,可以把功能相似的聚集在一起形成模塊,利用組件化開發(fā)原理將最基本、可重用的代碼封裝成組件為模塊提供服務。堅持各個功能模塊以組件化方式進行開發(fā)的原則,并基于服務總線實現(xiàn)功能模塊間的無障礙通訊,將各個模塊之間的依賴和影響降至最低。同時,采用可擴展性的技術體系架構,滿足平臺應用功能完善升級和靈活擴展的需要。根據(jù)數(shù)據(jù)類型、數(shù)據(jù)規(guī)模、應用方式的不同,采用多種數(shù)據(jù)存儲和數(shù)據(jù)庫管理技術混合應用的方式進行數(shù)據(jù)資源存儲管理體系建設,搭建檔案庫、關系庫、專題庫、日志庫等核心數(shù)據(jù)庫。在數(shù)據(jù)庫管理方面,采用關系型數(shù)據(jù)庫、分布式列式數(shù)據(jù)庫混搭的管理方式。關系型數(shù)據(jù)庫主要存放基礎數(shù)據(jù)以及面向業(yè)務服務支撐的各類數(shù)據(jù)集,用于實現(xiàn)數(shù)據(jù)標準化處理、質量監(jiān)控管理以及數(shù)據(jù)量較小、實時性要求高的數(shù)據(jù)分析處理工作;列式數(shù)據(jù)庫主要用于需要進行大規(guī)模計算處理的海量數(shù)據(jù)的存放,利用其支持分布式存儲和并行計算的特性支撐海量數(shù)據(jù)的查詢、統(tǒng)計和分析處理等工作。
在數(shù)據(jù)存儲方式方面,采用集中式存儲和分布式存儲共同應用的方式。其中,關系型數(shù)據(jù)庫一般采用集中式存儲方式,列式數(shù)據(jù)庫一般采用分布式存儲方式,非結構化數(shù)據(jù)優(yōu)先存放在分布式存儲文件系統(tǒng)中;采用數(shù)據(jù)倉庫技術(Extract-Transform-Load:ETL)等主流的數(shù)據(jù)集成系統(tǒng)工具(Kettle),對大量分散異構的資源進行分類抽取、清洗、轉換,從各個數(shù)據(jù)源抽取數(shù)據(jù),裝載到基礎數(shù)據(jù)資源庫中,實現(xiàn)數(shù)據(jù)匯聚集成;采用分布式并行計算處理技術實現(xiàn)海量數(shù)據(jù)的存儲管理和分析處理。平臺依托分布式并行計算框架(如Hadoop),采用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫(如HDFS、Hbase)實現(xiàn)數(shù)據(jù)存儲與管理,使用交互式SQL 大數(shù)據(jù)查詢工具實現(xiàn)數(shù)據(jù)快速查詢,并使用適合大規(guī)模數(shù)據(jù)集并行運算的技術模型(如Map/Reduce)滿足各種分析應用的開發(fā)需要。
平臺采用關系型數(shù)據(jù)庫和分布式數(shù)據(jù)存儲混搭架構,不同數(shù)據(jù)類型將分開存儲。對于高價值的整合資料采用關系數(shù)據(jù)庫技術;對于內容識別、批量計算、數(shù)據(jù)挖掘類的海量數(shù)據(jù)計算,采用Hadoop 生態(tài)體系技術實現(xiàn),包括MAP/REDUCE、HBase、HIVE、Impala 等;對于實時性要求很高的數(shù)據(jù)處理將采用Spark Streaming流式計算引擎技術實現(xiàn);數(shù)據(jù)導入和抽取采用kafka、kettle 技術,實現(xiàn)把海量數(shù)據(jù)高效的輸送到各類型數(shù)據(jù)庫中;資源調度基于Zookeeper 等技術,為數(shù)據(jù)服務平臺的各類應用程序進行資源管理和調度。
貴陽非物質文化遺產可視化平臺,是一個面向貴陽市非物質文化遺產保護工作者以及其他非遺愛好者的可視化平臺。非遺保護工作者可以通過此平臺監(jiān)控非遺信息,并且分析非遺信息的變化情況。普通用戶也可以通過此平臺查詢和新增相關的非物質文化遺產信息。
本文介紹了研究背景、研究現(xiàn)狀以及非遺未來的發(fā)展趨勢,確定了本課題的研究意義和目的,通過建立貴陽市非物質文化遺產可視化平臺來實現(xiàn)對非物質文化遺產的實時監(jiān)控和保護。本文結合大數(shù)據(jù)可視化相關技術,對貴陽市非物質文化遺產可視化平臺進行了架構設計,分析了平臺實現(xiàn)的關鍵技術與功能,并將功能進行了模塊劃分。