蔣姍姍 梁建偉 邸臻煒
摘要:大數(shù)據(jù)環(huán)境中,非物質(zhì)文化的數(shù)據(jù)信息分析是以其信息建設、管理為前提?;诖?,提出基于大數(shù)據(jù)的非物質(zhì)文化信息分析方法。首先利用數(shù)據(jù)挖掘?qū)?shù)據(jù)信息進行采集和加工,之后對其進行清洗、信息關鍵特征提取以及數(shù)據(jù)信息建設,從而有效實現(xiàn)對非物質(zhì)文化信息的分析管理。實驗結(jié)果表明,本文提出的基于大數(shù)據(jù)的非物質(zhì)文化信息分析方法,在非物質(zhì)文化信息測試中可以有效實現(xiàn)錯誤信息文本的自動分析,從而減少了人工分析錯誤信息文本的工作量,且具備時間短,工作效率高的優(yōu)勢。
關鍵詞:大數(shù)據(jù);非物質(zhì)文化;信息分析
中圖分類號:G350? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)04-0039-02
大數(shù)據(jù)作為數(shù)據(jù)在一種全新的處理模式下自動生成龐大的、海量的、多樣化的信息資產(chǎn)的現(xiàn)代代名詞[1]。其最關鍵的技術變革就是促使人們能夠利用更多海量數(shù)據(jù),而非對某個數(shù)據(jù)的隨機取樣;人們不再過分苛求數(shù)據(jù)信息之間的因果關系,而轉(zhuǎn)變?yōu)閷ο嚓P關系體系的重視[2]。非物質(zhì)文化在數(shù)據(jù)信息分析上的研究是非常及時和有必要的。通過信息的智能化手段,對非物質(zhì)文化的數(shù)據(jù)信息分析是在目前非物質(zhì)文化應對嚴峻社會環(huán)境下生成的新方法、新手段。
1基于大數(shù)據(jù)的非物質(zhì)文化信息分析方法
1.1數(shù)據(jù)的采集與加工
大數(shù)據(jù)在信息獲取過程上具備一定難度和復雜,是由于現(xiàn)代社會中生成的龐大數(shù)據(jù),雖然人們基本上是將其所需信息儲存在計算機網(wǎng)絡之中,然而其中也存在著很多和自身發(fā)展并無多大關聯(lián)的冗雜信息,使得信息變得更為復雜多樣。數(shù)據(jù)信息只有被實際應用的前提下才可以完全發(fā)揮出其應有的功能,使用者在計算機網(wǎng)絡上按照關鍵詞對信息進行有用搜索,計算機對和關鍵詞有關的信息進行仔細的篩選和整理,最終將搜索結(jié)果具體展現(xiàn)出來,使用者按照這些搜索結(jié)果最終確定信息內(nèi)容,這就是對信息的獲取和采集過程[3]。
加工過程:一般狀況下,假如使用者獲取到的數(shù)據(jù)信息較多,那么其就越需要利用計算機更為復雜多樣的程序來對檢索工具的準確度和嚴謹性進行提高,進而提升使用者獲取信息的精準性。計算機在為使用者加工信息的全過程中,為進一步保證信息的準確性,就需要對計算機的應用狀態(tài)進行實時監(jiān)管,過濾掉垃圾信息,從而實現(xiàn)對數(shù)據(jù)信息的重點加工[4]。在對信息數(shù)據(jù)進行加工的時候,有必要利用計算機信息處理對使用者提供的信息關鍵點進行精準定位,并對數(shù)據(jù)庫信息進行二次歸類和整合,從而為客戶提供其所需的有效信息。加工環(huán)節(jié)中,將從CNKI導出我國非物質(zhì)文化一系列的研究數(shù)據(jù),依次保存為Refworks格式、Endnote格式[5]。Refworks格式內(nèi)的數(shù)據(jù)可引入Cite space,借助轉(zhuǎn)換格式能夠生成有關作者、合作組織以及關鍵詞共現(xiàn)等加工而成的知識圖譜。Endnote格式內(nèi)的數(shù)據(jù)可引入SATI,借助轉(zhuǎn)換格式能夠就作者、機構(gòu)名稱、關鍵詞分別建立Excel格式的共現(xiàn)矩陣,之后將共現(xiàn)矩陣導進Ucinet從而生成**h文本格式,利用Netdraw選調(diào)能夠自動加工生成實際可需的可視化圖譜。也可以利用Ucinet轉(zhuǎn)換成.net格式下的文本矩陣,導進VOS viewer就能夠自動加工生成實際可需的可視化圖譜。如此一來,在數(shù)據(jù)完成采集和加工的基礎上就可以為后續(xù)數(shù)據(jù)清洗提供便捷。
1.2數(shù)據(jù)清洗
數(shù)據(jù)清洗的目的就在于將原始文本數(shù)據(jù)中出現(xiàn)的不規(guī)范、格式重復、語義歧義、冗余數(shù)據(jù)以及信息指向不明確的數(shù)據(jù)完全排除。數(shù)據(jù)清洗一般會利用空值、差誤值、不完整數(shù)據(jù)、干擾數(shù)據(jù)類型、異常數(shù)據(jù)等清洗方法。在以上手段的應用基礎上,還利用了以下數(shù)據(jù)清洗法:第一,增加限定狀語,如“形容詞+名詞”等;第二,按照發(fā)布者的具體IP地址,排除非限定地區(qū)搜索出來的信息;第三,按照微博上顯示的前后時間關聯(lián),排除掉一些延續(xù)性信息的微博;第四,按照發(fā)布內(nèi)容的有關性,排除和社會一般認識無關的評論、新聞等;第五,排除非人群特征類信息,譬如轉(zhuǎn)發(fā)的報紙、學報、期刊、官方新聞等。將所有數(shù)據(jù)清洗完畢后,獲取到的數(shù)據(jù)信息本身在格式、規(guī)范、語義以及指向性等方面是合格的,這在很大程度上可以為之后關鍵特征的提取減少阻力,降低操作環(huán)節(jié)的復雜性。
1.3提取信息關鍵特征
數(shù)據(jù)清洗后,將完成清洗的文本信息進行掃描,將計算機網(wǎng)絡中出現(xiàn)的關鍵詞以詞頻的方式,作為對應對象描述的主要內(nèi)容。另外,文本利用tf-idf權重來確定關鍵詞的重要性,衡量非物質(zhì)文化和一系列關鍵詞間的關系。tf-idf權重在基于大數(shù)據(jù)的基礎上在信息分析與管理等領域上已經(jīng)有了成功案例,分析手段已經(jīng)發(fā)展的比較成熟了。利用閾值設定和排序分列,篩選出權重比較高的關鍵詞。tf-idf值的計算公式表示為:
式中:[x]代表文檔[D]內(nèi)所有的關鍵詞;[tf(x)]代表某一提取關鍵特征值在文檔中出現(xiàn)的實際次數(shù);[idf(x)]代表某一提取特征值在整個文檔內(nèi)的分布狀況;[N]代表文檔[D]數(shù)據(jù)內(nèi)的文本數(shù)目,[D]代表某個非物質(zhì)文化信息的數(shù)據(jù)集合;[d∈D:x∈d]代表文檔[D]內(nèi)包括關鍵詞x在內(nèi)的所有文本總數(shù);[fx]代表關鍵詞出現(xiàn)的具體頻次;[Nd]代表關鍵詞出現(xiàn)的總數(shù)。
通過上列公式獲得tf-idf值來確定關鍵詞的重要程度后,就可以對后續(xù)數(shù)據(jù)信息的建設提供重要依據(jù),從數(shù)據(jù)上增加非物質(zhì)文化信息分析的在關鍵詞上的準確度。
1.4數(shù)據(jù)信息建設
在非物質(zhì)文化的數(shù)據(jù)信息建設上,首先要務就是將原始數(shù)據(jù)進行細致分類,構(gòu)建數(shù)據(jù)關系,以及對數(shù)據(jù)邏輯體系下的關鍵數(shù)據(jù)進行分析。在上述操作環(huán)節(jié)完成的基礎之上,將在非物質(zhì)文化信息的前期調(diào)研中采集到的諸多海量的圖片、文字、視頻等信息加工在一起,因為受到技術、采訪環(huán)境、以及偶然因素等限制,還沒有形成一個統(tǒng)一的標準化組織形態(tài)。從非物質(zhì)文化數(shù)據(jù)信息建設的立場上,利用技術標準的統(tǒng)一制定,對原始信息進行標準化處理。對于龐大的非物質(zhì)文化信息資源,借助大數(shù)據(jù)技術,以數(shù)據(jù)統(tǒng)計學的手段,構(gòu)建數(shù)據(jù)之間的邏輯關系結(jié)構(gòu),將會為非物質(zhì)文化的深入發(fā)展奠定一定研究基礎。非物質(zhì)文化信息資源在歸類整理上也能夠根據(jù)研究屬性來劃定。而在屬性研究上,對其劃分的主要依據(jù)就是根據(jù)非物質(zhì)文化的信息門類,以各個領域內(nèi)的具體內(nèi)容為標準進行劃分。歸類構(gòu)建數(shù)據(jù)庫時必須以非物質(zhì)文化為一級目錄,以目錄類別為準構(gòu)建二級目錄,比如民族舞蹈、民俗音樂、傳統(tǒng)曲藝、傳統(tǒng)手藝(如雜技、體育競技等)、傳統(tǒng)美術、傳統(tǒng)醫(yī)藥等,以具體內(nèi)容構(gòu)建三級目錄。另外一方面,對非物質(zhì)文化信息資源來說,還需要利用信息建設、使用者分析、傳播途徑等角度對其進行進一步的研究,研究內(nèi)容視研究視角不同而有所區(qū)別。完成一系列分類整理建設之后,我們就可以將信息分析交給元數(shù)據(jù)來實現(xiàn)。
1.5大數(shù)據(jù)信息分析
對于非物質(zhì)文化而言,對其元數(shù)據(jù)進行設計前必須首先了解有關非物質(zhì)文化館藏資料的部分特殊屬性,并對這些特殊屬性進行分析管理,不同類別的非物質(zhì)文化遺產(chǎn)資料對應的元數(shù)據(jù)信息類型也各不相同,如此一來才可以實現(xiàn)對元數(shù)據(jù)的更好管理。非物質(zhì)文化信息元數(shù)據(jù)管理分析設計的主要目標是為了便于對非物質(zhì)文化信息資料的元數(shù)據(jù)進行精準分析與管理。這部分工作主要有兩方面來完成,即元數(shù)據(jù)數(shù)據(jù)庫和功能設計。
元數(shù)據(jù)數(shù)據(jù)庫設計:首先需要制作一張元數(shù)據(jù)表(Metadata),在元數(shù)據(jù)表中按照數(shù)據(jù)信息下不同類型的非物質(zhì)文化添加不同信息,同時在非物質(zhì)文化類別表中也需要按照添加的內(nèi)容的不同自動添加元數(shù)據(jù)信息的新字段。向元數(shù)據(jù)總表內(nèi)添加新的元數(shù)據(jù)以后,非物質(zhì)文化類別表就會自動添加新信息,該信息對應了總表中元數(shù)據(jù)的全部記錄。
功能設計:非物質(zhì)文化元數(shù)據(jù)管理主要是采取C/S構(gòu)造,具體包括了非物質(zhì)文化元數(shù)據(jù)管理、專業(yè)資料信息管理這兩方面內(nèi)容。它能夠?qū)υ獢?shù)據(jù)進行動態(tài)實時的管理,如信息刪改、增添和查看等一系列操作。其中自定義編號是為了進一步保證元數(shù)據(jù)在內(nèi)容修改上的方便,如有助于增添新的元數(shù)據(jù),同時表單將會按照自定義的編號順序排列,使用者在實際操作過程中,以非物質(zhì)文化的具體類別為主,能夠自行查閱已經(jīng)輸入和導入進去的元數(shù)據(jù)表單。還有利于增添新的元數(shù)據(jù)信息,也能夠?qū)Ρ砀駜?nèi)的現(xiàn)有元數(shù)據(jù)進行刪改,如元數(shù)據(jù)的字段、長度、類別、實例、名稱等。
2實驗與效果分析
為了更加清楚、具體的看出本文提出的基于大數(shù)據(jù)的非物質(zhì)文化信息分析方法的實際應用效果,特與傳統(tǒng)的非物質(zhì)文化信息分析方法進行對比,對其信息分析的平均耗時進行比較。
2.1實驗準備
為保證試驗的準確性,以某地非物質(zhì)文化信息數(shù)據(jù)庫的測試用例作為基本資料,將兩種非物質(zhì)文化信息分析方法設計置于相同的硬軟件配置之中,進行錯誤文本信息的分析,實驗其信息分析平均耗時。配置參數(shù)見下表。
2.2實驗結(jié)果分析
試驗過程中,通過兩種不同的非物質(zhì)文化信息分析方法設計同時在相同配置環(huán)境下進行工作,分析其信息分析平均耗時的變化。實驗效果對比圖1所示。
實驗結(jié)果表明,本文提出的基于大數(shù)據(jù)的非物質(zhì)文化信息分析方法,在非物質(zhì)文化信息測試中可以有效實現(xiàn)錯誤信息文本的自動分析,從而大大減少了人工分析錯誤信息文本的工作量,且具備時間短,工作效率高的優(yōu)勢。
3結(jié)束語
對基于大數(shù)據(jù)的非物質(zhì)文化信息分析方法進行分析,雖然大數(shù)據(jù)的非物質(zhì)文化信息分析法的應用已經(jīng)在社會各領域獲得了比較好的應用效果,然而影響非物質(zhì)文化信息的建設因素是多種多樣的,要想完全了解各類人群對非物質(zhì)文化信息的認知,就具備較大的挑戰(zhàn)。希望本文對非物質(zhì)文化信息分析方法可以為未來有關大數(shù)據(jù)以及非遺保護和傳承提供一定價值的借鑒。
參考文獻:
[1] 馬思根,趙小明,吳勇.貴州非物質(zhì)文化遺產(chǎn)的數(shù)據(jù)挖掘與分析[J].計算機時代,2020,10(5):41-45,49.
[2] 張一然,陳愛強.信息可視化設計下的非物質(zhì)文化遺產(chǎn)保護和傳承——以北塘飛鈸為例[J].工業(yè)設計,2020,12(4):137-138.
[3] 余佳睿.非物質(zhì)文化遺產(chǎn)數(shù)字化保護與開發(fā)——以南京為例[J].華夏文化,2020,1(1):41-42.
[4] 張軒宇.基于大數(shù)據(jù)的江南非物質(zhì)文化遺產(chǎn)品牌網(wǎng)絡影響力實證研究[J].中國經(jīng)貿(mào)導刊(中),2020,15(5):66-71.
[5]侯效彬.基于“大數(shù)據(jù)”時代的計算機信息處理技術探討[J].現(xiàn)代信息科技,2019,3(2):89-91.
【通聯(lián)編輯:張薇】