亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的智能挖掘方法

        2023-02-14 01:59:06楊寒淋周婭鵑安薇竹翁正秋寧靈艦
        絲綢 2023年1期
        關(guān)鍵詞:絲路文化遺產(chǎn)分類

        楊寒淋, 周婭鵑, 趙 豐, 徐 蓉, 安薇竹, 翁正秋, 寧靈艦, 金 宇

        (1.中國絲綢博物館 國際交流部,杭州 310002; 2.溫州職業(yè)技術(shù)學(xué)院 人工智能學(xué)院,浙江 溫州 325006;3.浙江理工大學(xué) 紡織科學(xué)與工程(國際絲綢學(xué)院),杭州 310018; 4.同方知網(wǎng)(北京)技術(shù)有限公司 浙江分公司,杭州 310018)

        絲綢是絲綢之路的原動(dòng)力,在跨文化傳播中發(fā)揮著重要作用;絲綢之路是溝通中國與世界其他地區(qū)的交通路線,為世界文明的發(fā)展做出了巨大貢獻(xiàn)。廣義上的絲綢之路東達(dá)韓國、日本,西至地中海各國,通過海路途徑柬埔寨、泰國,連通意大利、埃及等國家。2019年,在第二屆“一帶一路”國際合作高峰論壇上,習(xí)近平總書記提出要積極架設(shè)不同文明互學(xué)互鑒的橋梁,深入開展各領(lǐng)域人文合作,形成多元互動(dòng)的人文交流格局。鑒于此,深入研究絲路文化遺產(chǎn),弘揚(yáng)絲路文化精神,能夠更好地促進(jìn)各國各地的文化、政治和經(jīng)濟(jì)交流。然而,現(xiàn)有絲路文化遺產(chǎn)呈現(xiàn)多源異構(gòu)特征——地域廣泛化、語言多元化、成果多樣化,在互聯(lián)網(wǎng)上表現(xiàn)為數(shù)據(jù)大量膨脹、分布極為零散、語言繁雜多樣,使得當(dāng)前文博領(lǐng)域利用傳統(tǒng)的研究技術(shù)手段無法適應(yīng)海量絲路文化遺產(chǎn)數(shù)據(jù)的智能研究,故利用人工智能手段挖掘絲路文化遺產(chǎn)愈發(fā)重要??傮w而言,要對絲路文化遺產(chǎn)數(shù)據(jù)進(jìn)行全面細(xì)致的統(tǒng)計(jì)和分析,面臨著如下挑戰(zhàn):

        1) 數(shù)據(jù)采集。需要采集的絲路文化遺產(chǎn)數(shù)據(jù)往往有不同的來源和模態(tài),各數(shù)據(jù)之間的語言組成、平臺(tái)架構(gòu)、文檔結(jié)構(gòu)等因素,導(dǎo)致數(shù)據(jù)的格式差別巨大,呈現(xiàn)多源異構(gòu)的特性,對數(shù)據(jù)采集效率和覆蓋率都是極大的挑戰(zhàn)。

        2) 信息挖掘。在多源異構(gòu)的復(fù)雜數(shù)據(jù)中,對爬取到的文本內(nèi)容手動(dòng)進(jìn)行文章的語義提取與分類是不切實(shí)際的,需要智能化地進(jìn)行自動(dòng)標(biāo)引、提取文摘與文本分類。

        3) 數(shù)據(jù)清洗。由于挖掘得到的數(shù)據(jù)中含有大量相似的成分,冗余的信息會(huì)使得提取數(shù)據(jù)分析的精度和效率大幅降低。此外,部分文本內(nèi)容僅提到了絲路,實(shí)質(zhì)內(nèi)容卻與絲路無關(guān),使得該部分信息作為噪聲去除時(shí)極為困難。

        針對上述挑戰(zhàn),本文提出面向多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的智能挖掘技術(shù)。首先,構(gòu)建高覆蓋率與高效的數(shù)據(jù)采集系統(tǒng)。其次,設(shè)計(jì)針對多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的自動(dòng)標(biāo)引、自動(dòng)文摘與數(shù)據(jù)分類方法。然后,采用多維度融合聚類的數(shù)據(jù)清洗方法去除冗余和噪聲數(shù)據(jù)。最后,整合所提出的關(guān)鍵技術(shù)形成《絲綢之路文化遺產(chǎn)年報(bào)》并進(jìn)行開源發(fā)布(https://github.com/CarolineYeung/SilkRoadReport/)。本成果旨在向公眾宣揚(yáng)絲路文化遺產(chǎn)價(jià)值,激發(fā)大眾對絲綢之路的關(guān)注度和興趣,喚醒全社會(huì)對文化遺產(chǎn)的保護(hù)理念與意識,并有望為多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的智能挖掘提供理論與技術(shù)支撐。

        1 信息的獲取

        對于絲路文化遺產(chǎn)數(shù)據(jù)有效信息的獲取,現(xiàn)有的采集策略可分為以下3種:人工采集、文博機(jī)構(gòu)提供和基于互聯(lián)網(wǎng)的大數(shù)據(jù)信息采集。

        人工采集是有目的地對相關(guān)領(lǐng)域信息進(jìn)行手動(dòng)查詢,并從中獲得參考數(shù)據(jù)和研究數(shù)據(jù)的方式。絲路文化遺產(chǎn)信息根據(jù)存儲(chǔ)形態(tài),可分為數(shù)字化信息與非數(shù)字化信息。對于可檢索的數(shù)字化信息,一般會(huì)從搜索主題詞、關(guān)鍵詞入手,按照研究問題的操作化指標(biāo)對收集到的相關(guān)信息進(jìn)行人工錄入標(biāo)注、摘錄,并建立表格進(jìn)行數(shù)據(jù)管理。對于非數(shù)字化的信息,采集者首先從相關(guān)領(lǐng)域資料入手,利用滾雪球的方法,逐步積累、深化和細(xì)化。龍博等[1]結(jié)合歷史文獻(xiàn)人工調(diào)研和民間調(diào)查對多綜提花裝置的發(fā)展過程、提花原理和社會(huì)地位進(jìn)行了綜合詳盡的分析。張曉斌等[2]利用互聯(lián)網(wǎng)手動(dòng)提取廣東海上絲綢之路的時(shí)間架構(gòu),并在文化層面對廣東海上絲綢之路的整體價(jià)值做出評估。程金城等[3]人工采集并分析“基質(zhì)”“斑塊”和“廊道”等景觀生態(tài)學(xué)的數(shù)據(jù),對絲路文化遺產(chǎn)中文學(xué)要素進(jìn)行再發(fā)現(xiàn)。劉運(yùn)娟等[4]采用人工田野調(diào)查法和傳世實(shí)物分析法對泉州金蒼繡進(jìn)行了研究,為增強(qiáng)海上絲綢之路沿線國家的文化認(rèn)同感做出了貢獻(xiàn)。雖然人工采集數(shù)據(jù)在一定程度上可以獲取到絲路文化遺產(chǎn)數(shù)據(jù),但它只能獲取極其有限的信息數(shù)量,其信息有效性和專業(yè)性仍有待考證,并且會(huì)耗費(fèi)大量時(shí)間。在當(dāng)今互聯(lián)網(wǎng)信息的時(shí)代下,人工采集的方式或許過于保守,且缺乏數(shù)據(jù)信息的完整性與多樣性。

        文博機(jī)構(gòu)提供相關(guān)信息資源是獲取絲路文化遺產(chǎn)數(shù)據(jù)的另一種渠道,博物館、圖書館、科研所、研究中心等機(jī)構(gòu)通過建立合作交流平臺(tái)[5-8]的方式提供領(lǐng)域相關(guān)數(shù)據(jù),由研究人員對這些數(shù)據(jù)進(jìn)行梳理與整合[9-12]。于鳳靜等[9]聯(lián)合博物館和研究中心,探索中國海洋文化理念里的中國傳統(tǒng)文化精髓,實(shí)現(xiàn)與絲路精神的相契相合。馬建春等[10]通過與文博機(jī)構(gòu)的合作,建設(shè)相應(yīng)的文化創(chuàng)新區(qū)與數(shù)據(jù)庫,挖掘海上絲綢之路歷史資源,梳理文化遺產(chǎn)。吳婭妮[11]是在絲綢之路背景下,探索圖文傳播與雕版印刷之間的關(guān)系及對社會(huì)文化發(fā)展起到的推動(dòng)作用,其中引用了諸多博物館中的記載文獻(xiàn)。柴冬冬[12]則是列舉相關(guān)文博領(lǐng)域中的文獻(xiàn)資料,通過文化間性的置入,探究絲路文化在時(shí)間和空間的多維認(rèn)同度。相較于傳統(tǒng)人工采集的模式,上述方法能更加有效地獲取專業(yè)信息。然而,此類多渠道多途徑匯總的原始數(shù)據(jù)量龐大,并且有較高的重復(fù)率,增加了后續(xù)分析的困難度。此外,特定文博機(jī)構(gòu)提供的絲路文化遺產(chǎn)數(shù)據(jù)在廣度與深度上也有局限,不能保證覆蓋所有的信息。

        盡管人工采集與相關(guān)文博機(jī)構(gòu)提供的方式對數(shù)據(jù)獲取有所幫助,但無法確保其完整性和有效性,故亟須利用大數(shù)據(jù)技術(shù)從多源異構(gòu)數(shù)據(jù)中提取關(guān)鍵信息。然而,目前的相關(guān)工作僅利用大數(shù)據(jù)技術(shù)來進(jìn)行絲綢文化變遷的相關(guān)研究,缺少對自動(dòng)高效獲取準(zhǔn)確絲路文化遺產(chǎn)數(shù)據(jù)方面的探討。例如,王鏡等[13]研究了絲綢之路與重游意愿影響關(guān)系,通過大數(shù)據(jù)查詢來獲取旅游地區(qū)歷年游客數(shù)量,并將其設(shè)置為調(diào)節(jié)變量進(jìn)行分析。海波[14]則是以絲綢之路為視閾,研究河西走廊附近的佛教文化,其中應(yīng)用到了基于互聯(lián)網(wǎng)的數(shù)據(jù)采集技術(shù)。若要全面采集并分析絲路文化遺產(chǎn)領(lǐng)域的專業(yè)資訊信息,需要結(jié)合數(shù)據(jù)挖掘技術(shù),主動(dòng)發(fā)掘相似數(shù)據(jù)之間的內(nèi)在聯(lián)系,并做出快速精準(zhǔn)的響應(yīng)。本文利用數(shù)據(jù)挖掘技術(shù)對絲路文化遺產(chǎn)數(shù)據(jù)進(jìn)行自動(dòng)化搜索和采集,并對其進(jìn)行分類、排重、去噪等挖掘處理,確保數(shù)據(jù)采集的完整性和數(shù)據(jù)分析的高效性。

        2 研究方法

        2.1 方法概述

        本文提出的研究方法有別于文化領(lǐng)域的傳統(tǒng)研究方法。它通過數(shù)據(jù)采集、數(shù)據(jù)整理方面具體技術(shù)的應(yīng)用,實(shí)現(xiàn)更全面的數(shù)據(jù)研究;同時(shí)依靠大數(shù)據(jù)智能分析技術(shù),實(shí)現(xiàn)對過去一年絲路文化遺產(chǎn)數(shù)據(jù)的統(tǒng)計(jì)和多維度分析。流程主要分為3部分:數(shù)據(jù)采集、信息挖掘分析,以及數(shù)據(jù)清洗與數(shù)據(jù)審核,如圖1所示。

        圖1 面向多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的智能挖掘技術(shù)流程Fig.1 Intelligent mining technology process for multi-source heterogeneous Silk Roads cultural heritage data

        2.2 數(shù)據(jù)采集

        在數(shù)據(jù)采集方面,本文提出一個(gè)集網(wǎng)絡(luò)數(shù)據(jù)采集、分析、存儲(chǔ)、管理功能于一體的網(wǎng)絡(luò)信息資源整合系統(tǒng)——垂直搜索引擎系統(tǒng)。通過預(yù)先設(shè)定的站點(diǎn)及可變的關(guān)鍵詞進(jìn)行定向數(shù)據(jù)采集,目的是收集網(wǎng)絡(luò)上分散的ppt、word、pdf等各類形式的文檔。利用垂直搜索引擎對各種文獻(xiàn)、資訊進(jìn)行閱讀,并理解其基本涵義,然后進(jìn)行核心知識點(diǎn)摘取,保存為統(tǒng)一格式的摘要數(shù)據(jù)后轉(zhuǎn)存至數(shù)據(jù)庫中,其過程共包含以下4個(gè)步驟。

        2.2.1 智能代理系統(tǒng)建設(shè)

        本文采用集成多種智能信息處理算法,基于先進(jìn)的語義規(guī)則技術(shù)進(jìn)行淺層語義分析,從信息海洋中準(zhǔn)確、及時(shí)地篩選出研究者所需的信息,并自動(dòng)分類;運(yùn)用自定義分類體系,為研究者提供多種方式定制所需的主題。

        2.2.2 自動(dòng)多線程高效采集

        為了快速、全面、準(zhǔn)確地從Internet及專業(yè)數(shù)據(jù)庫中獲取數(shù)據(jù),本文對所有腳本進(jìn)行多線程并行采集,實(shí)時(shí)動(dòng)態(tài)監(jiān)控特定目標(biāo),靈活定制采集策略,確保信息全面采集。對于采集規(guī)模較大的時(shí)間段,采用集群式蜘蛛[15]來抓取,確保抓取速度。同時(shí)為了實(shí)現(xiàn)各個(gè)模塊的解耦合、子模塊的獨(dú)立性,在本系統(tǒng)中使用了蜘蛛集群與智能代理集群,同時(shí)對服務(wù)器進(jìn)行智能調(diào)度,從而子系統(tǒng)可以隨時(shí)斷開與連接,且不會(huì)影響到整個(gè)系統(tǒng)運(yùn)行。

        2.2.3 海量數(shù)據(jù)存儲(chǔ)和全文檢索

        建設(shè)支持海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)管理的系統(tǒng),以及成熟的全文檢索技術(shù)。與此同時(shí),運(yùn)用智能相似檢索系統(tǒng),以百萬級文獻(xiàn)量毫秒級響應(yīng)速度實(shí)施數(shù)據(jù)檢索工作。

        2.2.4 主流中文編碼識別和跨國語言支持

        對主流中文編碼進(jìn)行精準(zhǔn)識別,系統(tǒng)在不同編碼之間自動(dòng)轉(zhuǎn)換,持續(xù)運(yùn)行;同時(shí)支持中文、英文、俄文、法文、日文5國語言。由應(yīng)用服務(wù)器、蜘蛛、智能代理、轉(zhuǎn)存器、發(fā)布系統(tǒng)、規(guī)則編輯器、圖片Web服務(wù)器組成的7個(gè)分布式子系統(tǒng),能夠同時(shí)各自獨(dú)立運(yùn)行數(shù)據(jù)處理工作。

        2.3 信息挖掘分析

        2.3.1 自動(dòng)標(biāo)引

        利用詞頻-逆向文件頻率(TF-IDF)[16]從文本中自動(dòng)抽取能夠高度有效表達(dá)文本主題和內(nèi)容的詞匯。主要過程如下:1) 統(tǒng)計(jì)分析文本標(biāo)題、摘要、正文等部分;2) 對照禁用詞表或者統(tǒng)計(jì)的詞分布規(guī)律表,刪除高頻的語法功能詞和低頻詞匯;3) 對保留候選詞匯進(jìn)行加工,英文詞匯要去掉后綴(或前綴),將每個(gè)詞還原到其詞根;4) 利用TF-IDF計(jì)算候選詞匯的權(quán)重;5) 選擇權(quán)值大于特定閾值的詞作為標(biāo)引的關(guān)鍵詞。

        2.3.2 自動(dòng)文摘

        根據(jù)目前國際前沿的自然語言處理思想,通常將詞的線性序列組成句子,將句子的線性序列組成文本。其中具體流程分4個(gè)步驟進(jìn)行:1) 計(jì)算詞的權(quán)值;2) 計(jì)算句子的權(quán)值;3) 對所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句;4) 將文摘句按照它們在原文中的出現(xiàn)順序輸出。計(jì)算權(quán)值的依據(jù)是文本的6種特征:詞頻、標(biāo)題、位置、句法結(jié)構(gòu)、線索詞和指示詞短語。

        2.3.3 數(shù)據(jù)分類

        數(shù)據(jù)分類的關(guān)鍵在于在向量空間中找到一個(gè)具有最大邊界的決策平面,這個(gè)決策平面能夠在某種評價(jià)指標(biāo)上最好地分割兩個(gè)類別的數(shù)據(jù)點(diǎn)。決策平面可以寫作g(x)=ω·x+b=0,其中x是要分類的任意數(shù)據(jù)點(diǎn),ω和常數(shù)b通過訓(xùn)練獲得。支持向量機(jī)(SVM)[17]可以在高維空間找到離各類別數(shù)據(jù)距離最大的決策面,本文采用SVM來進(jìn)行數(shù)據(jù)的分類。

        2.4 數(shù)據(jù)清洗及數(shù)據(jù)審核

        2.4.1 數(shù)據(jù)清洗

        利用文本聚類技術(shù)對數(shù)據(jù)內(nèi)容進(jìn)行自動(dòng)分類和指紋索引,通過基于數(shù)據(jù)內(nèi)容的相似度計(jì)算(Profile模板差異計(jì)算方法[18]),將相似度超過臨界值的內(nèi)容進(jìn)行自動(dòng)刪除,僅保留路徑初始版本或權(quán)威來源版本,并根據(jù)聚類得到的離群點(diǎn)進(jìn)行二次分析,以便去除無關(guān)的噪聲文本。

        2.4.2 數(shù)據(jù)審核

        在專家指導(dǎo)下,對全部數(shù)據(jù)進(jìn)行審核,確保數(shù)據(jù)關(guān)鍵要素(時(shí)間、地點(diǎn)、參與人、摘要)的正確性。審核完成后進(jìn)行數(shù)據(jù)發(fā)布。

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)挖掘設(shè)置

        本文從絲路文化遺產(chǎn)入手,以中國知網(wǎng)海量與“絲路文化遺產(chǎn)”相關(guān)文獻(xiàn)為樣本進(jìn)行文本挖掘,按照陳列展覽、考古發(fā)現(xiàn)、文化事件、學(xué)術(shù)成果4個(gè)維度,利用數(shù)據(jù)智能挖掘技術(shù)、機(jī)器學(xué)習(xí)技術(shù)和數(shù)據(jù)清洗技術(shù),進(jìn)行數(shù)據(jù)的深層次搜集和處理。將采集到的13.4萬條絲路文化遺產(chǎn)機(jī)器數(shù)據(jù)作為實(shí)驗(yàn)測試樣本,進(jìn)行分類、排重、去噪及整理。

        3.2 數(shù)據(jù)挖掘過程

        3.2.1 關(guān)鍵詞梳理

        本文利用文本挖掘技術(shù),在中國知網(wǎng)海量文獻(xiàn)庫中分析與絲路文化遺產(chǎn)相關(guān)文獻(xiàn),以文獻(xiàn)中與絲路文化遺產(chǎn)相關(guān)關(guān)鍵詞出現(xiàn)的“頻次”“突現(xiàn)率”“節(jié)點(diǎn)度”和“中心度”等維度智能推薦關(guān)鍵詞,并輔助以人工對關(guān)鍵詞進(jìn)行篩選,共形成關(guān)鍵詞346個(gè)(每個(gè)關(guān)鍵詞包含中、英、俄、法、日5國語言)。將各個(gè)關(guān)鍵詞進(jìn)行不同組合,利用布爾檢索關(guān)系的檢索式,對互聯(lián)網(wǎng)和數(shù)據(jù)庫進(jìn)行信息搜索。截取部分關(guān)鍵詞,如表1所示。

        表1 “絲路文化遺產(chǎn)”關(guān)鍵詞表部分截取Tab.1 Partial interception of the keyword table of “Silk Roads Cultural Heritage”

        3.2.2 站點(diǎn)搜集及整理

        通過互聯(lián)網(wǎng)信息采集軟件分析出與“絲路文化遺產(chǎn)”高度相關(guān)的網(wǎng)站(包括國內(nèi)和國外),并對這些站點(diǎn)進(jìn)行統(tǒng)一資源定位器分析,形成初始信息來源網(wǎng)站清單,由相關(guān)領(lǐng)域?qū)<胰斯ぱa(bǔ)充并完善與“絲路文化遺產(chǎn)”相關(guān)信息的網(wǎng)站,形成包含漢語、英語、俄語、法語、日語5種語言的信息來源網(wǎng)站清單。最終整理得到符合本文檢索范圍的網(wǎng)站站點(diǎn),主要有:聯(lián)合國教科文組織絲綢之路網(wǎng)站、世界十大博物館網(wǎng)站、絲路沿線全部國家的國家博物館網(wǎng)站、中國全部省級及以上級別博物館網(wǎng)站、中國全部省級及以上文物局網(wǎng)站、SCI數(shù)據(jù)庫、中國知網(wǎng)數(shù)據(jù)庫、百度搜索、谷歌搜索等知名公共搜索引擎等,包括368個(gè)中文站點(diǎn),373個(gè)外文站點(diǎn),共計(jì)741個(gè)站點(diǎn)。截取部分網(wǎng)站站點(diǎn)數(shù)據(jù)來源,如表2所示。

        表2 網(wǎng)站站點(diǎn)數(shù)據(jù)來源部分截取Tab.2 Partial interception of the website data source

        3.2.3 互聯(lián)網(wǎng)信息定向抓取與分類

        本文利用表2所示網(wǎng)站站點(diǎn)頻道信息,以及事先設(shè)置的關(guān)鍵詞(表1),結(jié)合智能代理、自動(dòng)多線程、海量數(shù)據(jù)存儲(chǔ)和編碼識別等方式對網(wǎng)站站點(diǎn)進(jìn)行定向信息抓取。隨后,將篩選得到的數(shù)據(jù)通過自動(dòng)標(biāo)引、自動(dòng)文摘得到某報(bào)道/文獻(xiàn)的摘要,最后利用機(jī)器學(xué)習(xí)技術(shù)(SVM)對文摘進(jìn)行自動(dòng)分類,分為陳列展覽、考古發(fā)現(xiàn)、文化事件、學(xué)術(shù)成果4大類。在SVM中,訓(xùn)練樣本為1 000條人工標(biāo)注的4大類文摘(其中800條用于訓(xùn)練,200條用于測試,模型準(zhǔn)確度達(dá)到99%),訓(xùn)練好的模型能夠自動(dòng)對剩余的數(shù)據(jù)進(jìn)行分類。

        對本次741個(gè)站點(diǎn)進(jìn)行數(shù)據(jù)采集,共采集絲路文化遺產(chǎn)相關(guān)數(shù)據(jù)13.40萬條,機(jī)器對采集得到的全文進(jìn)行分類,共得到:“絲綢之路陳列展覽”數(shù)據(jù)約4.10萬條,“絲綢之路考古發(fā)現(xiàn)”數(shù)據(jù)約0.40萬條,“絲綢之路文化事件”數(shù)據(jù)約7.40萬條,“絲綢之路學(xué)術(shù)成果”數(shù)據(jù)約1.50萬條。

        本次數(shù)據(jù)采集工作網(wǎng)站配置與數(shù)據(jù)采集共耗時(shí)約15 d,采集數(shù)據(jù)大小約為110 GB。

        3.2.4 數(shù)據(jù)整理

        對采集和分類后的數(shù)據(jù)進(jìn)行整理,包括數(shù)據(jù)清洗與數(shù)據(jù)審核。為確保質(zhì)量,數(shù)據(jù)整理工作通過人機(jī)結(jié)合的方式實(shí)施,對打上分類標(biāo)簽的數(shù)據(jù)進(jìn)行人工篩選審核,將篩選后的數(shù)據(jù)規(guī)范化,并提供中英2種語言的評審材料,以確保信息的準(zhǔn)確度,即不能出現(xiàn)任何絲綢之路相關(guān)事件發(fā)生日期、發(fā)生地點(diǎn)、主要內(nèi)容的錯(cuò)誤。對于專業(yè)程度較高的工作內(nèi)容,由本專業(yè)領(lǐng)域的專家指導(dǎo)完成。

        3.3 數(shù)據(jù)挖掘結(jié)果

        數(shù)據(jù)挖掘結(jié)果如表3所示,顯示的所有數(shù)據(jù)條數(shù)均為相關(guān)步驟處理完成之后的數(shù)量。由前文分析可知,在經(jīng)過數(shù)據(jù)采集和機(jī)器學(xué)習(xí)分類之后,共得到絲路文化遺產(chǎn)相關(guān)數(shù)據(jù)13.40萬條。由于分類后的數(shù)據(jù)中會(huì)包含重復(fù)數(shù)據(jù)和噪聲數(shù)據(jù),需要對其進(jìn)行清洗:包括數(shù)據(jù)排重,即對全文內(nèi)容重復(fù)率高于90%的條目進(jìn)行去重,僅保留最早發(fā)布的文章;去噪,即剔除與絲綢之路文化不相關(guān)數(shù)據(jù)。清洗后剩余數(shù)據(jù)約1.10萬條,其中:“絲綢之路陳列展覽”相關(guān)數(shù)據(jù)約0.30萬條,“絲綢之路考古發(fā)現(xiàn)”相關(guān)數(shù)據(jù)約0.10萬條,“絲綢之路文化事件”相關(guān)數(shù)據(jù)約0.60萬條,“絲綢之路學(xué)術(shù)成果”相關(guān)數(shù)據(jù)約0.10萬條。在數(shù)據(jù)清洗之后,需要利用人工對摘要內(nèi)容進(jìn)行審核以進(jìn)一步去除無關(guān)的信息、并修改誤分類的內(nèi)容所屬標(biāo)簽及摘要內(nèi)容,處理完成后得到數(shù)據(jù)約0.37萬條,其中:“絲綢之路陳列展覽”相關(guān)數(shù)據(jù)約0.11萬條,“絲綢之路考古發(fā)現(xiàn)”相關(guān)數(shù)據(jù)約0.08萬條,“絲綢之路文化事件”相關(guān)數(shù)據(jù)約0.09萬條,“絲綢之路學(xué)術(shù)成果”相關(guān)數(shù)據(jù)約0.09萬條。

        表3 絲綢之路相關(guān)的數(shù)據(jù)挖掘結(jié)果Tab.3 Data mining results related to the Silk Roads piece

        人工校驗(yàn)審核之后的數(shù)據(jù)已經(jīng)較為純凈,為提高數(shù)據(jù)質(zhì)量,邀請聯(lián)合國教科文組織世界遺產(chǎn)中心、中國古代史研究中心、中國社會(huì)科學(xué)院考古研究所等領(lǐng)域?qū)<疫M(jìn)行篩選,如表4所示。篩選完成后剩余數(shù)據(jù)426條,其中:“絲綢之路陳列展覽”相關(guān)數(shù)據(jù)100條,“絲綢之路考古發(fā)現(xiàn)”相關(guān)數(shù)據(jù)100條,“絲綢之路文化事件”相關(guān)數(shù)據(jù)125條,“絲綢之路學(xué)術(shù)成果”相關(guān)數(shù)據(jù)101條。

        表4 領(lǐng)域?qū)<液Y選與投票Tab.4 Domain expert screening and voting piece

        最后,特邀文博、考古、歷史等領(lǐng)域的40位國內(nèi)外權(quán)威專家分別對陳列展覽、考古發(fā)現(xiàn)、文化事件、學(xué)術(shù)成果中的“十大”進(jìn)行投票,形成《絲綢之路文化遺產(chǎn)年報(bào)》1份,年報(bào)內(nèi)容包括:“絲路文化遺產(chǎn)十大陳列展覽”“絲路文化遺產(chǎn)十大考古發(fā)現(xiàn)”“絲路文化遺產(chǎn)十大文化事件”和“絲路文化遺產(chǎn)十大學(xué)術(shù)成果”。

        4 結(jié) 語

        本文采用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)清洗等技術(shù)對多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)進(jìn)行智能分析和處理。在數(shù)據(jù)采集方面,使用智能代理、自動(dòng)多線程、海量數(shù)據(jù)存儲(chǔ)和編碼識別構(gòu)建高覆蓋率與高效的數(shù)據(jù)采集系統(tǒng);在信息挖掘方面,使用自動(dòng)標(biāo)引、自動(dòng)文摘和支持向量機(jī)快速、精確地完成文本分類工作;在數(shù)據(jù)清洗方面,采用數(shù)據(jù)篩選、數(shù)據(jù)校對和專家審核對數(shù)據(jù)信息進(jìn)行去重、去噪等清洗作業(yè)。最后,整合這些研究成果形成《絲綢之路文化遺產(chǎn)年報(bào)》并進(jìn)行開源發(fā)布。實(shí)驗(yàn)結(jié)果表明,利用人工智能數(shù)據(jù)挖掘技術(shù)進(jìn)行絲路文化遺產(chǎn)的數(shù)據(jù)研究能夠有效保證數(shù)據(jù)的全面性、多維性和高效性,其成果對弘揚(yáng)和傳播絲路文化有著重要的現(xiàn)實(shí)意義與理論價(jià)值。

        《絲綢》官網(wǎng)下載

        中國知網(wǎng)下載

        猜你喜歡
        絲路文化遺產(chǎn)分類
        與文化遺產(chǎn)相遇
        小讀者(2021年6期)2021-07-22 01:49:46
        分類算一算
        酌古參今——頤和園文化遺產(chǎn)之美
        非物質(zhì)文化遺產(chǎn)欣賞
        ——圍棋
        分類討論求坐標(biāo)
        絲路夢
        心聲歌刊(2018年5期)2018-12-10 01:44:04
        絲路
        黃河之聲(2018年12期)2018-09-13 06:31:04
        數(shù)據(jù)分析中的分類討論
        夢絲路
        絲路謠
        心聲歌刊(2018年5期)2018-01-23 20:34:28
        骚片av蜜桃精品一区| 美女狂喷白浆网站视频在线观看 | 蜜桃a人妻精品一区二区三区| 中文字幕人妻无码视频| 97精品依人久久久大香线蕉97| 久久久久久99精品| 日韩国产一区二区三区在线观看 | 欧美高h视频| 一卡二卡国产av熟女| 欧美国产亚洲日韩在线二区| 51久久国产露脸精品国产| 亚洲国产日韩在线人成蜜芽| 国产一区二区三区免费在线播放 | 99久久久无码国产aaa精品| 国产AV无码专区亚洲AWWW| 久久精品国产亚洲综合av| 亚洲亚洲人成综合丝袜图片| 天天干成人网| 波多吉野一区二区三区av| 少妇人妻无奈的跪趴翘起| 性猛交╳xxx乱大交| 波多野结衣亚洲一区二区三区| 日本精品一区二区在线看| 麻豆人妻性色av专区0000| 免费人成视频x8x8入口| 国产福利免费看| 亚洲av色在线观看网站| av影片在线免费观看| 亚洲成av人片天堂网| 久久久精品国产亚洲成人满18免费网站| 亚洲中文字幕无线乱码va| av中国av一区二区三区av| 亚洲国产精品无码专区| 精品欧美乱子伦一区二区三区| 男女搞黄在线观看视频| 国产一区二区黄色录像| 国产高潮刺激叫喊视频| 久久精品成人91一区二区 | 极品尤物人妻堕落沉沦| 日日摸日日碰夜夜爽无码| 亚洲av日韩片在线观看|