亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        西藏非遺舞蹈知識圖譜可視化研究*

        2023-10-30 10:58:16鄧文茂楊佳婷雒偉群
        西藏科技 2023年9期
        關鍵詞:三元組圖譜實體

        鄧文茂 楊佳婷 雒偉群

        西藏民族大學信息工程學院,陜西 咸陽 712082

        藏民族是我國民族大家庭中歷史悠久、文化燦爛的民族之一,藏舞更是源遠流長,豐富多彩。藏舞的主要特色在于流動性、活力、節(jié)奏感和色彩變化,以此表現(xiàn)出藏族傳統(tǒng)文化的獨特魅力。隨著互聯(lián)網(wǎng)時代的快速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模呈現(xiàn)幾何式的增長[1]。在IT 時代的背景下,在數(shù)字化的沖擊下,重視藏舞的保護與傳承尤為重要。

        知識圖譜可視化技術發(fā)展現(xiàn)狀:在國外,知識圖譜可視化技術也得到了廣泛的關注和研究。許多知名的研究機構和大學都在進行相關研究。例如,斯坦福大學的“D3.js”項目提供了一套強大的可視化工具,可以用于展示和分析知識圖譜數(shù)據(jù)。此外,還有一些開源的知識圖譜可視化工具,如“Gephi”和“Cytoscape”等等,也引起了廣泛應用。在國內,知識圖譜可視化技術已經(jīng)得到了廣泛的應用。許多大型互聯(lián)網(wǎng)公司和研究機構都在開展相關研究和應用。例如,百度的知識圖譜可視化平臺“百度知識圖譜”可以將知識圖譜數(shù)據(jù)以圖形化的方式展示出來,幫助用戶進行知識的探索和發(fā)現(xiàn)。根據(jù)我們的文獻調查,對于非遺舞蹈的數(shù)字化保護,一般都是建立一個數(shù)據(jù)庫系統(tǒng),將文字內容與圖片存入數(shù)據(jù)庫中,然后通過查詢看到相關圖片,以及一些文字說明,對于舞蹈相關知識之間的聯(lián)系,以及隱含知識的發(fā)掘,在功能方面還存在缺陷。本文建立了非遺知識圖譜,通過兩種技術可視化了知識圖譜,展示了非遺舞蹈知識實體之間的聯(lián)系,是對現(xiàn)有非遺數(shù)字化成果的拓展。在此雖然各界學者對藏族舞蹈的研究已經(jīng)取得了一定的成果。但是,目前對藏族舞蹈的數(shù)字化保護和可視化實體聯(lián)系研究卻是非常少見。知識圖譜是一個可視化的系統(tǒng)概念,用于將結構化和非結構化數(shù)據(jù)連接起來形成一個可交互式的信息網(wǎng)絡,用于更好更有效地管理、使用和理解關于特定主題的海量知識。知識圖譜會標注數(shù)據(jù)的本體和語義,強調的是實體以及實體之間的關聯(lián)[2],通常,知識圖譜由“node”和“edge”組成,可以用來支持復雜的知識表示和推理。所以在此現(xiàn)狀下,筆者使用Neo4j 和D3.js 兩種技術實現(xiàn)以非遺藏舞為例的知識圖譜可視化。

        1 知識圖譜構建

        1.1 數(shù)據(jù)獲取

        網(wǎng)絡爬蟲是一種自動搜集網(wǎng)頁信息的技術[3],可以幫助我們更有效地獲取信息。Python 爬蟲通過使用各種不同的編程技術,從網(wǎng)絡上抓取和解析文本、圖像、表格等信息,以統(tǒng)計、監(jiān)控和報告信息所需要的各種數(shù)據(jù)。它可以爬取網(wǎng)頁中的文字、圖片和鏈接,也可以提取網(wǎng)頁的某些部分,并將其轉換為可以用于數(shù)據(jù)分析的形式。

        在研究中,我們采用通用爬蟲技術在中國非物質文化遺產網(wǎng):https://www.ihchina.cn/進行數(shù)據(jù)收集,爬蟲的流程如下:

        圖1 Python爬蟲流程圖

        部分代碼如下:

        數(shù)據(jù)爬取結果如下:

        表1 Python爬取的數(shù)據(jù)表

        1.2 數(shù)據(jù)處理

        1.2.1 數(shù)據(jù)清洗。獲得原始數(shù)據(jù)后,需要進行數(shù)據(jù)清洗以確保數(shù)據(jù)的質量和一致性。這包括去除重復數(shù)據(jù)、處理缺失值,解決異常值,使其符合知識圖譜的要求。在處理缺失值時我們用三種方法,第一,刪除缺失值,在缺失值較少的情景下,對結果影響不大;第二,替換缺失值,利用均值與中位數(shù)替換,優(yōu)替換的優(yōu)點是總體數(shù)據(jù)不變,沒有影響結果;第三,插補缺失值,使用蒙特卡洛方法補充缺失數(shù)據(jù),用拉格朗日插值法或牛頓插值法進行插補。在解決異常值時,我們先剔除含有異常值的特征記錄,然后視為缺失值,之后便可用均值替換修正。

        1.2.2 數(shù)據(jù)標準化。數(shù)據(jù)標準化是數(shù)據(jù)預處理的一個重要步驟,它的目的是將不同尺度、不同范圍的數(shù)據(jù)轉化為統(tǒng)一的標準尺度,以便于后續(xù)的數(shù)據(jù)分析。在本次標準化中,只存在文本數(shù)據(jù)和關系數(shù)據(jù)。筆者將數(shù)據(jù)的格式進行統(tǒng)一,將舞蹈名稱的全部同類舞蹈(例如羌姆)統(tǒng)一為特定的編碼或術語。對于文本型數(shù)據(jù),使用獨熱編碼(One-Hot Encoding)將其轉化為數(shù)值型數(shù)據(jù)。獨熱編碼將每個類別轉化為一個二進制向量,向量的長度等于類別的數(shù)量,其中對應類別的位置為1,其他位置為0。例如,西藏舞蹈數(shù)據(jù)中有一個特征是類型,包括“新增”“擴展”,將其轉化為以下形式的獨熱編碼:“新增”:[1,0],“擴展”:[0,1]。對于數(shù)值型數(shù)據(jù),對其進行范圍規(guī)范化,確保數(shù)據(jù)在一定范圍內,例如公布時間的數(shù)值型數(shù)據(jù)只存在2006、2008、2011、2014、2021。數(shù)據(jù)命名規(guī)范化:對于數(shù)據(jù)項的命名,進行規(guī)范化,確保命名的一致性和易讀性。

        1.2.3 數(shù)據(jù)分類。把清洗后的數(shù)據(jù)進行排序,我們可以得到一些數(shù)值型變量的最大值與最小值,并且我們可以按照不同的數(shù)據(jù)類型進行分類排序。如按照“公布時間”進行排序,可以清晰地看到西藏舞蹈類別的第一批非遺是2006 年,最后一批非遺是2021 年;按照“類型”分類,可以知道西藏舞蹈非遺項目分為新增項目與擴展項目。比如山南昌果卓舞是新增項目,而瓊結久河卓舞是擴展項目。

        圖2 數(shù)據(jù)向量分類

        1.2.4 數(shù)據(jù)審核。主要為四個小部分:非遺藏舞準確性審核、非遺藏舞完整性審核、非遺藏舞及時性審核、非遺藏舞一致性審核。非遺藏族舞蹈準確性審核就是看此次獲取的數(shù)據(jù)是否真實準確,準確性指數(shù)據(jù)與藏族舞蹈真實情況或實際事實的符合程度。準確性包括對實體和關系的正確識別和描述,以及屬性值的精確性;非遺藏族舞蹈完整性審核是指審核數(shù)據(jù)中是否包含了全部需要記錄的信息,確保沒有遺漏,完整性高的數(shù)據(jù)意味著數(shù)據(jù)集中的實體和關系涵蓋了所研究領域的所有重要方面;非遺藏舞及時性審核指數(shù)據(jù)更新的頻率和延遲程度。及時性高的數(shù)據(jù)意味著數(shù)據(jù)能夠及時反映現(xiàn)實世界的藏族舞蹈的變化。對于一些需要實時更新的數(shù)據(jù)可以及時做出反應;非遺藏舞一致性審核指數(shù)據(jù)中的實體、關系和屬性之間的邏輯和語義保持一致,一致性高的數(shù)據(jù)意味著數(shù)據(jù)中的實體、關系和屬性之間的關聯(lián)關系是正確和合理的。在藏族舞蹈知識圖譜中,一個實體的屬性值應該與其所屬的關系相吻合,不應出現(xiàn)矛盾或沖突。

        圖3 數(shù)據(jù)審核的四性

        1.3 三元組構建

        在構建三元組之前,先整理一下數(shù)據(jù)字段和類型:

        表2 數(shù)據(jù)字段類型

        三元組構建中需要進行實體抽取和關系抽取。實體抽取是從文本數(shù)據(jù)中識別和提取出具有特定語義含義的實體,如舞蹈名稱、類別、公布時間等。筆者手工命名實體類型,然后對其實例化后獲得具體的實體。關系抽取是從文本中識別和提取實體之間的關系,如舞蹈與類別的關聯(lián)、舞蹈與公布時間的關系等。三元組是一個“實體”-關系-“實體”模型,在實體抽取部分,借助jieba 分詞器進行分詞,根據(jù)分詞標注的詞性結果,標注為名詞、時間、組織單位等的一般都是實體。之后再進行手工拆分抽取,將數(shù)據(jù)分開,第一列為項目序號,第二列為編號,第三列為舞蹈名稱,第四列為舞蹈類別,第五列為公布時間,第六列為抽象概念,第七列為地點,第八列為組織單位,同時用手工參與抽取其實也具有更高的準確性。實體抽取的對應類型為序號、舞蹈名稱、舞蹈類別、抽象概念、數(shù)字、時間、地點、組織單位。接下來我們就進行關系抽取,主要就是將各個實體之間的聯(lián)結關系進行抽取表現(xiàn)。關系抽取采用基于規(guī)則的方法,利用事先定義的語法規(guī)則或模式來匹配和抽取特定的關系,定義的模式有:“西藏舞蹈”-整體-部分-“舞蹈名稱”,“舞蹈名稱”-屬性關系-“項目序號”,“舞蹈名稱”-屬性關系-“項目編號”,“舞蹈名稱”-分類關系-“舞蹈類別”,“舞蹈名稱”-時序關系-“公布時間”,“舞蹈名稱”-地理關系-“組織單位”,“舞蹈名稱”-屬于關系-“地點”。通過這些定義的模式就可以抽取得到實體間的關系。

        在上面的基礎上,進行三元組的構建,即將每個屬性與其對應的實體進行關聯(lián)。例如,將鍋莊舞與其對應的舞蹈實體進行關聯(lián),關聯(lián)關系有項目序號、類別、保護單位、類型、舞蹈名稱、公布時間等等。然后則是用三元組的實體之間的關系進行組合關聯(lián)。在實現(xiàn)實體聯(lián)系、屬性搭配后,最后將各個屬性之間的關系一起構建三元組。

        首先整體與部分關系的實體展示如下:

        表3 整體-部分關系實體實例

        然后則是其他各種關系的實體展示如下,此處以“鍋莊舞”為例:

        表4 以“鍋莊舞”為例的其他實體關系

        2 知識圖譜可視化

        2.1 D3.js知識圖譜可視化

        D3.js 是一個基于Web 標準的開源JavaScript庫[4],同時使用HTML、SVG 和CSS 構建交互式數(shù)據(jù)可視化框架。它提供了一系列的非常有用的工具來幫助用戶快速創(chuàng)建時尚、引人注目的數(shù)據(jù)可視化,這些工具包括動態(tài)圖表、3D 圖表、地圖、散點圖等等。D3中,數(shù)據(jù)轉換與繪制是相互獨立的[5],它使用面向對象編程技術來操縱DOM(文檔對象模型),從而以一種靈活、自由、可控制的方式創(chuàng)建數(shù)據(jù)可視化。這次的西藏非遺舞蹈知識圖譜可視化展示的第一種方法就是用D3.js進行構建并且展示。

        在D3.js 知識圖譜可視化之前,需要進行Web 的動態(tài)框架開發(fā)。構建動態(tài)網(wǎng)站和應用程序的開發(fā)框架,可以有效幫助處理前端和后端之間的數(shù)據(jù)交互、業(yè)務邏輯和頁面渲染等任務。首先,配置合適的開發(fā)環(huán)境,安裝pycharm、mysql、hbuilder。接下來進行了路由和URL 映射,動態(tài)框架通過路由機制來將URL 請求映射到相應的處理函數(shù)或控制器上。然后進行數(shù)據(jù)模型和持久化建設,在動態(tài)框架中,通常需要與數(shù)據(jù)庫進行數(shù)據(jù)交互。這包括定義數(shù)據(jù)模型,即定義數(shù)據(jù)庫表格的結構和關系。通過使用ORM(對象關系映射)工具,將數(shù)據(jù)庫中的數(shù)據(jù)映射為編程語言中的對象,方便進行數(shù)據(jù)操作和查詢,再然后配置中間件和攔截器,動態(tài)框架通常提供中間件和攔截器機制,用于在請求處理過程中添加額外的功能或進行驗證和授權等操作。中間件可以在請求到達控制器之前或之后執(zhí)行特定的處理邏輯,而攔截器則可以攔截請求并進行預處理或后處理。最后進行調試和測試,在開發(fā)過程中,需要進行調試和測試以確保應用程序的正確性和穩(wěn)定性。

        在進行D3.js 的知識圖譜可視化時,先進行index的首頁展示設計,設定語言、編碼格式、菜單名,以及導入我的bundle.js 和data.js,這一部分最后還設置了div 容器盒子參數(shù)設定-幕布設置(id 以及style),然后用target 提取我的知識圖譜容器,鏈接data 文件里面的nodes 和links,這里寫了三個測試事件分別為method1、method2和method3。接下來配合data文件里面的一些調參,實現(xiàn)根節(jié)點。然后進行menu 菜單設置,定義根節(jié)點下面的首個子節(jié)點名字以及類型和鼠標觸發(fā)事件,這樣就可以在接下來進入到另一個非遺藏舞展示的界面。此處效果展示如下:

        圖4 D3.js的index展示1

        圖5 D3.js的index展示2

        然后將項目id 為kg 的進行初始化(init),插入前面的nodes 與links 點線框架、寫好menu 菜單、以及鼠標事件events,這里的events 包括canvas 與node,畫布的點擊事件和node 數(shù)據(jù)輸入都以后端數(shù)據(jù)庫的data數(shù)據(jù)進行功能輸入。node以及前面的事件都在data.js文件進行數(shù)據(jù)寫入,index 做框架。并以根節(jié)點“Enter藏舞”為例做web事件測試:

        圖6 知識圖譜web框架測試

        最后進行本次項目爬取的所有非遺藏舞的數(shù)據(jù)導入以及index的展示。之前存儲在excel數(shù)據(jù)庫里面的藏族舞蹈數(shù)據(jù)都以D3.js 插件通過js 編程導入data.js 文件,33 種舞蹈都以此方式導入,此處是以“芒康弦子舞”為例:

        圖7 在vscode里的data.js數(shù)據(jù)導入代碼

        在進行完data.js 文件功能輸入后,需要注意的是,鼠標右鍵單擊可以固定圖譜,左鍵可以釋放圖譜,鼠標左鍵單擊然后拖拽可以使其移動,右鍵單擊在固定的同時會點開菜單欄。根節(jié)點展示如下:

        圖8 D3.js知識圖譜最終完成圖

        2.2 Neo4J數(shù)據(jù)庫存儲與可視化

        Neo4j 是一種用來存儲與處理數(shù)據(jù)的可視化圖數(shù)據(jù)庫,它是基于Java 的高性能、高可靠性、可擴展性強的開源圖數(shù)據(jù)庫[6]來實現(xiàn)的。同時,Neo4j又是依靠節(jié)點和邊來共同組建,具有高度的可靠性和數(shù)據(jù)一致性。

        此次西藏非遺舞蹈知識圖譜可視化展示的第二種方法就是采用圖數(shù)據(jù)庫Neo4j 進行展示。Neo4j 存儲數(shù)據(jù)可以采用多種導入方式,本項目存儲采用將CSV數(shù)據(jù)導入Neo4j中進行存儲,具體做法如下:

        2.2.1 創(chuàng)建數(shù)據(jù)。Neo4j 在構建知識圖譜時需要創(chuàng)建節(jié)點數(shù)據(jù)和關系數(shù)據(jù)。

        2.2.1.1 節(jié)點文件

        表5 CSV中心節(jié)點

        表6 以弦子舞和鍋莊舞為例的CSV分支節(jié)點

        第一列為屬性名,是屬性名_Id;中間列為屬性值;最后一列為:實體LABEL。

        2.2.1.2 關系文件

        表7 csv關系類型實例

        :START_ID,:END_ID 為關系文件列,引用節(jié)點ID,;最后一列為:TYPE(關系類型)

        2.2.1.3 csv 文件。在excel 中生成后,點擊文件->另存為->保存類型為CSV UTF-8的格式

        2.2.1.4 csv 文件存儲。將生成的csv 文件存入neo4j的import 文件夾下。D:files eo4j eo4j-community-3.5.5-windows eo4j-community-3.5.5import.

        2.2.2 導入csv文件。

        2.2.2.1 打開PowerShell,進入到neo4j的bin目錄下。

        2.2.2.2 輸入命令。neo4j-admin import --mode=csv--database=onepic.db--nodes D:dwmyjt eo4j-community-4.2.4 -wins neo4j-community-4.2.4 importcenter.csv --nodes D:dwmyjt eo4j-community-4.2.4-wins eo4j-community-4.2.4import ame.csv --relationships D: dwm yjt neo4j-community-4.2.4-wins eo4j-community-4.2.4import es.csv

        此命令將import中的csv文件全部導入neo4j中。

        2.2.2.3 輸入命令。neo4j.bat console,點擊網(wǎng)址http://localhost:7474/,進入到neo4j 瀏覽器中。首先查看Database Information,這里我們可以看到已有的結點數(shù),有多少條關系,占用的存儲空間等數(shù)據(jù)庫信息。

        圖9 在Neo4j數(shù)據(jù)庫查看節(jié)點與關系

        2.2.2.4 輸入MATCH (n) RETURN n LIMIT 1000,即可查看知識圖譜可視化內容,將鼠標移到對應節(jié)點和關系上,底部會出現(xiàn)相應的屬性。如圖10 就是采用Neo4j圖數(shù)據(jù)庫存儲與可視化的結果。

        圖10 Neo4j知識圖譜最終完成圖

        3 結論與展望

        本文使用網(wǎng)絡爬蟲技術從網(wǎng)絡中獲取了西藏非遺舞蹈數(shù)據(jù),通過對數(shù)據(jù)清洗獲得有效數(shù)據(jù),然后按照定義的實體類型和關系類型,抽取了知識圖譜三元組,使用Neo4j 數(shù)據(jù)庫存儲了知識圖譜并實現(xiàn)了可視化,本文也通過web開發(fā)的動態(tài)框架進而使用D3.js技術進行了知識圖譜可視化。西藏非遺藏舞知識圖譜的應用前景非常廣闊,建立其上的語義搜索、智能推薦、知識問答等應用服務將為藏族舞蹈的保護、傳承和發(fā)展作出重要貢獻。

        猜你喜歡
        三元組圖譜實體
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質檢算法*
        繪一張成長圖譜
        前海自貿區(qū):金融服務實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        關于余撓三元組的periodic-模
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        哲學評論(2017年1期)2017-07-31 18:04:00
        補腎強身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        主動對接你思維的知識圖譜
        国产成人av无码精品| a人片在线观看苍苍影院| 又爽又黄无遮挡高潮视频网站| 韩国主播av福利一区二区| 久久开心婷婷综合中文| 精品亚洲国产成人蜜臀av| 国产熟妇人妻精品一区二区动漫| 亚洲色大成在线观看| 官网A级毛片| 国产护士一区二区三区| 国产成人精品久久亚洲高清不卡| 日本大尺度吃奶呻吟视频| 四虎4545www国产精品| 日本最新一区二区三区免费看| 手机在线播放av网址| 亚欧中文字幕久久精品无码| 精品久久久久久久久久久aⅴ| 国产人成在线成免费视频| 伊人久久大香线蕉av色婷婷色| 人与禽性视频77777| 五月婷婷俺也去开心| 久久亚洲成a人片| 国产一区二区三区免费av| 日韩a级精品一区二区| 日本丰满熟妇hd| 国产午夜视频免费观看| av在线一区二区三区不卡| 男女猛烈拍拍拍无挡视频| 欧美色aⅴ欧美综合色 | 国产成人自拍视频在线观看网站 | 精品国产午夜肉伦伦影院| 大肉大捧一进一出好爽视频mba| 亚洲午夜看片无码| 日本不卡视频一区二区三区| 高清偷自拍亚洲精品三区| 明星性猛交ⅹxxx乱大交| 免费一级黄色大片久久久| 在线亚洲日本一区二区| 亚洲日韩国产欧美一区二区三区| 少妇精品无码一区二区三区| 俺来也三区四区高清视频在线观看|