李暢
【摘 要】知識圖譜在海量信息檢索呈現(xiàn)有優(yōu)異的性能,在人工智能領(lǐng)域也大量運用知識圖譜技術(shù)。本文介紹了知識圖譜的架構(gòu)模型,每個模型層次當前可運用的技術(shù)。最后運用知識圖譜技術(shù)構(gòu)建了一個簡單的唐代詩詞平臺。
【關(guān)鍵詞】知識圖譜;知識抽取;知識融合
中圖分類號: TP18文獻標識碼: A 文章編號: 2095-2457(2019)34-0131-002
DOI:10.19694/j.cnki.issn2095-2457.2019.34.059
The Construction of Tang Dynasty Poetry Platform Based on Knowledge Map
LI Chang
(School of Informatic Science and Technology
【Abstract】Knowledge atlas has excellent performance in massive information retrieval, and knowledge atlas technology is widely used in the field of artificial intelligence.This paper introduces the architecture model of knowledge atlas,and the technologies currently available at each model level.Finally,a simple platform of Tang Dynasty poetry is constructed by using knowledge map technology.
【Key words】Knowledge Graph;Knowledge extraction;Knowledge fusion
1 知識圖譜定義
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)呈爆發(fā)式增長,如何在海量數(shù)據(jù)中提取相關(guān)聯(lián)的有效信息,提高檢索精度和速度是現(xiàn)代信息技術(shù)的方向之一。人工智能即將結(jié)合5G技術(shù),勢必得到更加快速的發(fā)展。知識圖譜讓數(shù)據(jù)展示方式更加直觀明了,知識圖譜的問答系統(tǒng)在現(xiàn)金的人工智能領(lǐng)域已經(jīng)得到極大運用。
2012年5月,Google正式提出知識圖譜的概念,主要用于描述真實世界中存在的各種實體和概念以及實體概念之間的關(guān)聯(lián)、關(guān)系,把所有不同種類的信息連接在一起得到一個關(guān)系網(wǎng)絡(luò),提供了從“關(guān)系”角度分析問題的能力,用于增強其搜索引擎功能的知識庫。[1]
知識圖譜本質(zhì)上是一個網(wǎng)狀知識庫,把知識用圖的形式表現(xiàn)出來。其中現(xiàn)實世界中的實體以圖的結(jié)點的形式表現(xiàn)出來,實體間的關(guān)系作為圖的有向邊。知識圖譜是對現(xiàn)實世界的抽象表達。
2 知識圖譜架構(gòu)
知識圖譜包括兩個主要部分,知識抽取和知識融合,見圖1。圖譜構(gòu)建是一個迭代更新的過程,每一輪更新包括兩個部分:
(1)知識抽取,即從各種類型的數(shù)據(jù)源中提取出實體(概念)、屬性以及實體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達。
(2)知識融合,在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應(yīng)于多個不同的實體等。[2]
3 知識圖譜構(gòu)建技術(shù)
針對知識圖譜構(gòu)建過程的不同階段,有多種對應(yīng)技術(shù)。
(1)知識抽取的常用技術(shù)。知識抽取主要包括實體抽取,屬性抽取和關(guān)系抽取。
實體抽取技術(shù)分為四種:基于百科站點或垂直氈墊提取、基于規(guī)則與吃點的方法,基于機器學(xué)習的方法以及面向開放域的抽取方法。
屬性抽取要求為每個實體語義類構(gòu)造屬性列表,屬性值的提取為一個語義類的實體附加屬性值。助興和屬性值的抽取能夠形成完整的多維度實體概念。
關(guān)系抽取的目標是根據(jù)實體間的鏈接問題,通過三元組的形式表現(xiàn)出實體間關(guān)系。
(2)知識融合的常見技術(shù)
歸納邏輯編程(ILP):通過迭代進行邏輯規(guī)則學(xué)習和匹配規(guī)則前提,最后得出結(jié)論作為預(yù)測結(jié)果。
馬爾科夫邏輯網(wǎng)(MLN):馬爾科夫邏輯網(wǎng)絡(luò)是將馬爾科夫網(wǎng)絡(luò)與一階邏輯相結(jié)合的一種全新的統(tǒng)計關(guān)系學(xué)習模型,在自然語言處理、復(fù)雜網(wǎng)絡(luò)、信息抽取等領(lǐng)域都有重要的應(yīng)用前景。
路徑排序算法(PRA):以連接目標三元組的路徑為特征并預(yù)測三元組的真實度。
知識圖譜補全(KGC):將實體和關(guān)系映射到實值空間,計算三元組的真實度。
4 對唐代詩詞內(nèi)容的知識圖譜進行分析
為了構(gòu)建唐代詩詞知識圖譜平添,首先要構(gòu)建的是唐代詩詞的本體,繼而完成對唐代詩詞領(lǐng)域相關(guān)知識的抽象。唐代詩詞的簡單關(guān)系包括詩人和詩詞兩個領(lǐng)域。
詩人包括基本信息、詩詞作品以及與相關(guān)詩人。詩詞包括基本信息和詩人兩個大的部分。根據(jù)上述分析,我們抽取了“詩詞”和“詩人”兩個概念,并對它們進行定義。確定了實體之后,進行屬性的定義。實體的屬性主要分為數(shù)據(jù)屬性和實體屬性,數(shù)據(jù)屬性用于描述實體屬性,實體屬性用于表達實體間的關(guān)系。具體定義見表1。
本體可通過人工編輯的方式手動構(gòu)建,也可通過數(shù)據(jù)驅(qū)動自動構(gòu)建,然后再經(jīng)質(zhì)量評估方法與人工審核相結(jié)合的方式加以修正與確認。在海量的實體數(shù)據(jù)面前,人工編輯構(gòu)建的方式工作量極其巨大,故當前主流的本體庫產(chǎn)品,都是面向特定領(lǐng)域,采用自動構(gòu)建技術(shù)而逐步擴展形成的。[3]我們從DBPedia知識庫爬取數(shù)據(jù)。把python語言作為開發(fā)工具,鑒于后臺數(shù)據(jù)量不大,采用關(guān)系數(shù)據(jù)庫進行數(shù)據(jù)存儲。本體構(gòu)建采用Protégé軟件。Protégé提供了本體概念類,關(guān)系,屬性和實例的構(gòu)建,并且屏蔽了具體的本體描述語言,用戶只需在概念層次上進行領(lǐng)域本體模型的構(gòu)建。
5 小結(jié)
上述基于知識圖譜的唐代詩詞平臺搭建僅僅是知識圖譜的一次小小運用,還有很多技術(shù)沒有能夠真正實踐。知識圖譜的發(fā)展日新月異,應(yīng)用領(lǐng)域也空間廣大。隨著新的信息技術(shù)的發(fā)展,知識圖譜的天地一定更加廣闊,值得在此領(lǐng)域做深入研究。
【參考文獻】
[1]周晶,等.知識圖譜與數(shù)據(jù)應(yīng)用——智能推薦,電信科學(xué),2019(8).
[2]劉嶠,等.知識圖譜構(gòu)建技術(shù)綜述,中國計算機研究與發(fā)展,2016,53(3).
[3]徐增林,等.知識圖譜技術(shù)綜述,電子科技大學(xué)學(xué)報,2016.07.