摘要:知識圖譜在海量信息檢索呈現(xiàn)有優(yōu)異的性能,在人工智能領域也大量運用知識圖譜技術。本文介紹了知識圖譜的架構模型以及每個模型層次當前可運用的技術。分析了操作系統(tǒng)教學中用到的信息和知識點,整理了操作系統(tǒng)知識圖譜的本體關系,最后運用知識圖譜技術構建了一個簡單的操作系統(tǒng)教程知識圖譜。
關鍵詞:知識圖譜;知識抽取;本體;操作系統(tǒng);進程
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)02-0123-02
1 知識圖譜介紹
知識圖譜是由Google公司在2012年提出來的概念。從學術的角度定義為:“知識圖譜本質(zhì)上是語義網(wǎng)絡(Semantic Network)的知識庫”。它以符號的形式描述物理世界中的概念及其相互關系。[1]具體來說,知識圖譜是綜合多學科的理論與方法,利用直觀的圖形象地展示知識的內(nèi)容,發(fā)展歷史,最終達到多學科融合展示的目的。
知識圖譜早期主要應用在海量信息檢索領域,隨著人工智能技術的快速發(fā)展,知識圖譜在機器學習領域的應用具有更加廣闊的前景。現(xiàn)在機器在語音識別和圖像識別的某些領域已經(jīng)超越人類。所以,未來人工智能的重點進步方向將是認知層,即讓機器理解這個世界,更好地與世界交互,為人類服務。知識圖譜是機器學習人類思維方式的最好方法。
2 知識圖譜構建過程
知識圖譜的構建包括數(shù)據(jù)獲取,知識抽取,知識融合,見圖1。
知識抽取包含兩個層面的內(nèi)容。概念層用于描述術語與術語間的關系及術語和關系的約束規(guī)則,被稱為本體。數(shù)據(jù)層用于描述本體的實例、實例的屬性和實例間的聯(lián)系。概念層相當于知識的模具,數(shù)據(jù)層相當于知識的實例。
知識抽取主要有自底向上和自頂向下兩種方式。自底向上是先獲得知識圖譜的實體數(shù)據(jù),然后再構建本體,即從具體到抽象,典型代表是Google的Knowledge Vault。自頂向下的方式則是先定義本體,再將具體數(shù)據(jù)加入知識圖譜中,典型的有Freebase。
本例中采用自頂向下的構建方法,通過本體編輯器人工的方式進行手動的構建本體。這樣構成的知識圖譜實體的概念和范圍都是可控的。采用的開發(fā)工具是斯坦福大學發(fā)布的protégé,該工具具有友好的用戶界面。
2.1 實體識別
實體識別的方法主要分為基于規(guī)則的方法和基于統(tǒng)計的方法。一般來說,基于規(guī)則的方法性能要優(yōu)于基于統(tǒng)計的方法。但這些規(guī)則往往依賴于具體語言、領域、文本格式,編輯過程耗時且容易產(chǎn)生錯誤,并且需要有經(jīng)驗的語言學家才能完成。相比而言,基于統(tǒng)計的方法利用人工標注的語料進行訓練,標注語料時不需要廣博的計算語言知識,并且可以在較短時間內(nèi)完成。因此,這類系統(tǒng)在移植到新的領域時可以不做或少做改動,只要利用新的語料訓練一遍即可。此外,基于統(tǒng)計的系統(tǒng)要移植到其他自然語言文本也相對容易些?!?】
2.2 關系抽取
知識抽取的另一個關鍵部分是關系抽取。正是由關系把實體聯(lián)系在一起才形成了知識圖譜。目前常見的關系類別有整體-部分關系、位置關系和時間關系等。傳統(tǒng)的關系識別方法是先定義關系類型,然后從文本中進行抽取?!?】但是實際上關系的種類特別多,每個不同的領域都有屬于該領域特定的關系。鑒于操作系統(tǒng)知識圖譜的數(shù)據(jù)量不大,這里采用人工構造語義和語法規(guī)則的方式進行關系定義。
2.3 屬性抽取
屬性提取的任務是為每個本體語義類構造屬性列表。屬性和屬性值的是能夠形成完整的實體概念的知識圖譜維度。屬性抽取的數(shù)據(jù)主要來源于百科類網(wǎng)站包含的半結構化數(shù)據(jù)和相關領域的結構化數(shù)據(jù)。
3 操作系統(tǒng)知識圖譜分析和構建
通過對操作系統(tǒng)課程的深入了解,在此確定了操作系統(tǒng)知識圖譜的幾個要素。如圖2:
各要素描述內(nèi)容如表1:
本體可通過人工編輯的方式手動構建,也可通過數(shù)據(jù)驅動自動構建,然后再經(jīng)質(zhì)量評估方法與人工審核相結合的方式加以修正與確認?!?】如果實體數(shù)據(jù)數(shù)量巨大,手動構建的方式工作量非常大,當前主要的本體庫產(chǎn)品,大部分都是 采用自動構建技術而逐步擴展形成的?;氐奖疚?,鑒于后臺數(shù)據(jù)量不大,所以采用了人工編輯的方式,數(shù)據(jù)的存儲也采用關系數(shù)據(jù)庫進行數(shù)據(jù)存儲。本體構建采用Protégé軟件。Protégé提供了本體概念類,關系,屬性和實例的構建,并且屏蔽了具體的本體描述語言,用戶只需在概念層次上進行領域本體模型的構建。
利用軟件protégé構建本體如圖3,圖4所示。
進而可以運用protégé插件OWLviz可以生成可視化知識圖譜。
4 結束語
上述操作系統(tǒng)知識圖譜構建僅僅是知識圖譜的一次小小運用,還有很多技術沒有能夠真正實踐。知識圖譜的發(fā)展日新月異,應用領域也空間廣大。隨著新的信息技術的發(fā)展,知識圖譜的天地一定更加廣闊,值得在此領域做深入研究。
參考文獻:
[1] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發(fā)展,2016,53(3):582-600.
[2] 李暢.信息抽取和實體消歧[J].福建電腦,2014,30(11):98-99.
[3] 賈丙靜,葛華,李德勝.“慕課” 時代C語言知識圖譜的構建[J].綿陽師范學院學報,2018,37(11):100-103.
[4] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述[J].電子科技大學學報,2016,45(4):589-606.
【通聯(lián)編輯:王力】