薛輝?徐智淵?劉時(shí)佐?劉時(shí)佑
摘要:智慧教育是將人工智能、大數(shù)據(jù)等技術(shù)應(yīng)用于教育的重要方向。通過知識(shí)圖譜可以管理不同的知識(shí)點(diǎn),并基于此進(jìn)行智能問答、知識(shí)搜索、學(xué)習(xí)路徑推薦等。
關(guān)鍵詞:知識(shí)圖譜;智慧教育;智能問答
智慧教育是應(yīng)用新一代信息技術(shù),提升教學(xué)系統(tǒng)的效率和智能化程度。隨著信息化在教育中的普及,“互聯(lián)網(wǎng)+教育”逐漸在教育領(lǐng)域得到推廣,未來教育將可以利用信息技術(shù)進(jìn)行教學(xué),讓學(xué)生能夠個(gè)性化學(xué)習(xí)。這將改變教育服務(wù)方式,有助于更好地實(shí)現(xiàn)教育的核心目標(biāo)。知識(shí)圖譜能夠構(gòu)建不同領(lǐng)域知識(shí)要素之間的關(guān)聯(lián)關(guān)系,通過知識(shí)圖譜,學(xué)生以及教師能夠提高學(xué)習(xí)的效率。知識(shí)圖譜不僅為師生提供知識(shí)的快速檢索方式,同時(shí)也將各類知識(shí)要素進(jìn)行結(jié)構(gòu)化的組織,能夠幫助師生系統(tǒng)性地掌握相關(guān)學(xué)科的內(nèi)容。
一、知識(shí)圖譜的理論基礎(chǔ)
知識(shí)圖譜是一種結(jié)構(gòu)化數(shù)據(jù)的形式,用于表達(dá)實(shí)體、概念以及它們之間的關(guān)系。其構(gòu)建原理基于三個(gè)核心要素:實(shí)體、屬性和關(guān)系。實(shí)體代表現(xiàn)實(shí)世界中的個(gè)體,可以是人、地點(diǎn)、物品、概念等。每個(gè)實(shí)體都有一個(gè)唯一的標(biāo)識(shí)符,并與一些屬性相關(guān)聯(lián)。屬性是描述實(shí)體特征或性質(zhì)的信息,如姓名、年齡、性別等。屬性用于描述實(shí)體的各個(gè)方面。關(guān)系表示實(shí)體之間的連接或交互方式,如“工作于”“位于”“擁有”等。知識(shí)圖譜通過將這些要素組織成圖形結(jié)構(gòu),構(gòu)建了一個(gè)網(wǎng)絡(luò),其中的節(jié)點(diǎn)表示實(shí)體,邊表示實(shí)體之間的關(guān)系。這種結(jié)構(gòu)有助于提取、理解和推理出有關(guān)實(shí)體之間關(guān)系的信息,從而實(shí)現(xiàn)更高層次的知識(shí)表達(dá)和應(yīng)用。
知識(shí)圖譜的建立有兩種方法:自上而下和自下而上。自上而下的方法是通過構(gòu)建不同領(lǐng)域知識(shí)的系統(tǒng)性結(jié)構(gòu),根據(jù)系統(tǒng)性的知識(shí)結(jié)構(gòu)來搜集相關(guān)數(shù)據(jù),并組成知識(shí)圖譜。自下而上的方式是直接針對(duì)數(shù)據(jù)集合進(jìn)行處理,通過數(shù)據(jù)集合之間的關(guān)聯(lián)關(guān)系,逐漸建立不同知識(shí)要素之間的關(guān)聯(lián),并最終形成知識(shí)圖譜。
(一)知識(shí)獲取
知識(shí)圖譜中的知識(shí)獲取通過多種渠道和方法,將信息整合到一個(gè)系統(tǒng)化的知識(shí)庫中。通常,可以從多個(gè)來源收集原始數(shù)據(jù),包括網(wǎng)絡(luò)、數(shù)據(jù)庫、文檔、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)等。采集數(shù)據(jù)后,要進(jìn)行清理、去重、格式化處理,以確保數(shù)據(jù)的質(zhì)量和一致性。此外,需要識(shí)別并抽取出文本中的實(shí)體(例如人物、地點(diǎn)、事件等),同時(shí)識(shí)別實(shí)體之間的關(guān)聯(lián)、聯(lián)系或描述它們之間的關(guān)系。
(二)知識(shí)表示
知識(shí)圖譜中的知識(shí)表示指的是如何以結(jié)構(gòu)化的方式表示各種信息和實(shí)體,使計(jì)算機(jī)能夠理解和處理。在知識(shí)圖譜中,常用的知識(shí)表示方法是采用三元組。三元組是一種基本的知識(shí)表示方式,由主體(Subject)、謂詞(Predicate)、客體(Object)組成,形如(實(shí)體1,關(guān)系,實(shí)體2)。舉例來說,“蘋果是一種水果”可以表示為(蘋果,屬于,水果)。這種表示方式能夠清晰地表達(dá)實(shí)體之間的關(guān)系,為計(jì)算機(jī)的理解和處理提供了便利。
(三)知識(shí)管理
知識(shí)圖譜的存儲(chǔ)方式可以采用多種方法,取決于數(shù)據(jù)的結(jié)構(gòu)、規(guī)模和使用場(chǎng)景。圖數(shù)據(jù)庫是專門用于存儲(chǔ)和處理圖結(jié)構(gòu)數(shù)據(jù)的數(shù)據(jù)庫,它們以圖的形式存儲(chǔ)數(shù)據(jù),利用節(jié)點(diǎn)和邊表示實(shí)體和實(shí)體之間的關(guān)系。這種存儲(chǔ)方式可以提供高效的圖查詢和圖算法操作。常見的圖數(shù)據(jù)庫包括Neo4j、Amazon Neptune和OrientDB等。資源描述框架(RDF)是一種用于描述資源的語義網(wǎng)數(shù)據(jù)模型,它使用三元組(Subject-Predicate-Object)的形式表示知識(shí)。RDF存儲(chǔ)方式采用三元組來組織和存儲(chǔ)數(shù)據(jù),例如將數(shù)據(jù)存儲(chǔ)在三元組數(shù)據(jù)庫中,常見的包括Virtuoso和Stardog等。在某些情況下,知識(shí)圖譜可以存儲(chǔ)為文檔型數(shù)據(jù)庫,使用文檔來表示實(shí)體和關(guān)系。這種方式適合于部分結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),如JSON或XML格式的數(shù)據(jù)。
RDF(Resource Description Framework)是一種用于描述資源關(guān)系的語義網(wǎng)絡(luò)數(shù)據(jù)模型。SPARQL(SPARQL Protocol and RDF Query Language)是用于查詢RDF數(shù)據(jù)的標(biāo)準(zhǔn)化查詢語言,它類似于SQL對(duì)于關(guān)系型數(shù)據(jù)庫的作用。SPARQL提供了靈活和強(qiáng)大的查詢機(jī)制,允許用戶對(duì)RDF數(shù)據(jù)進(jìn)行復(fù)雜的查詢操作。SPARQL使用類似于SQL的語法結(jié)構(gòu),包括SELECT、WHERE、FILTER和OPTIONAL等關(guān)鍵字,用于描述查詢的模式和條件。SPARQL允許對(duì)三元組模式進(jìn)行查詢,其中包括主語、謂語和賓語。用戶可以通過這些模式來獲取特定實(shí)體的屬性或者實(shí)體之間的關(guān)聯(lián)關(guān)系。
二、基于知識(shí)圖譜的智慧教育系統(tǒng)構(gòu)建
首先,需要收集不同學(xué)科的教材,如歷史、初中等。收集到數(shù)據(jù)后,運(yùn)用詞法模型提取概念及其關(guān)系。這些信息經(jīng)過可視化呈現(xiàn)知識(shí)圖譜,并應(yīng)用于知識(shí)問答、查詢和推薦等方面。數(shù)據(jù)是建立知識(shí)圖譜的基礎(chǔ),構(gòu)建學(xué)科知識(shí)圖譜需要大量學(xué)科數(shù)據(jù)。因此,獲取數(shù)據(jù)是建立圖譜的首要步驟。獲得數(shù)據(jù)后,需要進(jìn)行自然語言處理。分詞在自然語言處理中是一項(xiàng)重要的預(yù)處理步驟,尤其是針對(duì)中文等字符沒有明顯分隔符的語言。分詞的目的是將連續(xù)的文本序列切分為有意義的詞語或詞組,這是許多NLP任務(wù)的基礎(chǔ),包括文本分類、信息檢索、命名實(shí)體識(shí)別等。LTP(Language Technology Platform)是一個(gè)自然語言處理平臺(tái),其中包含分詞作為其基礎(chǔ)功能之一。它可以執(zhí)行中文文本的分詞處理,將文本切分為詞語或詞組,并標(biāo)注它們的詞性等信息。
識(shí)別實(shí)體詞是自然語言處理中的一個(gè)重要任務(wù),其目的是從文本中識(shí)別出具有特定含義的專有名詞、實(shí)體或術(shù)語。這些實(shí)體可以是人名、地名、組織機(jī)構(gòu)、日期、時(shí)間、數(shù)字、專業(yè)術(shù)語等,對(duì)于文本理解和信息提取非常關(guān)鍵。將文本分解成詞語或短語的序列是實(shí)體識(shí)別的基礎(chǔ),因?yàn)閷?shí)體通常由多個(gè)詞構(gòu)成。對(duì)于分詞后的每個(gè)詞語,詞性標(biāo)注有助于區(qū)分不同詞語在句子中的功能,從而更好地判斷其是否為實(shí)體。命名實(shí)體識(shí)別是實(shí)體識(shí)別的核心步驟,利用機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)模型,根據(jù)上下文語境識(shí)別出文本中的命名實(shí)體。NER包括對(duì)文本中的實(shí)體進(jìn)行分類,如人名、地名、機(jī)構(gòu)名等,并標(biāo)注它們的邊界。 在識(shí)別出實(shí)體后,可能會(huì)對(duì)它們進(jìn)行更詳細(xì)的分類,比如人名可能進(jìn)一步區(qū)分為政治人物、藝術(shù)家等。
本文采用如公式(1)所示的啟發(fā)性方法進(jìn)行實(shí)體詞識(shí)別:A表示形容詞,N表示名詞,P表示介詞,通過公式(1)形成用不同類型詞匯形成的句法類型。
((AA|NN)+|((AA|NN)×(NNP)? )(AA|NN)×)NN? ?(1)
句法分析旨在識(shí)別句子中的語法成分,如“主謂賓”“定狀補(bǔ)”等,并分析它們之間的關(guān)系,通常用依存句法樹表示。句子中的實(shí)體在依存結(jié)構(gòu)中占據(jù)重要地位,實(shí)體之間的語義關(guān)系可以通過語義成分的依存結(jié)構(gòu)推斷得出。
在此基礎(chǔ)上,本文采用Neo4j存儲(chǔ)知識(shí)圖譜。Neo4j是一套圖形數(shù)據(jù)庫管理系統(tǒng),專注于圖形數(shù)據(jù)的存儲(chǔ)和處理。它適用于存儲(chǔ)和處理復(fù)雜的關(guān)聯(lián)數(shù)據(jù),特別適用于處理知識(shí)圖譜中實(shí)體之間存在多重關(guān)系的場(chǎng)景。在Neo4j中,知識(shí)圖譜的數(shù)據(jù)以節(jié)點(diǎn)和關(guān)系的形式存儲(chǔ)。節(jié)點(diǎn)表示知識(shí)圖譜中的實(shí)體,例如人物、地點(diǎn)、概念等,關(guān)系表示這些實(shí)體之間的關(guān)聯(lián)和連接。每個(gè)節(jié)點(diǎn)和關(guān)系都可以具有屬性,這些屬性可以提供關(guān)于實(shí)體和關(guān)系的更多信息。例如,一個(gè)人物節(jié)點(diǎn)可以有姓名、年齡等屬性。節(jié)點(diǎn)可以被賦予標(biāo)簽,這樣可以根據(jù)標(biāo)簽對(duì)節(jié)點(diǎn)進(jìn)行分類。標(biāo)簽有助于快速識(shí)別節(jié)點(diǎn)所屬的類別。Neo4j使用Cypher查詢語言進(jìn)行圖形數(shù)據(jù)庫的查詢,這種查詢語言專門針對(duì)圖形數(shù)據(jù)模型設(shè)計(jì)。Cypher通過指定節(jié)點(diǎn)的標(biāo)簽或?qū)傩?,可以查詢滿足特定條件的節(jié)點(diǎn)。 Cypher還能查詢節(jié)點(diǎn)之間的關(guān)系,包括特定類型的關(guān)系、關(guān)系的方向等,以及查找節(jié)點(diǎn)之間的路徑,如查找兩個(gè)節(jié)點(diǎn)之間的最短路徑或特定條件下的路徑。在此基礎(chǔ)上,形成了如圖1所示的知識(shí)結(jié)構(gòu)模型。
三、基于知識(shí)圖譜的智慧教育系統(tǒng)的應(yīng)用
基于知識(shí)圖譜的智慧教育系統(tǒng)可以應(yīng)用在不同的方向,主要如下。
(一)智能問答
知識(shí)圖譜中的智能問答是指利用知識(shí)圖譜的信息結(jié)構(gòu)和關(guān)聯(lián)性來回答用戶提出的問題。這種智能問答系統(tǒng)可以通過對(duì)知識(shí)圖譜中的實(shí)體、關(guān)系和屬性進(jìn)行搜索和推理,為用戶提供準(zhǔn)確、個(gè)性化的答案。系統(tǒng)需要理解用戶提出的問題。這包括分析問題的語義、關(guān)鍵詞提取和語法分析。通過自然語言處理技術(shù),將問題轉(zhuǎn)化為計(jì)算機(jī)能夠理解的形式。在知識(shí)圖譜中進(jìn)行信息檢索,系統(tǒng)會(huì)根據(jù)問題的內(nèi)容在圖譜中尋找相關(guān)的實(shí)體、關(guān)系或?qū)傩浴_@可以通過圖查詢語言(例如SPARQL)或圖數(shù)據(jù)庫提供的API來實(shí)現(xiàn)。從圖譜中檢索到的信息需要進(jìn)一步分析和推斷,以生成最終的答案。這可能涉及對(duì)實(shí)體之間的關(guān)系推理、答案的排名或過濾等。最終的答案以易于理解和接受的方式呈現(xiàn)給用戶。這可以是文本形式的答案、圖表甚至是語音回答,取決于系統(tǒng)的設(shè)計(jì)和用戶的需求。
(二)知識(shí)搜索
知識(shí)圖譜中的知識(shí)搜索是指通過使用圖數(shù)據(jù)庫或圖形查詢語言等技術(shù),在用戶提出的問題或關(guān)鍵字的基礎(chǔ)上,在知識(shí)圖譜中進(jìn)行信息檢索,并返回與查詢相關(guān)的知識(shí)點(diǎn)、實(shí)體或關(guān)系。系統(tǒng)需要理解并分析用戶提出的問題或關(guān)鍵字的含義,包括語義、上下文等。在知識(shí)圖譜中,信息需要被索引,這樣才能快速地進(jìn)行搜索。索引可以是實(shí)體、屬性、關(guān)系等。搜索引擎會(huì)針對(duì)查詢?cè)谶@些索引中查找匹配的內(nèi)容。根據(jù)用戶的查詢,在知識(shí)圖譜中進(jìn)行圖查詢操作。這可能涉及使用圖數(shù)據(jù)庫提供的查詢語言(例如SPARQL)或者利用圖數(shù)據(jù)庫的API進(jìn)行查詢操作。檢索到的信息將被組織和呈現(xiàn)給用戶。這可以是簡(jiǎn)單的文本輸出、圖形展示,或者其他用戶友好的展示形式,以便用戶理解和使用。基于知識(shí)圖譜的搜索能夠提供更為準(zhǔn)確、精確的結(jié)果,因?yàn)樗谑聦?shí)和關(guān)系而不是簡(jiǎn)單的關(guān)鍵詞匹配。知識(shí)圖譜搜索可以展示實(shí)體之間的關(guān)聯(lián)關(guān)系,幫助用戶更全面地理解相關(guān)信息的上下文和關(guān)聯(lián)。部分系統(tǒng)可以根據(jù)用戶的歷史查詢、興趣等信息,提供個(gè)性化的搜索結(jié)果。某些系統(tǒng)整合了自然語言處理和智能推薦技術(shù),能夠理解語義、解析查詢,并針對(duì)查詢進(jìn)行智能推薦或修正。例如,根據(jù)給定實(shí)體s1,可以使用公式(2)來解析與其三度關(guān)聯(lián)的實(shí)體。
?xr(s1,x)??xr2(x,s2) and ?x,y r1(s1,x)?r2(x,y)r3(y,s2)
(2)
通過組合不同的條件,最后返回公式(3)表示的三元組。
?x,y r(x,y)? ? ? ? ? ? ? ? ? ?(3)
(三)學(xué)習(xí)路徑推薦
在智慧教育中,發(fā)現(xiàn)知識(shí)點(diǎn)之間的相互聯(lián)系對(duì)于自動(dòng)整合知識(shí)結(jié)構(gòu)和提供優(yōu)質(zhì)教育服務(wù)至關(guān)重要。這些聯(lián)系多種多樣,例如,先修知識(shí)點(diǎn)關(guān)系。學(xué)生在學(xué)習(xí)某個(gè)知識(shí)點(diǎn)前,通常需要先了解其他相關(guān)知識(shí)點(diǎn)。課程大綱內(nèi)的章節(jié)、小節(jié)之間就隱含著知識(shí)點(diǎn)的上下級(jí)關(guān)系,在智慧教育素材中起著重要作用。首先提取課程大綱中的知識(shí)點(diǎn),再利用通用信息,形成課程大綱的基礎(chǔ)架構(gòu)。然后將提取自課程視頻的每個(gè)小節(jié)知識(shí)點(diǎn)加入課程大綱的基礎(chǔ)結(jié)構(gòu)中,形成基于課程大綱的知識(shí)點(diǎn)上下級(jí)關(guān)系。知識(shí)點(diǎn)的先后順序決定了學(xué)生在學(xué)習(xí)后續(xù)知識(shí)前應(yīng)掌握的先導(dǎo)知識(shí)。在智慧教育背景下,有許多特征影響著知識(shí)概念的先后順序,這些特征來自多個(gè)方面,包括語義、文本和結(jié)構(gòu)等。通過學(xué)習(xí)這些特征來提取知識(shí)點(diǎn)的先修關(guān)系,以推薦學(xué)習(xí)路徑。
四、結(jié)束語
知識(shí)圖譜在在線教育中扮演著關(guān)鍵的角色,它提供了智能化、個(gè)性化的學(xué)習(xí)體驗(yàn),從而提升了教學(xué)效果和學(xué)習(xí)體驗(yàn)。 基于知識(shí)圖譜對(duì)課程內(nèi)容和知識(shí)點(diǎn)的結(jié)構(gòu)化,系統(tǒng)可以為學(xué)習(xí)者創(chuàng)建個(gè)性化學(xué)習(xí)路徑,根據(jù)學(xué)習(xí)者的水平、興趣和目標(biāo),提供合適的學(xué)習(xí)路線?;谥R(shí)圖譜的智能問答系統(tǒng)可以回答學(xué)生提出的問題,提供實(shí)時(shí)支持和解答,能夠幫助學(xué)生更快速地理解概念和解決問題。
參考文獻(xiàn)
[1]李振,周東岱.教育知識(shí)圖譜的概念模型與構(gòu)建方法研究[J].電化教育研究, 2019, 1(8):78-86,113.
[2]袁榮亮,姬忠田.基于深度學(xué)習(xí)的網(wǎng)絡(luò)信息資源知識(shí)圖譜研究[J].情報(bào)理論與實(shí)踐, 2021, 44(5):173-179.
[3]蔣逸,張偉,王佩等.基于互聯(lián)網(wǎng)群體智能的知識(shí)圖譜構(gòu)造方法[J].軟件學(xué)報(bào), 2022, 33(7):21-25.
[4]郭宏偉.基于智能教育的高校在線課程知識(shí)圖譜構(gòu)建研究——以中國(guó)醫(yī)學(xué)史為例[J].中國(guó)電化教育, 2021,1(2):8-11.
[5]高茂,張麗萍.融合多模態(tài)資源的教育知識(shí)圖譜的內(nèi)涵,技術(shù)與應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究, 2022, 39(8):11-14.