李艷茹 周子力 倪??? 馬騰 高書林 王彥冰
摘? 要: 文章以人教版高中數(shù)學(xué)必修課程為例,探討了面向中學(xué)生教學(xué)的學(xué)科知識圖譜的構(gòu)建過程與應(yīng)用,具體闡述了構(gòu)建學(xué)科知識圖譜的方法和步驟。針對傳統(tǒng)知識圖譜中知識點(diǎn)存儲(chǔ)與推理方法的弊端,提出一種CRA模型,可以便捷且有效地構(gòu)建圖譜,充分發(fā)揮圖譜功能。最后,通過已構(gòu)建的知識圖譜編輯系統(tǒng),對高中數(shù)學(xué)課程知識圖譜進(jìn)行構(gòu)建與展示。
關(guān)鍵詞: CRA模型; 學(xué)科知識圖譜; 個(gè)性化學(xué)習(xí); 可視化
中圖分類號:TP399? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2021)04-65-04
Abstract: Taking the compulsory high school mathematics course of PEP as an example, this paper discusses the construction process and application of the subject knowledge graph for middle school students' teaching, and elaborates the methods and steps of constructing the subject knowledge graph. Aiming at the disadvantages of knowledge point storage and reasoning method in traditional knowledge graph, a CRA model is proposed, which can construct the graph conveniently and effectively and give full play to its function. Finally, the knowledge graph of high school mathematics curriculum is constructed and displayed through the established knowledge graph editing system.
Key words: CRA model; subject knowledge graph; personalized learning; visualization
0 引言
數(shù)學(xué)作為一門最基礎(chǔ)的工具學(xué)科,其教學(xué)工作一直廣受社會(huì)各界的關(guān)注。大量研究發(fā)現(xiàn),中學(xué)生不具備對模型和建模本質(zhì)的深層次的認(rèn)知,更缺少用模和建模的能力[1],因而學(xué)生往往難以記住每一個(gè)知識點(diǎn),無法建立各個(gè)知識點(diǎn)之間的聯(lián)系,從而不能將知識點(diǎn)靈活應(yīng)用。而知識圖譜中知識點(diǎn)之間具有關(guān)聯(lián)性,有助于學(xué)生對于知識點(diǎn)的記憶與深層次理解,易于學(xué)生形成數(shù)學(xué)這門課程的認(rèn)知網(wǎng)絡(luò),從而激發(fā)學(xué)生自主學(xué)習(xí)與獨(dú)立思考的能力。
文獻(xiàn)[1,2]將知識圖譜引入到教學(xué)當(dāng)中,主要采用構(gòu)建學(xué)科知識圖譜,把學(xué)科知識內(nèi)容的知識點(diǎn)進(jìn)行梳理,建立起知識點(diǎn)間關(guān)系的方法。但其學(xué)科知識圖譜的表示、存儲(chǔ)與推理還是基于RDF或OWL,不適合海量知識的表達(dá),使得知識圖譜功能的發(fā)揮受到影響。針對以上問題,本文將基于CRA模型,結(jié)合知識圖譜編輯器對知識圖譜進(jìn)行構(gòu)建與可視化展示。利用此模型既可以更方便地構(gòu)建圖譜,同時(shí)也可以充分發(fā)揮知識圖譜在教學(xué)中的功能。
1 知識圖譜在教學(xué)領(lǐng)域研究現(xiàn)狀
近年來,知識圖譜(Knowledge Graph)無論作為技術(shù)工具還是技術(shù)理念,逐漸獲得國內(nèi)外科學(xué)研究學(xué)者的關(guān)注。知識圖譜,是結(jié)構(gòu)化的語義知識庫,用于描述現(xiàn)實(shí)世界中的概念及其相互關(guān)系[2],本質(zhì)上,知識圖譜是從語義的角度來表示人們的先驗(yàn)知識。通過將數(shù)據(jù)粒度從文件級別降到概念級別,聚合大量知識,從而實(shí)現(xiàn)知識的快速響應(yīng)和推理。隨著國內(nèi)外科學(xué)研究學(xué)者對于知識圖譜理論研究的不斷深化,知識圖譜在各個(gè)領(lǐng)域逐漸受到廣泛關(guān)注。
在教育教學(xué)領(lǐng)域,知識圖譜在高校課程設(shè)計(jì)中的應(yīng)用較為廣泛,主要包括教師對于課程的構(gòu)建以及對于學(xué)習(xí)者學(xué)習(xí)情況的追蹤,具有促進(jìn)教學(xué)內(nèi)容、方法和模式的改進(jìn)以及促進(jìn)在線學(xué)習(xí)模式轉(zhuǎn)變的優(yōu)勢[3]。國外,由Gregory 等人開發(fā)了“HPKMT”——人力績效知識圖譜映射工具[4],可以使學(xué)習(xí)者通過自主創(chuàng)建概念和定義概念間關(guān)系的知識圖譜來表達(dá)他們對于所學(xué)內(nèi)容的理解;Knewton[5]在線教育平臺(tái)基于數(shù)學(xué)學(xué)科知識圖譜,搭建了學(xué)習(xí)者個(gè)性化學(xué)習(xí)平臺(tái),為不同學(xué)生提供了個(gè)性化學(xué)習(xí)指導(dǎo)。國內(nèi),由清華大學(xué)知識工程研究室所構(gòu)建的我國第一個(gè)基礎(chǔ)教育RDF知識圖譜——“eduKB”,為學(xué)習(xí)者提供了基礎(chǔ)的問答等服務(wù);北京師范大學(xué)研發(fā)的“唐詩別苑”——全唐詩語義檢索可視化平臺(tái),為學(xué)習(xí)者提供了查詢作者信息、文本釋義等相關(guān)功能。
2 基于CRA模型的學(xué)科知識圖譜建模
學(xué)科知識圖譜建?;贑RA模型建立,即將學(xué)科知識圖譜中的概念(C),關(guān)系(R),規(guī)則(A)利用三元組模型進(jìn)行表示。此處以人教版高中數(shù)學(xué)部分章節(jié)為例,如圖1所示。
2.1 概念(Concept)
在學(xué)科知識圖譜中,概念是指能夠唯一標(biāo)識一個(gè)意義單元的個(gè)體。其主要由具體的實(shí)例對象和基于實(shí)例所構(gòu)建的抽象概念組成。
⑴ 概念(concept)
集合中,[tc1,tc2,…,tcm]代表m個(gè)不同的名稱,而這些名稱均可以用概念c來表示。例如:向量既可稱為歐幾里得向量,又可稱為矢量,可以表示為:[c:Tc(向量)={歐幾里得向量, 矢量}]。
⑵ 概念集合(C)
集合中,[c1,c2,…,cn]代表n個(gè)各不相同的概念。例如:集合、函數(shù),它們?yōu)楦鞑幌嗤母拍?,可以作如下表示:[C={集合, 函數(shù)}]。
⑶ 名稱(title)
集合中,[ct1],[ct2,…,cti]代表i個(gè)不同的概念,這些概念均可以用名稱t來表示,即多個(gè)概念共用一個(gè)名稱,代表實(shí)體鏈指中一詞多義的情況,此時(shí),[Ct?C]。例如“單位”一詞,在數(shù)學(xué)中的含義為計(jì)量事物的標(biāo)準(zhǔn)量的名稱,而在生活中則指代機(jī)關(guān)、團(tuán)體或?qū)儆谝粋€(gè)機(jī)關(guān)、團(tuán)體的各個(gè)部門??勺魅缦卤硎荆篬t:Ct(單位)={標(biāo)準(zhǔn)量, 機(jī)關(guān)}]。
⑷ 名稱集合(T)
集合中,[t1,t2,…,tj]代表j個(gè)各不相同的名稱。例如:真子集、空集、對數(shù)函數(shù)、指數(shù)函數(shù)為不同名稱,可以作如下表示:[T={真子集, 空集, 對數(shù)函數(shù), 指數(shù)函數(shù)}]。
2.2 關(guān)系(Association)
在學(xué)科知識圖譜中,關(guān)系是指概念與概念、概念與知識點(diǎn)、知識點(diǎn)與知識點(diǎn)的聯(lián)系。
集合中,[tA1,tA2,…,tAj]代表j個(gè)各不相同的關(guān)系名稱。學(xué)科知識圖譜中關(guān)系有很多種。例如:概念與概念之間:兩個(gè)集合的映射是函數(shù);概念與知識點(diǎn)之間:函數(shù)包含反比例函數(shù);知識點(diǎn)與知識點(diǎn)之間:三角函數(shù)的有界性是函數(shù)最值的應(yīng)用。對于以上這些不同的關(guān)系,作如下表示:[TA={映射, 包含, 應(yīng)用}]。
2.3 規(guī)則(Rule)
在學(xué)科知識圖譜中,規(guī)則是指對于知識圖譜中的事物的規(guī)范且可以用于推理。規(guī)則主要功能是保證知識圖譜內(nèi)部組織結(jié)構(gòu)的規(guī)范性,為后續(xù)的推理知識和挖掘隱含知識提供前提??蓪⒁?guī)則分為約束檢驗(yàn)規(guī)則和知識推理規(guī)則。約束檢驗(yàn)規(guī)則可以保證知識圖譜內(nèi)容與內(nèi)部組織結(jié)構(gòu)的規(guī)范性與統(tǒng)一性,而知識推理則可以通過現(xiàn)有關(guān)系,構(gòu)造或發(fā)現(xiàn)未知知識。
在構(gòu)建知識圖譜的過程中,例如:利用約束檢驗(yàn)規(guī)則限制“值域的性質(zhì)是函數(shù)”,“導(dǎo)數(shù)的應(yīng)用是確定性”等關(guān)系的出現(xiàn)。根據(jù)規(guī)則,可以在知識圖譜中進(jìn)行關(guān)聯(lián)查詢,得到知識圖譜中的隱含知識利用規(guī)則進(jìn)行推理,例如:查詢集合這一概念,不僅會(huì)得到關(guān)于集合的知識點(diǎn),還會(huì)得到關(guān)于函數(shù)的概念及知識點(diǎn)。
通過以上步驟,形成[KG=(C, R, A)]三元組模型即CRA模型。基于CRA模型構(gòu)建知識圖譜,使得語義更為清晰,可以使知識圖譜更適合于海量知識的表達(dá)、存儲(chǔ)與推理,并充分發(fā)揮知識圖譜的功能,為學(xué)習(xí)者提供更加豐富的學(xué)習(xí)資料。
3 學(xué)科知識圖譜構(gòu)建
3.1 學(xué)科知識圖譜的定義與構(gòu)建流程
知識點(diǎn)是用于描述某一特定學(xué)科內(nèi)容的基本單元,可分為概念(元知識點(diǎn))和復(fù)合知識點(diǎn)。學(xué)科知識圖譜是基于結(jié)點(diǎn)之間的語義關(guān)系而形成的知識邏輯網(wǎng)絡(luò),其中每個(gè)結(jié)點(diǎn)由知識點(diǎn)或者與該知識點(diǎn)相關(guān)的課程資源構(gòu)成,并最終通過可視化的形式來揭示學(xué)科各個(gè)知識點(diǎn)間的邏輯與內(nèi)在聯(lián)系。
學(xué)科知識圖譜構(gòu)建流程可概括為[6]:學(xué)科知識點(diǎn)實(shí)體識別,學(xué)科知識點(diǎn)的關(guān)系抽取,學(xué)科知識點(diǎn)可視化。構(gòu)建過程如圖2所示。
3.2 學(xué)科知識點(diǎn)實(shí)體識別
本文從教學(xué)培養(yǎng)目標(biāo)以及大綱出發(fā),將人教版高中數(shù)學(xué)必修一教材為參照標(biāo)準(zhǔn),將里面各個(gè)章節(jié)的目錄以及每章所包含的概念及知識點(diǎn)作為知識圖譜中節(jié)點(diǎn)即實(shí)體,從而獲得關(guān)于課程知識圖譜的大體框架[7]。
確定好實(shí)體類型之后,對數(shù)據(jù)集進(jìn)行清洗及分句處理,采用 jieba 分詞加載外部用戶詞典并對收集到的知識源文本進(jìn)行自動(dòng)化標(biāo)[8]。本文采用BIEOS標(biāo)注策略,以“字”作為標(biāo)注單位,其中B表示實(shí)體的開始,I表示實(shí)體的中間位置,E表示實(shí)體的結(jié)束,O表示不屬于預(yù)分類的實(shí)體,S表示一個(gè)字符即為一個(gè)實(shí)體。該“字”泛指漢字、標(biāo)點(diǎn)符號、數(shù)字等其他語言字符。即對于輸入的教學(xué)資源語句[X{x1, x2, x3,…}],其中,xi表示單個(gè)字符,輸出其對應(yīng)的標(biāo)注序列[Y{y1, y2, y3,…}],其中yi表示xi對應(yīng)的標(biāo)簽序列,完成實(shí)體的標(biāo)注。
經(jīng)以上處理,完成對于人教版高中數(shù)學(xué)必修一教材知識點(diǎn)實(shí)體識別語料庫的創(chuàng)建。通過分配模型訓(xùn)練集、驗(yàn)證集和測試集,分配比例分別是6:2:2,進(jìn)行模型訓(xùn)練,并最終完成預(yù)測。標(biāo)注過程如圖3所示。
3.3 學(xué)科知識點(diǎn)的關(guān)系抽取
經(jīng)過實(shí)體識別后,獲取了關(guān)于課程知識圖譜中的各個(gè)節(jié)點(diǎn)。然而此時(shí),它們之間還不具備聯(lián)系,處于相互獨(dú)立的狀態(tài),還需要通過關(guān)聯(lián)關(guān)系挖掘才能將各個(gè)知識點(diǎn)之間串到一起,連接成一張知識網(wǎng)絡(luò)。首先對于上一步由分詞得到的教育資源數(shù)據(jù)集進(jìn)行清洗,最大程度保留文本的信息,并且提高文本精確度,為后續(xù)處理數(shù)據(jù)奠定基礎(chǔ)。其次,對于自然語言來說,一句話中往往包含完整的語句信息,并且關(guān)系抽取提取的是一句話中的潛在語義,所以對于數(shù)據(jù)集來說將其進(jìn)行分句也是必不可少的工作。最后,將各個(gè)知識點(diǎn)的關(guān)系進(jìn)行劃分,識別出一句話中的兩個(gè)實(shí)體,并對其關(guān)系做進(jìn)一步判斷,從而完成關(guān)系語料庫的構(gòu)建。例如:集合元素具有三個(gè)性質(zhì),分別為確定性、無序性、互異性,關(guān)系抽取過程如圖4所示。
3.4 學(xué)科知識點(diǎn)可視化
經(jīng)過以上步驟,獲得各節(jié)點(diǎn)的信息及節(jié)點(diǎn)之間的關(guān)系,即各知識點(diǎn)以及知識點(diǎn)之間的聯(lián)系后,通過已構(gòu)建的知識圖譜編輯器,將學(xué)科知識圖譜繪制出來,本文以人教版高中數(shù)學(xué)必修一集合與函數(shù)兩章為例,完成知識圖譜的繪制。如圖5所示。
完成知識圖譜繪制后,通過點(diǎn)擊每一個(gè)知識節(jié)點(diǎn),展示與該知識節(jié)點(diǎn)相關(guān)聯(lián)的內(nèi)容,以及與該知識節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系。
4 結(jié)束語
本文基于CRA模型,對學(xué)科知識進(jìn)行實(shí)體識別與關(guān)系抽取,并構(gòu)建了高中數(shù)學(xué)知識圖譜,解決了傳統(tǒng)知識圖譜在存儲(chǔ)及表達(dá)上的弊端,使得在學(xué)科知識圖譜的表示、存儲(chǔ)與推理適合于海量數(shù)據(jù)的表達(dá)。并且運(yùn)用已構(gòu)建的知識圖譜編輯系統(tǒng),可以動(dòng)態(tài)地對知識點(diǎn)進(jìn)行刪減與展示,從而提高了構(gòu)建學(xué)科知識圖譜的效率?;谥R圖譜的學(xué)科知識的構(gòu)建,有助于學(xué)習(xí)者清晰地了解所學(xué)各個(gè)知識點(diǎn)之間的關(guān)聯(lián),形成整體的知識網(wǎng)絡(luò),促進(jìn)學(xué)習(xí)者對于所學(xué)知識的深入思考,深刻了解自己對于所學(xué)知識點(diǎn)的掌握情況。同時(shí),在知識圖譜中,學(xué)習(xí)者還可以通過查詢知識點(diǎn)得到與該知識點(diǎn)相關(guān)的知識點(diǎn)及資料,從而高效地進(jìn)行學(xué)習(xí)。
參考文獻(xiàn)(References):
[1] 王冬青,殷紅巖.基于知識圖譜的個(gè)性化習(xí)題推薦系統(tǒng)設(shè)計(jì)研究[J].中國教育信息化,2019.17:81-86
[2] 戈其平,鐘艷如.基于數(shù)學(xué)教學(xué)的知識圖譜構(gòu)建[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019.29(3):187-189
[3] 袁媛.高中生物理建模能力及其培養(yǎng)對策研究[D].遼寧師范大學(xué),2017.
[4] 陸星兒,曾嘉靈,章夢瑤,郭幸君,張婧婧.知識圖譜視角下的MOOC教學(xué)優(yōu)化研究[J].中國遠(yuǎn)程教育,2016.7:5-9,79
[5] Chung G K W K, Baker E L, Brill D G, et al. Automated Assessment of Domain Knowledge with Online Knowledge Mapping. CSE Technical Report 692.[J]. National Center for Research on Evaluation Standards & Student Testing,2006:23
[6] 莊嚴(yán),李國良,馮建華.知識庫實(shí)體對齊技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016.1:165-192
[7] 王冬青,殷紅巖.基于知識圖譜的個(gè)性化習(xí)題推薦系統(tǒng)設(shè)計(jì)研究[J].中國教育信息化,2019.17:81-86
[8] Xuezhe Ma, Eduard Hovy,End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF arXiv:1603.01354v5 [cs.LG],2016.5.