范 洪,陸宇程
(1.中國地質(zhì)大學(xué)(北京)外國語學(xué)院,北京 100086;2.北京郵電大學(xué) 國際學(xué)院,北京 100876)
在大學(xué)英語教學(xué)中,同一門課程的學(xué)生其基礎(chǔ)知識(shí)、認(rèn)知能力和學(xué)習(xí)興趣等方面各不相同,因此,他們對(duì)外語知識(shí)結(jié)構(gòu)和學(xué)習(xí)成果的掌握程度存在差異。通常情況下,學(xué)生可以自行發(fā)現(xiàn)不同知識(shí)之間的聯(lián)系,并將新舊知識(shí)進(jìn)行整合。但是,有些學(xué)生由于知識(shí)結(jié)構(gòu)不完整或缺乏知識(shí)的系統(tǒng)性積累,導(dǎo)致他們學(xué)習(xí)能力下降,從而影響個(gè)性化教學(xué)的實(shí)施效果。因此,傳統(tǒng)大學(xué)課堂教學(xué)和網(wǎng)上數(shù)字化教學(xué)都需要深入分析課程知識(shí)點(diǎn)的屬性和關(guān)系。知識(shí)圖譜技術(shù)恰好能夠滿足這一需求,它可以展示大學(xué)英語課程中知識(shí)點(diǎn)的分布狀態(tài)和相互關(guān)系,幫助學(xué)生系統(tǒng)理解相關(guān)知識(shí)點(diǎn),并建立它們之間的聯(lián)系。除此之外,在互聯(lián)網(wǎng)教育中,知識(shí)圖譜技術(shù)還可以為個(gè)性化推薦學(xué)習(xí)提供支持。[1]因此,在教育領(lǐng)域,建立知識(shí)圖譜具有十分必要的意義。
當(dāng)前互聯(lián)網(wǎng)+教育是時(shí)代的潮流,基于知識(shí)圖譜的特點(diǎn)它可以為大學(xué)英語教學(xué)提供有力的工具和手段。知識(shí)圖譜(Knowledge Graph)是一種基于圖形數(shù)據(jù)結(jié)構(gòu)的語義網(wǎng)絡(luò),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識(shí)圖譜中,每個(gè)節(jié)點(diǎn)代表現(xiàn)實(shí)世界中的“實(shí)體”,每條邊表示實(shí)體之間的“關(guān)系”。[2]知識(shí)圖譜可以描述現(xiàn)實(shí)世界,也可以具體到大學(xué)英語教學(xué)這樣的行業(yè)領(lǐng)域。利用知識(shí)圖譜,我們可以從“關(guān)系”的角度來分析學(xué)生的學(xué)習(xí)方式、學(xué)習(xí)技能、學(xué)習(xí)資源等問題,更好地理解各實(shí)體之間的聯(lián)系,進(jìn)而深入挖掘知識(shí)與信息。[2]
知識(shí)圖譜的架構(gòu),包括知識(shí)圖譜自身的邏輯結(jié)構(gòu)以及構(gòu)建知識(shí)圖譜所采用的技術(shù)結(jié)構(gòu)。知識(shí)圖譜從邏輯架構(gòu)上可以分為兩個(gè)層次:數(shù)據(jù)層和模式層,如圖1所示。
知識(shí)圖譜的數(shù)據(jù)層以“實(shí)體—屬性—值”三元組作為事實(shí)的表達(dá)存儲(chǔ)在圖數(shù)據(jù)庫。本體知識(shí)庫是知識(shí)圖譜的抽象概念框架,具體到大學(xué)英語則可以對(duì)相關(guān)知識(shí)抽象分類,例如,英語教學(xué)可分為聽力、口語、閱讀、寫作和翻譯。而底層數(shù)據(jù)庫保存實(shí)體關(guān)系和實(shí)體屬性值。
模式層建立在數(shù)據(jù)層之上,是知識(shí)圖譜的核心,在模式層存儲(chǔ)的是經(jīng)過提煉的知識(shí),通常采用本體庫來管理知識(shí)圖譜的模式層,借助本體庫對(duì)公理、規(guī)則和約束條件的支持能力來規(guī)范實(shí)體、關(guān)系以及實(shí)體的類型和屬性等對(duì)象之間的聯(lián)系。[3]
構(gòu)建知識(shí)圖譜就是利用信息化技術(shù)將知識(shí)元素從原始數(shù)據(jù)中提取出來,將這些知識(shí)元素存儲(chǔ)在知識(shí)庫的數(shù)據(jù)層面和模式層面的過程。這是一個(gè)持續(xù)迭代更新的過程,根據(jù)知識(shí)獲取的邏輯,每個(gè)迭代包含三個(gè)階段:信息抽取、知識(shí)融合和知識(shí)處理。
信息抽取階段從原始文本數(shù)據(jù)中識(shí)別出實(shí)體、關(guān)系和屬性等知識(shí)元素。這些元素構(gòu)成知識(shí)圖譜的節(jié)點(diǎn)和關(guān)系邊。知識(shí)融合階段將來自不同數(shù)據(jù)源的知識(shí)元素融合在一起,消除沖突和重復(fù),生成關(guān)聯(lián)起來的知識(shí)路徑和圖譜片段。知識(shí)加工階段對(duì)生成的知識(shí)路徑或圖譜片段進(jìn)行修飾、調(diào)整和修正,使其符合一定的知識(shí)表示模型或本體,從而生成結(jié)構(gòu)完善、語義準(zhǔn)確的知識(shí)圖譜。
整個(gè)過程依賴于自然語言處理、關(guān)系抽取、知識(shí)表示、機(jī)器學(xué)習(xí)等技術(shù),最終構(gòu)建出一個(gè)節(jié)點(diǎn)豐富、關(guān)系完備的知識(shí)圖譜。該知識(shí)圖譜編碼了特定領(lǐng)域的知識(shí)元素及其之間的關(guān)聯(lián)和結(jié)構(gòu),為下一步的知識(shí)推理、問答和學(xué)習(xí)等應(yīng)用提供了基礎(chǔ)。
知識(shí)圖譜為教學(xué)模式優(yōu)化提供信息基礎(chǔ)。通過分析知識(shí)圖譜中的知識(shí)結(jié)構(gòu)和學(xué)習(xí)者的數(shù)據(jù),可以發(fā)現(xiàn)學(xué)習(xí)者的知識(shí)缺陷與需求,這有助于調(diào)整教學(xué)進(jìn)度與側(cè)重,實(shí)現(xiàn)精準(zhǔn)教學(xué)。同時(shí),知識(shí)圖譜還可以根據(jù)學(xué)習(xí)者的知識(shí)狀況推薦個(gè)性化的學(xué)習(xí)路徑,指導(dǎo)學(xué)習(xí)者進(jìn)行自主學(xué)習(xí)。
知識(shí)圖譜中知識(shí)的持續(xù)更新有助于教學(xué)內(nèi)容的及時(shí)升級(jí)。當(dāng)知識(shí)圖譜通過新信息的添加或完善得到擴(kuò)展時(shí),教學(xué)內(nèi)容也需要相應(yīng)調(diào)整以保證時(shí)效性。這需要教師持續(xù)關(guān)注知識(shí)圖譜的更新,并在教學(xué)中及時(shí)體現(xiàn)。
基于知識(shí)圖譜的學(xué)習(xí)分析和推薦可以實(shí)現(xiàn)學(xué)習(xí)方式的個(gè)性轉(zhuǎn)變。不同的學(xué)習(xí)者會(huì)得到不同的知識(shí)補(bǔ)充或練習(xí),有的側(cè)重于聽力、有的側(cè)重于口語等,這有助于學(xué)習(xí)者在個(gè)人興趣與需求的指引下進(jìn)行個(gè)性化學(xué)習(xí)。
知識(shí)圖譜為教育評(píng)價(jià)提供了更加全面與準(zhǔn)確的依據(jù)。教育評(píng)價(jià)不應(yīng)局限于幾次測試,更應(yīng)考察學(xué)習(xí)者與知識(shí)圖譜間的交互記錄,如學(xué)習(xí)者提出的問題、得到的學(xué)習(xí)推薦以及自主學(xué)習(xí)的足跡等。這可以讓教師從更廣泛的角度理解學(xué)習(xí)者的知識(shí)狀況與發(fā)展軌跡。
知識(shí)圖譜的構(gòu)建依賴于不同數(shù)據(jù)源的數(shù)據(jù)提取,這是后續(xù)應(yīng)用的基礎(chǔ)。對(duì)大學(xué)英語知識(shí)圖譜來說,數(shù)據(jù)主要來自兩種渠道:一種是學(xué)校自身的數(shù)據(jù),通常包含學(xué)校購買的電子化數(shù)據(jù)和以圖文形式存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù),其中學(xué)生的測試成績以結(jié)構(gòu)化表格形式存儲(chǔ)。另一種是公開的外文文章網(wǎng)絡(luò)數(shù)據(jù),通常以網(wǎng)頁形式存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)。
前者通常只需要簡單預(yù)處理就可以作為后續(xù)系統(tǒng)的輸入,但后者通常需要利用自然語言處理等技術(shù)來提取非結(jié)構(gòu)化的信息。學(xué)校數(shù)據(jù)提供了學(xué)習(xí)者的知識(shí)水平和學(xué)習(xí)記錄等結(jié)構(gòu)化信息,這些信息用于構(gòu)建學(xué)習(xí)者畫像,為個(gè)性化學(xué)習(xí)和推薦提供基礎(chǔ)。非結(jié)構(gòu)化的網(wǎng)絡(luò)語料存有豐富的知識(shí),要利用技術(shù)工具提取實(shí)體、關(guān)系和屬性構(gòu)建知識(shí)圖譜。
兩個(gè)數(shù)據(jù)源提供的信息有助于構(gòu)建學(xué)習(xí)者畫像和知識(shí)圖譜,為基于知識(shí)圖譜的大學(xué)外語個(gè)性化學(xué)習(xí)系統(tǒng)奠定基礎(chǔ)。系統(tǒng)通過分析學(xué)習(xí)者的數(shù)據(jù)采集學(xué)習(xí)者的知識(shí)狀況,結(jié)合知識(shí)圖譜為學(xué)習(xí)者推薦個(gè)性化學(xué)習(xí)路徑和內(nèi)容。這需要對(duì)兩個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行預(yù)處理、清洗、抽取、融合和標(biāo)注,最終建立起知識(shí)圖譜和學(xué)習(xí)者用戶畫像。[4]
知識(shí)圖譜構(gòu)建的關(guān)鍵在于理解業(yè)務(wù)和設(shè)計(jì)知識(shí)圖譜本身?;ヂ?lián)網(wǎng)上的海量資源是系統(tǒng)的重要信息來源。如圖2所示,我們通常可以按照自然語言中的主語、謂語、賓語的語法進(jìn)行知識(shí)的抽取。知識(shí)抽取分為實(shí)體抽取、關(guān)系抽取、屬性抽取和事件抽取。[5]
圖2 知識(shí)圖譜的數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)
圖3 本體庫的設(shè)計(jì)
信息源中的知識(shí)通過以上抽取手段轉(zhuǎn)化為知識(shí)圖譜中的實(shí)體、關(guān)系和屬性等知識(shí)單元。這些單元構(gòu)成初始知識(shí)圖譜,隨著新信息的不斷獲得,豐富知識(shí)圖譜,使其更加準(zhǔn)確和詳盡。
知識(shí)融合是從概念層和數(shù)據(jù)層兩方面,通過知識(shí)庫的對(duì)齊、關(guān)聯(lián)和合并等方式,將多個(gè)知識(shí)圖譜或信息源中的本體與實(shí)體進(jìn)行鏈接,形成一個(gè)更加統(tǒng)一和稠密的新知識(shí)圖譜,這是實(shí)現(xiàn)知識(shí)共享的重要方法。[5]
在概念層面,不同知識(shí)圖譜或信息源的本體可能存在差異,需要對(duì)其中的概念、類別和屬性進(jìn)行匹配、映射或整合,形成一個(gè)統(tǒng)一的本體框架,以此指導(dǎo)數(shù)據(jù)層面的知識(shí)融合。這通常需要人工完成,但也可以借助本體匹配工具實(shí)現(xiàn)半自動(dòng)化。
在數(shù)據(jù)層面,系統(tǒng)需要檢測不同知識(shí)圖譜或信息源中的相同或相關(guān)實(shí)體,通過實(shí)體消解、實(shí)體鏈接等技術(shù)將其鏈接在一起,或者合并為同一個(gè)實(shí)體,從而豐富實(shí)體的數(shù)據(jù)描述和關(guān)系網(wǎng)絡(luò)。此外,系統(tǒng)還需要關(guān)聯(lián)不同源的屬性、關(guān)系與事件等,構(gòu)建更加全面和準(zhǔn)確的知識(shí)網(wǎng)絡(luò)。
知識(shí)融合需要同時(shí)在概念和數(shù)據(jù)兩個(gè)層面開展,才能實(shí)現(xiàn)真正意義上的知識(shí)整合與共享。這有助于緩解信息孤島,豐富單個(gè)知識(shí)圖譜的知識(shí),提高其準(zhǔn)確性與完備性。采用自動(dòng)化技術(shù)可以在一定程度上實(shí)現(xiàn)知識(shí)融合的規(guī)模化,但人工干預(yù)和評(píng)估也同樣重要。
知識(shí)處理包括本體創(chuàng)建、知識(shí)推理和質(zhì)量評(píng)估三個(gè)部分。本體主要通過人工創(chuàng)建和數(shù)據(jù)驅(qū)動(dòng)自動(dòng)創(chuàng)建的方式構(gòu)建,根據(jù)當(dāng)前的大學(xué)英語教學(xué)現(xiàn)狀,核心本體庫從實(shí)體、服務(wù)、方式和用戶四個(gè)方面開始創(chuàng)建本體庫。知識(shí)推理主要使用語義分析的方法,通過對(duì)存儲(chǔ)的三元組進(jìn)行分析,可以獲取新的知識(shí)或者結(jié)論。知識(shí)推理是獲取新知識(shí)的重要手段。質(zhì)量評(píng)估是生成正確知識(shí)的關(guān)鍵所在,質(zhì)量評(píng)估的過程就是對(duì)上面產(chǎn)生的知識(shí)數(shù)據(jù)進(jìn)行打分評(píng)價(jià)的過程,并將符合要求的數(shù)據(jù)存入知識(shí)圖譜。[5]
用戶畫像是“千人千面”推薦算法的基礎(chǔ),[6]用戶畫像的構(gòu)建需要多種信息的支持,數(shù)據(jù)采集的具體工作流程如下:
1.用戶屬性采集:如年齡、性別、學(xué)籍、興趣愛好等,可以通過用戶注冊(cè)或問卷調(diào)查獲取。這些屬性可以構(gòu)成用戶屬性畫像。
2.用戶行為采集:如用戶的瀏覽歷史、點(diǎn)贊行為、學(xué)習(xí)時(shí)間、學(xué)習(xí)習(xí)慣等。這需要通過對(duì)用戶的網(wǎng)站、產(chǎn)品或應(yīng)用使用進(jìn)行跟蹤采集。這些數(shù)據(jù)可以構(gòu)成用戶行為畫像。
3.用戶知識(shí)水平評(píng)估:例如通過測試的方式對(duì)用戶的某些技能或知識(shí)進(jìn)行評(píng)定,可以判斷用戶的知識(shí)結(jié)構(gòu)和掌握情況,用于構(gòu)建用戶知識(shí)能力畫像。
4.用戶學(xué)習(xí)經(jīng)歷采集:通過對(duì)用戶在學(xué)校學(xué)習(xí)數(shù)據(jù)、學(xué)習(xí)平臺(tái)上的發(fā)帖、評(píng)論等進(jìn)行分析,可以挖掘出用戶的興趣偏好、價(jià)值觀、性格特征等,構(gòu)建用戶經(jīng)歷畫像。
5.多源數(shù)據(jù)融合:從不同渠道采集到用戶屬性、行為、知識(shí)、經(jīng)歷等多維數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行融合可以形成較為全面準(zhǔn)確的用戶畫像。
用戶畫像的采集是一項(xiàng)綜合性工作,需要收集用戶屬性、行為、知識(shí)、經(jīng)歷等不同類型的數(shù)據(jù),并將這些數(shù)據(jù)進(jìn)行綜合分析和融合,這樣才能構(gòu)建出較為準(zhǔn)確和全面的用戶畫像。這有助于為用戶提供個(gè)性化推薦和服務(wù)。
學(xué)習(xí)路徑推薦往往僅根據(jù)用戶有興趣學(xué)習(xí)的知識(shí)實(shí)體為出發(fā)點(diǎn),按知識(shí)點(diǎn)進(jìn)行推薦。個(gè)性化學(xué)習(xí)推薦算法需要做好以下幾個(gè)方面的工作:
1.分析用戶需求:根據(jù)用戶畫像分析用戶的知識(shí)缺口、學(xué)習(xí)習(xí)慣和興趣需求,這有助于精準(zhǔn)推薦用戶需要的學(xué)習(xí)內(nèi)容。
2.構(gòu)建推薦模型:選用與學(xué)習(xí)場景匹配的推薦算法和技術(shù),構(gòu)建可以根據(jù)用戶需求為用戶推薦個(gè)性化學(xué)習(xí)內(nèi)容的推薦模型。常用的有協(xié)同過濾、內(nèi)容推薦等。
3.構(gòu)建學(xué)習(xí)資源:提供豐富而全面的學(xué)習(xí)內(nèi)容,包括視頻、文字、音頻、圖片、習(xí)題等多種形式,滿足不同學(xué)習(xí)者的需求。
4.個(gè)性化推薦:根據(jù)用戶數(shù)據(jù)和推薦模型,為每個(gè)用戶推薦符合其學(xué)習(xí)需求的個(gè)性化學(xué)習(xí)內(nèi)容,如推薦Learning Path。
5.優(yōu)化和迭代:分析用戶對(duì)推薦結(jié)果的響應(yīng)和評(píng)價(jià),不斷優(yōu)化用戶畫像、推薦模型和學(xué)習(xí)資源,實(shí)現(xiàn)個(gè)性化推薦的持續(xù)優(yōu)化。
6.互動(dòng)和交互:提供用戶交互界面,可以實(shí)現(xiàn)推薦結(jié)果的顯示、用戶管理和互動(dòng),以及學(xué)習(xí)記錄跟蹤等功能。
做好個(gè)性化推薦學(xué)習(xí)需要全面收集和應(yīng)用用戶數(shù)據(jù),選擇合適算法構(gòu)建推薦模型,提供豐富學(xué)習(xí)資源,并持續(xù)優(yōu)化。在此需要強(qiáng)調(diào)數(shù)據(jù)采集、模型構(gòu)建、資源建設(shè)和不斷迭代四個(gè)要素。
知識(shí)問答平臺(tái)可以根據(jù)用戶的自然語言輸入,基于歷史的學(xué)習(xí)風(fēng)格,依照學(xué)習(xí)路徑推薦算法,給出相應(yīng)的回答結(jié)果。如圖4所示,具體工作流程如下:
圖4 知識(shí)問答界面
1.通過超越關(guān)鍵字匹配技術(shù),基于語義理解與知識(shí)圖譜實(shí)現(xiàn)搜索與互動(dòng)問答。
2.利用知識(shí)圖譜將多模態(tài)的課程(文本,音頻,視頻)與題目,競賽等結(jié)合,自動(dòng)化生產(chǎn)課件與學(xué)習(xí)計(jì)劃。
3.基于知識(shí)圖譜化的學(xué)習(xí)內(nèi)容,實(shí)現(xiàn)免人工干預(yù)的智能題目生產(chǎn)。
4.對(duì)用戶行為進(jìn)行分析,基于用戶個(gè)性化習(xí)慣、學(xué)習(xí)記錄及考核成績等,智能推薦課程學(xué)習(xí)。
本文闡釋了基于知識(shí)圖譜的大學(xué)英語個(gè)性化智能學(xué)習(xí)系統(tǒng),介紹大學(xué)英語相關(guān)知識(shí)圖譜的構(gòu)建過程,該系統(tǒng)可根據(jù)用戶畫像提供個(gè)性化的英語學(xué)習(xí)課件和學(xué)習(xí)計(jì)劃,并實(shí)現(xiàn)免人工干預(yù)的智能題目測試。該系統(tǒng)需要繼續(xù)完善自然語言處理、用戶畫像的準(zhǔn)確度和數(shù)據(jù)質(zhì)量的評(píng)價(jià)機(jī)制,以便為用戶提供更加豐富和準(zhǔn)確的個(gè)性化推薦內(nèi)容。