關(guān)鍵詞:概率軟邏輯;高校學(xué)生狀態(tài);規(guī)則挖掘;推理;多層次結(jié)構(gòu)
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
隨著高等教育的普及,高校應(yīng)探索更加科學(xué)有效的管理決策方法[1],以達(dá)到提升管理效率和提高學(xué)生培養(yǎng)質(zhì)量的目的。當(dāng)前,以數(shù)據(jù)和知識(shí)研究為基礎(chǔ)的管理決策作為一種新的決策方法,已經(jīng)逐漸受到社會(huì)的廣泛關(guān)注,也為高校管理實(shí)踐帶來了新的發(fā)展動(dòng)能[2]。
概率軟邏輯(PSL)[3]是一種適合處理高校學(xué)生狀態(tài)數(shù)據(jù)、表達(dá)推理過程的方法,目前已被廣泛應(yīng)用于集體分類、垃圾郵件檢測(cè)、慕課參與者建模、個(gè)性化醫(yī)療、網(wǎng)絡(luò)社交和文本情感分析等多個(gè)領(lǐng)域[4]。然而,PSL推理規(guī)則需由專家或領(lǐng)域知識(shí)生成,該過程需耗費(fèi)較多的時(shí)間、人力成本[5],故本文提出一種改進(jìn)的概率軟邏輯模型規(guī)則構(gòu)建方法,將基于不完備知識(shí)庫(kù)的關(guān)聯(lián)規(guī)則挖掘算法(Association Rule Mining under IncompleteEvidence,AMIE+)融入PSL進(jìn)行模型構(gòu)建[6],該方法的優(yōu)點(diǎn)主要如下:(1)自動(dòng)挖掘規(guī)則,減少人工工作量;(2)降低人為認(rèn)知偏差帶來的不確定性,提高模型的科學(xué)性;(3)基于更科學(xué)的規(guī)則,構(gòu)建多層次推理方法以提高推理的準(zhǔn)確率。
1 改進(jìn)概率軟邏輯模型方法(Improvedprobabilistic soft logic)
1.1 概率軟邏輯
概率軟邏輯是一種概率編程模型,它能夠有效地對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行推理。PSL模型對(duì)一組加權(quán)的一階邏輯規(guī)則進(jìn)行定義,這些邏輯規(guī)則的輸入原子和推理結(jié)果可以被定義或解釋為[0,1]的連續(xù)軟真值,而不是僅使用布爾值0或1代表概率。加權(quán)邏輯規(guī)則通常采用以下形式:
w:P1(A,B)∧P2(B,C)?P2(A,C) (1)
其中:w 是規(guī)則的權(quán)重(也可解釋為對(duì)應(yīng)規(guī)則的重要性),P1(A,B)∧P2(B,C)稱為規(guī)則體,P2(A,C)稱為規(guī)則頭,P1、P2稱為謂詞,A、B、C表示實(shí)體,謂詞一般用于定義實(shí)體之間的關(guān)系,每個(gè)謂詞的計(jì)算值都可表示為[0,1]區(qū)間內(nèi)的連續(xù)值,例如有規(guī)則Friend(A,B)∧know (A,C)?know(B,C),其中Friend(A,B)=0.7,表示A是B的朋友的概率為0.7,know(A,C)=0.9,表示A認(rèn)識(shí)C的概率為0.9,經(jīng)過PSL在這條規(guī)則上的推理后得出know(B,C)的值,即B認(rèn)識(shí)C的概率。每一條規(guī)則表示特殊類型馬爾可夫隨機(jī)場(chǎng)(在PSL模型內(nèi),稱為鉸鏈損失馬爾可夫隨機(jī)場(chǎng),簡(jiǎn)稱HL-MRF)中的一個(gè)函數(shù)集合[3]。HLMRF的概率密度由以下公式表示:
1.2 改進(jìn)方法
1.2.1 引入AMIE+
AMIE+從RDF(Resource Description Framework)三元組數(shù)據(jù)中不斷迭代組合規(guī)則(如算法1和算法2所示),當(dāng)規(guī)則被組合完整時(shí)(具備完整的規(guī)則頭和規(guī)則體),AMIE+將對(duì)規(guī)則的各項(xiàng)參數(shù)進(jìn)行檢查和判別,當(dāng)?shù)玫降囊?guī)則的各項(xiàng)參數(shù)均符合模型輸出參數(shù)設(shè)定時(shí),該規(guī)則將被添加到輸出隊(duì)列。
AMIE+輸出的規(guī)則包含多個(gè)屬性[6],本文的研究?jī)H使用PCA置信度和頭部覆蓋率。
1.2.2 改進(jìn)的概率軟邏輯模型結(jié)構(gòu)
圖1展示了基于學(xué)生狀態(tài)數(shù)據(jù)改進(jìn)的概率軟邏輯模型結(jié)構(gòu)。規(guī)則學(xué)習(xí)模型用于從RDF三元組數(shù)據(jù)中挖掘規(guī)則,本文使用PCA置信度和頭部覆蓋率[6]的平均值作為規(guī)則的初始權(quán)重,得到邏輯規(guī)則后,經(jīng)由規(guī)則優(yōu)化模塊調(diào)整權(quán)重,進(jìn)而輸入46PSL模型用于推理。
在本文研究中,為了得到更加豐富的推理結(jié)果,以及驗(yàn)證推理結(jié)果對(duì)其他關(guān)系可能造成的多重影響,本研究在模型中引入了多層次方法。圖2展示了基于學(xué)生狀態(tài)數(shù)據(jù)改進(jìn)的概率軟邏輯模型結(jié)構(gòu)。
(1)非層次推理結(jié)構(gòu)
非層次推理結(jié)構(gòu)[圖1(a)]是PSL模型默認(rèn)的模型構(gòu)建方式,此狀態(tài)下的每個(gè)目標(biāo)關(guān)系R1,R2,…,Rn 對(duì)應(yīng)的規(guī)則在推理時(shí)是并列的且推理結(jié)果互不影響,即每次運(yùn)行推理只輸出一種目標(biāo)關(guān)系的結(jié)果數(shù)據(jù)。這種結(jié)構(gòu)無法推理多重關(guān)系。
(2)多層次推理結(jié)構(gòu)
多層次推理結(jié)構(gòu)[圖1(b)]為本文研究所提出,它可以彌補(bǔ)非層次推理結(jié)構(gòu)的不足,使推理模型能夠推理多重關(guān)系。多層次推理結(jié)構(gòu)在推理過程中,R1 規(guī)則模塊得到結(jié)果后,其結(jié)果作為已知數(shù)據(jù)連同全局已知數(shù)據(jù)傳入R2 模塊,R2 推理得到結(jié)果后,R1、R2 的結(jié)果將與全局已知數(shù)據(jù)一同輸入R3,以此類推,直至所有模塊推理完成。例如,研究人員挖掘得到如下兩條來自不同目標(biāo)關(guān)系的規(guī)則:
加入實(shí)驗(yàn)室(B,A)?實(shí)驗(yàn)室成員(A,B)
管理實(shí)驗(yàn)室(E,A)amp;amp; 實(shí)驗(yàn)室成員(A,B)?指導(dǎo)學(xué)生成員(E,B)
通過多層次方法,研究人員可以根據(jù)上述兩條規(guī)則在測(cè)試數(shù)據(jù)中推理得到老師E實(shí)際指導(dǎo)學(xué)生B的結(jié)果。
(3)編碼模塊
PSL模型的謂詞只允許使用英文字母或者英文字母與數(shù)字的組合定義。然而,本文所涉及的學(xué)生狀態(tài)數(shù)據(jù)中包含大量的中文字符數(shù)據(jù),而原生的PSL模型無法處理這些數(shù)據(jù)。因此,本文將為PSL模型開發(fā)編碼模塊和解碼模塊以解決以上問題。編碼模塊的編碼原理:依據(jù)輸入數(shù)據(jù)所包含的實(shí)體和關(guān)系關(guān)鍵詞數(shù)量,編碼模塊將對(duì)它們以自然數(shù)序號(hào)編號(hào)作為其編碼,模型的運(yùn)行過程將以編碼執(zhí)行內(nèi)部運(yùn)行過程,運(yùn)行完成后,編碼模塊將對(duì)輸出的運(yùn)算結(jié)果及挖掘得到的規(guī)則進(jìn)行解碼輸出。
(4)規(guī)則優(yōu)化
AMIE+挖掘得到的規(guī)則在質(zhì)量上存在差異,一種比較普遍的方法是對(duì)挖掘得到的規(guī)則的權(quán)重設(shè)置閾值以篩選更有效的規(guī)則,但是在實(shí)際篩選過程中,由于訓(xùn)練數(shù)據(jù)對(duì)規(guī)則的支持程度不一,所以出現(xiàn)規(guī)則權(quán)重值不高但實(shí)際規(guī)則有效的可能性很大,例如研究人員在測(cè)試中得到如下3條規(guī)則:
0.6:輔導(dǎo)員(B,A)?管理學(xué)生(A,B)
0.7:管理實(shí)驗(yàn)室(E,A)amp;amp; 實(shí)驗(yàn)室成員(A,B)?指導(dǎo)學(xué)生成員(E,B)
0.8:指導(dǎo)學(xué)生成員(E,B)?輔導(dǎo)員(E,B)
根據(jù)高校管理常識(shí)可知,B是A的輔導(dǎo)員,那么A是B的所轄學(xué)生,因此第1條規(guī)則是正確的;同樣,如果老師E管理實(shí)驗(yàn)室A,同時(shí)實(shí)驗(yàn)室A包含學(xué)生B,那么就能推斷老師E大概率會(huì)指導(dǎo)學(xué)生B,這正好契合第2條規(guī)則;針對(duì)第3條規(guī)則表現(xiàn)的情況,不難看出它不一定能成立,因?yàn)楫?dāng)知道老師E指導(dǎo)學(xué)生B時(shí),老師E除了有可能是學(xué)生的輔導(dǎo)員,他還可能是科任老師、實(shí)驗(yàn)室老師等,因此需要更優(yōu)秀的規(guī)則篩選方案,本文最終采用最大似然估計(jì)法(Maximum Likelihood Estimation,MLE)[3]基于訓(xùn)練數(shù)據(jù)對(duì)規(guī)則權(quán)重進(jìn)行調(diào)整。
2 實(shí)驗(yàn)論證(Experimental verification)
2.1 數(shù)據(jù)
2.1.1 數(shù)據(jù)特征
本文研究的是學(xué)生狀態(tài)知識(shí)圖譜數(shù)據(jù),它們以RDF三元組形式存在。如圖3所示,每一行是(a,r,b)格式的已知事實(shí)數(shù)據(jù),a、b稱為主體(如人物、地點(diǎn)等),r是a、b之間的關(guān)系(如朋友、所屬班級(jí)、愛好等)。在本文的研究中,對(duì)應(yīng)謂詞數(shù)據(jù)格式即r(a,b),例如“加入實(shí)驗(yàn)室(羅蘭,實(shí)驗(yàn)室A)”表示羅蘭同學(xué)已經(jīng)加入實(shí)驗(yàn)室A。
2.1.2 數(shù)據(jù)描述
(1)數(shù)據(jù)集1
數(shù)據(jù)集1是一個(gè)小范圍學(xué)生日常狀態(tài)數(shù)據(jù)集合,其中包含了13種關(guān)系的707條RDF三元組數(shù)據(jù),數(shù)據(jù)間關(guān)系較為密集。
(2)數(shù)據(jù)集2
數(shù)據(jù)集2采集自某高校的真實(shí)學(xué)生的日常狀態(tài)數(shù)據(jù),其中包含42種關(guān)系的117 640條RDF三元組數(shù)據(jù),數(shù)據(jù)關(guān)系較為稀疏。
數(shù)據(jù)集1和數(shù)據(jù)集2包含的關(guān)鍵關(guān)系如表 1所示。
2.2 評(píng)估方法
評(píng)估學(xué)生狀態(tài)知識(shí)圖譜數(shù)據(jù)推理得到的新知識(shí)的準(zhǔn)確性具有較大的挑戰(zhàn)性,因?yàn)榧词故穷A(yù)先分割的大規(guī)模驗(yàn)證數(shù)據(jù),也很難包含足夠多的推理結(jié)果的真實(shí)數(shù)據(jù)。因此,目前除了人工識(shí)別方法,能準(zhǔn)確辨別推理結(jié)果是否正確的方法幾乎沒有,但是采用人工方式識(shí)別大規(guī)模推理結(jié)果數(shù)據(jù),人力成本巨大且難以實(shí)施。本文研究暫時(shí)只能選擇由人工分析部分?jǐn)?shù)據(jù),同時(shí)選擇AuROC(曲線下面積)、F1(綜合評(píng)價(jià)指標(biāo))、Precision(準(zhǔn)確率)等標(biāo)準(zhǔn)[5]對(duì)多層次推理結(jié)構(gòu)和非層次推理結(jié)構(gòu)進(jìn)行對(duì)比。
2.3 實(shí)驗(yàn)設(shè)置
AMIE+在規(guī)則挖掘時(shí)的參數(shù)設(shè)置見表2:minHC 表示最小頭部覆蓋率;maxLen 表示規(guī)則長(zhǎng)度閾值,即規(guī)則可包含的最大謂詞數(shù);minConf 表示模型需要遵守的最小PCA置信度;minInitialSup 表示規(guī)則頭支持度,即要求訓(xùn)練數(shù)據(jù)中需要契合規(guī)則頭的最小數(shù)據(jù)數(shù)量。
由于AMIE+在挖掘較長(zhǎng)規(guī)則時(shí)所需時(shí)間成本會(huì)呈指數(shù)級(jí)增長(zhǎng),因此本文選擇只挖掘規(guī)則長(zhǎng)度小于等于3的規(guī)則。如表3所示,在將最大規(guī)則長(zhǎng)度閾值設(shè)置為4時(shí),在數(shù)據(jù)集1上耗時(shí)近30 min;當(dāng)設(shè)置最大規(guī)則長(zhǎng)度閾值為5時(shí),規(guī)則挖掘模型已經(jīng)難以在短時(shí)間內(nèi)得到規(guī)則輸出。需要強(qiáng)調(diào)的是,以上僅分析了規(guī)則挖掘模型的時(shí)間成本,加上優(yōu)化和推理的過程,整個(gè)系統(tǒng)的耗時(shí)不可估量。此外,長(zhǎng)規(guī)則可以通過多次應(yīng)用長(zhǎng)度為3的短規(guī)則進(jìn)行推理,進(jìn)而實(shí)現(xiàn)相似效果。
2.4 實(shí)驗(yàn)結(jié)果
2.4.1 規(guī)則挖掘結(jié)果
在實(shí)驗(yàn)中,規(guī)則挖掘模塊某次迭代從數(shù)據(jù)集2挖掘得到295條規(guī)則。其中,絕大部分規(guī)則可以通過簡(jiǎn)單分析被研究人員理解,它們也與真實(shí)世界中的知識(shí)規(guī)律相吻合,例如如下列舉的4條規(guī)則:
0.51:班級(jí)學(xué)習(xí)委員(E,A)amp;amp; 班級(jí)班導(dǎo)師(E,B)amp;amp;(A! =B)?學(xué)生班導(dǎo)師(A,B)
0.77:(貧困入庫(kù)(B,F(xiàn))amp;amp; 貧困學(xué)生入庫(kù)(A,F(xiàn)))amp;amp;(A! =B)?貧困等級(jí)(A,B)
0.78:關(guān)注策略(F,B)amp;amp;心理潛在風(fēng)險(xiǎn)(A,F(xiàn))amp;amp;(A! =B)?關(guān)注方式(A,B)
0.82:(所屬班級(jí)(B,F(xiàn))amp;amp; 班級(jí)成員(F,A))amp;amp;(A! =B)?認(rèn)識(shí)(A,B)
表4展示了規(guī)則PCA 置信度排名前n 位的平均值,因PCA置信度在一定程度上顯示了規(guī)則的精確度[6],所以可以推斷,對(duì)于每種要推理的目標(biāo)關(guān)系,到達(dá)某一個(gè)臨界點(diǎn)后,隨著更多的低權(quán)重規(guī)則被推理過程使用,推理質(zhì)量反而會(huì)下降,因此規(guī)則優(yōu)化是必要的。
圖4是在數(shù)據(jù)集1上進(jìn)行規(guī)則優(yōu)化前、后的結(jié)果,從圖4可以看到,優(yōu)化后的規(guī)則數(shù)量大幅減少,其實(shí)質(zhì)作用是保證實(shí)驗(yàn)在F1值最大的情況下,用更少的規(guī)則保證系統(tǒng)的推理效率。
通過規(guī)則挖掘,模型輸出了一些易于理解的高質(zhì)量規(guī)則,如下:
0.97:(高中校友(E,A)amp;amp; 高中校友(E,B))?高中校友(A,B)
0.89:(實(shí)驗(yàn)室學(xué)生成員(F,A)amp;amp; 所屬實(shí)驗(yàn)室(B,F(xiàn)))?認(rèn)識(shí)(A,B)
0.93:(關(guān)注策略(F,B)amp;amp; 自殺風(fēng)險(xiǎn)(A,F(xiàn)))?關(guān)注方式(A,B)
0.98:(勤工助學(xué)崗位(B,A))?崗位成員(A,B)
從以上可以看到,這些規(guī)則表達(dá)的意思顯而易見且符合人類認(rèn)知,而且它們擁有較高的權(quán)重,這也意味著它們將在推理中起到非常重要的作用。
2.4.2 編碼機(jī)制導(dǎo)致的效率區(qū)別
對(duì)PSL開發(fā)編碼模塊后,通過對(duì)表5所示的各類字符定義謂詞進(jìn)行測(cè)試,PSL均能正常運(yùn)行,說明編碼能讓PSL具備處理各類字符串的能力。此外,編碼機(jī)制可以將PSL推理過程中的字符串計(jì)算轉(zhuǎn)化為數(shù)值計(jì)算,研究人員統(tǒng)計(jì)了PSL在數(shù)據(jù)集1上進(jìn)行的10次推理實(shí)驗(yàn)的運(yùn)行時(shí)間,如圖5所示,編碼后使用數(shù)值運(yùn)算方式的推理效率高于字符串運(yùn)算方式的推理效率。
2.4.3 學(xué)生狀態(tài)數(shù)據(jù)推理結(jié)果
在對(duì)推理結(jié)果數(shù)據(jù)進(jìn)行可視化之后,研究人員觀察到許多類似圖6中展示的相對(duì)準(zhǔn)確的推理結(jié)果,它們?cè)谡鎸?shí)世界中對(duì)應(yīng)的知識(shí)為高中校友的高中校友也是高中校友;如果兩個(gè)同學(xué)在同一實(shí)驗(yàn)室,那么他們大概率互相認(rèn)識(shí);如果某同學(xué)自殺風(fēng)險(xiǎn)較高,那么依據(jù)學(xué)校規(guī)則他應(yīng)該被重點(diǎn)關(guān)注;如果某課程招募了某助教同學(xué),那么該同學(xué)一定在做勤工助學(xué)……
如圖7所示,推理結(jié)果也顯示出一些無法驗(yàn)證但非常有意義的數(shù)據(jù):兩個(gè)同學(xué)互相認(rèn)識(shí),那么他們有一定的可能性在同一實(shí)驗(yàn)室或者同一組織中。這類情況在實(shí)際環(huán)境中存在極大的可能性。
通過推理,獲得了數(shù)據(jù)集1和數(shù)據(jù)集2的實(shí)驗(yàn)結(jié)果,分別如圖8和表6所示。從中可以看到,在數(shù)據(jù)集1中,絕大部分關(guān)系的推理結(jié)果均具有較高的F1值,數(shù)據(jù)集2相較數(shù)據(jù)集1,整體F1值要低一些,這是由于數(shù)據(jù)集1上的關(guān)系更加密集且范圍更小,推理結(jié)果更容易被驗(yàn)證,而數(shù)據(jù)集2上的數(shù)據(jù)量大且稀疏,很多推理得到的結(jié)果難以被已知事實(shí)驗(yàn)證,但是研究人員不能判斷這些推理結(jié)果不正確,同時(shí)通過兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果都可以看到,多層次推理結(jié)構(gòu)優(yōu)于非層次推理結(jié)構(gòu),這也說明多層次推理結(jié)構(gòu)對(duì)于推理質(zhì)量的影響是正向的。此外,對(duì)于高校的學(xué)生管理工作來說,對(duì)“關(guān)注方式”“關(guān)注策略”“心理潛在風(fēng)險(xiǎn)”“愛好”“貧困等級(jí)”“自殺風(fēng)險(xiǎn)”等狀態(tài)關(guān)系的正確推理和預(yù)測(cè),都可為高校學(xué)生管理提供有價(jià)值的參考[7-8]。
3 結(jié)論(Conclusion)
高校學(xué)生狀態(tài)數(shù)據(jù)高度復(fù)雜的關(guān)聯(lián)關(guān)系讓手動(dòng)構(gòu)建PSL推理規(guī)則異常困難,同時(shí)從時(shí)間成本、人力成本和經(jīng)濟(jì)成本方面考慮,通過知識(shí)手動(dòng)構(gòu)建規(guī)則具有較大的挑戰(zhàn)性,本文提出了一種改進(jìn)概率軟邏輯模型的自動(dòng)化挖掘規(guī)則和推理的方法,通過引入AMIE+,使PSL在高校學(xué)生狀態(tài)知識(shí)圖譜(非完整知識(shí)庫(kù)數(shù)據(jù))上擁有了挖掘關(guān)聯(lián)規(guī)則的能力。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,改進(jìn)的PSL模型應(yīng)用于高校學(xué)生狀態(tài)數(shù)據(jù)推理領(lǐng)域是可行的,同時(shí)改進(jìn)的多層次推理結(jié)構(gòu)PSL模型在推理性能方面優(yōu)于非層次結(jié)構(gòu)模型。此外,本文研究還開發(fā)了PSL模型的編碼模塊,它不僅讓PSL具備了處理各種字符的能力,也使編碼后的PSL在以數(shù)值計(jì)算方式運(yùn)行下的效率有了進(jìn)一步提升。
作者簡(jiǎn)介:
張嘉(1992-),男,碩士,助教。研究領(lǐng)域:機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,知識(shí)推理。
王志星(1992-),男,碩士,講師。研究領(lǐng)域:數(shù)據(jù)挖掘,思想政治教育。
王 嬌(1988-),女,碩士,講師。研究領(lǐng)域:管理學(xué),思想政治教育。