亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        規(guī)則半自動(dòng)學(xué)習(xí)的概率軟邏輯推理模型

        2018-12-14 05:31:20趙旭劍楊春明
        計(jì)算機(jī)應(yīng)用 2018年11期
        關(guān)鍵詞:邏輯概率定義

        張 嘉,張 暉,趙旭劍,楊春明,李 波,3

        (1.西南科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽(yáng) 621010; 2.西南科技大學(xué) 理學(xué)院,四川 綿陽(yáng) 621010;3.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027)(*通信作者電子郵箱zhanghui@swust.edu.cn)

        0 引言

        2013年,美國(guó)馬里蘭大學(xué)的Kimmig等[1]提出了概率軟邏輯模型(Probabilistic Soft Logic, PSL)。與馬爾可夫邏輯網(wǎng)(Markov Logic Network, MLN)及其他統(tǒng)計(jì)關(guān)系學(xué)習(xí)方法類似,PSL也使用加權(quán)的一階邏輯規(guī)則對(duì)問(wèn)題中的依賴性進(jìn)行建模。但是和MLN不同的是,PSL表示的邏輯關(guān)系是用概率的形式在區(qū)間[0,1]中使用軟真值,而不是用布爾值0或1來(lái)代表域中的原子,這使得PSL的推理成為連續(xù)的優(yōu)化問(wèn)題[2]。此外,作為一種基于聲明式規(guī)則的概率模型,PSL在解決新的領(lǐng)域問(wèn)題時(shí),可靈活添加有益的先驗(yàn)領(lǐng)域知識(shí)作為規(guī)則輸入,并且其聲明式規(guī)則對(duì)于機(jī)器和人都是可以理解的,模型構(gòu)建后更易于人為處理。

        然而,PSL面臨的一個(gè)巨大挑戰(zhàn)是所需的聲明式規(guī)則完全由人工生成,這種規(guī)則構(gòu)建方式往往非常昂貴,而且人工獲取的知識(shí)由于每個(gè)人對(duì)事物認(rèn)知的偏差以及問(wèn)題本身的多變性,這些知識(shí)難免會(huì)包含不正確的信息,這些不正確的信息可能會(huì)增大推理模型的不確定性。

        本文引入規(guī)則自動(dòng)提取的方法,提出一種規(guī)則半自動(dòng)學(xué)習(xí)的概率軟邏輯推理模型(C5.0-Probabilistic Soft Logic, C-PSL),它將數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)的方法相結(jié)合,利用C5.0算法從數(shù)據(jù)中提取規(guī)則,再將這些規(guī)則轉(zhuǎn)化為適應(yīng)概率軟邏輯模型的形式,同時(shí)輔以決策樹(shù)等算法將無(wú)法使用的人為常識(shí)或知識(shí)作為概率軟邏輯模型的輸入進(jìn)行建模。通過(guò)在兩個(gè)真實(shí)數(shù)據(jù)上評(píng)估本文提出的模型,結(jié)果表明,所提模型比沒(méi)有規(guī)則學(xué)習(xí)的PSL和C5.0算法能獲得更高的精度。

        本文的主要工作為:1)提出了一種PSL規(guī)則自動(dòng)挖掘方法,它可以大幅減少人工工作,同時(shí)提高了規(guī)則建立的科學(xué)性;2)通過(guò)手工定義規(guī)則來(lái)優(yōu)化模型,讓模型具有處理關(guān)系數(shù)據(jù)的能力,而這種能力是決策樹(shù)和大多數(shù)其他機(jī)器學(xué)習(xí)算法所不具備的。

        1 建立規(guī)則半自動(dòng)學(xué)習(xí)的概率軟邏輯模型

        1.1 概率軟邏輯相關(guān)研究

        近幾年,概率軟邏輯(PSL)已經(jīng)被廣泛應(yīng)用于情感分類、實(shí)體識(shí)別、知識(shí)圖譜構(gòu)建、鏈路預(yù)測(cè)和圖像處理等諸多問(wèn)題[1]上。

        Tomkins等[3]基于時(shí)序數(shù)據(jù)手工定義了多種屬性,將PSL應(yīng)用于家用電器的能源消耗分解上,獲得了不錯(cuò)的效果,為降低能耗和資源浪費(fèi)找到了可行的入手點(diǎn),該方法能輕易合并各種信息,但其準(zhǔn)確性需要大量的手工整合知識(shí)作為支撐,這使得該方法很難移植到其他問(wèn)題上; Huang等[4]將PSL用于建立社會(huì)信任模型,通過(guò)定義大量規(guī)則對(duì)社會(huì)影響的傳播建模,驗(yàn)證了人們?cè)谏顔?wèn)題上比起相信同事更相信家人,在工作問(wèn)題上更相信同事給出的職業(yè)建議的直覺(jué),該方法使用無(wú)監(jiān)督和聚類方法進(jìn)行建模,然而其模型并非都是PSL規(guī)則輸入; 在圖像修復(fù)問(wèn)題中,LINQS團(tuán)隊(duì)基于Poon等[5]的工作,使用PSL對(duì)圖像進(jìn)行像素級(jí)的修復(fù),表現(xiàn)出比和積網(wǎng)絡(luò)(Sum-Product Network, SPN)更快的速度,然而在他們建立的模型中,PSL規(guī)則數(shù)量多達(dá)數(shù)萬(wàn)條,需要耗費(fèi)難以估量的人工成本; Fakhraei等[6]通過(guò)藥物相似性特征使用PSL構(gòu)建模型,預(yù)測(cè)藥物之間的相互作用,然而方法中基于經(jīng)驗(yàn)所構(gòu)建的規(guī)則的實(shí)用性很難被驗(yàn)證; Pujara[7]通過(guò)知識(shí)圖中的關(guān)系特征使用PSL構(gòu)建了實(shí)體識(shí)別的通用模型,然而對(duì)于大規(guī)模數(shù)據(jù)來(lái)說(shuō)關(guān)系特征主導(dǎo)的規(guī)則很難被全面定義。

        由以上描述可以看出,PSL具有強(qiáng)大的適應(yīng)性,其研究和應(yīng)用已經(jīng)橫跨多個(gè)領(lǐng)域,然而到目前為止,PSL的相關(guān)工作幾乎都是基于人工去定義每條規(guī)則,其工作量將隨著問(wèn)題的復(fù)雜性增大而變得不可估計(jì)。本文方法試圖解決上述問(wèn)題,和上述方法一樣,本文依然使用PSL作為建?;A(chǔ),以保留推理的靈活性和穩(wěn)定性;不同的是,本文的大部分規(guī)則由C5.0算法學(xué)習(xí)生成,以減少人工工作量。

        1.2 概率軟邏輯

        1.2.1 PSL語(yǔ)法

        PSL中的規(guī)則組成如下:

        P1(X,Y)∧P2(Y,Z) >>P2(X,Z):weight

        (1)

        其中:P1和P2被稱為謂詞,用于定義隨機(jī)變量X、Y和Z之間的關(guān)系;weight表示權(quán)重,代表每條規(guī)則在推理中的重要程度[2]。例如,在本文中,Semester(ID,SE2)表示要判斷的數(shù)據(jù)為編號(hào)為ID的學(xué)生在SE2這一學(xué)期的成績(jī),GoodScore(ID,SE1) 表示該學(xué)生在SE1這一學(xué)期成績(jī)合格,那么,根據(jù)Semester和GoodScore兩個(gè)謂詞的組合可以將該學(xué)生在SE2這一學(xué)期成績(jī)合格的概率表示出來(lái)。

        1.2.2 PSL理論基礎(chǔ)

        PSL中閉原子概率取值為[0,1]內(nèi)連續(xù)的軟真值,表示為I(a),邏輯規(guī)則r成立的概率記為I(r),通常使用盧卡西維茲(Lukasiewicz)邏輯來(lái)計(jì)算I(r),Lukasiewicz邏輯可以表達(dá)為式(2)~(4):

        I(l1∧l2)=max{I(l1)+I(l2)-1,0}

        (2)

        I(l1∨l2)=min{I(l1)+I(l2),1}

        (3)

        I(l2)=1-I(l1)

        (4)

        PSL中一條規(guī)則r可以被描述為rbody→rhead,當(dāng)I(rbody) ≤I(rhead),即I(r)=1時(shí),這條規(guī)則被滿足;否則,通過(guò)計(jì)算距離滿意度d(r)的方式來(lái)衡量邏輯規(guī)則被滿足的程度,d(r)計(jì)算方式如式(5):

        d(r)=max{0,I(rbody)-I(rhead)}

        (5)

        例如,有一個(gè)集合I= {friends(a,b)→1, like_eat(a,c)→ 0.9, like_eat(b,c)→0.3},可以計(jì)算出邏輯規(guī)則friends(a,b)∧like_eat(a,c)→like_eat(b,c)的距離滿意度:

        I(friends(a,b)∧like_eat(a,c))=

        max{0, 1+0.9-1} = 0.9

        d(r)=max{0,0.9-0.3} = 0.6

        使用d(r),PSL定義了概率分布對(duì)所有閉原子的解釋概率值:

        (6)

        式(6)中:Z是歸一化常數(shù),λr是規(guī)則r的權(quán)重,R表示所有規(guī)則的集合,p為損失函數(shù),PSL將尋求具有最小滿意距離d(r)的解釋,并盡可能地使其滿足所有規(guī)則。

        1.3 規(guī)則半自動(dòng)學(xué)習(xí)的PSL模型

        在機(jī)器學(xué)習(xí)中,規(guī)則學(xué)習(xí)(rule learning)是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出一組能用于對(duì)未知結(jié)果數(shù)據(jù)進(jìn)行推理判定的規(guī)則。得到的規(guī)則通??蓪懗伞叭绻?那么”的形式。

        在眾多能進(jìn)行規(guī)則學(xué)習(xí)的算法中,決策樹(shù)算法提取的規(guī)則具有易于理解、能直觀解釋等特性,而其中又以C5.0算法為最優(yōu)[4],因此本文使用決策樹(shù)C5.0建模規(guī)則挖掘模塊。除規(guī)則挖掘模塊之外,規(guī)則半自動(dòng)學(xué)習(xí)的概率軟邏輯模型還包含規(guī)則優(yōu)化、手工規(guī)則定義等模塊,模型構(gòu)建結(jié)構(gòu)如圖1所示,模型通過(guò)C5.0算法對(duì)輸入的訓(xùn)練數(shù)據(jù)進(jìn)行規(guī)則提取,學(xué)習(xí)得到的規(guī)則在規(guī)則優(yōu)化模塊進(jìn)行優(yōu)化和格式轉(zhuǎn)換,PSL將學(xué)習(xí)得到的規(guī)則和手工規(guī)則整合組成最終的推理模型。接下來(lái),將詳細(xì)介紹如下幾個(gè)模塊的構(gòu)建方式:

        規(guī)則提取 運(yùn)用C5.0算法,通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行規(guī)則學(xué)習(xí);

        規(guī)則優(yōu)化 討論規(guī)則優(yōu)化策略,改善模型質(zhì)量;

        人工規(guī)則 手動(dòng)方法生成規(guī)則,輔助優(yōu)化模型;

        推理模型 權(quán)重學(xué)習(xí)與推理。

        1.3.1 規(guī)則提取

        C5.0算法是C4.5算法的改進(jìn)版本,處理數(shù)據(jù)時(shí)可采用Boosting方式獲得更高的準(zhǔn)確率,C5.0算法在面對(duì)輸入字段較多和數(shù)據(jù)遺漏情況時(shí)非常穩(wěn)健,運(yùn)行中占用的內(nèi)存資源也較少。

        圖1 規(guī)則半自動(dòng)學(xué)習(xí)的概率軟邏輯推理模型

        1.3.2 規(guī)則優(yōu)化

        1) Boosting選擇。

        使用Boosting在多數(shù)情況可使C5.0算法分類效果更加優(yōu)異,然而,Boosting所帶來(lái)的一個(gè)弊端是模型產(chǎn)生的規(guī)則數(shù)量過(guò)于龐大,基于本文所使用數(shù)據(jù),對(duì)使用Boosting和不使用Boosting的情況進(jìn)行了實(shí)驗(yàn)討論,結(jié)果將在第2章展示。

        2) 同類規(guī)則合并。

        通過(guò)規(guī)則挖掘模塊提取出的眾多規(guī)則中,有很大一部分規(guī)則具有由相同屬性組成的結(jié)構(gòu),如表1所示,三條規(guī)則都包含Librarynum、Classroom、Semester、Booknum四個(gè)屬性。

        表1 學(xué)習(xí)得到的規(guī)則中同屬性規(guī)則示例

        在PSL模型中,運(yùn)算量會(huì)隨著規(guī)則數(shù)的增多而變大,對(duì)于這一類同屬性規(guī)則,本文可以將其定義為PSL的ExternalFunction函數(shù),并和謂詞進(jìn)行組合,從而轉(zhuǎn)化為一條PSL規(guī)則作為模型輸入:

        Librarynum(ID,SE,LI)∧Classroom(ID,SE,CL)∧

        Semester(ID,SE) ∧ Booknum(ID,SE,BO) ∧

        Lunction(LI,CL,SE,BO) ? GoodScore(ID,SE)

        1.3.3 手動(dòng)規(guī)則

        人類認(rèn)知的知識(shí)對(duì)于事物的判斷起著至關(guān)重要的作用,機(jī)器學(xué)習(xí)算法在很大程度上依然無(wú)法完整模擬人類的推理和決策過(guò)程。本節(jié)將闡述根據(jù)人類知識(shí)手動(dòng)建立規(guī)則的過(guò)程,所有的舉例規(guī)則均已用在實(shí)驗(yàn)中。

        1) 關(guān)聯(lián)規(guī)則。

        對(duì)于大多數(shù)機(jī)器學(xué)習(xí)算法,通過(guò)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系進(jìn)行推理是很難實(shí)施的,而對(duì)于PSL來(lái)說(shuō)卻容易得多。

        ①直接關(guān)聯(lián)。

        問(wèn)題舉例1 已知A同學(xué)在1、2、3三個(gè)學(xué)期的大量屬性,推斷A同學(xué)在2、3學(xué)期的成績(jī)狀況。

        通過(guò)1.3.1節(jié)得到的規(guī)則模型可以根據(jù)學(xué)生屬性推斷A學(xué)生的成績(jī)狀況,但是推斷結(jié)果彼此無(wú)關(guān),一般的,我們認(rèn)為:如果已經(jīng)推斷出A同學(xué)在第1或2學(xué)期成績(jī)合格,那么有很大可能A同學(xué)在第三學(xué)期成績(jī)也合格。但是可惜的是,此時(shí)規(guī)則學(xué)習(xí)模型得到的規(guī)則無(wú)法推斷到這一步,所以需要人為引入這條規(guī)則:

        Semester(ID,SE1) ∧Semester(ID,SE2) ∧

        資源優(yōu)化 我國(guó)高校以院系為單位,一個(gè)學(xué)院一般設(shè)置幾個(gè)不同專業(yè),因此,學(xué)院就需要建設(shè)幾個(gè)相應(yīng)的專業(yè)實(shí)驗(yàn)室。與基礎(chǔ)實(shí)驗(yàn)室相比,專業(yè)實(shí)驗(yàn)室定位更為精準(zhǔn),課程安排嚴(yán)格按照理論課的進(jìn)度,但是這也局限了專業(yè)實(shí)驗(yàn)室的使用率,資源不能被充分利用,在學(xué)院內(nèi)部較難實(shí)現(xiàn)資源共享。專業(yè)實(shí)驗(yàn)室因其特殊性,一方面需要很多儀器滿足實(shí)驗(yàn)教學(xué);另一方面面向?qū)W生較少,儀器利用率并不高,甚至導(dǎo)致一些儀器被閑置,造成資源浪費(fèi)[7]。另外,不同專業(yè)實(shí)驗(yàn)室中不可避免會(huì)有設(shè)備重復(fù)的情況,尤其是一些大型貴重儀器,重復(fù)性高也是一種資源浪費(fèi)。鼓勵(lì)專業(yè)實(shí)驗(yàn)室開(kāi)放,即是避免資源浪費(fèi),以進(jìn)一步提升資源共享。

        GoodScore(ID,SE1) ? GoodScore(ID,SE2)

        其中:ID表示學(xué)生編號(hào),SE1、SE2表示學(xué)期,GoodScore(ID,SE1)表示學(xué)生在SE1這一學(xué)期成績(jī)合格,GoodScore(ID,SE2)即為該學(xué)生成績(jī)合格的概率輸出。

        ②隱性關(guān)聯(lián)。

        問(wèn)題舉例2 已知A同學(xué)成績(jī)優(yōu)異,某學(xué)期A同學(xué)的圖書館借書類型為(G G G G H H I I O O O TP TP TP TP),B同學(xué)在圖書館的借書類型為(H I I I I O O TM TN TP TP TP),能否一定程度上推斷本學(xué)期B同學(xué)的成績(jī)合格情況。

        通過(guò)觀察發(fā)現(xiàn)A、B兩同學(xué)看書的類型有很大程度上的相似性,通常人們認(rèn)為兩個(gè)人的看書(接受的知識(shí))類型一致可能會(huì)導(dǎo)致成績(jī)水平也趨于一致,因此可以把兩個(gè)學(xué)生看書類型的相似度作為成績(jī)關(guān)聯(lián)的隱性屬性。本文通過(guò)計(jì)算余弦相似度來(lái)評(píng)判兩學(xué)生看書類型的相似度。

        兩同學(xué)看書類型的詞頻向量為:

        A、B向量夾角的余弦可以表示為:

        (7)

        得到A、B的余弦值cosθ= 0.707 106 781 186 547 6即為兩同學(xué)看書類型的相似度。表示為PSL規(guī)則為:

        Booktype(ID1,SE,BOTY1)∧Booktype(ID2,SE,BOTY2)∧

        Similarity(BOTY1,BOTY2)∧GoodScore(ID1,SE) ∧

        (ID1-ID2)) ? GoodScore(ID2,SE)

        其中:Similarity(BOTY1,BOTY2)為余弦相似度計(jì)算函數(shù),(ID1-ID2)表示兩個(gè)學(xué)生不是同一個(gè)人。類似的,還可以對(duì)學(xué)生數(shù)據(jù)中其他屬性進(jìn)行相似度計(jì)算。

        2) 簡(jiǎn)單知識(shí)規(guī)則。

        在已有規(guī)則基礎(chǔ)上,本文還可以再增加一些簡(jiǎn)單的常識(shí)。如:

        課余學(xué)習(xí)時(shí)間越長(zhǎng),學(xué)生成績(jī)可能越好:

        STUDYTIME(S,St) ∧ STUDYTIMEJUDGE(St) ?

        GoodScore(S)

        談戀愛(ài)可能會(huì)影響學(xué)習(xí):

        ROMANTIC(S,Ro) ∧ ROMANTICJUDGE(Ro) ?

        家庭關(guān)系越好越可能學(xué)習(xí)好:

        FAMREL(S,Fa) ∧ FAMRELJUDGE(Fa) ?

        GoodScore(S)

        缺課次數(shù)越多越可能成績(jī)差:

        ABSENCES(S,Ab) ∧ ABSENCESJUDGE(Ab) ?

        經(jīng)常上網(wǎng)可能影響學(xué)習(xí):

        INTERNET(S,In) ∧ INTERNETJUDGE(In) ?

        GoodScore(S)

        這類規(guī)則對(duì)推理結(jié)果沒(méi)有決定性影響,但卻能讓推理結(jié)果的表達(dá)形式變得更加符合常理,例如:在不添加這些規(guī)則的情況下,推斷某同學(xué)S成績(jī)合格的概率可能為GoodScore(S)=0,這很難理解,在添加規(guī)則后GoodScore(S)=0.235,雖然該同學(xué)依然被分到成績(jī)不合格類,但卻擁有了一個(gè)成績(jī)合格的概率,這更符合人類正常的思維方式。

        1.3.4 規(guī)則優(yōu)化

        1) 推理。

        PSL模型提供了最大概率推理(Most Probable Explanation,MPE)[2]和邊際概率推理兩種方法,前者是通過(guò)數(shù)據(jù)推斷邏輯規(guī)則包含原子的最可能概率值,后者是計(jì)算原子的概率取值區(qū)間。本文采用MPE推理機(jī)制。由于概率取值采用[0,1]內(nèi)的連續(xù)值,使得MPE推理轉(zhuǎn)化成求最優(yōu)解的凸優(yōu)化過(guò)程。

        2) 權(quán)重學(xué)習(xí)。

        對(duì)于學(xué)習(xí)得到的規(guī)則,根據(jù)每條規(guī)則的置信度分配其在PSL內(nèi)構(gòu)建時(shí)的權(quán)重,如有X、Y、Z三條規(guī)則,它們的置信度分別為0.7、0.8、1.0,在將它們轉(zhuǎn)化成PSL規(guī)則時(shí),可以將其置信度同時(shí)擴(kuò)大多倍作為其權(quán)重。然而對(duì)于手工定義的規(guī)則,則需要進(jìn)行權(quán)重學(xué)習(xí)。

        在PSL模型權(quán)重學(xué)習(xí)時(shí)本文使用最大似然估計(jì)法[3],應(yīng)用梯度函數(shù)進(jìn)行權(quán)重估計(jì):

        (8)

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        本文使用真實(shí)數(shù)據(jù)集對(duì)模型進(jìn)行評(píng)估。

        1)UCI機(jī)器學(xué)習(xí)庫(kù)所提供的兩所葡萄牙學(xué)校的中學(xué)生數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets/Student+Performance)。

        葡萄牙中學(xué)生數(shù)據(jù)集 該數(shù)據(jù)集包含葡萄牙兩所中學(xué)的1 064條學(xué)生數(shù)據(jù),數(shù)據(jù)通過(guò)學(xué)校提供和問(wèn)卷收集,屬性包括學(xué)生成績(jī)、社會(huì)家庭情況和學(xué)校表現(xiàn)等相關(guān)特征,兩個(gè)文件分別提供數(shù)學(xué)(mat)和葡萄牙語(yǔ)(por)成績(jī)。其中:屬性G1、G2和G3分別是學(xué)生三次考試成績(jī)的分?jǐn)?shù),具有很強(qiáng)的相關(guān)性,這是因?yàn)閷W(xué)生學(xué)習(xí)是一個(gè)持續(xù)積累的過(guò)程,不會(huì)在短時(shí)間內(nèi)突然變好或變壞。而該數(shù)據(jù)集的其他屬性并沒(méi)有區(qū)分是學(xué)生哪一個(gè)學(xué)期產(chǎn)生的,因此本文認(rèn)為是學(xué)生長(zhǎng)期的表現(xiàn),所以為了模型推理的科學(xué)性,數(shù)據(jù)預(yù)處理過(guò)程中,本文對(duì)學(xué)生的三次成績(jī)求平均值作為目標(biāo)屬性,再將分?jǐn)?shù)大于10分(總分20分)的學(xué)生標(biāo)記為成績(jī)合格。

        2)中國(guó)某高校學(xué)生的日常數(shù)據(jù)集(http://www.dcjingsai.com/common/cmpt/學(xué)生成績(jī)排名預(yù)測(cè)_競(jìng)賽信息.html)。

        中國(guó)高校學(xué)生數(shù)據(jù)集 該數(shù)據(jù)集包含中國(guó)某高校的某個(gè)學(xué)院學(xué)生的60多萬(wàn)條活動(dòng)記錄,其中包含這些學(xué)生在三個(gè)學(xué)期的圖書館進(jìn)出記錄、一卡通消費(fèi)記錄、圖書館借閱記錄,以及學(xué)生在每個(gè)學(xué)期成績(jī)的相對(duì)排名。數(shù)據(jù)目錄如下:

        成績(jī)信息包含學(xué)期、學(xué)號(hào),以及相對(duì)排名。

        借書信息包含學(xué)期、學(xué)號(hào)、書號(hào)、日期。

        圖書門禁信息包含學(xué)期、學(xué)號(hào)、日期、時(shí)間。

        消費(fèi)信息包含學(xué)期、學(xué)號(hào)、地點(diǎn)、日期、時(shí)間、金額。

        該數(shù)據(jù)集標(biāo)識(shí)的學(xué)生成績(jī)只有學(xué)生相對(duì)排名,在數(shù)據(jù)預(yù)處理時(shí),我們將成績(jī)排名在前200名(共538人)的學(xué)生標(biāo)記為成績(jī)合格。

        2.2 準(zhǔn)備工作

        2.2.1 評(píng)價(jià)指標(biāo)

        本文將對(duì)C5.0算法、手工定義規(guī)則的PSL,以及本文提出的C-PSL進(jìn)行10次隨機(jī)實(shí)驗(yàn),隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩下20%作為測(cè)試數(shù)據(jù),方法的準(zhǔn)確度通過(guò)式(9)、(10)、(11)和(12)所示的精確率(Precision)、正確率(Accuracy)、召回率(Recall)和F1值來(lái)度量。

        (9)

        (10)

        (11)

        (12)

        其中:TP表示判斷出成績(jī)合格的學(xué)生數(shù)量,F(xiàn)N表示成績(jī)合格的被判斷為不合格的學(xué)生數(shù)量,F(xiàn)P表示成績(jī)不合格被判斷為合格的學(xué)生數(shù)量;Precision即正確判斷的數(shù)量占識(shí)別出成績(jī)達(dá)標(biāo)學(xué)生總數(shù)的比例,Accuracy為正確判斷的數(shù)量占總數(shù)的比例,Recall為正確判斷的數(shù)量占應(yīng)識(shí)別出成績(jī)達(dá)標(biāo)學(xué)生總量的比例,F(xiàn)1為準(zhǔn)確率和召回率的調(diào)和平均數(shù)。

        表2 混淆矩陣

        2.2.2 Boosting選擇

        由表3和表4可以看出,在多次隨機(jī)實(shí)驗(yàn)中,使用Boosting所產(chǎn)生規(guī)則的數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)未使用Boosting的情況,推理的平均正確率在葡萄牙中學(xué)生數(shù)據(jù)上只相差2.67%,中國(guó)高校學(xué)生數(shù)據(jù)上使用Boosting推理正確率反而降低,其原因在于,本文模型構(gòu)建C5.0模塊的主要目的是通過(guò)C5.0算法從訓(xùn)練數(shù)據(jù)進(jìn)行Boosting迭代提取規(guī)則,而算法準(zhǔn)確率的測(cè)試過(guò)程由驗(yàn)證模塊單獨(dú)完成,這對(duì)于后續(xù)和PSL模型的比較會(huì)更加公平,由于該模型規(guī)則挖掘模塊中C5.0算法不能通過(guò)測(cè)試數(shù)據(jù)得到的推理結(jié)果進(jìn)行迭代優(yōu)化而導(dǎo)致其在中國(guó)高校學(xué)生數(shù)據(jù)上使用Boosting時(shí)推理準(zhǔn)確率反而降低。另一方面,對(duì)于本文研究,要將大量規(guī)則全部寫入PSL將耗費(fèi)更多的人工工作量和計(jì)算機(jī)資源,這違背了我們的研究初衷。因此,為了平衡規(guī)則數(shù)量,本文規(guī)則提取模塊只在葡萄牙中學(xué)生數(shù)據(jù)上使用Boosting。

        表3 是否使用Boosting的推理效果對(duì)比

        表4是否使用Boosting時(shí)產(chǎn)生的規(guī)則數(shù)對(duì)比

        Tab. 4 Comparison of number of rules generatedwhen using and not using Boosting

        2.3 實(shí)驗(yàn)結(jié)果

        本文在兩個(gè)數(shù)據(jù)集上對(duì)三種方法進(jìn)行實(shí)驗(yàn),根據(jù)模型對(duì)學(xué)生成績(jī)達(dá)標(biāo)情況的推斷能力進(jìn)行性能評(píng)估。實(shí)驗(yàn)配置如下。

        C5.0 在葡萄牙中學(xué)生數(shù)據(jù)集上使用Boosting,中國(guó)高校學(xué)生數(shù)據(jù)集上不使用Boosting,兩種情況都使用交叉驗(yàn)證,修建純度70,子分支最少記錄數(shù)7。

        PSL 完全手工定義規(guī)則,僅有的參數(shù)為每條規(guī)則的權(quán)重,并且每條規(guī)則的權(quán)重由訓(xùn)練數(shù)據(jù)訓(xùn)練得到。

        C-PSL C5.0學(xué)習(xí)的規(guī)則+手工定義規(guī)則。

        表5和表6分別是C5.0、C-PSL和PSL在兩組數(shù)據(jù)集上測(cè)試的F1值和Accuracy值對(duì)比,葡萄牙中學(xué)生數(shù)據(jù)集不包含學(xué)期屬性,因此關(guān)于學(xué)期成績(jī)的前后關(guān)聯(lián)規(guī)則沒(méi)能在該數(shù)據(jù)集上被手動(dòng)構(gòu)建,結(jié)果表明,在葡萄牙中學(xué)生數(shù)據(jù)上C-PSL的推理性能優(yōu)于C5.0和PSL;對(duì)于中國(guó)高校學(xué)生數(shù)據(jù)集,規(guī)則全部被構(gòu)建,可以看出,C-PSL推理的正確率和F1值依然優(yōu)于C5.0,而表6中之所以C-PSL和PSL的推理正確率相當(dāng),是因?yàn)榇藭r(shí)C-PSL和PSL的規(guī)則有很大一部分是人為定義,而這部分重合的規(guī)則起到了顯著作用,這同時(shí)也說(shuō)明了C-PSL是延續(xù)了PSL的優(yōu)秀推理能力;從兩組數(shù)據(jù)實(shí)驗(yàn)得到的F1值和Accuracy值的對(duì)比表明,C-PSL在學(xué)生成績(jī)預(yù)測(cè)問(wèn)題上可行且推理性能較優(yōu)。

        表5 三種方法在兩個(gè)數(shù)據(jù)集中的F1值對(duì)比 %

        表6 三種方法在在兩個(gè)數(shù)據(jù)集中的正確率對(duì)比 %

        2.4 補(bǔ)充實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證本文模型的性能,本文將C-PSL和支持向量機(jī) (Support Vector Machines, SVM)[8]、邏輯回歸(Logistic Regression, LR)[9]、貝葉斯網(wǎng)絡(luò)(Bayesian Network, BN)[10]、K-最近鄰(K-Nearest Neighbors,KNN)[11]等算法進(jìn)行10次隨機(jī)對(duì)比實(shí)驗(yàn),結(jié)果如圖2所示。

        由圖2可以看出,在葡萄牙中學(xué)生數(shù)據(jù),SVM表現(xiàn)優(yōu)秀,然而SVM的分類過(guò)程卻很難人為理解,雖然C-PSL推理正確率次于SVM,但是由于C-PSL使用一階邏輯規(guī)則表達(dá)推理,其過(guò)程的可讀性是SVM無(wú)法比擬的;在中國(guó)高校學(xué)生數(shù)據(jù)上,C-PSL性能遠(yuǎn)超過(guò)其他算法,其原因在于,該數(shù)據(jù)中包含大量具有關(guān)聯(lián)關(guān)系的數(shù)據(jù),在使用C-PSL進(jìn)行推理時(shí)加入了眾多手工定義的關(guān)聯(lián)規(guī)則,而這些關(guān)聯(lián)關(guān)系,卻幾乎不能用SVM等算法進(jìn)行構(gòu)建,這正是C-PSL手工定義規(guī)則的優(yōu)勢(shì)所在。

        2.5 C-PSL穩(wěn)定性

        本文所提出C-PSL模型基于PSL、C-PSL應(yīng)該也應(yīng)繼承PSL的推理穩(wěn)定性,下面的實(shí)驗(yàn)結(jié)果證實(shí)了這一點(diǎn)。表7顯示了C5.0、C-PSL和PSL在兩數(shù)據(jù)集(其中1為葡萄牙中學(xué)生數(shù)據(jù),2為中國(guó)高校學(xué)生數(shù)據(jù))上各10次實(shí)驗(yàn)的F1值和Accuracy值的標(biāo)準(zhǔn)差。

        從10次實(shí)驗(yàn)的F1值和Accuracy值的標(biāo)準(zhǔn)差對(duì)比可以看出,本文所提模型(C-PSL)和PSL穩(wěn)定性相當(dāng),這正是說(shuō)明了C-PSL繼承了PSL優(yōu)秀的穩(wěn)定性,并且C-PSL的穩(wěn)定性優(yōu)于C5.0算法。

        圖2 六種算法在兩個(gè)數(shù)據(jù)集中分類正確率對(duì)比

        3 結(jié)語(yǔ)

        本文提出了一種面向概率軟邏輯的規(guī)則半自動(dòng)學(xué)習(xí)方法(C-PSL), 該方法使用C5.0算法作為PSL的規(guī)則挖掘模型,同時(shí)輔以手工定義規(guī)則處理數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,讓PSL成為一種由數(shù)據(jù)和知識(shí)共同驅(qū)動(dòng)的推理模型。通過(guò)對(duì)兩個(gè)屬性差別很大的學(xué)生數(shù)據(jù)集的實(shí)驗(yàn)表明,在成績(jī)預(yù)測(cè)問(wèn)題上該方法比C5.0算法和PSL具有更高的推理準(zhǔn)確度; 并且,和以往純手工定義規(guī)則的方法相比,該方法能大幅降低手工成本; 此外,本文提出的模型,在兩組數(shù)據(jù)上推理的穩(wěn)定性也優(yōu)于C5.0 算法。對(duì)于實(shí)際應(yīng)用,該方法可以通過(guò)預(yù)測(cè)學(xué)生成績(jī)的方式幫助學(xué)生及時(shí)發(fā)現(xiàn)生活學(xué)習(xí)習(xí)慣的不足,學(xué)校也可將其作為調(diào)整教學(xué)管理方案的參考因素。

        下一步工作主要集中在兩個(gè)方面:1)進(jìn)一步探索規(guī)則優(yōu)化策略,讓模型得到更高質(zhì)量的規(guī)則; 2)研究基于關(guān)聯(lián)規(guī)則的自動(dòng)挖掘方案。

        猜你喜歡
        邏輯概率定義
        刑事印證證明準(zhǔn)確達(dá)成的邏輯反思
        法律方法(2022年2期)2022-10-20 06:44:24
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        邏輯
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        創(chuàng)新的邏輯
        概率與統(tǒng)計(jì)(一)
        概率與統(tǒng)計(jì)(二)
        女人買買買的神邏輯
        37°女人(2017年11期)2017-11-14 20:27:40
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        修辭學(xué)的重大定義
        国产高跟丝袜在线诱惑| 亚洲国产美女精品久久久| 少妇又紧又爽丰满在线视频| 久久国产精品免费一区二区三区| 国产精品又污又爽又色的网站| 日本视频一区二区三区三州| 极品新娘高清在线观看| 日本在线综合一区二区| 人妻一区二区三区av| 熟妇人妻无乱码中文字幕av | 亚洲高清一区二区三区在线播放| 国产成人综合精品一区二区| 亚洲国产精品久久又爽av| 久久久精品视频网站在线观看| 品色堂永远免费| 色爱无码av综合区| 国产午夜精品一区二区三区| 天堂aⅴ无码一区二区三区| 成年无码av片完整版| 国产成人麻豆精品午夜福利在线 | 亚洲a级片在线观看| 亚洲综合一| 久久久久久人妻一区二区无码Av| 水蜜桃在线视频在线观看| 免费看av网站在线亚洲| 久久免费亚洲免费视频| 国产精品女主播福利在线| 人妻夜夜爽天天爽三区| 久久精品国产亚洲av四虎| 无码午夜剧场| 狠狠亚洲婷婷综合色香五月| 色综合久久久久综合一本到桃花网| 精品人妻日韩中文字幕| 日本一区二区三区视频免费在线| 久久99热国产精品综合| 无码h黄肉3d动漫在线观看| 国产乱码卡二卡三卡老狼| 精品久久久无码中字| 精品国产一区二区三区av 性色| 亚洲色大成网站www尤物| 激情人妻在线视频|