葉廣仔 李衛(wèi)華 劉曉蔚
1(東莞職業(yè)技術(shù)學(xué)院計算機工程系 廣東 東莞 523808)2(廣東工業(yè)大學(xué)計算機學(xué)院 廣東 廣州 510006)3(東莞職業(yè)技術(shù)學(xué)院管理科學(xué)系 廣東 東莞 523808)
可拓分類知識挖掘系統(tǒng)的設(shè)計與實現(xiàn)
葉廣仔1李衛(wèi)華2劉曉蔚3
1(東莞職業(yè)技術(shù)學(xué)院計算機工程系 廣東 東莞 523808)2(廣東工業(yè)大學(xué)計算機學(xué)院 廣東 廣州 510006)3(東莞職業(yè)技術(shù)學(xué)院管理科學(xué)系 廣東 東莞 523808)
針對決策者處理矛盾問題時需要動態(tài)分類知識作為參考依據(jù)的需求,研制可拓分類知識挖掘系統(tǒng)。系統(tǒng)采用B/S結(jié)構(gòu),利用jQuery技術(shù)實現(xiàn)Web前端開發(fā),通過MVC框架模式實現(xiàn)后臺開發(fā)。此外,系統(tǒng)增強了數(shù)據(jù)預(yù)處理能力,提出且實現(xiàn)了挖掘八類可拓分類知識以及動態(tài)生成信息元庫和知識庫。并給出系統(tǒng)在教師科研考核評價中的具體應(yīng)用,為科研管理者找出適合促進教師科研工作的策略提供科學(xué)的依據(jù)。
可拓分類 知識挖掘 科研考核 jQuery技術(shù)
在實際工作中,處理矛盾問題時,決策者往往希望知道對象具有某種性質(zhì)或符合某些要求的程度,在某些變換下是否會從具有變?yōu)椴痪哂羞@些性質(zhì)、從符合變?yōu)椴环线@些要求,或反之。這樣的一種動態(tài)分類知識,對作出更合適的決策具有重要的價值。但是,單靠人力去挖掘動態(tài)分類知識效率低且難以普及,因此,提出利用計算機技術(shù)協(xié)助人們完成這個任務(wù)??赏胤诸愔R挖掘系統(tǒng)是結(jié)合可拓數(shù)據(jù)挖掘技術(shù)[1]、數(shù)據(jù)庫技術(shù)、可視化技術(shù)而形成的人工智能系統(tǒng),可挖掘動態(tài)的分類知識。
自2004年提出,經(jīng)過十年的研究和探索,可拓數(shù)據(jù)挖掘[2]逐步明確了其研究對象和目標(biāo),并初步形成一套挖掘可拓知識的基本理論以及基本方法[3-4]。近幾年關(guān)于可拓數(shù)據(jù)挖掘的應(yīng)用及其計算機實現(xiàn)開始被涉及,如文獻(xiàn)[5]以CPI指數(shù)的變換對產(chǎn)品銷售數(shù)據(jù)的影響為例來研究傳導(dǎo)知識的挖掘,文獻(xiàn)[6]研究了成品油稅費改革對股票市場影響的傳導(dǎo)知識挖掘,文獻(xiàn)[7]進行了客戶價值可拓知識挖掘軟件研究。本文實現(xiàn)的可拓分類知識挖掘系統(tǒng)在系統(tǒng)設(shè)計及功能實現(xiàn)方面做出以下改進及優(yōu)化:
(1) 系統(tǒng)設(shè)計方面:系統(tǒng)采用B/S結(jié)構(gòu),降低了客戶端運行環(huán)境的軟硬件要求;系統(tǒng)的Web前端采用jQuery技術(shù)[8],提升了系統(tǒng)與用戶交互能力;系統(tǒng)后臺使用MVC框架模式[9-10],加強了系統(tǒng)模塊化,提高系統(tǒng)的重用性及降低維護成本。
(2) 系統(tǒng)功能方面:系統(tǒng)根據(jù)可拓知識挖掘需要,對原始數(shù)據(jù)庫進行預(yù)處理,把空缺數(shù)據(jù)記錄進行清除;系統(tǒng)可挖掘出八類可拓分類知識,為決策者提供更全面的參考依據(jù);系統(tǒng)可根據(jù)不同的原始數(shù)據(jù)庫,動態(tài)生成“基礎(chǔ)信息元庫”、“評價信息元庫”以及“可拓分類知識庫”,從而提高系統(tǒng)的靈活性及通用性。
此外,本文以某學(xué)院出臺的新規(guī)定對教師科研工作影響程度進行定“量”和定“性”分析作為應(yīng)用案例[11],介紹了可拓分類知識挖掘系統(tǒng)進行可拓分類知識挖掘的過程。
1.1 簡單關(guān)聯(lián)函數(shù)
設(shè)取值范圍為有限區(qū)間(a,b],其中正域為X=(a1,b],a1≥a,且最優(yōu)點為b,建立簡單關(guān)聯(lián)函數(shù)[12]:
(1)
1.2 關(guān)聯(lián)差和關(guān)聯(lián)積
(2)
為變換φ下信息元Ii關(guān)于評價特征d的關(guān)聯(lián)差[12];稱:
(3)
為變換φ下信息元Ii關(guān)于評價特征d的關(guān)聯(lián)積[12]。
1.3 支持度和可信度
數(shù)據(jù)挖掘得到的規(guī)則知識是從一批數(shù)據(jù)中獲取的,可通過支持度和可信度來衡量其重要程度和準(zhǔn)確程度,通常用:l=(支持度,可信度)=(support,confidence)表示,即知識式表示為:A?(l)B。
設(shè)|U|表示論域中所有對象的個數(shù),|E-|表示負(fù)域中對象的個數(shù),|E0|表示零界中對象的個數(shù),|E+|表示正域中對象的個數(shù),|E+(T)|表示發(fā)生正質(zhì)變的對象個數(shù)。
根據(jù)文獻(xiàn)[12]中描述,正質(zhì)變知識支持度和可信度的計算公式如下:
(4)
如圖1所示,可拓分類知識挖掘系統(tǒng)首先對數(shù)據(jù)庫或數(shù)據(jù)倉庫中已有的原始數(shù)據(jù)進行預(yù)處理,并利用基元和復(fù)合元從形式化的角度對信息進行表示,建立變換前后評價信息元庫;其次選取關(guān)聯(lián)函數(shù)建立分類模型,計算變換前后評價信息元的綜合關(guān)聯(lián)度、關(guān)聯(lián)差、關(guān)聯(lián)積;然后根據(jù)可拓分類標(biāo)準(zhǔn),把變換后的評價信息元劃分為正質(zhì)變域、負(fù)質(zhì)變域、拓界、正量變增效變換域、正量變減效變換域、負(fù)量變增效變換域、負(fù)量變減效變換域和零效變換域等八個域;最后對可拓分類信息元庫進行支持度和可信度計算,從而生成可拓分類知識。
圖1 可拓分類知識挖掘系統(tǒng)框圖
根據(jù)上述可拓分類知識挖掘流程,可拓分類知識挖掘系統(tǒng)針對數(shù)據(jù)庫、用戶界面以及業(yè)務(wù)邏輯等方面進行設(shè)計,以確定系統(tǒng)的數(shù)據(jù)庫結(jié)構(gòu)、功能要求以及業(yè)務(wù)邏輯模塊。
2.1 系統(tǒng)的數(shù)據(jù)庫設(shè)計
本系統(tǒng)使用SQL Server 2008 R2作為數(shù)據(jù)庫管理系統(tǒng),其數(shù)據(jù)主要劃分為三類:
(1) 變換前后基礎(chǔ)信息元庫:用于存儲數(shù)據(jù)挖掘前的原始數(shù)據(jù),其字段的個數(shù)、名稱及類型由原始數(shù)據(jù)表決定,結(jié)構(gòu)固定,如圖2所示。
圖2 變換前后基礎(chǔ)信息元庫設(shè)計圖
(2) 變換前后評價信息元庫:用于存儲數(shù)據(jù)挖掘過程中產(chǎn)生的中間數(shù)據(jù),字段的個數(shù)、名稱及類型基于原始數(shù)據(jù)表,但受數(shù)據(jù)挖掘過程中的操作影響,結(jié)構(gòu)不固定,如圖 3所示。
圖3 變換前后評價信息元庫設(shè)計圖
(3) 可拓分類知識庫:用于存儲數(shù)據(jù)挖掘后生成的分類知識,主要包括分類、數(shù)量、支持度以及可信度等四個字段,結(jié)構(gòu)固定,如圖4所示。
圖4 可拓分類知識庫設(shè)計圖
其中,“變換前后評價信息元庫”和“可拓分類知識庫”的數(shù)據(jù)基于“變換前后基礎(chǔ)信息元庫”,并通過可拓分類知識挖掘過程產(chǎn)生。
2.2 系統(tǒng)的用戶界面設(shè)計
本系統(tǒng)主要使用jQuery技術(shù)進行用戶界面設(shè)計,同時使用CSS[13]進行樣式設(shè)計,具體設(shè)計如下:
(1) 用戶界面布局:系統(tǒng)利用jQuery EasyUI中的Tabs選項卡、Accordion 折疊面板以及Layout布局等插件實現(xiàn)界面的整體布局。
(2) 界面動態(tài)效果:系統(tǒng)采用jQuery中的隱藏/顯示、淡入淡出、滑動技術(shù)和jQuery EasyUI中的Draggable 可拖動、Droppable 可放置插件,以及jqChart插件實現(xiàn)用戶界面豐富的動態(tài)效果。
(3) 數(shù)據(jù)交互方式:系統(tǒng)通過jQuery EasyUI中的Form 表單、Dialog 對話框插件實現(xiàn)數(shù)據(jù)的提交,利用Datagrid 數(shù)據(jù)網(wǎng)格、Pagination 分頁插件實現(xiàn)數(shù)據(jù)的顯示,使用jQuery AJAX技術(shù)[14]實現(xiàn)前臺與服務(wù)器間的數(shù)據(jù)交互,以JSON文本作為數(shù)據(jù)傳輸格式,如圖5所示。
圖5 系統(tǒng)前后臺數(shù)據(jù)格式變換過程
2.3 系統(tǒng)的業(yè)務(wù)邏輯設(shè)計
本系統(tǒng)通過MVC框架模式劃分為模型層、視圖層、控制層,將業(yè)務(wù)邏輯聚集到一個部件中,在改進和個性化定制界面及用戶交互的同時,不需要重新編寫業(yè)務(wù)邏輯,從而提高系統(tǒng)的通用性及可維護性。下面以計算關(guān)聯(lián)度的業(yè)務(wù)邏輯為例,介紹功能模塊及層次的劃分。
如圖6所示,index.jsp頁面為視圖層模塊,主要負(fù)責(zé)用戶與系統(tǒng)的數(shù)據(jù)交互,具有輸入和顯示數(shù)據(jù)功能;CalculateKbySCFuncServlet類為控制層模塊,主要負(fù)責(zé)接受視圖層模塊提交的數(shù)據(jù)及請求,并根據(jù)請求調(diào)用模型層的模塊進行處理,然后把處理結(jié)果返回到視圖層;SRWMiningImpl類為模型層模塊,主要負(fù)責(zé)應(yīng)用程序數(shù)據(jù)邏輯部分的處理,實現(xiàn)在數(shù)據(jù)庫中存取數(shù)據(jù)。
圖6 功能模塊層次結(jié)構(gòu)圖
下面根據(jù)上述的可拓分類知識挖掘系統(tǒng)設(shè)計,以某學(xué)院計算機系教師科研考核為案例,對學(xué)院出臺的“學(xué)院科研工作考核及獎勵辦法”這一策略,即可拓變換φ,對教師科研工作的影響程度進行定“量”和定“性”的分析,實現(xiàn)對應(yīng)的可拓分類知識挖掘。
3.1 數(shù)據(jù)預(yù)處理
在進行數(shù)據(jù)分類知識挖掘前,需要對原始數(shù)據(jù)進行預(yù)處理,把存在的空缺數(shù)據(jù)記錄進行清除,以避免對知識提取的影響。本系統(tǒng)將去除策略出臺后才引進,即字段“title_2012”為null的教師記錄;以及去除策略出臺前后科研工作量都為0,即字段“totalScore_2012”和“totalScore_2013”同時為0的教師記錄。
如圖7所示,在界面右側(cè)窗格中選擇字段名稱及字段值,點擊“process”按鈕,便可刪除一個或多個字段為選定值的教師記錄,從而形成“變換前后基礎(chǔ)信息元庫”。
圖7 數(shù)據(jù)預(yù)處理界面
3.2 選取評價特征
在“變換前后基礎(chǔ)信息元庫”中,教師信息元有9個特征,為了分析教師的科研工作情況,選取達(dá)標(biāo)值作為評價特征。其中,教師“科研年度達(dá)標(biāo)值”等于“年度總得分”減去“年度標(biāo)準(zhǔn)分”,即:standardScore=totalScore-basicScore。
如圖8所示,選取了教工號“t_id”、2012年度達(dá)標(biāo)值“standardScore_2012”、2013年度達(dá)標(biāo)值“standardScore_2013”作為“變換前后評價信息元庫”中的三個字段。其中:
standardScore_2012=totalScore_2012-basicScore_2012
standardScore_2013=totalScore_2013-basicScore_2013
圖8 評價特征選取界面
3.3 計算評價信息元關(guān)聯(lián)度
圖9 簡單關(guān)聯(lián)函數(shù)參數(shù)設(shè)置界面
3.4 計算關(guān)聯(lián)差和關(guān)聯(lián)積
為了實現(xiàn)可拓分類,并對教師科研工作的受影響程度進行定“量”和定“性”的分析,需要對變換前后評價特征進行關(guān)聯(lián)差和關(guān)聯(lián)積計算。如圖10所示,根據(jù)式(2),在變換T下Di關(guān)于評價特征standardScore的關(guān)聯(lián)差:
=standardScore_2013_K- standardScore_2012_K
根據(jù)式(3),其關(guān)聯(lián)積:
=standardScore_2013_K× standardScore_2012_K
圖10 關(guān)聯(lián)差與關(guān)聯(lián)積計算界面
3.5 可拓分類處理
基于評價特征變換前的關(guān)聯(lián)度“K_before”、變換后的關(guān)聯(lián)度“K_after”、關(guān)聯(lián)差“Alpha”以及關(guān)聯(lián)積“Beta”等4個字段的取值范圍對評價信息元進行分類。如圖11所示,把“變換前后評價信息元庫”中字段“standardScore_2012_K”設(shè)置為“K_before”,把字段“standardScore_2013_K”設(shè)置為“K_after”,把字段“alpha”設(shè)置為“Alpha”,把“beta”設(shè)置為“Beta”。
圖11 分類標(biāo)準(zhǔn)設(shè)置界面
根據(jù)上述4個字段的取值范圍,參照表1所示的分類標(biāo)準(zhǔn),對評價信息元進行可拓分類,從而得出“變換前后評價信息元庫”的評價信息元分類情況,如圖12所示。
表1 評價信息元分類標(biāo)準(zhǔn)表
基于實際情況,此處不考慮零界,把關(guān)聯(lián)度大于等于0的情況歸類為正域,小于0歸類為負(fù)域,因此只有七種分類。
圖12 變換前后評價信息元庫
3.6 獲取可拓分類知識
根據(jù)“變換前后評價信息元庫”統(tǒng)計出正質(zhì)變、負(fù)質(zhì)變、正量變增效變換、正量變減效變換、負(fù)量變增效變換和零效變換等六種分類的數(shù)量,并通過相關(guān)計算公式,如利用式(4)計算正質(zhì)變知識的支持度和可信度,求出各分類的支持度和可信度,從而得出可拓分類知識庫,如圖13所示。本例由于不考慮零界,因此不存在拓界情況。此外由于原始數(shù)據(jù)記錄數(shù)有限,負(fù)量變減效變換情況并沒有出現(xiàn)。
圖13 可拓分類知識庫
如圖14所示,正質(zhì)變情況的支持度和可信度為l1=(17.65%,83.33%)。同理可得:
正量變增效變換情況的支持度和可信度為l2=(82.35%,64.28%);
正量變減效變換情況的支持度和可信度為l3=(82.35%,28.57%);
負(fù)質(zhì)變情況的支持度和可信度為l4=(82.35%,3.57%);
負(fù)量變增效變換情況的支持度和可信度為l5=(17.65%,16.67%);
零效變換情況的支持度和可信度為l6=(100%,2.94%)。
圖14 可拓分類知識的支持度和可信度
綜合上述六種可拓分類知識,負(fù)質(zhì)變知識和零效變換知識的可信度分別為3.57%和2.94%,而正質(zhì)變知識和正量變增效變換知識可信度分別為83.33%和64.28%。可見學(xué)院推出的獎勵策略對教師的科研工作具有較好的促進作用,能較好調(diào)動教師科研工作的積極性。
本文設(shè)計及實現(xiàn)的可拓分類知識挖掘系統(tǒng)能協(xié)助人們挖掘動態(tài)分類知識。在系統(tǒng)設(shè)計上,引入jQuery技術(shù)在前臺頁面創(chuàng)造出豐富的交互元素和動態(tài)效果,利用MVC框架模式把系統(tǒng)劃分為模型層、視圖層、控制層,用一種業(yè)務(wù)邏輯、數(shù)據(jù)、界面顯示分離的方法組織代碼,提高系統(tǒng)的通用性和可維護性。在系統(tǒng)功能上,增強了數(shù)據(jù)預(yù)處理能力,提出了八類可拓分類知識的挖掘,以及信息元庫和知識庫的動態(tài)生成對系統(tǒng)的通用性有很大的提高??偟膩碚f,在系統(tǒng)的性能及功能上比以往的可拓數(shù)據(jù)挖掘軟件有了一定的優(yōu)化及改進。
本文實現(xiàn)的案例說明,可拓分類知識挖掘系統(tǒng)能為科研管理者對策略執(zhí)行前后的數(shù)據(jù)進行分析,挖掘出有助于衡量策略執(zhí)行效果的知識。它將可拓分類方法應(yīng)用到高校教師科研考核評價中,從量上分析該策略對教師的科研情況產(chǎn)生正面或負(fù)面影響的程度,在各種策略中找出更適合院校促進教師科研工作的策略,從而解決教師科研工作量不足的矛盾問題。
本系統(tǒng)的研究仍處于初級階段,下一步將針對基于數(shù)據(jù)庫的傳導(dǎo)知識挖掘、可拓聚類知識挖掘等問題進行深入研究,從而完善其可拓數(shù)據(jù)挖掘的功能。
[1] 蔡文,楊春燕,陳文偉,等.可拓集與可拓數(shù)據(jù)挖掘[M].北京:科學(xué)出版社,2008.
[2] 李立希,李鏵汶,楊春燕.可拓學(xué)在數(shù)據(jù)挖掘中的應(yīng)用初探[J].中國工程科學(xué),2004,6(7):53-59.
[3] 楊春燕,蔡文.基于可拓集的可拓分類知識獲取研究[J].?dāng)?shù)學(xué)的實踐與認(rèn)識,2008,38(16):184-191.
[4] 楊春燕,蔡文.可拓數(shù)據(jù)挖掘研究進展[J].?dāng)?shù)學(xué)的實踐與認(rèn)識,2009,39(4):134-141.
[5] 李小妹.CPI指數(shù)變換對產(chǎn)品銷售影響的可拓數(shù)據(jù)挖掘[J].?dāng)?shù)學(xué)的實踐與認(rèn)識,2009,39 (4):178-183.
[6] 李小妹,楊春燕,李衛(wèi)華.成品油稅費改革對股票市場影響的傳導(dǎo)知識挖掘[J].計算機應(yīng)用研究,2010,27(8):2865-2868.
[7] 朱伶俐,李衛(wèi)華,李小妹.客戶價值可拓知識挖掘軟件研究[J].廣東工業(yè)大學(xué)學(xué)報,2012,29(4):7-13.
[8] 藍(lán)健.輕松玩轉(zhuǎn)jQuery[M].北京:人民郵電出版社,2012.
[9] 趙俊峰,姜寧,焦學(xué)理,等.Java Web應(yīng)用開發(fā)案例教程——基于MVC模式的JSP+Servlet+JDBC和AJAX[M].北京:清華大學(xué)出版社,2012.
[10] 葉廣仔,李衛(wèi)華,李淑飛.可拓策略生成系統(tǒng)的構(gòu)件化設(shè)計與實現(xiàn)[J] .智能系統(tǒng)學(xué)報,2010,5(4):366-371.
[11] 葉廣仔,李衛(wèi)華.可拓數(shù)據(jù)挖掘在教師科研考核評價中的應(yīng)用[J].?dāng)?shù)學(xué)的實踐與認(rèn)識,2015,45(12):53-59.
[12] 楊春燕,李小妹,陳文偉,等.可拓數(shù)據(jù)挖掘方法及其計算機實現(xiàn)[M].廣州:廣東高等教育出版社,2010.
[13] 劉增杰,臧順娟,何楚斌.精通HTML5+CSS3+JavaScript網(wǎng)頁設(shè)計[M].北京:清華大學(xué)出版社,2012.
[14] Bear Bibeault,Yehuda Katz.jQuery實戰(zhàn)[M].三生石上,譯.2版.北京:人民郵電出版社,2012.
[15] 楊春燕,蔡文.可拓工程[M].北京:科學(xué)出版社,2007.
[16] 楊春燕,蔡文.可拓學(xué)[M].北京:科學(xué)出版社,2014.
DESIGN AND IMPLEMENTATION OF EXTENSION CLASSIFICATION KNOWLEDGE MINING SYSTEM
Ye Guangzai1Li Weihua2Liu Xiaowei3
1(DepartmentofComputerEngineering,DongguanPolytechnic,Dongguan523808,Guangdong,China)2(SchoolofComputerScienceandTechnology,GuangdongUniversityofTechnology,Guangzhou510006,Guangdong,China)3(DepartmentofManagementScience,DongguanPolytechnic,Dongguan523808,Guangdong,China)
According to the demand of policy makers’ need for dynamic classification knowledge as reference to deal with contradictory issues, an extension classification knowledge mining system is developed. The system is enhanced by B/S structure, using the jQuery technology to implement Web front-end development and the framework of MVC model to implement background development. Besides, this system enhances the ability of data preprocessing, and it is able to mine eight kinds of extension classification knowledge and dynamic generate information database and knowledge database. This system is applied into faculty scientific research evaluation, which provides references for scientific research managers to find appropriate strategy to promote teachers’ scientific research.
Extension classification Knowledge mining Scientific research evaluation jQuery technology
2015-08-12。廣東省自然科學(xué)基金項目(1015009001000044);廣東省省級科技計劃項目(2014A010103002)。葉廣仔,講師,主研領(lǐng)域:智能系統(tǒng)軟件。李衛(wèi)華,教授。劉曉蔚,實驗師。
TP30
A
10.3969/j.issn.1000-386x.2017.01.059