趙嬌嬌,趙書(shū)良,郭曉波,劉軍丹
1.河北師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,石家莊 050024
2.河北省計(jì)算數(shù)學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,石家莊 050024
3.河北師范大學(xué) 移動(dòng)物聯(lián)網(wǎng)研究院,石家莊 050024
基于自然語(yǔ)言生成的關(guān)聯(lián)規(guī)則可視化方法
趙嬌嬌,趙書(shū)良,郭曉波,劉軍丹
1.河北師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,石家莊 050024
2.河北省計(jì)算數(shù)學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,石家莊 050024
3.河北師范大學(xué) 移動(dòng)物聯(lián)網(wǎng)研究院,石家莊 050024
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘[1]的一個(gè)重要方向,其目的是從數(shù)據(jù)集中發(fā)現(xiàn)屬性間存在的有趣關(guān)聯(lián)或相關(guān)模式,從而發(fā)現(xiàn)對(duì)用戶有價(jià)值的知識(shí)和信息,幫助用戶制定科學(xué)的決策,因此,如何有效地展示關(guān)聯(lián)規(guī)則挖掘結(jié)果是至關(guān)重要的。目前,關(guān)聯(lián)規(guī)則可視化研究受到國(guó)內(nèi)外計(jì)算機(jī)科學(xué)工作者的廣泛關(guān)注[2-7]。文獻(xiàn)[8]提出將平行坐標(biāo)技術(shù)應(yīng)用到關(guān)聯(lián)規(guī)則可視化中,較好地利用了圖形的表達(dá)能力,然而,展示結(jié)果容易出現(xiàn)交錯(cuò)現(xiàn)象,規(guī)則的可理解性較差,不利于普通用戶深入分析和研究;文獻(xiàn)[9]使用2D矩陣技術(shù)(全局展示)和魚(yú)眼視圖技術(shù)(細(xì)節(jié)呈現(xiàn))相結(jié)合的方法較好地展示了大數(shù)據(jù)量的關(guān)聯(lián)規(guī)則,但該方法的展示形式不利于非專家用戶理解;文獻(xiàn)[10]利用Java3D可視化技術(shù)的特點(diǎn),將關(guān)聯(lián)規(guī)則通過(guò)三維坐標(biāo)的顏色、圖形及三維屬性表示出來(lái),較好地利用了人對(duì)于色彩和形狀敏銳的感知能力,有利于專家用戶觀察和分析關(guān)聯(lián)規(guī)則,但尚未考慮到非專家用戶對(duì)色彩和形狀的理解能力和水平?,F(xiàn)階段多數(shù)關(guān)聯(lián)規(guī)則可視化研究工作大都存在以下不足:展示結(jié)果一般面向數(shù)據(jù)挖掘領(lǐng)域的專家用戶,不利于普通用戶分析和使用;單純的關(guān)聯(lián)規(guī)則蘊(yùn)含式表示方式可理解性較差等。對(duì)于上述問(wèn)題而言,不具備數(shù)據(jù)挖掘知識(shí)背景的普通用戶無(wú)法很好地理解并使用這些關(guān)聯(lián)規(guī)則。
可視化技術(shù)已經(jīng)成為一種有效的知識(shí)表示手段,關(guān)聯(lián)規(guī)則挖掘結(jié)果的可視化展示也應(yīng)更加面向大眾化,更加貼近普通用戶的需求,因?yàn)椴⒎撬杏脩舳寄芾斫狻敖疸y花津液∧荊芥 =>薄荷冰,(support=3%,confidence= 71%)”[11]所表達(dá)的知識(shí)和信息。
本文提出了一種新的基于自然語(yǔ)言生成的關(guān)聯(lián)規(guī)則可視化方法NLG-AR(Natural Language Generation-Association Rules),將自然語(yǔ)言生成技術(shù)引入關(guān)聯(lián)規(guī)則可視化中,首先通過(guò)領(lǐng)域知識(shí)庫(kù)中解釋模式將關(guān)聯(lián)規(guī)則中每一項(xiàng)生成簡(jiǎn)單的自然語(yǔ)言句子,然后通過(guò)合并規(guī)則生成概括的自然語(yǔ)言句子,最后通過(guò)解釋模板生成流暢的具體自然語(yǔ)言句子,使得不具備數(shù)據(jù)挖掘知識(shí)的普通用戶也能理解和運(yùn)用挖掘出來(lái)的有價(jià)值的關(guān)聯(lián)規(guī)則信息。
本文提出了一種基于自然語(yǔ)言生成的關(guān)聯(lián)規(guī)則可視化方法NLG-AR,將關(guān)聯(lián)規(guī)則、支持度和置信度作為方法的輸入,相關(guān)領(lǐng)域的自然語(yǔ)言句子作為方法的輸出。
2.1 NLG-AR方法結(jié)構(gòu)
NLG-AR方法采用自然語(yǔ)言生成的經(jīng)典管道技術(shù)[12-13],如圖1所示,主要包括三步:內(nèi)容規(guī)劃、句子規(guī)劃和表層實(shí)現(xiàn),具體內(nèi)容如下:
內(nèi)容規(guī)劃:輸入?yún)?shù)(包括支持度和置信度)和關(guān)聯(lián)規(guī)則的前件、后件項(xiàng)集。首先,分別對(duì)關(guān)聯(lián)規(guī)則的前件項(xiàng)集、后件項(xiàng)集、支持度和置信度進(jìn)行形式化定義;然后,從知識(shí)庫(kù)中調(diào)用預(yù)定義的解釋模式,對(duì)關(guān)聯(lián)規(guī)則中前件項(xiàng)集和后件項(xiàng)集的每一項(xiàng)進(jìn)行句子解釋,生成的句子稱為單項(xiàng)句子解釋。
句子規(guī)劃:內(nèi)容規(guī)劃中生成的單項(xiàng)句子解釋作為輸入,從知識(shí)庫(kù)中調(diào)用合并規(guī)則,分別對(duì)關(guān)聯(lián)規(guī)則前件項(xiàng)集和后件項(xiàng)集生成的單項(xiàng)句子解釋進(jìn)行合并,生成的句子稱為多項(xiàng)句子解釋;然后將這兩個(gè)多項(xiàng)句子解釋進(jìn)行合并,生成概括的自然語(yǔ)言句子。
圖1 NLG-AR方法結(jié)構(gòu)圖
表層實(shí)現(xiàn):本方法采用基于模板的表層實(shí)現(xiàn)。概括句子解釋、多項(xiàng)句子解釋、支持度和置信度作為輸入,生成最終具體的自然語(yǔ)言句子。
2.2 NLG-AR領(lǐng)域知識(shí)庫(kù)
領(lǐng)域知識(shí)庫(kù)是NLG-AR方法的重要組成部分,在關(guān)聯(lián)規(guī)則生成自然語(yǔ)言句子過(guò)程中起著關(guān)鍵作用,主要由解釋模式、合并規(guī)則和解釋模板構(gòu)成。
2.2.1 單維關(guān)聯(lián)規(guī)則的解釋模式
本文提出的方法主要面向單維關(guān)聯(lián)規(guī)則的自然語(yǔ)言解釋,即關(guān)聯(lián)規(guī)則中的項(xiàng)或?qū)傩陨婕耙粋€(gè)維,例如:關(guān)聯(lián)規(guī)則buys(A)=>buys(C),它只涉及一個(gè)維buys。
一般中文自然語(yǔ)言句子由“主謂賓”三個(gè)部分構(gòu)成,因此,本文引用RDF語(yǔ)義關(guān)系三元組[14]<subject,predicate,object>的形式,設(shè)計(jì)了通用的單維關(guān)聯(lián)規(guī)則的自然語(yǔ)言解釋模式:
定義1解釋模式 pattern(s,p,o),s表示句子解釋的主語(yǔ),p表示句子解釋的謂語(yǔ),o表示句子解釋的賓語(yǔ)。設(shè) I={I1,I2,…,Im}是項(xiàng)的集合,關(guān)聯(lián)規(guī)則 A?B定義在 I上,其中 A?I,B?I,并且A∩B=?。X={X1,X2,…,Xk,…},Xi是相關(guān)領(lǐng)域詞匯。那么 s、p、o 中有且只有一項(xiàng)屬于A∪B,其余兩項(xiàng)必屬于X。
針對(duì)特定領(lǐng)域,解釋單維關(guān)聯(lián)規(guī)則時(shí),用戶需定義符合自己領(lǐng)域的具體模式。以治療感冒的中藥專利數(shù)據(jù)集上挖掘出的關(guān)聯(lián)規(guī)則“金銀花津液∧荊芥 =>薄荷冰”為例,解釋模式為 pattern(s,p,o),s、p 屬于相關(guān)領(lǐng)域詞匯,s為“治療感冒的中藥方劑”,p為“含有”,o屬于關(guān)聯(lián)規(guī)則中的項(xiàng),o∈{金銀花津液,荊芥,薄荷冰}。選取關(guān)聯(lián)規(guī)則中任一項(xiàng)(例如:薄荷冰)代入解釋模式后,變?yōu)閜attern(治療感冒的中藥方劑,含有,薄荷冰)。
定義2對(duì)解釋模式的實(shí)例化,稱之為事實(shí),事實(shí)是與自然語(yǔ)言句子解釋直接對(duì)應(yīng)的。
例1pattern(治療感冒的中藥方劑,含有,薄荷冰)即為一個(gè)事實(shí),表示的自然語(yǔ)言句子為“治療感冒的中藥方劑含有薄荷冰”。
2.2.2 合并規(guī)則
為了保證生成的句子自然順暢,若兩個(gè)事實(shí)之間存在相同的組成內(nèi)容,需進(jìn)行適當(dāng)?shù)睾喜?。針?duì)已定義的解釋模式,定義了三種通用的合并規(guī)則:
規(guī)則1模式主語(yǔ)不同(謂語(yǔ)和賓語(yǔ)相同),則合并規(guī)則為pattern(s1,p,o)+pattern(s2,p,o)=pattern(s1s2,p,o)。
例2兩個(gè)事實(shí)分別為pattern(治療感冒的中藥方劑,含有,薄荷冰)和pattern(清涼油,含有,薄荷冰),經(jīng)過(guò)規(guī)則1合并后成為pattern(治療感冒的中藥方劑、清涼油,含有,薄荷冰),表示的自然語(yǔ)言句子為“治療感冒的中藥方劑和清涼油都含有薄荷冰”。
規(guī)則2模式謂語(yǔ)不同(主語(yǔ)和賓語(yǔ)相同),則合并規(guī)則為pattern(s,p1,o)+pattern(s,p2,o)=pattern(s,p1p2,o)。
例3兩個(gè)事實(shí)分別為pattern(某中藥方劑,預(yù)防,感冒)和pattern(某中藥方劑,治療,感冒),經(jīng)過(guò)規(guī)則2合并后成為pattern(某中藥方劑,預(yù)防、治療,感冒),表示的自然語(yǔ)言句子為“某中藥方劑預(yù)防和治療感冒”。
規(guī)則3模式賓語(yǔ)不同(主語(yǔ)和謂語(yǔ)相同),則合并規(guī)則為pattern(s,p,o1)+pattern(s,p,o2)=pattern(s,p,o1o2)。
例4兩個(gè)事實(shí)分別為pattern(治療感冒的中藥方劑,含有,薄荷冰)和pattern(治療感冒的中藥方劑,含有,金銀花津液),經(jīng)過(guò)規(guī)則3合并后成為pattern(治療感冒的中藥方劑,含有,薄荷冰、金銀花津液),表示的自然語(yǔ)言句子為“治療感冒的中藥方劑含有薄荷冰和金銀花津液”。
2.2.3 解釋模板
支持度和置信度是關(guān)聯(lián)規(guī)則的自然語(yǔ)言句子解釋中不可或缺的組成部分。為了保證對(duì)關(guān)聯(lián)規(guī)則解釋的完整性,將支持度和置信度兩個(gè)重要參數(shù)加入到自然語(yǔ)言句子解釋中。于是,設(shè)計(jì)了兩種解釋模板[15]:
模板 1template1(patterns,sup),與支持度有關(guān),其中patterns為一個(gè)事實(shí),代表概括句子解釋,sup為關(guān)聯(lián)規(guī)則的支持度。
例5存在事實(shí)patterns=pattern(治療感冒的中藥方劑,含有,薄荷冰)和支持度sup=1%,代入模板1后,表示的自然語(yǔ)言句子為“1%的治療感冒的中藥方劑含有薄荷冰”。
模板 2template2(pattern1,pattern2,conf),與置信度有關(guān),其中pattern1和pattern2分別為一個(gè)事實(shí),pattern1代表關(guān)聯(lián)規(guī)則前件項(xiàng)集的多項(xiàng)句子解釋,pattern2代表關(guān)聯(lián)規(guī)則后件項(xiàng)集的多項(xiàng)句子解釋,conf為關(guān)聯(lián)規(guī)則的置信度。其中該模板涉及多組連詞,可隨機(jī)生成。
例6存在兩個(gè)事實(shí)pattern1=pattern(治療感冒的中藥方劑,含有,薄荷冰)、pattern2=pattern(治療感冒的中藥方劑,含有,荊芥)和置信度conf=70%,代入模板2后,表示的自然語(yǔ)言句子為“如果治療感冒的中藥方劑含有薄荷冰,則治療感冒的中藥方劑會(huì)含有荊芥,其可能性為70%”或者為“若治療感冒的中藥方劑含有薄荷冰,那么治療感冒的中藥方劑會(huì)含有荊芥,其可能性為70%”。
2.2.4 關(guān)聯(lián)規(guī)則的形式定義
關(guān)聯(lián)規(guī)則輸入格式為:A=>C(support,confidence),依次為前件項(xiàng)集A、后件項(xiàng)集C、支持度support和置信度confidence。首先,將前件項(xiàng)集A中每一項(xiàng)定義為ai,其中i=1,2,…,n;后件項(xiàng)集C中每一項(xiàng)定義為ci,其中i=1,2,…,n,便于生成單項(xiàng)句子解釋。然后,分別定義支持度和置信度兩個(gè)重要參數(shù)為sup和conf。
2.3NLG-AR算法
基于自然語(yǔ)言生成的單維關(guān)聯(lián)規(guī)則可視化方法結(jié)構(gòu)圖,如圖1所示。
算法具體步驟如下:
輸入:關(guān)聯(lián)規(guī)則A=>C(support,confidence)
輸出:概括句子解釋和具體句子解釋
(1)構(gòu)建領(lǐng)域知識(shí)庫(kù)中的合并規(guī)則和解釋模板,定義具體領(lǐng)域的解釋模式pattern(s,p,o)。
(2)根據(jù)預(yù)定義格式,對(duì)輸入的關(guān)聯(lián)規(guī)則進(jìn)行形式化定義:前件項(xiàng)集中每一項(xiàng)定義為ai,其中i=1,2,…,n;后件項(xiàng)集中每一項(xiàng)定義為ci,其中i=1,2,…,n;支持度和置信度分別定義為sup和conf。
(3)調(diào)用(1)中的解釋模式pattern(s,p,o),將(2)中定義的前件項(xiàng)集中每一項(xiàng)代入pattern中,迭代生成多個(gè)單項(xiàng)句子解釋,分別為事實(shí)pattern_ai,其中i=1,2,…,n;類(lèi)似地,將(2)中定義的后件項(xiàng)集中每一項(xiàng)代入pattern中,迭代生成多個(gè)單項(xiàng)句子解釋,分別為事實(shí)pattern_ci,其中i=1,2,…,n。
(4)調(diào)用(1)中的合并規(guī)則,迭代合并(3)中生成的單項(xiàng)句子解釋pattern_ai,得到合并后的多項(xiàng)句子解釋pattern1;類(lèi)似地,迭代合并(3)中生成的pattern_ci,得到合并后的多項(xiàng)句子解釋pattern2。
(5)繼續(xù)調(diào)用(1)中的合并規(guī)則,將(4)中生成的多項(xiàng)句子解釋pattern1和pattern2合并生成patterns,得到概括句子解釋。
(6)最后將(2)中定義的sup和conf,以及(5)中生成的patterns和(4)中生成的pattern1、pattern2分別代入(1)中預(yù)定義的模板template1和template2,生成最終的具體句子解釋。
本文以治療感冒的中藥專利數(shù)據(jù)集為例,將其挖掘出的關(guān)聯(lián)規(guī)則:金銀花津液∧荊芥 =>薄荷冰,(support= 3%,confidence=71%),運(yùn)用NLG-AR方法生成自然語(yǔ)言句子,便于非數(shù)據(jù)挖掘領(lǐng)域的中藥專家了解中醫(yī)藥數(shù)據(jù)庫(kù)中中藥方劑的配伍規(guī)律,為中醫(yī)新藥的研制提供指導(dǎo)信息。
3.1 領(lǐng)域知識(shí)庫(kù)的構(gòu)建
定義中藥領(lǐng)域的具體解釋模式為:pattern(治療感冒的中藥方劑,含有,o),o為關(guān)聯(lián)規(guī)則中的項(xiàng),構(gòu)建領(lǐng)域知識(shí)庫(kù),包括定義的pattern、預(yù)設(shè)計(jì)的合并規(guī)則和解釋模板。
3.2 形式定義關(guān)聯(lián)規(guī)則
根據(jù)預(yù)定義的格式,前件項(xiàng)集中每一項(xiàng)分別定義為“a1=金銀花津液,a2=荊芥”,后件項(xiàng)集中每一項(xiàng)定義為“c1=薄荷冰”,支持度定義為“sup=3%”,置信度定義為“conf=71%”。
3.3 生成單項(xiàng)句子解釋
從知識(shí)庫(kù)中調(diào)用解釋模式pattern,分別將a1、a2和c1代入pattern中,生成pattern_a1=pattern(治療感冒的中藥方劑,含有,a1)、pattern_a2=pattern(治療感冒的中藥方劑,含有,a2)和pattern_c1=pattern(治療感冒的中藥方劑,含有,c1)。
3.4 生成多項(xiàng)句子解釋
因?yàn)轭A(yù)定義的解釋模式是賓語(yǔ)不同,所以調(diào)用合并規(guī)則的規(guī)則3。首先,根據(jù)規(guī)則3對(duì)前件項(xiàng)集生成的單項(xiàng)句子解釋,即pattern_a1和pattern_a2合并生成pattern1=pattern(治療感冒的中藥方劑,含有,a1、a2);因后件項(xiàng)集只生成了一個(gè)單項(xiàng)句子解釋,所以不再需要合并,即pattern2=pattern_c1=pattern(治療感冒的中藥方劑,含有,c1)。
類(lèi)似,根據(jù)規(guī)則3,合并pattern1和pattern2生成概括句子解釋patterns=pattern(治療感冒的中藥方劑,含有,a1、a2、c1),輸出的概括自然語(yǔ)言句子解釋為“治療感冒的中藥方劑含有金銀花津液、荊芥和薄荷冰”。
3.5 套用模板生成具體解釋
首先,調(diào)用與支持度有關(guān)的解釋模板1,將patterns代入模板template1中,此時(shí)模板成為template1(pattern(治療感冒的中藥方劑,含有,a1、a2、c1),sup),輸出的具體自然語(yǔ)言句子解釋為“3%的治療感冒的中藥方劑含有金銀花津液、荊芥和薄荷冰”。
其次,調(diào)用與置信度有關(guān)的解釋模板2,將pattern1和pattern2代入template2中,此時(shí)模板成為template2(pattern(治療感冒的中藥方劑,含有,a1、a2),pattern(治療感冒的中藥方劑,含有,c1),conf),輸出的自然語(yǔ)言句子解釋為“如果治療感冒的中藥方劑含有金銀花津液和荊芥,則治療感冒的中藥方劑含有薄荷冰,其可能性為71%”。
最后,輸出關(guān)聯(lián)規(guī)則的最終自然語(yǔ)言句子解釋為:具體地講,3%的治療感冒的中藥方劑含有金銀花津液、荊芥和薄荷冰;如果治療感冒的中藥方劑含有金銀花津液和荊芥,則治療感冒的中藥方劑含有薄荷冰,其可能性為71%;概括地講,中藥的配伍規(guī)律為:治療感冒的中藥方劑含有金銀花津液、荊芥和薄荷冰。
目前存在多種關(guān)聯(lián)規(guī)則展示技術(shù),主要可以概括為兩類(lèi):基于表的可視化技術(shù)和基于圖形的可視化技術(shù)。下面介紹這兩種可視化技術(shù),并分析各自的優(yōu)缺點(diǎn)。
基于表的可視化技術(shù):類(lèi)似于關(guān)聯(lián)規(guī)則的原始蘊(yùn)含式描述形式,用表結(jié)構(gòu)文字化描述關(guān)聯(lián)規(guī)則(如表1),表中的每一行描述一條關(guān)聯(lián)規(guī)則,每一列分別描述關(guān)聯(lián)規(guī)則中的參數(shù),包括規(guī)則的前件、后件、支持度和置信度。此方法的優(yōu)點(diǎn)是能夠利用表的基本操作,對(duì)感興趣的列(如支持度)進(jìn)行排序,存在的不足是對(duì)普通用戶而言可理解性差,不具有數(shù)據(jù)挖掘背景的非專家用戶難以理解挖掘出的關(guān)聯(lián)規(guī)則,降低了用戶體驗(yàn),導(dǎo)致無(wú)法充分利用挖掘出的價(jià)值信息。
表1 基于表的關(guān)聯(lián)規(guī)則可視化
基于圖形的可視化技術(shù)[16]:包括基于平行坐標(biāo)的可視化技術(shù)(如圖2)、基于矩陣的可視化技術(shù)(如圖3)等。此類(lèi)方法將關(guān)聯(lián)規(guī)則映射成不同的圖形原語(yǔ),例如位置、形狀、顏色和大小。此類(lèi)方法的優(yōu)勢(shì)是充分利用圖形和圖像的表達(dá)能力以及人對(duì)于色彩和形狀敏銳的感知能力,利于數(shù)據(jù)挖掘領(lǐng)域的專家用戶方便深入地對(duì)結(jié)果進(jìn)行觀察和分析,但是特別要求用戶對(duì)色彩和形狀有敏銳的感知能力,普通用戶很難達(dá)到這個(gè)要求,所以此類(lèi)方法對(duì)普通用戶來(lái)說(shuō),易理解性較差。
圖2 基于平行坐標(biāo)的可視化技術(shù)
圖3 基于矩陣的可視化技術(shù)
本文以中藥專利數(shù)據(jù)庫(kù)中挖掘出的關(guān)聯(lián)規(guī)則為數(shù)據(jù)源,開(kāi)發(fā)了基于NLG-AR的關(guān)聯(lián)規(guī)則可視化原型系統(tǒng),該系統(tǒng)不僅提供了友好的人機(jī)交互接口,而且用戶可以按照支持度(或者置信度)對(duì)關(guān)聯(lián)規(guī)則進(jìn)行重新排序,選擇自己感興趣的規(guī)則,生成自然語(yǔ)言句子。例如,用戶按照支持度遞增的順序顯示關(guān)聯(lián)規(guī)則,并選擇關(guān)聯(lián)規(guī)則“金銀花津液∧荊芥 =>薄荷冰”進(jìn)行自然語(yǔ)言句子的生成,如圖4所示。與表1、圖2和圖3相比,顯然關(guān)聯(lián)規(guī)則的自然語(yǔ)言表示方法更簡(jiǎn)單易懂。
圖4 基于NLG-AR的關(guān)聯(lián)規(guī)則可視化原型系統(tǒng)
另外,邀請(qǐng)23名來(lái)自不同單位的中醫(yī)中藥領(lǐng)域的研究人員和管理者對(duì)本方法和圖形可視化方法進(jìn)行了評(píng)價(jià)。下面為反饋結(jié)果:
(1)對(duì)于圖形可視化的展示:相對(duì)抽象,不易理解挖掘項(xiàng)之間的聯(lián)系,一些用戶反映自身對(duì)顏色不夠敏感,更增加了理解關(guān)聯(lián)規(guī)則的難度。
(2)對(duì)于自然語(yǔ)言可視化的展示:簡(jiǎn)單易懂,準(zhǔn)確地了解了挖掘項(xiàng)之間的關(guān)系,對(duì)于不具有數(shù)據(jù)挖掘背景知識(shí)的用戶直觀地掌握了中藥方劑的配伍規(guī)律。
通過(guò)原型系統(tǒng)展示和用戶驗(yàn)證,可見(jiàn)本文提出的基于自然語(yǔ)言生成的關(guān)聯(lián)規(guī)則可視化方法,通過(guò)自然語(yǔ)言生成技術(shù)將半形式化的關(guān)聯(lián)規(guī)則解釋成大眾化的自然語(yǔ)言,提升了非專家用戶的體驗(yàn),增強(qiáng)了挖掘結(jié)果的易理解性,促進(jìn)了今后數(shù)據(jù)挖掘研究面向更多的終端用戶,利于數(shù)據(jù)挖掘技術(shù)應(yīng)用于更廣泛的領(lǐng)域。
本文提出了一種基于自然語(yǔ)言生成的單維關(guān)聯(lián)規(guī)則可視化新方法。結(jié)合自然語(yǔ)言生成技術(shù),提出了通用的解釋模式、合并規(guī)則和解釋模板,將關(guān)聯(lián)規(guī)則解釋成易于理解的自然語(yǔ)言,便于普通用戶使用。通過(guò)實(shí)際數(shù)據(jù)對(duì)本文方法進(jìn)行具體驗(yàn)證和分析,表明本文方法能夠有效地滿足非專家用戶對(duì)挖掘出的關(guān)聯(lián)規(guī)則的理解和運(yùn)用,提升了關(guān)聯(lián)規(guī)則的應(yīng)用價(jià)值。在下一步的研究中,將針對(duì)如何有效地對(duì)多維關(guān)聯(lián)規(guī)則進(jìn)行自然語(yǔ)言生成的問(wèn)題進(jìn)行深入分析和研究。
[1]Han J W,Kamber M,Pei J.Data mining concepts and techniques[M].Burlington:Morgan Kaufmann Publishers,2012.
[2]Li Yang.Pruning and visualizing generalized association rules in parallelcoordinates[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(1):60-70.
[3]羅建,晏華.基于java技術(shù)的關(guān)聯(lián)規(guī)則可視化新方法及實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2008,30(11):31-33.
[4]Blanchard J,Pinaud B,Kuntz P,et al.A 2D-3D visualization support for human-centered rule mining[J].Computers and Graphics,2007,31(3):350-360.
[5]Coutuier O,Hamrouni T,Yahia B S,et al.A scalable association rule visualization towards displaying large amounts of knowledge[C]//the 11th International Conference Information Visualization.Washington DC:IEEE Computer Society,2007:657-663.
[6]Liu G,Suchitra A,Zhang H J,et al.AssocExplorer:an association rule visualization system forexploratory data analysis[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Publisher,2012:1536-1539.
[7]Noraziah A,Abdullah Z,Herawan T,et al.WLAR-Viz:weighted least association rules visualization[C]//3rd International Conference on Information Computing and Applications.Berlin:Springer,2012,7473:592-599.
[8]Li Y.Visualizing frequent itemsets,association rules,and sequential patterns in parallel coordinates[C]//International Conference on Computational Science and Its Application.Berlin,Heidelberg:Springer-Verlag,2003,2667:21-30.
[9]Couturier O,Rouillard J,Chevrin V.An interactive approach to display large sets ofassociation rules[C]//Symposium on Human Interface.Berlin,Heidelberg:Springer-Verlag,2007,4557:258-267.
[10]易先卉,彭黎.基于三維坐標(biāo)的關(guān)聯(lián)規(guī)則可視化新技術(shù)[J].計(jì)算機(jī)工程,2008,34(22):57-59.
[11]錢(qián)增瑾,辛燕,鞠時(shí)光.基于中藥專利數(shù)據(jù)集的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法[J].計(jì)算機(jī)應(yīng)用研究,2007,24(7):61-63.
[12]Reiter E,Dale R.Building natural language generation systems[M].Cambridge:Cambridge University Press,2000:41-77.
[13]McCoy K F.Natural language generation and assistive technologies[C]//Proceedings of the 7th International NaturalLanguage Generation Conference.Stroudsburg:Association for Computational Linguistics,2012.
[14]閆秋艷,夏士雄.一種基于自然語(yǔ)言生成的XML關(guān)鍵字查詢技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(26):150-153.
[15]Cullen C,O’Neill I,Hanna P.Human language technology[M]//Flexible natural language generation in multiple contexts.Berlin,Heidelberg:Springer-Verlag,2009:142-153.
[16]Bruzzese D,Davino C.Visual mining of association rules[C]//Visual Data Mining.Berlin:Springer-Verlag,2008,4404:103-122.
ZHAO Jiaojiao,ZHAO Shuliang,GUO Xiaobo,LIU Jundan
1.College of Mathematics and Information Science,Hebei Normal University,Shijiazhuang 050024,China
2.Hebei Key Laboratory of Computational Mathematics and Applications,Shijiazhuang 050024,China
3.Institute of Mobile Internet of Things,Hebei Normal University,Shijiazhuang 050024,China
For non-expert users,the general text association rules are hardly understood,moreover graphical visualization in the traditional sense is just popular for experts in the data mining field.To address these problems,a novel visualization methodology of association rules is proposed based on the Natural Language Generation(NLG),which introduces NLG technology to the association rules visualization.The proposed approach can interpret the items of rules as ordinary natural language by using the interpretation schema in the domain knowledge base,and ultimately generates the smooth and easy natural language sentences through sentence planning and surface realization.The experiments show that the results obtained by this approach are more easily understood to the non-expert users,and help them make accurate decisions by taking full advantage of value of information gained in the mining process.
natural language generation;association rules;visualization;domain knowledge base
針對(duì)傳統(tǒng)的關(guān)聯(lián)規(guī)則蘊(yùn)含式表示方式和圖形可視化方法對(duì)非專家用戶來(lái)說(shuō)不易理解的問(wèn)題,提出了一種新的基于自然語(yǔ)言生成的關(guān)聯(lián)規(guī)則可視化方法。該方法將自然語(yǔ)言生成技術(shù)引入到關(guān)聯(lián)規(guī)則可視化中,通過(guò)領(lǐng)域知識(shí)庫(kù)中的解釋模式將關(guān)聯(lián)規(guī)則中每一項(xiàng)生成簡(jiǎn)單的自然語(yǔ)言句子,并經(jīng)過(guò)句子規(guī)劃、表層實(shí)現(xiàn),最終生成流暢的自然語(yǔ)言句子。實(shí)驗(yàn)最終得出的結(jié)果,便于普通用戶理解和應(yīng)用,從而幫助用戶獲取更有價(jià)值的信息。
自然語(yǔ)言生成;關(guān)聯(lián)規(guī)則;可視化;領(lǐng)域知識(shí)庫(kù)
A
TP391
10.3778/j.issn.1002-8331.1301-0009
ZHAO Jiaojiao,ZHAO Shuliang,GUO Xiaobo,et al.Visualization method of association rules based on natural language generation.Computer Engineering and Applications,2014,50(23):122-126.
河北省科學(xué)技術(shù)研究與發(fā)展計(jì)劃項(xiàng)目(No.072435158D,No.09213515D,No.09213575D);河北師范大學(xué)碩士基金資助項(xiàng)目(No.201102002)。
趙嬌嬌(1986—),女,碩士研究生,CCF學(xué)生會(huì)員,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、智能信息處理;趙書(shū)良(1967—),通訊作者,男,博士,教授,研究領(lǐng)域?yàn)橹悄苄畔⑻幚?;郭曉波?986—),男,碩士研究生,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、智能信息處理;劉軍丹(1987—),女,碩士研究生,研究領(lǐng)域?yàn)閼?yīng)用數(shù)學(xué)、智能信息處理。E-mail:zhaojiaojiao2013@163.com
2013-01-05
2013-02-18
1002-8331(2014)23-0122-05
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-04-08,http://www.cnki.net/kcms/detail/11.2127.TP.20130408.1648.020.html