翟霞 宋毅
【摘 要】 本文借助ARIZ思想深入研究了關(guān)聯(lián)規(guī)則挖掘模式,綜合介紹了關(guān)聯(lián)規(guī)則的理論基礎(chǔ),進(jìn)一步明確了項、項集、候選項集、頻繁項集、支持度、置信度這些重要知識點,對關(guān)聯(lián)規(guī)則進(jìn)行了多角度的分類,研究分析了關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,并對關(guān)聯(lián)規(guī)則的評價標(biāo)準(zhǔn)進(jìn)行了創(chuàng)新研究,引入了主觀興趣度和客觀相關(guān)性分析,為后續(xù)研究和改進(jìn)關(guān)聯(lián)規(guī)則的算法提供了理論基礎(chǔ)。
【關(guān)鍵詞】 ARIZ 關(guān)聯(lián)規(guī)則 興趣度 相關(guān)性分析
1 ARIZ主導(dǎo)思想
ARIZ(Algorithm for Inventive-Problem Solving,發(fā)明問題解決算法)最初由Ahshuller于1956年提出,是TRIZ中最強(qiáng)有力的工具,集成了TRIZ理論中大多數(shù)觀點和工具[1]。ARIZ的主導(dǎo)思想和觀點中最重要的就是克服思維慣性。思維慣性是創(chuàng)新設(shè)計的最大障礙,ARIZ強(qiáng)調(diào)在解決問題過程中必須開闊思路克服思維慣性,主要通過利用TRIZ已有工具和一系列心理算法克服思維慣性。
TRIZ認(rèn)為,一個創(chuàng)新問題解決的困難程度取決于對該問題的描述和問題的標(biāo)準(zhǔn)化程度,描述得越清楚,問題的標(biāo)準(zhǔn)化程度越高,問題就越容易解決。ARIZ中,創(chuàng)新問題求解的過程是對問題不斷地描述,不斷地標(biāo)準(zhǔn)化的過程。在這一過程中,初始問題最根本的矛盾被清晰地顯現(xiàn)出來。如果方案庫里已有的數(shù)據(jù)能夠用于該問題則是有標(biāo)準(zhǔn)解;如果已有的數(shù)據(jù)不能解決該問題則無標(biāo)準(zhǔn)解,需等待科學(xué)技術(shù)的進(jìn)一步發(fā)展。該過程是通過ARIZ算法實現(xiàn)的。
2 關(guān)聯(lián)規(guī)則挖掘的基本理論
關(guān)聯(lián)分析是和分類、聚類、演化分析等并列的一種知識發(fā)現(xiàn)模式,受到人們的廣泛關(guān)注。Agrawal等人在1993年首次提出了商業(yè)數(shù)據(jù)庫中各種商品間的關(guān)聯(lián)問題,之后關(guān)于關(guān)聯(lián)規(guī)則的研究層出不窮。關(guān)聯(lián)規(guī)則的應(yīng)用也由最初的購物籃分析擴(kuò)展到其他各個領(lǐng)域,挖掘得到的規(guī)則說明也呈現(xiàn)多元化。
設(shè)I={i1,i2,…,im}是常數(shù)的集合,其中m是任意有限的正整數(shù)常量,每個常數(shù)ik(k=1,2,……,m)稱為一個數(shù)據(jù)項,簡稱為項(item)。若X是由I中的任意數(shù)據(jù)項組成的集合,即XI,則稱X為項集,若X是包含K個數(shù)據(jù)項的項集稱為K-項集。
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在的潛在關(guān)系的規(guī)則,一個關(guān)聯(lián)規(guī)則是形如XY的蘊涵式,其中XI,YI,并且X∩Y=Φ。項集X稱為規(guī)則的前提或前項,Y稱為結(jié)果或后項。關(guān)聯(lián)規(guī)則直觀描述事件中各個數(shù)據(jù)項同時出現(xiàn)概率較高的情況,如何找出這種高概率的發(fā)生,也就是說,這種高概率達(dá)到什么標(biāo)準(zhǔn)才能被認(rèn)為是數(shù)據(jù)項之間是關(guān)聯(lián)的。最常規(guī)的評價標(biāo)準(zhǔn)是由支持度和置信度這兩個概念決定,通常被稱為關(guān)聯(lián)規(guī)則的評價函數(shù)。
關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,其中事務(wù)同時包含A和B的百分比,叫做該規(guī)則的覆蓋率或支持度,記為Support(A∪B)。覆蓋率高表示規(guī)則在數(shù)據(jù)庫中出現(xiàn)的頻率較高,這樣規(guī)則所表現(xiàn)的現(xiàn)象發(fā)生的可能性也比較大。
關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,在數(shù)據(jù)庫中同時出現(xiàn)項集A和B的記錄數(shù)與出現(xiàn)項集A的記錄數(shù)的百分比,叫做該規(guī)則的正確率或置信度,記為Confidence(A∪B)。正確率高表示規(guī)則比較可信的,正確率在90%以上的規(guī)則,我們稱之為強(qiáng)規(guī)則。
項集的頻率是事務(wù)數(shù)據(jù)庫中出現(xiàn)該項集的記錄數(shù)。如果某一項集頻率大于或等于最小支持度設(shè)定的閾值,我們通常稱它為頻繁項集(frequent itemset)。包含有k個項的頻繁項集即通常表示為k-頻集。當(dāng)一條規(guī)則同時滿足最小支持度和最小置信度設(shè)定的閾值時,這條規(guī)則就是我們要找的真正的關(guān)聯(lián)規(guī)則。
3 關(guān)聯(lián)規(guī)則挖掘的分類
根據(jù)規(guī)則中所涉及的數(shù)據(jù)項的數(shù)據(jù)類型分為布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則,例如:烤鴨甜面醬,被稱為布爾關(guān)聯(lián)規(guī)則,該規(guī)則前件和后件取值都是離散的,考慮的是某數(shù)據(jù)項存在或者不存在。在關(guān)聯(lián)規(guī)則中出現(xiàn)數(shù)值型數(shù)據(jù),例如:職稱(“副教授”)年齡(“32…37”),這類規(guī)則稱為量化關(guān)聯(lián)規(guī)則。
根據(jù)規(guī)則中項或?qū)傩陨婕暗降木S度數(shù)分為單維和多維關(guān)聯(lián)規(guī)則。規(guī)則中涉及的數(shù)據(jù)項只來自于一個屬性,例如:面包牛奶,這樣的規(guī)則稱為單維關(guān)聯(lián)規(guī)則。而多維關(guān)聯(lián)規(guī)則涉及事務(wù)數(shù)據(jù)庫中的多個屬性,例如:性別(“女”)職業(yè)(“教師”),可以稱為二維關(guān)聯(lián)規(guī)則。
根據(jù)規(guī)則中數(shù)據(jù)的抽象層次分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則[2]。在單層關(guān)聯(lián)規(guī)則中,所有的數(shù)據(jù)項都是概括級別低的細(xì)節(jié)數(shù)據(jù),沒有層次的劃分。多層關(guān)聯(lián)規(guī)則體現(xiàn)了數(shù)據(jù)的層次性,規(guī)則中的數(shù)據(jù)可能位于同一層次,也可能位于不同的層次。例如:聯(lián)想臺式機(jī)HP掃描儀是單層關(guān)聯(lián)規(guī)則,而“臺式機(jī)HP掃描儀”是一個高一級概括層次和細(xì)節(jié)層次之間的層間關(guān)聯(lián)規(guī)則,而“臺式機(jī)掃描儀”則是高概括層次上的同級別關(guān)聯(lián)規(guī)則。
4 關(guān)聯(lián)規(guī)則挖掘的方法
Apriori算法是關(guān)聯(lián)規(guī)則算法中經(jīng)典的算法,它采用“寬度優(yōu)先搜索策略”,核心思想是首先尋找頻繁項集,然后根據(jù)找到的頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的產(chǎn)生比較容易,只需保證規(guī)則滿足事先設(shè)定好的最小正確率即可。而尋找頻繁項集的過程要復(fù)雜很多,整個算法的總體執(zhí)行效率也是由這一步?jīng)Q定的。因此,針對該算法的研究熱門都集中在如何快速找到頻繁項集。
頻繁模式增長樹(Frequent Pattern-Growth)算法,是基于Apriori算法產(chǎn)生的,簡稱FP-Growth。該算法使用深度優(yōu)先搜索策略替代了Apriori算法的寬度優(yōu)先搜索策略[3],把數(shù)據(jù)庫壓縮映射到一個小而緊湊的數(shù)據(jù)結(jié)構(gòu)頻繁模式樹FP-Tree中,避免了多次掃描數(shù)據(jù)庫。利用“模式分段增長”法避免產(chǎn)生大量的候選集。采用分而治之的遞歸算法將挖掘任務(wù)分解成若干較小任務(wù),從而有效的縮小了搜索空間。
在關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘過程中,若是因為數(shù)據(jù)的分散性,很難在概念層次的細(xì)節(jié)層發(fā)現(xiàn)規(guī)則,這時一般采用多層關(guān)聯(lián)規(guī)則挖掘的方法。多層關(guān)聯(lián)規(guī)則挖掘一般采用自頂向下的方式,從最一般的概念層開始,到較具體的某一特定概念層,逐層尋找頻繁項集,直到不能找到頻繁項集為止。對于每一層,可以使用上面介紹的Apriori算法和FP-Growth算法,或是其他關(guān)聯(lián)規(guī)則算法。
5 關(guān)聯(lián)規(guī)則的價值評價方法
為了衡量挖掘出的某條規(guī)則是否有用,并且從結(jié)果集中過濾掉那些無用的規(guī)則,提出了基于興趣度的定義方法,可以分為主觀興趣度和相關(guān)性分析。
一條規(guī)則是否有價值最終取決于用戶的實際需求,只有用戶才可以最終決定所獲得的規(guī)則是否有效和可行。主觀興趣度的評價標(biāo)準(zhǔn)主要有兩種:不可預(yù)期性和可操作性[4]。不可預(yù)期性是指如果挖掘出來的規(guī)則用戶以前不知道,或者說與用戶已知的知識剛好相反,則說該規(guī)則具有不可預(yù)期性??刹僮餍允侵溉绻脩艨梢岳靡?guī)則采取對自己有利的操作行為,則說該規(guī)則具有可操作性。
參考文獻(xiàn):
[1]沈萌紅.《TRIZ理論及機(jī)械創(chuàng)新實踐》[M].機(jī)械工業(yè)出版社,2012:18-26.
[2]段玉琴.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[D].西安:西安電子科技大學(xué)碩士論文,2011:1-10.
[3]SHENG P,HUANG J R,HUANG S M,BEI G.Turbo-Charging Vertical Mining of Large Databases[C]. SIGMOD Conference,New York,2010:492-50l.
[4]常同善.數(shù)據(jù)挖掘技術(shù)在美國院校研究中的應(yīng)用[J].復(fù)旦教育論,2009,(2):72-79.
[5]吳青,傅秀芬.水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)技術(shù)與發(fā)展,2010,(6):113-117.
【摘 要】 本文借助ARIZ思想深入研究了關(guān)聯(lián)規(guī)則挖掘模式,綜合介紹了關(guān)聯(lián)規(guī)則的理論基礎(chǔ),進(jìn)一步明確了項、項集、候選項集、頻繁項集、支持度、置信度這些重要知識點,對關(guān)聯(lián)規(guī)則進(jìn)行了多角度的分類,研究分析了關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,并對關(guān)聯(lián)規(guī)則的評價標(biāo)準(zhǔn)進(jìn)行了創(chuàng)新研究,引入了主觀興趣度和客觀相關(guān)性分析,為后續(xù)研究和改進(jìn)關(guān)聯(lián)規(guī)則的算法提供了理論基礎(chǔ)。
【關(guān)鍵詞】 ARIZ 關(guān)聯(lián)規(guī)則 興趣度 相關(guān)性分析
1 ARIZ主導(dǎo)思想
ARIZ(Algorithm for Inventive-Problem Solving,發(fā)明問題解決算法)最初由Ahshuller于1956年提出,是TRIZ中最強(qiáng)有力的工具,集成了TRIZ理論中大多數(shù)觀點和工具[1]。ARIZ的主導(dǎo)思想和觀點中最重要的就是克服思維慣性。思維慣性是創(chuàng)新設(shè)計的最大障礙,ARIZ強(qiáng)調(diào)在解決問題過程中必須開闊思路克服思維慣性,主要通過利用TRIZ已有工具和一系列心理算法克服思維慣性。
TRIZ認(rèn)為,一個創(chuàng)新問題解決的困難程度取決于對該問題的描述和問題的標(biāo)準(zhǔn)化程度,描述得越清楚,問題的標(biāo)準(zhǔn)化程度越高,問題就越容易解決。ARIZ中,創(chuàng)新問題求解的過程是對問題不斷地描述,不斷地標(biāo)準(zhǔn)化的過程。在這一過程中,初始問題最根本的矛盾被清晰地顯現(xiàn)出來。如果方案庫里已有的數(shù)據(jù)能夠用于該問題則是有標(biāo)準(zhǔn)解;如果已有的數(shù)據(jù)不能解決該問題則無標(biāo)準(zhǔn)解,需等待科學(xué)技術(shù)的進(jìn)一步發(fā)展。該過程是通過ARIZ算法實現(xiàn)的。
2 關(guān)聯(lián)規(guī)則挖掘的基本理論
關(guān)聯(lián)分析是和分類、聚類、演化分析等并列的一種知識發(fā)現(xiàn)模式,受到人們的廣泛關(guān)注。Agrawal等人在1993年首次提出了商業(yè)數(shù)據(jù)庫中各種商品間的關(guān)聯(lián)問題,之后關(guān)于關(guān)聯(lián)規(guī)則的研究層出不窮。關(guān)聯(lián)規(guī)則的應(yīng)用也由最初的購物籃分析擴(kuò)展到其他各個領(lǐng)域,挖掘得到的規(guī)則說明也呈現(xiàn)多元化。
設(shè)I={i1,i2,…,im}是常數(shù)的集合,其中m是任意有限的正整數(shù)常量,每個常數(shù)ik(k=1,2,……,m)稱為一個數(shù)據(jù)項,簡稱為項(item)。若X是由I中的任意數(shù)據(jù)項組成的集合,即XI,則稱X為項集,若X是包含K個數(shù)據(jù)項的項集稱為K-項集。
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在的潛在關(guān)系的規(guī)則,一個關(guān)聯(lián)規(guī)則是形如XY的蘊涵式,其中XI,YI,并且X∩Y=Φ。項集X稱為規(guī)則的前提或前項,Y稱為結(jié)果或后項。關(guān)聯(lián)規(guī)則直觀描述事件中各個數(shù)據(jù)項同時出現(xiàn)概率較高的情況,如何找出這種高概率的發(fā)生,也就是說,這種高概率達(dá)到什么標(biāo)準(zhǔn)才能被認(rèn)為是數(shù)據(jù)項之間是關(guān)聯(lián)的。最常規(guī)的評價標(biāo)準(zhǔn)是由支持度和置信度這兩個概念決定,通常被稱為關(guān)聯(lián)規(guī)則的評價函數(shù)。
關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,其中事務(wù)同時包含A和B的百分比,叫做該規(guī)則的覆蓋率或支持度,記為Support(A∪B)。覆蓋率高表示規(guī)則在數(shù)據(jù)庫中出現(xiàn)的頻率較高,這樣規(guī)則所表現(xiàn)的現(xiàn)象發(fā)生的可能性也比較大。
關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,在數(shù)據(jù)庫中同時出現(xiàn)項集A和B的記錄數(shù)與出現(xiàn)項集A的記錄數(shù)的百分比,叫做該規(guī)則的正確率或置信度,記為Confidence(A∪B)。正確率高表示規(guī)則比較可信的,正確率在90%以上的規(guī)則,我們稱之為強(qiáng)規(guī)則。
項集的頻率是事務(wù)數(shù)據(jù)庫中出現(xiàn)該項集的記錄數(shù)。如果某一項集頻率大于或等于最小支持度設(shè)定的閾值,我們通常稱它為頻繁項集(frequent itemset)。包含有k個項的頻繁項集即通常表示為k-頻集。當(dāng)一條規(guī)則同時滿足最小支持度和最小置信度設(shè)定的閾值時,這條規(guī)則就是我們要找的真正的關(guān)聯(lián)規(guī)則。
3 關(guān)聯(lián)規(guī)則挖掘的分類
根據(jù)規(guī)則中所涉及的數(shù)據(jù)項的數(shù)據(jù)類型分為布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則,例如:烤鴨甜面醬,被稱為布爾關(guān)聯(lián)規(guī)則,該規(guī)則前件和后件取值都是離散的,考慮的是某數(shù)據(jù)項存在或者不存在。在關(guān)聯(lián)規(guī)則中出現(xiàn)數(shù)值型數(shù)據(jù),例如:職稱(“副教授”)年齡(“32…37”),這類規(guī)則稱為量化關(guān)聯(lián)規(guī)則。
根據(jù)規(guī)則中項或?qū)傩陨婕暗降木S度數(shù)分為單維和多維關(guān)聯(lián)規(guī)則。規(guī)則中涉及的數(shù)據(jù)項只來自于一個屬性,例如:面包牛奶,這樣的規(guī)則稱為單維關(guān)聯(lián)規(guī)則。而多維關(guān)聯(lián)規(guī)則涉及事務(wù)數(shù)據(jù)庫中的多個屬性,例如:性別(“女”)職業(yè)(“教師”),可以稱為二維關(guān)聯(lián)規(guī)則。
根據(jù)規(guī)則中數(shù)據(jù)的抽象層次分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則[2]。在單層關(guān)聯(lián)規(guī)則中,所有的數(shù)據(jù)項都是概括級別低的細(xì)節(jié)數(shù)據(jù),沒有層次的劃分。多層關(guān)聯(lián)規(guī)則體現(xiàn)了數(shù)據(jù)的層次性,規(guī)則中的數(shù)據(jù)可能位于同一層次,也可能位于不同的層次。例如:聯(lián)想臺式機(jī)HP掃描儀是單層關(guān)聯(lián)規(guī)則,而“臺式機(jī)HP掃描儀”是一個高一級概括層次和細(xì)節(jié)層次之間的層間關(guān)聯(lián)規(guī)則,而“臺式機(jī)掃描儀”則是高概括層次上的同級別關(guān)聯(lián)規(guī)則。
4 關(guān)聯(lián)規(guī)則挖掘的方法
Apriori算法是關(guān)聯(lián)規(guī)則算法中經(jīng)典的算法,它采用“寬度優(yōu)先搜索策略”,核心思想是首先尋找頻繁項集,然后根據(jù)找到的頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的產(chǎn)生比較容易,只需保證規(guī)則滿足事先設(shè)定好的最小正確率即可。而尋找頻繁項集的過程要復(fù)雜很多,整個算法的總體執(zhí)行效率也是由這一步?jīng)Q定的。因此,針對該算法的研究熱門都集中在如何快速找到頻繁項集。
頻繁模式增長樹(Frequent Pattern-Growth)算法,是基于Apriori算法產(chǎn)生的,簡稱FP-Growth。該算法使用深度優(yōu)先搜索策略替代了Apriori算法的寬度優(yōu)先搜索策略[3],把數(shù)據(jù)庫壓縮映射到一個小而緊湊的數(shù)據(jù)結(jié)構(gòu)頻繁模式樹FP-Tree中,避免了多次掃描數(shù)據(jù)庫。利用“模式分段增長”法避免產(chǎn)生大量的候選集。采用分而治之的遞歸算法將挖掘任務(wù)分解成若干較小任務(wù),從而有效的縮小了搜索空間。
在關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘過程中,若是因為數(shù)據(jù)的分散性,很難在概念層次的細(xì)節(jié)層發(fā)現(xiàn)規(guī)則,這時一般采用多層關(guān)聯(lián)規(guī)則挖掘的方法。多層關(guān)聯(lián)規(guī)則挖掘一般采用自頂向下的方式,從最一般的概念層開始,到較具體的某一特定概念層,逐層尋找頻繁項集,直到不能找到頻繁項集為止。對于每一層,可以使用上面介紹的Apriori算法和FP-Growth算法,或是其他關(guān)聯(lián)規(guī)則算法。
5 關(guān)聯(lián)規(guī)則的價值評價方法
為了衡量挖掘出的某條規(guī)則是否有用,并且從結(jié)果集中過濾掉那些無用的規(guī)則,提出了基于興趣度的定義方法,可以分為主觀興趣度和相關(guān)性分析。
一條規(guī)則是否有價值最終取決于用戶的實際需求,只有用戶才可以最終決定所獲得的規(guī)則是否有效和可行。主觀興趣度的評價標(biāo)準(zhǔn)主要有兩種:不可預(yù)期性和可操作性[4]。不可預(yù)期性是指如果挖掘出來的規(guī)則用戶以前不知道,或者說與用戶已知的知識剛好相反,則說該規(guī)則具有不可預(yù)期性??刹僮餍允侵溉绻脩艨梢岳靡?guī)則采取對自己有利的操作行為,則說該規(guī)則具有可操作性。
參考文獻(xiàn):
[1]沈萌紅.《TRIZ理論及機(jī)械創(chuàng)新實踐》[M].機(jī)械工業(yè)出版社,2012:18-26.
[2]段玉琴.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[D].西安:西安電子科技大學(xué)碩士論文,2011:1-10.
[3]SHENG P,HUANG J R,HUANG S M,BEI G.Turbo-Charging Vertical Mining of Large Databases[C]. SIGMOD Conference,New York,2010:492-50l.
[4]常同善.數(shù)據(jù)挖掘技術(shù)在美國院校研究中的應(yīng)用[J].復(fù)旦教育論,2009,(2):72-79.
[5]吳青,傅秀芬.水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)技術(shù)與發(fā)展,2010,(6):113-117.
【摘 要】 本文借助ARIZ思想深入研究了關(guān)聯(lián)規(guī)則挖掘模式,綜合介紹了關(guān)聯(lián)規(guī)則的理論基礎(chǔ),進(jìn)一步明確了項、項集、候選項集、頻繁項集、支持度、置信度這些重要知識點,對關(guān)聯(lián)規(guī)則進(jìn)行了多角度的分類,研究分析了關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,并對關(guān)聯(lián)規(guī)則的評價標(biāo)準(zhǔn)進(jìn)行了創(chuàng)新研究,引入了主觀興趣度和客觀相關(guān)性分析,為后續(xù)研究和改進(jìn)關(guān)聯(lián)規(guī)則的算法提供了理論基礎(chǔ)。
【關(guān)鍵詞】 ARIZ 關(guān)聯(lián)規(guī)則 興趣度 相關(guān)性分析
1 ARIZ主導(dǎo)思想
ARIZ(Algorithm for Inventive-Problem Solving,發(fā)明問題解決算法)最初由Ahshuller于1956年提出,是TRIZ中最強(qiáng)有力的工具,集成了TRIZ理論中大多數(shù)觀點和工具[1]。ARIZ的主導(dǎo)思想和觀點中最重要的就是克服思維慣性。思維慣性是創(chuàng)新設(shè)計的最大障礙,ARIZ強(qiáng)調(diào)在解決問題過程中必須開闊思路克服思維慣性,主要通過利用TRIZ已有工具和一系列心理算法克服思維慣性。
TRIZ認(rèn)為,一個創(chuàng)新問題解決的困難程度取決于對該問題的描述和問題的標(biāo)準(zhǔn)化程度,描述得越清楚,問題的標(biāo)準(zhǔn)化程度越高,問題就越容易解決。ARIZ中,創(chuàng)新問題求解的過程是對問題不斷地描述,不斷地標(biāo)準(zhǔn)化的過程。在這一過程中,初始問題最根本的矛盾被清晰地顯現(xiàn)出來。如果方案庫里已有的數(shù)據(jù)能夠用于該問題則是有標(biāo)準(zhǔn)解;如果已有的數(shù)據(jù)不能解決該問題則無標(biāo)準(zhǔn)解,需等待科學(xué)技術(shù)的進(jìn)一步發(fā)展。該過程是通過ARIZ算法實現(xiàn)的。
2 關(guān)聯(lián)規(guī)則挖掘的基本理論
關(guān)聯(lián)分析是和分類、聚類、演化分析等并列的一種知識發(fā)現(xiàn)模式,受到人們的廣泛關(guān)注。Agrawal等人在1993年首次提出了商業(yè)數(shù)據(jù)庫中各種商品間的關(guān)聯(lián)問題,之后關(guān)于關(guān)聯(lián)規(guī)則的研究層出不窮。關(guān)聯(lián)規(guī)則的應(yīng)用也由最初的購物籃分析擴(kuò)展到其他各個領(lǐng)域,挖掘得到的規(guī)則說明也呈現(xiàn)多元化。
設(shè)I={i1,i2,…,im}是常數(shù)的集合,其中m是任意有限的正整數(shù)常量,每個常數(shù)ik(k=1,2,……,m)稱為一個數(shù)據(jù)項,簡稱為項(item)。若X是由I中的任意數(shù)據(jù)項組成的集合,即XI,則稱X為項集,若X是包含K個數(shù)據(jù)項的項集稱為K-項集。
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在的潛在關(guān)系的規(guī)則,一個關(guān)聯(lián)規(guī)則是形如XY的蘊涵式,其中XI,YI,并且X∩Y=Φ。項集X稱為規(guī)則的前提或前項,Y稱為結(jié)果或后項。關(guān)聯(lián)規(guī)則直觀描述事件中各個數(shù)據(jù)項同時出現(xiàn)概率較高的情況,如何找出這種高概率的發(fā)生,也就是說,這種高概率達(dá)到什么標(biāo)準(zhǔn)才能被認(rèn)為是數(shù)據(jù)項之間是關(guān)聯(lián)的。最常規(guī)的評價標(biāo)準(zhǔn)是由支持度和置信度這兩個概念決定,通常被稱為關(guān)聯(lián)規(guī)則的評價函數(shù)。
關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,其中事務(wù)同時包含A和B的百分比,叫做該規(guī)則的覆蓋率或支持度,記為Support(A∪B)。覆蓋率高表示規(guī)則在數(shù)據(jù)庫中出現(xiàn)的頻率較高,這樣規(guī)則所表現(xiàn)的現(xiàn)象發(fā)生的可能性也比較大。
關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,在數(shù)據(jù)庫中同時出現(xiàn)項集A和B的記錄數(shù)與出現(xiàn)項集A的記錄數(shù)的百分比,叫做該規(guī)則的正確率或置信度,記為Confidence(A∪B)。正確率高表示規(guī)則比較可信的,正確率在90%以上的規(guī)則,我們稱之為強(qiáng)規(guī)則。
項集的頻率是事務(wù)數(shù)據(jù)庫中出現(xiàn)該項集的記錄數(shù)。如果某一項集頻率大于或等于最小支持度設(shè)定的閾值,我們通常稱它為頻繁項集(frequent itemset)。包含有k個項的頻繁項集即通常表示為k-頻集。當(dāng)一條規(guī)則同時滿足最小支持度和最小置信度設(shè)定的閾值時,這條規(guī)則就是我們要找的真正的關(guān)聯(lián)規(guī)則。
3 關(guān)聯(lián)規(guī)則挖掘的分類
根據(jù)規(guī)則中所涉及的數(shù)據(jù)項的數(shù)據(jù)類型分為布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則,例如:烤鴨甜面醬,被稱為布爾關(guān)聯(lián)規(guī)則,該規(guī)則前件和后件取值都是離散的,考慮的是某數(shù)據(jù)項存在或者不存在。在關(guān)聯(lián)規(guī)則中出現(xiàn)數(shù)值型數(shù)據(jù),例如:職稱(“副教授”)年齡(“32…37”),這類規(guī)則稱為量化關(guān)聯(lián)規(guī)則。
根據(jù)規(guī)則中項或?qū)傩陨婕暗降木S度數(shù)分為單維和多維關(guān)聯(lián)規(guī)則。規(guī)則中涉及的數(shù)據(jù)項只來自于一個屬性,例如:面包牛奶,這樣的規(guī)則稱為單維關(guān)聯(lián)規(guī)則。而多維關(guān)聯(lián)規(guī)則涉及事務(wù)數(shù)據(jù)庫中的多個屬性,例如:性別(“女”)職業(yè)(“教師”),可以稱為二維關(guān)聯(lián)規(guī)則。
根據(jù)規(guī)則中數(shù)據(jù)的抽象層次分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則[2]。在單層關(guān)聯(lián)規(guī)則中,所有的數(shù)據(jù)項都是概括級別低的細(xì)節(jié)數(shù)據(jù),沒有層次的劃分。多層關(guān)聯(lián)規(guī)則體現(xiàn)了數(shù)據(jù)的層次性,規(guī)則中的數(shù)據(jù)可能位于同一層次,也可能位于不同的層次。例如:聯(lián)想臺式機(jī)HP掃描儀是單層關(guān)聯(lián)規(guī)則,而“臺式機(jī)HP掃描儀”是一個高一級概括層次和細(xì)節(jié)層次之間的層間關(guān)聯(lián)規(guī)則,而“臺式機(jī)掃描儀”則是高概括層次上的同級別關(guān)聯(lián)規(guī)則。
4 關(guān)聯(lián)規(guī)則挖掘的方法
Apriori算法是關(guān)聯(lián)規(guī)則算法中經(jīng)典的算法,它采用“寬度優(yōu)先搜索策略”,核心思想是首先尋找頻繁項集,然后根據(jù)找到的頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的產(chǎn)生比較容易,只需保證規(guī)則滿足事先設(shè)定好的最小正確率即可。而尋找頻繁項集的過程要復(fù)雜很多,整個算法的總體執(zhí)行效率也是由這一步?jīng)Q定的。因此,針對該算法的研究熱門都集中在如何快速找到頻繁項集。
頻繁模式增長樹(Frequent Pattern-Growth)算法,是基于Apriori算法產(chǎn)生的,簡稱FP-Growth。該算法使用深度優(yōu)先搜索策略替代了Apriori算法的寬度優(yōu)先搜索策略[3],把數(shù)據(jù)庫壓縮映射到一個小而緊湊的數(shù)據(jù)結(jié)構(gòu)頻繁模式樹FP-Tree中,避免了多次掃描數(shù)據(jù)庫。利用“模式分段增長”法避免產(chǎn)生大量的候選集。采用分而治之的遞歸算法將挖掘任務(wù)分解成若干較小任務(wù),從而有效的縮小了搜索空間。
在關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘過程中,若是因為數(shù)據(jù)的分散性,很難在概念層次的細(xì)節(jié)層發(fā)現(xiàn)規(guī)則,這時一般采用多層關(guān)聯(lián)規(guī)則挖掘的方法。多層關(guān)聯(lián)規(guī)則挖掘一般采用自頂向下的方式,從最一般的概念層開始,到較具體的某一特定概念層,逐層尋找頻繁項集,直到不能找到頻繁項集為止。對于每一層,可以使用上面介紹的Apriori算法和FP-Growth算法,或是其他關(guān)聯(lián)規(guī)則算法。
5 關(guān)聯(lián)規(guī)則的價值評價方法
為了衡量挖掘出的某條規(guī)則是否有用,并且從結(jié)果集中過濾掉那些無用的規(guī)則,提出了基于興趣度的定義方法,可以分為主觀興趣度和相關(guān)性分析。
一條規(guī)則是否有價值最終取決于用戶的實際需求,只有用戶才可以最終決定所獲得的規(guī)則是否有效和可行。主觀興趣度的評價標(biāo)準(zhǔn)主要有兩種:不可預(yù)期性和可操作性[4]。不可預(yù)期性是指如果挖掘出來的規(guī)則用戶以前不知道,或者說與用戶已知的知識剛好相反,則說該規(guī)則具有不可預(yù)期性??刹僮餍允侵溉绻脩艨梢岳靡?guī)則采取對自己有利的操作行為,則說該規(guī)則具有可操作性。
參考文獻(xiàn):
[1]沈萌紅.《TRIZ理論及機(jī)械創(chuàng)新實踐》[M].機(jī)械工業(yè)出版社,2012:18-26.
[2]段玉琴.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[D].西安:西安電子科技大學(xué)碩士論文,2011:1-10.
[3]SHENG P,HUANG J R,HUANG S M,BEI G.Turbo-Charging Vertical Mining of Large Databases[C]. SIGMOD Conference,New York,2010:492-50l.
[4]常同善.數(shù)據(jù)挖掘技術(shù)在美國院校研究中的應(yīng)用[J].復(fù)旦教育論,2009,(2):72-79.
[5]吳青,傅秀芬.水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)技術(shù)與發(fā)展,2010,(6):113-117.