亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ARIZ的關(guān)聯(lián)規(guī)則知識發(fā)現(xiàn)模式研究

        2014-08-30 08:53:02翟霞宋毅
        中國科技縱橫 2014年11期

        翟霞 宋毅

        【摘 要】 本文借助ARIZ思想深入研究了關(guān)聯(lián)規(guī)則挖掘模式,綜合介紹了關(guān)聯(lián)規(guī)則的理論基礎(chǔ),進(jìn)一步明確了項、項集、候選項集、頻繁項集、支持度、置信度這些重要知識點,對關(guān)聯(lián)規(guī)則進(jìn)行了多角度的分類,研究分析了關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,并對關(guān)聯(lián)規(guī)則的評價標(biāo)準(zhǔn)進(jìn)行了創(chuàng)新研究,引入了主觀興趣度和客觀相關(guān)性分析,為后續(xù)研究和改進(jìn)關(guān)聯(lián)規(guī)則的算法提供了理論基礎(chǔ)。

        【關(guān)鍵詞】 ARIZ 關(guān)聯(lián)規(guī)則 興趣度 相關(guān)性分析

        1 ARIZ主導(dǎo)思想

        ARIZ(Algorithm for Inventive-Problem Solving,發(fā)明問題解決算法)最初由Ahshuller于1956年提出,是TRIZ中最強(qiáng)有力的工具,集成了TRIZ理論中大多數(shù)觀點和工具[1]。ARIZ的主導(dǎo)思想和觀點中最重要的就是克服思維慣性。思維慣性是創(chuàng)新設(shè)計的最大障礙,ARIZ強(qiáng)調(diào)在解決問題過程中必須開闊思路克服思維慣性,主要通過利用TRIZ已有工具和一系列心理算法克服思維慣性。

        TRIZ認(rèn)為,一個創(chuàng)新問題解決的困難程度取決于對該問題的描述和問題的標(biāo)準(zhǔn)化程度,描述得越清楚,問題的標(biāo)準(zhǔn)化程度越高,問題就越容易解決。ARIZ中,創(chuàng)新問題求解的過程是對問題不斷地描述,不斷地標(biāo)準(zhǔn)化的過程。在這一過程中,初始問題最根本的矛盾被清晰地顯現(xiàn)出來。如果方案庫里已有的數(shù)據(jù)能夠用于該問題則是有標(biāo)準(zhǔn)解;如果已有的數(shù)據(jù)不能解決該問題則無標(biāo)準(zhǔn)解,需等待科學(xué)技術(shù)的進(jìn)一步發(fā)展。該過程是通過ARIZ算法實現(xiàn)的。

        2 關(guān)聯(lián)規(guī)則挖掘的基本理論

        關(guān)聯(lián)分析是和分類、聚類、演化分析等并列的一種知識發(fā)現(xiàn)模式,受到人們的廣泛關(guān)注。Agrawal等人在1993年首次提出了商業(yè)數(shù)據(jù)庫中各種商品間的關(guān)聯(lián)問題,之后關(guān)于關(guān)聯(lián)規(guī)則的研究層出不窮。關(guān)聯(lián)規(guī)則的應(yīng)用也由最初的購物籃分析擴(kuò)展到其他各個領(lǐng)域,挖掘得到的規(guī)則說明也呈現(xiàn)多元化。

        設(shè)I={i1,i2,…,im}是常數(shù)的集合,其中m是任意有限的正整數(shù)常量,每個常數(shù)ik(k=1,2,……,m)稱為一個數(shù)據(jù)項,簡稱為項(item)。若X是由I中的任意數(shù)據(jù)項組成的集合,即XI,則稱X為項集,若X是包含K個數(shù)據(jù)項的項集稱為K-項集。

        關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在的潛在關(guān)系的規(guī)則,一個關(guān)聯(lián)規(guī)則是形如XY的蘊涵式,其中XI,YI,并且X∩Y=Φ。項集X稱為規(guī)則的前提或前項,Y稱為結(jié)果或后項。關(guān)聯(lián)規(guī)則直觀描述事件中各個數(shù)據(jù)項同時出現(xiàn)概率較高的情況,如何找出這種高概率的發(fā)生,也就是說,這種高概率達(dá)到什么標(biāo)準(zhǔn)才能被認(rèn)為是數(shù)據(jù)項之間是關(guān)聯(lián)的。最常規(guī)的評價標(biāo)準(zhǔn)是由支持度和置信度這兩個概念決定,通常被稱為關(guān)聯(lián)規(guī)則的評價函數(shù)。

        關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,其中事務(wù)同時包含A和B的百分比,叫做該規(guī)則的覆蓋率或支持度,記為Support(A∪B)。覆蓋率高表示規(guī)則在數(shù)據(jù)庫中出現(xiàn)的頻率較高,這樣規(guī)則所表現(xiàn)的現(xiàn)象發(fā)生的可能性也比較大。

        關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,在數(shù)據(jù)庫中同時出現(xiàn)項集A和B的記錄數(shù)與出現(xiàn)項集A的記錄數(shù)的百分比,叫做該規(guī)則的正確率或置信度,記為Confidence(A∪B)。正確率高表示規(guī)則比較可信的,正確率在90%以上的規(guī)則,我們稱之為強(qiáng)規(guī)則。

        項集的頻率是事務(wù)數(shù)據(jù)庫中出現(xiàn)該項集的記錄數(shù)。如果某一項集頻率大于或等于最小支持度設(shè)定的閾值,我們通常稱它為頻繁項集(frequent itemset)。包含有k個項的頻繁項集即通常表示為k-頻集。當(dāng)一條規(guī)則同時滿足最小支持度和最小置信度設(shè)定的閾值時,這條規(guī)則就是我們要找的真正的關(guān)聯(lián)規(guī)則。

        3 關(guān)聯(lián)規(guī)則挖掘的分類

        根據(jù)規(guī)則中所涉及的數(shù)據(jù)項的數(shù)據(jù)類型分為布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則,例如:烤鴨甜面醬,被稱為布爾關(guān)聯(lián)規(guī)則,該規(guī)則前件和后件取值都是離散的,考慮的是某數(shù)據(jù)項存在或者不存在。在關(guān)聯(lián)規(guī)則中出現(xiàn)數(shù)值型數(shù)據(jù),例如:職稱(“副教授”)年齡(“32…37”),這類規(guī)則稱為量化關(guān)聯(lián)規(guī)則。

        根據(jù)規(guī)則中項或?qū)傩陨婕暗降木S度數(shù)分為單維和多維關(guān)聯(lián)規(guī)則。規(guī)則中涉及的數(shù)據(jù)項只來自于一個屬性,例如:面包牛奶,這樣的規(guī)則稱為單維關(guān)聯(lián)規(guī)則。而多維關(guān)聯(lián)規(guī)則涉及事務(wù)數(shù)據(jù)庫中的多個屬性,例如:性別(“女”)職業(yè)(“教師”),可以稱為二維關(guān)聯(lián)規(guī)則。

        根據(jù)規(guī)則中數(shù)據(jù)的抽象層次分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則[2]。在單層關(guān)聯(lián)規(guī)則中,所有的數(shù)據(jù)項都是概括級別低的細(xì)節(jié)數(shù)據(jù),沒有層次的劃分。多層關(guān)聯(lián)規(guī)則體現(xiàn)了數(shù)據(jù)的層次性,規(guī)則中的數(shù)據(jù)可能位于同一層次,也可能位于不同的層次。例如:聯(lián)想臺式機(jī)HP掃描儀是單層關(guān)聯(lián)規(guī)則,而“臺式機(jī)HP掃描儀”是一個高一級概括層次和細(xì)節(jié)層次之間的層間關(guān)聯(lián)規(guī)則,而“臺式機(jī)掃描儀”則是高概括層次上的同級別關(guān)聯(lián)規(guī)則。

        4 關(guān)聯(lián)規(guī)則挖掘的方法

        Apriori算法是關(guān)聯(lián)規(guī)則算法中經(jīng)典的算法,它采用“寬度優(yōu)先搜索策略”,核心思想是首先尋找頻繁項集,然后根據(jù)找到的頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的產(chǎn)生比較容易,只需保證規(guī)則滿足事先設(shè)定好的最小正確率即可。而尋找頻繁項集的過程要復(fù)雜很多,整個算法的總體執(zhí)行效率也是由這一步?jīng)Q定的。因此,針對該算法的研究熱門都集中在如何快速找到頻繁項集。

        頻繁模式增長樹(Frequent Pattern-Growth)算法,是基于Apriori算法產(chǎn)生的,簡稱FP-Growth。該算法使用深度優(yōu)先搜索策略替代了Apriori算法的寬度優(yōu)先搜索策略[3],把數(shù)據(jù)庫壓縮映射到一個小而緊湊的數(shù)據(jù)結(jié)構(gòu)頻繁模式樹FP-Tree中,避免了多次掃描數(shù)據(jù)庫。利用“模式分段增長”法避免產(chǎn)生大量的候選集。采用分而治之的遞歸算法將挖掘任務(wù)分解成若干較小任務(wù),從而有效的縮小了搜索空間。

        在關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘過程中,若是因為數(shù)據(jù)的分散性,很難在概念層次的細(xì)節(jié)層發(fā)現(xiàn)規(guī)則,這時一般采用多層關(guān)聯(lián)規(guī)則挖掘的方法。多層關(guān)聯(lián)規(guī)則挖掘一般采用自頂向下的方式,從最一般的概念層開始,到較具體的某一特定概念層,逐層尋找頻繁項集,直到不能找到頻繁項集為止。對于每一層,可以使用上面介紹的Apriori算法和FP-Growth算法,或是其他關(guān)聯(lián)規(guī)則算法。

        5 關(guān)聯(lián)規(guī)則的價值評價方法

        為了衡量挖掘出的某條規(guī)則是否有用,并且從結(jié)果集中過濾掉那些無用的規(guī)則,提出了基于興趣度的定義方法,可以分為主觀興趣度和相關(guān)性分析。

        一條規(guī)則是否有價值最終取決于用戶的實際需求,只有用戶才可以最終決定所獲得的規(guī)則是否有效和可行。主觀興趣度的評價標(biāo)準(zhǔn)主要有兩種:不可預(yù)期性和可操作性[4]。不可預(yù)期性是指如果挖掘出來的規(guī)則用戶以前不知道,或者說與用戶已知的知識剛好相反,則說該規(guī)則具有不可預(yù)期性??刹僮餍允侵溉绻脩艨梢岳靡?guī)則采取對自己有利的操作行為,則說該規(guī)則具有可操作性。

        參考文獻(xiàn):

        [1]沈萌紅.《TRIZ理論及機(jī)械創(chuàng)新實踐》[M].機(jī)械工業(yè)出版社,2012:18-26.

        [2]段玉琴.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[D].西安:西安電子科技大學(xué)碩士論文,2011:1-10.

        [3]SHENG P,HUANG J R,HUANG S M,BEI G.Turbo-Charging Vertical Mining of Large Databases[C]. SIGMOD Conference,New York,2010:492-50l.

        [4]常同善.數(shù)據(jù)挖掘技術(shù)在美國院校研究中的應(yīng)用[J].復(fù)旦教育論,2009,(2):72-79.

        [5]吳青,傅秀芬.水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)技術(shù)與發(fā)展,2010,(6):113-117.

        【摘 要】 本文借助ARIZ思想深入研究了關(guān)聯(lián)規(guī)則挖掘模式,綜合介紹了關(guān)聯(lián)規(guī)則的理論基礎(chǔ),進(jìn)一步明確了項、項集、候選項集、頻繁項集、支持度、置信度這些重要知識點,對關(guān)聯(lián)規(guī)則進(jìn)行了多角度的分類,研究分析了關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,并對關(guān)聯(lián)規(guī)則的評價標(biāo)準(zhǔn)進(jìn)行了創(chuàng)新研究,引入了主觀興趣度和客觀相關(guān)性分析,為后續(xù)研究和改進(jìn)關(guān)聯(lián)規(guī)則的算法提供了理論基礎(chǔ)。

        【關(guān)鍵詞】 ARIZ 關(guān)聯(lián)規(guī)則 興趣度 相關(guān)性分析

        1 ARIZ主導(dǎo)思想

        ARIZ(Algorithm for Inventive-Problem Solving,發(fā)明問題解決算法)最初由Ahshuller于1956年提出,是TRIZ中最強(qiáng)有力的工具,集成了TRIZ理論中大多數(shù)觀點和工具[1]。ARIZ的主導(dǎo)思想和觀點中最重要的就是克服思維慣性。思維慣性是創(chuàng)新設(shè)計的最大障礙,ARIZ強(qiáng)調(diào)在解決問題過程中必須開闊思路克服思維慣性,主要通過利用TRIZ已有工具和一系列心理算法克服思維慣性。

        TRIZ認(rèn)為,一個創(chuàng)新問題解決的困難程度取決于對該問題的描述和問題的標(biāo)準(zhǔn)化程度,描述得越清楚,問題的標(biāo)準(zhǔn)化程度越高,問題就越容易解決。ARIZ中,創(chuàng)新問題求解的過程是對問題不斷地描述,不斷地標(biāo)準(zhǔn)化的過程。在這一過程中,初始問題最根本的矛盾被清晰地顯現(xiàn)出來。如果方案庫里已有的數(shù)據(jù)能夠用于該問題則是有標(biāo)準(zhǔn)解;如果已有的數(shù)據(jù)不能解決該問題則無標(biāo)準(zhǔn)解,需等待科學(xué)技術(shù)的進(jìn)一步發(fā)展。該過程是通過ARIZ算法實現(xiàn)的。

        2 關(guān)聯(lián)規(guī)則挖掘的基本理論

        關(guān)聯(lián)分析是和分類、聚類、演化分析等并列的一種知識發(fā)現(xiàn)模式,受到人們的廣泛關(guān)注。Agrawal等人在1993年首次提出了商業(yè)數(shù)據(jù)庫中各種商品間的關(guān)聯(lián)問題,之后關(guān)于關(guān)聯(lián)規(guī)則的研究層出不窮。關(guān)聯(lián)規(guī)則的應(yīng)用也由最初的購物籃分析擴(kuò)展到其他各個領(lǐng)域,挖掘得到的規(guī)則說明也呈現(xiàn)多元化。

        設(shè)I={i1,i2,…,im}是常數(shù)的集合,其中m是任意有限的正整數(shù)常量,每個常數(shù)ik(k=1,2,……,m)稱為一個數(shù)據(jù)項,簡稱為項(item)。若X是由I中的任意數(shù)據(jù)項組成的集合,即XI,則稱X為項集,若X是包含K個數(shù)據(jù)項的項集稱為K-項集。

        關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在的潛在關(guān)系的規(guī)則,一個關(guān)聯(lián)規(guī)則是形如XY的蘊涵式,其中XI,YI,并且X∩Y=Φ。項集X稱為規(guī)則的前提或前項,Y稱為結(jié)果或后項。關(guān)聯(lián)規(guī)則直觀描述事件中各個數(shù)據(jù)項同時出現(xiàn)概率較高的情況,如何找出這種高概率的發(fā)生,也就是說,這種高概率達(dá)到什么標(biāo)準(zhǔn)才能被認(rèn)為是數(shù)據(jù)項之間是關(guān)聯(lián)的。最常規(guī)的評價標(biāo)準(zhǔn)是由支持度和置信度這兩個概念決定,通常被稱為關(guān)聯(lián)規(guī)則的評價函數(shù)。

        關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,其中事務(wù)同時包含A和B的百分比,叫做該規(guī)則的覆蓋率或支持度,記為Support(A∪B)。覆蓋率高表示規(guī)則在數(shù)據(jù)庫中出現(xiàn)的頻率較高,這樣規(guī)則所表現(xiàn)的現(xiàn)象發(fā)生的可能性也比較大。

        關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,在數(shù)據(jù)庫中同時出現(xiàn)項集A和B的記錄數(shù)與出現(xiàn)項集A的記錄數(shù)的百分比,叫做該規(guī)則的正確率或置信度,記為Confidence(A∪B)。正確率高表示規(guī)則比較可信的,正確率在90%以上的規(guī)則,我們稱之為強(qiáng)規(guī)則。

        項集的頻率是事務(wù)數(shù)據(jù)庫中出現(xiàn)該項集的記錄數(shù)。如果某一項集頻率大于或等于最小支持度設(shè)定的閾值,我們通常稱它為頻繁項集(frequent itemset)。包含有k個項的頻繁項集即通常表示為k-頻集。當(dāng)一條規(guī)則同時滿足最小支持度和最小置信度設(shè)定的閾值時,這條規(guī)則就是我們要找的真正的關(guān)聯(lián)規(guī)則。

        3 關(guān)聯(lián)規(guī)則挖掘的分類

        根據(jù)規(guī)則中所涉及的數(shù)據(jù)項的數(shù)據(jù)類型分為布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則,例如:烤鴨甜面醬,被稱為布爾關(guān)聯(lián)規(guī)則,該規(guī)則前件和后件取值都是離散的,考慮的是某數(shù)據(jù)項存在或者不存在。在關(guān)聯(lián)規(guī)則中出現(xiàn)數(shù)值型數(shù)據(jù),例如:職稱(“副教授”)年齡(“32…37”),這類規(guī)則稱為量化關(guān)聯(lián)規(guī)則。

        根據(jù)規(guī)則中項或?qū)傩陨婕暗降木S度數(shù)分為單維和多維關(guān)聯(lián)規(guī)則。規(guī)則中涉及的數(shù)據(jù)項只來自于一個屬性,例如:面包牛奶,這樣的規(guī)則稱為單維關(guān)聯(lián)規(guī)則。而多維關(guān)聯(lián)規(guī)則涉及事務(wù)數(shù)據(jù)庫中的多個屬性,例如:性別(“女”)職業(yè)(“教師”),可以稱為二維關(guān)聯(lián)規(guī)則。

        根據(jù)規(guī)則中數(shù)據(jù)的抽象層次分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則[2]。在單層關(guān)聯(lián)規(guī)則中,所有的數(shù)據(jù)項都是概括級別低的細(xì)節(jié)數(shù)據(jù),沒有層次的劃分。多層關(guān)聯(lián)規(guī)則體現(xiàn)了數(shù)據(jù)的層次性,規(guī)則中的數(shù)據(jù)可能位于同一層次,也可能位于不同的層次。例如:聯(lián)想臺式機(jī)HP掃描儀是單層關(guān)聯(lián)規(guī)則,而“臺式機(jī)HP掃描儀”是一個高一級概括層次和細(xì)節(jié)層次之間的層間關(guān)聯(lián)規(guī)則,而“臺式機(jī)掃描儀”則是高概括層次上的同級別關(guān)聯(lián)規(guī)則。

        4 關(guān)聯(lián)規(guī)則挖掘的方法

        Apriori算法是關(guān)聯(lián)規(guī)則算法中經(jīng)典的算法,它采用“寬度優(yōu)先搜索策略”,核心思想是首先尋找頻繁項集,然后根據(jù)找到的頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的產(chǎn)生比較容易,只需保證規(guī)則滿足事先設(shè)定好的最小正確率即可。而尋找頻繁項集的過程要復(fù)雜很多,整個算法的總體執(zhí)行效率也是由這一步?jīng)Q定的。因此,針對該算法的研究熱門都集中在如何快速找到頻繁項集。

        頻繁模式增長樹(Frequent Pattern-Growth)算法,是基于Apriori算法產(chǎn)生的,簡稱FP-Growth。該算法使用深度優(yōu)先搜索策略替代了Apriori算法的寬度優(yōu)先搜索策略[3],把數(shù)據(jù)庫壓縮映射到一個小而緊湊的數(shù)據(jù)結(jié)構(gòu)頻繁模式樹FP-Tree中,避免了多次掃描數(shù)據(jù)庫。利用“模式分段增長”法避免產(chǎn)生大量的候選集。采用分而治之的遞歸算法將挖掘任務(wù)分解成若干較小任務(wù),從而有效的縮小了搜索空間。

        在關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘過程中,若是因為數(shù)據(jù)的分散性,很難在概念層次的細(xì)節(jié)層發(fā)現(xiàn)規(guī)則,這時一般采用多層關(guān)聯(lián)規(guī)則挖掘的方法。多層關(guān)聯(lián)規(guī)則挖掘一般采用自頂向下的方式,從最一般的概念層開始,到較具體的某一特定概念層,逐層尋找頻繁項集,直到不能找到頻繁項集為止。對于每一層,可以使用上面介紹的Apriori算法和FP-Growth算法,或是其他關(guān)聯(lián)規(guī)則算法。

        5 關(guān)聯(lián)規(guī)則的價值評價方法

        為了衡量挖掘出的某條規(guī)則是否有用,并且從結(jié)果集中過濾掉那些無用的規(guī)則,提出了基于興趣度的定義方法,可以分為主觀興趣度和相關(guān)性分析。

        一條規(guī)則是否有價值最終取決于用戶的實際需求,只有用戶才可以最終決定所獲得的規(guī)則是否有效和可行。主觀興趣度的評價標(biāo)準(zhǔn)主要有兩種:不可預(yù)期性和可操作性[4]。不可預(yù)期性是指如果挖掘出來的規(guī)則用戶以前不知道,或者說與用戶已知的知識剛好相反,則說該規(guī)則具有不可預(yù)期性??刹僮餍允侵溉绻脩艨梢岳靡?guī)則采取對自己有利的操作行為,則說該規(guī)則具有可操作性。

        參考文獻(xiàn):

        [1]沈萌紅.《TRIZ理論及機(jī)械創(chuàng)新實踐》[M].機(jī)械工業(yè)出版社,2012:18-26.

        [2]段玉琴.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[D].西安:西安電子科技大學(xué)碩士論文,2011:1-10.

        [3]SHENG P,HUANG J R,HUANG S M,BEI G.Turbo-Charging Vertical Mining of Large Databases[C]. SIGMOD Conference,New York,2010:492-50l.

        [4]常同善.數(shù)據(jù)挖掘技術(shù)在美國院校研究中的應(yīng)用[J].復(fù)旦教育論,2009,(2):72-79.

        [5]吳青,傅秀芬.水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)技術(shù)與發(fā)展,2010,(6):113-117.

        【摘 要】 本文借助ARIZ思想深入研究了關(guān)聯(lián)規(guī)則挖掘模式,綜合介紹了關(guān)聯(lián)規(guī)則的理論基礎(chǔ),進(jìn)一步明確了項、項集、候選項集、頻繁項集、支持度、置信度這些重要知識點,對關(guān)聯(lián)規(guī)則進(jìn)行了多角度的分類,研究分析了關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,并對關(guān)聯(lián)規(guī)則的評價標(biāo)準(zhǔn)進(jìn)行了創(chuàng)新研究,引入了主觀興趣度和客觀相關(guān)性分析,為后續(xù)研究和改進(jìn)關(guān)聯(lián)規(guī)則的算法提供了理論基礎(chǔ)。

        【關(guān)鍵詞】 ARIZ 關(guān)聯(lián)規(guī)則 興趣度 相關(guān)性分析

        1 ARIZ主導(dǎo)思想

        ARIZ(Algorithm for Inventive-Problem Solving,發(fā)明問題解決算法)最初由Ahshuller于1956年提出,是TRIZ中最強(qiáng)有力的工具,集成了TRIZ理論中大多數(shù)觀點和工具[1]。ARIZ的主導(dǎo)思想和觀點中最重要的就是克服思維慣性。思維慣性是創(chuàng)新設(shè)計的最大障礙,ARIZ強(qiáng)調(diào)在解決問題過程中必須開闊思路克服思維慣性,主要通過利用TRIZ已有工具和一系列心理算法克服思維慣性。

        TRIZ認(rèn)為,一個創(chuàng)新問題解決的困難程度取決于對該問題的描述和問題的標(biāo)準(zhǔn)化程度,描述得越清楚,問題的標(biāo)準(zhǔn)化程度越高,問題就越容易解決。ARIZ中,創(chuàng)新問題求解的過程是對問題不斷地描述,不斷地標(biāo)準(zhǔn)化的過程。在這一過程中,初始問題最根本的矛盾被清晰地顯現(xiàn)出來。如果方案庫里已有的數(shù)據(jù)能夠用于該問題則是有標(biāo)準(zhǔn)解;如果已有的數(shù)據(jù)不能解決該問題則無標(biāo)準(zhǔn)解,需等待科學(xué)技術(shù)的進(jìn)一步發(fā)展。該過程是通過ARIZ算法實現(xiàn)的。

        2 關(guān)聯(lián)規(guī)則挖掘的基本理論

        關(guān)聯(lián)分析是和分類、聚類、演化分析等并列的一種知識發(fā)現(xiàn)模式,受到人們的廣泛關(guān)注。Agrawal等人在1993年首次提出了商業(yè)數(shù)據(jù)庫中各種商品間的關(guān)聯(lián)問題,之后關(guān)于關(guān)聯(lián)規(guī)則的研究層出不窮。關(guān)聯(lián)規(guī)則的應(yīng)用也由最初的購物籃分析擴(kuò)展到其他各個領(lǐng)域,挖掘得到的規(guī)則說明也呈現(xiàn)多元化。

        設(shè)I={i1,i2,…,im}是常數(shù)的集合,其中m是任意有限的正整數(shù)常量,每個常數(shù)ik(k=1,2,……,m)稱為一個數(shù)據(jù)項,簡稱為項(item)。若X是由I中的任意數(shù)據(jù)項組成的集合,即XI,則稱X為項集,若X是包含K個數(shù)據(jù)項的項集稱為K-項集。

        關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在的潛在關(guān)系的規(guī)則,一個關(guān)聯(lián)規(guī)則是形如XY的蘊涵式,其中XI,YI,并且X∩Y=Φ。項集X稱為規(guī)則的前提或前項,Y稱為結(jié)果或后項。關(guān)聯(lián)規(guī)則直觀描述事件中各個數(shù)據(jù)項同時出現(xiàn)概率較高的情況,如何找出這種高概率的發(fā)生,也就是說,這種高概率達(dá)到什么標(biāo)準(zhǔn)才能被認(rèn)為是數(shù)據(jù)項之間是關(guān)聯(lián)的。最常規(guī)的評價標(biāo)準(zhǔn)是由支持度和置信度這兩個概念決定,通常被稱為關(guān)聯(lián)規(guī)則的評價函數(shù)。

        關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,其中事務(wù)同時包含A和B的百分比,叫做該規(guī)則的覆蓋率或支持度,記為Support(A∪B)。覆蓋率高表示規(guī)則在數(shù)據(jù)庫中出現(xiàn)的頻率較高,這樣規(guī)則所表現(xiàn)的現(xiàn)象發(fā)生的可能性也比較大。

        關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立,在數(shù)據(jù)庫中同時出現(xiàn)項集A和B的記錄數(shù)與出現(xiàn)項集A的記錄數(shù)的百分比,叫做該規(guī)則的正確率或置信度,記為Confidence(A∪B)。正確率高表示規(guī)則比較可信的,正確率在90%以上的規(guī)則,我們稱之為強(qiáng)規(guī)則。

        項集的頻率是事務(wù)數(shù)據(jù)庫中出現(xiàn)該項集的記錄數(shù)。如果某一項集頻率大于或等于最小支持度設(shè)定的閾值,我們通常稱它為頻繁項集(frequent itemset)。包含有k個項的頻繁項集即通常表示為k-頻集。當(dāng)一條規(guī)則同時滿足最小支持度和最小置信度設(shè)定的閾值時,這條規(guī)則就是我們要找的真正的關(guān)聯(lián)規(guī)則。

        3 關(guān)聯(lián)規(guī)則挖掘的分類

        根據(jù)規(guī)則中所涉及的數(shù)據(jù)項的數(shù)據(jù)類型分為布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則,例如:烤鴨甜面醬,被稱為布爾關(guān)聯(lián)規(guī)則,該規(guī)則前件和后件取值都是離散的,考慮的是某數(shù)據(jù)項存在或者不存在。在關(guān)聯(lián)規(guī)則中出現(xiàn)數(shù)值型數(shù)據(jù),例如:職稱(“副教授”)年齡(“32…37”),這類規(guī)則稱為量化關(guān)聯(lián)規(guī)則。

        根據(jù)規(guī)則中項或?qū)傩陨婕暗降木S度數(shù)分為單維和多維關(guān)聯(lián)規(guī)則。規(guī)則中涉及的數(shù)據(jù)項只來自于一個屬性,例如:面包牛奶,這樣的規(guī)則稱為單維關(guān)聯(lián)規(guī)則。而多維關(guān)聯(lián)規(guī)則涉及事務(wù)數(shù)據(jù)庫中的多個屬性,例如:性別(“女”)職業(yè)(“教師”),可以稱為二維關(guān)聯(lián)規(guī)則。

        根據(jù)規(guī)則中數(shù)據(jù)的抽象層次分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則[2]。在單層關(guān)聯(lián)規(guī)則中,所有的數(shù)據(jù)項都是概括級別低的細(xì)節(jié)數(shù)據(jù),沒有層次的劃分。多層關(guān)聯(lián)規(guī)則體現(xiàn)了數(shù)據(jù)的層次性,規(guī)則中的數(shù)據(jù)可能位于同一層次,也可能位于不同的層次。例如:聯(lián)想臺式機(jī)HP掃描儀是單層關(guān)聯(lián)規(guī)則,而“臺式機(jī)HP掃描儀”是一個高一級概括層次和細(xì)節(jié)層次之間的層間關(guān)聯(lián)規(guī)則,而“臺式機(jī)掃描儀”則是高概括層次上的同級別關(guān)聯(lián)規(guī)則。

        4 關(guān)聯(lián)規(guī)則挖掘的方法

        Apriori算法是關(guān)聯(lián)規(guī)則算法中經(jīng)典的算法,它采用“寬度優(yōu)先搜索策略”,核心思想是首先尋找頻繁項集,然后根據(jù)找到的頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的產(chǎn)生比較容易,只需保證規(guī)則滿足事先設(shè)定好的最小正確率即可。而尋找頻繁項集的過程要復(fù)雜很多,整個算法的總體執(zhí)行效率也是由這一步?jīng)Q定的。因此,針對該算法的研究熱門都集中在如何快速找到頻繁項集。

        頻繁模式增長樹(Frequent Pattern-Growth)算法,是基于Apriori算法產(chǎn)生的,簡稱FP-Growth。該算法使用深度優(yōu)先搜索策略替代了Apriori算法的寬度優(yōu)先搜索策略[3],把數(shù)據(jù)庫壓縮映射到一個小而緊湊的數(shù)據(jù)結(jié)構(gòu)頻繁模式樹FP-Tree中,避免了多次掃描數(shù)據(jù)庫。利用“模式分段增長”法避免產(chǎn)生大量的候選集。采用分而治之的遞歸算法將挖掘任務(wù)分解成若干較小任務(wù),從而有效的縮小了搜索空間。

        在關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘過程中,若是因為數(shù)據(jù)的分散性,很難在概念層次的細(xì)節(jié)層發(fā)現(xiàn)規(guī)則,這時一般采用多層關(guān)聯(lián)規(guī)則挖掘的方法。多層關(guān)聯(lián)規(guī)則挖掘一般采用自頂向下的方式,從最一般的概念層開始,到較具體的某一特定概念層,逐層尋找頻繁項集,直到不能找到頻繁項集為止。對于每一層,可以使用上面介紹的Apriori算法和FP-Growth算法,或是其他關(guān)聯(lián)規(guī)則算法。

        5 關(guān)聯(lián)規(guī)則的價值評價方法

        為了衡量挖掘出的某條規(guī)則是否有用,并且從結(jié)果集中過濾掉那些無用的規(guī)則,提出了基于興趣度的定義方法,可以分為主觀興趣度和相關(guān)性分析。

        一條規(guī)則是否有價值最終取決于用戶的實際需求,只有用戶才可以最終決定所獲得的規(guī)則是否有效和可行。主觀興趣度的評價標(biāo)準(zhǔn)主要有兩種:不可預(yù)期性和可操作性[4]。不可預(yù)期性是指如果挖掘出來的規(guī)則用戶以前不知道,或者說與用戶已知的知識剛好相反,則說該規(guī)則具有不可預(yù)期性??刹僮餍允侵溉绻脩艨梢岳靡?guī)則采取對自己有利的操作行為,則說該規(guī)則具有可操作性。

        參考文獻(xiàn):

        [1]沈萌紅.《TRIZ理論及機(jī)械創(chuàng)新實踐》[M].機(jī)械工業(yè)出版社,2012:18-26.

        [2]段玉琴.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[D].西安:西安電子科技大學(xué)碩士論文,2011:1-10.

        [3]SHENG P,HUANG J R,HUANG S M,BEI G.Turbo-Charging Vertical Mining of Large Databases[C]. SIGMOD Conference,New York,2010:492-50l.

        [4]常同善.數(shù)據(jù)挖掘技術(shù)在美國院校研究中的應(yīng)用[J].復(fù)旦教育論,2009,(2):72-79.

        [5]吳青,傅秀芬.水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)技術(shù)與發(fā)展,2010,(6):113-117.

        久久久久国产精品四虎| 亚洲成a v人片在线观看| 亚洲熟女少妇一区二区| 91精品国产高清久久久久| 天堂久久一区二区三区| 亚洲欧洲国产码专区在线观看| 国产在线观看www污污污| 国产成人精品日本亚洲语音1| 亚洲综合色视频在线免费观看| 日本一区二区三区免费精品| 国产无套内射久久久国产| 成人国产精品一区二区网站| 熟女乱乱熟女乱乱亚洲| 国产精品一区二区久久国产| 亚洲乱码中文字幕综合| 国产成人精品曰本亚洲| 97女厕偷拍一区二区三区| 欧美a级在线现免费观看| 无码a∨高潮抽搐流白浆| 国产精品伦人视频免费看| 亚洲一区二区精品在线| 国产精品久久久久久一区二区三区 | 日本黑人乱偷人妻在线播放| 人妻少妇偷人精品无码| 热99精品| 午夜精品人妻中字字幕| 免费毛儿一区二区十八岁| 中文字幕一区二区人妻| 国产极品视觉盛宴在线观看| 国产丝袜美腿在线播放| 青春草在线视频免费观看| 精品乱子伦一区二区三区| 亚洲一区二区三区1区2区| 亚洲中文字幕无码av永久 | 久热re这里精品视频在线6| 国产精品丝袜黑色高跟鞋| 国产一区二区三区资源在线观看| 人妻久久久一区二区三区蜜臀 | 澳门毛片精品一区二区三区| av成人资源在线观看| 丁香五月亚洲综合在线|