亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ARIZ的關(guān)聯(lián)規(guī)則知識發(fā)現(xiàn)模式研究

2014-08-30 08:53:02翟霞宋毅

中國科技縱橫 2014年11期

翟霞　宋毅

【摘要】本文借助ARIZ思想深入研究了關(guān)聯(lián)規(guī)則挖掘模式，綜合介紹了關(guān)聯(lián)規(guī)則的理論基礎(chǔ)，進(jìn)一步明確了項、項集、候選項集、頻繁項集、支持度、置信度這些重要知識點，對關(guān)聯(lián)規(guī)則進(jìn)行了多角度的分類，研究分析了關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法，并對關(guān)聯(lián)規(guī)則的評價標(biāo)準(zhǔn)進(jìn)行了創(chuàng)新研究，引入了主觀興趣度和客觀相關(guān)性分析，為后續(xù)研究和改進(jìn)關(guān)聯(lián)規(guī)則的算法提供了理論基礎(chǔ)。

【關(guān)鍵詞】 ARIZ 關(guān)聯(lián)規(guī)則興趣度相關(guān)性分析

1 ARIZ主導(dǎo)思想

ARIZ（Algorithm for Inventive-Problem Solving，發(fā)明問題解決算法）最初由Ahshuller于1956年提出，是TRIZ中最強(qiáng)有力的工具，集成了TRIZ理論中大多數(shù)觀點和工具[1]。ARIZ的主導(dǎo)思想和觀點中最重要的就是克服思維慣性。思維慣性是創(chuàng)新設(shè)計的最大障礙，ARIZ強(qiáng)調(diào)在解決問題過程中必須開闊思路克服思維慣性，主要通過利用TRIZ已有工具和一系列心理算法克服思維慣性。

TRIZ認(rèn)為，一個創(chuàng)新問題解決的困難程度取決于對該問題的描述和問題的標(biāo)準(zhǔn)化程度，描述得越清楚，問題的標(biāo)準(zhǔn)化程度越高，問題就越容易解決。ARIZ中，創(chuàng)新問題求解的過程是對問題不斷地描述，不斷地標(biāo)準(zhǔn)化的過程。在這一過程中，初始問題最根本的矛盾被清晰地顯現(xiàn)出來。如果方案庫里已有的數(shù)據(jù)能夠用于該問題則是有標(biāo)準(zhǔn)解；如果已有的數(shù)據(jù)不能解決該問題則無標(biāo)準(zhǔn)解，需等待科學(xué)技術(shù)的進(jìn)一步發(fā)展。該過程是通過ARIZ算法實現(xiàn)的。

2 關(guān)聯(lián)規(guī)則挖掘的基本理論

關(guān)聯(lián)分析是和分類、聚類、演化分析等并列的一種知識發(fā)現(xiàn)模式，受到人們的廣泛關(guān)注。Agrawal等人在1993年首次提出了商業(yè)數(shù)據(jù)庫中各種商品間的關(guān)聯(lián)問題，之后關(guān)于關(guān)聯(lián)規(guī)則的研究層出不窮。關(guān)聯(lián)規(guī)則的應(yīng)用也由最初的購物籃分析擴(kuò)展到其他各個領(lǐng)域，挖掘得到的規(guī)則說明也呈現(xiàn)多元化。

設(shè)I={i1，i2，…，im}是常數(shù)的集合，其中m是任意有限的正整數(shù)常量，每個常數(shù)ik（k=1，2，……，m）稱為一個數(shù)據(jù)項，簡稱為項（item）。若X是由I中的任意數(shù)據(jù)項組成的集合，即XI，則稱X為項集，若X是包含K個數(shù)據(jù)項的項集稱為K-項集。

關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在的潛在關(guān)系的規(guī)則，一個關(guān)聯(lián)規(guī)則是形如XY的蘊涵式，其中XI，YI，并且X∩Y=Φ。項集X稱為規(guī)則的前提或前項，Y稱為結(jié)果或后項。關(guān)聯(lián)規(guī)則直觀描述事件中各個數(shù)據(jù)項同時出現(xiàn)概率較高的情況，如何找出這種高概率的發(fā)生，也就是說，這種高概率達(dá)到什么標(biāo)準(zhǔn)才能被認(rèn)為是數(shù)據(jù)項之間是關(guān)聯(lián)的。最常規(guī)的評價標(biāo)準(zhǔn)是由支持度和置信度這兩個概念決定，通常被稱為關(guān)聯(lián)規(guī)則的評價函數(shù)。

關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立，其中事務(wù)同時包含A和B的百分比，叫做該規(guī)則的覆蓋率或支持度，記為Support（A∪B）。覆蓋率高表示規(guī)則在數(shù)據(jù)庫中出現(xiàn)的頻率較高，這樣規(guī)則所表現(xiàn)的現(xiàn)象發(fā)生的可能性也比較大。

關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫D中成立，在數(shù)據(jù)庫中同時出現(xiàn)項集A和B的記錄數(shù)與出現(xiàn)項集A的記錄數(shù)的百分比，叫做該規(guī)則的正確率或置信度，記為Confidence（A∪B）。正確率高表示規(guī)則比較可信的，正確率在90%以上的規(guī)則，我們稱之為強(qiáng)規(guī)則。

項集的頻率是事務(wù)數(shù)據(jù)庫中出現(xiàn)該項集的記錄數(shù)。如果某一項集頻率大于或等于最小支持度設(shè)定的閾值，我們通常稱它為頻繁項集（frequent itemset）。包含有k個項的頻繁項集即通常表示為k-頻集。當(dāng)一條規(guī)則同時滿足最小支持度和最小置信度設(shè)定的閾值時，這條規(guī)則就是我們要找的真正的關(guān)聯(lián)規(guī)則。

3 關(guān)聯(lián)規(guī)則挖掘的分類

根據(jù)規(guī)則中所涉及的數(shù)據(jù)項的數(shù)據(jù)類型分為布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則，例如：烤鴨甜面醬，被稱為布爾關(guān)聯(lián)規(guī)則，該規(guī)則前件和后件取值都是離散的，考慮的是某數(shù)據(jù)項存在或者不存在。在關(guān)聯(lián)規(guī)則中出現(xiàn)數(shù)值型數(shù)據(jù)，例如：職稱（“副教授”）年齡（“32…37”），這類規(guī)則稱為量化關(guān)聯(lián)規(guī)則。

根據(jù)規(guī)則中項或?qū)傩陨婕暗降木S度數(shù)分為單維和多維關(guān)聯(lián)規(guī)則。規(guī)則中涉及的數(shù)據(jù)項只來自于一個屬性，例如：面包牛奶，這樣的規(guī)則稱為單維關(guān)聯(lián)規(guī)則。而多維關(guān)聯(lián)規(guī)則涉及事務(wù)數(shù)據(jù)庫中的多個屬性，例如：性別（“女”）職業(yè)（“教師”），可以稱為二維關(guān)聯(lián)規(guī)則。

根據(jù)規(guī)則中數(shù)據(jù)的抽象層次分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則[2]。在單層關(guān)聯(lián)規(guī)則中，所有的數(shù)據(jù)項都是概括級別低的細(xì)節(jié)數(shù)據(jù)，沒有層次的劃分。多層關(guān)聯(lián)規(guī)則體現(xiàn)了數(shù)據(jù)的層次性，規(guī)則中的數(shù)據(jù)可能位于同一層次，也可能位于不同的層次。例如：聯(lián)想臺式機(jī)HP掃描儀是單層關(guān)聯(lián)規(guī)則，而“臺式機(jī)HP掃描儀”是一個高一級概括層次和細(xì)節(jié)層次之間的層間關(guān)聯(lián)規(guī)則，而“臺式機(jī)掃描儀”則是高概括層次上的同級別關(guān)聯(lián)規(guī)則。

4 關(guān)聯(lián)規(guī)則挖掘的方法

Apriori算法是關(guān)聯(lián)規(guī)則算法中經(jīng)典的算法，它采用“寬度優(yōu)先搜索策略”，核心思想是首先尋找頻繁項集，然后根據(jù)找到的頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的產(chǎn)生比較容易，只需保證規(guī)則滿足事先設(shè)定好的最小正確率即可。而尋找頻繁項集的過程要復(fù)雜很多，整個算法的總體執(zhí)行效率也是由這一步?jīng)Q定的。因此，針對該算法的研究熱門都集中在如何快速找到頻繁項集。

頻繁模式增長樹（Frequent Pattern-Growth）算法，是基于Apriori算法產(chǎn)生的，簡稱FP-Growth。該算法使用深度優(yōu)先搜索策略替代了Apriori算法的寬度優(yōu)先搜索策略[3]，把數(shù)據(jù)庫壓縮映射到一個小而緊湊的數(shù)據(jù)結(jié)構(gòu)頻繁模式樹FP-Tree中，避免了多次掃描數(shù)據(jù)庫。利用“模式分段增長”法避免產(chǎn)生大量的候選集。采用分而治之的遞歸算法將挖掘任務(wù)分解成若干較小任務(wù)，從而有效的縮小了搜索空間。

在關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘過程中，若是因為數(shù)據(jù)的分散性，很難在概念層次的細(xì)節(jié)層發(fā)現(xiàn)規(guī)則，這時一般采用多層關(guān)聯(lián)規(guī)則挖掘的方法。多層關(guān)聯(lián)規(guī)則挖掘一般采用自頂向下的方式，從最一般的概念層開始，到較具體的某一特定概念層，逐層尋找頻繁項集，直到不能找到頻繁項集為止。對于每一層，可以使用上面介紹的Apriori算法和FP-Growth算法，或是其他關(guān)聯(lián)規(guī)則算法。

5 關(guān)聯(lián)規(guī)則的價值評價方法

為了衡量挖掘出的某條規(guī)則是否有用，并且從結(jié)果集中過濾掉那些無用的規(guī)則，提出了基于興趣度的定義方法，可以分為主觀興趣度和相關(guān)性分析。

一條規(guī)則是否有價值最終取決于用戶的實際需求，只有用戶才可以最終決定所獲得的規(guī)則是否有效和可行。主觀興趣度的評價標(biāo)準(zhǔn)主要有兩種：不可預(yù)期性和可操作性[4]。不可預(yù)期性是指如果挖掘出來的規(guī)則用戶以前不知道，或者說與用戶已知的知識剛好相反，則說該規(guī)則具有不可預(yù)期性?？刹僮餍允侵溉绻脩艨梢岳靡?guī)則采取對自己有利的操作行為，則說該規(guī)則具有可操作性。

參考文獻(xiàn)：

[1]沈萌紅.《TRIZ理論及機(jī)械創(chuàng)新實踐》[M].機(jī)械工業(yè)出版社，2012：18-26.

[2]段玉琴.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[D].西安：西安電子科技大學(xué)碩士論文，2011：1-10.

[3]SHENG P，HUANG J R，HUANG S M，BEI G.Turbo-Charging Vertical Mining of Large Databases[C]. SIGMOD Conference，New York，2010：492-50l.

[4]常同善.數(shù)據(jù)挖掘技術(shù)在美國院校研究中的應(yīng)用[J].復(fù)旦教育論，2009，（2）：72-79.

[5]吳青，傅秀芬.水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)技術(shù)與發(fā)展，2010，（6）：113-117.

【關(guān)鍵詞】 ARIZ 關(guān)聯(lián)規(guī)則興趣度相關(guān)性分析

1 ARIZ主導(dǎo)思想

2 關(guān)聯(lián)規(guī)則挖掘的基本理論

3 關(guān)聯(lián)規(guī)則挖掘的分類

4 關(guān)聯(lián)規(guī)則挖掘的方法

5 關(guān)聯(lián)規(guī)則的價值評價方法

參考文獻(xiàn)：

[1]沈萌紅.《TRIZ理論及機(jī)械創(chuàng)新實踐》[M].機(jī)械工業(yè)出版社，2012：18-26.

[2]段玉琴.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[D].西安：西安電子科技大學(xué)碩士論文，2011：1-10.

[3]SHENG P，HUANG J R，HUANG S M，BEI G.Turbo-Charging Vertical Mining of Large Databases[C]. SIGMOD Conference，New York，2010：492-50l.

[4]常同善.數(shù)據(jù)挖掘技術(shù)在美國院校研究中的應(yīng)用[J].復(fù)旦教育論，2009，（2）：72-79.

[5]吳青，傅秀芬.水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)技術(shù)與發(fā)展，2010，（6）：113-117.

【關(guān)鍵詞】 ARIZ 關(guān)聯(lián)規(guī)則興趣度相關(guān)性分析

1 ARIZ主導(dǎo)思想

2 關(guān)聯(lián)規(guī)則挖掘的基本理論

3 關(guān)聯(lián)規(guī)則挖掘的分類

4 關(guān)聯(lián)規(guī)則挖掘的方法

5 關(guān)聯(lián)規(guī)則的價值評價方法

參考文獻(xiàn)：

[1]沈萌紅.《TRIZ理論及機(jī)械創(chuàng)新實踐》[M].機(jī)械工業(yè)出版社，2012：18-26.

[2]段玉琴.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[D].西安：西安電子科技大學(xué)碩士論文，2011：1-10.

[3]SHENG P，HUANG J R，HUANG S M，BEI G.Turbo-Charging Vertical Mining of Large Databases[C]. SIGMOD Conference，New York，2010：492-50l.

[4]常同善.數(shù)據(jù)挖掘技術(shù)在美國院校研究中的應(yīng)用[J].復(fù)旦教育論，2009，（2）：72-79.

[5]吳青，傅秀芬.水平分布數(shù)據(jù)庫的正負(fù)關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)技術(shù)與發(fā)展，2010，（6）：113-117.

中國科技縱橫2014年11期

中國科技縱橫的其它文章: 對于發(fā)電機(jī)勵磁系統(tǒng)低勵限制試驗和防事故措施的研究; 核電廠道路分類及設(shè)計的探討; 中國古代的自動控制技術(shù); 水資源勘察過程中存在的問題及對策分析; 旅游網(wǎng)絡(luò)營銷對揚州居民旅游選擇行為影響研究*; 浙江省戰(zhàn)略性新興產(chǎn)業(yè)監(jiān)測指標(biāo)體系研究