亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時態(tài)軟集的諾貝爾科學獎獲獎數(shù)據(jù)分析

        2022-03-21 02:25:12肖昀澤
        西安郵電大學學報 2022年5期
        關鍵詞:關聯(lián)定義規(guī)則

        馮 鋒,雒 靜,王 謙,肖昀澤

        (1.西安郵電大學 理學院,陜西 西安 710121;2.西安郵電大學 通信與信息工程學院,陜西 西安 710121;3.北京郵電大學 經(jīng)濟管理學院,北京 100876)

        在“數(shù)據(jù)爆炸,知識匱乏”的大數(shù)據(jù)時代,海量的數(shù)據(jù)中存在很多的不確定性,這些不確定性信息直接影響人們在認知的過程中對現(xiàn)實問題的精確感知和預測。1999年,Molodtsov首次提出了經(jīng)典軟集的概念,為處理不確定性問題提供了新的研究方向[1]。從不同角度刻畫同一復雜事物往往會得到其不同的側(cè)面,而這些不完備的側(cè)面都可以被視為對該復雜事物的近似描述,將這些近似描述綜合起來即可構(gòu)成對該復雜事物較完備的刻畫。軟集理論作為一種從參數(shù)化角度刻畫不確定性問題的數(shù)學工具,引入對象論域和參數(shù)空間,能夠?qū)崿F(xiàn)更為客觀且豐富的信息描述和處理,解決了概率論、模糊集[2]和粗糙集[3]等傳統(tǒng)方法中參數(shù)化不足的問題。在實際應用中,也能夠更靈活地處理復雜的不確定性問題,現(xiàn)已廣泛應用于數(shù)據(jù)挖掘、決策分析和代數(shù)學等諸多領域[4]。

        數(shù)據(jù)挖掘旨在從數(shù)據(jù)庫中自動識別和提取出隱藏在其中的有價值信息,并將其表征為知識,進而提供輔助決策支持。關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中最早活躍的一個重要分支,其目的是從交易數(shù)據(jù)集中提取頻繁模式,并生成由頻繁模式組合的強關聯(lián)規(guī)則。Agrawal等[5-6]首次提出了關聯(lián)規(guī)則的概念,并給出了關聯(lián)規(guī)則挖掘問題的描述及具有代表性的Apriori算法。此后,還衍生了Apriori_LB[7]、XApriori[8]和基于權(quán)重的Apriori算法[9]等改進方法。Zaki等[10]提出了Eclat算法,這是一種基于垂直數(shù)據(jù)格式生成候選項集的深度優(yōu)先算法,在挖掘過程中只需掃描一次數(shù)據(jù)庫。隨后也出現(xiàn)了Eclat的優(yōu)化算法,如dEclat算法[11]和Eclat_opt算法[12]。FP-growth算法[13]是一種不產(chǎn)生候選項集的發(fā)現(xiàn)頻繁項集的挖掘方法,其依賴于基于樹的數(shù)據(jù)結(jié)構(gòu)壓縮存儲有關頻繁項集的數(shù)據(jù)信息。Aryabarzan等提出了一種有效的數(shù)據(jù)結(jié)構(gòu)NegNodeset[14],并基于此結(jié)構(gòu)設計了negFIN算法,該算法采用集合枚舉樹生成頻繁項集,并使用一種提升方法來修剪搜索空間。

        傳統(tǒng)關聯(lián)規(guī)則挖掘是一種建立在事務數(shù)據(jù)集上的靜態(tài)挖掘方法,而時態(tài)關聯(lián)規(guī)則挖掘考慮到了傳統(tǒng)關聯(lián)規(guī)則挖掘所忽略的時間信息,旨在研究不同時段內(nèi)有趣的關聯(lián)規(guī)則,能夠揭示潛藏在事物動態(tài)演進過程中的發(fā)展規(guī)律。Bettini等[15]研究了時間約束的事件結(jié)構(gòu)粒度,發(fā)現(xiàn)了具有多粒度的頻繁事件模式。孟志青[16]系統(tǒng)地研究了時態(tài)型和時態(tài)粒度的相關理論概念,并給出了一類簡單頻繁事件模式發(fā)現(xiàn)的例子。Ye等[17]提出了一種能夠直接應用于時態(tài)數(shù)據(jù)集的關聯(lián)規(guī)則挖掘算法。歐陽為民等[18]在Apriori算法的基礎上進行擴展,提出了時間區(qū)間延展與歸并技術(shù)以及新的時態(tài)關聯(lián)規(guī)則發(fā)現(xiàn)算法,進一步推廣了關聯(lián)規(guī)則的應用。毛國君等[19]引入了時態(tài)區(qū)間代數(shù),并給出了時態(tài)區(qū)間變量的時態(tài)交和時態(tài)并,提出了一種時態(tài)約束下的關聯(lián)規(guī)則挖掘算法,用于挖掘基于時態(tài)約束的頻繁項目序列集。臧國心等[20]研究了時態(tài)約束下各屬性狀態(tài)之間的周期時態(tài)關聯(lián)規(guī)則,給出了相關描述語義及其實現(xiàn)算法。Gharib 等[21]利用時間粒度分層的概念解決了時間序列數(shù)據(jù)庫動態(tài)關聯(lián)規(guī)則的挖掘問題,開發(fā)了一種增量時態(tài)關聯(lián)規(guī)則挖掘方法。Hong 等[22]提出了一個三階段挖掘框架,可在時態(tài)數(shù)據(jù)庫中找到具有分層粒度的時態(tài)關聯(lián)規(guī)則。

        2011年,Herawan和Deris首次將軟集理論應用于交易數(shù)據(jù)集中的關聯(lián)規(guī)則挖掘[23]。Feng等修正了文獻[23]中的一些重要概念,并給出了參數(shù)陪集、參數(shù)類化軟集和實現(xiàn)集等定義,進一步完善并闡明了基于軟集的關聯(lián)規(guī)則挖掘方法的本質(zhì)[24]。之后,F(xiàn)eng等[25]提出了以軟集理論和軟集邏輯公式為主要工具描述和挖掘關聯(lián)規(guī)則的新路線。此外,F(xiàn)eng等[26]給出了常規(guī)關聯(lián)規(guī)則和極大關聯(lián)規(guī)則挖掘中相關核心概念的統(tǒng)一數(shù)學表征,并提出了基于軟集邏輯公式的極大關聯(lián)規(guī)則挖掘算法。然而,某些項集在整個事務數(shù)據(jù)集的時間跨度中并不會頻繁出現(xiàn),但其在某些特定時間段內(nèi)卻是頻繁的。上述基于軟集的挖掘方法缺乏對項集時間因素的考慮,會忽略附加時間信息的項集關聯(lián)性,遺漏部分有趣的關聯(lián)規(guī)則。基于以上研究動機,擬借助時態(tài)軟集進一步增強關聯(lián)規(guī)則挖掘,嘗試設計一種融合時態(tài)軟集和Apriori算法的新方法提取促進型強時態(tài)關聯(lián)規(guī)則,挖掘潛藏在時態(tài)信息中的數(shù)據(jù)關聯(lián)性。此外,將所提算法應用于分析諾貝爾科學獎獲獎數(shù)據(jù),進一步驗證方法的有效性。

        1 軟集理論

        軟集的本質(zhì)是由給定參數(shù)集及其相應的集值映射構(gòu)成的一個二元組,下面主要簡述軟集和時態(tài)軟集的相關概念。

        1.1 軟集

        設U為初始論域,與U內(nèi)對象相關的全體參數(shù)構(gòu)成集合E,稱為參數(shù)空間,將(U,E)稱為軟論域。U的全部子集構(gòu)成的類為U的冪集,記作P(U)。

        定義1[1]二元組Ω=(G,B)稱為U上的一個軟集,其中B?E是軟集Ω的參數(shù)集,G:B→P(U)是一個集值映射,稱為Ω的近似函數(shù)。

        對任一參數(shù)b∈B,由近似函數(shù)確定的子集G(b)稱作軟集Ω的b-近似集。

        定義2[24]設Ω=(G,B)為論域U上的軟集,u∈U,則稱CΩ(u)={b∈B:u∈G(b)}為u在Ω中的參數(shù)陪集。

        1.2 時態(tài)軟集

        定義3[27]設U為初始論域,有若干互不相交的時間段pi(i=1,2,…,n)構(gòu)成集合P={p1,p2,…,pn},則稱映射τ:U→P是U上的時態(tài)?;成洹?/p>

        2 關聯(lián)規(guī)則挖掘

        關聯(lián)規(guī)則挖掘旨在從交易數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)項集之間潛在的、有意義的聯(lián)系。一般而言,關聯(lián)規(guī)則的挖掘分為兩步:1) 找出所有滿足最小支持閾值的頻繁項集;2) 由頻繁項集產(chǎn)生滿足最小置信度閾值的強關聯(lián)規(guī)則。

        下面主要介紹常規(guī)關聯(lián)規(guī)則和時態(tài)關聯(lián)規(guī)則,對比發(fā)現(xiàn)時態(tài)在關聯(lián)規(guī)則中的重要意義。

        2.1 常規(guī)關聯(lián)規(guī)則

        假設項域I={i1,i2,…,i|I|}是給定交易數(shù)據(jù)中的全體項目之集,每條交易記錄t都是I的一個非空子集。集合D={t1,t2,…,t|D|}包含所有交易記錄,稱為交易數(shù)據(jù)集。由I中若干項目構(gòu)成的非空集合X稱為項集,包含k個項目的項集稱為k-項集。若X?t,則稱交易記錄t在D中支持項集X。

        定義6[24]令D為一交易數(shù)據(jù)集,X為一項集,將D中由所有支持項集X的交易記錄構(gòu)成的集合稱為項集X在D內(nèi)的實現(xiàn)集,記作ΔD(X),即

        ΔD(X)={t∈D:X?t}

        該實現(xiàn)集的基數(shù)|ΔD(X)|為項集X在D中的支持,記為SD(X)。給定兩個互不相交的非空項集X,Y?I,形式表達式X?Y稱為一個關聯(lián)規(guī)則,其中,項集X與項集Y分別是規(guī)則的前件和后件。

        定義7[24]關聯(lián)規(guī)則X?Y在交易數(shù)據(jù)集D內(nèi)的實現(xiàn)集ΔD(X?Y)定義為

        ΔD(X?Y)=ΔD(X∪Y)

        規(guī)則X?Y在D內(nèi)的支持SD(X?Y)定義為

        SD(X?Y)=SD(X∪Y)=card(ΔD(X?Y))

        定義8[24]關聯(lián)規(guī)則X?Y在交易數(shù)據(jù)集D內(nèi)的置信度CD(X?Y)定義為

        若式中SD(X)=0,則CD(X?Y)=0。

        定義9關聯(lián)規(guī)則X?Y在交易數(shù)據(jù)集D內(nèi)的提升度LD(X?Y)定義為

        若式中SD(X)·SD(Y)=0,則LD(X?Y)=0。

        提升度可以衡量項集X和項集Y之間的相關性,當規(guī)則X?Y滿足LD(X?Y)>1時,則代表項集X的出現(xiàn)促進了項集Y的出現(xiàn),二者呈正相關,稱規(guī)則X?Y為促進型關聯(lián)規(guī)則。此外,LD(X?Y)值越大,項集X的出現(xiàn)對項集Y的出現(xiàn)帶來的增益越高,二者相關性越強。為了在交易數(shù)據(jù)集中挖掘出有意義的規(guī)則,需要預先設置最小支持閾值a和最小置信度閾值b。當SD(X)≥a時,稱項集X為頻繁項集。而當規(guī)則X?Y滿足SD(X?Y)≥a且CD(X?Y)≥b時,可稱X?Y為強關聯(lián)規(guī)則。

        2.2 時態(tài)關聯(lián)規(guī)則

        部分項集在交易數(shù)據(jù)集的整個時間跨度中并不是頻繁的,但在某些時間段內(nèi)這些項集往往會頻繁出現(xiàn)。因此,在不同時段內(nèi)挖掘項集之間的關聯(lián)性,可能會有意外的發(fā)現(xiàn)。下面具體闡明時態(tài)關聯(lián)規(guī)則挖掘的相關基本概念。

        令D為交易數(shù)據(jù)集,t∈D為交易記錄,P={p1,p2,…,p|P|}為若干互不相交的時間段之集。若滿足pt=τ(t)∈P,即交易記錄t發(fā)生在時段pt內(nèi),則稱pt是t的時段標記,并稱T=(D,τ,P)為一個時態(tài)交易數(shù)據(jù)集。

        定義10[27]令T=(D,τ,P)為一個時態(tài)交易數(shù)據(jù)集,且t∈D,Q?P。若有項集X?t,τ(t)∈Q,則稱t在Q所轄時段內(nèi)支持項集X。

        定義11[27]令T=(D,τ,P)為一個時態(tài)交易數(shù)據(jù)集,Q?P,X為一項集,則T中項集X在Q所轄時段內(nèi)的時態(tài)實現(xiàn)集為

        定義12[27]時態(tài)關聯(lián)規(guī)則X?QY在時態(tài)交易數(shù)據(jù)集T中的時態(tài)實現(xiàn)集定義為

        定義13[27]時態(tài)關聯(lián)規(guī)則X?QY在時態(tài)交易數(shù)據(jù)集T中的時態(tài)置信度定義為

        定義14時態(tài)關聯(lián)規(guī)則X?QY在時態(tài)交易數(shù)據(jù)集T中的時態(tài)提升度定義為

        3 基于時態(tài)軟集的關聯(lián)規(guī)則挖掘

        下面結(jié)合時態(tài)軟集的相關理論和時態(tài)關聯(lián)規(guī)則的基本概念,研究時態(tài)關聯(lián)規(guī)則的軟集描述方法及相應挖掘算法。

        3.1 時態(tài)關聯(lián)規(guī)則的軟集描述

        設U為初始論域,u∈U,若干互不相交的時間段構(gòu)成集合P={p1,p2,…,p|P|},Q?P。

        為了闡明上述概念在實際動態(tài)場景中的現(xiàn)實意義,下面以某醫(yī)院患者的病例信息為例作簡要論述。

        例1假設某醫(yī)院提供了12位入院治療患者的相關信息,對這些病例數(shù)據(jù)進行統(tǒng)計,具體如表1所示。

        表1 某醫(yī)院12位患者的確診信息

        設入院治療的12名患者ui(i=1,2,…,12)構(gòu)成了論域U,與其相關的屬性構(gòu)成了參數(shù)空間E。令參數(shù)集B=A∪D?E,其中A={a1,a2,a3}為患者所患疾病,am(m=1,2,3)分別表示新冠肺炎、普通感冒和流行性感冒。D={d1,d2,…,d7}表示臨床癥狀,其中dn(n=1,2,…,7)分別代表發(fā)熱、咳嗽、咽痛、呼吸困難、乏力、腹瀉和頭痛。令P={p1,p2,p3},其中pk(k=1,2,3)分別表示患者的確診時間為“2022年1月14日”“2022年1月16日”“2022年1月17日”。

        由表1構(gòu)建時態(tài)?;成洇?U→P,該映射基于時態(tài)信息給出論域U的劃分為

        {τ-1(pk)|pk∈P}={{u1,u2,u3,u4,u5},
        {u6,u7,u8},{u9,u10,u11,u12}}

        在此基礎上,進一步構(gòu)建U上的一個時態(tài)軟集Φ=(F,B,τ,P),如表2所示。

        表2 時態(tài)軟集Φ=(F,B,τ,P)的表格表示

        令Q={p1,p2}?P,由定義5易見

        τ-1(Q)={u1,u2,…,u8}

        記時態(tài)軟集Φ的Q-片段軟集為ΦQ=(H,B),計算可得

        H(a1)={u1,u3,u4,u6,u8}
        H(a2)={u2,u7}
        H(a3)={u5}

        此外,

        H(d1)={u1,u2,u3,u4,u5,u6,u8}
        H(d2)={u2,u4,u6,u7,u8}
        H(d3)={u2,u3,u6,u7}
        H(d4)={u4,u8}
        H(d5)={u1,u4,u6,u8}
        H(d6)=?
        H(d7)={u5}

        根據(jù)定義15,項集{a1}的Q-實現(xiàn)集為

        考慮時態(tài)關聯(lián)規(guī)則{a1}?Q{d1,d4,d5},由定義16,其在時態(tài)軟集Φ中的Q-實現(xiàn)集為

        其Q-支持為

        由定義17,該規(guī)則的Q-置信度為

        根據(jù)定義18可得其Q-提升度為

        取α=2和β=30%,則{a1}?Q{d1,d4,d5}是Q所轄時段中的促進型強時態(tài)關聯(lián)規(guī)則,其含義可解釋為2022年1月14日和16日這兩天,被確診為新冠肺炎的患者中有40%的人臨床癥狀表現(xiàn)為發(fā)熱、呼吸困難和乏力。

        3.2 基于時態(tài)軟集的關聯(lián)規(guī)則挖掘算法

        Agrawal等提出的Apriori算法[6]是一種經(jīng)典的候選項集生成法算法,采用逐層搜索的方法篩選頻繁項集,進而由頻繁項集生成滿足置信度閾值的強關聯(lián)規(guī)則。下面,基于時態(tài)關聯(lián)規(guī)則的軟集描述,提出一種融合時態(tài)軟集和Apriori算法的促進型強時態(tài)關聯(lián)規(guī)則挖掘算法(Apriori-based Soft Promotive Temporal Association Rule Mining,Apriori-SPTARM)。

        Apriori-SPTARM算法以時態(tài)交易數(shù)據(jù)集T=(D,τ,P)、集合Q?P、最小時態(tài)支持α∈N*和最小時態(tài)置信度β∈(0,1]作為輸入,其輸出為所有促進型強時態(tài)關聯(lián)規(guī)則構(gòu)成的集合SPTAR(T,Q,α,β)。算法的具體步驟如下。

        步驟4連接剪枝,生成(k+1)-候選項集,并保留所有(k+1)-頻繁項集。

        4 實例驗證及結(jié)果分析

        為了驗證Apriori-SPTARM算法的有效性,將其應用于諾貝爾科學獎的部分獲獎數(shù)據(jù),分析特定時段內(nèi)項集的關聯(lián)性,對比該方法與常規(guī)關聯(lián)規(guī)則挖掘方法的不同及其相較于傳統(tǒng)方法的優(yōu)勢。

        4.1 數(shù)據(jù)介紹

        諾貝爾獎旨在表彰在化學、物理學、生理學或醫(yī)學、和平以及文學領域作出巨大貢獻的個人或組織,在國際上具有廣泛而深遠的影響。

        在Kaggle網(wǎng)站中獲取有關諾貝爾獎獲獎者的數(shù)據(jù)集,該數(shù)據(jù)集共包含969條記錄,涉及1901年至2016年所有獲獎者的相關信息,包括獲獎者姓名、性別、獲獎年份、獎項類別和所屬國家等內(nèi)容。為簡化問題,在此僅分析科學領域的獲獎數(shù)據(jù),包括諾貝爾化學獎(Nobel Prize in Chemistry,NPC)、諾貝爾物理學獎(Nobel Prize in Physics,NPP)和諾貝爾生理學或醫(yī)學獎(Nobel Prize in Physiology or Medicine,NPPM),并將諾貝爾科學獎簡稱為諾獎。對原始數(shù)據(jù)集進行數(shù)據(jù)清洗以達到分析需求,完成預處理后,人工添加2017年至2020年的獲獎信息,最終得到滿足條件的簡化數(shù)據(jù)337條,僅包含獲獎年份、獎項類別和所屬國家等3類屬性,可將每條記錄視為一條交易數(shù)據(jù)。預處理后的部分獲獎記錄如表3所示。

        表3 預處理后的部分獲獎數(shù)據(jù)

        4.2 數(shù)值實驗

        實驗配置為Windows 10 x64操作系統(tǒng)、 Intel(R) Core(TM) i5-7200U CPU @ 2.50 GB處理器和8.00 GB內(nèi)存,軟件為Matlab R2019a。

        設論域U={u1,u2,…,u337}包含1901年—2020年頒發(fā)的所有諾貝爾科學獎,與諾獎相關的屬性構(gòu)成U對應的參數(shù)空間E。取參數(shù)集B=C1∪C2,其中C1={c1,c2,…,c30}為諾獎的所屬國家,C2={NPC,NPP,NPPM}。根據(jù)表3中的數(shù)據(jù),令P={p1,p2,p3,p4,p5,p6},其中p1=[1901,1920],p2=[1921,1940],p3=[1941,1960],p4=[1961,1980],p5=[1981,2000],p6=[2001,2020],即主要研究P所轄的6個時段。時態(tài)?;成洇?U→P可誘導出U劃分為

        {τ-1(pk)|pk∈P}=
        {{u1,…,u52},…,{u278,…,u337}}

        表4 時態(tài)軟集=(G,B,τ,P)中參數(shù)集的支持

        利用表4構(gòu)建模糊集

        直觀地,基于預處理后得到表3中的簡化數(shù)據(jù),模糊集F能夠描述每個國家的總體科學影響力,可將其稱為總體科學影響力模糊集(Overall Scientific Impact Fuzzy Set,OSIFS)。篩選出支持不小于12的8個主要國家,通過計算得到的隸屬度分別為

        F(c1)=F(USA)=0.531
        F(c2)=F(UK)=0.226
        F(c3)=F(Germany)=0.125
        F(c4)=F(France)=0.080
        F(c5)=F(FRG)=0.056
        F(c6)=F(Switzerland)=0.056
        F(c7)=F(Japan)=0.047
        F(c8)=F(Sweden)=0.045

        根據(jù)總體科學影響力模糊集F的隸屬度降序,8個國家的排名為

        c1c2c3c4c5=c6c7c8

        由此可見,美國的總體科學影響力位居第一,英國次之,排名第三的是德國。根據(jù)隸屬度的相關含義,上述排名從諾貝爾科學獎的總體獲獎情況角度反映了各國的科學影響力。

        圖1和圖2給出了8個主要國家在6個時段中的隸屬度計算結(jié)果,能夠從獲得諾貝爾科學獎的角度反映各國在不同時期科學影響力的變化情況。

        圖2 國家cj(j=5,6,7,8)在各時段的隸屬度

        根據(jù)隸屬度的相關含義,由圖1和圖2可以看出,1901—2020年美國的科學影響力穩(wěn)步提升,與此同時,德國的科學影響力逐漸下降,而英國則長期處于穩(wěn)態(tài)。進入21世紀后,日本在科技領域發(fā)展較快。

        4.3 結(jié)果分析

        基于已構(gòu)建的時態(tài)軟集,利用Apriori-SPTARM算法提取6個時段內(nèi)滿足閾值條件的促進型強時態(tài)關聯(lián)規(guī)則。將每個時段內(nèi)的最小時態(tài)支持α設置為2和最小時態(tài)置信度β為70%,最終結(jié)果如表5所示。

        表5 時態(tài)軟集=(G,B,τ,P)中的時態(tài)關聯(lián)規(guī)則

        續(xù)表5 時態(tài)軟集=(G,B,τ,P)中的時態(tài)關聯(lián)規(guī)則

        1) 考慮促進型強時態(tài)關聯(lián)規(guī)則R1,其p1-支持為

        p1-置信度為

        p1-提升度為

        該規(guī)則的實際意義可解釋為1901—1920年間,授予荷蘭的諾貝爾科學獎均為物理學獎。

        考慮規(guī)則R4,其p2-支持為

        p2-置信度為

        p2-提升度為

        該規(guī)則的實際意義可解釋為1921—1940年間,授予荷蘭的諾貝爾科學獎均為生理學或醫(yī)學獎。

        2) 考慮規(guī)則R9,其p4-支持為

        p4-置信度為

        p4-提升度為

        該規(guī)則的實際意義為1961—1980年間,授予英國的諾貝爾生理學或醫(yī)學獎有71.43%是與美國共享的。

        再考慮規(guī)則R23,其p5-支持為

        p5-置信度為

        p5-提升度為

        該規(guī)則的實際意義可解釋為1981—2000年間,授予加拿大的諾貝爾化學獎均是與美國共享的。

        對于規(guī)則R27,其p6-支持為

        p6-置信度為

        p6-提升度為

        該規(guī)則的實際意義可解釋為2001—2020年間,授予日本的諾貝爾化學獎均是與美國共享的。

        可以發(fā)現(xiàn),從1961年至今,各國在科技創(chuàng)新上的合作共享逐步加強。

        3) 令Q=P={p1,p2,…,p6},設置Q所轄時段內(nèi)的最小支持為12,最小置信度為70%。對于規(guī)則{NPPM}?Q{USA},其Q-支持為

        Q-置信度為

        Q-提升度為

        利用常規(guī)關聯(lián)規(guī)則挖掘方法,在1901至2020年整個時間范圍內(nèi),規(guī)則{NPPM}?Q{USA}是頻繁出現(xiàn)的但并不滿足置信度閾值,故該規(guī)則不可被識別為強關聯(lián)規(guī)則。而根據(jù)表5,規(guī)則R7({NPPM}?p4{USA})、規(guī)則R16({NPPM}?p5{USA})分別在時段p4和p5內(nèi)被識別為促進型強時態(tài)關聯(lián)規(guī)則。

        再考慮規(guī)則{NPC,UK}?Q{USA},其Q-支持為

        Q-置信度為

        Q-提升度為

        因此,在傳統(tǒng)挖掘技術(shù)中,該規(guī)則在1901—2020年整個時間范圍內(nèi)不是頻繁的,更不可被識別為強規(guī)則。根據(jù)時態(tài)信息劃分數(shù)據(jù)集后,對于規(guī)則R28,即規(guī)則{NPC,UK}?p6{USA},其p6-支持為

        p6-置信度為

        p6-提升度為

        顯然,規(guī)則R28為p6時段內(nèi)的促進型強時態(tài)關聯(lián)規(guī)則,而借助傳統(tǒng)方法這條規(guī)則不可被發(fā)現(xiàn)。

        由上述分析可知,某些項集只在特定的時間段內(nèi)是頻繁出現(xiàn)的,而在整個數(shù)據(jù)集的時間跨度上并非是頻繁的,借助傳統(tǒng)方法不能提取出由這些頻繁項集生成的規(guī)則。此外,部分頻繁出現(xiàn)的規(guī)則不能滿足最小置信度閾值,將數(shù)據(jù)集按時態(tài)粒度劃分后,這些規(guī)則可被識別為某些時段內(nèi)的強規(guī)則??傊跁r態(tài)軟集的關聯(lián)規(guī)則挖掘方法可以幫助發(fā)現(xiàn)一些在常規(guī)關聯(lián)規(guī)則提取中被忽略的強時態(tài)關聯(lián)規(guī)則。

        5 結(jié)語

        探索了時態(tài)軟集及其在時態(tài)關聯(lián)規(guī)則挖掘中的應用。首先,借助時態(tài)?;成湟肓藭r態(tài)事務數(shù)據(jù)集的粒度結(jié)構(gòu),定義了時態(tài)軟集及其Q-片段軟集,進而構(gòu)建描述和挖掘時態(tài)關聯(lián)規(guī)則的一種數(shù)學框架。其次,通過融合時態(tài)軟集和Apriori算法,設計了一種基于時態(tài)軟集的關聯(lián)規(guī)則挖掘算法Apriori-SPTARM,可用于提取促進型強時態(tài)關聯(lián)規(guī)則。最后,將所提方法應用于分析諾貝爾科學獎獲獎數(shù)據(jù)。數(shù)值實驗表明,在實際場景中數(shù)據(jù)會隨時間產(chǎn)生動態(tài)變化,傳統(tǒng)關聯(lián)規(guī)則挖掘忽略了時間因素的影響,容易遺漏某些特定時段內(nèi)的強規(guī)則。Apriori-SPTARM算法彌補了傳統(tǒng)方法的缺陷。通過時態(tài)軟集引入數(shù)據(jù)集的時態(tài)粒度結(jié)構(gòu)后,局部時段內(nèi)由頻繁項集生成的規(guī)則可被識別為強時態(tài)關聯(lián)規(guī)則。這為解決時態(tài)關聯(lián)規(guī)則挖掘問題提供了新思路,同時也拓展了軟集在關聯(lián)規(guī)則挖掘中的應用。

        值得注意的是,基于時態(tài)軟集的關聯(lián)規(guī)則挖掘中僅考慮了數(shù)據(jù)的時態(tài)?;覍嵗治鲋胁捎昧说葧r間間隔的劃分方式,具有一定的局限性。在今后的研究中,可考慮自適應時段劃分方法。此外,如何通過更具一般性的粒化方法劃分事務數(shù)據(jù)集也是值得探索的方向。

        猜你喜歡
        關聯(lián)定義規(guī)則
        撐竿跳規(guī)則的制定
        “苦”的關聯(lián)
        當代陜西(2021年17期)2021-11-06 03:21:36
        數(shù)獨的規(guī)則和演變
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對我國的啟示
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        修辭學的重大定義
        當代修辭學(2014年3期)2014-01-21 02:30:44
        山的定義
        公務員文萃(2013年5期)2013-03-11 16:08:37
        成人国产精品999视频| 99re66在线观看精品免费| 爱情岛论坛亚洲永久入口口| 免费无码毛片一区二区三区a片 | 国产精品区二区东京在线| 亚洲人成综合第一网站| 日韩人妻无码精品久久免费一| 色丁香色婷婷| 国产亚洲亚洲精品视频| 美女人妻中出日本人妻| 米奇7777狠狠狠狠视频影院| xxxx国产视频| 最新亚洲av日韩av二区一区| 一区二区三区视频在线观看| 精品少妇一区二区三区免费观| 在线播放a欧美专区一区| 亚洲传媒av一区二区三区| 风韵丰满熟妇啪啪区99杏| 亚洲国色天香卡2卡3卡4| 精品国产av无码一道| 国产网友自拍视频在线观看| 黑人巨大精品欧美| 国产av剧情一区二区三区| 亚洲妇女无套内射精| 国产亚洲欧美在线| 一区二区三区在线日本| 欧美成人精品第一区| 性色av无码一区二区三区人妻 | 免费人成视频x8x8| 欧美成人a视频免费专区| 丝袜美腿国产一区二区| 久久不见久久见www日本网| 少妇高潮潮喷到猛进猛出小说| 日韩av一区二区毛片| 蜜乳一区二区三区亚洲国产| 高清偷自拍亚洲精品三区 | 伊人久久大香线蕉av网禁呦| 人妻无码一区二区在线影院| 国成成人av一区二区三区| 中文字幕精品一区二区精品| 欧美性群另类交|