中圖分類號:TS107 文獻(xiàn)標(biāo)志碼:A 文章編號:1009-265X(2025)06-0082-08
進(jìn)口紡織產(chǎn)品在進(jìn)入中國市場時(shí),需要經(jīng)過相關(guān)部門的檢驗(yàn),出具檢測報(bào)告,檢測報(bào)告的結(jié)果在很大程度上可以反映產(chǎn)品的質(zhì)量。對檢測得到的數(shù)據(jù)進(jìn)行深入地挖掘和分析,可以給監(jiān)管部門提供輔助決策的信息,及時(shí)防止質(zhì)量存在問題的產(chǎn)品流入市場,以免危害消費(fèi)者的健康及財(cái)產(chǎn)安全。
關(guān)聯(lián)規(guī)則挖掘的研究方向主要可分為兩大類:一類是初步探索,旨在針對不同領(lǐng)域的問題,選擇經(jīng)典的算法并通過應(yīng)用這些算法得出結(jié)論,從而解決實(shí)際問題[1]。另一類是深入探索,著眼于算法的改進(jìn)和優(yōu)化,針對特定數(shù)據(jù)提出更具針對性的優(yōu)化策略。這包括通過提升算法效率來加速計(jì)算過程,例如優(yōu)化算法步驟或改進(jìn)數(shù)據(jù)存儲方式[2-3];通過引入新的評價(jià)指標(biāo),從而使得算法的輸出結(jié)果更加符合研究需求,提供更具實(shí)用性的結(jié)論[4];以及優(yōu)化算法中的閾值設(shè)置,以實(shí)現(xiàn)更精準(zhǔn)的規(guī)則挖掘。目前,針對紡織品質(zhì)檢數(shù)據(jù)的關(guān)聯(lián)規(guī)則研究仍較為有限,處于初步探索階段。關(guān)于該領(lǐng)域中所采用算法的改進(jìn)方案,相關(guān)研究相對較少,尚未形成系統(tǒng)的優(yōu)化策略。林宗繆等5使用分布式方法進(jìn)行質(zhì)檢數(shù)據(jù)關(guān)聯(lián)規(guī)則的提取,核心是將海量數(shù)據(jù)分開進(jìn)行存儲和挖掘,但是分布式只有在數(shù)據(jù)量非常大時(shí)才能發(fā)揮比較好的效果,不適用于樣本數(shù)量少的數(shù)據(jù)。劉蘇銳等對于Apriori算法的連接步驟提出了改進(jìn),生成候選項(xiàng)時(shí)確保新生成的項(xiàng)不包含重復(fù)的信息類型,但是算法效率有待提高。而且對于算法指標(biāo)閾值的確定僅僅依靠主觀判斷,得出閾值的過程不透明,可信度也有待提升。
本文基于2018—2023年某機(jī)構(gòu)的紡織品進(jìn)口質(zhì)檢不合格數(shù)據(jù),針對數(shù)據(jù)的特點(diǎn)提出一種基于三元組的T-Apriori算法,并探究其效果。與此同時(shí),本文還通過候選1項(xiàng)集區(qū)間對應(yīng)1項(xiàng)集數(shù)量的變化規(guī)律確定支持度,以便更加精準(zhǔn)地適應(yīng)數(shù)據(jù)的分布特征。使用T-Apriori算法,希望能有效縮短紡織品質(zhì)檢數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的時(shí)間,所挖掘出的強(qiáng)關(guān)聯(lián)規(guī)則可為監(jiān)管部門提供有效的監(jiān)管思路與決策支持。
1 關(guān)聯(lián)規(guī)則介紹
1.1 關(guān)聯(lián)規(guī)則算法
在大量的數(shù)據(jù)中尋找到潛在的關(guān)聯(lián)性可以給管理者提供思路,確定監(jiān)管的方向。通過關(guān)聯(lián)規(guī)則算法,可以確定不同項(xiàng)以及項(xiàng)集之間頻繁出現(xiàn)的模式。
假如有一項(xiàng)集 代表一項(xiàng)事務(wù), A 和
都是 ΠI 的一個(gè)子集。關(guān)聯(lián)規(guī)則是蘊(yùn)含式,通常寫作 δAB 。在關(guān)聯(lián)規(guī)則算法中,比較重要的兩個(gè)指標(biāo)是支持度和置信度
支持度(support)的計(jì)算公式為:
支持度其實(shí)就是 A,B 同時(shí)出現(xiàn)的概率,等于 A 和 兩個(gè)項(xiàng)集同時(shí)出現(xiàn)的事務(wù)次數(shù)比上
中事務(wù)總數(shù)的值。
置信度(confidence)的計(jì)算公式為:
confidence(A?B)=P(B∣A)
的置信度的就是指在 A 出現(xiàn)的時(shí)候,
一定出現(xiàn)的概率,事實(shí)上就是一個(gè)條件概率,可以用A 和
同時(shí)發(fā)生的概率與 A 發(fā)生的概率之比進(jìn)行表示。
在實(shí)際使用關(guān)聯(lián)規(guī)則的過程中,會根據(jù)數(shù)據(jù)的特性來確定最小支持度和最小置信度,以尋找強(qiáng)關(guān)聯(lián)規(guī)則。但是并不是置信度越高,此關(guān)聯(lián)規(guī)則就一定越強(qiáng),此時(shí)還需要進(jìn)行提升度的驗(yàn)證。提升度表示兩個(gè)事件同時(shí)發(fā)生的概率與它們在相互獨(dú)立情況下發(fā)生的概率之比
提升度(lift)公式為:
提升度反映了關(guān)聯(lián)規(guī)則中 A 和 的相關(guān)性,提升度的取值是要求的, liftgt;1 ,認(rèn)為 A 和
是正相關(guān)的,且提升度越大,相關(guān)性越高。 lift=1 時(shí),認(rèn)為 A 和
之間沒有相關(guān)性。lif lt;1 時(shí), A 和
是負(fù)相關(guān)的,且越小證明負(fù)相關(guān)度越高。關(guān)聯(lián)規(guī)則的目的就是為了觀察 A 和
之間有無關(guān)聯(lián),所以必定需要提升度大于1的規(guī)則[7-8] 。
1. 2 Apriori算法
關(guān)聯(lián)規(guī)則算法很多,但是最經(jīng)典的還是Apriori算法,很多后來的算法都是基于此的改良,本文選用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則的提取,并對算法進(jìn)行改進(jìn)。
Apriori算法主要分成兩個(gè)大部分:1)尋找所有大于等于最小支持度的項(xiàng)集,得到頻繁項(xiàng)集;2)得到的頻繁項(xiàng)集去計(jì)算置信度,置信度大于閾值的為強(qiáng)關(guān)聯(lián)規(guī)則。其中,一直處于研究重點(diǎn)的為第一部分,尋找頻繁項(xiàng)集的流程如圖1所示。
主要包括以下幾個(gè)步驟:
a)首先將數(shù)據(jù)處理為布爾類型,對數(shù)據(jù)進(jìn)行讀取。b)對數(shù)據(jù)集進(jìn)行掃描,得到每一個(gè)不重復(fù)的1項(xiàng)集,其為候選1項(xiàng)集。c)統(tǒng)計(jì)每個(gè)1項(xiàng)集出現(xiàn)的次數(shù),與數(shù)據(jù)集中數(shù)據(jù)個(gè)數(shù)進(jìn)行比較得到支持度,與最小支持度進(jìn)行比較,得到頻繁1項(xiàng)集。d)迭代(連接):通過頻繁 (k-1) 項(xiàng)集構(gòu)建候選k 項(xiàng)集 Ck k 最開始為2,主要是將 的 (k-1) 項(xiàng)子集進(jìn)行拼接,得到多個(gè)不重復(fù)的 k 項(xiàng)集。e)剪枝:已知 Ck 的所有 (k-1) 項(xiàng)子集,判斷其是否都是頻繁的,也就是是否在
中,若不頻繁,則刪除此子集。f)統(tǒng)計(jì)篩選后剩余子集在數(shù)據(jù)集中出現(xiàn)的次數(shù)與數(shù)據(jù)集總事務(wù)的比值,得到支持度。再與閾值進(jìn)行比較,最后得到頻繁 k 項(xiàng)集
g)若 是空集,進(jìn)行頻繁項(xiàng)集的輸出,若不是,將 k 加1,再執(zhí)行步驟 d,e,f ,直至
是空集。
1.3 原始數(shù)據(jù)
原始的檢驗(yàn)檢測數(shù)據(jù)包含了產(chǎn)品信息,檢測信息等內(nèi)容。對于紡織產(chǎn)品,HS編碼非常重要,適用于稅則、統(tǒng)計(jì)、生產(chǎn)、運(yùn)輸、貿(mào)易管制、檢驗(yàn)檢疫等多方面。對于國際貿(mào)易產(chǎn)品有明確的分類,包含著原材料、商品用途等信息。有時(shí)候在其中蘊(yùn)含的產(chǎn)品的情況比實(shí)際檢驗(yàn)檢測中列出的更加詳細(xì),將HS編碼歸類為產(chǎn)品信息中
其中關(guān)于合格與否的判定:進(jìn)出口商品抽查檢驗(yàn)項(xiàng)目的合格評定依據(jù)是國家技術(shù)規(guī)范的強(qiáng)制性要求或者海關(guān)總署指定的其他相關(guān)技術(shù)要求,檢測項(xiàng)目中有一項(xiàng)不合格則判定產(chǎn)品不合格。
檢測項(xiàng)目可以分為兩種,一種需要檢測產(chǎn)品是否存在質(zhì)量安全風(fēng)險(xiǎn),是否會對人體健康造成影響;一種則是其不會對人體造成危害,判定其是否符合標(biāo)準(zhǔn)中的最低要求,使消費(fèi)者購得的產(chǎn)品不是殘次品,不會對大眾的財(cái)產(chǎn)安全產(chǎn)生影響,造成消費(fèi)者權(quán)益風(fēng)險(xiǎn)[9]
對2018—2023年的進(jìn)口檢測數(shù)據(jù)進(jìn)行篩選,得到不合格數(shù)據(jù)2909條,約占總數(shù)據(jù)的 8.8% 。
在原始數(shù)據(jù)中出現(xiàn)的不合格項(xiàng)目數(shù)量如圖2所示。
1. 4 數(shù)據(jù)處理
1. 4. 1 概念分層
由于多維數(shù)據(jù)的稀疏性,直接從最低層挖掘關(guān)聯(lián)規(guī)則很難實(shí)現(xiàn),在多維數(shù)據(jù)中,引入了概念分層,概念分層定義了一個(gè)映射序列,將底層概念映射到高層概念,在較高概念層發(fā)現(xiàn)的強(qiáng)關(guān)聯(lián)規(guī)則,可能更加具有普適性。
但是還出現(xiàn)另一種情況,從較高概念層無法挖掘更細(xì)致的關(guān)聯(lián)規(guī)則,也可以將數(shù)據(jù)反向處理,映射到低概念層,進(jìn)行更深人的挖掘,得出相關(guān)性結(jié)論。
對于紡織品進(jìn)口檢驗(yàn)不合格的數(shù)據(jù),進(jìn)行如下的處理:檢測日期,由于過于分散,很難得到強(qiáng)關(guān)聯(lián)規(guī)則,可以將其映射到高層月份。染色牢度可以再進(jìn)行細(xì)分,到低層次映射。此時(shí)事務(wù)包含的內(nèi)容結(jié)構(gòu)如圖3所示。
層級結(jié)構(gòu)需要轉(zhuǎn)換為平面結(jié)構(gòu),轉(zhuǎn)換后的平面結(jié)構(gòu)為事務(wù)項(xiàng)集{HS 編碼,品牌,進(jìn)口商,原產(chǎn)地,…,完成日期月,完成日期,質(zhì)量安全檢驗(yàn)不合格項(xiàng)目,…,總的檢測不合格項(xiàng)目,色牢度細(xì)分},根據(jù)挖掘目的的不同選擇合適的項(xiàng)
由于數(shù)據(jù)具有敏感性,并且有些項(xiàng)過于長不利于關(guān)聯(lián)規(guī)則數(shù)據(jù)的輸入,可以通過對數(shù)據(jù)進(jìn)行編碼處理來避免這些問題。例如項(xiàng)集{HS編碼,品牌,總的檢測不合格項(xiàng)目},其中可以將HS 編碼為 A1- An ,品牌編碼為 B1-Bn ,總的檢測不合格項(xiàng)目編碼為C1-Cn ,如果項(xiàng)集中有更多項(xiàng),可以以此類推,并根據(jù)項(xiàng)的順序調(diào)整編碼。
1. 4.2 布爾矩陣的構(gòu)造
每一條檢測數(shù)據(jù)也就是一行為一件事務(wù),存儲在Excel表格中,每一格為事務(wù)的一項(xiàng),表1為列舉的部分事務(wù)的部分項(xiàng){HS編碼,品牌,總的檢測不合格項(xiàng)目}。
在轉(zhuǎn)換為布爾數(shù)據(jù)前,還需對數(shù)據(jù)進(jìn)行如下處理:
a)缺失值處理:對于HS編碼等存在缺失值,可以通過商品名稱等其余信息加以判斷并補(bǔ)充;無法補(bǔ)充的,保留空值。
b)表格中的每一列都必須有不唯一的取值,否則對關(guān)聯(lián)規(guī)則無貢獻(xiàn),可以直接刪去該列。
將表1列舉的事務(wù)轉(zhuǎn)換為布爾型數(shù)據(jù),如表2所示。具體的轉(zhuǎn)換步驟如下:將原始數(shù)據(jù)處理為布爾型數(shù)據(jù),使數(shù)據(jù)集僅包含0和1,以便進(jìn)行邏輯運(yùn)算,從而將實(shí)際的數(shù)據(jù)庫問題轉(zhuǎn)化為相應(yīng)的邏輯值。通過使用Python中的get_dummies 函數(shù),將存儲在Excel表格中的事務(wù)數(shù)據(jù)轉(zhuǎn)換為布爾矩陣。此操作會為每一列中的唯一取值創(chuàng)建一個(gè)新的二元列。當(dāng)某一項(xiàng)的實(shí)際取值與列名一致時(shí),該值被轉(zhuǎn)換為True(即1);若取值不同或?yàn)榭眨瑒t轉(zhuǎn)換為False(即0)[10]
其對應(yīng)事務(wù)布爾矩陣為
2基于三元組的T-Apriori算法
2.1 三元組介紹
在矩陣中,若數(shù)值為0的元素?cái)?shù)目遠(yuǎn)遠(yuǎn)多于非
0元素的數(shù)目,并且非0元素分布沒有規(guī)律時(shí),則稱該矩陣為稀疏矩陣,如圖4的矩陣 N ,紡織品質(zhì)檢數(shù)據(jù)包括篩選出的不合格數(shù)據(jù)都屬于稀疏矩陣
采用二維數(shù)組的存儲方法既浪費(fèi)大量的存儲單元用來存放零元素,又要在運(yùn)算中花費(fèi)大量的時(shí)間來進(jìn)行零元素的無效計(jì)算,所以必須考慮對稀疏矩陣進(jìn)行壓縮存儲,三元組法是一壓縮方法。具體操作是:將非零元素所在的行、列以及它的值構(gòu)成一個(gè)三元組 (i,j,v) ,然后再按某種規(guī)律存儲這些三元組[1]。圖4展示了矩陣中非零元素的存儲方式。
具體而言,非零元素被存儲在表格中,每一行代表一個(gè)元素。表格的第一列記錄該元素在矩陣中的行索引,第二列表示該元素在矩陣中的列索引,第三列則代表該元素的取值。
2.2 基于三元組的T-Apriori算法
在算法流程中優(yōu)化了尋找頻繁1項(xiàng)集的輸入,很大程度上減少了無關(guān)數(shù)據(jù)集的掃描,提高了尋找頻繁1項(xiàng)集的效率,這一改進(jìn)為后續(xù)尋找更高階的頻繁項(xiàng)集奠定了基礎(chǔ),并進(jìn)一步提升了整體性能
首先,將原始數(shù)據(jù)轉(zhuǎn)化為布爾矩陣后,需要將每行事務(wù)中的有效信息提?。床紶柧仃囍腥≈禐?的單項(xiàng))。
存在某 x(x?1) 行事務(wù)在布爾矩陣中為行向量:
假設(shè)這行事務(wù)中取值為1的項(xiàng),其列名為 A4 B3,C3 ,那么按照三元組的設(shè)定,將這行事務(wù)中的單項(xiàng)轉(zhuǎn)化為集合: (20號
。
然后,按照上述步驟將布爾矩陣中的每一行事務(wù)轉(zhuǎn)換為三元組集合形式。在消除了所有無關(guān)單項(xiàng)后算法的時(shí)間復(fù)雜度大大下降,這個(gè)時(shí)候遍歷得到的三元組集合,提取單個(gè)三元組中的第二位即列名作為候選1項(xiàng)集。
其次,就來到了算法中的核心函數(shù),尋找頻繁項(xiàng)集函數(shù)。在原始Apriori算法中,尋找頻繁項(xiàng)集的函數(shù)輸人為:事務(wù)集的(transactions),候選項(xiàng)集(candidate),最小支持度(min_support);為了優(yōu)化這段算法,將輸入事務(wù)集替換為了三元組集合,去除了無關(guān)單項(xiàng)集,很大程度上提高了算法的效率。在此函數(shù)中,首先將按照行號將三元組進(jìn)行分組,即行號相同的三元組分為一個(gè)集合,此集合則為布爾矩陣中的一行事務(wù)。之后將遍歷輸入的候選項(xiàng)集,如果候選項(xiàng)集是某個(gè)三元組集合列索引的子集,則增加該候選項(xiàng)集的支持度計(jì)數(shù),并將候選集和支持度計(jì)數(shù)存入字典中。
最后,計(jì)算支持度比例。支持度比例計(jì)算公式為式(1),在算法中此公式的分母即是上述步驟分組過后三元組集合的個(gè)數(shù),即事務(wù)的行數(shù),分子則為候選項(xiàng)集的支持度計(jì)數(shù)。在計(jì)算得出支持度比例后將與尋找頻繁項(xiàng)集函數(shù)中的輸入:最小支持度進(jìn)行比較。篩選出滿足最小支持度條件的頻繁項(xiàng)集。
三元組作為稀疏矩陣存儲的重要方法,在應(yīng)用到Apriori關(guān)聯(lián)規(guī)則算法中可以有效地減小算法時(shí)間復(fù)雜度。在尋找候選1項(xiàng)集以及尋找頻繁項(xiàng)集的函數(shù)中替換了原始的事務(wù)列表減少了很多不必要的運(yùn)算,從而顯著地提升了算法的效率。
3 結(jié)果與分析
3.1 支持度和置信度閾值
選取的事務(wù)中包含的項(xiàng)不同,支持度和置信度閾值會存在差異,本文選取項(xiàng)集{品牌,總的檢測不合格項(xiàng)目},挖掘其中存在的關(guān)聯(lián)規(guī)則。表3為檢測不合格項(xiàng)目編碼對應(yīng)關(guān)系。
支持度和置信度的確定大部分都依賴于專家法、經(jīng)驗(yàn)法、試錯(cuò)法。其實(shí)質(zhì)就是找到相對而言發(fā)生次數(shù)較多的項(xiàng)以及項(xiàng)集,支持度越高,發(fā)生概率越大,頻繁項(xiàng)集產(chǎn)生的越多。最優(yōu)的支持度能夠產(chǎn)生足夠多的頻繁項(xiàng)集,且篩選掉無用的頻繁項(xiàng)集[12]
支持度的取值可以從候選一項(xiàng)集的頻數(shù)區(qū)間和1項(xiàng)集的數(shù)量做出判斷,通過對候選項(xiàng)集的觀察,可以得出結(jié)論:候選 n 項(xiàng)集頻數(shù)區(qū)間對應(yīng)項(xiàng)集數(shù)量的變化趨勢和1項(xiàng)集是一致的。頻數(shù)區(qū)間的選擇要根據(jù)數(shù)據(jù)頻數(shù)的分布以及頻數(shù)對應(yīng)的支持度來確定,表4為不同頻數(shù)對應(yīng)的支持度,表5為不同頻數(shù)區(qū)間對應(yīng)的候選1項(xiàng)集數(shù)量
通過表5可以判斷出來,相對而言發(fā)生次數(shù)較多的項(xiàng)集頻數(shù)要大于5,對應(yīng)的支持度為可以設(shè)置為0.002。
不同置信度的要求是產(chǎn)生足夠多的關(guān)聯(lián)規(guī)則,且關(guān)聯(lián)規(guī)則是強(qiáng)有力的,文獻(xiàn)中常用置信度區(qū)間為[0.5,0.8][13],采用試錯(cuò)法,調(diào)整置信度遞增,遞增長度為0.05,得到最合適的置信度為0.65。
3.2 挖掘效率的改變
與傳統(tǒng)的Apriori算法和優(yōu)化連接步的C-Apriori算法相比,在挖掘出的關(guān)聯(lián)規(guī)則數(shù)目相同的情況下,基于三元組的T-Apriori算法運(yùn)行效率更佳,圖5為支持度為0.002,置信度為0.65,數(shù)據(jù)量遞增時(shí)各算法所用時(shí)間。其中優(yōu)化連接步的C-Apriori算法復(fù)現(xiàn)思路為:在連接步增加判斷條件,進(jìn)行連接的兩個(gè)頻繁 k 項(xiàng)集,前 (k-1) 項(xiàng)相同的情況下,如果第 k 項(xiàng)之間有首字母相同的元素,則跳過該候選項(xiàng);如果無首字母相同的元素,繼續(xù)進(jìn)行剪枝步。
根據(jù)圖5可以看出,T-Apriori算法所用時(shí)間明顯更短,運(yùn)行需要的時(shí)間僅為傳統(tǒng)Apriori算法的40% 左右,尤其是在數(shù)據(jù)量增大的時(shí)候,時(shí)間差距更加明顯。盡管C-Apriori算法相較于傳統(tǒng)Apriori算法在運(yùn)行速度上有所提升,但T-Apriori算法在運(yùn)行效率方面表現(xiàn)出更為顯著的優(yōu)勢,進(jìn)一步優(yōu)化了數(shù)據(jù)挖掘過程中的計(jì)算性能。質(zhì)檢數(shù)據(jù)布爾矩陣越稀疏,其中非0值的占比就越小,與傳統(tǒng)Apriori算法的運(yùn)行時(shí)間差值就越大,使用三元組進(jìn)行數(shù)據(jù)壓縮的好處體現(xiàn)出來。
紡織品質(zhì)檢數(shù)據(jù)往往呈現(xiàn)出高度稀疏的特性,會出現(xiàn)支持度很小的情況,所以算法必須適應(yīng)支持度閾值較小的環(huán)境,算法需要在較低支持度仍然保持良好的運(yùn)行效率。置信度為0.65,支持度遞增時(shí),處理2500個(gè)數(shù)據(jù)所用時(shí)間如圖6所示。
根據(jù)圖6可以看出,在支持度相同的情況下,T-Apriori算法的運(yùn)行時(shí)間更短,表明其性能比傳統(tǒng)的Apriori算法和C-Apriori算法更加優(yōu)異,符合我們的預(yù)期。而且可以觀察到,支持度越小,T-Apriori算法和Apriori算法相差時(shí)間越多,說明T-Apriori能更好地適應(yīng)支持度較小的環(huán)境,可以實(shí)現(xiàn)高效的關(guān)聯(lián)規(guī)則挖掘。
綜上所述,基于三元組的T-Apriori算法相較于傳統(tǒng)Apriori算法以及改進(jìn)連接步的C-Apriori算法確實(shí)運(yùn)行速度更快,尤其在支持度更小、數(shù)據(jù)量更高的情況下,可以更加高效地進(jìn)行關(guān)聯(lián)規(guī)則的挖掘
3.3 挖掘結(jié)果分析
當(dāng)支持度為0.002,置信度為0.65時(shí),從2909條數(shù)據(jù)中挖掘出72條強(qiáng)關(guān)聯(lián)規(guī)則,支持度反映了關(guān)聯(lián)的緊密相關(guān)性,選取liftgt;3的強(qiáng)關(guān)聯(lián)規(guī)則,并且不合格項(xiàng)目作為后項(xiàng),最終篩選得到29條數(shù)據(jù)。其中,后項(xiàng)出現(xiàn)的不合格項(xiàng)目共6項(xiàng),包括 )
。強(qiáng)關(guān)聯(lián)規(guī)則中,與 A1 相關(guān)的共2條;與A4 值相關(guān)的共2條;與 A6 相關(guān)的共1條;與 A7 相關(guān)的共2條;與 A9 相關(guān)的共4條;與 A11 相關(guān)的共21條。29條強(qiáng)關(guān)聯(lián)規(guī)則中,前項(xiàng)為2項(xiàng)集的共4條,后項(xiàng)為2項(xiàng)集的共3條。
對強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行解讀,值得關(guān)注的有3點(diǎn):
a)在強(qiáng)關(guān)聯(lián)規(guī)則中,出現(xiàn)頻數(shù)最高的不合格項(xiàng)目為 A11 ,頻數(shù)是其余不合格項(xiàng)目的3倍及以上,說明就總體情況來說,在實(shí)際檢測中各品牌使用說明出現(xiàn)不合格的可能性是比較大的。這是因?yàn)楦鲊鴮τ谑褂谜f明的要求差異較大,而且使用說明存在問題對于人體健康不造成傷害,只會間接損害消費(fèi)者的財(cái)產(chǎn)安全,使生產(chǎn)商和制造商對使用說明的檢測不夠重視,造成使用說明不合規(guī)
b)對于不同的品牌,其經(jīng)常發(fā)生的不合格項(xiàng)目是不同的,管控重點(diǎn)不同
c)品牌不合格項(xiàng)目可能存在多項(xiàng),多項(xiàng)檢測項(xiàng)目之間可能存在關(guān)聯(lián)。如品牌 B397 和 B56 在檢測時(shí)經(jīng)常發(fā)生的不合格項(xiàng)目有兩項(xiàng),一項(xiàng)為成分,一項(xiàng)為使用說明; B413 常發(fā)生的不合格項(xiàng)目為耐久性標(biāo)簽位置和使用說明。這背后的原因可能有兩點(diǎn):一就是這三項(xiàng)檢測項(xiàng)目都不會對人體造成很大的危害,輕視使用說明的品牌很有可能對成分和耐久性標(biāo)簽位置同樣也不重視。二是成分和使用說明的限制要求是在同一標(biāo)準(zhǔn)中提出,也就是GB/T5296.4—2012,品牌對于GB/T5296.4—2012的理解不到位,可能會造成多個(gè)檢測項(xiàng)目不合格同時(shí)發(fā)生。
通過得到的強(qiáng)關(guān)聯(lián)規(guī)則,對監(jiān)管部門提出2點(diǎn)建議:
a)在監(jiān)管時(shí)注意強(qiáng)關(guān)聯(lián)規(guī)則中出現(xiàn)頻數(shù)較高的不合格項(xiàng)目,并警示海外品牌要嚴(yán)格遵守標(biāo)準(zhǔn)GB/T5296.4—2012,對于標(biāo)準(zhǔn)進(jìn)行研讀,只有合規(guī)的產(chǎn)品才能進(jìn)入中國市場。
b)對于需重點(diǎn)監(jiān)管的品牌,其監(jiān)管項(xiàng)目側(cè)重點(diǎn)不同:對于品牌 B76 和 B89 ,重點(diǎn)監(jiān)管項(xiàng)目為 A4 ;對于品牌 B581 ,重點(diǎn)監(jiān)管項(xiàng)目為 ΩA6 ;對于品牌 B319 和B336 ,重點(diǎn)監(jiān)管項(xiàng)目為 A7 ;對于品牌 B377 和 B413 ,重點(diǎn)監(jiān)管項(xiàng)目為 A9 ;對于品牌 B397 和 B56 ,重點(diǎn)監(jiān)管項(xiàng)目為 A1 和 A11 ;對于品牌 B413 ,重點(diǎn)監(jiān)管項(xiàng)目為 A9 和 A11 。
4總結(jié)
目前針對紡織品質(zhì)檢數(shù)據(jù)提出的關(guān)聯(lián)規(guī)則改進(jìn)算法比較少,而且運(yùn)行效率有待提高,針對算法指標(biāo)閾值的確定多數(shù)情況下依賴于主觀判斷。本文利用紡織品質(zhì)檢不合格數(shù)據(jù)較為稀疏的特點(diǎn),提出了一種基于三元組的T-Apriori算法,將稀疏的布爾矩陣壓縮存儲在三元組中,降低了算法掃描數(shù)據(jù)的時(shí)間,使整個(gè)算法的效率較傳統(tǒng)的Apriori算法和改進(jìn)連接步的C-Apriroi算法有了較大的提升,所需時(shí)間僅為傳統(tǒng)Apriori算法的 40% 。并且對于支持度的確定提出了一種基于1項(xiàng)集頻數(shù)的方法,使得支持度的確定更加客觀。
對2018—2023年質(zhì)檢不合格的數(shù)據(jù)進(jìn)行實(shí)證分析,挖掘得到72條強(qiáng)關(guān)聯(lián)規(guī)則,解讀規(guī)則背后的原因,對監(jiān)管部門提出2點(diǎn)建議:加強(qiáng)對使用說明的檢測監(jiān)管力度,警示海外品牌要嚴(yán)格遵守標(biāo)準(zhǔn)GB/T5296.4—2012:對于不同品牌的監(jiān)管項(xiàng)目側(cè)重點(diǎn)應(yīng)存在差別
使用T-Apriori算法作為紡織品質(zhì)檢數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的工具,極大提高了挖掘的效率,節(jié)省時(shí)間,同時(shí)得到的強(qiáng)關(guān)聯(lián)規(guī)則能給監(jiān)管部門提供新的監(jiān)管思路以及監(jiān)管方向,防止存在風(fēng)險(xiǎn)的紡織品流入市場,危害消費(fèi)者的健康及財(cái)產(chǎn)安全。
參考文獻(xiàn):
[1]宗萬里,朱習(xí)軍.基于Apriori算法的食品抽檢數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘[J].食品安全質(zhì)量檢測學(xué)報(bào),2020,11(4):1334-1337.ZONG WL,ZHU X J. Mining association rules of food samplingdatabased on Apriori algorithms[J].Journal ofFood Safetyamp;Quality,2020,11(4):1334-1337.
[2]馬曉平,曹少中,李旸.基于優(yōu)化Apriori算法的印刷檢測數(shù)據(jù)關(guān)聯(lián)分析[J].北京印刷學(xué)院學(xué)報(bào),2024,32(6):22-26.MAXP,CAO SZ,LI Y.Correlation analysis of print inspectiondata based on optimized Apriori algorithm[J]. Journal of BeijingInstitute of Graphic Communication,2024,32(6):22-26.
[3]唐學(xué)軍,周達(dá)謀,李慧蓮.基于改進(jìn)Apriori關(guān)聯(lián)規(guī)則算法的信令分析[J].郵電設(shè)計(jì)技術(shù),2024,(9):63-67.TANGX J,ZHOU D M,LI HL.Signaling analysis based onimproved Apriori association rule algorithm[J].Designing TechniquesofPosts and Telecommunications,2024,(9):63-67.
[4]DARRAB S,BRONESKE D,SAAKE G. Exploring the predictivefactors of heart disease using rare association rule mining[J].Scientific Reports,2024,14(1):18178.
[5]林宗繆,郭先超,姚文勇.基于MapReduce的質(zhì)檢大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[J].自動(dòng)化技術(shù)與應(yīng)用,2016,35(8):43-46.LINZM,GUO XC,YAO WY.Association rules mining of qualityinspectbigdatabased onMapReduce[J].Techniques of Automationand Applications,2016,35(8):43-46.
[6]劉蘇銳,李丹丹,龐曉紅,等.基于關(guān)聯(lián)規(guī)則的輕工品涉稅檢驗(yàn)數(shù)據(jù)挖掘方法[J].皮革與化工,2022,39(5):20-25.LIU SR,LI D D,PANG X H,et al. Association rule mining fortariffrelatedinspectiondata ofimportedlightindustrialconsumerproducts[J].Leather and Chemicals,2022,39(5):20-25.
[7]李唐振昊,尤筱玥.基于Apriori的裝配式建筑質(zhì)量影響因素分析[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,50(2):147-152.LITZ H,YOU X Y.Impact factors analysis on prefabricatedbuildingqualitybasedon Apriorialgorithm[J]. Journal ofTongjiUniversity(Natural Science),2022,50(2):147-152.
[8]YANGY,LIYT,HUOYH,etal.Alarmlogdata augmentationalgorithmbased on a GAN model and Apriori[J].Journal ofComputer Scienceand Technology,2024,39(4):951-966.
[9]張倩,趙慧.紡織服裝產(chǎn)品的質(zhì)量安全風(fēng)險(xiǎn)監(jiān)測體系構(gòu)建研究[J].化纖與紡織技術(shù),2024,53(6):95-97.ZHANG Q,ZHAO H. Research on the construction of quality andsafetyrisk monitoring system for textile and clothing products[J].Chemical Fiberamp; Textile Technology,2024,53(6):95-97.
[10]郭順利,蘇新寧,房旭輝.融合NER和Apriori算法的游記文本關(guān)聯(lián)知識挖掘及推薦服務(wù)研究[J].現(xiàn)代情報(bào),2023,43(11):123-134.GUO S L,SU X N,F(xiàn)ANG X H. Research on travel textassociation knowledge miningand recommendation servicebased onfusion of Named Entity Recognition and Apriori algorithm[J].Journal ofModern Information,2023,43(11):123-134.
[11]黃敏,陳銳,馬軍霞.數(shù)據(jù)結(jié)構(gòu):Python語言描述[M].北京:清華大學(xué)出版社,2024:60-67.HUANG M,CHEN R,MA JX. Data structures:description inPython language[M]. Beijing:Tsinghua University Press,2024:60-67.
[12]LIUMD,YANGZW,GUOY,etal.Micar:nonlinear associationrulemining based onmaximal information coefficient[J].Knowledge and InformationSystems,2022,64(11):3017-3042.
[13]尤美路,梁回香,阿不都熱西提·買買提,等.基于數(shù)據(jù)挖掘的棉纖維馬克隆值等級預(yù)測[J].現(xiàn)代紡織技術(shù),2024,32(8):85-90.YOUML,LIANGHX,MAIMAITIA,etal.Predictionofcottonfibermicronaire values based on data mining[J].Advanced TextileTechnology,2024,32(8):85-90.
Abstract:Currently,research on association rulesfor textile quality inspection data is stillrelatively limited and mostlyin the preliminary exploration stage.There are few related studies on improvement schemes for the algorithms adopted in this field,and systematic optimization strategies have not yet been formed.Furthermore,using the traditional Apriori algorithm to mine asociation rulescanbetime-consuming in dealing with large datasets,and the determination of rule metric thresholds lacks transparency.Therefore,the purpose of this paper is to address the issue of long computation times when mining association rules from unqualified textile quality inspection data,as well as to solve the problem of the subjective and non-transparent determination of the support threshold.
The T-Apriori algorithm optimized based on the traditional Apriori algorithm was adopted.The core idea of this algorithm lies in compressing and storing the Bolean matrix ofdata inatriplet form.Specificall,each transaction in the Bolean matrix is converted into asetof triplets,where each non-zero element is represented as atriplet ( i , j and v ), with i and j being the row and column indices,and V being the value of the element. The dataset scanned bythe algorithm is theconverted triplet set,and thecalculations of support,confidence,and liftare also performed using data retrieved from these triplet sets. Unqualified textile quality inspection data are very sparse,with most elements being zero,and tripletsonly store non-zero elements,thereby efectivelyreducing storage spaceand enhancingcomputational eficiency.For determining the support threshold,the trend in the number of itemsets corresponding to the frequency of candidate 1-itemsets is analyzed to adjust the supportthreshold,alowing itto better adapt to the characteristics of the data and identify relatively high-frequency itemsets.
The experimental results show that the trend in the number of candidate1-itemsetscan be used to identify relatively high-frequent itemsets,and the support thresholdforthe itemset{brandand total unqualified inspection items} is set to O.OO2.The T-Apriori algorithm demonstrates significant performance improvements compared to the traditional Apriori algorithm and its optimized version, C-Apriori. Its runtime is only 40% of that of the traditional Apriori algorithm.Asthevolume of data increases,thereduction inruntimefor the T-Apriori algorithm is even more pronounced,as shown in Fig.5.The lower the support threshold,the larger the diference in runtime between the T-Apriori algorithm and the traditional Apriori algorithm becomes,indicating a more significant reduction in runtimefor the T-Apriori algorithm,as ilustrated inFig.6.In summary,the T-Apriori algorithm exhibits superior processing performance in environments with large data volumes and low support thresholds.By mining textile quality inspection data from 2018 to 2023,72 strong assciation rules are obtained,and based on these rules,two regulatory recommendations are proposed to the supervision department.The adoption of the T-Apriori algorithm greatly improves the analysis eficiency of textile quality inspection data,providing a more eficient data analysis tool for quality supervision and decision support. This has important practical application value.
Keywords: association rules; Apriori algorithm; triplets; quality inspection; textiles