李珊珊,王芳緒,靳浩堂,劉永波,柳明麗
(遼寧科技學院 電氣與信息工程學院,遼寧 本溪 117004)
關(guān)聯(lián)規(guī)則是在大量數(shù)據(jù)中發(fā)掘各數(shù)據(jù)項之間的相互關(guān)系,是目前數(shù)據(jù)挖掘領(lǐng)域里研究的重點問題。當前信息技術(shù)獲得了廣泛的應用,產(chǎn)生了大量的數(shù)據(jù),需要從這些數(shù)據(jù)中挖掘其關(guān)聯(lián)性,來揭示隱藏在數(shù)據(jù)間的依賴關(guān)系,通過這些依賴關(guān)系,可以根據(jù)某一個對象的數(shù)據(jù)信息去推斷另一個數(shù)據(jù)對象的有關(guān)信息,即尋找其關(guān)聯(lián)規(guī)則,這是一種實用且簡單的數(shù)據(jù)挖掘方法〔1〕。
灰色關(guān)聯(lián)度通常是對兩個因素或兩個系統(tǒng)之間相互關(guān)聯(lián)程度大小的度量,是為了尋找影響目標值的主要因素,尋找系統(tǒng)中各個因素之間的重要關(guān)系,進而掌握事物主要特性,有效地引導和促進系統(tǒng)發(fā)展。所謂的關(guān)聯(lián)度,就是對兩系統(tǒng)間的因素隨時間或者不同對象發(fā)生變化的關(guān)聯(lián)性大小的度量。灰色關(guān)聯(lián)度對各因素之間聯(lián)系的緊密程度的判定是依據(jù)其曲線的幾何形狀相似的程度來進行,曲線的幾何形狀越相似,相應的序列之間的關(guān)聯(lián)度就越大,否則就越小?;疑P(guān)聯(lián)度分析適合對動態(tài)歷程進行分析,可以為一個系統(tǒng)的未來發(fā)展變化趨勢提供一個量化的度量分析〔2〕。
數(shù)據(jù)序列分為參考數(shù)列和比較數(shù)列兩種,其中參考數(shù)列由反映系統(tǒng)的行為特征數(shù)據(jù)序列組成,而比較數(shù)列則由影響系統(tǒng)的行為因素數(shù)據(jù)序列組成。
具體計算過程包括5個步驟:(1)原始數(shù)據(jù)變換:在進行灰色關(guān)聯(lián)度分析時,一般都要進行無量綱化的數(shù)據(jù)處理;(2)關(guān)聯(lián)系數(shù)計算:關(guān)聯(lián)程度實質(zhì)是曲線間關(guān)于幾何形狀相差的程度;(3)關(guān)聯(lián)度計算:為了便于進行整體性比較,需要將曲線中的各點(即各個時刻)的關(guān)聯(lián)系數(shù)集中成為一個值,即計算其平均值;(4)排關(guān)聯(lián)序:把m個子序列相對于同一個母序列的關(guān)聯(lián)度按照其由大到小的順序排列,組成關(guān)聯(lián)序{x},用來反映各子序列相對于母序列而言的關(guān)系“優(yōu)劣”程度;(5)列出關(guān)聯(lián)矩陣〔3〕。
參考數(shù)列:l0={l0(1),l0(2),...,l0(n)}
(1)
比較數(shù)列:li={li(1),li(2),...,li(n)}
(2)
設(shè)t時刻li對l0的關(guān)聯(lián)系數(shù)為ξi(t) ,共有m個比較數(shù)列。則:
各時刻的絕對誤差為:
△i(t)=|li(t)-l0(t)|
(3)
各時刻的最小絕對誤差為:
min△i(t)=min|li(t)-l0(t)|
(4)
各時刻的最大絕對誤差為:
max△i(t)+max|li(t)-l0(t)|
(5)
則關(guān)聯(lián)系數(shù)為:
(6)
其中:ρ為分辨系數(shù),取值在0到1,根據(jù)經(jīng)驗一般取ρ=0.5較為合適。
(7)
1)選擇數(shù)據(jù)。在研究中需要搜索出與業(yè)務對象相關(guān)的所有外部和內(nèi)部數(shù)據(jù)信息,并且從這些數(shù)據(jù)信息中篩選出適用于關(guān)聯(lián)規(guī)則研究應用的數(shù)據(jù)。本次研究需要提取藥品名稱,護理單元,產(chǎn)品名稱,總量,劑型。某三甲醫(yī)院全部注射劑藥品共463種,該數(shù)據(jù)庫以氨曲南為例,選擇其第40護理單元腎內(nèi)注射劑藥品為例進行分析,分別抽取了2019年7月10日、6月9日、5月5日以及4月9日的平均每天用藥量在5(瓶、支/天)以上的藥品進行篩選,排出其他藥品對氨曲南的關(guān)聯(lián)序,得到常用藥品數(shù)據(jù),并以此數(shù)據(jù)為代表分析,見表1。
表1 篩選常用藥品數(shù)據(jù)(瓶、支/天)
2)數(shù)據(jù)預處理。將原始數(shù)據(jù)作初值化處理,具體公式:
(8)
(9)
原始數(shù)據(jù)的初值化結(jié)果見表2。
表2 原始數(shù)據(jù)作初值化
使用公式(6)和(7)進行計算,由于缺少分辨系數(shù)的選定對評價結(jié)果影響的數(shù)據(jù)和資料,故采用經(jīng)典算法,取其值為0.5。得到與氨曲南有關(guān)藥品的關(guān)聯(lián)度,見表3。
表3 關(guān)聯(lián)度計算表(氨曲南)
以此類推,再用同樣的方法,排出其他藥品對某種藥品的關(guān)聯(lián)序。
由表3可知與氨曲南藥品關(guān)聯(lián)最大的幾種藥品為:頭孢呋辛(西力欣)>哌拉西林舒巴坦2∶1>他唑仙2.25g>速碧林>頭孢唑林鈉……。表明醫(yī)護人員在拿取氨曲南的同時拿取頭孢呋辛(西力欣)和哌拉西林舒巴坦的概率也很高,因此藥品庫房中氨曲南與頭孢呋辛(西力欣)和哌拉西林舒巴坦2∶1擺放的越近,越方便提高醫(yī)護人員取藥的效率。
本文僅對主觀用量最多的氨曲南藥品進行了關(guān)聯(lián)度分析,未有說明藥品對應的適應癥,因此該種方法還要結(jié)合藥師的意見和經(jīng)驗綜合評價,該模型中未包括藥品的安全性與重要程度,金額過高的藥品要單獨進行監(jiān)控管理,因此必須考慮多方面因素,才能給出客觀的關(guān)聯(lián)結(jié)果。
本文只是對該三甲醫(yī)院醫(yī)囑用藥第40單元中的部分藥品進行了關(guān)聯(lián)分析,就整個單元來看,該方法可以排出所有其他藥品的關(guān)聯(lián)序。就整個醫(yī)院來看,其他護理單元的數(shù)據(jù)形態(tài)與此單元有相似之處,如果要同時對醫(yī)院的上千種藥品進行分析,還需對藥品做進一步的了解,對關(guān)聯(lián)方法做進一步的研究。