陳國(guó)有, 程懷志, 蘇紅, 朱江, 劉金成, 呂鵬舉
(1.哈爾濱醫(yī)科大學(xué)大慶分校 藥學(xué)院, 黑龍江 大慶 163319; 2.哈爾濱醫(yī)科大學(xué)大慶分校 人事處,黑龍江 大慶 163319; 3.大慶醫(yī)學(xué)高等專(zhuān)科學(xué)校 藥學(xué)系, 黑龍江 大慶 163319;4.哈爾濱醫(yī)科大學(xué)大慶分校 信息與技術(shù)學(xué)系, 黑龍江 大慶 163319;5.哈爾濱醫(yī)科大學(xué)大慶分校 教務(wù)處, 黑龍江 大慶 163319)
隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,越來(lái)越多的領(lǐng)域逐漸走向網(wǎng)絡(luò)化與線上資源開(kāi)發(fā)的發(fā)展道路,應(yīng)用互聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)了資源共享與同步利用。隨著慕課類(lèi)型的線上學(xué)習(xí)模式大規(guī)模增長(zhǎng),線上的學(xué)習(xí)資源儲(chǔ)備已經(jīng)成為未來(lái)互聯(lián)網(wǎng)技術(shù)發(fā)展的重要內(nèi)容,對(duì)外的數(shù)據(jù)挖掘資源輸出質(zhì)量總是良莠不齊,需要得到精確的控制才能對(duì)數(shù)據(jù)進(jìn)行應(yīng)用,尤其針對(duì)藥學(xué)教育資源的錄用,需要進(jìn)行相對(duì)精確地分析[1-2]。
本文將研究基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫(kù)錄入信息量自動(dòng)控制技術(shù),數(shù)據(jù)挖掘技術(shù)下的藥學(xué)資源開(kāi)發(fā)能夠?yàn)榻逃Y源的獲取帶來(lái)巨大的后備能源。但是數(shù)據(jù)挖掘量的過(guò)于突出會(huì)對(duì)整個(gè)資源庫(kù)造成一定的信息輸出負(fù)擔(dān),所以需要對(duì)資源庫(kù)錄入信息量進(jìn)行自動(dòng)控制,更加優(yōu)質(zhì)地獲取藥學(xué)教育資源。
隨著數(shù)據(jù)庫(kù)類(lèi)型的不斷更新,數(shù)據(jù)信息已經(jīng)呈井噴式增長(zhǎng),如何能夠獲取與利用數(shù)據(jù)信息成為了當(dāng)前研究的重要內(nèi)容,數(shù)據(jù)挖掘技術(shù)能夠從眾多的數(shù)據(jù)信息中智能總結(jié)數(shù)據(jù)規(guī)律并進(jìn)行提取,應(yīng)用在大容量的數(shù)據(jù)庫(kù)中完成數(shù)據(jù)庫(kù)的填充任務(wù),但是數(shù)據(jù)挖掘技術(shù)的核心為大數(shù)據(jù)量的保障功能與信息關(guān)聯(lián)功能,只有對(duì)已知知識(shí)深度分解和關(guān)聯(lián)才能更有效獲取隱性知識(shí),為數(shù)據(jù)庫(kù)的管理者增加知識(shí)獲取鏈接,促進(jìn)更多信息的傳遞與發(fā)掘[3-4]。基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫(kù)錄入信息量自動(dòng)控制過(guò)程如圖1所示。
圖1 藥學(xué)教育資源庫(kù)錄入信息量自動(dòng)控制過(guò)程
根據(jù)圖1可知,數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)首先需要將已知數(shù)據(jù)作為挖掘目標(biāo),建立數(shù)據(jù)挖掘集合并從不同的數(shù)據(jù)源中集中數(shù)據(jù)關(guān)聯(lián)內(nèi)容;再對(duì)關(guān)聯(lián)的已知數(shù)據(jù)進(jìn)行雜質(zhì)去除,自動(dòng)篩選與挖掘主體無(wú)關(guān)的數(shù)據(jù);在沒(méi)有發(fā)現(xiàn)規(guī)律與內(nèi)容可應(yīng)用性的信息條件中將可挖掘信息轉(zhuǎn)換為與挖掘主題相關(guān)的數(shù)據(jù)鏈,具體的轉(zhuǎn)換技術(shù)需要參考該類(lèi)型數(shù)據(jù)信息的邏輯原理;最終對(duì)數(shù)據(jù)進(jìn)行挖掘,選擇合適且具有針對(duì)性的數(shù)據(jù)設(shè)計(jì)挖掘模型,在模型中完成數(shù)據(jù)規(guī)律的尋找與錄用,還可以對(duì)數(shù)據(jù)信息的基礎(chǔ)知識(shí)進(jìn)行組建,經(jīng)過(guò)內(nèi)容的核心處理,選取挖掘符合用戶(hù)條件的數(shù)據(jù),保障用戶(hù)的基本數(shù)據(jù)挖掘任務(wù)完成[5-6]。
建立的數(shù)據(jù)挖掘模型如圖2所示。
圖2 數(shù)據(jù)挖掘模型
數(shù)據(jù)挖掘技術(shù)具有速度快、挖掘數(shù)據(jù)量龐大、數(shù)據(jù)挖掘精準(zhǔn)度高等優(yōu)勢(shì)。應(yīng)用此技術(shù)向相關(guān)數(shù)據(jù)庫(kù)中傳輸內(nèi)容的同時(shí)需要隨時(shí)控制數(shù)據(jù)庫(kù)的占用空間,以及數(shù)據(jù)挖掘質(zhì)量,及時(shí)控制信息錄入量保證數(shù)據(jù)庫(kù)的可用率。
在模型設(shè)計(jì)中需要對(duì)藥學(xué)教育資源錄入信息情況進(jìn)行閾值設(shè)定,檢測(cè)錄入信息是否存在網(wǎng)絡(luò)方面的隔閡或流量異常狀態(tài)的存在,還要及時(shí)采集網(wǎng)絡(luò)周?chē)h(huán)境對(duì)藥學(xué)教育資源錄入信息內(nèi)容的影響程度,避免外部流量對(duì)藥學(xué)教育資源的更改。資源庫(kù)對(duì)外的信息量引入基本參數(shù)需要依靠管理人員進(jìn)行初步設(shè)定,在基本流量傳輸?shù)幕A(chǔ)上保障數(shù)據(jù)挖掘信息的安全性,設(shè)定的參數(shù)范圍也可以根據(jù)藥學(xué)資源的結(jié)構(gòu)特征進(jìn)行縮小與擴(kuò)大[7]。閾值檢測(cè)過(guò)程如圖3所示。
圖3 閾值檢測(cè)過(guò)程
根據(jù)圖3可知,當(dāng)數(shù)據(jù)挖掘下的外部流量與模型內(nèi)部網(wǎng)絡(luò)接口的數(shù)據(jù)流量相統(tǒng)一時(shí),此時(shí)的流量值為資源庫(kù)錄入的閾值,模型管理員能夠在不進(jìn)行數(shù)據(jù)過(guò)濾的情況下完成精準(zhǔn)可靠的信息數(shù)據(jù)挖掘,藥學(xué)教育資源還可以通過(guò)控制原始的資源數(shù)據(jù)與當(dāng)前數(shù)據(jù)挖掘下的閾值信息進(jìn)行對(duì)比控制,設(shè)定閾值以?xún)?nèi)的數(shù)據(jù)為可入庫(kù)數(shù)據(jù),閾值以外數(shù)據(jù)為不可入庫(kù)數(shù)據(jù)[8]。
數(shù)據(jù)挖掘技術(shù)大多采用多種算法的聯(lián)合數(shù)據(jù)開(kāi)發(fā)方式,發(fā)展多個(gè)藥學(xué)教育資源可開(kāi)發(fā)點(diǎn)進(jìn)行信息變量的關(guān)聯(lián),通過(guò)原始數(shù)據(jù)代表數(shù)據(jù)庫(kù)中的隱性信息,優(yōu)化錄入信息的識(shí)別能力能夠有效控制算法的關(guān)聯(lián)計(jì)算條件與挖掘效率。
對(duì)藥學(xué)資源庫(kù)錄入信息量的識(shí)別需要首先確定藥學(xué)資源庫(kù)內(nèi)外數(shù)據(jù)條件的差異性,盡量減少不同屬性的數(shù)據(jù)關(guān)聯(lián),進(jìn)一步提升數(shù)據(jù)挖掘的方向精準(zhǔn)度,本文嘗試從算法的關(guān)聯(lián)技術(shù)方面入手,建立算法識(shí)別體系,根據(jù)資源庫(kù)內(nèi)外的數(shù)據(jù)挖掘特征識(shí)別數(shù)據(jù)類(lèi)型特征。在分析錄入信息數(shù)據(jù)屬性特征時(shí)可以參考網(wǎng)絡(luò)數(shù)據(jù)中的基本參數(shù),如數(shù)據(jù)挖掘行為時(shí)間、數(shù)據(jù)挖掘行為名稱(chēng)、數(shù)據(jù)挖掘行為主體等,對(duì)特征分析完成后的數(shù)據(jù)應(yīng)用布爾型算法關(guān)聯(lián)規(guī)則完成資源庫(kù)錄入識(shí)別程序,關(guān)聯(lián)規(guī)則主要圍繞行為主體能夠按照行為路徑進(jìn)行資源庫(kù)錄入、行為時(shí)間能否決定行為主體的基本程序、行為名稱(chēng)能否更改行為時(shí)間內(nèi)容等[9-10]。
本文采用TCP/IP網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議作為資源庫(kù)錄入信息主要接口,此接口主要面對(duì)數(shù)據(jù)挖掘下的網(wǎng)絡(luò)層,當(dāng)數(shù)據(jù)挖掘后的數(shù)據(jù)從計(jì)算機(jī)中完成程序?qū)雍蟊阈枰?jīng)過(guò)更高層的運(yùn)輸協(xié)議實(shí)現(xiàn)從主機(jī)到資源庫(kù)的直接對(duì)接,負(fù)責(zé)處理接口端的網(wǎng)絡(luò)層會(huì)根據(jù)IP地址對(duì)制定的數(shù)據(jù)傳輸目標(biāo)進(jìn)行數(shù)據(jù)選擇錄用,依靠路由器的高兼容性融合不同存在格式的數(shù)據(jù)包,逐級(jí)通過(guò)數(shù)據(jù)接口向資源庫(kù)完成錄入[11]。控制接口如圖4所示。
圖4 控制接口
數(shù)據(jù)接口的端口能夠?yàn)樾畔⒘康目刂铺峁┳詣?dòng)分配服務(wù),對(duì)于不同結(jié)構(gòu)的數(shù)據(jù)和接口需要采用不同的數(shù)據(jù)端完成信息量的分化,在協(xié)議中開(kāi)通不同級(jí)別的信息傳輸通道,不斷為數(shù)據(jù)挖掘下的藥學(xué)資源進(jìn)行待審核程序,直到數(shù)據(jù)進(jìn)入接口中完成物理層的傳送,經(jīng)過(guò)數(shù)據(jù)格式更改與資源類(lèi)別分化進(jìn)入教育資源庫(kù)的引用層。
基于數(shù)據(jù)挖掘的藥學(xué)資源庫(kù)錄入信息量的提取需要在數(shù)據(jù)實(shí)現(xiàn)控制前完成,為藥學(xué)教育資源庫(kù)提供優(yōu)質(zhì)的錄入資源,首選確定藥學(xué)教育資源的網(wǎng)絡(luò)檢測(cè)范圍,根據(jù)網(wǎng)絡(luò)范圍內(nèi)的數(shù)據(jù)內(nèi)容設(shè)定異常流量的識(shí)別與測(cè)定,要求錄入的數(shù)據(jù)能夠達(dá)到網(wǎng)絡(luò)安全條件,在網(wǎng)絡(luò)安全地址中計(jì)算不同數(shù)據(jù)挖掘下的數(shù)據(jù)錄用前綴,規(guī)范由某個(gè)路由器納入其管理范圍,在路由器中安裝有網(wǎng)絡(luò)協(xié)議與通信協(xié)議,使藥學(xué)教育資源庫(kù)管理人員能夠隨時(shí)進(jìn)行信息識(shí)別,在教育資源庫(kù)徹底激活數(shù)據(jù)內(nèi)容前完成信息量的精準(zhǔn)提取。流量采集范圍圖如圖5所示。
圖5 流量采集范圍圖
藥學(xué)教育資源庫(kù)錄入信息量的提取還需要經(jīng)過(guò)網(wǎng)絡(luò)設(shè)備的流量采集,計(jì)算待提取數(shù)據(jù)的字節(jié)數(shù)、數(shù)據(jù)端口、IP地址等信息,利用網(wǎng)絡(luò)日志與信息行為進(jìn)行數(shù)據(jù)提取前的預(yù)處理,必須訪問(wèn)教育資源庫(kù)內(nèi)的驅(qū)動(dòng)程序并確定能否滿(mǎn)足待提取數(shù)據(jù)量?jī)?nèi)容,若能滿(mǎn)足挖掘數(shù)據(jù)的傳輸則建立驅(qū)動(dòng)程序完成信息的提取,若不能滿(mǎn)足挖掘數(shù)據(jù)的傳輸則終止信息提取的結(jié)構(gòu)組建[12]。
挖掘數(shù)據(jù)下的藥學(xué)教育資源庫(kù)錄入信息量樣式?jīng)Q定能否完成資源的正常運(yùn)用,由于數(shù)據(jù)挖掘技術(shù)自身沒(méi)有信息結(jié)構(gòu)樣式識(shí)別功能,所以需要完成數(shù)據(jù)挖掘后對(duì)信息樣式進(jìn)行安全性能的評(píng)估。一般的信息樣式分為具有漏洞風(fēng)險(xiǎn)與無(wú)漏洞風(fēng)險(xiǎn),具有漏洞風(fēng)險(xiǎn)的信息樣式又劃分為漏洞編號(hào)、漏洞名稱(chēng)、嚴(yán)重程度等具體內(nèi)容的分析識(shí)別,對(duì)漏洞樣式的識(shí)別主要采用網(wǎng)絡(luò)遺傳免疫算法,在算法中引用已經(jīng)發(fā)生過(guò)的漏洞信息作為基本神經(jīng)元,在神經(jīng)元確定的情況下引用數(shù)據(jù)挖掘下的信息樣式,若神經(jīng)元與新錄用信息產(chǎn)生連接則證明此信息具有一定程度的漏洞,不能夠應(yīng)用在未來(lái)的藥學(xué)教育中,若神經(jīng)元不與信息產(chǎn)生連接則證明信息樣式不存在漏洞問(wèn)題,可以以安全身份用于未來(lái)的藥學(xué)教育[13]。
數(shù)據(jù)挖掘下的藥學(xué)教育資源庫(kù)錄用信息量較為龐大,在進(jìn)行信息量?jī)?chǔ)存時(shí)需要對(duì)原本的文件擴(kuò)展,能夠適用于大數(shù)據(jù)的結(jié)合,每個(gè)文件均需要對(duì)資源內(nèi)的數(shù)據(jù)完成一次改寫(xiě)任務(wù),應(yīng)用目錄生成的方式防止數(shù)據(jù)的重復(fù)性?xún)?chǔ)存,對(duì)上傳成功的數(shù)據(jù)及時(shí)進(jìn)行影像處理,再分別應(yīng)用高頻數(shù)據(jù)儲(chǔ)存方式、中頻數(shù)據(jù)儲(chǔ)存方式、低頻數(shù)據(jù)儲(chǔ)存方式保留挖掘數(shù)據(jù)中的副本,編輯儲(chǔ)存代碼節(jié)省數(shù)據(jù)讀取步驟,建立數(shù)據(jù)的智能通道使挖掘數(shù)據(jù)能夠通過(guò)中頻儲(chǔ)存通道中實(shí)現(xiàn)自主錄用[14]。存儲(chǔ)后的數(shù)據(jù)波形圖如圖6所示。
圖6 存儲(chǔ)后的數(shù)據(jù)波形圖
為了檢測(cè)本文提出的基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫(kù)錄入信息量自動(dòng)控制仿真方法的有效性,與傳統(tǒng)方法進(jìn)行對(duì)比,設(shè)定仿真實(shí)驗(yàn)。
本文選用的仿真平臺(tái)為T(mén)OSSIM仿真平臺(tái),生成的能量模型為T(mén)RACE文件,生成的信息為DEBUG信息。實(shí)驗(yàn)參數(shù)如表1所示。
表1 實(shí)驗(yàn)參數(shù)
根據(jù)上述參數(shù),選用本文提出的基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫(kù)錄入信息量自動(dòng)控制仿真方法與傳統(tǒng)的基于動(dòng)態(tài)數(shù)據(jù)的藥學(xué)教育資源庫(kù)錄入信息量自動(dòng)控制仿真方法,基于小波計(jì)算的藥學(xué)教育資源庫(kù)錄入信息量自動(dòng)控制仿真方法進(jìn)行對(duì)比實(shí)驗(yàn),得到的錄入時(shí)間實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 錄入時(shí)間實(shí)驗(yàn)結(jié)果
根據(jù)圖7可知,本文提出的基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫(kù)錄入信息量自動(dòng)控制仿真方法在10次實(shí)驗(yàn)中,花費(fèi)的錄入時(shí)間始終小于傳統(tǒng)方法。本文提出的方法引入數(shù)據(jù)挖掘技術(shù),能夠在短時(shí)間內(nèi)確定數(shù)據(jù)特點(diǎn),篩選無(wú)用信息,提取有效信息。而傳統(tǒng)方法由于不具備深入挖掘能力,所以需要進(jìn)行多次分析,因此花費(fèi)的錄入時(shí)間過(guò)長(zhǎng)。
錄入準(zhǔn)確率實(shí)驗(yàn)結(jié)果如表2所示。
表2 錄入準(zhǔn)確率實(shí)驗(yàn)結(jié)果
由表2可知,在10次實(shí)驗(yàn)中,本文提出的仿真方法錄入準(zhǔn)確率高于傳統(tǒng)方法。本文提出的方法設(shè)定了數(shù)據(jù)庫(kù),通過(guò)對(duì)比數(shù)據(jù)庫(kù)進(jìn)行藥學(xué)信息提取,因此準(zhǔn)確率更高,而傳統(tǒng)方法缺少比對(duì)工作,所以錄入結(jié)果的準(zhǔn)確率難以得到保障。
綜上所述,本文提出的基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫(kù)錄入信息量自動(dòng)控制仿真方法錄入能力要優(yōu)于傳統(tǒng)方法,更適合于實(shí)際應(yīng)用工作。
本文主要研究數(shù)據(jù)挖掘技術(shù)后的藥學(xué)教育資源庫(kù)錄入儲(chǔ)存控制部分,對(duì)數(shù)據(jù)傳輸過(guò)程中的相關(guān)技術(shù)進(jìn)行分析與設(shè)計(jì),建立閾值體系規(guī)范教育資源庫(kù)的錄入標(biāo)準(zhǔn),以模型的方式設(shè)計(jì)挖掘數(shù)據(jù)進(jìn)入教育資源庫(kù)的流程與方法,再設(shè)計(jì)挖掘數(shù)據(jù)的控制實(shí)現(xiàn)步驟體現(xiàn)本文應(yīng)用方法的有效性。