胡宇飛,謝 莉
(1. 江蘇科技大學(xué)船舶與海洋工程學(xué)院,江蘇 鎮(zhèn)江 212003;2. 江蘇科技大學(xué),江蘇 鎮(zhèn)江 212003)
信息資源整合是當(dāng)前信息管理的研究熱點(diǎn),資源整合是影響信息管理水平的關(guān)鍵,目前,用戶信息管理存在工作量大、信息多、數(shù)據(jù)繁瑣等問題,這些問題給用戶信息管理增加了難度[1,2]。需要整合各類資源,及時向用戶提供有效信息,統(tǒng)計分析用戶信息變化情況,有效解決用戶信息管理中存在的問題。在用戶信息處理中,存在一部分異常用戶,他們的相關(guān)信息存在虛假、安全性問題,因此,需要研究出針對異常用戶的信息資源整合方法[3,4]。
文獻(xiàn)[5]提出了基于文獻(xiàn)計量共引分析的圖書情報數(shù)據(jù)整合方法,建立射頻標(biāo)簽識別模型,將該模型與RFID標(biāo)簽技術(shù)相結(jié)合,對圖書情報數(shù)據(jù)進(jìn)行采樣,然后采用語義相似度特征提取方法將采樣結(jié)果進(jìn)行融合處理。根據(jù)融合結(jié)果采用文獻(xiàn)計量共引分析方法實現(xiàn)數(shù)據(jù)聚類,并建立語義本體模型對圖書情報數(shù)據(jù)進(jìn)行整合處理。實驗結(jié)果表明,該方法具備較好的分類性能,能夠?qū)Σ煌愋偷臄?shù)據(jù)進(jìn)行準(zhǔn)確分類,有利于數(shù)據(jù)整合,但是由于需要對各種類型的數(shù)據(jù)進(jìn)行一一分類,導(dǎo)致數(shù)據(jù)整合效率不高。文獻(xiàn)[6]提出了基于CSpace DR的專業(yè)領(lǐng)域異構(gòu)知識資源整合方法,該方法以CSpace DR為對象,通過其資源整合功能,為使用者提供資源整合服務(wù),研究結(jié)果表明,該方法能夠使資源整合結(jié)果具有多維度特點(diǎn),但是會丟失部分資源數(shù)據(jù),導(dǎo)致資源整合結(jié)果不全面。
為了提升異常用戶信息管理水平,本文設(shè)計面向移動終端的異常用戶信息資源整合方法,目前,移動終端構(gòu)建被廣泛應(yīng)用到多領(lǐng)域?qū)嶋H應(yīng)用中,移動終端能夠高效地整合多種數(shù)據(jù)資源,實現(xiàn)信息數(shù)據(jù)共享,在海量的數(shù)據(jù)信息中展開高效的大數(shù)據(jù)篩選工作,構(gòu)建出大數(shù)據(jù)分析網(wǎng)絡(luò),從而提高信息管理的水平。結(jié)合移動終端優(yōu)點(diǎn),利用大數(shù)據(jù)分析方法管理異常用戶信息,提高信息資源整合效率,實現(xiàn)用戶信息管理水平的提升。
異常用戶信息資源整合平臺通過Hadoop2.0架構(gòu)批量處理異常用戶數(shù)據(jù),面向移動終端的異常用戶信息資源整合平臺的整體構(gòu)架見圖1。
圖1 異常用戶信息資源整合平臺整體構(gòu)架
1)通過移動端采集異常用戶的基本信息,如社會經(jīng)歷、技能、興趣愛好等。
2)在進(jìn)行大數(shù)據(jù)存儲時,利用 Hadoop2.0體系架構(gòu)所獲得的數(shù)據(jù)被劃分成結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化三種類型,對數(shù)據(jù)進(jìn)行存儲時,分別以文件和數(shù)據(jù)庫兩種方式進(jìn)行,當(dāng)利用數(shù)據(jù)庫技術(shù)來進(jìn)行數(shù)據(jù)存儲時,主要利用RDBMS數(shù)據(jù)庫進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的處理,利用HBase數(shù)據(jù)庫來進(jìn)行半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理。
3)通過數(shù)據(jù)采集、處理以存儲等步驟獲取異常用戶信息,并通過整合分析與管理,為用戶與信息管理者提供信息查詢和參考的作用[7]。
2.1.1 大數(shù)據(jù)采集
為了實現(xiàn)對異常用戶相關(guān)信息的規(guī)范化和自動化處理,采用不同信息格式換算和自主識別輸入信息等技術(shù)來完成用戶信息的采集[8]。這種方法提高了用戶信息采集的多元化,避免了用戶信息片面性,并為建立大規(guī)模的異常用戶數(shù)據(jù)集提供了保障。同時,為解決傳統(tǒng)人工采集中存在的對用戶信息數(shù)據(jù)發(fā)現(xiàn)不及時、用戶信息數(shù)據(jù)解釋不全面和不能準(zhǔn)確地預(yù)測用戶相關(guān)信息等問題[9]。設(shè)計了一種異常用戶信息數(shù)據(jù)采集方案,以提高采集效率和準(zhǔn)確性。面向移動終端的異常用戶信息采集流程見圖2。
圖2 面向移動終端的異常用戶信息采集
2.1.2 大數(shù)據(jù)分析管理
大數(shù)據(jù)分析管理是整合異常用戶信息資源的核心,在異常用戶信息管理中具有重要的作用和價值。通過對大數(shù)據(jù)采集、存儲和處理的各類信息進(jìn)行系統(tǒng)的分析和管理,可以實現(xiàn)對異常用戶信息的有效管理和利用,發(fā)現(xiàn)異常用戶的行為模式和規(guī)律,提高異常用戶檢測的準(zhǔn)確率和效率。同時,大數(shù)據(jù)分析管理還可以幫助企業(yè)更好地理解異常用戶的需求和行為特征,為企業(yè)決策提供有力的支持和參考。大數(shù)據(jù)分析管理結(jié)構(gòu)見圖3。
圖3 大數(shù)據(jù)分析管理結(jié)構(gòu)
2.1.3 異常用戶信息統(tǒng)計分析
對異常用戶信息進(jìn)行統(tǒng)計分析可自動生成數(shù)據(jù)報表,該數(shù)據(jù)報表不可更改,這些報表可以查詢、輸出、打印、查看。查看功能時序圖見圖4。
圖4 查看功能時序圖
圖5 異常用戶信息資源整合流程
在異常用戶信息資源整合中采用模糊理論,對異常用戶信息資源樣本中具有相似特征的數(shù)據(jù)進(jìn)行整合操作,使類內(nèi)樣本數(shù)據(jù)的散度最小化[10],具體實現(xiàn)方法如下:
首先,對2.1節(jié)中獲取的異常用戶信息大數(shù)據(jù)進(jìn)行聚類,在異常用戶信息資源聚類的過程中,運(yùn)用k表示數(shù)據(jù)聚類空間,則數(shù)據(jù)聚類中心可以通過式(1)進(jìn)行表示:
(1)
在式(1)的作用下,將異常用戶信息資源聚類散度最小化問題轉(zhuǎn)化成構(gòu)建最大目標(biāo)函數(shù)的問題:
(2)
式(2)中,ai表示數(shù)據(jù)樣本中任意一個數(shù)據(jù)的正實數(shù),其作用是可以衡量資源聚類散度,yi表示數(shù)據(jù)離散程度,在滿足目標(biāo)函數(shù)的條件下,可以保證樣本數(shù)據(jù)內(nèi)資源聚類散度最小化。
雖然通過目標(biāo)函數(shù)的約束實現(xiàn)了資源聚類的優(yōu)化,但是考慮到用戶類型的多樣性與資源類型的多樣性,為了進(jìn)一步提升資源整合的效率,需要對其中的非顯著性數(shù)據(jù)進(jìn)行過濾[11,12]。本文采用最小二乘法對異常用戶信息資源進(jìn)行特征挖掘,將數(shù)據(jù)輸入量設(shè)置為:
(3)
式(3)中,αi表示非顯著特征數(shù)據(jù),αj表示顯著特征數(shù)據(jù)。想要對非顯著性特征數(shù)據(jù)進(jìn)行過濾,可以通過獲得該數(shù)據(jù)的最優(yōu)分類面實現(xiàn),設(shè)最優(yōu)分類面為Pr,則通過式(4)對其進(jìn)行表示:
(4)
式(4)中,φ(xi)表示過濾后非顯著性特征減少的趨勢函數(shù),t表示數(shù)據(jù)分類時間,v為數(shù)據(jù)載頻。假如非顯著性特征數(shù)據(jù)分量d在最優(yōu)分類面中,則其應(yīng)該滿足式(5)的條件:
d≤min[(t2/T2),n]+1
(5)
式(5)中,T2表示數(shù)據(jù)聚類耗時。由此完成異常用戶信息資源過濾[13-15],具體的異常用戶信息資源整合[16-17]模型實現(xiàn)流程如下
將本文設(shè)計的面向移動終端的異常用戶信息資源整合方法應(yīng)用于某市一高校學(xué)生信息管理系統(tǒng)中,測試其應(yīng)用效果。實驗環(huán)境配置為:Inter Core i5-3470 處理器、8G 內(nèi)存、500G 硬盤、32 位 Windows 10 操作系統(tǒng),并在Matlab軟件環(huán)境下,進(jìn)行仿真。
運(yùn)用本文方法進(jìn)入高校學(xué)生信息管理系統(tǒng),獲取用戶信息資源整合結(jié)果時,提示界面見圖6。
圖6 非法操作提示
經(jīng)測試可知,高校學(xué)生信息管理系統(tǒng)實現(xiàn)過程中基本功能穩(wěn)定,未出現(xiàn)異常。用戶登錄系統(tǒng)后可以根據(jù)個人身份和需求點(diǎn)擊對應(yīng)模塊進(jìn)行信息錄入、查詢、統(tǒng)計等操作。系統(tǒng)模塊分類清晰,易于操作。這說明本文方法可以有效維護(hù)學(xué)生和老師相關(guān)信息,并且整合的資源安全性較高。
在整合異常用戶信息資源的過程中,需要對用戶信息進(jìn)行統(tǒng)計分析。根據(jù)實際需要,可以選擇不同的數(shù)據(jù)類型進(jìn)行統(tǒng)計,以滿足不同的需求。以性別統(tǒng)計為例,生成了如下圖7所示的統(tǒng)計圖。
圖7 各系男女性別人數(shù)比例統(tǒng)計
通過分析圖7可以看出,通過統(tǒng)計分析可以直接生成要查找的相關(guān)數(shù)據(jù),用戶可以獲取所需數(shù)據(jù),說明本文方法可以實現(xiàn)用戶信息的有效整合,并實現(xiàn)對整合后數(shù)據(jù)的有效提取。
為了驗證本文方法在異常用戶信息資源整合效果,以文獻(xiàn)[5]基于文獻(xiàn)計量共引分析的圖書情報數(shù)據(jù)整合方法和文獻(xiàn)[6]基于CSpace DR的專業(yè)領(lǐng)域異構(gòu)知識資源整合方法為對比方法,對本文方法進(jìn)行對比,圖8為不同方法的資源整合耗時對比結(jié)果。
圖8 不同方法資源整合耗時對比結(jié)果
根據(jù)圖8可知,采用本文方法進(jìn)行異常用戶信息資源整合時,隨著數(shù)據(jù)量的增加,整合時間呈現(xiàn)出逐漸增加的趨勢,但是其整合時間始終沒有超過2.0s,相比較之下,文獻(xiàn)[5]方法和文獻(xiàn)[6]方法的資源整合時間遠(yuǎn)高于本文方法,二者的最高整合時間達(dá)到了3.1s和2.9s,通過對比可知,本文方法在異常用戶信息資源整合效率方面具有明顯的優(yōu)勢。
以資源整合全面性為實驗指標(biāo),對比不同方法的整合效果,結(jié)果如表1所示。
表1 資源整合全面性對比
分析圖表1中的數(shù)據(jù)可知,采用本文方法對異常用戶信息資源進(jìn)行整合時,涵蓋的信息類型更多,明顯多于傳統(tǒng)方法,說明該方法整合的資源更加全面,可以為用戶以及管理人員提供更加全面的信息資源。
為了解決傳統(tǒng)用戶信息資源整合方法存在的工作效率低,資源整合全面性不佳問題,設(shè)計面向移動終端的異常用戶信息資源整合方法。通過建立異常用戶信息資源整合平臺,實現(xiàn)用戶大數(shù)據(jù)采集、大數(shù)據(jù)分析管理以及異常用戶信息統(tǒng)計分析,然后,構(gòu)建異常用戶信息資源整合模型,通過該模型實現(xiàn)資源整合效率的提升。實驗結(jié)果表明,本文方法具有資源效率高,資源整合全面的優(yōu)勢。