摘? 要:隨著網(wǎng)絡(luò)的深度普及,人們對于互聯(lián)網(wǎng)的使用越來越頻繁,隨之而來的是龐大且分散的各式各樣的數(shù)據(jù)。面對海量的數(shù)據(jù),用戶在查詢時往往難以高效地獲取到對自己有價值的信息。為了向用戶提供更精準的信息,提高用戶獲取有效信息的效率,自動化推薦系統(tǒng)適時而生。不管是通信領(lǐng)域還是其他領(lǐng)域,繁雜的數(shù)據(jù)都需要一種優(yōu)異的處理算法或者機制來進行處理,本文通過把自適應共振理論(ART)和數(shù)據(jù)挖掘技術(shù)兩者結(jié)合,形成一個自動化在線推薦系統(tǒng),并對用于用戶聚類的ART算法進行改進,提升了通信領(lǐng)域中推薦系統(tǒng)推薦的合理性與有效性。
關(guān)鍵詞:數(shù)據(jù)挖掘;自動化推薦系統(tǒng);ART算法;通信領(lǐng)域
中圖分類號:TP311.13;TP391.3? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)08-0044-03
Abstract:With the popularization of the internet,people become more and more dependent on the use of the internet. Faced with massive data,it is often difficult for users to efficiently obtain valuable information for themselves when querying. In order to provide users with more accurate information and improve the efficiency of users to obtain effective information,the automatic recommendation system is timely born. Both communication and other areas,complex data needs to be an excellent processing algorithms or mechanism to deal with,in this paper,the adaptive resonance theory(ART) and a combination of data mining technology,forming an automated online recommendation system,and for users to improve the ART of clustering algorithm,improved communication in the field of recommendation system recommended by the rationality and validity.
Keywords:data mining;automated recommendation system;ART algorithm;communication field
0? 引? 言
互聯(lián)網(wǎng)的發(fā)展帶動了許多領(lǐng)域的進步,包括通信領(lǐng)域也發(fā)生了天翻地覆的變化。人們的生活已經(jīng)越來越依賴于互聯(lián)網(wǎng),網(wǎng)絡(luò)中的信息量增長迅速,信息種類也越來越多。用戶想要從互聯(lián)網(wǎng)上獲取需要的資料,就會花費很多的時間。為了解決這一問題,相關(guān)的信息推薦系統(tǒng)便被研發(fā)設(shè)計出來。在通信領(lǐng)域,數(shù)據(jù)就是根本,通信行業(yè)數(shù)據(jù)的流量和維度遠遠高出了其他行業(yè),做好對數(shù)據(jù)的收集整理、分析工作,有助于企業(yè)掌握客戶的質(zhì)量,直接決定了企業(yè)與客戶之間的黏性,這在企業(yè)的發(fā)展中也是核心的影響因素。利用數(shù)據(jù)挖掘技術(shù),可以幫助通信行業(yè)增強信息的提取能力,讓其能夠及時對數(shù)據(jù)進行分析然后做出判斷,為營銷策略提供科學的依據(jù)。
1? 數(shù)據(jù)挖掘技術(shù)在通信領(lǐng)域的應用分析以及相關(guān)算法設(shè)計
數(shù)據(jù)挖掘技術(shù),顧名思義是指通過采取一定的行為方法,對指定范圍的信息數(shù)據(jù)等進行提取,從而實現(xiàn)進一步的分類整理和分析匯總,為數(shù)據(jù)應用、存儲共享和科學預測等提供基礎(chǔ)支持的一種技術(shù)。如果將數(shù)據(jù)挖掘技術(shù)運用到商業(yè)領(lǐng)域,其可以搜尋有價值以及有潛力的商業(yè)信息,然后通過相應的方法進行分析處理,最后整理出來,從而將相關(guān)的數(shù)據(jù)信息轉(zhuǎn)變成相關(guān)的策略,運用到商業(yè)的操作中去??梢钥闯觯瑪?shù)據(jù)挖掘技術(shù)能夠顯著提高企業(yè)的信息化水平。通信企業(yè)一旦信息資源不足,對業(yè)務(wù)的開展就會失去具體的方向,也不利于通信行業(yè)的發(fā)展。
通過將分類、回歸和時間序列三種分析方法結(jié)合在一起,可以強化數(shù)據(jù)挖掘技術(shù)相關(guān)功能的實現(xiàn)。該技術(shù)經(jīng)過了長期的發(fā)展,加上互聯(lián)網(wǎng)技術(shù)的發(fā)展,促使數(shù)據(jù)挖掘技術(shù)也得以應用到實際的工作上[1]。對于通信領(lǐng)域而言,對不同客戶銷售數(shù)據(jù)利用數(shù)據(jù)挖掘技術(shù)進行分析,就可以很好地預測客戶的行為,從而做出相應的措施。
在當今社會中,許多領(lǐng)域的數(shù)據(jù)信息都呈現(xiàn)出暴漲的態(tài)勢,也就是所說的信息爆炸和數(shù)據(jù)爆炸。數(shù)據(jù)信息越來越多,可是對信息數(shù)據(jù)的使用率卻沒有很快的提升上去,在數(shù)據(jù)的海洋里無法搜尋到有效、有價值的數(shù)據(jù)。而聚類相似性度量與量綱分析的網(wǎng)絡(luò)通信數(shù)據(jù)挖掘的出現(xiàn),讓這些數(shù)據(jù)都能夠變廢為寶,逐漸成為一項越來越重要的技術(shù)。目前,很多企業(yè)都越來越重視基于互聯(lián)網(wǎng)的通信數(shù)據(jù)挖掘算法的設(shè)計,通過這一技術(shù)的應用,讓工作更加的準確和有效率。通過下面對表1和圖1的分析,對數(shù)據(jù)挖掘技術(shù)中的聚類算法進行分析。
由表1的信息可以看出,不同組別的數(shù)據(jù)集因為簇的個數(shù)的不同,而得到了不同的結(jié)果。在A1數(shù)據(jù)集中,簇的個數(shù)較少,其函數(shù)運算的時間以及簇合并的時間都比較短;在A2數(shù)據(jù)組里面,簇的個數(shù)相應增加,函數(shù)計算和簇合并時間也相應地增加;在A3數(shù)據(jù)集中,和A2數(shù)據(jù)集的情況差不多;同樣地再看A4數(shù)據(jù)集,情況和其他三種都不相同,當簇的個數(shù)變成了27,與A3相比個數(shù)減少時,它的函數(shù)運算的時間和簇合并時間卻增加了不少。
根據(jù)圖1的數(shù)據(jù)信息圖我們可以得知,在實際的運用中,有些企業(yè)也通過聚類算法取得了一些效果,但事實上結(jié)果都不是很樂觀,有的企業(yè)在算法完成分析工作后就認為達到了目的,從而對相關(guān)的分析工作就松懈了下來,導致得到的效果不理想。
綜上所述,該算法能夠?qū)?shù)據(jù)進行有針對性的相似性度量和量綱分析,充分發(fā)揮數(shù)據(jù)挖掘的重要作用。我們在總結(jié)了這一類算法后,也相應地對其他聚類算法進行了研究,其中ART聚類算法就是重點研究之一。
2? 關(guān)于相關(guān)自動化推薦系統(tǒng)以及ART算法的研究分析
2.1? 目前自動化推薦系統(tǒng)的主要技術(shù)
目前在互聯(lián)網(wǎng)上的自動化推薦系統(tǒng)其主要推薦技術(shù)可以分為非個性化的推薦技術(shù)、基于屬性的推薦技術(shù)、物品關(guān)聯(lián)推薦技術(shù)以及人物關(guān)聯(lián)式推薦技術(shù)。[1]對于這些推薦技術(shù)來說,其主要推薦方式分為基于內(nèi)容的過濾方式和合作過濾方式。每一種方式都有著自身獨特的功能。以內(nèi)容為基礎(chǔ)的過濾方式具有簡單、有效的優(yōu)點,能夠利用用戶興趣和信息的相似性來過濾信息,但是其存在著過濾關(guān)鍵字庫容易過時,不能夠及時挖掘出有用的、最新的信息的問題;合作過濾方式可以彌補上一種方式的短板,讓用戶之間的信息互聯(lián),僅僅依靠其中一個用戶的數(shù)據(jù)就可以推薦新的信息給其他用戶。但是,在實際運行的過程中,還是存在著一些難以處理的問題。
2.2? 基于ART算法的推薦機制總體框架
運用ART神經(jīng)網(wǎng)絡(luò)技術(shù),能夠預處理用戶的個人信息,提取出用戶的個性化屬性信息并加以分析,根據(jù)分析結(jié)果再對用戶進行相應的分類,從而為用戶提供個性化的推薦信息[2]。該自動推薦機制的處理流程包括預處理階段和在線階段。圖2列出了在線自動化推薦機制的框架圖。
在線自動化推薦機制運用了相關(guān)技術(shù)預處理用戶的個人信息資料,當有用戶在線發(fā)起相應的服務(wù)請求時,系統(tǒng)會識別用戶的類型信息,從而進行分析并挖掘出用戶的興趣度信息,展現(xiàn)給用戶個性化的推薦信息。預處理階段的主要任務(wù)是對用戶的屬性以及歷史交易數(shù)據(jù)等信息進行分析,在提取數(shù)據(jù)的操作過程中,可能會發(fā)生一些問題,比如出現(xiàn)格式不相容的問題,需要及時處理。預處理的同時推薦信息被存儲進知識庫,便于系統(tǒng)重復利用。
2.3? 關(guān)于ART算法的現(xiàn)狀分析
對于ART算法來說,其目前的情況是,雖然被廣泛用來進行用戶聚類,但其本身也存在著一些不足,主要表現(xiàn)在以下兩個方面。
(1)屬性向量“同或”狀態(tài)。ART算法進行相似度比較,涉及到最大匹配度節(jié)點j*的外權(quán)向量Wj*和輸入向量x,比較兩者和“1”的數(shù)量關(guān)系,其表達如式(1):
此公式中沒有考慮外權(quán)向量中“0”的作用,但在實際運用中,0和1兩種狀態(tài)在判斷中都是有用的信息,該方法因此不能有效的做出反應[3]。
(2)ART算法中輸入屬性相對應的權(quán)重問題。輸入屬性是多個屬性的集合,每個因子都會對聚類的結(jié)果產(chǎn)生不同的影響,為了處理在聚類過程中屬性重要性的問題,ART算法仍然需要通過改進才能得到合理的結(jié)果。
3? 在自動化推薦系統(tǒng)中應用ART網(wǎng)絡(luò)進行聚類的設(shè)計以及改進該算法的研究
自適應共振理論(ART)來源于人工神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種應用較好的集群技術(shù),其理論基礎(chǔ)來源于生物學,是一種模仿生物神經(jīng)網(wǎng)絡(luò)的信息處理系統(tǒng)[4]。對于自適應共振理論(ART),其是一位美國學者在1987年提出的一種神經(jīng)網(wǎng)絡(luò)模型。通過整合ART以及數(shù)據(jù)挖掘技術(shù),可以幫助用戶在浩大的信息流中找到真正需要的、有用的關(guān)鍵信息。
3.1? 在數(shù)據(jù)挖掘中關(guān)于ART算法的聚類設(shè)計
ART算法網(wǎng)絡(luò)的結(jié)構(gòu)包括輸入層、輸出層和網(wǎng)絡(luò)連接層。在應用ART算法處理時,第一步要設(shè)置好用戶屬性和其對應的輸入向量,其初始向量的范圍在(0,1)間;第二步設(shè)定其開始時只有一個初始輸出點;第三步利用權(quán)重矩陣表示出輸入向量和第j個輸出集的匹配度,然后找到相對應的輸出集,計算出兩者之間的相似度。
3.2? 目前ART聚類算法存在的不足
對于ART聚類算法,目前的情況是雖然被廣泛用來進行用戶聚類,但其本身也存在著一些不足,主要表現(xiàn)在以下兩個方面:對于屬性向量“同或”狀態(tài)的問題,對于典型的相似度比較的問題,沒有能夠全面的考慮,因此需要進行相關(guān)的改進優(yōu)化。通過整合ART和數(shù)據(jù)挖掘技術(shù),針對自動化推薦系統(tǒng)的特性進行相應的改進,這時MART算法便應運而出。
3.3? 將ART算法改進為MART算法
根據(jù)ART算法的相關(guān)分析,發(fā)現(xiàn)其存在著明顯的不足,我們將相似值計算公式修改如式(2)所示:
在改進后的MART算法中,M[i]為輸入屬性的權(quán)重,即第i個節(jié)點重要性。ART算法改進后得到的MART算法能夠公平比較兩個向量,其算法的執(zhí)行步驟和ART算法類似,根據(jù)用戶的個人屬性,通過相應的算法對用戶進行分組,進而達到數(shù)據(jù)挖掘的目的。
通過相關(guān)的實驗我們可以得到兩種算法經(jīng)過計算分析后的結(jié)果,然后進行相關(guān)的分析我們可以發(fā)現(xiàn)以MART算法來進行聚類,判斷出用戶屬性的重要性,從而自動化推薦系統(tǒng)可以設(shè)置每一個屬性節(jié)點的權(quán)重。把以這樣的方式計算出的結(jié)果與傳統(tǒng)的ART算法得到的結(jié)果進行比較,輸出的結(jié)果更加合理和靈活。
4? 結(jié)? 論
互聯(lián)網(wǎng)的快速發(fā)展使得網(wǎng)絡(luò)的信息量迅速增長,如何在浩大的數(shù)據(jù)海洋里搜尋到有價值、有效的數(shù)據(jù)信息,是各個注重信息價值領(lǐng)域的企業(yè)所應該關(guān)注的問題。對于數(shù)據(jù)挖掘技術(shù)而言,其主要的價值就是在海量的數(shù)據(jù)資源里進行分析比較,然后發(fā)現(xiàn)有價值的數(shù)據(jù)信息,再通過一定的自動化推薦系統(tǒng),把這些有用的數(shù)據(jù)呈現(xiàn)到用戶的面前,從而為用戶制定相關(guān)的發(fā)展策略提供有用的參考。在通信領(lǐng)域采用優(yōu)質(zhì)的自動化推薦系統(tǒng)對企業(yè)的發(fā)展具有至關(guān)重要的作用。
參考文獻:
[1] 陳慶章,湯仲喆,王凱,等.采用數(shù)據(jù)挖掘的自動化推薦技術(shù)的研究 [J].中文信息學報,2012,26(4):115-121.
[2] 張軍.試分析數(shù)據(jù)挖掘在通信行業(yè)營銷中的應用 [J].信息通信,2018(7):254-255.
[3] 劉鑫.聚類相似性度量與量綱分析的網(wǎng)絡(luò)通信數(shù)據(jù)挖掘算法研究 [J].計算機產(chǎn)品與流通,2018(3):48-49.
[4] 朱文忠.基于數(shù)據(jù)挖掘的自動化推薦系統(tǒng)算法 [J].四川理工學院學報(自然科學版),2012,25(2):55-59.
作者簡介:彭文惠(1981-),女,漢族,湖南寧鄉(xiāng)人,講師、高級工程師,碩士,主要研究方向:大數(shù)據(jù)、數(shù)據(jù)庫、Web開發(fā)。