王 哲,趙 爽
(鐵法煤業(yè)集團大數據運營有限責任公司,遼寧 鐵嶺 112700)
云計算技術應用價值較高,具有靈活性的特點。但海量數據之間會產生相互干擾,影響了既定的關聯原則,需要提出一種基于分布式自適應的云計算數據挖掘算法,提高挖掘精度,改善傳統(tǒng)算法中存在的問題,完善仿真實驗性能[1]。
目前,我國處于信息化時代,使用互聯網、移動設備端查詢信息會產生較多瀏覽痕跡、數據等,如何存儲、處理及挖掘數據是重要的技術問題。線性數據關聯規(guī)則挖掘算法是數據挖掘平臺設計的理論基礎,需要運用智能化方式處理數據庫中的信息,運用可視化技術、統(tǒng)計學知識、數據庫技術、模糊識別、深度學習、機器學習和人工智能等多種領域的知識解決一系列的決策問題。
以線性思維為主的數據挖掘平臺的設計流程主要包含結果表達、數據挖掘及準備數據三個過程。數據挖掘平臺的建立主要分為三個步驟,首先,應確定平臺建立目標及搜集信息的方向,為尋找數據挖掘渠道、數據處理方式做鋪墊。實驗結果具有不可預測性的特征,技術人員需要熟練掌握相關知識,使得相關領域的用戶及專家明確搜索需求。其次,需要做好數據準備工作,主要包括選擇數據、預處理數據和轉化數據三個關鍵步驟。可以通過對數據的再加工策略提高數據挖掘質量,通過分析數據的種類,運用數學模型進行數據重建對比。再次,需要建立數據之間的關聯性,通過對比分析得到多組數據的共同點,結合用戶瀏覽信息、實際需求及潛在需求,使用算法尋找特定的模型,創(chuàng)建數據挖掘模型。利用智能化工具完成最終的挖掘任務。由此可見,在線性思維情況下,選擇某組數據進行測試時應嘗試所有可能的方式,該組數據適宜的關聯規(guī)則在計算過程中逐漸與原本的關聯規(guī)則違背,在尋求最優(yōu)化解決方案時,計算效率較低。
云計算互聯網平臺主要有兩個參與主體,包括云和端,可以擺脫原有架構的局限性,簡化網站操作人員及訪問人員的操作步驟,創(chuàng)造出更大價值[2]。
分配內容網絡能夠避免受到互聯網中可能會對數據傳輸穩(wěn)定性造成影響的緩解,篩選出核心內容,將其傳遞到核心節(jié)點中,提高內容傳輸過程的穩(wěn)定性。從商業(yè)角度出發(fā),CDN 即批發(fā)即零售帶寬及柜機資源的過程。為了降低系統(tǒng)的壓力值,需要在互聯網的節(jié)點處添加新資源,使得CDN 廠商能夠從此處承包,也可以從各地IDC 處用優(yōu)惠的價格批發(fā)各種資源,再用零售價格賣給用戶,利潤空間較大。分配內容網絡能夠有效突破性能平靜,確保分發(fā)內容的穩(wěn)定性與可靠性。
為了管理大量網站信息,云計算平臺可以通過DNS 的智能切換技術,在使用較為普遍的CS 結構兩側使用智能化技術,提高操作過程的智能化水平,優(yōu)化操作結構,縮短操作反應實踐,創(chuàng)建出新一代的云計算互聯網應用平臺。此外,運用云計算的方式可以創(chuàng)建出DNS 服務器集群,具有較大使用價值。
每個網站都會自主管理自己的日志訪問記錄信息,需要提升其規(guī)范性。通常情況下,一條標準日志的標準形式為“源地址—訪問時間—訪問形式—網址名稱—訪問類型—瀏覽器類型—操作系統(tǒng)內容—目的操作地址”??梢詣?chuàng)建出一個數據倉庫,在其中存放所有網站及用戶的訪問信息,完成數據挖掘任務,革新分配內容形式。網站會分析用戶的網絡行為特點,制定出相應的查詢及反饋模式,增強數據結構性能,提高系統(tǒng)工作效率。
除了超級大網,普通網站性能會隨地域特點產生變化,可以根據用戶所處地理位置信息將內容分配到代理處。在完成分配任務之后,會基于云計算的方式部署互聯網,訪問最近的地址,縮短用戶的訪問等待時間,提高用戶使用互聯網的效率。
數據倉庫中儲存著大量的用戶行為特征信息。超級代理的架構將用戶的行為特點作為搜索索引,避免運用DNS 解析用戶訪問過程,只有經過多次跳轉之后才可以訪問目標網站。網絡用戶訪問網站具有固定性,總數量較少,可以將其操作行為作為重要依據,設計出智能調度和分配機制,提高訪問速度,增強網站的最大承受能力,豐富網站功能,給用戶帶來良好的體驗感[3]。
冗余消除算法可對數據進行分類處理,消除傳統(tǒng)算法中數據挖掘平臺信息存在多余、種類繁雜或無關性、干擾性較強等情況,優(yōu)化傳統(tǒng)算法下建立的數據挖掘平臺的不足之處。
冗余消除算法能夠消除在云計算方式下由于數據關聯性而產生的冗余干擾,在商業(yè)化推薦系統(tǒng)中具有重要價值。首先,基于用戶的冗余消除算法需要對用戶的日常瀏覽信息進行收集,判斷用戶個人需求并進行評分,使得同等分值之間的用戶需求共享推薦。其次,基于相互的冗余消除算法會將所有用戶瀏覽商品、購買商品次數作為判斷其對商品的喜好程度,并推薦類似商品,計算該商品種類中,用戶喜好商品與其他的相似程度。
使用向量模型計算出數據的相似程度,計算出向量之間的距離,根據遠近成都判斷相似度高低。為了判斷關聯程度,可以計算出兩個向量的相關關系。對于稀疏性較高的用戶,該矩陣的精確程度較低,難以達到理想效果,可以運用余弦相似度算法解決此類問題。
若計算結果較為相似,可分析數據的計算過程及初始數據是否存在相似部分,給每個變量分配一定權重,設置調和參數。平均絕對誤差是衡量用戶實際數值和測量值之間的絕對誤差水平,是重要的冗余消除算法評判標準之一。命中率標準包括查準率和查全率,網絡數據分為推薦和不推薦兩個部分。以用戶搜索查找商品為例,搜索引擎中輸入的是全類商品或精準到某品牌、某款式,代表著該用戶對于同類商品的需求程度和該種商品的喜好,反映其對于數據查找的廣泛性和搜索精準性的需要,依據此可選擇是否推薦同類商品,若精準性需求較高,則不建議推薦。在選擇算法的過程中,可積極引入新式算法降低權重,提高數據挖掘平臺的精確度,使其分析數據能力提升。
互聯網信息技術處于不斷發(fā)展過程中,如何處理海量數據信息是重大難題??梢曰诖髷祿幚砑夹g建立起數據處理與挖掘平臺,使用bookcrossing 數據集進行測試,運用獎券的方式改進傳統(tǒng)算法模型,增強改進后算法的計算能力,使其貼合現代社會需求,更加便捷化、智能化。