楊小梅
摘要:研究中將軟件設計挖掘中的模型構建作為了研究的重點,對數(shù)據(jù)挖掘的基本過程、數(shù)據(jù)資源的運用現(xiàn)狀以及模型設計的核心理念進行了系統(tǒng)性的研究,旨在通過對數(shù)據(jù)挖掘模型的有效構建,實現(xiàn)軟件工程數(shù)據(jù)挖掘的科學分析,為信息系統(tǒng)的優(yōu)化設計提供系統(tǒng)支持。
關鍵詞:軟件系統(tǒng);數(shù)據(jù)挖掘;模型設計
中圖分類號:TP31 文獻標識碼:A 文章編號:1007-9416(2017)02-0086-03
對于軟件數(shù)據(jù)挖掘系統(tǒng)而言,其數(shù)據(jù)資源的挖掘是一種對數(shù)據(jù)發(fā)現(xiàn)模型構建及規(guī)律認知的過程,通過對數(shù)據(jù)資源信息的優(yōu)化分析可以實現(xiàn)對數(shù)據(jù)資源系統(tǒng)的有效收集。在實際軟件系統(tǒng)開發(fā)的過程中,通過對軟件信息資源的有效收集,可以實現(xiàn)對軟件基礎編碼及測試依據(jù)的有效分析,而在現(xiàn)階段軟件數(shù)據(jù)挖掘系統(tǒng)分析的過程中,怎樣實現(xiàn)軟件系統(tǒng)的有效處理,逐漸成為數(shù)據(jù)資源信息模型構建中需要解決的問題。所以,在研究中,通過對數(shù)據(jù)挖掘系統(tǒng)的模型構建,進行了軟件挖掘系統(tǒng)的分析,核心目的是通過信息資源數(shù)據(jù)庫的穩(wěn)定優(yōu)化,實現(xiàn)數(shù)據(jù)資源模型的穩(wěn)定構建。
1 數(shù)據(jù)挖掘的過程分析
對于典型的數(shù)據(jù)挖掘系統(tǒng)而言,其基本的過程可以通過圖1所示。
1.1 數(shù)據(jù)挖掘對商業(yè)目標的理解
在數(shù)據(jù)資源挖掘的過程中,首先應該在商業(yè)的角度對用戶的真實需求進行理解及分析,其中,信息資源的收集及理解會將行業(yè)的信息作為基礎,通過對行業(yè)運行現(xiàn)狀的分析,進行問題的理解及確立。同時,在問題分析的過程中,需要對項目的實行計劃、項目風險以及受益項目進行合理性的問題的有效設計,充分保證資源項目評估的穩(wěn)定性及優(yōu)勢性,從而為項目目標的優(yōu)化設計提供穩(wěn)定支持。
1.2 數(shù)據(jù)挖掘對數(shù)據(jù)資源的理解
數(shù)據(jù)資源系統(tǒng)構建的過程中,項目設計者需要在了解數(shù)據(jù)挖掘的商業(yè)目標之后,進行相關原始數(shù)據(jù)信息資源的優(yōu)化設計,并通過對數(shù)據(jù)相關特征的分析,進行數(shù)據(jù)格式、形式及數(shù)量的優(yōu)化統(tǒng)計,從而保證數(shù)據(jù)資源信息的穩(wěn)定連接。
1.3 數(shù)據(jù)資源的準備
在軟件系統(tǒng)數(shù)據(jù)資源準備的過程中,通過數(shù)據(jù)資源的準備及數(shù)據(jù)挖掘過程的穩(wěn)定分析,可以發(fā)現(xiàn)在數(shù)據(jù)資源準備系統(tǒng)設計的過程中,主要內容應該包含數(shù)據(jù)的集成、數(shù)據(jù)的清理、數(shù)據(jù)的選擇以及數(shù)據(jù)的變換,通過這些步驟的確定,保證數(shù)據(jù)資源在大量、全面及豐富的狀態(tài)下,實現(xiàn)對數(shù)據(jù)資源的準備及集成性分析。同時,在數(shù)據(jù)集成問題分析的過程中,應該通過對多種異質數(shù)據(jù)的有效整合,保證數(shù)據(jù)資源庫數(shù)據(jù)處理的原始性特點。數(shù)據(jù)清理主要是通過對噪音數(shù)據(jù)、數(shù)據(jù)沖突現(xiàn)象的消除,實現(xiàn)對數(shù)據(jù)信息的有效填補,從而為數(shù)據(jù)資源系統(tǒng)的數(shù)據(jù)污染處理提供穩(wěn)定支持。數(shù)據(jù)選擇主要是通過對數(shù)據(jù)清洗后的數(shù)據(jù)進行集成化的樣本篩選、維度提升,使數(shù)據(jù)樣本在項目優(yōu)化設計的基礎上,保證數(shù)據(jù)信息挖掘的技術性及分類型特點,實現(xiàn)數(shù)據(jù)格式資源轉化的合理性。
1.4 數(shù)據(jù)模型的算法實施
在數(shù)據(jù)資源整合及設計的過程中,通過優(yōu)化的測量進行參數(shù)資源的設定,可以保證數(shù)據(jù)資源挖掘算法的穩(wěn)定性執(zhí)行,并在模型構建及模型規(guī)則分析的基礎上,實現(xiàn)系統(tǒng)闡述的穩(wěn)定設計[1]。
1.5 評估模型的設計
在數(shù)據(jù)挖掘系統(tǒng)結果分析的過程中,應該將數(shù)據(jù)挖掘的結果中作為分析的對象,并將數(shù)據(jù)挖掘的學習類型作為項目的指導,從而尋找并認識到設計評估的基本規(guī)則及模型。在評估系統(tǒng)設計的環(huán)境下,其內容不僅需要包括對數(shù)據(jù)資源的處理及檢測,而且也應該發(fā)現(xiàn)數(shù)據(jù)結構設計系統(tǒng)的中心環(huán)節(jié),保證項目的設計的穩(wěn)定性及核心性,從而實現(xiàn)系統(tǒng)評估及評價模型設計的科學性。
1.6 商業(yè)實踐環(huán)節(jié)優(yōu)化
通過對數(shù)據(jù)挖掘過程的分析可以發(fā)現(xiàn),其資源庫的構建可以指導企業(yè)進行穩(wěn)定性的社會實踐,并在某種程度上滿足商業(yè)實踐的基本標準。在商業(yè)實踐優(yōu)化設計的中,應該注意的是,數(shù)據(jù)信息庫的資源處理,應該充分展現(xiàn)動態(tài)化的知識活動構建體系,并在商業(yè)實踐及資源挖掘的基礎上,保證商業(yè)活動柜的有效拓展,從而為數(shù)據(jù)挖掘資源平臺的設計提供穩(wěn)定支持。
2 數(shù)據(jù)挖掘系統(tǒng)需要解決的問題
2.1 數(shù)據(jù)準備及處理階段的問題
在現(xiàn)階段設計挖掘系統(tǒng)設計的過程中,很多數(shù)據(jù)資源庫的設計在數(shù)據(jù)準備及預處理的過程中,并沒有形成自動化的數(shù)據(jù)庫資源分析模式,而且,對于冗余、沖突以及異常的現(xiàn)象缺乏應急性規(guī)定處理制度,從而導致數(shù)據(jù)庫的資源選擇以及樣本篩選都需要得到專業(yè)人群進行干預,造成了資源的嚴重浪費[2]。
2.2 數(shù)據(jù)挖掘對象的問題
在設計挖掘對象分析的過程中,要求數(shù)據(jù)挖掘系統(tǒng)需要面對大規(guī)模的數(shù)據(jù)資源模型,但是,在現(xiàn)階段數(shù)據(jù)資源挖掘系統(tǒng)設計中,其數(shù)據(jù)異質性現(xiàn)象較為突出,數(shù)據(jù)的特征及維度空間也相對較高,因此,在特征及屬性間關系優(yōu)化分析中面臨著繁雜的特點,同時,在數(shù)據(jù)系統(tǒng)非機構化數(shù)據(jù)處理及分析的狀態(tài)下,其結果也很難得到量化的處理。
2.3 企業(yè)數(shù)據(jù)庫資源不完善
數(shù)據(jù)挖掘庫作為信息資源儲存的重要平臺,在現(xiàn)階段數(shù)據(jù)挖掘系統(tǒng)設計的過程中,企業(yè)存在著數(shù)據(jù)倉庫系統(tǒng)設計不完善的現(xiàn)象,這一問題的出現(xiàn)也就會為信息數(shù)據(jù)的收集及整理造成較為嚴重的時間浪費[3]。
2.4 數(shù)據(jù)挖掘系統(tǒng)知識體系不成熟
數(shù)據(jù)挖掘問題分析的過程中,由于知識的形成及表示方法的差異性,導致在實際數(shù)據(jù)資源挖掘及項目指導及分析中,存在著領導人員缺乏專業(yè)性的數(shù)據(jù)挖掘知識的現(xiàn)象,使指導工作面臨著一定的制約。
2.5 對系統(tǒng)處理方式?jīng)]有形成有效體系
在數(shù)據(jù)資源挖掘及處理的過程中,系統(tǒng)項目在某種程度上會起到指導性的作用,所以,對數(shù)據(jù)系統(tǒng)的算法及模型的處理應該保證項目評價的客觀性,這種客觀性評價也是數(shù)據(jù)資源信息挖掘中較為關鍵的環(huán)節(jié)。但是,在現(xiàn)階段數(shù)據(jù)挖掘系統(tǒng)設計的過程中,存在著系統(tǒng)不完善的設計現(xiàn)象,從而為系統(tǒng)資源的處理造成了制約[4]。
2.6 樣本分布中的不均勻現(xiàn)象
在系統(tǒng)設計及樣本分析的過程中,其不均衡的數(shù)據(jù)集中問題存在著一定的制約性問題,其主要的內容包括了對學習理解不深刻、算法不合理以及評價不完善等,這些不均衡的因素得到了廣大學者的廣泛關注。因此,在現(xiàn)階段數(shù)據(jù)挖掘資源優(yōu)化的過程中,應該認識到樣本分布不均勻的問題,通過對數(shù)據(jù)資源挖掘系統(tǒng)的有效分析,保證系統(tǒng)運行的穩(wěn)定性及科學性。
3 軟件數(shù)據(jù)挖掘中的模型研究
3.1 聚類挖掘中數(shù)據(jù)模型系統(tǒng)的構建
在對城市發(fā)展類型化問題分析的過程中,其初始環(huán)境中的數(shù)據(jù)模型構建,應該在數(shù)據(jù)實例設計分析的基礎上,進行聚合關系的有效確定,但是,在現(xiàn)階段數(shù)據(jù)模型分析中,系統(tǒng)內容并沒有形成系統(tǒng)化的建模方式。因此,在現(xiàn)階段數(shù)據(jù)挖掘系統(tǒng)優(yōu)化設計的狀態(tài)下,應該通過對聚類問題的有效分析,進行數(shù)據(jù)挖掘技術的有效優(yōu)化[5]。
第一,層次狀態(tài)下的聚類分析。對于系統(tǒng)聚類方式而言,是一種層次化的聚類方式,其使用的范圍相對較廣。在系統(tǒng)運行的狀態(tài)下,通過對各個樣本類型的分析,合理規(guī)定樣本之間的相互距離,然后在兩類合并分析的狀態(tài)下,形成一種全新的類型模式,通過對其他聚類數(shù)據(jù)資源的計算,重復兩類合并化的工作內容,并將相關的工作成本合為一類,保證數(shù)據(jù)資源的合并化及順序化處理。同時,在數(shù)據(jù)挖掘系統(tǒng)處理的過程中,軟件系統(tǒng)會提供一種hclust()的函數(shù)層次聚類方式,hclust()聚類方式是hclust(d,merhod=“ward”,members=NULL),函數(shù)中的d是指距離結構的距離,而merhod是一種制定的聚類方法,在運用的過程中,可以通過最短距離、最長距離以及中間距離方式的運用,進行數(shù)據(jù)挖掘系統(tǒng) 的有效設計。對于聚類系統(tǒng)而言,是也中非監(jiān)督的模式,通過對各個數(shù)據(jù)資源的合理關注,可以通過對實際狀況的分析及調整,進行聚類內容的程序優(yōu)化。在程序設計的過程中,其基本的程序如下所示。
subest<-subest (datasrt,sckect=出(3:11)
city<-dist (subest) 該程序主要是對Euclide的距離進行測定分析
hclust<-hclust(city,“ward”)該程序為了實現(xiàn)對Ward進行系統(tǒng)聚類分析
Plclust(hclust)實現(xiàn)系統(tǒng)繪制程序的聚類化譜圖
result<-rect.hclust(hclust,k=4,border=“red”)實現(xiàn)對特定的聚類進行劃分
第二,劃分聚類方式分析
在聚類方式分析的過程中可以發(fā)現(xiàn),k-means是一種較為經(jīng)典的劃分模式,其基本的設計思想是通過對聚類化指標的最小優(yōu)化,進行聚類準則及聚類函數(shù)的樣本分析,從而保證距離的最小化。因此,在整個聚類方法分析的過程中,第一,應該通過對制定聚類數(shù)據(jù)的分析,進行聚類項目的合理確定,并保護走鞥初始聚類中心設計的穩(wěn)定性、合理性。第二,通過對養(yǎng)成集里以及樣本最小距離的分析,可以對不同的聚類樣本進行平均聚類中心的穩(wěn)定設計,從而保證數(shù)據(jù)資源系統(tǒng)處理的優(yōu)化設計[6]。
3.2 分類模型的設計
在社會運行及發(fā)展的狀態(tài)下,人類在生產(chǎn)活動設計的過程中,需要對不同的信息系統(tǒng)做出預測,如天氣變化狀況以及股票指數(shù)等內容,通過預測可以對相關數(shù)據(jù)的歷史指數(shù)進行綜合性的分析,并在指標分析及評價的基礎上,劃分出綜合性的預估內容,保證項目生產(chǎn)活動效率的穩(wěn)定提升,降低數(shù)據(jù)模型構建中出現(xiàn)的風險因素。有效提升生產(chǎn)活動的整體效率。在分類技術分析的過程中,需要對控制變量的控制進行預測及取值特征的分析,因此,在預測狀態(tài)下,可以將其內容分為分類及回歸兩種。因此,需要對預測的項目內容進行分類處理。在數(shù)據(jù)挖掘模型輸出結果設計的狀態(tài)下,我們會將其過程稱為回歸學習方式。通常情況下,在分類技術概述分析的狀態(tài)下,對決策樹進行分析。其中的決策樹主要是一種無序性的數(shù)據(jù)記錄內容,并通過對數(shù)據(jù)資源的有效分析及結構的表述,實現(xiàn)數(shù)據(jù)挖掘資源的有效處理。
首先,通過這種本屬性值的比較及分析,可以構建分子化的系統(tǒng)處理模式,從而保證分類樹資源結構優(yōu)化的合理性,其基本的決策樹分類技術可以分為以下幾點:第一,ID3算法內容思考的分析中,其核心的工作內容是對樣本數(shù)據(jù)進行檢測,并在計算的各個活動中,實現(xiàn)信息增益的資源優(yōu)化處理,實現(xiàn)不同屬性值建立的穩(wěn)定性。通過對ID3算法理論的科學化分析,可以保證數(shù)據(jù)資源的穩(wěn)定設計及便利性分析,并在此基礎上,擴大數(shù)據(jù)集成性的理想內容,保證數(shù)據(jù)資源項目核算的穩(wěn)定優(yōu)化及合理改進。第二,C4.5算法。對于C4.5算法而言,在計算的過程 中會在項目設計的基礎上實現(xiàn)對數(shù)據(jù)挖掘的有效改進,并在此基礎上,建立了分類樹的項目過程。首先,需要構建數(shù)據(jù)決策樹,這種決策方式與ID3的構建決策方式呈現(xiàn)出一直化的發(fā)展變化,其主要的區(qū)別是ID3在信息增益分析的狀態(tài)下,可以實現(xiàn)對屬性分子問題的有效解決,而C4.5算法需要通過對信息收益率的綜合性分析,并進行屬性不足的確立。其次,在對已經(jīng)形成分類樹剪裁及處理的狀態(tài)下,應該通過對噪音數(shù)據(jù)分支問題的分析,進行離散化的項目處理,從而保證數(shù)據(jù)資源處理狀態(tài)下的系統(tǒng)缺失值,并在最大程度上為決策樹算法的運用提供良好依據(jù)[7]。
其次,在函數(shù)類分類算法分析的過程中,應該支持向量機化的合作管理模式,并在理論統(tǒng)計及學習的基礎上,保證函數(shù)項目設計的穩(wěn)定性發(fā)展。因此,在函數(shù)類分類算法分析的基礎上,應該通過對樣本信息模型的復雜性設計,應該尋求復雜性及學習性的分類算法,有效克服傳統(tǒng)信息模型設計的局限性,從而保證函數(shù)分類的廣泛性發(fā)展。同時,在函數(shù)分類算法分析的同時,為了支持向量機化學校模型的構建,就應該構建集樣本是否為線性化的分析,對線性函數(shù)進行穩(wěn)定的構造,所以,在函數(shù)類分類算法過程中,應該做到以下幾點內容:第一,認識到訓練集體成本的的構造分類,從而實現(xiàn)數(shù)據(jù)挖掘環(huán)境下非線性映射技術的空間化轉化。第二,在支持向量機采用投影技術確立及使用的過程中,應該對非線性的特征進行系統(tǒng)化的設計,保證全局項目上合計的最優(yōu)化處理,保證期望風險的有效執(zhí)行[8]。
3.3 實現(xiàn)模型選擇的不均衡性模型構建
對于不均衡分類模式而言,主要是在分類問題處理的過程中,通過對多數(shù)樣本數(shù)量的分析,進行少數(shù)樣本數(shù)量的合理優(yōu)化。同時,在不均衡分離的理念下,可以將其分為不均衡的數(shù)據(jù)集約分類方式,通過數(shù)據(jù)的穩(wěn)定研究,可以實現(xiàn)數(shù)據(jù)資源挖掘狀態(tài)下的全新發(fā)展,例如,在軟件系統(tǒng)檢測中,當發(fā)現(xiàn)了軟件缺陷問題,應該保證模塊在98%以上,其錯誤的軟件模塊應該時刻小于2%,從而實現(xiàn)數(shù)據(jù)挖掘系統(tǒng)分類算法的合理預測及系統(tǒng)分析,實現(xiàn)模型項目設計中信息價值的穩(wěn)定提升。同時,在集成學習模式構建的狀態(tài)下,也需要對組合學習項目進行優(yōu)化,通過對原數(shù)據(jù)訓練分類模型的好送將誒,可以額保證分類模型及子分類模型的優(yōu)化設計,實現(xiàn)模型測試項目的集中化及預測化判斷,為不均衡性模型的優(yōu)化設計提供穩(wěn)定性的技術支持[9]。
4 結語
總而言之,在現(xiàn)階段數(shù)據(jù)挖掘系統(tǒng)優(yōu)化設計的過程中,為了保證資源項目設計的穩(wěn)定性及合理性,不僅應該保證系統(tǒng)挖掘的完善性及功能性,而且也應該對用戶界面進行綜合性的設計及分析,從而保證數(shù)據(jù)挖掘系統(tǒng)設計條件的穩(wěn)定性,實現(xiàn)數(shù)據(jù)挖掘系統(tǒng)的實用性。同時,在軟件挖掘系統(tǒng)優(yōu)化的狀態(tài)下,也可以通過對不同語言程序的開發(fā)及挖掘能力的提升,充分展現(xiàn)出資源數(shù)據(jù)目標挖掘的基本特點,完善數(shù)據(jù)資源的挖掘功能,從而保證數(shù)據(jù)資源系統(tǒng)設計的穩(wěn)定性及互動操作的特點。而且,在圖形界面數(shù)據(jù)資源可視化效果的分析,需要通過對流程化資源挖掘狀態(tài)的分析,進行功能及用戶界面的有效改進,實現(xiàn)數(shù)據(jù)資源挖掘系統(tǒng)的優(yōu)化提供穩(wěn)支持。
參考文獻
[1]王國勛.基于多目標決策的數(shù)據(jù)挖掘模型選擇研究[D].電子科技大學,2013.
[2]龔璞.數(shù)據(jù)挖掘在軟件項目風險管理系統(tǒng)中應用研究[D].大連理工大學,2014.
[3]陳榮鑫.R軟件的數(shù)據(jù)挖掘應用[J].重慶工商大學學報(自然科學版),2011,(06):602-607.
[4]林立,朱小冬,王毅剛,閻旭坤.基于數(shù)據(jù)挖掘的軟件故障診斷研究[J].微計算機信息,2010,(34):156-158.
[5]王輝,杜慶峰.基于軟件信息庫挖掘的軟件缺陷預測方法[J].計算機工程與設計,2012,(08):3094-3098.
[6]崔廣風.數(shù)據(jù)挖掘中的統(tǒng)計方法及其應用研究[D].西南石油大學,2014.
[7]張曉艷.股市數(shù)據(jù)挖掘中偏模型的檢驗和應用[D].西南財經(jīng)大學,2014.
[8]曾強.面向軟件漏洞的挖掘方法研究[D].燕山大學,2014.
[9]金蓮花.數(shù)據(jù)挖掘在軟件缺陷管理中的研究與應用[D].長春理工大學,2010.