王希軍
摘 要 我們?nèi)缃竦纳顣?huì)遇到大量的信息,一方面人們隨時(shí)隨地可以查閱相關(guān)信息但是另一方面不利于人們來進(jìn)行分門別類和快速的獲得主要信息,數(shù)據(jù)挖掘技術(shù)的使用使人們能夠段時(shí)間內(nèi)完成信息的處理。本文首先介紹了數(shù)據(jù)挖掘技術(shù)的含義和包括的方法,然后闡釋了數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況并對(duì)它面臨的問題進(jìn)行了分析。
‘【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù) 軟件工程 應(yīng)用
社會(huì)的發(fā)展使得技術(shù)也得到了快速發(fā)展,信息技術(shù)營(yíng)運(yùn)而生,并且被人們廣泛的應(yīng)用于機(jī)械、醫(yī)療、化工和教育等領(lǐng)域,發(fā)揮著越來越重要的作用。在當(dāng)前社會(huì)的發(fā)展背景下,信息技術(shù)中的軟件工程雖然發(fā)展規(guī)模不斷擴(kuò)大,但是在技術(shù)上已經(jīng)不能滿足對(duì)資源管理的要求,而數(shù)據(jù)挖掘技術(shù)的到來彌補(bǔ)了軟件軟件工程的不足,促進(jìn)了軟件工程的進(jìn)一步發(fā)展
1 數(shù)據(jù)挖掘技術(shù)的簡(jiǎn)介
1.1 數(shù)據(jù)挖掘技術(shù)的含義
所謂數(shù)據(jù)挖掘,主要指的是在大量的數(shù)據(jù)信息中利用科學(xué)、有效的算法第一時(shí)間獲取到有用信息的篩選過程。大量的信息存在于生產(chǎn)和生活領(lǐng)域,使得人們?cè)谔幚硎虑槭菬o從下手,這樣大大降低了人們的工作效率,也浪費(fèi)了工作人員寶貴的時(shí)間。而這一問題通過數(shù)據(jù)挖掘技術(shù)的使用得到了很好的解決
1.2 數(shù)據(jù)挖掘技術(shù)所采用的方法
在具體的操作中,數(shù)據(jù)挖掘技術(shù)會(huì)通過很多方法來使任務(wù)得以完成。具體的方法有如下幾種:
1.2.1 遺傳算法的使用
所謂遺傳算法,主要是指基于生物自然選擇與遺傳激勵(lì)的隨機(jī)搜索算法,也是數(shù)據(jù)挖掘技術(shù)常用的一種操作方法。遺傳算法的有點(diǎn)就在于表面上看似無聯(lián)系的事物,卻能在事物模型間建立相關(guān)的練習(xí),實(shí)現(xiàn)事物之間共同發(fā)展,現(xiàn)在生物界越來越重視的遺傳基因等的研究,所以這種方法很受人們的歡迎。
1.2.2 采用決策樹方法
這種方法主要用于對(duì)信息的分類和整合,在遇到大量的信息的時(shí)候,能夠在短時(shí)間內(nèi)找出關(guān)鍵的信息,能夠使信息分類的快速化和簡(jiǎn)單化,并且保證了信息分類的準(zhǔn)確度,但是此方法的不足之處就在于具有較差的抗噪性能,不能全面的來表述較為復(fù)雜的概念。
1.2.3 采用統(tǒng)計(jì)分析法
往往會(huì)利用回歸分析和主成分分析等方法來分析數(shù)據(jù)庫字段之間的關(guān)系。在字段之間的關(guān)系包括相關(guān)關(guān)系,函數(shù)關(guān)系也是其中的一種,不同的是函數(shù)關(guān)系可以用公式來表示,而相關(guān)關(guān)系則不能通過公示來表示關(guān)系,系統(tǒng)分析法的使用為這種關(guān)系的分析提供了便利。
1.2.4 采用可視化技術(shù)
可視化技術(shù)是采用一些圖表來對(duì)數(shù)據(jù)進(jìn)行表現(xiàn),便于對(duì)數(shù)據(jù)的理解,比如,使用簡(jiǎn)單圖形來展示存在于數(shù)據(jù)庫中的多個(gè)數(shù)據(jù),使研究者看起來一目了然,使單調(diào)的數(shù)據(jù)形象化,更容易掌握數(shù)據(jù)的相關(guān)信息。
1.2.5 采用神經(jīng)網(wǎng)絡(luò)方法
它模擬人腦神經(jīng)元結(jié)構(gòu), 以MP 模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ), 用神經(jīng)網(wǎng)絡(luò)連接的權(quán)值表示知識(shí), 其學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上。前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)是常用的三種神經(jīng)網(wǎng)絡(luò)模型,分別用于預(yù)測(cè)、聯(lián)想記憶和聚類等。
2 軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用表現(xiàn)
2.1 用于軟件項(xiàng)目管理方面
軟件項(xiàng)目的管理呈現(xiàn)出復(fù)雜化和系統(tǒng)化的特點(diǎn),數(shù)據(jù)挖掘技術(shù)應(yīng)用于軟件項(xiàng)目管理一方面
表現(xiàn)在對(duì)組織關(guān)系的挖掘,比如公司舉辦年會(huì)等大型活動(dòng),在人員的分配上如果處理不好,就會(huì)出現(xiàn)混亂的局面,為了實(shí)現(xiàn)人力資源的合理配制,往往采用數(shù)據(jù)挖掘技術(shù)來區(qū)分每個(gè)職員的職責(zé),實(shí)現(xiàn)項(xiàng)目管理的有序化,提高了辦事效率;軟件項(xiàng)目管理中使用數(shù)據(jù)挖掘技術(shù)的另一個(gè)方面就是挖掘版本控制信息,在此系統(tǒng)面臨外系統(tǒng)入侵時(shí)提出警告是數(shù)據(jù)挖掘技術(shù)所具備的功能之一,除此之外數(shù)據(jù)挖掘技術(shù)可以檢測(cè)該系統(tǒng)的修復(fù)情況,版本控制信息的作用就是方便了人們對(duì)版本信息的查看,而數(shù)據(jù)挖掘技術(shù)的使用為系統(tǒng)的安全運(yùn)行提供了更有利的保障,使得軟件項(xiàng)目的管理水平逐步提高。
2.2 漏洞的檢測(cè)時(shí)數(shù)據(jù)挖掘技術(shù)的使用
當(dāng)數(shù)據(jù)挖掘技術(shù)用于檢測(cè)軟件的漏洞時(shí),第一步要弄清楚要檢測(cè)什么樣的軟件,第二步就是要制定合理的計(jì)劃,計(jì)劃的目的是為了更好的對(duì)軟件進(jìn)行檢測(cè),不同軟件的構(gòu)成和性質(zhì)決定了檢測(cè)要采用不同的方式,緊接著就是對(duì)漏洞庫中的數(shù)據(jù)進(jìn)行整理,對(duì)于不需要的數(shù)據(jù)進(jìn)行清除,除此之外對(duì)于丟失的項(xiàng)目要采取措施補(bǔ)救回來,用數(shù)值表示來代替數(shù)據(jù)屬性。
另外,要對(duì)合適的數(shù)據(jù)模型進(jìn)行驗(yàn)證,不同的項(xiàng)目會(huì)采取不同的方法,重要的是選擇合適的發(fā)掘方式來使其形成測(cè)試集,進(jìn)而可以對(duì)全部的結(jié)果進(jìn)行比較,通過比較找出最滿意的方式,數(shù)據(jù)挖掘技術(shù)的應(yīng)用不見可以檢測(cè)漏洞還可以對(duì)未知的漏洞進(jìn)行防護(hù),并且把漏洞的種類進(jìn)行分析,整合出修復(fù)的方法,能使的在第一時(shí)間找出漏洞并進(jìn)行修復(fù),使得軟件能夠保持良好的性能,使其運(yùn)行速度不至于減慢。
2.3 挖掘程序代碼和結(jié)構(gòu)中數(shù)據(jù)挖掘技術(shù)的使用
在挖掘程序代碼和結(jié)構(gòu)方面比較常用的一種數(shù)據(jù)挖掘方法就是克隆代碼檢測(cè)法,該方法分為度量、文本對(duì)比、程序結(jié)構(gòu)和標(biāo)識(shí)符對(duì)比這四種方法,四種方法各有各自的特點(diǎn),具體的運(yùn)用中需要考慮實(shí)際情況來確定到底使用那種方法??寺〈a檢測(cè)通常會(huì)復(fù)制粘貼某一個(gè)代碼,在特殊的要求下,會(huì)根據(jù)需求來改正某些代碼,檢測(cè)這些代碼主要是為了防止大面積出現(xiàn)故障,維護(hù)系統(tǒng)的安全,為軟件運(yùn)行提供一個(gè)可靠的環(huán)境。另一個(gè)常見的就是Aspect的挖掘,Aspect的挖掘就是常見說的橫切關(guān)注點(diǎn)挖掘。軟件工程中面向方面軟件的改造需要解決好Aspect的挖掘,雖然可以采用大量的方式來解決這個(gè)問題,但是最重要的方法之一就是度量分析法。
3 數(shù)據(jù)挖掘技術(shù)在具體的使用中面臨的問題
3.1 數(shù)據(jù)復(fù)雜化
目前的軟件工程數(shù)據(jù)主要包括結(jié)構(gòu)化和非結(jié)構(gòu)化兩類數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包括軟件代碼,結(jié)構(gòu)化數(shù)據(jù)則跟軟件的版本信息有關(guān),非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)之間聯(lián)系密切,因此在使用數(shù)據(jù)挖掘技術(shù)的時(shí)候,要對(duì)著兩種數(shù)據(jù)的關(guān)系進(jìn)行考慮,這就增加了挖掘技術(shù)使用的難度。
3.2 評(píng)價(jià)標(biāo)準(zhǔn)不一致
生產(chǎn)生活中很多領(lǐng)域都在使用數(shù)據(jù)挖掘技術(shù),在使用后對(duì)它的結(jié)果也采取了一定的評(píng)價(jià)方法,但是往往這些方法不能一致,在軟件工程中也很難統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn),因?yàn)樵谲浖こ讨谐霈F(xiàn)的信息一般比較復(fù)雜,而且往往通過不同的方法來表達(dá),所以獲取者在進(jìn)行信息比較時(shí)候,面臨很大的苦難,所以導(dǎo)致不能準(zhǔn)確的對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行分析。
4 結(jié)論
總而言之,時(shí)代的發(fā)展越來越離不開數(shù)據(jù)挖掘技術(shù)的使用,這項(xiàng)技術(shù)很大程度上滿足了人們的需求,受到越來越多的重視,經(jīng)過本文的論述之后,可以得知數(shù)據(jù)挖掘技術(shù)不僅使軟件工程更加完善,而且使人們學(xué)會(huì)用新的方式來獲得信息,雖然書籍挖掘技術(shù)在實(shí)際的應(yīng)用中會(huì)因?yàn)檐浖?xiàng)目的數(shù)據(jù)復(fù)雜等原因會(huì)面臨一些挑戰(zhàn),但是科技也在不斷進(jìn)步,相信未來,數(shù)據(jù)挖掘技術(shù)會(huì)得到更廣泛的應(yīng)用。
參考文獻(xiàn)
[1]陳建樺.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].硅谷,2014(01):11-12.
[2]姚文濤.試論軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].河南科技,2014(23):45-46.
[3]雷蕾.關(guān)于數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用綜述[J].電子測(cè)試,2014(02):19-20.
作者單位
許昌職業(yè)技術(shù)學(xué)院 河南省許昌市 461000