亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        軟件工程中數(shù)據(jù)挖掘技術(shù)的運用實踐探尋

        2022-12-14 04:08:29陳橋芳祝秀芬
        信息記錄材料 2022年2期
        關(guān)鍵詞:事務(wù)代碼頁面

        陳橋芳,祝秀芬

        (廣州城市理工學(xué)院 廣東 廣州 510800)

        0 引言

        在當(dāng)今網(wǎng)絡(luò)時代,網(wǎng)絡(luò)通信技術(shù)廣泛使用,大量的數(shù)據(jù)信息都需要合適的軟件進行整合。在傳統(tǒng)的軟件工程中,數(shù)據(jù)處理還存在一些缺陷,無法保證信息的穩(wěn)定性,所以,引進數(shù)據(jù)挖掘技術(shù),能很大程度滿足用戶需求。數(shù)據(jù)挖掘技術(shù)的使用不僅能進行數(shù)據(jù)信息的整合、過濾,也能維護信息的安全[1]。

        1 概述分析

        數(shù)據(jù)挖掘是在大量的數(shù)據(jù)信息中集中挖掘,并能發(fā)現(xiàn)其中存在的有價值信息。軟件工程數(shù)據(jù)挖掘技術(shù)是在軟件工程行業(yè)中使用的一種數(shù)據(jù)挖掘技術(shù),對現(xiàn)有的軟件工程進行利用和開發(fā),該技術(shù)通過分析、提取等挖掘出開發(fā)者需要的信息。如今,軟件工程數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用在人工智能、軟件工程等多個行業(yè),且軟件工程中數(shù)據(jù)挖掘技術(shù)和傳統(tǒng)數(shù)據(jù)挖掘技術(shù)也比較相似,能對軟件工程中的數(shù)據(jù)進行處理,也能通過有效算法給軟件開發(fā)者提供需要的信息。一般在軟件開發(fā)過程中會產(chǎn)生大量的數(shù)據(jù)信息,主要為設(shè)計的文檔、軟件的代碼、軟件版本以及測試的數(shù)據(jù)和結(jié)果、用戶的反饋信息等。因為軟件工程數(shù)據(jù)是為軟件開發(fā)人員提供信息的主要途徑,如果軟件的開發(fā)規(guī)模更大,軟件工程中的數(shù)據(jù)復(fù)雜性和數(shù)量也將不斷增加,如果軟件開發(fā)者通過代碼、文檔的瀏覽還不能挖掘到有效的信息,將無法滿足對軟件的開發(fā)需求。因此,為了解決目前軟件工程開發(fā)中存在的各項問題,可以充分利用數(shù)據(jù)挖掘技術(shù),有效彌補傳統(tǒng)技術(shù)使用中的缺陷,在為軟件工程開發(fā)工作提供基礎(chǔ)條件的同時,也能夠為開發(fā)者的后期工作奠定堅實保障。

        2 軟件工程中數(shù)據(jù)挖掘的意義

        將數(shù)據(jù)挖掘技術(shù)應(yīng)用到軟件工程中具有重要作用。隨著現(xiàn)代科學(xué)技術(shù)水平的提升,新技術(shù)的使用為軟件工程建設(shè)提供重要條件。利用數(shù)據(jù)挖掘技術(shù)能夠?qū)?shù)據(jù)信息充分理解,增強數(shù)據(jù)信息的處理能力,也能夠加強對數(shù)據(jù)信息的利用。

        2.1 能加強對數(shù)據(jù)信息的理解

        每個人對信息的理解不同,如果利用人力對數(shù)據(jù)信息進行采集和理解,不僅會浪費大量時間,也將增加更多成本,并且受到人主觀意識的影響,不具備一定的權(quán)威性,而數(shù)據(jù)挖掘技術(shù)能有效解決該方面的問題。數(shù)據(jù)挖掘技術(shù)的形成是在現(xiàn)代科學(xué)信息條件下,結(jié)合不同的數(shù)據(jù)分析目的,實現(xiàn)數(shù)據(jù)信息的有效分類和目標的細化,保證能獲得更準確的信息。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到軟件工程中具有重要作用,不僅能進行數(shù)據(jù)信息的采集,也能對大量的數(shù)據(jù)進行整合,從而為軟件開發(fā)提供完整的查詢和管理體系。企業(yè)通過對技術(shù)的使用,能快速地查找信息,也能加強對數(shù)據(jù)信息的應(yīng)用。

        2.2 促使數(shù)據(jù)處理質(zhì)量的提升

        在現(xiàn)代社會發(fā)展中,隨著科學(xué)技術(shù)水平的提升,數(shù)據(jù)挖掘技術(shù)中數(shù)據(jù)功能也更加專業(yè),特別是在數(shù)據(jù)運算過程中,能更準確地整合資源,對企業(yè)中大量的數(shù)據(jù)進行計算。數(shù)據(jù)挖掘技術(shù)還能對復(fù)雜的數(shù)據(jù)進行短時間篩選和處理,能有效保證數(shù)據(jù)的處理質(zhì)量,有效減少數(shù)據(jù)丟失情況,避免企業(yè)造成較大損失。

        2.3 加強對數(shù)據(jù)的充分應(yīng)用

        在軟件工程中應(yīng)用數(shù)據(jù)挖掘技術(shù),能促使企業(yè)數(shù)據(jù)應(yīng)用效率提升。對于一些比較混亂、無用的數(shù)據(jù)信息,能在多個角度上進行數(shù)據(jù)信息整合,從而獲得準確結(jié)果。并且也可以將獲得的整合結(jié)果應(yīng)用到實際工作中,并結(jié)合具體工作效果選擇適合的數(shù)據(jù),加強數(shù)據(jù)的充分使用。企業(yè)基于數(shù)據(jù)挖掘技術(shù)的使用也能優(yōu)化策略選擇,保證數(shù)據(jù)作用的充分發(fā)揮。同時,數(shù)據(jù)挖掘技術(shù)也能將企業(yè)中的抽象數(shù)據(jù)轉(zhuǎn)換為能夠理解的數(shù)據(jù)信息,能為企業(yè)決策提供重要條件。

        3 Web訪問模式挖掘分析

        3.1 Web訪問模式挖掘的體系結(jié)構(gòu)

        Web訪問模式挖掘的體系結(jié)構(gòu)可以分成兩個方面:(1)將Web訪問數(shù)據(jù)轉(zhuǎn)化為適當(dāng)格式。該方面包括預(yù)處理、事務(wù)識別、數(shù)據(jù)合并。(2)數(shù)據(jù)挖掘引擎,也就是數(shù)據(jù)挖掘和模式匹配技術(shù)。而該體系也基于網(wǎng)站結(jié)構(gòu)挖掘。

        在Web訪問模式挖掘中,首先要進行的是數(shù)據(jù)清理。對基礎(chǔ)資料進行匯總和整理,也需要在此階段進行。在進行了資料整理以后,這些記錄就會被歸入了一系列的事務(wù)中。事務(wù)識別的目的在于為每一個訪問者創(chuàng)建一個有價值的數(shù)據(jù)聚集。然后,基于數(shù)據(jù)挖掘的工作,將事務(wù)數(shù)據(jù)轉(zhuǎn)換為相應(yīng)的數(shù)據(jù)模型。在對數(shù)據(jù)挖掘和分析的過程中,還必須給使用者一個適當(dāng)?shù)牟樵儥C制來展示這些挖掘和分析的結(jié)果。

        3.2 數(shù)據(jù)清理

        數(shù)據(jù)清理是第一項預(yù)處理任務(wù)。清除服務(wù)器中記錄的技術(shù),對Web數(shù)據(jù)挖掘和其他的Web數(shù)據(jù)分析十分重要。只要服務(wù)器記錄可以精準地顯示出Web站點上的用戶訪問模式,其關(guān)聯(lián)規(guī)則和統(tǒng)計報表才能夠有利用價值。對URL的后綴名稱進行分析是一種很好的方法,比如GIF、JPG等都可以刪除。

        3.3 用戶標識

        大部分Web中的知識發(fā)現(xiàn)系統(tǒng)都僅限于服務(wù)端,缺少清晰、高效的客戶端(比如捕捉單獨的Web用戶行為)。了解個體使用者的活動對提供個性化服務(wù)、改善Web網(wǎng)頁的組織架構(gòu)、制定合適的定價戰(zhàn)略等都有著舉足輕重的意義。

        另外,還有一個問題,就是存在著很多沒有被存檔的訪問數(shù)據(jù)。而某些本地緩存機制和代理服務(wù)器則會遮蔽或歪曲使用者的網(wǎng)站存取通路?,F(xiàn)在,人們可以用cookies來登記這些問題,并在屏幕上展示這些信息。例如,cookies是可以被使用者刪掉的,但是也會有使用者使用虛假資料進行登記的情況。

        3.4 用戶瀏覽行為模型(UserBrowsing BehaviorModel)

        要把一個使用者的會話分成有意義的事務(wù),就必須有一個可以支撐它的基本模型。通常情況下,使用者可以通過以下兩種方式來訪問Web頁面:一是用于導(dǎo)航,二是需要它的內(nèi)容信息。我們將他們命名為用戶的導(dǎo)航頁面和內(nèi)容頁面。雖然可以很輕易地從網(wǎng)頁上的鏈接數(shù)量判斷出一些網(wǎng)頁的屬性,但是大部分網(wǎng)頁都不能用這種方式明確地分類。比如,如果一個網(wǎng)頁只有一個標題和一系列的鏈接,那么它就會被認為是導(dǎo)航頁面。但是,由于他們的網(wǎng)頁屬性會隨著使用者的不同而有所改變,所以一個含有文本信息和鏈接的頁面就不能只根據(jù)其本身信息來判斷它是導(dǎo)航頁面還是內(nèi)容頁面。

        從導(dǎo)航頁面和內(nèi)容頁面的角度出發(fā),我們可以提出事務(wù)的定義。事務(wù)的定義依據(jù)不同的使用可分成兩類,一般事務(wù)的定義是指一個用戶在訪問網(wǎng)頁過程中,從一系列的導(dǎo)航頁面到內(nèi)容頁面的參考。通過挖掘這樣的導(dǎo)航-內(nèi)容事務(wù),能夠獲得一條通往特定的網(wǎng)頁的普通的途徑。另一類事務(wù)的定義是指某一用戶在特定的站點進行一次訪問時,引用全部的內(nèi)容頁面,就是說,在一個使用者的一個對話中,所有的導(dǎo)航頁面被移除了之后,將會生成一個頁面序列;通過挖掘這樣的內(nèi)容事務(wù),能夠獲得Web站點上內(nèi)容頁面之間的聯(lián)系,這樣的聯(lián)系和這些內(nèi)容頁面之間的路徑信息沒有關(guān)系。其中,基于對內(nèi)容事務(wù)的挖掘與導(dǎo)航-內(nèi)容事務(wù)挖掘的事務(wù)進行研究。由于該方法可以忽略掉導(dǎo)航信息,所以能夠獲得一些導(dǎo)航-內(nèi)容事務(wù)挖掘獲取不到的用戶特征。不管什么類型的事務(wù)定義,最重要的問題就是怎樣可以動態(tài)地決定一個服務(wù)器記錄是否用于導(dǎo)航或進行內(nèi)容瀏覽。

        3.5 一般模型

        對于初始用戶,訪問過程可用以下兩方面理解:該行為可能是通過多頁面訪問形成的事務(wù),也可能是通過不同單頁面操作組成的一系列事務(wù)的集合。標識的目的是對用戶訪問行為進行具有一定后續(xù)效果的分割,標識工作就相當(dāng)于把一個整體的事務(wù)劃分成多個小的事務(wù),或者將一些有規(guī)律的小事務(wù)總結(jié)為大事務(wù)。

        3.6 具體分析模型

        上面的事務(wù)定義并沒有給出具體分割的方法,即缺少約束條件,下面在討論各種標識模型中將分別把各自判別事務(wù)的約束條件加上,以形成完整的事務(wù)定義。

        現(xiàn)在假定初始的事務(wù)是由某個用戶的所有訪問頁面所組成的一個大事務(wù),下面就討論這個大事務(wù)的分解過程。這里介紹3個事務(wù)標識模型,前兩個事務(wù)標識模型:引用長度模型和最大向前引用模型,是建立在前面所討論的用戶瀏覽行為模型的基礎(chǔ)之上的;而第3個模型是時間窗口模型,并未建立在其基礎(chǔ)之上。

        3.7 引用長度模型

        引用的模型主要建立在下面的假設(shè)上:在頁面上,用戶花費的時間主要取決于該頁面的屬性屬于導(dǎo)航型還是內(nèi)容型,這是許多家研究機構(gòu)分析諸多大型網(wǎng)站得出的結(jié)論。

        3.8 常用訪問模式挖掘

        在Web系統(tǒng)內(nèi),了解用戶日常訪問方式和習(xí)慣,對于增加站點實際使用效果有較強的促進作用。如在關(guān)聯(lián)頁間設(shè)置較為恰當(dāng)?shù)穆?lián)系。該方式也有益于為市場部門提供更好的決策依據(jù),例如在頁面的哪些位置添加新功能,如何適應(yīng)用戶的既有使用習(xí)慣等。

        常用的訪問方法是根據(jù)事務(wù)集合,挖掘數(shù)據(jù)后得出的,它以用戶訪問過程中內(nèi)容頻率為基礎(chǔ),按規(guī)律生成訪問序列。所以,挖掘訪問數(shù)據(jù)的方法和了解訪問行為關(guān)聯(lián)規(guī)則工作有許多重合內(nèi)容。而后者的重點更傾向于集合在超集中出現(xiàn)的頻率次數(shù)。兩類工作中的區(qū)別是:訪問收集更傾向于序列,而關(guān)聯(lián)規(guī)則單純對條目進行收集,所以后者不適用于Web訪問挖掘。

        4 軟件工程中的數(shù)據(jù)挖掘技術(shù)應(yīng)用

        軟件工程和軟件開發(fā)關(guān)系緊密,軟件工程能為軟件開發(fā)提供重要條件。在對軟件開發(fā)的各個階段,都需要利用相關(guān)信息為工作的開展提供支持。但是,開發(fā)者在實際研發(fā)中,還未掌握信息數(shù)據(jù)獲取的主要方法,導(dǎo)致開發(fā)的軟件出現(xiàn)明顯卡頓問題,所以,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到軟件工程中十分重要[2]。接下來對來源軟件數(shù)據(jù)挖掘技術(shù)、軟件項目數(shù)據(jù)挖掘技術(shù)、代碼中數(shù)據(jù)挖掘技術(shù)以及軟件故障數(shù)據(jù)挖掘技術(shù)做出探討。

        4.1 開源軟件數(shù)據(jù)挖掘技術(shù)

        開源軟件數(shù)據(jù)挖掘技術(shù)是一種開放性的源代碼應(yīng)用,因為其具備開放性的特點,所以各個軟件都是免費的,具備的用戶群體更多。但是,在一定程度上也導(dǎo)致給管理工作帶來很大壓力,給軟件的使用帶來拖累。針對開源軟件存在的問題,為了增強軟件應(yīng)用質(zhì)量,保證該軟件基本數(shù)據(jù)處理能力的增強,需要對數(shù)據(jù)挖掘技術(shù)充分使用,在該技術(shù)支持下,能對大量的數(shù)據(jù)信息進行整合,對復(fù)雜的軟件積極處理,在軟件實際應(yīng)用效率得到提升的情況下,也有利于對用戶的管理[3]。

        4.2 軟件項目數(shù)據(jù)挖掘技術(shù)

        在軟件項目中應(yīng)用數(shù)據(jù)挖掘技術(shù),能挖掘組織關(guān)系,也能對版本控制信息進行挖掘。軟件工程中項目管理工作比較復(fù)雜,只有對各個人員組織關(guān)系進行挖掘,才能實現(xiàn)人力資源的充分協(xié)調(diào)。大多數(shù)情況下,大型的軟件工程都需要大數(shù)量人員的參與,軟件開發(fā)也會產(chǎn)生大量數(shù)據(jù)信息。特別是人員之間的溝通、交流信息,如果未經(jīng)過整合和過濾將造成信息混亂現(xiàn)象,從而不利于軟件項目的有效使用。所以,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到軟件項目工程中十分重要,能有效分析出組織關(guān)系,進行數(shù)據(jù)整合,也能促使軟件項目的有效開發(fā)[4]。

        4.3 代碼中數(shù)據(jù)挖掘技術(shù)

        代碼中數(shù)據(jù)挖掘技術(shù)的使用,主要作用是代碼搜索和代碼克隆。代碼搜索工具主要是用戶搜索關(guān)鍵詞來實現(xiàn)的。目前,代碼搜索引擎中的文本主要為代碼和注釋,每個程序文件都是一個文檔,能將代碼庫作為主要搜索命令。很多軟件的編程語言都是利用標識符號命名的,其中的注釋和標識符號都發(fā)揮重要作用。但是,如果編程的風(fēng)格是不同的,直接進行代碼的搜索是無法獲取信息的。數(shù)據(jù)挖掘技術(shù)通過代碼搜索的使用,能更加有效地進行關(guān)鍵字搜索。對于克隆代碼檢測,是基于代碼自身來實現(xiàn)的,當(dāng)用戶輸入代碼后,通過克隆代碼能夠檢測是否相似[5]。

        4.4 軟件故障數(shù)據(jù)挖掘技術(shù)

        數(shù)據(jù)挖掘技術(shù)使用過程中,不僅要促使挖掘任務(wù)完成,也要對具體的程序進行挖掘,保證挖掘的數(shù)據(jù)具備軟件故障的預(yù)測作用。在數(shù)據(jù)挖掘過程中,要明確具體工作目標,并能及時跟蹤信息,能結(jié)合實際問題給予信息的處理,從而為后期工作穩(wěn)定開展提供重要條件。在大量、復(fù)雜的挖掘工具中,軟件運行期間也會產(chǎn)生一些故障,如果使用傳統(tǒng)定位技術(shù)對存在的問題解決,問題的解決效率一般比較低,且實際應(yīng)用復(fù)雜,無法獲得更精準定位[6]。所以,使用數(shù)據(jù)挖掘技術(shù)中的程序譜,能更好地定位程序運行軌跡,實現(xiàn)故障排查,整個故障檢測效率也會提升。

        5 數(shù)據(jù)挖掘技術(shù)在軟件工程中的發(fā)展

        將數(shù)據(jù)挖掘技術(shù)應(yīng)用到軟件工程中,可以促使軟件質(zhì)量的提升,提升開發(fā)效率。軟件工程是一種單純的腦力勞動,為了實現(xiàn)應(yīng)用的目的,需要給軟件的開發(fā)人員提供準確、高效信息。從當(dāng)前實際情況看,軟件工程中的數(shù)據(jù)挖掘技術(shù)還無法滿足各個領(lǐng)域的發(fā)展需求。因為數(shù)據(jù)挖掘技術(shù)是隨著現(xiàn)代科學(xué)技術(shù)發(fā)展不斷更新的,比如:軟件工程的方法、數(shù)據(jù)挖掘算法和方式等,都能為軟件工程數(shù)據(jù)挖掘技術(shù)的應(yīng)用提供重要保障。

        (1)結(jié)合軟件工程數(shù)據(jù)挖掘中存在的問題,進行高性能挖掘算法的分析。結(jié)合目前發(fā)展中存在的問題,在軟件工程中應(yīng)用數(shù)據(jù)挖掘技術(shù)要滲透高效軟件,保證能進行檢索和發(fā)現(xiàn)。在軟件規(guī)則檢測中,是基于關(guān)鍵詞發(fā)展為自然語言或者模糊性檢索方式。對于返回的檢索內(nèi)容,也能從簡單的內(nèi)容發(fā)展為完全文檔形式。目前,存在缺陷的檢測工具只能對一些違反程序的規(guī)則進行檢測,在軟件執(zhí)行和結(jié)構(gòu)統(tǒng)計中很容易產(chǎn)生問題。所以,研究一種能夠檢測更大范圍、更復(fù)雜缺陷的工具十分重要。軟件行為模型和程序規(guī)則之間存在一定關(guān)系,如果研究出具備自然語言的一種模型和程序,促使動態(tài)和靜態(tài)軟件的結(jié)合,將使軟件的各個層次和行為信息都更加豐富,也增強其準確性。并且,應(yīng)用更高效的軟件設(shè)計,加強對工具的應(yīng)用,在軟件工程中也將實現(xiàn)信息的可視化表現(xiàn)。

        (2)針對軟件工程中的大量數(shù)據(jù),還需要研發(fā)一種挖掘算法,保證能實現(xiàn)高效預(yù)處理。軟件工程的規(guī)模更大,且對軟件的需求也不斷增加。軟件工程的工具也不斷細化,隨著軟件開發(fā)人員的增加,整個軟件的開發(fā)周期也不斷增加。為了對這些問題進行解決,軟件工程數(shù)據(jù)挖掘人員、研發(fā)人員需要結(jié)合數(shù)據(jù)特征,為其開發(fā)出一種更高效的數(shù)據(jù)處理方式。并且,對于動態(tài)數(shù)據(jù)流、在線挖掘算法等,也要為其提供效率更高的挖掘算法,比如機器學(xué)習(xí)、人工智能等數(shù)據(jù)挖掘技術(shù)的使用,能促使軟件的高效開發(fā)。

        6 結(jié)語

        綜上所述,軟件工程中加強對數(shù)據(jù)挖掘技術(shù)的使用,能對大量的數(shù)據(jù)信息進行收集,維護信息的安全性,避免安全隱患,有利于軟件工程的智能化發(fā)展。

        猜你喜歡
        事務(wù)代碼頁面
        大狗熊在睡覺
        “事物”與“事務(wù)”
        基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計與實現(xiàn)
        刷新生活的頁面
        河湖事務(wù)
        創(chuàng)世代碼
        動漫星空(2018年11期)2018-10-26 02:24:02
        創(chuàng)世代碼
        動漫星空(2018年2期)2018-10-26 02:11:00
        創(chuàng)世代碼
        動漫星空(2018年9期)2018-10-26 01:16:48
        創(chuàng)世代碼
        動漫星空(2018年5期)2018-10-26 01:15:02
        SQLServer自治事務(wù)實現(xiàn)方案探析
        伊人狼人激情综合影院| 波多野结衣一区二区三区高清 | 日韩人妻熟女中文字幕a美景之屋 国产suv精品一区二区四 | 色欲aⅴ亚洲情无码av蜜桃| 国产精品中文第一字幕| 国产成人综合一区二区三区| 91尤物在线看| 亚洲女同免费在线观看| 亚洲日韩国产av无码无码精品| 亚洲av美国av产亚洲av图片| 亚洲熟妇无码八av在线播放| 欧美性久久| 国产精品污一区二区三区在线观看 | 男人天堂插插综合搜索| 国产嫩草av一区二区三区| 日本艳妓bbw高潮一19| 亚洲白白色无码在线观看| 人妻少妇久久精品一区二区| 亚洲综合日韩一二三区| 国产精品天干天干综合网| 最新国产乱人伦偷精品免费网站| 骚片av蜜桃精品一区| 看一区二区日本视频免费| 呦系列视频一区二区三区 | 免费人成黄页网站在线观看国产| 亚洲午夜精品国产一区二区三区| 日本av一区二区三区视频| 人妻无码αv中文字幕久久琪琪布 美女视频黄的全免费视频网站 | 国语淫秽一区二区三区四区| 欧美一区二区三区久久综| 四虎欧美国产精品| 日本熟女视频一区二区三区| 精品亚洲成a人在线观看| 久久人妻少妇嫩草av蜜桃| 国产360激情盗摄一区在线观看| 在线观看国产白浆一区三区| 免费无遮挡无码永久在线观看视频| 国产精品免费大片| 日韩h网站| 亚洲一区二区三区一区| 亚洲另类无码专区首页|