亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

軟件缺陷畫像系統(tǒng)設(shè)計

2024-01-23 08:35:48陸金婷張嘉烽

無線互聯(lián)科技 2023年21期

陸金婷,張嘉烽

(1.江蘇工程職業(yè)技術(shù)學(xué)院,江蘇南通 226007;2.中天射頻電纜有限公司,江蘇南通 226009)

0 引言

在軟件開發(fā)的過程中,軟件開發(fā)人員常常會遇到各種各樣的軟件缺陷。軟件缺陷的存在,不僅會導(dǎo)致計算機程序或軟件系統(tǒng)無法正常實現(xiàn)其功能,還會導(dǎo)致軟件制品不能滿足軟件使用者的需求,從而降低了用戶使用軟件的滿意度。軟件缺陷中包含了大量軟件開發(fā)過程中發(fā)生錯誤時的數(shù)據(jù)信息。這些數(shù)據(jù)信息包含著豐富的與軟件質(zhì)量、技術(shù)、資源等相關(guān)的信息。因此,對軟件缺陷信息進(jìn)行有效的處理分析對軟件缺陷的修復(fù)以及軟件質(zhì)量的保證具有重要意義。

目前,軟件缺陷常常以缺陷報告的形式被提交和管理。在諸如Firefox、Eclipse等大型軟件項目中,通常使用缺陷跟蹤系統(tǒng)(BTS)來存儲、追蹤缺陷數(shù)據(jù)。為方便軟件開發(fā)人員快速檢索所需缺陷信息,BTS自身配備了搜索引擎。當(dāng)遇到新缺陷時,開發(fā)人員可以直接搜索報錯信息,也可以組織語言表達(dá)需求并輸入到搜索引擎檢索。搜索引擎使用關(guān)鍵字匹配技術(shù)檢索BTS并反饋相關(guān)缺陷信息。一般來說,檢索到的信息應(yīng)與開發(fā)人員的需要關(guān)聯(lián)性很大,應(yīng)該能夠有效解決開發(fā)人員遇到的缺陷,但事實并非如此。BTS自帶的搜索引擎所采用的關(guān)鍵字匹配技術(shù)常常只匹配了用戶檢索意圖中某個或多個關(guān)鍵詞,甚至是某個字符,導(dǎo)致返回的結(jié)果包含了很多錯誤信息和無效信息,使開發(fā)人員需要花費大量的時間和精力去鑒別返回的內(nèi)容是否滿足需求。此外,缺陷數(shù)據(jù)之間常常包含著各種各樣顯式或隱式的關(guān)聯(lián),這種關(guān)鍵字匹配技術(shù)只是單一地比較了缺陷數(shù)據(jù)本身基于單詞級別的相似度,并未考慮到缺陷信息語義之間的匹配和關(guān)聯(lián)。

基于上述問題,本文提出了軟件缺陷畫像系統(tǒng),用于軟件缺陷信息檢索。軟件缺陷畫像是一種模擬用戶畫像衍生出來的方法[1]。其主要工作是給軟件缺陷信息打標(biāo)簽,并根據(jù)用自然語言描述的關(guān)于軟件缺陷的描述語句來確定軟件缺陷,然后檢索軟件缺陷庫中的相關(guān)信息,挖掘軟件缺陷的潛在信息,并以可視化的方式對軟件缺陷進(jìn)行畫像處理。從用戶體驗上來看,設(shè)計一個軟件缺陷畫像系統(tǒng)有助于用戶在眾多繁雜的缺陷數(shù)據(jù)中獲取最有效的缺陷信息,從而快速地認(rèn)識缺陷,對后續(xù)的缺陷修復(fù)和軟件功能完善有重要意義。

1 系統(tǒng)功能模塊

軟件缺陷畫像系統(tǒng)的核心價值在于了解軟件缺陷,挖掘軟件缺陷信息中隱含的信息,以便軟件開發(fā)人員能夠更好地認(rèn)識理解軟件缺陷。系統(tǒng)的功能模塊包含普通畫像和深度畫像2個模塊。普通畫像模塊包含語義匹配和關(guān)鍵詞抽取2個功能;深度畫像模塊包含實體識別、關(guān)系抽取以及相似性缺陷推薦3個功能,如圖1所示。

圖1 軟件缺陷畫像系統(tǒng)的功能模塊

普通畫像模塊是本系統(tǒng)的基礎(chǔ)功能模塊,通過將系統(tǒng)中用戶輸入的缺陷描述轉(zhuǎn)換成語義向量,并與歷史缺陷庫中的缺陷信息進(jìn)行簡單的向量計算,完成相應(yīng)的相似度計算和關(guān)鍵詞提取等任務(wù)。深度畫像模塊從理解缺陷信息的角度出發(fā),采用較先進(jìn)的機器學(xué)習(xí)技術(shù)和神經(jīng)網(wǎng)絡(luò)知識,以實體和實體關(guān)系標(biāo)識缺陷,并基于實體和實體關(guān)系推薦與原缺陷相關(guān)的缺陷,以補充原缺陷信息,這對后續(xù)的缺陷修復(fù)工作具有重大意義。

2 普通畫像模塊

普通畫像模塊包含語義匹配和關(guān)鍵詞抽取2個功能,屬于本系統(tǒng)的基礎(chǔ)功能。

語義匹配功能采用免費的Python第三方庫Gensim(topic modeling for humans)模塊實現(xiàn)。Gensim模塊可以擴展語義,能夠完成基于語義結(jié)構(gòu)的純文本文檔分析以及檢索文檔語義相似等任務(wù),具體操作步驟如下:(1)針對缺陷庫中的每一個缺陷,把缺陷的基本屬性(Product、Component、Reporter等)、Summary和Description信息放到一個文件中,并利用Gensim模塊里面jieba分詞工具完成分詞、過濾停用詞等操作,將其處理成每個缺陷對應(yīng)的向量表示;(2)將用戶輸入的缺陷描述視為某個缺陷信息,利用Gensim模塊分詞、去停用詞,并將其轉(zhuǎn)換成對應(yīng)的向量;(3)從向量的角度出發(fā),利用Gensim模塊里面的similarities包計算系統(tǒng)用戶輸入的缺陷描述和缺陷庫中每個缺陷的相似度,得到相似度最高的缺陷。該缺陷視為根據(jù)系統(tǒng)輸入的缺陷描述信息檢索到的缺陷,可以根據(jù)該缺陷的相關(guān)信息輔助理解新缺陷。

本系統(tǒng)使用TF-IDF算法來抽取軟件缺陷的關(guān)鍵詞,TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF的意思是詞頻(Term Frequency);IDF的意思是逆文本頻率指數(shù)(Inverse Document Fre-quency)。詞頻TF表示關(guān)鍵詞在文檔中出現(xiàn)的頻率;逆文本頻率指數(shù)IDF表示某個詞的常見程度。根據(jù)公式(1)來抽取缺陷關(guān)鍵詞:

TF-IDF=TF×IDF

(1)

為完成缺陷關(guān)鍵詞的挖掘,需確定數(shù)據(jù)源。此處所采用的數(shù)據(jù)源是指語義匹配功能所篩選出語音相似度最高的缺陷,對其進(jìn)行分詞、過濾掉常見詞并完成缺陷關(guān)鍵詞的抽取。

3 深度畫像模塊

深度畫像模塊包含實體識別、關(guān)系抽取以及相似性缺陷推薦3個功能,屬于深度的知識分析加工。

實體識別功能旨在識別缺陷文本中具有領(lǐng)域特定含義的單詞,例如:“Ruby”“C#”“Python”“Pascal”“Java”等,這些是屬于計算機領(lǐng)域的編程語言類別的單詞。明確實體位置并準(zhǔn)確識別出實體所屬的類別有助于了解缺陷文本中所包含的實體語義關(guān)系,是實體識別工作必須完成的目標(biāo)。此處采用Zhou等[2]提出的方法識別缺陷文本中的實體。

關(guān)系抽取功能旨在確定特定實體對之間的關(guān)系,以便能夠明確缺陷語句的語義關(guān)系。例如:針對缺陷文本“WhimbooreportedtheBug1848799”,在識別了實體“Whimboo(People)”和“Bug1848799(BugID)”后,需要能夠快速明確2個實體之間的關(guān)系,以便能夠確定該缺陷文本的語義信息,否則“Whimboo(People)”和“Bug1848799(BugID)”這對實體之間可能存在多種關(guān)系,無法界定它們之間的關(guān)系,對理解缺陷文本信息的實際含義造成困難。此處采用馮艷紅等[3]提出的方法抽取實體對之間的關(guān)系,通過謂詞并結(jié)合語境來表述實體關(guān)系。

相似性缺陷推薦功能旨在針對用戶輸入的缺陷描述信息,基于實體和實體關(guān)系進(jìn)行相似度計算,從而推薦相關(guān)的缺陷,用來補充用戶所需缺陷的相關(guān)信息,輔助理解該缺陷。

在完成了實體識別和關(guān)系抽取后,需要構(gòu)建以實體和實體之間關(guān)系為基礎(chǔ)的三元組,以Mozilla項目中ID為1848799的某條缺陷信息“WhimbooreportedtheBug1848799”為例,在識別了“Whimboo(People)”和“Bug1848799(BugID)”2個實體以及“BugReporter”這個實體關(guān)系后,需要將其表示成三元組的形式“”,來表達(dá)原來的缺陷信息。針對用戶輸入缺陷畫像系統(tǒng)的缺陷信息需要將其處理成三元組的形式。同時,歷史缺陷庫中的多個缺陷信息也要將其處理成對應(yīng)的每個缺陷對應(yīng)的缺陷三元組集合。

在完成缺陷三元組構(gòu)建的基礎(chǔ)上,采用TF-IDF和Word Embedding(詞嵌)2種向量分別計算缺陷三元組的相似度得分,并將其結(jié)果相加得到最終的相似度。根據(jù)TF-IDF計算相似度的流程,如圖2所示。在將用戶輸入的缺陷描述信息轉(zhuǎn)換成缺陷三元組后,再將其轉(zhuǎn)換成對應(yīng)的TF-IDF向量A;同時,將Bug歷史缺陷庫表示為多個缺陷對應(yīng)的三元組列表后,再將其轉(zhuǎn)換成每個缺陷對應(yīng)的TF-IDF向量B。在得到缺陷文本對應(yīng)的TF-IDF向量后,使用余弦相似度來計算用戶輸入的缺陷信息和Bug庫中每一個歷史缺陷基于TF-IDF向量的相似度Score1。余弦相似度計算如公式(2)所示,其中A、B均為TF-IDF向量,Score1計算結(jié)果越大,表明A、B2個向量越相似,則對應(yīng)的缺陷文本相似程度越高。

圖2 根據(jù)TF-IDF計算相似度流程

(2)

根據(jù)Word Embedding向量計算缺陷文本相似度的流程設(shè)計,如圖3所示。與利用TF-IDF向量計算缺陷文本相似度的流程類似:首先,需要用戶輸入的缺陷描述文本轉(zhuǎn)換成對應(yīng)的Word Embedding向量C,并將歷史缺陷庫中的每個缺陷轉(zhuǎn)換成對應(yīng)的Word Embedding向量D;其次,使用余弦相似度來計算用戶輸入的缺陷信息和歷史缺陷庫中每一個缺陷基于Word Embedding向量的相似度得分Score2。

圖3 根據(jù)Word Embedding計算相似度流程

對于用戶輸入的缺陷描述和Bug歷史缺陷庫中的缺陷,它們的相似度得分Score2可以由公式(3)計算。其中,Word Embedding向量C代表用戶輸入的缺陷描述對應(yīng)的詞嵌向量;Word Embedding向量D代表歷史缺陷庫中某個缺陷對應(yīng)的詞嵌向量。

(3)

獲取到上述相似度得分Score1和Score2,由于它們采用不同的方法計算,且均考慮到了缺陷信息的文本含義,所以需要將它們?nèi)诤仙梢粋€最終的相似度得分,依據(jù)最終的相似度分?jǐn)?shù)排序推薦與用戶輸入相似的缺陷報告。由于TF-IDF和Word Embedding 2種方法均是基于缺陷文本計算相似度,方法本身不分好壞,所以將這2種方法在最終的缺陷相似度得分中所占比重設(shè)置為0.5,故最終的缺陷相似度得分Score計算公式,如公式(4)所示。

Score=Score1×0.5+Score2×0.5

(4)

4 結(jié)語

本文從缺陷文本信息語義理解的角度設(shè)計了軟件缺陷畫像系統(tǒng)。該系統(tǒng)包含普通畫像和深度畫像2個模塊,集多種功能于一體,為軟件開發(fā)和維護(hù)領(lǐng)域的研究人員高效獲取所需缺陷信息提供了便利,提高了用戶滿意度。后續(xù)可通過構(gòu)建缺陷知識圖譜進(jìn)一步提升缺陷知識獲取效率,推動缺陷修復(fù)進(jìn)程。