亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

APP缺陷問(wèn)題評(píng)論分類方法研究

2018-12-10 09:13:16王延飛

軟件導(dǎo)刊 2018年9期

關(guān)鍵詞：文本分類

王延飛

摘要：隨著智能手機(jī)的普及，APP軟件越來(lái)越流行，隨之而來(lái)的是APP軟件用戶評(píng)論的增多。在數(shù)量極大的評(píng)論中，關(guān)于APP軟件缺陷問(wèn)題的評(píng)論是APP開(kāi)發(fā)者最關(guān)心的。通過(guò)對(duì)APP評(píng)論的大量閱讀和觀察，發(fā)現(xiàn)APP軟件缺陷問(wèn)題是分散的?？偨Y(jié)了7類缺陷問(wèn)題，使用改進(jìn)卡方統(tǒng)計(jì)和APP軟件簡(jiǎn)介中的名詞和動(dòng)詞作為特征選擇思路，使用樸素貝葉斯算法對(duì)每個(gè)缺陷問(wèn)題評(píng)論進(jìn)行訓(xùn)練學(xué)習(xí)。用8 677條評(píng)論進(jìn)行實(shí)驗(yàn)，結(jié)果表明該方法的準(zhǔn)確率、召回率和F1值較高。該方法不僅減輕了人工標(biāo)記APP缺陷問(wèn)題評(píng)論的工作量，而且提高了分類準(zhǔn)確度。

關(guān)鍵詞：樸素貝葉斯；APP評(píng)論；文本分類

DOIDOI：10.11907/rjdk.181167

中圖分類號(hào)：TP301

文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)文章編號(hào)：16727800（2018）009005905

英文標(biāo)題Classified Method for APP Software's User Comments of Defect Issues

--副標(biāo)題

英文作者WANG Yanfei

英文作者單位（Department of Information Engineering and Automation，KunmingUniversity of Science and Technology，Kunming 650500，China）

英文摘要Abstract：With the popularity of smart phones，APP software is becoming more and more popular，followed by the increase of APP software users' comments.In a large number of comments， the comments on APP software defects are the core issues APP developers most concern.For the defects of APP software are scattered，7 kinds of defects are summarized，and then the improved Chi square statistics and the nouns and verbs of the introduction of APP software employed as feature selection ideas，and training study of the defects of each comment is conducted by Naive Bayesian algorithm.8677 comments are taken in the experiment and the experimental results show that the accuracy，recall and F1 value of the method are high.It is concluded that this method not only reduces the workload of the comment on APP defects，but also improves the accuracy of the classification.

英文關(guān)鍵詞Key Words：Naive Bayes；APP Comment； text classification

0引言

隨著移動(dòng)網(wǎng)絡(luò)的發(fā)展，微博、微信等APP開(kāi)始興起并迅速普及，使用移動(dòng)網(wǎng)絡(luò)進(jìn)行交流和娛樂(lè)逐漸流行，在APP平臺(tái)上發(fā)表個(gè)人觀點(diǎn)和想法的越來(lái)越多，其長(zhǎng)度一般小于60字。這些觀點(diǎn)和想法在話題發(fā)現(xiàn)和APP缺陷分析等方面有一定價(jià)值。在APP軟件問(wèn)題評(píng)論中，大量是關(guān)于APP軟件缺陷問(wèn)題的評(píng)論。白成剛[1]指出，軟件缺陷定義中失效、錯(cuò)誤、故障、缺陷、差錯(cuò)、事故等詞匯的含義非常接近，學(xué)術(shù)界對(duì)此解釋很不一致，在軟件領(lǐng)域使用時(shí)更容易混淆。尹國(guó)定[2]指出，所謂軟件錯(cuò)誤，是指在開(kāi)發(fā)階段產(chǎn)生、在調(diào)試和測(cè)試階段未被發(fā)現(xiàn)的程序錯(cuò)誤。對(duì)APP軟件開(kāi)發(fā)者而言，從APP評(píng)論中分析出APP軟件的缺陷類型非常重要，可據(jù)此對(duì)APP軟件作出相應(yīng)修改。

1相關(guān)工作

文本分類指按照預(yù)先定義的主題類別，為文檔集合中每個(gè)文檔確定一個(gè)類別。文本分類是文本挖掘的重要內(nèi)容。文本分類是一個(gè)有指導(dǎo)的學(xué)習(xí)過(guò)程，一般包括兩個(gè)步驟：①文本分類器訓(xùn)練，使用已知類別的文本訓(xùn)練集訓(xùn)練分類器；②使用未知類別的文本測(cè)試集測(cè)試文本分類器。

1.1文本特征選擇算法

所有特征選擇算法都是衡量特征重要程度后再進(jìn)行選擇，而如何量化特征的重要性是各種方法的最大不同?？ǚ津?yàn)證是通過(guò)預(yù)先設(shè)定一個(gè)原假設(shè)，在原假設(shè)成立的情況下觀察實(shí)際值和理論值之間的差值確定假設(shè)是否成立。其差值，即卡方統(tǒng)計(jì)值如式（1）所示。

χ2（t，c）=∑ei=1（xi-E）2E（1）

式（1）中，t代表某個(gè)特征，c代表某個(gè)事件，xi代表xi的時(shí)間觀察值，理論值E為數(shù)學(xué)期望，該原理簡(jiǎn)單易懂具有很高的使用價(jià)值。當(dāng)觀察值和理論值偏差很大時(shí)原假設(shè)不成立，當(dāng)觀察值和理論值偏差很小時(shí)原假設(shè)成立。

周愛(ài)武等[3]使用卡方統(tǒng)計(jì)法提取文本的特征詞語(yǔ)，并使用SVM算法對(duì)文本情感進(jìn)行了分類處理。實(shí)驗(yàn)結(jié)果顯示該方法的精準(zhǔn)度和召回率都在82%以上，達(dá)到了預(yù)期效果，但是沒(méi)有考慮多分類類別相關(guān)的處理?xiàng)l件。徐明等[4]提出了基于改進(jìn)的卡方統(tǒng)計(jì)方法，對(duì)微博的特征抽取并使用KNN算法分類，在分類效果上有了明顯提高，但還需擴(kuò)大數(shù)據(jù)量，排除單個(gè)特征對(duì)分類結(jié)果的影響。張輝宜等[5]考慮了在不均衡數(shù)據(jù)集上詞語(yǔ)的頻度和類別的數(shù)量等因素，以致每個(gè)類別中不能選擇出有效特征。李平等[6]提出了混合卡方統(tǒng)計(jì)的特征選擇方法，在原來(lái)的卡方統(tǒng)計(jì)基礎(chǔ)上，引入詞頻和逆文本頻率等因素，以便減少選擇與類別無(wú)關(guān)的特征。針對(duì)文本分類中出現(xiàn)的特征詞語(yǔ)較少情況，宋鈺婷[7]提出了一種卡方統(tǒng)計(jì)與LDA的主題模型對(duì)文本進(jìn)行分類，并與互信息、信息增益特征選擇算法進(jìn)行比較，證明了卡方統(tǒng)計(jì)算法的優(yōu)勢(shì)。

1.2基于LDA的文本分類算法

LDA 是Latent Dirichlet Allocation的簡(jiǎn)稱，是一種文檔主題生成模型。微博和APP評(píng)論比較相似，萬(wàn)本帥[8]提出一個(gè)基于LDA的微博生成模型MRT-LDA，利用微博之間的轉(zhuǎn)發(fā)、對(duì)話等關(guān)系計(jì)算微博之間的相關(guān)性，挖掘微博主題。LDA采用詞袋方法對(duì)文檔建模，忽略了詞語(yǔ)之間順序，不適合應(yīng)用在APP評(píng)論問(wèn)題上。

張金瑞等[9]使用LDA主題模型，并引入詞向量對(duì)新聞數(shù)據(jù)進(jìn)行分類，但是沒(méi)有考慮句子之間和段落之間存在的主題轉(zhuǎn)移問(wèn)題。APP評(píng)論是一種短文本，呂超鎮(zhèn)等[10]使用LDA對(duì)文本進(jìn)行預(yù)測(cè)，得到了文檔的主題分布，然后把主題中的詞語(yǔ)補(bǔ)充到原文檔中。該方法對(duì)文檔的特征詞語(yǔ)進(jìn)行了擴(kuò)充，使得分類效果有所提升。郭克友等[11]使用LDA模型對(duì)道路圖像進(jìn)行處理，并結(jié)合LSD算法對(duì)道路的車道線進(jìn)行確定，以便準(zhǔn)確分類。謝晨陽(yáng)等[12]提出改進(jìn)的LDA模型，通過(guò)確定主題數(shù)目，并發(fā)掘每個(gè)標(biāo)簽之間的層次關(guān)系，以提高分類效果。

13基于樸素貝葉斯的文本分類算法

近年來(lái)，有研究者使用樸素貝葉斯作為文本分類方法。樸素貝葉斯是在貝葉斯原理基礎(chǔ)上加入了特征獨(dú)立的假設(shè)。貝葉斯理論歷史悠久，有著堅(jiān)實(shí)的理論基礎(chǔ)，處理很多問(wèn)題時(shí)直接而又高效，很多高級(jí)自然語(yǔ)言處理模型可從它演化而來(lái)。樸素貝葉斯是在貝葉斯理論基礎(chǔ)上，假設(shè)特征之間是獨(dú)立互不影響的。雖然“所有特征彼此獨(dú)立”這個(gè)假設(shè)在現(xiàn)實(shí)中不太可能成立，但它可以大大簡(jiǎn)化計(jì)算，而且有研究表明對(duì)分類結(jié)果的準(zhǔn)確性影響不大。根據(jù)樸素貝葉斯算法計(jì)算每個(gè)文本屬于每個(gè)類別的概率，將文本分類于概率最大的類別。

貝葉斯原理用來(lái)描述兩個(gè)條件概率之間的關(guān)系，比如p（Y|X）和P（X|Y）。具體來(lái)說(shuō)，事件Y在事件X發(fā)生的條件下的概率，與事件X在事件Y發(fā)生的條件下的概率是不一樣的，但這兩者有確定關(guān)系，貝葉斯原理就是闡述這兩者關(guān)系的。貝葉斯原理用以下公式闡述：

P（Y|X）=P（Y）P（X|Y）P（X）（2）

P（Y）和P（X）是先驗(yàn)概率，p（Y|X）是后驗(yàn)概率，是事件X發(fā)生的條件下事件Y發(fā)生的概率。貝葉斯算法通過(guò)對(duì)數(shù)據(jù)集各個(gè)概率計(jì)算，得到每個(gè)特征數(shù)據(jù)問(wèn)題類型的概率，進(jìn)而得到一個(gè)文本數(shù)據(jù)問(wèn)題類型的概率，最后得到最大概率即為該文本應(yīng)屬的問(wèn)題類型。每個(gè)文本特征互不影響，稱作 “文本特征條件獨(dú)立性假設(shè)”，并定義事件Y=（Y1，Y2，… ，Ym），X代表事件所包含的屬性，X=（X1，X2，…，Xn）?？蓪⑹剑?）重寫(xiě)為：

P（Ym|Xn）=P（Ym）P（Xn|Ym）P（Xn）=P（Ym）P（Xn）∏ni=1P（Xi|Ym）（3）

樸素貝葉斯算法基本步驟：

（1）計(jì)算每個(gè)事件的先驗(yàn)概率P（Ym）和P（Xn）。P（Ym）指事件Ym在所有事件Y中的概率。令Dm表示數(shù)據(jù)集D中事件Ym組成的集合，若有充足的獨(dú)立分布樣本，則可容易估算出類先驗(yàn)概率。

P（Ym）=|Dm||D|（4）

計(jì)算先驗(yàn)概率P（Xn）。P（Xn）指每個(gè)事件屬性在所有事件屬性中出現(xiàn)的概率。在給定數(shù)據(jù)集中，該概率與事件類別無(wú)關(guān)。

P（Xn）=CouXnCouX（5）

式（5）中，CouXn代表屬性Xn在數(shù)據(jù)集D中出現(xiàn)的次數(shù)，CouX代表所有屬性的總數(shù)。

（2）條件概率P（Xn|Ym）指每個(gè)屬性在每個(gè)事件中出現(xiàn)的概率。令DYm，Xn表示DYm在事件Ym的數(shù)據(jù)集上取值為Xn的樣本集合，則條件概率P（Xn|Ym）可估計(jì)為：

P（Xn|Ym）=|DYm，Xn||DYm|（6）

（3）通過(guò)計(jì)算得到步驟（1）和步驟（2）中的P（Ym）、P（Xn）和P（Xn|Ym），可計(jì)算得P（Ym|Xn）。

（4）通過(guò)計(jì)算一條數(shù)據(jù)中所有屬性的P（Ym|Xn），得到它們和的最大值P（Ym|X），判斷該數(shù)據(jù)屬于事件m。

樸素貝葉斯算法具有原理簡(jiǎn)單有效的特點(diǎn)，可用于各種文本處理。熊志斌[13]運(yùn)用樸素貝葉斯原理對(duì)搜狗實(shí)驗(yàn)室語(yǔ)料進(jìn)行了分類，效果較好，說(shuō)明樸素貝葉斯在文本分類中的適用性。但這種分類方法還有很多可以改進(jìn)的地方。張?chǎng)14]在樸素貝葉斯基礎(chǔ)上提出了一種屬性加權(quán)的文本集成分類器，并通過(guò)十折交叉驗(yàn)證了其在很多文本語(yǔ)料庫(kù)中分類效果都較出色。鄧維斌等[15]提出了一種基于粗糙集的加權(quán)樸素貝葉斯郵件過(guò)濾算法，相比樸素貝葉斯和支持向量機(jī)算法，其召回率、精確度和準(zhǔn)確度效果都很好。要反映垃圾郵件特征的屬性集，以免實(shí)驗(yàn)將正常郵件識(shí)別成垃圾郵件。羅慧欽等[16]根據(jù)樸素貝葉斯的“特征相互獨(dú)立”假設(shè)在現(xiàn)實(shí)中不完全成立的情況下，提出一種隱樸素貝葉斯模型，用于對(duì)商品評(píng)論的情感分類，該方法有較好的分類效果。

2改進(jìn)特征選擇的樸素貝葉斯分類算法

本文研究的對(duì)象是APP缺陷問(wèn)題評(píng)論，使用樸素貝葉斯對(duì)APP缺陷問(wèn)題評(píng)論分類，特征選擇算法是必不可少的?？ǚ浇y(tǒng)計(jì)廣泛應(yīng)用于文本特征選擇上，其在每個(gè)特殊應(yīng)用領(lǐng)域上的改進(jìn)方式也不盡相同。本文根據(jù)APP缺陷問(wèn)題評(píng)論特點(diǎn)，對(duì)卡方統(tǒng)計(jì)算法進(jìn)行改進(jìn)，以提高文本特征選擇的準(zhǔn)確性。

2.1APP評(píng)論獲取與分詞

本文分類所使用的APP評(píng)論數(shù)據(jù)來(lái)源于安卓市場(chǎng)（網(wǎng)址：www.hiapp.com）。使用爬蟲(chóng)程序從安卓市場(chǎng)上獲取文本，獲取的APP評(píng)論信息包括APP名稱、用戶名、APP評(píng)論、APP簡(jiǎn)介等信息。漢語(yǔ)和其它語(yǔ)言在表達(dá)方式上有差異，在得到APP評(píng)論后，需要對(duì)其分詞以便于理解文本。本文采用的分詞工具是中科院的NLPIR漢語(yǔ)分詞系統(tǒng)（網(wǎng)站：http：//ictclas.nlpir.org/），分詞后的結(jié)果如表1所示。

2.2停用詞處理

通過(guò)對(duì)大量APP評(píng)論的觀察，發(fā)現(xiàn)存在很多詞語(yǔ)對(duì)文本分析作用較小的情況，稱之為“停用詞”。為加快文本分析效率，需對(duì)停用詞進(jìn)行一定的篩除。一般的處理方式是采用很多研究者總結(jié)出的停用詞表，例如“哈工大停用詞詞庫(kù)”和“四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫(kù)”。但由于這些停用詞表綜合了多個(gè)領(lǐng)域的詞語(yǔ)，針對(duì)某個(gè)特定領(lǐng)域時(shí)作用不大。文本在借鑒已有停用詞表基礎(chǔ)上引入詞頻元素，步驟如下：

（1）網(wǎng)上有很多用于文本分析而參考的停用詞表，如“哈工大停用詞詞庫(kù)”和“四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫(kù)”，對(duì)兩者內(nèi)容進(jìn)行合并和去重，得到停用詞表S1。

（2）對(duì)所有APP評(píng)論計(jì)算每個(gè)詞語(yǔ)的詞頻TF，公式為：

TFi，j=ni，j∑knk，j（7）

式（7）中，ni，j是該詞在文件dj中的出現(xiàn)次數(shù)，而分母則是在文件dj中所有字詞出現(xiàn)的次數(shù)之和。

通過(guò)公式（7）得到所有詞語(yǔ)的TF集合，集合樣式是[w，n]，w代表詞語(yǔ)，n代表該詞語(yǔ)的TF值。通過(guò)該集合，可以清楚了解詞語(yǔ)的出現(xiàn)情況，然后按照TF值的大小對(duì)詞語(yǔ)從大到小排序，得到集合L1。

（3）遍歷集合L1的每個(gè)詞語(yǔ)，把取到的每個(gè)詞語(yǔ)與停用詞表S1進(jìn)行比對(duì)。令集合L1當(dāng)前被取到的詞語(yǔ)為Wc，若Wc被包含在停用詞表S1中，則將Wc存入新集合L2中，直至集合L2詞語(yǔ)的個(gè)數(shù)達(dá)到Q個(gè)。實(shí)驗(yàn)顯示當(dāng)Q取20時(shí)，得到的停用詞更為準(zhǔn)確。

（4）遍歷集合L2中的所有詞語(yǔ)。若一條APP評(píng)論中包含集合L2中的詞語(yǔ)，則將其從APP評(píng)論中篩除。

通過(guò)以上處理，得到的APP評(píng)論更能反映核心表達(dá)內(nèi)容，能提高文本處理效率。

2.3文本特征選擇

本文研究對(duì)象是APP缺陷問(wèn)題評(píng)論的特征。若要對(duì)其分析出好的效果，文本特征的選擇尤為重要。特征選擇步驟如下：

（1）APP簡(jiǎn)介中的信息反映了APP功能，即是特征選擇中提到的特征。APP簡(jiǎn)介信息如表1所示。取APP簡(jiǎn)介中詞性為名詞和動(dòng)詞的詞語(yǔ)作為該APP的特征[17]，即APP評(píng)論分詞以n和v作為后綴的詞語(yǔ)。以表1中的APP簡(jiǎn)介分詞為例，“地圖/n”、“功能/n”、“智能/n”、“語(yǔ)音/n”、“美食/n”、“機(jī)票/n” “酒店/n”等詞語(yǔ)作為APP特征。若APP評(píng)論出現(xiàn)前面幾個(gè)詞語(yǔ)，將存入APP的特征集Lf1。

（2）雖然文獻(xiàn)[4]使用引入頻度的卡方統(tǒng)計(jì)對(duì)微博特征進(jìn)行選擇，但在APP缺陷問(wèn)題評(píng)論中只通過(guò)加入頻度，還不能得到較好的特征選擇結(jié)果。通過(guò)大量觀察發(fā)現(xiàn)，真正能反映APP缺陷問(wèn)題評(píng)論的文本特征具有同時(shí)出現(xiàn)的特點(diǎn)，比如在崩潰問(wèn)題中， “總是”和“崩潰”多同時(shí)出現(xiàn)，而且兩個(gè)詞語(yǔ)之間的距離也較近。又比如在APP軟件整體缺陷問(wèn)題中，“不”和“好”也多同時(shí)出現(xiàn)，并且這兩個(gè)詞語(yǔ)在APP評(píng)論中的距離很近。根據(jù)這個(gè)特點(diǎn)，在使用傳統(tǒng)卡方統(tǒng)計(jì)進(jìn)行特征選擇時(shí)，加入詞語(yǔ)同時(shí)出現(xiàn)[18]和詞語(yǔ)距離因素，以提高特征選擇方法的準(zhǔn)確度。

根據(jù)卡方統(tǒng)計(jì)值定義，將公式（1）轉(zhuǎn)化為：

χ2（t，cv）=N·（AD-CB）2（A+C）（B+D）（A+B）（C+D）（8）

且N=A+B+C+D。

式（8）中，N代表所有文本的數(shù)量，t代表特征詞，cv代表某個(gè)文本類別，A代表在類別cv文本集中包含特征詞t的文本數(shù)量，B代表其它類別文本集中包含特征詞t的文本數(shù)量，C代表類別cv文本集中不包含特征詞t的文本數(shù)量，D為其它類別文本集中不包含特征詞t的文本數(shù)量。

根據(jù)步驟（2）對(duì)卡方統(tǒng)計(jì)的改進(jìn)，將公式（8）轉(zhuǎn)化為：

χ2（[tp，tq]，cv）=N·（AD-CB）2（A+C）（B+D）（A+B）（C+D）（9）

同樣滿足N=A+B+C+D。

令N表示所有文本特定的數(shù)量，tp和tq代表特征詞，cv代表某個(gè)文本類別，A代表在類別cv文本集中同時(shí)包含特征詞tp和tq的文本數(shù)量，B代表其它類別文本集中包含特征詞tp和tq的文本數(shù)量，C代表類別cv文本集中不包含特征詞tp和tq的文本數(shù)量，D為其它類別文本集中不包含特征詞tp和tq的文本數(shù)量。

算法流程如圖1所示。

為得到所有詞語(yǔ)卡方值，根據(jù)公式（10）找出詞語(yǔ)和各類別卡方值集合中的最大值作為分類系統(tǒng)的卡方值，并選擇一定數(shù)目k1的卡方值存入APP特征集Lf2。

χ2max=maxχ2（[tp，tq]，cv）（10）

最終APP特征集是Lf= Lf1∪Lf2，本文最終使用的APP特征集是Lf。通過(guò)上述步驟，特征選擇效果更好，內(nèi)容更全面準(zhǔn)確。

2.4實(shí)驗(yàn)

2.4.1評(píng)價(jià)指標(biāo)

文本分類評(píng)價(jià)指標(biāo)主要有召回率（Recall，R）、精準(zhǔn)率（Precision，P）和F1值，F(xiàn)1是精準(zhǔn)率和召回率的調(diào)和平均數(shù)，各指標(biāo)計(jì)算公式如下：

P=TPTP+FP（11）

R=TPTP+FN（12）

F1=TP+TNTP+TN+FP+FN（13）

公式（11）、（12）、（13）中，TP表示正確分類的正元組數(shù)，F(xiàn)P表示錯(cuò)誤標(biāo)記為正元組的負(fù)元組數(shù)，TN表示分類正確的負(fù)元組數(shù)，F(xiàn)N表示錯(cuò)誤標(biāo)記為負(fù)元組的正元組數(shù)。

2.4.2實(shí)驗(yàn)分析

本文實(shí)驗(yàn)使用APP缺陷問(wèn)題評(píng)論8 677條，包括7種缺陷問(wèn)題：①崩潰問(wèn)題。指評(píng)論中提到的“崩潰”類似的問(wèn)題，如評(píng)論“這個(gè)APP老是崩潰”；②響應(yīng)時(shí)間問(wèn)題。指評(píng)論中提到的“反應(yīng)慢”類似的問(wèn)題，如評(píng)論“它老是反應(yīng)慢”；③功能表現(xiàn)不佳問(wèn)題。指評(píng)論中提到的針對(duì)APP具體功能出現(xiàn)的問(wèn)題評(píng)論，如評(píng)論“QQ不能發(fā)消息了”；④安裝問(wèn)題。指用戶在安裝APP時(shí)出現(xiàn)的問(wèn)題，如評(píng)論“微信老是安裝不上”；⑤下載問(wèn)題。指用戶在下載APP時(shí)出現(xiàn)的問(wèn)題，如評(píng)論“這個(gè)下載問(wèn)題比較嚴(yán)重”；⑥資源問(wèn)題。指用戶在使用APP過(guò)程中出現(xiàn)的智能設(shè)備資源消耗過(guò)大問(wèn)題，如評(píng)論“這個(gè)APP耗電太多”；⑦整體缺陷問(wèn)題。指用戶對(duì)APP整體體驗(yàn)較差問(wèn)題，如評(píng)論“這個(gè)太爛”。

實(shí)驗(yàn)的分類算法使用樸素貝葉斯算法，卡方值數(shù)量k1=1 300，在兩個(gè)詞語(yǔ)的距離閾值k2=4時(shí)實(shí)驗(yàn)效果最好，最后通過(guò)十折交叉驗(yàn)證。

表2和表3展示在不同類別的APP缺陷問(wèn)題評(píng)論中，本文方法與傳統(tǒng)卡方統(tǒng)計(jì)方法的試驗(yàn)結(jié)果比較?？梢钥闯?，在不同指標(biāo)上本文方法都有提高，這是因?yàn)閭鹘y(tǒng)的卡方統(tǒng)計(jì)方法沒(méi)有考慮到APP缺陷評(píng)論問(wèn)題特點(diǎn)，即能正確反映APP缺陷問(wèn)題的詞語(yǔ)之間有同時(shí)出現(xiàn)的特點(diǎn)。

APP缺陷問(wèn)題評(píng)論類型的多樣性也是影響分類效果的一個(gè)因素。例如整體缺陷問(wèn)題的有關(guān)評(píng)論，其內(nèi)容較少，不能很好地對(duì)其特征進(jìn)行選擇，導(dǎo)致分類效果低于80%。而下載問(wèn)題的評(píng)論，其內(nèi)容格式較為穩(wěn)定，所以分類效果較好。

3結(jié)語(yǔ)

通過(guò)對(duì)APP缺陷問(wèn)題評(píng)論的分析與研究，本文提出了一種改進(jìn)卡方統(tǒng)計(jì)APP評(píng)論特征選擇方法。首先，對(duì)APP評(píng)論進(jìn)行預(yù)處理，包括分詞和停用詞處理。然后根據(jù)APP缺陷問(wèn)題評(píng)論特點(diǎn)，對(duì)傳統(tǒng)卡方統(tǒng)計(jì)方法進(jìn)行改進(jìn)，加入了詞語(yǔ)共同出現(xiàn)和詞語(yǔ)距離因素。實(shí)驗(yàn)結(jié)果表明，改進(jìn)的特征選擇方法分類效果有所提高。但本文方法對(duì)已定義好的7種缺陷問(wèn)題分類效果較好，而對(duì)出現(xiàn)未知的缺陷問(wèn)題分類效果就不是很好。今后要使分類器具有學(xué)習(xí)功能，使其能對(duì)未知問(wèn)題學(xué)習(xí)并識(shí)別未知問(wèn)題特點(diǎn)，能歸成一類或多類。

參考文獻(xiàn)參考文獻(xiàn)：

[1]白成剛.基于Bayes網(wǎng)的軟件可靠性研究[D].杭州：浙江大學(xué)， 1999.

[2]尹國(guó)定.網(wǎng)絡(luò)軟件故障分析[J].計(jì)算機(jī)工程與應(yīng)用， 1987（12）：56.

[3]周愛(ài)武，馬那那，劉慧婷.基于卡方統(tǒng)計(jì)的情感文本分類[J].微電子學(xué)與計(jì)算機(jī)，2017，34（8）：5761.

[4]徐明，高翔，許志剛，等.基于改進(jìn)卡方統(tǒng)計(jì)的微博特征提取方法[J].計(jì)算機(jī)工程與應(yīng)用，2014，50（19）：113117.

[5]張輝宜，謝業(yè)名，袁志祥，等.一種基于概率的卡方特征選擇方法[J].計(jì)算機(jī)工程，2016，42（8）：194198.

[6]李平，戴月明，王艷.基于混合卡方統(tǒng)計(jì)量與邏輯回歸的文本情感分析[J].計(jì)算機(jī)工程，2017（12）：3536.

[7]宋鈺婷，徐德華.基于LDA和SVM的中文文本分類研究[J].現(xiàn)代計(jì)算機(jī)，2016（5）：1823.

[8]萬(wàn)本帥.基于MRTLDA模型的微博文本分類[D].廣州：華南師范大學(xué)，2016.

[9]張金瑞，柴玉梅，昝紅英，等.基于LDA的弱監(jiān)督文本分類方法[J].計(jì)算機(jī)工程與設(shè)計(jì)，2017，38（1）：8691.

[10]呂超鎮(zhèn)，姬東鴻，吳飛飛.基于LDA特征擴(kuò)展的短文本分類[J].計(jì)算機(jī)工程與應(yīng)用，2015，51（4）：123127.

[11]郭克友，王藝偉，郭曉麗.LDA與LSD相結(jié)合的車道線分類檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用，2017，53（24）：219225.

[12]謝晨陽(yáng)，盧焱鑫.基于HDP的監(jiān)督多標(biāo)簽文本分類研究[J].計(jì)算機(jī)工程與應(yīng)用，2017，53（23）：1823.

[13]熊志斌，劉冬.樸素貝葉斯在文本分類中的應(yīng)用[J].軟件導(dǎo)刊，2013，12（2）：4951.

[14]張?chǎng)?，張化?屬性加權(quán)的樸素貝葉斯集成分類器[J].計(jì)算機(jī)工程與應(yīng)用，2010，46（29）：144146.

[15]鄧維斌，王國(guó)胤，洪智勇.基于粗糙集的加權(quán)樸素貝葉斯郵件過(guò)濾方法[J].計(jì)算機(jī)科學(xué)，2011，38（2）：218221.

[16]羅慧欽，陸向艷，張雄寶，等.基于隱樸素貝葉斯的商品評(píng)論情感分類方法[J].計(jì)算機(jī)工程與設(shè)計(jì)，2017，38（1）：203208.

[17]冉猛，姜瑛.APP軟件的用戶評(píng)論模式分析方法[J].計(jì)算機(jī)科學(xué)，2017，44（11）：181186.

[18]時(shí)永賓，余青松.基于共現(xiàn)詞卡方值的關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程，2016，42（6）：191195.

責(zé)任編輯（責(zé)任編輯：杜能鋼）