亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于支持向量機和主題模型的評論分析方法?

        2019-06-11 07:40:14黃新越
        軟件學報 2019年5期
        關鍵詞:受試者向量分類

        陳 琪,張 莉,,蔣 競,黃新越

        1(北京航空航天大學 軟件學院,北京 100191)

        2(北京航空航天大學 計算機學院,北京 100191)

        隨著移動互聯(lián)網(wǎng)的興起,產(chǎn)生了大量針對移動應用的在線評論信息.移動應用程序的用戶群體廣泛,用戶的反饋豐富,并且隨著版本迭代迅速更新.尤其是用戶對移動應用的中評和差評(簡稱中差評),是收集用戶問題的重要數(shù)據(jù)來源.現(xiàn)有的應用分發(fā)平臺都支持用戶對應用進行評論,比如 360手機助手,它是國內(nèi)市場份額較大的移動應用平臺,提供應用程序卸載、安裝、升級和評論等一系列服務.一些實證性研究表明,用戶評論中包含很有價值的信息,例如錯誤報告、功能需求和用戶體驗等[1].對開發(fā)者來說,應用市場中的用戶評論能夠幫助他們更好地理解用戶反饋,提高軟件質(zhì)量[2,3].

        隨著移動應用的廣泛流行,用戶評論的數(shù)量龐大,并且是無結(jié)構(gòu)的,手動檢查耗時且低效.因此,需要信息挖掘?qū)τ脩舻闹胁钤u進行處理,使用戶抱怨信息的核心內(nèi)容直觀地展現(xiàn)在開發(fā)者面前,讓開發(fā)者更快更有針對性地對軟件進行更新.為了分析用戶評論,現(xiàn)有研究主要采用分類或主題提取的方法.

        · 首先是對用戶評論進行分類.Panichella等人[4]通過評估發(fā)現(xiàn),文本分析、自然語言處理和情感分析這3種技術結(jié)合,可以得到最好的分類結(jié)果;Maalej等人[5]嘗試了多種技術對用戶評論進行處理與分類,通過實驗發(fā)現(xiàn),多個二元分類器優(yōu)于單一多元分類器;McIlroy等人[6]對幾種機器學習分類器進行了比較,通過評估最終采用支持向量機進行分類.

        · 其次,一些研究采用主題提取的方法分析評論.Galvis等人[7]將意見挖掘領域的ASUM模型用于軟件應用的用戶評論中,來自動地提取評論內(nèi)包含的主題;姜巍[8]提出了針對意見挖掘問題域的關聯(lián) LDA模型,并應用于用戶在線評論.

        上述研究工作單純考慮分類或者主題提取的方法,沒有結(jié)合兩種方法來分析評論.我們以兩條評論為例,說明分類與主題分析的區(qū)別:(1) “頁面中的按鈕沒反應”;(2) “應該在頁面中添加一個按鈕”.這兩條評論以分類的方法來處理,將分為兩類:(1) 軟件錯誤;(2) 請求增加功能.以主題分析的方法來處理,將提取出“頁面”、“按鈕”這樣的主題.可以發(fā)現(xiàn):分類方法能夠了解用戶遇到的問題種類,但很難得到評論中針對的軟件特征;而主題分析方法能夠得到特征信息,但很難區(qū)別用戶的意圖.如果我們將分類與主題分析結(jié)合起來,那么就既能通過分類得到評論指出的問題種類,又能通過主題挖掘得到評論里具體針對的軟件特征.對于前面提到的兩條評論的例子,結(jié)合分類與主題分析得到的結(jié)果可能如圖1所示.

        Fig.1 Results based on classification and topic extraction圖1 基于分類和主題提取的結(jié)果

        開發(fā)者則能由此了解用戶遇到了頁面中按鈕相關的錯誤,以及用戶希望為頁面中增添按鈕.相比于單獨的分類分析或是主題分析,都能更精確地定位需求.

        針對該問題,本文提出了一種基于支持向量機和主題模型的評論分析方法.該方法從分類和主題分析兩個方面對用戶評論進行研究,并將這兩者結(jié)合起來,更好地幫助開發(fā)者理解用戶中差評中包含的需求,最后將所得結(jié)果進行對比實驗.首先,該方法對用戶評論進行特征提取,使用代價敏感學習減輕不平衡數(shù)據(jù)帶來的影響,并將提取到的文本用線性支持向量機進行多標簽分類;然后采用主題模型,對每組分類的用戶評論提取主題詞和主題句,最終得到了基于分類的主題分析結(jié)果.為了證明我們方法的有效性,我們從 360手機助手隨機選取了評分高(今日頭條)和評分低(360云盤)的兩個應用,分析了兩個應用共5 141條用戶中差評,實驗結(jié)果表明,本文提出方法獲得的結(jié)果優(yōu)于ASUM方法[7].

        本文的主要貢獻如下:

        · 提出了一種基于支持向量機和主題模型的評論分析方法,更好地幫助開發(fā)人員了解用戶反饋;

        · 與經(jīng)典方法 ASUM[7]相比,本文提出方法的困惑度更低、可理解性更佳,包含更完整的原始評論信息,冗余信息也更少.

        本文第 1節(jié)介紹分類方法和主題詞提取等相關內(nèi)容.第 2節(jié)概述本文方法框架并詳細講解本文提出的RASL方法.第3節(jié)通過定性和定量實驗評估驗證方法效果.第4節(jié)進行有效性分析.第5節(jié)給出結(jié)論及未來工作展望.

        1 相關工作

        近年來,一些研究人員對用戶評論進行主題挖掘,提取出評論中的主題并給出主題下的代表性句子能使開發(fā)者快速、直觀地理解用戶反饋.Blei等人[9]在2003年就提出了主題挖掘模型LDA模型,這是主題挖掘方面的經(jīng)典模型.姜巍等人[8]提出了針對意見挖掘問題域的關聯(lián)LDA模型,并應用于用戶在線評論.Galvis等人[7]將主題挖掘領域的ASUM模型用于軟件應用的用戶評論中,來自動地提取評論內(nèi)包含的主題.在結(jié)果的呈現(xiàn)上,為每個主題給出了代表性的句子,需求工程師可以查看這些具有代表性的用戶評論,來決定主題是否是需求更改的候選項,比單純的主題詞集合更容易理解,是一種較好的主題表現(xiàn)形式.

        除了主題挖掘,對用戶評論進行分類也是用戶反饋獲取的主流方法.Panichella等人[4]認為,主題分析技術對于發(fā)現(xiàn)評論文本中的主題是有用的,但是它們不能揭示包含特定主題評論的用戶的意圖.文章基于文本分析、自然語言處理和情感分析,設計了 3種不同的技術,從評論中提取出特征,然后使用這些特征來訓練機器學習的分類器.通過評估發(fā)現(xiàn),結(jié)合 3種技術可以得到最好的結(jié)果.Maalej等人[5]嘗試了多種技術對用戶評論進行處理與分類,如字符串(關鍵詞)匹配、情感分析、二元分類器與多元分類器.最終,通過實驗發(fā)現(xiàn),多個二元分類器優(yōu)于單一多元分類器.McIlroy等人[6]則關注評論的多標簽問題,認為一條評論可能包含著多個問題.文章中提出了14種類型的問題,并認為,這些問題是相對于特定應用來說是獨立的,并對樸素貝葉斯、J48決策樹、支持向量機這幾種機器學習分類器進行了比較,通過評估,最終采用支持向量機進行分類.Pagano等人[2]在2013年調(diào)查了蘋果應用商店(AppStore)上用戶評論的具體內(nèi)容,并將這些內(nèi)容按照主題進行了分類,該方法是否適合中文應用市場,還需要進一步驗證.在本文的前期工作中也對用戶評論進行了分類,Zhang等人[10]使用對支持向量機對文本進行分類,評估指標的值優(yōu)于McIlroy等人提出的Multi-label方法[6].

        上述研究采用主題挖掘或者分類方法對用戶評論進行分析.在這些工作的基礎上,本文先對用戶評論進行分類,然后對每個類別的評論進行主題挖掘,產(chǎn)生給出主題的代表詞以及代表性句子.這樣既能通過分類得到包含用戶意圖的信息,又能通過主題挖掘得到評論里用戶重點關心的問題,使開發(fā)者能夠快速、方便地理解用戶反饋.

        2 基于支持向量機和主題模型的評論分析方法RASL

        基于以上分析,本文提出一種基于支持向量機和主題模型的評論分析方法 RASL(review analysis method based on SVM and LDA).方法架構(gòu)如圖2所示.

        方法分為兩個階段:分類階段和主題分析階段.首先,根據(jù)第2.1節(jié)確定的評論類型,本文通過支持向量機的方法[10]對評論進行分類,可以得到包含用戶意圖的信息;然后,本文將分類好的評論數(shù)據(jù)分別進行 LDA主題分析[9],并給出代表句,從而得到評論里用戶重點關心的問題.結(jié)合現(xiàn)有方法的優(yōu)勢,使得使開發(fā)者能夠快速、方便地理解用戶反饋.可以注意到:每個問題類型的圓圈大小不一,這代表著每個問題類型下的主題個數(shù)由該問題類型的評論比例確定.

        下面首先討論用戶評論的分類類型,然后對分類方法進行描述,最后將分類的結(jié)果作為輸入,得到主題詞和代表句.

        Fig.2 Overall workflow of the RASL method圖2 RASL方法的整體工作流程

        2.1 用戶評論的分類類型

        為了對評論進行分類,需要確定用戶評論的類型.依照Seaman等人提出的方法[11,12]迭代地對抽取的用戶評論進行人工標注,分析評論中包含的問題種類.分析過程如下.

        · 首先,選擇由McIlroy等人定義的問題類型集[6]作為起始集.對于每一條評論,手工檢查并標注評論指出的問題類型.

        · 如果評論中的問題不包括在問題類型集中,則設定一個新的問題類型并將其添加到問題類型集中.然后,基于新的問題類型集重新啟動標注過程.這個過程是由3人并行完成,在3人均完成此過程后,比較3人標注的結(jié)果.

        采用組內(nèi)相關系數(shù)(intra-class correlation coefficient,簡稱ICC)對標注結(jié)果的可靠性進行度量.ICC是一個推斷統(tǒng)計量,它描述了同一組中元素的相似程度[13],可以用于評估不同觀測者進行相同的定量測量時的一致性或可重復性.如果ICC小于0.4,則表示相似性較差;如果ICC在0.40和0.59之間,則表示相似性一般;如果ICC在0.60和0.74之間,則表示相似性較好;如果ICC在0.75和1.00之間,則表示相似性很好.我們對標注結(jié)果之間的ICC進行了計算,以衡量人工標注的可靠性.對于每一個問題類型,ICC都是較好或很好,并且發(fā)現(xiàn),獨立標注的結(jié)果差異沒有特別大.然后進行討論,并消除差異,所有問題類型的ICC均為1,也即沒有區(qū)別.最終得到了17種問題類型,問題的類型與描述見表1.詳細過程見我們的前期工作[10].

        Table 1 Classification of comments表1 評論的分類

        Table 1 Classification of comments (Continued)表1 評論的分類(續(xù))

        2.2 用戶評論分類方法

        為了能自動標記出新的用戶評論屬于的問題種類,本文采用機器學習的方法來進行用戶評論分類.此分類方法包含特征提取部分和模型構(gòu)建部分:特征提取部分的目標是提取評論文本的特征,使其轉(zhuǎn)換為分類模型可用的形式;然后,采用支持向量機構(gòu)建用戶評論的多標簽分類模型.同時,為了減輕不平衡數(shù)據(jù)的影響,使用了代價敏感學習的方法(如圖3所示).

        Fig.3 User review classification framework圖3 用戶評論分類框架

        在特征提取階段,目標是提取評論文本的特征.由于文本是非結(jié)構(gòu)化的數(shù)據(jù),因此必須首先將其轉(zhuǎn)換為計算機可解析的形式.向量空間模型(VSM)是一種適用于大規(guī)模文獻的文本表示模型[14],在該模型中,文本空間被認為是由一組正交特征向量組成的向量空間.矢量的每個維對應于文本中的一個特征,每個維度本身表示文本中對應特征的權(quán)重.使用向量空間模型來描述文本數(shù)據(jù)需要確定文本的特征與權(quán)重.對于英文文本來說,一個詞就是一個特征.而中文文本首先需要進行分詞.Jieba分詞是一個 Python分詞工具,本文使用它來進行分詞,并刪除數(shù)字和非漢字,但是停止詞需要被保留下來,因為其中一些可以幫助確定問題類型,例如“不要”.參考現(xiàn)有工作[6],過濾掉出現(xiàn)不到 3次的詞語,去除拼寫錯誤或不重要的詞語,降低分類的復雜性.其次,對于特征的權(quán)重,tf-idf算法[15]是計算權(quán)重的常用方法.它的主要思想是:如果一個單詞或短語多次出現(xiàn)在某一文檔中,并且在其他文檔中很少見,則該詞或短語被認為具有很好的分類能力.比如,“安裝”一詞會在內(nèi)容問題這個分類下出現(xiàn),但它很少在資源占用等其他分類下出現(xiàn),因此我們可以把“安裝”一詞作為分類依據(jù)之一.為了構(gòu)建特征向量,本文使用String To Word Vector filter,這是WEKA對tf-idf算法的一個實現(xiàn)[16].

        模型構(gòu)建階段的目標是為用戶評論構(gòu)建一個多標簽的分類模型,對于輸入的評論,模型可以輸出評論所屬的問題類型.由于一條用戶評論可能包含多個問題類型,因此需要解決的問題實際上是一個多標簽分類問題.Binary Relevance(BR)是解決多標簽分類問題的代表性算法之一,它將多標簽分類問題轉(zhuǎn)化為多個二分類問題.模型選擇使用 BR,因為它是線性復雜度的,較為簡單[17].這意味著需要構(gòu)建多個二分類器,并且要對分類效果進行整體評估.本文選擇支持向量機作為二分類器,支持向量機將數(shù)據(jù)視為p維向量,如果支持向量機用(p-1)維平面分離這些點,則它被稱為是線性的.為了處理有些原始問題在有限維中不能線性分離的情況,支持向量機使用核函數(shù)將原始有限維空間映射成高維空間,例如徑向基函數(shù)核.在樣本數(shù)量少且特征數(shù)量非常大的情況下,非線性分類通常不準確,可能錯誤地劃分特征空間,導致比線性模型更差的結(jié)果.因此,本文選擇使用線性支持向量機,在具體的算法中采用WEKA的支持向量機實現(xiàn),即SMO分類器[18,19].將PolyKernel參數(shù)設置為1,使其成為線性支持向量機.

        但對于一些問題類型,負樣本的數(shù)量遠大于正樣本.這些不平衡的數(shù)據(jù)可能導致分類器更傾向于將新樣本預測為負樣本.為了減輕不平衡數(shù)據(jù)的影響,采用代價敏感學習的方法[20]來處理這個問題.代價敏感學習方法的核心是代價矩陣.代價矩陣定義見表2.

        Table 2 Cost matrix表2 代價矩陣

        其中,Cij是把j類分類到i類的成本.顯然,C00=C11=0;而C01,C10是兩種不同的錯分代價.由于數(shù)據(jù)是不平衡的,可以根據(jù)不同的錯分代價來給數(shù)據(jù)重新賦予權(quán)重.當將正樣本預測為負樣本的代價較高時,就增加正樣本的權(quán)重.具體到算法實現(xiàn)中,本文使用一個元分類器來使基類分類器成為代價敏感的,這個元分類器支持通過抽樣來增加樣本的權(quán)重,而基類分類器也即前面提到的支持向量機分類器.元分類器在 WEKA中的實現(xiàn)即CostSensitiveClassifier[18].另外,還需要為每個問題類型指定代價矩陣.為了確定代價矩陣的具體值,對于每個問題類型,通過遍歷來得到一個使分類結(jié)果最佳的代價矩陣值,然后采用這個值.詳細過程見我們的前期工作[10].

        2.3 主題詞與代表句的生成

        本節(jié)針對分類結(jié)果進行統(tǒng)計抽取主題,通過所得到的主題,進一步生成主題詞和代表句.

        在使用基于支持向量機的分類模型進行分類,得到分類結(jié)果之后,需要確定將提取的主題總數(shù)(例如期望每X條評論提取Y個主題,則根據(jù)用戶評論數(shù)量計算提取的主題總數(shù)).由于“其他”類型包含的是無用的評論,因此不對該類型進行主題提取.其余問題類型則根據(jù)分類的結(jié)果中各自所占比例(除去“其他”類型)計算出每個問題類型對應的主題數(shù)目,后續(xù)再對各問題類型下的評論進行主題分析.在這里,舉例說明多分類下主題數(shù)的確定,比如主題總數(shù)為M,那么每個分類的主題則是分類下的評論數(shù)量占總數(shù)量的比重.具體來說,如果“內(nèi)容問題”比重為Ratio,那么分類為內(nèi)容問題的主題數(shù)為M×Ratio.

        在機器學習和自然語言處理中,主題模型是用于發(fā)現(xiàn)文檔集合中抽象“主題”的一種統(tǒng)計模型,是一種經(jīng)常用于在文本主體中發(fā)現(xiàn)隱藏的語義結(jié)構(gòu)的文本挖掘工具.每條評論都是與某些主題相關的,因而特定的詞語也會出現(xiàn)在不同主題的評論中.本文采用了 LDA(latent dirichlet allocation)的模型[9]來進行主題詞和代表詞的生成.這個模型是一種典型的詞袋模型,即一個評論是由一組詞構(gòu)成,不去考慮詞語的順序,因而簡化了語義關聯(lián)問題的復雜性.LDA模型包含主題的生成、根據(jù)閾值挑選關鍵詞、代表句的生成這3個部分.圖4為LDA生成過程[9].LDA方法將評論的主題以概率分布的形式給出,通過分析評論抽取出它們的主題分布,然后再以一定概率迭代的選取主題下的某個單詞作為主題詞,最后根據(jù)概率選擇代表句.

        在主題生成階段,本文將通過基于支持向量機的模型得到的 16個(除去“其他”分類)分類評論作為輸入,目標輸出是指定數(shù)目的主題.由于得到了 16個分類的結(jié)果.下面我們用“內(nèi)容問題”這個分類舉例說明.基本思想是:LDA中存在主題詞庫,通過分析“內(nèi)容問題”這個分類的所有評論,LDA通過詞庫自動分析得到“內(nèi)容問題”對應的主題.由于開始的時候我們設定主題數(shù)為T,因此LDA方法將選擇最相關的前T個主題作為“內(nèi)容問題”全部評論的主題.對應到圖4,“內(nèi)容問題”所有評論與T個主題的一個多項分布相對應,將該多項分布記為θ;α是主題分布θ的先驗分布Dirichlet分布的超參數(shù).在這里,本文選最相關的T個主題作為主題的生成部分的結(jié)果.

        Fig.4 LDA generation process[9]圖4 LDA生成過程[9]

        在根據(jù)閾值挑選關鍵詞階段,輸入是主題生成階段得到的“內(nèi)容問題”分類下的T個主題,目標輸出是每個主題一下指定數(shù)目的主題詞.基本思想是:由于一個詞匯在“內(nèi)容問題”的其中一個主題中都存在一個概率值,因此在主題詞生成時,去選擇對應主題下概率值最高的M個詞匯即可,M取值可由需要確定.對應到圖4,每個主題與評論中的Nd單詞的一個多項分布相對應,將這個多項分布記為φ.β是每個主題的詞分布φ的先驗分布Dirichlet分布的超參數(shù).依據(jù)“內(nèi)容問題”文檔所對應的主題分布θ抽取一個主題z,主題z所對應的多項分布φ中抽取一個單詞w,將這個過程重復Nd(主題z下的全部詞數(shù))次,就生成了其中主題z下的主題詞.LDA通過變分EM算法、Gibbs抽樣法等方法,迭代地學習這兩個參數(shù),使其最終收斂于某一結(jié)果.

        在代表句生成階段,輸入是根據(jù)閾值挑選關鍵詞階段得到的主題詞,目標輸出是每個主題一下的代表句.基本思想是:假設d向量為(d1,d2,...,dn),每個di代表一條用戶評論被分配到每個主題的概率,假設主題數(shù)為T,則第1條評論的向量d1為(d1-1,d1-2,...,d1-20),第 2條評論的向量d2為(d2-1,d2-2,...,d2-20)等.對于目標主題 1,如果某一評論在di-1位置的概率值為所有評論中的最大值,則選擇該評論作為目標主題的代表句.

        最終輸出結(jié)果,本文用分類后得到類別包含評論的數(shù)量從多到少進行排序,然后進行主題分類,得到每個主題下評論的數(shù)量,將主題按照評論數(shù)量從多到少排序,將每個分類下評論數(shù)量最多的主題進行標注(用“☆”并且加粗進行標注),從而方便閱讀者對提出較多的問題進行重點關注.

        3 實驗驗證

        本節(jié)對本文提出的基于支持向量機和主題模型的評論分析方法 RASL進行評估驗證,本文將從定性分析和定量分析兩個方面進行實驗,以檢驗RASL方法的有效性.

        3.1 實驗對象

        本文的RASL方法基于支持向量機分類算法采用LDA主題模型提取主題詞和代表句.本文使用Jieba分詞工具,把中文分詞后輸入經(jīng)典方法ASUM[7].與RASL方法不同,ASUM方法[7]是一種結(jié)合情感分析的主題模型.此方法將句子看作文檔,句子中每個詞都是隱含主題的分布,然后進行主題挖掘.在此基礎上,融合主題特征和情感信息來分析用戶對這些主題的偏好,并以〈主題詞,代表句〉序?qū)ψ鳛檩敵?本節(jié)我們將本文所提出的方法RASL與ASUM方法進行對比分析.

        360手機助手是國內(nèi)市場份額較大的應用平臺,提供移動應用程序卸載、安裝、升級和評價等一系列服務.本文分別從360手機助手中隨機抽取一個評分高的應用(評分9以上)和一個評分低的應用(評分6以下),這兩個應用分別是今日頭條和360云盤,將它們的全部中差評收集起來.360云盤的中差評共計3 950條,今日頭條的中差評共計 1 191條.將這 5 141條數(shù)據(jù)作為原始用戶評論信息數(shù)據(jù),將通過文本預處理得到的結(jié)果分別通過ASUM 方法和 RASL方法處理,得到實驗所需數(shù)據(jù).根據(jù)統(tǒng)計計算,在我們所爬取的 5 141條數(shù)據(jù)中,只存在0.027%的評論由連續(xù)的幾個段落組成,而 99.973%的評論是由單獨一個段落組成,因此本文沒有考慮評論分段問題,將分成多段的評論作為一個單獨的評論進行處理.

        3.2 研究問題

        本文對兩個應用的5 141條評論進行了分析,除了本文的方法之外,也采用ASUM方法進行主題提取與代表句提取,和原始評論一起作為比較對象.我們希望通過調(diào)查能回答以下研究問題.

        · RQ1:ASUM方法和本文方法RASL的困惑度如何?

        · RQ2:和原始評論相比,ASUM方法和本文方法RASL是否包含完整的信息?

        · RQ3:和原始評論相比,ASUM方法和本文方法RASL是否包含冗余的信息?

        · RQ4:ASUM方法和本文方法RASL的閱讀理解性如何?

        · RQ5:ASUM方法和本文方法RASL的評論閱讀時間如何?

        3.3 實驗方法

        3.3.1 困惑度分析

        對于主題模型的評估,Blei等人[9]在論文中提出了用困惑度(perplexity值)作為評判標準.困惑度度量概率分布或概率模型的預測結(jié)果與樣本的契合程度,在這里是指:對于一個文檔d,所訓練出來的模型對于文檔d屬于哪個主題的確定程度.困惑度越小,說明模型效果越好.困惑度的計算公式為

        M為文檔集合中的文檔數(shù)目,Nd為第d篇文檔中單詞的個數(shù),p(wd)為第d篇文檔的概率(probability),也即這篇文檔中每個單詞概率的乘積.而對任意一個單詞w,單詞概率,z代表主題,p(z|d)為各主題下該詞所在文檔的概率,p(w|z)為該詞在各主題下的概率.

        對于ASUM方法,根據(jù)每個應用的評論數(shù)量計算出提取的主題數(shù)量,然后用ASUM方法提取出主題詞與代表句,作為這個實驗的輸入;對于本文所提出的RASL方法,首先將每個應用的評論使用基于支持向量機的分類方法進行分類(問題類型與描述見表1),根據(jù)每個應用的評論數(shù)量計算出提取的主題總數(shù),再根據(jù)分類的結(jié)果中各問題類型(除去“其他”類型)所占比例計算出每個問題類型對應的主題數(shù)目,然后對各問題類型下的評論按照主題數(shù)目進行主題提取與代表句提取,將問題類型和主題詞、代表句共同作為這個實驗的輸入.計算困惑度并進行比較.

        3.3.2 問卷調(diào)查

        為研究RQ2~RQ5,實驗選擇了今日頭條和360云盤作為實驗數(shù)據(jù).實驗邀請了6位北京航空航天大學軟件工程專業(yè)研究生,都具有至少 4年的編程經(jīng)驗,并且經(jīng)常使用手機移動應用,有過對手機移動應用軟件打分和作評論的經(jīng)歷.由他們完成調(diào)查問卷,以便回答 RQ2~RQ5.未來我們嘗試聯(lián)系手機應用的開發(fā)人員,請他們評價不同方法的結(jié)果.

        對于每個應用都提供給受試者3份文件:(1) 原始的中差評集合;(2) ASUM方法提供的分析結(jié)果;(3) RASL方法提供的分析結(jié)果,結(jié)果樣例如圖5~圖7所示.鏈接(https://github.com/ChenQifromBeihang/Essay.git)展示了一個實際的例子,包括原始評論、ASUM生成的結(jié)果和RASL生成的結(jié)果.為了對比出結(jié)果的“完整性”(完整性指對比原始評論,是否有內(nèi)容上的缺失)并且不使原始評論影響方法結(jié)果的可理解性,本文要求受試者先對ASUM方法和RASL方法進行閱讀,最后再閱讀原始評論.兩種方法可能存在相互影響閱讀結(jié)果的問題,為了減少這種問題帶來的不確定性,本文將受試者隨機分為兩組:一組先閱讀ASUM方法再閱讀RASL方法,另一組則先閱讀RASL方法再閱讀ASUM方法.

        表3總結(jié)了調(diào)查問卷中設計的問題.為了不提供給受試者更多信息,問卷中以方法A指代ASUM方法生成的分析結(jié)果,以方法B指代RASL方法生成的分析結(jié)果.首先,問卷對兩種主題分析方法的結(jié)果的表現(xiàn)力進行了比較:為了回答主題分析方法產(chǎn)生的結(jié)果是否包含完整的信息,即對比原始評論,是否有內(nèi)容上的缺失,設計了Q1-1和 Q1-2這兩項問題;為了回答主題分析方法產(chǎn)生的結(jié)果是否包含冗余的信息,即出現(xiàn)重復性內(nèi)容,設計了Q2-1和Q2-2這兩項問題;為了回答主題分析方法產(chǎn)生的結(jié)果是否具有可閱理解性,設計了Q3-1,Q3-2這兩項問題.然后,問卷對原始評論和主題分析方法之間進行了比較:為了回答主題分析方法如何影響分析用戶評論花費的時間的問題,設計了Q4-1和Q4-2這兩項問題.

        Fig.5 Original review example圖5 原始評論示例

        Fig.6 ASUM method results example圖6 ASUM方法結(jié)果示例

        Fig.7 RASL method results example圖7 RASL方法結(jié)果示例

        Table 3 Questionnaire表3 調(diào)查問卷

        3.4 實驗結(jié)果

        · RQ1:ASUM方法和本文方法RASL的困惑度如何?

        用本文所收集的用戶評論作為實驗數(shù)據(jù),運用ASUM方法和RASL模型得到結(jié)果,對結(jié)果計算困惑度并進行比較,如圖8所示,ASUM 的困惑度是 302.1,RASL的困惑度是 100.9.本文所提出的方法得到的困惑度小于ASUM方法所得到的困惑度,本文提出的方法優(yōu)于ASUM方法.

        Fig.8 Comparison of ASUM and RASL perplexity圖8 ASUM、RASL的困惑度對比

        結(jié)論:RQ1:本文方法得到的困惑度小于ASUM方法所得到的困惑度

        · RQ2:與原始評論相比,ASUM方法和本文方法RASL是否包含完整的信息?

        為了回答主題分析方法產(chǎn)生的結(jié)果是否具有充分性,將Q3-1,Q3-2的結(jié)果匯總于表4,1分為缺失極多信息,10分為沒有缺失任何信息.360云盤和今日頭條的結(jié)果都顯示:對于 6位受試者來說,完整性均為 RASL優(yōu)于ASUM.

        Table 4 Integrity of ASUM and RASL表4 ASUM、RASL的完整性

        而后,本文進行Mann-Whitney U檢驗,檢測這種差異的顯著性.Mann-Whitney U檢驗是由Mann和Whitney于 1947年提出的[21],是一種非參數(shù)秩和假設檢驗,這個檢驗是對獨立樣本進行的一種不要求正態(tài)分布的 t-test檢驗方法.主要是對來自除了總體均值以外完全相同的兩個總體,檢驗其是否具有顯著差異.最終得到的結(jié)果顯示,RASL的完整性在0.05的顯著性水平下明顯優(yōu)于ASUM.

        結(jié)論:RQ2:在0.05的顯著性水平下,RASL方法在完整性顯著優(yōu)于ASUM方法.

        · RQ3:和原始評論相比,ASUM方法和本文方法RASL是否包含冗余的信息?

        為了回答主題分析方法產(chǎn)生的結(jié)果是否具有簡明性,將Q4-1,Q4-2的結(jié)果匯總于表5,1分為有許多冗余的信息,10分為沒有冗余的信息.360云盤的結(jié)果顯示:對于受試者1、受試者2、受試者4和受試者5來說,RASL包含的冗余信息相比ASUM較少;受試者3認為,ASUM和RASL包含多于信息的數(shù)量差不多;而受試者6評價ASUM包含的冗余信息相比RASL較少.采訪受試者6,其認為RASL存在個別主題與問題類型不匹配的問題,因此評價略低于ASUM.今日頭條的結(jié)果顯示:對于其中5位受試者來說,RASL包含的冗余信息相比ASUM較少;對于受試者3來說,ASUM和RASL得到結(jié)果包含冗余信息量相同.

        Table 5 Redundancy of ASUM and RASL表5 ASUM表5RASL的冗余性

        為了檢測這種差異是否具有顯著性,本文對兩個方法的簡明性進行了Mann-Whitney U檢驗,在0.05的顯著性水平下,RASL包含的冗余信息明顯少于ASUM.

        結(jié)論:RQ3:在0.05的顯著性水平下,RASL包含的冗余信息顯著少于ASUM.

        · RQ4:ASUM方法和本文方法RASL的的閱讀理解性如何?

        為了回答主題分析方法產(chǎn)生的結(jié)果是否具有可閱讀性,將Q5-1,Q5-2的結(jié)果匯總于表6,1分為難以閱讀理解,10分為非常易于閱讀理解.360云盤和今日頭條的結(jié)果都顯示:對于6位受試者來說,可閱讀性均為RASL優(yōu)于ASUM.

        Table 6 Understandability of ASUM and RASL表6 ASUM、RASL的可理解性

        而后,本文進行 Mann-Whitney U檢驗,檢測這種差異的顯著性,最終得到的結(jié)果顯示,RASL的可閱讀性在0.05的顯著性水平下明顯優(yōu)于ASUM.

        結(jié)論:RQ4:在0.05的顯著性水平下,RASL方法在可理解性方面顯著優(yōu)于ASUM方法.

        · RQ5:ASUM方法和本文方法RASL的評論閱讀時間如何?

        為了回答主題分析方法如何影響分析用戶評論所花費時間的問題,將Q2-1,Q2-2的結(jié)果匯總于表7.360云盤的結(jié)果顯示:受試者3閱讀ASUM和RASL所花費的時間相等;受試者2、受試者5、受試者6閱讀RASL所花費的時間略高于ASUM;受試者1和受試者3閱讀RASL所花費的時間略低于ASUM.今日頭條的結(jié)果顯示:受試者1、受試者4、受試者5閱讀ASUM和RASL所花費的時間相等;受試者2閱讀ASUM所花費的時間略高于RASL;受試者3和受試者6閱讀RASL所花費的時間略低于ASUM.

        Table 7 Analysis time of ASUM and RASL (min)表7 ASUM、RASL的分析時間 (min)

        由于所得ASUM方法和RASL方法所得閱讀時間無法直接看出是否具有差異性,本文進行Mann-Whitney U檢驗,在 0.05的顯著性水平下,ASUM 方法和 RASL方法之間的時間差異不具有統(tǒng)計的顯著性,總的來說,RASL和ASUM所用閱讀時間無差異.

        結(jié)論:RQ5:RASL方法和ASUM方法所用閱讀時間無顯著差異.

        從實驗結(jié)果分析中,我們可以得出結(jié)論:在困惑度方面,RASL主題分析方法明顯優(yōu)于ASUM方法;RASL主題分析方法和ASUM方法相比,可理解性更佳,包含更完整的原始評論信息,冗余信息也更少.

        3.5 定性分析

        回收問卷后,采訪了受試者對于兩種主題分析方法的主觀感受.受試者們表示,ASUM的主題閱讀起來比較費力,存在較多的無意義主題.本文方法 RASL由于有問題類型作為基礎,相當于具有兩層結(jié)構(gòu),有組織性,閱讀起來較為清晰明了,一些用戶評論可以幫助開發(fā)者發(fā)現(xiàn)問題.如圖9所示,本文方法RASL可以發(fā)現(xiàn)“安裝”分類下,最常見的問題是更新的版本在部分機器上無法進行安裝.

        Fig.9 Example圖9 示例圖

        4 有效性威脅

        4.1 內(nèi)部有效性威脅

        在對主題分析方法 RASL進行問卷調(diào)查時,比較了兩種可能的方法:一是分兩組,單獨評價 ASUM 方法和RASL方法,但是在人員不足夠多的情況下,難以消除不同人不同判斷標準的問題;因此,本文將受試者隨機分為兩組,每位受試者對兩種方法進行閱讀,雖有可以在同一標準下給兩種方法打分,但是會帶來閱讀順序的問題,因此,本文采用改變順序減輕了兩種方法間的相互影響.另外,ASUM和RASL產(chǎn)生200個主題的結(jié)果.主題數(shù)量較多,難以請受試者對每個主題進行詳細打分.未來我們嘗試聯(lián)系更多的受試者參加問卷調(diào)查,減輕閱讀順序、主題差異造成的偏差.最后,本文的研究沒有加入好評,這可能會導致一些問題的遺漏,因為在好評中也可能有用戶對于應用的一些抱怨意見.不過,即使好評中存在一些抱怨意見,也不會影響本文方法的可用性.今后,我們將進行更多的實驗來完善對所有評論的研究.

        4.2 外部有效性威脅

        評估實驗針對兩個應用進行,盡管本文選擇的兩個應用軟件分別隨機抽取了評分最高的應用軟件和評分最低的應用軟件,但這兩個應用可能仍然不能代表所有應用軟件.在未來的工作中,我們計劃爬取更多應用軟件的評論,并與現(xiàn)有的結(jié)果進行比較.而且評估實驗中的兩個應用都來自于 360手機助手,得到的結(jié)果是否可以推廣到其他應用商店是未知的.在今后的工作中,我們將選取不同平臺的應用進行實驗,并將結(jié)果與 360手機助手的結(jié)果進行比較,以鞏固我們的發(fā)現(xiàn).

        5 結(jié)論與展望

        移動應用的用戶在線評論數(shù)量巨大、信息量豐富,是重要的反饋數(shù)據(jù)來源,通過收集用戶使用軟件后產(chǎn)生的反饋信息,挖掘其中的各類需求,對軟件開發(fā)者而言有重要的價值,使開發(fā)者能快速、直觀地理解用戶反饋.本文提出了一種基于支持向量機和主題模型的評論分析方法RASL.RASL方法首先進行用戶的評論分類,然后對每個類別下的評論進行主題挖掘.

        本文方法基于支持向量機的分類模型的分類結(jié)果為基礎,依照分類結(jié)果中每個問題類型所占比例確定每個問題類型的主題數(shù)目.然后選擇了LDA模型進行主題分析,使用LDA模型對各問題類型下的評論進行主題提取與代表句提取.而后,設計實驗對比ASUM方法對RASL方法進行評估.首先對兩種方法不同主題數(shù)目下的困惑度進行計算,結(jié)果得到 RASL方法困惑度明顯減少.然后用調(diào)查問卷進行評估,實驗數(shù)據(jù)是兩個應用的全部中差評,邀請軟件工程專業(yè)的受試者對原始評論、ASUM主題分析方法和RASL主題分析方法的生成結(jié)果進行評估.實驗結(jié)果表明,與ASUM相比,RASL方法的可理解性、完整性更佳,包含的冗余信息也更少.

        在未來的工作中,我們將邀請足夠多的受試者進行實驗,并且邀請一些軟件開發(fā)人員,將本文的方法應用于更多應用軟件,從而判斷本文提出方法所得結(jié)果是否能真正符合開發(fā)商需求.

        猜你喜歡
        受試者向量分類
        涉及人的生物醫(yī)學研究應遵循的倫理原則
        涉及人的生物醫(yī)學研究應遵循的倫理原則
        向量的分解
        分類算一算
        聚焦“向量與三角”創(chuàng)新題
        涉及人的生物醫(yī)學研究應遵循的倫理原則
        分類討論求坐標
        涉及人的生物醫(yī)學研究應遵循的倫理原則
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        波多野无码AV中文专区| 无码人妻久久一区二区三区app| 国产做无码视频在线观看| 成人无码av一区二区| 东北妇女xx做爰视频| 日本免费一区尤物| 少妇一区二区三区乱码| 亚洲综合中文日韩字幕| 久久成人成狠狠爱综合网| 亚欧色一区w666天堂| 欧美末成年videos在线观看| 亚洲中文字幕精品一区二区| 亚洲女同性恋在线播放专区| 美女脱掉内裤扒开下面让人插| 亚洲国产精品美女久久| 中文亚洲欧美日韩无线码| 少妇高潮惨叫喷水在线观看| 综合色久七七综合尤物| 亚洲国产精品成人一区| 亚洲国产精品亚洲一区二区三区| 久久国内精品自在自线图片| 亚洲国产精品久久久天堂不卡海量 | 久久久www成人免费毛片| 国内精品久久久久影院一蜜桃 | 全免费a敌肛交毛片免费| 亚洲av日韩精品久久久久久| 国产女奸网站在线观看| 日本女u久久精品视频| 精品国产综合区久久久久久| 欧美情侣性视频| 亚洲精品国产主播一区二区| 日本高清二区视频久二区| 91精品国产92久久久| 国产农村乱子伦精品视频 | 亚洲成Av人片不卡无码观看| 免费观看成人稀缺视频在线播放| 亚洲色图视频在线免费看| 成人精品一区二区三区中文字幕| 伊人精品在线观看| 国产精品不卡免费版在线观看| 久久综合另类激情人妖|