亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存句法樹抽取APP軟件用戶評論的核心評價內(nèi)容

        2021-06-07 23:42:47羅壓瓊
        現(xiàn)代信息科技 2021年24期

        摘 ?要:隨著手機軟件的廣泛使用,應(yīng)用市場中APP軟件用戶評論數(shù)據(jù)急劇增加,獲取用戶使用軟件真實反饋,能夠為開發(fā)者、下載者提供準(zhǔn)確的修改意見和參考,減少時間花費。通過對大量APP軟件用戶評論進(jìn)行研究,首先基于APP軟件用戶評論中的評價對象和評價觀點定義了核心評價內(nèi)容,其次使用依存句法樹實現(xiàn)了對核心評價內(nèi)容的抽取。實驗結(jié)果表明,能夠有效抽取APP軟件用戶評論中的核心評價內(nèi)容,驗證了方法的有效性和可行性。

        關(guān)鍵詞:APP軟件;用戶評論;評價對象;評價觀點;核心評價內(nèi)容

        中圖分類號:TP391.1 ? ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2021)24-0016-05

        Abstract: With the widespread use of mobile phone software, there is a sharp increase in the user comment data of APP software in the application market. Obtaining the real feedback of users using the software can provide accurate modification opinions and reference for developers and downloaders, and reduce their time cost. Through the research on a large number of APP software user comments, firstly, the core evaluation content is defined based on the evaluation object and evaluation viewpoint in APP software user comments. Secondly, the dependency syntax tree is used to extract the core evaluation content. The experimental results show that it can effectively extract the core evaluation content of APP software user comments, and verify the effectiveness and feasibility of the method.

        Keywords: APP software; user comment; evaluation object; evaluation viewpoint; core evaluation content

        0 ?引 ?言

        APP軟件應(yīng)用的普及,使得APP軟件用戶評論急劇增加,通過APP軟件用戶評論抽取評價內(nèi)容,并形成用戶使用軟件之后的綜合反饋成為當(dāng)前研究熱點。

        姜巍等人[1]認(rèn)為從海量、非結(jié)構(gòu)化、有噪聲的評論中抽取出有用性的軟件特征及用戶觀點對于評論分析是尤為重要。Jiang等人[2]認(rèn)為APP軟件的用戶評論中意見表達(dá)方式復(fù)雜多樣,為了獲取有意義的用戶反饋,對用戶評論的軟件功能意見表達(dá)進(jìn)行自動挖掘是非常必要的。崔建苓等人[3]提出基于評論挖掘的需求獲取方法,針對APP存在的相關(guān)問題分類匯總,得到更多軟件相關(guān)的價值信息。錢宇等[4]認(rèn)為APP市場上用戶發(fā)表的評論在APP軟件更新和重新設(shè)計中極其重要,且開發(fā)者對于用戶評論主要是軟件功能方面的意見被采納較多。

        綜上所述,應(yīng)用市場APP軟件的用戶評論,具有數(shù)量大、更新快、內(nèi)容多樣等特點,海量的APP軟件用戶評論中包含了較多冗余內(nèi)容,造成分析處理困難和反饋結(jié)果代表性不強等問題。為了獲得具有代表性的APP用戶使用綜合反饋,需要進(jìn)一步抽取出APP軟件用戶評論中的核心評價內(nèi)容,即以評價對象為中心,在整條APP軟件用戶評論中,抽取出既能體現(xiàn)評價觀點,又具有和評價對象間存在句法相關(guān)性的,稱為核心評價內(nèi)容。所以我們對APP軟件用戶評論中核心評價內(nèi)容的抽取主要是基于評價對象和評價觀點進(jìn)行深層次的挖掘。該內(nèi)容不僅可以引導(dǎo)未下載APP軟件的用戶看完核心評價內(nèi)容后對APP軟件進(jìn)行下載使用,而且也可以從另一方面反映出APP軟件存在的具體問題,給予開發(fā)者較確切的反饋結(jié)果。

        文章的主要貢獻(xiàn)有:

        (1)針對評價對象和評價觀點,給出了更深層次的核心評價內(nèi)容的定義。

        (2)應(yīng)用核心評價內(nèi)容的定義,針對APP軟件用戶評論特性采用依存句法樹的方法進(jìn)行核心評價內(nèi)容的抽取。

        1 ?相關(guān)工作

        針對用戶評論的評價內(nèi)容抽取,國內(nèi)外學(xué)者開展了相關(guān)研究。Suprayogi等[5]認(rèn)為大量的評論會讓人很難找到和理解評論所包含的信息,提出了一個利用機器學(xué)習(xí)技術(shù)對評論內(nèi)容分類的信息抽取模型。Poche等人[6]使用一種基于抽取頻率的冗余控制摘要技術(shù)SumBasic,去捕捉視頻中用戶評論中的主要關(guān)注點,提供高質(zhì)量的評價內(nèi)容。紀(jì)志偉[7]設(shè)計了一種基于初始觀點詞性規(guī)則自動迭代發(fā)現(xiàn)新的用戶觀點詞性規(guī)則的方法,以此抽取用戶評論觀點形成評價內(nèi)容。劉偉[8]等針對Web用戶評論,使用深度加權(quán)的樹相似性算法將評論記錄從網(wǎng)頁中抽取出來,然后通過比較DOM(Document Object Model)樹中節(jié)點的一致性來實現(xiàn)對用戶評論內(nèi)容的抽取。陳琪等[9]為了從用戶抱怨評論中提取有效信息,提出一種基于支持向量機和主題模型的評論分析方法 RASL(review analysis method based on SVM and LDA)。

        當(dāng)前研究針對用戶評論進(jìn)行評價內(nèi)容抽取,其抽取出的結(jié)果僅針對某一方面的信息,并不包含用戶評論中針對評價對象的詳細(xì)說明,或是評價觀點產(chǎn)生的原因。例如,文獻(xiàn)[6]通過識別用戶評論中的關(guān)注點,認(rèn)為用戶評論中的關(guān)注點就是評價內(nèi)容,并未包含原因。文獻(xiàn)[7,8]只通過評價觀點或者評價對象就代表評價內(nèi)容這是一種片面的反饋。文獻(xiàn)[5,9]抽取評價內(nèi)容基于類別的劃分,再進(jìn)行評價內(nèi)容抽取,導(dǎo)致內(nèi)容抽取受到分類的局限性較大。

        文章針對上述研究存在的不足,為進(jìn)一步抽取APP軟件用戶評論中對評價對象的詳細(xì)說明,基于評價對象和評價觀點,提出了一種應(yīng)用依存句法樹抽取APP軟件核心評價內(nèi)容的方法。

        2 ?核心評價內(nèi)容的定義

        在線網(wǎng)絡(luò)環(huán)境下,由于APP軟件用戶評論表達(dá)隨意、形式多種多樣,其用戶評論中所包含的信息讓人難以理解。通過閱讀大量抽取出評價對象及評價觀點的APP軟件用戶評論,我們發(fā)現(xiàn),基于APP軟件用戶評論的特性,只有評價對象和評價觀點代表整條用戶評論的核心內(nèi)容,是不完整的,沒有解決用戶的核心痛點問題。因此,為了便于挖掘APP軟件用戶評論的核心評價內(nèi)容,得到高質(zhì)量的用戶反饋,本文將給出核心評價內(nèi)容的定義如下:

        核心評價內(nèi)容(content):體現(xiàn)對評價對象的詳細(xì)說明,抽取出用戶對評價對象產(chǎn)生評價觀點的原因的評論表達(dá)方式,包含詞、詞性、詞之間的關(guān)系3個屬性。評論庫中共有n條用戶評論,每條評論都有核心評價內(nèi)容組成。

        content=(1≤i≤n);

        contenti=(1≤j≤m).

        其中,word代表與評價對象相關(guān)的詞,speech代表相關(guān)詞的詞性,relation代表依存句法中與核心詞之間存在的關(guān)系。從定義可以看出,要確定一條APP軟件用戶評論的核心評價內(nèi)容,評價對象和評價觀點是不可或缺的。

        在APP軟件用戶評論中,從詞性的角度分析,評價對象主要以名詞或是名詞短語的形式出現(xiàn),多為APP軟件的功能點。而評價觀點多傾向于形容詞或是副詞等各種組合情況去描述對APP軟件使用之后的態(tài)度。

        胡甜媛等制定的評價對象及評價觀點抽取規(guī)則能實現(xiàn)對用戶評論的自動抽取[10],具有較高的準(zhǔn)確率,因此本文采用該抽取規(guī)則識別APP軟件用戶評論中的評價對象和評價觀點?;诤诵脑u價內(nèi)容的定義,可以結(jié)合評價對象和評價觀點,得到具有代表性強,高質(zhì)量的評價內(nèi)容。

        3 ?基于評價對象和評價觀點抽取核心評價內(nèi)容

        根據(jù)現(xiàn)有研究中對APP軟件用戶評論的處理方法技術(shù),其中使用依存句法分析用戶評論能夠詳細(xì)描述詞與詞之間的關(guān)系,通過對大量APP軟件用戶評論中的評價對象和評價觀點進(jìn)行觀察總結(jié),發(fā)現(xiàn)用戶評論中基于評價對象和觀點中抽取評價內(nèi)容是滿足一定的句法關(guān)系的,且這些句法關(guān)系是有規(guī)律可循的、可總結(jié)的、而非雜亂無章的,其中短語是構(gòu)成句子的基礎(chǔ)[11],發(fā)現(xiàn)用戶評論的句法關(guān)系中包含的短語是描述整條用戶評論的主要核心內(nèi)容。其中依存句法樹對于中文用戶評論分析效果是簡單高效的,不僅能得到詞與詞之間的關(guān)聯(lián)程度,還能表示詞的重要性,故本文選取依存句法樹的方法來描述詞與詞之間的關(guān)系。

        若僅使用依存句法樹進(jìn)行分析,樹中結(jié)點包含太多的冗余結(jié)點,即用戶評論中沒有實際意義的詞。這些詞都存在于依存句法樹中,造成抽取核心評價內(nèi)容復(fù)雜困難。因此,為了能抽取出整條用戶評論中的對評價對象的詳細(xì)說明,即產(chǎn)生評價觀點的原因,需要對原始的依存句法樹進(jìn)行剪枝處理。

        剪枝處理需要先對結(jié)點進(jìn)行標(biāo)記操作。由于核心評價內(nèi)容是對評價對象的詳細(xì)說明,需要先定位出評價對象所在的詞的位置。通過分析大量APP軟件用戶評論發(fā)現(xiàn),距離中心詞越近,詞之間的關(guān)聯(lián)度越高。因此,查找其周圍的詞與評價對象的相關(guān)性,需要利用樹的特性,先查找到以評價對象為中心的親戚結(jié)點信息。查找到所有親戚結(jié)點之后,依然存在冗余問題,還需要對各類結(jié)點進(jìn)行分析,分析過程如下。

        首先在原始的依存句法樹中找到包含評價對象的結(jié)點,然后以此結(jié)點為中心查找其親戚結(jié)點(父親結(jié)點、兄弟結(jié)點、孩子結(jié)點)作為與評價對象相關(guān)的結(jié)點進(jìn)行標(biāo)記。

        對于親戚結(jié)點中的結(jié)點,若結(jié)點信息中包含的關(guān)系是“標(biāo)點符號”,則都不進(jìn)行標(biāo)記。其中對于兄弟結(jié)點,若包含了“并列關(guān)系”,我們就更改中心位置為該結(jié)點,查找該兄弟結(jié)點的親戚結(jié)點,若在此親戚結(jié)點中查找到了包含“主謂關(guān)系”的結(jié)點,將該結(jié)點與APP軟件簡介的特征詞計算相似度,若閾值大于0.5,說明發(fā)現(xiàn)了未被識別的評價對象,再次以新評價對象為中心,查找各結(jié)點進(jìn)行相關(guān)詞標(biāo)記。若未查找到包含“主謂關(guān)系”的結(jié)點,我們認(rèn)為該兄弟結(jié)點是針對原始評價對象進(jìn)行評論,也屬于相關(guān)詞,應(yīng)該進(jìn)行標(biāo)記。

        若是在原始的依存句法樹中就未找到評價對象的結(jié)點,我們就查找包含“主謂關(guān)系”的結(jié)點,利用上述軟件簡捷方法查看是否存在新的評價對象,對該評論進(jìn)行合理標(biāo)記。

        經(jīng)過結(jié)點標(biāo)記之后,我們通過遍歷整棵依存句法樹,將未被標(biāo)記的結(jié)點進(jìn)行剪枝操作,然后由此結(jié)點產(chǎn)生的邊也進(jìn)行相應(yīng)的刪除,調(diào)整棵樹的結(jié)構(gòu),將評價對象所在的結(jié)點調(diào)整至根結(jié)點位置,其他相關(guān)結(jié)點保持關(guān)系不變。例如,用戶評論“都是非常好,就是歌曲有點少”,其中評論對象為“歌曲”,評價觀點為“有點少”,其畫出的原始依存句法樹如圖1(a)所示,通過標(biāo)記之后剪枝留下的處理后的依存句法樹如圖1(b)所示。

        根據(jù)處理后的句法依存樹,我們發(fā)現(xiàn),部分依存句法樹上結(jié)點并不是核心表述,抽取APP軟件用戶評論核心評價內(nèi)容時還需要充分考慮評價對象、評價觀點、詞性以及詞間依存關(guān)系。因此,我們通過遍歷整棵處理后的依存句法樹構(gòu)建抽取算法思想如下:

        首先我們遍歷整棵處理后的依存句法樹,通過判斷當(dāng)前結(jié)點是否為APP軟件用戶評論中的相關(guān)評價對象,若是評價對象,我們繼續(xù)往下遍歷,若不是,我們查看是否屬于APP軟件的評價觀點或者最后的樹結(jié)點,若符合則認(rèn)為核心評價內(nèi)容就為整棵樹的結(jié)點信息組成,若以上都不滿足,我們通過查找當(dāng)前結(jié)點的下一結(jié)點加入詞性判斷,即是否為否定副詞,合并新的評價對象,若不存在該詞性且該結(jié)點為新的評價對象,則計算該結(jié)點與軟件簡介之間的語義相似度,判斷是否為與軟件相關(guān)的評價對象,然后計算兩個評價對象間的最短路徑,其路徑通過的結(jié)點信息就是我們的核心評價內(nèi)容的組成。

        4 ?實驗結(jié)果與分析

        4.1 ?實驗設(shè)置

        實驗設(shè)置具體如下:

        實驗數(shù)據(jù)。本文采用的實驗數(shù)據(jù)來自網(wǎng)絡(luò)爬蟲爬取的APP應(yīng)用市場所有軟件的用戶評論,選取其中的66 001條評論進(jìn)行實驗,其中人工標(biāo)注的評論為24 532條作為驗證集。

        (1)文本預(yù)處理。本文先將用戶評論中進(jìn)行粗粒度篩選去除部分垃圾評論,再用Jieba分詞將用戶評論進(jìn)行分詞及詞性識別,根據(jù)詞性組合規(guī)則得到用戶評論的評價對象和評價觀點,然后使用Hanlp工具包得到依存句法樹等預(yù)處理工作。

        (2)評價標(biāo)準(zhǔn)。評價標(biāo)準(zhǔn)主要采用準(zhǔn)確率(Accuracy)來驗證本文方法的有效性。準(zhǔn)確率的計算公式如式1所示:

        Accuracy=TP/(TP+FP) (1)

        其中,TP表示本文方法的實驗抽取與人工標(biāo)注抽取的評價內(nèi)容是一致的評論條數(shù),F(xiàn)P表示本文方法的實驗抽取與人工標(biāo)注抽取的評價內(nèi)容不是一致的評論條數(shù),(TP+FP)表示總的人工標(biāo)注的評論條數(shù)。

        4.2 ?結(jié)果分析

        4.2.1 ?本文方法分析

        在本文實驗中,我們共選取了66 001條APP軟件用戶評論進(jìn)行實驗,首先對這66 001條用戶評論進(jìn)行識別評價對象和評價觀點存入數(shù)據(jù)庫備用。然后根據(jù)每一條識別出評價對象和評價觀點的用戶評論應(yīng)用本文方法,抽取出APP軟件用戶評論核心評價內(nèi)容。部分用戶評論經(jīng)過標(biāo)記后的結(jié)點信息如表1所示。

        基于標(biāo)記后的結(jié)點,對原始依存句法樹進(jìn)行剪枝,調(diào)整樹結(jié)構(gòu)等操作得到一顆處理過后的依存句法樹。最終,根據(jù)處理過后的依存句法樹結(jié)合APP軟件用戶評論的特性抽取核心評價內(nèi)容。最后抽取結(jié)果如表2所示。

        4.2.2 ?對比實驗

        基于句法語義依存分析的中文金融事件抽取的算法[12]如下:首先對某一條財經(jīng)新聞標(biāo)題進(jìn)行依存句法分析,然后定義一條核心動詞鏈,關(guān)于核心動詞鏈的構(gòu)建是基于依存句法結(jié)構(gòu)制定規(guī)則抽取,之后基于核心動詞鏈加入語義依存關(guān)系,構(gòu)建一棵SSDP樹,之后在SSDP樹的基礎(chǔ)上通過制定規(guī)則,對該樹進(jìn)行剪枝或是添加結(jié)點連線,生成一個SSDP圖,最后基于SSDP圖抽取出事件內(nèi)容的主謂賓。

        選取上述論文做對比實驗是由于該方法使用了依存句法,且基于該句法,變換樹或者圖的形式處理實驗對象,然后基于變換形式,總結(jié)規(guī)則抽取出實驗結(jié)果。為了進(jìn)一步驗證我之前實驗的有效性,將該對比實驗的方法應(yīng)用于中文用戶評論數(shù)據(jù)集。本文方法與對比實驗方法的實驗結(jié)果準(zhǔn)確率如表3所示。其中SSDP為對比實驗方法的簡稱,Deal_DPtree為本文實驗方法的簡稱,由表3可以看出,當(dāng)同一批數(shù)據(jù)集采用不同的方法抽取其核心評價內(nèi)容,本文方法的抽取準(zhǔn)確率較對比實驗的準(zhǔn)確率高了10.56%,效果顯著。

        5 ?結(jié) ?論

        文章提出一種基于依存句法樹抽取APP用戶評論中核心評價內(nèi)容的方法,通過評價對象結(jié)合句法分析調(diào)整依存句法樹,并進(jìn)行剪枝等操作。然后基于處理后的依存句法樹加入詞性,評價觀點等抽取出核心評價內(nèi)容。最后在中文APP用戶評論數(shù)據(jù)集上驗證了本文方法的有效性。下一步將完善結(jié)點標(biāo)記,精簡結(jié)點信息作為用戶評論的核心評價內(nèi)容,并進(jìn)一步的研究自動化抽取方法,降低規(guī)則制定的局限性。

        參考文獻(xiàn):

        [1] 姜巍,張莉,戴翼,等.面向用戶需求獲取的在線評論有用性分析 [J].計算機學(xué)報,2013,36(1):119-131.

        [2] WEI J,RUAN H,LI Z,et al. For User-Driven Software Evolution: Requirements Elicitation Derived from Mining Online Reviews [C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining.Tainan:Springer International Publishing,2014:584-595.

        [3] 崔建苓,楊達(dá),李娟.RERM:一種基于評論挖掘的需求獲取方法 [J].計算機應(yīng)用與軟件,2015,32(8):28-33.

        [4] 錢宇,曹恩葉,鄧文君,等.海量用戶評論在APP更新設(shè)計中的參與作用挖掘 [J].系統(tǒng)工程理論與實踐,2021,41(3):554-564.

        [5] SUPRAYOGI E,BUDI I,MAHENDRA R. Information Extraction for Mobile Application User Review[C]//2018 International Conference on Advanced Computer Science and Information Systems (ICACSIS).Yogyakarta:IEEE,2018:343-348.

        [6] POCHE E,JHA N,WILLIAMS G,et al. Analyzing User Comments on YouTube Coding Tutorial Videos [C]//2017 IEEE/ACM 25th International Conference on Program Comprehension (ICPC).Buenos Aires:IEEE,2017:196-206.

        [7] 紀(jì)志偉.基于描述和用戶評論的App應(yīng)用市場信息挖掘 [D].杭州:浙江大學(xué),2018.

        [8] 劉偉,嚴(yán)華梁,肖建國,等.一種Web評論自動抽取方法 [J].軟件學(xué)報,2010,21(12):3220-3236.

        [9] 陳琪,張莉,蔣競,等.一種基于支持向量機和主題模型的評論分析方法 [J].軟件學(xué)報,2019,30(5):1547-1560.

        [10] 胡甜媛,姜瑛.體現(xiàn)使用反饋的APP軟件用戶評論挖掘 [J].軟件學(xué)報,2019,30(10):3168-3185.

        [11] 王治敏,朱學(xué)鋒,俞士汶.基于現(xiàn)代漢語語法信息詞典的詞語情感評價研究 [J].中文計算語言學(xué)期刊,2005,10(4):581-591.

        [12] 萬齊智,萬常選,胡蓉,等.基于句法語義依存分析的中文金融事件抽取 [J].計算機學(xué)報,2021,44(3):508-530.

        作者簡介:羅壓瓊(1997.11—),女,壯族,云南個舊人,碩士研究生在讀,研究方向:軟件工程。

        色综合av综合无码综合网站| 久久深夜中文字幕高清中文| 日本师生三片在线观看| 男女肉粗暴进来动态图| 老师翘臀高潮流白浆| 伊香蕉大综综综合久久| 中文字幕人成乱码中文| 亚洲中文无码av永久| 精品国产一区二区三区免费| 国产成人免费a在线视频| 亚洲一本之道高清在线观看| 国产人妻熟女呻吟在线观看| 少妇性饥渴无码a区免费| 中文字幕在线免费| 国产一区二区三区视频了 | 丁字裤少妇露黑毛| 国产男女猛烈无遮挡免费视频| 国产一区二区三区四区色| 手机av在线中文字幕| 40岁大乳的熟妇在线观看 | 无码国产一区二区色欲| 亚洲av熟女中文字幕| 天堂网在线最新版www| 在线国产小视频| 亚洲色图在线视频观看| 精品一区二区三区四区国产| 变态 另类 欧美 大码 日韩 | 一级一级毛片无码免费视频| 久久91精品国产91久久跳舞| 亚洲av色香蕉一区二区三区| 女女女女bbbbbb毛片在线| 无码一区二区三区人| 五月激情在线视频观看| 美女av一区二区三区| 国产精品亚洲А∨天堂免下载| 久久精品国产亚洲av蜜臀久久 | 亚洲中文字幕在线第六区| 亚洲av日韩综合一区久热| 国产精品亚洲日韩欧美色窝窝色欲 | 制服丝袜人妻中出第一页| 高清在线有码日韩中文字幕|