亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向云服務平臺的用戶偏好產(chǎn)品屬性動態(tài)獲取方法

        2023-12-04 11:19:26裴卉寧劉鑫宇黃雪芹譚昭蕓孫海波白仲航
        計算機集成制造系統(tǒng) 2023年11期
        關鍵詞:文本用戶產(chǎn)品

        裴卉寧,劉鑫宇,2,黃雪芹,,譚昭蕓,孫海波,白仲航,4+

        (1.河北工業(yè)大學 建筑與藝術設計學院,天津 300131;2.西北工業(yè)大學 機電學院工業(yè)設計與人機工效工信部重點實驗室,陜西 西安 710072;3.天津大學 機械工程學院,天津 300000;4.河北工業(yè)大學 國家技術創(chuàng)新方法與實施工具工程技術研究中心,天津 300401)

        0 引言

        經(jīng)濟全球化與信息化的迅速發(fā)展,使得大數(shù)據(jù)、云服務、云制造、云計算、物聯(lián)網(wǎng)等新興技術與設計服務行業(yè)逐步融合,如何運用新技術促進新產(chǎn)品快速開發(fā)成為亟待解決的問題[1]。其中,用戶偏好的獲取與分析作為準確獲取用戶需求、新產(chǎn)品研發(fā)流程以及個性化推薦服務的前提條件,需高度重視其獲取方式的高效與準確性。新型創(chuàng)新服務開發(fā)模式云服務平臺承載著大量實時更新且亟待挖掘的在線短文本數(shù)據(jù),適合于挖掘用戶對產(chǎn)品屬性的關注偏好,對工業(yè)設計領域有著重大意義。國內(nèi)外學者針對云服務平臺的研究多圍繞任務重組與資源匹配[2-3]、服務優(yōu)選與組合[4-7]、構架與前景[8-9]、信任機制與質(zhì)量[10-12]等方面展開,而對于獲取用戶對產(chǎn)品屬性的興趣偏好等前端研究較為匱乏。

        用戶興趣偏好信息往往借助于各產(chǎn)品屬性所受關注度以表征(產(chǎn)品屬性即多個相近屬性詞語總形成的集合)。產(chǎn)品屬性獲取作為文本數(shù)據(jù)挖掘的重要分支,是眾多與文本挖掘相關研究的基礎。例如,與情感分析相結合獲取用戶需求以及開發(fā)下一代產(chǎn)品[13-14];與推薦系統(tǒng)相結合進行個性化服務[15-19]。因此,產(chǎn)品屬性獲取的準確與否將對研究結果至關重要。

        在線文本數(shù)據(jù)挖掘受到廣泛關注[13],但基于短文本挖掘用戶偏好產(chǎn)品屬性的準確性研究方面存在部分不足:①目前通過文本挖掘獲取用戶偏好的研究大多考慮單一產(chǎn)品屬性[20-22],產(chǎn)品屬性縱向層次性挖掘不足。產(chǎn)品屬性分解、細化和分組循序漸進的過程,體現(xiàn)于用戶多方面、多角度和多層次的產(chǎn)品描述,考慮產(chǎn)品屬性縱向層次性有助于設計人員深化、周詳?shù)亓私庥脩魧Ξa(chǎn)品屬性的興趣偏好。②現(xiàn)有研究側重提升短文本挖掘高效性[23-24],缺乏對在線短文本的橫向關聯(lián)獨有特性思考,即用戶產(chǎn)生的在線文本數(shù)據(jù)吸引其他用戶再次關注與討論,進而關注度大幅度提升。因此針對在線短文本主題挖掘亦需考慮用戶關注度問題。如何從云平臺豐富的在線短文本數(shù)據(jù)中提取出精簡且更具價值的用戶偏好信息成為目前研究難點。

        因此,針對云服務平臺前端收集用戶偏好研究不足問題,利用計算機支撐的文本挖掘技術提出了基于層次主題模型(hierarchical Latent Dirichlet Allocation,hLDA)和基于詞圖模型TextRank的hLAT偏好詞(關鍵詞)獲取方法。該方法考慮文本的主題特征、統(tǒng)計特征、文本橫向關聯(lián)性以及產(chǎn)品屬性層次性四重因素,運用hLDA模型挖掘文本主題層次結構,再融合考慮主題影響力因素的TextRank算法得到用戶偏好的產(chǎn)品屬性。獲取的偏好詞準確反映在線短文本縱向層次主題與橫向關聯(lián)關系,適用于云服務平臺下在線短文本用戶偏好的產(chǎn)品屬性詞獲取。

        1 基本概念

        常見的偏好詞(關鍵詞)獲取方法有3種:基于統(tǒng)計特征[25-26],基于主題模型[27-29]和基于詞圖模型[30-32]的偏好詞獲取。其中:基于統(tǒng)計特征的偏好詞獲取算法具有統(tǒng)計特性度量方式簡單,適用范圍廣泛等優(yōu)點,但缺乏對于文章結構語義深層次的理解分析,效果有時并不理想;基于主題模型的偏好詞獲取算法通過將文本主題信息融入語句權重計算,對解決語義缺失問題有一定的效果,但提取在線短文本的信息準確性較低,且缺乏對文本橫向結構關聯(lián)性的考量;而基于詞圖模型的TextRank偏好詞獲取算法通過融合詞語特征信息優(yōu)化提取效果,具有綜合考慮文本橫向關聯(lián)結構等優(yōu)點,目前在關鍵詞提取方面應用較廣。但其缺乏對文本縱向深層次結構的分析考量,導致后續(xù)對產(chǎn)品評價、需求表達難以清晰描述的問題。故本文結合主題模型與詞圖模型取長補短,綜合考慮文本橫向關聯(lián)性與產(chǎn)品屬性層次性,提升云服務平臺短文本中用戶偏好詞獲取的準確高效性。

        1.1 產(chǎn)品屬性縱向層次性挖掘

        hLDA模型[33]以隱狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型為基礎,彌補其不考慮文本內(nèi)主題層次關聯(lián)的問題,能夠挖掘文本中所蘊含主題且提取隱藏的主題層次關系,進而將文本詞語按主題層次關系形成樹狀結構,幫助設計人員了解相關文本內(nèi)產(chǎn)品屬性層次結構。因此利用hLDA模型對在線文本進行縱向層次挖掘,構建初始產(chǎn)品主題層次樹。hLDA縱向層次挖掘過程如圖1,主要分為:在線文本預處理為模型可輸入文件、hLDA主題縱向層次挖掘和文本主題層次樹的生成3個模塊。

        其中hLDA主題縱向層次把文本內(nèi)容看成一棵由不同主題組成的樹,樹狀結構代表著文本中主題詞匯的分布結構。挖掘過程體現(xiàn)了內(nèi)嵌中國餐館過程(nested Chinese Restaurant Process,nCRP)統(tǒng)計分布數(shù)學思想。其公式表達如下:

        (1)

        (2)

        式中:p(pathold,c|m,mc)和p(pathnew,c|m,mc)分別代表存已產(chǎn)生的路徑和未產(chǎn)生的路徑,mc代表已分配到路徑c上的路徑數(shù)量,m為當前路徑數(shù)總數(shù)量,γ為決定是否產(chǎn)生新路徑的超參數(shù)。

        hLDA建模的具體步驟為:首先對輸入文件利用βk~Dirichlet(η)得到主題先驗分布;其次逐一對文本進行循環(huán)處理,采用nCRP生成一條深度為L的主題路徑、重復地沿該路徑抽取主題、利用詞語與主題的關系生成詞語;最后,進行Gibbs迭代抽樣,挖掘預估潛在變量的相似分布。

        建模后文本主題層次樹生成。hLAD層次主題模型將文本看成由主題構成的集合,主題則由多個詞語組成。經(jīng)過反復迭代,在線文本中詞語形成趨于穩(wěn)定的主題樹縱向層次結構,樹狀主題分布體現(xiàn)主題間層層遞進、逐漸細化的層次關系。如圖2所示,Topicl 0為文本中L=1層的主題詞,term a、term ……則為組成Topicl 0的不同詞語;Topicl 1、Topicl 2、……、Topiclm則為L=2層的主題詞,term c、term d……分別為組成這些主題的不同詞語。以此類推,構建完成初始產(chǎn)品主題層次樹。

        1.2 短文本橫向關聯(lián)性偏好詞獲取

        TextRank模型[34]作為基于圖用于文本的排序算法,通過對文本進行分詞建立圖模型,根據(jù)重要性排序候選偏好詞(關鍵詞)。TextRank算法考慮詞語間橫向關聯(lián)性進行排序,僅通過文本數(shù)據(jù)本身的信息實現(xiàn)偏好詞提取,且在短文本應用中不需要先驗學習訓練,得到了偏好詞提取方面的廣泛應用。

        TextRank方法中相鄰節(jié)點指向某一節(jié)點的個數(shù)決定其重要程度,且節(jié)點重要程度隨迭代計算不斷變化。在計算過程中考慮hLDA文本主題影響力因素,將詞圖節(jié)點分為節(jié)點重要性與主題影響力兩個關鍵屬性。其中,節(jié)點重要性分值為該節(jié)點在文檔內(nèi)部結構中的權威性,其初始默認值為1,迭代計算過程中隨相鄰節(jié)點分值進行調(diào)整;主題影響力分值由文檔外部信息確定,并在計算過程中保持不變。例如圖3,TextRank方法模型由6個節(jié)點組成,其中“A、B、C、D、E、F”為節(jié)點名稱,圖形右上數(shù)字表示節(jié)點重要性,右下數(shù)字代表主題影響力。傳統(tǒng)TextRank算法中,節(jié)點A以相等的20%概率分別跳轉達B~F五個節(jié)點,考慮文本主題影響力因素后,則按照主題影響力和節(jié)點之間的橫向關聯(lián)性綜合得分進行跳轉,即跳轉至高影響力節(jié)點的概率將大于低影響力節(jié)點。因此結合TextRank算法相關研究考慮文本間的語義橫向關聯(lián)性,將詞語主題相關性因素用于修改節(jié)點跳轉概率優(yōu)化TextRank詞圖模型,完成對初始產(chǎn)品屬性層次樹的完善,進而獲取用戶偏好產(chǎn)品屬性。

        2 用戶偏好產(chǎn)品屬性動態(tài)提取模型

        2.1 模型整體框架

        如圖4所示,該方法涉及的整體框架包含構建初始產(chǎn)品屬性層次樹與獲取用戶偏好產(chǎn)品屬性兩部分。首先,將在線短文本數(shù)據(jù)預處理后輸入到模型中,利用hLDA模型縱向挖掘在線文本主題層次結構,構建初始產(chǎn)品屬性層次樹;其次,考慮詞語主題影響力因素,修改節(jié)點間的隨機跳轉概率,優(yōu)化TextRank算法,獲取候選偏好詞排序,構建用戶偏好產(chǎn)品屬性主題層次樹。

        (1)初始產(chǎn)品屬性層次樹的構建 在線文本由用戶基于興趣偏好對產(chǎn)品屬性進行多方位描述。因此,采用hLDA對在線文本數(shù)據(jù)進行縱向挖掘獲得初始產(chǎn)品屬性層次樹,從而反映大量在線文本中符合用戶認知的產(chǎn)品屬性層次關系。

        (2)用戶偏好的產(chǎn)品屬性獲取 初始產(chǎn)品屬性主題未考慮文本間的橫向關聯(lián)性,無法準確獲取用戶偏好產(chǎn)品屬性,因此運用優(yōu)化后的TextRank算法進行修繕、提取和完善獲取偏好詞(關鍵詞)產(chǎn)品屬性層次樹。其各個節(jié)點所對應的主題詞語即為用戶偏好的產(chǎn)品屬性詞,有助于快速了解用戶關注點。

        2.2 基于hLDA構建初始產(chǎn)品屬性層次樹

        運用由Blei實驗室提供的層次主題模型hLDA開源程序(1)Blei Lab,https:github,com/Blei-Lab.,構建初始產(chǎn)品屬性層次樹,共分為4個步驟:

        步驟1在線短文本獲取。通過Python語言編程選取云服務平臺下相關產(chǎn)品在線短文本,構建文本庫。

        步驟2文本預處理。預處理過程主要分為3部分:分詞處理、構建產(chǎn)品屬性領域詞典以及生成由詞語編號和詞語出現(xiàn)次數(shù)組成的hLDA模型輸入文件,如圖5所示(假設文本庫有i條文本、j個詞語)。具體過程以文本庫中“汽車領域內(nèi),發(fā)動機與變速箱的最佳搭配有哪些?”為例,預處理為模型輸入格式。

        (1)輸入文本進行分詞處理 整合網(wǎng)絡現(xiàn)有資源如“哈工大停用詞詞庫”、“四川大學機器學習智能實驗室停用詞庫”以及“百度停用詞表”等綜合整理生成停用詞表,共1 598個。采用Python和jieba分詞工具去除停用詞,處理結果為“汽車 領域 發(fā)動機 變速箱 組合”,完成分詞處理過程。

        (2)構建產(chǎn)品屬性領域詞典 針對某一產(chǎn)品屬性詞往往有多種描述方式,需預先構建產(chǎn)品屬性詞庫。國內(nèi)外關于產(chǎn)品領域詞典的構建方法較為成熟[35-37],因云服務平臺在線文本具備內(nèi)容高領域專業(yè)特征與網(wǎng)絡用詞不規(guī)范化兩種屬性,需參考文獻[35]半監(jiān)督中思路構建汽車領域詞典,首先綜合采用HMM模型(hidden Markov model)、詞頻排序以及專家修正構建領域文本庫,其次基于HMM-CWS(hidden Markov model-Chinese word segmentation)技術從領域文本庫中提取出專業(yè)詞典。產(chǎn)品屬性領域詞典用于識別、篩選縱向挖掘過程中的用戶偏好產(chǎn)品層次屬性,對于文本中未出現(xiàn)的用戶偏好內(nèi)容不進行識別。

        (3)生成為hLDA模型輸入文件 hLDA建模時,依據(jù)案例文本中每個詞語賦唯一編號,生成“編號-詞語”詞表文件,而后統(tǒng)計文本詞頻,最終轉化為“5:1 3:1 4:1 8:1 6:1”輸入格式,表明通過分詞處理后,該文本含有5個非重復詞語,其中5、3、4、8、6分別對應詞語:汽車、領域、發(fā)動機、變速箱、組合,且各出現(xiàn)了1次。

        步驟3層次結構挖掘的參數(shù)設置。利用hLDA模型進行層次主題挖掘需設置nCRP參數(shù)r、主題先驗參數(shù)η以及層次樹的深度參數(shù)L。

        nCRP參數(shù)γ與主題先驗參數(shù)η決定層次主題樹的大小。實驗表明,當γ取值較小時(如γ=0.2),生成文本主題路徑較少,當取值從0.5向2.0變化時,各層詞語分布趨于平均;η取值不同時,路徑發(fā)生顯著變化,且詞匯分布流動較大。相關研究表明[38],當產(chǎn)品屬性個數(shù)接近20可滿足用戶需求的獲取,因此反復試驗得:η=40,γ=1.0。

        L控制主題層次樹的層數(shù),L越大層數(shù)越多,則運行的穩(wěn)定性越差。用戶通常針對產(chǎn)品進行2~3層縱向描述[39],為便于對產(chǎn)品屬性層次樹進一步地修繕,L取3。

        步驟4利用Gibbs抽樣。為獲得相似概率分布的樣本構建馬爾可夫鏈[39],通過Gibbs抽樣獲取文本詞語的主題概率分布和路徑分布,構建初始產(chǎn)品屬性層次樹。馬爾科夫鏈的收斂受迭代次數(shù)的影響,為保證總主題數(shù)接近20,分別選取5 000、10 000、15 000、20 000的迭代次數(shù)進行實驗。實驗中,路徑變化趨向于穩(wěn)定狀態(tài),表明迭代次數(shù)的設定對詞分布影響較小。因此,綜合考慮運行時間成本,最終實驗的迭代次數(shù)為10 000。

        2.3 基于hLDA和TextRank用戶偏好產(chǎn)品屬性獲取模型

        將用戶偏好產(chǎn)品屬性獲取問題轉換為關鍵詞獲取問題,進而置換為通過文本內(nèi)部詞語之間的結構關系推算產(chǎn)生的重要性排序問題。基于文本詞語相似性以及共現(xiàn)度生成關鍵詞圖,采用TextRank優(yōu)化算法進行排序。

        TextRank句子間橫向關聯(lián)性考慮由算法PageRank演變,表達式如式(3)所示。其中節(jié)點重要性為S(vn),表示第n個句子權重取決于指向該節(jié)點的節(jié)點分配給該節(jié)點的權重比,指向節(jié)點vn的數(shù)據(jù)集為In(vn);vn指向其余節(jié)點的數(shù)據(jù)集為Out(vn);阻尼系數(shù)d取0.85;節(jié)點隨機跳轉概率為(1-d)。

        (3)

        文本Si由wn,m文本中的詞語(候選關鍵詞)構成,將Si進行分詞預處理,得到Si=[wn,1,wn,2,…,wn,m],然后,構建候選關鍵詞圖G=(V,E),V=[w1,w2,…,wi]為節(jié)點集,E為節(jié)點間依據(jù)橫向關聯(lián)關系生成邊的集合,k為窗口長度,兩點間邊(wn,wm)的權重可表示為e(wn,wm),通過式(4)余弦相似度,考慮詞語主題相似性,得到TextRank的表達式(5):

        e(ωn,ωm)=sim(ωn,ωm)=

        (4)

        WS(vn)=(1-d)+d×

        (5)

        式(5)中WS(vn)表示第n個句子權重,求和計算其貢獻程度。分子Vn,m表示句子n、m的相似度,分母為相對應部分句子權重之和,WS(vj)則為迭代前一次j的權重。

        (6)

        (7)

        綜合權重因素與相似度因素后,主題t中節(jié)點詞語wn影響力表達式式(8)所示,歸一化處理后如式(9)所示,該值即主題t中其他節(jié)點跳轉到該節(jié)點概率。

        WTt,n=KRt,n×AVG_PMIt,n,

        (8)

        (9)

        綜上,式(5)變更為式(10)。當?shù)料噜弮纱芜^程中節(jié)點重要程度值小于0.000 1時或迭代達100次時算法終止。

        WS(vn)=(1-d)·RJPt+n+z×

        (10)

        依此所獲偏好詞重要度排序,用于后續(xù)對初始產(chǎn)品屬性層次樹進行進一步地修繕、提取。具體分為3個步驟(如圖6)如下:

        步驟1依據(jù)主題文本數(shù)量修繕初始產(chǎn)品屬性層次樹,主題文本數(shù)量多少在一定程度上反映產(chǎn)品屬性關注度。將主題文本數(shù)量進行同層比對,去除較小文本數(shù)量的主題。修繕后的主題層次樹如圖6b所示。

        步驟2依據(jù)主題重要性提取產(chǎn)品屬性,經(jīng)過優(yōu)化后TextRank算法對詞語重要性進行排序得到關鍵詞和對應的權重。關鍵詞的權重越高表明用戶在文本中提及該詞頻率越高,故可通過關鍵詞權重高低反映用戶在文本中的關注點。比對同層主題權重,提取初始產(chǎn)品屬性層次樹中權重較高的屬性詞。形成如圖6c所示的提取后產(chǎn)品屬性層次樹。

        步驟3基于每個主題下高關注度詞語,完善初始產(chǎn)品屬性層次樹。需要對初始產(chǎn)品屬性層次樹缺失的產(chǎn)品屬性進行完善,最終形成如圖6d所示的用戶偏好產(chǎn)品屬性層次樹。此時層次樹中的所有節(jié)點詞語即為用戶偏好關注的產(chǎn)品屬性。

        3 實驗驗證與分析

        考慮到問題標題文本高度濃縮以及偏好詞的覆蓋性與差異性的特點,本文以“橙色·云工業(yè)產(chǎn)品協(xié)同研發(fā)”平臺“汽車工業(yè)”問題文本數(shù)據(jù)作為研究對象,運用所提方法挖掘分析問題文本數(shù)據(jù),從而獲取用戶偏好產(chǎn)品屬性。其具體流程包括文本數(shù)據(jù)獲取及預處理、用戶偏好產(chǎn)品屬性獲取和實驗結果分析3個部分。

        3.1 文本數(shù)據(jù)獲取及預處理

        通過Python語言編寫網(wǎng)絡爬蟲爬取“橙色·云工業(yè)產(chǎn)品協(xié)同研發(fā)”平臺“汽車工業(yè)”共46 207條問題文本數(shù)據(jù)進行實例驗證。對文本數(shù)據(jù)進行預處理保證文本數(shù)據(jù)的準確性,刪除重復的、含有廣告的以及內(nèi)容無參考價值的文本,最終得到44 132條文本數(shù)據(jù),示例如表1所示。

        表1 “橙色·云工業(yè)產(chǎn)品協(xié)同研發(fā)”平臺“汽車工業(yè)”問題數(shù)據(jù)示例

        3.2 用戶偏好產(chǎn)品屬性獲取

        用戶偏好產(chǎn)品屬性獲取過程共分為文本數(shù)據(jù)預處理、構建初始產(chǎn)品層次樹、獲取候選偏好詞和構建產(chǎn)品屬性層次樹4個步驟,具體如下。

        步驟1文本數(shù)據(jù)預處理。

        統(tǒng)計44 132條文本中詞語詞頻并賦唯一編號,則表1文本數(shù)據(jù)對應生成如圖7所示hLDA模型輸入文件。文件的每一行代表一條問題數(shù)據(jù)文本,且已標明每一非重復詞語在該條文本中出現(xiàn)的次數(shù)。例如,文件中的第00004行對應表1中第4條文本,“8 5:1 27:2 759:2 10253:1 984:1 4569:1 4:1”,表示文本分詞處理后含有8個非重復詞語,其中“汽車”編號為5出現(xiàn)一次;“輪胎”、“螺絲”分別編號為27、759各出現(xiàn)兩次;“數(shù)量”、“安全”、“緊固”、“自鎖”以及“原理”均出現(xiàn)一次,分別對應編號10 253、984、4 569和4。

        步驟2構建初始產(chǎn)品層次樹。

        通過反復嘗試以保證20個左右的總主題數(shù)進行參數(shù)設置,其結果為:r取1,η取40,L取3。Gibbs抽樣后刪除文本數(shù)較小主題,結合文獻[35]中所構建汽車屬性詞典得到初始產(chǎn)品屬性層次樹。

        步驟3獲取候選偏好詞。

        為直觀對比2.3節(jié)中所提考慮節(jié)點主題影響力因素的TextRank算法與傳統(tǒng)方法的差異,將三組顯著差異化的抽取結果進行對比。如表2中主題詞語“動力”中所示的節(jié)點集“發(fā)動機”、“空間”、“耗電”、“空氣阻力”、“座椅”、“傳動比”、“引擎”的加權無向圖中,屬性詞“空氣阻力”、“引擎”、“傳動比”在給定主題后,出現(xiàn)概率顯著提高,屬性詞“空間”、“耗電”、“座椅”因與“動力”相關性相較低,出現(xiàn)概率降低。而采用原始TextRank方法時,以上詞語的出現(xiàn)概率無明顯變化,證明將節(jié)點的主題影響力融入到TextRank的迭代中的方法能更有效地獲取產(chǎn)品屬性詞。

        表2 偏好詞(關鍵詞)詞語

        步驟4構建產(chǎn)品屬性層次樹。根據(jù)候選偏好詞構建如圖8所示用戶偏好的汽車屬性層次樹。結構樹中的詞語則表示用戶在汽車方面關注偏好的產(chǎn)品屬性。

        3.3 實驗結果分析

        3.3.1 模型有效性分析

        為驗證模型有效性,將TextRank方法、hLDA方法與本文hLAT方法所獲取的5個偏好詞(關鍵詞)結果進行兩兩對比,獲取結果如圖9所示。

        共現(xiàn)詞數(shù)與共現(xiàn)頻數(shù)越大,則表明二者算法所得結果愈接近。其中,對比hLAT方法與TextRank方法,有3個相同偏好詞的文本數(shù)量為317、4個相同偏好詞的文本數(shù)量為433、5個的則為95,共占實驗文本總數(shù)量的86.67%,表明hLAT充分保留了TextRank考慮文本橫向關聯(lián)性實現(xiàn)偏好詞提取的優(yōu)勢。hLAT方法和hLDA方法對比中,共現(xiàn)詞語數(shù)量為3、4、5的文本數(shù)量分別為312、177和45,共計59.65%,反映出hLAT較好利用了文本縱向層次主題信息。而通過折線圖分布后半部分可得,方法hLDA和方法TexRank各有優(yōu)點但存在明顯差異。綜上,hLAT綜合利用了文檔的內(nèi)部橫向結構特點和外部縱向主題層次特點,偏好詞獲取結果具有準確有效的優(yōu)勢。

        為進一步分析TextRank方法、hLDA方法與本文hLAT方法的差異性,建模結果如表3所示。

        以表3中主題“材質(zhì)”為例分析,TextRank與hLDA方法中可以表現(xiàn)該主題與材質(zhì)具有一定關聯(lián)性,但缺乏邏輯與層次性。原因在于:①TextRank在文本的橫向關聯(lián)性結構特征方面取得了較好的結果,但并未充分挖掘文本內(nèi)容所蘊涵的縱向層次主題語義特征信息,僅融合詞頻、語句位置等基本統(tǒng)計特征或句間相似度等淺層次語義特征,導致所獲取的偏好詞與文本主題的相關性較差;②hLDA方法未充分考慮文檔內(nèi)部橫向關聯(lián)性,主題性屬性詞語占據(jù)結果過多。通過建模結果可得,hLAT方法同時保留了文檔的內(nèi)部橫向結構特點和外部縱向主題層次特點,能直觀地看出其主題含義具有層次性,獲得最佳偏好詞提取效果。

        3.3.2 模型準確性分析

        為驗證模型準確性,將本文hLAT(hLDA+TextRank)方法與hLDA方法、TextRank方法以及文獻[40]所提LDA+TextRank(LAT)偏好詞(關鍵詞)獲取方法進行比較。驗證分析過程共分為兩部分。

        首先,運用準確率(precision)、召回率(recall)和(F-measure)驗證偏好詞的獲取準確性,如式(9)~式(11)。其中nl代表偏好詞數(shù),nc代表獲取出偏好詞中的偏好詞數(shù),na代表獲取出的偏好詞總數(shù)。滑動窗口長度取K=12[40],單篇抽取關鍵詞數(shù)為5,阻尼系數(shù)取μ=0.85,不同方法的部分獲取結果如表4所示。

        (11)

        (12)

        (13)

        由表4可得,由于在線短文本能夠提供的信息量較少且容易摻雜干擾性詞語,僅使用基于TextRank或基于hLDA的方法獲取在線短文本偏好詞模型性能較低;而LAT方法與本文hLAT方法彌補了其他兩種方法的缺陷,在召回率和準確率上顯著提升。進一步對比發(fā)現(xiàn),本文hLAT方法因其考慮產(chǎn)品屬性縱向層次性特點,偏好詞獲取效果優(yōu)于LAT方法。

        其次,利用困惑度方法進一步評測模型優(yōu)劣性。困惑度常用于度量模型的預測能力和泛化能力,其值越小則模型建模能力越優(yōu)。困惑度表達式如式(14)所示,式中Ni表示第i篇文本的總詞數(shù);Wi表示第i篇文本中可觀測到的詞語;M為文本庫中的文本總數(shù)。

        (14)

        按照式(14)分別計算不同主題數(shù)下LAT模型、hLAT模型、hLDA模型以及TextRank模型的困惑度值,其對比結果如圖10所示。

        由圖10可知,4種方法的困惑度值均隨著主題數(shù)的不斷增加而減小。但hLAT模型的困惑度曲線始終位于曲線最下方,證明在不同主題數(shù)下hLAT模型的預測能力和泛化能力最優(yōu)。

        3.3.3 模型時效分析

        為綜合評價hLAT模型優(yōu)勢與缺點,將模型訓練時效作為有效性考量標準。對比LAT與hLAT模型對同一文本數(shù)據(jù)集進行用戶偏好產(chǎn)品屬性挖掘所需的訓練時間并記錄分析。其中LAT各步驟耗時記為LTi、hLAT各步驟耗時記為hTi,具體實驗過程如下:

        (1)采用Windows 10操作系統(tǒng)與Python和jieba分詞工具對46 207條問題文本數(shù)據(jù)預處理,而后兩者均需構建領域本體詞典,分別記錄二者這一過程起止時間為LT0、hT0

        (2)人為給定20個主題個數(shù)進行挖掘,分別使用(1)中所構建文本庫訓練hLAT模型和LAT模型,分別記錄二者在各自步驟的起止時間。首先hLAT采用hLAD進行縱向層次性挖掘;LAT模型基于LDA對文檔集合進行文本建模,所用時長分別記為LT1、hT1。其次,二者均考慮主題影響力因素,迭代計算實現(xiàn)節(jié)點的重要性排序,進而完成關鍵詞抽取,記時為LT2、hT2。最后,hLAT需進一步根據(jù)偏好詞重要度排序進行修繕,所耗時長記為hT3。

        (3)加和各部分所用時間,分析模型時效性。通過多次重復對比,人為設定數(shù)據(jù)規(guī)模與主題詞個數(shù)的情況下,hLAT模型耗時長于LAT模型約5min。

        通過對各個步驟耗時分析原因:其中LT0=hT0、LT2=hT2、LT1小于hT1,因hLDA層次主題模型相較于LDA主題模型除考慮主題分布概率外,還需進一步挖掘文本中所蘊含的主題層次關系,采用nCRP生成深度為L主題路徑并重復地沿該路徑抽取主題過程中耗費時間;另外hT3為主要耗時步驟,為提高獲取用戶偏好產(chǎn)品屬性準確度而進行層次樹的后續(xù)修改與完善。綜上所述,本文所提方法耗時比較大是因其在挖掘過程中考慮縱向層次特性,且獲取結果進一步提升了偏好詞獲取準確性。

        4 結束語

        本文著力于提升面向云服務平臺的用戶偏好獲取的高效準確性,提出了考慮產(chǎn)品屬性縱向層次性、在線短文本橫向關聯(lián)性的hLAT用戶偏好動態(tài)獲取方法。通過對比分析證明所提出方法的科學性和有效性,其建模結果主題含義具有更優(yōu)的可解釋性、預測能力與泛化能力,為實現(xiàn)在線短文本的用戶偏好獲取提供了新思路;為下一步面向云服務平臺用戶個性化服務,以及更好的提取用戶需求提供有效支持。

        由于本文采用人工設定hLDA模型中主題先驗參數(shù)η、層次樹的深度參數(shù)L和nCRP參數(shù)r,未采取更加客觀準確的設定方式,產(chǎn)品層次性考慮難免存在不夠精確的現(xiàn)象,進而對偏好詞(關鍵詞)共現(xiàn)產(chǎn)生了一定干擾性。后續(xù)研究將進一步思考與解決以上問題。

        猜你喜歡
        文本用戶產(chǎn)品
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        2015產(chǎn)品LOOKBOOK直擊
        Coco薇(2015年1期)2015-08-13 02:23:50
        如何獲取一億海外用戶
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        新產(chǎn)品
        玩具(2009年10期)2009-11-04 02:33:14
        亚洲va久久久噜噜噜久久男同| 久久婷婷国产色一区二区三区| 日本不卡一区二区三区在线视频| 99久久婷婷国产综合亚洲| 中国猛少妇色xxxxx| 97精品国产高清自在线看超| 在线观看国产激情免费视频| 国产精品无码一区二区三区在| 国产女主播喷水视频在线观看| 国产午夜精品福利久久| 精品在线亚洲一区二区三区| 免费av片在线观看网址| 国产精品久久久久久亚洲av| 亚洲A∨无码国产精品久久网| 国产a v无码专区亚洲av| 亚洲a人片在线观看网址| 一区二区精品天堂亚洲av| 国产又猛又黄又爽| 国产精品美女久久久浪潮av| 一区二区无码精油按摩| 中文字字幕在线中文乱码解| 久久9精品区-无套内射无码| 狠狠狠色丁香婷婷综合激情| 国产内射视频免费观看| 亚洲色一区二区三区四区| 伊人色综合视频一区二区三区| 久久久久一| 亚洲熟女乱一区二区三区| 男女啪动最猛动态图| 99视频这里有精品| 国内精品国产三级国产avx| 久久亚洲av成人无码电影| 欧美日韩亚洲国产精品| 伊在人亚洲香蕉精品区麻豆| 日韩精品中文字幕一区二区| 亚洲av日韩av在线观看| 久久国产亚洲AV无码麻豆| 久久精品国产福利亚洲av| 亚洲中文字幕无码av永久| 国产av一区二区三区日韩 | 中文字幕人成人乱码亚洲av|