亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于種子約束LDA的產(chǎn)品屬性提取方法

        2022-07-08 01:50:04陳可嘉鄭晶晶
        關(guān)鍵詞:提取

        陳可嘉 鄭晶晶

        (福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福建 福州 350116)

        近年來,由于互聯(lián)網(wǎng)的高速發(fā)展,人們可以在網(wǎng)上自由地發(fā)表對(duì)產(chǎn)品的觀點(diǎn),給商家和意向購(gòu)買者帶來了很大的影響。對(duì)商家而言,評(píng)論自由為其同時(shí)帶來了機(jī)遇和挑戰(zhàn),用戶評(píng)論影響著意向購(gòu)買者的購(gòu)買決策,而商家也能在評(píng)論中挖掘用戶的需求,更有針對(duì)性地促進(jìn)產(chǎn)品的革新;對(duì)意向購(gòu)買者而言,可以通過評(píng)論的閱讀來判斷產(chǎn)品是否滿足自己的真正需求,從而減少由于商家單方面信息傳遞而造成的錯(cuò)誤購(gòu)買決策。然而,商家如何從大量的評(píng)論中挖掘用戶的真正需求,意向購(gòu)買者又該如何從千萬條評(píng)論中快速了解產(chǎn)品是否真正滿足自己的需求,成為近年的學(xué)術(shù)研究熱點(diǎn)[1-4]。目前大多數(shù)意見挖掘的研究主要包括兩部分:產(chǎn)品屬性提取和評(píng)論情感分類[5-6]。在產(chǎn)品屬性提取的相關(guān)研究中,有的文獻(xiàn)表述為產(chǎn)品屬性提取或抽取[7-8],有的文獻(xiàn)表述為產(chǎn)品特征提取[9-10],實(shí)際上研究對(duì)象一致,都是為了提取出產(chǎn)品屬性,進(jìn)而可以將評(píng)論按照描述屬性的不同進(jìn)行分類展示,從而意向購(gòu)買者可以根據(jù)自己的需求進(jìn)行選擇性瀏覽,提高閱讀效率,而商家也可以根據(jù)用戶對(duì)不同產(chǎn)品屬性的需求進(jìn)行分析。因此,產(chǎn)品屬性提取是一項(xiàng)關(guān)鍵的工作。

        目前有學(xué)者使用基于詞頻和共現(xiàn)的方法提取產(chǎn)品屬性。如劉臣等[9]利用特征詞和觀點(diǎn)詞共現(xiàn)的關(guān)系,構(gòu)建二分網(wǎng)絡(luò),并且創(chuàng)新性地提出了加權(quán)二分網(wǎng)絡(luò),以特征詞-觀點(diǎn)詞對(duì)按照節(jié)點(diǎn)重要性進(jìn)行排序,從而找出特征-觀點(diǎn)詞。劉通等[10]利用邊界平均信息熵的方法提取產(chǎn)品特征(即認(rèn)為一個(gè)詞的左右邊界的信息熵越大,該詞左右兩邊的詞的種類越多,那么該詞作為一個(gè)獨(dú)立的詞的概率越大),并基于該方法自動(dòng)提取具有名詞短語(BNP)模式的候選產(chǎn)品特征,之后應(yīng)用子串過濾方法篩選產(chǎn)品特征。周清清等[7]基于詞頻提取高頻名詞并作為候選屬性詞,接著基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的詞向量進(jìn)行屬性詞聚類,從而得到產(chǎn)品屬性集。

        還有學(xué)者提出利用依賴規(guī)則提取產(chǎn)品屬性。如郗亞輝[11]發(fā)現(xiàn)句子中產(chǎn)品的特征詞和描述這個(gè)特征的觀點(diǎn)詞存在一定的共現(xiàn)規(guī)則,因此通過對(duì)句子的分析,發(fā)現(xiàn)兩者之間的共現(xiàn)規(guī)則后,可以對(duì)句子進(jìn)行雙向循環(huán)提取,即利用觀點(diǎn)詞發(fā)現(xiàn)它所描述的特征詞,再利用特征詞尋找描述它的觀點(diǎn)詞,直至無法發(fā)現(xiàn)新詞時(shí)結(jié)束循環(huán)。Rana等[12]通過研究用戶行為發(fā)現(xiàn)產(chǎn)品特征和觀點(diǎn)詞之間的依賴關(guān)系,并采用序列模式挖掘算法提取產(chǎn)品特征。

        借助機(jī)器學(xué)習(xí)方法提取產(chǎn)品屬性,同樣備受學(xué)者們的關(guān)注。余琦瑋等[13]提出利用條件隨機(jī)場(chǎng)對(duì)產(chǎn)品特征詞進(jìn)行提取,首先分析句法結(jié)構(gòu),然后設(shè)計(jì)出規(guī)則作為條件隨機(jī)場(chǎng)的特征模板,最后證實(shí)該方法有效。Poria等[14]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和文本語義來標(biāo)記文本中的屬性詞,通過實(shí)驗(yàn)證實(shí)使用該方法提取產(chǎn)品屬性能夠有效提高準(zhǔn)確率。

        在基于詞頻和共現(xiàn)的研究中,由于沒有考慮文本的語義關(guān)系,常常將相同產(chǎn)品屬性視為不同;在基于句法依存關(guān)系的研究中,雖然考慮了文本的語義,但由于人們?cè)u(píng)論的隨意性且無法羅列所有的句法結(jié)構(gòu),導(dǎo)致部分產(chǎn)品的屬性和觀點(diǎn)詞對(duì)的提取比較困難;在基于機(jī)器學(xué)習(xí)方法的研究中,需要大量的人工標(biāo)注,耗費(fèi)人工成本。因而近年來,很多學(xué)者使用隱含 Dirichlet分布(LDA)模型進(jìn)行產(chǎn)品屬性提取。LDA模型屬于無監(jiān)督模型,無需耗費(fèi)人工成本,同時(shí)還能根據(jù)詞語共現(xiàn)的頻率,將具有相同語義的文本進(jìn)行主題歸類,因此LDA模型在產(chǎn)品屬性詞提取領(lǐng)域具有顯著的優(yōu)勢(shì)。

        學(xué)術(shù)界在經(jīng)典LDA模型基礎(chǔ)上進(jìn)行多角度改進(jìn),不斷提高屬性提取的準(zhǔn)確性。彭云等[15]通過句法分析、詞義理解等獲取詞語之間的語義關(guān)系,構(gòu)建語義關(guān)系圖,將語義約束關(guān)系作為L(zhǎng)DA模型訓(xùn)練的條件,使得相同主題下的詞語語義更加一致。蔡永明等[16]先構(gòu)建詞匯社交網(wǎng)絡(luò),并在傳統(tǒng)LDA模型的吉布斯采樣過程中加入共詞網(wǎng)絡(luò)的約束,使得相同搭配關(guān)系的詞語盡可能分配在同一主題下。陳琪等[17]利用支持向量機(jī)對(duì)移動(dòng)應(yīng)用評(píng)論按照問題類型的不同進(jìn)行分類,并在此基礎(chǔ)上使用LDA模型分別對(duì)不同類型的問題進(jìn)行主題提取。仇光等[8]提出了基于正則化LDA模型的隱式產(chǎn)品屬性抽取方法。

        現(xiàn)有關(guān)于LDA模型的研究主要存在如下問題:①對(duì)長(zhǎng)評(píng)論文本進(jìn)行建模時(shí),由于評(píng)論者往往同時(shí)對(duì)多個(gè)產(chǎn)品屬性進(jìn)行描述,而LDA模型會(huì)將這些頻繁共現(xiàn)的不同屬性類別詞歸為一類,容易出現(xiàn)多屬性類共現(xiàn)問題。因而有學(xué)者提出對(duì)句子級(jí)別的評(píng)論(短文本)進(jìn)行建模[18],但短文本過于稀疏,詞共現(xiàn)較少,LDA模型的處理效果并不理想[19]。②LDA模型在吉布斯采樣過程中,沒有任何約束,詞-主題分配具有隨機(jī)性,因此訓(xùn)練結(jié)果準(zhǔn)確性不高。③LDA模型生成的主題具有重復(fù)性,即存在多個(gè)主題描述同一屬性類別的情況,不適合直接作為產(chǎn)品屬性提取的結(jié)果。

        針對(duì)這些問題,本文引入文檔重組思路[20],構(gòu)建基于種子約束的LDA模型(SC-LDA),提出了基于SC-LDA的產(chǎn)品屬性提取方法。首先,針對(duì)中文數(shù)據(jù)集,在文檔初次重組基礎(chǔ)上,提出利用Apriori算法進(jìn)行文檔二次重組,使二次重組后的文檔只對(duì)一個(gè)產(chǎn)品屬性進(jìn)行描述,以解決長(zhǎng)文本多屬性類共現(xiàn)以及短文本稀疏性問題,提高文檔重組率,挖掘出更多的產(chǎn)品屬性類別;然后,利用must-link和cannot-link[21]兩種種子約束定義概率擴(kuò)縮值,通過對(duì)吉布斯采樣過程的約束,使相同類別的種子盡可能分配到相同的主題,不同類別的種子盡可能分配到不同的主題,從而使主題分布更具有現(xiàn)實(shí)意義,提高訓(xùn)練結(jié)果的準(zhǔn)確性,并在此基礎(chǔ)上對(duì)SC-LDA模型的吉布斯采樣過程進(jìn)行推斷,得到模型參數(shù);最后,將SC-LDA模型生成的主題映射到先驗(yàn)屬性類別上,以避免出現(xiàn)屬性類別重復(fù)以及歸類不清的情況。

        1 產(chǎn)品屬性提取方法

        本文主要通過對(duì)經(jīng)典LDA模型進(jìn)行改進(jìn),從而達(dá)到更好提取產(chǎn)品屬性的目的。產(chǎn)品屬性提取的流程如圖1所示。

        圖1 產(chǎn)品屬性提取的流程圖Fig.1 Flow chart of product attributes extraction

        1.1 數(shù)據(jù)準(zhǔn)備

        (1)產(chǎn)品評(píng)論處理。首先,利用爬蟲軟件在各大電子商務(wù)網(wǎng)站爬取同一類產(chǎn)品的評(píng)論。然后對(duì)評(píng)論句子進(jìn)行分割。由于長(zhǎng)評(píng)論常??赡芎袑?duì)多個(gè)產(chǎn)品屬性的描述,這種多屬性共現(xiàn)的情況會(huì)影響LDA模型的訓(xùn)練結(jié)果。因此需要進(jìn)行句子分割,分割出句子級(jí)評(píng)論,使得每條評(píng)論只對(duì)一個(gè)產(chǎn)品屬性進(jìn)行描述。由于人工進(jìn)行句子分割,工作量大,因此本文使用機(jī)器自動(dòng)分割,即利用Python技術(shù),對(duì)從電子商務(wù)網(wǎng)站爬取的評(píng)論以句號(hào)、分號(hào)、感嘆號(hào)等作為斷句標(biāo)準(zhǔn)重新分割出句子級(jí)評(píng)論。具體的句子分割過程偽代碼如下:

        {輸入:需進(jìn)行句子分割的評(píng)論文本

        輸出:完成句子分割的各句子級(jí)評(píng)論

        分割后句子集評(píng)論=[]

        for 字符 in評(píng)論文本 do

        拼接后字符+=當(dāng)前字符

        if 當(dāng)前字符已是評(píng)論文本最后一位 then

        分割后句子集評(píng)論.append(拼接后字符)

        break

        if 當(dāng)前字符 in 分割字句標(biāo)識(shí)符 then

        分割后句子集評(píng)論.append(拼接后字符)

        拼接字符=“”}

        最后,用結(jié)巴分詞工具包[22]對(duì)斷句后的句子級(jí)評(píng)論進(jìn)行分詞。結(jié)巴分詞是基于詞典的一種方法,具體步驟如下:①事先構(gòu)造詞典,再利用詞典對(duì)句子進(jìn)行分詞,獲取一個(gè)句子所有可能的分詞結(jié)果,并構(gòu)造有向無環(huán)圖;②基于動(dòng)態(tài)規(guī)劃法找到最大概率路徑,獲取基于詞頻的最大切分組合;③利用基于漢字成詞能力的隱馬爾可夫模型處理未登錄詞,并使用維特比(Viterbi)算法進(jìn)行計(jì)算及詞性標(biāo)注。

        (2) 產(chǎn)品詳細(xì)參數(shù)處理。首先人工從各大電子商務(wù)網(wǎng)站獲取產(chǎn)品詳細(xì)參數(shù)(產(chǎn)品說明書)。產(chǎn)品詳細(xì)參數(shù)一般都是按照產(chǎn)品屬性類別對(duì)產(chǎn)品參數(shù)進(jìn)行分類描述且已分好屬性類別,因而作為屬性種子的生成來源具有專業(yè)性和針對(duì)性等優(yōu)勢(shì)。然后將描述相同產(chǎn)品屬性類別的參數(shù)匯總在一起。最后用結(jié)巴分詞工具包對(duì)所有詳細(xì)參數(shù)分類匯總后的文檔進(jìn)行分詞。

        1.2 生成初始屬性種子集

        TF-IDF算法[23]是一種基于統(tǒng)計(jì)的方法,可以算出一個(gè)詞對(duì)一篇文檔的重要程度,即可以獲取一篇文檔的主題。如果一個(gè)詞在一篇文檔中多次出現(xiàn),而又很少出現(xiàn)在其他文檔中,那么可以說這個(gè)詞是這篇文檔的關(guān)鍵詞。因此,一個(gè)詞的VTF-IDF值越大,說明該詞對(duì)該文檔的代表性越強(qiáng),其計(jì)算公式如下:

        VTF-IDF=rTFrIDF

        (1)

        rTF=Nwd/Nd

        (2)

        (3)

        式中,rTF為詞語w在文檔d中出現(xiàn)的頻率,rIDF為詞語w的逆向文件頻率,Nwd為詞語w在文檔d中出現(xiàn)的次數(shù),Nd為文檔d中所有的詞語數(shù),NT為語料庫(kù)的文檔總數(shù),NT,w為語料庫(kù)中包含詞語w的文檔數(shù)。

        將所有分詞后的產(chǎn)品屬性參數(shù)的分類匯總文檔作為TF-IDF算法的輸入,計(jì)算出每個(gè)屬性類別的關(guān)鍵詞,作為每個(gè)屬性類別的初始屬性種子,分類匯總后得到初始屬性種子集。如此生成的屬性種子,對(duì)其相應(yīng)屬性類別有很強(qiáng)的代表性,可以作為文檔重組的依據(jù)。

        1.3 文檔初次重組

        將初始屬性種子作為文檔初次重組的依據(jù),對(duì)分詞后的評(píng)論進(jìn)行初次重組,即將含有相同初始屬性種子的句子級(jí)評(píng)論重組成一個(gè)文檔。這樣能夠保證初次重組后文檔只對(duì)某一產(chǎn)品屬性進(jìn)行描述,同時(shí)還擴(kuò)大文檔的長(zhǎng)度。因此,文檔重組能夠解決長(zhǎng)文本多屬性類共現(xiàn)問題和短文本稀疏性問題。

        將所有重組后的文檔匯整為初次重組文檔集;另一部分句子級(jí)評(píng)論由于不含有初始屬性種子而無法重組,匯整為未重組評(píng)論集。

        1.4 文檔二次重組

        初始屬性種子大多屬于專業(yè)術(shù)語,而人們?cè)谠u(píng)論時(shí)往往隨意且口語化,常常對(duì)專業(yè)術(shù)語用不同的詞語進(jìn)行描述,導(dǎo)致文檔重組時(shí)很大一部分評(píng)論由于不含屬性種子而無法重組,從而造成信息缺失。因此,需要對(duì)未重組評(píng)論集進(jìn)行文檔二次重組,具體步驟如下:

        (1)采用Apriori算法[24]提取頻繁項(xiàng)。先使用結(jié)巴詞性解析工具去除未重組評(píng)論集中的非名詞,再利用Apriori算法提取未重組評(píng)論集中的頻繁項(xiàng)集(在支持度排序下的前300個(gè)項(xiàng)集),從而獲得未重組評(píng)論集中出現(xiàn)較為頻繁的詞語,作為下一輪文檔二次重組的依據(jù)。頻繁出現(xiàn)的詞語具有較好的代表性,且作為二次重組依據(jù)能夠提高文檔的重組率。

        (2)去除非屬性詞。由頻繁項(xiàng)集生成的高頻詞中會(huì)含有非屬性詞,如“爸媽”、“男朋友”、“兒子”等,這些詞具有干擾性,需要將這些詞語去除,生成最終頻繁種子集。

        (3)二次重組文檔。根據(jù)最終頻繁種子集對(duì)未重組評(píng)論集進(jìn)行二次重組,即將含有相同頻繁種子的句子級(jí)評(píng)論重組成一個(gè)文檔,并將二次重組后的文檔匯整為二次重組文檔集。

        (4)匯總兩次文檔重組結(jié)果。匯總兩次重組得到的文檔,作為SC-LDA的輸入。

        1.5 SC-LDA模型

        1.5.1 種子約束

        加入種子約束,可以使得相同主題(產(chǎn)品屬性類別)下的主題詞(產(chǎn)品屬性詞)盡可能描述同一類產(chǎn)品屬性,不同主題下的主題詞盡可能描述不同類產(chǎn)品屬性,提高LDA的主題理解力。

        種子約束類型有must-link和cannot-link兩種。將初始屬性種子集作為種子約束的依據(jù),屬于同一屬性類別的種子具有must-link約束,屬于不同屬性類別的種子具有cannot-link約束。兩種約束的關(guān)系如圖2所示。具有must-link約束的屬性種子在訓(xùn)練過程中盡可能分配相同主題;具有cannot-link約束的屬性種子在訓(xùn)練過程中盡可能分配不同主題。

        圖2 must-link和cannot-link的關(guān)系Fig.2 Relationship between must-link and cannot-link

        (4)

        1.5.2 SC-LDA模型的構(gòu)建

        LDA模型的原理是模擬文檔的生成過程,首先是從一堆主題中確定以哪個(gè)主題為中心,然后選擇中心主題的相關(guān)詞語,最后生成文檔。LDA模型的訓(xùn)練過程采用吉布斯算法進(jìn)行采樣,在已知文檔的情況下,得到生成文檔的主題分布和每個(gè)主題的詞語分布。LDA模型常常作為淺層語義分析的工具,能夠用于提取評(píng)論中的主題詞即產(chǎn)品屬性詞。為了提高LDA模型的提取效果,本文對(duì)經(jīng)典LDA模型進(jìn)行改進(jìn),加入種子約束。本文種子約束LDA(SC-LDA)模型如圖3所示,圖中α為文檔-主題的Dirichlet參數(shù),β為非種子詞主題-詞語的Dirichlet參數(shù),φs為種子約束下主題-詞語分布,zm,n為第m篇文檔第n個(gè)詞語的主題,θm為第m篇文檔-主題分布,φ為無種子約束下主題-詞語分布,S為屬性種子集,wm,n為第m篇文檔的第n個(gè)詞語。

        圖3 SC-LDA模型Fig.3 SC-LDA model

        SC-LDA模型的文檔生成過程如下:

        (1)選擇主題zm,n,即先選擇第m篇文檔的主題分布θm~Dirichlet(α),再選擇第m篇文檔的第n個(gè)詞語的主題zm,n~θm。

        (2)選擇詞語wm,n,即

        ifwm,n∈Sthen

        選擇主題-詞語分布φs~ηDirichlet(β);

        ∥η是種子約束因子

        選擇詞語wm,n~φs;

        else ifwm,n?Sthen

        選擇主題-詞語分布φ~Dirichlet(β);

        選擇詞語wm,n~φ。

        1.5.3 SC-LDA模型的參數(shù)推斷

        由于SC-LDA模型中加入了種子約束,即模型訓(xùn)練過程受到了概率擴(kuò)縮值的影響,因此需要對(duì)吉布斯采樣過程進(jìn)行推斷,從而獲得SC-LDA模型的參數(shù)。SC-LDA模型的參數(shù)推斷過程如下:

        (5)

        p(θm|z,w)p(wζ=t|φk)p(φk|z,w)dθmdφk=ζ=(m,n),是一個(gè)二維下標(biāo),wζ為第m篇文檔的第n個(gè)詞語,w為除ζ以外的所有詞語;zζ為第m篇文檔的第n個(gè)詞語的主題;為第m篇文檔第n個(gè)詞語分配給主題k的概率擴(kuò)縮值;w為所有詞語;z為除了ζ以外所有詞語分配的主題;φk為主題k的詞語分布;θm為第m篇文檔的主題分布;D(θm|Nm,ζ+α)和D(φk|Nk,ζ+β)為兩個(gè)Dirichlet后驗(yàn)分布,Nm,ζ為第m篇文檔中所有主題的數(shù)量分布(除去ζ),Nk,ζ為主題k中所有詞語的數(shù)量分布(除去ζ);θmk為第m篇文檔屬于主題k的后驗(yàn)概率,φkt為主題k出現(xiàn)詞語t的后驗(yàn)概率,這兩個(gè)后驗(yàn)概率在貝葉斯框架下的參數(shù)估計(jì)為

        (6)

        1.6 屬性類別映射

        Word2Vec是用來訓(xùn)練詞向量的雙層神經(jīng)網(wǎng)絡(luò)模型,其中CBOW和Skip-gram是兩個(gè)常用模型。根據(jù)文獻(xiàn)[25]對(duì)CBOW模型和Skip-gram模型的性能對(duì)比結(jié)果,本文采用整體效果更好的Skip-gram模型來訓(xùn)練詞向量。

        主題模型生成的每個(gè)主題都與每個(gè)先驗(yàn)屬性類別(初始屬性種子集中的屬性類別)計(jì)算相似度,具體方法如下:①將某主題中的一個(gè)主題詞與某先驗(yàn)屬性類別中的每個(gè)屬性詞計(jì)算相似度,選擇相似度最大值作為該主題詞與該先驗(yàn)屬性類別的相似度值;②按照相同方式計(jì)算該主題中的所有主題詞與先驗(yàn)屬性類別的相似度值;③將每個(gè)主題詞的相似度值與其權(quán)重相乘后累加得到該主題和先驗(yàn)屬性類別的相似度,其中詞向量間的余弦相似度作為詞語間的相似度,主題模型訓(xùn)練結(jié)果中主題詞在其對(duì)應(yīng)主題下出現(xiàn)的概率作為該主題詞的權(quán)重。

        由于主題模型生成的主題中,存在多個(gè)主題描述同一屬性類別或者主題不屬于先驗(yàn)屬性類別等情況,因此需要對(duì)主題模型生成的主題進(jìn)行屬性類別映射。一般來說,屬性類別映射將生成的主題映射到與其相似度最高的先驗(yàn)屬性類別上。但由于主題模型可能會(huì)生成一些新的、不屬于先驗(yàn)屬性類別的主題,如果采用相似度最高法進(jìn)行映射會(huì)導(dǎo)致錯(cuò)誤歸類。因此,需要計(jì)算生成主題與先驗(yàn)屬性類別相似度的方差,對(duì)于方差小于0.005的生成主題,進(jìn)行人工歸類;對(duì)于方差大于0.005的生成主題,直接映射到與其相似度最高的先驗(yàn)屬性類別上。這樣可以很好地處理生成主題的錯(cuò)誤歸類問題。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 數(shù)據(jù)準(zhǔn)備

        利用八爪魚軟件,采集京東平臺(tái)上截至2019年11月7日關(guān)于手機(jī)類產(chǎn)品的評(píng)論2萬條。其中涉及時(shí)下最熱門的10款手機(jī)的相關(guān)評(píng)論,考慮到單款手機(jī)可能會(huì)出現(xiàn)片面的屬性描述,通過獲取多款手機(jī)產(chǎn)品的評(píng)論數(shù)據(jù)來較為全面地獲取手機(jī)類產(chǎn)品的屬性詞,從而使得本文的屬性提取結(jié)果更具代表性。在線評(píng)論數(shù)據(jù)統(tǒng)計(jì)結(jié)果如表1所示。部分語料樣例如表2所示。為了使每條評(píng)論只對(duì)一個(gè)產(chǎn)品屬性進(jìn)行描述,利用Python技術(shù),以句號(hào)、分號(hào)、感嘆號(hào)等作為斷句標(biāo)準(zhǔn)重新分割出句子級(jí)評(píng)論40 753條。

        表1 在線評(píng)論語料統(tǒng)計(jì)Table 1 Online reviews corpus statistics

        表2 部分語料樣例Table 2 Examples of some corpora

        從中關(guān)村在線的網(wǎng)站上獲取手機(jī)產(chǎn)品的詳細(xì)參數(shù)描述20篇,這些參數(shù)描述即手機(jī)專家對(duì)手機(jī)產(chǎn)品的說明書,具有專業(yè)性,因而有一定的參考價(jià)值。其中手機(jī)屬性參數(shù)分為包括屏幕、性能、相機(jī)、外觀、功能,部分屬性的詳細(xì)參數(shù)描述樣例如表3所示。

        表3 部分屬性的詳細(xì)參數(shù)描述樣例Table 3 Examples of detailed parameter description of some attributes

        2.2 初始屬性種子集的生成

        利用TF-IDF算法對(duì)分詞后的產(chǎn)品屬性參數(shù)分類匯總文檔進(jìn)行關(guān)鍵詞提取,生成初始屬性種子集,如表4所示。

        表4 初始屬性種子集Table 4 Initial attribute seed sets

        2.3 文檔初次重組和文檔二次重組

        斷句后的40 753條句子級(jí)評(píng)論,含有相同初始屬性種子的重組到一個(gè)文檔中,生成58個(gè)初次重組文檔,但是仍有20 846條句子級(jí)評(píng)論由于不含有初始屬性種子而無法進(jìn)行重組。

        本文首先使用Apriori算法提取20 846條未重組評(píng)論集中的前300個(gè)頻繁項(xiàng)集,并去除頻繁項(xiàng)集中的一些非屬性詞,如爸媽、女朋友、男朋友、兒子、女兒等,進(jìn)而生成143個(gè)頻繁種子,構(gòu)成最終頻繁種子集。

        然后,根據(jù)最終頻繁種子集對(duì)20 846條未重組評(píng)論集進(jìn)行二次重組,將含有相同頻繁種子的評(píng)論重組到一個(gè)文檔,最后生成143個(gè)二次重組文檔。

        匯總兩次文檔重組結(jié)果,共有201個(gè)重組文檔。

        2.4 參數(shù)設(shè)置

        在主題模型訓(xùn)練過程中,需要人工按照經(jīng)驗(yàn)確定最終主題數(shù)(即K值),而K值的不同將影響模型的訓(xùn)練效果,因此本文采用文獻(xiàn)[26]方法確定K值:首先用主題的詞概率分布表示主題,接著利用余弦距離計(jì)算主題間的相似度(見式(7)),最后由所有主題間的平均相似度(見式(8))確定主題模型的穩(wěn)定性。平均相似度越小,說明主題模型越穩(wěn)定,此時(shí)的K值越合適。

        (7)

        (8)

        本文對(duì)不同的K值進(jìn)行模型訓(xùn)練,結(jié)果如圖4所示。從圖中可以看出,當(dāng)K=11時(shí),模型最穩(wěn)定。因此,主題模型訓(xùn)練過程中K值取為11。

        圖4 不同K值下主題模型的訓(xùn)練結(jié)果Fig.4 Training results of topic models under different K values

        2.5 屬性類別映射

        將爬取的2萬條評(píng)論分詞后作為詞向量訓(xùn)練文檔。在Python 3.7環(huán)境下,詞向量維度設(shè)定為200,采樣值設(shè)定為0.000 01,窗口大小設(shè)定為5,其他參數(shù)均采用默認(rèn)設(shè)定。經(jīng)過Skip-gram模型訓(xùn)練后,把文本形式的單詞轉(zhuǎn)化成200維向量形式。映射前主題生成結(jié)果如表5所示。從表中可以看出,未映射前主題個(gè)數(shù)為11,主題1和主題5屬于相同的屬性類別,主題3、9、10不屬于任何先驗(yàn)屬性類別。部分主題與先驗(yàn)屬性類別的相似度如表6所示。

        表5 映射前主題生成結(jié)果Table 5 Generation results of topic before mapping

        表6 部分主題與先驗(yàn)屬性類別的相似度Table 6 Similarity of some topics and prior attribute categories

        經(jīng)過方差計(jì)算知道:主題1相似度的值間方差為0.005 1,大于0.005 0,因此將相似度值最大的先驗(yàn)屬性類別作為主題1的映射類別,即主題1描述的都是“外觀”這個(gè)產(chǎn)品屬性類別;主題10相似度的值間方差為0.002 0,小于0.005 0,因此需要人工判定其所屬類別,由于其主題詞大多數(shù)為耳機(jī)、殼、膜、貼膜等手機(jī)配件,不屬于任何先驗(yàn)屬性類別,故將主題10定義為一個(gè)新類別“配件”。

        經(jīng)過屬性類別映射后SC-LDA的屬性詞提取結(jié)果如表7所示,即SC-LDA最終生成的屬性類別有8個(gè),分別為屏幕、性能、相機(jī)、外觀、功能、配件、性價(jià)比、服務(wù)。從表中可以明顯看出,經(jīng)過屬性類別映射后,不再存在重復(fù)類別且類別歸屬清晰,讓人一目了然。

        表7 映射后屬性類別提取結(jié)果Table 7 Extraction results of attribute category after mapping

        2.6 不同方法比較分析

        將本文方法(SC-LDA)與LDA[27]、AP聚類[7]、LDA+初次重組、LDA+二次重組方法進(jìn)行對(duì)比分析。經(jīng)典的LDA模型沒有進(jìn)行文檔重組也沒對(duì)主題分配過程進(jìn)行約束;AP聚類[7]是對(duì)屬性詞進(jìn)行聚類的方法,它是對(duì)詞向量化后的候選屬性詞進(jìn)行聚類,聚類過程沒有進(jìn)行約束;LDA+初次重組是將文檔進(jìn)行初次重組后輸入LDA模型;LDA+二次重組是在初次重組的基礎(chǔ)上對(duì)文檔進(jìn)行二次重組后輸入LDA模型;SC-LDA方法是將二次重組后的文檔輸入基于種子約束的LDA模型。

        2.6.1 定性分析

        5種方法經(jīng)過屬性類別映射后各屬性類別下前5個(gè)屬性詞提取結(jié)果如表8所示。從表8可以發(fā)現(xiàn),由SC-LDA生成的屬性類別有8類,即除了5個(gè)先驗(yàn)屬性類別外,還生成了配件、服務(wù)、性價(jià)比3個(gè)新類別。先驗(yàn)屬性類別是手機(jī)產(chǎn)品的詳細(xì)參數(shù)描述中手機(jī)專家分好的屬性類別,在本文方法下,這5個(gè)類別能夠被生成,說明本文方法符合實(shí)際。文獻(xiàn)[28]生成的屬性中也存在服務(wù)、性價(jià)比、配件,進(jìn)一步說明本文方法生成的屬性類別符合實(shí)際。

        從表8可以看出:LDA+初次重組方法只生成了5個(gè)先驗(yàn)屬性類別,沒有生成其他新類別;其他4種方法除了生成5個(gè)先驗(yàn)屬性類別外,還生成了配件、服務(wù)、性價(jià)比3個(gè)新類別。主要原因如下:

        表8 映射后屬性類別下前5個(gè)屬性詞提取結(jié)果Table 8 Extraction results of the top five attribute words under the attribute category after mapping

        (1)LDA+初次重組方法不存在二次重組步驟,只對(duì)含有初始屬性種子的句子級(jí)評(píng)論進(jìn)行重組并輸入模型。由于初始屬性種子只含有“屏幕”、“性能”、“相機(jī)”、“外觀”、“功能”5個(gè)類別的屬性詞,這種情況下重組的文檔會(huì)忽視非初始屬性種子的屬性詞,如含有與“服務(wù)”相關(guān)的屬性詞的句子無法被重組,因此最終無法生成“配件”、“性價(jià)比”、“物流”等新的屬性類別,只有5個(gè)先驗(yàn)屬性類別。

        (2)LDA+二次重組方法中,文檔二次重組后,輸入模型的文檔基本涵蓋了所有評(píng)論信息,因而可以生成更多的新的屬性類別。

        (3)SC-LDA方法雖然存在種子約束,但不影響其生成新類別,與LDA、AP聚類等生成類別一樣。如用戶會(huì)比較關(guān)心的“物流”、“服務(wù)態(tài)度”等屬性,雖然不屬于先驗(yàn)屬性類別,但依舊可以被獲取,說明本文方法在提高準(zhǔn)確率的同時(shí),可以獲取非專業(yè)領(lǐng)域的屬性詞,因而本文方法具有領(lǐng)域適應(yīng)性。

        (4)LDA直接將爬取的評(píng)論作為模型輸入,無重組、無刪減、無屬性種子集引導(dǎo),因此屬性類別生成不受限制,生成8個(gè)屬性類別。

        (5)AP聚類是對(duì)高頻名詞進(jìn)行聚類,高頻名詞可能來自不同的屬性類別,因此在無人工干預(yù)情況下,和LDA一樣生成8個(gè)屬性類別。

        從表8可以發(fā)現(xiàn),5種方法提取的前5個(gè)屬性詞中,相比其他方法,SC-LDA方法出現(xiàn)錯(cuò)誤歸類的屬性詞(表中加粗詞)最少。不論是LDA方法還是文獻(xiàn)[7]中利用Word2Vec詞向量進(jìn)行AP聚類的方法,都和文本語義、文本共現(xiàn)有關(guān),文本語義越相近,共現(xiàn)頻率越高,歸為一類的概率就越高。如“外觀”和“屏幕”兩個(gè)類別的屬性詞常常互相歸類錯(cuò)誤,主要是因?yàn)檫@兩個(gè)類別的屬性詞共現(xiàn)頻率較高。而本文方法在這方面的表現(xiàn)優(yōu)于其他方法,說明加入種子約束可以有效解決非同類屬性詞頻繁共現(xiàn)而導(dǎo)致的錯(cuò)誤歸類問題。LDA+初次重組方法雖然只生成了5個(gè)屬性類別,但其出現(xiàn)錯(cuò)誤歸類的屬性詞比LDA+二次重組方法少,這可能是由于未進(jìn)行二次重組,從而排除了其他新屬性類別的影響。

        京東、淘寶平臺(tái)會(huì)對(duì)用戶評(píng)論中比較關(guān)注的屬性評(píng)價(jià)進(jìn)行標(biāo)簽提取,以方便消費(fèi)者有針對(duì)性地瀏覽評(píng)論,部分樣例如圖5所示。從圖中可以發(fā)現(xiàn),提取的標(biāo)簽和表8中提取的屬性詞是比較吻合的,這進(jìn)一步說明本文方法提取的屬性詞符合實(shí)際情況。

        圖5 電商平臺(tái)中手機(jī)產(chǎn)品評(píng)論標(biāo)簽提取部分樣例Fig.5 Some examples of mobile phone product review tag extraction in e-commerce platform

        2.6.2 定量分析

        為了對(duì)5種方法的性能作出有效定量評(píng)估,本文選取3個(gè)評(píng)估指標(biāo):準(zhǔn)確率(A)、熵值[20](e)、純度[20](P),

        (9)

        (10)

        (11)

        (12)

        式中:Na為正確歸類的屬性詞數(shù);Ne為錯(cuò)誤歸類的屬性詞數(shù);pul=cul/cu,為聚類類別第u類的成員屬于真實(shí)類別第l類的比重;cul為聚類類別第u(u=1,2,…,U)類的成員(屬性詞)屬于真實(shí)類別第l(l=1,2,…,L)類的個(gè)數(shù);cu為聚類類別第u類中所有成員的個(gè)數(shù);U為聚類類別數(shù);L為真實(shí)類別數(shù);c為整個(gè)聚類劃分所涉及的成員個(gè)數(shù);pu為聚類u中的成員屬于不同真實(shí)類別的最大比重。

        5種方法提取前5(top5)、前10(top10)、前15(top15)、前20個(gè)(top20)屬性詞的準(zhǔn)確率、熵值和純度比較如表9所示,從表中可以發(fā)現(xiàn):

        表9 5種方法提取產(chǎn)品屬性結(jié)果的準(zhǔn)確率、熵值和純度比較Table 9 Comparison of accuracy,entropy and purity of product attribute extraction results by five methods

        (1) SC-LDA方法的準(zhǔn)確率最高。這主要是因?yàn)镾C-LDA方法加入了種子約束,進(jìn)而大大提高了準(zhǔn)確率。LDA和AP聚類方法在沒有任何約束的情況下,非屬性類別詞由于共現(xiàn)頻繁而被歸于一類的情況不可避免,因此這兩種方法的準(zhǔn)確率低于本文方法;LDA+初次重組方法的準(zhǔn)確率雖然在top5上有較好的表現(xiàn),但隨著提取的屬性詞越多,準(zhǔn)確率下降明顯,這主要是因?yàn)橹贿M(jìn)行初次重組,重組率低,忽略了很大部分其他方面的有效評(píng)論,而加入二次重組后可以彌補(bǔ)這項(xiàng)不足。

        (2)不論是將前5個(gè)還是前20個(gè)屬性詞作為計(jì)算熵值的依據(jù),SC-LDA方法的熵值都低于其他方法(熵值越大,說明聚類結(jié)果越雜亂,聚類效果越差)。這主要是因?yàn)榻?jīng)過種子約束后,每個(gè)主題下的主題詞大都只描述同一屬性類別,較少出現(xiàn)一個(gè)主題下的主題詞描述多個(gè)屬性類別的情況;AP聚類在熵值上的表現(xiàn)和LDA差不多,每個(gè)聚類類別中,含有較多其他不同類別的屬性詞,因此熵值較大,聚類效果不如本文方法;LDA+初次重組方法的熵值在top5上表現(xiàn)良好,但在提取更多的屬性詞時(shí),效果不如LDA+二次重組方法,說明文檔二次重組對(duì)聚類效果有一定的影響。

        (3)不論是將前5個(gè)還是前20個(gè)屬性詞作為計(jì)算純度的依據(jù),SC-LDA方法的純度都優(yōu)于其他方法(純度越高,聚類效果越好)。這同樣是因?yàn)榧尤肓朔N子約束,使得每個(gè)主題大都只描述同一屬性類別。

        3 結(jié)語

        產(chǎn)品屬性提取是意見挖掘研究中的一項(xiàng)關(guān)鍵工作。本文提出了基于種子約束LDA的產(chǎn)品屬性提取方法。首先,通過TF-IDF算法自動(dòng)提取關(guān)鍵詞,作為初始屬性種子集;接著,對(duì)文檔進(jìn)行初次重組和二次重組,使二次重組后的文檔只對(duì)一個(gè)產(chǎn)品屬性進(jìn)行描述,解決長(zhǎng)文本多屬性類共現(xiàn)問題和短文本稀疏性問題;然后,應(yīng)用must-link和cannot-link兩種種子約束定義概率擴(kuò)縮值,通過對(duì)吉布斯采樣過程的約束來影響LDA的主題分配,使得訓(xùn)練結(jié)果更加合理,提高主題提取的準(zhǔn)確性;最后,將種子約束LDA生成的主題映射到先驗(yàn)屬性類別上,避免出現(xiàn)重復(fù)屬性類別以及歸類不清的情況。實(shí)驗(yàn)結(jié)果表明,不論是從屬性類別、屬性詞進(jìn)行的定性分析,還是從準(zhǔn)確率、熵值、純度進(jìn)行的定量分析,本文方法都優(yōu)于經(jīng)典LDA等其他方法,具有較好的實(shí)用性和有效性。

        猜你喜歡
        提取
        射擊痕跡的尋找和提取
        法制博覽(2016年12期)2016-12-28 18:50:33
        植物基因組DNA提取
        濱州市沾化冬棗核中活性多糖的提取
        綠色科技(2016年20期)2016-12-27 18:10:47
        茶色素生物活性及制備技術(shù)研究進(jìn)展
        木犀草素提取工藝的研究概況
        現(xiàn)場(chǎng)勘查中物證的提取及應(yīng)用
        淺談涂料墻面上汗液手印的顯現(xiàn)和提取
        土壤樣品中農(nóng)藥殘留前處理方法的研究進(jìn)展
        中學(xué)生開展DNA“細(xì)”提取的實(shí)踐初探
        淺析城市老街巷景觀本土設(shè)計(jì)元素的提取與置換
        久久久久99精品成人片试看| 中文字幕 亚洲精品 第1页| 真实人与人性恔配视频| 亚洲精品毛片一区二区三区 | 精品免费久久久久久久| 91spa国产无码| 蜜桃视频一区二区三区在线| 中文字幕午夜精品久久久| 亚洲国产精品无码久久98| 中文字幕喷水一区二区| 人成视频在线观看免费播放| 国产一区二区三区不卡在线观看 | 婷婷激情五月综合在线观看| 日韩av在线不卡一区二区| 亚洲精品久久7777777| 精品一区二区三区无码视频| 亚洲欧美日韩一区在线观看| 加勒比东京热一区二区| 99国产精品久久久蜜芽| 国产黄三级三·级三级| 国产特黄1区2区3区4区| 日本道免费一区二区三区日韩精品 | 色播视频在线观看麻豆| 色天使综合婷婷国产日韩av| 欧美国产小视频| 久久久亚洲精品蜜臀av| 草草影院ccyy国产日本欧美| 中国老妇女毛茸茸bbwbabes| 在线观看精品国产福利片87| 亚洲av色在线播放一区| 无码精品人妻一区二区三区av| 日本亚洲欧美高清专区| 久久精品国产白丝爆白浆| 久久久久久人妻无码| 日韩人妻精品无码一区二区三区 | 亚洲国产一区二区三区| 日韩激情无码免费毛片| 精品国产亚洲一区二区三区演员表| 国产成人av区一区二区三| 一本精品99久久精品77| 中国一级免费毛片|