基于種子約束LDA的產(chǎn)品屬性提取方法

2022-07-08 01:50:04陳可嘉鄭晶晶

華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年6期

關(guān)鍵詞：提取

陳可嘉鄭晶晶

(福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院，福建福州 350116)

近年來，由于互聯(lián)網(wǎng)的高速發(fā)展，人們可以在網(wǎng)上自由地發(fā)表對(duì)產(chǎn)品的觀點(diǎn)，給商家和意向購(gòu)買者帶來了很大的影響。對(duì)商家而言，評(píng)論自由為其同時(shí)帶來了機(jī)遇和挑戰(zhàn)，用戶評(píng)論影響著意向購(gòu)買者的購(gòu)買決策，而商家也能在評(píng)論中挖掘用戶的需求，更有針對(duì)性地促進(jìn)產(chǎn)品的革新；對(duì)意向購(gòu)買者而言，可以通過評(píng)論的閱讀來判斷產(chǎn)品是否滿足自己的真正需求，從而減少由于商家單方面信息傳遞而造成的錯(cuò)誤購(gòu)買決策。然而，商家如何從大量的評(píng)論中挖掘用戶的真正需求，意向購(gòu)買者又該如何從千萬條評(píng)論中快速了解產(chǎn)品是否真正滿足自己的需求，成為近年的學(xué)術(shù)研究熱點(diǎn)[1-4]。目前大多數(shù)意見挖掘的研究主要包括兩部分：產(chǎn)品屬性提取和評(píng)論情感分類[5-6]。在產(chǎn)品屬性提取的相關(guān)研究中，有的文獻(xiàn)表述為產(chǎn)品屬性提取或抽取[7-8]，有的文獻(xiàn)表述為產(chǎn)品特征提取[9-10]，實(shí)際上研究對(duì)象一致，都是為了提取出產(chǎn)品屬性，進(jìn)而可以將評(píng)論按照描述屬性的不同進(jìn)行分類展示，從而意向購(gòu)買者可以根據(jù)自己的需求進(jìn)行選擇性瀏覽，提高閱讀效率，而商家也可以根據(jù)用戶對(duì)不同產(chǎn)品屬性的需求進(jìn)行分析。因此，產(chǎn)品屬性提取是一項(xiàng)關(guān)鍵的工作。

目前有學(xué)者使用基于詞頻和共現(xiàn)的方法提取產(chǎn)品屬性。如劉臣等[9]利用特征詞和觀點(diǎn)詞共現(xiàn)的關(guān)系，構(gòu)建二分網(wǎng)絡(luò)，并且創(chuàng)新性地提出了加權(quán)二分網(wǎng)絡(luò)，以特征詞-觀點(diǎn)詞對(duì)按照節(jié)點(diǎn)重要性進(jìn)行排序，從而找出特征-觀點(diǎn)詞。劉通等[10]利用邊界平均信息熵的方法提取產(chǎn)品特征(即認(rèn)為一個(gè)詞的左右邊界的信息熵越大，該詞左右兩邊的詞的種類越多，那么該詞作為一個(gè)獨(dú)立的詞的概率越大)，并基于該方法自動(dòng)提取具有名詞短語(BNP)模式的候選產(chǎn)品特征，之后應(yīng)用子串過濾方法篩選產(chǎn)品特征。周清清等[7]基于詞頻提取高頻名詞并作為候選屬性詞，接著基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的詞向量進(jìn)行屬性詞聚類，從而得到產(chǎn)品屬性集。

還有學(xué)者提出利用依賴規(guī)則提取產(chǎn)品屬性。如郗亞輝[11]發(fā)現(xiàn)句子中產(chǎn)品的特征詞和描述這個(gè)特征的觀點(diǎn)詞存在一定的共現(xiàn)規(guī)則，因此通過對(duì)句子的分析，發(fā)現(xiàn)兩者之間的共現(xiàn)規(guī)則后，可以對(duì)句子進(jìn)行雙向循環(huán)提取，即利用觀點(diǎn)詞發(fā)現(xiàn)它所描述的特征詞，再利用特征詞尋找描述它的觀點(diǎn)詞，直至無法發(fā)現(xiàn)新詞時(shí)結(jié)束循環(huán)。Rana等[12]通過研究用戶行為發(fā)現(xiàn)產(chǎn)品特征和觀點(diǎn)詞之間的依賴關(guān)系，并采用序列模式挖掘算法提取產(chǎn)品特征。

借助機(jī)器學(xué)習(xí)方法提取產(chǎn)品屬性，同樣備受學(xué)者們的關(guān)注。余琦瑋等[13]提出利用條件隨機(jī)場(chǎng)對(duì)產(chǎn)品特征詞進(jìn)行提取，首先分析句法結(jié)構(gòu)，然后設(shè)計(jì)出規(guī)則作為條件隨機(jī)場(chǎng)的特征模板，最后證實(shí)該方法有效。Poria等[14]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和文本語義來標(biāo)記文本中的屬性詞，通過實(shí)驗(yàn)證實(shí)使用該方法提取產(chǎn)品屬性能夠有效提高準(zhǔn)確率。

在基于詞頻和共現(xiàn)的研究中，由于沒有考慮文本的語義關(guān)系，常常將相同產(chǎn)品屬性視為不同；在基于句法依存關(guān)系的研究中，雖然考慮了文本的語義，但由于人們?cè)u(píng)論的隨意性且無法羅列所有的句法結(jié)構(gòu)，導(dǎo)致部分產(chǎn)品的屬性和觀點(diǎn)詞對(duì)的提取比較困難；在基于機(jī)器學(xué)習(xí)方法的研究中，需要大量的人工標(biāo)注，耗費(fèi)人工成本。因而近年來，很多學(xué)者使用隱含 Dirichlet分布(LDA)模型進(jìn)行產(chǎn)品屬性提取。LDA模型屬于無監(jiān)督模型，無需耗費(fèi)人工成本，同時(shí)還能根據(jù)詞語共現(xiàn)的頻率，將具有相同語義的文本進(jìn)行主題歸類，因此LDA模型在產(chǎn)品屬性詞提取領(lǐng)域具有顯著的優(yōu)勢(shì)。

學(xué)術(shù)界在經(jīng)典LDA模型基礎(chǔ)上進(jìn)行多角度改進(jìn)，不斷提高屬性提取的準(zhǔn)確性。彭云等[15]通過句法分析、詞義理解等獲取詞語之間的語義關(guān)系，構(gòu)建語義關(guān)系圖，將語義約束關(guān)系作為L(zhǎng)DA模型訓(xùn)練的條件，使得相同主題下的詞語語義更加一致。蔡永明等[16]先構(gòu)建詞匯社交網(wǎng)絡(luò)，并在傳統(tǒng)LDA模型的吉布斯采樣過程中加入共詞網(wǎng)絡(luò)的約束，使得相同搭配關(guān)系的詞語盡可能分配在同一主題下。陳琪等[17]利用支持向量機(jī)對(duì)移動(dòng)應(yīng)用評(píng)論按照問題類型的不同進(jìn)行分類，并在此基礎(chǔ)上使用LDA模型分別對(duì)不同類型的問題進(jìn)行主題提取。仇光等[8]提出了基于正則化LDA模型的隱式產(chǎn)品屬性抽取方法。

現(xiàn)有關(guān)于LDA模型的研究主要存在如下問題：①對(duì)長(zhǎng)評(píng)論文本進(jìn)行建模時(shí)，由于評(píng)論者往往同時(shí)對(duì)多個(gè)產(chǎn)品屬性進(jìn)行描述，而LDA模型會(huì)將這些頻繁共現(xiàn)的不同屬性類別詞歸為一類，容易出現(xiàn)多屬性類共現(xiàn)問題。因而有學(xué)者提出對(duì)句子級(jí)別的評(píng)論(短文本)進(jìn)行建模[18]，但短文本過于稀疏，詞共現(xiàn)較少，LDA模型的處理效果并不理想[19]。②LDA模型在吉布斯采樣過程中，沒有任何約束，詞-主題分配具有隨機(jī)性，因此訓(xùn)練結(jié)果準(zhǔn)確性不高。③LDA模型生成的主題具有重復(fù)性，即存在多個(gè)主題描述同一屬性類別的情況，不適合直接作為產(chǎn)品屬性提取的結(jié)果。

針對(duì)這些問題，本文引入文檔重組思路[20]，構(gòu)建基于種子約束的LDA模型(SC-LDA)，提出了基于SC-LDA的產(chǎn)品屬性提取方法。首先，針對(duì)中文數(shù)據(jù)集，在文檔初次重組基礎(chǔ)上，提出利用Apriori算法進(jìn)行文檔二次重組，使二次重組后的文檔只對(duì)一個(gè)產(chǎn)品屬性進(jìn)行描述，以解決長(zhǎng)文本多屬性類共現(xiàn)以及短文本稀疏性問題，提高文檔重組率，挖掘出更多的產(chǎn)品屬性類別；然后，利用must-link和cannot-link[21]兩種種子約束定義概率擴(kuò)縮值，通過對(duì)吉布斯采樣過程的約束，使相同類別的種子盡可能分配到相同的主題，不同類別的種子盡可能分配到不同的主題，從而使主題分布更具有現(xiàn)實(shí)意義，提高訓(xùn)練結(jié)果的準(zhǔn)確性，并在此基礎(chǔ)上對(duì)SC-LDA模型的吉布斯采樣過程進(jìn)行推斷，得到模型參數(shù)；最后，將SC-LDA模型生成的主題映射到先驗(yàn)屬性類別上，以避免出現(xiàn)屬性類別重復(fù)以及歸類不清的情況。

1 產(chǎn)品屬性提取方法

本文主要通過對(duì)經(jīng)典LDA模型進(jìn)行改進(jìn)，從而達(dá)到更好提取產(chǎn)品屬性的目的。產(chǎn)品屬性提取的流程如圖1所示。

圖1 產(chǎn)品屬性提取的流程圖Fig.1 Flow chart of product attributes extraction

1.1 數(shù)據(jù)準(zhǔn)備

(1)產(chǎn)品評(píng)論處理。首先，利用爬蟲軟件在各大電子商務(wù)網(wǎng)站爬取同一類產(chǎn)品的評(píng)論。然后對(duì)評(píng)論句子進(jìn)行分割。由于長(zhǎng)評(píng)論常?？赡芎袑?duì)多個(gè)產(chǎn)品屬性的描述，這種多屬性共現(xiàn)的情況會(huì)影響LDA模型的訓(xùn)練結(jié)果。因此需要進(jìn)行句子分割，分割出句子級(jí)評(píng)論，使得每條評(píng)論只對(duì)一個(gè)產(chǎn)品屬性進(jìn)行描述。由于人工進(jìn)行句子分割，工作量大，因此本文使用機(jī)器自動(dòng)分割，即利用Python技術(shù)，對(duì)從電子商務(wù)網(wǎng)站爬取的評(píng)論以句號(hào)、分號(hào)、感嘆號(hào)等作為斷句標(biāo)準(zhǔn)重新分割出句子級(jí)評(píng)論。具體的句子分割過程偽代碼如下：

{輸入：需進(jìn)行句子分割的評(píng)論文本

輸出：完成句子分割的各句子級(jí)評(píng)論

分割后句子集評(píng)論=[]

for 字符 in評(píng)論文本 do

拼接后字符+=當(dāng)前字符

if 當(dāng)前字符已是評(píng)論文本最后一位 then

分割后句子集評(píng)論.append(拼接后字符)

break

if 當(dāng)前字符 in 分割字句標(biāo)識(shí)符 then

分割后句子集評(píng)論.append(拼接后字符)

拼接字符=“”}

最后，用結(jié)巴分詞工具包[22]對(duì)斷句后的句子級(jí)評(píng)論進(jìn)行分詞。結(jié)巴分詞是基于詞典的一種方法，具體步驟如下：①事先構(gòu)造詞典，再利用詞典對(duì)句子進(jìn)行分詞，獲取一個(gè)句子所有可能的分詞結(jié)果，并構(gòu)造有向無環(huán)圖；②基于動(dòng)態(tài)規(guī)劃法找到最大概率路徑，獲取基于詞頻的最大切分組合；③利用基于漢字成詞能力的隱馬爾可夫模型處理未登錄詞，并使用維特比(Viterbi)算法進(jìn)行計(jì)算及詞性標(biāo)注。

(2) 產(chǎn)品詳細(xì)參數(shù)處理。首先人工從各大電子商務(wù)網(wǎng)站獲取產(chǎn)品詳細(xì)參數(shù)(產(chǎn)品說明書)。產(chǎn)品詳細(xì)參數(shù)一般都是按照產(chǎn)品屬性類別對(duì)產(chǎn)品參數(shù)進(jìn)行分類描述且已分好屬性類別，因而作為屬性種子的生成來源具有專業(yè)性和針對(duì)性等優(yōu)勢(shì)。然后將描述相同產(chǎn)品屬性類別的參數(shù)匯總在一起。最后用結(jié)巴分詞工具包對(duì)所有詳細(xì)參數(shù)分類匯總后的文檔進(jìn)行分詞。

1.2 生成初始屬性種子集

TF-IDF算法[23]是一種基于統(tǒng)計(jì)的方法，可以算出一個(gè)詞對(duì)一篇文檔的重要程度，即可以獲取一篇文檔的主題。如果一個(gè)詞在一篇文檔中多次出現(xiàn)，而又很少出現(xiàn)在其他文檔中，那么可以說這個(gè)詞是這篇文檔的關(guān)鍵詞。因此，一個(gè)詞的VTF-IDF值越大，說明該詞對(duì)該文檔的代表性越強(qiáng)，其計(jì)算公式如下：

VTF-IDF=rTFrIDF

(1)

rTF=Nwd/Nd

(2)

(3)

式中，rTF為詞語w在文檔d中出現(xiàn)的頻率，rIDF為詞語w的逆向文件頻率，Nwd為詞語w在文檔d中出現(xiàn)的次數(shù)，Nd為文檔d中所有的詞語數(shù)，NT為語料庫(kù)的文檔總數(shù)，NT,w為語料庫(kù)中包含詞語w的文檔數(shù)。

將所有分詞后的產(chǎn)品屬性參數(shù)的分類匯總文檔作為TF-IDF算法的輸入，計(jì)算出每個(gè)屬性類別的關(guān)鍵詞，作為每個(gè)屬性類別的初始屬性種子，分類匯總后得到初始屬性種子集。如此生成的屬性種子，對(duì)其相應(yīng)屬性類別有很強(qiáng)的代表性，可以作為文檔重組的依據(jù)。

1.3 文檔初次重組

將初始屬性種子作為文檔初次重組的依據(jù)，對(duì)分詞后的評(píng)論進(jìn)行初次重組，即將含有相同初始屬性種子的句子級(jí)評(píng)論重組成一個(gè)文檔。這樣能夠保證初次重組后文檔只對(duì)某一產(chǎn)品屬性進(jìn)行描述，同時(shí)還擴(kuò)大文檔的長(zhǎng)度。因此，文檔重組能夠解決長(zhǎng)文本多屬性類共現(xiàn)問題和短文本稀疏性問題。

將所有重組后的文檔匯整為初次重組文檔集；另一部分句子級(jí)評(píng)論由于不含有初始屬性種子而無法重組，匯整為未重組評(píng)論集。

1.4 文檔二次重組

初始屬性種子大多屬于專業(yè)術(shù)語，而人們?cè)谠u(píng)論時(shí)往往隨意且口語化，常常對(duì)專業(yè)術(shù)語用不同的詞語進(jìn)行描述，導(dǎo)致文檔重組時(shí)很大一部分評(píng)論由于不含屬性種子而無法重組,從而造成信息缺失。因此，需要對(duì)未重組評(píng)論集進(jìn)行文檔二次重組，具體步驟如下：

(1)采用Apriori算法[24]提取頻繁項(xiàng)。先使用結(jié)巴詞性解析工具去除未重組評(píng)論集中的非名詞，再利用Apriori算法提取未重組評(píng)論集中的頻繁項(xiàng)集(在支持度排序下的前300個(gè)項(xiàng)集)，從而獲得未重組評(píng)論集中出現(xiàn)較為頻繁的詞語，作為下一輪文檔二次重組的依據(jù)。頻繁出現(xiàn)的詞語具有較好的代表性，且作為二次重組依據(jù)能夠提高文檔的重組率。

(2)去除非屬性詞。由頻繁項(xiàng)集生成的高頻詞中會(huì)含有非屬性詞，如“爸媽”、“男朋友”、“兒子”等，這些詞具有干擾性，需要將這些詞語去除，生成最終頻繁種子集。

(3)二次重組文檔。根據(jù)最終頻繁種子集對(duì)未重組評(píng)論集進(jìn)行二次重組，即將含有相同頻繁種子的句子級(jí)評(píng)論重組成一個(gè)文檔，并將二次重組后的文檔匯整為二次重組文檔集。

(4)匯總兩次文檔重組結(jié)果。匯總兩次重組得到的文檔，作為SC-LDA的輸入。

1.5 SC-LDA模型

1.5.1 種子約束

加入種子約束，可以使得相同主題(產(chǎn)品屬性類別)下的主題詞(產(chǎn)品屬性詞)盡可能描述同一類產(chǎn)品屬性，不同主題下的主題詞盡可能描述不同類產(chǎn)品屬性，提高LDA的主題理解力。

種子約束類型有must-link和cannot-link兩種。將初始屬性種子集作為種子約束的依據(jù)，屬于同一屬性類別的種子具有must-link約束，屬于不同屬性類別的種子具有cannot-link約束。兩種約束的關(guān)系如圖2所示。具有must-link約束的屬性種子在訓(xùn)練過程中盡可能分配相同主題；具有cannot-link約束的屬性種子在訓(xùn)練過程中盡可能分配不同主題。

圖2 must-link和cannot-link的關(guān)系Fig.2 Relationship between must-link and cannot-link

(4)

1.5.2 SC-LDA模型的構(gòu)建

LDA模型的原理是模擬文檔的生成過程，首先是從一堆主題中確定以哪個(gè)主題為中心，然后選擇中心主題的相關(guān)詞語，最后生成文檔。LDA模型的訓(xùn)練過程采用吉布斯算法進(jìn)行采樣，在已知文檔的情況下，得到生成文檔的主題分布和每個(gè)主題的詞語分布。LDA模型常常作為淺層語義分析的工具，能夠用于提取評(píng)論中的主題詞即產(chǎn)品屬性詞。為了提高LDA模型的提取效果，本文對(duì)經(jīng)典LDA模型進(jìn)行改進(jìn)，加入種子約束。本文種子約束LDA(SC-LDA)模型如圖3所示，圖中α為文檔-主題的Dirichlet參數(shù)，β為非種子詞主題-詞語的Dirichlet參數(shù)，φs為種子約束下主題-詞語分布，zm,n為第m篇文檔第n個(gè)詞語的主題，θm為第m篇文檔-主題分布，φ為無種子約束下主題-詞語分布，S為屬性種子集，wm,n為第m篇文檔的第n個(gè)詞語。

圖3 SC-LDA模型Fig.3 SC-LDA model

SC-LDA模型的文檔生成過程如下：

(1)選擇主題zm,n，即先選擇第m篇文檔的主題分布θm～Dirichlet(α)，再選擇第m篇文檔的第n個(gè)詞語的主題zm,n～θm。

(2)選擇詞語wm,n，即

ifwm,n∈Sthen

選擇主題-詞語分布φs～ηDirichlet(β)；

∥η是種子約束因子

選擇詞語wm,n～φs；

else ifwm,n?Sthen

選擇主題-詞語分布φ～Dirichlet(β)；

選擇詞語wm,n～φ。

1.5.3 SC-LDA模型的參數(shù)推斷

由于SC-LDA模型中加入了種子約束，即模型訓(xùn)練過程受到了概率擴(kuò)縮值的影響，因此需要對(duì)吉布斯采樣過程進(jìn)行推斷，從而獲得SC-LDA模型的參數(shù)。SC-LDA模型的參數(shù)推斷過程如下:

(5)

p(θm|z,w)p(wζ=t|φk)p(φk|z,w)dθmdφk=ζ=(m,n)，是一個(gè)二維下標(biāo)，wζ為第m篇文檔的第n個(gè)詞語，w為除ζ以外的所有詞語；zζ為第m篇文檔的第n個(gè)詞語的主題；為第m篇文檔第n個(gè)詞語分配給主題k的概率擴(kuò)縮值；w為所有詞語；z為除了ζ以外所有詞語分配的主題；φk為主題k的詞語分布；θm為第m篇文檔的主題分布；D(θm|Nm,ζ+α)和D(φk|Nk,ζ+β)為兩個(gè)Dirichlet后驗(yàn)分布，Nm,ζ為第m篇文檔中所有主題的數(shù)量分布(除去ζ)，Nk,ζ為主題k中所有詞語的數(shù)量分布(除去ζ)；θmk為第m篇文檔屬于主題k的后驗(yàn)概率，φkt為主題k出現(xiàn)詞語t的后驗(yàn)概率，這兩個(gè)后驗(yàn)概率在貝葉斯框架下的參數(shù)估計(jì)為

(6)

1.6 屬性類別映射

Word2Vec是用來訓(xùn)練詞向量的雙層神經(jīng)網(wǎng)絡(luò)模型，其中CBOW和Skip-gram是兩個(gè)常用模型。根據(jù)文獻(xiàn)[25]對(duì)CBOW模型和Skip-gram模型的性能對(duì)比結(jié)果，本文采用整體效果更好的Skip-gram模型來訓(xùn)練詞向量。

主題模型生成的每個(gè)主題都與每個(gè)先驗(yàn)屬性類別(初始屬性種子集中的屬性類別)計(jì)算相似度，具體方法如下：①將某主題中的一個(gè)主題詞與某先驗(yàn)屬性類別中的每個(gè)屬性詞計(jì)算相似度，選擇相似度最大值作為該主題詞與該先驗(yàn)屬性類別的相似度值；②按照相同方式計(jì)算該主題中的所有主題詞與先驗(yàn)屬性類別的相似度值；③將每個(gè)主題詞的相似度值與其權(quán)重相乘后累加得到該主題和先驗(yàn)屬性類別的相似度，其中詞向量間的余弦相似度作為詞語間的相似度，主題模型訓(xùn)練結(jié)果中主題詞在其對(duì)應(yīng)主題下出現(xiàn)的概率作為該主題詞的權(quán)重。

由于主題模型生成的主題中，存在多個(gè)主題描述同一屬性類別或者主題不屬于先驗(yàn)屬性類別等情況，因此需要對(duì)主題模型生成的主題進(jìn)行屬性類別映射。一般來說，屬性類別映射將生成的主題映射到與其相似度最高的先驗(yàn)屬性類別上。但由于主題模型可能會(huì)生成一些新的、不屬于先驗(yàn)屬性類別的主題，如果采用相似度最高法進(jìn)行映射會(huì)導(dǎo)致錯(cuò)誤歸類。因此，需要計(jì)算生成主題與先驗(yàn)屬性類別相似度的方差，對(duì)于方差小于0.005的生成主題，進(jìn)行人工歸類；對(duì)于方差大于0.005的生成主題，直接映射到與其相似度最高的先驗(yàn)屬性類別上。這樣可以很好地處理生成主題的錯(cuò)誤歸類問題。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)準(zhǔn)備

利用八爪魚軟件，采集京東平臺(tái)上截至2019年11月7日關(guān)于手機(jī)類產(chǎn)品的評(píng)論2萬條。其中涉及時(shí)下最熱門的10款手機(jī)的相關(guān)評(píng)論，考慮到單款手機(jī)可能會(huì)出現(xiàn)片面的屬性描述，通過獲取多款手機(jī)產(chǎn)品的評(píng)論數(shù)據(jù)來較為全面地獲取手機(jī)類產(chǎn)品的屬性詞，從而使得本文的屬性提取結(jié)果更具代表性。在線評(píng)論數(shù)據(jù)統(tǒng)計(jì)結(jié)果如表1所示。部分語料樣例如表2所示。為了使每條評(píng)論只對(duì)一個(gè)產(chǎn)品屬性進(jìn)行描述，利用Python技術(shù)，以句號(hào)、分號(hào)、感嘆號(hào)等作為斷句標(biāo)準(zhǔn)重新分割出句子級(jí)評(píng)論40 753條。

表1 在線評(píng)論語料統(tǒng)計(jì)Table 1 Online reviews corpus statistics

表2 部分語料樣例Table 2 Examples of some corpora

從中關(guān)村在線的網(wǎng)站上獲取手機(jī)產(chǎn)品的詳細(xì)參數(shù)描述20篇，這些參數(shù)描述即手機(jī)專家對(duì)手機(jī)產(chǎn)品的說明書，具有專業(yè)性，因而有一定的參考價(jià)值。其中手機(jī)屬性參數(shù)分為包括屏幕、性能、相機(jī)、外觀、功能，部分屬性的詳細(xì)參數(shù)描述樣例如表3所示。

表3 部分屬性的詳細(xì)參數(shù)描述樣例Table 3 Examples of detailed parameter description of some attributes

2.2 初始屬性種子集的生成

利用TF-IDF算法對(duì)分詞后的產(chǎn)品屬性參數(shù)分類匯總文檔進(jìn)行關(guān)鍵詞提取，生成初始屬性種子集，如表4所示。

表4 初始屬性種子集Table 4 Initial attribute seed sets

2.3 文檔初次重組和文檔二次重組

斷句后的40 753條句子級(jí)評(píng)論，含有相同初始屬性種子的重組到一個(gè)文檔中，生成58個(gè)初次重組文檔，但是仍有20 846條句子級(jí)評(píng)論由于不含有初始屬性種子而無法進(jìn)行重組。

本文首先使用Apriori算法提取20 846條未重組評(píng)論集中的前300個(gè)頻繁項(xiàng)集，并去除頻繁項(xiàng)集中的一些非屬性詞，如爸媽、女朋友、男朋友、兒子、女兒等，進(jìn)而生成143個(gè)頻繁種子，構(gòu)成最終頻繁種子集。

然后，根據(jù)最終頻繁種子集對(duì)20 846條未重組評(píng)論集進(jìn)行二次重組，將含有相同頻繁種子的評(píng)論重組到一個(gè)文檔，最后生成143個(gè)二次重組文檔。

匯總兩次文檔重組結(jié)果，共有201個(gè)重組文檔。

2.4 參數(shù)設(shè)置

在主題模型訓(xùn)練過程中，需要人工按照經(jīng)驗(yàn)確定最終主題數(shù)(即K值)，而K值的不同將影響模型的訓(xùn)練效果，因此本文采用文獻(xiàn)[26]方法確定K值：首先用主題的詞概率分布表示主題，接著利用余弦距離計(jì)算主題間的相似度(見式(7))，最后由所有主題間的平均相似度(見式(8))確定主題模型的穩(wěn)定性。平均相似度越小，說明主題模型越穩(wěn)定，此時(shí)的K值越合適。

(7)

(8)

本文對(duì)不同的K值進(jìn)行模型訓(xùn)練，結(jié)果如圖4所示。從圖中可以看出，當(dāng)K=11時(shí)，模型最穩(wěn)定。因此，主題模型訓(xùn)練過程中K值取為11。

圖4 不同K值下主題模型的訓(xùn)練結(jié)果Fig.4 Training results of topic models under different K values

2.5 屬性類別映射

將爬取的2萬條評(píng)論分詞后作為詞向量訓(xùn)練文檔。在Python 3.7環(huán)境下，詞向量維度設(shè)定為200，采樣值設(shè)定為0.000 01，窗口大小設(shè)定為5，其他參數(shù)均采用默認(rèn)設(shè)定。經(jīng)過Skip-gram模型訓(xùn)練后，把文本形式的單詞轉(zhuǎn)化成200維向量形式。映射前主題生成結(jié)果如表5所示。從表中可以看出，未映射前主題個(gè)數(shù)為11，主題1和主題5屬于相同的屬性類別，主題3、9、10不屬于任何先驗(yàn)屬性類別。部分主題與先驗(yàn)屬性類別的相似度如表6所示。

表5 映射前主題生成結(jié)果Table 5 Generation results of topic before mapping

表6 部分主題與先驗(yàn)屬性類別的相似度Table 6 Similarity of some topics and prior attribute categories

經(jīng)過方差計(jì)算知道：主題1相似度的值間方差為0.005 1，大于0.005 0,因此將相似度值最大的先驗(yàn)屬性類別作為主題1的映射類別，即主題1描述的都是“外觀”這個(gè)產(chǎn)品屬性類別；主題10相似度的值間方差為0.002 0，小于0.005 0,因此需要人工判定其所屬類別，由于其主題詞大多數(shù)為耳機(jī)、殼、膜、貼膜等手機(jī)配件，不屬于任何先驗(yàn)屬性類別，故將主題10定義為一個(gè)新類別“配件”。

經(jīng)過屬性類別映射后SC-LDA的屬性詞提取結(jié)果如表7所示，即SC-LDA最終生成的屬性類別有8個(gè)，分別為屏幕、性能、相機(jī)、外觀、功能、配件、性價(jià)比、服務(wù)。從表中可以明顯看出，經(jīng)過屬性類別映射后，不再存在重復(fù)類別且類別歸屬清晰，讓人一目了然。

表7 映射后屬性類別提取結(jié)果Table 7 Extraction results of attribute category after mapping

2.6 不同方法比較分析

將本文方法(SC-LDA)與LDA[27]、AP聚類[7]、LDA+初次重組、LDA+二次重組方法進(jìn)行對(duì)比分析。經(jīng)典的LDA模型沒有進(jìn)行文檔重組也沒對(duì)主題分配過程進(jìn)行約束；AP聚類[7]是對(duì)屬性詞進(jìn)行聚類的方法，它是對(duì)詞向量化后的候選屬性詞進(jìn)行聚類，聚類過程沒有進(jìn)行約束；LDA+初次重組是將文檔進(jìn)行初次重組后輸入LDA模型；LDA+二次重組是在初次重組的基礎(chǔ)上對(duì)文檔進(jìn)行二次重組后輸入LDA模型；SC-LDA方法是將二次重組后的文檔輸入基于種子約束的LDA模型。

2.6.1 定性分析

5種方法經(jīng)過屬性類別映射后各屬性類別下前5個(gè)屬性詞提取結(jié)果如表8所示。從表8可以發(fā)現(xiàn)，由SC-LDA生成的屬性類別有8類，即除了5個(gè)先驗(yàn)屬性類別外，還生成了配件、服務(wù)、性價(jià)比3個(gè)新類別。先驗(yàn)屬性類別是手機(jī)產(chǎn)品的詳細(xì)參數(shù)描述中手機(jī)專家分好的屬性類別，在本文方法下，這5個(gè)類別能夠被生成，說明本文方法符合實(shí)際。文獻(xiàn)[28]生成的屬性中也存在服務(wù)、性價(jià)比、配件，進(jìn)一步說明本文方法生成的屬性類別符合實(shí)際。

從表8可以看出：LDA+初次重組方法只生成了5個(gè)先驗(yàn)屬性類別，沒有生成其他新類別；其他4種方法除了生成5個(gè)先驗(yàn)屬性類別外，還生成了配件、服務(wù)、性價(jià)比3個(gè)新類別。主要原因如下：

表8 映射后屬性類別下前5個(gè)屬性詞提取結(jié)果Table 8 Extraction results of the top five attribute words under the attribute category after mapping

(1)LDA+初次重組方法不存在二次重組步驟，只對(duì)含有初始屬性種子的句子級(jí)評(píng)論進(jìn)行重組并輸入模型。由于初始屬性種子只含有“屏幕”、“性能”、“相機(jī)”、“外觀”、“功能”5個(gè)類別的屬性詞，這種情況下重組的文檔會(huì)忽視非初始屬性種子的屬性詞，如含有與“服務(wù)”相關(guān)的屬性詞的句子無法被重組，因此最終無法生成“配件”、“性價(jià)比”、“物流”等新的屬性類別，只有5個(gè)先驗(yàn)屬性類別。

(2)LDA+二次重組方法中，文檔二次重組后，輸入模型的文檔基本涵蓋了所有評(píng)論信息，因而可以生成更多的新的屬性類別。

(3)SC-LDA方法雖然存在種子約束，但不影響其生成新類別，與LDA、AP聚類等生成類別一樣。如用戶會(huì)比較關(guān)心的“物流”、“服務(wù)態(tài)度”等屬性，雖然不屬于先驗(yàn)屬性類別，但依舊可以被獲取，說明本文方法在提高準(zhǔn)確率的同時(shí)，可以獲取非專業(yè)領(lǐng)域的屬性詞，因而本文方法具有領(lǐng)域適應(yīng)性。

(4)LDA直接將爬取的評(píng)論作為模型輸入，無重組、無刪減、無屬性種子集引導(dǎo)，因此屬性類別生成不受限制，生成8個(gè)屬性類別。

(5)AP聚類是對(duì)高頻名詞進(jìn)行聚類，高頻名詞可能來自不同的屬性類別，因此在無人工干預(yù)情況下，和LDA一樣生成8個(gè)屬性類別。

從表8可以發(fā)現(xiàn)，5種方法提取的前5個(gè)屬性詞中，相比其他方法，SC-LDA方法出現(xiàn)錯(cuò)誤歸類的屬性詞(表中加粗詞)最少。不論是LDA方法還是文獻(xiàn)[7]中利用Word2Vec詞向量進(jìn)行AP聚類的方法，都和文本語義、文本共現(xiàn)有關(guān)，文本語義越相近，共現(xiàn)頻率越高，歸為一類的概率就越高。如“外觀”和“屏幕”兩個(gè)類別的屬性詞常常互相歸類錯(cuò)誤，主要是因?yàn)檫@兩個(gè)類別的屬性詞共現(xiàn)頻率較高。而本文方法在這方面的表現(xiàn)優(yōu)于其他方法，說明加入種子約束可以有效解決非同類屬性詞頻繁共現(xiàn)而導(dǎo)致的錯(cuò)誤歸類問題。LDA+初次重組方法雖然只生成了5個(gè)屬性類別，但其出現(xiàn)錯(cuò)誤歸類的屬性詞比LDA+二次重組方法少，這可能是由于未進(jìn)行二次重組，從而排除了其他新屬性類別的影響。

京東、淘寶平臺(tái)會(huì)對(duì)用戶評(píng)論中比較關(guān)注的屬性評(píng)價(jià)進(jìn)行標(biāo)簽提取，以方便消費(fèi)者有針對(duì)性地瀏覽評(píng)論，部分樣例如圖5所示。從圖中可以發(fā)現(xiàn)，提取的標(biāo)簽和表8中提取的屬性詞是比較吻合的，這進(jìn)一步說明本文方法提取的屬性詞符合實(shí)際情況。

圖5 電商平臺(tái)中手機(jī)產(chǎn)品評(píng)論標(biāo)簽提取部分樣例Fig.5 Some examples of mobile phone product review tag extraction in e-commerce platform

2.6.2 定量分析

為了對(duì)5種方法的性能作出有效定量評(píng)估，本文選取3個(gè)評(píng)估指標(biāo)：準(zhǔn)確率(A)、熵值[20](e)、純度[20](P),

(9)

(10)

(11)

(12)

式中：Na為正確歸類的屬性詞數(shù)；Ne為錯(cuò)誤歸類的屬性詞數(shù)；pul=cul/cu，為聚類類別第u類的成員屬于真實(shí)類別第l類的比重；cul為聚類類別第u(u=1,2,…,U)類的成員(屬性詞)屬于真實(shí)類別第l(l=1,2,…,L)類的個(gè)數(shù)；cu為聚類類別第u類中所有成員的個(gè)數(shù)；U為聚類類別數(shù)；L為真實(shí)類別數(shù)；c為整個(gè)聚類劃分所涉及的成員個(gè)數(shù)；pu為聚類u中的成員屬于不同真實(shí)類別的最大比重。

5種方法提取前5(top5)、前10(top10)、前15(top15)、前20個(gè)(top20)屬性詞的準(zhǔn)確率、熵值和純度比較如表9所示，從表中可以發(fā)現(xiàn)：

表9 5種方法提取產(chǎn)品屬性結(jié)果的準(zhǔn)確率、熵值和純度比較Table 9 Comparison of accuracy,entropy and purity of product attribute extraction results by five methods

(1) SC-LDA方法的準(zhǔn)確率最高。這主要是因?yàn)镾C-LDA方法加入了種子約束，進(jìn)而大大提高了準(zhǔn)確率。LDA和AP聚類方法在沒有任何約束的情況下，非屬性類別詞由于共現(xiàn)頻繁而被歸于一類的情況不可避免，因此這兩種方法的準(zhǔn)確率低于本文方法；LDA+初次重組方法的準(zhǔn)確率雖然在top5上有較好的表現(xiàn)，但隨著提取的屬性詞越多，準(zhǔn)確率下降明顯，這主要是因?yàn)橹贿M(jìn)行初次重組，重組率低，忽略了很大部分其他方面的有效評(píng)論，而加入二次重組后可以彌補(bǔ)這項(xiàng)不足。

(2)不論是將前5個(gè)還是前20個(gè)屬性詞作為計(jì)算熵值的依據(jù)，SC-LDA方法的熵值都低于其他方法(熵值越大，說明聚類結(jié)果越雜亂，聚類效果越差)。這主要是因?yàn)榻?jīng)過種子約束后，每個(gè)主題下的主題詞大都只描述同一屬性類別，較少出現(xiàn)一個(gè)主題下的主題詞描述多個(gè)屬性類別的情況；AP聚類在熵值上的表現(xiàn)和LDA差不多，每個(gè)聚類類別中，含有較多其他不同類別的屬性詞，因此熵值較大，聚類效果不如本文方法；LDA+初次重組方法的熵值在top5上表現(xiàn)良好，但在提取更多的屬性詞時(shí)，效果不如LDA+二次重組方法，說明文檔二次重組對(duì)聚類效果有一定的影響。

(3)不論是將前5個(gè)還是前20個(gè)屬性詞作為計(jì)算純度的依據(jù)，SC-LDA方法的純度都優(yōu)于其他方法(純度越高，聚類效果越好)。這同樣是因?yàn)榧尤肓朔N子約束，使得每個(gè)主題大都只描述同一屬性類別。

3 結(jié)語

產(chǎn)品屬性提取是意見挖掘研究中的一項(xiàng)關(guān)鍵工作。本文提出了基于種子約束LDA的產(chǎn)品屬性提取方法。首先，通過TF-IDF算法自動(dòng)提取關(guān)鍵詞，作為初始屬性種子集；接著，對(duì)文檔進(jìn)行初次重組和二次重組，使二次重組后的文檔只對(duì)一個(gè)產(chǎn)品屬性進(jìn)行描述，解決長(zhǎng)文本多屬性類共現(xiàn)問題和短文本稀疏性問題；然后，應(yīng)用must-link和cannot-link兩種種子約束定義概率擴(kuò)縮值，通過對(duì)吉布斯采樣過程的約束來影響LDA的主題分配，使得訓(xùn)練結(jié)果更加合理，提高主題提取的準(zhǔn)確性；最后，將種子約束LDA生成的主題映射到先驗(yàn)屬性類別上，避免出現(xiàn)重復(fù)屬性類別以及歸類不清的情況。實(shí)驗(yàn)結(jié)果表明，不論是從屬性類別、屬性詞進(jìn)行的定性分析，還是從準(zhǔn)確率、熵值、純度進(jìn)行的定量分析，本文方法都優(yōu)于經(jīng)典LDA等其他方法，具有較好的實(shí)用性和有效性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放