張 林, 鄒亞男, 孫 偉, 宋學(xué)官
(大連理工大學(xué) 機(jī)械工程學(xué)院, 遼寧 大連 116024)
隨著經(jīng)濟(jì)的快速發(fā)展,高層建筑的數(shù)量逐漸增多,電梯慢慢成為了人們生活中不可或缺的工具之一。 電梯使用頻率的增加, 也導(dǎo)致人們對于電梯的性能品質(zhì)有了更高的需求。 因此,在產(chǎn)品定制過程中,消費(fèi)者的乘梯體驗(yàn)顯的尤為重要。構(gòu)建電梯評價(jià)情感分析系統(tǒng),可以幫助企業(yè)直觀的了解用戶的體驗(yàn),使電梯產(chǎn)品的開發(fā)與創(chuàng)新更加精準(zhǔn)與高效。
因具有將海量文本信息量化的優(yōu)點(diǎn),目前,文本情感分析技術(shù)被廣泛應(yīng)用于工業(yè)、 服務(wù)業(yè)等。 2003 年Kusha等[1]人開發(fā)了第一個(gè)情感分析系統(tǒng)“ReviewSeer”,從用戶評論中挖掘產(chǎn)品優(yōu)劣勢。之后,越來越多的情感分析系統(tǒng)應(yīng)運(yùn)而生。 但是,目前還未出現(xiàn)針對電梯領(lǐng)域的情感分析系統(tǒng)。 本文建立電梯用戶評價(jià)情感分析系統(tǒng),為電梯的生產(chǎn)改進(jìn)提供意見。
用戶乘梯后輸入評價(jià),系統(tǒng)存入評論數(shù)據(jù)至數(shù)據(jù)庫。獲得評論語料后劃分句子, 基于依存句法分析定位評價(jià)電梯的情感詞,識(shí)別表征電梯產(chǎn)品特性的屬性詞,例如,“速度”等。 抽取評價(jià)單元后,判斷其情感極性和強(qiáng)度,并將評價(jià)單元?dú)w類。 最后,利用可視化技術(shù),直觀表達(dá)情感分析結(jié)果。 系統(tǒng)流程見圖1。
圖1 系統(tǒng)流程
在句子中,兩個(gè)詞語之間的語法關(guān)系稱為依存關(guān)系[2]。挖掘產(chǎn)品特征,主要關(guān)注句子中詞語之間的依存關(guān)系及詞性。 文本預(yù)處理后, 使用HanLP 包進(jìn)行依存句法分析,實(shí)例如圖2 所示。
圖2 依存句法樹
本文根據(jù)句法依存特點(diǎn), 總結(jié)了四類評價(jià)單元抽取規(guī)則: ①從句子核心詞 (核心關(guān)系指向詞)詞性出發(fā)。 當(dāng)核心詞為屬性詞或情感詞,通過限制其詞性和依存關(guān)系,提取評價(jià)單元;②從核心詞的依存關(guān)系出發(fā)。限定依存關(guān)系,查找出依賴于核心詞的屬性詞或情感詞,從而提取評價(jià)單元;③對于前兩步提取的屬性詞和情感詞,查找其依存關(guān)系為并列關(guān)系的詞語;④對于前面提取的屬性詞和情感詞, 通過限制與其依賴關(guān)系和詞語詞性,提取否定副詞、程度副詞等。
基于上述評價(jià)單元抽取規(guī)則, 隨機(jī)選取1000 條分句,抽取示例見表1。 同時(shí)進(jìn)行算法和人工抽取,N正—抽取的正確評價(jià)單元數(shù)量,N抽—抽取出的全部評價(jià)單元數(shù)量,N實(shí)—評價(jià)中實(shí)際含有的評價(jià)單元數(shù)量, 實(shí)驗(yàn)評價(jià)結(jié)果如下:
表1 評價(jià)單元抽取示例
正確率從質(zhì)量的角度反映系統(tǒng)的分類準(zhǔn)確率; 召回率是從數(shù)量的角度來考察系統(tǒng)分類的完備性。 本文抽取規(guī)則的實(shí)驗(yàn)結(jié)果在這兩個(gè)指標(biāo)方面表現(xiàn)均衡。
用戶通過情感詞對電梯特性做出評價(jià),所以,判斷評價(jià)單元中評價(jià)詞的情感詞極性成為用戶情感分析的關(guān)鍵。 本文運(yùn)用情感詞典、 同義詞林和word2vce 結(jié)合的方法,將評價(jià)詞的情感極性劃分為積極和消極兩類。
2.2.1 情感詞典構(gòu)建
情感詞典是文本感情分類的核心部分, 主要由積極情感詞典、消極情感詞典、否定詞典、程度副詞詞典以及領(lǐng)域搭配詞典五部分組成。本文整合HowNet 詞典[3]、中文褒貶詞典[4]和臺(tái)灣大學(xué)NTUSD 詞典[4]作為基礎(chǔ)詞典。
另外,在電梯行業(yè),“小”形容“噪音”是積極情感,而搭配“空間”則是消極情感。因此,本文建立了電梯領(lǐng)域的搭配詞典,以達(dá)到盡可能高的情感分類準(zhǔn)確率。
程度副詞來自HowNet 情感詞典,否定詞詞典采用公認(rèn)的中文否定詞詞典。
2.2.2 基于同義詞林和word2vec 的相似度計(jì)算
(1)基于同義詞林的相似度計(jì)算。本文采用由朱新華等人改進(jìn)的同義詞詞林[5],該詞林層次結(jié)構(gòu)關(guān)系見圖3。
圖3 同義詞林樹形結(jié)構(gòu)
本文采用朱新華等人提出的基于信息內(nèi)容詞語相似度計(jì)算方法[6],如公式(1)所示,即計(jì)算出所有概念組合的相似度后,取相似度最大值作為詞語W1和W2的相似度,公式如(2)所示:
其中,MinDIFF 、MaxDIFF 分別表示C1、C2兩個(gè)詞語之間的最小、最大差異值,dis(C1,C2)為Jiang 等[7]提出的計(jì)算C1、C2差異性的函數(shù)。
(2)基于word2vec 的語義相似度計(jì)算。word2vec 是一種將詞表征為實(shí)數(shù)值向量的單隱層神經(jīng)網(wǎng)絡(luò)模型, 通過訓(xùn)練實(shí)現(xiàn)文本到向量的轉(zhuǎn)化, 通過計(jì)算向量之間的cosine 值來量化文本語義上的相似度。 余弦相似度計(jì)算公式如(3)所示:
其中,Xi、Yi代表詞語對應(yīng)向量。 本文爬取電梯用戶評價(jià)3000 條,用于訓(xùn)練word2vec 模型,計(jì)算詞語之間的相似性。
2.2.3 判斷情感詞極性
判斷情感詞極性的算法流程,見圖4。 評價(jià)單元首先與詞典匹配,識(shí)別含有描述電梯特定屬性的情感評價(jià)詞,標(biāo)記評價(jià)詞的情感極性。
圖4 情感詞極性判斷流程
未被匹配的評價(jià)單元,利用同義詞林、詞向量和已識(shí)別的情感詞進(jìn)行傾向判斷。 計(jì)算與已標(biāo)記的積極評價(jià)詞相似度均值和消極評價(jià)詞相似度均值的差值, 判斷評價(jià)詞的情感極性。 計(jì)算公式如(4)所示,PN、NN 分別為已標(biāo)記的積極和消極情感詞數(shù)量。 S>0 時(shí),標(biāo)記評價(jià)詞情感極性為正面,反之為負(fù)面。
從上述抽取規(guī)則等到的評價(jià)單元中隨機(jī)選取200 條數(shù)據(jù), 同時(shí)進(jìn)行算法和人工識(shí)別, 實(shí)驗(yàn)結(jié)果評價(jià)如下: 精確率:P=92%; 召回率:R=98%;綜合指標(biāo):F=94.9%。
計(jì)算評價(jià)單元情感強(qiáng)度需考慮詞組中詞語的詞性和位置。評價(jià)詞組中,程度副詞和否定詞直接影響詞組的情感極性和強(qiáng)度。 因此,對于程度副詞和否定詞,本文按照詞典中劃分的不同等級進(jìn)行賦值, 其值分別用ID、IN表示。 另設(shè)定積極情感詞權(quán)值為1,消極情感詞權(quán)值為-1。按照圖5 所示規(guī)則計(jì)算評價(jià)詞組情感強(qiáng)度。
圖5 情感強(qiáng)度計(jì)算規(guī)則
首先定位評價(jià)詞組中情感詞位置, 檢測其前面詞語的詞性類別。 例如,前面僅有一個(gè)程度副詞或否定詞時(shí),評價(jià)單元的情感權(quán)重I 取情感詞權(quán)重的ID或IN倍。 最終得到的評價(jià)單元權(quán)重即為情感強(qiáng)度, 其值為正表示評價(jià)單元為正面評價(jià),反之則為負(fù)面。
在對電梯某一特性評價(jià)時(shí), 可能會(huì)出現(xiàn)不同的文本表述,因此本系統(tǒng)對這些不同的評價(jià)表達(dá)進(jìn)行歸類,使評價(jià)結(jié)果更好的展現(xiàn)出來。文本結(jié)合項(xiàng)目需求,調(diào)整歸納關(guān)鍵詞,確定外觀、噪音等12 個(gè)評價(jià)指標(biāo)。
利用上文訓(xùn)練的word2vec 語義相似度計(jì)算模型,判斷各評價(jià)單元中屬性詞與預(yù)先設(shè)定指標(biāo)的相似度, 將相應(yīng)的評價(jià)單元?dú)w類于相似度最大的指標(biāo)。 隨機(jī)抽取200組評價(jià)單元, 同時(shí)進(jìn)行算法和人工歸類, 實(shí)驗(yàn)結(jié)果評價(jià)為:準(zhǔn)確率P=86%,滿足系統(tǒng)需求。
本文提出了一種基于文本情感分析技術(shù)的電梯用戶評論情感分類與量化方法,并利用Django 與Vue 結(jié)合的技術(shù)開發(fā)了相應(yīng)的情感分析系統(tǒng)。 用戶輸入評價(jià)后,經(jīng)過后端數(shù)據(jù)處理,電梯各評價(jià)指標(biāo)評價(jià)正負(fù)面評價(jià)數(shù)量、指標(biāo)得分、電梯總體得分等數(shù)據(jù)均有直觀展示。該系統(tǒng)具有從大量文本中高效的提取用戶情感并量化為具體數(shù)值的功能,定制產(chǎn)品生產(chǎn)過程中為制造商洞察用戶體驗(yàn)提供便利。