田夢影, 時 維
(1.北京外國語大學(xué)國際商學(xué)院, 北京 100089; 2.西交利物浦大學(xué)智能工程學(xué)院, 江蘇 蘇州 215028)
隨著互聯(lián)網(wǎng)時代的到來,電子商務(wù)呈現(xiàn)蓬勃發(fā)展的趨勢。據(jù)統(tǒng)計,2023年“雙十一”期間兩大電商平臺天貓和京東交易額分別達(dá)到5 403億元和3 491億元。與此同時,隨著線上商品的種類不斷豐富,以及在線購物的方便快捷,越來越多的消費者選擇在互聯(lián)網(wǎng)上進(jìn)行交易,在線評論數(shù)量也隨著迅速增長。對于消費者來說,在線評論已經(jīng)成為其作出購買決策的重要信息來源之一[1]。對于商家來說,蘊含在商品評價中的信息包含著消費者的主觀情感,通過文本情感分析可以讓商家及時了解消費者對其商品和服務(wù)的反饋信息,從而對產(chǎn)品和服務(wù)進(jìn)行優(yōu)化,獲得更多的利潤。
隨著國家接連出臺重磅政策鼓勵互聯(lián)網(wǎng)醫(yī)療的發(fā)展,互聯(lián)網(wǎng)醫(yī)療正迎來新的發(fā)展機(jī)遇。自2012年天貓醫(yī)藥正式上線開始,在線醫(yī)藥電商飛速發(fā)展,行業(yè)每年的增長率超過50%。2019年年底突然爆發(fā)的新型冠狀病毒肺炎疫情使得阿里健康、京東健康、壹藥網(wǎng)、好藥師等B2C(business to consumer,商對客)醫(yī)藥電商的交易規(guī)模呈爆發(fā)式增長[2],2023年中國醫(yī)藥電商市場交易規(guī)模已達(dá)到2 852億元,由此可見互聯(lián)網(wǎng)醫(yī)療的發(fā)展?jié)摿薮?。通過對在線醫(yī)藥電商文本評論的情感分析,可以幫助商家獲取消費者對于藥品和服務(wù)質(zhì)量的主觀性感受,自動識別消費者的褒貶態(tài)度和意見,基于此進(jìn)行有針對性的改善[3]。
文本情感分析又稱意見挖掘,是指通過計算機(jī)技術(shù)自動分析某段文本的內(nèi)容, 對文本的主觀性、情感極性、情感類別進(jìn)行信息挖掘,從中提取更多有價值的信息[4-5]。由于互聯(lián)網(wǎng)的迅速發(fā)展和不斷普及,以及Web3.0時代的到來,互聯(lián)網(wǎng)應(yīng)用于用戶之間的互動越來越密切,雙向交流的便捷性也使得用戶越來越傾向于在網(wǎng)絡(luò)平臺中留下表達(dá)自己主觀感受的評論。網(wǎng)絡(luò)文本中蘊含的信息含量急劇上升,自然語言處理近幾年也成為國內(nèi)外學(xué)者的熱門研究領(lǐng)域。
文本情感分析的研究方法主要分為基于情感詞典和基于機(jī)器學(xué)習(xí)[6]?;谠~典的分析方法是先將文本進(jìn)行分詞處理,再構(gòu)造某個領(lǐng)域的情感詞典,在這個詞典的基礎(chǔ)上,利用線性代數(shù)和統(tǒng)計分析的方法統(tǒng)計文本中積極和消極情感詞的數(shù)量,從而確定文本的情感類別[7]。羅浩然和楊青[8]提出了基于情感詞典和堆積殘差的雙向長短期記憶網(wǎng)絡(luò)的情感分析方法,借助“教育機(jī)器人”研究領(lǐng)域內(nèi)的專業(yè)詞匯提高了分析此類文本時的精確度,分類準(zhǔn)確率較之前的算法提升了4.5%。張倩男[9]基于Vivo手機(jī)的用戶評論數(shù)據(jù)構(gòu)建了手機(jī)領(lǐng)域的情感詞典,研究發(fā)現(xiàn)領(lǐng)域情感詞典的手機(jī)好評度高于通用情感詞典的好評度。邢丹和屈仁均[10]采用了基于詞典的方法對跨境電商顧客評論進(jìn)行了文本情感分析,并在此基礎(chǔ)上提出了顧客滿意度綜合評價方法。
基于機(jī)器學(xué)習(xí)的分析方法是先對文本進(jìn)行人工標(biāo)注,并劃分為訓(xùn)練集與測試集,利用支持向量機(jī)(support vector machine,SVM)、K近鄰(K-nearest neighbor,KNN)、樸素貝葉斯(Naive Bayes,NB)等機(jī)器學(xué)習(xí)的算法對訓(xùn)練集的特征進(jìn)行學(xué)習(xí),并建立特定的分類模型,然后將分類模型應(yīng)用于測試集從而進(jìn)行分類準(zhǔn)確性判斷[11]。汪夢欣等[12]采用基于機(jī)器學(xué)習(xí)的情感分析技術(shù)訓(xùn)練學(xué)習(xí)產(chǎn)品各個屬性評論的情感極性,得到正面、負(fù)面、中性的評論數(shù)量,進(jìn)一步采用直覺模糊集的方法進(jìn)行顧客滿意度評價研究。林軼和曹清芳[13]運用貝葉斯機(jī)器學(xué)習(xí)方法訓(xùn)練的SnowNLP庫對游客評論文本進(jìn)行情感分析,并將情感極性劃分為正向、中性和負(fù)向。醫(yī)藥電商所屬的在線健康領(lǐng)域,也有部分學(xué)者對醫(yī)療在線語料進(jìn)行了文本分析。由麗萍和何玲玲[14]采用詞典和規(guī)則相結(jié)合的方法進(jìn)行在線醫(yī)療評論的情感語義分析;高慧穎等[15]提出了一種基于特征加權(quán)詞向量的情感分析方法,在分類模型中表現(xiàn)出了更好的效果。
雖然目前文本情感分析和關(guān)于在線健康領(lǐng)域的研究正在火熱地開展之中,但關(guān)于在線醫(yī)藥電商評論的情感分析尚未有較全面的研究,且目前尚未構(gòu)建在線醫(yī)藥電商領(lǐng)域的情感詞典,若使用通用情感詞典進(jìn)行情感分類難免會出現(xiàn)預(yù)測準(zhǔn)確率不高的狀況,且傳統(tǒng)的情感分析方法并不足以滿足提高準(zhǔn)確率的要求[16]。因此,本文選取京東商城關(guān)鍵詞為“999感冒靈”的商品作為研究對象,在構(gòu)建了在線醫(yī)藥電商領(lǐng)域的情感詞典后,基于極端梯度提升算法(extreme gradient boosting,XGBoost)集成加權(quán)詞向量和大語言模型(large language model,LLM)提出了一種新的情感分析模型,從而對消費者評論進(jìn)行準(zhǔn)確的情感極性判斷,并根據(jù)分析結(jié)果構(gòu)建情感指數(shù),以此反映在線醫(yī)藥電商目前存在的問題,幫助商家把握在線醫(yī)藥電商領(lǐng)域的情感趨勢。
在線醫(yī)藥電商情感詞典的構(gòu)建流程如圖1所示。首先爬取京東大藥房感冒用藥分類下的商品評論構(gòu)成語料庫,人工對語料庫進(jìn)行情感極性判別,分為正向語料庫和負(fù)向語料庫。對語料庫進(jìn)行分詞處理,并導(dǎo)入哈工大停用詞表去除停用詞、去標(biāo)點符號。然后統(tǒng)計詞頻,分別選取出各20個正向情感詞和負(fù)向情感詞,并與人工篩選出的大連理工大學(xué)中文情感詞匯本體庫中10個正向和負(fù)向詞進(jìn)行融合,形成最終的情感種子詞。再進(jìn)一步通過情感傾向點互信息(semantic orientation pointwise mutual information,SO-PMI)算法從京東大藥房評論語料庫中,在情感種子詞的基礎(chǔ)上分別找出對應(yīng)的情感候選詞。最后將情感候選詞與3個使用最廣泛的通用情感詞典進(jìn)行去重融合,最終得到在線醫(yī)藥電商評論情感詞典。
圖1 領(lǐng)域情感詞典的構(gòu)建流程
2.1.1 數(shù)據(jù)預(yù)處理
首先選取京東大藥房上感冒用藥分類下的商品,按銷量降序排列,編寫Python程序爬取5萬余條消費者評論,并根據(jù)星級得分對評論進(jìn)行情感極性標(biāo)注,1、2星為消極評論,4、5星為積極評論,從而生成積極情感和消極情感的基礎(chǔ)語料庫。語料庫數(shù)據(jù)見表1。
表1 基礎(chǔ)語料庫數(shù)據(jù)
2.1.2 提取情感種子詞
為了準(zhǔn)確識別評論中包含的多個實體及其復(fù)雜的語義結(jié)構(gòu),最終采用了基于雙向控制門單元循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network,Bi-GRU)預(yù)訓(xùn)練的jieba-paddle模型對語料庫進(jìn)行分詞,并導(dǎo)入哈爾濱工業(yè)大學(xué)自然語言處理實驗室發(fā)布的中文停用詞表去除停用詞和標(biāo)點符號。分好詞后進(jìn)一步將情感詞進(jìn)行詞頻統(tǒng)計,從詞頻最高的詞語中挑選出情感表達(dá)強(qiáng)烈的各20個正向情感種子詞和負(fù)向情感種子詞,再從大連理工大學(xué)中文情感詞匯本體庫中按照情感強(qiáng)度人工篩選出10對正向和負(fù)向情感種子詞,最終形成構(gòu)建領(lǐng)域情感詞典的30對情感種子詞,見表2。
表2 正負(fù)情感種子詞
2.1.3 提取領(lǐng)域情感候選詞
中文詞語常用的情感極性判斷方法是基于點互信息(pointwise mutual information,PMI)算法的計算方法[17]。PMI用于判斷某個詞匯與基準(zhǔn)詞同時出現(xiàn)的概率,即
(1)
式中:P(word1,word2)指word1和word2同時出現(xiàn)在語料的概率,若兩個詞語相互獨立,P(word1,word2)=P(word1)P(word2),由此可得PMI=0。若PMI>0,表示兩個詞語相關(guān),值越大相關(guān)性越強(qiáng);若PMI<0,則表示兩個詞語不相關(guān)。
SO-PMI[18]在PMI算法的基礎(chǔ)上,判斷新詞匯與情感種子詞的相關(guān)程度。若與正向情感種子詞的相關(guān)程度大,則可以判斷該詞屬于正向情感詞匯;若與負(fù)向情感種子詞相關(guān)程度大,則可劃分至負(fù)向情感詞匯。SO-PMI算法為
(2)
式中:num(pos)和num(neg)分別為正負(fù)向情感種子詞的總數(shù)。若SO-PMI>0,可判斷該詞語為正向情感候選詞;若SO-PMI=0,可判斷為中性詞語;若SO-PMI<0,則可將詞語劃分至負(fù)向情感候選詞。用Python實現(xiàn)SO-PMI算法,導(dǎo)入待處理京東大藥房評論語料庫以及正負(fù)向情感種子詞,最后輸出正負(fù)向情感候選詞,見表3。
表3 正負(fù)向情感候選詞
2.1.4 合并通用情感詞典
將得到的情感候選詞人工剔除極不合理的詞匯,并與使用最為廣泛的3個通用情感詞典(知網(wǎng)HowNet情感詞典、臺灣大學(xué)NTUSD簡體中文情感詞典、大連理工大學(xué)中文情感詞匯本體庫)進(jìn)行去重合并,構(gòu)成最終的在線醫(yī)藥電商領(lǐng)域情感詞典。經(jīng)統(tǒng)計共有14 554個正向和18 684個負(fù)向情感詞。
本研究提出一種將情感詞典與機(jī)器學(xué)習(xí)算法結(jié)合的方法來構(gòu)建情感分析模型。首先,在使用詞向量技術(shù)處理文本數(shù)據(jù)后,同時引入LLM來判斷評論的情感極性。在自然語言處理領(lǐng)域,LLM已經(jīng)被證明在識別文本情感上極為有效[19]。首先,LLM在理解上下文方面表現(xiàn)得比傳統(tǒng)模型更為出色,能夠準(zhǔn)確識別文本情感[20]。其次,LLM通常能夠處理更復(fù)雜的句子結(jié)構(gòu),識別出更精細(xì)的情感層次。已有研究表明,LLM能夠捕捉到細(xì)膩的情感差異,即使是在那些含蓄或者復(fù)雜情緒表達(dá)的文本中[21]。
為了實現(xiàn)精準(zhǔn)判斷在線醫(yī)藥電商消費者評論的情感分類,將基于醫(yī)藥電商情感詞典的加權(quán)詞向量和LLM判斷的情感極性結(jié)果作為XGBoost的輸入層,以此進(jìn)行集成訓(xùn)練,得到最優(yōu)的情感判斷結(jié)果,如圖2所示。
圖2 基于XGBoost集成加權(quán)詞向量和LLM的情感識別模型框架
圖3 SO-PMI 標(biāo)準(zhǔn)化后的加權(quán)系數(shù)分布
2.2.1 加權(quán)詞向量
在訓(xùn)練情感識別模型中,首先面臨的問題是將評論文本轉(zhuǎn)換為模型能夠有效識別的詞向量。采用基于Bi-GRU的jieba-paddle模型的分詞技術(shù),通過這種精準(zhǔn)的方法,能夠有效地從大量評論中提取出關(guān)鍵的情感信息,同時顯著降低了詞向量的維度,為后續(xù)構(gòu)建的情感分析模型提供堅實的基礎(chǔ)。
在保留核心實體后,使用詞頻-逆文檔頻率技術(shù)(term frequency-inverse document frequency,TF-IDF)將評論轉(zhuǎn)化為詞向量。首先通過TF-IDF計算每個實體的得分。TF-IDF算法首先計算每個詞語的詞頻和逆文檔頻率,然后將TF值和IDF值相乘,最終的值就代表該實體在文檔中的重要性權(quán)重。TF-IDF、TF,以及IDF計算公式為
TF-IDF(詞頻-逆文檔頻率)=
詞頻(TF)×逆文檔頻率(IDF)
(3)
TF(詞頻)=某個詞在文章中的出現(xiàn)次數(shù)/
文章總詞數(shù)
(4)
TF(詞頻)=某個詞在文章中的出現(xiàn)次數(shù)/
文章總詞數(shù)
(5)
在得到上述的詞向量后,基于前文構(gòu)建的在線醫(yī)藥電商領(lǐng)域情感候選詞的SO-PMI得分,對詞向量進(jìn)行加權(quán)處理。鑒于評論中情感極性的判定在很大程度上依賴于特定的情感詞匯,之前構(gòu)建的專屬領(lǐng)域情感詞典發(fā)揮至關(guān)重要的作用??紤]到情感候選詞的SO-PMI得分范圍較廣,使用Z-score標(biāo)準(zhǔn)化的方法,將每個情感候選詞的SO-PMI得分映射到-1~1的區(qū)間內(nèi),從而作為情感詞的加權(quán)系數(shù)。
在加權(quán)計算中,一旦識別出評論中的情感詞實體,就會根據(jù)其對應(yīng)的加權(quán)系數(shù)乘以其TF-IDF得分,來調(diào)整最終的權(quán)重。在特征選擇上,只保留了前5 000個最具代表性的特征,并設(shè)定了最小文檔頻率為5。盡可能地減少詞向量的復(fù)雜度,同時保留了最有信息量的詞匯特征,最終構(gòu)建了高價值的加權(quán)詞向量。這種加權(quán)機(jī)制使得情感詞在詞向量中得到更合理的權(quán)重,從而在情感分析模型中發(fā)揮出更大的作用。
2.2.2 基于LLM識別情感極性
LLM模型通常覆蓋豐富的語言樣本和場景,并且在龐大且多樣化的文本數(shù)據(jù)集上進(jìn)行訓(xùn)練,故LLM能夠處理多種語言和表達(dá)方式,在自然語言處理(natural language processing,NLP)領(lǐng)域,LLM已經(jīng)證明了其卓越的性能和應(yīng)用價值,無論是在理解復(fù)雜的語言結(jié)構(gòu),還是在處理大規(guī)模的文本數(shù)據(jù)方面,LLM都展現(xiàn)了其關(guān)鍵的作用。
為了進(jìn)行準(zhǔn)確的情感極性判斷,采用3種適用于中文的LLM,包括Llama-7b、Llama-7b-4bit以及Baichuan-7B。為了選擇性能更加優(yōu)異的模型,隨機(jī)選取400個已標(biāo)注情感的評論,包括200個積極性和200個消極性的評論。通過表4對比分析可知,Baichuan-7B模型在判斷評論的情感極性上表現(xiàn)更為出色,因此后續(xù)研究會在使用Baichuan-7B的基礎(chǔ)上進(jìn)行展開。
表4 LLM模型性能
在使用LLM判斷評論的情感極性時采用直接的提問方式。首先向模型提出明確的問題,引導(dǎo)其判斷評論的情感極性,并限制其回答僅為“積極”或“消極”。這種方法有效降低了模型在響應(yīng)過程中偏離主題的風(fēng)險,確保模型專注于判斷評論的情感極性。同時,由于指定回答的選項,顯著降低了計算資源的消耗。采用直接提問的方式能夠更高效且準(zhǔn)確地利用Baichuan-7B模型來判斷評論的情感極性,在提高工作效率的同時又能保證情感分析的質(zhì)量。
2.2.3 集成訓(xùn)練XGBoost模型
如圖4所示,將加權(quán)詞向量和LLM判斷的情感極性結(jié)果結(jié)合起來作為XGBoost的輸入層來進(jìn)行訓(xùn)練,輸出結(jié)果判斷為積極則賦值為1,消極為0。通過這種集成方式,不僅利用了詞向量對于情感特征的細(xì)致的捕捉能力,也充分發(fā)揮了LLM在理解復(fù)雜語義和情感傾向上的優(yōu)勢,使模型的預(yù)測能力達(dá)到最優(yōu)。
圖4 基于XGBoost的情感識別模型
2.3.1 數(shù)據(jù)準(zhǔn)備
選取京東大藥房上關(guān)鍵詞為“999感冒靈”且銷量最高的商品作為研究對象,通過Python程序爬取消費者購買商品后的評價。在數(shù)據(jù)清洗后,將剩余商品評價進(jìn)行人工標(biāo)注情感為positive(積極)或是negative(消極),最后分別有707條正向和306條負(fù)向評論。表5為經(jīng)過數(shù)據(jù)處理后的數(shù)據(jù)集情況。
表5 京東大藥房語料庫
2.3.2 結(jié)果分析
分別構(gòu)建3種模型對在線醫(yī)藥電商領(lǐng)域的評論進(jìn)行情感分析。如圖5所示,僅使用LLM進(jìn)行情感極性的判定已經(jīng)顯示出極佳的效果,其精確率(Precision)高達(dá)97%,遠(yuǎn)超過僅依賴于加權(quán)詞向量的模型。隨后,將加權(quán)詞向量與LLM情感極性判定的結(jié)果集成到XGBoost模型中,結(jié)果顯示,盡管精確率略有下降,但準(zhǔn)確率、召回率和AUC(area under curve,曲線下的面積)值得到了進(jìn)一步的提升。AUC作為一個衡量二分類模型性能的關(guān)鍵指標(biāo),不僅標(biāo)志著模型在區(qū)分正負(fù)情感評論上的有效性,也突顯了其在情感分析中的綜合準(zhǔn)確性。
圖5 3種模型效果對比
根據(jù)以上分析結(jié)果可知,基于XGBoost算法集成加權(quán)詞向量和LLM的模型訓(xùn)練效果證實了提出的方法在判別在線醫(yī)藥電商評論文本情感極性上的可行性。這種集成策略顯著優(yōu)化了模型的泛化能力和魯棒性,在實際應(yīng)用中展現(xiàn)出強(qiáng)大的分析能力。
在線醫(yī)藥電商情感指數(shù)是指在對商家所有用戶評論進(jìn)行情感極性量化的基礎(chǔ)上,從醫(yī)藥電商獨立店鋪的維度,利用綜合評價算法計算該店鋪所有消費者評論的總體情感強(qiáng)度[22]。在參考文獻(xiàn)[23-24]的研究結(jié)果后,構(gòu)建以下情感指數(shù)計算模型:
(6)
其中:Ii為第i家店鋪的總體情感指數(shù);Mpos和Mneg分別為正向和負(fù)向評論的數(shù)量;Mall為第i家店鋪所有的消費者評論。
在京東電商平臺選取感冒用藥分類下品牌自營店鋪銷量最高的商品評論,共爬取到4家在線醫(yī)藥京東自營店鋪的2023年1—12月的消費者評論,并用前文的情感識別模型自動判斷評論情感極性以及計算店鋪情感指數(shù),數(shù)據(jù)見表6。
表6 4家醫(yī)藥品牌自營店鋪數(shù)據(jù)
從表6中可以觀察到999京東自營官方旗艦店和以嶺官方旗艦店消費者的差評數(shù)較多,快克旗艦店和云南白藥旗艦店的總體情感指數(shù)較高,能達(dá)到90以上。
運用繪圖軟件對評論數(shù)據(jù)集以月維度對4家店鋪進(jìn)行分析,并制作評論類型折線圖,如圖6所示。
圖6 4家店鋪評論數(shù)據(jù)分析結(jié)果
999京東自營官方旗艦店和快克官方旗艦店的評論數(shù)從1月到10月保持在一個穩(wěn)定的水準(zhǔn),到11月評論數(shù)激增。而云南白藥官方旗艦點的評論數(shù)全年都是保持比較平穩(wěn)的趨勢,在7月份數(shù)值有所下降??赡艽嬖诘脑蚴?每年11月正值電商“雙十一”購物節(jié),消費者喜歡在電商平臺優(yōu)惠時期屯這3家的藥品,而云南白藥云豐黃連上清片對消費者而言是需要用到時才會有進(jìn)行購買的決策??炜斯俜狡炫灥暝诔ル娚坦?jié)消費者購買數(shù)激增的因素后,差評數(shù)集中在8月和9月,云南白藥官方旗艦店的差評集中在4—6月,品牌商家可以集中分析這些時間段消費者的差評內(nèi)容,并針對性地提升服務(wù)質(zhì)量以提高消費者滿意度。
用繪圖軟件對店鋪和月份兩個維度進(jìn)行交叉列聯(lián)分析,并制作折線圖,如圖7所示。
圖7 情感指數(shù)店鋪月列聯(lián)分析
圖7顯示,云南白藥的情感指數(shù)在一年內(nèi)總體表現(xiàn)最平穩(wěn),且數(shù)值都在90以上;快克情感指數(shù)總體表現(xiàn)排第2,但一年之中有波動,如3月份和4月份的情感指數(shù)數(shù)值相差10;以嶺官方旗艦店的情感指數(shù)在7—9月存在明顯波動,7月情感指數(shù)最高可達(dá)90以上,9月只有70;而999京東自營官方旗艦店的情感指數(shù)在一年內(nèi)都有波動,3月情感指數(shù)最低,只有80,11月情感指數(shù)最高,達(dá)到90以上。通過上述分析,能夠得出情感指數(shù)可以作為衡量消費者情感趨勢的重要指標(biāo)。
(1)基于SO-PMI算法構(gòu)建了在線醫(yī)藥電商的領(lǐng)域情感詞典,并采用集成加權(quán)詞向量和LLM輸出情感極性作為XGBoost輸入層的評論情感分析模型,自動判斷了在線醫(yī)藥電商評論的情感傾向。實驗結(jié)果表明,本研究提出的情感識別模型在情感分析領(lǐng)域展現(xiàn)了巨大的潛力,不僅在理論上具有創(chuàng)新性,而且在實際應(yīng)用中展現(xiàn)出了卓越的性能,為未來的研究和實踐提供了新的方向。
(2)建立了情感指數(shù),多維度分析了京東商城4家醫(yī)藥品牌自營店鋪的總體情感傾向。以京東大藥房感冒用藥分類下商品在線評論為研究對象的實證分析表明,構(gòu)建的在線醫(yī)藥電商領(lǐng)域情感詞典有較好的文本情感極性判斷性能,建立的情感指數(shù)模型能夠動態(tài)監(jiān)測顧客情感變化,幫助品牌商家及時把握整個在線醫(yī)藥電商行業(yè)的情感趨勢。
本文仍存在一些不足。首先抓取到的數(shù)據(jù)只是感冒用藥分類下的商品評論,未來可將藥品類型納入研究模型之中。其次針對店鋪的情感指數(shù)主要是基于積極評論和消極評論的數(shù)量作為計算依據(jù),未來可以考慮納入評論的情感強(qiáng)度,使得情感指數(shù)對于情感總量的刻畫更為客觀具體。最后,在構(gòu)建情感詞典時,仍有人工干預(yù)的步驟,未來可以嘗試構(gòu)建領(lǐng)域自適應(yīng)情感詞典,進(jìn)一步提升對任意領(lǐng)域海量文本進(jìn)行情感判斷的效率。