亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合信息熵與多權(quán)TF-IDF的營(yíng)銷評(píng)論關(guān)鍵詞提取算法

        2020-03-18 02:39:58何利力
        關(guān)鍵詞:特征詞互信息分詞

        李 璐, 何利力

        (浙江理工大學(xué) 信息學(xué)院, 杭州 310018)

        0 引 言

        隨著“互聯(lián)網(wǎng)+”技術(shù)日趨成熟,基于“互聯(lián)網(wǎng)+”營(yíng)銷企業(yè)需要根據(jù)不同屬性對(duì)用戶進(jìn)行類別劃分,為不同類別用戶制定不同的營(yíng)銷策略,評(píng)論的質(zhì)量可作為用戶的一個(gè)屬性。評(píng)論屬于自然語(yǔ)言,人為對(duì)評(píng)論的質(zhì)量評(píng)估,是可行的,但評(píng)論數(shù)量過(guò)大,人為評(píng)估速度慢,無(wú)法滿足現(xiàn)營(yíng)銷企業(yè)的需求。自然語(yǔ)言處理針對(duì)結(jié)構(gòu)復(fù)雜的文本信息進(jìn)行處理,其中關(guān)鍵詞的提取是基礎(chǔ)與核心技術(shù),在檢索信息、文本分類、信息匹配、話題跟蹤、自動(dòng)摘要、人機(jī)對(duì)話等領(lǐng)域有廣泛的應(yīng)用[1-3]。

        在自然語(yǔ)言處理領(lǐng)域中處理提取評(píng)論關(guān)鍵詞的方法大致可以分為兩類:監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)[4]。監(jiān)督學(xué)習(xí)是從特定的訓(xùn)練數(shù)據(jù)集訓(xùn)練出函數(shù)模型,根據(jù)函數(shù)模型判斷該詞語(yǔ)是否屬于關(guān)鍵字類別,對(duì)訓(xùn)練集的要求較高,通常需要人工預(yù)處理。在無(wú)監(jiān)督學(xué)習(xí)中,無(wú)法預(yù)知樣本類型,需要根據(jù)樣本數(shù)據(jù)間的內(nèi)在結(jié)構(gòu)對(duì)樣本集進(jìn)行聚類,使同一類別數(shù)據(jù)差距最小化,不同類別數(shù)據(jù)差距最大化[5]。常見的主流無(wú)監(jiān)督關(guān)鍵字提取方法可以分為基于TF-IDF數(shù)值統(tǒng)計(jì)的關(guān)鍵詞提取、基于LDA主題模型的關(guān)鍵字提取、基于詞圖模型的關(guān)鍵字提取3種類型[6-7]。上述方法都有各自的優(yōu)點(diǎn)和局限性。

        本文主要針對(duì)TF-IDF展開相關(guān)研究,綜合考慮評(píng)論信息中詞語(yǔ)的位置、詞性、詞長(zhǎng)3種影響因子,對(duì)每種影響因子賦予一定的權(quán)重,最后加權(quán)得到最終的特征權(quán)重,獲取權(quán)重最大前5的詞語(yǔ)作為該短文本的關(guān)鍵詞。通過(guò)余弦相似度來(lái)衡量評(píng)論與標(biāo)題關(guān)鍵詞的相似度,獲取重要評(píng)論。該方法可識(shí)別垃圾評(píng)論、重要評(píng)論,可用于企業(yè)對(duì)用戶某一屬性的衡量。

        1 相關(guān)技術(shù)

        相關(guān)技術(shù)研究包括TF-IDF、信息熵、Trie樹、詞語(yǔ)的權(quán)重、余弦相似度這5個(gè)方面。設(shè)定一個(gè)文本集合D,集合中包含N個(gè)文本,每個(gè)文本都包含標(biāo)題title和評(píng)論comment兩部分[7]。comment內(nèi)容是由評(píng)論句子組成,評(píng)論句子是由多個(gè)詞語(yǔ)組成。

        1.1 TF-IDF算法

        TF-IDF是常見的加權(quán)算法,通常用于資源檢索與數(shù)據(jù)挖掘等方向,衡量文本集中一個(gè)特征詞對(duì)包含該特征詞的文本的重要程度,優(yōu)于其它算法[6]。TF-IDF是TF與IDF的乘積,TF-IDF的詞條提取函數(shù)如式(1) :

        Wtf-idf=TF(i)×IDF(i),

        (1)

        其中,Wtf-idf表示第i個(gè)詞語(yǔ)的TF-IDF值,TF(i)表示該詞的詞頻。主要思想是:如果該特征詞i在該文本中出現(xiàn)的次數(shù)較多,TF(i)越大,則表明該詞可能會(huì)較好地描述了該文本的主要信息,計(jì)算如式(2):

        (2)

        其中,ni為該詞i出現(xiàn)的次數(shù),n為所有關(guān)鍵詞的總數(shù)。

        IDF(i)表示逆文檔頻率,若包含該詞i文檔數(shù)越少,IDF(i)越大,說(shuō)明該詞i具有良好的類型區(qū)分作用,計(jì)算如式(3):

        (3)

        其中,N為文檔總數(shù),df(i)是為文檔出現(xiàn)詞語(yǔ)i的文檔數(shù)。

        TF-IDF算法表明:在文本comment中出現(xiàn)頻率足夠高,而在整個(gè)文本集合D的其他文檔中出現(xiàn)頻率足夠低的特征詞是區(qū)別該文本comment最關(guān)鍵的詞語(yǔ)[7-8]。TF詞頻代表同類文本特征,不同類別文本的特征由IDF來(lái)表示。IDF主要用于調(diào)整TF,抑制噪聲加權(quán),但TF-IDF的結(jié)構(gòu)過(guò)于簡(jiǎn)單,無(wú)法有效地反映單詞的重要性和特征單詞的位置分布,并且調(diào)整權(quán)限功能不是有效的,因此TF-IDF方法的準(zhǔn)確性不高,且TF-IDF算法沒(méi)有體現(xiàn)特征詞的位置信息、詞性、詞長(zhǎng)的重要性。對(duì)于一篇文檔而言,不同結(jié)構(gòu)的內(nèi)容體現(xiàn)的信息是不同的,即權(quán)重也應(yīng)按照不同的結(jié)構(gòu)特征來(lái)分配,避免忽視文本結(jié)構(gòu)問(wèn)題[9]。特征詞在不同的位置、詞性、詞長(zhǎng)對(duì)文本內(nèi)容的反映程度不同,其權(quán)重計(jì)算方式也應(yīng)有所不同。因此,應(yīng)該給文檔中不同位置、詞性、詞長(zhǎng)的特征詞賦予不同的系數(shù),并乘以特征詞的TF-IDF值,以增強(qiáng)文本表達(dá)的效果。

        1.2 互信息與信息熵

        互信息反映兩個(gè)詞語(yǔ)的凝聚力,互信息的計(jì)算如式(4):

        (4)

        其中,p(x,y)為詞語(yǔ)x,y的聯(lián)合分布概率;p(x),p(y)為詞語(yǔ)x,y邊緣分布概率;PMI(x,y)的單位為bit。

        根據(jù)互信息挑選的預(yù)選詞,利用信息熵確定該預(yù)選詞為新詞。信息熵是一個(gè)具體事件發(fā)生所帶來(lái)的信息[10],描述信息源的不確定度,熵是該預(yù)選詞的所有可能取值,即所有可能發(fā)生預(yù)選詞組合所帶來(lái)的信息量的期望[11],來(lái)表示預(yù)選詞的自由度。對(duì)于一個(gè)預(yù)選詞所有可能的組合X,其信息熵為公式(5)

        H(X)=-∑p(x)log2p(x).

        (5)

        其中,p(x)是x在系統(tǒng)事件中出現(xiàn)的概率。熵越大,則該預(yù)選詞大概率為一個(gè)新詞。

        1.3 Trie樹

        Trie索引樹是一種數(shù)據(jù)結(jié)構(gòu),是由非線性結(jié)構(gòu)形式表示的鍵樹,由首字散列表和字典索引樹結(jié)點(diǎn)兩部分組成,通常用于文本詞頻統(tǒng)計(jì)[12]。Trie樹可保存鍵值對(duì)映射關(guān)系,但key必須是字符串,除根節(jié)點(diǎn),其它節(jié)點(diǎn)都只包含一個(gè)字符,每個(gè)節(jié)點(diǎn)的孩子節(jié)點(diǎn)包含的字符都不相同。其核心思想是通過(guò)最長(zhǎng)公共前綴迅速查詢到結(jié)果,空間換時(shí)間,降低時(shí)間復(fù)雜度。通過(guò)Trie樹來(lái)存儲(chǔ)和計(jì)算詞語(yǔ)的信息熵,用于篩選出新詞。

        1.4 詞語(yǔ)的權(quán)重

        針對(duì)TF-IDF算法的局限性,引入詞語(yǔ)權(quán)重。詞語(yǔ)權(quán)重分為詞語(yǔ)位置權(quán)重,詞性權(quán)重,詞長(zhǎng)權(quán)重?;顒?dòng)的標(biāo)題的title一般能概括活動(dòng)的主要內(nèi)容,則出現(xiàn)在標(biāo)題中的詞語(yǔ)成為關(guān)鍵詞的概率更大;在評(píng)論中出現(xiàn)詞語(yǔ)可能會(huì)反映該活動(dòng)的隱藏關(guān)鍵詞或活動(dòng)相關(guān)關(guān)鍵詞,則評(píng)論的詞語(yǔ)也應(yīng)該適當(dāng)重視[13-14]。特征詞位置的權(quán)重設(shè)置見表1。

        表1 位置權(quán)重設(shè)置

        中文中的詞性可分為實(shí)詞和虛詞兩類。實(shí)詞一般包含:名詞、動(dòng)詞、形容詞、代詞、數(shù)詞、量詞等;虛詞一般包含:介詞、連詞、嘆詞、助詞等[13]。關(guān)鍵詞的詞性通常是以名詞或名詞性短語(yǔ)為主,其次是動(dòng)詞、副詞和其他修飾詞。特征詞的詞性權(quán)重設(shè)置見表2。

        表2 詞性權(quán)重設(shè)置

        關(guān)鍵詞過(guò)短無(wú)法體現(xiàn)包含信息,關(guān)鍵詞過(guò)長(zhǎng),包含信息越多,則表示該關(guān)鍵詞可以再次切分。研究表明,關(guān)鍵詞的詞長(zhǎng)一般在[2,7]之間,詞長(zhǎng)過(guò)長(zhǎng)過(guò)短需要過(guò)濾[15-16]。詞長(zhǎng)權(quán)重計(jì)算公式(6):

        (6)

        其中,ilen是第i個(gè)詞語(yǔ)的詞長(zhǎng),avg(len)是平均詞長(zhǎng)。

        綜合上述多特征權(quán)重,詞語(yǔ)權(quán)重計(jì)算公式(7):

        Wword=αWl+βWc+γWlen.

        (7)

        其中,Wword、Wl、Wc、Wlen分別為詞語(yǔ)權(quán)重、詞語(yǔ)的位置權(quán)重、詞性權(quán)重、詞長(zhǎng)權(quán)重,α、β、γ為系數(shù)分別為0.6、0.3、0.1。

        1.5 余弦相似度

        本文目標(biāo)是評(píng)測(cè)用戶評(píng)論質(zhì)量,需要與一個(gè)相對(duì)標(biāo)準(zhǔn)指標(biāo)進(jìn)行對(duì)比。余弦相似度是通過(guò)測(cè)量?jī)深愱P(guān)鍵詞向量的夾角余弦值來(lái)度量它們之間的相似性。余弦相似度計(jì)算公式(8):

        (8)

        評(píng)論中關(guān)鍵詞的權(quán)重作為A向量,標(biāo)準(zhǔn)關(guān)鍵詞權(quán)重作為B向量,計(jì)算兩者之間的cosθ。

        2 實(shí)驗(yàn)及結(jié)論

        2.1 算法步驟

        提取關(guān)鍵詞算法步驟為:

        (1)文本獲?。豪门老x爬取活動(dòng)標(biāo)題、用戶評(píng)論,寫入文本中保存。

        (2)文本預(yù)處理:清除文本中的噪聲,例如:文本中的空格,表情符號(hào),特殊符號(hào)等。

        (3)分詞:將文本分為標(biāo)題、評(píng)論兩部分,同時(shí)對(duì)這兩部分進(jìn)行分詞,分詞結(jié)果分為標(biāo)題分詞結(jié)果集和評(píng)論分詞結(jié)果集,本文采用結(jié)合字典樹和信息熵對(duì)文本進(jìn)行分詞。

        (4)停用詞過(guò)濾:由于停用詞的普遍性,通常自身沒(méi)有特定的意思,對(duì)文本主題的表達(dá)能力低。例如“的”,“啊”,“然后”,“哈哈哈”等詞語(yǔ)以及標(biāo)點(diǎn)符號(hào),過(guò)濾停用詞,消除對(duì)關(guān)鍵詞提取的干擾。

        (5)詞性/詞長(zhǎng)過(guò)濾:對(duì)詞性為語(yǔ)氣助詞、介詞、連詞、擬聲詞等詞語(yǔ)過(guò)濾,過(guò)濾詞長(zhǎng)小于2大于7的詞語(yǔ)。過(guò)濾這些詞語(yǔ)可提高工作效率,避免增加工作量。

        (6)利用TF-IDF算法計(jì)算詞語(yǔ)的Wtf-idf。

        (7)根據(jù)式(7)計(jì)算詞語(yǔ)的權(quán)重Wword。

        (8)計(jì)算詞語(yǔ)的最終權(quán)重W=Wtf-idf*Wword。

        (9)根據(jù)余弦相似度公式計(jì)算評(píng)論與標(biāo)題的相關(guān)度。

        2.2 實(shí)驗(yàn)及結(jié)果分析

        本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自某微信公眾號(hào)的活動(dòng)評(píng)論。評(píng)論共有91 120條,去除只含表情、評(píng)論過(guò)短的評(píng)論,剩余評(píng)論為83 680條。本文中該公眾號(hào)名都用“XXXX”來(lái)表示。

        2.2.1 分詞效果對(duì)比

        互聯(lián)網(wǎng)營(yíng)銷活動(dòng)的標(biāo)題和評(píng)論包含新詞,傳統(tǒng)分詞算法可能無(wú)法實(shí)現(xiàn)新詞的提取。本實(shí)驗(yàn)利用互信息和左右熵,以Tire樹為數(shù)據(jù)結(jié)構(gòu)提取新詞?;バ畔⑹且粋€(gè)詞語(yǔ)中包含的關(guān)于另一個(gè)詞語(yǔ)的信息量,即兩個(gè)詞共同出現(xiàn)的概率。左右熵衡量預(yù)選詞的自由度。左右熵越大,說(shuō)明該預(yù)選詞越有可能是獨(dú)立詞語(yǔ)。通過(guò)傳統(tǒng)分詞算法和基于互信息和左右熵的分詞算法的分詞結(jié)果見表3。

        表3 兩種分詞對(duì)比表

        從表3可以看出,傳統(tǒng)分詞將“XXXX”分成“XX”和“XX”兩個(gè)詞,將“尋味杭州”分為“尋味”和“杭州”,基于互信息和左右熵分詞算法將“XXXX”、“尋味杭州”作為獨(dú)立詞語(yǔ),這兩個(gè)詞語(yǔ)是與文本源——某公眾號(hào)的活動(dòng)相關(guān)。由此可見傳統(tǒng)的分詞算法無(wú)法識(shí)別新詞,會(huì)導(dǎo)致Wtf-idf不準(zhǔn)確。

        2.2.2 關(guān)鍵詞提取效果對(duì)比

        采用準(zhǔn)確率(Precision)、召回率(Recall)和F1值來(lái)衡量關(guān)鍵詞提取算法的優(yōu)劣。準(zhǔn)確率是指預(yù)測(cè)正確的樣本數(shù)除以總樣本數(shù),召回率是實(shí)際為正確的被預(yù)測(cè)為正確樣本的概率,則綜合準(zhǔn)確率和召回率這兩個(gè)指標(biāo)提出了F1值,若F1比較高,則說(shuō)明該算法效果較好[5]。

        準(zhǔn)確率計(jì)算公式如式(9):

        (9)

        其中,numcorrect表示符合主題的關(guān)鍵詞數(shù)量,numtotal是關(guān)鍵詞總量。

        召回率計(jì)算公式如式(10):

        (10)

        其中,numactual表示文本真實(shí)關(guān)鍵詞數(shù)量。

        F1值綜合準(zhǔn)確率和召回率兩個(gè)指標(biāo),計(jì)算公式如式(11):

        (11)

        通過(guò)準(zhǔn)確率、召回率和F1值對(duì)傳統(tǒng)TFIDF算法和多權(quán)TF-IDF算法進(jìn)行對(duì)比,結(jié)果見表4。

        表4 兩種算法指標(biāo)對(duì)比

        本文通過(guò)計(jì)算基于傳統(tǒng)TF-IDF算法和多權(quán)TF-IDF算法提取的關(guān)鍵詞權(quán)重與標(biāo)題關(guān)鍵詞權(quán)重的余弦相似度進(jìn)行對(duì)比,提取余弦相似度排名前5的評(píng)論,表5為兩種算法得到的不同重要評(píng)論排名結(jié)果。

        這次文本標(biāo)題是“網(wǎng)紅帶你尋味杭州!搶!千份好禮限時(shí)8 h!”,通過(guò)人工標(biāo)注關(guān)鍵詞為:“尋味杭州”,“網(wǎng)紅”,“好禮”,“8 h”,“千份”,活動(dòng)標(biāo)題的隱藏關(guān)鍵詞“XXXX”,評(píng)論關(guān)鍵詞與標(biāo)題關(guān)鍵詞進(jìn)行比對(duì),結(jié)果表明:多權(quán)TF-IDF算法優(yōu)于傳統(tǒng)TF-IDF算法。

        表5 重要評(píng)論對(duì)比

        3 結(jié)束語(yǔ)

        本文針對(duì)現(xiàn)代營(yíng)銷活動(dòng)中客戶為中心,分析客戶評(píng)論,提取重要客戶的需求,提出利用互信息和信息熵結(jié)合的分詞算法,互信息決定該詞語(yǔ)是否成為預(yù)選詞,左右熵決定該預(yù)選詞是否為獨(dú)立詞語(yǔ),在上述分詞算法的基礎(chǔ)上,融合詞語(yǔ)的位置、詞性、詞長(zhǎng)等多種因素對(duì)TF-IDF算法進(jìn)行了改進(jìn),對(duì)每個(gè)影響因素分配相應(yīng)的權(quán)重,加權(quán)處理,最后得到詞語(yǔ)權(quán)值,取權(quán)值最大的5個(gè)詞語(yǔ)作為評(píng)論的關(guān)鍵詞,以人工標(biāo)注的關(guān)鍵詞為標(biāo)準(zhǔn),對(duì)比兩種算法,發(fā)現(xiàn)本文算法效果良好,可篩選出重要評(píng)論,獲得重要客戶,值得推廣應(yīng)用,也可應(yīng)用到其他場(chǎng)景,如微博留言、帖子評(píng)論,可以有效的排除網(wǎng)絡(luò)水軍垃圾發(fā)言等。在研究的過(guò)程中也發(fā)現(xiàn)了一些不足和缺陷,在本文忽視了特征詞的語(yǔ)義信息對(duì)關(guān)鍵詞提取的影響,未來(lái)可對(duì)中文語(yǔ)義進(jìn)行深入研究:中文語(yǔ)言中有許多詞語(yǔ)存在相近語(yǔ)義或者多種語(yǔ)義。語(yǔ)義相同,詞語(yǔ)不同的關(guān)鍵詞,會(huì)被篩除,導(dǎo)致算法具有局限性,因此,研究不同特征詞語(yǔ)義信息對(duì)提升關(guān)鍵詞提取效果的影響是具有重要意義。

        猜你喜歡
        特征詞互信息分詞
        結(jié)巴分詞在詞云中的應(yīng)用
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        值得重視的分詞的特殊用法
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        面向文本分類的特征詞選取方法研究與改進(jìn)
        改進(jìn)的互信息最小化非線性盲源分離算法
        基于增量式互信息的圖像快速匹配方法
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        被暴雨淋湿爆乳少妇正在播放| 极品尤物在线精品一区二区三区| 亚洲av色福利天堂久久入口| 欧美顶级少妇作爱| 国产成人喷潮在线观看| 国产成人免费一区二区三区| 亚洲欧美日韩在线观看一区二区三区| 亚洲熟妇在线视频观看| 一区二区三区国产偷拍| 精品成人av人一区二区三区| 久久精品熟女亚洲av麻| 99久久精品国产一区二区| 幻女bbwxxxx在线视频| 精品午夜福利1000在线观看| 中文字幕亚洲精品第1页| 人妻精品久久久一区二区| 风韵人妻丰满熟妇老熟女视频| 18禁黄污吃奶免费看网站 | 国内精品九九久久久精品| 成人不卡国产福利电影在线看| 99国语激情对白在线观看| 中文字幕一区二区三区四区五区| 无码少妇一区二区浪潮av| 在线视频你懂的国产福利| 中文字幕亚洲精品第一页| 国产天堂av在线一二三四| 成人亚洲精品777777| 夜色阁亚洲一区二区三区 | 久热香蕉视频| 成人精品国产亚洲av久久| 中文字幕一区二区三区的| 美女网站免费福利视频| 精品国产三级a在线观看| 中文字幕一区二区三区.| 91久久精品美女高潮喷白浆| 久久国内精品自在自线| 国产精品欧美福利久久| 亚洲AV无码一区二区三区人| 久久久亚洲女精品aa| 久久综合精品国产丝袜长腿| 色综合久久无码五十路人妻 |