亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于信息熵的關(guān)鍵詞提取算法?

        2019-03-26 08:43:52孫偉晉
        關(guān)鍵詞:字符串互信息信息熵

        吳 華 羅 順 孫偉晉

        (上海通用識別技術(shù)研究所 上海 201112)

        1 引言

        隨著互聯(lián)網(wǎng)信息的爆炸式增長,如何提高信息的訪問效率、降低信息的閱讀成本,已成為信息處理的關(guān)鍵技術(shù)之一。而關(guān)鍵詞提取就是其中一種有效的應(yīng)對手段,關(guān)鍵詞作為信息的主要承載單元,其提取效果和性能直接決定了信息檢索、自然語言處理、本體構(gòu)建等技術(shù)和應(yīng)用的效果[1]。

        當(dāng)前廣泛使用的關(guān)鍵詞提取算法大多是基于字典、語言規(guī)則、統(tǒng)計(jì)的經(jīng)典算法[2~4]。這些經(jīng)典算法在進(jìn)行關(guān)鍵詞提取之前大多需要先進(jìn)行分詞[5],這就意味無法對缺乏語法等背景知識的小語種語料進(jìn)行分析處理,此外,經(jīng)典算法對于特定領(lǐng)域的新概念、新術(shù)語、新話題的處理能力也較差。

        本文在基于信息熵的方法,以詞匯內(nèi)部各字符的互信息作為詞匯內(nèi)部關(guān)聯(lián)性特征,以詞匯鄰接字符的分布作為詞匯外部獨(dú)立性特征,以及詞匯的頻次、長度等統(tǒng)計(jì)特征,構(gòu)建了一種無監(jiān)督的關(guān)鍵詞提取算法。該算法克服了經(jīng)典算法對字典、分詞等先驗(yàn)知識的依賴,同時(shí),能較好地識別出未登錄詞和支持多語種混合的語料環(huán)境。

        2 信息熵

        根據(jù)Shannon的信息理論,熵(entropy)用來度量隨機(jī)變量的不確定性[6]。一個(gè)離散隨機(jī)變量X,其值域記為Sx,對Sx中狀態(tài)值x∈Sx,其概率分布函數(shù)為則變量X的熵為

        若一個(gè)離散隨機(jī)變量Y,其值域記為Sy,對Sy中狀態(tài)值 y∈Sy,其概率分布函數(shù)為與隨機(jī)變量X的聯(lián)合概率分布函數(shù)為則變量X、Y的聯(lián)合熵為

        當(dāng)變量Y已知,則變量X的條件熵,即變量X中剩余的不確定性為

        變量X和變量Y的互信息,即兩者的統(tǒng)計(jì)依存關(guān)系為[7~8]

        考慮到

        即變量X和變量Y的互信息可由熵計(jì)算得到

        3 基于信息熵的關(guān)鍵詞提取

        3.1 詞邊界識別

        設(shè)樣本字符串S=t1t2…tn,則稱t1為t2的左鄰接字符,t2為t1的右鄰接字符。根據(jù)信息熵的方法,如果一個(gè)字符串是一個(gè)詞匯,那么其左右鄰接字符應(yīng)具有較大的不確定性,即該字符串獨(dú)立于左右鄰接字符,而鄰接字符的分布是較為分散的。

        舉例來說,“吃肯德基套餐”、“去肯德基門店”、“搶肯德基優(yōu)惠券”、“上肯德基官網(wǎng)”等字符串中,子字符串“德基”的左鄰接字符只有唯一確定的一個(gè)“肯”,而“肯德基”的左鄰接字符卻有“吃”、“去”、“搶”、“上”四種,不確定性較大,同樣的,子字符串“肯德”的右鄰接字符只有唯一確定的一個(gè)“基”,而“肯德基”的右鄰接字符卻有“套”、“門”、“優(yōu)”、“官”四種,不確定性較大。

        記字符串S左鄰接字符分布集為αl,右鄰接字符分布集為αr,計(jì)算字符串S左右鄰接熵模型如下:

        其中 f( )αiS 表示字符串在樣本中出現(xiàn)的次數(shù)。

        對于給定閾值h,若 Hl()S<h即認(rèn)為字符t1為字符串S的左邊界,若 Hr()S<h即認(rèn)為字符tn為字符串S的右邊界。

        3.2 詞匯完整性識別

        在3.1節(jié)中,我們獲得了字符串S的左右邊界,在此基礎(chǔ)上,根據(jù)信息熵的方法,如果一個(gè)字符串是一個(gè)完整詞匯,那么其內(nèi)部各字符間的相互關(guān)聯(lián)應(yīng)較為緊密,即該字符串內(nèi)部各子字符串具有較高的互信息值。

        舉例來說,“中國工商銀行”這一字符串在詞邊界識別的過程中,可能被識別成“中國”、“工商”、“銀行”三個(gè)詞匯,而事實(shí)上,當(dāng)“中國”、“工商”、“銀行”三個(gè)詞匯連續(xù)出現(xiàn)時(shí),我們更傾向?qū)⑵渥鳛橐粋€(gè)完整詞匯。

        互信息有多種計(jì)算表達(dá)式,同樣通過樣本統(tǒng)計(jì)數(shù)據(jù)給出互信息計(jì)算表達(dá)式:

        3.3 關(guān)鍵詞提取

        根據(jù)3.1節(jié)和3.2節(jié)、對于給定鄰接熵閾值h、互信息閾值 m,若且 Hr()S <h,且MI()S>m,則將字符串S=t1t2…tn作為獨(dú)立詞匯召回。

        選取詞頻、詞長、詞位置、詞跨度四種統(tǒng)計(jì)特征[5],并通過權(quán)重配置實(shí)現(xiàn)歸一化。

        詞頻因子計(jì)算模型如下:

        詞長因子計(jì)算模型如下:

        詞位置因子計(jì)算模型如下:

        其中 p=( )p0,p1,p2,p3表示字符串S在語料中標(biāo)題、首段、段首句、其他位置出現(xiàn)的頻率,a=( )a0,a1,a2,a3表示在每一個(gè)位置上的權(quán)重。該詞位置因子計(jì)算模型認(rèn)為,詞匯在不同的位置上對反映語料主題的重要性是不一致的,權(quán)重以標(biāo)題、首段、段首句、其他位置依次遞減,即a0≥a1≥a2≥a3。同樣的,add()S也向1收斂。

        詞跨度因子計(jì)算模型如下:

        為詞頻、詞長、詞位置、詞跨度四種統(tǒng)計(jì)特征配置權(quán)重w=( )w0,w1,w2,w3如下:

        我們即得到字符串S作為語料主題的影響因子。

        4 算法描述

        step1:從當(dāng)前位置pos=0開始讀入預(yù)定長度的字符串(如2漢字長度);

        step2:計(jì)算當(dāng)前字符串的左右鄰接熵;

        step3:若左或右鄰接熵小于指定閾值h,則字符串向左或右擴(kuò)展一個(gè)字符長度(遇到標(biāo)點(diǎn)或文章邊界則停止),回到step2;

        step4:若左和右鄰接熵均大于指定閾值h,則計(jì)算當(dāng)前字符串中個(gè)字符的互信息;

        step5:若互信息大于指定閾值m,則將當(dāng)前字符串作為獨(dú)立完整詞匯召回;

        step6:當(dāng)前位置pos右移一個(gè)字符長度,若語料剩余長度大于擬讀入字符串的預(yù)定長度,則回到step1;

        step7:計(jì)算所有被召回的詞匯權(quán)重,并按權(quán)重排序,取出權(quán)重較大的詞匯作為當(dāng)前語料的關(guān)鍵詞。

        5 算例

        以《環(huán)球時(shí)報(bào)》2015年3月30日報(bào)道的《“一帶一路”點(diǎn)燃世界熱情》為例。

        配置鄰接熵閾值h=1、互信息閾值m=0.05,配置詞位置權(quán)重 a=(0.4,0.3,0.2,0.1)、配置詞頻、詞長、詞位置、詞跨度權(quán)重 w=(0.4,0.2,0.2,0.2),利用第4節(jié)中算法,最終提取出的前十個(gè)關(guān)鍵詞為“一帶一路”、“絲綢之路”、“海上絲綢之路”、“中國”、“沿線國家”、“亞投行”、“經(jīng)濟(jì)”、“習(xí)近平”、“路線圖”、“俄羅斯”。

        實(shí)驗(yàn)結(jié)果表明,算法能識別“一帶一路”、“亞投行”等新詞和術(shù)語,能識別“海上絲綢之路”、“沿線國家”等復(fù)合詞,能將“絲綢之路”、“海上絲綢之路”等具有重復(fù)字符的詞匯作為兩個(gè)獨(dú)立詞匯召回,關(guān)鍵詞提取效果令人滿意。

        6 結(jié)語

        本文提出的基于信息熵的關(guān)鍵詞提取算法,是一種無監(jiān)督的提取算法。由于該方法的處理對象為二進(jìn)制字符,從而具有以下三方面特點(diǎn),一是不需要字典等先驗(yàn)知識;二是不需要分詞運(yùn)算而直接進(jìn)行關(guān)鍵詞提?。蝗悄芴幚矶嗾Z種混合的語料。

        猜你喜歡
        字符串互信息信息熵
        基于信息熵可信度的測試點(diǎn)選擇方法研究
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        一種基于信息熵的雷達(dá)動態(tài)自適應(yīng)選擇跟蹤方法
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于信息熵的IITFN多屬性決策方法
        改進(jìn)的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        一種新的基于對稱性的字符串相似性處理算法
        依據(jù)字符串匹配的中文分詞模型研究
        日本最新在线一区二区| 无遮挡h肉动漫在线观看| 精品亚洲欧美无人区乱码| 久久av高潮av喷水av无码| 一区二区免费国产a在亚洲| 97色综合| 手机在线国产福利av| 欧美性生交大片免费看app麻豆| ā片在线观看免费观看| 四虎精品影视| 青春草在线观看免费视频| 国产视频一区二区三区在线免费| 少妇被粗大的猛烈进出免费视频| 精品久久无码中文字幕| 国产精品制服一区二区| 成人免费av高清在线| 国产电影一区二区三区| 精品无码人妻一区二区三区不卡| 大伊香蕉在线精品视频75| 久久精品国产屋| 一区二区午夜视频在线观看| 国产无套粉嫩白浆在线| 国産精品久久久久久久| 亚洲乱码一区二区三区成人小说| 久久精品一区二区三区夜夜| 草草影院发布页| 9lporm自拍视频区| 一区二区三区福利在线视频| 男男做h嗯啊高潮涩涩| 精品国产一区二区三区色搞| 日韩人妻无码精品-专区| japanesehd中国产在线看 | 在教室伦流澡到高潮h麻豆| 欧美亚洲国产精品久久久久| 女人被躁到高潮嗷嗷叫免| 成人性生交大片免费| 91久久久久无码精品露脸| 久久精品国产亚洲av热东京热| 国产成人av在线免播放观看新| 99亚洲精品久久久99| av网址不卡免费在线观看|