亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下文檔關(guān)鍵詞抽取方法的探討

        2019-09-10 17:46:18孟曉燕趙衛(wèi)紅
        新教育論壇 2019年34期
        關(guān)鍵詞:詞項(xiàng)詞頻信息量

        孟曉燕 趙衛(wèi)紅

        摘要:關(guān)鍵詞抽取是借用計(jì)算機(jī)從文檔中選擇出能夠反映主題內(nèi)容的詞,提供一個(gè)簡(jiǎn)短的內(nèi)容摘要,便于用戶獲取文檔信息。在當(dāng)今大數(shù)據(jù)時(shí)代,在文本處理的許多領(lǐng)域,關(guān)鍵詞抽取都是一項(xiàng)重要技術(shù)。選取關(guān)鍵詞的目的是運(yùn)用關(guān)鍵詞最大限度反映出文檔內(nèi)容,研究從文檔集中選取關(guān)鍵詞的方法。本文通過(guò)引入能夠與文檔相關(guān)程度的指標(biāo) (分?jǐn)?shù)),建立出 的數(shù)學(xué)模型,給出文檔關(guān)鍵詞抽取方法。

        關(guān)鍵詞:關(guān)鍵詞抽取;TextRank算法;多文檔 ;聚類

        0 引言

        在大數(shù)據(jù)背景下,關(guān)鍵詞提取在文本處理的許多領(lǐng)域,都成為一項(xiàng)重要技術(shù)。大數(shù)據(jù)是全體數(shù)據(jù),追求精確度和因果關(guān)系都變得意義不大,尋找事物之間的相關(guān)關(guān)系變得更加重要。在面對(duì)大量文檔時(shí),人們想通過(guò)閱讀關(guān)鍵詞來(lái)了解大致意思,所以如何較好提取關(guān)鍵詞尤為重要。周錦章等[1]將文檔集進(jìn)行詞向量表征,通過(guò)構(gòu)建TextRank的轉(zhuǎn)移概率矩陣,提出一種基于詞向量與TextRank的關(guān)鍵詞抽取方法。羅燕等[2] 運(yùn)用詞頻統(tǒng)計(jì)規(guī)律改進(jìn)傳統(tǒng)TE-IDF算法,改善了關(guān)鍵詞的提取效果。門家樂(lè)[3]提出了如何用TextRank做關(guān)鍵詞提取。目前關(guān)鍵詞提取的主流方法有基于隱含主題模型的LDA[4]、基于TF-IDF [5]詞頻統(tǒng)計(jì)的關(guān)鍵詞抽取,基于詞圖模型TextRank[6]的關(guān)鍵詞抽取。

        1 關(guān)鍵詞概念

        一般來(lái)說(shuō),文檔的主題要通過(guò)一些特定的,能夠體現(xiàn)主題的詞語(yǔ)來(lái)刻畫,這樣的詞叫作關(guān)鍵詞。對(duì)于文檔,首先是要確定一個(gè)文檔的關(guān)鍵詞。我們可能猜測(cè)文檔中最頻繁出現(xiàn)的詞語(yǔ)應(yīng)該是最重要最有資格充當(dāng)關(guān)鍵詞。但是,這個(gè)直覺實(shí)際情況恰恰相反。出現(xiàn)最頻繁的大部分詞語(yǔ)都是那些類似于“the”或者“and”等常見詞。這些詞語(yǔ)通常用于輔助表達(dá),但本身不攜帶任何含義。實(shí)際上,英語(yǔ)中幾百個(gè)常見詞,往往在文檔分類之前就被去掉。

        事實(shí)上,描述主題的詞語(yǔ)往往都是罕見。從信息論角度看,用罕見的詞語(yǔ)當(dāng)作關(guān)鍵詞比起相對(duì)常見的詞做關(guān)鍵詞,更能引起人們的注意,能獲得更大的信息量。但是,并非所有罕見的詞語(yǔ)在做關(guān)鍵詞時(shí)同等重要。一方面,某些在整個(gè)文檔集合中極少出現(xiàn)的詞“notwithstanding”(盡管), “ albeit”(雖然)并不能提供多少有用的信息,當(dāng)然做檢索詞語(yǔ)是不合適的。另一方面,比如, “chukker” (馬球戲的一局)的詞雖然和上述詞語(yǔ)一樣罕見,但是該詞語(yǔ)卻能提示我們文檔明顯和馬球運(yùn)動(dòng)有關(guān)。上述兩類罕見的詞語(yǔ)區(qū)別在于它們是否在部分文檔中反復(fù)出現(xiàn)有關(guān)。也就是說(shuō),類似“albeit”的詞語(yǔ)第一次出現(xiàn)并不會(huì)增加它多次出現(xiàn)的可能性。但是,如果一篇文章中出現(xiàn)“chukker”,那么隨后可能會(huì)提到“first ?chukker”(第一回),“second chukker”(第二回)發(fā)生什么,以此類推。也就是說(shuō),如果這類詞在文檔中出現(xiàn),那么他它們很可能反復(fù)出現(xiàn)。罕見詞“chukker”具有兩個(gè)特點(diǎn):一是罕見,二是連續(xù)性。

        我們一旦確立了罕見詞語(yǔ)做關(guān)鍵詞,那么不能做關(guān)鍵詞的罕見詞看作是“噪音”。下面,我們將給出盡可能避免噪音的一種獲取最大信息量的檢索詞語(yǔ)選擇方法。

        2 關(guān)鍵詞選擇方法

        為了特定搜索目的,按照以下步驟完成互聯(lián)網(wǎng)上調(diào)查。

        (1)文檔集

        選定m個(gè)檢索詞,在Google依著這m個(gè)檢索詞查詢,獲得相應(yīng)的m類文檔:N= ,假設(shè)這些子文檔集總和為 N,建立由N個(gè)子文檔構(gòu)成的文檔集。

        (2)詞項(xiàng)(詞組)集

        為了對(duì)N個(gè)文檔賦予關(guān)鍵詞,對(duì)所有文檔逐一地進(jìn)行分詞。分詞是按照一定的規(guī)范重新組合成詞項(xiàng)的過(guò)程。中文分詞是文本挖掘基礎(chǔ)。對(duì)于輸入一段中文,成功的中文分詞,可以達(dá)到電腦可以自動(dòng)識(shí)別語(yǔ)句含義的效果。對(duì)所有N的個(gè)文檔進(jìn)行分詞后,我們獲取了“詞項(xiàng)(詞組)”集合。在這個(gè)詞項(xiàng)(詞組)集合中的每一個(gè)詞項(xiàng)(詞組)可能成為某一文檔的關(guān)鍵詞。當(dāng)然,并不是在詞項(xiàng)(詞組)集合中的詞都能稱為關(guān)鍵詞。一個(gè)詞項(xiàng)(詞組)能不能成為關(guān)鍵詞,就要看這個(gè)詞項(xiàng)(詞組)能不能代表文檔的信息。

        (3)詞(詞組)出現(xiàn)的概率

        為詞項(xiàng)(詞組)i在文檔j中的得分。

        【例】假定文檔集中有N= =1048576篇文檔,并詞項(xiàng)1在其中 =1024個(gè)文檔中出現(xiàn),假定文檔5中,詞項(xiàng)1出現(xiàn)20次(假定這也是在這個(gè)文檔中詞語(yǔ)出現(xiàn)最多的次數(shù))

        D15= =1 10=10

        詞項(xiàng)1在文檔5中得分為10。

        (5)賦予文檔關(guān)鍵詞

        對(duì)文檔集(N個(gè)文檔)中的指定的文檔 j,計(jì)算所有詞項(xiàng)在該文檔中的得分,得分最多的詞項(xiàng)作為文檔j的關(guān)鍵詞。

        基于關(guān)鍵詞的得分,按照分?jǐn)?shù)由大到小,給關(guān)鍵詞排序,確定文檔的關(guān)鍵詞。

        結(jié)束語(yǔ):本文通過(guò)引入能夠與文檔相關(guān)程度的指標(biāo)Dij(分?jǐn)?shù)),建立出Dij的數(shù)學(xué)模型,給出文檔關(guān)鍵詞抽取方法。詞項(xiàng)Dij與詞項(xiàng)出現(xiàn)的概率及詞項(xiàng)所含信息量有關(guān),本文給出的關(guān)鍵詞抽取方法理論簡(jiǎn)單易懂,只是運(yùn)用了簡(jiǎn)單的概率、-log2pi與信息量Ii呈負(fù)相關(guān)關(guān)系等數(shù)學(xué)知識(shí),并且該方法操作簡(jiǎn)單,可行性強(qiáng)。本文只是給出理論方案,沒(méi)有給出計(jì)算機(jī)運(yùn)行程序,在推廣方面仍存在不足,這點(diǎn)是我繼續(xù)研究的方向。

        參考文獻(xiàn):

        [1]周錦章,崔曉輝.基于詞向量與TextRank的關(guān)鍵詞提取方法.計(jì)算機(jī)應(yīng)用研究[J/OL],2019,36(5). [2018-03-09]

        [2]羅燕,趙書良,李曉超等.基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J] 計(jì)算機(jī)應(yīng)用.2016,36(3):718-725.

        [3]門家樂(lè).基于TextRank的關(guān)鍵詞提取算法. 探索與觀察.

        作者簡(jiǎn)介:

        第一作者簡(jiǎn)介:孟曉燕(1981-), 漢,女,山東菏澤人,本科,副教授,主要研究方向高等數(shù)學(xué)、應(yīng)用數(shù)學(xué)。

        第二作者簡(jiǎn)介:趙衛(wèi)紅(1978.12-),女,籍貫:山東青島,學(xué)歷:本科,單位:青島黃海學(xué)院,職稱:副教授,職務(wù):教師,研究方向:高等教育,英語(yǔ)教學(xué)與研究。

        猜你喜歡
        詞項(xiàng)詞頻信息量
        基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        基于信息理論的交通信息量度量
        自然種類詞項(xiàng)二難、卡茨解決與二維框架
        如何增加地方電視臺(tái)時(shí)政新聞的信息量
        新聞傳播(2016年11期)2016-07-10 12:04:01
        基于多尺度互信息量的數(shù)字視頻幀篡改檢測(cè)
        詞頻,一部隱秘的歷史
        云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
        基于聯(lián)合熵和交互信息量的視頻篡改檢測(cè)
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        英語(yǔ)詞項(xiàng)搭配范圍及可預(yù)見度
        久久久国产不卡一区二区| 色视频综合无码一区二区三区| 国产sm调教视频在线观看| 人妻无码视频| 男女干逼视频免费网站| 成人麻豆视频免费观看| 国产69精品久久久久久久| 美女胸又www又黄的网站| 国产一级r片内射免费视频| 黄色国产精品福利刺激午夜片| 比较有韵味的熟妇无码| 蜜臀av免费一区二区三区| 日本啪啪一区二区三区| 国产女主播一区二区久久| 欧美人妻少妇精品久久黑人| 思思久久99er热只有频精品66| 国产精品一区二区三区色| 日本一区二区在线高清观看| 精品日产卡一卡二卡国色天香| 国产成人av综合亚洲色欲| 白白色福利视频在线观看| 亚洲国产精品无码久久一区二区| 1000部夫妻午夜免费| 亚洲AⅤ樱花无码| av在线不卡一区二区| 大胸少妇午夜三级| 亚洲三级黄色| 国产成版人性视频免费版| 国产自拍av在线观看视频| 亚洲av成人一区二区三区| 2020亚洲国产| 尤物精品国产亚洲亚洲av麻豆 | 色丁香久久| 一本大道加勒比东京热| 久久婷婷五月综合色奶水99啪| 中文字幕无码不卡一区二区三区| 亚洲AV秘 无码一区二区三| 女优av一区二区在线观看| 无码成人一区二区| 中文字幕Aⅴ人妻一区二区苍井空| 国产免费精品一品二区三|