亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遠(yuǎn)程學(xué)習(xí)的關(guān)鍵詞提取技術(shù)研究

        2021-11-19 03:25:08曹聰慧漆為民
        電腦與電信 2021年8期
        關(guān)鍵詞:文本系統(tǒng)

        曹聰慧 蘭 強 侯 群 漆為民*

        (1.江漢大學(xué)人工智能學(xué)院;人工智能研究院,湖北 武漢 430056;2.東風(fēng)汽車財務(wù)有限公司,湖北 武漢 430056)

        1 引言

        近年來,互聯(lián)網(wǎng)已經(jīng)成為全球最大的分布式的信息庫,據(jù)不完全的統(tǒng)計顯示,全世界每年出版的各種文獻資料和新發(fā)表的論文總數(shù)突破1000萬,互聯(lián)網(wǎng)上已有超過400億張網(wǎng)頁。而文本的形式仍然是大部分信息的表現(xiàn)形式[1],如何準(zhǔn)確高效地提取出對用戶有用的信息成為急需要解決的問題。

        目前,利用文本聚類、關(guān)鍵詞提取、自動文摘、信息搜索等計算機技術(shù)對文本信息進行處理,再將其直觀地呈現(xiàn)給用戶是一個較熱門的研究方向。基于統(tǒng)計學(xué)的聚類算法包括有Fisher提出的COBWEB算法以及Gennari等人提出的CLASSIT算法等[2],但是精確度都不高。首都師范大學(xué)的王少鵬等人將LDA算法和TF-IDF相結(jié)合,雖然能夠較好地利用文本聚類對輿論新聞等進行簡單分析[3],但是該方法的數(shù)據(jù)僅僅來自于網(wǎng)絡(luò)輿情分析,對其他應(yīng)用場景的適應(yīng)性差。對于英文關(guān)鍵詞提取的研究,華人科學(xué)家ZHANG K等利用支持向量機來建立分類的模型來判斷文檔中的詞是否是關(guān)鍵詞,這個方法最大的缺點是需要大量的訓(xùn)練語料,需要大量的人力去進行標(biāo)注[4]。TRIESCHNIGG D等利用詞性和TF-IDF構(gòu)建SVM模型,用這個生成模型來提取關(guān)鍵詞,效果要強于TF-IDF方法,但是這種方法只選擇了單詞作為關(guān)鍵詞,局限性很大[5]。對于中文語言關(guān)鍵詞的提取,2008年,方俊等提出了采用詞義代替詞,來對待選詞的語義進行代表以此來提高算法的各項指標(biāo)[6]。錢愛兵,江嵐增加了詞性、詞語長度、詞語位置等屬性來對傳統(tǒng)的TF-IDF進行改進抽取了關(guān)鍵詞[7],但是該方法沒有考慮到分詞詞典的豐富性和未登錄詞的識別問題,會導(dǎo)致許多重要關(guān)鍵詞的遺漏。關(guān)于遠(yuǎn)程學(xué)習(xí),目前有關(guān)將遠(yuǎn)程學(xué)習(xí)技術(shù)應(yīng)用到關(guān)鍵詞提取領(lǐng)域的研究極少。僅有的研究有,福州大學(xué)的王姬卜利用百度百科遠(yuǎn)程學(xué)習(xí)構(gòu)建了中文地理實體關(guān)系的語料庫,并通過實驗驗證了所建語料庫的有效性[8]。俞霖霖利用遠(yuǎn)程學(xué)習(xí)結(jié)合語義匹配和機器學(xué)習(xí)設(shè)計了候選答案抽取算法,但該方法缺少標(biāo)準(zhǔn)中文語料,通用性較差[9]。楊文通過網(wǎng)絡(luò)爬蟲對百度百科進行爬取,利用遠(yuǎn)程學(xué)習(xí)方法構(gòu)建了知識圖譜,但其爬取的數(shù)據(jù)量固定,知識更新有一定的局限[10]。

        綜上,現(xiàn)有的文本聚類或關(guān)鍵詞提取技術(shù)通常都有應(yīng)用范圍小、適應(yīng)性差或需要大量語料標(biāo)注浪費人力等缺陷,并且準(zhǔn)確率得不到保證。鑒于此,本文不需要語料標(biāo)注,先使用基于LDA算法的文本聚類建立了模型,再用FP-growth算法進行關(guān)鍵詞提取,能夠?qū)崿F(xiàn)對大數(shù)據(jù)文檔的聚類,并能計算出聚類之后的關(guān)鍵詞集,同時還利用網(wǎng)絡(luò)遠(yuǎn)程學(xué)習(xí)對最終的結(jié)果進行篩選,提高篩選準(zhǔn)確度,應(yīng)用范圍較廣。

        2 基于遠(yuǎn)程學(xué)習(xí)的關(guān)鍵詞提取系統(tǒng)總體設(shè)計

        基于遠(yuǎn)程學(xué)習(xí)的關(guān)鍵詞提取系統(tǒng)開發(fā)設(shè)計的主要目的是實現(xiàn)對于中文文本的聚類和關(guān)鍵詞精準(zhǔn)抽取的功能。系統(tǒng)結(jié)構(gòu)圖見圖1。

        圖1 基于遠(yuǎn)程學(xué)習(xí)的關(guān)鍵詞提取系統(tǒng)結(jié)構(gòu)圖

        本系統(tǒng)的設(shè)計中利用了隱含主題模型中的LDA算法模型對文本進行聚類,利用停用詞刪除方法實現(xiàn)了文本的去噪預(yù)處理,利用LDA算法模型的結(jié)果和FP-growth算法對聚類之后的關(guān)鍵詞進行了抽取,并且使用遠(yuǎn)程學(xué)習(xí)算法結(jié)合百度百科知識對最終結(jié)果進行了精確篩選,以提高關(guān)鍵詞提取系統(tǒng)的各項性能。

        3 系統(tǒng)實現(xiàn)的關(guān)鍵技術(shù)和方法

        3.1 基于LDA算法的文本聚類

        LDA是一種假定某些隱含參數(shù)的生成模型,是一個包含有文檔集、主題、詞語的三層結(jié)構(gòu),把主題看作是對應(yīng)的文檔集中所有詞匯的混合分布,把文檔集中的文檔看作是對應(yīng)的所有主題的混合分布。

        步驟為如下四步:

        (1)從Dirichlet分布α中取樣生成文檔i的主題分布θi;

        (2)從主題的Multinomial分布θi中取樣生成文檔i第j個詞的主題zi,j;

        (3)從Dirichlet分布β中取樣生成主題zi,j對應(yīng)的詞語分布

        LDA算法是依據(jù)這里已經(jīng)有的數(shù)據(jù)來對θ和φ進行再計算,就是估算文檔—主題和主題—詞語的概率。其中z是一個隱藏的變量,即對于每一個單詞來說,它所對應(yīng)的主題是不確定的。而θ和φ都是含有超參數(shù)的Dirichlet分布,因此對于LDA算法的本身也是估算α和β這兩個參數(shù)值。概率模型可表示為:

        對上式進行計算可以得出:

        其中D代表整個文檔,M代表文檔中語句的總數(shù)。

        由于上式中的α和β是不能夠直接得到的,所以LDA的作者使用了變分推理的方法來計算函數(shù)的最小值,并且采用了中間值的辦法來讓LDA計算過程更簡單,然后用EM算法求出α和β的值?,F(xiàn)在通常都采用Gibbs采樣的辦法來計算估計值。

        3.2 基于停用詞刪除方法的去噪預(yù)處理

        本文采用了刪除多數(shù)停用詞的方式來進行文本的預(yù)處理,對本文獲得到的數(shù)據(jù)進行清洗,去除垃圾詞匯和數(shù)據(jù),提高了文本挖掘的準(zhǔn)確性。

        停用詞可以分為兩類,一類是使用十分廣泛的單詞,還有一類是出現(xiàn)概率很高但是實際意義不大的詞。如“啊”“比”“你”“的”等[11]。文本挖掘中碰到這樣的詞語就無法保證系統(tǒng)能夠給出真正的最準(zhǔn)確的答案,會使文本挖掘的效率和準(zhǔn)確度降低。同時,過多的標(biāo)點符號也會對文本挖掘的結(jié)果有很大的影響,標(biāo)點符號也是需要去掉的停用詞。因此,將停用詞刪除是有效的去噪預(yù)處理方法。

        3.3 基于FP-growth算法的關(guān)鍵詞抽取

        FP-growth算法是把頻繁項集的數(shù)據(jù)用一定的辦法壓縮到一個FP-樹里面,然后再通過對葉子節(jié)點和父節(jié)點數(shù)據(jù)的判斷來對信息進行適當(dāng)?shù)耐诰蚝头治?。基于FP-growth算法的關(guān)鍵詞抽取的輸入是事務(wù)數(shù)據(jù)庫D和最小支持度閾值min_sup。該算法的輸出是頻繁模式的完全集。構(gòu)造FP-樹的步驟為:

        (1)掃描事務(wù)數(shù)據(jù)庫D一次。收集頻繁項的集合F和他們的支持度。對F按支持度降序排序,結(jié)果為頻繁項集L。

        (2)創(chuàng)建FP-樹的根節(jié)點,用“null”來進行標(biāo)記。對于D中的每個事務(wù)Trans,執(zhí)行:

        選擇Trans中的頻繁項,并按L中的次序排序。設(shè)排序后的頻繁項集表為[p|P],其中p是第一個元素,而P是剩余元素的表。調(diào)用insert_tree([p|P],T)。該過程執(zhí)行情況如下,如果T有子女N使N.item-name=p.item-name,則N的計數(shù)增加1;否則創(chuàng)建一個新節(jié)點N,將計數(shù)設(shè)置為1,鏈接到它的父節(jié)點T,并將其鏈接到具有相同item-name的節(jié)點。如果P非空,遞歸調(diào)用insert_tree(P,N)。

        而FP-樹的挖掘則通過調(diào)用過程FP-growth(FP-tree,null)實現(xiàn),調(diào)用Procedure FP-growth(tree,α)函數(shù),其具體步驟為:

        (1)如果tree包含單個路徑P,那么遍歷路徑P的每個節(jié)點組合(記為β);

        (2)產(chǎn)生模式β∪α,支持度support=β中節(jié)點的最小支持度;

        (3)對每個節(jié)點αi在Tree的頭部都執(zhí)行:

        1)產(chǎn)生模式β=ai∪β,它的支持度是support=αisupport;

        2)構(gòu)造β的條件模式基和條件FP-樹treeβ,若treeβ不為空,調(diào)用FP-growth(treeβ,β)。

        3.4 基于遠(yuǎn)程學(xué)習(xí)算法的關(guān)鍵詞篩選

        3.4.1遠(yuǎn)程學(xué)習(xí)

        遠(yuǎn)程學(xué)習(xí)指的是利用開放資源的信息和數(shù)據(jù)來提高關(guān)鍵詞的準(zhǔn)確度。本文利用網(wǎng)絡(luò)資源,將得到的短語結(jié)果放到網(wǎng)上,基于百度百科知識庫的應(yīng)用進行搜索。這種方式的好處就是網(wǎng)絡(luò)資源豐富,而且數(shù)據(jù)更新快,更容易發(fā)現(xiàn)新詞,網(wǎng)絡(luò)上的數(shù)據(jù)涵蓋各個方面,免去了建立字典的麻煩。

        3.4.2字符串匹配度

        對于兩個字符串String1和String2之間的匹配度用百分比的形式表示為:

        其中,Str=String1∩String2表示的是字符串String1和String2之間共同擁有的最長子串。size(Str)表示的是字符串String1和字符串String2之間最大子串的長度。size(String1)表示的是字符串String1的長度,size(String2)表示的是字符串String2的長度。

        3.4.3漢語比對算法

        本文設(shè)計了基于百度百科和匹配度公式的漢語比對算法,來對上面通過LDA算法進行文本聚類和FP-growth算法提取得到的關(guān)鍵詞進行篩選。該算法的輸入為:用制表符隔開的短語數(shù)組S1和閾值p。輸出為:刪除了一些噪聲詞的用制表符隔開的短語集合S2。算法如圖2所示。

        圖2 基于百度百科和匹配度公式的漢語比對算法

        3.4.4算法測試

        為了測試漢語比對算法的效果并選取出合適的閾值,從中國人民大學(xué)的網(wǎng)絡(luò)與移動數(shù)據(jù)管理實驗室所提供的領(lǐng)域分類(CCF目錄)論文收錄(http://cdblp.ruc.edu.cn/)中的論文中隨機選取了50篇論文,人工隨機選取了1038個正確短語以及600個錯誤短語作為實驗語料進行實驗。

        該漢語比對算法的攔截成功率呈現(xiàn)一定的規(guī)則。在閾值為30%左右的時候,對正確短語和錯誤短語的攔截率成功率相等,為96%。隨著閾值的增加,對于正確短語的攔截成功率下降較為明顯,錯誤短語的攔截率趨于100%。當(dāng)閾值過高時,雖然攔截錯誤短語的能力提高了,但一些正確的短語會被攔截,這是因為有一些我們認(rèn)為正確的短語在百度百科中還沒有被收錄。當(dāng)閾值為交點坐標(biāo)30%時就可以基本滿足篩選的需求。因此,該漢語比對算法在選擇合適閾值0.3用來進行關(guān)鍵詞的篩選。

        4 系統(tǒng)實現(xiàn)及實驗

        4.1 系統(tǒng)實現(xiàn)

        基于遠(yuǎn)程學(xué)習(xí)的關(guān)鍵詞提取系統(tǒng)的實現(xiàn)流程如圖3所示。

        圖3 基于遠(yuǎn)程學(xué)習(xí)的關(guān)鍵詞提取系統(tǒng)的實現(xiàn)流程

        首先該系統(tǒng)輸入主題詞參數(shù)n,用于LDA算法的主題建模和生成詞典文件(pt網(wǎng)絡(luò)文件)。其次,輸入最小置信度閾值λ和最小支持度閾值min_sup,F(xiàn)P-growth算法要用這兩個參數(shù)挖掘詞與詞之間的關(guān)系來生成詞和關(guān)鍵詞集。最后,篩選閾值p用于短語比對算法對噪聲詞進行篩選。通過上述的三個步驟,來生成需要的關(guān)鍵詞集。

        4.2 實驗

        4.2.1實驗數(shù)據(jù)來源

        選擇中國人民大學(xué)的網(wǎng)絡(luò)與移動數(shù)據(jù)管理實驗室所提供的領(lǐng)域分類(CCF目錄)論文收錄(http://cdblp.ruc.edu.cn/)中的論文數(shù)據(jù)11490條論文標(biāo)題作為實驗語料。其中包含了計算機網(wǎng)絡(luò)分類的3314條數(shù)據(jù),模式識別分類的2276條數(shù)據(jù),軟件工程的2880條數(shù)據(jù)以及算法理論分類的2520條數(shù)據(jù)。

        4.2.2實驗步驟

        (1)將采集到的語料先進行去噪處理。

        (2)將語料和主題數(shù)n,最小置信度閾值λ,最小支持度閾值min_sup和篩選閾值p輸入到系統(tǒng)中。這里本文采用的主題數(shù)為4,λ為0.5,min_sup為5[3]。篩選閾值p初值為0.3。

        (3)改變篩選閾值p的值,進行重復(fù)試驗。

        4.2.3實驗結(jié)果和分析

        對于沒有使用遠(yuǎn)程學(xué)習(xí)篩選的關(guān)鍵詞提取算法,在圖像、軟件、算法和網(wǎng)絡(luò)四個場景上的準(zhǔn)確率分別為0.7415、0.9255、0.7738和0.8472,召回率分別為0.5824、0.7248、0.5432和0.6128,F(xiàn)值分別為0.65239006、0.81294601、0.63831155和0.71118378。準(zhǔn)確率、召回率和F值的平均值分別為0.822、0.6158和0.70370785。

        增加使用了遠(yuǎn)程學(xué)習(xí)篩選之后的關(guān)鍵詞提取算法,在圖像、軟件、算法和網(wǎng)絡(luò)四個場景上的準(zhǔn)確率分別為0.9178、0.9654、0.9385和0.9621,召回率分別為0.5792、0.6972、0.5336和0.6131,F(xiàn)值分別為0.71020676、0.80966784、0.68036627和0.74893792。準(zhǔn)確率、召回率和F值的平均值分別為0.94595、0.605775和0.7372947。

        可以看出,在篩選閾值p為0.3的時候,對于這個文本的每個分類之下的關(guān)鍵詞提取的準(zhǔn)確率有明顯的提高,對于召回率的影響不大,F(xiàn)值有較為明顯的提高。實驗結(jié)果說明增加了基于百度百科的遠(yuǎn)程學(xué)習(xí)篩選之后,提高了系統(tǒng)的整體性能。

        對比了6個不同的p值0、0.1、0.3、0.35、0.5和1,系統(tǒng)準(zhǔn)確率的平均值分別為0.822、0.8569、0.94595、0.9687、0.9867和1,系統(tǒng)召回率的平均值分別為0.6158、0.6432、0.605775、0.5096、0.30786和0.019,系統(tǒng)F值的平均值分別為0.703707852、0.7348、0.73729470、0.66786、0.46929和0.03??梢钥闯觯S著p值的增加準(zhǔn)確率在不斷增加,當(dāng)p值為1時準(zhǔn)確率達到了百分之百。召回率和F值隨著p值的增加有小幅度的上升之后顯著降低,這說明p值過高系統(tǒng)的整體效果會很低。對于一個文本挖掘的系統(tǒng),準(zhǔn)確率很高但是有很多有用的信息會被過濾掉,這樣的系統(tǒng)并不是我們想看到的。

        因此,對于本文的基于遠(yuǎn)程學(xué)習(xí)的關(guān)鍵詞提取系統(tǒng),在其他的值都是經(jīng)驗最佳值的情況下,p值的最佳值是0.3左右,由于百度百科里面的資料不是一成不變的,針對每一個類別的知識也不盡相同,p值的最佳值由語料的種類決定。對于增加的百度百科篩選,在召回率波動不大的情況下,對關(guān)鍵詞集的準(zhǔn)確率提高較為明顯。

        5 結(jié)語

        本文針對大數(shù)據(jù)處理中數(shù)據(jù)類別混亂、關(guān)鍵詞模糊的問題,設(shè)計了基于遠(yuǎn)程學(xué)習(xí)的關(guān)鍵詞提取系統(tǒng)。利用LDA主題模型進行文本聚類,使用停用詞刪除方法進行去噪預(yù)處理,利用FP-growth算法進行關(guān)鍵詞的初步抽取。并且利用遠(yuǎn)程學(xué)習(xí)的思想結(jié)合了百度百科資源提出了漢語比對算法對關(guān)鍵詞進行精確篩選。通過實驗對比,證明使用遠(yuǎn)程學(xué)習(xí)的關(guān)鍵詞提取算法可以提高準(zhǔn)確率。對篩選閾值進行分析,證明閾值在0.3左右時可以進一步提高系統(tǒng)對關(guān)鍵詞的提取準(zhǔn)確率。但本系統(tǒng)對于不同語料種類仍存在一定的局限性,閾值要在0.3的左右做相應(yīng)的微調(diào)以達到最佳效果。

        猜你喜歡
        文本系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        基于PowerPC+FPGA顯示系統(tǒng)
        在808DA上文本顯示的改善
        半沸制皂系統(tǒng)(下)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        中文字幕人妻日韩精品| 美女网站免费福利视频| 黑人大荫道bbwbbb高潮潮喷| 亚洲AV无码国产永久播放蜜芽 | 亚洲国产精品嫩草影院久久| 午夜男女视频一区二区三区| 国内自拍色第一页第二页| 国产精品网站在线观看免费传媒| 欧美伊人久久大香线蕉在观 | 日韩一二三四精品免费| 男人一插就想射的原因| 国产午夜精品无码| 51久久国产露脸精品国产| 精品无吗国产一区二区三区av| 精品人妻日韩中文字幕| 久久精品国产亚洲av久| 久久青青草原亚洲av无码麻豆| 被群cao的合不拢腿h纯肉视频| 国产高清在线精品一区αpp| 91国产熟女自拍视频| 男人天堂这里只有精品| 人妻精品久久久久中文字幕| 2021久久精品国产99国产精品| 国产精品污www一区二区三区| 爆乳无码AV国内| 亚洲最新精品一区二区| 中文无码精品a∨在线观看不卡| 伊人色网站| 国产日本精品一区二区| 变态另类手机版av天堂看网| 日韩国产成人无码av毛片蜜柚| 在线观看亚洲AV日韩A∨| 日韩亚洲国产中文字幕| 人妻精品久久久久中文字幕| 中文乱码人妻系列一区二区| 少妇被日到高潮的视频| 精品亚洲av乱码一区二区三区| а√天堂资源官网在线资源| 午夜免费福利在线观看| 在线观看播放免费视频| 国产成人av在线免播放观看新|