亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于無監(jiān)督的熱點話題發(fā)現(xiàn)研究

        2022-02-17 00:29:53聞彬,熊飛,陳薇
        電腦知識與技術(shù) 2022年35期
        關(guān)鍵詞:自然語言處理熱點話題機器學(xué)習(xí)

        聞彬,熊飛,陳薇

        摘要:高校“百度貼吧”經(jīng)常會有用戶發(fā)表一些討論帖,這些信息對于學(xué)校來說是非常有用的。但是未經(jīng)處理的信息無法實時給當局者提供幫助。因此,文章提出一種利用自然語言處理方法獲取“貼吧”信息,并實時發(fā)現(xiàn)熱點話題的方法。本文首先獲取網(wǎng)絡(luò)文本信息,對文本進行預(yù)處理,包括分詞、去除停用詞,再計算文本的TF-IDF值,最后利用無監(jiān)督學(xué)習(xí)方法(K-means)對文本進行聚類,從而獲取熱點話題。從實驗結(jié)果中可以看出,本方法可以有效地發(fā)現(xiàn)“貼吧”中的熱點話題。

        關(guān)鍵詞:自然語言處理;熱點話題;機器學(xué)習(xí);K-means

        中圖分類號:TP391? ? ? ? 文獻標識碼:A

        文章編號:1009-3044(2022)35-0016-03

        1 概述

        眾所周知,互聯(lián)網(wǎng)已經(jīng)成為當前人們?nèi)粘+@取信息的主要途徑?;诖?,人們也樂衷于在互聯(lián)網(wǎng)上發(fā)表自己的看法和觀點。但是絕大部分信息可能是沒有太大意義的,需要過濾掉不太重要的信息,并從中挖掘出有意義的信息。熱點話題發(fā)現(xiàn)就是在此背景下應(yīng)運而生,并引起了廣泛的關(guān)注。

        熱點話題發(fā)現(xiàn)的目的是在海量的數(shù)據(jù)信息中,找到引起大家共鳴、為大家津津樂道的信息,為當局或者管理者提供實時的情報,也為輿情監(jiān)控和觀點抽取等提供支持。

        2 研究現(xiàn)狀

        話題發(fā)現(xiàn)(Topic Detection)[1]是指分析大量語料,在無需人工監(jiān)督的情況發(fā)現(xiàn)文本中的熱點話題。話題發(fā)現(xiàn)常用的方法主要有三類:基于聚類的、基于主題模型和基于詞共現(xiàn)的方法。Xie[2]等人針對微博信息,首先提出用句子嵌入法來表示微博文本,然后再提取微博子主題,最后利用K-means[3]聚類算法對實驗結(jié)果進行驗證,實驗結(jié)果顯示,該算法取得較好的效果。Mathioudakis[4]等人建立了TwitterMonitor系統(tǒng),該系統(tǒng)可以通過實時監(jiān)測微博文本信息,并實時發(fā)現(xiàn)熱點話題,最后創(chuàng)建圖表來對熱點話題進行顯示。

        目前的話題發(fā)現(xiàn)學(xué)習(xí)方式主要有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

        2.1 有監(jiān)督學(xué)習(xí)

        在監(jiān)督學(xué)習(xí)中,通過給出訓(xùn)練數(shù)據(jù)集,并在數(shù)據(jù)集中標注類別,訓(xùn)練機器并讓其能夠識別出是哪個類別,圖1為有監(jiān)督學(xué)習(xí)流程圖。

        有監(jiān)督學(xué)習(xí)原理如圖2所示。

        圖2中,分別對狗類和貓類進行了正確分類以及標注,然后利用機器學(xué)習(xí)算法進行訓(xùn)練,獲取到模型的相應(yīng)參數(shù),再根據(jù)訓(xùn)練好的模型,對新的樣本進行判定,如圖3所示,以此獲取新樣本的屬性。

        監(jiān)督學(xué)習(xí)算法根據(jù)任務(wù)的不同,又分為了回歸分析(Regression)和統(tǒng)計分類(Classification)兩大類?;貧w和分類的算法區(qū)別在于輸出變量的類型,定量輸出稱為回歸,或者說是連續(xù)變量預(yù)測;定性輸出稱為分類,也稱為離散變量預(yù)測?;貧w不是本文的重點,因此在這里不再講述,本文重點講述分類算法。以上介紹的是利用算法對模型訓(xùn)練后,能夠?qū)ⅰ肮贰焙汀柏垺边M行分類。常用的分類算法有以下幾種:K-近鄰算法(K-Nearest Neighbors,KNN)、決策樹(Decision Trees)、神經(jīng)網(wǎng)絡(luò)分類(Neural Network)、支持向量機(Support Vector Machine, SVM)等。

        2.2無監(jiān)督學(xué)習(xí)

        無監(jiān)督學(xué)習(xí)是指在缺乏足夠的先驗知識時,讓計算機幫助解決這些問題,或者至少提供一部分幫助,因此無監(jiān)督學(xué)習(xí)使用的訓(xùn)練集是沒有任何標注的,目的是發(fā)現(xiàn)數(shù)據(jù)集本身的聚集性。如圖4所示,訓(xùn)練集本身沒有任何標注,通過機器學(xué)習(xí)訓(xùn)練之后,聚類為2大類,同時也無法判定類別。

        常見的無監(jiān)督學(xué)習(xí)算法分為聚類和降維兩大類,熱點發(fā)現(xiàn)使用的為聚類算法,本文僅討論聚類算法。常見的聚類算法有:K-均值(K-means)聚類、層次聚類(Hierarchical Clustering)、基于密度聚類(Mean Shift)等。聚類算法的目的是將相似的樣本聚在一起,聚類只需要考慮樣本之間的相似度,而不需要考慮類別數(shù)目。以K-means為例,該算法用來對n維空間內(nèi)的樣本根據(jù)歐式距離遠近程度進行聚類。

        3 方法

        本文以學(xué)校的百度貼吧為討論對象,從對應(yīng)的學(xué)校的“貼吧”中獲取該學(xué)校的討論文本。然后對文本進行處理,從而獲得該學(xué)校的熱點話題。

        從貼吧中獲取到相應(yīng)文章,分別為Text1,Text2,Text3,..., Textn,熱點發(fā)現(xiàn)原理如圖2所示。

        3.1 分詞

        對文本進行分詞,使用Jieba[5]進行分詞。

        Jieba的常用三種模式:

        1)精確模式,盡可能將句子精確切分;

        2)全模式,快速地將句子中的可能成詞的詞語都切分出來,不足之處在于無法解決漢語詞語的歧義問題;

        3)搜索引擎模式,在第一種模式的基礎(chǔ)上,對句子中出現(xiàn)的長詞語再次精確切分,目的是提高召回率,一般適用于搜索引擎中的分詞工作。

        本文采用第一種方式精確模式對文本進行處理。

        3.2 去除停用詞

        停用詞是指那些對句子沒有多大意義的詞語。在不犧牲句子含義的情況下,可以忽略。因此,需要將這些停用詞進行刪除,經(jīng)過整理,共獲得1598個停用詞,在分詞后的文本中刪除停用詞。

        3.3計算文本的TF-IDF值

        首先考慮計算文本之間的相似度。本文使用TF-IDF對文本進行向量化。下面介紹一下TF-IDF的原理。

        [TF-IDF=TF×IDF]? ? ? ? ? ? ? ? ?(1)

        其中:

        [TF=某個詞語在文章中的出現(xiàn)次數(shù)文章的總詞數(shù)]? ? ? ? ?(2)

        [IDF=log(語料庫的文檔總數(shù)包含該詞的文檔數(shù)+1)]? ? ? ? ? ?(3)

        TF-IDF用來評估某個詞語對于某篇文檔或者整個語料庫中其中一份文檔的重要性。例如,當一個詞語在一篇文檔中出現(xiàn)頻率很高,同時在其他文檔中出現(xiàn)頻率很低,甚至沒有出現(xiàn),那就認為該詞語對于該詞語所在的文檔具有很強的代表性,適用于對文本進行處理。其中詞頻(Term Frequency,TF)就是指一個給定的詞語在該文本中出現(xiàn)的頻率。這個數(shù)字是對詞數(shù)的歸一化處理,以防止它偏向長的文本,從而忽略短文本的重要性。逆向文件頻率(Inverse Document Frequency,IDF)是一個詞語普遍重要性的度量。

        3.4 向量空間模型

        向量空間模型首先是假設(shè)文本內(nèi)的詞語之間是不相關(guān)的,再利用向量將文本表示成向量模式,充分利用權(quán)重信息計算文檔之間存在的相關(guān)性[6]。

        計算出TF-IDF值之后,為防止出現(xiàn)維度過高問題,采用Compressed Sparse Row Format(CSR)壓縮稀疏行矩陣進行存儲。

        利用余弦相似度計算文本之間的距離,用向量空間中兩個向量的余弦值作為衡量兩個個體差異大小,如圖6所示。

        其中,A、B分別為2個文本向量,Dist(A,B)為AB間的距離,cosθ為相似度,cosθ值越接近1,就表示夾角越接近0度,也就是兩個向量越相似,從而判定文本之間的相似程度similarity。

        [similarity=cosθ=A·BAB=i=1nAi×Bii=1nAi2×i=1nBi2]? ? ? (4)

        3.5 利用K-means聚類算法進行聚類

        (1) 隨機生成K個聚類中心;

        (2) 計算每個樣本與每個聚類中心的距離(余弦相似度),離哪個聚類中心近,就劃分到哪個聚類中心所屬的集合當中;

        (3) 重新計算每個集合的聚類中心;

        (4) 重復(fù)2、3步,直到收斂(聚類中心偏移很小,或者計算聚類中心次數(shù)超過閾值);

        (5) 返回所有聚類標簽。

        從“百度貼吧”下載湖北輕工職業(yè)技術(shù)學(xué)院、武漢理工大學(xué)、華中師范大學(xué)下載各1000篇文本,利用本文的方法對文本進行處理,處理完后,發(fā)現(xiàn)熱點話題如表1所示。

        4 結(jié)束語

        熱點話題發(fā)現(xiàn)有助于快速獲取網(wǎng)絡(luò)中的當前熱點,能夠及時為當局提供快速響應(yīng)的依據(jù)。從實驗中可以看出,本文提供的方法可以有效且及時發(fā)現(xiàn)網(wǎng)絡(luò)中的熱點話題。不僅在貼吧平臺可以使用,在有數(shù)據(jù)來源的情況下,同樣可以作為社會輿論的監(jiān)測工具。但是本實驗中數(shù)據(jù)量有限,實驗結(jié)果可能與實際情況存在稍許偏差,后期筆者將重點放在增加實驗數(shù)據(jù)和改進實驗方法的工作上。

        參考文獻:

        [1] Allan J.Topic Detection and Tracking:Event-based Information Organization[M].Boston,MA:Springer US,2002.

        [2] Yu X,Bin Z,Yang O.A method based on sentence embeddings for the sub-topics detection[J].Journal of Physics:Conference Series,2019,1168:052004.

        [3] Naik M P,Prajapati H B,Dabhi V K.A survey on semantic document clustering[C]//2015 IEEE International Conference on Electrical,Computer and Communication Technologies.Coimbatore,India.IEEE,2015:1-10.

        [4] Mathioudakis M,Koudas N.TwitterMonitor:trend detection over the twitter stream[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data.Indianapolis,Indiana,USA.New York:ACM,2010:1155-1158.

        [5] https://github.com/fxsjy/jieba.

        [6] 徐云青,徐義峰,李舟軍.基于VSM的中文信息檢索[J].計算機系統(tǒng)應(yīng)用,2007,16(4):21-23.

        【通聯(lián)編輯:唐一東】

        猜你喜歡
        自然語言處理熱點話題機器學(xué)習(xí)
        2017年高考作文熱點話題預(yù)測
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機的金融數(shù)據(jù)分析研究
        面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        基于SVM的熱點話題跟蹤實現(xiàn)過程研究
        漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        亚洲一区日本一区二区| 中文字幕日韩精品无码内射| 日本丶国产丶欧美色综合| 久久精品无码一区二区三区不卡| 美女被强吻并脱下胸罩内裤视频| 在厨房拨开内裤进入毛片| 欧美人与物videos另类| 含羞草亚洲AV无码久久精品| 少妇勾引视频网站在线观看| 白白在线视频免费观看嘛| 亚洲av午夜福利精品一区二区| 在线视频你懂的国产福利| 99久久免费精品色老| 一区二区三区视频在线观看免费| 蜜桃久久精品成人无码av| 国产精品亚洲欧美天海翼| 亚洲最新版无码AV| 亚洲天堂av免费在线| av网站在线观看入口| 欧美大屁股xxxxhd黑色| 日本女优中文字幕看片| 国产又大大紧一区二区三区| 一本一道vs无码中文字幕| 国产精品成人99一区无码| 国产精品美女一级在线观看| 少妇被爽到高潮喷水免费福利| 亚洲熟女www一区二区三区| 中文在线天堂网www| 日本在线中文字幕一区二区| 精品久久av一区二区| 国产色秀视频在线播放| 国产成人cao在线| 蜜乳一区二区三区亚洲国产| 天天摸夜夜摸摸到高潮| 一本大道香蕉最新在线视频| 女同视频网站一区二区| 精品国产粉嫩内射白浆内射双马尾 | 国产剧情无码中文字幕在线观看不卡视频 | 一区二区在线观看日本免费| 国产亚洲精品第一综合另类| 欧美三级乱人伦电影|