亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost的中文網(wǎng)絡評論分類方法研究

        2021-01-20 06:21:12劉思聰盧甘霖崔子良尹建爍西北農(nóng)林科技大學信息工程學院
        數(shù)碼世界 2020年12期
        關鍵詞:數(shù)據(jù)量分詞標簽

        劉思聰 盧甘霖 崔子良 尹建爍 西北農(nóng)林科技大學信息工程學院

        引言

        網(wǎng)絡論壇相關技術的發(fā)展,使其能夠承載更多網(wǎng)絡用戶產(chǎn)生的信息。但網(wǎng)絡評論來源的復雜性,造成了網(wǎng)絡論壇中的評論文本質(zhì)量良莠不齊。因此,對網(wǎng)絡評論文本進行實時并且快速的分類成為了當前比較緊迫的商業(yè)需求。

        但當前網(wǎng)絡評論文本分類的有關研究還未成熟,其亟待解決的問題可總結(jié)為:文本分類的類別設置不全面;使用的分類算法性能不佳。為解決以上問題,本文建立了一套較為科學的評論文本分類標簽,提出了一套基于XGBoost算法的分類系統(tǒng)。

        1 相關技術

        1.1 數(shù)據(jù)獲取與預處理流程

        采用網(wǎng)絡爬蟲抓取網(wǎng)絡論壇上的評論信息,運用NLTK工具集對無關信息進行清洗,建立符合需求的評論文本數(shù)據(jù)集。

        1.2 文本分詞處理流程

        使用Jieba進行中文分詞,該工具包實現(xiàn)了高效的詞圖掃描,能找出基于詞頻的最佳切分方式。

        1.3 基于TF-IDF的特征提取流程

        通常運用TF-IDF提取文章的特征,具體如下:

        2 XGBoost算法

        該分類算法的基本思想是選擇部分樣本和特征生成一個簡單模型,將其作為基本分類器。在生成新模型時,學習以前模型的殘差最小化目標函數(shù)。重復執(zhí)行,最終產(chǎn)生準確率很高的綜合模型。它的目標函數(shù) Oobj經(jīng)過泰勒公式展開后,最終化簡為

        3 網(wǎng)絡評論分類系統(tǒng)的構(gòu)建

        分類系統(tǒng)由文本獲?。ㄊ褂镁W(wǎng)絡爬蟲從網(wǎng)絡論壇抓取文本信息)、文本整理與清洗(剔除文本中的無關信息)、文本分詞(對經(jīng)過預處理的文本進行分詞)、特征提?。▽Ψ衷~后的文本建立特征矩陣)和模型訓練(訓練出XGboost模型)構(gòu)成。

        4 實驗驗證

        4.1 實驗驗證平臺

        硬件平臺:CPU:Intel i5 7300HQ,內(nèi)存:DDR4 12G,硬盤:260G硬盤;

        開發(fā)及運行環(huán)境:操作系統(tǒng) Windows 10 OS, 編程語言:Python 3。

        4.2 項目所使用數(shù)據(jù)集

        首先,設定體育、健康等12類標簽。其次,在SougoCS數(shù)據(jù)集的基礎上,使用網(wǎng)絡爬蟲和手工標注將訓練集和測試集分別增強到24000條和12000條。

        4.3 分類性能評判標準

        使用準確率,召回率和F1三個指標作為分類器評判標準,定義如下:

        4.4 不同分類模型的比較

        為驗證XGBoost的分類準確性,選擇Logistics、隨機森林和樸素貝葉斯三種算法,在100%數(shù)據(jù)量下,進行比較。由表1可知,XGBoost模型的結(jié)果好于其他三種算法。其中,較排名第二的Logistics仍高出8%。

        4.5 不同數(shù)據(jù)量的影響

        隨機選取20%、40%、60%、80%的數(shù)據(jù)作為訓練集。從折線圖中可以看出,隨著數(shù)據(jù)量的增加,模型的結(jié)果逐步增強,且未出現(xiàn)明顯的下降趨勢。

        表2 訓練樣本量對XGBoost算法的影響

        圖1 XGBoost在不同數(shù)據(jù)量下測試結(jié)果的變化

        5 結(jié)論

        (1)針對當下分類標簽設定不科學的問題,可在原有基礎上。根據(jù)實際,設計出更精細的標簽;然后,利用人工標注的方法,逐步增強適用于網(wǎng)絡評論分類的評論語料。

        (2)針對準確率的問題,提出了一套基于XGBoost算法的分類方法。通過與其他分類算法的比較可得:XGBoost算法的結(jié)果好于其他算法;通過在不同數(shù)據(jù)量下的測試可得:隨著訓練樣本的增加,準確率保持穩(wěn)定增長,未出現(xiàn)較明顯的下降趨勢。

        猜你喜歡
        數(shù)據(jù)量分詞標簽
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        高刷新率不容易顯示器需求與接口標準帶寬
        寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設計與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        結(jié)巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        值得重視的分詞的特殊用法
        標簽化傷害了誰
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        久久精品国产亚洲av高清三区| 日本亚洲成人中文字幕| 国产一区二区不卡av| 人人妻人人澡人人爽欧美一区| 国产办公室沙发系列高清| 无码专区一ⅴa亚洲v天堂| 漂亮人妻被中出中文字幕久久| 一本久道久久综合久久| 久久无人码人妻一区二区三区| 免费在线观看视频播放| 女人喷潮完整视频| 欧美一级人与嘼视频免费播放| 国产在线看不卡一区二区| 日本韩国三级在线观看| 亚洲乱码中文字幕久久孕妇黑人| 亚洲综合在线一区二区三区| 欧美精品一区二区性色a+v| 免费高清视频在线观看视频| 成人大片免费视频播放一级| 忘忧草社区www日本高清| 高清无码一区二区在线观看吞精| 日韩在线精品视频免费| 午夜视频在线观看视频在线播放 | 国产精品永久免费| 亚洲一区欧美二区| 国产内射视频在线观看| av素人中文字幕在线观看| 人妻无码αv中文字幕久久琪琪布| 欧美xxxx新一区二区三区| 在线观看二区视频网站二区| 亚洲av无码一区二区三区网址| 成全视频高清免费| 美女露屁股无内裤视频| 日韩少妇人妻中文字幕| 秋霞午夜无码鲁丝片午夜精品| 亚洲欧美日韩高清一区二区三区| av在线免费观看男人天堂| 久久精品国产久精国产果冻传媒| 日本成人久久| 色综合中文字幕综合网| 国产午夜精品一区二区三区不卡|