亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM 的新聞文本分類研究

        2021-11-15 09:03:28吳銳妍李夏永才兆奕
        魅力中國 2021年44期
        關(guān)鍵詞:超平面類別線性

        吳銳妍 李夏永 才兆奕

        (河南大學數(shù)學與統(tǒng)計學院,河南 開封 475004)

        一、引言

        一般情況下,大眾很少對于互聯(lián)網(wǎng)上正在發(fā)生的事情利用關(guān)鍵字檢索。整合相關(guān)新聞主題的綜合信息,包括新聞背景、當前進展、不同的觀點討論,不僅能為用戶提供更好的體驗,也有利于平臺對于用戶群體需求進行分析,優(yōu)化升級。傳統(tǒng)新聞信息整理是由網(wǎng)站編輯手動操作的,十分費時費力,因此也很難做到實時更新。

        以某公眾平臺賬號對于為例,其自定義菜單欄的內(nèi)容推送只能由運營人員手動添加超鏈接跳轉(zhuǎn)到單一的推送消息,未能針對相關(guān)信息進行自動整合。新聞在跨越更長的時間后,價值大大降低。手動添加固定數(shù)量的新聞信息繁瑣而耗時,很多情況下只能選擇階段內(nèi)相對重要的信息進行展示,無法體現(xiàn)新聞的時效性。

        若利用算法自動收集整合相關(guān)新聞的所有信息,將其提供給用戶,將會大大提升工作效率。但算法的實用性以及準確性也需要一定的保證?,F(xiàn)如今,數(shù)據(jù)已經(jīng)成為新聞報道的驅(qū)動力。數(shù)據(jù)資料作為研究基礎(chǔ),利用科學方法來分析處理數(shù)據(jù),解構(gòu)它將是我們的目標。希望能夠在實踐中學習并利用SVM即支持向量機理論進行中文短文本分類,并能夠?qū)μ幚斫Y(jié)果進行總結(jié)。

        二、研究方法

        SVM,即支持向量機理論對于處理微型樣本問題和非線性分類問題等多種復雜問題有其獨特的技術(shù)優(yōu)點。人們把能使兩類數(shù)據(jù)準確分離且分離距離最優(yōu)的平面稱為最優(yōu)超平面,當數(shù)據(jù)是線性可分離時,最優(yōu)超平面距離兩類點的邊距最大;當數(shù)據(jù)不是線性可分離時,利用損失函數(shù)對越過超平面的點進行懲罰或使用核變換,將非線性可分的數(shù)據(jù)轉(zhuǎn)化到高維度以便找到線性判定邊界。

        SVM 嘗試尋找一個最優(yōu)的超平面使得兩類樣本到這個平面的距離最大。樣本中距離超平面最近的一些點,決定超平面的選取,將這些點稱為支持向量。

        任意超平面可以用下面的線性方程描述:

        所有支持向量到超平面的距離可以寫為

        兩類支持向量到超平面的距離之和為

        由于原式中有不等式約束條件,因此需要滿足KKT 條件,即

        對數(shù)據(jù)是非線性的情況,無法找到一個超平面使兩類樣本點完全分開,則利用軟間隔,相比于硬間隔的嚴格要求,我們允許個別樣本點越過超平面,即允許部分樣本點不滿足約束條件

        三、實例分析

        (一)數(shù)據(jù)預處理

        本項目使用搜狗實驗室開放的搜狐新聞數(shù)據(jù)(SogouCS)的完整包進行該實驗。數(shù)據(jù)是xml 文件,需要用正則表達式篩選出我們需要的新聞標題和新聞類別。新聞類別可以從url 中獲取,比如,http://gongyi.sohu.com 的url 前綴對應的新聞類型就是“公益類”。

        完整包中總計141196 篇新聞,一共18 個類別,但是經(jīng)過篩選發(fā)現(xiàn)有些類別的新聞數(shù)量較少,因此,我們選擇了以下7 個類別進行實驗。

        在這七個類別中隨機抽取20000 篇文章作為訓練樣本,隨機抽取5000篇文章作為測試樣本。

        再對新聞標題使用jieba 分詞將標題劃分為若干個名詞。因為名詞在文本類別中起到主要作用,因此要停用一些與類別無關(guān)的通用詞。

        接著再利用TF-IDF 對分詞后的標題進行特征抽取。利用sklearn 里的TfidfVectorizer 對標題進行TF-IDF 特征提取。

        (二)加載SVM 模型

        本項目利用sklearn 里的SVM 模型,對預處理好的標題和類別加載SVM 模型進行訓練,分別使用了多項式核,高斯核,sigmoid 核,線性核進行訓練,并且評測訓練的正確率,預測正確率最高的是線性核,達到了0.8762。結(jié)果如圖:

        表1 訓練結(jié)果

        四、結(jié)論

        對于新聞分類系統(tǒng)模型,還需要長久的算法優(yōu)化與測試。隨著網(wǎng)絡傳播的發(fā)展,互聯(lián)網(wǎng)新聞分類研究仍是具有很高的研究價值。結(jié)合群體極化、網(wǎng)絡暴力等現(xiàn)象分析,對網(wǎng)絡環(huán)境進行監(jiān)管,研究輿論傳播規(guī)律。此方面研究能為新聞工作者、用戶提供諸多便利。希望能夠利用互聯(lián)網(wǎng)新聞分類系統(tǒng)與優(yōu)化后的SVM 模型結(jié)合,使新聞信息更清晰直觀地呈現(xiàn)給用戶,提升工作人員對于新聞信息整合的效率,減少冗余數(shù)據(jù)對用戶的干擾,對于縮小城鄉(xiāng)數(shù)字鴻溝具有研究價值。

        猜你喜歡
        超平面類別線性
        漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
        全純曲線的例外超平面
        涉及分擔超平面的正規(guī)定則
        線性回歸方程的求解與應用
        以較低截斷重數(shù)分擔超平面的亞純映射的唯一性問題
        二階線性微分方程的解法
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        分擔超平面的截斷型亞純映射退化性定理
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        中文字幕人妻少妇美臀| 国产精品美女久久久久av超清| 亚洲女初尝黑人巨高清| 亚洲乱码日产精品bd在线观看| 国产精品久久久久久亚洲av| 国产精品美女久久久浪潮av| 国产精品涩涩涩一区二区三区免费| 日产精品毛片av一区二区三区| 久久精品人妻中文av| 国产精品一区二区三久久不卡| 少妇被粗大的猛烈进出69影院一 | 久久青青草原国产毛片| 亚洲精品夜夜夜妓女网| 亚洲精品无码人妻无码| 国产精品天堂avav在线| 亚洲国产色图在线视频| 中国av一区二区三区四区| 白白色发布的在线视频| 午夜男女很黄的视频| 亚洲综合精品成人| 欧美日韩亚洲国产无线码| 久久综合给合久久97色| 看中文字幕一区二区三区| 亚洲最大中文字幕在线| 日本一本之道高清不卡免费| 亚洲av久久无码精品九九| 福利片免费 亚洲| 伊人久久亚洲精品中文字幕| 丰满人妻被两个按摩师| 日韩免费无码一区二区三区 | 国产精品久久久久乳精品爆| 少妇极品熟妇人妻无码| 国产精品三级av一区二区| 亚洲av日韩专区在线观看| 玖玖色玖玖草玖玖爱在线精品视频| 欧美另类人妖| 国产成人拍精品免费视频| 用力草我小逼视频在线播放| 亚洲精品456在线播放狼人| 亚洲av午夜精品无码专区| 国产成年无码v片在线|