亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向短文本分類的特征提取與算法研究

        2019-05-27 06:25:14劉曉鵬楊嘉佳田昌海
        關(guān)鍵詞:查全率查準(zhǔn)率詞頻

        劉曉鵬,楊嘉佳,盧 凱,田昌海,唐 球

        (1.華北計算機系統(tǒng)工程研究所,北京 100083;2.軍事科學(xué)院 軍事科學(xué)信息研究中心,北京 100142)

        0 引言

        在信息化時代背景下,各行業(yè)產(chǎn)生了大量的多源異構(gòu)數(shù)據(jù)。對這些數(shù)據(jù)的信息挖掘,衍生出很多基于傳統(tǒng)行業(yè)的新實踐和新業(yè)務(wù)模式[1]。這些數(shù)據(jù)中存在著大量的超短文本,因此可以通過自然語言處理領(lǐng)域的知識方法,并結(jié)合已經(jīng)提出的計算機科學(xué)方法,挖掘出許多高價值的信息。在某些短文本分類任務(wù)中,如通過標(biāo)題劃分可以避免對全文進行分類,可以節(jié)省大量計算資源;而在爬蟲任務(wù)中,由當(dāng)前頁面附帶鏈接的短文本分類,則避免了進入鏈接爬取數(shù)據(jù),節(jié)省了大量網(wǎng)絡(luò)資源。本文主要研究面向短文本分類不同的特征提取與算法差異。

        1 特征提取方法介紹

        1.1 獨熱編碼

        獨熱編碼(one-hot encoding,one-hot),又稱一位有效編碼。在文本分類中,即每一位對應(yīng)一個單詞,以0代表該詞沒有出現(xiàn),以1代表該詞已經(jīng)出現(xiàn),通過固定順序的詞表,將每一個文本使用獨熱編碼方式向量化。獨熱編碼因為單詞數(shù)量太多,在實際實驗中,有時達到60 000以上的維度,直接導(dǎo)致了維度爆炸;而超短文本數(shù)據(jù)每條單詞只有3~10個,又導(dǎo)致了數(shù)據(jù)的高度稀疏。

        1.2 Word2Vec

        Word2Vec[2]是一種Distributed representation生成詞向量方法。Distributed representation最早由Hinton在1986 年提出。其依賴思想是:詞語的語義是通過上下文信息來確定的,即相同語境出現(xiàn)的詞,其語義也相近。

        Word2Vec采用CBOW和Skip-Gram兩種模型,以及Hierarchical Softmax和Negative Sampling兩種方法,使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練,將單詞映射到同一坐標(biāo)系下,得到數(shù)值向量。在實驗中,用數(shù)據(jù)集訓(xùn)練出的模型泛化性能不好。分析得出,Word2Vec訓(xùn)練模型,文本需要大致在8 GB以上才會有較好效果。本文實驗數(shù)據(jù)集只有200 MB。根據(jù)語料特征,最終采用已經(jīng)訓(xùn)練好的谷歌新聞Word2Vec模型。

        Word2Vec向量化采用300維度,避免了獨熱編碼造成的維度爆炸、數(shù)據(jù)稀疏問題。在訓(xùn)練Word2Vec知識圖譜過程中,引入大量數(shù)據(jù),進一步提升模型的泛化能力。

        1.3 詞頻-逆文件頻率

        詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)[3]是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計方法,用以評估一個詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。即一個詞語在一篇文章中出現(xiàn)次數(shù)越多,同時在所有文檔中出現(xiàn)次數(shù)越少,越能夠代表該文章。

        每條文本數(shù)據(jù)每個維度的詞頻-逆文件頻率計算公式如下:

        TF-IDF=TF×IDF

        (1)

        其中:

        (2)

        (3)

        1.4 主成分分析

        主成分分析(Principal Component Analysis,PCA)[4]是一種常用的數(shù)據(jù)降維方法。主成分分析通過矩陣變換,將n維特征映射到k維上(k<

        在獨熱編碼和詞頻-逆文件頻率特征提取中,需要對每一個單詞設(shè)立一個維度,導(dǎo)致向量化后的數(shù)據(jù)維度太高,模型訓(xùn)練對算力形成了較大的負(fù)擔(dān),經(jīng)主成分分析,數(shù)據(jù)維度降低到原來的0.5%,大大降低了訓(xùn)練和測試的計算負(fù)擔(dān)。

        2 機器學(xué)習(xí)算法介紹

        2.1 支持向量機

        支持向量機(Support Vector Machine,SVM)[5]是AT&TBell實驗室的Cortes和Vapnik在1995年提出的一種分類算法。SVM目標(biāo)是在數(shù)據(jù)中找到一個分類超平面,達到分類目的。SVM自身可以正則化,分類超平面依賴于支持向量,因此在樣本較少以及抽樣不均衡的時候有較好結(jié)果。

        SVM在文本分類和高維數(shù)據(jù)中擁有良好的性能,被選為機器學(xué)習(xí)十大算法之一,在2000年前后直接掀起了“統(tǒng)計學(xué)習(xí)”的高潮,是迄今為止使用最廣的學(xué)習(xí)算法。

        2.2 邏輯回歸算法

        邏輯回歸算法(Logic Regression,LR)[6]屬于對數(shù)線性模型的一種,核心思想是利用現(xiàn)有數(shù)據(jù)對分類邊界建立回歸方程,以此進行分類。該算法簡單高效。LR衍生出的Softmax將LR推廣至多分類任務(wù)中。

        邏輯回歸算法因為其高效性及不俗的效果,是現(xiàn)在工業(yè)界應(yīng)用最廣泛的算法之一。

        2.3 K近鄰算法

        K近鄰算法(K-Nearest Neighbor,KNN)[7]通過與最近K個點比較,投票選出類別。K近鄰不具有顯示的學(xué)習(xí)過程,分類中有計算量大的缺點。

        K近鄰算法簡單成熟,在很多機器學(xué)習(xí)任務(wù)中有很好的效果,也是機器學(xué)習(xí)十大算法之一。

        3 算法設(shè)計及實現(xiàn)

        3.1 數(shù)據(jù)集介紹

        本文實驗采用kaggle上公開的News Aggregator Dataset[8]作為測試數(shù)據(jù)集。News Aggregator Dataset包含2014年間40萬條已經(jīng)分類的新聞,數(shù)據(jù)集屬性如表1所示。

        表1 數(shù)據(jù)集屬性描述表

        此次實驗主要采用TITLE屬性作為超短文本的分類語料,類別標(biāo)簽采用CATEGORY屬性。TITLE屬性中包含的文本,長度大部分集中在3~15個單詞之間,符合超短文本范疇;CATEGORY包含4種屬性:商業(yè)、科技、娛樂、健康,比例大致為27%、25%、36%、10%,類別基本均衡,符合實驗要求。

        3.2 評價指標(biāo)

        本次實驗采用4個機器學(xué)習(xí)中分類常用的評價指標(biāo):精度、查準(zhǔn)率、查全率與F1值。

        在二分類問題中,根據(jù)樣本真實類別與模型預(yù)測結(jié)果的組合定義真正例(True Positive,TP)、假正例(False Positive,FP)、真反例(True Negative,TN)、假反例(False Negative,FN),分類結(jié)果混淆矩陣如表2所示[9]。

        表2 分類結(jié)果混淆矩陣

        3.2.1 精度

        精度是分類正確的樣本數(shù)在總樣本數(shù)中的比例。精度acc定義為:

        (4)

        精度是分類任務(wù)中最常用、最基本但同時也是最重要的一個評價指標(biāo)。

        3.2.2 查準(zhǔn)率

        查準(zhǔn)率P定義為:

        (5)

        查準(zhǔn)率反映了分類為正例中被正確分類的概率。

        3.2.3 查全率

        查全率R,也叫召回率,定義為:

        (6)

        查全率反映了正例中被正確分類的概率。

        3.2.4F1值

        F1值是基于查準(zhǔn)率與查全率的調(diào)和平均,定義為:

        (7)

        查全率與查準(zhǔn)率是一組相反的指標(biāo),相同模型下,查準(zhǔn)率越高,查全率越低;F1值是對查準(zhǔn)率和查全率的均衡反映。

        3.3 實驗環(huán)境

        系統(tǒng)環(huán)境:Ubuntu16.04LTS。

        Python版本:Python3.6。

        編碼格式:utf-8。

        3.4 數(shù)據(jù)預(yù)處理

        首先,刪去實驗中不需要的屬性ID、URL等,只保留CATEGORY和TITLE,以CATEGORY為標(biāo)簽,以TITLE為文本數(shù)據(jù)。接著對文本數(shù)據(jù)進行分詞,分詞過程中,去除無實際含義的停詞、特殊符號、標(biāo)點。最終生成的文本文件,每一行為一條數(shù)據(jù),格式為“類別標(biāo)簽,分詞”。最后,將生成的文件分成兩個文件:訓(xùn)練集和測試集。

        3.5 實驗過程

        使用支持向量機、邏輯回歸算法、K近鄰算法三種算法,對獨熱編碼、詞頻-逆文件頻率、Word2Vec以及對獨熱編碼和詞頻-逆文件頻率結(jié)果分別進行主成分分析降維這五種特征提取方法得到的訓(xùn)練集特征向量進行訓(xùn)練,然后用測試集進行測試。

        將每種算法所對應(yīng)的所有特征提取方法的實驗視為一輪實驗。每一輪實驗主要包含特征提取和模型訓(xùn)練兩個部分。

        3.5.1 特征提取

        建立詞表,詞表中包含所有文本數(shù)據(jù)中出現(xiàn)的分詞,大致60 000個。分別用獨熱編碼、詞頻-逆文件頻率和Word2Vec提取訓(xùn)練集特征,Word2Vec采用訓(xùn)練好的谷歌新聞知識圖譜,為300維;個別模型需要對獨熱編碼和詞頻-逆文件頻率提取的特征向量進行主成分分析,再進行模型訓(xùn)練。根據(jù)不同算法模型,每次提取特征的訓(xùn)練集大小不同。

        3.5.2 模型訓(xùn)練

        本數(shù)據(jù)集有四個類別,是一個四分類問題,查準(zhǔn)率、查全率和F1值對應(yīng)的是二分類問題中的評價標(biāo)準(zhǔn),因此,將四分類問題轉(zhuǎn)換為二分類問題。在每一輪實驗中,將四種類別兩兩作為一類,共有三種組合,對所有組合進行模型訓(xùn)練測試。訓(xùn)練過程中,對于類別的輕微不均衡,通過調(diào)參均衡數(shù)據(jù)。四個評價指標(biāo)中,精度為首要指標(biāo)。在每一輪實驗中,選取最好的分類結(jié)果作為這一輪實驗的最終結(jié)果。

        3.6 實驗結(jié)果

        3.6.1 支持向量機各特征提取方法的結(jié)果

        圖1從精度、查準(zhǔn)率、查全率和F1四個維度來對比Word2Vec、one-hot、one-hot+PCA、TF-IDF+PCA和TF-IDF的性能??梢钥闯?,在最重要的衡量指標(biāo)精度方面,Word2Vec表現(xiàn)最為優(yōu)異。而且從所有指標(biāo)的均衡性來看,Word2Vec的性能最為穩(wěn)定,明顯優(yōu)先于其他特征提取方法。因此,以支持向量機為基礎(chǔ)算法,組合Word2Vec特征提取算法能獲取最佳效果。

        圖1 SVM實驗結(jié)果

        3.6.2 邏輯回歸算法各特征提取方法的結(jié)果

        從圖2可以看出,以邏輯回歸算法為基礎(chǔ),Word2Vec、詞頻-逆文件頻率等提取特征方法的效果較為顯著且差別不大,獨熱編碼略次于前兩種方法。因此,以邏輯回歸為基礎(chǔ)算法,組合Word2Vec、獨熱編碼以及詞頻-逆文件頻率等提取特征方法能獲取最佳效果且精度、查準(zhǔn)率、查全率和F1四個衡量指標(biāo)較為穩(wěn)定。

        圖2 LR實驗結(jié)果

        3.6.3 K近鄰算法各特征提取方法的結(jié)果

        K近鄰算法在Word2Vec、one-hot和TF-IDF上性能較好,且明顯優(yōu)于one-hot+PCA、TF-IDF+PCA,如圖3所示。以K近鄰算法為基礎(chǔ)算法,組合Word2Vec、獨熱編碼以及詞頻-逆文件頻率等提取特征方法能獲取最佳效果且精度、查準(zhǔn)率、查全率和F1四個衡量指標(biāo)較為穩(wěn)定。但由于K近鄰算法需要與各個數(shù)據(jù)進行相似度計算,其計算開銷很大,不適合應(yīng)用于對計算時間復(fù)雜度有要求的場景。

        圖3 KNN實驗結(jié)果

        4 結(jié)果分析

        在支持向量機算法中,Word2Vec的特征選擇方法明顯是最優(yōu)異的,各項指標(biāo)較為均衡,大部分評價指標(biāo)均遠(yuǎn)好于其他方法;在邏輯回歸算法中,Word2Vec與TF-IDF優(yōu)于其余特征提取方法,TF-IDF查全率有少許優(yōu)勢,綜合來說,Word2Vec與TF-IDF在該文件邏輯回歸算法中,均有較好表現(xiàn);在K近鄰算法中,Word2Vec與獨熱編碼方法較好,效果較一致,Word2Vec各指標(biāo)更加均衡,TF-IDF更加優(yōu)于前兩種方法。四種表現(xiàn)最佳模型最終結(jié)果如表3所示。

        表3 四種最優(yōu)模型實驗結(jié)果

        5 結(jié)論

        表3中給出的四種最優(yōu)的方法,精度相差無幾,而結(jié)合其他評價指標(biāo),以詞頻-逆文件頻率為特征提取方法、以邏輯回歸為算法的模型為最優(yōu)的算法。Word2Vec特征提取方法對于大多數(shù)算法都有不錯的效果,同時,在個別算法中詞頻-逆文件頻率也有著很好的效果。

        猜你喜歡
        查全率查準(zhǔn)率詞頻
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        海量圖書館檔案信息的快速檢索方法
        基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
        基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        基于深度特征分析的雙線性圖像相似度匹配算法
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
        国产视频激情视频在线观看| chinese国产乱在线观看 | 午夜亚洲精品一区二区| 男女交射视频免费观看网站| 国产精品无码无在线观看| av人摸人人人澡人人超碰小说| 亚洲专区一区二区在线观看| 成a人片亚洲日本久久| 亚洲av中文无码乱人伦在线观看| 亚洲精品一区久久久久久| 欧美精品一级| 大屁股流白浆一区二区| 美女下蹲露大唇无遮挡| 亚洲精品无人区| 人妻无码视频| 国产日韩乱码精品一区二区| 91久久精品色伊人6882| 伊人久久久精品区aaa片| 亚洲AV成人片色在线观看高潮| 亚洲一区二区三区乱码在线 | 中国无码人妻丰满熟妇啪啪软件 | 一区二区三区蜜桃在线视频| 国产专区国产精品国产三级| 亚洲日韩av无码一区二区三区人| 中文字幕无码无码专区| 国产一区二区三区亚洲天堂| 中文字幕隔壁人妻欲求不满| 久久不见久久见中文字幕免费| 可以免费在线看黄的网站| 91亚洲国产成人久久精品网站| 久久天堂一区二区三区av| 激情偷乱人成视频在线观看| 97中文字幕在线观看| 日本av一区二区三区四区| 国产亚洲精品第一综合另类| 亚洲国产精品久久久久秋霞1| 东京热无码人妻中文字幕| 日本免费观看视频一区二区| 人妻aⅴ中文字幕| 国产精品无码片在线观看| 日韩一级精品亚洲一区二区精品|