亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM的書目數(shù)據(jù)自動(dòng)分類設(shè)計(jì)與應(yīng)用研究

        2022-01-21 00:25:22
        黑龍江科學(xué) 2021年24期
        關(guān)鍵詞:詞表類別分類器

        柴 源

        (西安航空學(xué)院 圖書館,西安 710077)

        目前,書目數(shù)據(jù)分類標(biāo)引系統(tǒng)的算法模型主要依賴于詞表和知識(shí)庫(kù),分類標(biāo)引準(zhǔn)確率較低[1]。圖書內(nèi)容簡(jiǎn)介屬于文本文檔,難以通過(guò)一個(gè)線性分類器(直線、平面)來(lái)實(shí)現(xiàn)分類。書目數(shù)據(jù)自動(dòng)分類是采用機(jī)器學(xué)習(xí)算法,將圖書內(nèi)容簡(jiǎn)介經(jīng)過(guò)自然語(yǔ)言處理后與《中國(guó)圖書館分類法》進(jìn)行自動(dòng)匹配的過(guò)程,支持向量機(jī)(Support Vector Machine,SVM)可以將低維空間數(shù)據(jù)通過(guò)核函數(shù)映射到高維空間中,獲得線性可分的特性,實(shí)現(xiàn)自動(dòng)分類[2-3]?;诖?,提出了一種基于SVM的書目數(shù)據(jù)分類算法模型并進(jìn)行實(shí)驗(yàn)研究。

        1 支持向量機(jī)

        SVM (Support Vector Machine,支持向量機(jī))通過(guò)某種事先選擇的非線性映射,將輸入向量映射到一個(gè)高維空間中,構(gòu)造最優(yōu)分類超平面,將不同類別的樣本分開[4]。超平面是一個(gè)比原特征空間少一個(gè)維度的子空間,在二維情況下是一條直線,在三維情況下是一個(gè)平面[5]。研究表明,支持向量機(jī)在處理二分類任務(wù)時(shí)是非常成功的,解決實(shí)際問(wèn)題時(shí),它將多分類問(wèn)題轉(zhuǎn)化為多次二分類問(wèn)題,并進(jìn)行最大值或投票決策,從而實(shí)現(xiàn)多分類[6],基本原理表述如下:

        2 自動(dòng)分類模型的設(shè)計(jì)

        自動(dòng)分類模型的設(shè)計(jì)主要包括書目數(shù)據(jù)預(yù)處理、文本特征提取、構(gòu)造分類模型、模型性能評(píng)估等階段,具體流程如圖1所示。

        圖1 系統(tǒng)設(shè)計(jì)Fig.1 System design

        2.1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)清洗。去除重復(fù)的文本,過(guò)濾掉沒(méi)有研究意義的各種符號(hào),通過(guò)小寫化、詞干提取和詞形還原等規(guī)范化處理語(yǔ)料里的英文詞匯。

        中文分詞。為了提高計(jì)算機(jī)對(duì)文本信息的識(shí)別和理解能力,實(shí)驗(yàn)整合中文停用詞表(cn_stopwords.txt)、哈工大停用詞表(hit_stopwords.txt)、百度停用詞表(baidu_stopwords.txt)、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)(scu_stopwords.txt)等,形成停用詞表;數(shù)字化《中國(guó)分類主題詞表》,形成用戶詞典,并在此基礎(chǔ)上應(yīng)用jieba工具進(jìn)行分詞。

        數(shù)據(jù)編碼。原始數(shù)據(jù)中的分類是列表標(biāo)記,為了便于訓(xùn)練分類模型,將其轉(zhuǎn)化為數(shù)值編碼,即給每一個(gè)分類設(shè)定一個(gè)數(shù)值。

        2.2 文本向量表示

        獲取詞匯表。將數(shù)據(jù)預(yù)處理結(jié)果按照一定比例劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于特征提取、模型構(gòu)建和驗(yàn)證,測(cè)試集用于模型性能測(cè)試。例如:[農(nóng)村,醫(yī)療保障,待遇,水平,標(biāo)準(zhǔn),統(tǒng)籌,發(fā)揮,醫(yī)療保險(xiǎn),大病,保險(xiǎn)……]。

        計(jì)算每個(gè)詞的TF-IDF值。TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻度)是一種用于信息檢索與文本挖掘的常用加權(quán)技術(shù)[7],如果某個(gè)詞在一篇文章中出現(xiàn)的頻率TF高,且在其他文章中很少出現(xiàn),則認(rèn)為此詞具有很好的類別區(qū)分能力,適合用來(lái)分類。文本中每個(gè)詞的TF值是每個(gè)詞的詞頻/總詞頻,例如:人工智能的詞頻是1,總詞頻是9,所以“人工智能”的TF值是1/9;“人工智能”這個(gè)詞的IDF=log(2/(2+0.001))=-0.0005。

        使用TF-IDF表示一個(gè)文本。將訓(xùn)練集中每一個(gè)文本中的每一個(gè)詞對(duì)應(yīng)詞匯表的索引進(jìn)行填值,詞匯表中有的索引就用TF-IDF值填充,沒(méi)有的就用0填充。

        2.3 卡方檢驗(yàn)

        文本向量表示后,所含的特征維度非常高,需要進(jìn)行特征降維,去除一些與分類關(guān)系不大的無(wú)關(guān)特征,獲取更有價(jià)值的信息,降低算法的復(fù)雜度。

        卡方檢驗(yàn)(chi-square distribution,CHI)是一種統(tǒng)計(jì)學(xué)的工具,用來(lái)檢驗(yàn)數(shù)據(jù)的擬合度和關(guān)聯(lián)度,是特征降維有效的方法[8]。假設(shè)特征項(xiàng)t和類別ci之間符合一階自由度的χ2分布,特征項(xiàng)t對(duì)于類別ci的χ2統(tǒng)計(jì)值越高,特征項(xiàng)t和類別ci的相關(guān)性越強(qiáng),類別區(qū)分度越大,反之,類別區(qū)分度越小。計(jì)算公式如下:

        式中,A為包含特征項(xiàng)t且屬于類別ci的文本數(shù)目,B為包含特征項(xiàng)t且不屬于類別ci的文本數(shù)目,C為不包含特征項(xiàng)t且屬于類別ci的文本數(shù)目,D為不包含特征項(xiàng)t且不屬于類別ci的文本數(shù)目。將每個(gè)特征項(xiàng)t的χ2統(tǒng)計(jì)值從大到小排序,選取前若干個(gè)作為特征項(xiàng)集合。

        2.4 訓(xùn)練分類器

        scikit-learn是一個(gè)功能強(qiáng)大的通用機(jī)器學(xué)習(xí)庫(kù),封裝了大量常用的機(jī)器學(xué)習(xí)算法,包括各種分類算法。設(shè)計(jì)采用scikit-learn的支持向量機(jī)模型訓(xùn)練分類器,主要是將卡方檢驗(yàn)后的特征向量輸入,使用支持向量機(jī)模型訓(xùn)練分類器,并用訓(xùn)練集數(shù)據(jù)驗(yàn)證分類器的準(zhǔn)確性。

        2.5 分類器的性能評(píng)估

        準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、f1分?jǐn)?shù)(f1-score)是分類器性能評(píng)估的重要指標(biāo)。準(zhǔn)確率是針對(duì)所有樣本而言的,表示所有樣本有多少被準(zhǔn)確預(yù)測(cè)了,即:

        精確率是針對(duì)預(yù)測(cè)結(jié)果而言的,表示預(yù)測(cè)為正的樣本中有多少是真正的正樣本,一種是把正類預(yù)測(cè)為正類(TP),另一種是把負(fù)類預(yù)測(cè)為正類(FP),即:

        召回率是針對(duì)正樣本而言的,它表示正例樣本中有多少被預(yù)測(cè)正確了。一種是把原來(lái)的正類預(yù)測(cè)成正類(TP),另一種是把原來(lái)的正類預(yù)測(cè)為負(fù)類(FN),即:

        f1分?jǐn)?shù)(f1-score)是精確率和召回率的調(diào)和平均數(shù),最大為1,最小為0,值越大意味著模型越好,即:

        3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)系統(tǒng)環(huán)境為Windows10,語(yǔ)言環(huán)境為Python,調(diào)用Python的第三方機(jī)器學(xué)習(xí)庫(kù)Scikit-learn來(lái)實(shí)現(xiàn)SVM的分類方法。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        以西安航空學(xué)院2018-2020年的中文圖書書目數(shù)據(jù)為語(yǔ)料,共計(jì)36 046條。由于研究是通過(guò)圖書內(nèi)容判別分類號(hào)的,所以刪除題名、ISBN、責(zé)任者、主題詞等字段,保留內(nèi)容簡(jiǎn)介和分類號(hào)。預(yù)處理后的數(shù)據(jù)如圖2所示。

        圖2 數(shù)據(jù)預(yù)處理結(jié)果(部分)Fig.2 Data pre-processing results(part)

        圖2中,category表示圖書類別A,B,C,...,Z;category_id表示類別的數(shù)值化,0表示A,1表示B...;content表示圖書內(nèi)容簡(jiǎn)介;clean_content表示清洗后的文本;cut_content表示每個(gè)文本的分詞結(jié)果。

        3.2 TF-IDF特征提取

        采用train_test_split()函數(shù),設(shè)置size=0.25,將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。調(diào)用TfidfVectorizer類,ngram_range設(shè)置為(1,2),表示除了抽取每個(gè)詞語(yǔ)外,再抽取每個(gè)詞相鄰的詞并組成一個(gè)“詞語(yǔ)對(duì)”,擴(kuò)展特征集的數(shù)量,提高分類的準(zhǔn)確度。實(shí)驗(yàn)結(jié)果可知,維度是(36 046,684 175),前者表示總共有36 046條數(shù)據(jù),后者表示共有684 175個(gè)特征數(shù)量,特征數(shù)量包括所有詞語(yǔ)和詞語(yǔ)對(duì)。特征提取結(jié)果如圖3所示。

        圖3 TF-IDF特征提取結(jié)果(部分)Fig.3 TF-IDF feature extraction results(part)

        3.3 卡方檢驗(yàn)降維

        針對(duì)特征維度較高的情況,實(shí)驗(yàn)使用sklearn中的chi2卡方檢驗(yàn)法進(jìn)行降維,參數(shù)n=4表示找出每個(gè)分類中關(guān)聯(lián)度最強(qiáng)的4個(gè)詞語(yǔ)和4個(gè)詞語(yǔ)對(duì),加入到詞表中,將詞表中的詞作為保留特征。以TH類為例,部分檢驗(yàn)結(jié)果如圖4所示。

        圖4 卡方檢驗(yàn)結(jié)果(TH類)Fig.4 Chi-square test results(TH type)

        3.4 模型構(gòu)建與訓(xùn)練

        實(shí)驗(yàn)調(diào)用LinearSVC構(gòu)造分類模型,設(shè)置kernel=“rbf”,表示使用rbf核;gamma=0.05,表示rbf核相對(duì)應(yīng)的參數(shù)為0.05;degree=3表示模型的冪次方等于3次。得到模型后,使用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,編寫函數(shù)myPredict,代碼如下,驗(yàn)證訓(xùn)練集內(nèi)容的分類情況,并抽取不準(zhǔn)確的分類進(jìn)行增量訓(xùn)練。

        def myPredict(sec):

        format_sec="".join([w for w in list(jieba.cut(remove_punctuation(sec))) if w not in stopwords])

        pred_category_id=clf.predict(count_vect.transform([format_sec]))

        print(id_to_category[pred_category_id[0]])

        例如,當(dāng)sec=“本書吸收了國(guó)內(nèi)經(jīng)濟(jì)學(xué)教材的優(yōu)點(diǎn),按照微觀經(jīng)濟(jì)學(xué)和宏觀經(jīng)濟(jì)學(xué)的構(gòu)架,對(duì)經(jīng)濟(jì)學(xué)的一些基本理論和專業(yè)知識(shí)、技術(shù)和研究方法進(jìn)行講解與分析。”時(shí),執(zhí)行函數(shù),結(jié)果顯示為F,驗(yàn)證結(jié)果準(zhǔn)確。

        3.5 模型評(píng)估

        模型在測(cè)試集上的精確率、召回率、f1分?jǐn)?shù)及準(zhǔn)確率等性能指標(biāo),如表1所示。

        表1 模型評(píng)估指標(biāo)Tab.1 Indexes of model evaluation

        由表1可見(jiàn),模型的精確率平均達(dá)到0.83,召回率平均達(dá)到0.83,F(xiàn)1分?jǐn)?shù)平均值為0.82,超過(guò)80%。TE、TK、TL、Z各項(xiàng)指標(biāo)低于0.8,一方面是因?yàn)榉诸惖挠?xùn)練數(shù)據(jù)少,模型學(xué)習(xí)不充分;另一方面是因?yàn)殄e(cuò)誤分類涉及多個(gè)主題,機(jī)器無(wú)法識(shí)別??傮w上,模型準(zhǔn)確率為0.85,達(dá)到預(yù)期目的。

        3.6 比較試驗(yàn)

        采用邏輯回歸(Logistic Regression)、隨機(jī)森林(Random Forest Classifier)、樸素貝葉斯(Multinomial NB)與SVM進(jìn)行對(duì)比實(shí)驗(yàn),不同模型對(duì)比實(shí)驗(yàn)結(jié)果如表2所示。

        表2 不同模型試驗(yàn)結(jié)果Tab.2 Results of different model tests

        Logistic Regression形式簡(jiǎn)單,難以擬合數(shù)據(jù)的真實(shí)分布;Random Forest Classifier限于訓(xùn)練集數(shù)據(jù)的驗(yàn)證,在對(duì)特定噪聲的數(shù)據(jù)進(jìn)行建模時(shí)會(huì)出現(xiàn)過(guò)擬合;Multinomial NB需要知道先驗(yàn)概率,由于假設(shè)的先驗(yàn)?zāi)P蛯?dǎo)致預(yù)測(cè)效果不佳。如表2所示,SVM的各項(xiàng)評(píng)估指標(biāo)都高于其他模型。

        4 結(jié)語(yǔ)

        針對(duì)傳統(tǒng)分類標(biāo)引系統(tǒng)算法模型準(zhǔn)確率低、難以有效解決線性不可分?jǐn)?shù)據(jù)的分類問(wèn)題,引進(jìn)了SVM模型,設(shè)計(jì)了基于SVM的書目數(shù)據(jù)智能分類檢測(cè)系統(tǒng),以西安航空學(xué)院圖書館書目數(shù)據(jù)為樣本,通過(guò)數(shù)據(jù)預(yù)處理、TF-IDF特征提取、chi2特征降維、LinearSVC建模等完成分類器的初次訓(xùn)練,在測(cè)試集上完成分類器的性能評(píng)估,并與邏輯回歸、隨機(jī)森林、樸素貝葉斯進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,召回率為0.82,f1分?jǐn)?shù)為0.82,精確率為0.83,準(zhǔn)確率為0.85,高于其他機(jī)器學(xué)習(xí)模型,精度較高,泛化能力較強(qiáng),具有良好的適用性。

        猜你喜歡
        詞表類別分類器
        A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
        服務(wù)類別
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見(jiàn)肉類別
        少妇熟女天堂网av| 人妻少妇喷水意淫诱惑| 日本久久精品国产精品| 日本免费视频一区二区三区| 久久久精品久久久久久96| 三年片大全在线观看免费观看大全 | 国产精品又爽又粗又猛又黄| 国产精品主播在线一区二区| 摸进她的内裤里疯狂揉她动图视频 | 亚洲一区二区免费在线观看视频| 国精品人妻无码一区二区三区性色| 18成人片黄网站www| 中文字幕亚洲无线码高清| 国产精品一级黄色大片| 日韩精品乱码中文字幕| 亚洲高清乱码午夜电影网| 自慰无码一区二区三区| 中出高潮了中文字幕| 少妇特殊按摩高潮对白| 国产偷国产偷亚洲高清视频| 国产精品久久久久aaaa| 久久婷婷综合色丁香五月| 中文字幕一区二区三区在线视频| 国产精品久久久黄色片| 小妖精又紧又湿高潮h视频69| 国产真实老熟女无套内射| 福利视频一二区| av成人资源在线观看| 中国久久久一级特黄久久久| 两个人看的www免费视频中文| 成人无码h真人在线网站| 国产av一区网址大全| 国产精品久色婷婷不卡| 色诱视频在线观看| 色先锋资源久久综合5566| 亚洲av乱码国产精品色| 国产自拍精品在线免费观看| 东京热无码av一区二区| 精品亚洲aⅴ在线观看| 国内色精品视频在线网址| 风韵人妻丰满熟妇老熟女视频|