亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識(shí)圖譜和貝葉斯分類(lèi)器的圖書(shū)分類(lèi)

        2020-06-12 11:43:40鄒鼎杰
        關(guān)鍵詞:分類(lèi)特征模型

        鄒鼎杰

        (中國(guó)人民解放軍國(guó)防大學(xué) 政治學(xué)院, 上海 200433)

        0 引 言

        圖書(shū)分類(lèi)問(wèn)題屬于文本分類(lèi)問(wèn)題,解決圖書(shū)分類(lèi)問(wèn)題的基本思路是將文本分類(lèi)算法應(yīng)用到圖書(shū)分類(lèi)中[1-3]。文獻(xiàn)[4]將LDA(latent dirichlet allocation)模型應(yīng)用到圖書(shū)分類(lèi)中,采取復(fù)合加權(quán)策略將書(shū)目體例體信息和所在類(lèi)目信息融合到模型之中,圖書(shū)分類(lèi)性能得到了有效提升。文獻(xiàn)[5]將長(zhǎng)短時(shí)間記憶神經(jīng)網(wǎng)絡(luò)(long short term memory neural network,LSTM)模型應(yīng)用到圖書(shū)分類(lèi)中,將圖書(shū)的各描述字段組合成一個(gè)描述字符串,利用詞嵌入模型將描述字符串轉(zhuǎn)換成作為L(zhǎng)STM模型輸入的二維矩陣,通過(guò)構(gòu)建多個(gè)二元分類(lèi)器解決多標(biāo)簽分類(lèi)問(wèn)題。文獻(xiàn)[6]將門(mén)控循環(huán)單元網(wǎng)絡(luò)(gated recurrent unit neural networks,GRU)模型應(yīng)用到文本分類(lèi)中,GRU在繼承LSTM門(mén)控制原理基礎(chǔ)上簡(jiǎn)化了神經(jīng)元結(jié)構(gòu),模型復(fù)雜度更低,實(shí)際應(yīng)用效果更好。不同于文獻(xiàn)[5]直接將LSTM模型用于文本分類(lèi),文獻(xiàn)[6]只利用GRU能夠充分考慮上下文信息的優(yōu)勢(shì)提取文本重要特征,采用結(jié)構(gòu)更簡(jiǎn)單、執(zhí)行更高效的樸素貝葉斯分類(lèi)器完成文本分類(lèi),兩者結(jié)合更加提高了文本分類(lèi)的效率和準(zhǔn)確率。上述研究主要通過(guò)優(yōu)化模型提升圖書(shū)分類(lèi)器性能,忽視了紙質(zhì)圖書(shū)的描述元數(shù)據(jù)較少這一現(xiàn)實(shí)問(wèn)題。在輸入信息有限的情況下,再好的模型和算法也難以發(fā)揮出優(yōu)良性能。因此,本文提出從現(xiàn)有知識(shí)圖譜zhishi.me中提取關(guān)于圖書(shū)、作者和出版社3類(lèi)實(shí)體的詳細(xì)信息,通過(guò)增加圖書(shū)的描述信息提升圖書(shū)分類(lèi)準(zhǔn)確率的解決方案。

        1 相關(guān)工作

        1.1 知識(shí)圖譜與Zhishi.me

        知識(shí)圖譜(knowledge graph)最早由Google于2012年5月正式發(fā)布,主要用于提升google的搜索服務(wù)質(zhì)量,目前已經(jīng)成為Google語(yǔ)義搜索的關(guān)鍵支撐工具[7]。在基于知識(shí)圖譜的語(yǔ)義搜索中,人們輸入的檢索對(duì)象不再只被視作一段普通文本,而是與現(xiàn)實(shí)世界中對(duì)應(yīng)的實(shí)體[8-10]。比如輸入“姚明”,搜索引擎將識(shí)別出籃球運(yùn)動(dòng)員姚明,并在結(jié)果頁(yè)面的右側(cè)框中呈現(xiàn)姚明的簡(jiǎn)要介紹信息,年齡、身高等屬性信息以及家長(zhǎng)、妻子等關(guān)系信息。知識(shí)圖譜可以被視作Tim Berners-Lee年提出的鏈接數(shù)據(jù)(linked data)的一種應(yīng)用。實(shí)體是知識(shí)圖譜中最關(guān)鍵的概念,它既包括存在于物理世界中的具體事物,也包括僅存在于抽象世界的概念。實(shí)體包含兩類(lèi)屬性[11],一類(lèi)屬性是普通文本類(lèi)型,比如姚明的身高、年齡等屬性;另一類(lèi)屬性本身也是一種實(shí)體,比如姚明的家長(zhǎng)、妻子等,這類(lèi)屬性通常也被稱(chēng)作關(guān)系。目前,互聯(lián)網(wǎng)上已經(jīng)發(fā)布了大量知識(shí)圖譜供人們使用,比較著名的知識(shí)圖譜有Knowledge Vault、Wolfram Alpha、Watson KB、DBpedia、YAGO KB、Facebook KB、Zhishi.me等[12]。其中Zhishi.me是目前在互聯(lián)網(wǎng)上發(fā)布的規(guī)模最大的中文知識(shí)圖譜之一[13],本文將從Zhishi.me中提取圖書(shū)、作者和出版社3類(lèi)實(shí)體的詳細(xì)知識(shí),以解決紙質(zhì)圖書(shū)描述性信息不足的問(wèn)題。

        Zhishi.me包含有從百度百科、互動(dòng)百科和維基百科中抽取出的大約兩千萬(wàn)個(gè)實(shí)體的詳細(xì)信息以及實(shí)體之間的關(guān)系,絕大多數(shù)圖書(shū)、作者和出版社的信息均可在Zhishi.me中查到。該知識(shí)庫(kù)由深圳狗尾草科技有限公司開(kāi)發(fā),并發(fā)布在“中文開(kāi)放知識(shí)圖譜”平臺(tái)上供公眾免費(fèi)使用[14]。Zhishi.me中的實(shí)體主要包含9種屬性,各屬性的類(lèi)型和功能見(jiàn)表1。

        表1 Zhishi.me中實(shí)體的9種屬性

        1.2 樸素貝葉斯分類(lèi)器

        (1)

        (2)

        在樸素貝葉斯分類(lèi)器中,模型的訓(xùn)練過(guò)程就是通過(guò)訓(xùn)練集統(tǒng)計(jì)先驗(yàn)概率Pci和特征dj在類(lèi)別ci中出現(xiàn)概率的過(guò)程。完成模型訓(xùn)練后,對(duì)圖書(shū)的分類(lèi)過(guò)程就是尋找圖書(shū)出現(xiàn)概率最大類(lèi)別的過(guò)程,計(jì)算方法如式(3)所示

        (3)

        通常情況下,特征出現(xiàn)在類(lèi)別中的條件概率Pdj|ci是一個(gè)較小的小數(shù),這些小數(shù)經(jīng)過(guò)連續(xù)乘操作以后得到的將是一個(gè)極小的小數(shù)。為了避免小數(shù)過(guò)小導(dǎo)致浮點(diǎn)數(shù)下界溢出,通常將式(3)兩邊同時(shí)取對(duì)數(shù),將乘法操作轉(zhuǎn)變?yōu)榧臃ú僮鱗17],尋找最大概率類(lèi)的式(3)變換為式(4)的形式

        (4)

        2 基于知識(shí)圖譜和樸素貝葉斯分類(lèi)器的圖書(shū)分類(lèi)過(guò)程

        與傳統(tǒng)的文本分類(lèi)類(lèi)似,圖書(shū)分類(lèi)過(guò)程包括訓(xùn)練和分類(lèi)兩個(gè)過(guò)程,如圖1所示。特征融合處理步驟中,分別從數(shù)據(jù)集中提取圖書(shū)的書(shū)名、作者和出版社信息,然后從知識(shí)圖譜中抽取關(guān)于圖書(shū)、作者和出版社的詳細(xì)描述信息,利用分詞技術(shù)從這些信息中提取表示圖書(shū)內(nèi)容特征的關(guān)鍵詞。特征融合步驟中產(chǎn)生的關(guān)鍵詞規(guī)模龐大,不僅會(huì)占用過(guò)多的存儲(chǔ)空間,而且不利于提升分類(lèi)器性能,因此需要采取某種策略選擇最能夠代表文檔內(nèi)容特征的關(guān)鍵詞,即特征選擇。明確每本圖書(shū)的特征詞和圖書(shū)的類(lèi)號(hào)以后,即可訓(xùn)練樸素貝葉斯分類(lèi)器的關(guān)鍵參數(shù),主要是先驗(yàn)概率和條件概率;訓(xùn)練后的分類(lèi)器模型可用于對(duì)新購(gòu)圖書(shū)分類(lèi),分類(lèi)過(guò)程中的特征融合和特征選擇過(guò)程與訓(xùn)練過(guò)程中的處理方法完全一樣。

        圖1 圖書(shū)分類(lèi)過(guò)程

        2.1 特征融合

        圖書(shū)館中紙質(zhì)圖書(shū)的描述元數(shù)據(jù)較為稀缺,與圖書(shū)內(nèi)容特征相關(guān)的元數(shù)據(jù)只有書(shū)名、作者和出版社。嚴(yán)格意義上講,只有書(shū)名能夠直接揭示內(nèi)容特征,作者和出版社只能間接揭示圖書(shū)內(nèi)容特征。單憑簡(jiǎn)短的書(shū)名難以對(duì)圖書(shū)有效分類(lèi)。因此,需要添加額外的內(nèi)容特征。Zhishi.me的9種屬性中,abstracts、infobox和category最能揭示實(shí)體的內(nèi)容特征,因此選擇這3種屬性?xún)?nèi)容作為圖書(shū)、作者和出版社的詳細(xì)描述信息。labels字段雖然也能揭示內(nèi)容特征,但通常與原有實(shí)體標(biāo)簽重復(fù),不采用該字段中信息;其余5種屬性在內(nèi)容上與實(shí)體的描述沒(méi)有必然的相關(guān)性,所以也不作為補(bǔ)充信息。

        在圖書(shū)分類(lèi)中,關(guān)鍵詞是表示圖書(shū)內(nèi)容特征的最小語(yǔ)義單元,因此需要利用分詞技術(shù)從長(zhǎng)文本中提取關(guān)鍵詞。分詞過(guò)程一般采用專(zhuān)門(mén)的分詞軟件包完成,本文使用Python語(yǔ)言版jieba分詞工具完成分詞。3個(gè)固有字段中,作者姓名和出版社直接作為特征詞,不必分詞。圖書(shū)名稱(chēng)則需要通過(guò)分詞,提取細(xì)粒度的特征詞。實(shí)體的3種屬性中,abstracts是長(zhǎng)文本,需要分詞。infobox是描述實(shí)體的基本屬性特征,本身就是短文本,所以不必分詞,直接作為特征詞。category屬性是對(duì)實(shí)體主題特征的揭示,既可以直接作為特征詞,也可以對(duì)其分詞后提取細(xì)粒度的特征詞。為確保category屬性完整形式能夠作為特征,需要將訓(xùn)練集中所有的category屬性添加到j(luò)ieba分詞的字典中。在使用jieba分詞時(shí),選擇“全模式”,既可以生成比較完整的長(zhǎng)詞,又能夠得到細(xì)粒度的特征詞。

        2.2 特征選擇

        特征融合后形成的特征詞規(guī)模較大,如果將所有特征詞用于表示圖書(shū)內(nèi)容特征,會(huì)導(dǎo)致訓(xùn)練后的模型占用過(guò)多內(nèi)存空間,影響分類(lèi)器的應(yīng)用效果;低質(zhì)量的特征詞還有可能降低分類(lèi)器性能,因此需要選擇高質(zhì)量的特征詞代表圖書(shū)內(nèi)容特征,刪除質(zhì)量較低的特征詞。在選擇特征值之前,需要?jiǎng)h除停用詞,這不僅有利于提高計(jì)算性能,也有助于提高分類(lèi)器性能。選用TF-IDF權(quán)重作為選擇特征詞的標(biāo)準(zhǔn)。TF(term frequency)即特征詞頻率。通常情況下一個(gè)詞在書(shū)中出現(xiàn)頻率越高,越能夠代表這本書(shū)的內(nèi)容特征。由于不同圖書(shū)的特征詞數(shù)量差別較大,因此選擇相對(duì)頻率表示特征詞,特征詞w在圖書(shū)b中的頻率計(jì)算方法如式(5)所示,其中nw為特征詞在圖書(shū)b中出現(xiàn)的次數(shù),nb為圖書(shū)b中所有關(guān)鍵詞出現(xiàn)的總次數(shù)(不是關(guān)鍵詞數(shù))

        (5)

        IDF(inverse document frequency)即逆文本頻率指數(shù),表征特征詞在所有圖書(shū)中出現(xiàn)的普遍程度。如果特征詞w僅在少量圖書(shū)中出現(xiàn)過(guò),那么w的IDF就比較高,在分類(lèi)中起到的作用就越明顯;反之在分類(lèi)中的重要性就比較低。IDF的計(jì)算方法如式(6)所示,其中N是訓(xùn)練集中所有圖書(shū)的種數(shù),Nw是包含有特征詞w的圖書(shū)種數(shù)

        (6)

        特征詞w的TF-IDF值由該詞的TF值和IDF值相乘得到,如式(7)所示。計(jì)算圖書(shū)b中每個(gè)特征詞的TF-IDF值,然后將特征詞根據(jù)TF-IDF值由高到低排序,選取排名前k的特征詞作為圖書(shū)b的最終特征詞。最終選取的特征詞數(shù)量k的具體數(shù)值與分類(lèi)器的效果密切相關(guān),需要根據(jù)實(shí)驗(yàn)效果設(shè)定

        (7)

        2.3 模型訓(xùn)練與分類(lèi)預(yù)測(cè)

        樸素貝葉斯分類(lèi)器的訓(xùn)練過(guò)程就是通過(guò)訓(xùn)練集的數(shù)據(jù)來(lái)估計(jì)圖書(shū)隨機(jī)出現(xiàn)在類(lèi)別c中的先驗(yàn)概率Pc,以及特征詞w出現(xiàn)在類(lèi)別c中的條件概率Pd|c。先驗(yàn)概率的估計(jì)方法如式(8)所示,其中N是訓(xùn)練集所有圖書(shū)的種數(shù),Nc是訓(xùn)練集中類(lèi)別為c的圖書(shū)種數(shù)

        (8)

        條件概率Pw|c的估算方法如式(9)所示,其中Nd,c是類(lèi)別為c的圖書(shū)中包含有特征詞d的圖書(shū)種數(shù)

        (9)

        訓(xùn)練集中總會(huì)出現(xiàn)某特征詞w沒(méi)有出現(xiàn)在類(lèi)別c中情況,這將導(dǎo)致條件概率為0。樸素貝葉斯公式的條件概率是通過(guò)先驗(yàn)概率與各個(gè)特征的條件概率持續(xù)相乘得到,如果有一個(gè)特征的條件概率為0,那么這本書(shū)出現(xiàn)在這個(gè)類(lèi)號(hào)中的概率將為0;這與真實(shí)情況不符。因此需要進(jìn)行平滑處理,避免這種情況發(fā)生。引入拉普拉斯修正(Laplacian correction)做平滑處理,修正后的先驗(yàn)概率和條件概率的計(jì)算方法分別如式(10)和式(11)所示,式中L為類(lèi)別總數(shù)

        (10)

        (11)

        訓(xùn)練后得到的先驗(yàn)概率是一個(gè)L維向量,條件概率是一個(gè)L×S的矩陣,其中S是從訓(xùn)練集中提取的特征總數(shù)。將上述訓(xùn)練參數(shù)存儲(chǔ)在哈希表中,在需要預(yù)測(cè)新書(shū)分類(lèi)號(hào)時(shí)可通過(guò)查表獲取。假設(shè)先驗(yàn)概率存儲(chǔ)在哈希表H1中,一本書(shū)應(yīng)當(dāng)分配到類(lèi)號(hào)c的先驗(yàn)概率為H1c。假設(shè)條件概率存儲(chǔ)在哈希表H2中,特征詞w出現(xiàn)在類(lèi)別c中的條件概率為H2cw。

        分類(lèi)預(yù)測(cè)過(guò)程就是根據(jù)圖書(shū)的特征詞集合估計(jì)圖書(shū)屬于某一分類(lèi)的條件概率,并找出條件概率最大的類(lèi)號(hào)的過(guò)程。樸素貝葉斯分類(lèi)器不僅假設(shè)特征詞出現(xiàn)的概率相互獨(dú)立,而且假設(shè)特征詞的位置對(duì)分類(lèi)沒(méi)有影響,因此可以使用集合(而非向量)表示圖書(shū)的特征詞以節(jié)省存儲(chǔ)空間。假設(shè)待預(yù)測(cè)新書(shū)的特征集為D,預(yù)測(cè)這本書(shū)所屬分類(lèi)的方法如式(12)所示。新書(shū)中仍然可能出現(xiàn)訓(xùn)練集中沒(méi)有出現(xiàn)的特征詞,該詞的條件概率仍然可以使用式(11)估算

        (12)

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)包括兩部分,一部分是已經(jīng)被圖書(shū)館著錄的圖書(shū)元數(shù)據(jù),包括圖書(shū)的標(biāo)題、作者、出版社和中圖法分類(lèi)號(hào),另一部分是從Zhishi.me知識(shí)圖譜中獲取的關(guān)于圖書(shū)、作者和出版社的詳細(xì)描述信息。圖書(shū)著錄數(shù)據(jù)源于上海某高校在2013年至2017年間的圖書(shū)外借數(shù)據(jù)集,由首屆“慧源共享”上海高校開(kāi)放數(shù)據(jù)創(chuàng)新研究大賽主辦方提供。以ISBN作為圖書(shū)唯一標(biāo)識(shí)符,清洗掉格式不規(guī)范、內(nèi)容明顯殘缺的數(shù)據(jù)后,得到約42萬(wàn)種圖書(shū)的著錄數(shù)據(jù),包含圖書(shū)名稱(chēng)、圖書(shū)作者、圖書(shū)出版社以及圖書(shū)的正確分類(lèi)號(hào)4個(gè)字段,總計(jì)有22余萬(wàn)名作者和1萬(wàn)余家出版社。Zhishi.me知識(shí)圖譜提供離線下載和在線訪問(wèn)兩種知識(shí)獲取方式,離線數(shù)據(jù)比較陳舊,因此選擇在線訪問(wèn)方式獲取詳細(xì)信息。通過(guò)在線獲取方式提取到約35萬(wàn)種圖書(shū)、143萬(wàn)名讀者和5000余家出版社的詳細(xì)信息。

        3.2 評(píng)價(jià)指標(biāo)

        選取3個(gè)常用的分類(lèi)器評(píng)估指標(biāo),分別是準(zhǔn)確率P(Precision)、召回率R(Recall)和綜合考慮P和R的F1值。對(duì)于類(lèi)別c,其分類(lèi)準(zhǔn)確率計(jì)算方法如式(13)所示,其中Nc為被分類(lèi)為c類(lèi)的圖書(shū)總數(shù),TPc為Nc中被正確分類(lèi)的圖書(shū)總數(shù)

        (13)

        類(lèi)別c的召回率計(jì)算方法如式(14)所示,其中Mc是屬于類(lèi)別c的所有圖書(shū)種數(shù)

        (14)

        類(lèi)別c的F1值是對(duì)P值和R值同等重視條件下的綜合考量,計(jì)算方法如式(15)所示

        (15)

        圖書(shū)分類(lèi)的類(lèi)目體系龐大,難以逐個(gè)分析每個(gè)類(lèi)目的準(zhǔn)確率、召回率和F1值,選用這些指標(biāo)的平均值作為綜合考量指標(biāo)[18],即“宏查準(zhǔn)率”(macro_P)、“宏召回率”(macro_R)和“宏F1值”(macro_F1),計(jì)算方法分別如式(16)、式(17)和式(18),式中CLS是所有分類(lèi)號(hào)的集合,L是集合CLS包含的元素?cái)?shù)量

        (16)

        (17)

        (18)

        3.3 評(píng)估方法

        《中圖法》類(lèi)目體系龐大,通常采取層級(jí)分類(lèi)法,典型的層級(jí)設(shè)計(jì)是按照《中圖法》原有體系逐層分類(lèi)。層級(jí)分類(lèi)法的典型特點(diǎn)是上一層級(jí)的錯(cuò)誤將積累到下一層級(jí),第一層級(jí)的分類(lèi)準(zhǔn)確率成為決定層級(jí)分類(lèi)法最終分類(lèi)準(zhǔn)確率的關(guān)鍵因素。因此,本文以《中圖法》第一層級(jí)共22個(gè)大類(lèi)作為分類(lèi)目標(biāo)。

        特征選擇步驟中確定的選擇特征數(shù)k是影響模型性能的關(guān)鍵參數(shù),需要根據(jù)驗(yàn)證集進(jìn)行測(cè)試。因此將數(shù)據(jù)集均勻地劃分成10份,其中6份用作訓(xùn)練集,2份用作驗(yàn)證集,2份用作測(cè)試集。為確保劃分出的子集合中包含的類(lèi)別一致,首先根據(jù)分類(lèi)號(hào)對(duì)數(shù)據(jù)集按照字母先后順序排序,確保相同類(lèi)號(hào)的圖書(shū)處于相鄰位置。然后從0開(kāi)始對(duì)排序的圖書(shū)進(jìn)行編號(hào),取編號(hào)尾號(hào)為0的所有圖書(shū)作為第1份,編號(hào)尾號(hào)為1的所有圖書(shū)作為第2份,依次類(lèi)推形成10份均勻的圖書(shū)數(shù)據(jù)集。最后隨機(jī)選擇相應(yīng)份數(shù)作為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

        3.4 參數(shù)選擇

        樸素貝葉斯分類(lèi)器的基本原理是計(jì)算一本書(shū)屬于某一個(gè)類(lèi)別的概率,根據(jù)式(12),這個(gè)概率的計(jì)算過(guò)程分為兩步。第一步假設(shè)對(duì)這本書(shū)的內(nèi)容一無(wú)所知,這時(shí)一本書(shū)屬于某一類(lèi)的概率僅由先驗(yàn)概率決定。由于對(duì)圖書(shū)本書(shū)一無(wú)所知,僅靠先驗(yàn)知識(shí)進(jìn)行分類(lèi)的效果通常不會(huì)很好,因此需要引入關(guān)于圖書(shū)的信息。第二步就是通過(guò)不斷引入圖書(shū)內(nèi)容特征修正概率的過(guò)程。理論上講,似乎引入的內(nèi)容特征越多,修正的效果就越好,最終的分類(lèi)質(zhì)量就越高。實(shí)踐中,由于特征關(guān)鍵詞的質(zhì)量差別較大,引入低質(zhì)量的關(guān)鍵詞可能會(huì)降低分類(lèi)器質(zhì)量。因此,本文設(shè)計(jì)了特征選擇策略,根據(jù)特征詞的TF-IDF的排序后由高到低選擇特征詞,通常假設(shè)選擇排名前k的特征詞。k的具體數(shù)值與具體的數(shù)據(jù)集密切相關(guān),需要根據(jù)訓(xùn)練集和驗(yàn)證集測(cè)試得到。

        利用訓(xùn)練集和驗(yàn)證集在k值為1至20范圍內(nèi)分別測(cè)試分類(lèi)器的性能,以macro_F1作為分類(lèi)器的度量標(biāo)準(zhǔn)。最終測(cè)試結(jié)果如圖2所示。從圖中可以看出,隨著選擇特征數(shù)的增加,分類(lèi)器的性能隨之增加,但是該新增趨勢(shì)并不持續(xù),在達(dá)到特定閾值以后性能開(kāi)始下降;其原因是最初新增的特征詞質(zhì)量較高,對(duì)于修正條件概率起到正向作用,后期增加的特征詞質(zhì)量較低,對(duì)于提升分類(lèi)器性能起到負(fù)向作用。曲線在最后均趨于平穩(wěn),其原因是k值已經(jīng)超過(guò)了圖書(shū)擁有的特征詞數(shù)量,k值的增加并不會(huì)導(dǎo)致更多特征詞的引入。對(duì)比無(wú)知識(shí)圖譜和有知識(shí)圖譜的情況可以發(fā)現(xiàn),無(wú)知識(shí)圖譜的曲線在k值為3時(shí)即達(dá)到峰值,其原因是書(shū)名的長(zhǎng)度有限,原生圖書(shū)元數(shù)據(jù)能夠貢獻(xiàn)的特征詞較少,含知識(shí)圖譜的圖書(shū)特征詞更豐富,曲線在k值為8時(shí)達(dá)到峰值。通過(guò)上述分析發(fā)現(xiàn),無(wú)知識(shí)圖譜條件下k值為3的分類(lèi)器性能最高,含知識(shí)圖譜條件下k值為8的分類(lèi)器性能最高,因此在測(cè)試過(guò)程中分別選擇3和8作為模型參數(shù)。

        圖2 選擇特征數(shù)k對(duì)分類(lèi)器性能的影響

        3.5 測(cè)試結(jié)果

        使用不包含知識(shí)圖譜的數(shù)據(jù)集訓(xùn)練模型時(shí)將選擇特征數(shù)設(shè)定為3,使用包含知識(shí)圖譜的數(shù)據(jù)集訓(xùn)練模型時(shí)設(shè)定特征數(shù)為8,在測(cè)試集上測(cè)試模型性能。最終結(jié)果見(jiàn)表2,“宏查準(zhǔn)率”、“宏召回率”和“宏F1值”均有較大幅度的提升,從知識(shí)圖譜中提取的關(guān)于圖書(shū)、作者和出版社的詳細(xì)信息能夠有效提升分類(lèi)器性能。

        表2 測(cè)試結(jié)果

        4 結(jié)束語(yǔ)

        針對(duì)圖書(shū)館中紙質(zhì)圖書(shū)描述元數(shù)據(jù)普遍較少,不利于提升圖書(shū)自動(dòng)分類(lèi)器性能的問(wèn)題,提出了從Zhishi.me知識(shí)圖譜中引入圖書(shū)詳細(xì)數(shù)據(jù)的解決思路。分析了Zhishi.me知識(shí)圖譜的內(nèi)部結(jié)構(gòu)和知識(shí)抽取策略,提出了利用基于TF-IDF權(quán)值的特征選擇方法。在上海市某高校圖書(shū)館的真實(shí)圖書(shū)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證,分析了特征詞數(shù)k值對(duì)分類(lèi)器性能的影響,并根據(jù)最優(yōu)k值對(duì)比在無(wú)知識(shí)圖譜和含知識(shí)圖譜兩種情況下的圖書(shū)分類(lèi)性能,發(fā)現(xiàn)準(zhǔn)確率P、召回率R以及F1值均有較大幅度提升。

        猜你喜歡
        分類(lèi)特征模型
        一半模型
        分類(lèi)算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        抓住特征巧觀察
        99热免费观看| 亚洲妇熟xxxx妇色黄| 国产午夜视频在线观看.| 伊人久久大香线蕉午夜av| 在线人成免费视频69国产| 91网站在线看| 精品专区一区二区三区| 狼狼色丁香久久女婷婷综合| 丰满少妇人妻久久精品| 日韩欧美成人免费观看| 夜夜未满十八勿进的爽爽影院| 亚洲AV无码久久久一区二不卡| 在线a人片免费观看高清| 少妇被粗大的猛进69视频| 亚洲成熟丰满熟妇高潮xxxxx| 国产高潮国产高潮久久久 | 国产精品无码mv在线观看| 成人短篇在线视频夫妻刺激自拍| 丁香花五月六月综合激情| 久久精品国产亚洲av麻豆| 激情亚洲一区国产精品| 99热高清亚洲无码| 黄色影院不卡一区二区| 久久久久久亚洲av无码蜜芽| 四虎影视亚洲精品| 粗大挺进孕妇人妻在线| 国产 一二三四五六| 亚洲av日韩av在线观看| 久久国产偷| 亚洲天堂av免费在线| 欧美颜射内射中出口爆在线| 国产一线二线三线女| 最新国产美女一区二区三区| 亚洲一区二区三区偷拍视频| 三年片大全在线观看免费观看大全| 久久国产精品国产精品日韩区| av网站免费在线不卡| 高清午夜福利电影在线| 亚洲成av人片一区二区| 啪啪免费网站| 精品国产麻豆免费人成网站|