薛春香?。暇├砉ご髮W信息管理系 江蘇 南京 210094)何 琳 侯漢清(南京農(nóng)業(yè)大學信息科技學院 江蘇 南京 210095)
基于《中圖法》知識庫的自動分類相關問題探析*
薛春香(南京理工大學信息管理系 江蘇 南京 210094)
何琳侯漢清(南京農(nóng)業(yè)大學信息科技學院 江蘇 南京 210095)
在網(wǎng)絡環(huán)境下,傳統(tǒng)分類法的應用環(huán)境和核心功能發(fā)生了轉變?;凇吨袌D法》知識庫的自動分類能夠滿足當前數(shù)字信息資源組織和檢索的需要,但其在知識庫規(guī)模、分類算法、《中圖法》分類體系等方面存在問題。這些問題可以從自動分類的適應性改造和知識庫更新方面進行改進。
文本自動分類《中國圖書館分類法》分類知識庫數(shù)字信息資源組織
分類法作為一種古老的知識組織工具,在實體資源組織與檢索過程中一直發(fā)揮著重要作用,尤其在資源排架和目錄檢索方面。但隨著資源對象主體從實體館藏到虛擬資源、用戶從專業(yè)人員到大眾用戶以及外部環(huán)境的變化,傳統(tǒng)分類法的功能也要發(fā)生相應轉變。
1.1傳統(tǒng)分類法應用環(huán)境的轉變
傳統(tǒng)文獻分類法系統(tǒng)性強、知識結構良好,是傳統(tǒng)圖書情報機構信息資源組織和管理的重要工具。計算機網(wǎng)絡技術的普及使得傳統(tǒng)信息環(huán)境發(fā)生了巨大變化。
(1)資源對象的變化。隨著現(xiàn)代信息技術的迅猛發(fā)展,特別是數(shù)字信息環(huán)境的形成,信息的生產(chǎn)、存儲、傳遞、利用都發(fā)生了根本性變革,海量數(shù)字信息資源已逐漸成為信息資源的主體,這導致傳統(tǒng)分類法在物理資源管理上的排架功能被大大弱化。
(2)用戶主體的改變。搜索引擎及各種檢索工具在線服務的提供使普通用戶成為信息資源的直接消費者;原來由專業(yè)情報人員提供的信息檢索和篩選工作越來越多地由普通用戶直接完成。同時,基于關鍵詞檢索的搜索引擎培養(yǎng)了大眾用戶“即刻滿足”的信息消費習慣以及簡單、易用、友好的消費需求。分類法使用者從少量的圖書館用戶向數(shù)以千萬計的網(wǎng)絡用戶轉變,在這種用戶環(huán)境下,傳統(tǒng)分類法的專業(yè)性、系統(tǒng)性反而成為普通用戶使用它的掣肘。
因此,網(wǎng)絡環(huán)境下“分類法無用論”不絕于耳。計算機強大的搜索功能讓人們越來越適應沒有精確分類組織的信息環(huán)境,但分類能帶來更好的檢索結果依然是毋庸置疑的事實[1]。傳統(tǒng)文獻分類法對于數(shù)字信息資源的加工、組織、檢索、利用依然有效,只是其資源排架和目錄檢索的傳統(tǒng)核心功能隨著外部信息環(huán)境變化發(fā)生了相應轉變。
1.2傳統(tǒng)分類法核心功能的轉變
(1)分類法的資源排架功能向系統(tǒng)組織功能轉變。面對數(shù)字信息資源,傳統(tǒng)分類法的排架功能逐漸消弱;但作為一種主題組織工具,其系統(tǒng)組織功能對數(shù)字信息資源依然有用。自20世紀90年代后期以來,OCLC等研究機構實施了一系列研究計劃,將DDC、UDC、LCC等傳統(tǒng)分類法應用于數(shù)字資源的描述、組織和檢索[2];涌現(xiàn)了一批基于分類組織和導航的數(shù)字資源網(wǎng)關,如NetFirst(DDC)、Canadian Information by Subject(DDC)、BUBL(DDC)、NISS Information Gateway(UDC)、SOSIG(UDC)等。分類法對網(wǎng)絡信息資源的系統(tǒng)組織和知識導航起到了重要作用。但隨著數(shù)字資源的激增,人工編輯效率低下導致其中一些資源網(wǎng)關已停止服務,針對日益激增的數(shù)字信息資源迫切需要提供自動分類技術來解決其人工分類組織效率低下的問題。
(2)分類法的目錄檢索功能向檢索控制和結果篩選功能轉變。分類目錄和主題目錄是從內(nèi)容角度提供信息資源檢索的兩條主要途徑。關鍵詞的直觀性、易獲取使得主題檢索成為網(wǎng)絡環(huán)境下普通用戶信息檢索的不二選擇,因此分類目錄使用頻率極低。但分類法良好的知識結構和學科屬性,能夠有效地控制檢索關鍵詞的學科范疇、提供檢索結果的分組和篩選,對輔助主題檢索獲取高質量檢索結果具有事半功倍的效果。
因此,正如Vizine-Goetz Diane[3]所言,傳統(tǒng)文獻分類法具有良好的知識結構,在網(wǎng)絡信息資源描述、組織和資源發(fā)現(xiàn)上具有巨大潛力和優(yōu)勢:能提供面向主題的瀏覽結構、檢索詞上下文信息、檢索精化、檢索結果的分組和篩選,并支持多語言訪問。網(wǎng)絡環(huán)境下,分類法作為主題組織工具的功能應被進一步強化。但信息環(huán)境的變化使得人工分類已遠不能滿足大規(guī)模、海量生成的數(shù)字資源加工和組織的需要,必須從手工分類轉向自動分類,并且向多維度、多標簽、多層次分類發(fā)展。
文本自動分類與自然語言處理、機器學習密切相關,目前對網(wǎng)絡上文本信息資源自動分類的研究,計算機領域專家學者占據(jù)優(yōu)勢。20世紀50年代末,美國學者盧恩在這一領域進行了開創(chuàng)性研究,提出將詞頻統(tǒng)計思想應用于文本自動分類。此后Gerard Salton、K Sparck Jones和Roger Michael Needham等在這一領域進行了卓有成效的研究[4]。60—80年代,基于專家智慧的知識工程方法是文本自動分類的主流,該方法主要依賴專家智慧手工建立分類規(guī)則。90年代開始,隨著人工智能和語料庫研究的發(fā)展,機器學習方法逐漸取代知識工程方法[5]。這些研究主要由計算機領域學者展開,在文本分類算法、分類器構造、語料庫建設等方面取得了顯著進展,分類效率高,但也存在類別少、層次淺等不足。
圖書情報領域則另辟蹊徑,更多地關注如何充分利用在圖書館環(huán)境下發(fā)展和使用的受控詞表(如文獻分類法、敘詞表)來實現(xiàn)文獻自動分類[6-7]。
2.1基于傳統(tǒng)文獻分類法的文本自動分類研究
由于傳統(tǒng)文獻分類法在信息資源組織中占有重要地位,針對網(wǎng)絡環(huán)境下文獻信息快速加工、組織的迫切需求,圖書情報領域學者紛紛探索基于傳統(tǒng)文獻分類法的自動分類,OCLC、歐盟等組織在信息資源自動分類和主題識別領域開展了多個大型研究項目,如OCLC的Scorpion Project(蝎子計劃)、歐盟的DESIRE,利用DDC、UDC、LCC對數(shù)字信息資源進行自動分類和主題識別[8]。從實現(xiàn)路徑看,圖書情報領域自動分類的探索主要基于兩種途徑:一是基于字符串匹配,通過待分類文獻中抽取的語詞與來自分類表、敘詞表中語詞的匹配來查找最相關的分類號,Scorpion是該方法的典型系統(tǒng)代表;此外,Larson[9]以LCC為框架,利用MARC記錄中的標題和主題詞,進行不同匹配方法和標引源的分類對比實驗;Jenkins等人[10]使用DDC和書目記錄進行分類實驗。二是引入機器學習領域的SVM、k-NN、貝葉斯等分類模型和算法,以DDC、LCC等為分類框架進行數(shù)字信息資源的自動分類。Pong等人[11]通過精煉LCC的類目體系,引入貝葉斯和k-NN兩種分類算法進行對比實驗,實驗表明k-NN具有較好分類效果。Mehler等人[12]以DDC為分類框架,通過兩個分類器對比實驗,指出以DDC這一封閉的分類體系作為分類框架是合適的,能滿足有指導的機器學習對于訓練集可靠性的要求。從國外基于傳統(tǒng)分類法進行自動分類的實踐來看,圖書情報領域學者更關注于分類法、受控詞表、書目記錄、引文信息[13]等傳統(tǒng)圖書館資源在自動分類中的利用,同時,也開始重視分類算法比較研究及其在基于傳統(tǒng)分類法的文本自動分類中的適用性。
國內(nèi)20世紀90年代,張琪玉先生[14]提出從科技文獻主題揭示的需求出發(fā),充分利用分類表、詞表優(yōu)勢,融合了概念分面組配和分類主題一體化思想,提出一種較易實現(xiàn)的中文文本信息自動分類模式:以文獻題名作為主要抽詞對象,適當采用人工輔助抽詞措施以保證抽詞質量,采用分面分類法模式以減少概念歸類的復雜性,控制自動歸類諸環(huán)節(jié),利用“關鍵詞—概念詞—分類號”對應表以提供自然語言入口,保留原始關鍵詞以提供自然語言檢索功能,形成一個由“軟件+分面分類法+關鍵詞—概念詞—分類號對應表+數(shù)據(jù)庫”構成的自動分類系統(tǒng)。在這一思想啟發(fā)下,本研究團隊以國內(nèi)應用最為廣泛的《中圖法》及各類標引資源(包括《中圖法》類目信息、《中圖法》索引、中分表》、文獻數(shù)據(jù)庫分類標引數(shù)據(jù)等)為基礎,構建面向自動分類需要的分類知識庫,探索出一條基于《中圖法》知識庫的自動分類實踐之路。
2.2基于《中圖法》知識庫的文本自動分類研究概述
自20世紀90年代中后期,本團隊對基于傳統(tǒng)文獻分類法的文本自動分類展開了長期研究,包括基于標引經(jīng)驗的自動分類方法研究[15]、用于自動分類的《中圖法》知識庫設計與構建[16]、基于實例匹配的文本分類算法[17],以及對不同類型文獻的自動分類實踐。
2.2.1基于標引經(jīng)驗的自動分類方法研究
張琪玉先生根據(jù)分類主題一體化思想,通過“分類號—主題詞”對應關系來實現(xiàn)文獻主題標引詞(關鍵詞、敘詞)到分類號的轉換。但基于專家智慧構建的《中分表》規(guī)模過小、詞匯陳舊,無法提供構建分類器所需大規(guī)模訓練語料的語料保障。而現(xiàn)有文獻數(shù)據(jù)庫中存在大量由專業(yè)人員完成的圖書、期刊論文標引數(shù)據(jù),這些標引數(shù)據(jù)由標引詞和分類號組成,是一個匯聚大量人工智慧的標引分類經(jīng)驗庫和實例庫?;跇艘?jīng)驗的自動分類依據(jù)情報語言兼容互換原理,即分類語言、主題語言、自然語言都是概念標識,可以建立相互間的映射關系。因此,我們可以采用統(tǒng)計方法對這些人工標引記錄進行關聯(lián)挖掘,建立“分類號—關鍵詞串”對應表,構建分類知識庫;再將文本標引詞串與分類知識庫中的詞串進行相似度計算,給出相似度最大的詞串對應的類號,完成自動分類。這種自動分類方法基于情報語言兼容互換原理和概念標識轉換技術,充分利用了現(xiàn)有分類表、敘詞表和標引數(shù)據(jù)資源,分類算法簡單、運算量少、分類深度大,是圖書情報界開辟的一種自動分類新方法。
2.2.2用于自動分類的《中圖法》知識庫構建
《中圖法》分類知識庫是一個以《中圖法》分類體系為骨架,融合了各種詞表資源(包括分類表、主題詞、關鍵詞、專有名詞、語義詞典等)并建立內(nèi)部關聯(lián)所形成的知識庫,為文本抽詞、關鍵詞提取、分類號轉換等一系列標引分類工作提供所需詞典資源。圖1是《中圖法》分類知識庫的組成。
圖1 《中圖法》分類知識庫組成
其中,由“分類號—關鍵詞串”對應關系組成的主分類知識庫是《中圖法》知識庫實現(xiàn)自動分類功能的核心,由一個個分類實例組成,其原始數(shù)據(jù)主要來自《中分表》、《中圖法》類目索引及大規(guī)模標引數(shù)據(jù)。為了從大規(guī)模主題分類雙重標引數(shù)據(jù)中提取和建立準確的“分類號—關鍵詞串”的對應關系,需要對標引數(shù)據(jù)進行數(shù)據(jù)整合與清理、復分仿分類目的分面剝離、“分類號—關鍵詞串”的關聯(lián)發(fā)現(xiàn)和相關度判別,最終生成可用于實現(xiàn)各種數(shù)字信息資源自動歸類的《中圖法》分類知識庫。
2.2.3基于實例匹配的自動分類算法
經(jīng)典的文本自動分類算法主要有支持向量機、貝葉斯、人工神經(jīng)網(wǎng)絡、決策樹、k-NN、最近鄰等?;诜诸愔R庫的自動分類系統(tǒng)采用詞串匹配算法,通過計算標引詞串與知識庫中每一個分類實例的字面相似度與語義相似度來實現(xiàn)詞串定類,是一種基于實例的匹配。從算法的時間復雜度來看,知識庫規(guī)模為N條,分類過程的時間復雜度為D(N),時間復雜度小。但當知識庫規(guī)模擴大時,分類時間復雜度也會相應增加。因此為了實現(xiàn)多步驟、多層次分類需要構建面向多次分類的層次知識庫。
2.2.4基于《中圖法》知識庫的自動分類優(yōu)點分析
總而言之,《中圖法》知識庫應用于自動分類具有如下優(yōu)勢:
(1)在文本分類領域,大多數(shù)研究都集中在淺層粗略分類體系,所定義的類別數(shù)量有限,類別之間基本孤立,沒有任何結構關系。當類別數(shù)量激增時,該分類方法則無法滿足要求。因此,像《中圖法》這樣類目詳盡、層次清晰的分類體系能夠滿足量級龐大的數(shù)字信息資源分類需求。
(2)高質量標注語料是采用機器學習方法生成分類器的重要保障。專業(yè)標引人員手工完成的大量標引數(shù)據(jù),是廣大標引人員智慧的結晶,每一個標引實例都是高質量標注語料,基于此來訓練《中圖法》各類目的類別特征能夠實現(xiàn)較好的類別表征。
(3)類別表征的高維度一直是困擾文本分類的關鍵問題,往往需要引入外部資源來進行語義控制從而實現(xiàn)特征降維?;跇艘龜?shù)據(jù)構建《中圖法》知識庫,以“分類號—關鍵詞串”對應表為核心,一個類目由多個關鍵詞串來表征,每個詞串由3~10個關鍵詞組成來表示類目含義,避免了類目表征的特征詞高維度問題。
在十余年基于《中圖法》知識庫的自動分類研究和實踐中,知識庫構建和分類算法等方面也存在一些需要解決的問題。
3.1存在的問題
3.1.1《中圖法》類目體系對自動分類的影響
目前多數(shù)自動分類系統(tǒng)建立在粗略分類體系之上,大多數(shù)分類體系類目在百余個,類目數(shù)量少且類目之間的互斥性大。而《中圖法》類目體系龐大,固定類目已達數(shù)萬個;且同一大類的眾多下位類之間語義關聯(lián)度大、區(qū)分度小。類別間的主題越接近,越難區(qū)分,這給自動分類造成極大的困難。
此外,《中圖法》類目體系的設計結構對分類效果也有很大影響。其中,自然科學各大類先按主題分再按地區(qū)分,自然科學的體例更為合理,相同主題會集中于一個類號下;而社會科學各大類多先按地區(qū)分,再按主題分,如“中國海軍”與“美國海軍”具有相同的學科主題,但是在分類法中卻要先按照地區(qū)分在不同類(E2和E712),然后再在各自類下細分,在基于實例匹配的分類時極易導致錯分。
3.1.2知識庫構建中訓練語料的偏斜問題
分類知識庫構建過程中,訓練語料中類目分布往往不均衡,不同類目間的樣本數(shù)量存在數(shù)量級差距,這是導致分類效果不理想的一個重要因素。有些類目由于實際標引數(shù)據(jù)龐大導致其在知識庫中占有比例大,有些類目則因實際標引數(shù)據(jù)少而導致訓練數(shù)據(jù)不足,這就導致訓練出的知識庫中小類被大類淹沒,甚至某些小類由于數(shù)量過少而被過濾最終無法在知識庫中呈現(xiàn)。因此,知識庫構建過程中需要對小類的分類特征提取予以優(yōu)化或給予提高權重來獲得知識庫對小類別特征的重視,從而能夠在有限范圍內(nèi)提高小類的分類正確率。
3.1.3自動分類算法的設計問題
《中圖法》是一部詳盡專深的綜合性分類法,類目數(shù)量龐大且類目間存在概念交叉、特征詞相近的情形,在分類中會由于特征詞相近而導致分類錯誤,這種情況在“政治、法律”大類中尤為明顯。此外,由于分類采用的是基于字符串匹配的方法,當知識庫數(shù)量極為龐大時,若一次調用所有類目的分類實例會導致內(nèi)存開銷過大,從而影響自動分類的效率。因此,在算法設計方面,一方面需考慮多次分類、粗分類與細分類相結合;另一方面,在類別特征抽取方面應進一步加大篩選力度,提高現(xiàn)有系統(tǒng)分類效率。
3.2《中圖法》知識庫的改進
3.2.1《中圖法》對自動分類的適應性改造
《中圖法》產(chǎn)生于網(wǎng)絡環(huán)境之前,其初衷是為了滿足分類排架的需要,因此在體系設計中有諸多不適于機器自動分類的弊端,需要進行適應性改造,使其類目體系更適合于機器處理。主要包括:①仿分復分類目的處理,尤其要著力改造社會科學部類,改變大類下“先按地區(qū)后按主題”的劃分方法,并將復分、仿分號游離出來。②“稀有類別”的處理,在實際文獻分布中有些類別標引數(shù)據(jù)極少,使得這些類目在知識庫構建中面臨訓練數(shù)據(jù)不足的問題,可以根據(jù)實際標引數(shù)據(jù)數(shù)量,對《中圖法》進行類目體系重構,將“稀有類別”分別并入其上位類,建立一棵分布均勻的分類樹[18]。
3.2.2知識庫更新的改進
本研究中知識庫是自動分類的基礎,知識庫容量直接影響自動分類的效果和效率。一方面,自然科學領域不斷產(chǎn)生新的科學術語,社會科學領域不斷涌現(xiàn)新的社會現(xiàn)象,如果不能及時將這些新的術語概念增補到知識庫中,將會造成主題標引和自動分類召回率低下的問題;另一方面,如果知識庫規(guī)模不斷擴大、分類實例庫持續(xù)增加,也會導致分類時間復雜度增加,甚至影響分類準確率。因此,需要為知識庫設置一種自更新機制,定期或根據(jù)新標引記錄累積量,進行新增標引記錄與原知識庫記錄的比對和篩選,增補新的分類標引實例,同時剔除一部分舊實例。
除了上述整體更新外,還需進行偏重更新。在實際自動分類過程中,分類錯誤往往集中于某些類別,因此,后續(xù)研究中我們需要通過對自動分類結果的審核與分析,發(fā)現(xiàn)自動分類錯誤集中的類別,對這部分類目重新收集標引實例、重新訓練來完善集中類目的知識庫更新。
4.1多維分類問題
《中圖法》是以學科分類為基礎的等級列舉式分類法,在分類過程中融合了地點、時代、文獻類型等分面。網(wǎng)絡環(huán)境下,分類組織更多是作為檢索結果的篩選方式,因此,在分類過程中除了考慮學科分類外,融合了其他分面特征的多維度分類是一種趨勢。在此前的知識庫設計中,為了保障分類效率,筆者已經(jīng)對復分、仿分類目進行了分面處理,將地點、時代、文獻類型等分面從類目中游離出來,一方面保證了學科主題分類的準確性,另一方面,從分類結果應用來看,多維度、分面式分類結果的呈現(xiàn)更具有應用價值。
4.2多層分類問題
《中圖法》等傳統(tǒng)文獻分類法是一個層次清晰的多層級分類體系,但目前所構建的知識庫其實質是實例庫,分類過程采用基于詞串相似度計算的最近鄰分類方法,在知識庫構建過程中忽視了對分類體系層級信息的利用,在分類過程中忽視了大類對細分類目的收斂作用。因此,構建多層次分類知識庫,通過自頂向下的分類步驟實現(xiàn)多層次分類更接近于人工分類的實現(xiàn)過程,是基于《中圖法》知識庫的自動分類的未來發(fā)展方向。
4.3微分類問題
各種新媒體的發(fā)展方便用戶在互聯(lián)網(wǎng)上生產(chǎn)、發(fā)布、收藏和匯集各類自己所感興趣的信息資源。隨著個體用戶資源量的增長,個體用戶信息資源的自組織需求越來越迫切。分類作為一種系統(tǒng)的內(nèi)容組織方法為用戶所接受,但這部分用戶對于分類的需求呈現(xiàn)出類目體系微小、層級淺、個性化、多維度等特征。如何針對個體用戶的分類需求,根據(jù)用戶自擬定的微分類體系,通過對已有分類樣例的學習,提供分類推薦功能是自動分類適應當前網(wǎng)絡和用戶需求的另一個方向。
基于《中圖法》知識庫的自動分類研究是我們對文獻分類法在數(shù)字信息資源組織上的探索。通過十余年研究和實踐,課題組在期刊論文、圖書、網(wǎng)頁、報紙等不同類型的文獻信息自動標引和分類上進行了大量實踐,其成果在上海圖書館等圖書情報部門得到了實際應用。在不斷實踐中,我們也逐步發(fā)現(xiàn)了該方法在知識庫構建、分類算法優(yōu)化等方面存在的問題,課題組不斷探尋新方法來嘗試解決,以期不斷逼近更加正確的分類結果。隨著大規(guī)?;ヂ?lián)網(wǎng)內(nèi)容處理、機器學習及數(shù)據(jù)挖掘技術研究的深入,基于《中圖法》知識庫的文本分類中所遇到的問題將會逐步得到妥善解決,以滿足當前數(shù)字信息資源組織和檢索中的多維度、多層次、細分類需要。
[1]Kumbhar R. Library Classification Trends in the 21st Century [M]. Oxford: Chandos Publishing Hexagon House, 2012:7.
[2]Matveyeva S J. A Role for Classification: The Organization of Resources on the Internet[EB/OL]. (2002 -06-14) [2014-09-01]. http://www.mlaforum.org/volumeI/issue2/roleClassification.html. [3]Vizine-Goetz D. OCLC Investigates Using Classification Tools to Organize Internet Data[C]//Visualizing Subject Access for 21st Century Information Resourcesl ( Clinic on Library Application of Data Processing//Processings). University of Lllinois Graduate School of (October 1998), 1998:93-105.
[4]Jones K S. Notes and References on Early Automatic Classification Work[J]. ACM SIGIR Forum,1991.25(2):10-17.
[5]Sebastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys, 2002,34(1):1- 47.
[6]Golub K. Automatic Subject Classification of Textual Web Pages Based on a Controlled Vocabulary: Challenges and Recommendations[J]. New Review of Hypermedia and Multimedia, 2006,12(1):11-27.
[7]Yi K. Automated Text Classification Using Library Classification Schemes:Trends, Issues, and Challenges[J]. International Cataloguing and Bibliographic Control, 2007,36(4):78-82.
[8]Gietz P. Report on Automatic Classification Systems: For the TERENA Activity Portal Coordination[R/OL]. (2001-06-19)[2014-09-11] .http://www.daasi.de/reports/Report-automaticclassification.html.
[9]Larson R R. Experiments in Automatic Library of Congress Classification[J]. Journal of the American Society for Information Science, 1992,43(2):130-148.
[10]Jenkins C, Jackson M, Burden P, et al. Automatic Classification of Web Resources Using Java and Dewey Decimal Classification[J]. Computer Networks and ISDN System, 1998,30(1-7):646-648.
[11]Pong J Y, Kwok R C, Lau R Y, et al. A Comparative Study of Two Automatic Document Classification Methods in a Library Setting[J]. Journal of Information Science, 2008,34(2):213-230.
[12]Mehler A, Waltinger U. Enhancing Document Modeling by Means of Open Topic Models: Crossing the Frontier of Classification Schemes in Digital Libraries by Example of the DDC[J]. Library Hi Tech, 2009,27(4): 520-539.
[13]Mahdi A E, Joorabchi A. Automatic Subject Classification of Scientific Literature Using Citation Metadata[C]. London: In Proceedings of the International Conference on Digital Enterprise and Information Systems (DEIS 2011), 2011:545-559.
[14]張琪玉. 概念分面組配型自動分類系統(tǒng)[J]. 圖書館學刊, 2002 (6):9-10.
[15]何琳, 侯漢清, 白振田, 等. 基于標引經(jīng)驗和機器學習相結合的多層自動分類[J]. 情報學報, 2006,25(6):725- 729.
[16]侯漢清, 薛春香. 用于中文信息自動分類的《中圖法》知識庫的構建[J]. 中國圖書館學報, 2005(5):82-86.
[17]侯漢清, 薛鵬軍. 基于知識庫的網(wǎng)頁自動標引和自動分類系統(tǒng)的設計[J]. 大學圖書館學報, 2004(1):50-55.
[18]Wang J. An Extensive Study on Automated Dewey Decimal Classification[J]. Journal of American Society for Information Science and Technology, 2009,60(11):2269-2286.
薛春香 女,博士,南京理工大學副教授,研究方向為信息組織、智能信息處理。
何 琳 女,博士,南京農(nóng)業(yè)大學副教授,研究方向為信息組織、本體構建。
侯漢清 男,南京農(nóng)業(yè)大學教授,博士生導師,研究方向為情報語言學。
Analysis on Issues Related to the Automatic Classification Based on CLC Knowledge Base
The application environment and core functions of the traditional classification were transferred under the network environment. The automatic classification based on Chinese Library Classification (CLC )knowledge base could satisfy the need of the digital information organization and retrieval. However, it has some problems in aspects of the scale of the knowledge base, the classification algorithm, and the classification system. Lastly, a solution was put forward from aspects of the adaptive transformation of the automatic classification and knowledge base revision.
Automatic text classification; Chinese Library Classification; Knowledge base for classification; Digital information resource organization
G254
B
*本文系中央高?;究蒲袠I(yè)務費專項資金“基于內(nèi)容與社會化信息融合視角的數(shù)字化報紙資源開發(fā)利用模式研究”,項目編號:30920130132005;江蘇省社會科學基金項目“新媒體環(huán)境下報紙新聞信息資源開發(fā)利用研究”,項目編號:14TQB10;國家留學基金資助。
2015-01-20 ]