路永和 彭燕虹(中山大學(xué)資訊管理學(xué)院 廣東廣州 510006)
·信息組織與服務(wù)·
融合實(shí)用性與科學(xué)性的互聯(lián)網(wǎng)信息分類體系構(gòu)建*
路永和彭燕虹
(中山大學(xué)資訊管理學(xué)院廣東廣州510006)
摘要:
分類體系是信息組織的有效形式,傳統(tǒng)文獻(xiàn)分類體系難以適用分類對(duì)象的轉(zhuǎn)變,實(shí)用性不足,已有的網(wǎng)絡(luò)分類體系則缺乏科學(xué)性。構(gòu)建融合實(shí)用性與科學(xué)性的互聯(lián)網(wǎng)信息分類體系,能夠有效滿足用戶信息需求,且是自動(dòng)文本分類技術(shù)研究的基礎(chǔ)。文章分別以中圖法、新浪門戶為例,研究傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法的優(yōu)缺點(diǎn),提出互聯(lián)網(wǎng)信息分類體系的實(shí)用性、科學(xué)性以及均衡性設(shè)計(jì)原則,基于三個(gè)設(shè)計(jì)原則構(gòu)建了互聯(lián)網(wǎng)信息分類體系。為了驗(yàn)證所構(gòu)建的分類體系的有效性,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)易門戶以及騰訊網(wǎng)的語(yǔ)料作為實(shí)驗(yàn)數(shù)據(jù),與復(fù)旦語(yǔ)料庫(kù)的分類體系進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,相比于復(fù)旦語(yǔ)料庫(kù)的分類體系,文章所提出的互聯(lián)網(wǎng)信息分類體系具有更高的實(shí)用性,且能更為全面地涵蓋各種互聯(lián)網(wǎng)信息,類目之間交叉度小,各個(gè)類目信息量接近,文本分類效果更為理想。關(guān)鍵詞:
互聯(lián)網(wǎng)信息;分類體系;中圖法;語(yǔ)料庫(kù)伴隨著網(wǎng)絡(luò)信息的指數(shù)增長(zhǎng),海量信息所帶來(lái)的信息冗余,使得越來(lái)越多的信息用戶無(wú)法有效獲取所需信息。特別是在用戶無(wú)法明確得知關(guān)鍵詞以進(jìn)行信息檢索的情況下,如何幫助用戶在信息海洋中更加快速有效地獲取需求信息,具有一定的研究?jī)r(jià)值。信息分類是信息組織的有效途徑之一,以中圖法、杜威分類法為代表的傳統(tǒng)文獻(xiàn)分類體系能夠有效組織大量的文獻(xiàn)信息,網(wǎng)絡(luò)環(huán)境下以各個(gè)門戶網(wǎng)站分類體系為代表的網(wǎng)絡(luò)分類體系可以組織海量的網(wǎng)絡(luò)信息,但傳統(tǒng)文獻(xiàn)分類體系過(guò)分強(qiáng)調(diào)類目體系嚴(yán)謹(jǐn)科學(xué),體系龐大、術(shù)語(yǔ)生僻;網(wǎng)絡(luò)分類體系注重體系實(shí)用性,但存在措詞隨意,類目之間科學(xué)性欠佳等問(wèn)題。良好的分類體系是實(shí)現(xiàn)自動(dòng)文本分類的基礎(chǔ),如果能對(duì)網(wǎng)絡(luò)中的文檔進(jìn)行處理,使其形成良好的分類,有助于人們組織、挖掘、檢索文本信息。同時(shí),伴隨著文本分類技術(shù)的發(fā)展,越來(lái)越多的學(xué)者迫切需要文本分類語(yǔ)料庫(kù)以支撐其實(shí)驗(yàn)研究,而最便捷最龐大的語(yǔ)料獲取來(lái)源即為互聯(lián)網(wǎng),但這些互聯(lián)網(wǎng)信息需要一個(gè)有效的分類體系將其囊括。分類體系作為構(gòu)建文本分類語(yǔ)料庫(kù)的前提,分類體系的好壞,直接影響了一個(gè)文本分類語(yǔ)料庫(kù)的優(yōu)劣,繼而影響自動(dòng)文本分類技術(shù)的研究。構(gòu)建融合實(shí)用性與科學(xué)性的互聯(lián)網(wǎng)分類體系,除了能夠有效滿足用戶信息需求這一實(shí)用性要求,還能夠促進(jìn)自動(dòng)文本分類技術(shù)的進(jìn)步。
一直以來(lái),學(xué)者們都試圖尋找一個(gè)更適用于互聯(lián)網(wǎng)環(huán)境的分類體系。陳樹(shù)年、張琪玉等先后提出過(guò)互聯(lián)網(wǎng)環(huán)境下的分類體系框架,主要?jiǎng)澐至艘?、二?jí)類目,力求涵蓋所有互聯(lián)網(wǎng)信息,但其分類體系過(guò)多直接引入傳統(tǒng)文獻(xiàn)分類法的類目,如陳樹(shù)年的體系大綱中所出現(xiàn)的“圖書(shū)館與參考資料”、“工程技術(shù)”等類目,且較少考慮現(xiàn)實(shí)情況下的網(wǎng)絡(luò)信息資源分布,體系重點(diǎn)不明晰,與用戶直接使用的指南性網(wǎng)絡(luò)分類體系有所不同。反觀現(xiàn)有的門戶網(wǎng)站分類體系,其基于點(diǎn)擊率構(gòu)建、體系適用范圍較窄、類名措詞隨意性大、歧義度高、類目之間交叉明顯、網(wǎng)絡(luò)信息混亂、用戶查找困難重重。不僅導(dǎo)致用戶在瀏覽不同網(wǎng)站的過(guò)程中存在明顯的閱讀障礙,更使得用戶無(wú)法通過(guò)分類體系有效獲取所需信息,常常出現(xiàn)如點(diǎn)擊某一類目后,出現(xiàn)大量與需求信息完全無(wú)關(guān)的內(nèi)容等問(wèn)題。由傳統(tǒng)文獻(xiàn)分類體系直接改造而來(lái)的分類體系框架以及各個(gè)門戶網(wǎng)站的自編分類體系,無(wú)法有效應(yīng)對(duì)海量網(wǎng)絡(luò)信息環(huán)境下的用戶信息需求,建立通用性高、更加符合網(wǎng)絡(luò)信息資源分布現(xiàn)狀、適合網(wǎng)絡(luò)信息組織與傳播的互聯(lián)網(wǎng)信息分類體系具有一定的現(xiàn)實(shí)意義。
傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法的分類對(duì)象不同決定了傳統(tǒng)文獻(xiàn)分類法對(duì)于互聯(lián)網(wǎng)信息的不適用性,但兩者都是對(duì)于知識(shí)、信息的組織,這一共性決定了網(wǎng)絡(luò)信息分類能夠借鑒傳統(tǒng)文獻(xiàn)分類法。傳統(tǒng)文獻(xiàn)分類法一般以學(xué)科為中心建立分類體系,將有關(guān)主題的文獻(xiàn)集中到學(xué)科之下,如《中國(guó)圖書(shū)館分類法》(下文簡(jiǎn)稱中圖法)。傳統(tǒng)文獻(xiàn)分類體系更傾向于科學(xué)性,依據(jù)學(xué)科屬性進(jìn)行知識(shí)體系組織,強(qiáng)調(diào)類目體系覆蓋全面、穩(wěn)定,類目命名準(zhǔn)確嚴(yán)謹(jǐn)。但存在結(jié)構(gòu)過(guò)于龐大、缺乏簡(jiǎn)明性,劃分太細(xì)、缺乏實(shí)用性,操作復(fù)雜、缺乏易用性,體系僵化、缺乏靈活性,單線排列、缺乏多維性等多種問(wèn)題。而網(wǎng)絡(luò)分類法以主題為中心或主題結(jié)合學(xué)科的方式組織分類體系,如新浪門戶、網(wǎng)易采用主題與學(xué)科結(jié)合方式,建立以事物對(duì)象為中心的分類體系。網(wǎng)絡(luò)信息分類法更傾向于依據(jù)用戶需求來(lái)設(shè)置類目體系,特別是某些實(shí)用性很強(qiáng)的網(wǎng)站,如淘寶網(wǎng)。網(wǎng)絡(luò)信息分類體系具有更高的實(shí)用性,類目名稱通俗易懂,但存在著類目交叉明顯,如“新聞”一級(jí)類目下的“國(guó)內(nèi)”、“深度報(bào)道”,用戶無(wú)法明確選擇哪個(gè)渠道點(diǎn)擊瀏覽信息,降低網(wǎng)站訪問(wèn)效率,科學(xué)性明顯不足。對(duì)此不少學(xué)者提出了自己的建議,陳樹(shù)年提出建立網(wǎng)上信息的知識(shí)分類系統(tǒng),必須遵循面向網(wǎng)絡(luò)信息資源、面向網(wǎng)絡(luò)技術(shù)環(huán)境、面向網(wǎng)絡(luò)用戶的原則,突出其實(shí)用性和易用性。黃如花提出網(wǎng)絡(luò)信息組織模式應(yīng)該以用戶為中心,遵循實(shí)用性和易用性原則,綜合運(yùn)用自然語(yǔ)言和人工語(yǔ)言(分類語(yǔ)言、主題語(yǔ)言),充分利用新興技術(shù)和人們經(jīng)驗(yàn)的積累。王麗珺等提出網(wǎng)絡(luò)信息分類體系應(yīng)具備動(dòng)態(tài)性、多維性、實(shí)用性和易用性原則。鄭慶勝等認(rèn)為在構(gòu)建網(wǎng)絡(luò)信息分類體系時(shí)應(yīng)注意分類體系的實(shí)用性、全面性、規(guī)律性、統(tǒng)一性和特殊性。
基于上述對(duì)傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法的綜合分析,并考慮到網(wǎng)絡(luò)分類體系分類對(duì)象的轉(zhuǎn)移以及當(dāng)前網(wǎng)絡(luò)信息本身所呈現(xiàn)的特點(diǎn):數(shù)量多、內(nèi)容龐雜;變化快、穩(wěn)定性差;類型多、范圍寬、用途廣;信息組織特殊、控制性差,本文采用以事物對(duì)象為中心的方式構(gòu)建知識(shí)體系,并繼承傳統(tǒng)分類體系科學(xué)性、類目體系全面的優(yōu)點(diǎn),進(jìn)一步改進(jìn)和完善現(xiàn)有網(wǎng)絡(luò)信息分類體系設(shè)計(jì)原則,總結(jié)提出以下三個(gè)原則:(1)實(shí)用性原則,即要求類目設(shè)置方便用戶使用。各大門戶在設(shè)立分類體系時(shí)一個(gè)重要的原則就是方便網(wǎng)絡(luò)用戶的查找,互聯(lián)網(wǎng)分類體系區(qū)別于傳統(tǒng)文獻(xiàn)分類體系,其目的是有效地組織網(wǎng)絡(luò)信息,并最大效能地滿足網(wǎng)絡(luò)信息用戶的需求。只有滿足實(shí)用性,才能制定出更加符合用戶需求的體系,使用戶更快更準(zhǔn)地查詢到需要的信息;(2)科學(xué)性原則,其要求類目體系不僅能夠全面涵蓋幾乎任何主題的網(wǎng)絡(luò)信息,且各個(gè)類目具有明顯主題范圍,能夠明顯區(qū)分類目的主題內(nèi)涵與外延,大類與子類之間具有邏輯性。目前大部分的互聯(lián)網(wǎng)分類體系只是基于其本身網(wǎng)站的點(diǎn)擊率設(shè)計(jì),類目體系全面性不足,大量互聯(lián)網(wǎng)信息無(wú)法實(shí)現(xiàn)有效分類,大大弱化了信息的利用率;同時(shí),大量類目重復(fù)設(shè)置,影響了用戶的準(zhǔn)確判斷。堅(jiān)持科學(xué)性原則,有利于構(gòu)建更完善的互聯(lián)網(wǎng)分類體系,且各個(gè)類目特征明顯,類目上下級(jí)符合邏輯,有助于后續(xù)語(yǔ)料收集、語(yǔ)料訓(xùn)練等機(jī)器自動(dòng)學(xué)習(xí)的實(shí)現(xiàn);(3)均衡性原則,即要求分類體系各個(gè)類目訪問(wèn)頻率相近。從信息論角度來(lái)看,可以把網(wǎng)站信息分類體系類比為一個(gè)信息通道。一般來(lái)說(shuō),通道的利用率要高,這要求每個(gè)類別包含的元素要盡量均衡,即內(nèi)容多分得細(xì),內(nèi)容少分得粗。若不引入類目體系均衡原則,則可能有的類目只有兩三層,有的類目則多達(dá)十幾層,有時(shí)用戶從分類途徑查找某個(gè)類名,往往要鏈接十多個(gè)頁(yè)面,既費(fèi)時(shí)又費(fèi)力。堅(jiān)持類目體系均衡原則,有助于體系更加簡(jiǎn)潔、更加方便。
以分類體系設(shè)計(jì)原則為基礎(chǔ),構(gòu)建初步互聯(lián)網(wǎng)信息分類體系。在初步分類體系基礎(chǔ)上,采用網(wǎng)絡(luò)爬蟲(chóng)從新浪網(wǎng)抓取不同頻道的信息并人工識(shí)別后將其作為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,進(jìn)行文本分類實(shí)驗(yàn)測(cè)試。依據(jù)測(cè)試結(jié)果,對(duì)初步互聯(lián)網(wǎng)信息分類體系進(jìn)行修改調(diào)整,最終得到各個(gè)一級(jí)類目分類準(zhǔn)確率均高于90%的互聯(lián)網(wǎng)信息分類體系。該分類體系共有13個(gè)一級(jí)類目,各個(gè)一級(jí)類目之下具有2-8個(gè)二級(jí)類目(見(jiàn)表1)。
為了檢驗(yàn)此分類體系對(duì)于互聯(lián)網(wǎng)信息的有效程度,我們利用目前已有的文本分類體系進(jìn)行對(duì)比實(shí)驗(yàn)。目前采用網(wǎng)絡(luò)信息作為語(yǔ)料測(cè)試文本分類效果的分類體系主要有:復(fù)旦大學(xué)文本分類語(yǔ)料庫(kù)的分類體系(以下簡(jiǎn)稱復(fù)旦分類體系)和搜狗文本分類語(yǔ)料庫(kù)的分類體系(以下簡(jiǎn)稱搜狗分類體系)。復(fù)旦分類體系包含20個(gè)類目:Art、Literature、Education、Philosophy、History、Space、Energy、Electronics、Communication、Computer、Mine、Transport、Enviorn-ment、Agriculture、Economy、Law、Medical、Military、Politics、Sports。搜狗分類體系包含9個(gè)類目:IT、財(cái)經(jīng)、健康、教育、軍事、旅游、體育、文化、招聘。由于搜狗分類體系的類目較少,類別全面性不足,諸如娛樂(lè)、游戲等相關(guān)主題的語(yǔ)料,無(wú)法被涵蓋,因此本文采用類目更為全面的復(fù)旦分類體系作為實(shí)驗(yàn)對(duì)比體系。
表1 互聯(lián)網(wǎng)信息分類體系
4.1實(shí)驗(yàn)流程
首先通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取語(yǔ)料,并將抓取的語(yǔ)料依據(jù)不同分類體系進(jìn)行人工分類,將人工分類所得語(yǔ)料分為訓(xùn)練集與測(cè)試集;最后應(yīng)用文本分類技術(shù),采用KNN分類器進(jìn)行分類測(cè)試。采用KNN分類過(guò)程中,主要利用余弦相似度計(jì)算以計(jì)算各個(gè)文本向量空間,設(shè)定閥值為20%,即測(cè)試文檔與類目之間相似程度超過(guò)20%,則輸出該類別。依據(jù)測(cè)試文檔與不同類目相似程度的不同,按照相似程度從高到低排序,得到測(cè)試文檔的第一相似類目、第二相似類目和第三相似類目??紤]到當(dāng)前一個(gè)互聯(lián)網(wǎng)信息文檔中涵蓋多種主題的現(xiàn)實(shí)情況,故而將第一相似類目、第二相似類目、第三相似類目統(tǒng)稱前三相似類目,能夠有效反映語(yǔ)料的真實(shí)分類情況。因而,在傳統(tǒng)的文本分類評(píng)價(jià)指標(biāo)——分類準(zhǔn)確率的基礎(chǔ)上進(jìn)行擴(kuò)展,提出了兩個(gè)分類準(zhǔn)確率評(píng)價(jià)指標(biāo),包括第一相似類目分類準(zhǔn)確率(即傳統(tǒng)的文本分類分類率,見(jiàn)公式1)以及前三相似類目分類準(zhǔn)確率(見(jiàn)公式2)。具體實(shí)驗(yàn)流程如圖1所示。
4.2實(shí)驗(yàn)數(shù)據(jù)
由于本文互聯(lián)網(wǎng)信息分類體系主要參考中圖法和新浪網(wǎng)分類體系構(gòu)建,為保障對(duì)比所用語(yǔ)料公平性,本文實(shí)驗(yàn)采用的語(yǔ)料來(lái)自網(wǎng)易門戶與騰訊網(wǎng),通過(guò)網(wǎng)站首頁(yè)層層遍歷抓取,保證實(shí)驗(yàn)語(yǔ)料能真實(shí)反映網(wǎng)絡(luò)語(yǔ)料分布現(xiàn)狀,抓取所得語(yǔ)料總數(shù)為21614條。
抓取所得的語(yǔ)料,需先進(jìn)行人工分類,即通過(guò)人工識(shí)別某一語(yǔ)料歸屬于哪個(gè)類目,以作為可用的語(yǔ)料,剔除不可用的語(yǔ)料,得到實(shí)驗(yàn)所需的語(yǔ)料集。其中,可用語(yǔ)料率=該體系可用語(yǔ)料數(shù)量/抓取所得語(yǔ)料總數(shù)量。人工分類統(tǒng)計(jì)后,可得到復(fù)旦分類體系與互聯(lián)網(wǎng)信息分類體系的語(yǔ)料情況(見(jiàn)表2)。
表2 復(fù)旦語(yǔ)料庫(kù)的分類體系與互聯(lián)網(wǎng)信息分類體系的語(yǔ)料情況
由語(yǔ)料情況可知,復(fù)旦分類體系可用語(yǔ)料率僅為53.63%,大量娛樂(lè)、游戲、時(shí)尚、神秘學(xué)等相關(guān)互聯(lián)網(wǎng)信息無(wú)法找到相應(yīng)類目;而互聯(lián)網(wǎng)信息分類體系可用語(yǔ)料率達(dá)84.37%,無(wú)法分類的語(yǔ)料主要集中為語(yǔ)料涵蓋主題過(guò)多,人工無(wú)法明確識(shí)別類目的語(yǔ)料。因而,相比于復(fù)旦分類體系,本文構(gòu)建的互聯(lián)網(wǎng)信息分類體系實(shí)用性更高,具有包括娛樂(lè)、游戲、時(shí)尚等多個(gè)復(fù)旦語(yǔ)料庫(kù)分類體系所沒(méi)有的類目,符合實(shí)用性原則;同時(shí),也體現(xiàn)出互聯(lián)網(wǎng)信息分類體系能夠更加全面的覆蓋多種互聯(lián)網(wǎng)信息,符合科學(xué)性原則所要求的類目體系全面。
本文實(shí)驗(yàn)中的訓(xùn)練語(yǔ)料、測(cè)試語(yǔ)料依據(jù)各個(gè)類目語(yǔ)料總數(shù)大約1:1劃分,根據(jù)抓取信息的實(shí)際情況,不同類目的訓(xùn)練語(yǔ)料、測(cè)試語(yǔ)料數(shù)量有所不同。復(fù)旦語(yǔ)料庫(kù)分類體系總訓(xùn)練語(yǔ)料數(shù)為5802條,總測(cè)試語(yǔ)料數(shù)為5790條(具體情況見(jiàn)表3);互聯(lián)網(wǎng)信息分類體系總訓(xùn)練語(yǔ)料數(shù)為9142條,總測(cè)試語(yǔ)料數(shù)為9094條(具體情況見(jiàn)表4)。
由訓(xùn)練與測(cè)試情況可知,復(fù)旦分類體系各個(gè)類目的語(yǔ)料數(shù)量差異較大,語(yǔ)料數(shù)量多于1000的類目?jī)H有3個(gè),語(yǔ)料數(shù)量低于200的高達(dá)11個(gè),相應(yīng)其訓(xùn)練語(yǔ)料數(shù)量將低于100,會(huì)極大的影響后續(xù)文本分類實(shí)驗(yàn);相比于復(fù)旦分類體系,互聯(lián)網(wǎng)信息分類體系各個(gè)類目的語(yǔ)料數(shù)量較為均衡,語(yǔ)料數(shù)量多于1000的類目有7個(gè),語(yǔ)料數(shù)量低于200的僅有2個(gè)。由此可知,互聯(lián)網(wǎng)信息分類體系各個(gè)類目包含的語(yǔ)料數(shù)量相對(duì)比較均衡,諸如“復(fù)旦分類體系”中劃分的Military(軍事)、Politics(政治)類目在互聯(lián)網(wǎng)信息分類體系中,均為event(時(shí)事)的子類,而互聯(lián)網(wǎng)信息分類體系的訓(xùn)練集、測(cè)試集情況也顯示Military(軍事)、Politics(政治)類目語(yǔ)料數(shù)量較少,符合均衡性原則。
圖1 互聯(lián)網(wǎng)分類體系有效性實(shí)驗(yàn)流程
4.3實(shí)驗(yàn)結(jié)果
通過(guò)實(shí)驗(yàn),可分別得到復(fù)旦分類體系以及互聯(lián)網(wǎng)信息分類體系各個(gè)類目的測(cè)試結(jié)果(見(jiàn)表5、表6)。
由兩種分類體系的測(cè)試結(jié)果可知,互聯(lián)網(wǎng)信息分類體系第一相似類目分類準(zhǔn)確率高于90%的類目達(dá)5個(gè),低于50%的僅有1個(gè),而復(fù)旦語(yǔ)料庫(kù)分類體系高于90%的僅有1個(gè),低于50%的有10個(gè);互聯(lián)網(wǎng)信息分類體系前三相似類目分類準(zhǔn)確率高于90%的類目有9個(gè),高于80%的有12個(gè),僅有1個(gè)低于80%,而復(fù)旦語(yǔ)料庫(kù)分類體系高于90%的僅有4個(gè),高于80%的有11個(gè),低于80%的有9個(gè)。由此可知,互聯(lián)網(wǎng)信息分類體系類目設(shè)置具有更高的合理性,類目之間交叉度更低,各個(gè)類目特征明顯,符合科學(xué)性原則所要求的類目之間相互獨(dú)立。
表3 復(fù)旦分類體系的訓(xùn)練集、測(cè)試集情況
表4 互聯(lián)網(wǎng)信息分類體系的訓(xùn)練集、測(cè)試集情況
表5 復(fù)旦語(yǔ)料庫(kù)分類體系各個(gè)類目的測(cè)試結(jié)果
表6 互聯(lián)網(wǎng)信息分類體系各個(gè)類目的測(cè)試結(jié)果
對(duì)于整體數(shù)據(jù)集,利用文本分類評(píng)價(jià)指標(biāo)——宏平均準(zhǔn)確率進(jìn)行評(píng)價(jià),即每個(gè)類的分類準(zhǔn)確率的算術(shù)平均值。由于前面各個(gè)類別考慮了第一相似類目分類準(zhǔn)確率、前三相似類目分類準(zhǔn)確率,故而此處考慮第一相似類目宏平均準(zhǔn)確率以及前三相似類目宏平均準(zhǔn)確率(復(fù)旦分類體系與互聯(lián)網(wǎng)信息分類體系的宏平均準(zhǔn)確率見(jiàn)表7)。
表7 復(fù)旦語(yǔ)料庫(kù)分類體系與互聯(lián)網(wǎng)信息分類體系的宏平均準(zhǔn)確率對(duì)比
對(duì)比可知,盡管互聯(lián)網(wǎng)信息分類體系所含語(yǔ)料數(shù)目為18236,復(fù)旦分類體系所含語(yǔ)料數(shù)目?jī)H為11592,互聯(lián)網(wǎng)信息分類體系語(yǔ)料數(shù)大大多于復(fù)旦分類體系,即互聯(lián)網(wǎng)信息分類體系所包含的干擾信息大大多于復(fù)旦分類體系,但其第一相似類目宏平均準(zhǔn)確率、前三相似類目宏平均準(zhǔn)確率均仍高于復(fù)旦分類體系,驗(yàn)證了本文所構(gòu)建的互聯(lián)網(wǎng)信息分類體系的有效性。
針對(duì)當(dāng)前現(xiàn)有的各大網(wǎng)站自建體系科學(xué)性不高,用戶無(wú)法通過(guò)分類體系有效獲取所需信息,甚至誤導(dǎo)用戶的現(xiàn)狀,本文在對(duì)比了傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法的特點(diǎn)基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)信息分類法——實(shí)用性以及傳統(tǒng)文獻(xiàn)分類法的優(yōu)點(diǎn)——科學(xué)性,提出了適用于構(gòu)建互聯(lián)網(wǎng)信息分類體系的設(shè)計(jì)原則,并初步構(gòu)建了具有13個(gè)一級(jí)類目的互聯(lián)網(wǎng)信息分類體系。該互聯(lián)網(wǎng)信息分類體系以事物為中心進(jìn)行知識(shí)組織,在貫徹網(wǎng)絡(luò)信息分類體系實(shí)用性原則的基礎(chǔ)上,提高了分類體系的科學(xué)性與均衡性。同時(shí),實(shí)驗(yàn)結(jié)果表明,對(duì)比復(fù)旦語(yǔ)料庫(kù)的分類體系,本文所提出的互聯(lián)網(wǎng)信息分類體系具有一定的有效性,既能有效涵蓋更多的互聯(lián)網(wǎng)信息,且能夠保證更高的分類準(zhǔn)確率。具體而言,互聯(lián)網(wǎng)信息分類體系可用語(yǔ)料率達(dá)84.37%,遠(yuǎn)高于復(fù)旦語(yǔ)料庫(kù)分類體系的可用語(yǔ)料率53.63%,涵蓋多個(gè)較高實(shí)用價(jià)值的類目,符合實(shí)用性原則;同時(shí),較全地覆蓋網(wǎng)絡(luò)信息,能夠使更多的網(wǎng)絡(luò)信息找到相應(yīng)類別。其前三相似類目分類準(zhǔn)確率高于90%的類目有9個(gè),占體系總類目數(shù)的69.23%,而復(fù)旦語(yǔ)料庫(kù)分類體系中高于90%的類目占體系總類目數(shù)的比率僅為20%,互聯(lián)網(wǎng)信息分類體系各個(gè)類目特征更加明顯、相互獨(dú)立、交叉度低,符合科學(xué)性原則。同時(shí),各個(gè)類目涵蓋的語(yǔ)料數(shù)量相近,語(yǔ)料數(shù)量低于200的僅有2個(gè),而復(fù)旦語(yǔ)料庫(kù)分類體系的語(yǔ)料數(shù)量低于200的高達(dá)11個(gè),“Economy”類目語(yǔ)料數(shù)量設(shè)置多于這11個(gè)類目的語(yǔ)料總和,表明互聯(lián)網(wǎng)信息分類體系各個(gè)類目所包含的網(wǎng)絡(luò)信息量接近,符合均衡性原則。同時(shí),互聯(lián)網(wǎng)信息分類體系具有更高的分類準(zhǔn)確率,前三相似類目分類準(zhǔn)確率達(dá)96.50%,具有較好的自動(dòng)文本分類效果,其能夠有效解決當(dāng)下網(wǎng)站自建體系類目交叉明顯,類目科學(xué)性不強(qiáng)的問(wèn)題,幫助用戶更加便利快捷地查找到需求信息。
盡管本文提出了一個(gè)具有較好的文本分類效果的體系框架,但仍存在一些不足:本文所提出的互聯(lián)網(wǎng)信息分類體系,其主要停留在一級(jí)類目體系的構(gòu)建上,但實(shí)際應(yīng)用過(guò)程中,用戶需要層層遍歷體系以指導(dǎo)其進(jìn)行信息獲取。因而,下一步將會(huì)更加深入地研究各個(gè)類目的子類目,以期尋求科學(xué)的方法將各個(gè)大類層層細(xì)分。同時(shí),結(jié)合自動(dòng)文本分類技術(shù),在此分類體系的基礎(chǔ)上,實(shí)現(xiàn)測(cè)試語(yǔ)料自動(dòng)分類,力求構(gòu)建一個(gè)具有自學(xué)習(xí)能力的文本分類平臺(tái),實(shí)現(xiàn)子類目自劃分、語(yǔ)料數(shù)量自增長(zhǎng)。
參考文獻(xiàn):
[1]王興蘭,宋文.基于知識(shí)組織體系的自動(dòng)分類研究[J].圖書(shū)館論壇,2013,33(6):8-13.
[2]陳樹(shù)年.搜索引擎及網(wǎng)絡(luò)信息資源的分類組織[J].圖書(shū)情報(bào)工作,2000(4):31-37.
[3]張琪玉.網(wǎng)絡(luò)信息檢索工具的分類體系——網(wǎng)絡(luò)信息檢索工具發(fā)展的方向與提高競(jìng)爭(zhēng)力的途徑(連載三)[J].江蘇圖書(shū)館學(xué)報(bào),2002(4):7-11.
[4]蔡厚勇.論圖書(shū)館數(shù)字化過(guò)程中的信息分類體系重建[J].大學(xué)圖書(shū)情報(bào)學(xué)刊,2001(3):1-3.
[5]歐潔,俞學(xué)寧,朱禮軍,等.基于網(wǎng)易的網(wǎng)絡(luò)信息分類體系研究[J].圖書(shū)館學(xué)研究,2012(1):50-53.
[6]王忠紅.網(wǎng)絡(luò)信息環(huán)境下的傳統(tǒng)分類法[J].圖書(shū)情報(bào)工作,1999(2):37-39.
[7]鐘瑩.傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法之比較[J].學(xué)理論,2010(2):118-120.
[8]中國(guó)圖書(shū)館分類法[EB/OL].[2014-07-28].http://clc.nlc.gov.cn/ztfdsb.jsp.
[9]白國(guó)應(yīng).論文獻(xiàn)分類法的系統(tǒng)特征[J].圖書(shū)情報(bào)工作,1998(11):7-10.
[10]崔慕岳,劉延章,張中秋.《中圖法》組織網(wǎng)絡(luò)信息的可行性、不適應(yīng)性及其現(xiàn)代化改造[J].鄭州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)報(bào)),2001(6):137-140.
[11]新浪門戶導(dǎo)航頁(yè)[EB/OL].[2014-08-25].http://news.sina.com.cn/guide/.
[12]劉星.試論網(wǎng)絡(luò)信息分類中存在的問(wèn)題及對(duì)策[J].圖書(shū)館工作與研究,2008(2):43-45.
[13]魯曉明,王博文,詹劉寒.淘寶網(wǎng)商品信息組織分析[J].圖書(shū)情報(bào)工作,2013,57(增刊2):244-248.
[14]黃如花.網(wǎng)絡(luò)信息組織的發(fā)展趨勢(shì)[J].中國(guó)圖書(shū)館學(xué)報(bào),2003,29(4):15-19.
[15]王麗珺,湯亮亮.網(wǎng)絡(luò)信息分類體系構(gòu)建策略研究[J].中國(guó)科技信息,2009(23):115-116.
[16]鄭慶勝,易曉陽(yáng).從新浪等網(wǎng)站看網(wǎng)絡(luò)信息分類體系的建立——兼論綜合性中文網(wǎng)站分類體系之建立[J].圖書(shū)館建設(shè),2003(1):69-71.
[17] 史學(xué)斌.網(wǎng)絡(luò)信息分類體系[J].圖書(shū)館,2002(2):33-35.
[18]常璐.對(duì)網(wǎng)絡(luò)環(huán)境下信息分類法的思考[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2011,21(8):30-33.
[19]宛玲,趙喜英.中文網(wǎng)絡(luò)信息分類組織分析[J].圖書(shū)館理論與實(shí)踐,2001(1):46-56.
[20] 復(fù)旦大學(xué)文本分類語(yǔ)料庫(kù)[EB/OL].[2014-12-25].http://www.nlpir.org/?action-viewnews-itemid-103.
[21]搜狗文本分類語(yǔ)料庫(kù)[EB/OL].[2014-12-25].http://www.sogou.com/labs/dl/c.html.
·用戶服務(wù)與研究·
中圖分類號(hào):
G2503文獻(xiàn)標(biāo)識(shí)碼:
ADOI:
10.11968/tsygb.1003-6938.2015072作者簡(jiǎn)介:
路永和(1962-),男,中山大學(xué)資訊管理學(xué)院副教授;彭燕虹(1992-),女,中山大學(xué)資訊管理學(xué)院碩士研究生。*本文系
國(guó)家自然科學(xué)基金項(xiàng)目“面向文本分類的多學(xué)科協(xié)同建模理論與實(shí)驗(yàn)研究”(項(xiàng)目編號(hào):71373291)研究成果之一。收稿日期:
2015-06-16;責(zé)任編輯:魏志鵬The Classification System Construction for Internet Information both Practical and Scientific
Abstract
The classification system is an effective method of information organization.The traditional classification system can not adapt to the transformation of classification object and is no longer practical;at the same time,the existing network classification system is not scientific.An Internet information classification system both practical and scientific can not only effectively meet the users'information demand,but can also promote the development of automatic text classification.Taking Chinese Library Classification and Sina portal for examples respectively,this paper studies the advantages and disadvantages between traditional document classification and taxonomy of network information,come up with the design principles of the internet information classification system,namely practical, scientific and balance.Based on these three design principles,an internet information classification system was built.In order to verify the validity of the classification system,the web crawler is used to grab corpus of www.163.com and www.qq.com which are as experimental data,and Fudan Corpus classification system is used for the comparative experiment.Experimental results show that,compared to the Fudan Corpus classification system,the proposed Internet Information Classification System has a higher practicality,and can more comprehensively cover all kinds of Internet information,little intersections among categories,more approach between the information of each category,the text classification efficiency is quietly improved.Key words
internet information;classification system;chinese library classification;corpus