姚亮亮
摘? 要:當(dāng)今社會文獻(xiàn)的生產(chǎn)和增長的速度越來越快,社會文獻(xiàn)的類型也變得豐富復(fù)雜。社會文獻(xiàn)的時效性強(qiáng)導(dǎo)致了傳播速度加快,文獻(xiàn)的內(nèi)容也出現(xiàn)了交叉、重復(fù)等錯誤,這些問題使人們在查閱和利用上變得更加不方便。針對上述問題,設(shè)計(jì)基于關(guān)聯(lián)規(guī)則的圖書館中文文本自動分類方法。從這些圖書館產(chǎn)生的問題入手,計(jì)算圖書館中文文本,設(shè)計(jì)數(shù)據(jù)預(yù)處理按預(yù)定規(guī)則收集處理信息和提取關(guān)鍵詞檢索文本信息的方法,利用計(jì)算機(jī)解決問題,方便了圖書館的自動分類和識別。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則? 自動分類? 圖書館
隨著數(shù)字化時代的到來,人們獲取信息的方式不僅局限于紙質(zhì)書籍上或傳統(tǒng)圖書館內(nèi)進(jìn)行知識的瀏覽。面對巨大的儲存量和擴(kuò)散信息的困難,出現(xiàn)了包含種類和形式豐富的數(shù)字圖書館[1]。數(shù)字圖書館在表現(xiàn)各種新型的信息資源和信息傳播服務(wù)的同時,也出現(xiàn)了很多關(guān)于管理分類的問題。這就用到了與網(wǎng)絡(luò)通信技術(shù)相結(jié)合的、對圖書館的各項(xiàng)業(yè)務(wù)實(shí)行自動控制的圖書館自動化管理方法。圖書館自動化運(yùn)用電腦來處理圖書館的業(yè)務(wù)及相應(yīng)服務(wù),將收集到的文件中有關(guān)課題歸于一個體系組合成圖書館分類系統(tǒng)。由于各具體網(wǎng)絡(luò)所擁有的功能不盡相同,在對圖書館的中文文本進(jìn)行自動分類時顯得繁瑣且容易出錯,引出關(guān)聯(lián)規(guī)則這一方便管理的方法。關(guān)聯(lián)規(guī)則涉及到很多領(lǐng)域,關(guān)聯(lián)規(guī)則的應(yīng)用拓寬了支持管理決策的范圍。圍繞關(guān)聯(lián)規(guī)則的研究主要集中在擴(kuò)展能夠解決問題的范圍?;谶@種在大量數(shù)據(jù)中挖掘出一個事物與其他事物之間的相互依賴性和關(guān)聯(lián)性,反映有價(jià)值的數(shù)據(jù)項(xiàng)之間相關(guān)關(guān)系的技術(shù),對圖書館中文文本分別用這些方法進(jìn)行自動分類。
1? 基于關(guān)聯(lián)規(guī)則的圖書館中文文本自動分類方法設(shè)計(jì)
1.1 計(jì)算圖書館中文文本
可以將圖書館中的每一個文本看作一個項(xiàng)目,將圖書館的眾多文本看作一個集合。利用關(guān)聯(lián)規(guī)則的Apriori算法和FP-growth算法計(jì)算圖書館內(nèi)的中文文本。Apriori算法多次掃描交易數(shù)據(jù)庫,每次利用候選文本頻繁集產(chǎn)生文本頻繁集;而FP-growth則利用樹形結(jié)構(gòu),無需產(chǎn)生候選文本頻繁集,直接得到文本頻繁集,大大減少掃描文本交易數(shù)據(jù)庫的次數(shù),從而提高了算法的效率。
設(shè)I={i1,i2…,in}為所有文本的集合,設(shè)A是一個由多種文本構(gòu)成的集合,稱為文本集。事務(wù)T是一個文本子集,每一個事務(wù)具有唯一的事務(wù)標(biāo)識Tid。事務(wù)T包含文本集A,當(dāng)且僅當(dāng)AT。如果文本項(xiàng)集A中包含k個文本項(xiàng)目,則稱其為k文本項(xiàng)集。D為文本數(shù)據(jù)庫,文本集A在文本數(shù)據(jù)庫D中出現(xiàn)的次數(shù)占D中總文本的百分比叫作文本集的支持度(support)。如果文本集的支持度超過用戶給定的最小支持度閾值,就稱該文本集是文本大項(xiàng)集。
關(guān)聯(lián)規(guī)則就是形如XY的文本邏輯蘊(yùn)含關(guān)系,其中XI,YI且XY=Φ,X稱作文本隱性規(guī)則,Y是線性文本規(guī)則,對于文本關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。支持度是指規(guī)則中所出現(xiàn)模式的頻率,如果文本數(shù)據(jù)庫有s%的文本包含XY,則稱關(guān)聯(lián)規(guī)則XY在D中的支持度為s%,實(shí)際上,可以表示為概率P(XY),即support(XY)=P(XY)。信任度是指蘊(yùn)含的強(qiáng)度,即文本D中c%的包含X的交易同時包含XY。若X的支持度是support(x),規(guī)則的信任度為:support(XY)/support(X),這是一個條件概率P(Y|X),即confidence(XY)=P(Y|X)圖書館中文文本分類概率[3]。
1.2 數(shù)據(jù)處理
數(shù)據(jù)處理是在總結(jié)事物的特性基礎(chǔ)上,按預(yù)定的規(guī)則收集處理信息,為具體應(yīng)用服務(wù)的分類方法。由于計(jì)算機(jī)技術(shù)的發(fā)展,越是龐大的數(shù)據(jù)項(xiàng)目,越是能體現(xiàn)數(shù)據(jù)處理的高效性?,F(xiàn)代計(jì)算機(jī)數(shù)據(jù)處理運(yùn)算速度和效率都比其他任何工具都強(qiáng)大。計(jì)算機(jī)的可靠邏輯判斷能力能實(shí)現(xiàn)信息處理自動化[4]。計(jì)算機(jī)的存儲器可以存儲大量的數(shù)據(jù)和程序,能計(jì)算數(shù)值數(shù)據(jù)和非數(shù)值數(shù)據(jù),體現(xiàn)了計(jì)算機(jī)自動化程度高的特點(diǎn)。
1.3 提取關(guān)鍵詞
為了能向用戶提供信息服務(wù)的多功能開放系統(tǒng),找出整個文獻(xiàn)信息中組織存儲的特定信息,然后根據(jù)用戶需求進(jìn)行信息檢索。根據(jù)一定社會需要和為達(dá)到特定信息交流的目的,具有信息存貯與檢索功能的系統(tǒng)稱為信息檢索系統(tǒng)。用于檢索相關(guān)文獻(xiàn)信息線索的手工檢索階段主要指文摘、題錄、目錄、索引等以書目數(shù)據(jù)庫為核心的書目檢索。檢索系統(tǒng)存儲的是以目錄、索引、文摘等為對象的信息,它們是文獻(xiàn)信息的外部特征與內(nèi)容特征的描述集合體。信息用戶以文獻(xiàn)中的事實(shí)為對象,通過檢索獲取有關(guān)某問題的一系列相關(guān)文獻(xiàn)線索,也可稱為提取關(guān)鍵詞。明確尋找范圍并按順序方便了圖書館的自動分類和識別。如果檢索標(biāo)識與文獻(xiàn)的存儲標(biāo)識相一致,就可得到“命中文獻(xiàn)”。
1.4 實(shí)現(xiàn)圖書館中文文本分類
關(guān)聯(lián)規(guī)則的目的就是在一個數(shù)據(jù)集中找出項(xiàng)與項(xiàng)之間的關(guān)系。在對圖書館中文文本進(jìn)行分類時,利用數(shù)據(jù)處理就可以以宇宙為標(biāo)準(zhǔn)分類可分為人文類圖書和自然類圖書;以圖書基本學(xué)科屬性為標(biāo)準(zhǔn)分為A哲學(xué)、B宗教、C倫理、D邏輯、E美學(xué)、F心理、G語言、H文學(xué)、I藝術(shù)、J政治、K經(jīng)濟(jì)、L軍事、M法律、N教育、O體育、P傳媒、Q資訊、R管理、S商貿(mào)、T歷史、U考古、V民族、W生活、X財(cái)經(jīng)、Y統(tǒng)計(jì)、Z社會;以圖書品種屬性劃分為作品、理論著作、應(yīng)用著述、學(xué)術(shù)(注釋、評析、爭鳴、研究、考證、翻譯)、教學(xué)(學(xué)校教材、社會培訓(xùn)教材、自修教材、參考資料、講義、學(xué)習(xí)資料,普及讀物、實(shí)習(xí)實(shí)驗(yàn)和考試習(xí)題集、教學(xué)大綱)、幫助(詞典、百科、類書、政書、年鑒、手冊、書目、索引、文摘、表譜、圖錄、標(biāo)準(zhǔn));以圖書附屬學(xué)科標(biāo)準(zhǔn)劃分;以圖書功能屬性劃分;以圖書語言劃分為中文圖書和外文圖書;以圖書時序劃分。排架方法以主題字順法為首選,中文書刊可以漢語拼音查號法為順序。在遵從基本級別律前提下,大型圖書館、圖書城如有必要也可以自定義圖書出版、編輯形式、內(nèi)容、文別、專題、年代、書型等標(biāo)準(zhǔn)進(jìn)行排架。在該圖書館排架準(zhǔn)確、整理及時的情況下確定想要找的文獻(xiàn)內(nèi)容,敲定一個關(guān)鍵詞,可以是書名(檢索中的題名項(xiàng)),也可以是著者、出版社等信息,還可以是任意詞組。只要盡可能跟要找的內(nèi)容相關(guān),根據(jù)檢索的結(jié)果,篩選最符合要求的文獻(xiàn)并記住分類號去數(shù)據(jù)庫進(jìn)行搜索。
2? 結(jié)語
文獻(xiàn)信息通過圖書館的整合和處理、進(jìn)行科學(xué)分析后的引導(dǎo),形成有秩序規(guī)律、條理清晰的信息流,更好地交流與傳遞文本資源,根據(jù)數(shù)據(jù)管理和提取關(guān)鍵詞對圖書館中文文本自動分類,使讀者更好地利用它們。
參考文獻(xiàn)
[1] 楊亞,易遠(yuǎn)弘.圖書館海量學(xué)術(shù)資源自動分類模型研究[J].知識管理論壇,2018,3(3):172-179.
[2] 蔡代純,譚新良.文本自動分類技術(shù)及其對圖書館學(xué)的影響[J].現(xiàn)代情報(bào),2006(9):13-14.
[3] 艾楚涵,姜迪,吳建德.基于主題模型和關(guān)聯(lián)規(guī)則的專利文本數(shù)據(jù)挖掘研究[J].中北大學(xué)學(xué)報(bào):自然科學(xué)版,2019,40(6):524-530.
[4] 楊建林,劉揚(yáng).基于關(guān)聯(lián)分類算法的PU學(xué)習(xí)研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(11):12-18.