亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用

2016-10-11 09:36:57法漢英

科技視界 2016年24期

關(guān)鍵詞：文本分類

法漢英

【摘要】高等教育的快速發(fā)展使學(xué)校檔案館要管理的檔案越來越多，許多學(xué)校針對這種情況采用檔案管理軟件對檔案進(jìn)行管理，據(jù)調(diào)查在我校沒有對檔案文件進(jìn)行自動分類功能，為減輕檔案工作人員工作量便研究一種適合我校檔案的文本自動分類方法。本文大體論述文本分類算法的知識點和文本分類算法的應(yīng)用。根據(jù)山東女子學(xué)院檔案的重復(fù)性、周期性等特點，詢問檔案館工作人員采用手工對檔案進(jìn)行分類時，需要知道檔案主題名和檔案人信息確定歸屬于哪一個類別。本文將檔案按照主題名看作不同類別應(yīng)用加權(quán)分類算法對屬于不同的類別的檔案進(jìn)行自動分類處理。

【關(guān)鍵詞】文本分類；山東女子學(xué)院檔案；短文本；加權(quán)分類算法

1 研究背景和意義

對于檔案人員來說文本分類不是一個陌生的概念，過去用手工進(jìn)行檔案分類。隨著計算機(jī)快速發(fā)展出現(xiàn)了許多文本文件。對文本進(jìn)行有效的分類，利用計算機(jī)進(jìn)行文本分類研究和應(yīng)用尤為重要[2]。

分類的意思是將具有共同特定特征的事物放在一起方便檢索。最典型的分類應(yīng)用是在超市里商品排放，例如把不同品牌薯片放在一個貨架上，把餅干放在另一貨架上。這種好處是讓顧客在買東西時能比較品牌信息為購買做決定。用戶在下次購買東西的時候會直接前往該位置。

文本分類是把有相似特征的文本歸納到一起方便查詢。面對海量的檔案信息，目前的管理模式是依靠專業(yè)人員在檔案管理系統(tǒng)中進(jìn)行手工分類工作，利用文本分類算法對山東女子學(xué)院檔案系統(tǒng)進(jìn)行管理以提高檔案管理水平。

2 文本分類相關(guān)技術(shù)

2.1 文本分類的概念

文本分類是指在一定的分類體系下根據(jù)文本的內(nèi)容自動確定文本類別的過程[1]。文本分類是文本挖掘的一個分支。

2.2 文本分類和文本挖掘

文本知識又稱為文本數(shù)據(jù)挖掘。文本挖掘不同于數(shù)據(jù)挖掘，數(shù)據(jù)挖掘面對的是結(jié)構(gòu)化數(shù)據(jù)。文本挖掘面對是非結(jié)構(gòu)化的文本，因此決定它采用的方法與數(shù)據(jù)挖掘不同。文本分類屬于文本挖掘的范圍。

2.3 文本預(yù)處理

文本預(yù)處理在分類中很重要。文本預(yù)處理包括以下幾個方面：1）中文分詞[3]。中文分詞是將句子分為單詞和詞組的過程。2）詞性標(biāo)注[4]。詞性是詞語的屬性，例如名詞，形容詞等。3）停用詞過濾[5]。停用詞指的是輔助詞。如“的”這些詞出現(xiàn)在大量的句子中如不處理會影響分類效果。4）實體識別[6]。實體識別是指對人名、地理位置等實體名字的識別。

2.4 文本表示

文本表示就是將文本預(yù)處理得到的特征詞表示成計算機(jī)所能處理二進(jìn)制數(shù)。

2.5 文本特征選擇與特征抽取

對文本特征進(jìn)行篩選，選出最能代表文本類別的特征，這個過程就是特征選擇[7]。對每個特征計算其統(tǒng)計的度量值，設(shè)定一個閾值T，把度量值小于T的特征值過濾掉，剩下的是有效特征。特征抽取通過對初始特征空間進(jìn)行扭曲、拉伸或者旋轉(zhuǎn)等變換得到一個新的低維數(shù)特征空間的過程。

3 針對山東女子學(xué)院檔案的基礎(chǔ)詞庫的創(chuàng)建

根據(jù)學(xué)院檔案管理的特點結(jié)合文本分類技術(shù)的發(fā)展，提出一種用于學(xué)院檔案的基于語義的短文本加權(quán)自動分類算法。

3.1 基于山東女子學(xué)院檔案自動分類算法的基礎(chǔ)庫設(shè)計

對于一份檔案而言，其名字包括該檔案的所有內(nèi)容，檔案進(jìn)行計算機(jī)分類無需全文分析，只需對檔案的名字分析。

本算法通過對檔案名字信息中特征詞提取和分析來進(jìn)行檔案的歸類。通過對已分類的檔案名字進(jìn)行統(tǒng)計分析，將與各個類別相關(guān)度高的關(guān)鍵詞提取出來建類別詞庫并根據(jù)關(guān)鍵詞與類別之間的關(guān)聯(lián)度的強(qiáng)弱為其分配相應(yīng)的權(quán)值，可創(chuàng)建詞庫表。在檔案名字中存在大量的詞如“關(guān)于”、“通知”等與分類無關(guān)詞，為提高文本在提取特征詞的準(zhǔn)確度減少冗余詞的出現(xiàn)，需創(chuàng)建停用詞庫。通過對檔案文件責(zé)任者信息提取創(chuàng)建一個責(zé)任者詞庫。通過分析確定該檔案所屬的大類類別。

3.2 分類詞庫的創(chuàng)建

類別詞與類之間的關(guān)聯(lián)度能夠區(qū)分，需要為其類別詞與類之間的關(guān)聯(lián)度建立權(quán)重來表達(dá)這兩者的不同。當(dāng)某一類別詞與類之間的關(guān)聯(lián)度非常緊密時，需要為其賦予較高的權(quán)重系數(shù)，是該類別詞的檔案文件能夠分到指定的類別。當(dāng)一份檔案中有多個類別詞，且這些類別詞的檔案有屬于不同的類別號時，可以通過權(quán)重計算來確定該份檔案應(yīng)該分到哪個類號中。

4 基于語義的短文本的加權(quán)分類算法

在完成基礎(chǔ)詞庫的創(chuàng)建后，采用加權(quán)分類算法對檔案文件進(jìn)行分類。算法的步驟為：

1）在責(zé)任者詞庫搜索該檔案責(zé)任者信息，確定該檔案屬于的大類類別。2）用停用詞表對檔案文件名字進(jìn)行遍歷去除停用詞。3）根據(jù)1）確定的類別在類別詞庫中遍歷，提取文本類別詞及其對應(yīng)的權(quán)值。4）將獲得的類別詞及其對應(yīng)權(quán)值進(jìn)行分類加權(quán)匯總并進(jìn)行比較取得最大值即為該份檔案所屬的類別。

4.1 基于語義的短文本加權(quán)自動分類算法

經(jīng)過這些工作后，對檔案文件進(jìn)行自動分類可以分為以下步驟：1）獲得待分類檔案責(zé)任者信息，用責(zé)任者信息在責(zé)任者詞庫中檢索獲得待分類檔案的類別。2）對名字進(jìn)行停用詞操作，去除文本中的停用詞，將待分類的短文本進(jìn)一步縮短。將相同的分類號合并并計算類別詞的權(quán)值進(jìn)行比較確定最大值，最終確定待分類檔案所屬的類別。

4.2 短文本的處理

首先對短文本進(jìn)行遍歷，去掉其中的停用詞，再根據(jù)類別詞庫中的詞匯與題名中的內(nèi)容進(jìn)行比較，最后從中提取出的類別詞作為分類結(jié)果。

4.3 合并分類號并權(quán)值求和

經(jīng)過之前的工作，所有的分類主題詞所歸屬的分類號及對應(yīng)的權(quán)重全部得到，即可開始計算權(quán)重最終確定其類別。最終運(yùn)行步驟如下：1）從待分類檔案表中讀取第一條記錄。2）根據(jù)該條檔案的責(zé)任者信息，判斷其所屬的大類。3）在該大類下的二級類別詞庫中對檔案文件的名字進(jìn)行遍歷，取得類別詞及相應(yīng)的權(quán)值。4）合并相同類號，對權(quán)值求和。5）判斷是否存在唯一最大值，若存在則可直接確定類別；若不存在則轉(zhuǎn)入人工處理。6）讀取下一條，循環(huán)直至完成。最終便完成了對山東女子學(xué)院檔案的分類。

4.4 檔案分類應(yīng)用分析

通過對山東女子學(xué)院檔案的自動分類，可以大大減輕了檔案管理工作人員的工作量，對文件進(jìn)行分門別類的整理，做到井井有條，層次鮮明。通過文本自動分類對各類文本信息進(jìn)行有效的組織分類，可以高效的為用戶提供信息檢索和信息存儲形成了學(xué)校對檔案的獨特管理。

5 總結(jié)

跟其他類的文本分類方法相比較，本文所設(shè)計的基于山東女子學(xué)院檔案的文本自動分類算法的復(fù)雜度大大降低了，取消了文本訓(xùn)練的復(fù)雜過程，直接將學(xué)校檔案的各類關(guān)鍵詞和停用詞依靠人工經(jīng)驗學(xué)習(xí)進(jìn)行了手工構(gòu)建，然而詞庫的構(gòu)建很復(fù)雜，需要根據(jù)分類情況的反饋不斷的調(diào)整補(bǔ)充。由于學(xué)校所管理的檔案內(nèi)容的特殊性，為了提高分類的效率，本文中所采用的這種簡單實用的算法經(jīng)過分析可以減少檔案工作人員的工作量，達(dá)到了預(yù)期目的。

【參考文獻(xiàn)】

[1]程傳鵬.中文網(wǎng)頁分類的研究與實現(xiàn)[J].中原工學(xué)院學(xué)報，2007（1）.

[2]中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心.第三十一次互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告[R].2013-01.

[3]龍樹全，趙文正，唐華.中文分詞算法概述[J].電腦科學(xué)與技術(shù)，2009，10：2605-2607.

[4]陳曉文.自動詞性標(biāo)注方法的比較[J].溫州大學(xué)學(xué)報，2009，01：53-57.

[5]化柏林.知識抽取中的停用詞處理技術(shù)[J].現(xiàn)在圖書館情報技術(shù)，2010.08：48-51.

[6]孫鎮(zhèn)，王惠臨.命名實體識別研究進(jìn)展綜述[J].現(xiàn)在圖書館情報技術(shù)，2012，06：42-47.

[7]張東禮，汪東升，鄭偉民.基于VSM的中文文本分類系統(tǒng)的設(shè)計與實現(xiàn)[M].清華大學(xué)出版社，2003.

[責(zé)任編輯：李書培]