徐濤
(惠州學院計算機科學系,惠州 516007)
校園中文訊息自動摘要系統(tǒng)
徐濤
(惠州學院計算機科學系,惠州516007)
近年來,基于手機之類移動終端的信息傳遞和發(fā)布成為移動終端App市場的一類重要應用[1-4],人們開始習慣于在手機上獲取和閱讀信息。在大學或中學校園內,很多重要文件、新聞等都需要及時由校方轉發(fā)給廣大師生員工,手機等移動通訊工具由于便于隨身攜帶,因此面向移動手機端的訊息轉發(fā)顯得尤為必要,雖然現(xiàn)在已經(jīng)出現(xiàn)了諸如“校訊通”之類的校園移動通訊軟件,但需要注意的是,這些軟件并不具備自動文本摘要功能。手機之類移動設備的網(wǎng)速和屏幕大小明顯受限,一般情況下不能保留文件和新聞的全文,那些次要、重復的內容只能選擇拋棄。目前很多校園通訊軟件采用人工操作來實現(xiàn)重要文件或新聞的內容簡化,這樣做雖然可行,但明顯會造成額外負擔,假如面臨大量的重要文件或新聞需要及時進行發(fā)布時,采用手工操作將嚴重影響發(fā)布進度和時效性,因此采用自動文本摘要技術顯得尤為必要。
近年來已經(jīng)出現(xiàn)了一些自動文本摘要技術,針對網(wǎng)頁文檔結構往往組織和結構散亂、包含主題雜亂無章,網(wǎng)頁文檔摘要領域出現(xiàn)了一些較新的自動摘要技術,具有代表性的在iOS上運行的新聞閱讀類應用Summly,采用了自然語義算法,生成的摘要可將原文凝練為不足400詞。
本文設計了一個用于大學或中學校園使用的中文訊息自動文本摘要系統(tǒng),采用自動文本分析的方式對校方需要轉發(fā)的重要文件或新聞生成摘要,可以節(jié)約人力成本,并能明顯提高發(fā)布時效。
整個系統(tǒng)的平臺架構如圖1所示。重要的文件和新聞先經(jīng)過采集匯總到服務器上,服務器使用文本自動摘要技術快速將新聞文本壓縮成一段較短的精煉后文本摘要(一般控制在300字以下),摘要生成后利用互聯(lián)網(wǎng)發(fā)布到各個安裝了該應用客戶端程序的智能手機上(包括Android手機和蘋果的iOS手機),而移動手機端的應用程序App則根據(jù)接收的內容,自動生成校園訊息列表,用戶可以通過閱讀壓縮后的文本摘要,萬一感興趣,還可以點擊源鏈接去訪問原文。
文本的自動摘要技術為本系統(tǒng)中的核心關鍵技術,重要的文件或新聞都需要按照一系列的處理步驟來完成文本摘要并轉發(fā),包括中文分詞、特征詞的提取和計算權重、句子權重計算、句子相似度計算并過濾和形成最終摘要這樣的步驟進行。
圖1 校園中文訊息系統(tǒng)運營平臺
2.1中文分詞
分詞處理為提前和生成特征詞序列的必要前提工作,只有通過有效、準確的分詞方案,才能夠形成候選特征詞。眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。把中文的漢字序列切分成有意義的詞,就是中文分詞。
目前在自然語言處理技術中,中文處理技術比西文處理技術要落后很大一段距離,許多西文的處理方法中文不能直接采用,究其原因則是中文必需有分詞這道工序。中文分詞是其他中文信息處理的基礎,自動摘要,搜索引擎等只是中文分詞的一個應用。
為了可以快速有效的進行分詞處理,本系統(tǒng)采用了目前較為流行的分詞方案——ICTCLAS,該技術由中科院計算所研制,主要功能包括中文分詞、詞性標注、命名實體識別、新詞識別等。
2.2特征詞和句子的權重計算
特征詞指的是能夠反映文件或新聞文本主題的詞語,目前提出的方法大多通過計算文本分詞后的每個詞的權重,選取權重較大的詞語作為特征詞[5-8]。特征詞選取后主要用于在最后選取摘要句時句子的權重計算中用到,用于計算摘要句子能反映主題的權重值。
本系統(tǒng)在計算特征詞的權重值時只考慮名詞和動詞,原因為在文本的詞語組成結構中主要包括沒有實際意義的功能詞和有實際意義的內容詞,而內容詞在表達文章時起主要作用,主要體現(xiàn)為名詞和動詞。為了衡量詞語權重,本系統(tǒng)采用了TF-IDF算法,該算法為一種用于資訊檢索與資訊探勘的常用加權技術,可以判斷某個字詞在一個文件集或一個語料庫中的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。
本系統(tǒng)中所生成的摘要為由原文本中最能代表全文主題的句子組成,可簡稱為主題摘要句,它們通常為權重最大的前若干個句子(最能體現(xiàn)主題),根據(jù)這些句子在原文中出現(xiàn)的位置再次排列組成最終的新聞摘要。
計算句子的權重時除了要考慮它所包含的特征詞(即句子所包含的詞語對文本影響較大)權重,還要考慮句子在原文和段落中出現(xiàn)的位置,另外標題詞也會對句子權重產(chǎn)生影響。所以影響句子權重的因素包括:(1)特征詞的加權平均值;(2)句子包含特征詞的數(shù)量;(3)句子出現(xiàn)的位置權重比例因子(包含在全文中出現(xiàn)的位置權重比例因子和在單獨段落中出現(xiàn)的位置權重比例因子);(4)特殊標記比重比例因子(如句子中含有像“總的來說”、“綜上所述”、“總而言之”這類型指示性詞語的句子);(5)與標題出現(xiàn)重合的句子需要增加權重。
2.3計算句子相似度并過濾多余句子
在漢語表達的文本中,一個句子的特征基本可以認為具有以下三類:詞特征、語義特征、句法特征。在語句相似度計算時,需要綜合考慮以上的這三類特征,讓它們進行有機的加權組合和互相補充。
漢語文本的句子可分為核心部分和修飾部分,核心部分可認為是那些能夠句子的語義起至關重要的作用,通常表現(xiàn)為主謂賓結構,而修飾部分則表現(xiàn)為次要,通常表現(xiàn)為定狀補結構。由于主謂賓結構中的主語和賓語往往為名詞或代詞,謂語則多為副詞或形容詞,而因此在進行句子相似度計算時,應當對句子中出現(xiàn)的各類詞語進行詞性標注,然后保留關鍵詞,過濾掉非關鍵詞。
本文設計了一個基于自動文本摘要技術的校園訊息發(fā)布系統(tǒng),可以將校方需要轉發(fā)的重要文件或新聞采集匯總后,在服務器端進行自動文本摘要,然后轉發(fā)給安裝有客戶端App的各類型移動手機,可以滿足校園學習工作生活中的訊息發(fā)布的需要,節(jié)省了人工摘要的成本,有效提高發(fā)布的時效性。
[1]茆意宏.移動信息服務的內涵與模式[J].情報科學,2012,30(2):210-215.
[2]茆意宏.面向用戶需求的圖書館移動信息服務[J].中國圖書館學報,2012,38(1):76-86.
[3]楊超,陳璐.基于手機短信的訂餐系統(tǒng)設計與開發(fā)[J].計算機工程與設計,2008,29(2):472-476.
[4]劉慧,張軍.基于Internet的移動短信互通設計方案[J].計算機工程與應用,2007,43(31):5-8.
[5]江開忠,李子成,顧君忠.自動文本摘要方法[J].計算機工程,2008,34(1):221-223.
[6]馬漢華,邵志清,過弋.基于認知心理學模型的自動文本摘要生成技術[J].華東理工大學學報(自然科學版),2009,35(6):886-891.
[7]余永紅,柏文陽.基于特征項權重自動分解的文本聚類[J].計算機工程,2011,37(11):25-27.
[8]張虹.基于自動文本分類的關鍵詞抽取算法[J].計算機工程,2009,35(12):145-147.
Campus Message;Mobile Phone;Text Forwarding;Automatic Text Summarization
A Campus Chinese Message System Based on Automatic Summarization
XU Tao
(Department of Computer Science,Huizhou University,Huizhou 516007)
1007-1423(2015)32-0036-03
10.3969/j.issn.1007-1423.2015.32.009
徐濤(1974-),男,山東淄博人,副教授,博士,研究方向為移動互聯(lián)網(wǎng)信息技術和信息安全技術
2015-10-13
2015-11-05
隨著移動手機在校園內的普及使用,在手機上閱讀來自學校的文件、新聞成為師生們獲取學校信息的重要來源。由于學校的文件和新聞通常包含大量的文本,在手機端閱讀非常不便,若采用人工摘要明顯會增加人力成本,并且會產(chǎn)生延遲,因此有必要采用自動摘要技術對訊息進行加工精煉后轉發(fā)到移動手機端。設計一個基于自動文本摘要的校園中文訊息系統(tǒng),采用自動文本分析的方式對文件或新聞進行加工提煉后生成摘要,然后推送到校園內的移動手機,在節(jié)約人力的同時,能夠提高文件和新聞發(fā)布的時效。
校園訊息;移動手機;文本轉發(fā);自動文本摘要
2013年惠州市科技計劃項目(No.2013W20、No.2013W12)、惠州學院2014年度教研教改項目(No.JG2014011)、惠州學院應用型人才培養(yǎng)示范專業(yè)(No.SZ2012001)
With popular use of mobile phones at campus,reading files and news from the school on the phone has become an important source of teachers and students to get school information.Because the school's files and news usually contain a lot of text,reading them on the phone side is very inconvenient.Since artificial abstract would significantly increase labor costs and may cause delay,it's necessary to use automatic summarization technology for refining messages.Proposes a campus information system based Chinese automatic text summarization.The abstracts of messages are generated after automatic text analysis,and then pushed to mobile phones on campus.While saving manpower,it can improve the timeliness of the files and news release.