吳素研,吳江瑞,李文波
(1. 北京市科學(xué)技術(shù)情報研究所 北京100044;2. 河南工學(xué)院 河南省新鄉(xiāng)市100044;2. 中國科學(xué)院軟件研究所 北京100081)
電子政務(wù)是利用現(xiàn)代信息網(wǎng)絡(luò)技術(shù)和其他相關(guān)技術(shù)支持更加適合時代要求的政府結(jié)構(gòu)和運行方式的實現(xiàn)。推行電子政務(wù),是提高執(zhí)政能力、深化行政管理體制改革的重要措施,是支持各級黨委、人大、政府、政協(xié)、法院、檢察院履行職能的有效手段。目前,電子政務(wù)在政協(xié)和人大工作中起到很大的作用,基本上完成了代表或者委員的網(wǎng)上履職功能,代表或者委員可以通過互聯(lián)網(wǎng)進(jìn)行提案或者建議的提交,人大和政協(xié)工作人員能夠進(jìn)行建議或者提案的相關(guān)處理。隨著北京市電子政務(wù)工作從數(shù)字北京到智慧北京的轉(zhuǎn)變,根據(jù)多年電子政務(wù)運行積累的數(shù)據(jù)和經(jīng)驗,運用自然語言處理、文本挖掘等相關(guān)技術(shù)對建議或提案進(jìn)行智能分析,如初步確定主題詞和承辦單位、自動發(fā)現(xiàn)本屆建議和提案的熱點,以及通過分析幾屆建議和提案,找出代表或者委員關(guān)注點的變化等。通過智能分析,可以協(xié)助工作人員對建議或者提案有更深入的了解和掌握,進(jìn)一步提高辦公效率。
每年為期 6~7天的兩會期間,代表和委員集中提交建議和提案,需要工作人員每天對建議和提案進(jìn)行處理,而且要根據(jù)當(dāng)天建議和提案情況寫出統(tǒng)計分析報告,其中很重要的一項是代表或者委員今年關(guān)注的熱點,得出這個報告需要工作人員短時間內(nèi)查看完所有提案并進(jìn)行統(tǒng)計分析。人工完成這項工作壓力大,而且容易出錯。為此,考慮目前在不擴(kuò)充系統(tǒng)硬件,并且不影響目前服務(wù)運行效率的基礎(chǔ)上,設(shè)計出盡可能少占用系統(tǒng)資源的熱點抽取方法。一般情況下,建議或者提案的題目基本上能代表本建議或者提案的主要內(nèi)容,相對于上千字的文本內(nèi)容,對十幾個字的題目進(jìn)行文本挖掘占有更少的內(nèi)存開銷。因此根據(jù)系統(tǒng)現(xiàn)狀和實際業(yè)務(wù)的需求,本文提出了基于知識庫和詞頻統(tǒng)計分析的建議或提案熱點抽取方法。
詞是文獻(xiàn)中承載概念的最小學(xué)術(shù)單位。詞頻分析法常用于科技文獻(xiàn)分析領(lǐng)域,是利用能夠揭示或表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞在某一研究領(lǐng)域文獻(xiàn)中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點和發(fā)展動向的文獻(xiàn)計量方法。如加拿大蒙特利爾大學(xué)的Robert教授等以加拿大國家研究理事會確定的79個納米科技關(guān)鍵詞為依據(jù),采用詞頻分析的方法,分析了全球范圍內(nèi)納米科技論文的產(chǎn)出和分布。
科技文獻(xiàn)是學(xué)術(shù)論文,用語比較規(guī)范,學(xué)術(shù)化,而且一般都有關(guān)鍵詞或者主題詞。但是建議和提案是關(guān)系民生各個方面的內(nèi)容,涉及范圍廣,目前分析方法采用的是一個建議或者提案的題目,而不是已經(jīng)分好的關(guān)鍵詞。因此需要進(jìn)行切詞處理,之后進(jìn)行詞頻分析,包括詞出現(xiàn)的數(shù)量和關(guān)系,去除多余的詞。最后根據(jù)詞出現(xiàn)的關(guān)系,形成小的詞團(tuán),最終得出熱點。
由于提案建議包括教育、民生、法律等社會多個方面的內(nèi)容,也包括很多比較生僻的專有方向,例如口述史等。因此利用專門分詞軟件容易遺漏這些偏僻詞,而且也容易把一個概念分為幾個詞。如中小企業(yè),分為中小、企業(yè)兩個詞。雖然很多專門針對中文分詞的軟件如 IKAnalyzer,都設(shè)計有詞典庫,可以添加各個領(lǐng)域的專業(yè)詞,但是詞典維護(hù)需要時間積累,因此對初期沒有信息積累的建議和提案系統(tǒng),沒有采用專門分詞軟件,而是采用多元N-gram分詞方式。N取值區(qū)域為[2,6]。
由于建議或者提案題目中經(jīng)常包含與熱點沒有太大關(guān)系的詞,而采用N-gram分詞方式且N取值空間為[2,6]會切出很多詞,占據(jù)內(nèi)存太多,最終計算量太大,考慮到服務(wù)器性能和效率,因此將常用詞作為停用詞,先從題目中去掉,去完后將題目分成幾個段,之后對這些段進(jìn)行分詞。
如“關(guān)于進(jìn)一步完善北京市最低生活保障制度”的提案,去除“關(guān)于、進(jìn)一步、完善、北京市、制度、的提案”后,被分為“最低生活保障”進(jìn)行切詞,最終切詞為:最低/低生/生活/最低生/低生活/最低生活。
此處停用詞和一般做中文處理的停用詞點不太一樣,經(jīng)常使用的停用詞典,一般將數(shù)字和單個字母都當(dāng)成停用詞去掉,但在此處不行。首先此停用詞用法和別的分詞軟件不一樣,一般分詞軟件將停用詞作為非單獨的單詞出現(xiàn),本方法停用詞是直接從分詞句子中去掉,其次因為建議或提案的題目都是代表和委員精心設(shè)計的,不會出現(xiàn)沒有意義的數(shù)字和字母,將此去掉將會錯過新出現(xiàn)的詞,如 pm2.5等;最后,由于最終目的是熱點分析,因此在其他分詞軟件中認(rèn)為是有意義的詞在此處則沒有用,如北京、首都、提高、完善等。
鑒于此,需要建立建議和提案專門應(yīng)用的停用詞典。一般建立停用詞主要依靠 TF/IDF。詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。以防止它偏向長的文件,這個數(shù)字通常會被歸一化。由于熱點搜索只在建議或者提案題目進(jìn)行,而一個詞在題目中基本上都只出現(xiàn)一次,因此TF在此沒有實際的意義,進(jìn)行停用詞發(fā)現(xiàn)不用考察 TF。
逆向文件頻率(Inverse Document Frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到:
由 IDF定義可知,可以把它作為停用詞的一個判斷標(biāo)準(zhǔn),一般 IDF高的話很可能就是停用詞,但是IDF究竟為多少時是停用詞,還需要借助于其他的信息進(jìn)行判斷。
建議和提案因為工作需要都標(biāo)識有主題詞。主題詞是一個三級的結(jié)構(gòu),一級大約有 13個,二級有40個,三級主題詞大約有380個左右。下面所得主題詞以三級為考察對象。一般熱點問題也跨主題詞,但基本上跨的都比較小,如養(yǎng)老問題,在三級主題詞為老齡問題、社會保障、離退休、待遇、社區(qū)、津貼、救濟(jì)、失業(yè)、安置等都有涉及,但是基本上都不超過10個。而停用詞的主題詞跨度比較大,在一次會議1,480條提案的題目中有 170條提案中出現(xiàn),而且這些提案的主題詞種類為 110個。將主題詞映射為自然語言處理中的主題(即類別),則定義主題數(shù)TN(Topic Number):即一個詞 term 所出現(xiàn)的提案對應(yīng)的不同主題詞個數(shù)。將此因素作為考察一個詞是否為常用詞的一個因素。
根據(jù)對已有 11次數(shù)據(jù)、兩萬多條的考察,則將idf>1.5且 TN>10為自動發(fā)現(xiàn)常用詞,同時常用詞還可以人為添加和刪除。
在進(jìn)行去除常用詞和切詞后,可以根據(jù)詞頻進(jìn)行統(tǒng)計,這時候會對整個題目的 term 根據(jù)詞頻有個排序。排序后顯示如下(格式為詞及出現(xiàn)的次數(shù)):出租23,租車 21,出租車 21,車難 14,打車 8,打車難 8,世界城3,界城市3,世界城市 3,回龍觀 17,居民 4,出行3,地鐵29。
我們通過考察,直接計算出來的詞頻有以下幾個問題:
①可以看出N-gram分詞的弊端,如出租、租車和出租車應(yīng)該分為一個出租車,但是3-gram分完為出租車,2-gram繼續(xù)分就會出現(xiàn)出租和租車這兩個詞。后邊的車難、打車、打車難也存在這個問題。
②另外一個問題是出租車和打車難,這個問題對于政府來說都?xì)w結(jié)為出租車問題。如有的代表或委員說出租車難打,有的人直接說打車難,其實意思都是一樣的。一個問題不同的描述,導(dǎo)致按照詞頻排序統(tǒng)計熱點時,同一個熱點分幾部分統(tǒng)計,導(dǎo)致熱點分散或者本來是熱點的詞統(tǒng)計不出來。
③還有一個重要的問題是,詞以獨立的個體存在,很難看出詞與詞之間的聯(lián)系,但實際上是詞聯(lián)系起來組成題目,詞之間是有關(guān)連的,如回龍觀出現(xiàn)了17次,那么大家可能更想了解,17個回龍觀的問題都是什么問題,是零散的,還是集中的問題。
針對以上3個問題,提出了如下解決方案:
問題①對于世界城/界城市/世界城市類似的詞,因為界城市和世界城沒有特別的含義,基本上和世界城市出現(xiàn)次數(shù)是一樣的,因此可以利用它們的出現(xiàn)次數(shù)進(jìn)行考察,如果相近,則去除長度短的詞,留下長度長的詞。具體算法如下:
C是一個常量,根據(jù)經(jīng)驗取0.9;t ermi(n?k)意思是長度為n?k的詞;∈符號的意思是左邊的詞包含在右邊的詞中;T F(termi(n-k))表示詞 termi(n-k)在文檔集中出現(xiàn)的次數(shù)。
經(jīng)實際運行證明,這種算法可以很好地把類似世界城/界城市這樣的詞去掉,而且還能夠保留城市這樣的詞。因為世界城市在題目中出現(xiàn)的次數(shù)和城市比相差較大,畢竟城市也可能指北京,不只是世界城市。
問題②的解決需要建立知識庫,目前階段采用手工建立,憑借多年積累的對建議和提案的理解,人工總結(jié)其中的知識存入知識庫。目前,存入的主要是詞匯間的關(guān)系,主要有同義關(guān)系和同類關(guān)系。同義關(guān)系是指同義詞之間有完全的相等性,可以用其中的詞代替另外一個。如地鐵、城鐵和城市軌道,首都和北京,交通擁堵和交通堵塞。同類的關(guān)系是指針對建議和提案,同類詞說的是一樣的問題,但不能用其中一個詞完全代替另外一個,如出租車和打的,中小學(xué)、中小學(xué)生、初中生、高中生等。同義關(guān)系在處理中直接取詞頻最高的代替其他詞。同類關(guān)系處理中不代替,但是在結(jié)果排序中(正常按照詞頻排序)將其排在詞頻出現(xiàn)最高的詞后邊,形成詞匯聚類。
問題③比較復(fù)雜,但也是最有實際價值的問題。多個詞語羅列出來讓人們很難發(fā)現(xiàn)其中的關(guān)聯(lián),失去很多有價值的信息。解決這個問題我們借助于知識圖譜(Mapping Knowledge Domain)的理論,它在圖書情報界稱為知識域可視化或知識領(lǐng)域映射地圖,是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。該理論后來在Google搜索中應(yīng)用,大大提升了Google的搜索效果,主要針對搜索的改進(jìn)是:找到最想要的信息;提供最全面的摘要。有了Knowledge Graph,Google可以更好地理解用戶搜索信息,并總結(jié)出與搜索話題相關(guān)的內(nèi)容。例如,當(dāng)用戶搜索“瑪麗·居里”時,不僅可看到居里夫人的生平信息,還能獲得關(guān)于其教育背景和科學(xué)發(fā)現(xiàn)方面的詳細(xì)介紹,讓搜索更有深度和廣度。
知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)。其結(jié)點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關(guān)系。我們借鑒知識圖譜的理論,提出詞匯關(guān)系圖譜的概念。將節(jié)點代表詞匯、節(jié)點之間由無向線段鏈接,其上的數(shù)值表示兩個詞共同出現(xiàn)在一條建議或者提案中的次數(shù)整個圖形成無向圖。我們將以一屆數(shù)據(jù)中17條包含回龍觀提案的一部分進(jìn)行展示如下:
圖1 回龍觀提案的一部分Fig.1 Part of the Huilongguan Proposal
圖1中圓球代表節(jié)點即詞匯,記錄一個詞語和它出現(xiàn)的次數(shù);同顏色的球代表出現(xiàn)次數(shù)一樣,并按照次數(shù)高低進(jìn)行距離中心點不同距離的排列。從這張圖中,我們很容易看出17條回龍觀的提案都是圍繞什么問題的。
圖中形成閉環(huán)的部分說明閉環(huán)節(jié)點所代表的詞在一條建議或者提案中出現(xiàn)。例如,設(shè)施/閱覽室/圖書館??匆粋€詞所連的詞,說明了它的相關(guān)問題。這樣能讓單個詞匯語義聯(lián)系起來,給人更豐富的信息,更直觀呈現(xiàn)詞匯之間的聯(lián)系。
目前,因為服務(wù)器硬件條件的限制,熱點抽取信息源僅來自于建議、提案的題目,雖然題目包含了提案核心思想,但是內(nèi)容則含有更加豐富的語義和語用信息,利用內(nèi)容進(jìn)行計算機(jī)智能分析將會更加準(zhǔn)確。其次,知識庫太過簡單,僅限于同義和同類,還應(yīng)該定義更多的關(guān)系,隸屬等,應(yīng)能從知識庫中推算出概念是什么性質(zhì),如是地點還是人,能推出概念聯(lián)系起來組成的語義關(guān)系。另外,知識庫是手工建立,之后還要研究自動建立。在切詞和搜索熱點方面可以加入更高級的自然語言處理方法,使得熱點更加確切,關(guān)聯(lián)關(guān)系更加清晰?!?/p>
[1]鞏永強(qiáng),劉莉. 基于詞頻分析法的情報學(xué)研究熱點透析[J]. 圖書館學(xué)研究,2011(7):9-13.
[2]夏立新,程秀峰,桂思思. 基于電子政務(wù)平臺查詢關(guān)鍵詞共現(xiàn)多維可視化聚類分析研究[J]. 情報學(xué)報,2012,31(4):352-361.
[3]吳小莉. 基于科技文獻(xiàn)的科技熱點監(jiān)測方法研究與應(yīng)用[D]. 北京:中國科學(xué)技術(shù)信息研究所,2007.
[4]劉劍蘭,朱東華. 信息抽取技術(shù)在情報監(jiān)測中的應(yīng)用[J]. 情報學(xué)報,2004(23):103-107.
[5]邱均,平呂紅. 基于知識圖譜的國內(nèi)知識管理發(fā)展研究[J]. 情報學(xué)報,2013,32(5):548-560.