田 野 賈李蓉 李園白 劉 靜 劉麗紅 李敬華 于 彤 楊 策 張竹綠
(中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京市東城區(qū)東直門內(nèi)南小街16號,100700)
近年來,隨著INTERNET網(wǎng)絡(luò)在國內(nèi)的普及以及互聯(lián)網(wǎng)用戶的大量增加,以文本信息為載體的網(wǎng)絡(luò)論壇已經(jīng)成為人們獲取信息[1],發(fā)表個人看法或評論,與其他人進(jìn)行交流的重要平臺[2-3]。每天在線論壇中皆會涌現(xiàn)大量主題信息,這些信息的特點(diǎn)往往是數(shù)量巨大,難于持久,也就是說發(fā)表過的主題隔一段時間就會被后來出現(xiàn)的主題所替代,最終淹沒在諸多主題信息中。這些信息雖然數(shù)量龐大,但往往內(nèi)容雜亂,即使有一些信息是有效的,也很容易被淹沒摻雜在無效垃圾信息之中。
從這些海量的、有噪聲的數(shù)據(jù)中提取挖掘出隱含其內(nèi)、但又有用的信息知識是我們要嘗試進(jìn)行探討的問題。數(shù)據(jù)挖掘是一門新近的熱門研究方法,它是從大型數(shù)據(jù)集中發(fā)現(xiàn)可行信息的過程,數(shù)據(jù)挖掘使用數(shù)學(xué)分析來派生存在于數(shù)據(jù)中的模式和趨勢。通常,由于這些模式的關(guān)系過于復(fù)雜或涉及數(shù)據(jù)過多,因此使用傳統(tǒng)數(shù)據(jù)瀏覽無法發(fā)現(xiàn)這些模式。它主要探討如何在海量的、有噪聲的、模糊的數(shù)據(jù)資料中,挖掘出潛在的有用信息,從而為相關(guān)決策人員提供數(shù)據(jù)參考。
2.1 選擇數(shù)據(jù) 數(shù)據(jù)的選擇是根據(jù)需求設(shè)定數(shù)據(jù)抽取目標(biāo)。對本文而言,數(shù)據(jù)的抽取目標(biāo)就是當(dāng)前熱點(diǎn)中醫(yī)藥網(wǎng)站論壇中的詞條。隨著網(wǎng)絡(luò)的極速發(fā)展,疾病、健康、養(yǎng)生,已不僅是醫(yī)生才關(guān)心的問題,越來越多的普通大眾開始予以關(guān)注。在絕大多數(shù)醫(yī)藥網(wǎng)站中都專門辟有溝通平臺——網(wǎng)絡(luò)論壇。各種角色的人們活躍在論壇上各抒己見。我們試對這些論壇上的詞條進(jìn)行抽取來作為數(shù)據(jù)的選擇。需要注意的是,為了避免人為導(dǎo)向因素的影響,抽取時不對具體內(nèi)容進(jìn)行篩選,僅按順序?qū)υ~條進(jìn)行抽取。抽取內(nèi)容包括論題標(biāo)題及所有回貼信息。
2.2 數(shù)據(jù)預(yù)處理 數(shù)據(jù)挖掘?qū)?shù)據(jù)的要求比較高,因此對未規(guī)范化的數(shù)據(jù)進(jìn)行預(yù)處理就十分必要。數(shù)據(jù)的預(yù)處理是一個對數(shù)據(jù)進(jìn)行格式轉(zhuǎn)化的過程,它的一般過程包括數(shù)據(jù)清理、用戶識別、會話識別、路徑補(bǔ)充、事務(wù)識別等等[4]。這其中,數(shù)據(jù)清理是整個數(shù)據(jù)預(yù)處理工作的基礎(chǔ),在數(shù)據(jù)挖掘中起著至關(guān)重要的作用。在這一階段,可根據(jù)挖掘任務(wù)的不同對抽取后的詞條進(jìn)行整理轉(zhuǎn)化,如消除噪聲、清除重復(fù)記錄,并對不完整數(shù)據(jù)進(jìn)行處理等等,使之成為一種可用形式。
人們在論壇中所使用的往往是自然語言,自然語言因其用詞不夠規(guī)范,或者詞匯的重復(fù)使用造成了查全率和查準(zhǔn)率低下,這就對詞條內(nèi)信息全面抽取工作帶來了一定的影響,因此對選擇的數(shù)據(jù)進(jìn)行預(yù)處理就成為了一項不可或缺的工作[5]。
2.3 數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換的主要目的是降維,也就是從初始特征中找出真正有用的特征。在此可以選擇中文分詞技術(shù)[6-7]。網(wǎng)絡(luò)論壇的特點(diǎn)決定了使用者的用詞遣句往往不是那么標(biāo)準(zhǔn)嚴(yán)謹(jǐn),而是以自然語言為主。中文分詞技術(shù)剛好屬于自然語言處理技術(shù)范疇[8]。對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機(jī)也能理解[9]?這個處理過程就需要分詞算法技術(shù)的支持。中文分詞方法的基本原理是針對輸入文字串進(jìn)行分詞、過濾處理,輸出中文單詞、英文單詞以及數(shù)字串等一系列分割好的字符串[10]。
圖1
2.4 數(shù)據(jù)挖掘 聚類方法最早應(yīng)用于20世紀(jì)70年代中后期,近年逐漸被廣泛應(yīng)用于各個領(lǐng)域,并為我們的研究提供了參考與借鑒[11]。針對本文研究的情況,對主題論壇中的論題標(biāo)題及相關(guān)回貼信息中的信息進(jìn)行分詞處理后,對詞語進(jìn)行兩兩統(tǒng)計,得出其在同一論題中出現(xiàn)的次數(shù),形成共詞矩陣[12]。共詞分析認(rèn)為兩個詞語在同一篇文獻(xiàn)中出現(xiàn)的頻率越高,表示主題間的關(guān)系越緊密。以共同矩陣為基礎(chǔ)進(jìn)行聚類分析,通過分析確認(rèn)與中醫(yī)藥信息相關(guān)的詞語間的聯(lián)系,進(jìn)而分析學(xué)科結(jié)構(gòu)的變化[13]。
要想找到詞語之間真正的共現(xiàn)關(guān)系,需要對詞語之間的共現(xiàn)強(qiáng)度按照特定公式進(jìn)行計算。常用Salton指數(shù)表示詞語之間的關(guān)聯(lián)強(qiáng)度,其計算公式為:
通過SPSS軟件對詞語進(jìn)行聚類分析,最終形成共詞聚類樹。把每一點(diǎn)作為一類,找出距離最小的dij,從而得出距離最近的兩類i、j,把它們合并成為層次最高的一類。此動作重復(fù)進(jìn)行,直到所有的點(diǎn)都并成一個大類。再根據(jù)實(shí)際需要確定以第幾層的類為最終分類標(biāo)準(zhǔn)。
我所作為中醫(yī)藥信息領(lǐng)域的研究機(jī)構(gòu),可以國內(nèi)中醫(yī)藥領(lǐng)域的論壇為基礎(chǔ),通過對這些論壇數(shù)據(jù)的提取,匯聚,運(yùn)用數(shù)據(jù)挖掘的技術(shù)及時獲得中醫(yī)藥領(lǐng)域熱點(diǎn)問題,掌握中醫(yī)藥科研機(jī)構(gòu)的最新動向,以及普通民眾對于中醫(yī)藥的關(guān)注話題[14],為我所及數(shù)據(jù)庫建設(shè)今后的工作提供一些新的思路[15]。
[1]熊莉君.虛擬社區(qū)中信息交流的引導(dǎo)機(jī)制研究[J].圖書館學(xué)研究,2011,29(09):45 -47.
[2]汪祖柱,錢程,儲節(jié)旺.專業(yè)虛擬社會區(qū)知識服務(wù)的概念及其機(jī)制研究[J].情報理論與實(shí)踐,2011,34(5):27 -29.
[3]謝珍,崔旭.關(guān)于專業(yè)虛擬社區(qū)中個人知識管理的研究[J].情報雜志,2010,29(2):105 -109.
[4]周愛武,肖云,封軍.Web日志挖掘數(shù)據(jù)預(yù)處理優(yōu)化[J].計算機(jī)技術(shù)與發(fā)展,2011,21(01):42 -45.
[5]劉紅芝.中文分詞技術(shù)的研究[J].電腦開發(fā)與應(yīng)用,2010,23(3):1-3.
[6]龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術(shù),2009,5(10):2605 -2607.
[7]馬婷婷.中文自動分詞系統(tǒng)概述[J].電腦知識與技術(shù),2010,6(33):9336-9338.
[8]趙新輝,郭瑞.基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)輿情智能監(jiān)測與引導(dǎo)平臺設(shè)計研究[J].電腦知識與技術(shù),2012,8(1):1 -2,4.
[9]韓月陽,鄧世昆,賈時銀,等.基于字分類的中文分詞的研究[J].計算機(jī)技術(shù)與發(fā)展,2011,21(7):29 -31,35.
[10]席朝瓊.面向中文全文索引的中文分詞策略[J].電腦知識與技術(shù),2012,18(3):722 -726.
[11]章成志,梁勇.基于主題聚類的學(xué)科研究熱點(diǎn)及其趨勢監(jiān)測方法[J].情報學(xué)報,2010,29(02):342 -349.
[12]王玨,曾劍平,周葆華,等.基于聚類分析的網(wǎng)絡(luò)論壇意見領(lǐng)袖發(fā)現(xiàn)方法[J].計算機(jī)工程,2011,37(5):44 -46,49.
[13]魏莎莎,熊海靈.中文分詞中的歧義識別處理策略[J].微計算機(jī)信息,2010,26(10):190 -192.
[14]陳永剛,孫卉垚.互聯(lián)網(wǎng)輿情研究[J].情報雜志,2011,30(S1):85-88.
[15]于慧新,阮建海.高校圖書館如何參與網(wǎng)絡(luò)輿情監(jiān)測工作[J].現(xiàn)代情報,2012,32(2):71 -72,106.