亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)論壇中中醫(yī)藥信息的聚類分析研究

        2012-11-21 12:29:34賈李蓉李園白劉麗紅李敬華張竹綠
        世界中醫(yī)藥 2012年6期
        關(guān)鍵詞:數(shù)據(jù)挖掘中醫(yī)藥信息

        田 野 賈李蓉 李園白 劉 靜 劉麗紅 李敬華 于 彤 楊 策 張竹綠

        (中國中醫(yī)科學院中醫(yī)藥信息研究所,北京市東城區(qū)東直門內(nèi)南小街16號,100700)

        1 研究背景

        近年來,隨著INTERNET網(wǎng)絡(luò)在國內(nèi)的普及以及互聯(lián)網(wǎng)用戶的大量增加,以文本信息為載體的網(wǎng)絡(luò)論壇已經(jīng)成為人們獲取信息[1],發(fā)表個人看法或評論,與其他人進行交流的重要平臺[2-3]。每天在線論壇中皆會涌現(xiàn)大量主題信息,這些信息的特點往往是數(shù)量巨大,難于持久,也就是說發(fā)表過的主題隔一段時間就會被后來出現(xiàn)的主題所替代,最終淹沒在諸多主題信息中。這些信息雖然數(shù)量龐大,但往往內(nèi)容雜亂,即使有一些信息是有效的,也很容易被淹沒摻雜在無效垃圾信息之中。

        從這些海量的、有噪聲的數(shù)據(jù)中提取挖掘出隱含其內(nèi)、但又有用的信息知識是我們要嘗試進行探討的問題。數(shù)據(jù)挖掘是一門新近的熱門研究方法,它是從大型數(shù)據(jù)集中發(fā)現(xiàn)可行信息的過程,數(shù)據(jù)挖掘使用數(shù)學分析來派生存在于數(shù)據(jù)中的模式和趨勢。通常,由于這些模式的關(guān)系過于復雜或涉及數(shù)據(jù)過多,因此使用傳統(tǒng)數(shù)據(jù)瀏覽無法發(fā)現(xiàn)這些模式。它主要探討如何在海量的、有噪聲的、模糊的數(shù)據(jù)資料中,挖掘出潛在的有用信息,從而為相關(guān)決策人員提供數(shù)據(jù)參考。

        2 研究方法

        2.1 選擇數(shù)據(jù) 數(shù)據(jù)的選擇是根據(jù)需求設(shè)定數(shù)據(jù)抽取目標。對本文而言,數(shù)據(jù)的抽取目標就是當前熱點中醫(yī)藥網(wǎng)站論壇中的詞條。隨著網(wǎng)絡(luò)的極速發(fā)展,疾病、健康、養(yǎng)生,已不僅是醫(yī)生才關(guān)心的問題,越來越多的普通大眾開始予以關(guān)注。在絕大多數(shù)醫(yī)藥網(wǎng)站中都專門辟有溝通平臺——網(wǎng)絡(luò)論壇。各種角色的人們活躍在論壇上各抒己見。我們試對這些論壇上的詞條進行抽取來作為數(shù)據(jù)的選擇。需要注意的是,為了避免人為導向因素的影響,抽取時不對具體內(nèi)容進行篩選,僅按順序?qū)υ~條進行抽取。抽取內(nèi)容包括論題標題及所有回貼信息。

        2.2 數(shù)據(jù)預處理 數(shù)據(jù)挖掘?qū)?shù)據(jù)的要求比較高,因此對未規(guī)范化的數(shù)據(jù)進行預處理就十分必要。數(shù)據(jù)的預處理是一個對數(shù)據(jù)進行格式轉(zhuǎn)化的過程,它的一般過程包括數(shù)據(jù)清理、用戶識別、會話識別、路徑補充、事務(wù)識別等等[4]。這其中,數(shù)據(jù)清理是整個數(shù)據(jù)預處理工作的基礎(chǔ),在數(shù)據(jù)挖掘中起著至關(guān)重要的作用。在這一階段,可根據(jù)挖掘任務(wù)的不同對抽取后的詞條進行整理轉(zhuǎn)化,如消除噪聲、清除重復記錄,并對不完整數(shù)據(jù)進行處理等等,使之成為一種可用形式。

        人們在論壇中所使用的往往是自然語言,自然語言因其用詞不夠規(guī)范,或者詞匯的重復使用造成了查全率和查準率低下,這就對詞條內(nèi)信息全面抽取工作帶來了一定的影響,因此對選擇的數(shù)據(jù)進行預處理就成為了一項不可或缺的工作[5]。

        2.3 數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換的主要目的是降維,也就是從初始特征中找出真正有用的特征。在此可以選擇中文分詞技術(shù)[6-7]。網(wǎng)絡(luò)論壇的特點決定了使用者的用詞遣句往往不是那么標準嚴謹,而是以自然語言為主。中文分詞技術(shù)剛好屬于自然語言處理技術(shù)范疇[8]。對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解[9]?這個處理過程就需要分詞算法技術(shù)的支持。中文分詞方法的基本原理是針對輸入文字串進行分詞、過濾處理,輸出中文單詞、英文單詞以及數(shù)字串等一系列分割好的字符串[10]。

        圖1

        2.4 數(shù)據(jù)挖掘 聚類方法最早應(yīng)用于20世紀70年代中后期,近年逐漸被廣泛應(yīng)用于各個領(lǐng)域,并為我們的研究提供了參考與借鑒[11]。針對本文研究的情況,對主題論壇中的論題標題及相關(guān)回貼信息中的信息進行分詞處理后,對詞語進行兩兩統(tǒng)計,得出其在同一論題中出現(xiàn)的次數(shù),形成共詞矩陣[12]。共詞分析認為兩個詞語在同一篇文獻中出現(xiàn)的頻率越高,表示主題間的關(guān)系越緊密。以共同矩陣為基礎(chǔ)進行聚類分析,通過分析確認與中醫(yī)藥信息相關(guān)的詞語間的聯(lián)系,進而分析學科結(jié)構(gòu)的變化[13]。

        要想找到詞語之間真正的共現(xiàn)關(guān)系,需要對詞語之間的共現(xiàn)強度按照特定公式進行計算。常用Salton指數(shù)表示詞語之間的關(guān)聯(lián)強度,其計算公式為:

        通過SPSS軟件對詞語進行聚類分析,最終形成共詞聚類樹。把每一點作為一類,找出距離最小的dij,從而得出距離最近的兩類i、j,把它們合并成為層次最高的一類。此動作重復進行,直到所有的點都并成一個大類。再根據(jù)實際需要確定以第幾層的類為最終分類標準。

        3 結(jié)語

        我所作為中醫(yī)藥信息領(lǐng)域的研究機構(gòu),可以國內(nèi)中醫(yī)藥領(lǐng)域的論壇為基礎(chǔ),通過對這些論壇數(shù)據(jù)的提取,匯聚,運用數(shù)據(jù)挖掘的技術(shù)及時獲得中醫(yī)藥領(lǐng)域熱點問題,掌握中醫(yī)藥科研機構(gòu)的最新動向,以及普通民眾對于中醫(yī)藥的關(guān)注話題[14],為我所及數(shù)據(jù)庫建設(shè)今后的工作提供一些新的思路[15]。

        [1]熊莉君.虛擬社區(qū)中信息交流的引導機制研究[J].圖書館學研究,2011,29(09):45 -47.

        [2]汪祖柱,錢程,儲節(jié)旺.專業(yè)虛擬社會區(qū)知識服務(wù)的概念及其機制研究[J].情報理論與實踐,2011,34(5):27 -29.

        [3]謝珍,崔旭.關(guān)于專業(yè)虛擬社區(qū)中個人知識管理的研究[J].情報雜志,2010,29(2):105 -109.

        [4]周愛武,肖云,封軍.Web日志挖掘數(shù)據(jù)預處理優(yōu)化[J].計算機技術(shù)與發(fā)展,2011,21(01):42 -45.

        [5]劉紅芝.中文分詞技術(shù)的研究[J].電腦開發(fā)與應(yīng)用,2010,23(3):1-3.

        [6]龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術(shù),2009,5(10):2605 -2607.

        [7]馬婷婷.中文自動分詞系統(tǒng)概述[J].電腦知識與技術(shù),2010,6(33):9336-9338.

        [8]趙新輝,郭瑞.基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)輿情智能監(jiān)測與引導平臺設(shè)計研究[J].電腦知識與技術(shù),2012,8(1):1 -2,4.

        [9]韓月陽,鄧世昆,賈時銀,等.基于字分類的中文分詞的研究[J].計算機技術(shù)與發(fā)展,2011,21(7):29 -31,35.

        [10]席朝瓊.面向中文全文索引的中文分詞策略[J].電腦知識與技術(shù),2012,18(3):722 -726.

        [11]章成志,梁勇.基于主題聚類的學科研究熱點及其趨勢監(jiān)測方法[J].情報學報,2010,29(02):342 -349.

        [12]王玨,曾劍平,周葆華,等.基于聚類分析的網(wǎng)絡(luò)論壇意見領(lǐng)袖發(fā)現(xiàn)方法[J].計算機工程,2011,37(5):44 -46,49.

        [13]魏莎莎,熊海靈.中文分詞中的歧義識別處理策略[J].微計算機信息,2010,26(10):190 -192.

        [14]陳永剛,孫卉垚.互聯(lián)網(wǎng)輿情研究[J].情報雜志,2011,30(S1):85-88.

        [15]于慧新,阮建海.高校圖書館如何參與網(wǎng)絡(luò)輿情監(jiān)測工作[J].現(xiàn)代情報,2012,32(2):71 -72,106.

        猜你喜歡
        數(shù)據(jù)挖掘中醫(yī)藥信息
        中醫(yī)藥在惡性腫瘤防治中的應(yīng)用
        中醫(yī)藥在治療惡性腫瘤骨轉(zhuǎn)移中的應(yīng)用
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        從《中醫(yī)藥法》看直銷
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        中醫(yī)藥立法:不是“管”而是“促”
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        天天爽天天爽夜夜爽毛片| 青青草免费在线手机视频| 色婷婷久久综合中文久久一本| 国内嫩模自拍诱惑免费视频| 国产精品无码无在线观看| 99久久久无码国产aaa精品| 久久精品成人亚洲另类欧美| 亚洲精品一区二区三区四区| 少妇性l交大片7724com | 国产全肉乱妇杂乱视频| 欧洲亚洲视频免费| 亚洲一区二区三区1区2区| 香蕉视频在线观看亚洲| 老熟女重囗味hdxx70星空 | 国产真实夫妇交换视频| 久久精品视频91| 国产精品第一区亚洲精品| 亚洲av无码成h在线观看| 中文字幕亚洲欧美日韩2019| 免费一区二区三区视频狠狠| 中文字幕亚洲高清精品一区在线| 亚洲小说区图片区色综合网| 无码任你躁久久久久久| 人妖另类综合视频网站| 亚洲无人区乱码中文字幕动画| 国内精品久久久久久99| 熟妇人妻中文av无码| 国产精品女同久久久久久| 亚洲一区二区三区高清在线观看| 亚洲国产日韩精品一区二区三区| 日韩A∨精品久久久久| 午夜av福利亚洲写真集| 欧美熟妇另类久久久久久多毛| 又湿又黄裸乳漫画无遮挡网站| 国色天香精品亚洲精品| 成av人大片免费看的网站 | 国产高清av首播原创麻豆| 亚洲 都市 校园 激情 另类| 精品日产一区2区三区| 成人av蜜桃在线观看| 国产激情久久久久影院老熟女|