亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)論壇中中醫(yī)藥信息的聚類分析研究

        2012-11-21 12:29:34賈李蓉李園白劉麗紅李敬華張竹綠
        世界中醫(yī)藥 2012年6期
        關(guān)鍵詞:分詞數(shù)據(jù)挖掘預(yù)處理

        田 野 賈李蓉 李園白 劉 靜 劉麗紅 李敬華 于 彤 楊 策 張竹綠

        (中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京市東城區(qū)東直門內(nèi)南小街16號,100700)

        1 研究背景

        近年來,隨著INTERNET網(wǎng)絡(luò)在國內(nèi)的普及以及互聯(lián)網(wǎng)用戶的大量增加,以文本信息為載體的網(wǎng)絡(luò)論壇已經(jīng)成為人們獲取信息[1],發(fā)表個人看法或評論,與其他人進(jìn)行交流的重要平臺[2-3]。每天在線論壇中皆會涌現(xiàn)大量主題信息,這些信息的特點(diǎn)往往是數(shù)量巨大,難于持久,也就是說發(fā)表過的主題隔一段時間就會被后來出現(xiàn)的主題所替代,最終淹沒在諸多主題信息中。這些信息雖然數(shù)量龐大,但往往內(nèi)容雜亂,即使有一些信息是有效的,也很容易被淹沒摻雜在無效垃圾信息之中。

        從這些海量的、有噪聲的數(shù)據(jù)中提取挖掘出隱含其內(nèi)、但又有用的信息知識是我們要嘗試進(jìn)行探討的問題。數(shù)據(jù)挖掘是一門新近的熱門研究方法,它是從大型數(shù)據(jù)集中發(fā)現(xiàn)可行信息的過程,數(shù)據(jù)挖掘使用數(shù)學(xué)分析來派生存在于數(shù)據(jù)中的模式和趨勢。通常,由于這些模式的關(guān)系過于復(fù)雜或涉及數(shù)據(jù)過多,因此使用傳統(tǒng)數(shù)據(jù)瀏覽無法發(fā)現(xiàn)這些模式。它主要探討如何在海量的、有噪聲的、模糊的數(shù)據(jù)資料中,挖掘出潛在的有用信息,從而為相關(guān)決策人員提供數(shù)據(jù)參考。

        2 研究方法

        2.1 選擇數(shù)據(jù) 數(shù)據(jù)的選擇是根據(jù)需求設(shè)定數(shù)據(jù)抽取目標(biāo)。對本文而言,數(shù)據(jù)的抽取目標(biāo)就是當(dāng)前熱點(diǎn)中醫(yī)藥網(wǎng)站論壇中的詞條。隨著網(wǎng)絡(luò)的極速發(fā)展,疾病、健康、養(yǎng)生,已不僅是醫(yī)生才關(guān)心的問題,越來越多的普通大眾開始予以關(guān)注。在絕大多數(shù)醫(yī)藥網(wǎng)站中都專門辟有溝通平臺——網(wǎng)絡(luò)論壇。各種角色的人們活躍在論壇上各抒己見。我們試對這些論壇上的詞條進(jìn)行抽取來作為數(shù)據(jù)的選擇。需要注意的是,為了避免人為導(dǎo)向因素的影響,抽取時不對具體內(nèi)容進(jìn)行篩選,僅按順序?qū)υ~條進(jìn)行抽取。抽取內(nèi)容包括論題標(biāo)題及所有回貼信息。

        2.2 數(shù)據(jù)預(yù)處理 數(shù)據(jù)挖掘?qū)?shù)據(jù)的要求比較高,因此對未規(guī)范化的數(shù)據(jù)進(jìn)行預(yù)處理就十分必要。數(shù)據(jù)的預(yù)處理是一個對數(shù)據(jù)進(jìn)行格式轉(zhuǎn)化的過程,它的一般過程包括數(shù)據(jù)清理、用戶識別、會話識別、路徑補(bǔ)充、事務(wù)識別等等[4]。這其中,數(shù)據(jù)清理是整個數(shù)據(jù)預(yù)處理工作的基礎(chǔ),在數(shù)據(jù)挖掘中起著至關(guān)重要的作用。在這一階段,可根據(jù)挖掘任務(wù)的不同對抽取后的詞條進(jìn)行整理轉(zhuǎn)化,如消除噪聲、清除重復(fù)記錄,并對不完整數(shù)據(jù)進(jìn)行處理等等,使之成為一種可用形式。

        人們在論壇中所使用的往往是自然語言,自然語言因其用詞不夠規(guī)范,或者詞匯的重復(fù)使用造成了查全率和查準(zhǔn)率低下,這就對詞條內(nèi)信息全面抽取工作帶來了一定的影響,因此對選擇的數(shù)據(jù)進(jìn)行預(yù)處理就成為了一項不可或缺的工作[5]。

        2.3 數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換的主要目的是降維,也就是從初始特征中找出真正有用的特征。在此可以選擇中文分詞技術(shù)[6-7]。網(wǎng)絡(luò)論壇的特點(diǎn)決定了使用者的用詞遣句往往不是那么標(biāo)準(zhǔn)嚴(yán)謹(jǐn),而是以自然語言為主。中文分詞技術(shù)剛好屬于自然語言處理技術(shù)范疇[8]。對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機(jī)也能理解[9]?這個處理過程就需要分詞算法技術(shù)的支持。中文分詞方法的基本原理是針對輸入文字串進(jìn)行分詞、過濾處理,輸出中文單詞、英文單詞以及數(shù)字串等一系列分割好的字符串[10]。

        圖1

        2.4 數(shù)據(jù)挖掘 聚類方法最早應(yīng)用于20世紀(jì)70年代中后期,近年逐漸被廣泛應(yīng)用于各個領(lǐng)域,并為我們的研究提供了參考與借鑒[11]。針對本文研究的情況,對主題論壇中的論題標(biāo)題及相關(guān)回貼信息中的信息進(jìn)行分詞處理后,對詞語進(jìn)行兩兩統(tǒng)計,得出其在同一論題中出現(xiàn)的次數(shù),形成共詞矩陣[12]。共詞分析認(rèn)為兩個詞語在同一篇文獻(xiàn)中出現(xiàn)的頻率越高,表示主題間的關(guān)系越緊密。以共同矩陣為基礎(chǔ)進(jìn)行聚類分析,通過分析確認(rèn)與中醫(yī)藥信息相關(guān)的詞語間的聯(lián)系,進(jìn)而分析學(xué)科結(jié)構(gòu)的變化[13]。

        要想找到詞語之間真正的共現(xiàn)關(guān)系,需要對詞語之間的共現(xiàn)強(qiáng)度按照特定公式進(jìn)行計算。常用Salton指數(shù)表示詞語之間的關(guān)聯(lián)強(qiáng)度,其計算公式為:

        通過SPSS軟件對詞語進(jìn)行聚類分析,最終形成共詞聚類樹。把每一點(diǎn)作為一類,找出距離最小的dij,從而得出距離最近的兩類i、j,把它們合并成為層次最高的一類。此動作重復(fù)進(jìn)行,直到所有的點(diǎn)都并成一個大類。再根據(jù)實(shí)際需要確定以第幾層的類為最終分類標(biāo)準(zhǔn)。

        3 結(jié)語

        我所作為中醫(yī)藥信息領(lǐng)域的研究機(jī)構(gòu),可以國內(nèi)中醫(yī)藥領(lǐng)域的論壇為基礎(chǔ),通過對這些論壇數(shù)據(jù)的提取,匯聚,運(yùn)用數(shù)據(jù)挖掘的技術(shù)及時獲得中醫(yī)藥領(lǐng)域熱點(diǎn)問題,掌握中醫(yī)藥科研機(jī)構(gòu)的最新動向,以及普通民眾對于中醫(yī)藥的關(guān)注話題[14],為我所及數(shù)據(jù)庫建設(shè)今后的工作提供一些新的思路[15]。

        [1]熊莉君.虛擬社區(qū)中信息交流的引導(dǎo)機(jī)制研究[J].圖書館學(xué)研究,2011,29(09):45 -47.

        [2]汪祖柱,錢程,儲節(jié)旺.專業(yè)虛擬社會區(qū)知識服務(wù)的概念及其機(jī)制研究[J].情報理論與實(shí)踐,2011,34(5):27 -29.

        [3]謝珍,崔旭.關(guān)于專業(yè)虛擬社區(qū)中個人知識管理的研究[J].情報雜志,2010,29(2):105 -109.

        [4]周愛武,肖云,封軍.Web日志挖掘數(shù)據(jù)預(yù)處理優(yōu)化[J].計算機(jī)技術(shù)與發(fā)展,2011,21(01):42 -45.

        [5]劉紅芝.中文分詞技術(shù)的研究[J].電腦開發(fā)與應(yīng)用,2010,23(3):1-3.

        [6]龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術(shù),2009,5(10):2605 -2607.

        [7]馬婷婷.中文自動分詞系統(tǒng)概述[J].電腦知識與技術(shù),2010,6(33):9336-9338.

        [8]趙新輝,郭瑞.基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)輿情智能監(jiān)測與引導(dǎo)平臺設(shè)計研究[J].電腦知識與技術(shù),2012,8(1):1 -2,4.

        [9]韓月陽,鄧世昆,賈時銀,等.基于字分類的中文分詞的研究[J].計算機(jī)技術(shù)與發(fā)展,2011,21(7):29 -31,35.

        [10]席朝瓊.面向中文全文索引的中文分詞策略[J].電腦知識與技術(shù),2012,18(3):722 -726.

        [11]章成志,梁勇.基于主題聚類的學(xué)科研究熱點(diǎn)及其趨勢監(jiān)測方法[J].情報學(xué)報,2010,29(02):342 -349.

        [12]王玨,曾劍平,周葆華,等.基于聚類分析的網(wǎng)絡(luò)論壇意見領(lǐng)袖發(fā)現(xiàn)方法[J].計算機(jī)工程,2011,37(5):44 -46,49.

        [13]魏莎莎,熊海靈.中文分詞中的歧義識別處理策略[J].微計算機(jī)信息,2010,26(10):190 -192.

        [14]陳永剛,孫卉垚.互聯(lián)網(wǎng)輿情研究[J].情報雜志,2011,30(S1):85-88.

        [15]于慧新,阮建海.高校圖書館如何參與網(wǎng)絡(luò)輿情監(jiān)測工作[J].現(xiàn)代情報,2012,32(2):71 -72,106.

        猜你喜歡
        分詞數(shù)據(jù)挖掘預(yù)處理
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        值得重視的分詞的特殊用法
        淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        中文在线8资源库| 国内偷拍精品一区二区| 国产精品国产高清国产专区 | 亚洲av无码专区在线观看下载| 日本又黄又爽gif动态图| 精品亚洲女同一区二区| 男生自撸视频在线观看| 日韩内射美女片在线观看网站| 青青草97国产精品免费观看| 亚洲高潮喷水中文字幕| 亚洲精品综合久久国产二区| 老鸭窝视频在线观看| 国产精品久久久久久影视| chinese国产在线视频| 一区二区三区av资源网| 久久久久人妻精品一区二区三区 | 国产精品亚洲在线播放 | 91色综合久久熟女系列| 国产卡一卡二卡3卡4乱码| 老妇肥熟凸凹丰满刺激| 狠狠色欧美亚洲综合色黑a| 国产精品自产拍在线18禁| 强奷乱码中文字幕| 一级午夜视频| 国产自拍精品视频免费观看| 亚洲av丰满熟妇在线播放| 久久久精品人妻一区二区三区四| 欧美日韩中文字幕日韩欧美| 91国产自拍精品视频| 国产又粗又猛又黄又爽无遮挡| a级毛片免费观看视频| 人妻少妇无乱码中文字幕| 久久精品中文字幕女同免费| 国产成人av性色在线影院色戒| 中文字幕亚洲好看有码| 看国产亚洲美女黄色一级片| 精品久久久久久久无码人妻热| 日韩A∨精品久久久久| 成人性生交大片免费看7| 日本亲近相奷中文字幕| 无码人妻精品一区二区三区免费|