亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web醫(yī)療數(shù)據(jù)的互聯(lián)網(wǎng)醫(yī)療用戶研究

        2017-04-26 12:30:19馮洪海孫遠燦李利敏宋舒晗黃俊輝
        計算機時代 2017年4期
        關(guān)鍵詞:互聯(lián)網(wǎng)醫(yī)療

        馮洪海+孫遠燦+李利敏+宋舒晗+黃俊輝

        摘 要: 互聯(lián)網(wǎng)醫(yī)療的蓬勃發(fā)展帶來了大量的數(shù)據(jù)積累,如何有效的利用這些數(shù)據(jù)是當前面臨的問題。通過開發(fā)爬蟲軟件,獲取了截至2017年2月尋醫(yī)問藥網(wǎng)中內(nèi)科和外科的131894條咨詢數(shù)據(jù)。針對這些數(shù)據(jù),用統(tǒng)計學方法調(diào)查用戶的性別和年齡分布,通過程序識別咨詢數(shù)據(jù)中的癥狀和疾病,統(tǒng)計了現(xiàn)階段互聯(lián)網(wǎng)醫(yī)療用戶癥狀和疾病的分布。

        關(guān)鍵詞: 互聯(lián)網(wǎng)醫(yī)療; 網(wǎng)頁爬蟲; 癥狀分布; 疾病分布

        中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2017)04-41-03

        Abstract: The rapid development of the Internet medical has brought a lot of data, and how to make effective use of these data is the problem currently faced. In this paper, a crawler is developed to have acquired 131,894 internal and surgical medicine enquiry data by February 2017, from medicine websites. According to these data, the distribution of users' gender and age are investigated by the statistical methods, and the distribution of the symptoms and diseases of the Internet medical users at this stage are counted by the identification.

        Key words: Internet medical; Web crawler; symptom distribution; disease distribution

        0 引言

        醫(yī)療一直是人們關(guān)注的熱點話題,與人們的生活緊密相關(guān),隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的人選擇在網(wǎng)上咨詢醫(yī)生關(guān)于健康的問題。中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布的《第37次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,2015年,中國互聯(lián)網(wǎng)醫(yī)療用戶數(shù)量為1.52億。網(wǎng)絡醫(yī)療咨詢提供了一個新的方式,讓用戶可以不用實地見到醫(yī)生,就可以咨詢病情[1],能夠幫助用戶方便快捷的了解自身的健康信息?;ヂ?lián)網(wǎng)醫(yī)療行業(yè)積累了大量的用戶疾病數(shù)據(jù),如何有效的利用這些數(shù)據(jù)是現(xiàn)階段面臨的主要問題。目前已有一些學者從不同角度對在線醫(yī)療咨詢數(shù)據(jù)的信息挖掘進行了研究。Silver MP[2]研究了患者在線健康信息搜索的相關(guān)問題。石思優(yōu)[3]應用Med-LDA 模型研究醫(yī)療數(shù)據(jù)中病癥和用藥的獨立關(guān)系和相互聯(lián)系。Ullah Z[4]等人認為使用數(shù)據(jù)挖掘算法可以提高預測、診斷和疾病分類的質(zhì)量,研究了數(shù)據(jù)挖掘技術(shù)的成本、性能、速度和準確性。魏強[5]通過研究醫(yī)療數(shù)據(jù)存儲與分析系統(tǒng),對疾病間關(guān)聯(lián)關(guān)系進行分析。Walczak等人[6]研究了病人的醫(yī)療檢查信息在提高計算機診斷準確性方面的應用。陳遷[7]研究了醫(yī)療數(shù)據(jù)在分析糖尿病住院患者基本信息、治療醫(yī)囑、生化指標、費用明細等方面的應用。閆茜[8]提出了一種用于數(shù)據(jù)處理的基于統(tǒng)計樹和增量計算的海量醫(yī)療數(shù)據(jù)快速統(tǒng)計查詢方法。許杰[9]提出了一種基于數(shù)據(jù)不一致率的新型數(shù)據(jù)分類方法。李萍[10]研究了醫(yī)療數(shù)據(jù)質(zhì)量的特點,如統(tǒng)一性、可靠性、“多粒度”級別、高可用性、高適用性。蔣良孝[11]對醫(yī)療數(shù)據(jù)挖掘的主要特點、基本過程、關(guān)鍵技術(shù)、計算智能方法以及發(fā)展方向進行了探討。

        本文通過開發(fā)爬蟲軟件獲取截至2017年2月尋醫(yī)問藥網(wǎng)中內(nèi)科和外科的131894條醫(yī)療咨詢數(shù)據(jù)。針對這些數(shù)據(jù),用統(tǒng)計學的方法調(diào)查用戶的年齡分布、性別分布。通過識別醫(yī)療數(shù)據(jù)中的癥狀和疾病,對不同年齡段、不同性別的用戶的癥狀和患病情況進行調(diào)查,得出了現(xiàn)階段我國互聯(lián)網(wǎng)醫(yī)療用戶的特征和分布。

        1 獲取數(shù)據(jù)

        通過分析網(wǎng)站的結(jié)構(gòu),本文采用多級網(wǎng)頁爬蟲的方式獲取數(shù)據(jù),首先獲得一級科室的鏈接,然后獲取每個一級科室下屬的二級科室鏈接。每個一級和二級科室的頁面中都有用戶的問題咨詢列表,本文獲取了內(nèi)科和外科中的所有問題集合,并對集合進行去重操作,最后共得到網(wǎng)頁鏈接131894個。針對每一個網(wǎng)頁,我們獲取的用戶信息包括性別、年齡、咨詢的內(nèi)容和醫(yī)生的回復內(nèi)容。

        在具體的爬蟲代碼中,為了防止頻繁訪問網(wǎng)站導致的爬蟲被網(wǎng)站限制,本文采用用戶代理(User Agent)和程序隨機休眠相結(jié)合的方法。User Agent是一個特殊字符串頭,使得服務器能夠識別客戶使用的操作系統(tǒng)及版本、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等,如("User-Agent","Mozilla/4.0(compatible; MSIE 5.0; Windows NT; DigExt)"。

        程序的最大獲取連接時間。為了保證程序不在某一個頁面花費過多的時間甚至導致程序長期處于連接獲取的等待階段,本文對程序的最大連接獲取時間進行限制,如果程序在m毫秒內(nèi)不能獲取到網(wǎng)頁的連接,程序?qū)⑻^此網(wǎng)頁,經(jīng)過反復實驗,我們設(shè)置m為6000,即允許每個網(wǎng)頁的等待時間為6秒,以此來應對網(wǎng)頁不可獲取和網(wǎng)絡不穩(wěn)定帶來的問題。

        程序隨機休眠。如果獲取的網(wǎng)頁內(nèi)容為空,那么程序?qū)⑿菝?,,休眠時間在0-n毫秒之間隨機生成。如果休眠后仍然不能獲取到數(shù)據(jù),那么將跳過此頁面,以此來保證爬蟲的效率,在經(jīng)過多次實驗后,本文設(shè)置n為200。

        采用SQLite數(shù)據(jù)庫存儲數(shù)據(jù),其中用戶咨詢的內(nèi)容可以表示為:用戶的提問即提問標題和咨詢內(nèi)容的描述。數(shù)據(jù)的類型如表1所示。

        2 癥狀和疾病識別

        2.1 癥狀識別

        通過網(wǎng)頁爬蟲,從39健康網(wǎng)和尋醫(yī)問藥網(wǎng)收集癥狀總數(shù)7632種,為了準確匹配用戶的口語化表達詞語,比如用戶使用“肚子痛”、“肚子疼”等詞來描述癥狀,本文構(gòu)建了用戶的口語表達詞語與規(guī)范詞匯對應列表,如“肚子痛”和“肚子疼”對應為“腹痛”。通過這樣的方式統(tǒng)一用戶的口語化表達。通過人工瀏覽咨詢數(shù)據(jù),本文共獲得606種癥狀中的用戶口語表達詞語716種。識別用戶癥狀以后的數(shù)據(jù)類型如表2所示。

        2.2 疾病識別

        本文通過網(wǎng)頁爬蟲從互聯(lián)網(wǎng)收集疾病21464種;從39健康網(wǎng)和尋醫(yī)問藥網(wǎng)收集疾病9095種;兩個疾病集合去除重復的疾病,本文構(gòu)建的疾病詞典Ddict中共包含疾病28143種。醫(yī)療咨詢分為用戶的提問與醫(yī)生的回復,考慮到用戶缺乏相應的醫(yī)學專業(yè)知識,在對疾病進行識別的過程中,如果不能識別出用戶提問中涉及的疾病,程序?qū)⒃卺t(yī)生的回復中繼續(xù)進行疾病匹配,程序?qū)ΠY狀和疾病的識別流程為圖1所示。

        在疾病匹配時,把疾病詞典按照疾病的字符長度從大到小進行排序,按照最大匹配原則對數(shù)據(jù)中的疾病進行識別,如,先匹配“丙型肝炎”如果沒有匹配到,繼續(xù)匹配“肝炎”等,精確用戶的咨詢內(nèi)容和醫(yī)生的回復內(nèi)容,得到用戶的疾病數(shù)據(jù)。識別疾病以后的數(shù)據(jù)類型如表3所示。

        3 實驗結(jié)果

        3.1 性別和年齡分布

        在131894條咨詢數(shù)據(jù)中,男性用戶數(shù)量為61338,占所有用戶數(shù)量的46.51%;女性用戶數(shù)量為70556,占所有用戶數(shù)量的53.49%。

        通過劃分年齡階段對每個年齡段的用戶數(shù)量進行統(tǒng)計,結(jié)果顯示年齡在21-30之間的用戶最多,數(shù)量為35412,占所有用戶數(shù)量的26.84%;年齡在31-40之間的用戶數(shù)量為16917,占所有用戶數(shù)量的12.82%。各年齡階段的用戶數(shù)量分布如圖2所示。

        3.2 癥狀和疾病分布

        通過對用戶提問數(shù)據(jù)的癥狀識別,對識別結(jié)果進行統(tǒng)計,結(jié)果顯示用戶的咨詢數(shù)據(jù)中 “頭痛”出現(xiàn)的次數(shù)最多,為4585,占所有咨詢數(shù)量的3.47%;“胃氣上逆”出現(xiàn)的次數(shù)為4554,占所有咨詢數(shù)量的3.45%。出現(xiàn)次數(shù)最多的前十種癥狀如圖3所示。

        通過對醫(yī)療咨詢數(shù)據(jù)的疾病識別,對識別結(jié)果進行統(tǒng)計,結(jié)果顯示醫(yī)療咨詢中出現(xiàn)“肢端肥大癥”的次數(shù)最多,為11171,占所有咨詢數(shù)量的8.47%;“感染”出現(xiàn)的次數(shù)為5377,占所有咨詢數(shù)量的4.07%。出現(xiàn)次數(shù)最多的前十種疾病如圖4所示。

        4 結(jié)束語

        本文通過開發(fā)爬蟲軟件獲取了尋醫(yī)問藥網(wǎng)中的131894條醫(yī)療咨詢數(shù)據(jù),在程序中采用用戶代理和程序隨機休眠的方法提高爬蟲的效率。針對這些醫(yī)療數(shù)據(jù),通過統(tǒng)計學方法調(diào)查用戶的性別和年齡分布;通過獲取癥狀詞典和疾病詞典對醫(yī)療咨詢中的癥狀和疾病進行識別,加入了對用戶口語表達詞匯的提取,統(tǒng)計了現(xiàn)階段互聯(lián)網(wǎng)醫(yī)療用戶的癥狀和疾病分布。未來的研究可以從以下幾方面著手:①對更多的咨詢數(shù)據(jù)進行調(diào)查;②對醫(yī)生的回復特征進行研究;③移動醫(yī)療APP。

        參考文獻(References):

        [1] Umefjord G, Petersson G, Hamberg K. Reasons for Consulting a Doctor on the Internet: Web Survey of Users of an Ask the Doctor Service. Journal of Medical Internet Research,2003.5(4):e26

        [2] Silver MP. Patient perspectives on online health

        information and communication with doctors: a qualitative study of patients 50 years old and over. Journal of Medical Internet Research,2015.17(1):e19

        [3] 石思優(yōu).基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D].廣東技術(shù)師范學院碩士學位論文,2015.

        [4] Ullah Z, Fayaz M, Iqbal A. Critical Analysis of Data MiningTechniques on Medical Data[J]. International Journal of Modern Education & Computer Science,2016.

        [5] 魏強.基于云計算的醫(yī)療數(shù)據(jù)處理技術(shù)研究[D].貴州大學碩士學位論文,2015.

        [6] Walczak, Paczkowski A /, Micha?. Medical data prepro-cessing for increased selectivity of diagnosis[J]. Bio-Algorithms and Med-Systems,2016.12(1):39-43

        [7] 陳遷.糖尿病醫(yī)療數(shù)據(jù)處理及藥物利用研究[D].第二軍醫(yī)大學碩士學位論文,2014.

        [8] 閆茜.海量醫(yī)療數(shù)據(jù)挖掘平臺的研究與設(shè)計[D].武漢理工大學碩士學位論文,2014.

        [9] 許杰.基于醫(yī)療數(shù)據(jù)挖掘的在線病情分析系統(tǒng)研究與開發(fā)[D].浙江工業(yè)大學碩士學位論文,2013.

        [10] 李萍.醫(yī)療數(shù)據(jù)質(zhì)量的問題探索和解決模式[J].計算機應用與軟件,2013.8:217-219

        [11] 蔣良孝.基于神經(jīng)網(wǎng)絡的醫(yī)療數(shù)據(jù)挖掘研究[D].中國地質(zhì)大學碩士學位論文,2004.

        猜你喜歡
        互聯(lián)網(wǎng)醫(yī)療
        基于價值共創(chuàng)角度研究互聯(lián)網(wǎng)醫(yī)療服務模式
        科技資訊(2017年7期)2017-05-06 11:58:10
        “互聯(lián)網(wǎng)+醫(yī)療”建設(shè)模式探析
        “互聯(lián)網(wǎng)+醫(yī)療”中信息安全的探討
        價值工程(2017年9期)2017-04-18 09:25:55
        居民互聯(lián)網(wǎng)醫(yī)療認知調(diào)查
        “互聯(lián)網(wǎng)+”醫(yī)療的盈利模式探究
        烏鎮(zhèn)的互聯(lián)網(wǎng)醫(yī)療需求調(diào)查及發(fā)展對策研究
        我國互聯(lián)網(wǎng)醫(yī)療分析
        “互聯(lián)網(wǎng)醫(yī)療”仍有許多風險和困難
        互聯(lián)網(wǎng)+醫(yī)療保健網(wǎng)的設(shè)計
        科技視界(2016年21期)2016-10-17 17:07:28
        我國互聯(lián)網(wǎng)醫(yī)療領(lǐng)域的風險投資
        商(2016年11期)2016-05-04 00:35:10
        国产日韩欧美亚洲精品中字| 国产夫妻自偷自拍第一页| 亚洲精品无码不卡av| 无码精品色午夜| 日本一区二区不卡超清在线播放| 国产精品麻豆A在线播放| 亚洲av自偷自拍亚洲一区| 日本免费观看视频一区二区| 亚洲综合网国产精品一区| 午夜成人理论福利片| 精品伊人久久大线蕉色首页| 欧美肥胖老妇做爰videos| 久久人人爽人人爽人人av| 亚洲成AⅤ人在线观看无码| 男人的天堂av一二三区| 亚洲av色香蕉一区二区三区潮| 日韩无码专区| 丰满少妇呻吟高潮经历| 亚洲熟伦熟女新五十路熟妇| 日韩精品久久久中文字幕人妻| 国产亚洲精品一区二区在线播放| 青青草在线这里只有精品| 久久精品中文闷骚内射| 中国丰满熟妇av| 91精品国产91热久久p| 国产目拍亚洲精品区一区| 国产午夜在线观看视频| 亚洲av手机在线网站| 日本最新免费二区三区| 日本精品人妻无码77777| 丰满熟妇人妻无码区| 蜜桃视频网址在线观看| 欧美最猛性xxxx| 国产精品欧美福利久久| 亚洲av无码男人的天堂在线| 91精品国产91久久综合桃花| 自拍情爱视频在线观看| 夫妻免费无码v看片| 鲁鲁鲁爽爽爽在线视频观看| 国产视频最新| 蜜桃视频在线免费观看完整版|