亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關聯(lián)分析的中老年體檢數(shù)據(jù)的挖掘

        2021-05-29 05:37:58郭慧敏
        軟件工程 2021年5期
        關鍵詞:Apriori算法關聯(lián)分析數(shù)據(jù)挖掘

        摘? 要:根據(jù)中老年體檢報告,運用Apriori算法挖掘各個指標之間的聯(lián)系,為醫(yī)生、患者提供診斷參考與建議。通過安徽省某三甲醫(yī)院的體檢數(shù)據(jù),篩選出40歲及以上的中老年人群為研究對象,應用數(shù)據(jù)挖掘中關聯(lián)規(guī)則的Apriori算法對超重、心電圖、脂肪肝、血脂、血壓、血糖、尿常規(guī)、吸煙、飲酒、總膽固醇等體檢指標之間的關聯(lián)關系進行分析研究。研究表明,體檢者的個人不良習慣、超重、高齡、高血糖和脂肪肝等都密切相關,互相影響,提出中老年人群應加強對慢性疾病的預防,保持良好的作息習慣等相關建議。

        關鍵詞:數(shù)據(jù)挖掘;關聯(lián)分析;Apriori算法;中老年體檢

        中圖分類號:TP181? ? ?文獻標識碼:A

        Data Mining of Physical Examination for the Middle-aged and

        Elderly based on Association Analysis

        GUO Huimin

        (School of Economics, Anhui University, Hefei 230601, China)

        17755895356@163.com

        Abstract: This paper proposes to use Apriori algorithm to mine the links between various indicators in the medical examination report of middle-aged and elderly people, which provides diagnosis references and suggestions for doctors and patients. The middle-aged and elderly people aged 40 and above are selected as the research objects from the physical examination data of a Class A tertiary hospital in Anhui Province. Then, Apriori algorithm of association rules in data mining is used to analyze and study the correlation between physical examination indicators, such as overweight, electrocardiogram, fatty liver, blood lipids, blood pressure, blood sugar, urine routine, smoking, drinking, and total cholesterol. Research results show that personal bad habits, overweight, advanced age, high blood sugar, and fatty liver of physical examinees are closely related and affect each other. This paper proposes that middle-aged and elderly people should strengthen the prevention of chronic diseases and maintain good work and rest habits.

        Keywords: data mining; association analysis; Apriori algorithm; middle-aged and elderly physical examination

        1? ?引言(Introduction)

        近年來,大部分醫(yī)院在移動醫(yī)療興起的形勢下,都建立了數(shù)字化醫(yī)療信息系統(tǒng)和患者的電子信息健康檔案[1],醫(yī)院內部積累了大量醫(yī)療相關的數(shù)據(jù),使得醫(yī)療信息數(shù)字化程度越來越高[2]。醫(yī)療數(shù)據(jù)不僅與每個人的生活和生命健康息息相關,而且對疾病的診治與醫(yī)學研究具有重要價值。然而目前大部分醫(yī)院只是簡單地進行患者醫(yī)療數(shù)據(jù)的采集與存儲,缺乏對它們進行深層次的分析與利用,如何快速有效地在海量的醫(yī)療數(shù)據(jù)中發(fā)現(xiàn)潛在的有價值的信息是一項重大挑戰(zhàn)[1]。

        關聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘領域重要的研究分支,是當前在發(fā)展過程中比較重要、實用的技術[3]。在醫(yī)學領域中,通過關聯(lián)規(guī)則發(fā)現(xiàn)疾病患者中醫(yī)癥狀之間的關聯(lián)關系和其他癥狀之間存在的規(guī)律性,能夠根據(jù)這些規(guī)律分析病因,預測疾病的發(fā)展[4]。本文以醫(yī)院數(shù)據(jù)系統(tǒng)中的體檢數(shù)據(jù)為研究對象,利用關聯(lián)規(guī)則的Apriori算法,將每個病人的癥狀及其他病情診斷信息看作是一種購物籃,然后對其進行挖掘分析[2],為個人健康提供預警,為醫(yī)療診斷提供科學依據(jù)參考。

        2? ?關聯(lián)規(guī)則算法(The Apriori algorithm)

        2.1? ?Apriori算法概述

        關聯(lián)分析是由R.Agrawal等人提出的一種簡單實用的非監(jiān)督學習算法[5],反映了事物之間的依賴或關聯(lián),試圖找到數(shù)據(jù)集中隱含的或感興趣的關系,其結果通常以頻繁項集或關聯(lián)規(guī)則的形式表示。最經(jīng)典的案例就是“啤酒與尿布”。沃爾瑪超市根據(jù)詳細的原始交易信息來對顧客的購物行為進行數(shù)據(jù)挖掘,來了解顧客在其門店的購買習慣,適當?shù)卣{整貨架,增加購買行為。然而,挖掘出來的規(guī)則在實際中并不是都有指導意義,比如說,如果一個客戶買了杯子,就會有40%的可能性買茶葉,但是我們不能依據(jù)這個就把杯子和茶葉放在一起出售,我們借助置信度和支持度這兩個評估指標來對關聯(lián)規(guī)則進行有價值的評估,設置最小的支持度和置信度使我們得到的關聯(lián)規(guī)則具有一定的參考價值。

        2.2? ?相關概念

        Apriori算法是關聯(lián)規(guī)則算法,是非常經(jīng)典的一種數(shù)據(jù)挖掘的算法,應用十分廣泛,可以較好地發(fā)現(xiàn)數(shù)據(jù)之間的隱藏規(guī)則。

        (1)項和項集。項為交易數(shù)據(jù)集中的每一種商品,項集為項的集合。

        (2)事務。事務為交易數(shù)據(jù)集中對應的每一條記錄。

        (3)關聯(lián)規(guī)則。關聯(lián)規(guī)則指的是在X出現(xiàn)的同時,Y也會出現(xiàn),其中X、Y均是I的真子集,并且二者交集不為空。

        (4)支持度。支持度計算公式為:

        表示XY同時出現(xiàn)的概率占總數(shù)的概率,表示X和Y兩個事件同時發(fā)生的概率。

        (5)置信度。置信度計算公式為:

        表示在Y出現(xiàn)的條件下X出現(xiàn)的條件概率。

        (6)頻繁項集。頻繁項集是指支持度不低于最小支持度的閾值的項集。

        (7)強規(guī)則。強規(guī)則是指同時滿足最小支持度閾值和最小置信度閾值的規(guī)則。

        2.3? ?Apriori算法基本步驟與實現(xiàn)

        Apriori算法的過程主要分為兩步[6]:根據(jù)支持度閾值找出所有的頻繁項集;通過置信度閾值找出頻繁項集中的強關聯(lián)規(guī)則。Apriori算法的基本步驟如下:

        (1)首先掃描所有的數(shù)據(jù)集D,產(chǎn)生候選1-項集的集合C1。

        (2)由候選1-項集的集合C1根據(jù)最小支持度產(chǎn)生頻繁1-項集的集合L1。

        (3)對k>1,重復執(zhí)行步驟(4)、(5)、(6)。

        (4)由Lk執(zhí)行連接和剪枝操作,產(chǎn)生候選(k+1)-項集的集合C(k+1)。

        (5)根據(jù)最小支持度,由候選(k+1)-項集的集合C(k+1),產(chǎn)生頻繁(k+1)-項集的集合L(k+1)。

        (6)若L≠Ф,則k=k+1,跳往步驟(4),否則往下執(zhí)行。

        (7)根據(jù)最小置信度,由頻繁項集產(chǎn)生強關聯(lián)規(guī)則,程序結束。

        設置好最小支持度閾值和最小置信度閾值之后,Apriori算法開始執(zhí)行,掃描數(shù)據(jù)集首先產(chǎn)生頻繁1項集,將得到的頻繁1項集進行連接操作,再次掃描數(shù)據(jù)集D得到滿足最小支持度閾值的頻繁2項集,以此類推直到頻繁k項集[7]。

        算法流程圖如圖1所示。

        3? ?數(shù)據(jù)來源與處理(Data source and processing)

        3.1? ?數(shù)據(jù)來源與特點

        本文的數(shù)據(jù)來源是安徽省某三甲醫(yī)院2019年體檢中心的體檢數(shù)據(jù),一共篩選2,345 份體檢數(shù)據(jù)報告,采集的指標主要包含基本人物信息(性別、年齡等)以及相關的檢查指標屬性特征。

        醫(yī)療數(shù)據(jù)的數(shù)據(jù)類型繁多。醫(yī)療數(shù)據(jù)包括純數(shù)據(jù)、信號、CT、B超等醫(yī)療影像數(shù)據(jù),文本類型有患者記錄的身份、癥狀描述、檢測和文本表示的診斷等多種模式,其數(shù)字類型有些是連續(xù)型數(shù)據(jù),有些是離散型數(shù)據(jù)[8],存在缺失值、異常值和重復值。收集到的醫(yī)療數(shù)據(jù)往往是不完整的,病人由于隱私不愿意透露或者由于人工記錄的偏差、數(shù)據(jù)的不清晰表達、記錄本身的不確定性等都造成了醫(yī)療信息的不完整性,且醫(yī)院每天收集的大量數(shù)據(jù)可能會包含重復、無關緊要的數(shù)據(jù)[9]。數(shù)據(jù)中涉及個人的信息,如姓名、住址、身份證信息等,需要對隱私性、敏感性信息進行過濾。

        3.2? ?數(shù)據(jù)預處理

        數(shù)據(jù)預處理是進行數(shù)據(jù)挖掘必不可少的關鍵一步,目的是讓數(shù)據(jù)適應模型,匹配模型的需求。數(shù)據(jù)預處理分為四個部分:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約[10]。

        醫(yī)療原始信息包含體檢人員的基本信息表和體檢信息表,其中基本信息表包含姓名、住址、身份證號等一些敏感信息,這些涉及個人隱私的信息,需要進行脫敏處理;體檢信息表包括血壓、血脂、血糖等疾病情況,這些數(shù)據(jù)需要整理進行挖掘。數(shù)據(jù)清洗包括缺失值和異常值的處理。對于缺失值的處理,咨詢相關醫(yī)護人員或者查詢相關病例記錄進行空缺值填充,對于查詢不到的缺失值用均值填補,異常值直接刪除。數(shù)據(jù)集成是將多個數(shù)據(jù)源放在統(tǒng)一的倉庫中,本文重點研究的是中老年人體檢狀況,篩選出40歲及以上的群體,針對其性別、年齡、高血壓、高血脂、高血糖等檢驗指標信息之間的相關聯(lián)性,剔除那些與研究不相關的屬性記錄,通過數(shù)據(jù)集成將相關表中需要研究的屬性信息集成到一個表中,將數(shù)據(jù)類型和數(shù)據(jù)單位進行統(tǒng)一化處理。數(shù)據(jù)變換是對數(shù)據(jù)進行規(guī)范化處理,本文中主要是數(shù)據(jù)離散化,進行關聯(lián)分析。首先屬性項不能是數(shù)值型的,像年齡、膽固醇水平等都是連續(xù)數(shù)值型數(shù)據(jù)類型,不能進行數(shù)據(jù)挖掘,將數(shù)據(jù)格式轉換成英文或者數(shù)字化可以提高算法的運算效率,所以本文通過一定的標準把現(xiàn)有的文字數(shù)據(jù)格式進行英文字母、數(shù)字化或布爾值轉換處理。這樣做也是為了用關聯(lián)規(guī)則更好地挖掘中老年群體病癥之間的關系,滿足數(shù)據(jù)挖掘的要求,比如年齡可以劃分為兩個年齡段:[40,65)、[65,max),那么每個人的年齡就分別對應于相應的年齡段了,數(shù)值型數(shù)據(jù)變成離散化,其他幾列連續(xù)數(shù)值型也是采用類似的方法離散化[11]。

        因此,本文結合Apriori算法和醫(yī)療數(shù)據(jù)特點,查閱相關醫(yī)學資料,對數(shù)據(jù)進行適當?shù)碾x散化處理,將數(shù)據(jù)格式轉換成事務性庫,具體如表1所示。

        得到事務項映射表之后,我們就可以利用該表得到具體需要挖掘的事務數(shù)據(jù)庫D。掃描關系數(shù)據(jù)庫中的數(shù)據(jù)表,對于每次掃描到的屬性值,根據(jù)已經(jīng)定好的事務項參照表,將該屬性值所對應的具體編號寫入事務表中,如表2所示。

        數(shù)據(jù)的預處理階段已經(jīng)完成,接下來用Apriori算法挖掘的事務數(shù)據(jù)庫來進行關聯(lián)規(guī)則的分析。

        4? ?應用與實現(xiàn)(Application and implementation)

        運用Python軟件進行關聯(lián)規(guī)則挖掘,設置的最小支持度為0.03,置信度為0.80,由此挖掘得到以下有意義的規(guī)則和相關參數(shù),如表3所示。

        本文給出了置信度為前26的排名。通過以上規(guī)則,在中老年人群中,我們可以得出以下結論:

        (1)吸煙、體重超重,還經(jīng)常喝酒的以中老年男性群體為主。

        (2)針對老年人群,心電圖異常、有脂肪肝,并且尿常規(guī)異常的,一般都體重超重。

        (3)體重超重、心電圖異常并且膽固醇較高的中老年女性居多。

        (4)年齡在65歲以上的老年人中,血糖較高的人群體重一般超重。

        (5)心電圖異常、尿常規(guī)異常、有脂肪肝并且甘油三酯偏高的人群超重。

        (6)中老年男性中,有脂肪肝和高血壓的體重一般偏重。

        針對老年人群,在大多數(shù)人的認知里,“三高”等一系列慢性病似乎已經(jīng)成為這個年齡段的代表符號。從本論文的研究結果可以看出,在中老年人這一群體中,隨著年齡的增加、生活方式的改變、基礎代謝率的下降,由于缺乏運動、社交增多以及其他不良的飲食習慣等原因,使得肥胖的發(fā)生率增加,偏重的體質大概率會伴隨高血脂和高血壓等一系列不良后果,給中老年人的生活質量帶來極大的影響。為了有效地避免這些病癥,引導中老年人群建立健康的生活方式,通過合理的飲食、科學的營養(yǎng)搭配、適當?shù)腻憻?、良好的?/p>

        慣、保持身心愉悅,來維持合理的體重,有效地避免體重過高帶來的一些病癥,讓中老年人群有一個健康的晚年生活。另有研究發(fā)現(xiàn),在中老年人群中,吸煙并體重超重還經(jīng)常喝酒的大部分都是男性,男性成為吸煙最大的群體。吸煙帶來的危害與超重伴隨的病癥,會對老年生活帶來極大的影響,戒煙戒酒有利于健康的生活[12-13]。

        5? ?結論(Conclusion)

        本文利用中老年人群的體檢報告信息,使用數(shù)據(jù)挖掘中的關聯(lián)分析Apriori算法挖掘體檢報告中的各個生理指標之間的相關性,分析了疾病與疾病之間的潛在聯(lián)系 ,這樣可以在醫(yī)療大數(shù)據(jù)中發(fā)現(xiàn)潛藏的信息并且能夠得出關聯(lián)規(guī)則的可信度,為醫(yī)生診斷病情提供輔助和參考,避免因醫(yī)生的疏忽而產(chǎn)生誤診,也給患者提供了自身的病情預警,做到早發(fā)現(xiàn)、早診斷、早治療[14],同時也證明了利用關聯(lián)規(guī)則Apriori算法對醫(yī)療大數(shù)據(jù)進行數(shù)據(jù)挖掘所得出的規(guī)則有重要的參考價值。

        參考文獻(References)

        [1] 閆茜.海量醫(yī)療數(shù)據(jù)挖掘平臺的研究與設計[D].武漢:武漢理工大學,2014.

        [2] 楊余壘.改進的關聯(lián)規(guī)則算法在慢性病數(shù)據(jù)挖掘中的研究[D].浙江:浙江理工大學,2017.

        [3] 趙龍.基于多維關聯(lián)規(guī)則挖掘算法的應用研究[D].浙江:中國計量大學,2017.

        [4] 呂石山.基于Apriori關聯(lián)規(guī)則算法的股票操縱行為識別研究[D].蘭州:蘭州大學,2020.

        [5] AGRAWAL R, IMIELINSKI T, SWAMI A, et al. Mining association rules between sets of items in large databases[J]. ACM SIGMOD Record, 1993,22(2):207-216.

        [6] CHARANJEET K. Association rule mining using apriori algorithm: A survey[J]. International Journal of Advanced Research in Computer Engineering & Technology, 2013, 2(6):2081-2084.

        [7] 孫杏.基于關聯(lián)算法的人體檢測數(shù)據(jù)的處理與分析[D].西安:西安科技大學,2019.

        [8] 王寧.基于Hadoop平臺的海量醫(yī)療數(shù)據(jù)挖掘算法的研究與實現(xiàn)[D].北京:北京郵電大學,2014.

        [9] 尤婷婷.健康大數(shù)據(jù)預處理技術及其應用[D].四川:電子科技大學,2017.

        [10] 張云洋.面向醫(yī)療質量的病案首頁數(shù)據(jù)關聯(lián)規(guī)則挖掘[D].天津:天津大學,2009.

        [11] 王越,桂袁義.基于關聯(lián)分析的數(shù)據(jù)挖掘在體檢CRM中的應用[J].重慶理工大學學報(自然科學版),2010,24(03):36-42.

        [12] 賀媛,曾強,趙小蘭.中國成人肥胖、中心性肥胖與高血壓和糖尿病的相關性研究[J].解放軍醫(yī)學雜志,2015,40(10):803-808.

        [13] 張瑩,焦怡琳,陸凱,等.中國成年人超重肥胖影響因素meta分析[J].中國公共衛(wèi)生,2015,31(02):232-235.

        [14] 李強,陳東濤,羅先錄.關聯(lián)規(guī)則算法在醫(yī)療大數(shù)據(jù)中的應用探索[J].軟件工程,2019,22(01):12-15.

        作者簡介:

        郭慧敏(1995-),女,碩士生.研究領域:數(shù)據(jù)分析與挖掘.

        猜你喜歡
        Apriori算法關聯(lián)分析數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
        基于隨機函數(shù)Petri網(wǎng)的系統(tǒng)動力學關聯(lián)分析模型
        基于Apriori算法的高校學生成績數(shù)據(jù)關聯(lián)規(guī)則挖掘分析
        關聯(lián)分析技術在學生成績分析中的應用
        軟件導刊(2016年11期)2016-12-22 21:58:16
        基于云平臺MapReduce的Apriori算法研究
        關聯(lián)規(guī)則挖掘Apriori算法的一種改進
        中國市場(2016年36期)2016-10-19 04:10:44
        基于關聯(lián)分析的學生活動參與度與高校社團管理實證研究
        科技視界(2016年15期)2016-06-30 12:43:00
        不同的數(shù)據(jù)挖掘方法分類對比研究
        91日本在线精品高清观看| 久久精品蜜桃亚洲av高清| 国产一区二区免费在线视频| 三个男吃我奶头一边一个视频| 亚洲日本在线电影| 熟女俱乐部五十路二区av| 一区二区无码中出| 中文字幕高清无码不卡在线| 一个人午夜观看在线中文字幕| 欧美真人性做爰一二区| 丰满人妻在公车被猛烈进入电影| 三叶草欧洲码在线| 亚洲性爱视频| 色综合无码av网站| 亚洲精品成AV无在线观看| 日本一区二区不卡超清在线播放| 亚洲精品一区二区三区日韩| 九九精品国产亚洲av日韩| 国产精品女主播福利在线| 无码一区二区三区免费视频| 亚洲欧洲∨国产一区二区三区| 亚洲综合偷自成人网第页色| 久久婷婷国产色一区二区三区| 精品无码人妻夜人多侵犯18| 挺进朋友人妻雪白的身体韩国电影| 初高中生精品福利视频| 国产一区不卡视频在线| 日韩人妻免费视频一专区| 女女女女女裸体处开bbb| 日韩在线免费| 无码三级国产三级在线电影| 日本国产一区二区在线观看| 亚洲综合一区中文字幕| 国产国拍精品av在线观看按摩| 国产成人午夜精品免费视频| 日韩av一区在线播放| 国产一区二区三区日韩在线观看| 男女18禁啪啪无遮挡激烈网站| 久久人妻内射无码一区三区| 国产xxxxx在线观看免费| 日韩女优一区二区在线观看 |