亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于C#與R語言的重復(fù)測量設(shè)計定性資料統(tǒng)計分析的自動化實現(xiàn)研究*

        2022-09-14 09:28:56郭迎暄譚志軍米白冰黃昌可廉恒麗
        中國衛(wèi)生統(tǒng)計 2022年3期
        關(guān)鍵詞:效應(yīng)測量語言

        郭迎暄 陳 達 譚志軍 米白冰 黃昌可 廉恒麗△

        【提 要】 目的 基于C#語言和R語言開發(fā)一款便于臨床醫(yī)生使用的軟件,用于實現(xiàn)重復(fù)測量設(shè)計定性資料統(tǒng)計分析的自動化,確保結(jié)果準(zhǔn)確、完整和規(guī)范,提高科研效率。方法 首先用C#語言將統(tǒng)計分析數(shù)據(jù)導(dǎo)入到軟件中,然后調(diào)用R語言命令腳本,完成重復(fù)測量設(shè)計定性資料的統(tǒng)計分析與結(jié)果輸出。最后通過實例,驗證本自動化實現(xiàn)軟件運行的效果。結(jié)果 基于C#語言和R語言相結(jié)合開發(fā)出的統(tǒng)計軟件運行結(jié)果與SPSS操作結(jié)果完全一致,統(tǒng)計分析結(jié)果包括了模型選擇、模型模擬結(jié)果和模擬結(jié)果預(yù)測三部分。其操作簡便,結(jié)果自動化呈現(xiàn),減少了結(jié)果判斷與模型選擇的錯誤,確保了結(jié)果的準(zhǔn)確性和規(guī)范性。結(jié)論 該軟件能夠自動實現(xiàn)重復(fù)測量設(shè)計定性資料的統(tǒng)計分析,值得在臨床上推廣使用。

        在臨床研究中,常常收集多次重復(fù)測量設(shè)計的結(jié)果變量(因變量)及其影響結(jié)果變量的數(shù)據(jù)(自變量,如性別、年齡、治療方法、疾病等)。重復(fù)測量資料是對同一受試者的同一觀察指標(biāo)在不同時間點上進行多次測量(≥3次)所得的資料,通常用于分析該項觀察指標(biāo)在不同時間點上的變化特點[1]。數(shù)據(jù)類型可分為定量數(shù)據(jù)和定性數(shù)據(jù),其中,定性數(shù)據(jù)是指測得的僅反映某一方面性質(zhì)的指標(biāo),并不能用具體的數(shù)值表示。定性重復(fù)測量資料根據(jù)因變量類型可以分為離散型變量、分類變量和等級變量,分析模型可包含固定效應(yīng)、隨機效應(yīng)或者混合效應(yīng)。對于臨床醫(yī)生而言,選擇正確的模型和統(tǒng)計方法進行數(shù)據(jù)分析,得出正確的結(jié)果和結(jié)論,具有一定難度且需要花費很大精力。因此,迫切需要開發(fā)一款能夠?qū)崿F(xiàn)定性重復(fù)測量數(shù)據(jù)統(tǒng)計分析自動化的軟件。鑒于此,本研究將結(jié)合C#語言和R語言進行軟件設(shè)計和開發(fā),并通過實例展示軟件在臨床研究中的應(yīng)用。

        軟件設(shè)計與實現(xiàn)

        1.軟件設(shè)計原理

        C#是微軟公司推出的一種面向?qū)ο蟮木幊陶Z言,具有可視化操作和高效率運行的特點,其支持快速地編寫各種基于Microsoft.NET平臺的應(yīng)用程序[2]。R是用于統(tǒng)計分析和統(tǒng)計繪圖的語言和操作環(huán)境,是一個免費軟件,擁有各種各樣的R統(tǒng)計分析包,通過這些R語言包,可以進行教育、醫(yī)療、可視化、統(tǒng)計學(xué)、人工智能等方面應(yīng)用。

        本研究以C#開發(fā)平臺Microsoft Visual Studio Enter Prise 2019為基礎(chǔ),結(jié)合R軟件lme4程序包和geepack程序包實現(xiàn)重復(fù)測量設(shè)計定性資料的統(tǒng)計分析,其中,R軟件環(huán)境采用R(v.3.6.1)、R studio(1.2.5001)版本。C#對R語言的調(diào)用方法有兩種,一種是通過R語言的COM接口,直接和R語言進行交互;一種是通過RDotNet.dll與R語言進行交互。本軟件通過后者與R語言進行交互,首先,開發(fā)環(huán)境需要先安裝.NET Framework4和R.dll;然后,在C#程序中添加對RDotNet.dll項目的引用;最后,利用REngine對象的方法Evaluate、CreateNumericVector和CreateCharacterMatrix等創(chuàng)建R向量和矩陣,實現(xiàn)C#對R語言函數(shù)的調(diào)用?;趦煞N語言的特點,使得開發(fā)界面友好、操作簡便、自動化運行的統(tǒng)計軟件成為可能。

        2.軟件統(tǒng)計分析流程

        軟件根據(jù)研究目的和研究設(shè)計、因變量類型與分布、因變量與自變量關(guān)系,選擇合適的統(tǒng)計分析方法進行數(shù)據(jù)分析。不同的統(tǒng)計分析方法涉及的參數(shù)不同,對應(yīng)的界面也會有略微調(diào)整。本文用定性資料二分類GEE模型和無序多分類GLMMs模型為實例,來說明軟件如何實現(xiàn)數(shù)據(jù)導(dǎo)入和自動化輸出統(tǒng)計分析的結(jié)果。統(tǒng)計分析與模型選擇流程見圖1。

        圖1 統(tǒng)計分析與模型選擇流程圖

        3.軟件界面設(shè)計與功能介紹

        該軟件界面(如圖2)左側(cè)紅框區(qū)為菜單欄,根據(jù)不同的資料類型選擇適用的統(tǒng)計分析方法。右側(cè)藍框區(qū)為數(shù)據(jù)導(dǎo)入格式示例區(qū),可進行數(shù)據(jù)導(dǎo)入。右側(cè)中部綠框區(qū)為參數(shù)設(shè)置區(qū),分別選擇因變量和自變量。右側(cè)下方紫框區(qū)為結(jié)果顯示區(qū),根據(jù)不同的統(tǒng)計分析方法,顯示相應(yīng)的結(jié)果。

        圖2 軟件界面圖

        軟件驗證

        為了測試該軟件的可靠性與有效性,本文介紹二分類重復(fù)測量資料廣義估計方程與多分類重復(fù)測量資料廣義線性混合效應(yīng)模型在該軟件的自動化實現(xiàn)。

        1.廣義估計方程

        廣義估計方程(generalized estimating equation,GEE)是Liang和Zeger在廣義線性模型和擬似然方法的基礎(chǔ)上提出的一種分析縱向數(shù)據(jù)的方法。GEE可以處理有缺失值的資料,允許每個觀察對象的觀察次數(shù)不同,觀察時間間隔亦可不同。廣義估計方程應(yīng)用條件較寬,除了正態(tài)分布,可以利用連接函數(shù)將高斯分布、二項分布、多項分布、Poisson分布、Gamma分布等多種分布的因變量擬合為相應(yīng)的統(tǒng)計模型,解決了重復(fù)測量數(shù)據(jù)非獨立性問題,可得到穩(wěn)健的參數(shù),最大程度減少測量數(shù)據(jù)的有效信息損失。

        假設(shè)yij為第i個觀察對象的第j個觀察值(i=1,…,n;j=l,…,p),Xij(Xij1,Xij2,…,Xijm)為相應(yīng)的自變量向量。各觀察對象是獨立的,但同一觀察對象內(nèi)的觀察值間存在相關(guān)。模型的基本構(gòu)成如下:

        (1)建立yij與各自變量Xij(Xij1,Xij2,…,Xijm)之間的函數(shù)關(guān)系

        E(yij)=uijg(uij)=β0+β1Xij1+β2Xij2+…+βmXijm

        (1)

        其中g(shù)(uij)為聯(lián)結(jié)函數(shù),可根據(jù)數(shù)據(jù)類型選取合適的聯(lián)結(jié)函數(shù)。

        (2)建立yij的方差與平均值之間的函數(shù)關(guān)系

        Var(yij)=v(uij)·φ

        (2)

        v(uij)為已知方差函數(shù),φ為尺度參數(shù),表示y的方差不能被v(uij)解釋的部分。

        (3)對yi=(yi1,…,yip)′選擇一個p×p維作業(yè)相關(guān)矩陣Ri(α),構(gòu)造廣義估計方程如下:

        (3)

        GEE的特點是采用實際計算得到的殘差函數(shù),作簡單回歸從而獲得作業(yè)相關(guān)矩陣。相關(guān)矩陣存在多種結(jié)構(gòu)(等相關(guān)結(jié)構(gòu)、相鄰相關(guān)結(jié)構(gòu)、自相關(guān)結(jié)構(gòu)、不確定型相關(guān)結(jié)構(gòu)、獨立相關(guān)結(jié)構(gòu)),模型擬合的好壞可以通過QIC判別準(zhǔn)則做出判斷[3]。通過QIC大小決定合適的大小相關(guān)矩陣,在同一模型中QIC值越小模型越合適[4]。對于GEE算法而言,即使對相關(guān)矩陣的結(jié)構(gòu)選擇不當(dāng),也能得到有關(guān)結(jié)果變量的回歸系數(shù)及其方差的一致性估計值[5]。當(dāng)樣本含量較大時,因?qū)ψ鳂I(yè)相關(guān)矩陣的選擇不當(dāng)而引起的效率損失可以忽略不計。

        (1)背景資料

        本研究為一項單中心、前瞻性干預(yù)性研究,觀察兩組不同治療方案的治療效果。研究因素為組別,即單純西醫(yī)治療組(90例)和中西醫(yī)結(jié)合治療組(90例),分別于治療后1周、1月、3月共3個時間點觀測記錄治療效果。

        表1 研究變量說明

        (2)R程序代碼

        #原始excel數(shù)據(jù)導(dǎo)入

        library(readxl)

        #數(shù)據(jù)讀取操作

        data<- read_excel(file.choose())

        data$GROUP<- factor(data$GROUP)

        data$TIME<-factor(data$TIME)

        data$AGE<-factor(data$AGE)

        data$ID<-factor(data$ID)

        #模型適配

        library(geepack)

        fit1<- geeglm(EFFECT ~ GROUP + AGE + TIME,id=ID,data=data,corstr=“ar1”,family=‘binomial’)

        fit2<-geeglm(EFFECT ~ GROUP + AGE + TIME,id=ID,data=data,corstr=“exchangeable”,family=‘binomial’)

        fit3<- geeglm(EFFECT ~ GROUP + AGE + TIME,id=ID,data=data,corstr=“independence”,family=‘binomial’)

        sapply(list(fit1,fit2,fit3),QIC)

        #比較幾種模型的QIC值,選擇QIC最小值模型進行統(tǒng)計分析與結(jié)果輸出

        coef(summary(fit3))

        #編寫GEE95%可信區(qū)間函數(shù)

        confint.geeglm<- function(object,parm,level=0.95,…){

        cc<- coef(summary(object))

        mult<- qnorm((1+level)/2)

        citab<- with(as.data.frame(cc),

        cbind(lwr=Estimate-mult*Std.err,

        upr=Estimate+mult*Std.err))

        rownames(citab)<- rownames(cc)

        citab[parm,]

        }

        confint.geeglm(fit3)

        #結(jié)果預(yù)測

        pred=predict.glm(fit3,type=“response”,newdata=data)

        predict=ifelse(pred>0.5,1,0)

        data$predict=predict

        library(vcd)

        addmargins(table(data$PREDICTEDVALUE,data$EFFECT))

        (3)結(jié)果展示與表達

        本研究采用廣義估計方程研究本案例的二分類重復(fù)測量的數(shù)據(jù),運算結(jié)果如下:

        a.模型選擇

        根據(jù)擬似然信息準(zhǔn)則(QIC)統(tǒng)計量進行模型選擇,結(jié)果表明,independence模型QIC值最小,若遇到ra1、exchangeable指標(biāo)QIC值與independence指標(biāo)QIC值相同時,以ra1為最優(yōu)。

        b.模型擬合結(jié)果

        圖3 廣義估計方程參數(shù)估計結(jié)果

        ①從圖3可以清晰看到,組間比較結(jié)果,單純西醫(yī)的療效顯著低于中西醫(yī)結(jié)合,Wald卡方=9.701,B=-1.735<0且P<0.01,更進一步,單純西醫(yī)的有效率是中西醫(yī)結(jié)合的exp(-1.735)=17.63%;

        ②基線數(shù)據(jù)影響結(jié)果:年齡不能顯著影響有效率,P值均大于0.05;

        ③重復(fù)測量時間比較結(jié)果:治療后1月的有效率顯著高于治療后1周,Wald卡方=3.894,B=0.818>0且P=0.048<0.05,更進一步,1月的有效率是1周的2.265倍;治療后3月的有效率顯著高于治療后1周,Wald卡方=8.819,B=1.502>0且P=0.003<0.05,更進一步,3月的有效率是1周的4.490倍。

        c.模型預(yù)測準(zhǔn)確率

        更進一步,我們需要繼續(xù)考察以上模型的準(zhǔn)確率。模型預(yù)測的準(zhǔn)確率為:

        2.廣義線性混合效應(yīng)模型

        廣義線性混合效應(yīng)模型是廣義線性模型和一般線性混合效應(yīng)模型的擴展,是在廣義線性固定效應(yīng)模型的基礎(chǔ)上引入隨機效應(yīng),在隨機效應(yīng)滿足正態(tài)分布的前提下,因變量可以是指數(shù)家族中的任一分布,指數(shù)家族可有許多基本的離散分布(包括二項分布、泊松分布和負(fù)二項式正態(tài)分布等)和連續(xù)分布(正態(tài)分布、beta分布和χ2分布等)組成,當(dāng)隨機效應(yīng)不存在時,廣義線性混合效應(yīng)模型就退化為廣義線性模型[6]。廣義線性混合效應(yīng)模型的自變量可以是分類或連續(xù)的,可以處理多個隨機效應(yīng),建模靈活,且同樣可以用于非均衡數(shù)據(jù),能較好處理含有缺失值的資料。

        (1)模型框架:GLMMS利用逆連接函數(shù)來構(gòu)建線性預(yù)測值與條件均數(shù)關(guān)系的基本模型:

        Y=μ+ε

        μ=g-1(Xβ+Zγ)

        式中,Y:n×l維觀測向量;μ:觀測的期望(均數(shù))向量;g(·):可微單調(diào)連接函數(shù),g-1(·):g(·)的轉(zhuǎn)置;X和Z分別是固定效應(yīng)和隨機效應(yīng)的設(shè)計矩陣,X:n×p維矩陣,Z:n×r維矩陣;β和γ分別是模型的固定效應(yīng)和隨機效應(yīng)的參數(shù)向量,隨機效應(yīng)γ應(yīng)滿足均數(shù)為0,方差矩陣為G的正態(tài)分布,γ~N(0,G),Var(Y)=G;殘差ε~N(0,R),var(ε)=R,R為殘差協(xié)方差矩陣[7]。

        對于有序多分類結(jié)局測量,其連接函數(shù)為累積logit函數(shù)(cumulative logit function),采用多層累積logistic回歸模型來擬合數(shù)據(jù),模型可表達為:

        Y=μ+ε

        γ~N(0,G)var(ε)=R

        其中,μ:多項式概率分布期望向量,有n個延伸的觀測。假設(shè)有4個分類,可以記作:μ=(μ11,μ12,μ13,…,μn1,μn2,μn3),μij:觀測i在分類j的概率。

        (2)參數(shù)估計:GLMMS估計的最大似然目的是將如下求積似然函數(shù)(integrated likelihood function)最大化:

        其中β為固定效應(yīng),θ為未知的方差/協(xié)方差參數(shù),f(Y|u)為隨機效應(yīng)u條件下的結(jié)局測量分布函數(shù),p(u)為隨機效應(yīng)的分布函數(shù)。此積分似然函數(shù)必須近似估計[8]。

        (3)背景資料

        本研究為一項隨訪調(diào)查研究,觀察醫(yī)學(xué)本科畢業(yè)生在剛畢業(yè)、畢業(yè)后3年和畢業(yè)后6年的去向選擇。研究因素為生源地、性別、學(xué)習(xí)成績和畢業(yè)時間,因變量為去向選擇。

        表2 研究中變量說明

        (4)R語言程序代碼

        library(readxl)

        data<- read_excel(file.choose())

        data$TIME<-factor(data$TIME)

        data$ID<-factor(data$ID)

        data$SEX<-factor(data$SEX)

        data$SCORE<-factor(data$SCORE)

        data$ADDRESS<-factor(data$ADDRESS)

        library(lme4)

        glmms1<- glmer(DIRECTION~ SEX + SCORE + ADDRESS + TIME +(1|ID),

        data=data,family=‘Gamma’)

        glmms2<- glmer(DIRECTION~ SEX + SCORE + ADDRESS + TIME +(1|ID),

        data=data,family=‘inverse.gaussian’)

        sapply(list(glmms1,glmms2),AIC)

        sapply(list(glmms1,glmms2),BIC)

        coef(summary(glmms2))

        confint.glmer(glmms2)

        #結(jié)果預(yù)測

        pred=fitted(glmms2)

        pred=ifelse(pred>2.5,3,pred)

        pred=ifelse(pred<2.5 & pred>1.5,2,pred)

        pred=ifelse(pred<1.5,1,pred)

        data$PREDICTEDVALUE=pred

        library(vcd)

        table(data$PREDICTEDVALUE,data$DIRECTION)

        addmargins(table(data$PREDICTEDVALUE,data$DIRECTION))

        (5)結(jié)果展示與表達

        本研究采用廣義線性混合效應(yīng)模型研究本案例的無序多分類重復(fù)測量的數(shù)據(jù),運算結(jié)果如下。

        a.模型選擇

        根據(jù)赤池信息準(zhǔn)則(Akaike information criterion,AIC)和貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)選擇最優(yōu)模型,結(jié)果表明,正態(tài)反高斯先驗?zāi)P偷腁IC、BIC值均最小,選擇正態(tài)反高斯先驗?zāi)P蜑樽顑?yōu)模型。

        b.模型擬合結(jié)果

        圖4 廣義線性混合效應(yīng)模型參數(shù)估計結(jié)果

        從圖4可以清晰看到:

        ①基線數(shù)據(jù)影響結(jié)果:性別、生源地不會影響醫(yī)學(xué)生本科畢業(yè)后的選擇,P值全部大于0.05。

        ②考試成績的影響:學(xué)習(xí)成績會影響醫(yī)學(xué)生本科畢業(yè)后的選擇,學(xué)習(xí)成績靠后的畢業(yè)生選擇繼續(xù)深造而不選擇醫(yī)生和醫(yī)藥公司的可能性明顯低于學(xué)習(xí)成績靠前的畢業(yè)生;學(xué)習(xí)成績靠后的畢業(yè)生選擇繼續(xù)深造的可能性僅僅只有學(xué)習(xí)成績靠前的53.08%(P<0.01);學(xué)習(xí)成績中等的畢業(yè)生選擇繼續(xù)深造而不選擇醫(yī)生和醫(yī)藥公司的可能性明顯低于學(xué)習(xí)成績靠后的畢業(yè)生;學(xué)習(xí)成績中等的畢業(yè)生選擇繼續(xù)深造的可能性僅僅只有學(xué)習(xí)成績靠后的59.87%(P<0.01);基于此,學(xué)習(xí)成績好的傾向于繼續(xù)深造,學(xué)習(xí)成績中等的傾向于醫(yī)生,而成績較差的傾向于醫(yī)藥公司。

        ③畢業(yè)時間的影響:畢業(yè)后3年選擇繼續(xù)深造而不是醫(yī)生和醫(yī)藥公司的可能性僅僅只有剛畢業(yè)的82.53%(P<0.01),畢業(yè)后6年與剛畢業(yè)的去向比較更傾向于醫(yī)生和醫(yī)藥公司(P<0.01)。

        c.模型預(yù)測準(zhǔn)確率

        3.結(jié)果比較

        通過前面R語言程序與SPSS的統(tǒng)計分析結(jié)果比較,可以得出兩種統(tǒng)計方式結(jié)果一致。本軟件僅是調(diào)用R語言程序包,未做統(tǒng)計方法代碼的修改,所以本軟件結(jié)果即是R語言統(tǒng)計分析結(jié)果。因此,本軟件的運行結(jié)果準(zhǔn)確有效。

        討 論

        目前,國內(nèi)有公司推出了在線數(shù)據(jù)科學(xué)分析平臺[9](SPSSAU)和易侕軟件[10](EmpoertStats),能夠?qū)崿F(xiàn)自動化統(tǒng)計分析與結(jié)果輸出功能,同樣具有操作簡便、結(jié)果顯示清晰的優(yōu)點;但不足之處是費用比較高(2588元/年,200元/月等),且目前無法實現(xiàn)廣義估計方程和廣義線性混合模型的統(tǒng)計分析。

        本研究基于C#語言和R語言開發(fā)了一套針對廣義估計方程和廣義線性混合模型的統(tǒng)計分析軟件,該軟件具有數(shù)據(jù)導(dǎo)入、統(tǒng)計分析、模型選擇、分析結(jié)果和結(jié)果預(yù)測等功能,實現(xiàn)對臨床重復(fù)測量定性資料的自動化統(tǒng)計分析。實際使用中,只需選擇因變量和自變量就能自動獲取統(tǒng)計分析的相關(guān)結(jié)果,且結(jié)果與SPSS軟件統(tǒng)計分析結(jié)果一致[11-12]。該軟件完全免費,安裝后醫(yī)生可以根據(jù)收集資料的性質(zhì)與分析目的,選擇適合的統(tǒng)計分析方法和統(tǒng)計圖表,只需簡單的可視化步驟,便輸出統(tǒng)計分析結(jié)果與表達,減輕了醫(yī)生的科研統(tǒng)計壓力。不足之處是,前期進行了重復(fù)測量設(shè)計定量資料的自動化實現(xiàn),尚未進行重復(fù)測量設(shè)計生存資料的統(tǒng)計分析,這部分將在以后的研究中進一步探討。

        猜你喜歡
        效應(yīng)測量語言
        鈾對大型溞的急性毒性效應(yīng)
        懶馬效應(yīng)
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        把握四個“三” 測量變簡單
        滑動摩擦力的測量和計算
        滑動摩擦力的測量與計算
        讓語言描寫搖曳多姿
        應(yīng)變效應(yīng)及其應(yīng)用
        累積動態(tài)分析下的同聲傳譯語言壓縮
        測量
        少妇被黑人整得嗷嗷叫视频| 高清国产亚洲va精品| 亚洲国产精品午夜一区| 女人被躁到高潮嗷嗷叫免| 欧美日韩精品久久久久| 日产无人区一线二线三线新版| 亚洲无码性爱视频在线观看| 日本久久大片中文字幕| 亚洲av永久无码精品古装片| 国产chinese男男gay视频网| 日韩av一区二区毛片| 日本人妻高清免费v片| 国产在线无码不卡影视影院| 亚洲色欲色欲www在线播放| 日本理论片一区二区三区| 亚洲女同性恋第二区av| 在线观看av片永久免费| 成人欧美一区二区三区a片| 无码高清视频在线播放十区| 中文字幕有码在线人妻| 一本色道久久88亚洲精品综合| 亚洲不卡av不卡一区二区| 久久精品熟女亚洲av艳妇| 粉嫩极品国产在线观看免费一区| 国产裸体舞一区二区三区| 伊人一道本| 久久狠狠髙潮曰十八女人| 久久久99精品成人片| 久久精品无码免费不卡| 人片在线观看无码| 亚洲中文字幕日韩综合| 在熟睡夫面前侵犯我在线播放| 夜夜春精品视频| 久久精品国产亚洲av专区| 97人伦影院a级毛片| 两个人看的www中文在线观看| 成人午夜视频在线观看高清| 国产三a级三级日产三级野外 | 久草视频在线手机免费看 | 麻豆av传媒蜜桃天美传媒| 国产一区二区三区白浆在线观看|