亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

醫(yī)學(xué)論文中成組t檢驗P值錯誤及其原因分析

2018-12-25 03:45:18相丹風(fēng)周英智

中國科技期刊研究 2018年12期

■相丹風(fēng) 高永周英智

1)《醫(yī)學(xué)綜述》雜志社，北京市通州區(qū)北苑通典銘居F座806室 1011002)濱州醫(yī)學(xué)院《中國醫(yī)院統(tǒng)計》編輯部，山東省煙臺市萊山區(qū)觀海路346號 2640033)山東大學(xué)科技期刊社，山東省濟(jì)南市山大南路27號 250100

P值是醫(yī)學(xué)論文重要的統(tǒng)計學(xué)內(nèi)容，是最終準(zhǔn)確推斷結(jié)論的重要依據(jù)，如果P值出現(xiàn)錯誤，就會嚴(yán)重影響對結(jié)果的正確判斷，甚至得出與事實相反的結(jié)論。美國統(tǒng)計學(xué)會理事會于2016年發(fā)表了P值聲明[1]，引起了學(xué)者們對P值更高度的重視。t檢驗是最常用的統(tǒng)計方法之一[2-3]，編輯同仁對醫(yī)學(xué)論文中t檢驗的應(yīng)用情況進(jìn)行了大量調(diào)查，發(fā)現(xiàn)其中存在很多問題，例如對不符合正態(tài)分布或方差不齊的2組資料進(jìn)行成組t檢驗[4-5]，使用t檢驗處理多組間或重復(fù)測量設(shè)計的資料等[2,6-7]。高永等[8]研制了基于 Excel 的統(tǒng)計分析系統(tǒng)，對于完全隨機(jī)設(shè)計的2個樣本均數(shù)的比較，可以輸入論文中樣本例數(shù)、均數(shù)、標(biāo)準(zhǔn)差，系統(tǒng)根據(jù)方差齊性檢驗結(jié)果自動選擇t或t′檢驗，并且給出具體的t(或t′)值和P值。筆者在工作中利用該系統(tǒng)檢驗來稿的數(shù)據(jù)時，發(fā)現(xiàn)t檢驗中P值錯誤較多。查閱相關(guān)文獻(xiàn)，發(fā)現(xiàn)有關(guān)t檢驗P值判斷錯誤的系統(tǒng)調(diào)查報道較少。所以，本研究以成組t檢驗(又稱獨立樣本t檢驗)為例，利用該系統(tǒng)調(diào)查公開發(fā)表的醫(yī)學(xué)論文中出現(xiàn)P值錯誤的情況，并分析導(dǎo)致P值錯誤的原因，以期引起編輯同仁對統(tǒng)計學(xué)結(jié)果錯誤的高度重視，并采取有力措施來提高醫(yī)學(xué)論文的統(tǒng)計學(xué)質(zhì)量。

1 資料與方法

1.1 資料來源

對中國知網(wǎng)數(shù)據(jù)庫收錄的296種綜合醫(yī)藥衛(wèi)生期刊(http://navi.cnki.net/KNavi/Journal.html#)按下列條件進(jìn)行檢索：全文出現(xiàn)“成組t檢驗”“獨立樣本t檢驗”或“t檢驗”，發(fā)表時間為2014—2018年。按時間順序排序，每種期刊盡可能選用最新發(fā)表的1篇論文。每篇論文選擇1項成組t檢驗，錄入2組例數(shù)、均數(shù)、標(biāo)準(zhǔn)差及t值、P值。若原文中沒有明確說明成組t檢驗或獨立樣本t檢驗，只說明使用t檢驗，筆者將對其進(jìn)行核實，確保所用方法為成組t檢驗，排除配對t檢驗、秩和檢驗等。

1.2 方差齊性判斷及論文中P值的核驗

具體方法見文獻(xiàn)[8]。因為本研究所納入的成組t檢驗均未提及單側(cè)檢驗，所以P值采用雙側(cè)檢驗結(jié)果。如果測算的t(或t′)值和P值與論文中差別較大，則懷疑論文中的數(shù)據(jù)錯誤。考慮到“四舍五入”的情況，利用均數(shù)、標(biāo)準(zhǔn)差計算的結(jié)果與利用原始數(shù)據(jù)計算的結(jié)果可能存在一定偏差，但是差別不應(yīng)太大。進(jìn)一步利用該系統(tǒng)測算t(或t′)值和P值因均數(shù)、標(biāo)準(zhǔn)差的“四舍五入”造成的波動范圍，如果論文結(jié)果在這個范圍外，則確定原文結(jié)果錯誤。例如某研究設(shè)觀察組、對照組各60例，觀察組麻醉時間為(66.5±2.7) min，對照組為(68.4±3.1) min，2組比較t=0.721，P>0.05[9]。利用軟件對上述結(jié)果進(jìn)行核驗，2組資料方差齊，t=3.580，P=0.0005(雙側(cè))，與論文結(jié)果差別較大。根據(jù)2個樣本均數(shù)比較t(t′)檢驗計算公式，在樣本數(shù)量不變的情況下，2個均數(shù)差值越大、標(biāo)準(zhǔn)差越小，則t(或t′)越大、P值越小，反之亦然?？紤]到“四舍五入”因素，均數(shù)66.5的精確值在66.45與66.55之間，同理可以給出其他均數(shù)、標(biāo)準(zhǔn)差的精確值所在范圍。據(jù)此，可以計算出因均數(shù)、標(biāo)準(zhǔn)差的“四舍五入”造成的P值波動范圍為0.0002～0.0011，由此可以確定原文P>0.05錯誤。

1.3 納入分析的因素

(1)是否為核心期刊[10]。有學(xué)者比較核心期刊與非核心期刊文獻(xiàn)數(shù)量增長速度[11]、篇尾空白處理[12]等方面的差別，受此啟發(fā)，筆者嘗試比較核心期刊與非核心期刊成組t檢驗P值錯誤的比例。(2)樣本量大小。成組t檢驗要求資料符合正態(tài)分布以及方差齊。樣本量較大時，對非正態(tài)分布、方差不齊的2組資料比較采用成組t檢驗，可能對結(jié)果影響不大，但對于小樣本資料結(jié)果影響較大。(3)方差齊性。2組定量資料比較時，如果方差不齊，不能采用成組t檢驗，而應(yīng)當(dāng)采用t′檢驗或秩和檢驗，如果誤用成組t檢驗，則會影響P值。(4)t值及具體P值。醫(yī)學(xué)論文應(yīng)當(dāng)給出確切的統(tǒng)計量和P值，醫(yī)學(xué)論文中缺少具體統(tǒng)計量及P值的問題已經(jīng)引起了編輯同仁的重視[13-14]。本研究嘗試分析是否給出t值及具體P值與P值錯誤是否有關(guān)。

1.4 統(tǒng)計學(xué)處理

采用SPSS 22.0軟件進(jìn)行數(shù)據(jù)處理，采用相對數(shù)對P值錯誤進(jìn)行表述，應(yīng)用χ2檢驗對2組間差異進(jìn)行單因素分析，利用Mantel-Haenszel法進(jìn)行分層分析，采用二項式logistic回歸進(jìn)行多因素分析，檢驗水準(zhǔn)α=0.05(雙側(cè))。

2 結(jié)果

2.1 基本情況

296種期刊中，除去?？⒔晡幢皇珍?、未檢索到合適論文等60種期刊，納入統(tǒng)計期刊共236種，每種期刊選擇1項成組t檢驗。其中2014年1項，2015年4項，2016年14項，2017年83項，2018年134項；50項存在P值錯誤，占比21.19%。

2.2 P值錯誤單因素分析

2.2.1 是否為核心期刊

236項成組t檢驗中，109項來自核心期刊，占比46.19%，127項來自非核心期刊，占比53.81%。核心期刊P值錯誤共30項，占比27.52%，非核心期刊P值錯誤共20項，占比15.75%，2組差異具有統(tǒng)計學(xué)意義。

2.2.2 樣本量大小

根據(jù)文獻(xiàn)[15]的方法，將2組中至少1組樣本量≤60定義為小樣本資料。236項成組t檢驗中，43項為大樣本資料，占比18.22%，193項為小樣本資料，占比81.78%。大樣本組P值錯誤9項，占比20.93%，小樣本組P值錯誤41項，占比21.24%，2組差異無統(tǒng)計學(xué)意義。

2.2.3 方差齊性

236項成組t檢驗中，方差齊171項，占比72.46%，方差不齊65項，占比27.54%。方差齊組的P值錯誤31項，占比18.13%，方差不齊組的P值錯誤19項，占比29.23%，2組差異無統(tǒng)計學(xué)意義。

2.2.4 是否給出t值

236項成組t檢驗中，給出t值152項，占比64.41%，未給出t值84項，占比35.59%。給出t值組P值錯誤34項，占比22.37%，未給出t值組P值錯誤16項，占比19.05%，2組差異無統(tǒng)計學(xué)意義。

2.2.5 是否給出具體P值

總體分為給出和未給出具體P值，前者包括P值為0.00、0.000、0.0000和其他具體值。實際P值并不等于0，當(dāng)P值太小時，統(tǒng)計軟件會四舍五入為P=0.0000，在論文中應(yīng)描述為P<0.001或P<0.0001[16-18]。因此，將二者也歸為給出具體P值。其他為未給出具體P值，包括P<0.01、P<0.05、P>0.05、P>0.1。236種期刊中，給出具體P值126項，占比53.39%，未給出具體P值110項，占比46.61%。給出具體P值組中P值錯誤39項，占比30.95%，未給出具體P值組中P值錯誤11項，占比10.00%，2組差異具有統(tǒng)計學(xué)意義。

以上單因素分析結(jié)果見表1。

表1 236項成組t檢驗P值錯誤單因素分析

2.3 P值錯誤分層分析

將是否給出具體P值作為混雜因素，采用Mantel-Haenszel分層分析法比較核心期刊與非核心期刊P值錯誤發(fā)生率，結(jié)果表明差異無統(tǒng)計學(xué)意義(χ2=2.703，P=0.100)。

2.4 P值錯誤多因素分析

各變量的賦值情況見表2。將上述因素均納入模型，得到236項成組t檢驗P值錯誤二項式logistic回歸分析結(jié)果(表3)。可以看出，是否方差齊(OR值為0.470，95%CI為0.230～0.961)、是否給出具體P值(OR值為5.459，95%CI為2.311～12.895)具有統(tǒng)計學(xué)意義。

表2 各變量的賦值情況

表3 236項成組t檢驗P值錯誤二項式logistic回歸分析

3 原因分析與建議

本研究發(fā)現(xiàn)，醫(yī)學(xué)論文成組t檢驗中P值錯誤發(fā)生率高達(dá)21.19%，嚴(yán)重影響了論文的學(xué)術(shù)質(zhì)量，需要引起高度重視。其可能原因主要包括：統(tǒng)計分析軟件操作失誤；寫作過程中P值筆誤；寫作過程中樣本例數(shù)、均數(shù)、標(biāo)準(zhǔn)差數(shù)據(jù)筆誤，造成核驗P值本身錯誤而誤判；統(tǒng)計方法不當(dāng)，例如符合正態(tài)分布但方差不齊時沒用t′檢驗；手工計算錯誤；排版錯誤；數(shù)據(jù)造假等。為避免成組t檢驗P值錯誤，提高醫(yī)學(xué)論文的統(tǒng)計學(xué)質(zhì)量，提出以下建議。

(1) 重視成組t檢驗的應(yīng)用條件。進(jìn)行成組t檢驗，特別是樣本量較小時，用于2組比較的資料必須符合正態(tài)分布。筆者在收集研究資料的過程中發(fā)現(xiàn)，資料不符合正態(tài)分布的情況較為常見。例如某研究采用成組t檢驗比較膽管癌和膽總管結(jié)石患者血清 CA199 水平，2組數(shù)值分別為(413.09±355.35) U/mL和(183.48±322.24) U/mL，標(biāo)準(zhǔn)差接近甚至超過均數(shù)，初步可以判斷為非正態(tài)分布[19]。應(yīng)當(dāng)首先對數(shù)據(jù)進(jìn)行正態(tài)分布檢驗，若為非正態(tài)分布，改為中位數(shù)及四分位間距描述，采用 Wilcoxon 秩和檢驗進(jìn)行2組比較[20-21]。

成組t檢驗的另一個應(yīng)用條件是方差齊，如果符合正態(tài)分布但方差不齊應(yīng)該取t′檢驗的P值。但本組資料方差不齊的比例高達(dá)27.54%，均未提及采用t′檢驗，由此推測，許多方差不齊的2組比較很可能采用的是成組t檢驗的P值，導(dǎo)致P值不精確甚至錯誤。二項式logistic回歸分析結(jié)果也顯示，方差齊減少了P值錯誤的可能性。如果統(tǒng)計學(xué)方法選擇錯誤，統(tǒng)計學(xué)處理結(jié)果的正確性將無從談起，因此編輯審核稿件時，一定要首先審核所用的統(tǒng)計學(xué)方法是否正確。

(2) 要求論文作者給出觀察指標(biāo)的描述分析。例如比較2組正態(tài)分布的資料時，要求作者給出樣本量、均數(shù)、標(biāo)準(zhǔn)差等指標(biāo)，這是論文寫作的基本要求，也便于利用這些數(shù)據(jù)核實統(tǒng)計推斷結(jié)果。如果覺得結(jié)果可疑，可以請作者提供原始數(shù)據(jù)，通過統(tǒng)計學(xué)軟件進(jìn)行核查。

(3) 要求論文作者給出統(tǒng)計量和具體P值。醫(yī)學(xué)論文要給出確切的統(tǒng)計量和P值，包括中華醫(yī)學(xué)會系列雜志在內(nèi)的許多醫(yī)學(xué)期刊都對此做出了明確要求[22-23]。但本研究發(fā)現(xiàn)，236項成組t檢驗中，未給出t值和具體P值的比例分別高達(dá)35.59%和46.61%。不給出t值和具體P值，不利于判斷2組比較統(tǒng)計學(xué)差異的具體程度。另外，本研究結(jié)果顯示，給出具體P值的論文中P值錯誤發(fā)生率較高，主要因為本研究所用的判別方法更容易發(fā)現(xiàn)具體P值的錯誤。例如文獻(xiàn)[24]比較痛經(jīng)女性組與正常女性組經(jīng)期 SCL-90 各因素的均值，其中“強(qiáng)迫”一項的P值為0.003，筆者利用文中數(shù)據(jù)測算的結(jié)果是P值為0.0003，波動范圍為0.0003～0.0004，因此判斷原文P值錯誤。如果原文給出的不是具體值，而是P<0.01或P<0.05，則不會判為錯誤。

4 結(jié)語

統(tǒng)計學(xué)處理是醫(yī)學(xué)論文的重要內(nèi)容，統(tǒng)計學(xué)結(jié)果錯誤將嚴(yán)重影響論文的學(xué)術(shù)質(zhì)量。利用基于Excel 的統(tǒng)計分析系統(tǒng)核驗了中國知網(wǎng)收錄的綜合醫(yī)藥衛(wèi)生期刊中成組t檢驗的P值，發(fā)現(xiàn)P值錯誤較多，必須引起高度重視。期刊編輯應(yīng)當(dāng)重視對統(tǒng)計學(xué)方法應(yīng)用條件的審查；要求作者給出統(tǒng)計描述以及統(tǒng)計推斷的具體結(jié)果，必要時請作者提供原始數(shù)據(jù)，通過統(tǒng)計學(xué)軟件進(jìn)行核查，嚴(yán)防統(tǒng)計數(shù)據(jù)造假等學(xué)術(shù)不端現(xiàn)象；可以利用簡單易學(xué)的統(tǒng)計學(xué)軟件核實P值；做好校對工作，及時發(fā)現(xiàn)排版導(dǎo)致的錯誤。由于本研究只調(diào)查了綜合醫(yī)藥衛(wèi)生期刊，結(jié)果可能與國內(nèi)醫(yī)學(xué)期刊的整體情況有一定出入，有待擴(kuò)大范圍做進(jìn)一步的深入研究。