亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

生成式人工智能在口腔醫(yī)學(xué)領(lǐng)域應(yīng)用價值的比較研究

2024-12-16 00:00:00葉元龍曾維陳金龍劉磊

華西口腔醫(yī)學(xué)雜志 2024年6期

[摘要]目的本研究旨在比較3種生成式人工智能技術(shù)（GAI）在中文語境下口腔醫(yī)學(xué)領(lǐng)域的應(yīng)用價值及其存在的問題，從而為其應(yīng)用提供參考依據(jù)。方法本研究設(shè)計(jì)了36個涵盞口腔醫(yī)學(xué)各專業(yè)的問題，包括病歷撰寫、專業(yè)知識解答、文章翻譯潤色等多個方面。將這些問題分別輸入至ChatGPT4-turbo、Gemini （2024.2）和文心一言4.0進(jìn)行回答，邀請3名經(jīng)驗(yàn)豐富的口腔醫(yī)師采用盲評法對答案進(jìn)行四級李斯特量表評估，對GAI在不同應(yīng)用場景的使用價值進(jìn)行評價。結(jié)果在臨床文書撰寫和圖片制作方面，Gemini 45分，文心一言38分，ChatGPT 33分；在科研輔助方面，Gemini 45分，文心一言39分，ChatGPT 35分；在教學(xué)輔助能力方面，文心一言54分，Gemini 50分，ChatGPT 48分；在患者咨詢和導(dǎo)診方面，Gemini 78分，文心一言59分，ChatGPT 48分。在總分方面，Gemini 218分，文心一言190分，ChatGPT 164分。在應(yīng)用場景評價中，得分最高的3項(xiàng)為文章翻譯潤色、醫(yī)患溝通文案撰寫和科普宣傳文案撰寫，分別為26、23、23分；得分最低的2項(xiàng)為指定文獻(xiàn)的搜索匯報和圖片生成，分別為13和12分。結(jié)論中文語境下在口腔醫(yī)學(xué)領(lǐng)域應(yīng)用價值從高到低依次為Gemini、文心一言和ChatGPT?？傮w來看，GAI在翻譯潤色、醫(yī)患溝通文案撰寫和科普文章撰寫方面有較大的應(yīng)用價值，在指定文獻(xiàn)的搜索匯報和圖片生成方面的應(yīng)用價值最低。

[關(guān)鍵詞]生成式人工智能，Gemini；文心一言；ChatGPT；口腔醫(yī)學(xué)

[中圖分類號]R78[文獻(xiàn)標(biāo)志碼]A[doi]10.7518/hxkq.2024.2024144

隨著生成式人工智能（generative artificial intelligence，GAI）技術(shù)的快速發(fā)展，其在醫(yī)療領(lǐng)域的應(yīng)用日益廣泛，包括提高論文寫作效率、分析數(shù)據(jù)、個性化醫(yī)療、協(xié)助臨床工作以及醫(yī)學(xué)教育等多個方面。在臨床實(shí)踐中，GAI能夠協(xié)助醫(yī)護(hù)人員完善醫(yī)療文書、放射檢查等工作，簡化流程，提高效率。同時，患者也能通過GAI獲得即時的醫(yī)學(xué)咨詢。在科研方面，GAI已成為一種強(qiáng)大的工具，特別對于非英語母語的研究人員，能顯著提升論文寫作的質(zhì)量和效率。在醫(yī)學(xué)教育領(lǐng)域，GAI不僅為醫(yī)學(xué)生提供強(qiáng)大的助學(xué)支持，還能協(xié)助教師進(jìn)行教學(xué)設(shè)計(jì)和文書生成。然而，GAI技術(shù)的應(yīng)用仍面臨不少挑戰(zhàn)。由于數(shù)據(jù)集時效性和信息真實(shí)性等問題，GAI提供的答案并非完全準(zhǔn)確，需要用戶謹(jǐn)慎鑒別和判斷。此外，如何界定GAI輔助與學(xué)術(shù)剽竊的界限等，也是當(dāng)前亟待解決的問題。

目前，市場上GAII具眾多，技術(shù)水平各異，如何選擇合適的工具以獲得最佳幫助尚無定論。鑒于此，本研究選取了3種知名的GAI工具，分別為ChatGPT4-turbo、Gemini （2024.2）、文心一言40，對其在中文語境下口腔醫(yī)學(xué)領(lǐng)域的應(yīng)用表現(xiàn)進(jìn)行分析，為后續(xù)研究和實(shí)踐提供參考依據(jù)。

1材料和方法

1.13種GAI在口腔醫(yī)學(xué)多個領(lǐng)域中文環(huán)境下的應(yīng)用表現(xiàn)比較

研究設(shè)計(jì)了36個問題，旨在考察GAI在口腔醫(yī)學(xué)多個領(lǐng)域中文環(huán)境下的應(yīng)用表現(xiàn)。這些問題涵蓋了口腔頜面外科學(xué)、牙體牙髓病學(xué)、牙周病學(xué)、黏膜病學(xué)、口腔修復(fù)學(xué)、口腔種植學(xué)、正畸學(xué)等口腔醫(yī)學(xué)所有專業(yè)方向，并根據(jù)其應(yīng)用場景分為四類，分別為臨床實(shí)踐（7個）、科研工作（7個）、教學(xué)工作（12個）、患者咨詢及導(dǎo)診（10個）。這些問題涉及病歷撰寫、專業(yè)知識解答、文章翻譯潤色等多個方面。通過這些問題來評估3種GAI在口腔醫(yī)學(xué)領(lǐng)域的專業(yè)知識掌握程度，并驗(yàn)證其在提高醫(yī)生工作效率以及為患者提供咨詢和導(dǎo)診服務(wù)方面的潛力。

采用ChatGPT4-turbo、Gemini （2024.2）以及文心一言4.0分別對這36個問題進(jìn)行回答。選取臨床經(jīng)驗(yàn)在10年以上的3名口腔醫(yī)師獨(dú)立采用盲法進(jìn)行評估。

1.2評估方法

本研究采用一份四級李斯特量表對GAI的回答進(jìn)行綜合評價。評價系統(tǒng)包括一份3種GAI在相關(guān)問題中回答表現(xiàn)的四級李斯特量表，以及一份GAI在不同應(yīng)用場景中使用價值的調(diào)查表。

李斯特量表評分規(guī)則：根據(jù)其完整性、專業(yè)性和可讀性等方面進(jìn)行綜合評分，分?jǐn)?shù)范圍為0-3分，其中3分代表最佳表現(xiàn)，2分則代表中等表現(xiàn)，1分代表最差表現(xiàn)；若答案中存在可能導(dǎo)致嚴(yán)重不良后果（如錯誤決策、錯誤操作、引發(fā)并發(fā)癥或危及患者）的錯誤、虛構(gòu)或誤解等風(fēng)險因素，則該項(xiàng)得分為0分。若某問題的多個答案表現(xiàn)相近，可賦予相同分?jǐn)?shù)（如3項(xiàng)均給2分）。最終，各問題得分累加形成總評價分?jǐn)?shù)，用于各大類及總體表現(xiàn)的對比分析，以得出最終評價結(jié)論。

在此基礎(chǔ)上，由上述3名醫(yī)生對GAI在不同應(yīng)用場景中的使用價值進(jìn)行評分。滿分為10分，分?jǐn)?shù)越高則視為在該條件中幫助越大，并將3位醫(yī)生的評分相加獲得最終結(jié)果。

2結(jié)果

2.13種GAI在口腔醫(yī)學(xué)多個領(lǐng)域中文環(huán)境下的應(yīng)用表現(xiàn)比較

2.1.1臨床文書撰寫和圖片制作

在臨床文書撰寫和圖片制作方面，3種GAI的應(yīng)用價值評分從高到低分別為Gemini、文心一言、ChatGPT（表1）。

2.1.2科研輔助能力

在科研輔助方面，3種GAI的應(yīng)用價值評分從高到低分別為Germini、文心一言、ChatGPT（表2）。

2.1.3教學(xué)輔助能力

在教學(xué)輔助方面，3種GAI的應(yīng)用價值評分從高到低分別為：文心一言、Gemini和ChatGPT（表3）。

2.1.4患者咨詢和導(dǎo)診

在患者咨詢和導(dǎo)診方面，3種GAI的應(yīng)用價值評分從高到低分別為Gemini、文心一言、ChatG-PT（表4）。

2.1.5總分

3種GAI在不同問題類別中的總分見表5，在口腔相關(guān)領(lǐng)域應(yīng)用價值由高到低依次為Gemini、文心一言、ChatGPT。

2.2GAI在不同應(yīng)用場景中使用價值的調(diào)查

GAI在不同應(yīng)用場景的價值評分見表6。得分最高的3項(xiàng)為文章翻譯潤色、醫(yī)患溝通文案撰寫和科普文章文案撰寫，分別為26、23、23分；得分最低的2項(xiàng)為指定文獻(xiàn)的搜索匯報和圖片生成，分別為13和12分。

3討論

近年來，GAI在自然語言處理領(lǐng)域取得了突破性進(jìn)展，展現(xiàn)出與人類流暢對話和生成連貫文本的能力，并在生物醫(yī)學(xué)領(lǐng)域引起了廣泛關(guān)注。眾多研究者致力于探索人工智能工具在醫(yī)學(xué)臨床、科研、教學(xué)等領(lǐng)域的應(yīng)用，取得了豐富的成果。多種GAI模型已在口腔醫(yī)學(xué)領(lǐng)域得到初步應(yīng)用。然而，且前并未見GAI在口腔醫(yī)學(xué)領(lǐng)域應(yīng)用價值的研究。鑒于此，本研究選取了國內(nèi)外具有代表性的3種GAI模型進(jìn)行測試，旨在探究它們在口腔醫(yī)療領(lǐng)域中的最佳應(yīng)用效果。

ChatGPT作為OpenAI公司于2022年底推出的大型語言模型聊天機(jī)器人，以GAI為技術(shù)基礎(chǔ)，已廣泛應(yīng)用于對話系統(tǒng)、文本摘要和機(jī)器翻譯等領(lǐng)域。ChatGPT的出現(xiàn)標(biāo)志著自然語言處理領(lǐng)域的一大飛躍。2023年2月，谷歌推出了自己的GAI模型Bard，同年12月，谷歌發(fā)布了新型多模態(tài)模型Gemini，并開始了與Bard的整合與升級，并在2024年2月正式將Bard模型改名為Gemini。在國內(nèi)，GAI領(lǐng)域仍處于追趕階段。多家廠商紛紛宣布推出自己的人工智能大語言模型，其中百度于2023年8月開放訪問的文心一言大語言模型備受矚目。為全面評估各模型性能，本文將上述3種模型應(yīng)用于口腔醫(yī)學(xué)領(lǐng)域，對其進(jìn)行比較和分析，驗(yàn)證其與專業(yè)醫(yī)生專業(yè)能力、思維方式等方面的差異。

醫(yī)患溝通是臨床工作中非常重要的環(huán)節(jié)，直接關(guān)系到診療過程能否順利推進(jìn)，良好的醫(yī)患溝通能力是每一名口腔醫(yī)生都應(yīng)該具備的專業(yè)素養(yǎng)。但在日常工作中，由于患者數(shù)量龐大，醫(yī)生有時無法做到充分的醫(yī)患溝通。此外，醫(yī)生還需要承擔(dān)部分宣傳、科普、病歷書寫等一系列任務(wù)，這都將分散醫(yī)生真正投入治療的時間與精力。隨著GAI的逐步發(fā)展，通過這一工具減輕口腔醫(yī)生工作量的可能性逐步提升，為此本研究設(shè)置了一系列問題以驗(yàn)證可行性。結(jié)果表明：在涉及文案撰寫生成的題目中，文心一言表現(xiàn)最佳（2項(xiàng)第一、1項(xiàng)并列第一、2項(xiàng)第二），這可能與其有中文訓(xùn)練、擁有最佳的中文支持度有關(guān)。然而，在臨床方向的總體評分中，文心一言仍低予Gemini，因?yàn)槲男囊谎栽谝坏缊D片生成題目和一道信息搜索題目中均得分較低，而Gemini則在這兩個問題中均獲得了最高分。這可能與文心一言多模態(tài)能力不足、無法聯(lián)網(wǎng)搜索有關(guān)。雖然文心一言能夠根據(jù)關(guān)鍵詞生成一些簡單的圖片，但這些圖片可靠性不高。其主要原因是無法聯(lián)網(wǎng)搜索導(dǎo)致文心一言只能依賴其內(nèi)置的數(shù)據(jù)庫，因其數(shù)據(jù)庫在內(nèi)容量、時效性等方面尚存在問題，致使文心一言的部分答案不系統(tǒng)、不準(zhǔn)確與不適用。

在科研工作中，文獻(xiàn)的精準(zhǔn)檢索與閱讀是開展研究工作的基礎(chǔ)之一，借助人工智能工具快速完成文獻(xiàn)篩選與內(nèi)容閱讀能夠極大提高科研前期工作效率。本研究的結(jié)果顯示：人工智能工具確實(shí)可以協(xié)助科研工作者完成部分前期文獻(xiàn)搜集閱讀工作，在指定方向的論文檢索中，ChatGPT能夠根據(jù)關(guān)鍵詞在PubMed網(wǎng)上檢索相關(guān)論文并提供鏈接，Genmini則能夠從更多的網(wǎng)站中檢索內(nèi)容，兩者也能在一定程度上完成相關(guān)文獻(xiàn)內(nèi)容的閱讀、翻譯與總結(jié)，對于科研工作者可提供部分幫助。由于無法聯(lián)網(wǎng)搜索，文心一言只能夠從其內(nèi)置數(shù)據(jù)庫中檢索內(nèi)容，而這種非及時更新的搜索結(jié)果很難真正幫助到研究人員。與此同時，無法聯(lián)網(wǎng)也意味著對于指定論文的檢索、閱讀、翻譯與總結(jié)等任務(wù)幾乎無法完成。

撰寫綜述和課題申請書也是重要的科研工作，因此，本研究設(shè)計(jì)了相關(guān)測試。結(jié)果表明，在內(nèi)容撰寫方面，無論是綜述還是課題申請書，三者都無法直接生成完整的、可用的內(nèi)容，而只能以大綱的形式完成回答。經(jīng)過評估，3種GAI生成大綱均有一定的參考價值，可為科研工作者提供一定的指導(dǎo)和幫助。在上述場景中，Oemini的表現(xiàn)最佳。

研究人員在論文寫作時為了完成一篇高水平的文章常需要花費(fèi)更多的時間在潤色和翻譯等語言工作，這對于非英語母語的人來說往往意味著花費(fèi)更多的時間。GAI為此提供了新的方法，本研究采用中文文獻(xiàn)輸入GAI中進(jìn)行文章潤色，結(jié)果顯示文心一言完成最好，其內(nèi)容可以基本滿足文章投稿的要求。

教學(xué)工作常從教案書寫與教學(xué)PPT的制作開始，與上文中文案撰寫與提綱設(shè)計(jì)的題目類似，GAI的回答依舊有一定的參考價值，文心一言在這一部分中依舊憑借高中文支持度表現(xiàn)最佳。值得注意的是，在涉及到專業(yè)相關(guān)知識的簡單問題中，GAI雖然可以完成簡單的答疑工作，但其回答中仍不時存在錯誤，不能替代教師的工作，在使用時需要特別謹(jǐn)慎。在涉及到邏輯推斷和比較的問題中，3種GAI均表現(xiàn)不佳。在涉及到圖片生成的題目中，針對明確規(guī)定了要求的圖片，僅Gemini在網(wǎng)絡(luò)中找到了合適的模板并成功繪制出具有應(yīng)用價值的圖片，這再次驗(yàn)證了其多模態(tài)的優(yōu)勢。

對于患者來說，優(yōu)質(zhì)的診前咨詢能夠最大程度地減少由于選錯醫(yī)院或科室而帶來的時間成本，也有助于患者和家屬加強(qiáng)對疾病、治療和預(yù)后的了解。GAI全天候在線、及時回復(fù)、較低使用成本的優(yōu)勢能夠?yàn)闈M足患者及時診療的需求提供新的選擇。與第一部分研究結(jié)果類似，在文案生成類的題目中，文心一言與Gemini均表現(xiàn)良好。但當(dāng)涉及到邏輯推斷與比較時（如醫(yī)院選擇、導(dǎo)醫(yī)、治療方案咨詢等），文心一言往往不能得出最合理的答案，而Gemuu的回答仍具有較高的參考價值。

綜上所述，在中文環(huán)境下口腔醫(yī)學(xué)領(lǐng)域的應(yīng)用中，3種GAI的總體使用價值從高到低依次為Gemini、文心一言、ChatGPT。Gemini在專業(yè)知識介紹、信息檢索、文獻(xiàn)檢索與翻譯、圖片生成方面表現(xiàn)最佳，在各類文案、大綱生成方面的問題，其能力也僅稍弱于文心一言。這與其較高的中文支持度、優(yōu)秀的多模態(tài)性能及強(qiáng)大的互聯(lián)網(wǎng)搜索能力相關(guān)。文心一言在涉及到中文文案內(nèi)容生成、中英文互譯的題目中表現(xiàn)出色，該部分評分高于Gemini，但是由于文心一言多模態(tài)能力較弱且尚未開放聯(lián)網(wǎng)搜索功能，其在涉及圖片生成及無法從其數(shù)據(jù)庫中獲得答案的題目時表現(xiàn)不佳。ChatGPT總體來看對于中文的支持度并不高，與其他2種GAI相比優(yōu)勢并不突出。

在上述研究基礎(chǔ)上，本研究還對GAI在口腔醫(yī)學(xué)各應(yīng)用場景中的使用價值進(jìn)行了調(diào)查，結(jié)果顯示：在醫(yī)療文書書寫方面，GAI能夠提取關(guān)鍵信息并完善基本結(jié)構(gòu)，具體細(xì)節(jié)經(jīng)醫(yī)務(wù)人員校對修改后即可使用。在醫(yī)患溝通文案撰寫環(huán)節(jié)，GAI能較系統(tǒng)、全面地提供信息，基本滿足患者需求，經(jīng)醫(yī)務(wù)人員微調(diào)后即可使用。在科普宣傳方面，OAI能全面撰寫相關(guān)內(nèi)容并提供圖片供參考，語法邏輯通順，易于閱讀。然而，在圖片生成方面，3種GAI中僅Gemini可通過互聯(lián)網(wǎng)直接引用部分圖片，但仍有待完善。在專業(yè)知識問答環(huán)節(jié)中，GAI提供的內(nèi)容具有一定的參考價值，但可靠性仍存在一定問題，需要專業(yè)人員認(rèn)真校對。文獻(xiàn)檢索匯報方面，GAI整體表現(xiàn)較差，甚至存在無法檢索或虛構(gòu)的情況，缺乏實(shí)用價值。在文章翻譯潤色方面，GAI表現(xiàn)良好，尤其是文心一言，對研究者具有實(shí)際價值。在項(xiàng)目申請撰寫、教學(xué)設(shè)計(jì)和醫(yī)療咨詢導(dǎo)診方面，GAI雖能提供一定的參考，但內(nèi)容中可能存在的紕漏及虛構(gòu)，需使用者認(rèn)真查證。

總體來看，GAI在醫(yī)患溝通、科普宣傳與文獻(xiàn)翻譯潤色方面能提供較大幫助；在涉及專業(yè)知識及實(shí)際操作的領(lǐng)域，其幫助有限，僅可作為參考。因此，在使用GAI時，特別是在涉及專業(yè)知識的方面，使用者需保持警惕，審慎對待其生成的內(nèi)容。

目前人工智能評價體系可以分為客觀評價和主觀評價。前者包括準(zhǔn)確性、速度、可靠性和靈活性等。這些指標(biāo)能夠直接反映人工智能系統(tǒng)在處理任務(wù)時的性能和質(zhì)量。后者則包括界面的友好性、功能的實(shí)用性、系統(tǒng)的穩(wěn)定性以及整體的用戶體驗(yàn)等，能夠集中反映人工智能系統(tǒng)在特定場景的應(yīng)用價值。本研究的目的是比較3種GAI在中文語境下口腔醫(yī)學(xué)領(lǐng)域的應(yīng)用價值及其存在的問題，因此選擇了主觀評價方案。具體來說，本研究選用了李斯特量表對3種人工智能工具進(jìn)行評價。李斯特量表是由美國社會心理學(xué)家倫斯·李斯特（Rensis Likert）于1932年提出的，它是一種評分加總式量表，其設(shè)計(jì)目的是測量態(tài)度、看法或者感受等。李斯特量表最初是為心理學(xué)和社會科學(xué)研究設(shè)計(jì)的，但其評分和衡量態(tài)度的機(jī)制近年來被廣泛用于軟件和人工智能工具的評價。

雖然本研究證明了GAI在口腔醫(yī)學(xué)領(lǐng)域的廣闊應(yīng)用前景，但也應(yīng)注意，GAI在倫理和學(xué)術(shù)不端方面存在的問題日益凸顯。這主要源于其強(qiáng)大的內(nèi)容生成能力和可能帶來的誤導(dǎo)性影響。本研究的結(jié)果也證明了這一點(diǎn)，對于少數(shù)問題，GAI生成的內(nèi)容可能不準(zhǔn)確或誤導(dǎo)用戶。在學(xué)術(shù)不端方面，GAI的濫用也已成為一個不能忽視的問題。一些學(xué)生和研究人員可能利用AII具進(jìn)行論文和課程作業(yè)的抄襲，這不僅損害了學(xué)術(shù)誠信，也阻礙了知識的創(chuàng)新和進(jìn)步。因此，針對GAI在口腔醫(yī)學(xué)的應(yīng)用，必須通過加強(qiáng)倫理考量、建立嚴(yán)格的學(xué)術(shù)規(guī)范和監(jiān)管機(jī)制、加強(qiáng)跨學(xué)科合作與交流以及關(guān)注可持續(xù)發(fā)展等方法，才能確保GAI的健康發(fā)展。另外，人工智能模型發(fā)展迅速，不斷更新，但模型的版本之間具有連貫性，讀者依舊可以參考本研究對更新內(nèi)容進(jìn)行評估，選取合適的模型使用。

綜上所述，在口腔醫(yī)學(xué)領(lǐng)域應(yīng)用價值從高到低依次為Gemini、文心一言、ChatGPT?？傮w來看，GAI在翻譯潤色、醫(yī)患溝通文案撰寫和科普文章撰寫方面有較大的應(yīng)用價值，在指定文獻(xiàn)的搜索匯報和圖片生成方面的應(yīng)用價值最低。

利益沖突聲明：作者聲明本文無利益沖突。

華西口腔醫(yī)學(xué)雜志2024年6期

華西口腔醫(yī)學(xué)雜志的其它文章: 不明原因根尖周炎為首診癥狀的低血磷性佝僂病1例; 正頜術(shù)中惡性高熱1例; 舌GLI1基因改變的間葉性腫瘤1例并文獻(xiàn)復(fù)習(xí); 數(shù)字化輔助下雙窗法微創(chuàng)摘除伴高位埋伏尖牙的牙痛1例; 口內(nèi)掃描配準(zhǔn)種植機(jī)器人在種植牙手術(shù)中的應(yīng)用; 基于混合現(xiàn)實(shí)與人工智能算法在股前外穿支血管定位中的前瞻性研究