李驍天 胡良平 尚熙明 陳榮志
關(guān)鍵詞:體育科學研究;大型語言模型;ChatGPT;重塑;應(yīng)用
在信息爆炸的今天,數(shù)據(jù)成為了科學研究的重要基石。如何高效、準確地從海量數(shù)據(jù)中提取有價值的信息,已經(jīng)成為當代科研工作者面臨的重大挑戰(zhàn)。這一挑戰(zhàn)并不僅僅局限于傳統(tǒng)的自然科學領(lǐng)域,體育科學研究也同樣面臨如何從海量數(shù)據(jù)中提取有價值的信息的問題。近年來,隨著大型語言模型(large-scale language
model,LLM)的發(fā)展與應(yīng)用,我們看到了解決這一問題的可能性。然而,大型語言模型并不只是一個解決問題的工具,它更是在悄無聲息中改變并重塑著體育科學研究。本文將以O(shè)penAI公司發(fā)布的大型語言模型——ChatGPT為例,深入探討這一現(xiàn)象。ChatGPT的發(fā)布,逐步展現(xiàn)出人工智能在輔助科研工作方面的強大潛力。經(jīng)過海量文本數(shù)據(jù)的訓練,ChatGPT能夠與用戶進行流暢的對話,并生成看似類人、智能的文本。2023年3月14日.ChatGPT升級為GPT-4.0.并增設(shè)了應(yīng)用市場(plug-in),使其成為了一個功能豐富的生態(tài)系統(tǒng),允許研究人員根據(jù)任務(wù)需求從市場中選擇對應(yīng)的插件應(yīng)用。此進展無疑標志著“AIl.0到AI2.0”的新契機已經(jīng)來臨。對于體育科學研究而言,ChatGPT式的啟發(fā)性內(nèi)容生成、對話情景理解、序列任務(wù)執(zhí)行、程序語言解析與人工智能生成內(nèi)容(AIgenerated content,AIGC)的到來,勢必將引起體育科學研究一場數(shù)智化的變革。
大型語言模型的采用對體育科學研究提供了一種全新的研究工具。借助ChatGPT的功能,研究者能夠更有效地從海量的體育相關(guān)數(shù)據(jù)中提取有價值的信息,從而對運動員的身體狀況、運動表現(xiàn)等進行深入分析。此外,通過程序語言解析與AIGC的功能,研究者甚至可以模擬各種體育競技場景,為運動員的訓練和比賽提供數(shù)據(jù)支持。然而,大型語言模型不只是帶來了研究優(yōu)勢,更是在改變并重塑著體育科學研究。例如:大型語言模型在文獻分析、定量分析、定性分析以及可視化技術(shù)等各個方面都產(chǎn)生了深遠的影響。體育科研工作者必須認識到,大型語言模型也給體育科學研究帶來了一些挑戰(zhàn)和問題,主要有如何有效地處理和分析大規(guī)模的數(shù)據(jù),模型的不透明性如何影響我們對研究結(jié)果的理解和評價。
本文將深入探討這些問題,并以此為契機,進一步理解大型語言模型在體育科學研究中的應(yīng)用和影響,同時也將關(guān)注使用這些模型可能帶來的挑戰(zhàn)和問題。通過本文的探討,希望能為未來的相關(guān)研究提供一些啟示,以更好地利用這些強大的模型,推動體育科學研究的發(fā)展。全文框架如下:首先,概述大型語言模型的發(fā)展及其形式;其次,對大型語言模型給體育科學研究帶來的優(yōu)勢和機遇展開探討;再次,詳細分析大型語言模型如何重塑體育科學研究;最后,結(jié)合重塑繼而探討大型語言模型在體育科學研究中的局限、挑戰(zhàn),以及對未來研究的啟示。
1大型語言模型概述
1.1大型語言模型的發(fā)展演進
大型語言模型是人工智能(AI)的一種技術(shù),它是一種利用自然語言處理(natural language process-ing,NLP)技術(shù)來理解、生成和處理人類語言的機器學習模型,這類模型直接可以用人類自然語言進行對話,而不需要編程。其發(fā)展可以追溯到20世紀50年代的計算機科學重要分支——自然語言處理,側(cè)重于編程使計算機理解和生成人類語言,重點是如何讓計算機處理和理解人類語言。在大型語言模型發(fā)展的早期階段,它是基于N-gram統(tǒng)計語言模型來運行的,但該模型存在數(shù)據(jù)稀疏性和泛化能力差的問題,無法很好地處理復(fù)雜的自然語言任務(wù)。隨著統(tǒng)計學、計算機硬件技術(shù)的發(fā)展,大型語言模型迎來了第2個發(fā)展階段,即采用循環(huán)神經(jīng)網(wǎng)絡(luò)(re-current neural networks,RNN)、長短期記憶網(wǎng)絡(luò)(long short-term
memory,LSTM)等構(gòu)架。隨著深度學習和神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,學者Vaswani于2017年首度提出了transformer架構(gòu),這是第3個發(fā)展階段的標志性事件。Transformer架構(gòu)完全依賴自注意力(self-attention)來計算輸入和輸出序列表示的深度學習相關(guān)的神經(jīng)網(wǎng)絡(luò)架構(gòu),它解決了RNNs和LSTM等模型在處理長序列數(shù)據(jù)時存在的梯度消失或梯度爆炸的問題,同時也克服了CNNs等模型對于序列長度的限制,逐漸使得它成為自然語言處理領(lǐng)域的主要技術(shù)之一。在Vaswani提出Trans-former之后的2年里,出現(xiàn)了包括Open AI的大型預(yù)訓練語言模型機器人即GPT(generative pre -training transformer)、GPT-2、GPT-3/GPT-3.5、GPT-4和Google的Bard采用的BERT(bidirection-al encoder representations from transformers)與LaM-DA(language model for dialogue
applications)等大型語言模型。這些模型機器人都是通過在大量文本數(shù)據(jù)上進行預(yù)訓練,獲得豐富的語言知識和語義信息,能夠處理龐大的數(shù)據(jù)集并生成人類自然語言。模型在問答系統(tǒng)、機器翻譯、文本摘要等任務(wù)中取得了非常好的效果,逐漸在科學研究應(yīng)用場景中具備了廣泛潛力。
1.2主流常見大型語言模型
當前大型語言模型除了人們所熟悉的ChatG-PT、Bard等之外還有ChatSonic、Jasper AI、The NewBing(Bing AI)、CoPilot和Claude等十多種。參閱國內(nèi)外學術(shù)期刊中的大型語言模型文獻,本文選擇ChatGPT、Bard、Claude、The New Bing及Sage作為本節(jié)分析對象(見表1)。這幾類模型都在大量的文本和代碼數(shù)據(jù)集上進行了數(shù)年的訓練及完善,意味著它們都能進行富有信息性和吸引力的對話,能很大程度上改變?nèi)藗儷@取信息的方式。它們還可以生成不同的創(chuàng)造性文本格式,如詩歌、代碼、劇本、音樂作品、電子郵件、信件等。Open AI有GPT -3.5和GPT-4 2種模型,也是當前應(yīng)用最多的大型語言模型。GPT-4是目前最新的、功能較全的模型,比其他類型模型擁有更大的數(shù)據(jù)集,并在模型內(nèi)容參數(shù)方面進行了微調(diào),這意味著它更有可能生成準確且與更廣泛主題相關(guān)的文本。Bard由Google開發(fā),集合了LaMDA和BERT 2種模型技術(shù)。Bard已被用于生成研究論文、文獻的文本;Bard可以聯(lián)網(wǎng),因而信息準確性會更高;它與github進行整合,代碼輸出、分析的能力更強大。截至2023年7月,Bard支持40種語言且可以上傳文本、圖片進行分析??傮w而言,ChatGPT在對寫作提示的復(fù)雜度評估方面與市場占有率略高于Bard(Experiment)。
Claude+和Claude Instant由Anthropic開發(fā),都基于GPT -3語言模型。Claude+的特點是支持長文本及大型視頻的解析;Claude-instant設(shè)計用于學術(shù)研究應(yīng)用,可以快速響應(yīng)指令,生成準確且與研究主題相關(guān)的文本。Sage由POE開發(fā),主要用于學術(shù)研究應(yīng)用,在學術(shù)論文的數(shù)據(jù)集上進行了微調(diào),這就表明著它更有可能生成準確且與研究主題相關(guān)的文本。該模型在通用目的的文本和代碼數(shù)據(jù)集上進行了微調(diào)。這就表明它著可以用于多種任務(wù),翻譯語言和編寫不同種類的創(chuàng)意內(nèi)容,但主要特點是輔助寫作。
本文后續(xù)以ChatGPT-4為例進行討論,因為截至2023年7月ChatGPT-4的插件應(yīng)用中約有近700多個,且數(shù)量還在不斷更新中。這些插件主要以訪問網(wǎng)絡(luò)獲取各類型信息、執(zhí)行復(fù)雜的計算、與第三方服務(wù)交互的形式擴展了ChatGPT功能,極大提升了體育科學研究的效率與效果。
1.3大型語言模型的特點與功能
現(xiàn)階段大型語言模型特點之一即上文提及的采用無監(jiān)督學習的技術(shù)進行模型訓練。通常模型被訓練成預(yù)測給定的一系列詞語之后會出現(xiàn)的下一個詞,這意味著他們在訓練數(shù)據(jù)中并未給出明確的標簽或答案,而是學習根據(jù)前面的單詞提供的上下文來預(yù)測句子中的下一個單詞,從而在生成一段語言時,可以模擬人類語言的復(fù)雜性和連貫性,因而又稱為概率語言模型。大型語言模型的特點之二就是“大型語言模型”中的“大型”,是指模型有上億的參數(shù)。參數(shù)是訓練數(shù)據(jù)中模型學習的部分,并用于進行預(yù)測。例如:GPT-3截至2022年9月最后的訓練數(shù)據(jù)有1750億個參數(shù),GPT-4截至2023年3月最后的訓練數(shù)據(jù)有100萬億個參數(shù),Bard截至2023年5月最后的訓練數(shù)據(jù)有1370萬億個參數(shù)。大型語言模型的特點之三就是模型信息量巨大。GPT-4的內(nèi)容來源主要是從互聯(lián)網(wǎng)上獲取的大量文本數(shù)據(jù)。這些數(shù)據(jù)可能來自各種不同的源頭,包括但不限于書籍、新聞文章、網(wǎng)頁、科技論文、博客、論壇帖子等。截至2021年9月,OpenAI的模型如GPT-3和GPT-4是基于廣泛的互聯(lián)網(wǎng)文本進行訓練的。大型語言模型的特點之四就是高級語言生成。在大型語言模型訓練的過程中,這些文本數(shù)據(jù)被用來教會模型如何理解和生成人類語言。模型從這些數(shù)據(jù)中學習語言的模式,如單詞和短語的常見組合、句子的結(jié)構(gòu),以及在特定上下文中使用特定語言的習慣等。大型語言模型可以生成連貫、自然的文本,幾乎與人類產(chǎn)生的文本無法區(qū)分。這使得它們在很多應(yīng)用中有巨大的價值,如在寫作助手、聊天機器人或自動郵件響應(yīng)等場景中生成文本。
要弄清楚使用大型語言模型的功能,那么需要先弄清楚大型語言模型能做什么。學者吳軍認為大型語言模型主要用于:第一,信息查詢,過去搜索引擎Baidu、Google是給出有答案的網(wǎng)頁鏈接,但現(xiàn)在ChatGPT是直接給出結(jié)果;第二,信息濃縮與編輯,這主要是專業(yè)人員使用。上述大型語言模型任務(wù)的核心:一個是理解自然語言,明白人的意圖;另一個是產(chǎn)生自然語言的文本,滿足人的要求。簡言之,就是信息形式轉(zhuǎn)換、根據(jù)要求產(chǎn)生文本和信息精簡。上述主要用途可以反映出,大型語言模型在自然語言理解與內(nèi)容生成方面具有以下幾項能力,即啟發(fā)性內(nèi)容生成能力、對話情景理解能力、序列任務(wù)執(zhí)行能力、程序語言解析能力。最后,由于ChatGPT的底層模型是在英文文本數(shù)據(jù)集上進行自主學習,故而采用英文提問的準確性,要比其他語言問答的準確性更高。
2大型語言模型應(yīng)用到體育科學研究中的優(yōu)勢與機遇
2.1大型語言模型應(yīng)用到體育科學研究中的優(yōu)勢
體育科學研究使用大型語言模型具有較大的優(yōu)勢。第一,在當前的跨學科科研環(huán)境下,數(shù)據(jù)分析已經(jīng)成為常見的研究方法之一。大型語言模型可以處理和分析大量的定性數(shù)據(jù)(文本)和定量數(shù)據(jù),它可以幫助研究者解讀復(fù)雜的數(shù)據(jù)集,幫助學者從數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式和數(shù)據(jù)趨勢,并提供有關(guān)數(shù)據(jù)背后的含義。這對于數(shù)據(jù)驅(qū)動的研究和實證研究非常有價值,可以幫助研究者做出準確的結(jié)論和推斷。第二,大型語言模型可以提供快速而準確的信息檢索和知識獲取。作為預(yù)訓練生成的智能語言模型,它可以回答各種學術(shù)領(lǐng)域的問題,并提供相關(guān)的背景知識和文獻引用。這使得研究者能夠更高效地獲得所需的信息,節(jié)省大量的時間和精力。第三,大型語言模型具有強大的多語言處理能力,它能將研究成果翻譯成不同的語言,使學者可以更方便地獲取和理解其他語言的研究成果,拓寬研究視野。這里多語言處理不僅是不同語種間科研成果的翻譯,還可以實現(xiàn)與各種計算機語言的對話。第四,論文寫作是體育科研工作的核心環(huán)節(jié),且非常耗時。大型語言模型可以在寫作過程中為研究人員提供建議和提示,如提供論文結(jié)構(gòu)的建議,或者根據(jù)前文生成接下來的句子。大型語言模型還可以作為一個高效的文字編輯工具,特別是在英文方面可以自動檢查并修正語法、拼寫和標點錯誤等,甚至可以對文章的流暢性和邏輯性進行修改和優(yōu)化。大型語言模型能夠輸出連貫、自然的文本,具有一定類人語言特性。在某些特定情景下可以借助大型語言模型自動生成科研文章的初稿,節(jié)省研究人員的寫作時間。第五,大型語言模型可以幫助體育科研人員增強知識儲備,降低知識使用門檻。國外學者使用ChatG-PT和Bard,為運動員制訂了為期4周個性化四周的下肢預(yù)防損傷訓練方案(包括有氧熱身、動態(tài)拉伸、訓練和冷卻等)。大型語言模型不僅能夠滿足在運動訓練中具備一定學識和文化水平的教練員、科研人員和管理人員的需求,還可以適用于文化程度相對較低的運動員。運動員可以通過自然語言交互的方式,與大型語言模型進行交流,幫助他們識別運動動作,獲取運動技能,并提供實日寸的反饋和指導。第六,大型語言模型能幫助快速撰寫體育新聞和提供熱點體育資訊分析,可以根據(jù)體育目標人群的興趣偏好自動生成指向性廣告內(nèi)容,從而提高營銷工作的有效性。GPT-4已經(jīng)擁有了多模態(tài)的內(nèi)容輸出和處理功能。2023年5月,ChatGPTAPI的發(fā)布已經(jīng)應(yīng)允第三方將GPT植入自己的商業(yè)服務(wù)中,這意味著GPT將使AIGC的體育新聞制作能力實現(xiàn)質(zhì)的飛躍。此外,大型語言模型可通過分析偏好、行為和歷史記錄等粉絲數(shù)據(jù),進而根據(jù)每個粉絲的需求和興趣生成定制報道內(nèi)容和信息推薦,如體育比賽看點、門票促銷、獨家商品優(yōu)惠等,以增加與粉絲的情感聯(lián)系,提供良好消費體驗。
2.2大型語言模型給體育科學研究帶來的機遇
大型語言模型,如ChatGPT,已經(jīng)在自然語言處理、機器翻譯、語音識別等領(lǐng)域取得了顯著的成果。這些技術(shù)的應(yīng)用,為體育科學研究提供了強大的工具和技術(shù)支持,從而提高了研究效率和準確性,推動了體育科學研究的進程。具體來說,大型語言模型為體育科學研究帶來了發(fā)展機遇。第一,大型語言模型可以有效提升體育科學研究工作的效率與質(zhì)量。通過利用其強大的分析和生成能力,研究人員能夠快速查找及整理文獻資料,減輕繁重的信息篩選工作。例如:ChatGPT利用啟發(fā)性內(nèi)容生成能力可以生成研究提綱、研究報告等,能夠減輕研究人員的寫作負擔,使其將精力集中在實驗和創(chuàng)新上。第二,科研工作者可以通過與大型語言模型的交互,進行頭腦風暴和創(chuàng)新思考,發(fā)現(xiàn)新的研究領(lǐng)域和問題。例如:大型語言模型可以提供新的觀點、領(lǐng)域交叉的啟發(fā)和潛在的研究方向,幫助研究者拓展新的研究領(lǐng)域。第三,大型語言模型具有一定的自然語言理解能力,可以被用于體育科學研究中不同的學科領(lǐng)域知識的學習與運用,推動跨學科研究。例如:它可以幫助運動訓練專家理解認知神經(jīng)科學,從而推動體育神經(jīng)管理科學的發(fā)展。第四,使用大型語言模型的過程本身就是人工智能的研究機遇。研究人員可以通過與其互動,探索和理解人工智能模型的工作原理,例如:它是如何理解和生成語言的,以及它的優(yōu)點和局限在哪里。這些理解可以進一步幫助科研人員構(gòu)建具有體育科學研究專業(yè)特色的大型語言模型。第五,大型語言模型能理解和生成多種語言的文本,這在進行跨學科、跨語種研究時非常關(guān)鍵。用ChatGPT來翻譯和解析其他語言的學術(shù)資料,就可以提供多學科的視角。第六,大型語言模型可以幫助研究者創(chuàng)建豐富、引人入勝的可視化效果,幫助研究人員更好地理解和解釋他們的數(shù)據(jù),使得體育科學研究中的結(jié)果可視化變得可能。第七,大型語言模型將推動“即時體育知識服務(wù)”的出現(xiàn),即在運動訓練中可以提供個性化、高效、實時、全面的教學指導和服務(wù)。有研究表明,大型語言模型在提升運動員競技技能、改善團隊績效等方面有顯著的積極作用。隨著大型語言模型不斷迭代完善,它將為體育科學研究帶來巨大的機遇。下文從大型語言模型的3個核心任務(wù)、4項核心能力擴展到文獻閱讀、視頻分析、實證定量分析、定性分析、定制研究框架、激發(fā)體育科學研究的創(chuàng)意展開,詳細討論大型語言模型如何重塑體育科學研究。
3大型語言模型對體育科學研究的重塑
3.1大型語言模型對體育科學研究中文獻分析的重塑
第一,大型語言模型通過信息形式轉(zhuǎn)換和信息精簡,借助強大插件(Xpaper、Scholar AI、NextPa-per. ai等)功能,能夠通過搜索、分析龐大的文獻數(shù)據(jù)庫,快速、準確檢索相關(guān)文獻,提供相關(guān)文獻的摘要和關(guān)鍵信息,借助人工智能圖形插件(Show Me)構(gòu)建文獻的思維導圖并進行分析(見圖1—圖2)。第二,ChatGPT可以通過信息精簡對海量文獻進行自動摘要和信息提取。以往我們在文獻學習過程中,需要耗費大量時間閱讀和整理大量的文獻,提取其中的關(guān)鍵信息。ChatGPT及其采用GPT-3.5技術(shù)的文獻閱讀網(wǎng)頁插件(ChatDOC、ChatPDF等)能夠通過深度學習技術(shù),高效生成概覽和提取關(guān)鍵信息,還可以定位到具體頁碼提出的關(guān)鍵信息,高效地獲取所需的文獻知識。第三,由于體育科學研究屬于多學科交叉融合性的研究,需要閱讀大量外文、不同學科的文獻。ChatGPT具有信息形式轉(zhuǎn)換、根據(jù)要求產(chǎn)生文本和信息精簡功能,可以實現(xiàn)對多語言的支持和跨學科融合。通過自然語言處理和對話情境理解能力,能夠幫助研究人員跨越語言障礙,獲取和理解不同時期、不同語種和不同領(lǐng)域的體育科學研究的成果,促進體育科學研究間的交流和合作。例如:使用ChatGPT可以同時閱讀多個不同語言種類的文獻,同時可以聯(lián)網(wǎng)進行查閱,對互聯(lián)網(wǎng)、學術(shù)期刊論文進行融合閱讀學習。第四,通常進行一項研究的初期階段,學者需要快速、高效地概覽大量文獻,并從中找到符合要求的文獻。如前所述,ChatG-PT能夠快速地掃描和總結(jié)大量的文本,它們能夠提供文章、書籍和論文的簡潔摘要,方便研究者決定是否值得閱讀全文,整合、綜述篩選出來的文獻,可以生成更全面、準確的知識綜述,從而更好地了解相關(guān)研究領(lǐng)域的現(xiàn)狀和前沿。第五,ChatGPT通過信息精簡、信息形式轉(zhuǎn)換還能夠挖掘文獻之間的關(guān)系,快速分析文獻間的相互引用關(guān)系,幫助研究人員建立知識網(wǎng)絡(luò)和關(guān)聯(lián)圖譜,促進跨文獻的綜合分析和理解。
3.2大型語言模型對體育科學研究中定量分析的重塑
定量研究是體育科學研究中重要的方法之一,它是基于數(shù)理統(tǒng)計方法的研究,多采用描述性統(tǒng)計分析、推斷性統(tǒng)計分析和數(shù)據(jù)挖掘等,能夠提供深度的洞見并證明某些因果關(guān)系。許多體育科學研究需要處理大量的數(shù)據(jù),如大型全民健身問卷調(diào)查數(shù)據(jù)、中小學生體育鍛煉參與問卷數(shù)據(jù)、國民體質(zhì)測試數(shù)據(jù)、社交平臺上關(guān)于體育話題數(shù)據(jù)、社群關(guān)系中的體育參與影響數(shù)據(jù)、運動員的表現(xiàn)數(shù)據(jù)、大型商業(yè)體育賽事數(shù)據(jù)和比賽結(jié)果甚至觀眾的反饋等。這類數(shù)據(jù)數(shù)量大,變量多,不僅需要研究人員具備深厚的數(shù)理統(tǒng)計方法的知識,還需要不同統(tǒng)計分析數(shù)據(jù)編程知識,且分析時間較長,不易出成果。GPT-4具有強大的數(shù)據(jù)處理能力,可以把數(shù)據(jù)上傳到Chat-GPT的在線分析平臺(Python分析為主),它擁有較多的數(shù)據(jù)代碼的插件,能夠?qū)崿F(xiàn)自然語言與數(shù)據(jù)代碼間的交互,插件商場中已有多個代碼自動撰寫的插件,可以使用代碼撰寫、文獻閱讀、網(wǎng)頁分析3個插件同時工作。體育科學研究中的實證定量研究不再受本地計算機算力的局限,可以實時、快速、高效地進行諸如決策樹(decision trees)、支持向量機(support vector machines.SVM)、線性回歸(linearregression)、邏輯回歸(logistic regression)和神經(jīng)網(wǎng)絡(luò)(neural
networks)等監(jiān)督、無監(jiān)督機器學習分析,并根據(jù)研究中的要求進行繪制統(tǒng)計圖表并撰寫簡單的數(shù)據(jù)分析報告。ChatGPT能夠在客觀分析數(shù)據(jù)的同時,以清晰、簡潔的文字為學者提供概括與解釋,從而為研究人員提供分析結(jié)果、趨勢的預(yù)探析,加快研究進程。此外,可以借助ChatGPT根據(jù)要求產(chǎn)生文本、信息精簡的功能,幫助學者快速理解、學習各類統(tǒng)計模型,使用統(tǒng)計軟件進行分析。最重要的是,ChatGPT具有一定程序語言解析能力,可以根據(jù)要求生成數(shù)據(jù)分析代碼,并給出每行代碼的幫助解釋,可以將代碼從一種編碼語言翻譯成另一種編碼語言,可以捕獲編碼中的拼寫錯誤或違反基本語法的行為,極大地降低了體育科研工作者學習定量研究的門檻。圖3展示了ChatGPT-4根據(jù)體育科研工作者的要求寫的一段Python神經(jīng)網(wǎng)絡(luò)運算的代碼,圖4展示了ChatGPT-4對每行代碼的解釋。更重要的是在實際操作過程,假如Python出現(xiàn)運行錯誤,ChatGPT-4根據(jù)錯誤運行信息,可以及時糾錯。這個神經(jīng)網(wǎng)絡(luò)運算代碼可能存在錯誤的地方,這對于完全不了解Python、神經(jīng)網(wǎng)絡(luò)的研究人員來說極大地提高了研究效率。
3.3大型語言模型對體育科學研究中定性分析的重塑
常見的定性研究有訪談、焦點小組、現(xiàn)象學、扎根理論、民族志和口述史等。定性研究的目的是理解人類行為和經(jīng)驗的復(fù)雜性和多樣性,通常采用更具開放式、靈活性的方法,以便研究者可以深入了解參與者的觀點和經(jīng)驗,從而獲得更全面、深入的理解。
體育科學研究中的定性研究常涉及文本材料、音頻材料、視頻材料的分析,但更多以前兩者為主。第一,ChatGPT通過信息精簡能快速、準確地從文本材料中識別和提取關(guān)鍵信息,如文本中的主題、觀點、論據(jù)等。研究人員使用ChatGPT的API接口,訓練專門的定性研究話題的模型,使模型內(nèi)容可以更加聚焦,使其能夠識別和標記潛在的主題或感興趣的體育定性研究議題??梢愿鶕?jù)已經(jīng)訓練的ChatGPT模型提供對文本材料的獨特分析視角,ChatGPT可以協(xié)助解釋結(jié)果,生成復(fù)雜構(gòu)念的研究摘要,并幫助以更易于理解的方式將研究結(jié)果呈現(xiàn)給科研工作者,如借助思維導圖形式展現(xiàn)研究結(jié)果。雖然這不能完全替代學者在這個復(fù)雜任務(wù)中的工作,但是在主題分析的初始階段,可以簡化研究人員的工作量。需要強調(diào)的是,GPT-4借助強大的自然語言處理能力,加之具有處理各種語言的能力,可以簡化文本分析過程。第二,大型語言模型可以為體育定性研究提供新的視角和方法,文本分類研究是其他學科定性研究的常用方法之一,通過聚類和分類技術(shù),它們可以幫助研究人員發(fā)現(xiàn)文本數(shù)據(jù)中的隱藏模式,或者幫助人們理解復(fù)雜的問題與現(xiàn)象。通過生成模型,甚至可以模擬社會互動,以預(yù)測和理解這類現(xiàn)象與關(guān)系。具體來說,ChatGPT在以下幾個體育科學研究領(lǐng)域中可以重塑定性研究。體育法規(guī)政策研究能借助ChatGPT進行信息精簡,可以從大量的體育政策法規(guī)文件中快速提取相關(guān)信息,基于給定主題或在多輪對話過程中識別的上下文信息,生成有啟發(fā)性和創(chuàng)意性進而獲得有價值的研究材料。
在研究不同時期、不同語種奧林匹克運動的文件時,ChatGPT可以通過信息形式轉(zhuǎn)化、信息精簡,進行跨語種的奧林匹克研究,將不同歷史時期奧林匹克運動中相關(guān)的文件進行思維導圖呈現(xiàn)。在體育新聞學研究中,賽事中運動員采訪文稿是常見的體育新聞研究重要素材之一,ChatGPT可以迅速歸納出訪談材料中出現(xiàn)的關(guān)鍵詞和主題,幫助新聞工作者聚焦體育新聞研究中的重點。體育新聞輿情研究中,ChatGPT還可以分析社交媒體上、網(wǎng)站中評論中人們對體育賽事、體育事件的情感和觀點,幫助研究者了解人們的態(tài)度和觀點。體育民族志研究將體育作為一種文化現(xiàn)象進行研究,要求研究者進行田野調(diào)查、參與觀察和口述史訪談,會收集到大量的文本、音頻數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。ChatGPT的信息精簡、對話情景能力在這方面具有一定優(yōu)勢,已有研究采用其對人格預(yù)測、情感分析等任務(wù)進行了探索。在體育心理學研究中,ChatGPT分析運動員和教練之間的對話文本,運用文本分類能力,對運動競技狀態(tài)預(yù)測、情緒分析、團隊配合等任務(wù)進行分類,改善教練員執(zhí)教能力與提升運動員競技技能。
3.4大型語言模型對體育科學研究中可視化技術(shù)的重塑
可視化分析在理解和解釋復(fù)雜的體育科學研究數(shù)據(jù)和概念方面發(fā)揮著重要作用。然而,創(chuàng)建高質(zhì)量的可視化內(nèi)容通常需要大量的時間和專業(yè)知識。ChatGPT-4已經(jīng)開放了關(guān)于分析視頻、圖片的大量插件,這有利于體育科學研究可視化研究。學者認為ChatGPT研究的可視化方面具有顯著的優(yōu)勢。體育訓練學領(lǐng)域中,有大量體育競技賽事、訓練的視頻,這部分視頻需要體育科研工作者花費大量的時間進行觀看、分析。ChatGPT可以用于創(chuàng)建交互式的可視化工具。這些工具可以讓用戶通過自然語言與數(shù)據(jù)進行交互,從而更好地理解數(shù)據(jù)。ChatGPT可以幫助研究人員解釋復(fù)雜的數(shù)據(jù)集。例如:分析足球比賽視頻,提取視頻中雙方進攻、防守路線時間軸上的關(guān)鍵信息,并生成文本,進而構(gòu)建數(shù)據(jù)集,將數(shù)據(jù)統(tǒng)計分析和可視化,轉(zhuǎn)化為使用Jupyter的編程問題;在城市公共體育服務(wù)研究方面,城市公共體育設(shè)施地理信息圖表可以有交互元素,允許用戶向ChatGPT提問關(guān)于特定地標或全民健身基本的問題。此外,定性研究中,研究人員經(jīng)常需要觀看大量田野調(diào)查的視頻,如對體育愛好者訪談視頻、晨晚練點中群眾參與體育活動中對話的視頻,可以利用ChatGPT-4提供的視頻分析插件,總結(jié)、提煉視頻中的信息,再使用其他插件進行表格、思維導圖等研究任務(wù)。還可以使用詞云圖插件進行文本數(shù)據(jù)可視化,給研究者提供一個直觀的概覽,可以大大節(jié)省時間,提高研究的效率。在上文提到的實證定量研究中,ChatGPT可以幫助我們更好地理解和解釋數(shù)據(jù),借助強大的插件系統(tǒng)還可以將數(shù)據(jù)生成可視化的數(shù)據(jù),這有助于研究人員更好地理解數(shù)據(jù)的模式和趨勢。統(tǒng)計學有大量模型概念和公式,這部分概念、公式對于僅將統(tǒng)計學作為研究工具使用的體育科研工作者來說有一定的難度。ChatGPT可以對概念進行解釋,輔助以圖示能直觀地解釋概念(見圖5~圖6)。
社交網(wǎng)絡(luò)分析結(jié)合了機器學習、可視化等多個方法,它可以幫助研究者深入了解人們之間的關(guān)系和互動方式。ChatGPT借助自然語言技術(shù)進行信息形式轉(zhuǎn)換、對話情景理解、程序語言解析。例如:可以利用ChatGPT幫助研究者自動抽取微信的聊天記錄中關(guān)于體育活動、體育參與、體育組織關(guān)鍵詞、實體和話題,并通過網(wǎng)絡(luò)分析工具構(gòu)建出體育組織、體育活動中人際關(guān)系網(wǎng)絡(luò)圖,了解不同群體之間的體育活動、組織的互動方式和信息傳播路徑。ChatG-PT可以快速、準確地進行結(jié)果的可視化呈現(xiàn),能提升研究效果與效率。最后,知識視頻學習是體育科技工作者的學習方式,但是會耗費大量的時間,ChatGPT強大的視頻分析能力,可以快速對視頻的內(nèi)容進行文字內(nèi)容展示,并可以精確定位視頻中不同知識點的時間,從而有針對性地學習。
頂尖期刊的論文基本都把結(jié)果可視化作為一個優(yōu)秀論文的核心指標之一,在學術(shù)圈里流傳這樣一句話,一圖抵千字,足見研究結(jié)果可視化的重要性。ChatGPT在體育科學研究中的可視化方面具有以下優(yōu)點。首先,使信息圖表更具動態(tài)性和交互性,從而提高用戶的參與度和留存率,且可以不斷進行修改、完善。其次,ChatGPT使創(chuàng)建交互式信息圖表變得更容易。憑借其先進的語言生成能力,ChatGPT可以幫助自動化創(chuàng)建交互元素的文本和對話的過程,從而節(jié)省研究人員的時間和資源。此外,ChatGPT還可以通過提供易于理解的自然語言解釋和概括,使信息圖表更易于被讀者所理解。
4大型語言模型應(yīng)用到體育科學研究中的局限與挑戰(zhàn)
4.1大型語言模型給體育科學研究帶來的局限
大型語言模型給體育科學研究帶來的局限主要由體育科學研究的特殊性和模型設(shè)計中自身缺陷所致。第一,盡管ChatGPT具有多語言支持和跨學科融合能力,但對于某些特定領(lǐng)域或語種的文獻,可能會存在語言障礙或理解困難。例如:研究導引養(yǎng)生功法對身體健康的影響,采用ChatGPT對相關(guān)的文獻進行查閱和分析。眾所周知,中國傳統(tǒng)養(yǎng)生文化源遠流長,作為一個特定研究領(lǐng)域有自己獨特的術(shù)語、技巧和理論,并且在這個領(lǐng)域中的文獻大都是中文文獻。雖然ChatGPT具有多語言支持,但它可能無法提供準確的理解和翻譯。如此使用ChatGPT杏詢、閱讀和理解文獻將有很大局限。第二,雖然ChatGPT可以自動提取文獻中的關(guān)鍵信息,但是它無法理解這些信息的深層含義或上下文關(guān)系,這是它基于統(tǒng)計模型和模式匹配的工作原理導致的。第三,ChatGPT的信息主要來源包括互聯(lián)網(wǎng)和學術(shù)期刊論文,但并不能保證所有相關(guān)數(shù)據(jù)的質(zhì)量和準確性。使用ChatGPT時,研究人員仍然需要審查和驗證數(shù)據(jù)的可靠性。另外,因為它的輸出可能受到訓練數(shù)據(jù)偏見的影響,其提供的文獻摘要或關(guān)鍵信息可能會有偏差。此外,如果需要進行深度的文獻分析,如理解文獻的研究方法、設(shè)計或論證邏輯,Chat-GPT可能也會有所不足。第四,大型語言模型在訓練數(shù)據(jù)中并未給出明確的標簽或答案,而是學習根據(jù)前面的單詞提供的上下文來預(yù)測句子中的下一個單詞。這個訓練過程通常在互聯(lián)網(wǎng)文本的各種范圍內(nèi)完成。然而,模型并不知道具體哪些文件在他們的訓練集中,也無法訪問任何專有數(shù)據(jù)庫、分類信息、機密信息或個人數(shù)據(jù)(除非在對話過程中有人與它們分享這些數(shù)據(jù)),從而造成大型語言模型的工作方式數(shù)據(jù)“黑箱”工作方式。第五,在使用大型語言模型進行定量研究時,首先可能會遇到的局限性是其無法替代專業(yè)統(tǒng)計知識和數(shù)據(jù)分析技能。雖然ChatGPT可以生成數(shù)據(jù)分析代碼并提供代碼的解釋,但是它無法像專業(yè)的統(tǒng)計分析師那樣理解和解釋復(fù)雜的統(tǒng)計模型和結(jié)果。另外,盡管ChatGPT可以處理大量數(shù)據(jù),但是對于某些特定類型的數(shù)據(jù),如非結(jié)構(gòu)化數(shù)據(jù)或者復(fù)雜的數(shù)據(jù),會遇到困難。第六,盡管ChatGPT可以幫助研究者提取視頻中的關(guān)鍵信息和創(chuàng)建交互式的可視化工具,但是它不能完全替代人類對體育訓練和比賽的理解和洞察。如對比賽策略和運動員心理狀態(tài)的理解就需要具體的專業(yè)知識和體育科研工作者的直覺。
4.2大型語言模型給體育科學研究帶來的挑戰(zhàn)
大型語言模型給體育科學研究帶來的挑戰(zhàn),體現(xiàn)在實際應(yīng)用可能會遇到的問題,第一,雖然Chat-GPT可以生成具有邏輯連貫性的響應(yīng),但它無法解釋自己的推理過程,這對于需要理解和解釋結(jié)果的體育科學研究可能是個挑戰(zhàn)。例如:如何提高Chat-GPT的理解能力以使其能夠更好地理解文獻的深層含義和上下文關(guān)系;如何更好地利用ChatGPT的多語言支持和跨學科融合能力以促進跨語言和跨學科的研究。第二,大型語言模型如ChatGPT的訓練依賴于大量的文本數(shù)據(jù)。這些數(shù)據(jù)的質(zhì)量、內(nèi)容和偏差都會直接影響模型的表現(xiàn)。模型可能還會學習并復(fù)制互聯(lián)網(wǎng)上的錯誤信息。在實際應(yīng)用中,如何提高ChatGPT在數(shù)據(jù)處理和分析方面的準確性和效率是一個重要的挑戰(zhàn)。對于復(fù)雜的數(shù)據(jù)分析任務(wù),如多元線性回歸、主成分分析或者神經(jīng)網(wǎng)絡(luò)分析,ChatGPT可能需要更深入的訓練和優(yōu)化才能得到可靠的結(jié)果。另外,定量研究涉及大量的數(shù)據(jù),因而數(shù)據(jù)的質(zhì)量、完整性和一致性也是一個重要的挑戰(zhàn)。第三,雖然ChatGPT具有高效處理文本的能力,并能提供視角和分析方法,但它對于音頻和視頻材料的處理能力有限。在分析教練和運動員的訪談視頻或錄音中,ChatGPT可能無法理解和處理非語言的信息,如肢體語言、面部表情和語調(diào)等。此外,ChatG-PT的理解和解釋能力還無法達到人類的水平,對于復(fù)雜、抽象和難以量化的概念,如體育精神、公平競賽等,ChatGPT可能無法準確捕捉和作出反應(yīng)。特別是ChatGPT可以生成具有邏輯連貫性的響應(yīng),但它無法解釋自己的推理過程。這對于需要理解和解釋結(jié)果的體育科學研究是一個極大的挑戰(zhàn)。第四,在體育科學研究中,研究結(jié)果的可復(fù)現(xiàn)性是非常重要的。然而,大型語言模型是一個語言概率模型,由于大型語言模型的輸出受到諸多因素(如模型的初始狀態(tài)、指令輸入的細微變化等)影響,其結(jié)果可能并不總是可復(fù)現(xiàn)的。第五,雖然,Open AI的GPT-4推出了海量的應(yīng)用,這正在降低使用大型語言模型的難度,但對于一些缺乏計算機科學背景的社會科學研究人員來說,技術(shù)門檻可能依然是一個挑戰(zhàn)。第六,雖然大型語言模型具有巨大的潛力,但不能過分夸大其能力。它們并不能解決所有問題,對它們的期待需要建立在對其能力和局限的理解基礎(chǔ)上。對于大型語言模型生成的結(jié)果,既有可能過于依賴其輸出,也有可能對其過于懷疑。同時,過度依賴大型語言模型可能會削弱科研工作者的創(chuàng)新能力和批判思維能力。如何找到適當?shù)钠胶?,既利用模型的?yōu)點,又避免對其結(jié)果的盲目信任,也是一個挑戰(zhàn)。
必須清醒認識到大型語言模型的使用中還面臨諸多挑戰(zhàn),如隱私和數(shù)據(jù)倫理問題,模型的可解釋性、缺乏統(tǒng)一的規(guī)范,如何在科研中正確、高效、倫理地使用等。因此,需要在應(yīng)用大型語言模型的同時,不斷探索并解決這些問題;充分利用這些模型作為工具來輔助研究,而不是完全依賴它們,以實現(xiàn)更加創(chuàng)新和可持續(xù)的體育科學研究。
5大型語言模型應(yīng)用給體育科學研究帶來的啟示
大型語言模型在體育科學研究中,盡管面臨某些局限和挑戰(zhàn),但其對科研工作者的啟示卻不可忽視。首先,隨著大型語言模型的不斷優(yōu)化,其在提升文獻研究的效率和準確性方面的優(yōu)勢日漸顯現(xiàn)。這不僅打破了語言和學科的壁壘,還為多學科交叉的體育科學研究提供了可能。其次,大型語言模型的運用將改變定量研究的工作方式。特別是Open AI于2023年7月上旬發(fā)布了Code interpreter,它結(jié)合了數(shù)據(jù)自動分析、報告撰寫、圖片分析于一身,被視為GPT-4.5時代來臨。這會鼓勵體育科研工作者更廣泛地使用大數(shù)據(jù)和計算機輔助的研究方法,使得數(shù)據(jù)分析結(jié)果更為直觀,降低使用數(shù)據(jù)分析工具的學習難度,進一步推動體育科學研究更加依賴科學研究范式。再次,隨著大型語言模型的泛化能力增強,其在體育科學研究的多領(lǐng)域應(yīng)用將有力推動體育學科的跨學科研究發(fā)展。這要求體育科學研究者重新審視傳統(tǒng)的研究方法,如采訪、觀察等,并探索如何將這些傳統(tǒng)的研究方法與大型語言模型相結(jié)合。另外,隨著GPT-4等大型語言模型的API接口逐漸開放,科研工作者和開發(fā)者能夠在各類應(yīng)用程序中利用其強大的語言模型能力,這使得AI技術(shù)在體育科學研究中的作用日益凸顯,同時也為體育科學研究提供了新的發(fā)展機遇。最后,隨著大型語言模型技術(shù)的深入發(fā)展,大型語言模型將由執(zhí)行單一任務(wù)向執(zhí)行多模態(tài)任務(wù)(MLLM)轉(zhuǎn)變,這將大大拓展了獲取知識的范圍,包括文本、圖像和聲音等多種模式,使其能夠在上下文中進行學習,并遵循給定的指令。在此背景下,體育科學研究的理念、模式和工具將會經(jīng)歷重大的轉(zhuǎn)型。
維特根斯坦的名言“語言的邊界就是思想的邊界”揭示了語言在塑造理解世界的方式中的決定性作用。借此視角,可以重新審視大型語言模型對體育科學研究的影響,它們不僅是一種功能強大的工具,也是一種可以擴展思維邊界的媒介。對于體育科研工作者來說,未來的差異可能更多地來自于如何構(gòu)建和利用大型語言模型來推動在體育科學研究中的思考和創(chuàng)新。