體育運動動作識別是通過在時域上跟蹤一些關鍵點的運動以記錄人體運動,并轉(zhuǎn)換為可用的數(shù)學方式表達運動的過程,對于競技訓練和全民健身均具有重要意義。傳統(tǒng)的動作識別技術有機械式、聲學式、電磁式、光學式等。機械式技術采用外置傳感器和剛性支架,會影響肢體活動。聲學式和電磁式技術則存在易受外界環(huán)境干擾、有較大時間延遲、測試精度不高等問題。傳統(tǒng)的光學式技術較為精準,但也存在價格昂貴、數(shù)據(jù)處理耗時較長等不足。近年來,基于加速度計、陀螺儀、磁力計等慣性測量技術和基于肌電圖的可穿戴技術發(fā)展迅速,但也存在設備可能影響運動表現(xiàn)、無法在比賽環(huán)境中使用等局限。
計算機視覺利用攝像機和計算機對目標進行捕捉、跟蹤、測量,并通過人工智能算法實現(xiàn)動作自動識別,突破了傳統(tǒng)動作識別技術的諸多局限。2019年,澳大利亞學者Cust等總結(jié)了機器學習在動作識別中的應用,系統(tǒng)匯總了支持向量機SVM、卷積神經(jīng)網(wǎng)絡CNN等算法在計算機視覺中的應用。值得關注的是,一些新的姿態(tài)估計算法不斷涌現(xiàn)。OpenPose是當前最常用的多人人體姿態(tài)估計算法之一,采用自底向上的方法,首先檢測出圖像中所有人的關鍵點,然后將檢出的關鍵點分配給每個對應的人。RMPEAlphaPose是一種自頂向下的姿態(tài)估計算法,通過使用對稱空間變換網(wǎng)絡SSTN從不準確的候選框中抽取高質(zhì)量的單人區(qū)域。MaskRCNN作為一個流行的語義和實例分割架構(gòu),可同時預測圖像中多個物體的候選框位置,并分割其語義信息的掩碼,從而確定每個人的位置,再通過位置信息和特征點集合識別人體運動姿態(tài)。
從普通相機到深度相機,從固定區(qū)域到無限區(qū)域,從固定視角到自由視角,從單人捕捉到多人識別,從單一技術到計算機視覺、慣性傳感器、肌電圖、虛擬現(xiàn)實等技術的交叉融合,技術在不斷革新。計算機視覺在體育中的應用也有望從動作識別逐漸向運動效果智能評估、技戰(zhàn)術智能分析、運動損傷智能預測等領域拓展和深入,推動體育運動的智能化發(fā)展。
浙江大學溫煦,王軼凡