摘 要:文中構建了一種智能商品購物系統(tǒng),該系統(tǒng)融合了深度學習與ROS框架。系統(tǒng)采用ResNet圖像識別技術,能夠精準辨識30種不同類別的水果。此外,系統(tǒng)還憑借著ROS的通信優(yōu)勢與ARM嵌入式架構,實現(xiàn)了實時商品稱重、自動計價以及提供詳盡的購物信息反饋。這不僅提升了消費者的體驗,還推動商超朝著無人化、智能化的運營方向發(fā)展,契合新零售時代的需求。
關鍵詞:深度學習; ROS框架; ResNet; 圖像識別; 計價系統(tǒng); 智能購物
中圖分類號:TP368.1 文獻標識碼:A 文章編號:2095-1302(2025)07-00-04
0 引 言
傳統(tǒng)超市購物車往往存在結賬排隊時間長、缺乏人機交互機制的問題,這在一定程度上會影響顧客的購物體驗[1]。如今,智能化浪潮席卷而來,圖像識別技術取得顯著進展,其應用領域不斷拓展,功能也日益強大。把人工智能圖像識別技術融入超市購物車體系,無疑是順應了行業(yè)發(fā)展趨勢,既能為顧客和超市工作人員提供便利,又能顯著提升人們在購物過程中的愉悅度和參與感。
在圖像識別技術的多元應用場景里,商品識別格外引人注目。圖像識別技術能夠對圖片信息加以分析處理,精準判定商品的種類,這不但有力地提升了商品的流通效率,而且顯著縮短了顧客結賬的等待時間[2-3]。本項目的目標是把融合深度學習算法與ROS(Robot Operating System)框架的圖像識別技術運用到超市購物車系統(tǒng)中,以實現(xiàn)對各類商品的即時識別。此外,通過配套的軟件開發(fā),該系統(tǒng)還能實現(xiàn)購物車預約、商品詳情查詢、實時賬單瀏覽等功能,全方位營造智能化購物環(huán)境,極大地提升顧客在消費過程中的互動體驗和滿意度。
1 系統(tǒng)需求分析
1.1 功能需求分析
本系統(tǒng)設計集成了商品識別與移動應用(APP)兩大功能模塊。前者實現(xiàn)商品圖像采集與智能識別,后者實現(xiàn)購物車預約、商品信息查閱與賬單追蹤查詢等全方位便捷服務。具體功能需求分析如下:
(1)商品圖像拍攝功能。用戶在選取待識別商品后會觸發(fā)識別請求,系統(tǒng)隨即向攝像頭節(jié)點發(fā)布拍攝指令。攝像頭接收到指令后捕捉商品圖像,并將此高清圖片信息回傳至系統(tǒng),完成圖像采集服務。
(2)商品圖像識別功能。系統(tǒng)對接收到的商品圖像予以處理,借助有效的算法識別圖像特征區(qū)域,依靠深度學習技術辨別商品類別,隨后將識別結果實時反饋到APP界面。此外,為保障數(shù)據(jù)安全存儲,系統(tǒng)會實時更新本地數(shù)據(jù)庫,并進行云備份以確保數(shù)據(jù)的完整性和可用性。
(3)購物車預約功能。用戶通過藍牙連接啟用APP中的掃碼用車服務,實現(xiàn)對購物車的遠程連接與實時使用權限獲取。
(4)商品信息查閱功能。用戶通過APP即可獲取各類商品的詳盡信息,包括當前售價、貨架位置等關鍵數(shù)據(jù),便于用戶快速定位商品并做出購買決策。
(5)賬單追蹤查詢功能。當用戶將選購商品放入購物車后,系統(tǒng)會自動記錄商品重量、數(shù)量等信息,并依據(jù)預設計費規(guī)則實時計算賬單總額。用戶可在APP內查看購物車商品明細及累計費用。
1.2 性能需求分析
本系統(tǒng)設計重點關注識別準確率、實用性、安全性與經濟性四項性能指標。
(1)識別準確率:系統(tǒng)整合神經網絡模型、深度學習算法與ROS框架,以此提升商品識別的精確度,確保在復雜場景中也能夠穩(wěn)定、準確地識別各類商品。
(2)實用性:為保證系統(tǒng)的實用性,智能識別功能設計注重簡便易用,力求快速、準確地獲取商品信息。APP界面遵循用戶友好原則,使顧客能輕松通過屏幕與導購車互動,便捷地查找、選購商品。
(3)安全性:在用戶隱私保護方面,系統(tǒng)嚴格確保用戶注冊信息及商品識別記錄僅對用戶本人及授權管理員可見,以保障用戶信息的安全性和私密性。
(4)經濟性:在成本控制方面,選用性價比高的器件模塊,既兼顧成本效益,又確保其性能與可靠性滿足系統(tǒng)運行要求。充分利用現(xiàn)有網絡和通信技術,通過手機APP和藍牙通信,最小化額外硬件投入。
2 系統(tǒng)功能設計
2.1 系統(tǒng)總體設計
基于ROS的水果商品識別計價系統(tǒng)整體設計包含商品稱重、商品識別和商品計價顯示三大模塊,其總體框架如圖1所示。該系統(tǒng)實現(xiàn)了完整流程,即用戶將商品放入商品識別模塊,系統(tǒng)識別商品并計算出價格供用戶結算。整個功能架構由客戶端與服務器端兩部分構成。其中,客戶端負責商品圖片信息和重量信息的采集,以及商品計價信息的實時顯示;服務器端則主要負責商品圖片的識別處理與商品價格的計算。
為實現(xiàn)上述功能體系,本文采用ROS的分布式通信框架,將系統(tǒng)分為五個核心功能節(jié)點:商品稱重節(jié)點、商品拍照節(jié)點、圖片識別節(jié)點、商品計價節(jié)點以及商品顯示節(jié)點。這些節(jié)點間的交互與數(shù)據(jù)調用均依托于ROS提供的基礎通信機制——話題、服務與動作,形成有機協(xié)作網絡。此架構關系如圖2所示。
2.2 重要功能設計
系統(tǒng)中實現(xiàn)了商品稱重、圖像分類、分布式通信等關鍵模塊,核心技術包括基于深度學習方法的圖像識別技術與基于ROS框架的多節(jié)點通信技術。
2.2.1 基于深度學習方法的圖像分類功能設計
該功能依托集成了眾多成熟的圖像識別模型與便捷功能函數(shù)的Pytorch框架構建。
本文采用當前領域內經典的殘差神經網絡模型構建圖像識別模型,選用ResNet18框架[4]。ResNet18框架結構簡潔且具備高效識別能力,它包含1個無Shortcut的卷積層、4層殘差塊以及1個全連接層。ResNet18已集成于Pytorch框架下的torch庫,所以在訓練階段可直接調用該預置模型。
在模型的工作流程里,ResNet18的池化層負責從水果圖像中提取特征向量,進而生成各類商品的Logit得分,這些得分再經過Softmax函數(shù)處理以完成分類。鑒于識別模型的部署需求,本文把預先訓練好的原生Pytorch模型轉化為通用的ONNX模型中間格式[5]。這一轉換有助于模型的個性化優(yōu)化以及跨平臺部署,能夠有效避免直接導出模型時可能產生的結構與算子不兼容的問題,比如在非最大值抑制(NMS)等后處理中可能出現(xiàn)的大規(guī)模條件判斷操作等潛在障礙。
構建整個圖像識別系統(tǒng)的過程可歸納為三個核心環(huán)節(jié):啟動圖像捕獲、執(zhí)行圖像分類以及展示識別結果。這三個環(huán)節(jié)分別由各自專用的軟硬件組件協(xié)同實現(xiàn)。
圖像捕獲模塊:當將商品置于識別系統(tǒng)配備的電子秤上時,電子秤會將稱重信息轉化為數(shù)字信號,并交由STM32單片機處理,STM32通過串口通信將信號發(fā)送至樹莓派上位機。一旦商品質量超過預設閾值,樹莓派便會觸發(fā)攝像頭進行拍攝。
圖像分類模塊:該模塊負責接收樹莓派傳入的圖像信息并進行識別。模塊使用帶GPU的工控機,并利用已訓練好的ResNet18殘差神經網絡,輸出各分類的識別置信度,并通過排序算法確定最可能的水果類別。
識別結果傳輸與展示:此模塊負責存儲圖像識別結果并將結果呈現(xiàn)在顯示屏上,同時實時傳輸至消費者的APP中。
對于模型預測部分,本文使用Sigmoid激活函數(shù)得到預測結果的Logit分數(shù)[6]。此分數(shù)實質上代表了系統(tǒng)對某一特定類別的原始置信度量,如式(1)所示:
系統(tǒng)在獲得Logit分數(shù)后,運用Softmax函數(shù)將原始分數(shù)轉換為概率分布,如式(2)所示。此概率得分能夠清晰反映系統(tǒng)對商品屬于各類別的置信度,為后續(xù)分類判斷提供量化依據(jù)。
式中:zi是Logit中的第i個元素;σ(x)i是Softmax函數(shù)的輸出,表示商品屬于第i個類別的概率。
2.2.2 基于ROS框架的多節(jié)點協(xié)調工作
該功能基于ROS Noeti框架構建[7]。系統(tǒng)被劃分為四個核心功能節(jié)點,各節(jié)點通過通信機制共同實現(xiàn)整體功能。這四個節(jié)點分別為:商品稱重、商品拍照、商品識別及商品計價與顯示[8-12]。這些節(jié)點間的協(xié)作實現(xiàn)了商品識別和商品信息實時顯示兩大核心功能。
在商品識別環(huán)節(jié),商品稱重節(jié)點作為信息發(fā)布者,通過ROS話題發(fā)布商品重量數(shù)據(jù)。商品拍照節(jié)點作為訂閱者,訂閱該重量信息。當檢測到商品存在時,商品拍照節(jié)點與商品識別節(jié)點利用ROS服務功能進行分布式通信,完成商品圖像的捕捉與識別。
在商品信息提供方面,通過商品識別、商品稱重、商品計價與商品顯示四個節(jié)點聯(lián)動,共同完成商品識別信息的字典對照、按重量計價計算、液晶屏實時打印以及APP端信息同步傳輸。
3 系統(tǒng)軟件設計
3.1 APP設計
近年來,隨著5G技術的日益成熟,智能手機逐漸具備高速數(shù)據(jù)傳輸能力。在此背景下,該項目創(chuàng)新性地開發(fā)了一款以便攜式電子設備為平臺,利用圖像識別技術將數(shù)據(jù)實時上傳至云端進行高效處理的軟件服務。
設計的APP旨在全面提升用戶交互體驗,使其能夠便捷地獲取商品信息、管理購物車及查詢賬單等,顯著提升了產品的實用價值。用戶在個人中心不僅可以輕松完成注冊、登錄與個人信息維護,還能隨時查閱過往購物歷史、下載支付憑據(jù)等詳細記錄。如圖3所示,APP界面共包含五大核心板塊:首頁、掃車界面、模式選擇頁面、商品詳情頁以及用戶中心頁,旨在為用戶提供直觀、流暢的操作路徑。
3.2 APP控制
用戶首先通過掃描購物車二維碼實現(xiàn)登錄。當消費者在搜索欄輸入關鍵詞以查找某商品時,系統(tǒng)將及時提供該商品的價格、庫存位置等關鍵信息。當商品被放入購物車后,主控制器會立即獲取其重量與數(shù)量數(shù)據(jù),并將這些數(shù)據(jù)傳輸至APP界面顯示;同時,APP會據(jù)此實時計算并顯示購物總金額及詳細的賬單構成。
當購物者決定結賬并點擊“買單”按鈕時,APP通過藍牙模塊發(fā)起下單請求,并負責接收生成的支付二維碼。隨后,該支付二維碼會被呈現(xiàn)在APP界面上,使得用戶能夠方便地使用微信或支付寶掃描二維碼完成支付手續(xù)。
4 系統(tǒng)調試與結果
表1展示了水果商品識別模型可辨識的水果品種及其對應的測試集分類準確度。測試集的商品圖片是人工在不同光照下,每次對同一種類的多個樣品隨機選擇的條件下拍攝而成的,基本滿足測試集充分且能代表整個數(shù)據(jù)集的要求。該識別系統(tǒng)的準確率普遍達到了預期標準,這充分證明其在實際應用中具備可靠性和高效性。
圖4展示的是ONNX格式下的ResNet18模型結構,圖5為商品識別示例及置信概率圖。由此可以看出,該項目中的水果商品識別系統(tǒng)具有廣泛的識別能力、較高的分類精確度,其模型結構和識別過程清晰,整體性能穩(wěn)定且高效,具備在實際應用中推廣使用的條件。
5 結 語
首先,本項目以深度學習算法為依托,其識別系統(tǒng)有著強大的模式識別與學習能力,可精準、高效地鑒別各類商品,從而確保識別結果的準確性與可靠性。該算法模型經訓練與優(yōu)化后,能在復雜的商超環(huán)境中迅速捕獲并解析商品特征,為后續(xù)的自動化流程奠定堅實基礎。
其次,本項目選取ROS作為系統(tǒng)通信架構。ROS在同一局域網內具備簡便快捷的通信機制,本項目充分利用這一機制,確保商品識別信息能夠實時、低延遲傳輸,這一特性完美契合商品識別系統(tǒng)在固定環(huán)境內快速響應的需求。同時,這也極大地提升了系統(tǒng)的整體運行效率與穩(wěn)定性,使識別系統(tǒng)在復雜商超環(huán)境中的部署與維護變得更加便捷。
此外,本系統(tǒng)在設計時充分考慮用戶友好性與實用價值。識別出的商品信息可即時、清晰地呈現(xiàn)于用戶界面,方便顧客查閱與確認,從而實現(xiàn)商品識別過程的透明化與可視化,進一步提升商超購物體驗的智能化水平。
綜上所述,本項目將深度學習算法的強大識別能力和ROS通信框架的高效交互特性相融合,再結合嵌入式技術,成功構建出一款適用于商超場景的商品識別系統(tǒng)雛形。這一創(chuàng)新成果有力地推動了商超運營去人工化和智能化的進程,為構建智能化商超環(huán)境提供了極具潛力的技術支撐。
參考文獻
[1]劉海洋,夏鯤,童銳,等.基于ARM的自主跟隨無人結賬一體化智能購物車[J].農業(yè)裝備與車輛工程,2024,62(2):94-98.
[2]王豐茂,吳戀,王雪,等.基于人工智能的果蔬識別及種植指導系統(tǒng)[J].物聯(lián)網技術,2024,14(3):98-101.
[3]劉孟,劉劍勇,黃長勇,等.基于人工智能的圖像識別技術研究[J].電工技術,2023(6):84-86.
[4] ODUSAMI M, MASKELI NAS R, DAMA?EVI IUS R, et al. Analysis of features of Alzheimer’s disease: detection of early stage from functional brain changes in magnetic resonance images using a finetuned ResNet18 network [J]. Diagnostics, 2021, 11(6): 1071.
[5] SHRIDHAR A, TOMSON P, INNES M. Interoperating deep learning models with ONNX. jl [C]// Proceedings of the JuliaCon Conferences. [S.l.]: [s.n.], 2020: 59.
[6] SHARMA S, SHARMA S, ATHAIYA A. Activation functions in neural networks[J]. Towards data Science, 2017, 6(12): 310-316.
[7] QUIGLEY M, CONLEY K, GERKEY B, et al. ROS: an open-source Robot Operating System [J]. ICRA workshop on open source software, 2009, 3: 5.
[8]李昊璇,閆新艷.基于深度殘差收縮網絡的商品圖像識別[J].測試技術學報,2021,35(4):294-299.
[9]李林琛,李雪艷.開源 ROS 智能導航機器人[J]. 信息與電腦,2018(13):75-77.
[10] QUIGLEY M, GERKEY B, SMART W D. Programming robots with ROS: a practical introduction to the robot operating system [M]. [S.l.]: O'Reilly Media Inc, 2015.
[11]林宏偉,陳琪媚,曾仕峰,等. 基于 ROS 的無人派件機器人設計[J]. 物聯(lián)網技術,2020,10(3):70-71.
[12]詹潤哲,姜飛. 基于 ROS 與深度學習的移動機器人目標識別系統(tǒng)[J]. 電子測試,2018(15):70-71.
收稿日期:2024-04-27 修回日期:2024-05-30
基金項目:國家級大學生創(chuàng)新訓練計劃項目(SJ202310698072)
作者簡介:胡耀宇(2002—),男,研究方向為電氣工程及其自動化。
王榆銘(2002—),女,研究方向為電氣工程及其自動化。
劉晨雨(2002—),女,研究方向為電氣工程及其自動化。
黃安?。?004—),男,研究方向為電氣工程及其自動化。
鄭 杰(2003—),男,研究方向為自動化。
高昕悅(1994—),女,碩士,工程師,研究方向為電學基礎課程的實驗教學。