唐成燁 高琪 李曼莉 唐瑞虎
摘 要:通過(guò)語(yǔ)音輸入與交互,實(shí)現(xiàn)機(jī)械臂系統(tǒng)功能的語(yǔ)音控制,使普通用戶(hù)能夠通過(guò)簡(jiǎn)單的言語(yǔ)溝通,靈活地使用人工智能來(lái)處理一些事務(wù)。方便人們使用,使人與機(jī)器的溝通更加便捷。通過(guò)語(yǔ)音和圖像配合的輸入與輸出,能夠使機(jī)器更擬人化,使用者能更容易地操作機(jī)器。
關(guān)鍵詞:圖像;語(yǔ)音;聯(lián)合交互;人工智能;機(jī)械臂平臺(tái)
當(dāng)前人工智能產(chǎn)品功能相對(duì)單一,為了發(fā)揮人工智能產(chǎn)品更大的便利性,越來(lái)越多的產(chǎn)品變的更加智能化、集成化,目前大多數(shù)主流開(kāi)發(fā)商已經(jīng)不再僅僅專(zhuān)注于某一領(lǐng)域,而是多領(lǐng)域開(kāi)發(fā),創(chuàng)造更多的價(jià)值。本作品就是基于人工智能技術(shù)研究語(yǔ)音、動(dòng)作一體化機(jī)械臂,整合來(lái)自視覺(jué)、語(yǔ)音等多模態(tài)信息,利用語(yǔ)音識(shí)別與數(shù)據(jù)經(jīng)驗(yàn)積累,充分理解、記憶、預(yù)測(cè)和應(yīng)對(duì)客戶(hù)的需求,方便人們的生活和工作。
一、機(jī)械臂應(yīng)用群體范圍
自動(dòng)化:行業(yè)中大多包括半自動(dòng)化設(shè)備,且需要提供一定的人力資源滿足對(duì)半自動(dòng)化設(shè)備的調(diào)試、使用、維護(hù)。人工智能機(jī)械臂作為一種靈活的自動(dòng)化應(yīng)用設(shè)備,能夠驅(qū)動(dòng)企業(yè)中大多數(shù)半自動(dòng)化設(shè)備,并且具有一定的監(jiān)督功能,能夠在設(shè)備出現(xiàn)故障時(shí)發(fā)出警報(bào)。人工智能機(jī)械臂在企業(yè)自動(dòng)化方面能夠?yàn)楣?jié)省大量人力,并且能夠擁有更長(zhǎng)的工作時(shí)間,也保證了工人的人身安全。
智能產(chǎn)品檢測(cè):工業(yè)生產(chǎn)大制造,質(zhì)量與形狀方面的不合格品能夠通過(guò)篩選剔除,但是產(chǎn)品表面是否達(dá)到合格,往往需要一定的人力提供幫助。人工智能機(jī)械臂在此領(lǐng)域的貢獻(xiàn)是,能夠自動(dòng)地檢測(cè)產(chǎn)品的外觀與形狀,并把不合格的產(chǎn)品剔除并拍攝上傳到服務(wù)器用于統(tǒng)計(jì),為企業(yè)產(chǎn)品量化提供方便。
助理服務(wù):人工智能機(jī)械臂也是面向群體面向大眾的,能夠在日常生活中為使用者提供一定的便利,例如:物品分類(lèi)、知識(shí)答疑等。經(jīng)過(guò)改進(jìn)后,完全能夠做到在醫(yī)學(xué)領(lǐng)域遠(yuǎn)程行醫(yī)。
主要功能與特色:集遠(yuǎn)程遙控、自主學(xué)習(xí)并執(zhí)行動(dòng)作、手勢(shì)識(shí)別與互動(dòng)、顏色識(shí)別追蹤與互動(dòng)、人臉識(shí)別追蹤和垃圾智能識(shí)別分類(lèi)等多功能于一體,達(dá)到一體多功能效果。通過(guò)不斷實(shí)驗(yàn)和實(shí)踐積累經(jīng)驗(yàn)改善并增加功能追求多方面功能集一身的特色。
二、模塊詳細(xì)介紹
視覺(jué)的開(kāi)發(fā)方面依賴(lài)于攝像模塊,圖像識(shí)別算法上需要cv等模塊支持。在開(kāi)發(fā)視覺(jué)功能前,為開(kāi)發(fā)過(guò)程穩(wěn)定,推薦選用NVIDIA旗下的圖像處理模塊。除此之外,還包括但不限于開(kāi)發(fā)板、風(fēng)扇、舵機(jī)模塊。圖像識(shí)別不僅僅是硬件上的組裝,主要還是需要在后期的算法上進(jìn)行研究,特別是當(dāng)一個(gè)項(xiàng)目在對(duì)于外界環(huán)境的識(shí)別要求具有一定的精準(zhǔn)度時(shí),就對(duì)軟件方面的開(kāi)發(fā)要求更高。
在圖像處理上,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)開(kāi)發(fā)人員的數(shù)據(jù)集進(jìn)行訓(xùn)練。反復(fù)訓(xùn)練能夠提高對(duì)于同樣一個(gè)模型的角度的準(zhǔn)確率。模型訓(xùn)練過(guò)程中能夠自適應(yīng)圖像的位置,能夠?qū)τ谝R(shí)別物體的特征進(jìn)行分析,同時(shí)屏蔽掉一些干擾,識(shí)別中通過(guò)調(diào)整對(duì)目標(biāo)檢測(cè)的相似度來(lái)保證得到的訓(xùn)練結(jié)果能夠更加精確。模型檢測(cè)中,在視頻輸入流下,攝像模塊在開(kāi)發(fā)前已經(jīng)相互兼容。視頻流的目標(biāo)檢測(cè)是通過(guò)對(duì)于視頻中的每一幀進(jìn)行單獨(dú)檢測(cè)輸出到屏幕從而實(shí)現(xiàn)視頻流檢測(cè)功能。
三、結(jié)語(yǔ)
人工智能機(jī)械臂平臺(tái)針對(duì)不同用戶(hù)的需求模式,完成用戶(hù)自定義模式,通過(guò)物品識(shí)別、動(dòng)作調(diào)正等功能,為不同用戶(hù)提供方便,使機(jī)械臂在生活中發(fā)揮更加廣泛的應(yīng)用。集遠(yuǎn)程遙控、自主學(xué)習(xí)并執(zhí)行動(dòng)作、手勢(shì)識(shí)別與互動(dòng)、顏色識(shí)別追蹤與互動(dòng)、人臉識(shí)別追蹤和垃圾智能識(shí)別分類(lèi)等多功能于一體,達(dá)到一體多功能效果。通過(guò)語(yǔ)音模塊,調(diào)用對(duì)應(yīng)的方法,通過(guò)語(yǔ)音控制實(shí)現(xiàn)人機(jī)交互。對(duì)于給定的輸入圖像,系統(tǒng)不僅可以通過(guò)語(yǔ)音交互完成控制,系統(tǒng)也可以通過(guò)自動(dòng)識(shí)別,對(duì)圖像進(jìn)行自動(dòng)處理。
人工智能機(jī)械臂平臺(tái)的研究針對(duì)于大多數(shù)產(chǎn)業(yè)及一些其他普通工作的智能自動(dòng)化。項(xiàng)目采用了Python語(yǔ)言設(shè)計(jì),內(nèi)部嵌入式環(huán)境為L(zhǎng)inux衍生的Ubuntu系統(tǒng)。項(xiàng)目開(kāi)發(fā)之所以采用嵌入式,原因在于該方式可以極大程度上降低項(xiàng)目的開(kāi)發(fā)周期,同時(shí)能夠在項(xiàng)目開(kāi)發(fā)過(guò)程中出現(xiàn)問(wèn)題時(shí)便于調(diào)試。