劉建杰 馬 帥 程訓(xùn)聰 賀 沅 郭東旭
(黑龍江科技大學(xué) 機(jī)械工程學(xué)院,黑龍江 哈爾濱 150000)
寫(xiě)字機(jī)器人的技術(shù)涉及到了單片機(jī)的使用,多種傳感器相互協(xié)調(diào),機(jī)械結(jié)構(gòu)傳動(dòng)控制等,目前的寫(xiě)字機(jī)器人產(chǎn)品還存在這很多的問(wèn)題和缺陷,應(yīng)用場(chǎng)景因此受到很大限制,使用者的體驗(yàn)效果也有很大限制。本文所述的寫(xiě)字機(jī)器人是為了設(shè)計(jì)一種能夠增加設(shè)備使用便捷性以及能夠完善寫(xiě)字機(jī)器人系統(tǒng)功能,從而達(dá)到對(duì)寫(xiě)字機(jī)器人起到一定的推廣作用。使其在教學(xué)、語(yǔ)言學(xué)習(xí)等相關(guān)領(lǐng)域起到幫助性作用。
另外,隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,人工智能與物聯(lián)網(wǎng)技術(shù)的結(jié)合更加適合于市場(chǎng)的發(fā)展方向,本文所述的寫(xiě)字機(jī)器人項(xiàng)目在市場(chǎng)上原有寫(xiě)字機(jī)器人功能的基礎(chǔ)上向著人機(jī)交互以及視覺(jué)處理方面研發(fā),通過(guò)視覺(jué)處理可以實(shí)現(xiàn)文字、書(shū)法、書(shū)畫(huà)的模仿。理論上只要能夠建立相應(yīng)的字體庫(kù)就能夠?qū)崿F(xiàn)上述功能。另外在人機(jī)交互系統(tǒng)的運(yùn)作下,系統(tǒng)能夠更簡(jiǎn)便的完成簡(jiǎn)單的使用指令,使寫(xiě)字機(jī)器人向著更加智能化、功能化方向前進(jìn)。
隨著技術(shù)的發(fā)展,寫(xiě)字機(jī)器人被應(yīng)用在辦公、語(yǔ)言學(xué)習(xí)等多個(gè)領(lǐng)域。目前在日常生活以及辦公領(lǐng)域還尚未普及,在技術(shù)的現(xiàn)實(shí)上,國(guó)內(nèi)市場(chǎng)的寫(xiě)字機(jī)器人僅僅達(dá)到了能夠?qū)懽值墓δ?,距離真正的生產(chǎn)實(shí)際應(yīng)用還有很大的差距。國(guó)內(nèi)對(duì)于寫(xiě)字機(jī)器人的研究主要在于機(jī)器人自由度算法以及矢量化算法和字體書(shū)寫(xiě)軌跡的運(yùn)算以及轉(zhuǎn)化。對(duì)于智能化和功能化方面還有很大的進(jìn)步空間,通過(guò)對(duì)于計(jì)算機(jī)視覺(jué)技術(shù)、語(yǔ)音識(shí)別技術(shù)的應(yīng)用完善寫(xiě)字機(jī)器人的智能化。
系統(tǒng)是基于語(yǔ)音識(shí)別以及視覺(jué)處理設(shè)計(jì)的,本系統(tǒng)主要以raspberry 作為中心處理器,是整個(gè)系統(tǒng)的核心。中心處理器主要實(shí)現(xiàn)對(duì)圖像的識(shí)別以及內(nèi)部包含多種文字庫(kù),可以通過(guò)實(shí)現(xiàn)不同字體調(diào)用不同的文字庫(kù)。本文所述系統(tǒng)的機(jī)械結(jié)構(gòu)控制主要通過(guò)stm32 單片機(jī)進(jìn)行移動(dòng),可以實(shí)現(xiàn)x,y 軸的移動(dòng)、筆的起落控制、人機(jī)交互裝置的轉(zhuǎn)動(dòng)。本文所述系統(tǒng)還帶有由k210 實(shí)現(xiàn)的語(yǔ)音識(shí)別功能、面部追蹤功能。(圖1)
圖1 系統(tǒng)總體設(shè)計(jì)圖
3.1.1 掃描原理:(7)攝像頭與中心處理器直接相連,將所拍攝的圖片傳輸至中心處理器,中心處理器中通過(guò)計(jì)算機(jī)視覺(jué)處理,將識(shí)別出的文字?jǐn)?shù)據(jù)整理傳給下位機(jī)stm32 端,通過(guò)下位機(jī)實(shí)現(xiàn)書(shū)寫(xiě)功能。
3.1.2 常規(guī)書(shū)寫(xiě)功能:通過(guò)輸入文件形式,將文件的內(nèi)容通過(guò)數(shù)據(jù)傳輸給下位機(jī),下位機(jī)實(shí)現(xiàn)書(shū)寫(xiě)功能,機(jī)器人完成寫(xiě)字效果如圖2。
圖2 寫(xiě)字效果圖
3.1.3 人機(jī)交互:人機(jī)交互裝置通過(guò)k210 開(kāi)發(fā)板直接控制,(22)攝像頭與k210 直接相連接,使用者可以通過(guò)語(yǔ)音進(jìn)行簡(jiǎn)單啟動(dòng)指令,切換文件指令,并可以通過(guò)語(yǔ)音識(shí)別實(shí)現(xiàn)臨時(shí)文字打印。攝像頭在使用者使用人機(jī)交互裝置同時(shí)啟動(dòng),攝像頭會(huì)進(jìn)行人臉定位,操控舵機(jī)轉(zhuǎn)動(dòng)使機(jī)器人頭部顯示面板面向使用者。
圖3 裝置設(shè)計(jì)圖
3.3.1 實(shí)現(xiàn)流程(圖4)
圖4 文字提取流程圖
3.3.2 實(shí)現(xiàn)原理
(1)通過(guò)閾值化和腐蝕處理:可以將文字大致提取出來(lái),在經(jīng)過(guò)去噪處理可將圖片中存在的噪聲像素去除。
閾值處理(threshold):按照灰度級(jí),對(duì)圖像的像素點(diǎn)進(jìn)行劃分。得到的子集形成與實(shí)景相對(duì)的區(qū)域,保證各個(gè)區(qū)域內(nèi)部屬性是一致的,與周?chē)鷧^(qū)域?qū)傩苑謩e開(kāi)。
●Dst:輸出圖像
●Thresh:設(shè)定閾值
●Maxval:最大值
●Src:原圖像
腐蝕處理(getStructuringElement):在圖像處理中腐蝕屬于形態(tài)學(xué)操作,其含義就是將圖片變“瘦”,通常用來(lái)處理毛刺問(wèn)題。
(2)區(qū)域檢測(cè):采用檢測(cè)連通區(qū)域,再根據(jù)連通區(qū)域計(jì)算邊框從而進(jìn)行檢測(cè)。需說(shuō)明的是本文涉及到的區(qū)域檢測(cè)使用的是種子填充法。
(3)字體邊框計(jì)算:通過(guò)連通區(qū)域的像素點(diǎn),得到一個(gè)連通區(qū)域坐標(biāo)點(diǎn)的集合list,檢測(cè)時(shí)每次棧一個(gè)點(diǎn),就將這個(gè)點(diǎn)加入到這個(gè)坐標(biāo)點(diǎn)集合中去,得到集合列表texts。這樣就可以得到文字框架。
最終問(wèn)題識(shí)別效果圖,見(jiàn)圖5。
圖5 文字識(shí)別效果圖
語(yǔ)音識(shí)別技術(shù)主要運(yùn)行流程:首先處理設(shè)備會(huì)將收集到的語(yǔ)音波形進(jìn)行特征提取,信號(hào)的分析處理,此過(guò)程中會(huì)出去雜質(zhì)信息,并將分析處理好的信息進(jìn)行關(guān)鍵信息的特征提取。由于提取到的特征一般是多維向量形式,所以就要通過(guò)聲學(xué)模型中的算法對(duì)收取到的特征進(jìn)行進(jìn)一步處理;最后就是進(jìn)行解碼階段,在這一階段計(jì)算機(jī)會(huì)按照語(yǔ)言模型以及詞匯表對(duì)處理完成的信息進(jìn)行按序分析識(shí)別,最后根據(jù)關(guān)鍵意思進(jìn)行排列。
本項(xiàng)目設(shè)計(jì)的基于人機(jī)交互的智能寫(xiě)字機(jī)器人,在智能性、服務(wù)性、移動(dòng)位移的精確性、使用壽命以及系統(tǒng)的可更新性方面相較于市面上的產(chǎn)品由相對(duì)的提高。通過(guò)智能化的寫(xiě)字機(jī)器人能夠更加適用于當(dāng)下物聯(lián)網(wǎng)- 人工智能的時(shí)代。本項(xiàng)目有很大研究性,今后在機(jī)器人中加入神經(jīng)網(wǎng)絡(luò),將會(huì)更加適用于當(dāng)下人們的學(xué)習(xí)生活。結(jié)果表明,本項(xiàng)目具有深入研究的意義。