亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

任意紙質(zhì)書籍實(shí)時(shí)化有聲閱讀系統(tǒng)的研究

2022-09-17 15:53:56李海華

科技與創(chuàng)新 2022年18期

李海華，程駿

（1.華南農(nóng)業(yè)大學(xué)圖書館，廣東廣州 510642；2.廣東技術(shù)師范大學(xué)電子與信息學(xué)院，廣東廣州 510665）

圖書館提供了大量的文獻(xiàn)藏書以及光盤資料，是人們閱讀消遣、獲取知識的重要場所，為人們提供了舒適、寬敞的閱讀空間。然而對于某些特殊人群，例如視障人士，或者眼睛疲勞、暫時(shí)不適合進(jìn)行視覺閱讀的人士，傳統(tǒng)的圖書館視覺閱讀模式并不合適，因此，有聲讀物、有聲圖書館[1-3]應(yīng)運(yùn)而生。根據(jù)文獻(xiàn)記載，從1956年起，民主德國萊比錫市就開設(shè)了一個(gè)專為盲人服務(wù)的“有聲圖書館”。法國在1942年成立了國家圖書館音樂部，后通過法定繳送制度，逐漸發(fā)展成擁有非常豐富視聽資源的有聲圖書館。美國密歇根州立大學(xué)圖書館收集了包括柏特·凡谷聲音數(shù)據(jù)庫、內(nèi)藏超過4 萬小時(shí)的有聲書。蘭登書屋專門成立聽書出版商——聆聽圖書館（RandomHouse Audio）[4]。

但是，傳統(tǒng)的有聲圖書必須由專業(yè)供應(yīng)商將文字資料提前錄制成有聲音頻資源，存儲成光碟或者其他數(shù)字音頻形式，經(jīng)過一系列的技術(shù)處理，才能供讀者使用。這種模式存在一定的缺陷：①現(xiàn)有的數(shù)字音頻資源數(shù)量有限，不是任何書籍都有配套的音頻資源；②專業(yè)音頻資源的制作存在一定的資金及技術(shù)門檻；③任何新的音頻資源的推出都需要一定的時(shí)間準(zhǔn)備，無法達(dá)到實(shí)時(shí)化音頻閱讀效果。

針對以上問題，本文提出了一種任意紙質(zhì)書籍的實(shí)時(shí)化語音圖書館閱讀系統(tǒng)，讀者能夠?qū)崟r(shí)聆聽任何一本紙質(zhì)書籍，特別適合視覺障礙人士、眼睛疲勞人士以及現(xiàn)代快節(jié)奏生活方式下的各類讀者。

1 系統(tǒng)結(jié)構(gòu)與實(shí)現(xiàn)

1.1 系統(tǒng)整體結(jié)構(gòu)

圖書館紙質(zhì)書籍實(shí)時(shí)化有聲閱讀系統(tǒng)的總體結(jié)構(gòu)如圖1所示。系統(tǒng)由圖書采集終端、無線傳輸系統(tǒng)、文字圖像識別系統(tǒng)、文字轉(zhuǎn)語音系統(tǒng)、音頻播放終端等部分組成。

圖1 圖書館實(shí)時(shí)有聲閱讀系統(tǒng)總體結(jié)構(gòu)圖

1.2 系統(tǒng)原理與技術(shù)實(shí)現(xiàn)

圖書采集終端是在圖書館對應(yīng)卡位的書桌上，安裝2個(gè)高清視頻攝像頭。閱讀時(shí)，讀者只需將書籍翻到某一頁，攝像頭就會實(shí)時(shí)采集頁面上的圖像數(shù)據(jù)，并發(fā)送給文字圖像識別系統(tǒng)，進(jìn)行文字識別。之所以采用2個(gè)攝像頭方案，是因?yàn)閷?shí)際的書籍頁面由于角度、光線的原因，有可能產(chǎn)生光學(xué)盲區(qū)，導(dǎo)致某一個(gè)區(qū)域無法采集到清晰的圖像，采用雙攝像頭，可以很好地解決這個(gè)問題。

無線傳輸系統(tǒng)采用semtech 公司創(chuàng)建的低功耗局域網(wǎng)無線終端LoRa 模塊，LoRa 無線模塊具有低功耗、高效率的無線傳輸特點(diǎn)[5-7]。只需要在服務(wù)器端配置一個(gè)LoRa 網(wǎng)關(guān)，就可以同時(shí)連接數(shù)千個(gè)LoRa 節(jié)點(diǎn)。因此，只需要在每個(gè)圖書采集終端配置一個(gè)LoRa 節(jié)點(diǎn)，在服務(wù)器端配置一個(gè)LoRa 網(wǎng)關(guān)，即可完成整個(gè)圖書館的有聲圖書網(wǎng)絡(luò)布局，該方案具有低成本、高效率的獨(dú)特優(yōu)勢。

文字圖像識別系統(tǒng)的作用是將攝像頭采集到的書籍頁面圖像中的文字識別出來，可采用市面上成熟的算法技術(shù)方案。目前，百度公司和科大訊飛公司等企業(yè)，已經(jīng)推出了商業(yè)化的成熟文字識別技術(shù)方案，而且價(jià)格適中，圖書館只需要支付適當(dāng)?shù)馁M(fèi)用，即可使用成熟的圖像文字識別技術(shù)。

文字轉(zhuǎn)語音系統(tǒng)的作用是將文字信息轉(zhuǎn)化為語音信息，即完成文字信息的實(shí)時(shí)語音閱讀功能，科大訊飛公司提供了全套完整的商用化技術(shù)方案，且收費(fèi)低廉，圖書館只需購買相應(yīng)的技術(shù)方案，即可使用該功能。

音頻播放終端是由具有藍(lán)牙功能的一對耳機(jī)組成，用戶可以直接佩戴耳機(jī)，實(shí)時(shí)聆聽有聲閱讀服務(wù)，也可使用手機(jī)藍(lán)牙功能連接有聲系統(tǒng)，用個(gè)人手機(jī)操作和享受有聲閱讀服務(wù)。

1.3 系統(tǒng)的擴(kuò)展功能應(yīng)用

以上所述的系統(tǒng)功能實(shí)現(xiàn)后，用戶可以在圖書館實(shí)時(shí)享受到有聲聽書服務(wù)。一般情況下，用戶必須坐在圖書館有聲圖書卡位，才能享受相應(yīng)服務(wù)。為了擴(kuò)展服務(wù)范圍，讓更多的讀者能夠享受到此項(xiàng)服務(wù)，可以將系統(tǒng)功能擴(kuò)展升級。

可在圖書館有聲讀書系統(tǒng)的LoRa 節(jié)點(diǎn)處同時(shí)配置一個(gè)4G/5G 移動通信網(wǎng)關(guān)，用戶可使用手機(jī)APP 接入圖書館有聲讀書系統(tǒng)。當(dāng)用戶需要享受有聲讀書服務(wù)時(shí)，可用自己的手機(jī)攝像頭拍攝紙質(zhì)書籍某一頁的圖像，然后利用APP 接入圖書館系統(tǒng)，利用圖書館的服務(wù)器完成文字識別、文字轉(zhuǎn)語音等功能，再將語音信息反饋給用戶手機(jī)APP，用戶可用手機(jī)直接聆聽有聲讀書服務(wù)。

該項(xiàng)功能升級完成以后，圖書館有聲圖書服務(wù)范圍將大大擴(kuò)展，用戶只需掃描圖書館有聲服務(wù)二維碼，下載專用的APP 軟件，即可在任何時(shí)間、任何地點(diǎn)接入圖書館有聲服務(wù)系統(tǒng)，享受到有聲圖書服務(wù)。

但此項(xiàng)功能也存在一定的不足之處，即用戶手機(jī)攝像頭難以提供足夠精度的紙質(zhì)書籍視頻，只能拍攝固定角度的靜態(tài)照片來采集數(shù)據(jù)，因此，采集到的紙質(zhì)書籍圖像比較容易出現(xiàn)光學(xué)盲區(qū)、抖動影響、書籍頁面不平整等一系列問題，從而影響文字轉(zhuǎn)語音的識別正確率。

為了提高手機(jī)拍攝的文字識別率，最簡單的方法是采用多角度拍攝多張照片的方法來解決。經(jīng)過實(shí)際測試，如果適當(dāng)改變角度，在靜態(tài)條件下，拍攝3～4張同一頁紙質(zhì)書籍的照片，通過APP 上傳到圖書館服務(wù)器以后，文字轉(zhuǎn)語音的正確率可以達(dá)到92%以上，能夠滿足讀者要求。

但是，如果用戶處于行走等動態(tài)條件下，手機(jī)拍攝的紙質(zhì)書籍文字識別率將大大降低，通常需要拍攝8張以上的照片，才能達(dá)到90%以上的正確率，因此，使用手機(jī)APP 享受有聲圖書服務(wù)時(shí)，建議讀者最好處于靜態(tài)閱讀狀態(tài)，盡量不要做過度運(yùn)動。

當(dāng)然，采用拍攝多張照片的方法來提高文字識別率，用戶的等待時(shí)間就會延長。一般拍攝3～4 張照片，上傳到服務(wù)器以后，大約在9 s 以后，用戶才能聆聽到有聲圖書的閱讀服務(wù)。

除此之外，帶有攝像頭的個(gè)人電腦、各類筆記本電腦都可以作為擴(kuò)展應(yīng)用設(shè)備，連接到圖書館有聲聽書服務(wù)平臺。用戶只需要用個(gè)人賬號登錄圖書館有聲書籍系統(tǒng)，即可在任意場合使用自己的個(gè)人電腦連接有聲讀書系統(tǒng)，享受到圖書館有聲讀書服務(wù)。

2 存在問題及功能改進(jìn)

2.1 無線信道頻率干擾問題

為了測試圖書館實(shí)時(shí)有聲閱讀系統(tǒng)的實(shí)際效果，搭建了一個(gè)16 節(jié)點(diǎn)的簡易測試系統(tǒng)，系統(tǒng)由16個(gè)有聲閱讀節(jié)點(diǎn)、LoRa 無線傳輸網(wǎng)絡(luò)及1 臺服務(wù)器組成。經(jīng)過測試發(fā)現(xiàn)，當(dāng)用戶數(shù)較少時(shí)，用戶可以實(shí)時(shí)享受流暢的有聲閱讀服務(wù)。用戶翻閱任意一本紙質(zhì)書籍，系統(tǒng)可實(shí)時(shí)將書籍上的內(nèi)容轉(zhuǎn)換為語音信息，用戶通過耳機(jī)聆聽，效果良好；但是，當(dāng)用戶節(jié)點(diǎn)數(shù)接近16時(shí)，系統(tǒng)會出現(xiàn)卡頓或者是出現(xiàn)噪聲雜音干擾，經(jīng)過分析發(fā)現(xiàn)，當(dāng)多個(gè)節(jié)點(diǎn)同時(shí)工作時(shí)，各節(jié)點(diǎn)之間會出現(xiàn)無線信道頻率干擾，從而導(dǎo)致系統(tǒng)出現(xiàn)卡頓和噪聲。

為解決這個(gè)問題，設(shè)計(jì)了一套主機(jī)輪詢技術(shù)方案。即每次通訊前，都由主機(jī)發(fā)出無線引導(dǎo)信號，各從機(jī)接收到引導(dǎo)信號以后，只有特定的某臺從機(jī)可以通訊，從而避免了各個(gè)節(jié)點(diǎn)之間頻率干擾的問題。為保證主機(jī)輪詢方案正常工作，改進(jìn)了LoRa 信息的數(shù)據(jù)格式，如圖2所示。

圖2 改進(jìn)后的LoRa 幀數(shù)據(jù)格式

在每段標(biāo)準(zhǔn)的LoRa 數(shù)據(jù)之前，加入了4個(gè)字節(jié)的信息碼頭。其中第1、第2 字節(jié)，存儲的是各個(gè)節(jié)點(diǎn)的地址信息，所以一共可以存儲216，即65 536個(gè)從機(jī)節(jié)點(diǎn)信息。第3 字節(jié)存儲的是時(shí)間戳信息，即各個(gè)節(jié)點(diǎn)發(fā)出通訊請求的當(dāng)前時(shí)刻信息，當(dāng)主機(jī)輪詢開始時(shí)，各個(gè)節(jié)點(diǎn)會核對相應(yīng)的地址信息和時(shí)間戳信息，主機(jī)每次會發(fā)出2個(gè)從機(jī)地址進(jìn)入備選隊(duì)列，然后系統(tǒng)核對2個(gè)從機(jī)的時(shí)間戳信息，最后按照時(shí)間戳的先后順序，按照時(shí)分復(fù)用的原則，依次與主機(jī)通訊。第4個(gè)字節(jié)是糾錯(cuò)碼，用于主從機(jī)之間的誤碼糾錯(cuò)。

2.2 圖像采集誤碼問題

通過長時(shí)間連續(xù)測試，我們發(fā)現(xiàn)，大多數(shù)情況下用戶都能正常享受有聲閱讀服務(wù)，但偶然的情況下，有聲閱讀的內(nèi)容會出錯(cuò)，表現(xiàn)為幾個(gè)字或者一句話的內(nèi)容與紙質(zhì)書籍文字內(nèi)容不一致。經(jīng)過分析，發(fā)現(xiàn)這是由于圖書采集終端的問題造成的。由于紙張的表面不平整以及反光等現(xiàn)象，攝像頭采集的原始圖像可能存在某一小塊區(qū)域的圖像采集錯(cuò)誤，采用雙攝像頭系統(tǒng)可以解決大部分的問題，但偶爾還是會出現(xiàn)小概率圖像采集錯(cuò)誤。為了解決此技術(shù)難點(diǎn)，采用了補(bǔ)充調(diào)制光源技術(shù)，即在雙攝像頭的相應(yīng)位置，分別補(bǔ)充2組LED 紅外發(fā)光二極管作為補(bǔ)充光源，紅外光肉眼不可見，因此對于讀者來說，閱讀沒有受到任何影響。紅外發(fā)光二極管兩邊各4個(gè)，分別采用頻率為12 kHz、25 kHz 的方波信號進(jìn)行調(diào)制，這是由于自然界的光源均為穩(wěn)定光源，自然界不存在12 kHz 和25 kHz 的調(diào)制信號。因此，采用紅外制信號作為補(bǔ)充光源，能夠大大增強(qiáng)圖像采集系統(tǒng)的抗干擾性。經(jīng)過實(shí)測，改進(jìn)后實(shí)際效果良好，系統(tǒng)可提供穩(wěn)定優(yōu)質(zhì)的有聲圖書閱讀服務(wù)。

2.3 背景音樂的自動加載

有聲圖書的播放可以采用無背景音樂模式，但這樣會顯得比較單調(diào)。所以，大多數(shù)情況下，有聲圖書系統(tǒng)都采用了背景音樂伴奏模式。但目前，市面上所有的有聲圖書系統(tǒng)都采用固定配音模式，即在音頻文件制作時(shí)，就已經(jīng)將某一段有聲圖書的背景音樂選定并錄制好了，后期無法改動。

本系統(tǒng)采用了自適應(yīng)動態(tài)背景音樂模式。在手動模式下，用戶可以手動選擇不同的音樂來作為有聲圖書的背景音樂。在自動模式下，設(shè)計(jì)了一套背景音樂的選擇算法，即在文字圖像識別時(shí)，系統(tǒng)自動調(diào)用背景音樂加載算法，該算法可根據(jù)目前的文字內(nèi)容，自動判斷出目前文字內(nèi)容所表達(dá)的情緒及語態(tài)，從而選擇相應(yīng)的背景音樂。例如，當(dāng)所閱讀的書籍，當(dāng)前所表達(dá)的文字內(nèi)容是輕松愉快的狀態(tài)，系統(tǒng)就會自動加載休閑、輕松的音樂背景。如果當(dāng)前所閱讀的文字描述的是緊張、懸疑的狀態(tài)，系統(tǒng)就會自動加載緊張、刺激的音樂背景。總之，系統(tǒng)會根據(jù)當(dāng)前的文本內(nèi)容，自動選擇與之相配套的音樂作為背景，從而進(jìn)一步烘托出文字內(nèi)容所體現(xiàn)的情景效果，優(yōu)化讀者的閱讀感受。

3 結(jié)語

本文研究了一種新型的圖書館實(shí)時(shí)有聲閱讀系統(tǒng)，該系統(tǒng)可以提供任意紙質(zhì)書籍的實(shí)時(shí)有聲閱讀服務(wù)，特別適合于視覺障礙、眼睛疲勞及放松休閑讀者的閱讀需求，在傳統(tǒng)的圖書館模式下開辟一項(xiàng)新的服務(wù)內(nèi)容，更加豐富了圖書館作為學(xué)習(xí)園地、文明園地的內(nèi)涵，更好地為讀者、為社會提供優(yōu)質(zhì)的服務(wù)。