張斌和
(美豐農(nóng)業(yè)科技(上海)有限公司,上海 200000)
隨著互聯(lián)網(wǎng)的迅速發(fā)展和數(shù)字化內(nèi)容的日益增加,圖片中所包含的文字信息對于網(wǎng)頁搜索、文本分析和信息抽取等任務(wù)變得越來越重要。然而,傳統(tǒng)的文本搜索方法無法直接從圖片中檢索關(guān)鍵信息,這給利用圖像進(jìn)行準(zhǔn)確的文字搜索和定位帶來了挑戰(zhàn)。
為了解決這一問題,光學(xué)字符識別(OCR)技術(shù)被廣泛應(yīng)用于將圖像中的文字提取為可供計(jì)算機(jī)處理的文本形式。然而,傳統(tǒng)的OCR方法在應(yīng)用上存在一些限制,如需要專門的硬件設(shè)備和繁重的前期處理。為了提供更方便和高效的圖像文字搜索定位工具,近年來在Web 瀏覽器中進(jìn)行圖像識別和OCR 的研究引起了廣泛關(guān)注。
將[0,xm]區(qū)間等分為m1個子區(qū)間,并設(shè)每一個小區(qū)間為[xri-1,xri],(i=1,2,…,m1).因此,每個小區(qū)間端點(diǎn)xri=i·2-N/m1,(i=0,1,…,m1).設(shè)幅度修正因子函數(shù)Kc在區(qū)間[xri-1,xri],(i=1,2,…,m1)上的最佳一致逼近一階多項(xiàng)式為
本研究旨在設(shè)計(jì)和開發(fā)一種基于tesseract.js的瀏覽器擴(kuò)展,旨在為用戶提供一種在Web瀏覽器中準(zhǔn)確搜索和定位圖片中的文字的便捷工具[1-3]。該擴(kuò)展利用tesseract.js 作為OCR 引擎,結(jié)合瀏覽器擴(kuò)展的功能,實(shí)現(xiàn)了直接在瀏覽器中識別圖片中的文字、提供搜索定位功能的能力。
與傳統(tǒng)的OCR 方法相比,基于tesseract.js 的瀏覽器擴(kuò)展具有以下優(yōu)勢。首先,通過借助現(xiàn)有的瀏覽器平臺,消除了對專門硬件設(shè)備和前期處理的依賴,提供了一種輕量級的圖像文字搜索與定位解決方案。其次,擴(kuò)展程序運(yùn)行在用戶的瀏覽器環(huán)境中,可以在保護(hù)用戶隱私的同時(shí)提供本地化的圖像文字處理。同時(shí),基于tesseract.js 引擎的高性能和可靠性可以保證文字識別的準(zhǔn)確性和效率。
在本研究中,將詳細(xì)介紹基于tesseract.js 的瀏覽器擴(kuò)展的設(shè)計(jì)與實(shí)現(xiàn),并進(jìn)行實(shí)驗(yàn)評估。將討論擴(kuò)展程序的功能、準(zhǔn)確性和性能,并與相關(guān)方法進(jìn)行比較。最后,探討該擴(kuò)展程序在實(shí)際應(yīng)用領(lǐng)域的潛在價(jià)值,并提出改進(jìn)的建議和未來的研究方向。
本節(jié)將詳細(xì)介紹基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展的設(shè)計(jì)和實(shí)現(xiàn)方法。首先介紹系統(tǒng)架構(gòu),包括背景腳本、內(nèi)容腳本和相關(guān)的JavaScript 文件。接著解釋tesseract.js 的作用和OCR 引擎的組成。最后詳細(xì)描述瀏覽器擴(kuò)展的關(guān)鍵功能和實(shí)現(xiàn)細(xì)節(jié)。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展的系統(tǒng)架構(gòu)包括背景腳本(background.js) 、內(nèi)容腳本(content.js) 和相關(guān)的JavaScript 文件(tesseract.js、worker.js、tesseract-core-simd.wasm.js) 。背景腳本負(fù)責(zé)處理擴(kuò)展程序的安裝、右鍵菜單的創(chuàng)建和消息傳遞,而內(nèi)容腳本則負(fù)責(zé)與當(dāng)前網(wǎng)頁進(jìn)行交互和執(zhí)行圖像文字搜索定位的實(shí)際操作。
然而,需要認(rèn)識到基于tesseract.js 的Web 圖片文字搜索定位的瀏覽器擴(kuò)展存在一些局限性。首先,擴(kuò)展程序可能受到圖像質(zhì)量和復(fù)雜度的影響,對于低質(zhì)量或含有干擾元素的圖像,識別和定位準(zhǔn)確性可能會降低。其次,擴(kuò)展程序仍然依賴于tesseract.js 作為OCR引擎,其性能和準(zhǔn)確性受到引擎本身的限制。進(jìn)一步的改進(jìn)和優(yōu)化可能需要考慮更先進(jìn)的OCR 技術(shù)和算法。
tesseract.js 是基于JavaScript 的OCR 庫,利用Web-Assembly技術(shù)加載和運(yùn)行一個OCR引擎的二進(jìn)制文件(tesseract-core-simd.wasm.js)。該OCR 引擎是基于tesseract 項(xiàng)目的開源引擎,經(jīng)過優(yōu)化以便在瀏覽器中進(jìn)行高性能的文字識別。
利用采集到的數(shù)據(jù),當(dāng)相關(guān)參數(shù)發(fā)生變化時(shí),研究系統(tǒng)的EER是如何變化的,并且在分析測試結(jié)果的工作中,將相鄰時(shí)間段內(nèi)波動比較大的數(shù)據(jù)剔除掉。為了盡量避免其他條件的影響,選擇機(jī)組運(yùn)行正常2017年6月27日的數(shù)據(jù)進(jìn)行分析。
普通本科院校的建設(shè)歸根結(jié)底是應(yīng)用型本科專業(yè)的建設(shè)。旅游管理專業(yè)的特點(diǎn)要求在教學(xué)環(huán)節(jié)及人才培養(yǎng)過程中加大實(shí)踐教學(xué)力度,增加實(shí)踐教學(xué)內(nèi)容,構(gòu)建系統(tǒng)的實(shí)踐教學(xué)體系。
右鍵菜單創(chuàng)建:在圖像上右鍵點(diǎn)擊時(shí),通過背景腳本創(chuàng)建一個右鍵菜單項(xiàng),使用戶能夠觸發(fā)圖像文字搜索定位功能。
圖像文字搜索觸發(fā):當(dāng)用戶選擇右鍵菜單中的搜索圖片選項(xiàng)時(shí),內(nèi)容腳本將發(fā)送消息給背景腳本,請求顯示一個輸入框以接收用戶輸入的搜索內(nèi)容。
1.冬奧會的成功申辦為冰雪產(chǎn)業(yè)帶來了廣闊的發(fā)展前景。北京冬奧會助推了冰雪運(yùn)動在中國的推廣與普及,同時(shí)也帶動了冰雪旅游、冰雪文化、冰雪裝備制造業(yè)等產(chǎn)業(yè)的發(fā)展。預(yù)計(jì)到2025年,我國冰雪產(chǎn)業(yè)總規(guī)模將達(dá)到萬億元,直接參加冰雪運(yùn)動的人數(shù)可達(dá)5000萬人,并帶動3億人參與冰雪運(yùn)動。冰雪產(chǎn)業(yè)無疑有著廣闊的發(fā)展前景。
圖像處理與OCR實(shí)現(xiàn):當(dāng)用戶在輸入框中輸入搜索內(nèi)容并點(diǎn)擊搜索按鈕時(shí),內(nèi)容腳本將獲取所選圖像的URL,并利用tesseract.js 庫和OCR 引擎對圖像進(jìn)行文字識別。識別的結(jié)果將與搜索內(nèi)容進(jìn)行匹配和定位,以便進(jìn)行進(jìn)一步操作。
搜索定位結(jié)果展示:搜索定位結(jié)果將以標(biāo)注的方式展示在頁面上,例如在識別出的文本區(qū)域周圍繪制邊框或標(biāo)記搜索關(guān)鍵詞。此外,還可以提供關(guān)閉按鈕,供用戶隨時(shí)關(guān)閉搜索定位結(jié)果的顯示。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展具有以下關(guān)鍵功能:
背景腳本(background.js) :負(fù)責(zé)處理擴(kuò)展程序的安裝和更新以及監(jiān)聽消息傳遞。通過與內(nèi)容腳本進(jìn)行通信,接收來自內(nèi)容腳本的搜索請求,并與圖片文本識別模塊進(jìn)行交互。
1997年,丹麥外科教授Henrik Kehlet首先提出加速康復(fù)外科(Fast Track surgery)的理念,目前,學(xué)術(shù)界對加速康復(fù)外科普遍采用的名稱為ERAS(Enhanced Recovery After Surgery)。2005年,歐洲臨床營養(yǎng)與代謝學(xué)會(ESPEN)首先提出圍術(shù)期ERAS整體管理方案。2007年,在黎介壽院士指導(dǎo)下,南京軍區(qū)總醫(yī)院全軍普通外科研究所首先開展ERAS的研究應(yīng)用,并發(fā)表世界首篇有關(guān)胃切除術(shù)后加速康復(fù)外科的臨床結(jié)果。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展包括以下關(guān)鍵部分:
本節(jié)將詳細(xì)介紹基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展的具體實(shí)現(xiàn)和實(shí)驗(yàn)過程。首先介紹實(shí)現(xiàn)細(xì)節(jié),包括代碼中的各個部分的作用和互動。然后描述實(shí)驗(yàn)設(shè)置,包括實(shí)驗(yàn)環(huán)境、測試網(wǎng)頁和相關(guān)的圖像和文本數(shù)據(jù)集。最后展示實(shí)驗(yàn)結(jié)果,并對系統(tǒng)功能和性能進(jìn)行評估。
圖1 background.js核心代碼
內(nèi)容腳本(content.js):在當(dāng)前網(wǎng)頁加載時(shí)注入,負(fù)責(zé)與網(wǎng)頁進(jìn)行交互和執(zhí)行OCR 搜索定位操作。通過與背景腳本通信,觸發(fā)搜索請求并接收識別結(jié)果,并將結(jié)果展示到網(wǎng)頁上。
圖2 content.js核心代碼創(chuàng)建OCR識別對象
圖3 content.js根據(jù)關(guān)鍵字搜索圖片并定位
tesseract.js:作為核心庫文件,負(fù)責(zé)加載和運(yùn)行OCR 引擎。它與worker.js 和tesseract-core-simd.wasm.js進(jìn)行交互,并提供文字識別的功能。
tesseract-core-simd.wasm.js:包含了基于WebAssembly的高性能OCR引擎。它與tesseract.js和worker.js協(xié)同工作,提供準(zhǔn)確和高效的文字識別功能。
worker.js:作為后臺工作器,運(yùn)行在瀏覽器后臺,通過與tesseract-core-simd.wasm.js文件的交互執(zhí)行實(shí)際的圖像處理和OCR操作。
圖像和文本數(shù)據(jù)集:從網(wǎng)絡(luò)上獲取不同類型的圖片,并給這些圖片添加文字,構(gòu)建用于實(shí)驗(yàn)的圖像和文本數(shù)據(jù)集。這些數(shù)據(jù)集被用來模擬真實(shí)的網(wǎng)頁環(huán)境,以檢驗(yàn)擴(kuò)展程序?qū)Σ煌愋蛨D像的識別和搜索能力。
實(shí)驗(yàn)環(huán)境:使用了一臺配備現(xiàn)代Web瀏覽器的計(jì)算機(jī)作為實(shí)驗(yàn)平臺。運(yùn)行Google Chrome 瀏覽器,并確保所使用的擴(kuò)展程序在該環(huán)境下正常運(yùn)行。
測試網(wǎng)頁:選擇了一組包含圖片中包含文字的網(wǎng)頁作為測試對象。這些網(wǎng)頁包括新聞文章、購物頁面和博客等不同類型的內(nèi)容,以保證實(shí)驗(yàn)的多樣性。
為了評估基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展的性能和功能,本文進(jìn)行了以下實(shí)驗(yàn)設(shè)置:
對基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展進(jìn)行了一系列實(shí)驗(yàn),并評估了其功能和性能。實(shí)驗(yàn)結(jié)果表明,該擴(kuò)展程序在不同類型的網(wǎng)頁環(huán)境下能夠準(zhǔn)確地識別圖片中的文字,并根據(jù)用戶的搜索內(nèi)容進(jìn)行定位和框選。
在功能方面,擴(kuò)展程序能夠成功創(chuàng)建右鍵菜單,并將搜索請求和識別結(jié)果傳遞給后臺處理。對于搜索功能,擴(kuò)展程序能夠根據(jù)用戶的輸入快速搜索并定位感興趣的文本區(qū)域,并進(jìn)行標(biāo)注展示。在性能方面,擴(kuò)展程序能夠在合理的時(shí)間內(nèi)完成圖像處理和文字識別,并以可接受的速度呈現(xiàn)搜索定位結(jié)果。
圖4 瀏覽器擴(kuò)展程序創(chuàng)建“搜索圖片”右鍵菜單
圖5 響應(yīng)菜單創(chuàng)建搜索框
圖6 根據(jù)關(guān)鍵字完成圖片文字搜索并彈出顯示
本節(jié)將對基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展進(jìn)行討論,包括功能評估和局限性、實(shí)際應(yīng)用場景以及與相關(guān)工作的比較。
針對擴(kuò)展程序的功能,進(jìn)行了評估。擴(kuò)展程序在準(zhǔn)確性方面表現(xiàn)出色,能夠有效識別和定位圖像中的文字。在搜索功能上也取得了良好的效果,能夠根據(jù)用戶的搜索內(nèi)容快速定位感興趣的文本區(qū)域。此外,擴(kuò)展程序提供了用戶友好的界面和交互方式,例如標(biāo)記搜索關(guān)鍵詞,提升了用戶體驗(yàn)。
在投入資金、治理標(biāo)準(zhǔn)、政策法規(guī)、建設(shè)模式、運(yùn)行管理等方面,北京市明顯走在最前列,其將生態(tài)清潔小流域作為生態(tài)建設(shè)的重要抓手,大規(guī)模實(shí)施并取得了顯著成效。而津冀兩地停留在傳統(tǒng)的小流域綜合治理,生態(tài)清潔小流域建設(shè)仍處在摸索階段,投入資金和治理標(biāo)準(zhǔn)也遠(yuǎn)低于北京市。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展在實(shí)際應(yīng)用中具有廣泛的潛在價(jià)值。首先,它可以為用戶提供網(wǎng)頁圖像中文字的直接搜索和定位能力,方便用戶從圖片中獲取所需的信息。其次,它還可以用于圖像文檔的搜索和整理,提高文檔管理的效率和準(zhǔn)確性[4]。
還有一些國際組織也在制定相關(guān)的標(biāo)準(zhǔn),以推動綠色節(jié)能數(shù)據(jù)中心的建設(shè),其中最成功的是綠色網(wǎng)格組織(GreenGrid)。該組織是致力于降低全球數(shù)據(jù)中心能源消耗的非營利性組織,由IBM、微軟等幾家知名IT公司聯(lián)合建立。而創(chuàng)立了全球最權(quán)威的綠色建筑LEED認(rèn)證體系的美國綠色建筑委員會(USGBC),也針對數(shù)據(jù)中心建筑增加了綠色認(rèn)證標(biāo)準(zhǔn)。綠色網(wǎng)格組織已成功開發(fā)出一套提高數(shù)據(jù)中心能效的指標(biāo),包括PUE、DCiE等,這些指標(biāo)都在世界范圍內(nèi)被廣泛使用,成功地為大量數(shù)據(jù)中心的建設(shè)和運(yùn)營提供能源效率比對標(biāo)準(zhǔn)[4]。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展與其他類似的圖像文字搜索和定位工具相比具有一些獨(dú)特的優(yōu)勢。首先,與傳統(tǒng)的OCR 技術(shù)相比,它不需要額外的硬件設(shè)備和復(fù)雜的前期處理,用戶可以直接在瀏覽器中完成圖片文字識別和搜索。其次,基于tesseract.js的引擎和WebAssembly技術(shù),擴(kuò)展程序提供了高性能的文字識別功能,能夠快速和準(zhǔn)確地處理圖像中的文字。
然而,與其他類似擴(kuò)展和工具相比,基于tesseract.js的瀏覽器擴(kuò)展仍然存在一些局限性。例如,某些專用的OCR 軟件和服務(wù)可能提供更高級的文字識別和定位功能,但它們通常需要付費(fèi)或在計(jì)算能力方面更為要求嚴(yán)格。此外,一些商業(yè)化的圖像處理和OCR解決方案可能在擴(kuò)展程序中尚未完全覆蓋的領(lǐng)域中具有一定的競爭力。
在WIFI熱點(diǎn)較少的地方,定位精度較低,筆者用高德地圖開啟WIFI定位,精度只有74m。但是現(xiàn)在城市每個地方都充斥著WIFI熱點(diǎn)信號,尤其是各大商場、高層建筑等WIFI熱點(diǎn)充分的地方,像室內(nèi)位置服務(wù)商WIFI SLAM能夠通過重力感應(yīng)和指南針功能,同步腳步的移動,可定位的精確度在10m以內(nèi)。
設(shè)計(jì)和實(shí)現(xiàn)基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展,旨在為用戶提供在Web瀏覽器中準(zhǔn)確搜索和定位圖片中文字的便捷工具。該擴(kuò)展利用tesseract.js 作為OCR 引擎,并通過借助WebAssembly 技術(shù)實(shí)現(xiàn)了高準(zhǔn)確性的文字識別和搜索定位功能,提供了直接從圖像中獲取所需信息的方式。
Optimization of Aeroengine Shop Visit Cost in its Service Life Cycle
本研究的主要貢獻(xiàn)如下:
首先,提出了基于tesseract.js 的Web 圖片文字搜索定位的瀏覽器擴(kuò)展的概念和設(shè)計(jì)。通過結(jié)合現(xiàn)有的OCR 技術(shù)和Web 瀏覽器技術(shù),實(shí)現(xiàn)了一個輕量級、方便和高效的圖像文字搜索定位工具,使用戶能夠在瀏覽器中直接操作圖像并提取其中的文字信息。
其次,詳細(xì)介紹了擴(kuò)展程序的架構(gòu)和關(guān)鍵功能。通過背景腳本、內(nèi)容腳本和相關(guān)的JavaScript 文件的協(xié)同工作,擴(kuò)展程序能夠與瀏覽器平臺和OCR引擎進(jìn)行交互,實(shí)現(xiàn)圖像處理、文字識別和搜索定位等功能。
實(shí)驗(yàn)結(jié)果展示了基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展在不同類型的網(wǎng)頁環(huán)境下的準(zhǔn)確性和性能。實(shí)驗(yàn)評估表明,該擴(kuò)展程序能夠快速識別圖片中的文字,并提供準(zhǔn)確的搜索定位結(jié)果,為用戶提供了一個方便和高效的圖像文字搜索定位工具。
盡管基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展在實(shí)驗(yàn)中展現(xiàn)出了良好的功能和性能,但也存在一些局限性和改進(jìn)空間。改進(jìn)方向可以包括優(yōu)化圖像處理算法、提高識別準(zhǔn)確性,以及擴(kuò)展更多實(shí)際應(yīng)用場景的適用性。
SHT11的初始化時(shí)序如下:當(dāng)時(shí)鐘SCK高電平時(shí)信號DATA翻轉(zhuǎn)為低電平,緊接著 SCK 變?yōu)榈碗娖?,隨后是在SCK時(shí)鐘高電平時(shí)DATA翻轉(zhuǎn)為高電平,如圖3所示。后續(xù)命令包括3個地址位和5個命令位,主要命令包括溫度測量命令(03H),濕度測量命令(05H),讀狀態(tài)寄存器指令(07H),和寫狀態(tài)寄存器指令(06H)。
其中,2010-2016年鄭州、開封、洛陽、新鄉(xiāng)和焦作5個城市的接近中心度均高于平均值,這些城市因經(jīng)濟(jì)實(shí)力強(qiáng)、基礎(chǔ)設(shè)施完善、交通網(wǎng)絡(luò)完善,與其他節(jié)點(diǎn)城市的旅游經(jīng)濟(jì)距離較近,旅游經(jīng)濟(jì)交流阻礙較少,聯(lián)系較為緊密。在2010年漯河、信陽、駐馬店3個城市的接近中心度全省最低為51.51,但在2013-2016年漯河、信陽和駐馬店與網(wǎng)絡(luò)中其他節(jié)點(diǎn)城市的旅游經(jīng)濟(jì)距離不斷縮短,逐漸擺脫中心城市的控制。而商丘和濟(jì)源因旅游發(fā)展動力不足等原因,與其他節(jié)點(diǎn)城市間的旅游經(jīng)濟(jì)距離增大,逐漸被鄭州、開封、洛陽等中心城市所控制,在2013-2016年接近中心度達(dá)全省最低值。
未來工作可以進(jìn)一步探索基于深度學(xué)習(xí)的OCR技術(shù)和算法,以提高文字識別的準(zhǔn)確性和效率[5]。此外,可以考慮進(jìn)一步優(yōu)化擴(kuò)展程序的用戶界面和交互體驗(yàn),使其更加友好和易用。
基于tesseract.js的Web圖片文字搜索定位的瀏覽器擴(kuò)展在圖像文字處理領(lǐng)域具有廣泛的應(yīng)用潛力,可以在網(wǎng)頁搜索、文本分析和信息抽取等任務(wù)中發(fā)揮重要作用。未來的研究可以進(jìn)一步拓展應(yīng)用場景,并深入探索該領(lǐng)域的技術(shù)創(chuàng)新和改進(jìn)方向。