亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識別系統(tǒng)的設(shè)計與實現(xiàn)

        2022-04-02 01:25:37曹湘華
        電腦知識與技術(shù) 2022年33期
        關(guān)鍵詞:識別機(jī)器學(xué)習(xí)數(shù)據(jù)

        曹湘華

        摘要:傳統(tǒng)Word文檔數(shù)據(jù)識別系統(tǒng)識別精度一般較低,面對數(shù)據(jù)量龐大的Word文檔數(shù)據(jù)時,系統(tǒng)響應(yīng)時間較長,無法采用統(tǒng)一的識別方法完成數(shù)據(jù)識別,制約文檔數(shù)據(jù)的信息化、高效化發(fā)展。針對此問題在傳統(tǒng)Word文檔數(shù)據(jù)識別系統(tǒng)的基礎(chǔ)上,引入機(jī)器學(xué)習(xí)原理,實現(xiàn)了新的Word文檔數(shù)據(jù)識別系統(tǒng)設(shè)計。系統(tǒng)硬件采用C/S架構(gòu),為各個硬件的穩(wěn)定運行提供環(huán)境保障。軟件通過提取與預(yù)處理Word文檔數(shù)據(jù),放大文檔數(shù)據(jù)信息;采用穿線法,識別文檔數(shù)據(jù)特征;利用機(jī)器學(xué)習(xí)原理,設(shè)計系統(tǒng)Word文檔數(shù)據(jù)識別模塊。應(yīng)用結(jié)果表明,基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識別系統(tǒng),其文檔數(shù)據(jù)識別結(jié)果的準(zhǔn)確率均在96.58%以上,識別結(jié)果誤報率均小于0.34%,具有較高的可行性。

        關(guān)鍵詞:機(jī)器學(xué)習(xí);文檔;Word;數(shù)據(jù);識別;系統(tǒng)

        中圖分類號:TP303? ? ? 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2022)33-0017-02

        Word文檔數(shù)據(jù)識別系統(tǒng)作為信息化社會發(fā)展背景下處理海量文檔數(shù)據(jù)的方式之一,對提升數(shù)據(jù)處理、錄入、存儲的效率具有重要意義[1]。Word文檔數(shù)據(jù)識別系統(tǒng)與傳統(tǒng)的文檔數(shù)據(jù)人工處理方式相比,極大程度地減少了數(shù)據(jù)處理的人力資源消耗,將紙質(zhì)文檔信息轉(zhuǎn)換為電子數(shù)據(jù)信息,上傳至識別系統(tǒng)。系統(tǒng)通過信息化、智能化的運行方式,對數(shù)據(jù)進(jìn)行識別、錄入、處理與存儲,降低了數(shù)據(jù)錄入與識別的錯誤率[2]?,F(xiàn)階段,我國在Word文檔數(shù)據(jù)識別系統(tǒng)方面的研究逐漸接近成熟,然而,其中仍然存在一定的不足,主要體現(xiàn)在針對數(shù)據(jù)量較龐大的Word文檔數(shù)據(jù),系統(tǒng)識別響應(yīng)的時間較長,無法采用統(tǒng)一的識別方式完成數(shù)據(jù)識別,且文檔數(shù)據(jù)識別結(jié)果的準(zhǔn)確率較低[3]。機(jī)器學(xué)習(xí)技術(shù)能夠有效地改善這一問題,通過靜態(tài)分析與動態(tài)分析相結(jié)合的方式,對識別系統(tǒng)的運行特征進(jìn)行全方位的分析與學(xué)習(xí),提高系統(tǒng)運行的準(zhǔn)確率與完備性[4]。

        基于此,本文在傳統(tǒng)Word文檔數(shù)據(jù)識別系統(tǒng)的基礎(chǔ)上,引入機(jī)器學(xué)習(xí)原理,實現(xiàn)了新的Word文檔數(shù)據(jù)識別系統(tǒng)設(shè)計,為促進(jìn)Word文檔數(shù)據(jù)識別的信息化、智能化發(fā)展作出貢獻(xiàn)。

        1 識別系統(tǒng)硬件設(shè)計

        本文設(shè)計的基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識別系統(tǒng)采用C/S硬件架構(gòu),在運行過程中,能夠為系統(tǒng)內(nèi)其他硬件提供穩(wěn)定高效的運行環(huán)境。系統(tǒng)硬件接口采用I/O接口方式,主要負(fù)責(zé)為系統(tǒng)中各個硬件提供電源、輸入系統(tǒng)外部觸發(fā)信號以及控制硬件輸出[5]。接口采用RT36型號的千兆以太網(wǎng)接口,分別將網(wǎng)線兩端插入接口。系統(tǒng)的網(wǎng)絡(luò)交換機(jī)采用S Series系列的交換機(jī),端口為48×10/100/1000BASE-T RJ45, 8×10G SFP+,交換容量為256Gbps,PoE標(biāo)準(zhǔn)協(xié)議采用IEEE 802.3af/at,為了保證識別系統(tǒng)運行的效率,設(shè)置網(wǎng)絡(luò)交換機(jī)的最小延時為2.2μs,最大延時為64.69μs,包轉(zhuǎn)發(fā)率為192 Mpps。為了提升系統(tǒng)文檔數(shù)據(jù)識別、傳輸與接收的速度,本文采用芯片型號為Intel X710-BM2的英特爾網(wǎng)卡,其端口為雙光口,與系統(tǒng)主機(jī)的接口為PCIe 3.0×8類型,在系統(tǒng)內(nèi)的布線類型為SFP+光模塊/DAC/AOC,支持系統(tǒng)VT-c連通性。

        2 識別系統(tǒng)軟件設(shè)計

        2.1 Word文檔數(shù)據(jù)提取與預(yù)處理

        為了更好地識別Word文檔數(shù)據(jù),本文首先對Word文檔數(shù)據(jù)進(jìn)行提取與預(yù)處理。由于文檔數(shù)據(jù)量龐大,將Word文檔數(shù)據(jù)轉(zhuǎn)換為圖像存儲的形式,輸入系統(tǒng)中,利用系統(tǒng)的自動掃描功能,掃描圖像中存儲的Word文檔數(shù)據(jù)[6]。將轉(zhuǎn)換后的Word文檔數(shù)據(jù)存儲圖像進(jìn)行增強處理,提高圖像的灰度級范圍與對比度,使圖像中存儲的數(shù)據(jù)信息更加清晰。采用伽馬變換的增強方法,增強圖像對比度,增強處理公式為:

        [m=arγ,γ∈0,1]

        其中,[a]表示圖像低灰度值;[r]表示原始圖像的灰度級;[γ]表示伽馬參數(shù)。通過上述公式,對系統(tǒng)中輸入的Word文檔數(shù)據(jù)存儲圖像進(jìn)行增強預(yù)處理,增強圖像的灰度部分細(xì)節(jié),放大文檔數(shù)據(jù)信息,為后續(xù)系統(tǒng)的高效識別提供基礎(chǔ)保障。

        2.2 穿線法識別文檔數(shù)據(jù)特征

        對上述Word文檔數(shù)據(jù)進(jìn)行提取與預(yù)處理后,系統(tǒng)采用穿線法,對Word文檔數(shù)據(jù)的自身特征進(jìn)行識別,識別流程如圖1所示。

        如圖1所示,穿線法識別流程為:系統(tǒng)通過自動查找的方式,獲取文檔數(shù)據(jù)的單個數(shù)字輪廓;設(shè)置三條線,將數(shù)字輪廓進(jìn)行均分處理;根據(jù)數(shù)字輪廓的相交方式,確定各個數(shù)字輪廓之間的交點個數(shù);選取兩條線將所有Word文檔數(shù)據(jù)平均劃分為左右兩個部分,利用第三條線穿過左右兩個部分所有的數(shù)字輪廓,根據(jù)線與數(shù)字輪廓交點的個數(shù),獲取對應(yīng)的Word文檔數(shù)據(jù)特征。

        2.3 基于機(jī)器學(xué)習(xí)設(shè)計文檔數(shù)據(jù)識別模塊

        在文檔數(shù)據(jù)特征識別結(jié)束后,采用機(jī)器學(xué)習(xí)技術(shù),設(shè)計系統(tǒng)中Word文檔數(shù)據(jù)識別模塊。文檔數(shù)據(jù)識別模塊作為系統(tǒng)中的核心模塊,對系統(tǒng)識別結(jié)果的準(zhǔn)確率具有直接影響[7]。通過機(jī)器學(xué)習(xí)技術(shù),識別系統(tǒng)中輸入的文檔數(shù)據(jù)通道類型,利用模塊端口的子檢測識別模塊,過濾大量非Word文檔數(shù)據(jù),提高數(shù)據(jù)的有效負(fù)載識別精度。

        利用模塊中機(jī)器學(xué)習(xí)模塊的深度挖掘功能,對各個數(shù)據(jù)通道類型進(jìn)行細(xì)致劃分,劃分為文字消息數(shù)據(jù)、文件傳輸數(shù)據(jù)與文檔數(shù)據(jù)三個類型。其中,文字消息數(shù)據(jù)主要通過系統(tǒng)中的傳輸窗口,基于UDP協(xié)議進(jìn)行數(shù)據(jù)的傳輸與上傳;文件傳輸數(shù)據(jù)作為客戶端傳輸文檔數(shù)據(jù)的通道,在上傳與傳輸過程中具有較高的加密性;文檔數(shù)據(jù)為上述兩種數(shù)據(jù)的總和,綜合性較強,且數(shù)據(jù)量龐大。通過系統(tǒng)識別模塊,識別出各個通道類型的數(shù)據(jù)上傳方式,檢測數(shù)據(jù)端口的特征與有效負(fù)載長度,結(jié)合機(jī)器學(xué)習(xí)原理,建立機(jī)器學(xué)習(xí)識別模型,識別Word文檔數(shù)據(jù)的數(shù)量、初始窗口長度、數(shù)據(jù)屬性等信息。

        綜上所述為本文提出的基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識別系統(tǒng)的整體設(shè)計流程,分別從系統(tǒng)硬件與軟件兩個方面進(jìn)行了設(shè)計,實現(xiàn)了Word文檔數(shù)據(jù)高效識別的目標(biāo)。

        3 系統(tǒng)測試

        為了驗證本文設(shè)計的基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識別系統(tǒng)的有效性,進(jìn)行了相關(guān)的實驗測試。按照上述系統(tǒng)硬件與軟件設(shè)計內(nèi)容與要求,建立文檔數(shù)據(jù)識別系統(tǒng),在此基礎(chǔ)上,對系統(tǒng)測試的開發(fā)環(huán)境進(jìn)行搭建。本次測試操作的開發(fā)環(huán)境由AMD Athlon(tm) II X2 215 Processor 型號的CPU、GCC 4.4型號的編譯器、15×800MHz, 1×2400MHz型號的CPU主頻、VIM+CTags+Tlist的編輯工具共同組成,其中,硬盤大小為250G,內(nèi)存為16G,網(wǎng)卡包括千兆網(wǎng)卡、4個串行接口與2個光纖接口。先采用黑盒測試方法,對系統(tǒng)文檔數(shù)據(jù)識別模塊的功能進(jìn)行測試,測試流程如圖2所示。

        如圖2所示,文檔數(shù)據(jù)識別模塊功能測試流程為:在識別系統(tǒng)內(nèi)輸入Word文檔數(shù)據(jù),在系統(tǒng)端口對數(shù)據(jù)進(jìn)行預(yù)處理;根據(jù)文檔數(shù)據(jù)的有效負(fù)載長度,選取系統(tǒng)運行協(xié)議;采用Gtalk文字流處理方式,對文檔數(shù)據(jù)進(jìn)行處理;基于機(jī)器學(xué)習(xí)模型,對文檔數(shù)據(jù)進(jìn)行檢測識別,判斷識別文檔數(shù)據(jù)的有效負(fù)載長度是否大于0,若大于0,則輸出數(shù)據(jù)識別結(jié)果,完成識別流程;若數(shù)據(jù)有效負(fù)載長度小于0,則返回并重復(fù)上述步驟,直至文檔數(shù)據(jù)的有效負(fù)載長度大于0為止。根據(jù)系統(tǒng)文檔數(shù)據(jù)識別模塊檢測識別的結(jié)果,判斷該模塊的運行狀況。

        系統(tǒng)功能模塊測試完畢后,再采用白盒測試的方法,對系統(tǒng)的性能進(jìn)行測試分析。選取系統(tǒng)性能測試使用的數(shù)據(jù)集,為了保證測試結(jié)果的客觀性與準(zhǔn)確性,本次測試使用NIMS的公開數(shù)據(jù)集作為性能測試數(shù)據(jù)集,其中包括Word文檔數(shù)據(jù)368024條,非Word文檔數(shù)據(jù)531672條。由于原數(shù)據(jù)集的數(shù)據(jù)量龐大,不利于系統(tǒng)測試操作,因此,本次測試從NIMS數(shù)據(jù)集中,隨機(jī)抽取15000條Word文檔數(shù)據(jù)和15000條非Word文檔數(shù)據(jù),共同組成訓(xùn)練數(shù)據(jù)集,然后從剩余的NIMS數(shù)據(jù)集中,隨機(jī)選取5000條Word文檔數(shù)據(jù)組成測試數(shù)據(jù)集,對測試數(shù)據(jù)集進(jìn)行標(biāo)號處理,分別標(biāo)記為1、2、3、4、5,測試數(shù)據(jù)集Word文檔數(shù)據(jù)分布如表1所示。

        為了驗證文檔數(shù)據(jù)識別系統(tǒng)性能的可行性,本次測試采用對比分析方法,將本文設(shè)計的基于機(jī)器學(xué)習(xí)的文檔數(shù)據(jù)識別系統(tǒng),與傳統(tǒng)的基于OCR技術(shù)的文檔數(shù)據(jù)識別系統(tǒng)進(jìn)行對比,分別使用兩種系統(tǒng)對相同Word文檔數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,在此基礎(chǔ)上,對5個Word文檔數(shù)據(jù)的測試數(shù)據(jù)集進(jìn)行數(shù)據(jù)識別測試,對比兩種系統(tǒng)識別結(jié)果的準(zhǔn)確率,如表2所示。

        根據(jù)表2的對比結(jié)果,在兩種文檔數(shù)據(jù)識別系統(tǒng)中,本文設(shè)計的基于機(jī)器學(xué)習(xí)的文檔數(shù)據(jù)識別系統(tǒng),其在不同測試數(shù)據(jù)集中,文檔數(shù)據(jù)識別結(jié)果的準(zhǔn)確率均在96.58%以上,識別結(jié)果誤報率均小于0.34%,與傳統(tǒng)識別系統(tǒng)相比,數(shù)據(jù)識別結(jié)果的準(zhǔn)確率更高且誤報率更低,說明本文系統(tǒng)在Word文檔數(shù)據(jù)識別上的效果更佳、更具有優(yōu)勢。

        4 結(jié)束語

        綜上所述,為了改善傳統(tǒng)Word文檔數(shù)據(jù)識別系統(tǒng)識別精度較低且海量文檔數(shù)據(jù)下系統(tǒng)識別速率較慢的情況,本文在傳統(tǒng)數(shù)據(jù)識別系統(tǒng)的基礎(chǔ)上,引入機(jī)器學(xué)習(xí)理念,實現(xiàn)了新的Word文檔數(shù)據(jù)識別系統(tǒng)設(shè)計。應(yīng)用結(jié)果證明,該系統(tǒng)有效地提升了文檔數(shù)據(jù)識別結(jié)果的準(zhǔn)確率,降低了系統(tǒng)識別的誤報率,對海量文檔數(shù)據(jù)處理的信息化、高效化發(fā)展具有重要意義。

        參考文獻(xiàn):

        [1] 李洪波,廖詳剛,陳立.基于機(jī)器學(xué)習(xí)One-stage目標(biāo)檢測算法的塑料自動識別系統(tǒng)[J].塑料科技,2020,48(12):86-89.

        [2] 楊思怡,付相祥,吳曉華,等.Tesseract-OCR的文檔掃描識別系統(tǒng)[J].電子世界,2021(20):98-100.

        [3] 吳麗華,龍海俠,馮建平.智能機(jī)器的認(rèn)知學(xué)習(xí)機(jī)理及計算模型研究[J].電子技術(shù)與軟件工程,2021(21):106-109.

        [4] 徐琳宏,丁堃,林原,等.基于機(jī)器學(xué)習(xí)算法的引文情感自動識別研究——以自然語言處理領(lǐng)域為例[J].現(xiàn)代情報,2020,40(1):35-40,48.

        [5] 殷倩倩,申鑫欣,夏祎.大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2022,40(5):21-23.

        [6] 肖治鴻,韓曄彤,鄒永攀.基于多源數(shù)據(jù)和邏輯推理的行為識別技術(shù)研究[J].計算機(jī)科學(xué),2022,49(S1):397-406.

        [7] 于楚凡,郭大亮,張秋霞,等.基于大數(shù)據(jù)挖掘的發(fā)電系統(tǒng)異常數(shù)據(jù)識別系統(tǒng)設(shè)計[J].電子設(shè)計工程,2022,30(6):131-135.

        【通聯(lián)編輯:張薇】

        猜你喜歡
        識別機(jī)器學(xué)習(xí)數(shù)據(jù)
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        焊接工藝仿真訓(xùn)練系統(tǒng)中焊點數(shù)據(jù)的建立方法
        一種借助數(shù)據(jù)處理構(gòu)建的智能食堂管理系統(tǒng)
        數(shù)據(jù)化藝術(shù)的生成探究
        淺談哈密瓜病蟲害的防治措施
        蘋果樹常見病蟲害防治技術(shù)
        青島市中山公園園林樹木易混淆品種識別
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        久久久久亚洲AV成人网毛片| 无码国产色欲xxxx视频| 国产av在线观看一区二区三区| 欧美性猛交xxxx免费看蜜桃| 欧美第一黄网免费网站| 国产精品美女黄色av| 成年男女免费视频网站点播| 久久人人爽人人爽人人片av高请| 国产精品熟女一区二区| 欧美日本免费一区二| 精品一区二区三区中文字幕在线| 女同亚洲一区二区三区精品久久| 国产手机在线观看一区二区三区| 国产私人尤物无码不卡| 99久久伊人精品综合观看| 国产精品自在拍在线播放| 国产成人精品人人做人人爽| av免费资源在线观看| 日本中文字幕一区二区有码在线| 国产特级毛片aaaaaaa高清| 久久精品—区二区三区无码伊人色| 曰本亚洲欧洲色a在线| 一级老熟女免费黄色片| 国产精品兄妹在线观看麻豆| 国产嫖妓一区二区三区无码| 亚洲春色AV无码专区在线播放| 久久国产精品懂色av| 久久精品国产久精国产爱| 天躁夜夜躁狼狠躁| 亚洲欧洲精品国产二码| 少妇又色又爽又刺激的视频| 日本亲近相奷中文字幕| 国产剧情麻豆女教师在线观看| 亚洲男人的天堂精品一区二区 | 欧美顶级少妇作爱| 九一九色国产| 中文字幕巨乱亚洲| 亚洲熟妇一区二区蜜桃在线观看| 亚洲日韩av一区二区三区中文| 亚洲特黄视频| 69久久精品亚洲一区二区|