亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字化校對(duì)技術(shù)在數(shù)字出版中的應(yīng)用

        2022-05-13 06:19:54鄭曉慧
        中國傳媒科技 2022年5期
        關(guān)鍵詞:文本檢測(cè)

        鄭曉慧

        (河南人民出版社,河南 鄭州 450016)

        導(dǎo)語

        當(dāng)前,越來越多的網(wǎng)絡(luò)信息技術(shù)出現(xiàn),并應(yīng)用于各個(gè)領(lǐng)域當(dāng)中,同時(shí)在社會(huì)需求不斷推動(dòng)下,數(shù)字化的出版形式產(chǎn)生。數(shù)字出版是將網(wǎng)絡(luò)信息技術(shù)作為技術(shù)支撐,通過更具網(wǎng)絡(luò)化的傳播渠道,實(shí)現(xiàn)傳播、閱讀和生產(chǎn)方式的數(shù)字化。數(shù)字出版在發(fā)展過程中,為了不斷適應(yīng)和完善,逐漸演變出了多種類型的出版方式。[1]數(shù)字出版與傳統(tǒng)出版相比更具交互性,并且傳播速度更快,可拓展面更廣,在極大程度上提高了人們對(duì)圖書的閱讀需求,也進(jìn)一步充實(shí)了現(xiàn)有圖書資源。但隨著數(shù)字出版發(fā)展速度的不斷提升,在為其帶來創(chuàng)新的同時(shí),也使得諸多問題產(chǎn)生,例如數(shù)字出版信息數(shù)據(jù)量成倍增加,對(duì)校對(duì)、編輯等都造成巨大的負(fù)擔(dān)。[2]為了進(jìn)一步探究數(shù)字化校對(duì)技術(shù)在數(shù)字出版當(dāng)中的應(yīng)用及應(yīng)用效果,本文開展下述研究。

        1.數(shù)字化校對(duì)技術(shù)在數(shù)字出版中的應(yīng)用

        1.1 構(gòu)建文本編輯錯(cuò)誤校對(duì)模型

        為了提高數(shù)字出版的質(zhì)量,解決文本內(nèi)容在編輯中出現(xiàn)錯(cuò)誤的次數(shù),本節(jié)提出一種針對(duì)文本編輯錯(cuò)誤的校對(duì)模型。假設(shè)在編輯文本內(nèi)容時(shí),語句中文本內(nèi)容表示為S,則S=S1,S2,S3…Sn,其中1~n表示構(gòu)成文本內(nèi)容的多個(gè)字節(jié),在此基礎(chǔ)上,采用全局檢索的方式,對(duì)其中容易存在混淆的文字進(jìn)行矩陣構(gòu)建。并使用數(shù)字編輯設(shè)備中的統(tǒng)計(jì)功能項(xiàng),進(jìn)行全局參數(shù)的宏觀調(diào)控,確保對(duì)編輯空間內(nèi)文本數(shù)量統(tǒng)計(jì)結(jié)果的真實(shí)性與有效性。[3]為了確保文本編輯錯(cuò)誤校對(duì)模型在使用中的有效性,可在圈定檢索空間后,使用文字統(tǒng)計(jì)法,進(jìn)行混淆集合的人工識(shí)別與校對(duì),人工操作編輯界面后,輸出錯(cuò)誤項(xiàng)集合,并使用文本中的替換功能,進(jìn)行修正內(nèi)容的重新校正,以此種方式,確保文本內(nèi)容中所有校正的內(nèi)容與局部修正需求匹配。但在此過程中應(yīng)注意的是,在改正錯(cuò)誤時(shí),使用標(biāo)注進(jìn)行混淆文本的標(biāo)記,并重點(diǎn)關(guān)注此部分文本內(nèi)容的錯(cuò)誤是否完全進(jìn)行了修訂,以此實(shí)現(xiàn)對(duì)文本編輯錯(cuò)誤的有效校對(duì)。

        根據(jù)上述論述,在明確文本編輯錯(cuò)誤校對(duì)模型的基本需要后,設(shè)計(jì)如圖1所示的模型總體框架。

        圖1 文本編輯錯(cuò)誤校對(duì)模型總體框架結(jié)構(gòu)圖

        從圖1中文本編輯錯(cuò)誤校對(duì)模型總體框架結(jié)構(gòu)可以看出,檢測(cè)錯(cuò)誤部分輸入的目標(biāo)為需要進(jìn)行校對(duì)的文本字符信息串,輸出的結(jié)果為可能存在文本錯(cuò)誤的位置。[4]當(dāng)將需要進(jìn)行校對(duì)的文本字符信息串輸入到構(gòu)建的文本編輯錯(cuò)誤校對(duì)模型當(dāng)中時(shí),根據(jù)局部文本的上下文語境,將可能存在錯(cuò)誤的文本進(jìn)行劃分,并將該區(qū)域作為后續(xù)錯(cuò)誤檢測(cè)的重點(diǎn)位置區(qū)域。在對(duì)真實(shí)存在錯(cuò)誤的文本進(jìn)行改正后,再返回到上一階段完成對(duì)錯(cuò)誤檢測(cè)結(jié)果的報(bào)告生成,并給出相應(yīng)的改正建議。

        1.2 錯(cuò)誤檢測(cè)前的數(shù)據(jù)平滑處理

        按照本文上述論述內(nèi)容,完成對(duì)文本編輯錯(cuò)誤校對(duì)模型的構(gòu)建后,為了確保后續(xù)錯(cuò)誤檢測(cè)的精度,在檢測(cè)前還需要對(duì)數(shù)據(jù)進(jìn)行平滑處理。由于需要進(jìn)行校對(duì)的文本當(dāng)中存在多種不同的錯(cuò)誤成分類型,并且存在錯(cuò)誤詞語的位置上,其左右相鄰的文本會(huì)出現(xiàn)數(shù)據(jù)稀疏的問題,上述問題的存在會(huì)造成檢測(cè)難度增加,因此從多個(gè)方面實(shí)現(xiàn)對(duì)數(shù)據(jù)的平滑處理。[5]首先,針對(duì)文本窗口縮小的問題進(jìn)行數(shù)據(jù)平滑處理。圖2為文本窗口數(shù)據(jù)稀疏現(xiàn)象示意圖。

        圖2 文本窗口數(shù)據(jù)稀疏現(xiàn)象示意圖

        圖2中“×”符號(hào)表示為在文本窗口當(dāng)中前后三個(gè)文字對(duì)出現(xiàn)了稀疏問題,“√”符合表示為文本窗口當(dāng)中前后三個(gè)文字對(duì)未出現(xiàn)稀疏問題。從圖1中所示的內(nèi)容可以看出,若需要進(jìn)行校對(duì)的文字當(dāng)中其字符信息串0~1是按照正確的方式出現(xiàn),而字符信息串0~2在文本窗口當(dāng)中出現(xiàn)了數(shù)據(jù)稀疏問題,則說明2本身是一個(gè)存在錯(cuò)誤的詞語或2本身是正確的詞語,但與0~1字符信息串連接后存在錯(cuò)誤。[6]針對(duì)上述存在問題,對(duì)其進(jìn)行數(shù)據(jù)平滑處理,其計(jì)算公式為:

        公式(1)中,a表示為平滑系數(shù);yn表示為在某一時(shí)刻n下,文本窗口平滑處理后的數(shù)據(jù)值;Sn-1表示為在前一時(shí)刻通過平滑處理后的數(shù)據(jù)值;Sn表示為經(jīng)過平滑處理后的數(shù)據(jù)值。根據(jù)上述公式,針對(duì)圖1當(dāng)中存在的稀疏問題進(jìn)行平滑處理,在處理的過程中,將第一次輸入的原始文本數(shù)據(jù)作為初始狀態(tài)數(shù)值,或?qū)⑶皫状屋斎氲脑紨?shù)據(jù)值的平均值作為初始狀態(tài)數(shù)值。

        其次,再對(duì)聚類詞進(jìn)行數(shù)據(jù)平滑處理。根據(jù)以往數(shù)字出版語言使用的經(jīng)驗(yàn)得出,在文本當(dāng)中存在很多同義詞或近義詞,通過其相互之間的轉(zhuǎn)換,句子本身幾乎不會(huì)存在差異,例如“觀”和“看”、“認(rèn)識(shí)”和“知道”等。[7]通過近義詞之間的相互轉(zhuǎn)換,可以達(dá)到對(duì)文本數(shù)據(jù)平滑處理的效果。在進(jìn)行平滑處理的過程中,還可引入同類詞預(yù)料的方法,例如如下公式(2)表示同類詞集:

        公式(2)中,N表示為需要進(jìn)行校對(duì)的目標(biāo)文本;Xji表示為文本當(dāng)中某一字符i的同類詞集。通過上述操作,對(duì)文本窗口縮小和聚類詞進(jìn)行數(shù)據(jù)評(píng)價(jià)處理后,能夠確保后續(xù)錯(cuò)誤檢測(cè)的準(zhǔn)確度不受影響,提高數(shù)字化校對(duì)技術(shù)的應(yīng)用性能。

        1.3 基于數(shù)字化校對(duì)技術(shù)的錯(cuò)誤檢測(cè)

        在檢測(cè)前還需要將彼此容易混淆的詞語進(jìn)行收集,并形成混淆集合。在一個(gè)混淆集合當(dāng)中包含了容易在使用過程中與校對(duì)目標(biāo)詞出現(xiàn)混淆的詞語。在錯(cuò)誤檢測(cè)的過程中,引入一個(gè)分配器,用于對(duì)文本當(dāng)中不同詞語進(jìn)行分類。在分類器進(jìn)行過程中能夠,對(duì)適合上下文語義的詞語將其取值設(shè)置為1,針對(duì)不適合上下文語義的詞語,將其取值設(shè)置為0。每個(gè)分配器都與文本上下文特征相關(guān)聯(lián),并且為每一個(gè)關(guān)聯(lián)對(duì)象設(shè)置不同的連接權(quán)值。針對(duì)需要進(jìn)行校對(duì)的目標(biāo)詞語進(jìn)行獲取,并在該詞語上下連接的文本當(dāng)中提取特征,將所有特征進(jìn)行匯總,并得到如公式(3)所示的表達(dá)結(jié)果:

        公式(3)中,θ表示為利用分配器進(jìn)行分類后得到的結(jié)果;F表示為提取到的特征集合;w表示為分配器判定結(jié)果數(shù)值,w的取值為0或1;f表示為特征集合中的某一特征數(shù)值;ε表示為分類常數(shù)。在錯(cuò)誤檢測(cè)過程中,所有連接的權(quán)值均為分配器通過多次學(xué)習(xí)獲得的。因此,權(quán)值的學(xué)習(xí)可以看作是分配器判定錯(cuò)誤的時(shí)候?qū)θ≈颠M(jìn)行調(diào)整的動(dòng)態(tài)過程。根據(jù)學(xué)習(xí)過程中,不同類型分類器的實(shí)際表現(xiàn),為其賦予不同的可行度權(quán)值,并將其帶入到上述構(gòu)建的文本編輯錯(cuò)誤校對(duì)模型當(dāng)中,實(shí)現(xiàn)對(duì)錯(cuò)誤文本的檢測(cè)。

        1.4 文本編輯錯(cuò)誤改正與出版

        首先,從最小編輯距離角度出發(fā),無論是在對(duì)自然語言進(jìn)行理解還是處理的過程中,都會(huì)出現(xiàn)兩個(gè)字符之間的距離問題,這種距離與普通意義上的距離不同,是指語義距離或編輯距離。在進(jìn)行文本編輯錯(cuò)誤改正過程中,通過對(duì)兩個(gè)字符之間的最小編輯距離進(jìn)行調(diào)整,可以實(shí)現(xiàn)對(duì)其改正。假設(shè)某一字符信息串為A,其長度對(duì)應(yīng)為a,另一字符信息串為B,其長度對(duì)應(yīng)為b,則此時(shí)A和B之間的編輯距離為ed(A[a],B[b])。在進(jìn)行改正的過程中,編輯操作會(huì)引起“時(shí)間”問題產(chǎn)生,需要一定的“時(shí)間”才能夠縮短兩個(gè)字符信息串之間的編輯距離。在改正中,通常設(shè)定一次的編輯改正操作需要使用單位1的“時(shí)間”,一次才能夠?qū)⒕庉嬀嚯x的“時(shí)間”量的計(jì)算等價(jià)轉(zhuǎn)換為字符信息串編輯操作的次數(shù),方便對(duì)錯(cuò)誤改正次數(shù)的記錄。

        還可以通過易混淆集構(gòu)建的方式,對(duì)文本編輯錯(cuò)誤進(jìn)行改正。將所有具有與被校對(duì)詞語在某一特征上存在相似的不同詞語匯總,并構(gòu)成一個(gè)易混淆集合。這種特征可以是詞語本身含義的相同,也可以是形或音等某個(gè)方面上的相同。通過對(duì)文本編輯錯(cuò)誤進(jìn)行觀察,通常情況下產(chǎn)生的文本錯(cuò)誤是由于文本當(dāng)中正確詞語被其相應(yīng)的易混淆集合當(dāng)中的詞語所代替。因此,為了將其修改為正確的詞語,將易混淆集合作為重要的候選詞語集合。由于文字?jǐn)?shù)量較大,因此易混淆集合在構(gòu)建時(shí)難度較高,為了降低構(gòu)建難度,利用現(xiàn)有詞典附錄擴(kuò)充的方式構(gòu)建易混淆集合,以此在易混淆集合的基礎(chǔ)上完成對(duì)文本編輯錯(cuò)誤的改正。按照上述內(nèi)容將完成改正后的文本輸出,并通過人工校對(duì)的方式,對(duì)其進(jìn)行二次校對(duì)和三次校對(duì),最終將完成校對(duì)的文本匯總,構(gòu)成最終出版時(shí)的圖書類型,以此完成對(duì)圖書的校對(duì)和出版。

        2.數(shù)字化校對(duì)與傳統(tǒng)校對(duì)應(yīng)用效果分析

        為了探究數(shù)字化校對(duì)技術(shù)應(yīng)用后的數(shù)字出版與傳統(tǒng)出版方式相比是否具備更高的應(yīng)用優(yōu)勢(shì),本文選擇以某個(gè)圖書的原始稿件作為研究對(duì)象,分別通過兩種出版方式下的校對(duì)方法,對(duì)原始稿件進(jìn)行校對(duì),并記錄兩種校對(duì)方法的應(yīng)用效果。在實(shí)驗(yàn)過程中,將原始稿件當(dāng)中的所有文字內(nèi)容設(shè)置為開放完全測(cè)試集,該集合當(dāng)中包含了200個(gè)錯(cuò)誤用例,記錄兩種方法校對(duì)得到的真實(shí)錯(cuò)誤數(shù)量以及合理給出改正建議的個(gè)數(shù),并通過計(jì)算得出改正建議的準(zhǔn)確率。由于兩種校對(duì)方法在實(shí)際應(yīng)用中計(jì)錯(cuò)誤個(gè)數(shù)方式不同,為了確保實(shí)驗(yàn)結(jié)果的公正性,對(duì)其錯(cuò)誤文字計(jì)數(shù)標(biāo)準(zhǔn)進(jìn)行規(guī)定:首先,針對(duì)同一頁面當(dāng)中反復(fù)出現(xiàn)的錯(cuò)誤文字,最多標(biāo)記為四個(gè)錯(cuò)誤個(gè)數(shù);其次,針對(duì)扉頁上出現(xiàn)的文字錯(cuò)誤,最多標(biāo)記為兩個(gè)錯(cuò)誤個(gè)數(shù);最后,針對(duì)文章當(dāng)中存在影響語義、不符合版面要求的文字或需要空格而未空格的錯(cuò)誤,每處計(jì)1個(gè)錯(cuò)誤個(gè)數(shù)。按照上述錯(cuò)誤文字計(jì)數(shù)標(biāo)準(zhǔn),記錄兩種校對(duì)方法的校對(duì)結(jié)果,并繪制成如表1所示的結(jié)果。

        表1 數(shù)字化校對(duì)與傳統(tǒng)校對(duì)應(yīng)用效果對(duì)比

        從表1中記錄的實(shí)驗(yàn)數(shù)據(jù)可以看出,盡管真實(shí)錯(cuò)誤個(gè)數(shù)為50個(gè)時(shí)的校對(duì)出錯(cuò)誤個(gè)數(shù)為48個(gè),但隨著校對(duì)真實(shí)錯(cuò)誤個(gè)數(shù)的增加,數(shù)字化校對(duì)能夠?qū)χ巴瓿傻男?duì)內(nèi)容進(jìn)行反復(fù)檢查,因此能夠確保將最終所有200個(gè)真實(shí)錯(cuò)誤個(gè)數(shù)全部檢測(cè)出來。但傳統(tǒng)校對(duì)方法在完成對(duì)之前內(nèi)容的校對(duì)后,不會(huì)對(duì)其進(jìn)行反復(fù)檢查,因此最終造成校對(duì)出錯(cuò)誤個(gè)數(shù)與真實(shí)錯(cuò)誤個(gè)數(shù)相差較大的問題產(chǎn)生。數(shù)字化校對(duì)能夠?qū)崿F(xiàn)對(duì)所有開放完全測(cè)試集中錯(cuò)誤內(nèi)容的標(biāo)記,并給出相應(yīng)的改正意見,而傳統(tǒng)校對(duì)方法校對(duì)出錯(cuò)誤個(gè)數(shù)相比較少,并且無法針對(duì)已經(jīng)發(fā)現(xiàn)的校對(duì)錯(cuò)誤給出相應(yīng)的改正意見。通過進(jìn)一步對(duì)兩種校對(duì)方法的改正建議準(zhǔn)確率計(jì)算得出,數(shù)字化校對(duì)的準(zhǔn)確率高達(dá)100%,而傳統(tǒng)校對(duì)方法的準(zhǔn)確率僅為:131÷200×100%=65.5%。因此,通過上述實(shí)驗(yàn)及得出的實(shí)驗(yàn)結(jié)果可以證明,數(shù)字化校對(duì)方法在應(yīng)用到數(shù)字出版當(dāng)中時(shí),能夠?qū)崿F(xiàn)對(duì)所有錯(cuò)誤內(nèi)容的準(zhǔn)確校對(duì),并給出準(zhǔn)確率更高的改正建議。將該技術(shù)應(yīng)用到數(shù)字出版當(dāng)中,可進(jìn)一步促進(jìn)出版行業(yè)向著數(shù)字化、信息化的方向發(fā)展。

        結(jié)語

        數(shù)字化校對(duì)技術(shù)不僅可以應(yīng)用在出版領(lǐng)域中,還可應(yīng)用于各類文字處理領(lǐng)域當(dāng)中,未來隨著數(shù)字化校對(duì)技術(shù)的不斷完善,其校對(duì)應(yīng)用性能也將逐漸提升,從最基礎(chǔ)的自動(dòng)分詞,到語義語法分析等。盡管當(dāng)前數(shù)字化校對(duì)技術(shù)的應(yīng)用仍然處于剛剛起步的階段,未來還會(huì)遇到更大的困難和挑戰(zhàn)。從當(dāng)前研究水平來看,仍然存在幾方面問題需要解決。例如,當(dāng)前數(shù)字化校對(duì)受到錯(cuò)誤實(shí)例缺少等多種條件限制;基于長詞模糊匹配對(duì)校對(duì)技術(shù)進(jìn)行優(yōu)化等。在今后研究中,還將針對(duì)上述存在問題進(jìn)行更加深入研究,從而進(jìn)一步提高數(shù)字化校對(duì)技術(shù)的應(yīng)用性能。

        猜你喜歡
        文本檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲国产精品天堂久久久| 久久发布国产伦子伦精品| 麻豆国产成人精品午夜视频| 四虎无码精品a∨在线观看| 久久精品亚洲一区二区三区画质| 亚洲色偷偷偷综合网| 麻豆一区二区99久久久久| 中文字幕巨乱亚洲| 亚洲av中文字字幕乱码软件 | 国产成人综合亚洲精品| 国产精品国产三级在线高清观看| 日本顶级片一区二区三区| 麻豆精品导航| 内射无码专区久久亚洲| 日本a在线播放| 网红尤物泛滥白浆正在播放| 欧美成人猛片aaaaaaa| 国产成人精品av| 在线a人片免费观看国产| 人妻人妇av一区二区三区四区| 亚洲人成网线在线播放va蜜芽| 天天躁日日躁狠狠躁人妻| 国产精品电影久久久久电影网| 国产视频激情视频在线观看| 国99久9在线 | 免费| 亚洲网站地址一地址二| 亚洲av乱码一区二区三区女同| 自拍偷自拍亚洲精品第按摩| 国产精品无码久久久久久久久久| 男人的天堂在线无码视频| 色综合中文字幕综合网| 国产午夜精品无码| 亚洲暴爽av天天爽日日碰| 亚洲24小时在线免费视频网站| 国产三级黄色免费网站| 97人人模人人爽人人喊电影 | 国产精品久久婷婷六月丁香| 午夜爽爽爽男女污污污网站| 久久精品国产日本波多麻结衣| 国产精品专区一区二区av免费看| 又黄又刺激的网站久久|