亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)字化校對(duì)技術(shù)在數(shù)字出版中的應(yīng)用

2022-05-13 06:19:54鄭曉慧

中國傳媒科技 2022年5期

鄭曉慧

（河南人民出版社，河南鄭州 450016）

導(dǎo)語

當(dāng)前，越來越多的網(wǎng)絡(luò)信息技術(shù)出現(xiàn)，并應(yīng)用于各個(gè)領(lǐng)域當(dāng)中，同時(shí)在社會(huì)需求不斷推動(dòng)下，數(shù)字化的出版形式產(chǎn)生。數(shù)字出版是將網(wǎng)絡(luò)信息技術(shù)作為技術(shù)支撐，通過更具網(wǎng)絡(luò)化的傳播渠道，實(shí)現(xiàn)傳播、閱讀和生產(chǎn)方式的數(shù)字化。數(shù)字出版在發(fā)展過程中，為了不斷適應(yīng)和完善，逐漸演變出了多種類型的出版方式。[1]數(shù)字出版與傳統(tǒng)出版相比更具交互性，并且傳播速度更快，可拓展面更廣，在極大程度上提高了人們對(duì)圖書的閱讀需求，也進(jìn)一步充實(shí)了現(xiàn)有圖書資源。但隨著數(shù)字出版發(fā)展速度的不斷提升，在為其帶來創(chuàng)新的同時(shí)，也使得諸多問題產(chǎn)生，例如數(shù)字出版信息數(shù)據(jù)量成倍增加，對(duì)校對(duì)、編輯等都造成巨大的負(fù)擔(dān)。[2]為了進(jìn)一步探究數(shù)字化校對(duì)技術(shù)在數(shù)字出版當(dāng)中的應(yīng)用及應(yīng)用效果，本文開展下述研究。

1.數(shù)字化校對(duì)技術(shù)在數(shù)字出版中的應(yīng)用

1.1 構(gòu)建文本編輯錯(cuò)誤校對(duì)模型

為了提高數(shù)字出版的質(zhì)量，解決文本內(nèi)容在編輯中出現(xiàn)錯(cuò)誤的次數(shù)，本節(jié)提出一種針對(duì)文本編輯錯(cuò)誤的校對(duì)模型。假設(shè)在編輯文本內(nèi)容時(shí)，語句中文本內(nèi)容表示為S，則S=S1，S2，S3…Sn，其中1～n表示構(gòu)成文本內(nèi)容的多個(gè)字節(jié)，在此基礎(chǔ)上，采用全局檢索的方式，對(duì)其中容易存在混淆的文字進(jìn)行矩陣構(gòu)建。并使用數(shù)字編輯設(shè)備中的統(tǒng)計(jì)功能項(xiàng)，進(jìn)行全局參數(shù)的宏觀調(diào)控，確保對(duì)編輯空間內(nèi)文本數(shù)量統(tǒng)計(jì)結(jié)果的真實(shí)性與有效性。[3]為了確保文本編輯錯(cuò)誤校對(duì)模型在使用中的有效性，可在圈定檢索空間后，使用文字統(tǒng)計(jì)法，進(jìn)行混淆集合的人工識(shí)別與校對(duì)，人工操作編輯界面后，輸出錯(cuò)誤項(xiàng)集合，并使用文本中的替換功能，進(jìn)行修正內(nèi)容的重新校正，以此種方式，確保文本內(nèi)容中所有校正的內(nèi)容與局部修正需求匹配。但在此過程中應(yīng)注意的是，在改正錯(cuò)誤時(shí)，使用標(biāo)注進(jìn)行混淆文本的標(biāo)記，并重點(diǎn)關(guān)注此部分文本內(nèi)容的錯(cuò)誤是否完全進(jìn)行了修訂，以此實(shí)現(xiàn)對(duì)文本編輯錯(cuò)誤的有效校對(duì)。

根據(jù)上述論述，在明確文本編輯錯(cuò)誤校對(duì)模型的基本需要后，設(shè)計(jì)如圖1所示的模型總體框架。

圖1 文本編輯錯(cuò)誤校對(duì)模型總體框架結(jié)構(gòu)圖

從圖1中文本編輯錯(cuò)誤校對(duì)模型總體框架結(jié)構(gòu)可以看出，檢測(cè)錯(cuò)誤部分輸入的目標(biāo)為需要進(jìn)行校對(duì)的文本字符信息串，輸出的結(jié)果為可能存在文本錯(cuò)誤的位置。[4]當(dāng)將需要進(jìn)行校對(duì)的文本字符信息串輸入到構(gòu)建的文本編輯錯(cuò)誤校對(duì)模型當(dāng)中時(shí)，根據(jù)局部文本的上下文語境，將可能存在錯(cuò)誤的文本進(jìn)行劃分，并將該區(qū)域作為后續(xù)錯(cuò)誤檢測(cè)的重點(diǎn)位置區(qū)域。在對(duì)真實(shí)存在錯(cuò)誤的文本進(jìn)行改正后，再返回到上一階段完成對(duì)錯(cuò)誤檢測(cè)結(jié)果的報(bào)告生成，并給出相應(yīng)的改正建議。

1.2 錯(cuò)誤檢測(cè)前的數(shù)據(jù)平滑處理

按照本文上述論述內(nèi)容，完成對(duì)文本編輯錯(cuò)誤校對(duì)模型的構(gòu)建后，為了確保后續(xù)錯(cuò)誤檢測(cè)的精度，在檢測(cè)前還需要對(duì)數(shù)據(jù)進(jìn)行平滑處理。由于需要進(jìn)行校對(duì)的文本當(dāng)中存在多種不同的錯(cuò)誤成分類型，并且存在錯(cuò)誤詞語的位置上，其左右相鄰的文本會(huì)出現(xiàn)數(shù)據(jù)稀疏的問題，上述問題的存在會(huì)造成檢測(cè)難度增加，因此從多個(gè)方面實(shí)現(xiàn)對(duì)數(shù)據(jù)的平滑處理。[5]首先，針對(duì)文本窗口縮小的問題進(jìn)行數(shù)據(jù)平滑處理。圖2為文本窗口數(shù)據(jù)稀疏現(xiàn)象示意圖。

圖2 文本窗口數(shù)據(jù)稀疏現(xiàn)象示意圖

圖2中“×”符號(hào)表示為在文本窗口當(dāng)中前后三個(gè)文字對(duì)出現(xiàn)了稀疏問題，“√”符合表示為文本窗口當(dāng)中前后三個(gè)文字對(duì)未出現(xiàn)稀疏問題。從圖1中所示的內(nèi)容可以看出，若需要進(jìn)行校對(duì)的文字當(dāng)中其字符信息串0～1是按照正確的方式出現(xiàn)，而字符信息串0～2在文本窗口當(dāng)中出現(xiàn)了數(shù)據(jù)稀疏問題，則說明2本身是一個(gè)存在錯(cuò)誤的詞語或2本身是正確的詞語，但與0～1字符信息串連接后存在錯(cuò)誤。[6]針對(duì)上述存在問題，對(duì)其進(jìn)行數(shù)據(jù)平滑處理，其計(jì)算公式為：

公式（1）中，a表示為平滑系數(shù)；yn表示為在某一時(shí)刻n下，文本窗口平滑處理后的數(shù)據(jù)值；Sn-1表示為在前一時(shí)刻通過平滑處理后的數(shù)據(jù)值；Sn表示為經(jīng)過平滑處理后的數(shù)據(jù)值。根據(jù)上述公式，針對(duì)圖1當(dāng)中存在的稀疏問題進(jìn)行平滑處理，在處理的過程中，將第一次輸入的原始文本數(shù)據(jù)作為初始狀態(tài)數(shù)值，或?qū)⑶皫状屋斎氲脑紨?shù)據(jù)值的平均值作為初始狀態(tài)數(shù)值。

其次，再對(duì)聚類詞進(jìn)行數(shù)據(jù)平滑處理。根據(jù)以往數(shù)字出版語言使用的經(jīng)驗(yàn)得出，在文本當(dāng)中存在很多同義詞或近義詞，通過其相互之間的轉(zhuǎn)換，句子本身幾乎不會(huì)存在差異，例如“觀”和“看”、“認(rèn)識(shí)”和“知道”等。[7]通過近義詞之間的相互轉(zhuǎn)換，可以達(dá)到對(duì)文本數(shù)據(jù)平滑處理的效果。在進(jìn)行平滑處理的過程中，還可引入同類詞預(yù)料的方法，例如如下公式（2）表示同類詞集：

公式（2）中，N表示為需要進(jìn)行校對(duì)的目標(biāo)文本；Xji表示為文本當(dāng)中某一字符i的同類詞集。通過上述操作，對(duì)文本窗口縮小和聚類詞進(jìn)行數(shù)據(jù)評(píng)價(jià)處理后，能夠確保后續(xù)錯(cuò)誤檢測(cè)的準(zhǔn)確度不受影響，提高數(shù)字化校對(duì)技術(shù)的應(yīng)用性能。

1.3 基于數(shù)字化校對(duì)技術(shù)的錯(cuò)誤檢測(cè)

在檢測(cè)前還需要將彼此容易混淆的詞語進(jìn)行收集，并形成混淆集合。在一個(gè)混淆集合當(dāng)中包含了容易在使用過程中與校對(duì)目標(biāo)詞出現(xiàn)混淆的詞語。在錯(cuò)誤檢測(cè)的過程中，引入一個(gè)分配器，用于對(duì)文本當(dāng)中不同詞語進(jìn)行分類。在分類器進(jìn)行過程中能夠，對(duì)適合上下文語義的詞語將其取值設(shè)置為1，針對(duì)不適合上下文語義的詞語，將其取值設(shè)置為0。每個(gè)分配器都與文本上下文特征相關(guān)聯(lián)，并且為每一個(gè)關(guān)聯(lián)對(duì)象設(shè)置不同的連接權(quán)值。針對(duì)需要進(jìn)行校對(duì)的目標(biāo)詞語進(jìn)行獲取，并在該詞語上下連接的文本當(dāng)中提取特征，將所有特征進(jìn)行匯總，并得到如公式（3）所示的表達(dá)結(jié)果：

公式（3）中，θ表示為利用分配器進(jìn)行分類后得到的結(jié)果；F表示為提取到的特征集合；w表示為分配器判定結(jié)果數(shù)值，w的取值為0或1；f表示為特征集合中的某一特征數(shù)值；ε表示為分類常數(shù)。在錯(cuò)誤檢測(cè)過程中，所有連接的權(quán)值均為分配器通過多次學(xué)習(xí)獲得的。因此，權(quán)值的學(xué)習(xí)可以看作是分配器判定錯(cuò)誤的時(shí)候?qū)θ≈颠M(jìn)行調(diào)整的動(dòng)態(tài)過程。根據(jù)學(xué)習(xí)過程中，不同類型分類器的實(shí)際表現(xiàn)，為其賦予不同的可行度權(quán)值，并將其帶入到上述構(gòu)建的文本編輯錯(cuò)誤校對(duì)模型當(dāng)中，實(shí)現(xiàn)對(duì)錯(cuò)誤文本的檢測(cè)。

1.4 文本編輯錯(cuò)誤改正與出版

首先，從最小編輯距離角度出發(fā)，無論是在對(duì)自然語言進(jìn)行理解還是處理的過程中，都會(huì)出現(xiàn)兩個(gè)字符之間的距離問題，這種距離與普通意義上的距離不同，是指語義距離或編輯距離。在進(jìn)行文本編輯錯(cuò)誤改正過程中，通過對(duì)兩個(gè)字符之間的最小編輯距離進(jìn)行調(diào)整，可以實(shí)現(xiàn)對(duì)其改正。假設(shè)某一字符信息串為A，其長度對(duì)應(yīng)為a，另一字符信息串為B，其長度對(duì)應(yīng)為b，則此時(shí)A和B之間的編輯距離為ed（A[a]，B[b]）。在進(jìn)行改正的過程中，編輯操作會(huì)引起“時(shí)間”問題產(chǎn)生，需要一定的“時(shí)間”才能夠縮短兩個(gè)字符信息串之間的編輯距離。在改正中，通常設(shè)定一次的編輯改正操作需要使用單位1的“時(shí)間”，一次才能夠?qū)⒕庉嬀嚯x的“時(shí)間”量的計(jì)算等價(jià)轉(zhuǎn)換為字符信息串編輯操作的次數(shù)，方便對(duì)錯(cuò)誤改正次數(shù)的記錄。

還可以通過易混淆集構(gòu)建的方式，對(duì)文本編輯錯(cuò)誤進(jìn)行改正。將所有具有與被校對(duì)詞語在某一特征上存在相似的不同詞語匯總，并構(gòu)成一個(gè)易混淆集合。這種特征可以是詞語本身含義的相同，也可以是形或音等某個(gè)方面上的相同。通過對(duì)文本編輯錯(cuò)誤進(jìn)行觀察，通常情況下產(chǎn)生的文本錯(cuò)誤是由于文本當(dāng)中正確詞語被其相應(yīng)的易混淆集合當(dāng)中的詞語所代替。因此，為了將其修改為正確的詞語，將易混淆集合作為重要的候選詞語集合。由于文字?jǐn)?shù)量較大，因此易混淆集合在構(gòu)建時(shí)難度較高，為了降低構(gòu)建難度，利用現(xiàn)有詞典附錄擴(kuò)充的方式構(gòu)建易混淆集合，以此在易混淆集合的基礎(chǔ)上完成對(duì)文本編輯錯(cuò)誤的改正。按照上述內(nèi)容將完成改正后的文本輸出，并通過人工校對(duì)的方式，對(duì)其進(jìn)行二次校對(duì)和三次校對(duì)，最終將完成校對(duì)的文本匯總，構(gòu)成最終出版時(shí)的圖書類型，以此完成對(duì)圖書的校對(duì)和出版。

2.數(shù)字化校對(duì)與傳統(tǒng)校對(duì)應(yīng)用效果分析

為了探究數(shù)字化校對(duì)技術(shù)應(yīng)用后的數(shù)字出版與傳統(tǒng)出版方式相比是否具備更高的應(yīng)用優(yōu)勢(shì)，本文選擇以某個(gè)圖書的原始稿件作為研究對(duì)象，分別通過兩種出版方式下的校對(duì)方法，對(duì)原始稿件進(jìn)行校對(duì)，并記錄兩種校對(duì)方法的應(yīng)用效果。在實(shí)驗(yàn)過程中，將原始稿件當(dāng)中的所有文字內(nèi)容設(shè)置為開放完全測(cè)試集，該集合當(dāng)中包含了200個(gè)錯(cuò)誤用例，記錄兩種方法校對(duì)得到的真實(shí)錯(cuò)誤數(shù)量以及合理給出改正建議的個(gè)數(shù)，并通過計(jì)算得出改正建議的準(zhǔn)確率。由于兩種校對(duì)方法在實(shí)際應(yīng)用中計(jì)錯(cuò)誤個(gè)數(shù)方式不同，為了確保實(shí)驗(yàn)結(jié)果的公正性，對(duì)其錯(cuò)誤文字計(jì)數(shù)標(biāo)準(zhǔn)進(jìn)行規(guī)定：首先，針對(duì)同一頁面當(dāng)中反復(fù)出現(xiàn)的錯(cuò)誤文字，最多標(biāo)記為四個(gè)錯(cuò)誤個(gè)數(shù)；其次，針對(duì)扉頁上出現(xiàn)的文字錯(cuò)誤，最多標(biāo)記為兩個(gè)錯(cuò)誤個(gè)數(shù)；最后，針對(duì)文章當(dāng)中存在影響語義、不符合版面要求的文字或需要空格而未空格的錯(cuò)誤，每處計(jì)1個(gè)錯(cuò)誤個(gè)數(shù)。按照上述錯(cuò)誤文字計(jì)數(shù)標(biāo)準(zhǔn)，記錄兩種校對(duì)方法的校對(duì)結(jié)果，并繪制成如表1所示的結(jié)果。

表1 數(shù)字化校對(duì)與傳統(tǒng)校對(duì)應(yīng)用效果對(duì)比

從表1中記錄的實(shí)驗(yàn)數(shù)據(jù)可以看出，盡管真實(shí)錯(cuò)誤個(gè)數(shù)為50個(gè)時(shí)的校對(duì)出錯(cuò)誤個(gè)數(shù)為48個(gè)，但隨著校對(duì)真實(shí)錯(cuò)誤個(gè)數(shù)的增加，數(shù)字化校對(duì)能夠?qū)χ巴瓿傻男?duì)內(nèi)容進(jìn)行反復(fù)檢查，因此能夠確保將最終所有200個(gè)真實(shí)錯(cuò)誤個(gè)數(shù)全部檢測(cè)出來。但傳統(tǒng)校對(duì)方法在完成對(duì)之前內(nèi)容的校對(duì)后，不會(huì)對(duì)其進(jìn)行反復(fù)檢查，因此最終造成校對(duì)出錯(cuò)誤個(gè)數(shù)與真實(shí)錯(cuò)誤個(gè)數(shù)相差較大的問題產(chǎn)生。數(shù)字化校對(duì)能夠?qū)崿F(xiàn)對(duì)所有開放完全測(cè)試集中錯(cuò)誤內(nèi)容的標(biāo)記，并給出相應(yīng)的改正意見，而傳統(tǒng)校對(duì)方法校對(duì)出錯(cuò)誤個(gè)數(shù)相比較少，并且無法針對(duì)已經(jīng)發(fā)現(xiàn)的校對(duì)錯(cuò)誤給出相應(yīng)的改正意見。通過進(jìn)一步對(duì)兩種校對(duì)方法的改正建議準(zhǔn)確率計(jì)算得出，數(shù)字化校對(duì)的準(zhǔn)確率高達(dá)100%，而傳統(tǒng)校對(duì)方法的準(zhǔn)確率僅為：131÷200×100%=65.5%。因此，通過上述實(shí)驗(yàn)及得出的實(shí)驗(yàn)結(jié)果可以證明，數(shù)字化校對(duì)方法在應(yīng)用到數(shù)字出版當(dāng)中時(shí)，能夠?qū)崿F(xiàn)對(duì)所有錯(cuò)誤內(nèi)容的準(zhǔn)確校對(duì)，并給出準(zhǔn)確率更高的改正建議。將該技術(shù)應(yīng)用到數(shù)字出版當(dāng)中，可進(jìn)一步促進(jìn)出版行業(yè)向著數(shù)字化、信息化的方向發(fā)展。

結(jié)語

數(shù)字化校對(duì)技術(shù)不僅可以應(yīng)用在出版領(lǐng)域中，還可應(yīng)用于各類文字處理領(lǐng)域當(dāng)中，未來隨著數(shù)字化校對(duì)技術(shù)的不斷完善，其校對(duì)應(yīng)用性能也將逐漸提升，從最基礎(chǔ)的自動(dòng)分詞，到語義語法分析等。盡管當(dāng)前數(shù)字化校對(duì)技術(shù)的應(yīng)用仍然處于剛剛起步的階段，未來還會(huì)遇到更大的困難和挑戰(zhàn)。從當(dāng)前研究水平來看，仍然存在幾方面問題需要解決。例如，當(dāng)前數(shù)字化校對(duì)受到錯(cuò)誤實(shí)例缺少等多種條件限制；基于長詞模糊匹配對(duì)校對(duì)技術(shù)進(jìn)行優(yōu)化等。在今后研究中，還將針對(duì)上述存在問題進(jìn)行更加深入研究，從而進(jìn)一步提高數(shù)字化校對(duì)技術(shù)的應(yīng)用性能。