梁 曉
(河南文藝出版社,河南 鄭州 450016)
隨著時代的發(fā)展,信息技術(shù)不斷升級,其可以借助計算機實現(xiàn)對校對工作經(jīng)驗的系統(tǒng)分析和整理,通過挖掘其中存在的內(nèi)在規(guī)律,實現(xiàn)對校對重點以及校對內(nèi)容的快速累積,這種技術(shù)的出現(xiàn)也顛覆了傳統(tǒng)校對模式。[1-3]對出版社而言,這種智能化的校對方法在極大程度上提高了校對的效率。但是值得關(guān)注的是,計算機實現(xiàn)較多地是建立在對學(xué)科基礎(chǔ)知識了解和掌握的基礎(chǔ)之上的。[4-5]通過深度學(xué)習(xí)校對的資料,實現(xiàn)對校對信息的更新,單純地依靠計算機完成校對工作并不能達到預(yù)期的校對標(biāo)準(zhǔn)。除此之外,隨著校對工作要求的改變,一些校對規(guī)則也在不斷發(fā)生著變化,機器學(xué)習(xí)的計算機校對是無法通過自主方式實現(xiàn)更新的,此時就需求人為對校對規(guī)則進行修改。由此不難看出,人工校對仍然是校對工作中不可或缺的重要組成部分。[6-7]
為此,本文提出了關(guān)于人機結(jié)合校對模式在圖書校對中的應(yīng)用研究,利用計算機強大的學(xué)習(xí)能力以及人工對校對問題判定的可靠性,實現(xiàn)可靠的校對。本文通過試驗測試對設(shè)計方法的有效性進行了驗證。通過本文的研究,以期為現(xiàn)代校對工作的開展提供幫助。
利用人機結(jié)合的方式開展圖書校對工作之前,考慮到校對涉及語句邏輯、字詞正誤、專業(yè)術(shù)語使用等多項內(nèi)容。為此,本文首先對校對工作進行分解,將復(fù)雜多樣的校對任務(wù)分解為多個單一的任務(wù)。對于問題的分解,本文對分解函數(shù)進行了一定的調(diào)整,利用靜態(tài)分解策略實現(xiàn)對其的優(yōu)化。將每一個校對任務(wù)作為變量,以每個變量為目標(biāo),建立與之對應(yīng)的子種群,其中,每個子種群中包含所屬校對任務(wù)中的所有校對信息。[8]其具體的分解方式為
其中,Xi表示分解后的一個種群,b表示校對任務(wù)自身的屬性,p表示校對任務(wù)的重要性,q表示校對任務(wù)的目標(biāo)屬性。Sim(*)表示分解參考指標(biāo)的相似性。但是需要注意的是,對任務(wù)進行分解時,要將分解粒度控制在合理范圍內(nèi),一旦分解粒度過大,可能會導(dǎo)致最終的校對結(jié)果中漏檢問題較為嚴(yán)重;而當(dāng)分解粒度過小時,可能會出現(xiàn)相同問題重復(fù)校對的問題,影響最終的校對效率。為此,本文設(shè)置分解粒度大小為0.50。以此為基礎(chǔ),即可以得到i個獨立的校對任務(wù)。[9]
以此為基礎(chǔ),將復(fù)雜的校對工作分解為多個簡單的獨立任務(wù),為后續(xù)的工作提供更加簡單的計算環(huán)境。
首先,對各子群體中的子問題耦合性進行統(tǒng)一,將各個子問題作為獨立的優(yōu)化問題,此時對其的求解方式可以表示為
其中,λ表示各子群體中子問題的關(guān)聯(lián)系數(shù),f表示校對資源所占的比例,表示子群中的獨立個子問題,分別表示子問題自身的屬性、重要性以及對λ應(yīng)校對目標(biāo)的屬性。通過這樣的方式,就可以得到優(yōu)化后的校對任務(wù)。而在實際校對工作中,許多問題不僅僅是以單純的競爭關(guān)系存在的,又包含協(xié)同關(guān)系。因此,本文基于協(xié)同進化算法,對優(yōu)化后的子任務(wù)種群的全局平衡狀態(tài)進行設(shè)置。[10]假設(shè)在子種群中的個體對校對工作其余所有任務(wù)的適應(yīng)度評價為a,通過逐個分析,即可得到所有子種群中選擇合作個體,并組成一個完整解。
其中,ai表示xi子種群中個體對其余校對任務(wù)的適應(yīng)度評價結(jié)果。通過這樣的方式,構(gòu)建出一個包含協(xié)作機制的校對任務(wù)體系,為后續(xù)的校對工作提供執(zhí)行依據(jù)。
通過上文不難看出,以計算機為基礎(chǔ)的校對主要是以知識儲備為基礎(chǔ)開展的,而要確保計算機的校對效果,對每個任務(wù)子群的信息庫進行及時有效的更新是極為重要的環(huán)節(jié)。[11]為此本文將經(jīng)過校對后的文本信息以修訂模式重新輸入到計算機中,利用機器學(xué)習(xí)對其修改的內(nèi)容進行深度學(xué)習(xí),并與原有的信息庫進行比對。當(dāng)信息庫中原有的校正信息在輸入文本中未體現(xiàn),或原信息庫中沒有的信息在輸入文本中有體現(xiàn)時,則將其作為待判定問題二次數(shù)次輸出,通過人工確認(rèn)的方式對其修改的準(zhǔn)確性進行最終確認(rèn)。[12]計算機采集到最終的校對結(jié)果后,將該類信息作為校對信息庫的備用補充。當(dāng)再次出現(xiàn)該類問題時,以差異化的標(biāo)注形式對其進行標(biāo)記,同樣通過人工確認(rèn)的方式對其進行判定。當(dāng)該類問題的判定結(jié)果相同次數(shù)達到信息庫修改的目標(biāo)值時,則做出對應(yīng)的添加或刪除處理。其具體的實現(xiàn)流程如圖1所示。
圖1 計算機校對信息庫更新流程
按照圖1所示的方式,確保計算機對校對內(nèi)容的判定能夠按照校對要求的變化而做出調(diào)整,確保校對的可靠性。
首先,將待校對的資料信息輸入到計算機系統(tǒng)中,分別以上文建立的校對任務(wù)體系中的單一任務(wù)為目標(biāo),對文本信息進行匹配,當(dāng)完成所有任務(wù)的執(zhí)行后,對匹配度達到判定要求的問題,直接通過計算機對其進行修改及標(biāo)注。在此過程中,匹配的方式為
其中,Wi表)示待校對文本信息。
對判定標(biāo)準(zhǔn)的設(shè)置,由于不同文本類型的校對重點存在一定差異,因此結(jié)合實際情況,本文將單一校驗任務(wù)的匹配度結(jié)果與整體校驗任務(wù)的匹配度結(jié)果的比值作為判定標(biāo)準(zhǔn),以此為基礎(chǔ),對判定標(biāo)準(zhǔn)的設(shè)置值如表1所示。
表1 校對判定標(biāo)準(zhǔn)
按照表1 的標(biāo)準(zhǔn),將取值區(qū)間為[0.65,1.00]的校對內(nèi)容直接利用計算機進行修改。通過這樣的方式即可通過計算機完成對文本65%校對問題的修改;將取值區(qū)間為[0.00,0.10]的校對內(nèi)容做簡單標(biāo)記,并進行單獨處理;對無法確認(rèn)是否存在問題,或者無法明確修改后信息的問題,通過人工校對的方式對其進行判斷。最終將校對后的文本再次以標(biāo)記的形式輸入到計算機中,作為機器學(xué)習(xí)的目標(biāo),為信息庫的更新提供數(shù)據(jù)基礎(chǔ)。
由于本文設(shè)計的校對方法是以人機結(jié)合為基礎(chǔ)實現(xiàn)的,因此需要計算機設(shè)備的支持,在測試過程中,本文采用的數(shù)據(jù)庫服務(wù)器型號為Sqlserver 2019,對應(yīng)的應(yīng)用服務(wù)器搭載的操作系統(tǒng)版本為Windows Server 2020,服務(wù)器端的具體運行環(huán)境為6.0GHZ,CPU大小為1G,系統(tǒng)運行的網(wǎng)絡(luò)環(huán)境為TCP/IP 。
為了全方位測試本文設(shè)計的人機結(jié)合校對模式的應(yīng)用效果,本文首先在測試圖書館內(nèi)部用專網(wǎng)軟硬件網(wǎng)絡(luò)環(huán)境下搭建了具體的測試環(huán)境,通過構(gòu)建一個完整且真實的測試環(huán)境,為測試結(jié)果的可靠性提供保障。在此基礎(chǔ)上分別在社會學(xué)科、自然學(xué)科、實驗學(xué)科、計算機學(xué)科、建筑學(xué)科以及設(shè)計學(xué)科抽選測試數(shù)據(jù),以此為基礎(chǔ)實施具體的測試任務(wù)。根據(jù)測試計劃,本文在對校對資料類別和種類進行選擇時,盡可能以多樣化為目標(biāo),以此為基礎(chǔ),形成了最終的測試用文檔數(shù)據(jù)??紤]到需校對結(jié)果的統(tǒng)計需要采集完整的未校對的錯誤信息,因此本文進行此次測試的主要目標(biāo)是判斷人機結(jié)合校對是否都能夠滿足圖書館在資料校對業(yè)務(wù)方面提出的要求。按照現(xiàn)階段普遍使用的標(biāo)準(zhǔn),本文將對校對準(zhǔn)確率達到 90%以上作為合格標(biāo)準(zhǔn)的正確率。
本文的測試工作范圍包括資料的共享性、字詞句一致性錯誤、專業(yè)術(shù)語使用錯誤、資料內(nèi)容引用錯誤4項,為便于統(tǒng)計,分別記為①②③④。以此為基礎(chǔ),測試中選用的實驗數(shù)據(jù)具體設(shè)置如表2所示。
表2 實驗數(shù)據(jù)準(zhǔn)備
在上述基礎(chǔ)上,利用文獻單一計算機校對和單一人工校對的方法作為對照組,分別對測試數(shù)據(jù)進行校對,并統(tǒng)計了3種方法的校對結(jié)果,其中未檢出的文本作為數(shù)據(jù)如表3所示。
表3 校對結(jié)果統(tǒng)計表
通過對比表3數(shù)據(jù)不難看出,單一計算機校對和人工校對對資料業(yè)務(wù)邏輯錯誤和專業(yè)術(shù)語使用規(guī)范錯誤的漏檢率相對較高,相比之下,本文方法對6種錯誤的漏檢個數(shù)始終低于5個。特別是對字詞句一致性錯誤的校對,其檢出率達到了100%。整體測試結(jié)果中,檢出率最低的內(nèi)容為實驗學(xué)科中在專業(yè)術(shù)語使用規(guī)范上存在的錯誤,但其檢出率也達到了94.29%,遠(yuǎn)高于校對準(zhǔn)確率 90.00%的合格要求。表明本文設(shè)計的校對方法可以實現(xiàn)對資料中錯誤的準(zhǔn)確識別。
圖書出版后,其產(chǎn)生影響的范圍是巨大的,且產(chǎn)生的影響是不可逆轉(zhuǎn)的。因此,無論是從學(xué)術(shù)研究的角度,還是從出版需求的角度,在出版前對資料進行有效的校對是十分重要的環(huán)節(jié)之一。一方面,考慮出版刊物對時間的要求,另一方面,考慮出版社對校對效率的要求,如何實現(xiàn)高效準(zhǔn)確的校對成為出版行業(yè)關(guān)注的重點問題。本文就人機結(jié)合技術(shù)在圖書校對中的應(yīng)用展開研究,實現(xiàn)對錯誤的有效檢出。通過本文的研究,也希望為相關(guān)工作的開展提供有價值的參考,實現(xiàn)快速、準(zhǔn)確的資料校對。