摘? 要:為了提升網(wǎng)頁信息標注的整體效果,同時降低標注失誤的概率,通過三元組構造標注預處理,在深度學習技術下標注描述目標設定,設計深度重疊標注模型,在深度學習下通過邏輯回歸實現(xiàn)Web網(wǎng)頁信息的標注。相較于傳統(tǒng)的特征提取標注測試組和傳統(tǒng)的自定義標注測試組,文章設計的深度學習標注測試組最終得出的標注完成率相對較高,標注失誤率相對較低,具有實際應用意義。
關鍵詞:深度學習;Web網(wǎng)頁;標注方法;深度控制
中圖分類號:G202? 文獻標識碼:A文章編號:2096-4706(2021)22-0089-03
Abstract: In order to improve the overall effect of web page information tagging and reduce the probability of tagging errors, the tagging preprocessing is constructed through triples, description goal setting is tagged under the deep learning technology, the deep overlapping tagging model is designed, and the tagging of web page information is realized through logical regression under the deep learning technology. Compared with the traditional feature extraction tagging test group and the traditional self-defined tagging test group, the tagging completion rate of the deep learning tagging test group designed in this paper is relatively high, the tagging error rate is relatively low, which has practical application significance.
Keywords: deep learning; Web page; tagging method; depth control
0? 引? 言
近年來,計算機技術和互聯(lián)網(wǎng)技術的不斷創(chuàng)新,極大地促進了我國網(wǎng)絡環(huán)境的充分發(fā)展[1]。傳統(tǒng)的互聯(lián)網(wǎng)網(wǎng)頁都是以關聯(lián)靜態(tài)的形式呈現(xiàn)的,同時網(wǎng)頁中所承載的相關數(shù)據(jù)信息也是靜態(tài)的,具有一定的穩(wěn)定性,且大多數(shù)都是以HTML語言來書寫,比較適合持續(xù)性閱讀;另外,還有一部分網(wǎng)頁,數(shù)據(jù)信息是以流動的形態(tài)存在的,且具有可下載的優(yōu)勢,當用戶需要瀏覽或使用這部分網(wǎng)頁中的數(shù)據(jù)信息時,可以通過特定的位置、按鈕進行資料數(shù)據(jù)的檢索及下載,而網(wǎng)頁中的數(shù)據(jù)仍會繼續(xù)存在,不會影響未來其他用戶的使用[2]。
部分用戶在應用過程中,需要對所閱讀的內(nèi)容做出標注,以此達到有序?qū)W習的目的。而傳統(tǒng)的系統(tǒng)對于標注的設定較為單一,僅僅是對所閱讀的段落或字數(shù)進行匯總整合,并做下腳標注,形式老化,缺少新意,雖然可以達到預期的目標,但在實際應用過程中,仍然存在一些問題和缺陷,給用戶最終的使用帶來較大的負面影響[3]。鑒于此,結合深度學習技術,進行標準方法的創(chuàng)新與優(yōu)化。深度學習技術是一項較為嚴密的數(shù)據(jù)信息處理技術,近幾年被廣泛應用于各個行業(yè),取得一定的成效。因此,深度學習技術可助力開發(fā)人員設計出更加靈活的標注方式,實現(xiàn)更為高效的處理效果。
1? Web網(wǎng)頁信息標注方法設計
1.1? 三元組構造標注預處理
在設計Web網(wǎng)頁信息標注方法之前,需要先進行三元組構造標注的預處理。具體來說就是依據(jù)用戶的需求,做出相應的結構創(chuàng)新。通常,網(wǎng)頁后臺均會設置自身的數(shù)據(jù)處理程序,同時也會配備一個數(shù)據(jù)庫,數(shù)據(jù)庫的作用不僅僅是提供資源信息,同時也會對相關的分詞、語料以及詞性進行相應的處理與標注[4]。這樣在用戶的實際應用過程中,一定程度上可以提升資料查詢的速度與質(zhì)量,方便于語句標注處理。可以結合Web網(wǎng)頁自身的編輯結構,再加上對應的三元組構造模式,對資源庫中的信息數(shù)據(jù)進行多重雙向定位,每一組定位都需要設立獨立的執(zhí)行單元,同時可以結合標注實行分句處理。然而在此過程中,需要首先確定三元組的覆蓋作用范圍,并計算出三元覆蓋系數(shù),具體如式(1)所示。
其中,Y表示三元覆蓋系數(shù),λ表示覆蓋范圍,R表示三元處置指數(shù),表示目標極限值。通過上述計算,最終可以得出實際的三元覆蓋系數(shù)。隨后,設定具體的構造標注處理范圍,同時,根據(jù)實際情況與需求,進行三元預處理規(guī)則的描述??梢酝ㄟ^設定處理域的方式來劃定相應的標注范圍,進而為后續(xù)的標注工作奠定基礎。
1.2? 深度學習技術下標注描述目標設定
在完成對三元組構造標注的預處理之后,接下來,需要在深度學習技術下標注描述目標設定[5]。可以先對Web網(wǎng)頁中的信息資源數(shù)據(jù)庫進行層級的劃定,結合特定的信息抽取方法,將存在的文檔關系形成預設的結構,在語句處理結構之中,建立詞或詞類間句法的關系,將標注的程序與執(zhí)行的結構相融合,結合深度學習技術,設計深度自動化架構,但架構的設定不可以一味地遵循傳統(tǒng)的標注描述方式,而是需要定期對架構內(nèi)部的識別制度以及抽取規(guī)則進行更新,形成更加智能化的處理方式[6]。
基于此,將Web信息的抽取作為標注本體的核心,建立深度層級標注格式,根據(jù)分類層次、關系、函數(shù)、公理以及實例等劃定控制范圍,設定具體的描述目標,但是目標的執(zhí)行也是獨立單一的,這樣做的目的是為了確保標注定位的精準性與穩(wěn)定性,避免出現(xiàn)大范圍的關聯(lián)性故障[7]。將深度學習的層級與自然語言相融合,利用RDF的陳述模式對文章中標注的詞語進行二次標注,此時,網(wǎng)頁會留存相應的執(zhí)行記憶,在這個過程中可以進一步完成對描述標注目標的執(zhí)行與控制,進一步擴大了標注的范圍。
1.3? 深度重疊標注模型設計
在完成對深度學習技術下標注描述目標的設定之后,接下來,需要深度重疊標注模型的設計。通常情況下,在對Web網(wǎng)頁信息進行標注的過程中,需要依據(jù)預設的結構設定(可以通過標注模型的規(guī)范來降低異常)??梢韵纫罁?jù)用戶的實際需求,劃定具體的重疊標注范圍,并計算出深度重疊系數(shù),具體如式(2)所示。
其中,T表示深度重疊系數(shù),λ表示雙向應變指數(shù),F(xiàn)表示預設標注時間,表示極限覆蓋值。通過上述計算,最終可以得出實際的深度重疊系數(shù)。結合深度重疊系數(shù)設定深度重疊的網(wǎng)頁標注范圍,并設定具體的執(zhí)行標注環(huán)節(jié),具體如圖1所示。
根據(jù)圖1所示步驟,可以完成對執(zhí)行標注環(huán)節(jié)的預設??梢栽诔跏紭俗⒔Y構的基礎之上,設計頂層的處理結構,分目標設定,確保在實際應用的過程中,可以深化標注的位置。
1.4? 深度學習下通過邏輯回歸實現(xiàn)Web網(wǎng)頁信息的標注
在完成對深度重疊標注模型的設計之后,接下來,需要通過邏輯回歸實現(xiàn)Web網(wǎng)頁信息的標注。首先,在所建立的特定標注的模型中,設計相關的邏輯回歸標注程序,在模型中設定相應數(shù)量的執(zhí)行節(jié)點,根據(jù)編碼,調(diào)整網(wǎng)頁的處理極限標準,計算出交互的迭代回歸指數(shù),具體如式(3)所示。
其中,U表示交互的迭代回歸指數(shù),表示節(jié)點變化距離,π表示重疊范圍,表示單一邏輯值。通過上述計算,最終可以得出實際交互的迭代回歸指數(shù),設立迭代邏輯回歸范圍,同時,根據(jù)相應的回歸邏輯標注規(guī)則,構建與Web網(wǎng)頁執(zhí)行一致的深度作用結構。在深度重疊標注模型中,對文章中的標注劃定層級,依據(jù)不同的目標標定對應層級的信息資源,提升整體的標注效果。
2? 方法測試
本次測試的主要目的是對基于深度學習的Web網(wǎng)頁信息標注方法應用效果進行驗證與分析,測試共分為3個小組:第一組為傳統(tǒng)的特征提取標注方法,將其設定為傳統(tǒng)特征提取標注測試組;第二組為傳統(tǒng)的自定義標注方法,將其設定為傳統(tǒng)自定義標注測試組;第三組為本文所設計的標注方法,將其設定為深度學習標注測試組。在相同的環(huán)境下同時采用3組標注方法進行測試,測試的系統(tǒng)也一致,對得出的結果進行對比分析,最終完成方法的驗證。
2.1? 測試準備
在進行測試前,需要先搭建相應的測試環(huán)境。對所應用的網(wǎng)頁標注特征進行提取設定,具體如表1所示。
根據(jù)表1中的數(shù)據(jù)信息,最終可以完成對應用網(wǎng)頁標注特征提取的設定。隨后,可以在網(wǎng)頁中建立相應的依賴標注關系,主要是將網(wǎng)頁標注結構與深度學習技術相關聯(lián),可以先計算出標注的路徑距離,具體如式(4)所示。
其中,M表示標注的路徑距離,α表示深度范圍值,表示標注預設系數(shù),d表示變化比。通過上述計算,最終可以完成對標注路徑距離的測定。結合得出的數(shù)值,設定相應的網(wǎng)頁標注路徑,進行標注訓練,可以在相同的網(wǎng)絡環(huán)境下,依次訓練3次,并記錄下相應的訓練結果。
設定消岐標注框架,所謂消岐標注主要是指用戶在實際應用過程中,自動識別文章內(nèi)部的歧義數(shù)據(jù)資源目標,消岐標注還會通過設定不同的框架和層級來分離劃分,在用戶對相關的數(shù)據(jù)信息做出標注時,系統(tǒng)會依據(jù)資料的層級進行單一標注,不同層級的標注均是不同的,具有一定的差異,體現(xiàn)在各個方面,例如顏色、大小、結構等,用以區(qū)分對應的資料重要程度。完成消岐標注的層級框架設定之后,進行實體測試資料的預處理??梢岳脪呙柩b備來掃描文章,以特殊的格式將其導入系統(tǒng)的網(wǎng)頁之中,隨后,結合相應的架構,對標注的召回率進行分析,具體如式(5)所示。
其中,K表示對標注的召回率,k表示默認節(jié)點極限值,δ表示召回范圍,η表示實際覆蓋范圍。通過上述計算,最終可以得出實際的標注召回率。
2.2? 測試過程及結果分析
經(jīng)過上述測試環(huán)境的搭建,接下來開始實施具體的測試。選取300名用戶作為本次測試的目標對象,準備一份材料進行標注,預設需要標注的位置共45處。在測試的過程中,同時采用三種測試方法分別對100名用戶進行標注測試??梢韵葘ξ恼轮邢嗨贫葮O高的詞語進行排序,以避免對測試造成不同程度的影響??梢圆捎迷O立目標的方式實現(xiàn),選取一個詞作為單一目標,通過特區(qū)詞語的特征,設定在識別的程序之中,結合排序的處理結構,關聯(lián)成為一個更加精細的標注處理結構,同時還可以明確對應的標注范圍。在所設定的范圍之內(nèi)開始測試,并對最終得出的測試結果進行對比分析,具體如表2所示。
根據(jù)表2中的數(shù)據(jù)信息,最終可以完成對測試結果的分析與驗證。從測試結果分析可以看出,本文設計的深度學習標注測試組最終得出的標注完成率相對較高,標注失誤率相對較低,具有實際應用價值。
3? 結? 論
綜上所述,相較于傳統(tǒng)的標注方法,本文設計的方法更加靈活多元,在面對復雜的網(wǎng)絡環(huán)境時,可以通過多目標共同執(zhí)行的方式來降低網(wǎng)頁數(shù)據(jù)信息標注的實際誤差。同時,在網(wǎng)頁處理更改的過程中,深度學習還可以最大限度地保證網(wǎng)頁的執(zhí)行程度,以此來提升整體的應用效果。
參考文獻:
[1] 陳前華,胡嘉杰,江吉,等.采用長短期記憶網(wǎng)絡的深度學習方法進行網(wǎng)頁正文提取 [J].計算機應用,2021,41(S1):20-24.
[2] 印杰,蔣宇翔,牛博威,等.基于深度學習的網(wǎng)頁篡改遠程檢測研究 [J].南京理工大學學報,2020,44(1):49-54.
[3] 嚴靚,周欣,何小海,等.基于集成分類的暴恐圖像自動標注方法 [J].太赫茲科學與電子信息學報,2020,18(2):306-312.
[4] 趙顏利,董博,雷燕.我國語義標注領域研究現(xiàn)狀分析 [J].福建師范大學學報(自然科學版),2020,36(4):17-24+36.
[5] 桂思思,張曉娟,王鑫.查詢歧義性程度自動標注指標的替代性驗證研究 [J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(2):79-89.
[6] 俞鑫,吳明暉.基于深度學習的Web信息抽取模型研究與應用 [J].計算機時代,2019(9):30-32.
[7] 南楠.基于SPOC與深度學習的“網(wǎng)頁設計與布局”課程教學模式重構 [J].內(nèi)江科技,2019,40(8):62-63.
作者簡介:董亞男(1987.05—),女,漢族,吉林長春人,講師,碩士,研究方向:計算機系統(tǒng)結構。