摘要: 針對(duì)多樣化網(wǎng)頁(yè)上視障用戶導(dǎo)航的難題, 提出一種自動(dòng)標(biāo)識(shí)導(dǎo)航欄地標(biāo)的方法, 以提高網(wǎng)頁(yè)無(wú)障礙性. 首先, 通過(guò)設(shè)計(jì)啟發(fā)式規(guī)則, 根據(jù)導(dǎo)航欄內(nèi)有序元素排列以及子元
素內(nèi)常含超鏈接和精煉文字等規(guī)則, 自動(dòng)提取導(dǎo)航欄內(nèi)的元素; 其次, 采用決策樹(shù)二分類算法, 用于分類導(dǎo)航欄中特征差異顯著的元素; 最后, 對(duì)已識(shí)別的導(dǎo)航欄元素進(jìn)行地標(biāo)屬
性注入. 在對(duì)100個(gè)網(wǎng)站的實(shí)驗(yàn)評(píng)估中, 該方法成功識(shí)別了92.6%的導(dǎo)航欄元素, 而注入的地標(biāo)屬性則顯著提升了網(wǎng)站的無(wú)障礙性能, 從而改善了視障用戶的使用體驗(yàn).
關(guān)鍵詞: 網(wǎng)頁(yè)無(wú)障礙; 地標(biāo); 導(dǎo)航欄識(shí)別; 決策樹(shù)算法
中圖分類號(hào): TP311.5" 文獻(xiàn)標(biāo)志碼: A" 文章編號(hào): 1671-5489(2024)03-0697-07
Landmark Attribute Identification Method ofWebpage Navigation Bar Based on WAI-ARIA
LI Yucong1, WANG Shiqin2, ZHANG Mengxi2, LIU Huaxiao2
(1. The First Hospital of Jilin University, Changchun 130021, China;2. College of Computer Science and Technology, Jilin Univ
ersity, Changchun 130012, China)
Abstract: Aiming at the problem of" the navigational challenges for visually impaired users on diverse webpages, we proposed a
method for automatically identifying navigation bars to improve" webpage accessibility. Firstly, by designing heuristic rules, elements within the navigation bars
were" autonomously extracted based on the ordered element arrangement within the navigation bar, as well as rules such as hyperlinks and succinct textual content within sub-elements.
Secondly, a decision tree binary classification algorithm was used to categorize elements with pronounced feature disparities in the navigation bars. Finally, the identified navigation bar elements
were subject to the injection of Landmark attributes. In experimental evaluations of" 100 websites, the method successfully identified" 92.6% of navigation bar elements,
and the infusion of Landmark attributes significantly improves website accessibility, thereby ameliorating the user experience for visually impaired individuals.
Keywords: webpage accessibility; Landmark; navigation bar recognition; decision tree algorithm
收稿日期: 2023-08-04.
第一作者簡(jiǎn)介: 李玉聰(1980—), 男, 漢族, 碩士, 助理研究員, 從事計(jì)算機(jī)軟件的研究, E-mail: leeyc@jlu.edu.cn.
通信作者簡(jiǎn)介: 劉華虓(1986—), 男, 漢族, 博士, 副教授, 從事智能化軟件工程、 數(shù)據(jù)挖掘和人機(jī)交互的研究, E-mail: liuhuaxiao@jlu.edu.cn.
基金項(xiàng)目: 吉林省自然科學(xué)基金(批準(zhǔn)號(hào): 20230101070JC).
互聯(lián)網(wǎng)技術(shù)的不斷創(chuàng)新和發(fā)展使人們?cè)絹?lái)越依賴互聯(lián)網(wǎng)進(jìn)行學(xué)習(xí)、 購(gòu)物、 娛樂(lè)等日常活動(dòng)[1\|2]. 網(wǎng)絡(luò)在提供便利的同時(shí), 也為殘障人士, 尤其是視障群
體提供了認(rèn)知世界的工具和媒介[3]. 視障用戶是指那些由于視覺(jué)缺陷或盲癥而在日常生活中依賴非視覺(jué)方式獲取信息和導(dǎo)航的個(gè)體, 通常分為全盲用戶
、 低視力用戶和弱視力用戶, 為視障用戶提供必要且無(wú)障礙化的互聯(lián)網(wǎng)服務(wù)是改善他們生活, 打開(kāi)新“視”界的有效方法[4-6].
開(kāi)發(fā)人員在設(shè)計(jì)網(wǎng)站時(shí)通常會(huì)忽略視障用戶這一特殊群體的需求, 導(dǎo)致網(wǎng)站中存在大量可訪問(wèn)性問(wèn)題, 如未加標(biāo)簽、 導(dǎo)航欄缺少地標(biāo)(Landmark)屬性等, 使視障用戶難
以通過(guò)屏幕閱讀器訪問(wèn)并使用網(wǎng)站[7]. 其中, 導(dǎo)航欄作為用戶了解網(wǎng)頁(yè)框架的主要欄目, 其能使屏幕閱讀器在閱讀導(dǎo)航欄信息時(shí)附加地標(biāo)信息, 幫助視障用
戶快速掌握網(wǎng)頁(yè)信息, 精準(zhǔn)定位和訪問(wèn)所需的功能按鈕. 而一旦導(dǎo)航欄中缺少地標(biāo)屬性, 用戶便無(wú)法清楚地認(rèn)知導(dǎo)航欄所展示的內(nèi)容, 增加其理解難度, 甚至?xí)粚?dǎo)航欄內(nèi)的超鏈接誘
導(dǎo)而產(chǎn)生誤操作. 上述情況在視障用戶需要頻繁訪問(wèn)的醫(yī)療領(lǐng)域相關(guān)網(wǎng)站中更突出[8].
基于此, 本文面向視障用戶提出一種針對(duì)網(wǎng)站中導(dǎo)航欄內(nèi)缺失的地標(biāo)元素的自動(dòng)化識(shí)別及屬性注入方法. 首先, 通過(guò)設(shè)計(jì)啟發(fā)式規(guī)則, 識(shí)別并提取導(dǎo)航欄中的子元素、 超鏈接
和文本描述, 建立導(dǎo)航欄屬性庫(kù); 其次, 使用決策樹(shù)分類算法[9], 對(duì)導(dǎo)航欄中特征差異明顯的元素進(jìn)行二分類, 進(jìn)一步識(shí)別所需的導(dǎo)航欄信息; 最后, 針
對(duì)缺少地標(biāo)屬性的導(dǎo)航欄, 通過(guò)遍歷已識(shí)別到的導(dǎo)航欄元素, 為其自動(dòng)化注入“role=navigation”的地標(biāo)屬性. 評(píng)估實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性, 可提高網(wǎng)站的無(wú)
障礙性, 改善視障用戶的使用體驗(yàn).
1" 方法設(shè)計(jì)
首先利用Selenium工具搜集網(wǎng)站信息, 建立包括網(wǎng)站URL(uniform resource locator)、 網(wǎng)站內(nèi)標(biāo)簽〈div〉所包含元素以及存在Landmark標(biāo)記信息的數(shù)據(jù)集; 其次, 對(duì)網(wǎng)站
中的導(dǎo)航欄信息, 利用設(shè)定好的啟發(fā)式規(guī)則和決策樹(shù)二分類算法分別進(jìn)行內(nèi)部元素特征篩選和整體特征分類, 提取并識(shí)別導(dǎo)航欄地標(biāo); 最后, 遍歷所有導(dǎo)航欄元素, 獲取含有〈nav〉
標(biāo)簽的元素列表, 進(jìn)而借助WebDriver庫(kù)為缺少地標(biāo)屬性的元素自動(dòng)注入“role=navigation”. 本文方法流程如圖1所示.
1.1" 數(shù)據(jù)集的提取
由于無(wú)障礙屬性均依附于網(wǎng)站而存在, 因此要對(duì)數(shù)據(jù)進(jìn)行分析, 先要獲得網(wǎng)站的URL列表. 而Selenium是在Web應(yīng)用中進(jìn)行自動(dòng)化測(cè)試的工具, 可模擬真實(shí)用戶進(jìn)行一系列操作. 同時(shí),
網(wǎng)站中的各種屬性值也可通過(guò)Selenium提供的WebDriver庫(kù)提取, 以支持本文方法的后續(xù)處理過(guò)程. 其中: Selenium是一個(gè)開(kāi)源框架, 用于自動(dòng)化進(jìn)行網(wǎng)絡(luò)瀏覽器交互, 使開(kāi)發(fā)人員能夠模擬用戶操作和測(cè)試網(wǎng)絡(luò)應(yīng)用程序;
WebDriver 是一個(gè)程序接口和協(xié)議, 其定義了一個(gè)語(yǔ)言中立的接口, 用于控制Web瀏覽器的行為.
本文所需數(shù)據(jù)集的提取過(guò)程可分為三步: 首先, 導(dǎo)入必要的Selenium庫(kù)并初始化WebDriver, 使用Selenium提供的WebDriver初始化瀏覽器實(shí)例, 如ChromeDriver; 其次, 使用WebDriv
er的元素定位方法(如find_element_by_xpath,find_element_by_css_selector等)找到目標(biāo)〈div〉元素, 使用WebDriver的相關(guān)方法(如get_attribute)提取目標(biāo)〈div〉元素的
URL信息和屬性; 最后, 將提取到的URL信息和〈div〉屬性存儲(chǔ)到相應(yīng)的數(shù)據(jù)結(jié)構(gòu)(.csv)中.
通過(guò)上述方法獲取到所需的元素能夠完成下一步對(duì)元素屬性的提取以及對(duì)篩選后元素的注入. 獲取到元素的屬性則可以在進(jìn)行標(biāo)注后作為機(jī)器學(xué)習(xí)的數(shù)據(jù)集進(jìn)行訓(xùn)練及模型評(píng)估[10].
1.2" 導(dǎo)航欄地標(biāo)識(shí)別和提取
導(dǎo)航欄地標(biāo)角色即為網(wǎng)頁(yè)中的導(dǎo)航欄部分, 通常用來(lái)導(dǎo)航實(shí)現(xiàn)站內(nèi)跳轉(zhuǎn)或者鏈接其他站點(diǎn). 對(duì)于視障用戶, 導(dǎo)航欄地標(biāo)在提供網(wǎng)頁(yè)導(dǎo)航和內(nèi)容訪問(wèn)方面起關(guān)鍵作用. 通過(guò)在
導(dǎo)航欄中標(biāo)識(shí)和區(qū)分不同的導(dǎo)航元素, 視障用戶可更容易地定位和選擇所需的導(dǎo)航目標(biāo), 以實(shí)現(xiàn)快速的頁(yè)面導(dǎo)航和內(nèi)容瀏覽[11]. 圖2為一個(gè)網(wǎng)頁(yè)中導(dǎo)航欄的實(shí)例圖及部分對(duì)應(yīng)的網(wǎng)頁(yè)代碼.
本文通過(guò)對(duì)WDC(web data commons)中100網(wǎng)站導(dǎo)航欄的研究, 發(fā)現(xiàn)導(dǎo)航欄的內(nèi)部元素有以下具有辨識(shí)的特征.
規(guī)則1(元素特征提取規(guī)則)" 令N表示導(dǎo)航欄地標(biāo), 其中N是一個(gè)非空集合. 對(duì)任意的n∈N, 令S(n)表示n的子元素集合. 對(duì)任意的n∈N, 滿足以下條件:
1) S(n)gt;3, 表示n內(nèi)部的子元素?cái)?shù)量大于3個(gè);
2) 對(duì)任意的m1,m2∈S(n), 滿足以下條件:
① m1≠m2, 表示子元素m1和m2不同;
② m1≈m2, 表示子元素m1和m2大小相近;
③ m1在S(n)中的位置小于m2, 表示兩者在排列中的位置有序;
3) 對(duì)任意的m∈S(n), m包含至少一個(gè)跳轉(zhuǎn)鏈接.
規(guī)則2(文字特征提取規(guī)則)" 令N表示導(dǎo)航欄地標(biāo), 其中N是一個(gè)非空集合. 對(duì)任意的n∈N, 令S(n)表示n的子元素集合.
對(duì)任意的n∈N及任意的m∈S(n), 滿足以下條件:
1) m≤8, 表示子元素m的文字內(nèi)容不超過(guò)8個(gè)字;
2) 子元素m的文字內(nèi)容與網(wǎng)站的類別高度相關(guān).
根據(jù)上述導(dǎo)航欄特征, 本文對(duì)網(wǎng)站內(nèi)的元素信息進(jìn)行初步篩選. 注意當(dāng)開(kāi)發(fā)人員設(shè)置導(dǎo)航欄時(shí), 開(kāi)發(fā)人員會(huì)使用HTML5(hyper text markup language 5)標(biāo)準(zhǔn)語(yǔ)義標(biāo)簽
〈nav〉和無(wú)語(yǔ)義的塊級(jí)元素標(biāo)簽〈div〉對(duì)導(dǎo)航欄進(jìn)行設(shè)置. 因?yàn)椤磏av〉標(biāo)簽自帶隱式的導(dǎo)航欄信息, 因此本方法主要針對(duì)在不具備語(yǔ)義的〈div〉元素中區(qū)分出導(dǎo)航欄元素.
但如果只針對(duì)導(dǎo)航欄元素內(nèi)部的特征進(jìn)行篩選, 可能會(huì)獲得其他與導(dǎo)航欄格式相同但功能無(wú)關(guān)的元素, 如由〈Recyclerview〉生成的列表視圖. 因此本文方法以導(dǎo)航欄作為整體, 分
析其特征信息, 做進(jìn)一步的篩選. 其中, 導(dǎo)航欄的整體特征包括位置特征和尺寸特征.
特征1(位置特征)" 令M表示導(dǎo)航欄, 其中M是一個(gè)非空集合. 對(duì)任意的m∈M, 滿足以下條件:
1) 導(dǎo)航欄M的位置相對(duì)固定;
2) 導(dǎo)航欄M的位置主要分布在網(wǎng)頁(yè)的左側(cè)、 上側(cè), 有時(shí)也會(huì)出現(xiàn)在右側(cè)的側(cè)邊;
3) 導(dǎo)航欄M的位置靠近網(wǎng)頁(yè)邊界.
特征2(尺寸特征)" 令M表示導(dǎo)航欄, 其中M是一個(gè)非空集合. 對(duì)任意的m∈M, 滿足以下條件:
導(dǎo)航欄M長(zhǎng)寬比存在顯著大或顯著小的特征, 通常橫跨網(wǎng)頁(yè)或者縱貫網(wǎng)頁(yè).
上述兩種特征沒(méi)有固定的數(shù)值, 也沒(méi)有固定的區(qū)間, 無(wú)法直接進(jìn)行基于規(guī)則的篩選, 因此本文采用決策樹(shù)的二分類方法對(duì)導(dǎo)航欄的整體特征進(jìn)行分析.
決策樹(shù)是針對(duì)選擇的不同進(jìn)行不同的決策從而產(chǎn)生不同走向建立的樹(shù), 是一種依托于選擇和預(yù)測(cè)建立的具有數(shù)據(jù)預(yù)測(cè)功能
的樹(shù)[12], 該樹(shù)的整體架構(gòu)如圖3所示. 其中, 檢測(cè)樣例輸入決策樹(shù)中, 從根節(jié)點(diǎn)開(kāi)始遍歷, 根據(jù)樣例屬性和設(shè)定的判定規(guī)則決定該樣例在分支中的走向[9].
本文建立決策樹(shù)的基本步驟如下:
步驟1) 假設(shè)一個(gè)訓(xùn)練樣本集T={(x1,y1),(x2,y2),…,(xm,ym)};
步驟2) 從T的屬性集中選擇最能區(qū)別T中樣本的屬性A={A1,A2,…,Am};
步驟3) 創(chuàng)建一個(gè)樹(shù)節(jié)點(diǎn), 其值為A, 創(chuàng)建該節(jié)點(diǎn)的子節(jié)點(diǎn)序列, 每個(gè)子節(jié)點(diǎn)代表A的唯一值或唯一區(qū)間, 使用A的值將樣本細(xì)分, 得到新的更小的樣本集;
步驟4) 在每個(gè)新的樣本集中重復(fù)步驟3)的操作, 但屬性集不能包括已選擇過(guò)的屬性.
執(zhí)行上述步驟進(jìn)行二分類的一個(gè)重要指標(biāo)是確定何時(shí)分類方法停止迭代, 因此, 本文采用信息熵評(píng)估算法的穩(wěn)定性[13], 計(jì)算公式為
Entropy(D)=-∑mi=1pilog2pi,
其中, Entropy(D)表示將樣本集D中不同類別進(jìn)行區(qū)分所需的信息量, m表示樣本集D中類別A的個(gè)數(shù), pi表示D記錄為Ai的概率.
綜上, 本文方法識(shí)別導(dǎo)航欄地標(biāo)元素的算法流程如下:
輸入: 網(wǎng)站的URL及對(duì)應(yīng)的HTML文檔;
輸出: 該網(wǎng)站的導(dǎo)航元素信息;
步驟1) 利用規(guī)則1和規(guī)則2對(duì)網(wǎng)站中的導(dǎo)航欄進(jìn)行特征分析;
步驟2) 根據(jù)導(dǎo)航欄的特征1和特征2, 采用有監(jiān)督學(xué)習(xí)的決策樹(shù)算法對(duì)導(dǎo)航欄進(jìn)行二分類;
步驟3) 結(jié)合信息熵函數(shù)對(duì)二分類任務(wù)進(jìn)行評(píng)估, 確定最終的導(dǎo)航欄元素.
1.3" 導(dǎo)航欄地標(biāo)屬性注入
地標(biāo)屬性是指用于標(biāo)識(shí)和描述導(dǎo)航欄的關(guān)鍵屬性, 如名稱、 角色、 位置等. 缺少地標(biāo)屬性的導(dǎo)航欄可能會(huì)導(dǎo)致視障用戶無(wú)法準(zhǔn)確地理解導(dǎo)航欄的功能和導(dǎo)航選項(xiàng). 通過(guò)進(jìn)行地標(biāo)屬性
注入, 可將關(guān)鍵屬性添加到導(dǎo)航欄中, 以使其更具可訪問(wèn)性. 從而視障用戶可通過(guò)輔助技術(shù)(如屏幕閱讀器)獲取導(dǎo)航欄的相關(guān)信息, 并準(zhǔn)確地導(dǎo)航到所需的頁(yè)面或鏈接
[14]. 地標(biāo)屬性的注入包括添加角色標(biāo)記、 設(shè)置適當(dāng)?shù)拿Q和描述、 指定位置信息等, 以便視障用戶能更好地理解和使用導(dǎo)航欄[15].
本文對(duì)擁有〈nav〉標(biāo)簽但不具有role屬性的元素, 給出地標(biāo)屬性注入方法流程如下:
1) 根據(jù)網(wǎng)站源代碼, 獲取到含有nav標(biāo)簽的元素列表;
2) 對(duì)獲得的元素列表進(jìn)行一遍篩選, 去除已經(jīng)含有role=navigation的元素;
3) 將剩下的元素列表進(jìn)行遍歷, 給每個(gè)元素都加上導(dǎo)航欄的role屬性.
1.4" 地標(biāo)識(shí)別及注入算法實(shí)現(xiàn)
給定一個(gè)待檢測(cè)網(wǎng)頁(yè), 其地標(biāo)識(shí)別和屬性注入過(guò)程如下: 將該網(wǎng)頁(yè)輸入到本文方法中, 首先提取其中的導(dǎo)航欄元素特征; 其次, 對(duì)導(dǎo)航欄整體特征進(jìn)行二分類, 得到的結(jié)果用于
指導(dǎo)地標(biāo)屬性的注入; 最后, 明確所需注入地標(biāo)屬性的元素列表, 根據(jù)前端技術(shù)對(duì)每個(gè)元素添加地標(biāo)屬性.
網(wǎng)頁(yè)中導(dǎo)航欄地標(biāo)的內(nèi)部元素特征識(shí)別算法由Python提供的WebDriver庫(kù)完成. 先使用Chrome瀏覽器進(jìn)行加載, 并初始化browser對(duì)象, 通過(guò)直接調(diào)用庫(kù)中自帶的find_element_by_
xpath( )函數(shù), 填入?yún)?shù)可以直接獲得如〈header〉等標(biāo)簽元素, 獲得地標(biāo)元素及aria其他屬性則需要使用選擇器方法, 再使用csv庫(kù)將獲取的元素都以csv形式存儲(chǔ). 導(dǎo)航欄本身的
整體特征識(shí)別采用決策樹(shù)二分類算法, 部署于PyCharm version 2020.2.4, 輔以numpy, scikit-learn和pandas三個(gè)庫(kù)完成. Class DecisionTree描述決策樹(shù)模型, 包含模型的初始化
(_init_(self))、 模型的訓(xùn)練(train(self,data,labels))和模型的預(yù)測(cè)(predict(self,sample)).
注入地標(biāo)屬性的具體方法和技術(shù)取決于網(wǎng)頁(yè)的結(jié)構(gòu)和技術(shù)實(shí)現(xiàn). 本文使用HTML,CSS(cascading style sheet)和JavaScript等前端技術(shù)實(shí)現(xiàn)地標(biāo)屬性的注入. 同時(shí)借助輔助技術(shù)
標(biāo)準(zhǔn)和規(guī)范, 如WAI-ARIA(web accessibility initiative-accessible rich internet applications)指導(dǎo)地標(biāo)屬性的注入過(guò)程, 以確保符合無(wú)障礙性標(biāo)準(zhǔn)和最佳實(shí)踐.
2" 實(shí)驗(yàn)驗(yàn)證
2.1" 獲取實(shí)驗(yàn)數(shù)據(jù)集
為便于研究人員對(duì)網(wǎng)頁(yè)信息進(jìn)行分析, WDC(web data commons)通過(guò)對(duì)互聯(lián)網(wǎng)上的公共數(shù)據(jù)進(jìn)行抓取和處理, 收集了來(lái)自不同領(lǐng)域的網(wǎng)站信息. 其提供的數(shù)據(jù)集主要包括: 網(wǎng)頁(yè)數(shù)
據(jù)集(web tables dataset), 該數(shù)據(jù)集收集了互聯(lián)網(wǎng)上的結(jié)構(gòu)化數(shù)據(jù)表格, 包括HTML表格、 CSV(comma separated values)文件和JSON數(shù)據(jù)等, 這些結(jié)構(gòu)化數(shù)據(jù)涵蓋了各種主
題和領(lǐng)域, 如產(chǎn)品信息、 地理數(shù)據(jù)、 統(tǒng)計(jì)數(shù)據(jù)等; 鏈接數(shù)據(jù)集(link data set)收集了網(wǎng)頁(yè)之間的鏈接關(guān)系, 形成了一個(gè)大規(guī)模的鏈接圖譜, 該圖譜可用于網(wǎng)絡(luò)分析、 鏈接預(yù)測(cè)、 搜索引擎優(yōu)化等.
本文從WDC提供的網(wǎng)頁(yè)數(shù)據(jù)集中共爬取了100個(gè)網(wǎng)站用于實(shí)驗(yàn), 其中包含29個(gè)醫(yī)療領(lǐng)域網(wǎng)站、 18個(gè)娛樂(lè)領(lǐng)域網(wǎng)站、 21個(gè)教育領(lǐng)域網(wǎng)站、 12個(gè)產(chǎn)品和商務(wù)領(lǐng)域網(wǎng)站以及20個(gè)社交媒體
領(lǐng)域網(wǎng)站. 在得到這些網(wǎng)站URL的同時(shí), 本文也獲取了其對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)表格, 用于后續(xù)利用規(guī)則和導(dǎo)航欄特征提取地標(biāo), 并為他們注入地標(biāo)屬性.
2.2" 實(shí)驗(yàn)方法
根據(jù)搜集到的數(shù)據(jù)集, 本文首先評(píng)估了規(guī)則1和規(guī)則2的準(zhǔn)確性. 主要方法如下:
1) 利用上述規(guī)則提取100個(gè)網(wǎng)站的導(dǎo)航元素;
2) 分析這些元素在網(wǎng)站HTML表格中的具體表現(xiàn)是否為導(dǎo)航元素;
3) 按如下公式計(jì)算規(guī)則所提取元素的準(zhǔn)確度:
Accuracyrule=CorrectSamplesTotalSamples,
其中Accuracyrule表示兩條規(guī)則的準(zhǔn)確性, CorrectSamples表示正確標(biāo)識(shí)的樣本數(shù), TotalSamples表示總樣本數(shù).
其次, 本文進(jìn)一步討論了所采用的決策樹(shù)二分類算法的有效性. 主要使用混淆矩陣對(duì)分類模型進(jìn)行分析, 進(jìn)而計(jì)算精準(zhǔn)率、 召回率和F1值3項(xiàng)指標(biāo)對(duì)結(jié)果
進(jìn)行評(píng)估. 精確率(Precision)、 召回率(Recall)和F1值的計(jì)算公式如下:
Precision=TPTP+FP,Recall=TPTP+FN,
F1-Score=2×Precision×RecallPrecision+Recall,
其中TP表示將正樣本預(yù)測(cè)為正樣本的概率, FP表示將負(fù)樣本預(yù)測(cè)為正樣本的概率, FN表示將正樣本預(yù)測(cè)為負(fù)樣本的概率.
一個(gè)二分類模型的混淆矩陣可簡(jiǎn)化為如表1所示, 其中: 真陽(yáng)性(true positive, TP)表示樣本被預(yù)測(cè)為正, 其真實(shí)情況也為正; 假陽(yáng)性(1 positive, FP)表示樣本被預(yù)測(cè)為正, 其真實(shí)情況卻為負(fù);
假陰性(1 negative, FN)表示樣本被預(yù)測(cè)為負(fù), 其真實(shí)情況也為負(fù); 真陰性(true negative, TN)表示樣本被預(yù)測(cè)為負(fù), 其真實(shí)情況卻為正.
此外, 本文通過(guò)展示注入地標(biāo)屬性前后這100個(gè)網(wǎng)站在WAVE(web accessibility evaluation tool)中的評(píng)分變化考察本文提出的地標(biāo)注入方法的可用性.
2.3" 實(shí)驗(yàn)結(jié)果和分析
利用規(guī)則1和規(guī)則2對(duì)100個(gè)網(wǎng)站導(dǎo)航元素的提取情況如下: 共提取到425個(gè)導(dǎo)航欄, 其中標(biāo)識(shí)結(jié)果與原網(wǎng)站設(shè)計(jì)結(jié)果一致的有326個(gè), 準(zhǔn)確率達(dá)81.1%. 因此, 本文
總結(jié)出的規(guī)則能有效提取網(wǎng)站中的導(dǎo)航元素, 為進(jìn)一步分析注入地標(biāo)屬性的有效性提供數(shù)據(jù)支撐. 但在實(shí)驗(yàn)過(guò)程中, 仍存在一些導(dǎo)航欄被識(shí)別錯(cuò)誤的情況, 主要為網(wǎng)頁(yè)中所呈現(xiàn)
的其他類型的導(dǎo)航欄, 這種導(dǎo)航結(jié)構(gòu)為網(wǎng)頁(yè)導(dǎo)航欄內(nèi)細(xì)分出的導(dǎo)航結(jié)果. 該結(jié)果表明, 僅使用基于導(dǎo)航欄元素內(nèi)部的規(guī)則進(jìn)行導(dǎo)航欄篩選的工作存在一定局限性, 更體
現(xiàn)了結(jié)合導(dǎo)航欄的整體特征進(jìn)行綜合分析的重要性. 進(jìn)而, 本文將數(shù)據(jù)集網(wǎng)站的整體導(dǎo)航欄
和細(xì)分導(dǎo)航欄進(jìn)行了標(biāo)記, 其中80%提供給決策樹(shù)二分類模型進(jìn)行訓(xùn)練, 并討論模型在剩下20%的測(cè)試集上的有效性.
表2為二分類模型在10次交叉驗(yàn)證后的評(píng)估結(jié)果. 由表2可見(jiàn), 決策樹(shù)二分類方法的平均精確率達(dá)92.6%, 平均召回率達(dá)90.6%, 平均F1值達(dá)92%. 可見(jiàn), 本文選擇的決策樹(shù)二分類模型分類效果較好.
在對(duì)數(shù)據(jù)集中100個(gè)網(wǎng)站注入導(dǎo)航地標(biāo)屬性前后的可訪問(wèn)性進(jìn)行評(píng)分后的結(jié)果表明, 所有網(wǎng)站在注入地標(biāo)屬性后的評(píng)分均有提升, 約平均提升7.8分, 其中醫(yī)療領(lǐng)域的網(wǎng)站提升最高,
平均達(dá)17.5分, 這主要是因?yàn)樵擃I(lǐng)域內(nèi)網(wǎng)站的功能多樣且復(fù)雜, 有更多功能亟需導(dǎo)航地標(biāo)幫助視障用戶訪問(wèn)和使用. 同時(shí), 此類網(wǎng)站也是視障用戶頻繁訪問(wèn)的網(wǎng)站之一, 對(duì)其可
訪問(wèn)性的提高能極大改善視障用戶的使用體驗(yàn).
綜上所述, 本文針對(duì)網(wǎng)頁(yè)無(wú)障礙屬性中的導(dǎo)航欄地標(biāo)進(jìn)行了自動(dòng)化識(shí)別的屬性注入, 通過(guò)為網(wǎng)站添加地標(biāo)屬性, 幫助視力障礙者更好地對(duì)網(wǎng)頁(yè)全局有清楚的認(rèn)識(shí),
添加導(dǎo)航欄地標(biāo)可使用戶清楚導(dǎo)航欄的位置, 并能通過(guò)快捷鍵直接定位到導(dǎo)航欄部分. 實(shí)驗(yàn)結(jié)果表明, 該方法對(duì)元素的分類準(zhǔn)確率可達(dá)92.6%, 且注入后的網(wǎng)站可訪問(wèn)性有顯著提高.
參考文獻(xiàn)
[1]" CHEN J, CHEN C, XING Z, et al. Unblind Your APPs: Predicting Natural-Language Labels f
or Mobile Gui Components by Deep Learning [C]//International Conference on Software Engineering. Piscataway, NJ: IEEE, 2020: 322-334.
[2]" 鄧愛(ài)林, 馮鋼, 劉夢(mèng)婕. 5G+工業(yè)互聯(lián)網(wǎng)的關(guān)鍵技術(shù)與發(fā)展趨勢(shì) [J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 34(6): 967\|975.
(DENG A L, FENG G, LIU M J. Key Technologies and Development Trends in 5G+ Industrial Internet [J]. Journal of Chongqing University of Posts and
Telecommunications (Natural Science Edition), 2022, 34(6): 967\|975.)
[3]" ALSHAYBAN A, AHMED I, MALEK S. Accessibility Issues in Android APPs: State of
Affairs, Sentiments, and Ways Forward [C]//International Conference on Software Engineering. Piscataway, NJ: IEEE, 2020: 1323-1334.
[4]" XU T L, WANG B S, LIU H, et al. Prevalence and Causes of Vision Loss in China fro
m 1990 to 2019: Findings from the Global Burden of Disease Study 2019 [J]. The Lancet Public Health, 2020, 5(12): e682-e691.
[5]" 工業(yè)和信息化部, 中國(guó)殘疾人聯(lián)合會(huì). 中國(guó)殘聯(lián)關(guān)于推進(jìn)信息無(wú)障礙的指導(dǎo)意見(jiàn)
[EB/OL]. (2020-09-11)[2023-05-16]. http://www.scio.gov.cn/xwfbh/xwbfbh/wqfbh/42311/44021/xgzc44027/Docu
ment/1690214/1690214.htm. (MINISTRY OF INDUSTRY AND INFORMATION TECHNOLOGY, CHINA DISABLED PERSONS’ FEDERATION.
China Disabled Persons’ Federation Guidelines on Promoting Information Accessibility [EB/OL]. (2020-09-11)[2
023-05-16]. http://www.scio.gov.cn/xwfbh/xwbfbh/wqfbh/42311/44021/xgzc44027/Document/1690214/1690214.htm.)
[6]" 國(guó)家發(fā)展和改革委員會(huì). 關(guān)于印發(fā)《“十四五”公共服務(wù)規(guī)劃》的通知
[EB/OL]. (2021-01-10)[2023-05-18]. https://www.ndrc.gov.cn/xxgk/zcfb/ghwb/202201/t20220110_1311622.html?code=amp;state=123. (
NATIONAL DEVELOPMENT AND REFORM COMMISSION. The 14th Five-Year Plan on Public Service [EB/OL]. (2021-01-10)[2023-05-18]. https://www
.ndrc.gov.cn/xxgk/zcfb/ghwb/202201/t20220110_1311622.html?code=amp;state=123.)
[7]" BAJAMMAL M, MESBAH A. Semantic Web Accessibility Testing via Hierarchical Vis
ual Analysis [C]//International Conference on Software Engineering. Piscataway, NJ: IEEE, 2021: 1610-1621.
[8]" SONG S Y, BU J J, WANG Y, et al. Web Accessibility Evaluation in a Crowdsourci
ng-Based System with Expertise-Based Decision Strategy [C]//International Cross-Disciplinary Conference on Web Accessibility. New York: ACM, 2018: 1-4.
[9]" CHARBUTY B, ABDULAZEEZ A. Classification Based on Decision Tree Algorithm f
or Machine Learning [J]. Journal of Applied Science and Technology Trends, 2021, 2(1): 20-28.
[10]" 崔景洋, 陳振國(guó), 田立勤, 等. 基于機(jī)器學(xué)習(xí)的用戶與實(shí)體行為分析技術(shù)綜述 [J]. 計(jì)算機(jī)工程, 2022, 48(2): 10\|24.
(CUI J Y, CHEN Z G, TIAN L Q, et al. Overview of User and Entity Behavior Analytics Technology Based on Machine Learning [J]. Computer Engineering, 2022, 48(2): 10\|24.)
[11]" PEREIRA L S, DOMINIQUE A. Correlating Navigation Barriers on Web 2.0 with Accessibility Guidelines [C]//
International Conference on Computers for Handicapped Persons. Piscataway, NJ: IEEE, 2018: 14-21.
[12]" 王進(jìn), 余薇, 孫開(kāi)偉, 等. 基于聚類提升樹(shù)的多標(biāo)簽學(xué)習(xí) [J]. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 42(4): 428\|437.
(WANG J, YU W, SUN K W, et al. Multi\|label Leaning Based on Boosting Clustering Trees [J]. Journal of Jiangsu University (Natural Science Edition), 2021, 42(4): 428\|437.)
[13]" SEAL D B, SAHA S, MUKHERJEE M, et al. Gene Ranking: An Entropy amp; Decision Tree Based Approac
h [C]//Annual Ubiquitous Computing, Electronics amp; Mobile Communication Conference. Piscataway, NJ: IEEE, 2016: 1-5.
[14]" GRANT J, SUMILANG G, PROVIDENTI M, et al. Accountability for the Hidden C
odes toward a Better User Experience: Case Study of HRsimple Communication Desig
n for Web Accessibility and SEO [C]//International Conference on Design of Communication. New York: ACM, 2021: 347-350.
[15]" ACOSTA-VARGAS P, SALVADOR-ULLAURI L A, LUJN-MORA S. A Heuristic Method to
Evaluate Web Accessibility for Users with Low Vision [J]. IEEE Access, 2019, 7: 125634-125648.
(責(zé)任編輯: 韓" 嘯)