摘要:網(wǎng)頁(yè)分類是互聯(lián)網(wǎng)數(shù)據(jù)挖掘中的一項(xiàng)重要任務(wù),在信息搜索、推薦系統(tǒng)和知識(shí)發(fā)現(xiàn)等領(lǐng)域發(fā)揮著關(guān)鍵作用. 然而,現(xiàn)有的公開網(wǎng)頁(yè)數(shù)據(jù)集缺乏多視角信息,難以適用于蘊(yùn)含復(fù)雜特征的網(wǎng)頁(yè)分類任務(wù). 針對(duì)上述問題,基于“收集?處理?標(biāo)注”構(gòu)建流程,提出一個(gè)涵蓋文本語(yǔ)義、網(wǎng)頁(yè)結(jié)構(gòu)等多視角特征的網(wǎng)頁(yè)數(shù)據(jù)集Web?Minds,該數(shù)據(jù)集包含600 余個(gè)門戶網(wǎng)站下的21828 條網(wǎng)頁(yè). 首先,在開放互聯(lián)網(wǎng)中通過關(guān)鍵詞檢索采集得到相關(guān)網(wǎng)頁(yè)數(shù)據(jù);其次,使用網(wǎng)頁(yè)解析工具對(duì)收集的數(shù)據(jù)中的文本、DOM 結(jié)構(gòu)樹、關(guān)鍵詞等多視角信息進(jìn)行提取與清洗;最后,采用大語(yǔ)言模型與“人在回路”的聯(lián)合標(biāo)注策略,形成網(wǎng)頁(yè)類型與網(wǎng)頁(yè)主題兩種標(biāo)簽. 在此基礎(chǔ)上,針對(duì)Web?Minds 數(shù)據(jù)集,測(cè)試評(píng)估了機(jī)器學(xué)習(xí)、文本分類和網(wǎng)頁(yè)分類多種算法,結(jié)果表明,綜合利用多視角特征能有效提升算法的準(zhǔn)確率,和僅應(yīng)用單視角特征相比,在網(wǎng)頁(yè)類型和主題分類任務(wù)上,準(zhǔn)確率分別提升了5. 49% 和5. 61%.
關(guān)鍵詞:網(wǎng)頁(yè)數(shù)據(jù)集,網(wǎng)頁(yè)分類,文本分類,數(shù)據(jù)挖掘,深度學(xué)習(xí)
中圖分類號(hào):TP301 文獻(xiàn)標(biāo)志碼:A