摘要:網(wǎng)頁(yè)信息自動(dòng)提取是一種重要的網(wǎng)絡(luò)應(yīng)用技術(shù),用于提取各類(lèi)網(wǎng)頁(yè)的專(zhuān)門(mén)信息。網(wǎng)頁(yè)信息自動(dòng)提取的設(shè)計(jì)基于網(wǎng)頁(yè)的半結(jié)構(gòu)化特征,其流程是先獲取HTML源文件,然后去掉HTML標(biāo)記和無(wú)關(guān)信息,再進(jìn)行語(yǔ)義匹配,提取信息到特定的數(shù)據(jù)結(jié)構(gòu),進(jìn)行CSV格式化輸出,就可以得到所需的信息。在網(wǎng)站企業(yè)化、網(wǎng)店普遍化和網(wǎng)絡(luò)購(gòu)物盛行的背景下,推廣和應(yīng)用網(wǎng)頁(yè)信息自動(dòng)提取技術(shù),有著重要的經(jīng)濟(jì)價(jià)值和意義。
關(guān)鍵詞:網(wǎng)頁(yè)信息;提取;設(shè)計(jì)
中圖分類(lèi)號(hào):TP311.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 18-0000-02
計(jì)算機(jī)光盤(pán)軟件與應(yīng)用2012年18期