亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于VIPS的職位信息抽取技術(shù)研究

        2015-10-09 12:28:30王孟頔邰泳
        軟件導(dǎo)刊 2015年9期
        關(guān)鍵詞:職位網(wǎng)頁頁面

        王孟頔++邰泳

        摘 要:隨著網(wǎng)絡(luò)招聘的普及,求職者需要瀏覽和篩選的數(shù)據(jù)越來越多,如何從大量的、非結(jié)構(gòu)化的網(wǎng)絡(luò)信息中快速而準(zhǔn)確地抽取需要的信息非常重要?;赩IPS視覺分割算法,利用網(wǎng)頁所呈現(xiàn)出來的布局結(jié)構(gòu)和視覺特征,對招聘頁面進行視覺分割處理,在頁面分割的基礎(chǔ)上,抽取特定塊內(nèi)的文本信息,實現(xiàn)了關(guān)鍵詞查找抽取感興趣的視覺塊內(nèi)信息。實驗結(jié)果表明,基于VIPS的職位信息抽取技術(shù)能夠有效抽取出招聘頁面內(nèi)重要的文本信息,優(yōu)化了信息抽取結(jié)果。

        關(guān)鍵詞關(guān)鍵詞:網(wǎng)絡(luò)招聘;信息抽取;視覺分割;VIPS;職位信息

        DOIDOI:10.11907/rjdk.151404

        中圖分類號:TP301

        文獻(xiàn)標(biāo)識碼:A 文章編號文章編號:16727800(2015)009002203

        0 引言

        網(wǎng)絡(luò)招聘憑借其覆蓋面廣、成本低廉、有針對性和時效性等優(yōu)勢,已經(jīng)成為大學(xué)畢業(yè)生和職員求職的首選方式。然而,隨著互聯(lián)網(wǎng)信息量指數(shù)級增長,這種新興的招聘方式顯現(xiàn)出一些弊端,如信息真實度低、信息處理難度大、成功率較低等。解決這些問題的關(guān)鍵步驟就是從網(wǎng)頁中抽取出人們感興趣的信息。大多數(shù)招聘頁面是根據(jù)客戶端用戶請求,動態(tài)生成具有較強格式的半結(jié)構(gòu)化網(wǎng)頁。網(wǎng)頁中包含的信息量很多,當(dāng)我們應(yīng)用于信息檢索、數(shù)據(jù)分類、推薦系統(tǒng)和觀點挖掘等領(lǐng)域時,會發(fā)現(xiàn)網(wǎng)頁中有許多冗余信息,網(wǎng)頁信息抽取技術(shù)將提高數(shù)據(jù)的利用率。

        當(dāng)前的網(wǎng)頁信息抽取技術(shù)大多數(shù)是基于HTML標(biāo)簽本身,對視覺特征[1] 考慮很少。事實上最終展現(xiàn)給用戶的是瀏覽器渲染過的網(wǎng)頁,通過利用網(wǎng)頁結(jié)構(gòu)和視覺特征能有效地提高網(wǎng)頁信息抽取系統(tǒng)的準(zhǔn)確率,優(yōu)化抽取結(jié)果。

        本文設(shè)計了一個抽取職位信息系統(tǒng),該系統(tǒng)利用Navigate方法獲取頁面內(nèi)容,基于HTML標(biāo)簽生成頁面樹,結(jié)合基于視覺的頁面分割算法VIPS (VIsionbased Page Segmentation)[3] 分割頁面,利用頁面解析器抽取文本信息,通過重寫迭代器方法實現(xiàn)關(guān)鍵詞查找,抽取出用戶感興趣的信息。

        1 職位信息抽取流程

        基于VIPS的職位信息抽取系統(tǒng)從所輸入的招聘網(wǎng)頁出發(fā),對URL列表對應(yīng)的招聘頁面進行渲染并顯示頁面內(nèi)容,根據(jù)招聘頁面的HTML源碼生成標(biāo)簽樹,利用VIPS算法對頁面進行視覺分割,結(jié)合頁面解析器HTMLParser對樹節(jié)點對應(yīng)模塊的文本信息進行抽取,通過重寫迭代器,用戶通過關(guān)鍵字查找,抽取特定樹節(jié)點對應(yīng)的文本信息,最后得到用戶感興趣的職位信息?;赩IPS的職位信息抽取過程如圖1所示。

        圖1 基于VIPS的職位信息抽取流程

        2 職位信息抽取關(guān)鍵組件設(shè)計

        2.1 基于視覺的招聘頁面結(jié)構(gòu)

        基于視覺特征的網(wǎng)頁結(jié)構(gòu)相比傳統(tǒng)的標(biāo)簽樹結(jié)構(gòu)而言,更有可能分析出招聘頁面內(nèi)文本信息的語義結(jié)構(gòu)。結(jié)構(gòu)中最大根節(jié)點下的子節(jié)點可能會傳達(dá)一些與招聘相關(guān)的信息,如崗位描述、崗位職責(zé)、聯(lián)系方式等?;赩IPS的網(wǎng)頁標(biāo)簽樹中每個結(jié)點稱之為“塊”,這些塊是HTML標(biāo)簽的基本元素或是基本元素的集合。

        將每個招聘頁面表示成一個三元組Ω = {Ο,Φ,δ},其中Ο = {Ω1,Ω2,…ΩN},代表給定招聘頁面上所有塊的集合,塊與塊之間沒有重疊,每一個子塊Ωi的結(jié)構(gòu)又被遞歸定義為上述三元組Ωi={Οi,Φi,δi}。Φ = {φ1,φ2,…φT},代表招聘頁面上的分割條集合。其中每個分割條都設(shè)置一個權(quán)重值,描述分割條的可見性。權(quán)重值相等的分割條劃分到一個集合中。δ代表不同塊之間的關(guān)系,用公式描述這種關(guān)系為:δ=Ο×Ο→ Φ∪{NULL}。例如,Ωi和Ωj是集合Ο中的兩個塊,δ(Ωi ,Ωj)≠NULL,代表塊Ωi和塊Ωj之間存在一個分割條δ(Ωi,Ωj),或者說兩個對象相鄰,否則就會有其它對象在兩個塊Ωi和Ωj之間。

        VIPS算法對于每一個視覺塊都定義了一個DoC(Degree of Coherence)值,用來描述當(dāng)前視覺塊內(nèi)的文本內(nèi)容聯(lián)系緊密程度。DoC值具有以下兩個特點:

        (1)DoC值越大,說明當(dāng)前視覺塊內(nèi)部的文本內(nèi)容聯(lián)系越緊密, DoC值越小,說明內(nèi)部聯(lián)系越松散。

        (2)在一棵層次樹中,子塊的DoC值比父塊的DoC值大。

        在對招聘頁面進行視覺分割前,預(yù)定義一個PDoC (Permitted Degree of Coherence) 值,控制分割后視覺塊的粒度大小。PDoC值越大,分割后的視覺塊就越精細(xì),反之,視覺塊越粗糙。

        2.2 招聘頁面標(biāo)簽樹構(gòu)建

        構(gòu)建招聘頁面標(biāo)簽樹是對招聘頁面進行視覺分割的必要步驟,可以利用網(wǎng)頁的HTML編碼來生成。HTML標(biāo)簽大多是成對出現(xiàn),每一對都有一個開始標(biāo)簽(< >)和一個結(jié)束標(biāo)簽(),并且標(biāo)簽之間可以存在嵌套結(jié)構(gòu),因此可以將一對標(biāo)簽視作標(biāo)簽樹的一個節(jié)點,嵌套在其中的標(biāo)簽對看成是當(dāng)前節(jié)點的子節(jié)點,從而構(gòu)建標(biāo)簽樹。

        由于許多招聘頁面的HTML源碼沒有完全遵循W3C標(biāo)準(zhǔn),因此需要預(yù)先對部分HTML文檔進行編碼清洗。目前已經(jīng)有一些用于清洗HTML源碼的開源程序,如Tidy。結(jié)合該程序?qū)φ衅疙撁娴腍TML源碼進行規(guī)范化,比如對于不要求有結(jié)束標(biāo)簽的節(jié)點,插入結(jié)束標(biāo)簽以保持節(jié)點平衡,訂正格式錯誤的標(biāo)簽、修改嵌套層次有問題的標(biāo)簽等。

        2.3 招聘頁面的視覺分割

        基于視覺因素分割招聘頁面,首先需要提取當(dāng)前招聘頁面的視覺塊。通過對招聘頁面構(gòu)建標(biāo)簽樹,可以從標(biāo)簽樹的所有節(jié)點中遞歸提取視覺塊。但是,一些HTML標(biāo)簽常用來組織數(shù)據(jù),如:

        等等,對于這類標(biāo)簽,不能將它們作為視覺塊單獨提取出來,而是對它們的子節(jié)點進行提取。對于已經(jīng)提取出的視覺塊,根據(jù)每個塊中的視覺因素差異設(shè)置Doc值。視覺塊迭代提取過程代碼如下:

        Algorithm DivideTagtree(pNode,nLevel)

        {

        IF(Dividable(pNode,nLevel)==TRUE){

        FOR EACH child OF pNode{

        DivideTagtree(child,nLevel);

        }

        }

        ELSE{

        Put the SubTree(pNode) into the

        pool as a block;

        }

        通過判斷當(dāng)前標(biāo)簽節(jié)點和它的子節(jié)點的背景色、大小、形狀等視覺因素,決定是否對當(dāng)前標(biāo)簽節(jié)點所代表的視覺塊繼續(xù)分割。對于所有提取出來的視覺塊,將它們保存到視覺塊池中,以便檢測分割條。

        對大多數(shù)招聘頁面而言,包含不同內(nèi)容的視覺塊之間往往存在分割條,這個分割條或者是直線,或者是長條矩形等圖形元素。從視覺角度看,分割條可以作為識別語義信息的指示器,因此在提取視覺塊后需要檢測頁面的分割條。用一個二維向量(Ps,Pe)定義分割條,其中Ps是分割條的開始坐標(biāo),Pe是結(jié)束坐標(biāo)。根據(jù)Ps和Pe計算當(dāng)前分割條的高度和寬度。檢測分割條的具體算法如下:

        (1)對分割條集合進行初始化。最初的分割條集合中個數(shù)為1,它的開始和結(jié)束坐標(biāo)分別為整個招聘頁面的開始坐標(biāo)和結(jié)束坐標(biāo)。

        (2)對于每一個視覺塊,判斷分割條的位置關(guān)系。如果視覺塊被分割條包圍,則將該分割條分裂為多個分割條;如果視覺塊與分割條有一部分重合,則根據(jù)視覺塊的邊界修改分割條坐標(biāo);如果視覺塊跨越分割條,則刪除該分割條。

        (3)移除招聘頁面邊界的4個分割條。對于檢測出來的分割條,根據(jù)分割條相鄰的兩個視覺塊顏色、字體大小、不同視覺塊之間的距離設(shè)置分割條權(quán)重。兩個視覺塊之間的距離越遠(yuǎn),顏色、字體大小差異越大,該分割條的權(quán)重越大,分割條兩側(cè)的視覺塊語義信息差異就越大。

        2.4 招聘頁面內(nèi)容結(jié)構(gòu)重建

        當(dāng)所有分割條都設(shè)置了權(quán)重值,就重新構(gòu)建招聘頁面的內(nèi)容結(jié)構(gòu)。首先從權(quán)重值最小的分割條開始,將該分割條兩側(cè)的視覺塊合并組成一個新的視覺塊。整個重建過程是一個迭代過程,當(dāng)遇到權(quán)重值最大的那個分割條時結(jié)束迭代,同時,重新設(shè)置那些合并后的新視覺塊的DoC值。對于這些新的視覺塊,將它們的DoC值與預(yù)定義的PDoC進行比較,如果新視覺塊的DoC值達(dá)到PDoC值規(guī)定的視覺塊粒度大小,迭代過程將停止。否則,重新進行迭代過程。

        當(dāng)?shù)^程全部結(jié)束時,原來那些較小的具有相似視覺特征的視覺塊會被合并成一個語義塊,語義塊內(nèi)的文本內(nèi)容聯(lián)系十分緊密。此時整個招聘頁面的內(nèi)容結(jié)構(gòu)主要由語義塊組成,每個語義塊內(nèi)的信息內(nèi)容相似,方便對招聘信息進行結(jié)構(gòu)化抽取。

        2.5 頁面解析

        用戶輸入一個URL后就會得到一個招聘頁面,這個頁面包含了大量的元素,而頁面中往往包含了各種各樣的信息,如圖片、文字等等,大多數(shù)情況下重要的信息都在頁面的文本中,因此需要設(shè)計一個頁面解析模塊,提取頁面的文本信息。

        解析網(wǎng)頁文本內(nèi)容的方法很多,例如可以使用正則表達(dá)式,但是正則表達(dá)式比較抽象和復(fù)雜,并且復(fù)用性差,針對每個特定的網(wǎng)頁都需要單獨寫正則表達(dá)式,目前比較流行的頁面解析器有HTMLParser。HTMLParser是一個開源的Java庫,它是專門用來解析HTML文本內(nèi)容的,具有高效性。

        3 實驗結(jié)果

        本文實驗硬件配置如下:Intel(R)Pentium(R) 4 CPU 2.80GHz,內(nèi)存2G,開發(fā)IDE為:Microsoft Visual Studio 2010, C#語言。為了評估職位信息抽取系統(tǒng)性能,分別在智聯(lián)招聘、前程無憂、中華英才網(wǎng)、大街網(wǎng)、趕集網(wǎng)隨機選取一個招聘頁面,在這5個頁面按照DOM樹和VIPS樹兩種結(jié)構(gòu)分割頁面,分別抽取10種不同的招聘信息,計算每種樹抽取信息結(jié)果的查準(zhǔn)率,表1顯示了結(jié)果。

        可以看出,不同網(wǎng)站的招聘頁面查準(zhǔn)率各不相同,這主要是由于各個網(wǎng)站的設(shè)計規(guī)范程度不同,查準(zhǔn)率高的網(wǎng)頁往往比較干凈,沒有過多的廣告,排版也比較合理,比如中華英才網(wǎng)的設(shè)計十分美觀,信息也比較突出,抽取的結(jié)果自然契合度高。另一方面,可以看出基于VIPS樹的職位信息抽取系統(tǒng)比基于DOM樹的信息抽取系統(tǒng)具有更高的查準(zhǔn)率,因此可以得出結(jié)論:基于視覺特征來分割頁面并抽取信息,能夠使信息抽取過程更加優(yōu)化,結(jié)果更準(zhǔn)確。

        4 結(jié)語

        本文基于網(wǎng)頁結(jié)構(gòu)中的視覺因素,設(shè)計和實現(xiàn)了抽取招聘頁面內(nèi)的職位信息。利用Navigate方法獲取招聘頁面內(nèi)容,結(jié)合VIPS算法對頁面進行視覺化分割,用頁面解析器HTMLParser抽取文本信息,通過重寫迭代器方法實現(xiàn)關(guān)鍵詞查找功能。經(jīng)實驗測試,本文設(shè)計的系統(tǒng)能夠?qū)崿F(xiàn)頁面的輸入與顯示、生成標(biāo)簽樹,抽取節(jié)點文本信息和關(guān)鍵詞查找功能。通過兩種樹的信息抽取結(jié)果對比,得出基于視覺分割的信息抽取方法比基于DOM樹的結(jié)果更精確的結(jié)論,證明本文設(shè)計方案是可行的。下一步主要是研究職位信息的并行抽取技術(shù),實現(xiàn)抽取大量的職位信息,另外對于抽取到的職位信息,還可以進行聚類分析,對一些信息進行歸類、篩選。

        參考文獻(xiàn)參考文獻(xiàn):

        [1] 朱凱.基于結(jié)構(gòu)和視覺特征的網(wǎng)頁信息抽取技術(shù)的研究與實現(xiàn)[D] .杭州:浙江大學(xué),2008.

        [2] 龍麗,龐弘燊.國外 Web 信息抽取研究綜述[J] .圖書館學(xué)刊,2008 (5):1316.

        [3] CAI D,YU S,WEN J R,et al.VIPS:a visionbased page segmentation algorithm[R] .Microsoft technical report,MSRTR200379,2003.

        [4] BING LIU.Web數(shù)據(jù)挖掘[M] .第2版.北京:清華大學(xué)出版社,2013:287288.

        [5] 于滿泉,陳鐵睿,許洪波.基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J] .計算機應(yīng)用,2005,25(4):974976.

        [6] 顧濤.基于 Hadoop 的 Web 信息提取和垃圾信息過濾研究與實現(xiàn)[D] .成都:電子科技大學(xué),2012.

        [7] YANG Y,LUK W S.A framework for web table mining[C] .Proceedings of the 4th international workshop on Web information and data management.ACM,2002:3642.

        [8] CHANG C H,KAYED M,GIRGIS M R,et al.A survey of web information extraction systems[J] .Knowledge and Data Engineering,IEEE Transactions on,2006,18(10):14111428.

        [9] PASTERNACK J,ROTH D.Extracting article text from the web with maximum subsequence segmentation[C] .Proceedings of the 18th international conference on World wide web.ACM,2009:971980.

        責(zé)任編輯(責(zé)任編輯:杜能鋼)

        猜你喜歡
        職位網(wǎng)頁頁面
        大狗熊在睡覺
        領(lǐng)導(dǎo)職位≠領(lǐng)導(dǎo)力
        刷新生活的頁面
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        職位之謎與負(fù)謗之痛:柳治徵在東南大學(xué)的進退(1916—1925)
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        美最高就業(yè)率地鐵圈
        海外星云 (2014年22期)2015-01-19 09:34:28
        10個必知的網(wǎng)頁設(shè)計術(shù)語
        收入性別歧視的職位差異
        国产精品亚洲一级av第二区| 麻豆国产av尤物网站尤物| 国产精品无码不卡在线播放| 久久久精品网站免费观看| 国产成人久久精品一区二区三区| 久久久亚洲欧洲日产国码αv| 性夜影院爽黄a爽在线看香蕉| 中文字幕一区韩国三级| 我揉搓少妇好久没做高潮| 久久精品亚洲精品国产色婷| 国产自偷亚洲精品页65页| 国产精品亚洲国产| 男人天堂亚洲一区二区| 久久久国产精品va麻豆| 大地资源在线播放观看mv| 欧美v日韩v亚洲综合国产高清| 亚洲av少妇一区二区在线观看 | 蜜臀av一区二区| 国产盗摄XXXX视频XXXX| 一区二区三区四区亚洲免费| 三级全黄的视频在线观看| 国内精品久久久久久久久久影院| 夫妻一起自拍内射小视频| 日本五十路人妻在线一区二区| 久久人妻少妇嫩草av无码专区| 伊人精品在线观看| 国产亚洲精品高清视频| 国产一区二区自拍刺激在线观看| 免费a级毛片永久免费| 亚洲VA欧美VA国产VA综合| 最新日本女优中文字幕视频| 国产精品99精品久久免费| 精品国产制服丝袜高跟| 亚洲日本人妻中文字幕| 久久久久亚洲AV片无码乐播| 蜜桃网站入口可看18禁| 日韩中文字幕有码午夜美女| 特级无码毛片免费视频尤物| 亚洲欧美一区二区三区国产精| 中文字幕手机在线精品| 三级做a全过程在线观看|