亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)時代高校就業(yè)信息垂直搜索模型

        2021-09-13 09:11:20嚴(yán)慧琳
        普洱學(xué)院學(xué)報 2021年3期
        關(guān)鍵詞:文本信息模型

        嚴(yán)慧琳

        黎明職業(yè)大學(xué) 商學(xué)院,福建 泉州 362000

        大學(xué)生就業(yè)問題屬于高校人才培養(yǎng)急需解決的問題,該問題在社會上的關(guān)注度很高[1]。在互聯(lián)網(wǎng)時代下,高校就業(yè)信息搜索模型水平的要求也逐漸增加,通過高校就業(yè)信息搜索模型實現(xiàn)就業(yè)信息的采集,解決大學(xué)生就業(yè)困難的問題,促進(jìn)大學(xué)生對口專業(yè)就業(yè)的精準(zhǔn)性[2-4]。

        通用搜索模型是對全部互聯(lián)網(wǎng)信息實施采集與索引,因此該模型的查全率較高,但其覆蓋的信息較為廣泛,這導(dǎo)致該模型信息分類的精準(zhǔn)性較低,不能滿足用戶高查準(zhǔn)率的信息搜索要求。垂直搜索模型通過一定的策略實現(xiàn)遍歷深度與廣度的干預(yù),使模型能夠遍歷所有和主題有關(guān)的網(wǎng)頁,再篩選出合理的遍歷結(jié)果,垂直搜索模型具有更為專注、精準(zhǔn)與深入的優(yōu)點。謝曉暉等研究了基于深度神經(jīng)網(wǎng)絡(luò)的搜索引擎點擊模型構(gòu)建[5],程煜華研究了基于D-S 證據(jù)理論的信息檢索模型[6],這兩個搜索模型的準(zhǔn)確率與搜索效率均不高。

        1 高校就業(yè)信息垂直搜索模型

        高校就業(yè)信息垂直搜索模型主要通過5 個步驟實現(xiàn)信息搜索,分別為URL(Uniform Resource Locator,統(tǒng)一資源定位符)、信息采集、信息去噪、構(gòu)建索引與信息搜索,圖1 為具體步驟流程圖。

        圖1 互聯(lián)網(wǎng)時代高校就業(yè)信息垂直搜索模型

        步驟1:以門戶網(wǎng)站就業(yè)信息板塊與權(quán)威就業(yè)信息網(wǎng)站的URL 為就業(yè)信息集的獲取途徑,通過人工發(fā)現(xiàn)方式獲取URL 初始就業(yè)信息。

        步驟2:利用深度就業(yè)信息方法結(jié)合網(wǎng)絡(luò)爬蟲技術(shù),獲取URL 就業(yè)信息網(wǎng)頁與包括就業(yè)信息的超鏈網(wǎng)頁信息,采用 DOM (Document Object Model,文檔對象模型)技術(shù)分析與提取各個URL 就業(yè)信息網(wǎng)頁,包括就業(yè)信息的超鏈接網(wǎng)頁信息內(nèi)的就業(yè)名稱與地址等信息。

        步驟3:基于節(jié)點權(quán)重去噪處理URL 就業(yè)信息網(wǎng)頁,包括就業(yè)信息超鏈網(wǎng)頁的就業(yè)名稱與地址等,去除無效與干擾信息,存儲于URL 資源庫。

        步驟4:通過排序策略對資源庫內(nèi)的網(wǎng)頁構(gòu)建索引,形成索引庫。

        步驟5:采用基于超鏈接和標(biāo)記文本算法實現(xiàn)高校就業(yè)信息搜索。

        1.1 就業(yè)信息采集

        利用深度服務(wù)信息自動采集算法實現(xiàn)高校就業(yè)信息采集。圖2 為深度服務(wù)信息采集流程。

        圖2 深度就業(yè)信息采集方法

        采集方法流程步驟如下:

        步驟1:通過原地圖矢量數(shù)據(jù)對POI(Point Of Interest,信息點)的分類編碼搜索就業(yè)信息名稱與地址等POI 點數(shù)據(jù),依據(jù)定義結(jié)構(gòu)形成深度就業(yè)信息點,就業(yè)信息字段空缺。

        步驟2:利用網(wǎng)絡(luò)爬蟲獲取就業(yè)信息類網(wǎng)站上發(fā)布就業(yè)信息的服務(wù)地點URL,利用DOM 技術(shù)分析與提取各個URL 內(nèi)就業(yè)信息的名稱與地址。

        步驟3:計算步驟1 內(nèi)獲取的各個深度就業(yè)信息點內(nèi)的名稱、地址等字段和步驟2 內(nèi)得到的各個URL 相應(yīng)的名稱、地址等字符串相似度,選取最優(yōu)URL 頁面的深度就業(yè)信息[7,8],利用編輯距離與最大公共子序列算法補充步驟1 內(nèi)空缺的就業(yè)信息。

        1.2 就業(yè)信息去噪

        1.2.1 算法基本思想

        基于節(jié)點權(quán)重的去噪算法以VIPS(Visionbased Page Segmentation,基于頁面視覺分塊算法)為基礎(chǔ),將VPIS 形成的基本視覺塊樹轉(zhuǎn)換成樣式樹,通過樣式樹節(jié)點內(nèi)的樣式特征,先將葉子節(jié)點劃分為細(xì)粒度的樣式樹,然后權(quán)重標(biāo)注樣式樹,最后依據(jù)權(quán)重標(biāo)注實施剪枝,形成去噪后的URL 就業(yè)信息[9]。圖3 為URL 就業(yè)信息的去噪流程。

        圖3 URL 就業(yè)信息去噪流程

        一般情況下,所形成的樣式樹沒有權(quán)重表示,可以屬性節(jié)點為基礎(chǔ),加入權(quán)重節(jié)點的概念。FT代表權(quán)重節(jié)點T,可記為F,(k,u,t,m),k為當(dāng)前節(jié)點內(nèi)鏈接數(shù)與總鏈接數(shù)的比值,也叫鏈接比;u為當(dāng)前節(jié)點和容器節(jié)點在樹形結(jié)構(gòu)中的距離,也叫樹路徑距離;t為總文本中當(dāng)前節(jié)點的所占比例,也叫文本比;m為節(jié)點私有屬性的權(quán)重系數(shù)。利用節(jié)點的標(biāo)簽數(shù)量n歸一化值R(Fj),可確保R(Fj)值處于[0,1]之間,公式如下:

        式(1)中,第j個標(biāo)簽的鏈接比是kj;第kj個標(biāo)簽的文本系數(shù)是tj;第j個標(biāo)簽的樹路徑距離是uj;權(quán)重樹內(nèi)的節(jié)點路徑和是D。

        1.2.2 視覺塊樹細(xì)粒度化

        VIPS 形成的視覺樹,僅是大概提取URL 就業(yè)信息頁面的基本布局信息,粗粒度的視覺塊樹先將噪聲與正文整合在同一個塊內(nèi),再實施細(xì)粒度化。利用樣式節(jié)點與屬性節(jié)點對形成的樣式樹實施標(biāo)注。通過子元素的相似度分析已完成標(biāo)注的塊節(jié)點。二元組為子元素的樣式節(jié)點,E(Tag,Attrs,Content)為節(jié)點E的屬性信息,節(jié)點標(biāo)識是Tag,屬性信息是Attrs,節(jié)點的文本信息是Content。lj與li的Styles(樣式節(jié)點)的存在形式是鍵值對,這就需要將鍵值對轉(zhuǎn)換成樣式系數(shù)Cj與Ci,通過節(jié)點標(biāo)識 Tag 代表 HTML 內(nèi)相應(yīng)的 Node(節(jié)點)值,lj與li用(Tj,Cj)與(Ti,Ci)代表。判斷節(jié)點相似度公式為:

        在相關(guān)系數(shù)比較小時,需要分裂子節(jié)點,通過從上至下的層次遍歷方式,實現(xiàn)初步分裂視覺樹。

        1.2.3 細(xì)節(jié)樹剪枝

        通過上述方法獲取的是一顆基于樣式的視覺樹,對于樣式與基本屬性方面,已經(jīng)不能細(xì)分,以基于樣式的視覺樹為基礎(chǔ),實施噪聲的判斷[10,11]。通過統(tǒng)計大量線上URL 就業(yè)信息頁面發(fā)現(xiàn),噪聲區(qū)域的鏈接比通常多于正文區(qū)域,文本比較低,樹距離較淺。這需要加入權(quán)重節(jié)點的概念,以從上至下的方式標(biāo)注細(xì)粒度化的視覺塊樹,再剪枝處理權(quán)重低的節(jié)點。初次遍歷時,可刪除具有樣式樹節(jié)點內(nèi)存在的鍵值對 position:fixed 與 display:none 的節(jié)點,實施一次簡單的預(yù)處理,position:fixed 在網(wǎng)頁內(nèi)屬于懸浮窗,display:none 在網(wǎng)頁內(nèi)屬于不做顯示的元素,根據(jù)觀察很多網(wǎng)頁的經(jīng)驗發(fā)現(xiàn),position:fixed與display:none 均是判斷噪聲節(jié)點的主要依據(jù)。

        剪枝算法的步驟為:

        步驟1:得到樣式樹,假設(shè)Tj為樣式樹。

        步驟2:循環(huán)處理樣式樹的各個節(jié)點Fj。

        步驟3:如果一個節(jié)點的css(Cascading Style Sheets,層疊樣式表)屬性內(nèi)存在position:fixed 與display:none 等鍵值對,就需要刪除這個節(jié)點。

        步驟4:計算出文本比與節(jié)點的距離深度后,計算權(quán)重值R(Fj)。

        步驟5:循環(huán)處理樣式樹的各個節(jié)點FT。

        步驟6:去除平級節(jié)點內(nèi)權(quán)重較小的節(jié)點。

        1.3 信息搜索算法

        1.3.1 算法描述

        利用基于超鏈接和標(biāo)記文本的算法實現(xiàn)高校就業(yè)信息的搜索,具體步驟如下:

        另一方面,銷售成本的增加以及銷售收入的降低都將導(dǎo)致企業(yè)毛利率的下降,米奧會展2016年較2015年度平均銷售單價上漲14.79%,而平均單位銷售成本上漲30.69%,其中單位宣傳推廣成本上漲136.98%;2017年較2016年度平均銷售單價下降1.23%,同期平均單位銷售成本上漲3.14%,單位宣傳推廣成本下降0.60%。由此可見,宣傳推廣成本的增加也是導(dǎo)致境外自辦展毛利率下降的主要因素。

        步驟1:將索引庫內(nèi)的就業(yè)信息網(wǎng)頁當(dāng)作圖G,圖G內(nèi)各個文檔B均有Authority 與Hub 兩個值。其中,Authority 表示一個權(quán)威URL 就業(yè)信息網(wǎng)頁的入度值,就是該URL 就業(yè)信息網(wǎng)頁被其余網(wǎng)頁引用的數(shù)量。一個網(wǎng)頁的入度值與Authority 值成正比。Hub 表示一個URL 就業(yè)信息網(wǎng)頁的出度值,就是該URL 就業(yè)信息網(wǎng)頁指向其余網(wǎng)頁的數(shù)量,可獲取指向權(quán)威網(wǎng)頁的鏈接集合。某一個網(wǎng)頁的出度值與該網(wǎng)頁的Hub 值成正比,Hub 網(wǎng)頁具有隱含說明某一個就業(yè)話題權(quán)威網(wǎng)頁的作用。優(yōu)質(zhì)的Hub 網(wǎng)頁為指向很多存在很高的Authority 值的網(wǎng)頁,優(yōu)質(zhì)的Authority 網(wǎng)頁為通過數(shù)個很高的Hub 值所指向的網(wǎng)頁。用A[B]代表Authority 值,用H[B]代表Hub值其中,網(wǎng)頁集合是V。

        步驟 2:初始化A[B]與H[B],獲取A[B]=1 與H[B]=1。

        步驟3:內(nèi)容匹配,匹配所搜索關(guān)鍵字和鏈接中的標(biāo)記文本,若匹配,那么對鏈宿網(wǎng)頁賦予標(biāo)記,再計算得到這個網(wǎng)頁的權(quán)值weight(B),若不匹配,那么掃描在這個網(wǎng)頁內(nèi)的全部內(nèi)容,再計算得到對應(yīng)的權(quán)值weight(B)。

        步驟4:歸一化權(quán)值weight(B)。

        步驟6:計算Authority 值與Hub 值的權(quán)值為

        H[B]=weight(B)×H[B]

        步驟7:歸一化處理所計算得到的A值與H值,即

        步驟8:如果A值與H值沒有收斂的情況下,轉(zhuǎn)到步驟5。

        步驟9:設(shè)置Y為門檻值,同時選出A值與H值超過Y的全部網(wǎng)頁和賦以標(biāo)記的網(wǎng)頁,按照排序輸出搜索結(jié)果[12-14]。

        1.3.2 文檔相關(guān)度權(quán)值的計算

        文檔的相關(guān)度權(quán)值就是文檔和搜索條件的相似程度,權(quán)值與相似程度成正比,權(quán)值越高,和文檔相關(guān)性越高[15]。在搜索條件和超鏈接中標(biāo)記的文本匹配情況下,依據(jù)N層向量空間模型算法,在邏輯上將一個文檔劃分成N個相對獨立的文本段,通過文本段的內(nèi)容構(gòu)建文本特征向量與文本權(quán)值向量。超鏈接屬于一個獨立的文本段,能夠通過N層向量空間模型算法計算各個URL 就業(yè)信息網(wǎng)頁的權(quán)值,計算公式為:

        式(3)中,G網(wǎng)頁特征項hG的權(quán)值是WG,鏈接中標(biāo)記文本的長度是L,G網(wǎng)頁特征項hG在鏈接中出現(xiàn)的頻率是hf G,那么第a條匹配的超鏈接權(quán)值為:

        式(4)、(5)中,匹配的超鏈接條數(shù)是b,搜索條件內(nèi)不同特征項數(shù)量是e。

        在搜索條件和標(biāo)記文本不匹配的情況下,掃描URL 就業(yè)信息網(wǎng)頁全部內(nèi)容,利用TF*IDF 方法計算文檔的相似度,公式為:

        式(6)中,特征項hG表示文檔dz的能力大小是WzG,特征項hG在文檔dz內(nèi)出現(xiàn)的頻率是hf zG,文檔集合中的文檔個數(shù)是N,文檔集合中出現(xiàn)特征項hG的文檔個數(shù)是BG,特征項hG反比文檔頻率是zdf G。

        根據(jù)式(6)發(fā)現(xiàn),hf zG與WzG成正比,BG與WzG成反比,表示特征項可以代表文檔的內(nèi)容。

        利用余弦公式計算全部URL 就業(yè)信息網(wǎng)頁權(quán)值,第z篇文檔和搜索條件Q的相關(guān)性是S(dz,Q),公式如(7)所示:

        2 實驗分析

        從互聯(lián)網(wǎng)中下載1 000 個網(wǎng)頁為實驗對象,將其平均分為10 組,每組包含50 個屬于高校就業(yè)信息的網(wǎng)頁,分析本文模型搜索高校就業(yè)信息的性能。

        2.1 采集性能

        采用本文模型與文獻(xiàn)[5]模型、文獻(xiàn)[6]模型在1 000 個網(wǎng)頁中采集有關(guān)高校就業(yè)信息的網(wǎng)頁,其中基于深度神經(jīng)網(wǎng)絡(luò)的搜索引擎點擊模型構(gòu)建與基于D-S 證據(jù)理論的信息檢索模型研究,分別是文獻(xiàn)[5]模型與文獻(xiàn)[6]模型,表1 為三種模型的采集結(jié)果。

        表1 三種模型的采集結(jié)果

        根據(jù)表1 可知,本文模型能夠有效采集到有關(guān)高校就業(yè)的網(wǎng)頁,準(zhǔn)確性更高。

        2.2 去噪性能

        利用可以同時兼顧準(zhǔn)確率與召回率的F-measure 作為綜合評價指標(biāo),測試三種模型對網(wǎng)頁去噪處理的準(zhǔn)確率,準(zhǔn)確率公式為:

        式(8)、(9)中,當(dāng)前網(wǎng)頁被抽取出的正文塊是λ0;當(dāng)前網(wǎng)頁內(nèi)全部的正文塊是λ1;正文內(nèi)抽取出來的信息塊是λ2。

        在F-measure 公式內(nèi)β用于調(diào)整準(zhǔn)確率與召回率的權(quán)重,實驗中只需考慮網(wǎng)頁抽取的準(zhǔn)確率與召回率,故選擇1 為β值,判斷去噪效果的公式為:

        利用三種模型對1 000 個網(wǎng)頁實施去噪處理,圖4、圖5 與圖6 分別為三種模型的去噪處理準(zhǔn)確率、召回率與F-measure 值。

        圖4 三種模型去噪處理的準(zhǔn)確率

        圖5 三種模型去噪處理的召回率

        圖6 三種模型的F-measure 值

        根據(jù)圖4、圖5 與圖6 可知,本文模型能夠有效對所采集的高校就業(yè)信息網(wǎng)頁實施去噪處理,去噪準(zhǔn)確性更高。

        2.3 搜索性能

        評價就業(yè)信息搜索模型性能的主要指標(biāo)是查全率與查準(zhǔn)率。查全率為搜索到的相關(guān)高校就業(yè)信息網(wǎng)頁和全部符合條件的高校就業(yè)信息網(wǎng)頁數(shù)量的比例;查準(zhǔn)率為搜索到的相關(guān)高校就業(yè)信息網(wǎng)頁和搜索到的所有網(wǎng)頁的比率。

        利用三種模型搜索100 個文本文件中的高校就業(yè)信息,測試三種模型在Authority 值與Hub 值情況下的查準(zhǔn)率與查全率,表2 與表3 分別是兩種值情況下的查全率與查準(zhǔn)率。

        表2 Authority 值情況下的查全率與查準(zhǔn)率

        表3 Hub 值情況下的查準(zhǔn)率與查全率

        根據(jù)表2 與表3 可知,三種模型均是隨著查全率的不斷提升,呈現(xiàn)查準(zhǔn)率逐漸降低的趨勢。實驗證明:本文模型的查全率與查準(zhǔn)率均高于其余兩種模型,能夠有效克服主題偏離情況。

        為分析本文模型的搜索性能,測試三種模型的排序誤差率與查詢速度,分別如圖7 與圖8 所示。

        圖7 三種模型的排序誤差率

        圖8 三種模型的搜索時間

        根據(jù)圖7 可知,三種模型的排序誤差率均隨著文本文件數(shù)量的增加而增加,本文模型排序誤差率的增加幅度明顯低于其余兩種模型。

        根據(jù)圖8 可知,隨著文本文件數(shù)目的不斷增多,三種模型的搜索時間均有所增長,本文模型的搜索時間增長得比較平緩,其余兩種模型的搜索時間的增長幅度較大。

        3 結(jié)論

        搜索模型屬于互聯(lián)網(wǎng)中重要的信息采集工具,垂直搜索模型是第四代搜索模型,屬于針對指定領(lǐng)域的搜索模型,比通用搜索模型更為專業(yè)。互聯(lián)網(wǎng)時代高校就業(yè)信息垂直搜索模型,僅對垂直搜索模型實施了初步研究,日后在保證搜索準(zhǔn)確率與搜索效率的同時,還可深入研究大學(xué)生的查詢記錄,挖掘大學(xué)生潛在的求職意向,優(yōu)化搜索的排序結(jié)果。

        猜你喜歡
        文本信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        国产成人av 综合 亚洲| 夜色视频在线观看麻豆| 亚洲一区二区三区ay| 久久久亚洲av午夜精品| 国产91色综合久久免费| 亚洲 日韩 激情 无码 中出| 国产成人无码av| 国产熟女高潮视频| 亚洲欧美日韩精品久久亚洲区色播 | 国产精品亚洲av高清二区| 成人欧美一区二区三区黑人| 女人被狂躁c到高潮| 无码手机线免费观看| 国产精品亚洲欧美天海翼| 久久99精品波多结衣一区| 国产99视频一区二区三区 | 精品久久久久久无码中文野结衣| wwww亚洲熟妇久久久久| 国产肉丝袜在线观看| 欧美a级在线现免费观看| 亚洲AV秘 片一区二区三区| 亚洲精品尤物av在线网站 | 日韩国产有码精品一区二在线 | 日韩久久久黄色一级av| 精品女同一区二区三区在线播放器 | 亚洲综合无码一区二区三区 | 亚洲国产中文字幕无线乱码| 女色av少妇一区二区三区| 亚洲av日韩av天堂久久| 欧美最猛黑人xxxx黑人表情| 日本高清不卡二区| 日韩色久悠悠婷婷综合| 亚洲毛片在线观看免费| 亚洲欧美牲交| 93精91精品国产综合久久香蕉| 亚洲色www无码| 久久老熟女一区二区三区福利| 18禁止看的免费污网站| 狠狠噜天天噜日日噜视频麻豆| 国产精品美女| 蜜臀av一区二区三区精品|