亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        推薦系統(tǒng)的優(yōu)化分析與研究

        2022-10-12 05:32:16任妮栗薈荃吳瓊
        中關(guān)村 2022年9期
        關(guān)鍵詞:特征選擇降維特征提取

        文 任妮 栗薈荃 吳瓊

        一、前言

        每個(gè)父母都望子成龍,希望自己的孩子大學(xué)畢業(yè)后能有個(gè)好的工作。國(guó)家對(duì)大學(xué)生的就業(yè)問題一直相當(dāng)重視,每到畢業(yè)季各高校就安排一場(chǎng)又一場(chǎng)的校園招聘活動(dòng),希望學(xué)生都很好地就業(yè)。然而近10年以來(lái),高校應(yīng)屆畢業(yè)生的數(shù)量是逐年增長(zhǎng)的,這是非常不錯(cuò)的,說(shuō)明有越來(lái)越多的高素質(zhì)人才能夠?yàn)樯鐣?huì)、為國(guó)家做貢獻(xiàn);但另一方面,大學(xué)生的就業(yè)壓力也逐年增加,這就給我們的高校、學(xué)生以及家長(zhǎng)都帶來(lái)了不小的壓力。據(jù)教育部發(fā)布的數(shù)據(jù),2022年全國(guó)普通高等學(xué)校畢業(yè)生高達(dá)1076萬(wàn)人次,創(chuàng)歷史新高。教育部5月份在全國(guó)范圍舉辦應(yīng)屆高校畢業(yè)生“就業(yè)促進(jìn)周”活動(dòng),并于5—8月開展“百日沖刺”系列活動(dòng),加快推動(dòng)高校畢業(yè)生的就業(yè)工作。盡管教育部和各大院校積極地為畢業(yè)生就業(yè)做準(zhǔn)備,各大企業(yè)也積極地從四面八方為畢業(yè)生提供方便,但畢業(yè)生的就業(yè)仍然是我們需要重點(diǎn)關(guān)注的問題。

        2022年2月25日,根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第49次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2021年底,中國(guó)有10.32億網(wǎng)民,比2020年增長(zhǎng)了4296萬(wàn)人,比2019年增長(zhǎng)了1.77億網(wǎng)民,比2018年增長(zhǎng)了2.03億網(wǎng)民,今年中國(guó)的互聯(lián)網(wǎng)普及率已達(dá)到73%。Excelcom公司曾經(jīng)發(fā)表過(guò)一份關(guān)于“互聯(lián)網(wǎng)一分鐘產(chǎn)生數(shù)據(jù)”的調(diào)查結(jié)果顯示:2016年,每一分鐘有395833人登錄微信,有1.5億萬(wàn)封郵件被發(fā)送,谷歌有240萬(wàn)新搜索請(qǐng)求,YouTube有278萬(wàn)視頻被播放。谷歌公司Kent Walker在2014年曾經(jīng)指出:“截至2000年,人類大約有12EB的存儲(chǔ)數(shù)據(jù),截至2014年,每天可以產(chǎn)生大約2EB的數(shù)據(jù)”。隨著網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)的不斷完善,大數(shù)據(jù)行業(yè)、人工智能行業(yè)、云計(jì)算產(chǎn)業(yè)的不斷發(fā)展,2020年全球數(shù)據(jù)總量約為40ZB。數(shù)據(jù)正以史無(wú)前例的方式增長(zhǎng)。可想而知,今天我們面對(duì)的是數(shù)也數(shù)不清的數(shù)據(jù)海洋。這些數(shù)據(jù)能為我們做什么呢?它能夠促進(jìn)社會(huì)的發(fā)展,提高我們的生活質(zhì)量。數(shù)據(jù)已經(jīng)成為一個(gè)國(guó)家必不可少的重要資源,也確實(shí)讓我們足不出戶,便知曉天下。然而你會(huì)發(fā)現(xiàn),當(dāng)我們想要有針對(duì)地搜尋某些信息或者知識(shí)的時(shí)候,也會(huì)有非常多的內(nèi)容呈現(xiàn)在你的面前,但它們不一定是你想要的。舉個(gè)例子,當(dāng)我在某搜索引擎上搜尋旅游攻略時(shí),呈現(xiàn)在我面前的大量數(shù)據(jù)并不全是我想要的。這個(gè)時(shí)候推薦系統(tǒng)的出現(xiàn)給生活帶來(lái)了巨大的便利。我們享受了大數(shù)據(jù)帶來(lái)的豐富信息,又可以使用推薦系統(tǒng)避免大量數(shù)據(jù)帶來(lái)的麻煩。

        推薦系統(tǒng)是一種比較新的技術(shù),它起源于1992年P(guān)ARC的一篇Using Collaborative Filtering to Weave an Information Tapestry論文,從此開啟了它長(zhǎng)達(dá)31年的歷史行程。盡管推薦系統(tǒng)還很年輕,但隨著互聯(lián)網(wǎng)技術(shù)在國(guó)內(nèi)的飛速發(fā)展,推薦系統(tǒng)在我們的生活中逐漸占有一席之地,并且越來(lái)越重要。想要從數(shù)據(jù)的海洋里獲取有用的信息,一定離不開推薦系統(tǒng)的幫助。可能你會(huì)認(rèn)為自己從來(lái)沒有使用過(guò)推薦系統(tǒng),實(shí)際是,我們?cè)缇团c它相遇過(guò)了,比如說(shuō)搜索引擎的使用。本文主要采用的是協(xié)同過(guò)濾算法對(duì)大學(xué)生就業(yè)數(shù)據(jù)進(jìn)行分析。

        二、數(shù)據(jù)預(yù)處理技術(shù)

        數(shù)據(jù)預(yù)處理技術(shù)是完成大數(shù)據(jù)項(xiàng)目必不可少的關(guān)鍵步驟,占大數(shù)據(jù)項(xiàng)目90%的工作量。雖然數(shù)據(jù)預(yù)處理不難,但其結(jié)果直接影響到最終推薦效果,可以說(shuō)是非常必要的。想要保質(zhì)保量地實(shí)現(xiàn)推薦系統(tǒng)的推薦功能,獲得一個(gè)用戶滿意度良好的推薦系統(tǒng),一定離不開數(shù)據(jù)預(yù)處理技術(shù)的幫助。

        (一)特征提取

        特征提取其根本目的是對(duì)數(shù)據(jù)中的屬性進(jìn)行降維。特征提取技術(shù)主要是發(fā)現(xiàn)數(shù)據(jù)屬性的關(guān)系,通過(guò)屬性的組合減少數(shù)據(jù)中屬性的總個(gè)數(shù),而組合后的屬性又可以有不一樣的表現(xiàn),數(shù)據(jù)特征空間就發(fā)生了改變。特征提取的本質(zhì)是降低數(shù)據(jù)維度,其常用的方法有主成分分析(PCA),線性判別分析(LDA):

        1.主成分分析(PCA)

        主成分分析主要是針對(duì)無(wú)監(jiān)督學(xué)習(xí)的降維技術(shù),是數(shù)據(jù)提取技術(shù)中非常經(jīng)典的降維技術(shù)之一。它需要將屬性的值進(jìn)行分解,就可以實(shí)現(xiàn)小幅度的降維,操作簡(jiǎn)單,易于理解,因此使用廣泛。主成分分析實(shí)際上是一種統(tǒng)計(jì)學(xué)方法,用過(guò)正交變換將可能具有關(guān)聯(lián)的數(shù)據(jù)轉(zhuǎn)換成不相關(guān)的數(shù)據(jù),然后刪除達(dá)到降維的效果。主成分分析抓住了事物的主要矛盾,從多個(gè)屬性中用統(tǒng)計(jì)計(jì)算的方法計(jì)算出主要的影響因素,揭露問題的本來(lái)面貌。主成分分析技術(shù)用于數(shù)據(jù)降維,假設(shè)數(shù)據(jù)集有n個(gè)特征,有m個(gè)樣本,那么數(shù)據(jù)集就可以保存為一個(gè)n×m的數(shù)據(jù)矩陣。需要降維的數(shù)據(jù)集通常擁有較多的維度,因此,n的值通常較大。舉個(gè)例子,100個(gè)高校畢業(yè)生在招聘網(wǎng)站瀏覽職位信息,平臺(tái)可以獲得這些學(xué)生的個(gè)人信息包括:姓名、性別、年齡、籍貫、畢業(yè)院校、家庭住址、父母情況、身高、體重、銀行卡號(hào)碼10個(gè)屬性。也就是說(shuō),學(xué)生作為樣本m=100,學(xué)生的的個(gè)人屬性n=10,那么數(shù)據(jù)集可以建立一個(gè)100×10(m×n)的多維矩陣作為樣本矩陣。主成分分析通過(guò)協(xié)方差計(jì)算可以得到一個(gè)10×10的協(xié)方差矩陣,利用統(tǒng)計(jì)學(xué)計(jì)算,求出協(xié)方差矩陣的10個(gè)特征值和特征向量,并進(jìn)行排序。排在前4位的特征向量可以構(gòu)成10×4的矩陣,這就是通過(guò)計(jì)算得到的特征矩陣。將原有的樣本矩陣與特征矩陣相乘可以得到100×4的新矩陣,這就是降維后的數(shù)據(jù)矩陣,此時(shí)每個(gè)特征的維度都下降了。PCA最終目的實(shí)際上是計(jì)算的降維后的數(shù)據(jù)矩陣,所以PCA的過(guò)程是計(jì)算特征向量矩陣、計(jì)算協(xié)方差矩陣、取特征向量和特征值較大的k個(gè)作為降維特征矩陣與原始樣本矩陣進(jìn)行計(jì)算。PCA的計(jì)算非常簡(jiǎn)單,非常適用于無(wú)監(jiān)督學(xué)習(xí)。

        2.線性判別分析(LDA)

        線性判別分析也采用統(tǒng)計(jì)學(xué)算法進(jìn)行數(shù)據(jù)降維,但其還會(huì)應(yīng)用到模式識(shí)別和機(jī)器學(xué)習(xí)算法來(lái)尋找事物之間的屬性的線性組合,然后對(duì)其特征化。LDA是一種典型的監(jiān)督學(xué)習(xí)降維技術(shù),在實(shí)現(xiàn)數(shù)據(jù)從高維度向低維度映射過(guò)程時(shí),盡可能地讓數(shù)據(jù)按照類別進(jìn)行分布。LDA有著相當(dāng)悠久的歷史,其在人臉識(shí)別、圖形圖像處理、語(yǔ)音語(yǔ)義識(shí)別項(xiàng)目中有著非常重要的地位。對(duì)于自然語(yǔ)言處理,LDA有著很好的表現(xiàn),是一個(gè)比較理想的文檔處理模型。

        特征提取的方法還有很多,對(duì)于一般有類別屬性的數(shù)據(jù)集,LDA是最好的選擇。但大多數(shù)時(shí)候,實(shí)際采集到的數(shù)據(jù)不具有類別屬性,聚類算法應(yīng)用得是較多的,PCA是一個(gè)不錯(cuò)的選擇,可以優(yōu)先使用。除此之外,PCA可以實(shí)現(xiàn)小幅度的降維,還可以使用混組合方法先用PCA小幅度降維把數(shù)據(jù)中的噪聲刪除,再用LDA進(jìn)行降維,效果也相當(dāng)不錯(cuò)。

        針對(duì)畢業(yè)生就業(yè)問題,LDA和PCA都是一個(gè)不錯(cuò)的選擇。不對(duì)大學(xué)生進(jìn)行分類時(shí),可以使用無(wú)監(jiān)督降維算法PCA,利用特征矩陣判斷影響學(xué)生擇業(yè)的主要因素,根據(jù)主成分進(jìn)行職位的推薦。綜合考慮,對(duì)于大學(xué)生的個(gè)性化推薦采用主成分分析方法。

        (二)特征選擇

        相比于特征提取,特征選擇方法要更簡(jiǎn)單,它是從原始數(shù)據(jù)的特征集合中選擇子集,數(shù)據(jù)集的原始特征集并未發(fā)生變化。特征選擇的方法也非常多,每種方法都有其優(yōu)勢(shì),例如Filter方法、Wrapper方法以及Embedded方法.

        特征選擇相對(duì)于特征提取更容易理解和操作,其算法復(fù)雜度、時(shí)間復(fù)雜度相對(duì)于特征提取都比較簡(jiǎn)單,并且特征選擇能夠使預(yù)測(cè)的準(zhǔn)確性更高,解釋性也比較強(qiáng)。

        特征提取是一個(gè)從高維度到低維度的俯瞰過(guò)程,我們可以在雜亂無(wú)章的數(shù)據(jù)中發(fā)現(xiàn)隱藏的理論;特征選擇是取特征之精華,去其特征之糟粕的過(guò)程,本質(zhì)是個(gè)篩選的過(guò)程。針對(duì)畢業(yè)生就業(yè)問題,采用特征提取的方法進(jìn)行降噪,用特征選擇的方法進(jìn)行特征組合,降低維度,綜合地對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。

        三、推薦系統(tǒng)的優(yōu)化

        完成了數(shù)據(jù)的預(yù)處理,基本已經(jīng)發(fā)現(xiàn)了數(shù)據(jù)之間的規(guī)則。能夠判斷影響畢業(yè)生就業(yè)的主要因素有薪資、學(xué)歷、工作時(shí)間、居住地等屬性,可以利用推薦算法進(jìn)行計(jì)算推薦。然而目前市場(chǎng)上相關(guān)的推薦算法各有利弊。協(xié)同過(guò)濾算法適合用戶量大的系統(tǒng),用戶越多,能夠分析的數(shù)據(jù)越多,系統(tǒng)性能越好。而且能夠發(fā)現(xiàn)用戶隱藏較深的興趣點(diǎn),對(duì)于雜亂無(wú)章的非結(jié)構(gòu)化項(xiàng)目處理起來(lái)也游刃有余,但是可擴(kuò)展性不好,對(duì)新用戶的推薦受限制,推薦能力受歷史數(shù)據(jù)集限制。簡(jiǎn)而言之,協(xié)同過(guò)濾算法比較依賴用戶的歷史操作數(shù)據(jù)。

        基于內(nèi)容的推薦算法也是大家用得比較多的算法。其推薦的結(jié)果依靠?jī)?nèi)容,非常直觀,且解釋性強(qiáng)?;趦?nèi)容的推薦算法不過(guò)度依賴用戶的操作數(shù)據(jù),而且支持機(jī)器學(xué)習(xí),對(duì)于有特殊興趣愛好的用戶也能夠進(jìn)行很好的推薦。但是基于內(nèi)容的推薦算法受特征提取方法的限制,并且完成的數(shù)據(jù)模型需要進(jìn)行大量地訓(xùn)練,可擴(kuò)展性也較差。基于內(nèi)容的推薦算法彌補(bǔ)了協(xié)同過(guò)濾算法過(guò)于依賴用戶數(shù)據(jù)的短板。

        為了獲得更個(gè)性化的推薦系統(tǒng),將協(xié)同過(guò)濾算法與基于內(nèi)容的推薦算法相結(jié)合,當(dāng)學(xué)生第一次訪問就業(yè)平臺(tái)時(shí),推薦系統(tǒng)優(yōu)先采用基于內(nèi)容的推薦算法將經(jīng)過(guò)特征選擇、特征提取、特征轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行分析推薦給學(xué)生,當(dāng)用戶不再是新用戶時(shí),采用基于內(nèi)容和協(xié)同過(guò)濾的推薦算法,利用數(shù)據(jù)預(yù)處理技術(shù)刪除冗余值,再推薦給用戶。這樣學(xué)生可以更精確、更全面地獲得職務(wù)推薦的信息。

        四、結(jié)語(yǔ)

        大數(shù)據(jù)環(huán)境下,推薦系統(tǒng)十分便利,畢業(yè)生可以利用大學(xué)生個(gè)性化就業(yè)系統(tǒng)更精準(zhǔn)地找到理想的工作。大學(xué)生個(gè)性化就業(yè)系統(tǒng)主要采用了數(shù)據(jù)的預(yù)處理技術(shù),對(duì)大學(xué)生的特征數(shù)據(jù)進(jìn)行降維和標(biāo)準(zhǔn)化,將影響大學(xué)生擇業(yè)的特征保留,去除無(wú)關(guān)的數(shù)據(jù),例如手機(jī)號(hào)碼、電子郵箱等數(shù)據(jù)。利用特征轉(zhuǎn)換技術(shù)將數(shù)據(jù)進(jìn)行轉(zhuǎn)換使其成為適合挖掘的數(shù)據(jù)。最后利用基于內(nèi)容的推薦算法與基于系統(tǒng)過(guò)濾的推薦算法訓(xùn)練數(shù)據(jù)模型。

        猜你喜歡
        特征選擇降維特征提取
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        拋物化Navier-Stokes方程的降維仿真模型
        基于特征聯(lián)合和偏最小二乘降維的手勢(shì)識(shí)別
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        亚洲男同志gay 片可播放| 女人被爽到高潮视频免费国产 | 精品国产午夜理论片不卡| 国产成年无码v片在线| 久久中文字幕人妻熟av女蜜柚m| 精品国产一区二区三区久久久狼 | 一区二区中文字幕在线观看污污| 日本男人精品一区二区| 亚洲色偷偷综合亚洲avyp| 波多野42部无码喷潮在线| 欧美a级情欲片在线观看免费| 国产熟妇搡bbbb搡bb七区| 亚洲欧美日韩精品久久亚洲区色播| 精品少妇ay一区二区三区| 永久无码在线观看| 免费黄网站久久成人精品| 久久精品国产亚洲av热东京热| 日韩av天堂一区二区| 国产精品久久久天天影视| 亚洲精品无码高潮喷水a片软| 成年女人永久免费看片| 亚洲av一区二区国产精品| 久久偷拍国内亚洲青青草| 青青草成人免费在线观看视频| 天天摸夜夜摸夜夜狠狠摸| 亚洲av无码av日韩av网站 | 国产午夜福利片| 欧美综合自拍亚洲综合图片区| 国产精品va在线观看一| 经典亚洲一区二区三区| 熟妇人妻精品一区二区视频免费的| 日本三级香港三级人妇99| 人人妻人人爽人人澡欧美一区| 99久久国产露脸精品竹菊传媒| 国产小毛片| 久久99老妇伦国产熟女高清| 精品国产精品久久一区免费| 久久精品人搡人妻人少妇 | 成人免费看www网址入口| 久久精品国产亚洲av瑜伽| 国产乱人伦真实精品视频|