亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于NLP的公眾人物信息數(shù)據(jù)挖掘研究

        2020-05-18 02:48:36黃莉
        中國(guó)管理信息化 2020年8期

        黃莉

        [摘 要]NLP指自然語言處理,將人類特有的語言轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù),是數(shù)據(jù)挖掘中人機(jī)交互的基礎(chǔ)。本文以公眾人物的公開文本信息為數(shù)據(jù)集,基于NLP自然語言處理的詞向量及余弦相似度,主要對(duì)相近職業(yè)、月亮星座和地理位置3個(gè)維度展開淺層分析。為初步建立畫像特征,挖掘步驟分為數(shù)據(jù)探索、爬蟲采集和數(shù)據(jù)預(yù)處理,數(shù)據(jù)量級(jí)、顆粒度、泛化和評(píng)估仍有待優(yōu)化。

        [關(guān)鍵詞]數(shù)據(jù);維度;NLP

        doi:10.3969/j.issn.1673 - 0194.2020.08.087

        [中圖分類號(hào)]TP311.10[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2020)08-0-02

        1? ? ?數(shù)據(jù)探索

        數(shù)據(jù)探索包含數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)特征分析,是為了進(jìn)一步數(shù)據(jù)采集、預(yù)處理和建模,通過檢驗(yàn)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量、繪制圖表、計(jì)算某些特征量等手段,對(duì)樣本數(shù)據(jù)集的結(jié)構(gòu)和規(guī)律進(jìn)行分析的過程。數(shù)據(jù)質(zhì)量分析需要準(zhǔn)備可信的數(shù)據(jù),是數(shù)據(jù)挖掘的重要基礎(chǔ),直接影響模型和結(jié)論的有效性和準(zhǔn)確性。需要觀測(cè)收集樣本數(shù)據(jù)源的數(shù)量和質(zhì)量,檢查原始數(shù)據(jù)狀態(tài),如缺失值、異常值、非一致值、重復(fù)值等數(shù)據(jù),分析比較明顯的規(guī)律和趨勢(shì)、各因素之間的關(guān)聯(lián)性,滿足模型構(gòu)建的要求。數(shù)據(jù)特征分析一般是分布分析和統(tǒng)計(jì)量分析。分布分析能揭示數(shù)據(jù)的分布特征和分布類型。通過定量數(shù)據(jù)分布分析,了解其分布形式是對(duì)稱的還是非對(duì)稱的,發(fā)現(xiàn)某些特大或特小的離群值;通過定性數(shù)據(jù)分布分析,根據(jù)定性變量的類型來分組。統(tǒng)計(jì)量分析則有集中和離中趨勢(shì)度量、趨勢(shì)度量、周期性分析、貢獻(xiàn)度分析、相關(guān)性分析。截至2017年,維基百科的文本集字段有文章編碼、標(biāo)題、章節(jié)標(biāo)題、章節(jié)文本。公眾人物相關(guān)文本集的存儲(chǔ)結(jié)構(gòu)以姓名為標(biāo)題,章節(jié)標(biāo)題一般包含簡(jiǎn)介、早期、家庭、教育或生涯,因此本文所需的數(shù)據(jù)主要采集于早期。

        2? ? ?數(shù)據(jù)采集

        元素采集的規(guī)則是,通過姓名實(shí)體識(shí)別,初步采樣英文人名名單樣本框。以姓名為索引,從維基百科英文網(wǎng)簡(jiǎn)單隨機(jī)抽樣,按出生日期截取初步樣本數(shù)據(jù)集。其中出生日期的時(shí)間序列跨度主要為10年(1900-1910年);公眾人物樣本單元數(shù)為310;維度簡(jiǎn)化至12個(gè),分別為:姓名、職業(yè)、行業(yè)代碼、月亮星座、星座屬性、出生日期、死亡日期、年齡、所屬洲、原國(guó)籍、國(guó)籍和性別。職業(yè)元素結(jié)合國(guó)際勞動(dòng)管理組織2008年發(fā)布的職業(yè)國(guó)際標(biāo)準(zhǔn)分類ISCO-08確定,一人多職者,由該職的突出性確定入樣權(quán)重。國(guó)籍的元素則根據(jù)國(guó)際標(biāo)準(zhǔn)化組織管理的國(guó)家代碼ISO 3166-1-2006進(jìn)行數(shù)據(jù)變換。這里月亮星座的算法是b=int(a-0.2+0.4n),a和b分別是太陽(yáng)星座和月亮星座的編碼,n是農(nóng)歷生日的“日”部分。

        3? ? ?數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。

        3.1? ?數(shù)據(jù)清洗

        數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),過濾與挖掘主題無關(guān)的數(shù)據(jù),處理缺失值、異常值等。采取刪除記錄、數(shù)據(jù)插補(bǔ)來解決缺失值的問題。通過刪除含有異常值的單元來保全完整度是最有效的,但減少歷史數(shù)據(jù)會(huì)造成資源大量浪費(fèi)和信息丟失。數(shù)據(jù)集越小,對(duì)分析結(jié)果的客觀性和正確性影響越大。

        3.2? ?數(shù)據(jù)集成

        數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))的過程。要考慮實(shí)體識(shí)別和屬性冗余問題,從而將源數(shù)據(jù)在最低層上加以轉(zhuǎn)換、提煉和集成。實(shí)體識(shí)別指篩選并整合與挖掘有關(guān)實(shí)體,如識(shí)別同名異義、異名同義、單位不統(tǒng)一,用相關(guān)分析檢測(cè)并刪除冗余屬性(重復(fù)或近義)。

        3.3? ?數(shù)據(jù)變換

        數(shù)據(jù)變換主要是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,如平方、開方、取對(duì)數(shù)、差分運(yùn)算等,將數(shù)據(jù)轉(zhuǎn)換成便于機(jī)器運(yùn)算的形式,以適用于挖掘任務(wù)及算法的需要。變換常用來將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)。維度內(nèi)區(qū)間跨度差別很大,可使用對(duì)數(shù)變換對(duì)其進(jìn)行壓縮。在時(shí)間序列分析中,有時(shí)簡(jiǎn)單的對(duì)數(shù)變換或者差分運(yùn)算可以將非平穩(wěn)序列轉(zhuǎn)換成平穩(wěn)序列。

        數(shù)據(jù)規(guī)范化(歸一化)處理是數(shù)據(jù)挖掘的基礎(chǔ)步驟之一?;诰嚯x的挖掘算法有離差標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化、小數(shù)定標(biāo)規(guī)范化、連續(xù)屬性離散化。不同評(píng)價(jià)指標(biāo)往往具有不同的量綱,數(shù)值間的差別可能很大,不進(jìn)行處理可能會(huì)影響數(shù)據(jù)分析結(jié)果。為了消除指標(biāo)之間的量綱和取值范圍差異的影響,需要進(jìn)行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定區(qū)域,便于進(jìn)行綜合分析。

        3.4? ?數(shù)據(jù)規(guī)約

        在大規(guī)模復(fù)雜的數(shù)據(jù)挖掘生產(chǎn)環(huán)境中,往往需要優(yōu)化數(shù)據(jù)集、泛化模型、提高運(yùn)算效率、降低存儲(chǔ)成本。數(shù)據(jù)規(guī)約分為屬性規(guī)約和數(shù)值規(guī)約。屬性規(guī)約是在盡可能地接近原數(shù)據(jù)集的概率分布下,找出最小的屬性子集,通過屬性合并來創(chuàng)建新屬性維數(shù),或者直接刪除不相關(guān)的屬性(維)來減少數(shù)據(jù)維數(shù)。數(shù)值規(guī)約指在盡量少丟失信息下用較小的數(shù)值表示元數(shù)據(jù)以減少數(shù)據(jù)量和運(yùn)算量,包括有參數(shù)和無參數(shù)兩類方法。有參數(shù)方法是使用一個(gè)模型來評(píng)估數(shù)據(jù),如參數(shù)回歸。無參數(shù)方法則使用實(shí)際值,如直方圖、聚類、抽樣。

        為確保樣本信息的真實(shí)性,這里的訓(xùn)練集經(jīng)過規(guī)約刪除與本次挖掘主題無關(guān)的屬性和數(shù)值,不處理部分缺失值,插補(bǔ)出生日期和死亡日期數(shù)據(jù),如月日不詳,取首月首日,規(guī)范國(guó)籍和性別(0為女,1為男)。樣本容量310,其中月亮星座分布的標(biāo)準(zhǔn)差約為2.67。各月亮星座下的大類行業(yè)科研、軍政、經(jīng)濟(jì)、藝術(shù)、體育的數(shù)據(jù)規(guī)約采用(d-avg)/std,d是人數(shù),avg是平均值,std是標(biāo)準(zhǔn)差(詳情見https://github.com/SpencerHale/w2v.git)。當(dāng)某個(gè)星座在離開平均數(shù)1個(gè)標(biāo)準(zhǔn)差附近,計(jì)±0.5分,表示“人數(shù)接近且高于平均水平”或“人數(shù)接近但低于平均水平”。當(dāng)明顯超過1個(gè)標(biāo)準(zhǔn)差,計(jì)±1分,表示“人數(shù)比較多”或“人數(shù)非常少”。當(dāng)超過2個(gè)標(biāo)準(zhǔn)差,計(jì)±2分,表示“人數(shù)非常多”或“人數(shù)非常少”。在1個(gè)標(biāo)準(zhǔn)差以內(nèi),計(jì)0分,表示“人數(shù)處于平均水平”。四象月亮星座在大類行業(yè)和地理位置中的分布比較相似,在藝術(shù)上和歐洲的人數(shù)都明顯超過1個(gè)標(biāo)準(zhǔn)差,人數(shù)都比較多。當(dāng)細(xì)分月亮星座為水瓶時(shí),在大類行業(yè)為軍政和體育上的人數(shù)明顯超過1個(gè)標(biāo)準(zhǔn)差,人數(shù)比較多;而金牛則在經(jīng)濟(jì)上超過2個(gè)標(biāo)準(zhǔn)差,人數(shù)非常多。原國(guó)籍占比的前三位是美、英、德,分別約為35%、14%、9%。年齡整體的平均值約為75,其中科研行業(yè)的平均年齡比較大,經(jīng)濟(jì)行業(yè)的平均年齡比較小;藝術(shù)行業(yè)的年齡極差接近且高于平均水平,體育行業(yè)的年齡極差比較小。男女性別比約為4.6∶1(男255,女55)。

        4? ? ?數(shù)據(jù)挖掘

        根據(jù)挖掘目標(biāo)和數(shù)據(jù)形式可以建立分類與預(yù)測(cè)、聚類分析、關(guān)聯(lián)規(guī)則、時(shí)序模式和偏差檢測(cè)等模型,結(jié)合實(shí)際問題選擇機(jī)器學(xué)習(xí)算法模型。機(jī)器學(xué)習(xí)是通過訓(xùn)練數(shù)據(jù)集,找到特征和標(biāo)簽間的關(guān)系,使機(jī)器自動(dòng)分析未知的數(shù)據(jù)標(biāo)簽等,并迭代優(yōu)化。按解決問題的屬性來劃分,分為分類學(xué)習(xí)算法模型、聚類學(xué)習(xí)算法模型、回歸學(xué)習(xí)算法模型、推薦學(xué)習(xí)算法模型;按訓(xùn)練數(shù)據(jù)集特征和標(biāo)簽的有無來劃分則包括監(jiān)督學(xué)習(xí)算法模型、半監(jiān)督學(xué)習(xí)算法模型、無監(jiān)督學(xué)習(xí)算法模型。如已知特征、有標(biāo)簽,屬于監(jiān)督分類;未知特征、無標(biāo)簽,屬于無監(jiān)督聚類;已知特征、部分有標(biāo)簽,屬于半監(jiān)督分類;未知特征、部分有標(biāo)簽,屬于半監(jiān)督聚類。實(shí)際情況下,無標(biāo)簽數(shù)據(jù)量一般遠(yuǎn)遠(yuǎn)大于有標(biāo)簽數(shù)據(jù)量,通過一些有標(biāo)簽數(shù)據(jù)的局部特征,無標(biāo)簽數(shù)據(jù)的整體分布,也可以迭代訓(xùn)練模型。

        本文選擇了谷歌開源的無監(jiān)督學(xué)習(xí)聚類算法模型word2vec。封裝接口則調(diào)用開源第三方庫(kù)gensim.scripts.glove2word2vec。原理是將詞映射到N維的向量空間,然后基于這個(gè)詞向量進(jìn)行聚類,計(jì)算近似詞以及分析詞性等。語料直接加載了100維GloVe詞向量的文本文件,以引入外部語義信息,訓(xùn)練平均耗時(shí)約35秒。GloVe詞向量是斯坦?;诠铂F(xiàn)矩陣分解預(yù)訓(xùn)練

        60億詞的詞向量。這里基于余弦相似度計(jì)算職業(yè)在語義上的近似關(guān)系,通過PCA主成分分析對(duì)特征維度進(jìn)行降維,并將這些向量形成的幾何嵌入空間。將一個(gè)詞用特定的向量來表示,當(dāng)向量之間的余弦相似度越高則距離越近,在二維空間里,詞之間的語義關(guān)系也越近。例如,“physicist”與“mathematician”

        “scientist”“chemist”的距離分別為0.17、0.21、0.22,證明在二維空間里,余弦相似度比較高,語義上的職業(yè)相似度也高。當(dāng)進(jìn)一步細(xì)分職業(yè)為數(shù)學(xué)家時(shí),月亮星座為火象和風(fēng)象的人數(shù)接近且高于平均水平,地理位置為歐洲的人數(shù)非常多。但物理學(xué)家為風(fēng)象的人數(shù)比較多,土象的人數(shù)接近但低于平均水平;科學(xué)家和化學(xué)家則水象比較多;而且地理位置為歐洲的人數(shù)都比較多,亞洲的人數(shù)接近但低于平均水平。

        5? ? ?結(jié) 語

        本文還需要優(yōu)化之處:增加樣本數(shù)據(jù)量;細(xì)化相關(guān)維度的顆粒度,如增加父親職業(yè)、母親職業(yè)、啟蒙年齡、教育程度、死亡原因等;訓(xùn)練其他語言版本,泛化模型,建立畫像。

        主要參考文獻(xiàn)

        [1]張良均,王路.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版社,2015.

        [2]O Levy,Y Goldberg,I Dagan,Improving Distributional Similarity with Lessons Learned from Word Embeddings[J].Transactions of the Association for Computational Linguistics,2015:211-225.

        黄片视频免费在线播放观看| 99国产精品无码专区| 日本高清中文字幕二区在线| 亚洲天堂av一区二区| 国产精品毛片无遮挡| 初尝黑人巨砲波多野结衣| 大屁股少妇一区二区无码| 国产一区二区三区精品乱码不卡| 厨房人妻hd中文字幕| 亚洲av无码第一区二区三区| 国产国拍亚洲精品福利| 国产人妖在线观看一区二区三区| 亚洲熟妇无码av在线播放| 嗯啊哦快使劲呻吟高潮视频| 黄 色 成 年 人 网 站免费| 亚洲中文字幕第15页| 国产福利永久在线视频无毒不卡 | 91精品人妻一区二区三区久久久| 中文字幕人妻少妇引诱隔壁| 精品国产福利一区二区在线| 亚洲一区二区视频蜜桃| 激情亚洲一区国产精品久久| 疯狂撞击丝袜人妻| 亚洲国产另类久久久精品小说 | 国产成人亚洲精品青草天美 | 亚洲视频免费在线观看| 免费a级毛片无码av| 久久精品免费一区二区喷潮| 亚洲美女av二区在线观看| 伊人中文字幕亚洲精品乱码| 白又丰满大屁股bbbbb| 无码人妻丝袜在线视频| 亚洲国产日韩一区二区三区四区 | 免费在线日韩| 久久精品国产亚洲av影院毛片| 成人国产精品一区二区视频| 亚洲综合久久久| 高潮av一区二区三区| 久久精品亚洲精品国产色婷| 精品视频一区二区三三区四区| 精品中文字幕日本久久久|