亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然語言處理在網(wǎng)站分類中的應(yīng)用

        2018-05-22 01:17:54中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所工程師
        信息通信技術(shù)與政策 2018年5期

        李 曼 中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所工程師

        1 引言

        為了防止在網(wǎng)上從事非法的網(wǎng)站經(jīng)營活動(dòng),打擊不良互聯(lián)網(wǎng)信息的傳播,2005年,工信部(原信息產(chǎn)業(yè)部)公開發(fā)布《非經(jīng)營性互聯(lián)網(wǎng)信息服務(wù)備案管理辦法》(第33號(hào)令),要求從事非經(jīng)營性互聯(lián)網(wǎng)信息服務(wù)的網(wǎng)站進(jìn)行備案登記。據(jù)中國互聯(lián)網(wǎng)協(xié)會(huì)和國家互聯(lián)網(wǎng)應(yīng)急中心聯(lián)合發(fā)布的《互聯(lián)網(wǎng)行業(yè)運(yùn)行指數(shù)——中國網(wǎng)站》報(bào)告統(tǒng)計(jì),截至2017年年底,我國網(wǎng)站數(shù)量達(dá)到526.06萬個(gè)。網(wǎng)站備案信息是分析信息產(chǎn)業(yè)發(fā)展水平,區(qū)域、行業(yè)信息化水平的重要數(shù)據(jù)來源之一。但是,由于網(wǎng)站備案機(jī)制本身的限制以及歷史數(shù)據(jù)質(zhì)量等原因,網(wǎng)站備案信息存在滯后性、準(zhǔn)確率低、信息缺失、信息顆粒度大等問題。由于網(wǎng)站數(shù)量龐大,通過自動(dòng)化的方法解決這些問題滿足數(shù)據(jù)需求是關(guān)鍵。

        2 需求分析

        2.1 問題描述

        本文要解決的是網(wǎng)站分類問題,即根據(jù)實(shí)際業(yè)務(wù)需求將多個(gè)網(wǎng)站按照一定的標(biāo)準(zhǔn)進(jìn)行分類。例如,按照行業(yè)劃分為農(nóng)業(yè)、制造業(yè)、資源、能源的生產(chǎn)和供應(yīng)、建筑業(yè)、交通郵電、信息傳輸、計(jì)算機(jī)服務(wù)和軟件業(yè)、金融地產(chǎn)租賃、生活服務(wù)、教育科研、文體娛樂、公共服務(wù)等11類。

        2.1 輸入

        (1)網(wǎng)站地址列表信息:S={Si},1≤i≤N,其中N表示網(wǎng)站總數(shù)、Si表示第i個(gè)網(wǎng)站的網(wǎng)站地址。

        (2)目標(biāo)分類信息:C={Ck},1≤k≤M,其中M表示總類別數(shù)、Ck表示第k個(gè)分類。目標(biāo)分類信息就是分類參考的標(biāo)準(zhǔn)。

        2.2 輸出

        分類結(jié)果:每個(gè)網(wǎng)站對(duì)應(yīng)的目標(biāo)分類SC={SCi}={Si->C(i)},1≤i≤N,C(i)?C,其中 C(i)表示網(wǎng)站 Si對(duì)應(yīng)的分類。

        3 基于自然語言處理的網(wǎng)站分類方法

        3.1 總體思路

        網(wǎng)站分類是一種利用文本信息的分類問題,其關(guān)鍵點(diǎn)主要在于網(wǎng)站特征提取、網(wǎng)站分類算法、訓(xùn)練集獲取3個(gè)方面。在網(wǎng)站特征提取方面,由于網(wǎng)站地址中攜帶的信息量較少,考慮將網(wǎng)站內(nèi)容作為網(wǎng)站的特征用于網(wǎng)站分類,將網(wǎng)站首頁的關(guān)鍵詞作為量化特征。在網(wǎng)站分類算法方面,通常選擇常用的分類算法,但需要根據(jù)網(wǎng)站特征定義兩個(gè)樣本之間的距離。在訓(xùn)練集獲取方面,由于沒有現(xiàn)成的訓(xùn)練集,采用人工標(biāo)識(shí)的方法會(huì)耗費(fèi)大量人力,本文采用分類映射法,即將具備訓(xùn)練集的細(xì)顆粒度分類映射到目標(biāo)分類,從而可以間接獲取到訓(xùn)練集。

        3.2 網(wǎng)站特征提取

        選取網(wǎng)站首頁內(nèi)容(以下稱“網(wǎng)頁文檔”)的關(guān)鍵詞作為網(wǎng)站特征,具體可以采用TF-IDF(Term Frequency-Inverse Document Frequency)方法計(jì)算得到。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。其主要思想是,如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。從計(jì)算公式來講,TF-IDF=TF×IDF,TF(Term Frequency)表示詞頻,如果一個(gè)詞出現(xiàn)在文檔里的頻次越高,則認(rèn)為該詞越重要,IDF(Inverse Document Frequency)表示逆向文件頻率,如果一個(gè)詞出現(xiàn)在文檔的數(shù)量越多,則認(rèn)為該詞越不重要。

        采用TF-IDF方法提取網(wǎng)站特征的具體步驟包括統(tǒng)計(jì)詞頻、計(jì)算TF-IDF值、特征值標(biāo)準(zhǔn)化3個(gè)方面。

        (1)統(tǒng)計(jì)詞頻。通過網(wǎng)頁文檔分詞處理得到網(wǎng)站的詞頻,網(wǎng)站Si的網(wǎng)頁文檔詞頻wordfreqi={(wordij,freqij)},1≤j≤WNi,其中WNi表示網(wǎng)站Si的網(wǎng)頁文檔包含的不同詞語數(shù)。

        (2)計(jì)算TF-IDF值。利用TF-IDF方法計(jì)算每個(gè)網(wǎng)頁文檔中每個(gè)關(guān)鍵詞的TF-IDF值,并在按照TF-IDF值在文檔內(nèi)進(jìn)行排序,可以根據(jù)關(guān)鍵詞個(gè)數(shù)或TF-IDF值大小選取前KWNi個(gè)作為網(wǎng)頁文檔的關(guān)鍵詞,得到tfidfi={(keywordij,tfidfij)},1≤j≤KWNi,KWNi表示網(wǎng)站Si的網(wǎng)頁文檔關(guān)鍵詞的個(gè)數(shù)。

        (3)特征值標(biāo)準(zhǔn)化。將上一步計(jì)算得到的TFIDF值進(jìn)行單位化tij=tfidfij/sqrt(Sj(tfidfij)^2),得到最終的網(wǎng)站特征值ti={(keywordij,wij)},1≤j≤KWNi。

        3.3 網(wǎng)站分類算法

        本文網(wǎng)站分類算法采用K最近鄰(kNN,k-NearestNeighbor)。kNN算法的核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的k個(gè)樣本的類別來決定待分樣本所屬的類別。

        kNN算法中需要找到最鄰近的k個(gè)樣本,因此我們要定義兩個(gè)樣本之間的距離。定義距離的核心思想是如果兩個(gè)網(wǎng)頁文檔具有相同的關(guān)鍵詞越多,關(guān)鍵詞權(quán)重分布越接近,則認(rèn)為兩個(gè)文檔越相似,文檔距離越近。具體公式如下:

        其中,ti、tj分別是兩個(gè)網(wǎng)頁文檔的特征值向量,N(i)、N(j)分別網(wǎng)頁文檔中的關(guān)鍵詞數(shù)量。

        3.4 訓(xùn)練集獲取

        本文采用分類映射法間接獲取訓(xùn)練集。分類映射法的核心思想是若已知分類方式C1、C2,其中C1的分類顆粒度比C2小,則對(duì)目標(biāo)集進(jìn)行C2分類時(shí)可以采用C1的訓(xùn)練集。因此,考慮使用公開的細(xì)顆粒度網(wǎng)站分類目錄,作為分類算法的訓(xùn)練數(shù)據(jù)。

        定義目標(biāo)分類是C2,也就是最終需要的分類方式,把相對(duì)細(xì)顆粒度的分類C1叫做中間分類,也就是我們根據(jù)C1的訓(xùn)練集訓(xùn)練模型得到的分類。采用分類映射法后,我們的網(wǎng)站分類在模型訓(xùn)練過程和模型分類過程均需要進(jìn)行相應(yīng)的調(diào)整。

        (1)模型訓(xùn)練過程調(diào)整。采用C2的訓(xùn)練集數(shù)據(jù)得到分類模型。

        (2)模型分類過程調(diào)整。根據(jù)分類模型得到每個(gè)網(wǎng)站的中間分類C2,然后根據(jù)C2與C1的唯一映射關(guān)系得到每個(gè)網(wǎng)站的目標(biāo)分類C1。

        4 應(yīng)用實(shí)現(xiàn)

        網(wǎng)站分類作為一種大數(shù)據(jù)分析應(yīng)用,具有典型的6個(gè)環(huán)節(jié)(見圖1),分別是數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析、可視化,其中數(shù)據(jù)采集是確定數(shù)據(jù)源并且從數(shù)據(jù)源獲取數(shù)據(jù),數(shù)據(jù)清洗是對(duì)數(shù)據(jù)采集的原始數(shù)據(jù)中不規(guī)范的內(nèi)容進(jìn)行過濾、清洗,數(shù)據(jù)存儲(chǔ)是通過關(guān)系型數(shù)據(jù)庫、文本數(shù)據(jù)等不同形式將數(shù)據(jù)存儲(chǔ)起來,數(shù)據(jù)處理是數(shù)據(jù)的基本處理,主要是為了下一步的數(shù)據(jù)分析做準(zhǔn)備,數(shù)據(jù)分析是為了實(shí)現(xiàn)最終的分析目標(biāo)而進(jìn)行的業(yè)務(wù)層面的數(shù)據(jù)分析,可視化是應(yīng)用最終的輸出,可根據(jù)業(yè)務(wù)實(shí)際需求選擇不同的展現(xiàn)方式。本節(jié)主要從這6個(gè)環(huán)節(jié)介紹利用前文提出的網(wǎng)站分類方法實(shí)現(xiàn)的一個(gè)應(yīng)用案例:針對(duì)某省7萬多個(gè)備案網(wǎng)站按照行業(yè)分類,共分類11個(gè)類別。

        4.1 數(shù)據(jù)采集

        (1)網(wǎng)站列表數(shù)據(jù)。網(wǎng)站列表數(shù)據(jù)由需求方提供。

        (2)網(wǎng)站頁面文檔數(shù)據(jù)。網(wǎng)站頁面文檔數(shù)據(jù)通過網(wǎng)站地址爬取所有網(wǎng)站首頁內(nèi)容(即網(wǎng)頁文檔)獲得。

        (3)訓(xùn)練集數(shù)據(jù)。訓(xùn)練集數(shù)據(jù)經(jīng)過兩步獲得。首先找到訓(xùn)練集數(shù)據(jù)源,然后采用爬蟲的方法獲取訓(xùn)練集數(shù)據(jù),包括網(wǎng)站列表、網(wǎng)站頁面內(nèi)容以及網(wǎng)站對(duì)應(yīng)的分類。

        圖1 網(wǎng)站分類6個(gè)環(huán)節(jié)

        4.2 數(shù)據(jù)清洗

        (1)網(wǎng)站地址數(shù)據(jù)清洗。針對(duì)網(wǎng)站地址的不規(guī)范情況進(jìn)行處理,例如將網(wǎng)站的多個(gè)網(wǎng)址拆分、將網(wǎng)址統(tǒng)一為以“http://”開頭、去除網(wǎng)址收尾空白符等。

        (2)網(wǎng)頁文檔數(shù)據(jù)清洗。針對(duì)數(shù)據(jù)采集環(huán)節(jié)中獲得的網(wǎng)頁文檔進(jìn)行內(nèi)容清洗、提取,具體包括去除網(wǎng)頁文檔中的標(biāo)簽符、去除首尾空白符、對(duì)于無法訪問的網(wǎng)頁進(jìn)行標(biāo)記、選擇網(wǎng)頁文檔中的Keyword、Title、Description以及全文內(nèi)容作為有效內(nèi)容等。

        (3)訓(xùn)練數(shù)據(jù)清洗。與網(wǎng)站內(nèi)容數(shù)據(jù)做相同方式的清洗。

        4.3 數(shù)據(jù)存儲(chǔ)

        采用MySql數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)。目標(biāo)網(wǎng)站、訓(xùn)練網(wǎng)站數(shù)據(jù)分別存儲(chǔ)在Site目標(biāo)網(wǎng)站表、Sitetrain訓(xùn)練網(wǎng)站表。

        4.4 數(shù)據(jù)處理

        利用中文信息處理方法對(duì)網(wǎng)頁文檔進(jìn)行分詞,統(tǒng)計(jì)詞頻。下面以山貓電影(http://www.bobmao.com)為例,其網(wǎng)頁文檔見表1。

        (1)中文分詞。使用中文分詞器lucene對(duì)網(wǎng)頁文檔進(jìn)行分詞,根據(jù)業(yè)務(wù)需求配置自定義詞庫、停用詞,得到網(wǎng)頁文檔的分詞結(jié)果,具體參見表2。

        (2)統(tǒng)計(jì)詞頻。根據(jù)網(wǎng)頁文檔分詞結(jié)果統(tǒng)計(jì)詞頻,具體參見表3。

        表1 網(wǎng)頁文檔示例

        表2 分詞結(jié)果示例

        4.5 數(shù)據(jù)分析

        (1)計(jì)算特征值。根據(jù)前一環(huán)節(jié)詞頻統(tǒng)計(jì)結(jié)果,進(jìn)行標(biāo)準(zhǔn)化處理得到特征值,具體參見表4。

        (2)進(jìn)行分類。設(shè)置參數(shù)k,根據(jù)前文中樣本間距離的定義,采用kNN算法進(jìn)行分類,得到中間分類結(jié)果C2。

        表3 詞頻統(tǒng)計(jì)示例

        表4 特征值示例

        表5 分類映射關(guān)系(部分)

        4.6 可視化

        (1)定義分類映射關(guān)系。根據(jù)經(jīng)驗(yàn)定義中間分類到目標(biāo)分類的映射關(guān)系,具體參見表5。

        (2)輸出結(jié)果。根據(jù)分類映射法,將中間分類映射到目標(biāo)分類,以表格形式輸出分類結(jié)果。

        5 結(jié)束語

        本文提出了一種基于自然語言處理的網(wǎng)站分類方法,在網(wǎng)站特征提取、網(wǎng)站分類算法以及訓(xùn)練集獲取等關(guān)鍵問題上進(jìn)行了分析,最后給出基于該方法的應(yīng)用實(shí)現(xiàn)。隨著大數(shù)據(jù)技術(shù)和概念的普及,人們的大數(shù)據(jù)意識(shí)也在不斷提升,將會(huì)發(fā)掘出更多的應(yīng)用場景。

        參考文獻(xiàn)

        [1]盧衛(wèi)等.互聯(lián)網(wǎng)行業(yè)運(yùn)行指數(shù)報(bào)告——中國網(wǎng)站[EB/OL].北京:中國互聯(lián)網(wǎng)協(xié)會(huì),國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,2018[2018-01-09].http://index.isc.org.cn/.

        [2]中華人民共和國信息產(chǎn)業(yè)部.非經(jīng)營性互聯(lián)網(wǎng)信息服務(wù)備案管理辦法[EB/OL].北京:中華人民共和國信息產(chǎn)業(yè)部令(第33號(hào)),2005[2005-02-08].http://www.gov.cn/gongbao/content/2005/content_93018.htm.

        [3]施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計(jì)算機(jī)應(yīng)用,2009(z1):167-170,180.

        [4]張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計(jì)算機(jī)工程,2005(8):171-172,185.

        国产一级一片内射在线| 亚洲欧美激情在线一区| 品色堂永远的免费论坛| 污污污国产免费网站| 亚洲精品中文字幕乱码无线| 亚洲av成人无码久久精品老人| 亚洲乱码中文字幕综合| 国产主播在线 | 中文| 欧美成人免费观看国产| 日韩人妻中文字幕一区二区| 亚洲一区二区三区精品| 无码成人一区二区| 国产乱人伦av在线a| 97在线视频免费| 日本熟女人妻一区二区三区| 中国黄色一区二区三区四区| 美女网站免费观看视频| 亚洲av中文无码乱人伦在线r▽| 五月天综合社区| 中文字幕东京热一区二区人妻少妇| 精品无码一区二区三区爱欲| 中文字幕无码不卡一区二区三区| 最新日韩av在线不卡| 国产人妖在线观看一区二区三区| 免费av一区二区三区无码| 午夜成人鲁丝片午夜精品| 国产精品美女白浆喷水| 亚洲在中文字幕乱码熟女| 精品乱色一区二区中文字幕| av大全亚洲一区二区三区| 国产精品久久久久久一区二区三区| 天堂…在线最新版资源| 国产成+人+综合+亚洲专| 三个黑人插一个女的视频| 草色噜噜噜av在线观看香蕉| 亚洲精品久久久久久| 激情人妻网址| 少妇高潮在线精品观看| 无码人妻精品丰满熟妇区| 国产视频网站一区二区三区| 永久免费观看的黄网站在线|