亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于TF- IDF 的網(wǎng)絡(luò)地理文本信息分類研究

        2020-05-12 10:01:56王英杰
        科學(xué)技術(shù)創(chuàng)新 2020年10期
        關(guān)鍵詞:分類特征文本

        王英杰

        (北京建筑大學(xué) 測繪與城市空間信息學(xué)院,北京100044)

        網(wǎng)頁文本信息是非結(jié)構(gòu)化數(shù)據(jù),文本格式自由多樣,內(nèi)容更新頻繁,在不同文章環(huán)境下容易產(chǎn)生不同的意義。地理學(xué)名詞匯具有不同于基礎(chǔ)詞匯的形式與用法,往往蘊(yùn)含著豐富專業(yè)信息,將地理學(xué)名詞引入文本分類可以有效提高對地理相關(guān)文本的分類結(jié)果。因此,本文針對文本分類提出了基于地理學(xué)名詞的特征權(quán)重計(jì)算方法,在分詞過程中識別地理學(xué)名詞使其不被分割,在向量空間模型表示中利用地理學(xué)名詞,重新分配特征權(quán)重從而提高分類器的性能,即提高與地理相關(guān)的文本信息分類的正確率。

        1 基于TF-IDF 的地理文本分類設(shè)計(jì)

        1.1 文本分類原理

        文本分類或者稱為自動文本分類,是指計(jì)算機(jī)將載有信息的一篇文本映射到預(yù)先給定的某一類別或某幾類別主題的過程。文本分類另外也屬于自然語言處理領(lǐng)域。本文中文本和文檔不加區(qū)分,具有相同的意義。

        文本分類的形式化定義如下:

        1.2 文本分類設(shè)計(jì)

        地理學(xué)名詞反映了地理學(xué)內(nèi)容的廣泛性,還反映了中國地理現(xiàn)象和中國地理學(xué)研究的特色,并對所有選定的地理學(xué)名詞進(jìn)行了科學(xué)定義。針對地理學(xué)名詞的特點(diǎn)提出了本文文本分類的技術(shù)路線。

        (1)利用爬蟲技術(shù)爬取百科平臺文本數(shù)據(jù),將文本統(tǒng)一化處理,得到待分類文本信息。

        (2)在文本預(yù)處理過程中加入地理學(xué)名詞詞典,利用地理學(xué)名詞重新對文本分詞,一并得到統(tǒng)計(jì)量。

        (3)基于地理學(xué)名詞提出新的特征權(quán)重計(jì)算公式,得到全新特征矩陣。

        (4)在已有的基礎(chǔ)上使用K 近鄰算法作為分類器訓(xùn)練方法,通過分類器得到文本分類。

        2 基于地理名詞的TF-IDF 特征權(quán)重計(jì)算方法

        以往TF-IDF 算法基本關(guān)注是特征項(xiàng)的詞頻和逆文本頻率這兩個(gè)指數(shù),而詞頻和逆文本頻率對于地理相關(guān)文本的特殊性是沒有任何意義的,所以根據(jù)文本中地理名詞的特殊性,使用其加入語料庫,可以解決文本分詞過程中出現(xiàn)的歧義問題,從而有效地提高文本分詞的準(zhǔn)確率。并且根據(jù)特殊的語義產(chǎn)生的分詞能夠更有效地描述文本,使文本的向量空間模型更準(zhǔn)確。因此本文針對現(xiàn)有的TF-IDF 算法,提出了基于地理學(xué)名詞的改進(jìn)策略。

        針對特征項(xiàng)長度改進(jìn)權(quán)重:特征項(xiàng)的字?jǐn)?shù)可以衡量該特征項(xiàng)是否重要,在文本分詞后的統(tǒng)計(jì)結(jié)果中,單字是頻率最高的,而多字的特征項(xiàng)則頻率較低。而且對于特征項(xiàng)而言,單字不能傳達(dá)有效的信息且難以用來作為文本信息的特征。而多字特征項(xiàng)卻本身所傳達(dá)的信息量多可以作為文本信息的特征,因此這一指標(biāo)可以用來衡量特征項(xiàng)的權(quán)重。通常較長的特征用來表示特定的信息,例如“天安門”所傳達(dá)的信息就是特定地點(diǎn),因此利用特征項(xiàng)長度改進(jìn)權(quán)重。

        本文基于地理學(xué)名詞在地理相關(guān)文本中的重要性及特殊性對其基礎(chǔ)上改進(jìn),提出了改進(jìn)的權(quán)重算法公式:

        其中l(wèi)en(t)是特征項(xiàng)的長度,將分子,分母同時(shí)加上len(t)將會提高特征項(xiàng)t 在文本d 中的權(quán)重。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)流程

        基于改進(jìn)特征項(xiàng)權(quán)重的文本分類流程:

        (1)文本預(yù)處理得到文本分詞和文本詞典。

        (2)特征處理包括特征頻率統(tǒng)計(jì),特征評估,特征加權(quán)。

        (3)將文本建立向量空間模型(向量表示)。

        (4)輸入分類器得到分類結(jié)果。

        實(shí)驗(yàn)使用開源jieba 工具對原始數(shù)據(jù)進(jìn)行分詞處理,利用傳統(tǒng)TFIDF 算法作為比照實(shí)驗(yàn)。

        3.2 結(jié)果分析

        通常文本分類的評價(jià)指標(biāo)為精度(Precision)、召回率(Recall)和F1 得分(F1 score)。

        精度(P)是正確分類樣本占總分類樣本數(shù)量的百分比,召回率(R)是正確分類樣本占某分類總樣本數(shù)量的百分比,F(xiàn)1 值是平衡查準(zhǔn)率和查全率兩個(gè)不同分類效果指標(biāo),對某一類別。

        類別 傳統(tǒng)TF-IDF (實(shí)驗(yàn)1) 傳統(tǒng)TFIDF 結(jié)合改進(jìn)權(quán)重 (實(shí)驗(yàn)2) P R F1 P R F1 1 86.65 87.94 86.96 91.11 92.45 92.35 2 89.97 89.71 89.73 91.52 92.79 91.03 3 81.73 84.62 82.08 91.79 91.59 92.3 平均值 86.12 87.42 86.26 91.47 92.28 91.89

        從上表中可得實(shí)驗(yàn)二的準(zhǔn)確率和召回率均比實(shí)驗(yàn)一高且F1 得分平均值比實(shí)驗(yàn)二的F1 得分平均值高5.54%,通過實(shí)驗(yàn)對比可得,地理學(xué)名詞加入文本預(yù)處理可使分類有所提升,同時(shí)可以減少特征項(xiàng)的數(shù)量使向量空間模型的緯度降低。

        4 結(jié)論

        本文基于傳統(tǒng)TF-IDF 算法,提出一種新的地理文本分類方法,根據(jù)地理特征名詞、和特征項(xiàng)長度因素改進(jìn)了傳統(tǒng)TF-IDF 中的權(quán)值計(jì)算,針對不同特征項(xiàng)采取不同計(jì)算方式。最后通過數(shù)據(jù)分析及評價(jià)指標(biāo)數(shù)值驗(yàn)證該方法合理有效且效果較好。然而該方法尚未深入考慮待分類文本中未識別的地理特征項(xiàng)如何提取。

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一区二区三区国产精品| 亚洲日本国产一区二区三区| 精品人妻在线一区二区三区在线| 亚洲日本国产精品久久| 初尝人妻少妇中文字幕| 久久午夜夜伦鲁鲁片免费无码| 婷婷丁香五月中文字幕| 国产成人无码一二三区视频| 欧美—iGAO视频网| 自拍偷区亚洲综合激情| 欧美噜噜久久久xxx| 少妇高清精品毛片在线视频| 亚洲AV秘 无码一区二区三区1| 色婷婷一区二区三区四区| 午夜亚洲精品视频在线| 欧美老妇多毛xxxxx极瑞视频| 免费a级毛片无码无遮挡| av无码av在线a∨天堂app| 中文字幕人成乱码中文乱码| 日韩精品极视频在线观看免费| a级毛片免费观看在线播放| 99re久久精品国产| h动漫尤物视频| 人妻少妇猛烈井进入中文字幕| 亚洲伊人一本大道中文字幕| 国产久视频国内精品999| 免费在线观看视频专区| 国产禁区一区二区三区| 国产色秀视频在线播放| 亚洲精品国产品国语在线app| 日本一级三级在线观看| 久爱www人成免费网站| 厨房玩丰满人妻hd完整版视频| 精品人妻无码一区二区三区蜜桃一 | 大陆成人精品自拍视频在线观看| 亚洲日韩国产一区二区三区| 国产农村妇女高潮大叫| 中文亚洲成a人片在线观看| 东北老熟女被弄的嗷嗷叫高潮| 亚洲av鲁丝一区二区三区黄| 精品午夜福利1000在线观看|