亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-Medoids聚類的改進KNN 文本分類算法

        2014-12-20 06:56:16羅賢鋒祝勝林陳澤健袁玉強
        計算機工程與設計 2014年11期
        關鍵詞:分類文本

        羅賢鋒,祝勝林,陳澤健,袁玉強

        (華南農業(yè)大學 信息學院,廣東 廣州510642)

        0 引 言

        文本分類的主要任務是在預先給定的類別標記下,根據文本內容來判斷其類別歸屬。目前文本分類算法包括樸素貝葉斯 (NB)[1]、支持向量機 (SVM)[2]、K 最近鄰算法(KNN)[3]等。KNN 算法是由Cover和Hart于1967年提出的,有著穩(wěn)定性、魯棒性、高準確率等優(yōu)點[4]。但正如文獻 [4]中指出KNN 算法作為一種惰性算法,在分類階段,每個待分類文本都需要與所有訓練樣本做相似度計算,從而找出K 個最近鄰,其時間復雜度與訓練集的樣本數(shù)量成正比,因此在大樣本集下,分類速度會嚴重降低,缺少實用性。針對這一問題,目前主要在減小計算量方面做了一些相關研究[5-8],但它們在面對大數(shù)據時,效果不是很理想。針對此現(xiàn)狀,提出了基于K-Medoids聚類的改進KNN算法。實驗結果表明,該改進算法不僅能夠提高運行效率,還能夠提高分類能力。

        承認、接納消極情緒的存在,與之好好相處,不要試圖將其趕走,不要一味地對抗,把消極情緒當成來你家做客的人,好好招待它。當它受到友好的接待,自然會滿意而安靜地離開。

        1 K 最近鄰算法

        KNN 算法以其簡單性、有效性而成為基于向量空間模型 (VSM)[9]的最好分類算法之一。文獻 [9]指出VSM的主要思想是:假設文檔中的詞條是相互獨立的,跟詞條出現(xiàn)的位置無關,將文檔映射為一組詞條相量 (T1,W1,T2,W2,……,T3,W3),其中,Ti為特征向量詞條,Wi為Ti的 權 重。

        假定文本訓練集為S,S 有N 個類別C1,C2,……,CN,S 的總文本數(shù)為M。在KNN 分類算法的訓練階段,首先對文本訓練集S 進行分詞,接著對特征維數(shù)進行降維,最后把訓練集文本表示為特征向量:Di= {X1,X2,……,Xn}T(0<i≤M);在KNN 算法的分類階段,首先需要按照訓練階段的過程將待分類文本D 表示為特征向量:D={X1,X2,……,Xn}T,再在文本訓練集S 中找出與待分類文本D 最相似的K 個文本Di= {X1,X2,……,Xn}T(0<i≤K),以這K 個最近鄰文本的類別作為候選類別,最后計算待分類文本D 在這些類別里的隸屬度,從而把待分類文本D 歸屬到隸屬度最大的類別。KNN 算法的具體步聚如下:

        步驟1 對文本訓練集進行分詞。

        步驟2 對訓練集文本的特征項進行降維。

        2) 目前,高職院校會展英語教材的語言和專業(yè)知識沒有達到有機結合:交際任務不切合實際,缺乏時效性;教材難度控制不夠;重難點不突出;缺少必要的語言技能練習;沒有開發(fā)多媒體資源;內容不適應當前經濟發(fā)展的需要;中西方文化差異在工作流程中沒有體現(xiàn)。

        1.以間質結締組織增生為主。肝呈灰白色,發(fā)硬。由于間質結締組織增生,使肝細胞受壓后呈現(xiàn)增生,形成結節(jié)狀隆起,肝臟表面不平整。

        步驟5 利用向量夾角余弦公式來計算待分類文本D與訓練集文本Di的相似度,公式為

        步驟4 對待分類文本進行步驟1 到步驟3 的處理工作。

        3.2.2 嚴密觀察患者 護士應經常巡視病房,早發(fā)現(xiàn)、早防范有精神異動患者,采取外緊內松的管理模式,做好患者的心理疏導,鼓勵患者參加適度的體育鍛煉、文娛活動分散患者注意力,不讓患者存在自卑;精神異常發(fā)作時及時采取約束帶和暫時性的保護性隔離措施。

        步驟6 選出與待分類文本D 最相似即sim (D,Di)最大的K 個文本作為文本D 的最近鄰。

        步驟7 根據這K 個最近鄰,計算待分類文本D 在各個類別里的隸屬度。計算公式為

        式中:δ(D,Cm)表示若待分類文本D 屬于類別Cm則值為1,否則為0,δ(D,Cm)的計算公式為

        步驟8 選出隸屬度最大的類別Cm,并將待分類文本D 歸入到該類別Cm中。

        今年復合肥總體價格高于去年同期,而且還高了不少。以45%硫基復合肥為例,較去年同期增長14%,原料尿素同比增長28%,磷酸一銨同比增長14%左右,氯化鉀同比增長6.4%,硫酸鉀同比增長17.6%。是什么原因導致今年復合肥價格如此之高?其主要原因有以下幾個方面:

        2 基于K-Medoids聚類的改進KNN 算法

        雖然KNN 算法是一種經典的文本分類算法,但它是一種懶惰算法,在分類階段具有明顯的缺點:需要計算每個待分類文本與訓練集所有樣本的相似度,時間復雜度與訓練集樣本數(shù)成正比,當面對著海量的訓練樣本時,KNN 算法的運行速度將大幅下降,失去實用性。針對這個問題,提出使用聚類方法對訓練集進行刪減以減少計算開銷。在對訓練集進行裁剪的方法中,有利用K-means聚類算法來獲取簇心,從而實現(xiàn)對訓練樣本進行裁剪的方法[10];也有利用DBSCAN 聚類算法來確定類內樣本分布,并根據樣本分布密度來進行裁剪的方法[11]。但在K-means算法中,用均值方法來更新簇的中心值時,會導致其產生的族類大小相差不大、對噪聲和孤立點數(shù)據非常敏感等缺點[12];在DBSCAN 算法中,需要多個參數(shù),這些參數(shù)的設置通常是依靠個人經驗,難以確定。針對K-means和DBSCAN 聚類算法裁剪的不足,提出了一種基于K-Medoids聚類算法的KNN 分類器訓練集裁剪方法。該方法首先利用K-Medoids聚類算法對訓練集進行聚類,從而得到類別分布結構,再根據待分類文本與各個簇心的距離來對訓練集進行裁剪,從而減少K 最近鄰算法的相似度計算量。

        我國高鐵走出國家的形勢雖然良好,有著很大的潛力,但一些挑戰(zhàn)是不可避免的,激烈的競爭、國際形勢、未知的不利因素都是阻礙高鐵發(fā)展的重要因素。

        2.1 K-Medoids聚類算法

        聚類是一種把相似度較高的個體歸為一簇的方法,使得簇內的個體相似度較高,簇間的個體相似度較低?;趧澐值木垲愃惴ň哂泻唵?、準確等優(yōu)點,其中K-Means和K-Medoids是經典的基于劃分的聚類算法,文獻 [13]指出K-Means算法本身的特點不適合多數(shù)生產實踐的聚類分析,因此基于K-Medoids算法的樣本裁剪研究很有必要。

        (4)使用2.2節(jié)所講的裁剪方法對文本訓練集S進行裁剪,得到新的訓練集Snew。

        在做一些練習題的時候,教師可以引入競爭的機制,充分調動學生的參與積極性。(1)擴大練習面,要照顧到每一位學生。在學生練習過程中教師要不斷了解情況,根據不同層次的學生采取有針對性的措施,調動他們的學習積極性,提高練習效率。(2)經過一段時間的練習,教師要篩選出有代表性的題目,做成卡片或結合實際,加強鞏固學生的知識,使其能夠穩(wěn)步提高。(3)對于計算有一些困難的學生,教師要弄清楚他們的問題出在哪里,要幫助他們有效地解決困難,努力消除學生心理上的負擔,提高他們的自信心。

        2.2 基于K-Medoids聚類的樣本裁剪方法

        步驟4 在每個簇內部順序選擇一個非簇心的文本對象Otmp,計算以Otmp為簇心的消耗代價Etmp,若Etmp<Ei,則表明聚類在收斂,用Otmp更新簇心Oi,繼續(xù)迭代,直到Ei小于Etmp且各個簇心不再發(fā)生變化為止,此時聚類結束。

        步驟3 把訓練集文本表示為特征向量。

        假定文本訓練集為S,S 有N 個類別C1,C2,……,CN,S 的總文本數(shù)為M。S 首先被K-Medoids聚類算法分為r個簇,記X 為各個簇的簇心,X∈S,sim(Di,Dj)為訓練樣本Di和Dj的相似度,Simmin代表簇內的各個樣本與簇心X 之間的相似度的最小值。則文本訓練集S 就可以表示為以簇心X 為球心,Simmin為半徑的r個球體。

        步驟1 對于文本訓練集S,指定需要劃分成r個簇,r=3×N。

        患側手腫脹是腦卒中偏癱患者的常見并發(fā)癥之一,其發(fā)生率約為12.5%~70.0%[1]。水腫以手背部最為明顯,常波及手指和手掌[2]。如不及時干預不僅導致粘連、攣縮等手部功能障礙,且降低患者本人的生活自理能力、增加其與家人的生活負擔??祻椭委熢缙诟深A有利于手腫脹的快速消退、減少并發(fā)癥,促進手功能恢復,提高患者的生活質量。目前,針對腦卒中患手腫脹的報道大多針對中后期肩手綜合征導致的手腫治療[3],而對于其早期康復干預的報道較少。同時因氣壓治療及神經肌肉電刺激治療水腫的機理不同,本研究將兩種治療方案疊加使用,探討其對改善重癥監(jiān)護室腦卒中患側手腫脹的患者肢體腫脹是否有疊加效果。

        步驟2 為每個簇隨機選擇一個簇心Oi(0<i≤r)。

        步驟3 計算文本訓練集S 中的其它非簇心文本與這r個簇心的相似度,把它們歸給相似度最大的簇,同時統(tǒng)計以Oi為簇心的消耗代價Ei和每個簇的最小相似度Simmin。

        在KNN 算法的分類過程中,對于每個待分類文本D,它的類別C 是確定的,根據相似度計算公式得到的K 個最近鄰文本,一般也是屬于類別C 的,如果不是,也應該是在類別C 的周圍。故可以假設如果只讓D 與類別C 的文本(包括類別C 附近的文本)計算相似度的話,則可以大大地減少計算量?;诖耍岢隽嘶贙-Medoids聚類的樣本裁剪方法。

        步驟5 計算待分類文本與每個簇心的相似度Sim(D,Oi),若Sim(D,Oi)<Simmin,表明這個待分類文本與這個簇內的文本的相似度很低,所以把這個簇內的文本裁剪掉,否則把這個簇內的文本加入到分類運算中去,從而得到新的訓練集Snew。

        2.3 基于K-Medoids聚類的改進KNN 算法

        在KNN 文本分類算法中,通過K-Medoids聚類將訓練集分為多個簇,再挖掘文本訓練集的類別分布結構,最后計算每個待分類文本與簇心的相似度,若得到的相似度小于該簇內的最小相似度,則不把這個簇內的訓練集文本加入計算范圍,減少樣本數(shù)量,從而降低計算開銷。綜上所述,提出的基于K-Medoids聚類的改進KNN 文本分類算法流程如下和流程如圖1所示。

        圖1 基于K-Medoids算法的KNN 分類流程

        (1)首先采用開源工具IKAnalyzer對中文文本進行分詞、去停用詞等預處理。

        (2)采用文檔頻率方法對特征維數(shù)進行降維,設置最低文檔頻閥值為200。

        (3)采用權重計算公式TFIDF來計算文本特征項的權重,從而得到文本的向量空間模型即特征向量,權重計算公式為:Wik=tfik×idfk,其中tfik表示特征項Tk在文本Di的詞頻,idfk表示特征項Tk出現(xiàn)的文檔頻率的反比。

        K-Medoids算法[13]的思想是:對于數(shù)據集,首先需要指定劃分成多少個簇,即任意選擇K 個不同數(shù)據對象作為初始簇心Oi(0<i≤K),接著根據其它對象與每個簇心的相似度,把它們分配給相似度最大的簇,最后在每個簇內部順序選擇一個非簇心的樣本對象Otmp,計算以Otmp為簇心的消耗代價Etmp,若Etmp<Ei,則表明聚類在收斂,用Otmp更新簇心Oi,繼續(xù)迭代,直到Ei小于Etmp且各個簇心不再發(fā)生變化為止,此時聚類結束。

        (5)對于每個待分類文本D,根據第一節(jié)所講的KNN分類流程,對待分類文本D 進行分類,實驗中設置KNN算法中的參數(shù)K=20。

        3 實驗結果及分析

        對提出的改進方法進行了實驗,設計如下實驗:實驗環(huán)境 為Windows 7 64 位 操 作 系 統(tǒng)、CPU 為AMD A8-5600K、內存為8G 和Eclipse集成開發(fā)工具,實驗數(shù)據全部來自于復旦大學發(fā)布的分類語料庫,從中我們選取了一組一定規(guī)模的訓練集及其對應的測試集,它們的類別包括藝術、歷史、計算機、環(huán)境、農業(yè)、經濟和政治。訓練集最小類別為歷史類,文本數(shù)為350篇,最大類別為環(huán)境類,文本數(shù)為450篇,文檔總數(shù)為2905;測試集最小類別為藝術類,文本數(shù)為280 篇,最大類別為環(huán)境類文本數(shù)為450篇,測試集文檔總數(shù)為2525篇。分類效果的評價指標采用準確率 (precision)、召回率 (recall)和F1 值,時間采用多次實驗的平均值。

        準確率是指使用文本自動分類算法分類的所有文本中與人工分類結果一致的文本所占的比率,其數(shù)學公式為

        召回率是指用人工分類的所有文本中與使用文本自動分類算法分類的文本一致所占的比率,其數(shù)學公式為

        通常情況下準確率和召回率兩者呈互補狀態(tài),單純提高一個指標會導致另一個指標下降。所以,需要一個指標綜合考慮這2個因素,這就是F1值,其數(shù)學公式為

        分別與傳統(tǒng)的KNN 算法和基于K-Means的改進KNN算法進行了比較,數(shù)據統(tǒng)計實驗結果見表1。

        根據上述基礎地理單元劃分、點位風險評價、水稻產地土壤風險評價、稻米風險評價、水稻富集系數(shù)及土壤-稻米協(xié)同風險評價結果劃分風險評價單元,將研究區(qū)域內稻田劃分成125個風險評價單元,其中,優(yōu)先保護類、安全利用類和嚴格管控類的評價單元分別有85個、38個和2個。按風險等級劃分,區(qū)域內無、低、中、高風險單元分別有85個、30個、8個和2個,未出現(xiàn)極高風險單元(圖5)。

        表1可以看出,基于K-Medoids算法改進的KNN 算法與傳統(tǒng)KNN 算法相比,不僅在分類速度上有所提高,而且在準確率、召回率和F1 值上也有所提高,在各個類別的F1值下全面提高,平均提高了0.92;在各個類別的查準率上只有在歷史類別上有所下降,平均提高了0.99%;在各個類別的查全率上,只在歷史、環(huán)境、農業(yè)和經濟這4 個類別上有所提高,平均提高了0.86%;但是在分類速度上提高了將近一倍,這樣的改進效果是令人非常滿意的。從表1可以看出,基于K-Medoids算法改進的KNN 算法與基于K-Means算法改進的KNN 算法相比,不僅在平均查全率和平均F1值上表現(xiàn)得更好,也在速度上有所提升,原因是K-Means算法形成的簇類大小相差不大,導致平均裁剪數(shù)較多,比K-Medoids算法多出了2 3 1個文本,誤刪的機會也就更大。雖然K-Means算法裁剪的訓練文本數(shù)較多,但K-Means算法在收斂時所花費的時間比K-Medoids要長,所以在分類速度上K-Mediods 算法的表現(xiàn)要比KMeans算法上少花費了99S。

        表1 實驗結果

        4 結束語

        針對KNN 算法的分類階段,需要計算待分類文本與文本訓練集中所有文本的相似度,計算量大的特點,提出了基于K-Medoids聚類算法的改進KNN 方法,利用K-Medoids聚類算法來形成簇,再根據待分類文本與簇心的相似度來對訓練集進行合理裁剪以減少計算開銷。雖然樣本裁剪方法可以減少計算開銷,但不可避免地帶來了樣本信息的損失。如何更有針對性和更有效率地對樣本進行裁剪,是我們今后需要進行研究的方向。

        [1]DAI Lei,MA Weidong,WANG Lingnan,et al.Weightbased naive Bayes classifier design and implementation [J].Information Studies:Theory & Application,2008,31 (3):440-442 (in Chinese).[代磊,馬衛(wèi)東,王凌楠,等.基于權重的樸素貝葉斯分類器設計與實現(xiàn) [J].情報理論與實踐,2008,31 (3):440-442.]

        [2]QIN Yuping,AI Qing,WANG Xiukun,et al.Study on multi-subject text classification algorithm based on support vector machines [J].Computer Engineering and Design,2008,29 (2):408-410 (in Chinese). [秦玉平,艾青,王 秀 坤,等.基于支持向量機的兼類文本分類算法研究 [J].計算機工程與設計,2008,29 (2):408-410.]

        [3]Zhang Minling,Zhou Zhihua.ML-KNN:A lazy learning approach to multi-label learning [J].Pattern Recognition,2007,40 (7):2038-2048.

        [4]FENG Guohe,WU Jingxue.A literature review on the im-provement of KNN algorithm [J].Library and Information Service,2012,56 (21):97-100 (in Chinese).[奉國和,吳敬學.KNN 分類算法改進研究進展 [J].圖書情報工作,2012,56 (21):97-100.]

        [5]LI Kaiqi,DIAO Xingchun,CAO Jianjun,et al.High precision method for text feature selection based on improved ant colony optimization algorithm [J].Journal of PLA University of Science and Technology (Natural Science Edition),2010,11 (6):634-639 (in Chinese). [李凱齊,刁興春,曹建軍,等.基于改進蟻群算法的高精度文本特征選擇方法 [J].解放軍理工大學學報 (自然科學版),2010,11 (6):634-639.]

        [6]YAN Peng,ZHENG Xuefeng,LI Mingxiang,et al.Feature selection method based on Bayes reasoning in two-class text classification [J].Computer Science,2008,35 (7):173-176 (in Chinese).[閆鵬,鄭雪峰,李明祥,等.二值文本分類中基于Bayes 推理的特征選擇方法 [J].計算機科學,2008,35 (7):173-176.]

        [7]WU Chunying,WANG Shitong.Improved KNN Web text classification method [J].Application Research of Computers,2008,25 (11):3275-3277 (in Chinese).[吳春穎,王士同.一種改進的KNN Web文本分類方法 [J]計算機應用研究,2008,25 (11):3275-3277.]

        [8]ZHANG Xiaofei,HUANG Heyan.An improved KNN text categorization algorithm by adopting cluster technology [J].Pattern Recognition and Artificial Intelligence,2009,22 (6):936-940 (in Chinese).[張孝飛,黃河燕.一種采用聚類技術改進的KN 文本分類方法 [J].模式識別與人工智能,2009,22 (6):936-940.]

        [9]YAO Qingyun,LIU Gongshen,LI Xiang.VSM-based text clustering algorithm [J].Computer Engineering,2008,34(18):39-44 (in Chinese).[姚清耘,劉功申,李翔.基于向量空間模型的文本聚類算法 [J].計算機工程,2008,34(18):39-44.]

        [10]LIU Haifeng,YAO Zeqing,SU Zhan,et al.A clusteringbased method for reducing the amount of sample in KNN text categorization on the category deflection [J].Microelectronics&Computer,2012,29 (5):24-28 (in Chinese).[劉海峰,姚澤清,蘇展,等.文本分類中基于K-means的類偏斜KNN樣本剪裁 [J].微電子學與計算機,2012,29 (5):24-28.]

        [11]GOU Heping,JING Yongxia,F(xiàn)ENG Baiming,et al.An improved KNN text categorization algorithm based on DBSCAN [J].Science Technology and Engineering,2013,13(1):1671-1815 (in Chinese). [茍和平,景永霞,馮百明,等.基于DBSCAN 聚類的改進KNN 文本分類算法 [J].科學技術與工程,2013,13 (1):1671-1815.]

        [12]HAN Xiaohong,HU Yu.Research of K-means algorithm[J].Journal of Taiyuan University of Technology,2009,40(3):236-239 (in Chinese).[韓曉紅,胡彧.K-means聚類算 法 的 研 究 [J].太 原 理 工 大 學 學 報,2009,40 (3):236-239.]

        [13]ZHANG Xueping,GONG Kangli,ZHAO Guangcai.Parallel KMedoids algorithm based on MapReduce[J].Journal of Computer Applications,2013,33 (4):1023-1025 (in Chinese). [張雪萍,龔康莉,趙廣才.基于MapReduce的K-Medoids并行算法[J].計算機應用,2013,33 (4):1023-1025.]

        猜你喜歡
        分類文本
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據分析中的分類討論
        教你一招:數(shù)的分類
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉化
        人間(2015年20期)2016-01-04 12:47:10
        少妇人妻在线伊人春色| 成人免费网站视频www| 欧美在线播放一区二区| 亚洲毛片av一区二区三区| 日韩精品一区二区免费| 波多野结衣久久精品99e| 无码熟熟妇丰满人妻啪啪| 色婷婷色99国产综合精品| 美女和男人一起插插插| 久久精品国产字幕高潮| 精品久久久噜噜噜久久久| 国产小屁孩cao大人免费视频| 国产激情视频在线观看首页| 成人欧美一区二区三区黑人| 人人妻人人妻人人片av| 欧美色色视频| 风流少妇一区二区三区91| 亚洲国产精品久久精品| 人人狠狠综合久久亚洲| 日本不卡一区二区高清中文| av黄色大片久久免费| 国模精品一区二区三区| 久久成人麻豆午夜电影| 中文熟女av一区二区| 免费视频无打码一区二区三区| 九九热线有精品视频86| 亚洲AV秘 无码一区二p区三区| 午夜精品人妻中字字幕| 日韩av无码中文字幕| 国产女女精品视频久热视频| 亚洲AVAv电影AV天堂18禁 | 亚洲国产成人久久精品一区| 香港台湾经典三级a视频| 亚洲免费不卡| 中文字幕亚洲视频三区| 深夜爽爽动态图无遮无挡| 欧美变态口味重另类在线视频 | 日本高清www午色夜高清视频| 久久久精品亚洲懂色av| 亚洲午夜狼人综合影院| 天堂草原电视剧在线观看图片高清|