亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于潛在主題的科技項(xiàng)目均衡分組算法

        2016-12-13 05:13:02楊文顯徐小良
        關(guān)鍵詞:方法模型

        楊文顯,徐小良

        (杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江 杭州 310018)

        ?

        基于潛在主題的科技項(xiàng)目均衡分組算法

        楊文顯,徐小良

        (杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江 杭州 310018)

        在LDA模型對項(xiàng)目初步分組的基礎(chǔ)上,提出了一種項(xiàng)目均衡分組的調(diào)整策略.利用LDA模型挖掘科技項(xiàng)目集中隱含的主題分布,借鑒模糊理論的核心思想,以隱含主題為聚類中心實(shí)現(xiàn)科技項(xiàng)目的模糊聚類,并根據(jù)最大隸屬度對項(xiàng)目集進(jìn)行初步分組;針對分組項(xiàng)目數(shù)量相差較大的情況,提出一種基于隸屬度與主題區(qū)分度的項(xiàng)目均衡分組策略,根據(jù)規(guī)則及參數(shù)設(shè)置遍歷大組中的項(xiàng)目并對個(gè)別項(xiàng)目進(jìn)行分組微調(diào),從而實(shí)現(xiàn)項(xiàng)目主題相近與數(shù)量均衡的折衷分組結(jié)果.實(shí)驗(yàn)結(jié)果表明,采用該方法得到的分組結(jié)果在保證主題相近的基礎(chǔ)上,實(shí)現(xiàn)了分組數(shù)量的均衡.

        均衡分組;主題模型;模糊聚類

        0 引 言

        在項(xiàng)目評審安排工作中,不僅要保證項(xiàng)目分配給相關(guān)研究領(lǐng)域的專家,同時(shí)使得各個(gè)專家分配到的項(xiàng)目數(shù)量盡量地相近.目前,一些項(xiàng)目的評審仍是由管理部門憑借主觀判斷人為地進(jìn)行均衡分組.隨著學(xué)科細(xì)分、交叉研究,科技項(xiàng)目之間的聯(lián)系變得越來越復(fù)雜,這導(dǎo)致人工分組越來越困難.文本聚類作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法[1],不需要預(yù)先對文檔進(jìn)行類別標(biāo)注,即可將文本集合劃分為不同的子集,使得同一個(gè)子集中的文檔相似度較高,而不同子集的文檔相似度較低.然而,傳統(tǒng)的文本聚類算法一般都未考慮聚類結(jié)果的數(shù)量分布問題,因此不適用于處理一些特定領(lǐng)域中的實(shí)際問題,如綜合面試中的均衡分組問題[2]、突發(fā)事件應(yīng)急救援人員的分組問題、網(wǎng)絡(luò)能量的負(fù)載均衡、通信公司基站位置的選取等.本文提出一種基于LDA模型[3]的科技項(xiàng)目均衡分組算法,解決了項(xiàng)目按隱含主題進(jìn)行均衡分組的問題,實(shí)現(xiàn)了科技項(xiàng)目的科學(xué)化分類,為合理送審項(xiàng)目提供了預(yù)處理方案.

        1 主題生成模型

        主題模型是一種對文本隱含主題進(jìn)行建模的方法,是自然語言處理領(lǐng)域中文本潛在語義挖掘的利器,它可以挖掘出文本之間隱含的語義關(guān)聯(lián).LDA模型作為主題生成模型的典型代表,可以將高維的文本集合映射到低維的潛在語義空間.基于該模型的聚類算法應(yīng)用于項(xiàng)目文檔的分組,可以將具備同一主題的文檔聚為一類,其聚類效果受“噪音”以及孤立點(diǎn)的影響較小.

        2 一種基于LDA模型的項(xiàng)目均衡分組算法

        2.1 基于LDA模型的項(xiàng)目初步分組

        傳統(tǒng)的聚類分析方法目的是為了實(shí)現(xiàn)數(shù)據(jù)對象的硬劃分[4],利用該方法對項(xiàng)目進(jìn)行分組,每個(gè)項(xiàng)目僅屬于一個(gè)確定的子集.然而在客觀世界中,將一些邊界數(shù)據(jù)硬性地劃分到唯一的簇中,顯然有失合理性.文本主題之間的界限并非那么分明,一個(gè)文本通常是由多個(gè)主題以不同的比例混合而成的,所以傳統(tǒng)的文本聚類方法不適用于解決項(xiàng)目的分組問題.本文借鑒由美國教授L.A.Zadeh創(chuàng)立的模糊集合理論的基本思想,利用LDA主題生成模型挖掘項(xiàng)目集中隱含的主題分布,并以主題為聚類中心實(shí)現(xiàn)科技項(xiàng)目的模糊聚類.根據(jù)分組準(zhǔn)確性以及均衡性的實(shí)際需求,在模糊聚類中尋找項(xiàng)目主題相近與數(shù)量均衡的折衷分組結(jié)果.

        給定需要分組的科技項(xiàng)目集合D={d1,d2,…,dm}以及分組個(gè)數(shù)k,經(jīng)過LDA主題建模后得到的隱含主題集合為T={t1,t2,…,tk}.定義項(xiàng)目di隸屬于隱含主題tj的隸屬度為:

        (1)

        其中,Sim(di,tj)表示項(xiàng)目di與隱含主題tj之間的相似度值,該值可通過計(jì)算項(xiàng)目文本的特征向量與隱含主題向量的夾角余弦得到.對于任意給定的項(xiàng)目di,有αi,1+αi,2,…,αi,k=1.基于隸屬度α值可以得到項(xiàng)目di對應(yīng)于各個(gè)主題之間的區(qū)分度ω的計(jì)算公式:

        (2)

        根據(jù)隸屬度α值可以將m個(gè)項(xiàng)目映射到k個(gè)隱含主題當(dāng)中,從而得到模糊集R=D×T.其中模糊集R由項(xiàng)目集D與隱含主題集T的笛卡爾積構(gòu)成.當(dāng)各個(gè)項(xiàng)目分別以最大隸屬度αmax值進(jìn)行分組決策時(shí),可以得到項(xiàng)目集的初步分組結(jié)果.

        2.2 項(xiàng)目均衡分組調(diào)整算法

        為了衡量科技項(xiàng)目分組結(jié)果的均衡性,本文引入均衡度的概念.記項(xiàng)目初步分組的結(jié)果G={g1,g2,…,gk},各組包含項(xiàng)目數(shù)量的集合S={s1,s2,…,sk},則第i組項(xiàng)目gi的均衡度為:

        (3)

        在對科技項(xiàng)目進(jìn)行分組時(shí),需要綜合考慮分組的準(zhǔn)確性以及均衡性.為此,本文定義如下規(guī)則在保證分組準(zhǔn)確性的前提下調(diào)整個(gè)別項(xiàng)目的劃分以提高最終分組結(jié)果的均衡性:

        1)至少存在一組項(xiàng)目的均衡度大于預(yù)設(shè)指標(biāo)γ,否則表明該分組策略整體均衡性能滿足要求,直接作為最終的分組結(jié)果.

        2)待調(diào)整的項(xiàng)目必須滿足與目標(biāo)主題的隸屬度大于給定閾值β0,并且調(diào)整前后的主題區(qū)分度小于給定閾值μ;否則表明項(xiàng)目與原主題具有較強(qiáng)的相關(guān)性,若強(qiáng)制進(jìn)行調(diào)整會導(dǎo)致分組準(zhǔn)確率降低.

        3)項(xiàng)目調(diào)整后必須保證分組數(shù)量的整體均衡性有所提高;否則拒絕調(diào)整.

        4)若候選項(xiàng)目根據(jù)規(guī)則進(jìn)行調(diào)整后各組數(shù)量的均衡度仍無法滿足要求,則以當(dāng)前的劃分作為最終的項(xiàng)目分組結(jié)果;否則表明此時(shí)分組結(jié)果在準(zhǔn)確性與均衡性之間達(dá)到了平衡,輸出調(diào)整后的均衡分組結(jié)果.

        基于LDA模型進(jìn)行項(xiàng)目分組的整體流程圖如圖1所示.

        圖1 基于LDA模型的項(xiàng)目分組整體流程圖

        基于上述規(guī)則,得到項(xiàng)目均衡分組算法,具體步驟描述如下:

        1)輸入項(xiàng)目集初步分組結(jié)果的數(shù)量分布集合S={s1,s2,…,sk}以及隸屬度矩陣M=(αi,j),其中i=1,2,…,m,j=1,2,…,k;

        2)遍歷集合S并計(jì)算各組均衡度λ,若存在λi大于指標(biāo)γ時(shí),則執(zhí)行步驟3;否則跳轉(zhuǎn)步驟5;

        4)遍歷候選映射集F,當(dāng)(λj-λj′)>0時(shí),接受當(dāng)前調(diào)整并替換初始映射集I中當(dāng)前項(xiàng)目di的映射,置i++,對F中下一個(gè)項(xiàng)目進(jìn)行判斷;否則遍歷當(dāng)前項(xiàng)目的下一個(gè)映射,并判斷均衡性是否提高,若提高則接受當(dāng)前調(diào)整,并置i++,否則拒絕調(diào)整;當(dāng)候選集合F遍歷完成時(shí),執(zhí)行步驟5;

        5))輸出最終映射結(jié)果集I′.

        本文涉及到的均衡指標(biāo)γ、隸屬度閾值β0以及主題區(qū)分度閾值μ可以根據(jù)對分組均衡性與準(zhǔn)確性的不同要求進(jìn)行靈活地設(shè)置.

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 評價(jià)指標(biāo)

        本實(shí)驗(yàn)采用均方根誤差(Root-Mean-Square Error,RMSE)[5]作為項(xiàng)目分組整體均衡性能的評價(jià)指標(biāo).RMSE通過計(jì)算每組的項(xiàng)目數(shù)量和預(yù)期的項(xiàng)目數(shù)量的偏差來度量分組結(jié)果的整體均衡性,RMSE值越小,分組的均衡性能越好.RMSE可以直觀地對分組均衡性進(jìn)行度量并且易于理解.假設(shè)分組結(jié)果的數(shù)量分布集合為S={s1,s2,…,sk},預(yù)期的分組結(jié)果為S′={s1′,s2′,…,sk′},計(jì)算公式如下:

        (4)

        對于單組項(xiàng)目的均衡情況,本文通過計(jì)算該組包含項(xiàng)目數(shù)量的相對偏差(Relative deviation,RD)值來衡量.RD值越小表明該組所含項(xiàng)目數(shù)量與預(yù)期均衡數(shù)量越接近.對于第i組項(xiàng)目RD值計(jì)算公式如下:

        (5)

        3.2 實(shí)驗(yàn)設(shè)置及結(jié)果分析

        國家科技報(bào)告服務(wù)系統(tǒng)是科技報(bào)告面向社會展示和提供開放共享服務(wù)的基礎(chǔ)平臺.為此,本實(shí)驗(yàn)從國家科技報(bào)告服務(wù)系統(tǒng)中抽取實(shí)驗(yàn)數(shù)據(jù),整理并選取了內(nèi)容相對比較完整的120篇科技項(xiàng)目報(bào)告文檔.基于科技項(xiàng)目報(bào)告文檔的報(bào)告名稱、中文摘要以及關(guān)鍵詞進(jìn)行分組實(shí)驗(yàn).本文實(shí)驗(yàn)方法設(shè)置如下:1)方法1是在不考慮均衡的情況下,利用LDA進(jìn)行主題建模,并根據(jù)文檔與主題向量之間的最大隸屬度對項(xiàng)目集進(jìn)行分組.2)方法2是在考慮均衡性的情況下,利用本文方法,通過LDA模型進(jìn)行主題建模并構(gòu)建項(xiàng)目—主題完全二分圖,根據(jù)主題區(qū)分度以及分組均衡度指標(biāo)對項(xiàng)目文檔進(jìn)行均衡分組.當(dāng)給定分組數(shù)k=5時(shí),根據(jù)由反復(fù)實(shí)驗(yàn)獲得的經(jīng)驗(yàn)值設(shè)置均衡指標(biāo)γ=0.167,隸屬度閾值β0=0.215以及主題區(qū)分度閾值μ=0.100,分別利用方法1以及方法2(本文方法)對項(xiàng)目文檔進(jìn)行分組.通過計(jì)算各組的RD值來分析兩種算法的均衡性能.圖2展示了分組結(jié)果中項(xiàng)目文檔數(shù)量分布的情況,圖3為各組的RD值情況.

        圖2 各組所含項(xiàng)目文檔數(shù)量情況

        圖3 各組的RD值情況

        從圖3可知,采用方法1對項(xiàng)目文檔進(jìn)行分組后,各組的RD值波動較大,并且普遍高于方法2,這表明該方法的分組結(jié)果均衡性能較差;而利用本文方法進(jìn)行分組,分組結(jié)果中RD值分布曲線較為平穩(wěn),并且各組RD值均低于方法1,這表明本文方法分組結(jié)果均衡性能較好.在滿足規(guī)則的條件下對項(xiàng)目進(jìn)行分組微調(diào),提高了分組的均衡性.表1給出了項(xiàng)目分組調(diào)整前后的隸屬度以及主題區(qū)分度的情況.

        表1 微調(diào)項(xiàng)目隸屬度與主題區(qū)分度表

        圖4 不同分組數(shù)下RMSE值情況

        為衡量本文方法分組的整體均衡性能,分組數(shù)k分別取不同的值時(shí),計(jì)算兩種方法分組的RMSE值.如圖4所示.

        從圖4可以看到,利用本文方法進(jìn)行分組,在分組數(shù)k取不同值時(shí),分組的均衡性能比較穩(wěn)定,而方法1的分組結(jié)果則受分組數(shù)k的影響較大,并且RMSE值均大于方法2.所以綜上可知,本文方法應(yīng)用于科技項(xiàng)目文檔的分組具有較好的均衡性能.

        4 結(jié)束語

        本文提出了基于潛在主題模型的科技項(xiàng)目均衡分組算法.項(xiàng)目分組送審中,在保證主題相近的基礎(chǔ)上,達(dá)到了分組數(shù)量的均衡,實(shí)現(xiàn)了項(xiàng)目科學(xué)化分組.將本文方法應(yīng)用于項(xiàng)目評審專家智能推薦系統(tǒng)中,可以批量將待審項(xiàng)目分組并合理指派給評審專家,有一定的實(shí)際應(yīng)用價(jià)值.

        [1]SHEHATA S, KARRAY F, KAMEL M S. An Efficient Concept-Based Mining Model for Enhancing Text Clustering[J].Knowledge & Data Engineering,IEEE Transactions on,2010, 22(10):1360-1371.

        [2]陳媛,樊治平,謝美萍.綜合面試中的均衡分組方法[J].中國管理科學(xué),2014,22(8):123-129.

        [3]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3:993-1022.

        [4]裴繼紅,范九倫,謝維信.一種新的高效軟聚類方法[J].電子學(xué)報(bào),1998,26(2):83-86.

        [5]KOREN Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2008:426-434.Science and Technology Project Balanced Grouping Algorithm Based on Latent Topic

        YANG Wenxian, XU Xiaoliang

        (SchoolofComputer,HangzhouDianziUniversity,HangzhouZhejiang310018,China)

        On the basis of LDA model-based preliminary project grouping, this paper proposed an adjustment strategy for balanced project grouping. This method mined the topic distribution hidden intensively in scientific and technical projects by using LDA model, realized fuzzy clustering in scientific and technical projects for cluster centers, and grouped project sets preliminarily according to the maximum membership degree; considering the big number difference in grouping projects, the paper proposed a balanced project grouping strategy based on membership degree and topic division degree, traversed the projects in the super-group in accordance with rule and parameter setting, and fine-tuned individual projects by grouping them, realizing an eclectic grouping result that could ensure the similarity of project topics and the balance of numbers. The experimental result shows that this grouping method could help realize the balance of numbers on the basis of ensuring topic similarity.

        balanced grouping; topic model; fuzzy clustering

        10.13954/j.cnki.hdu.2016.06.007

        2016-03-16

        浙江省公益技術(shù)研究計(jì)劃資助項(xiàng)目(2015C33066)

        楊文顯(1991-),男,浙江義烏人,碩士研究生,機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘.徐小良教授,E-mail:xxl@hdu.edu.cn.

        TP391.1

        A

        1001-9146(2016)06-0030-04

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国产精品久久久久影院嫩草| 国产人妖伦理视频在线观看| 久久午夜无码鲁丝片直播午夜精品| 免费人成网在线观看品观网| 中文字幕一区二区三区| 国产亚洲精品久久午夜玫瑰园 | 无码色av一二区在线播放| 美丽的熟妇中文字幕| 亚洲成在人线av| 欧美一级视频在线| 国产成人亚洲精品91专区高清 | 中文字幕高清无码不卡在线| 中文字幕人妻一区色偷久久| 91精品国产综合久久久蜜| 曰韩无码av一区二区免费| 日本亚洲色大成网站www久久| 乱子真实露脸刺激对白| 国产精品白浆免费观看| 亚洲av老熟女一区二区三区| 熟女少妇内射日韩亚洲| 美女裸体自慰在线观看| 中文字幕麻豆一区二区| 日本国产精品久久一线| 激情内射日本一区二区三区| 免费在线视频一区| 精品国产污黄网站在线观看| 日韩av无码社区一区二区三区| 97精品久久久久中文字幕| 激情综合欧美| 国产av一区二区三区国产福利| 在线观看的a站免费完整版| 成 人 免 费 黄 色| 亚洲天堂2017无码中文| 日韩少妇人妻一区二区| 肥老熟女性强欲五十路| 最近中文字幕视频完整版在线看| 亚洲国产欧美在线成人| 久久激情人妻中文字幕| 亚洲国产一区二区中文字幕| 妺妺窝人体色777777| а√天堂资源8在线官网在线|