李欣苗 ,李 靖,張朋柱
(1.上海財經大學 信息管理與工程學院,上海 200433;2.上海交通大學 安泰經濟與管理學院,上海 200052)
當今時代創(chuàng)新是企業(yè)獲得和保持核心競爭力的首要因素。隨著經濟全球化和網絡等信息技術的廣泛應用,全球創(chuàng)新方向正在向開放式創(chuàng)新轉變[1]??珙I域、跨組織、跨地域的開放式創(chuàng)新團隊是開放式創(chuàng)新的主要載體[2]。開放式創(chuàng)新環(huán)境中,創(chuàng)新團隊成員分布在不同的地域和組織中,團隊成員通過網絡進行交互和協作。在這種情況下,基于網絡的電子研討成為開放式創(chuàng)新團隊最基本、最重要的創(chuàng)新活動[3]。
根據本文對上海貝嶺矽創(chuàng)微電子有限公司、上海華為技術有限公司、上海汽車集團股份有限公司等10余家科研院所與企業(yè)創(chuàng)新團隊的實地調研表明,開放式團隊創(chuàng)新過程會產生海量的電子研討信息,導致“信息過載”[4];而且,在開放式創(chuàng)新環(huán)境中,團隊成員分布在不同的組織、地域,甚至分布在不同的時區(qū)而導致工作時差,這使得開放式創(chuàng)新環(huán)境中的團隊成員更加難以及時準確地了解團隊創(chuàng)新進程,更加難以清晰有效地掌握團隊創(chuàng)新的最新進展。因此,及時準確地挖掘并識別海量電子研討信息的研討主題,并通過可視化方法形象地展示給創(chuàng)新團隊成員,這不僅有利于團隊成員及時了解創(chuàng)新進程,掌握創(chuàng)新成果,激發(fā)創(chuàng)新思維;而且能夠基于不同的研討主題為參與研討的相關成員推薦符合其需求的個性化知識和相應的領域專家,從而提高開放式團隊創(chuàng)新的效率和質量。
目前主題挖掘研究主要運用文本聚類方法。文本聚類方法主要包括基于向量空間模型(Vector Space Model,VSM)的文檔建模方法和基于語義的文檔建模方法[5]。但是,上述方法應用在開放式團隊創(chuàng)新研討主題挖掘時卻存在如下問題:
(1)上述方法均是基于詞頻的文檔建模方法,在長文本中詞語出現的頻率是文檔建模的重要信息,但是在只有十幾到幾十個詞語的短文本中,同一詞語很少會多次出現,這對于短文本就無法提取到足夠的詞頻特征。而開放式團隊創(chuàng)新的研討信息大多是交互式的短文本,而非長文本,這使得上述文檔建模方法難以在開放式團隊創(chuàng)新研討主題挖掘中表現出良好的性能[6]。
(2)傳統文本聚類方法沒有考慮開放式團隊創(chuàng)新研討過程自身的特點。開放式團隊創(chuàng)新研討過程是圍繞特定研究問題,針對某條發(fā)言,團隊成員之間進行的交互式的討論。根據這一特點,開放式團隊創(chuàng)新研討信息構成研討樹狀結構,在研討樹的“同一支”上常常討論相似的概念,如果沒有考慮這一特征則會導致開放式團隊創(chuàng)新研討主題聚類結果的不準確。有的學者雖然在研討主題聚類中考慮到了研討樹結構[7],但是由于他們使用基于VSM的文檔建模方法,沒有考慮研討文本的語義特征,并且過多依賴詞頻特征,使得研討主題聚類效果并不理想。
在研討主題聚類分析方面,目前使用較多的聚類算法是層次聚類法[8]。該方法雖然簡單,但可伸縮性較差,并且經常會遇到合并點或分裂點的選擇困難,因此導致低質量的聚類結果[9]。由于本文所研究的開放式團隊創(chuàng)新研討文本多為短文本,故本文運用AntSA算法對開放式創(chuàng)新環(huán)境中的研討文本進行聚類。區(qū)別于傳統聚類算法,AntSA算法[10]的輸入只需要知道樣本間的相似度,并不需要知道樣本在多維空間中的具體位置[11-12];而且,AntSA算法在處理短文本時表現出了很好的實驗效果[13],這正好適用于本文所運用的文檔建模方法。
綜上所述,本文針對當前傳統主題挖掘研究中存在的上述問題,研究并提出了開放式團隊創(chuàng)新研討主題識別方法,該方法首先運用基于本體的方法,構建開放式團隊創(chuàng)新研討信息本體,基于開放式團隊創(chuàng)新研討信息本體計算研討文本的語義相似度;同時充分考慮開放式團隊創(chuàng)新研討的樹狀結構特征,構建研討樹不同節(jié)點研討文本的相似度矩陣;進而,運用AntSA算法對研討文本進行聚類分析;并對聚類結果的主題標簽進行定量識別,從而識別并構建出研討主題的層次結構;最后,本文根據所提出的方法設計和開發(fā)了開放式團隊創(chuàng)新研討主題可視化系統,以直觀顯示研討主題識別的結果,從而有效支持開放式團隊創(chuàng)新。
本研究提出的開放式團隊創(chuàng)新研討主題識別方法如圖1所示。
圖1 開放式團隊創(chuàng)新研討主題識別方法
該方法分為研討文檔建模、聚類分析、研討主題識別三部分。
(1)在研討文檔建模中,運用基于本體的方法,構建研討信息本體。引入《知網》(How Net)的本體結構,不考慮詞頻信息,將研討樹中的研討信息用名詞列表的形式表示;然后,基于本體進行語義相似度計算,得到詞語之間的語義相似度矩陣;再考慮研討信息的樹狀結構特征,基于研討樹結構分析和計算研討樹節(jié)點文本的語義相似度,得到研討樹節(jié)點文本的語義相似度矩陣。該研討樹節(jié)點文本的語義相似度矩陣即為第2步聚類分析的輸入。
(2)針對開放式團隊創(chuàng)新研討的短文本特征,運用AntSA算法對研討文本進行聚類分析。運用Ant Tree算法分析開放式團隊創(chuàng)新研討樹節(jié)點文本的語義相似度矩陣,得到初始聚類簇;引入內部聚類有效性評價的輪廓系數對初始聚類簇中的對象排序,并將排序后的結果輸入AntSA算法,經過AntSA算法最終輸出研討文本的聚類結構。
(3)本研究對基于AntSA的聚類結果中的每個節(jié)點,通過計算節(jié)點中每個名詞的研討主題標簽貢獻率,識別每個類別的研討主題。最后,根據上述開放式團隊創(chuàng)新研討主題識別方法,本文設計和開發(fā)了研討主題可視化系統,對研討主題聚類結果進行可視化輸出。
1.1.1 分詞停詞處理 本文采用基于字符串匹配的分詞法——正向最大匹配法對研討信息進行分詞處理。根據統計,漢語中大約有117 097個名詞,約11 488個動詞,而其中有4 085個動詞具有名詞詞性,所以名詞可以較好的表達一個漢語文本的主題內容。因此,本文采用How Net中長度大于1的名詞來構建決策研討主題識別的分詞詞庫(長度等于1的名詞為1個字)。經過分詞處理后,1條研討文本對應于1個或多個名詞,研討文本被表示為名詞分詞集合的形式。
本研究經過反復實驗,發(fā)現開放式團隊創(chuàng)新研討文本中與研討總目標有關的名詞會成為研討主題識別中的“噪音”,影響研討主題聚類的效果,應該剔除。本文將研討總目標文本中的名詞提取出來構成停詞表。經過停詞處理后的非空名詞集合即為有效詞集合。
1.1.2 基于How Net本體的語義分析 在研討文檔建模中,針對開放式團隊創(chuàng)新研討的短文本特征,運用基于本體的方法,構建研討信息本體,并據此計算研討信息的語義相似度。引入《知網》(How Net)構建研討信息本體。How Net與大部分語義詞典類似,是基于樹狀層次結構的;不同的是,How Net是以義原作為節(jié)點,然后再用義原通過知網知識系統描述語言(Kownledge Database Makeup Language,KDML)對詞語進行描述。因此,基于How Net的語義相似度的度量方法首先需要計算義原的相似度,然后才能計算出詞語語義的相似度,進而計算出研討文本間的語義相似度。
在How Net中,義原之間存在多種關系,由于本文所提出的模型運用名詞進行文檔建模,對于名詞來說,義原之間的上下位關系非常重要,因此,本研究重點考慮義原的上下位關系。運用下式計算義原相似度[14]
式中:P1和P2表示2個義原;d為P1和P2在義原層次體系中的路徑長度;α是一個可調節(jié)的參數。
運用下式計算基于How Net的詞語語義相似度[14]
式中,βi為可調節(jié)的參數,且有
分別為第一基本義原描述、其他基本義原描述、關系義原描述,以及關系符號描述。它們對于總體相似度所起到的作用依次遞減。
經過詞語語義相似度計算之后,可得到不同詞語間的相似度集合,以語義相似度矩陣的形式表示。
1.1.3 基于研討樹結構的研討樹節(jié)點文本語義相似度計算 開放式團隊創(chuàng)新研討信息構成研討樹狀結構,研討樹上的研討文本之間為父子關系。傳統文本主題挖掘沒有考慮開放式團隊創(chuàng)新研討的樹狀結構特征,導致開放式團隊創(chuàng)新研討主題聚類結果的不準確。例如,對于討論同一主題中為“父-子”關系的前后2個研討節(jié)點,后者是前者的補充說明,并且后者會省略在前者研討文本中出現過的一些關鍵詞,倘若忽略這些關鍵詞,很可能會低估這2個研討節(jié)點的相似度。有鑒于此,本文在計算“父-子”關系的兩研討節(jié)點間語義距離時,考慮將父節(jié)點的名詞集合添加到子節(jié)點的名詞集合中,然后再計算兩者間相似度。即
式中:Di={Wi1,Wi2,…,Wim}與Dj={Wj1,Wj2,…,Wjn}表示2個研討文本;sim(Wip,Wjq)為詞語Wip與Wjq基于How Net的詞語語義相似度。當m=0或n=0時,將2個文本的相似度定義為0。這種方法通過計算所有特征值的兩兩相似度,保證所有詞語都經過了計算,從而每個名詞都能影響研討文本間的相似度值。運用此方法計算每個文本的相似度,進而可以形成一個m×m的對稱矩陣,其中m為文本數量。由此構建了研討樹節(jié)點文本的語義相似度矩陣,此矩陣即為下面將要提出的AntSA聚類算法的輸入。
在基于AntSA的研討主題聚類分析過程中,首先將研討文檔建模階段得到的研討樹節(jié)點文本語義相似度矩陣進行Ant Tree分析,得到一個初始的聚類簇;然后引入內部聚類有效性評價方法中的輪廓系數對初始聚類簇中的各個對象進行排序,并用排序后的結果作為AntSA算法的輸入;經過AntSA算法最終輸出研討文本的聚類結構。
1.2.1 Ant Tree算法 Ant Tree算法[15]是根據生物學中螞蟻的自我聚集行為而衍化的一種新的數據聚類算法,它通過構建樹結構對數據集進行劃分。在該算法中,每只螞蟻都對應于數據集中的1個數據并表示樹的1個節(jié)點。初始時螞蟻都被放在一個稱為支點的固定點上,該點相當于樹根。螞蟻在這棵樹上尋找適合自己的位置。在Ant Tree算法中,sim(i,j)表示2個數據(di,dj)間的相似度,它的取值在0~1之間。0表示完全不同,1表示完全相同。移動的螞蟻通過比較它與鄰域中已經固定在樹結構上的螞蟻的相似度來選擇繼續(xù)移動或固定在某個位置上。設初始樹根節(jié)點為a0,螞蟻逐步連接到這個初始節(jié)點上或連接到固定在該節(jié)點的螞蟻上,直到所有的螞蟻均連接到樹上。對每只螞蟻都定義了一個相似度閾值Tsim(ai)和相異度閾值Tdissim(ai),用來表示ai對同類螞蟻的接受程度。Ant Tree算法的主要過程如下:
假設ζ是所有等待連接的螞蟻的一個隊列(或許已經過排序)
initialize將所有螞蟻放置在支點a0上,并且對于每只螞蟻,Tsim(ai)←1和Tdissim(ai)←0
repeat
(1)從ζ中選擇1只螞蟻ai
(2)如果ai在支點a0上
then support case
else ant case
until所有的螞蟻都連接到樹上
在Ant Tree算法中,Support Case是指ai在a0上,設a+表示固定在a0上與ai最相似的螞蟻,如果ai與a+足夠相似,即sim(ai,a+)≥Tsim(ai),則ai向a+移動;如果ai與a+足夠相異,即sim(ai,a+)<Tdissim(ai),則ai就直接連接到a0,表示新創(chuàng)建1棵子樹;否則,用
來更新閾值。Ant Case是指ai在螞蟻apos上移動,a+表示固定在apos上與ai最相似的螞蟻。如果ai與apos足夠相似,并且與其子女足夠相異,即sim(ai,apos)≥Tsim(ai)且sim(ai,a+)<Tdissim(ai),則ai就連接在apos上;否則,螞蟻ai隨機向apos的鄰居移動,并更新閾值,繼續(xù)尋找合適的位置。
1.2.2 AntSA算法 由上述Ant Tree算法不難看出,某些步驟的進行會對整個聚類效果產生很大影響。例如在初始化時,ζ隊列的順序會直接決定最初連接到支點a0上的螞蟻是哪些,其中每只螞蟻都表示不同的簇;在Support Case中,任意1只螞蟻同已經固定在a0上螞蟻的比較方法,同樣會影響到最初連接到支點a0上的螞蟻是哪些,從而對整個聚類造成影響。針對上述問題,AntSA算法對Ant Tree算法進行了改進,基于Ant Tree改進的AntSA算法在短文本聚類中獲得了很好的效果。AntSA算法在2個地方改進了Ant Tree算法[12]。
(1)初始化。引入內部聚類有效性評價(Internal Clustering Validity Measures,ICVMs)方法中的輪廓系數(Silhouette Coefficient,SC)[16-17]對ζ隊列排序,具體過程如下:
①任選一種聚類算法獲得一組初始簇;
②構建出k行(其中每一行表示上一步中的一個簇),計算每行中各只螞蟻的SC值,并使用降序進行排列;
③用每行的第1只螞蟻去連接支點;
④循環(huán)選取每個非空行的第一元素,直到所有行都為空。
(2)Support Case。引入簇引力代替Ant Tree中的sim(ai,a+)。
得到研討文本的樹狀聚類結構之后,需要提取主題標簽,識別研討主題。類比SC公式,對于樹狀聚類結構中的每個節(jié)點,計算節(jié)點中每個名詞的標簽貢獻率的公式為
式中:c(i)為詞i與它所在節(jié)點的最相似兄弟節(jié)點的名詞列表中所有名詞的平均相似度;d(i)為詞i與它所在節(jié)點的父節(jié)點的名詞列表中所有名詞的平均相似度(本研究定義根節(jié)點的名詞列表與第1個連接到a0的非根節(jié)點所對應的名詞列表相同)。
由式(4)可以看出,d(i)的值越大,同時c(i)的值越小,詞i的標簽貢獻率就越大。本研究選擇標簽貢獻率最大的詞作為該節(jié)點的標簽,并將相連節(jié)點的相同標簽合并。當給所有分支節(jié)點貼上標簽后,即可以進行可視化識別,并輸出可視化圖。
本文對所提出的開放式團隊創(chuàng)新研討主題識別方法進行了實驗研究,該實驗基于“開放式團隊研討平臺”[18]。本文選取研討目標“同步研討A:班級應該通過哪些活動,以達到溝通有無、互相幫助、加強班級凝聚力的作用”進行實驗。本研究隨機選取該團隊研討的120條發(fā)言作為實驗文本進行分析。實驗中,首先請2名具有群體研討經驗的專家(這2名專家不是本研討團隊成員)對本實驗中的研討文本進行人工聚類,得到人工聚類結果。
在該實驗的研討文檔建模階段,本文采用How Net中長度大于1的名詞來構建研討主題識別的分詞詞庫。經過反復實驗,發(fā)現研討信息中與研討目標有關的名詞會成為研討主題識別中的“噪音”,影響研討主題聚類的效果,因此,本實驗將研討目標文本中的名詞提取出來構成停詞表。經過停詞處理之后的非空名詞集合即為有效詞集合。圖2為本實驗研究的研討樹結構可視化,研討樹上的每個節(jié)點都表示1條研討文本。研討文本間的父子關系通過人工方法確定,即團隊成員在發(fā)布電子研討文本前,先選定發(fā)言的對象。圖2左部為本實驗的研討樹結構,右部為研討樹中被選中的某條研討文本經過分詞和停詞處理后,該研討文本被表示為名詞分詞集合形式。例如,從本實驗的研討樹結構中點擊選取研討文本“較為贊同。舉行一些球類比賽的確是一個增加班級凝聚力的好方法?!痹撗杏懳谋痉衷~后所形成的名詞列表為“球類 比賽 班級 凝聚力方法”;其中根據本實驗的研討目標,其停詞列表為“班級 活動 凝聚力 作用”;經過停詞處理后,該條研討文本被表示為“球類 比賽 方法”。
圖2 實驗的研討樹結構可視化及分詞停詞處理
本研究使用JAVA語言編程實現AntSA算法,對研討文本進行主題聚類。本研究使用聚類錯誤率(Clustering Error,CE)、聚類查全率(Clustering Recall,CR)和聚類查準率(Clustering Precision,CP)3個指標對開放式團隊創(chuàng)新研討主題識別方法的效果進行評價,考察的基本對象為“文檔對”。各指標計算公式如下[7]:
式中:CE為聚類錯誤率,表示錯誤關聯與遺漏關聯的和與文檔集合中所有可能的文檔對的數量的比值;Ei為錯誤關聯,指在聚類結果中出現的,而在人工聚類中沒有出現的文檔對的數量;Em為遺漏關聯,指在人工聚類中出現的,而在聚類結果中沒有出現的文檔對的數量;Pi為文檔集合中所有可能的文檔對的數量,設文檔總數為N,則
式中:CR為聚類查全率,表示正確關聯數與人工聚類中文檔對的數量的比值;Tn為聚類結果中所有可能的文檔對的數量;Tm為人工聚類中所有可能的文檔對數量;CP為聚類查準率,表示正確關聯數與聚類結果中所有可能的文檔對的數量的比值。
實驗結果如表1所示,聚類錯誤率為0.05,聚類查全率為0.77,聚類查準率為0.81。該實驗結果表明,本研究所提出的開放式團隊創(chuàng)新研討主題識別方法可以輔助人對開放式團隊創(chuàng)新研討主題的歸納和識別,提高了開放式環(huán)境中團隊創(chuàng)新研討主題識別的效率,促進了開放式團隊創(chuàng)新。
表1 開放式團隊創(chuàng)新研討主題識別方法實驗結果
圖3 研討實驗的聚類可視化效果圖
本文根據所提出的開放式團隊創(chuàng)新研討主題識別方法設計和開發(fā)了開放式團隊創(chuàng)新研討主題可視化系統,可以直觀顯示研討主題識別的結果,可視化結果如圖3所示。圖3顯示了研討實驗中主題標簽的樹狀層次結構。圖3的中心圈標識了該研討的目標,外層環(huán)表示研討主題的層次關系,例如“旅游”、“景觀”、“野餐”、“登山”、“市區(qū)”屬于研討主題“郊游”的分支主題;“景點”、“費用”是研討主題“旅游”的分支主題。通過主題的層次關系可以看出各主題間的語義關系和結構關系,提高了研討效率,有效支持了開放式團隊創(chuàng)新。
本文研究并提出了開放式團隊創(chuàng)新研討主題識別方法,在研討文檔建模部分該方法引入How Net本體構建研討信息本體,并且充分考慮開放式團隊創(chuàng)新研討的樹狀結構,從而基于本體和研討樹結構對研討信息進行語義分析;在研討主題聚類部分,該方法針對開放式團隊創(chuàng)新研討信息短文本的特征,使用AntSA算法進行聚類分析;并且,對聚類結果中的每個節(jié)點,通過計算名詞的研討主題標簽貢獻率,識別每個類別的研討主題;最后,本文根據所提出的開放式團隊創(chuàng)新研討主題識別方法,設計并開發(fā)了開放式團隊創(chuàng)新研討主題可視化系統,直觀顯示識別出的各研討主題間的語義關系和結構關系。實驗結果表明,該方法可以輔助人對開放式團隊創(chuàng)新研討主題的識別,提高了開放式團隊創(chuàng)新過程信息集成的效率。
在今后的研究中,準備將研究內容擴展到基于不同社交媒介的群體討論(如網絡BBS、微博、微信等)。在研究方法上,將運用更加先進的主題提取方法,如Topic model算法。本研究實驗中研討樣本數量較少,在未來研究中將針對互聯網上真實的大規(guī)模研討語料進行主題提取,以檢驗算法的有效性和穩(wěn)健性。