康曉珍 郭陽
河南中煙黃金葉生產(chǎn)制造中心 河南鄭州 450000
[提 要]隨著信息技術在企業(yè)生產(chǎn)、經(jīng)營、管理等環(huán)節(jié)的滲透不斷加深,“數(shù)據(jù)”資源在企業(yè)中的地位愈加重要。各信息系統(tǒng)中除結構化數(shù)據(jù)之外還積累了大量非結構化的文本數(shù)據(jù)。充分利用文本挖掘技術,可對信息化系統(tǒng)中文本數(shù)據(jù)進行統(tǒng)計歸集,建立生產(chǎn)過程問題改進經(jīng)驗的知識分類與典型問題改進知識庫,實現(xiàn)知識的傳承。并針對問題描述分析,智能推薦類似問題的解決方法,使知識服務于生產(chǎn)過程控制本身,提升企業(yè)的核心競爭力。
隨著信息技術在企業(yè)生產(chǎn)、經(jīng)營、管理等環(huán)節(jié)的滲透不斷加深,“數(shù)據(jù)”資源在企業(yè)中的地位愈加重要。各信息系統(tǒng)中除結構化數(shù)據(jù)之外還積累了大量非結構化的文本數(shù)據(jù),這些文本數(shù)據(jù)中蘊含著豐富的信息。目前,xx廠的信息化系統(tǒng)存在大量文本數(shù)據(jù),僅僅依靠數(shù)據(jù)庫的查詢檢索機制和統(tǒng)計學方法很難有效利用這些信息,迫切需要一種成熟、有效、可推廣的文本數(shù)據(jù)統(tǒng)計歸集解決方案,從而使經(jīng)驗知識化,為企業(yè)生產(chǎn)、經(jīng)營、管理提供有效支撐[1]。
立足xx廠信息化系統(tǒng)文本數(shù)據(jù)現(xiàn)狀,其自主設計開發(fā)的大數(shù)據(jù)分析應用平臺中問題改進管理模塊具有較高的代表性。從系統(tǒng)上線運行以來,已積累2萬多條問題改進任務單,異常問題處理信息涵蓋“生產(chǎn)、質(zhì)量、效率、設備、消耗”等類別,問題改善經(jīng)驗以文本信息存儲于信息系統(tǒng),未能得到有效歸集和知識再利用。
目前文本信息采集主要依靠人工錄入方式。這種方式存在三點主要缺陷:其一,錄入過程存在較強的主觀性和隨意性,不利于進一步的提取轉化;其二,受錄入人員參與積極性制約,所得信息的完整度不足;其三,相同信息的多次錄入會造成大量的重復性工作和時間浪費。
另外,在生產(chǎn)實際過程中,當異常問題重復發(fā)生時,維修工、操作工主要利用自身經(jīng)驗來解決,如有一種智能推薦技術,及時快速提供有效的問題改進建議及指導方案,將會大大提高處理異常問題的效率和準確性。
利用文本挖掘技術,對知識統(tǒng)計歸集模式進行研究,可對信息化系統(tǒng)中文本數(shù)據(jù)進行統(tǒng)計歸集,形成系統(tǒng)化的共性知識。以xx廠較具代表性的大數(shù)據(jù)分析應用平臺問題改進管理模塊作為研究的切入點,利用智能化的文本挖掘技術,將問題改進經(jīng)驗進行歸集、統(tǒng)計,挖掘異常問題產(chǎn)生的根本原因和處理方法,形成共性的知識庫,并在人工處理異常問題時,智能推薦問題解決措施,利用全員智慧發(fā)現(xiàn)解決問題,實現(xiàn)知識從實踐中來到實踐中去的學習性循環(huán)[2]。
采用文本聚類、文本分類、文本摘要等技術,將問題改進經(jīng)驗進行歸集、統(tǒng)計,挖掘異常問題產(chǎn)生的根本原因和處理方法,通過識別文本信息中的關鍵字,建立準確、科學的分類體系,實現(xiàn)問題改進經(jīng)驗的知識轉化與歸集,形成共性的知識庫。
(1)文本預處理。將提取出的問題改進歷史記錄進行清洗,對主要字段進行標準化、結構化,并糾正其中可能存在的錯誤,保證用于文本挖掘的數(shù)據(jù)源質(zhì)量。
(2)文本聚類。針對問題改進處理過程的主要字段,根據(jù)需要進行文本聚類??筛鶕?jù)該字段每條文本的相似度,智能對問題原因進行聚類,自動將問題原因劃分類別,并對每個類別提取出關鍵詞與摘要,計算每個類別出現(xiàn)的概率、重要性等指標。
(3)文本分類。文本分類的算法實現(xiàn)分為文本向量化、統(tǒng)計加權、分類模型等步驟,根據(jù)文本聚類智能生成的典型類別進行優(yōu)化調(diào)整,建立準確、科學的分類體系,并在系統(tǒng)運行過程中在線學習、更新。
(4)智能摘要。從問題處理措施的內(nèi)容中提取出能夠包含其主要內(nèi)容的關鍵詞,根據(jù)專家經(jīng)驗,建立摘要詞典。基于所創(chuàng)建的摘要詞典,采用詞頻統(tǒng)計等方法,搜索全體條目。針對每個條目,按照關鍵詞與關鍵詞出現(xiàn)的順序,建立摘要,用于進行智能化的分析與報表。
利用文本挖掘技術建立知識庫,對文本數(shù)據(jù)統(tǒng)計歸集后在信息系統(tǒng)中實現(xiàn)循環(huán)應用。在問題處理人員填寫問題改進任務單時,根據(jù)問題標題或用戶輸入的模糊關鍵詞,智能推薦相關的處理措施,自動完成表單填寫;在數(shù)據(jù)庫中無匹配的問題時,將分析新填寫的問題處理措施,更新知識數(shù)據(jù)庫,為后來類似問題提供處理措施參考。并形成關于問題處理措施、原因分析、經(jīng)驗總結的智能報表[3]。
(1)建立知識數(shù)據(jù)庫。數(shù)據(jù)庫中的關鍵字段,例如問題類型、問題原因等是使用者極為關注的信息,對關鍵字段信息建立索引有助于快速訪問這些信息,可以為搜索、推薦等功能提供更高效的訪問。
(2)模糊搜索、智能推薦與自動完成。當知識數(shù)據(jù)庫建立之后,可采用基于歷史行為、基于模型、基于關聯(lián)規(guī)則等智能推薦算法,在問題處理人員填寫問題改進任務單時,根據(jù)問題標題或用戶輸入的模糊關鍵詞,智能推薦相關的處理措施,自動完成表單填寫;在數(shù)據(jù)庫中無匹配的問題時,將分析新填寫的問題處理措施,更新知識數(shù)據(jù)庫,為后來類似問題提供處理措施參考。
(3)智能報表實現(xiàn)知識交互。將部分描述性表達通過文本挖掘提取出關鍵信息,例如某問題的改進處理措施的類別、出現(xiàn)的頻率、占比排序等,使之轉化為結構化數(shù)據(jù),并歸納成不同類型的問題記錄。形成關于問題處理措施、原因分析、經(jīng)驗總結的報表。
采用文本挖掘技術,可充分挖掘長期沉淀于信息化系統(tǒng)中的文本數(shù)據(jù)信息,從中提取出有價值的知識,并利用智能推薦技術,可自動給出指導異常問題處理的建議方法,提高文本信息錄入的人工智能程度,同時進一步提高異常問題的處理效率和準確性。以信息化方式實現(xiàn)知識的共享與傳承,從而使知識歸集并服務于企業(yè)運營、生產(chǎn)過程控制本身,提升企業(yè)的核心競爭力。