黨 杰
(西安醫(yī)學院,陜西 西安 710021)
面向云計算的制造業(yè)設計服務資源集聚方案設計
黨杰
(西安醫(yī)學院,陜西 西安 710021)
摘要:通過分析研究,構建了數(shù)據(jù)來源層、數(shù)據(jù)存儲層與數(shù)據(jù)匹配層三層模式,通過網(wǎng)頁分類算法、海量數(shù)據(jù)存儲算法和語義匹配算法等實現(xiàn)對設計服務信息的搜集、處理和分析,大大提高了制造服務類企業(yè)的設計效率。
關鍵詞:資源集聚;網(wǎng)頁分類;數(shù)據(jù)存儲;語義匹配
1設計服務資源及資源集聚方案的提出
設計資源是指在對產(chǎn)品的設計開發(fā)中,通過設計工具、設計場地、設計物資、設計人員、信息資源和服務資源等組成的一切可用實體,如設計工具中所包括的CAE、有限元分析軟件、CAPP等;設計人員中包括的設計專家、技術專家、管理專家等;信息資源中包括的設計標準、專利、數(shù)據(jù)庫、3D 模型等,都被納入到設計服務資源中。針對大量的設計服務資源,如何將海量的信息進行集聚,再通過云計算平臺進行存儲,最后通過云計算平臺定向地發(fā)送給設計資源的需求者,成為該方案設計的重點。通過采用服務資源智能匹配的方法對雙方的需求和服務進行自動的匹配,并向該平臺的提供商給予相應的服務費用。
2服務智能集聚算法
大量的設計服務資源存在于互聯(lián)網(wǎng)當中,對設計服務本體的構建需要大量的實例、關系描述、定義描述等。通過采用自動和半自動的方式對服務本體進行構建,可大量減少人工分類帶來的問題,對此,本文針對服務本體的構建,提出智能聚集方法,并以數(shù)據(jù)來源中半結構化數(shù)據(jù)為例,實現(xiàn)對互聯(lián)網(wǎng)信息的自動的獲取。其具體的步驟為:首先,對互聯(lián)網(wǎng)中存在的設計服務資源進行搜集和初步分類,從而得到關于設計服務信息的網(wǎng)頁,包含XML、RDF等格式在內的各種數(shù)據(jù)網(wǎng)頁信息;其次,對搜集到的數(shù)據(jù)進行關系和概念的抽取,并映射成各種不同的服務本體,與知識專家?guī)熘械姆毡倔w比較。
2.1網(wǎng)頁分塊
網(wǎng)頁結構可分為不同的模塊,每個模塊都可用一個特定的Dom樹對其進行表示,也可以看成是特定的API。通過不同的樹節(jié)點所構成的根節(jié)點,由此形成了主網(wǎng)頁。每個節(jié)點 node 則為一個塊,用 DomNode 表示網(wǎng)頁節(jié)點。具體包括對其中的節(jié)點進行判斷,查看其是否為容器類節(jié)點,如為容器類節(jié)點則繼續(xù)追蹤,則探測其是否為文本類數(shù)據(jù),當探測該節(jié)點為文本數(shù)據(jù)時,對該文本塊的父節(jié)點塊進行記錄,并探測下一個含有文本數(shù)據(jù)的區(qū)域。清理指定節(jié)點內的無效節(jié)點并查看該節(jié)點是否有效的核心代碼為:
protected boolean cleanUpDomNode(DomNode element) {
if(element==null){
returnfalse;
}
List
intlinkTextLength=0;
booleanflag=false;
if(list!=null){
for (DomNode node : list) {
if(checkTextType(node)){
continue;
} else
if (checkRemoveType(node)) {
node.remove();
flag = true;
} else
if (node instanceof HtmlAnchor) {
String temp = node.asText();
temp = encoder.encodeHtml(temp);
intlength=Chinese.chineseLength(temp.trim());
if (length > 0) {
linkTextLength += length
2.2節(jié)點與表格相似度計算
2.2.1節(jié)點相似度計算
對節(jié)點相似度的計算本身就是對DomNode屬性值進行比較。對DomNode屬性的描述則包括node.properties(bgcolour,font,width,height)(節(jié)點屬性) 、node.tagname (標簽名稱)、 node.text (標簽內容)、 Node.depth( 標簽深度)。因此,根節(jié)點的相似度有下述關系:
(1)
式中,sim(n1,n2)是n1、n2兩者之間的相似度,即這兩者之間在屬性加權和內容方面的相似度,n1和n2為非根節(jié)點;w1是該標簽在整個網(wǎng)頁當中的權重系數(shù)。
因此,可以得到n1和n2所對應的子節(jié)點的相似度的計算公式:
sim(T1,T2)=max(sim(n1,n2)+w2sim(parent(n1),parent(n2))
(2)
式中,T1、T2分別是n1和n2所對應的子節(jié)點,n1和n2的標簽名和深度是相同的;parent(n1)是n1最終的父節(jié)點;w2是節(jié)點受到結構影響的權重系數(shù)。
2.2.2表格相似度計算
表格節(jié)點的相似度的計算則采用二維矩陣的方式,并分別用Rowi、Coli表示該矩陣的行向量和列向量,則有表格的二維矩陣:
(3)
由此可計算得出其行和列的相似度,分別為:
(4)
(5)
當sim(Colk,Colk+1)=1時,表示該列內容相同;同理,當sim(Rowk,Rowk+1)=1時,表示該行中的內容相同。
2.2.3概念和關系的提取
在完成上述的相似度之后,當表格的行和列的相似度都大于某個設定的值后,則認為兩表格具有相似度,對此,接下來則是對其中內容和關系提取。
1)在設計中,對產(chǎn)品的屬性通常是被排列在表頭,其屬性值的不同,則通常表示其不同的網(wǎng)頁內容。因此,要實現(xiàn)對概念的提取,需對該網(wǎng)頁中的前d行的相似度進行計算,如果其行相似度<平均相似度,則直接轉向第3步。
2)若行相似度>行平均相似度,并且在d+1行中都為文本的內容,則定義d=d+1,重復對步驟1進行搜索,當時d=m-1,則認定該表格當中其包含著一個實例,由此轉向第3步。
3)提取前d行當中單元格的內容,并對單元格當中存在的重復的部分或者是常用的工程單位符號刪除,以此得到該產(chǎn)品的術語概念的集合。
上述步驟的開展都是結合其不同關系的前提下進行的。若B、A為相同概念,則定義B和A為同義概念;若B、A為層次關系,則定義B為父概念,A為子概念。
2.2.4語義的比較與表達
通過對關系的提取,需要對所提取的內容進行比較和語義的表達。其中的比較則與系統(tǒng)中的知識庫進行比較,從而判斷其是否屬于該類型,并通過一定的語義將其表達出來。因此,需要對其中的規(guī)則進行定義。
定義規(guī)則1:表格當中的數(shù)據(jù)所描述的相關的設計資源映射到設計資源領域本體描述中的類。
定義規(guī)則2:概念映射為該類的屬性,并對應到相應的OWL描述語言之中。
定義規(guī)則3:表格當中的約束映射主要為本體中的約束關系,在方法當中對約束關系的提取則對應著相應的Datate property 的值域 f:range。
定義規(guī)則 4:概念間的關系與本體關系通過 partof進行表達。
2.3實例驗證
以發(fā)動機的詳細數(shù)據(jù)為例,通過在搜狐網(wǎng)和鳳凰網(wǎng)上兩類不同汽車的發(fā)動機參數(shù)表格的數(shù)據(jù)的抽取,得到如表1和表2所示的數(shù)據(jù)。
表1 搜狐網(wǎng)汽車發(fā)動機數(shù)據(jù)
表2 鳳凰網(wǎng)汽車發(fā)動機數(shù)據(jù)
由此,通過上述算法的抽取,可以得出發(fā)動機本體的形成過程,在該實例中包括發(fā)動機排量、最大馬力、最大功率和最大扭矩等。
3海量數(shù)據(jù)存儲方案
云計算平臺下的數(shù)據(jù)集聚涉及大量數(shù)據(jù)信息,如何對海量的信息進行處理成為該方案構建的重點。當前針對海量數(shù)據(jù)的處理有很多,如美國谷歌公司的GFS。本文結合方案的需求,將平臺數(shù)據(jù)的處理和存儲通過采用GFS的開源實現(xiàn)Hadoop框架,并在這基礎之上借助Mapreduce模式,實現(xiàn)對海量數(shù)據(jù)和信息的處理。同時,為將相關的數(shù)據(jù)存儲或者是部署到具體的計算節(jié)點上,采用HDFS系統(tǒng)及分布式數(shù)據(jù)庫HBase,從而構成了該方案的數(shù)據(jù)處理和存儲,具體如圖1所示。
圖1 基于云計算平臺的設計服務集存儲方案
4語音智能匹配算法
4.1算法設計
設計服務中,如何讓客戶精確地檢索到所需要的內容,成為該方案實現(xiàn)的關鍵。對此,本文提出智能語義匹配算法,具體如圖2所示。
圖2 智能語義匹配
1)對資源本體進行描述。假設設計資源本體為一個多元組合的集SO={N,R,A,C,X,I,L},其中,N表示為類的集合;R表示概念關系集;A表示概念的屬性集;C表示約束集;X表示特殊集合;I表示實例或者是個體;L表示對象間邏輯關系的規(guī)定集。
2)資源向量語義分析。定義SV={R1,R2,…,Rn}為資源向量,其中,Ri表示第i類資源的對應的分向量,并且其同時滿足IBoxI=N∪R∪A∪C∪X。定義P={A1,A2,…,Am}為資源描述中心向量,并且有P∈Ri,Ai則表示權重比較大的屬性。定義Q={T1,T2,…,Tm}為語義查詢向量,通過采用屬性的權重和分詞法對查詢的語句進行分解,其中Ti的則為查詢特征向量。根據(jù)抽取算法,按照其權重的大小進行順序排列。定義W={W1,W2,W3,…,Wm}為查詢詞重要性的權重向量。
3)向量的匹配算法。
ifAi=Ti,則權重系數(shù)Ki=1。
ifTi滿足Ai,則Ki=Km<1。
ifTi包含Ai,則Ki=Kc<1。
ifTi與Ai為完全分離,則Ki=0。
4)資源候選集的獲取。對候選集的獲得采用向量距離計算公式:
(6)
通過對閥值的確定,當計算出的向量的值在大于該閥值的情況下,則將其定義到符合的目標查詢向量當中。該候選查詢集用D表示。
5)最優(yōu)集的獲取。通過上述候選查詢集,以滿足質量Q、數(shù)量N、成本C、時間T構成得到的最優(yōu)函數(shù)找到查詢結果最優(yōu)的集合。
4.2算例實證
通過需求方的需求請求,如“能夠進行發(fā)動機仿真分析CAE,包括連桿強度分析、曲軸孔扭曲的分析,連桿系統(tǒng)的機構模擬、機體模態(tài)分析,并起能提供在線使用CAE分析工具”的要求。在資源庫中,通過其對CAE性能屬性的描述、CAE本體實例庫、匹配算法以及最優(yōu)解算法,可得到其最終有這方面的功能的廠商={TW,JP}。
5結語
基于云計算平臺下, 通過對設計服務資源方案的設計,解決了對信息的集聚、存儲和其中的語義的匹配,從而使得用戶通過搜索可到精確的設計服務資源的信息,對提高制造設計效率起到了促進的作用,具有很大的實用性。
參考文獻
[1] 羅俊海,肖志輝,仲昌平.信息物理系統(tǒng)的發(fā)展趨勢分析[J].電信科學,2012(2):127-132.
[2] 孫玉豹.關于某型履帶車輛制動器的有限元分析與研究[J].新技術新工藝,2013(7):56-58.
[3] 陳東,范帥.基于Maxwell的盤式制動器輔助電磁制動裝置的有限元分析[J].新技術新工藝,2013(9) :32-35.
責任編輯鄭練
Manufacturing Design of Service Resource Gathering Scheme Designed for the Cloud
DANG Jie
(Xi′an Medical University, Xi′an 710021, China)
Abstract:The paper built the data source layer, data storage layer and data layer, three layer model, and through the Webpage classification algorithm, mass data storage algorithm and semantic matching algorithm, realized the collection, processing and analysis of information service, which greatly improved the design efficiency of manufacturing service enterprises.
Key words:resource gathering, page classification, data storage, semantic matching
收稿日期:2015-01-05
作者簡介:黨杰(1971-),男,大學本科,工程師,主要從事信息控制及強弱電控制管理等方面的研究。
中圖分類號:TP 391.72
文獻標志碼:A