趙華 許超
(天津機電職業(yè)技術學院 產學研中心 天津 300131)
基于Web數(shù)據(jù)挖掘主流CAD軟件的對比分析
趙華 許超
(天津機電職業(yè)技術學院 產學研中心 天津 300131)
CAD技術在制造業(yè)中發(fā)揮著越來越重要的作用,由于有四大主流CAD軟件,怎樣選擇適合本行業(yè)最優(yōu)的軟件,成為企業(yè)和工程技術人員的難題。應用采集工具“火車采集器”對國內招聘網站“51job”發(fā)布的招聘信息進行數(shù)據(jù)挖掘,通過對采集到的數(shù)據(jù)進行分析,結合四大主流CAD軟件各自的特點,在行業(yè)及地區(qū)分布等多個方面,對四大軟件在國內的應用情況進行對比分析,為廣大學生、工程技術人員和企業(yè)選擇合適的CAD軟件提供依據(jù)。
Web 數(shù)據(jù)挖掘 CAD 對比分析
隨著計算機計算能力的不斷提高,CAD技術和CAD產業(yè)在工業(yè)需求的推動下日益興旺與繁榮[1]。隨著我國制造業(yè)的不斷發(fā)展,CAD技術已經被廣泛應用于航空航天、汽車制造、船舶制造、機械制造、電子、消費品等行業(yè)[2]。當前,國內企業(yè)通常采用的大型CAD軟件主要有SolidWorks、UG NX、Pro/Engineer、CATIA。業(yè)內很多人對當前主流的CAD軟件進行比較,網絡上也充斥著關于幾大軟件的爭論。這些對比分析一般都是基于個人使用經驗或者CAD軟件公司的宣傳,缺乏科學的數(shù)據(jù)支持。本文對網絡數(shù)據(jù)進行挖掘,以市場的實際應用情況為依據(jù),對四大主流軟件進行對比分析,為廣大學生、工程技術人員和企業(yè)選擇合適的軟件提供了可靠的依據(jù)。
隨著互聯(lián)網技術的飛速發(fā)展,網絡正影響著人類社會生活的方方面面。互聯(lián)網為人類提供了海量數(shù)據(jù),已經成為人類信息資源的主要來源。Web包含了各種信息和資源,數(shù)據(jù)多樣而復雜,數(shù)據(jù)量十分龐大。有時,人們可以直接登錄某個網站,通過網站程序提供的某些功能直接提取所需的信息。但是也有些時候,現(xiàn)有的網站程序不能提取滿足人們需求的數(shù)據(jù),這時就需要借助Web數(shù)據(jù)挖掘技術來采集有價值的信息。Web數(shù)據(jù)挖掘是從網絡資源上抽取信息(或知識)的過程,是對Web資源中蘊含的、未知的、有潛在應用價值的模式的提取[3]。Web爬蟲是Web挖掘中重要技術之一,是爬取頁面的重要手段,通過爬蟲的構建達到Web信息搜索的目的。網絡爬蟲,又稱網絡蜘蛛或Web信息采集器,是一個自動下載網頁的計算機程序或自動化腳本[4,5]。目前,國內應用較多的采集軟件主要有以下幾種:“火車采集器”、“網絡曠工”、“有訊軟件”、“狂人”、“三人行”等,本文選擇“火車采集器”作為采集工具。
“前程無憂(51job)”是國內領先的專業(yè)招聘網站,網站擁有超過8 200萬個注冊用戶,通過“51job”發(fā)布的招聘職位每天超過320萬個,涉及信息技術、電子、金融、化工、物流、廣告等59個行業(yè)58個職能大類720個小類,職位遍布全國近500個大中小城市?!?1job”提供的海量人力資源信息真實地反映了就業(yè)市場對某一類人才和技能的需求。本文選取“51job”網站上的招聘信息作為作為數(shù)據(jù)源,采集對四大主流CAD軟件有技術要求的招聘信息,進行數(shù)據(jù)分析,從中總結出四大主流CAD軟件在市場上的應用情況,進而進行對比分析。
因為招聘網頁具有相同的結構,可以使用統(tǒng)一的抽取規(guī)則。利用“火車采集器(Locoyspider)”對地區(qū)、行業(yè)、職位等關鍵信息要素進行抓取?!盎疖嚥杉鳌笔且豢顚I(yè)的網絡數(shù)據(jù)采集/信息挖掘處理軟件,通過采集規(guī)則的定義,可以搜索所有網站,采集幾乎任何類型的信息,采集到的數(shù)據(jù)被同步保存到關聯(lián)數(shù)據(jù)庫中。
以包含關鍵字Pro/Engineer的所有招聘信息的采集為例,“火車采集器”采集信息主要分以下三步進行:
第一步:采集網址,即采集所有關鍵字包含Pro/Engineer的招聘網頁對應的網址。
“51job”提供招聘信息全文關鍵字搜索,輸入關鍵字,可以檢索到與該關鍵字有關的所有職位。以Pro/Engineer為例,輸入關鍵字Pro/Engineer,“51job”檢索出所有招聘信息中對Pro/Engineer軟件有一定要求的所有職位信息,這些招聘信息的簡要信息被羅列在搜索欄的下方,形成搜索結果頁面,稱為起始頁,也就是列表頁,對應的URL,就是起始網址。因為符合搜索條件的招聘信息一共11183條,而每個列表頁只能顯示50條,因此列表有分頁。
添加開始采集地址時,選擇“批量/多頁”選項卡,地址格式為:
(其中*為列表頁頁碼,呈等差數(shù)列增長,首項為1,項數(shù)為224)
但是,在這些網頁中只能看到關于招聘內容的簡單概述,如,職位名稱、公司名稱等,如果想進一步了解招聘信息,必須單擊該條信息,網頁跳轉到該條信息所在的招聘信息網頁,該網頁對應的URL稱為多級網址。
由于“51job”的招聘頁網址都有統(tǒng)一的格式,http://search.51job.com/job/(*),c.html(其中*為變量,代表不同的招聘信息頁面)。因此,在添加多級網址采集規(guī)則時,選擇“從頁面自動分析得到地址鏈接”,在網頁中解析出“必須包含/job/”的網址,即可得到具體的招聘信息頁面網址。
第二步:采集內容,編寫采集規(guī)則,使采集器在所有采集到的網址上遍歷,抓取所有符合采集規(guī)則的內容。根據(jù)招聘信息網頁源代碼的特點,數(shù)據(jù)提取方式選擇“前后截取”,同時添加適當?shù)臄?shù)據(jù)處理方式,具體規(guī)則如表1所示。
第三步:發(fā)布內容,“火車采集器”支持在線發(fā)布到網站、保存為內地文件、導入自定義數(shù)據(jù)庫和發(fā)布到其它擴展四種方式,在“發(fā)布內容設置”選項卡選擇“保存為本地Excel文件”。
表1 含關鍵字Pro/Engineer的招聘信息網頁內容采集規(guī)則
經過數(shù)據(jù)采集,得到四大主流CAD軟件相關的招聘信息總數(shù)為30828條,各大軟件所占比例如圖1所示。
圖1 四大CAD軟件相關招聘信息數(shù)量所占比例
“51job”把公司按照公司性質分為“國企”“民營企業(yè)”等十類,四大主流CAD軟件相關的招聘信息中,不同性質的公司提供的職位數(shù)量所占比重如表2所示。
表2 不同性質公司提供的職位數(shù)量所占比例
提供招聘職位的企業(yè)有大中小不同規(guī)模,“51job”對公司規(guī)模按照人數(shù)不同分為7個等級。各種軟件相關的招聘信息中,不同等級規(guī)模公司提供的職位數(shù)量所占比重如表3所示。
表3 不同等級規(guī)模公司提供的職位數(shù)量所占比重
30828條招聘信息中提供的職位分布在全國各地198個大中小城市。在各大軟件相關的招聘信息中,職位分布密集度前十的城市提供的職位數(shù)量所占比重見表4所示。
表4 職位分布密集度前十的城市提供的職位數(shù)量所占比重
30828條招聘信息分布在38個行業(yè),在各大軟件相關的招聘信息中,職位分布密集度前十的行業(yè)職位數(shù)量所占比重如表5所示。
表5 職位分布密集度前十的行業(yè)職位數(shù)量所占比重
在以上行業(yè)中,選出7個典型的職能類別,四大主流CAD軟件相關的職位數(shù)量如表6所示。
表67個典型的職能類別中四大主流CAD軟件相關職位數(shù)量
UG NX、CATIA、Pro/Engineer同屬高階大型CAD/CAM/CAE軟件,而SolidWorks則占據(jù)中低端市場。單就職位數(shù)量來看,企業(yè)對能夠掌握Pro/Engineer的人才需求量最大,其次為UG NX和SolidWorks,CATIA最少。其中CATIA居于領先地位,在航空航天、汽車制造領域的應用遠高于UG NX和Pro/Engineer;CATIA整體功能強大,是達索集團的高端軟件,價格也昂貴,因此在大型企業(yè)的應用較多,但是CATIA的CAM功能在國內較少使用。UG NX的模具設計模塊功能強大,在模具設計領域占有絕對優(yōu)勢;在汽車制造和航空航天領域UG NX也有較多的應用;同時UG NX加工方式完備,在NC領域具有較高的聲譽,在以加工制造為主的企業(yè)中應用較廣泛;在地區(qū)分布上,相對比其他三款軟件,UG NX在南方應用更加廣泛。Pro/Engineer以參數(shù)化著稱,強調特征的全相關性,在家電、數(shù)碼產品等小型電子產品設計領域Pro/Engineer應用最為廣泛,在模具設計領域的受歡迎程度僅次于UG NX;Pro/Engineer的編程功能也相當強大,在加工企業(yè)也較受歡迎。SolidWorks是達索集團的中端軟件,圖形界面友好,操作簡單,用戶易學易用,價格便宜,在中小企業(yè)及民營企業(yè)應用十分廣泛;該軟件的NC模塊SolidCAM在國內較少應用;雖然SolidWorks整體功能較其他三大軟件較弱,但是在對曲面造型要求不高的機械領域卻占有絕對優(yōu)勢,一般企業(yè)機械工程師多使用該軟件。
[1] 葉修梓,彭維,唐榮錫.國際CAD產業(yè)的發(fā)展歷史回顧與幾點經驗教訓[J].計算機輔助設計與圖形學學報,2003,15(10):1186-1193.
[2] 梅黎錦.CAD/CAM技術在我國的發(fā)展和應用現(xiàn)狀[J].機械工程師,2009,(3):75-76.
[3] 高巖,胡靜濤.Web數(shù)據(jù)挖掘的原理、方法及用途[J].現(xiàn)代圖書情報技術,2002(3):51-52.
[4] 焦賽美.網絡爬蟲技術的研究[J].瓊州學院學報,2011[1].18(5):28-30.
[5] 蘇新寧,楊建林.數(shù)據(jù)挖掘理論與技術[M].北京:科學技術文獻出版社,2003:15-18.