亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web的科技信息管理系統(tǒng)開發(fā)與管理

        2019-10-23 03:20:30鄭宇
        微型電腦應(yīng)用 2019年10期
        關(guān)鍵詞:數(shù)據(jù)庫(kù)用戶功能

        鄭宇

        (國(guó)網(wǎng)福建省電力有限公司 電力科學(xué)研究院, 福州 350007)

        0 引言

        隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,通過網(wǎng)絡(luò)獲取科技信息以其快速便捷的優(yōu)勢(shì)成為信息獲取的重要途徑之一,對(duì)科技信息管理系統(tǒng)的開發(fā)與實(shí)現(xiàn)成為研究的熱點(diǎn),能夠?qū)崿F(xiàn)科技信息的自動(dòng)跟蹤管理,通過對(duì)互聯(lián)網(wǎng)科技信息的跟蹤與獲取,并據(jù)此完成分析與處理,便于其掌握科技信息的焦點(diǎn)最新動(dòng)向,完成網(wǎng)絡(luò)信息簡(jiǎn)報(bào)的自動(dòng)生成,滿足用戶的信息獲取需求。

        1 系統(tǒng)設(shè)計(jì)

        1.1 總體架構(gòu)設(shè)計(jì)

        系統(tǒng)主要由信息管理、信息采集、數(shù)據(jù)庫(kù)等服務(wù)器構(gòu)成,相互間的通信均通過互聯(lián)網(wǎng)實(shí)現(xiàn),系統(tǒng)主要面向兩類用戶:普通用戶和系統(tǒng)管理員(按照操作權(quán)限可細(xì)分為操作員和管理員),普通用戶只有查看和下載相應(yīng)文檔的權(quán)限,管理員登錄信息管理服務(wù)器可對(duì)采集任務(wù)進(jìn)行創(chuàng)建,并將相關(guān)配置數(shù)據(jù)存入數(shù)據(jù)庫(kù),信息采集服務(wù)器負(fù)責(zé)讀取采集任務(wù)相關(guān)配置數(shù)據(jù)后對(duì)信息進(jìn)行采集和分析,再將分析結(jié)果存儲(chǔ)至數(shù)據(jù)庫(kù)中;信息管理服務(wù)器讀取采集任務(wù)結(jié)果后完成相關(guān)統(tǒng)計(jì)和展示,系統(tǒng)總體拓?fù)浣Y(jié)構(gòu)如圖1所示[1]。

        圖1 總體拓?fù)浣Y(jié)構(gòu)圖

        1.2 功能模塊設(shè)計(jì)

        系統(tǒng)功能主要?jiǎng)澐譃樾畔⒉杉⑿畔⑻幚?、信息分析、信息服?wù)四個(gè)子系統(tǒng),具體如圖2所示。

        (1) 信息采集子系統(tǒng)

        系統(tǒng)抓取收集指定范圍的網(wǎng)站內(nèi)容(定向采集),支持動(dòng)態(tài)內(nèi)容分頁(yè)抓取(JSP、ASP、PHP、Word、PDF等),抓取信息后單獨(dú)保存為文件方式,或存儲(chǔ)于數(shù)據(jù)庫(kù)的字段中,采集過程中可采集部分欄目、版塊內(nèi)容也可整站采集。在主流的搜索引擎中通過關(guān)鍵詞自動(dòng)進(jìn)行數(shù)據(jù)搜索,根據(jù)實(shí)際需要對(duì)采集的數(shù)量、狀態(tài)及開始/結(jié)束采集數(shù)據(jù)進(jìn)行設(shè)置,具備添加、修改、刪除、查找站點(diǎn)資源數(shù)據(jù)等管理操作;對(duì)要采集的主題進(jìn)行自動(dòng)識(shí)別后據(jù)此完成采集任務(wù)的跟蹤,可從多角度對(duì)該

        圖2 系統(tǒng)功能劃分

        主題進(jìn)行后續(xù)跟蹤[2]。

        (2) 信息處理子系統(tǒng)

        該子系統(tǒng)的功能在于:對(duì)不同網(wǎng)站站點(diǎn)(包括報(bào)紙類、行業(yè)用戶信息類)進(jìn)行開發(fā)時(shí)可設(shè)置優(yōu)先級(jí),信息分類和管理可通過專題的設(shè)置完成(支持多級(jí)分類),根據(jù)需要對(duì)數(shù)據(jù)進(jìn)行管理和維護(hù)(包括整理、編輯、刪除、新增等);按照媒體來(lái)源、版面、時(shí)間等分類整理目標(biāo)媒體所收集到的信息,分類統(tǒng)計(jì)后生成平面媒體信息目錄;采集到的具體信息內(nèi)容以平面媒體報(bào)告集萃的形式展現(xiàn),可按天、月自動(dòng)生成目錄或集萃;系統(tǒng)同時(shí)支持手動(dòng)錄入后生成簡(jiǎn)報(bào)的功能,己生成的信息簡(jiǎn)報(bào)可進(jìn)行編輯;為簡(jiǎn)化采集配置過程,對(duì)可配置的采集模板(包括平面媒體目錄和報(bào)告集萃)進(jìn)行開發(fā),據(jù)此實(shí)現(xiàn)地址中指定內(nèi)容的獲??;對(duì)于需要采集的站點(diǎn)數(shù)據(jù)可進(jìn)行導(dǎo)入導(dǎo)出操作。

        (3) 信息分析子系統(tǒng)

        該子系統(tǒng)的功能在于:分析采集到的信息,系統(tǒng)自動(dòng)識(shí)別出主題后進(jìn)行多角度信息跟蹤具體通過聚類、熱詞(包括熱點(diǎn)技術(shù)、話題、事件、詞匯等)等分析方法,提取所需內(nèi)容或預(yù)判其發(fā)展趨勢(shì);在此基礎(chǔ)上對(duì)所采集內(nèi)容按照采集時(shí)間、站點(diǎn)分布等進(jìn)行統(tǒng)計(jì),以圖表等形式展示給用戶。

        (4) 信息服務(wù)子系統(tǒng)

        該子系統(tǒng)的功能在于:管理系統(tǒng)的賬戶及權(quán)限,設(shè)置具體的信息采集熱詞;進(jìn)行專題(用戶設(shè)定)采集監(jiān)測(cè)及信息詳情顯示;收藏關(guān)注信息以便用戶后續(xù)使用。

        1.3 整體業(yè)務(wù)功能流程

        整體業(yè)務(wù)功能的運(yùn)作流程如圖3所示。

        圖3 信息分析過程

        分別對(duì)專題采集和網(wǎng)站采集進(jìn)行更加深入的配置說(shuō)明(根據(jù)專題、詞頻出結(jié)果),包括網(wǎng)站(針對(duì)指定的科技網(wǎng)站)、專題(針對(duì)網(wǎng)站具體的欄目板塊,需提前設(shè)置)、和全網(wǎng)(針對(duì)主流的搜索引擎,如百度、搜狗等搜索引擎)三種采集方式,需指定采集的數(shù)據(jù)類型,全網(wǎng)采集時(shí)需指定具體關(guān)鍵詞[3]。

        系統(tǒng)的使用效果取決于信息采集的效率,為提高系統(tǒng)信息采集的效率,本系統(tǒng)采用多線程方式完成總體信息采集框架的設(shè)計(jì),不同操作由各線程執(zhí)行(可并發(fā)執(zhí)行),提高服務(wù)器對(duì)系統(tǒng)資源的操作效率,系統(tǒng)采集時(shí)支持六類線程及多個(gè)隊(duì)列數(shù)據(jù)結(jié)構(gòu),同一隊(duì)列只能由一個(gè)線程訪問通過各隊(duì)列由多個(gè)線程加鎖的方式實(shí)現(xiàn),系統(tǒng)采集框架總體結(jié)構(gòu)如圖4所示。

        2 數(shù)據(jù)庫(kù)設(shè)計(jì)

        以具體的數(shù)據(jù)庫(kù)支撐環(huán)境為依據(jù),根據(jù)系統(tǒng)的實(shí)際需求(包括業(yè)務(wù)、功能、用戶等需求),實(shí)現(xiàn)最優(yōu)數(shù)據(jù)庫(kù)模式的構(gòu)建,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效存儲(chǔ)和管理工作,考慮到系統(tǒng)涉及的數(shù)據(jù)表較多,均衡負(fù)載的實(shí)現(xiàn)需采用多表分離方式,因此選用了安全高效、易操作的MySQL數(shù)據(jù)庫(kù)解決數(shù)據(jù)存儲(chǔ)及檢索問題,以便后續(xù)對(duì)信息進(jìn)行分析統(tǒng)計(jì)及管理。數(shù)據(jù)庫(kù)字段的建立與完善可使查詢數(shù)據(jù)的準(zhǔn)確性和全面性得以有效提升。

        圖4 采集框架結(jié)構(gòu)圖

        2.1 邏輯結(jié)構(gòu)設(shè)計(jì)

        采集任務(wù)信息表占據(jù)核心地位,數(shù)據(jù)庫(kù)邏輯結(jié)構(gòu)如圖5所示。

        圖5 數(shù)據(jù)庫(kù)實(shí)體一關(guān)系圖

        對(duì)所涉及的比較關(guān)鍵的數(shù)據(jù)庫(kù)表進(jìn)行關(guān)聯(lián)設(shè)計(jì),并依據(jù)系統(tǒng)功能結(jié)構(gòu)設(shè)計(jì)說(shuō)明了數(shù)據(jù)庫(kù)表間的關(guān)系,展示了各數(shù)據(jù)庫(kù)表的關(guān)鍵字段及表間的主外鍵關(guān)系。

        2.2 數(shù)據(jù)表設(shè)計(jì)

        本文完成了數(shù)據(jù)庫(kù)中各表的內(nèi)部結(jié)構(gòu)設(shè)計(jì),對(duì)字段名稱、數(shù)據(jù)類型等要素進(jìn)行了定義,由于涉及到的數(shù)據(jù)表較多,只對(duì)較為重要的表進(jìn)行闡述,其中用戶權(quán)限信息表如表1所示,采集任務(wù)信息表如表2所示,網(wǎng)站配置信息表如表3所示,任務(wù)收藏信息表如表4所示,采集結(jié)果信息表如表5所示,用戶信息表如表6所示[4]。

        3 系統(tǒng)主要功能的實(shí)現(xiàn)

        3.1 用戶管理功能的實(shí)現(xiàn)

        系統(tǒng)主要面向兩類用戶:普通用戶和系統(tǒng)管理員(按照操作權(quán)限可細(xì)分為操作員和管理員),普通用戶只有查看和下載相應(yīng)文檔的權(quán)限;系統(tǒng)管理員權(quán)限最高,可對(duì)各模塊內(nèi)容進(jìn)行管理(包括增、刪、改、查等操作),完成采集時(shí)間權(quán)限的設(shè)置。操作員對(duì)用戶管理模塊沒有操作權(quán)限,可對(duì)自己在其他模塊中建立的內(nèi)容進(jìn)行增、刪、改查等操作。根據(jù)系統(tǒng)需求在功能實(shí)現(xiàn)過程中,需先確定系統(tǒng)中各模塊的功能,對(duì)這些功能點(diǎn)完成排序標(biāo)號(hào)操作,并組合成對(duì)應(yīng)的三種不同用戶類型后存儲(chǔ)于數(shù)據(jù)庫(kù)的user right表中,降低功能點(diǎn)的耦合度,在此基礎(chǔ)上將指定的用戶類型同新建用戶進(jìn)行關(guān)聯(lián)匹配,實(shí)現(xiàn)了權(quán)限的可配置化管理,同時(shí)提高了系統(tǒng)的擴(kuò)展性。

        表1 用戶權(quán)限信息表

        表2 采集任務(wù)信息表

        表3 網(wǎng)站配置信息表

        表4 任務(wù)收藏信息表

        表5 采集結(jié)果信息表

        表6 用戶信息表

        3.2 采集與分析功能的實(shí)現(xiàn)

        (1) 采集網(wǎng)站的解析配置

        對(duì)所需采集的各網(wǎng)站進(jìn)行分析,在此基礎(chǔ)上完成信息的采集規(guī)則和處理流程的定義,對(duì)各科技網(wǎng)站在RootDir/spiders/目錄下,完成相應(yīng).pY格式配置文件的自定義,然后對(duì)相應(yīng)網(wǎng)站的處理代碼進(jìn)行編寫,采集網(wǎng)站各板塊URL配置的核心代碼如下[5]。

        1. def parse(self, response):

        2. '從給定的開始url爬取網(wǎng)頁(yè),并根據(jù)取得信息確定爬取指定模塊'

        3. global n_url, keywords, taskId, webType, last_keyword, now_keyword

        4. switch_urls={}

        5. switch_urls["1"]="http://www.bjtest.org.cn/News/List.aspx?cid=01"

        6. ……

        請(qǐng)求網(wǎng)頁(yè)下載功能實(shí)現(xiàn)的核心代碼如下。

        1. def parse_content(self, response):

        2. '獲取網(wǎng)頁(yè)內(nèi)容,并調(diào)用相應(yīng)Pipeline'

        3. global n_url, keywords, taskId, webType, last_keyword, now_keyword

        4. item=ItemLoader(item=BJTESTItem(), response=response)

        5. item.add_value('url', str(response, url))

        6. item.add_xpath('title_time','//td[@class="GCItemTitle"]')

        7. item.add_xpath('text', '//table/tr/td/div')

        8. item.add_xpath('hit_time','//table/tr[5]/td/span/text()')

        9. ……

        (2) 采集任務(wù)讀取

        讀取時(shí)需先連接數(shù)據(jù)庫(kù),然后編寫SQL語(yǔ)句,部分代碼如下:

        1. def main():

        2. ……

        3. conn=MySQLdb.connect(host=setting.HOST, user=setting.USER, passwd=setting.PASSWD, db=setting.DB, charset='utf8')

        4. cur=conn.cursor()

        5. cur.execute("SELECT col_id, col_method, col_keyword, col_websitenameNo, col_useornot, col_webtasktype FROM tbl_task where col_useornot=1")

        6. data=cur.fetchall()

        7. ……

        (3) 采集信息

        解析讀取采集任務(wù)中的采集方式、關(guān)鍵字、時(shí)間間隔、網(wǎng)站模塊ID等,并據(jù)此開啟采集線程執(zhí)行采集任務(wù),核心代碼如下:

        class Mythread(threading.Thread):

        def_init_(self, name, Id, d, threadingSum):

        super(Mythread, self)._init_()

        self.name=name

        self.Id=Id

        self.d=d

        self.threadingSum=threadingSum

        def run(self):

        with self.threadingSum:

        conn=MySQLdb.connect(host=setting.HOST, user=setting.USER, passwd=setting.PASSWD, db=setting.DB, charset='utf8') #連接數(shù)據(jù)庫(kù)

        cur=conn.cursor()

        ……

        cmd="python"+setting.Hot_words+"muti.py"+str(self.d[0]).strip()

        a=subprocess.Popen(cmd, shell=True)

        a.wait()

        end_info="TaskId:"+str(self.d[0])+"end……"

        time.sleep(s)

        在提取成功采集到的結(jié)果中的主要內(nèi)容時(shí),以處理html網(wǎng)頁(yè)為例,先根據(jù)文章位置完成正則表達(dá)式的編寫,將結(jié)構(gòu)化標(biāo)簽過濾掉后,對(duì)文章的主要文本信息進(jìn)行提取。在RootDir/spiders/pipelines.py文件中編寫代碼如下:

        1. class SDTJPTPipeline(object):

        2. def process_item(self, item, spider, t_url, n_url, keywords, taskId, webType):

        3. #處理網(wǎng)頁(yè)正文

        4. pattern2=re.compile(r'', re.S)

        6. pattern4=re.compile(r'', re.S)

        7. text=re.sub(pattern2, "", item['text'][0])

        8. text=re.sub(pattern1, "", text)

        9. text=item['title'][0].strip()+r' '+text

        10. path=settings.SDTJPT_path+"/"+id

        11. if os.path.exists(path):

        12. pass

        13. else:

        14. os.makedirs(path)

        (4) 信息分析

        在spider/HotWords中將文本中的無(wú)用符號(hào)過濾掉后,先完成系統(tǒng)的通用詞庫(kù)的構(gòu)建,具體通過Dir/spider/words.txt文件的創(chuàng)建實(shí)現(xiàn),然后通過Python中jieba.analyse.set_ words方法的調(diào)用實(shí)現(xiàn)文本中的通用詞的去除,然后再使用TextRank算法提取文本中的關(guān)鍵詞,文章標(biāo)題已存放在數(shù)據(jù)庫(kù)中(信息采集階段),文章正文已存放在磁盤上(信息處理階段),對(duì)相關(guān)的文章信息(包括標(biāo)題和正文)進(jìn)行依次讀取,并運(yùn)用TextRank算法對(duì)其進(jìn)行關(guān)鍵詞分析,直到分析完所有同采集任務(wù)相關(guān)的文章后,提取五個(gè)關(guān)鍵詞(熱度最高)作為關(guān)鍵詞[6]。

        4 系統(tǒng)測(cè)試

        為檢測(cè)本文所設(shè)計(jì)的基于Web的科技信息管理系統(tǒng)的實(shí)用性和穩(wěn)定性,采用黑盒測(cè)試法對(duì)信息采集、信息處理、信息分析、信息服務(wù)子系統(tǒng)的主要功能進(jìn)行測(cè)試,測(cè)試結(jié)果表明系統(tǒng)管理員可實(shí)現(xiàn)對(duì)系統(tǒng)的有效管理,可根據(jù)實(shí)際用戶需求對(duì)信息采集的主題、時(shí)間間隔、目標(biāo)站點(diǎn)進(jìn)行設(shè)置,可從多角度對(duì)指定主題進(jìn)行后續(xù)跟蹤,并且系統(tǒng)能夠有效實(shí)現(xiàn)信息采集、信息讀取、信息分析等功能,最終以平面媒體報(bào)告集萃的方式展現(xiàn)給用戶,系統(tǒng)具備良好的穩(wěn)定性和可拓展性,具備較高的實(shí)用價(jià)值,為科技信息管理的系統(tǒng)化提供參考。

        5 總結(jié)

        為有效滿足科技信息管理的用戶需求,本文主要研究了科技信息管理系統(tǒng)的開發(fā)路徑,結(jié)合HTTP協(xié)議及WEB開發(fā)技術(shù),完成了系統(tǒng)總體架構(gòu)的設(shè)計(jì),并對(duì)系統(tǒng)的總體功能進(jìn)行劃分和詳細(xì)的闡述,在系統(tǒng)整體拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上,采用MYSQL數(shù)據(jù)庫(kù)完成了系統(tǒng)的信息采集、分析及管理過程的設(shè)計(jì),使用Python、Javascript、HTML程序設(shè)計(jì)語(yǔ)言實(shí)現(xiàn)主要模塊的功能,設(shè)計(jì)了系統(tǒng)高性能的采集框架。

        猜你喜歡
        數(shù)據(jù)庫(kù)用戶功能
        也談詩(shī)的“功能”
        關(guān)于非首都功能疏解的幾點(diǎn)思考
        數(shù)據(jù)庫(kù)
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        數(shù)據(jù)庫(kù)
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        如何獲取一億海外用戶
        极品粉嫩小仙女高潮喷水网站 | 国产激情免费观看视频| 91久久国产香蕉视频| 日本真人做人试看60分钟| 亚洲深深色噜噜狠狠爱网站| 男人天堂AV在线麻豆| 国产一区二区黑丝美胸| 私人vps一夜爽毛片免费| 亚洲精品一区二区三区大桥未久 | 国产亚洲午夜高清国产拍精品不卡 | 乱码午夜-极国产极内射| 久久HEZYO色综合| 婷婷久久av综合一区二区三区| 色五月丁香五月综合五月| 国产露脸精品产三级国产av| 久久久久久久久中文字幕| av新型国产在线资源| 午夜爽爽爽男女污污污网站| 欧美成人看片黄a免费看| 成激情人妻视频| 日本亚洲系列中文字幕| 99久久精品午夜一区二区| 欧美自拍视频在线| 天堂av在线播放观看| 西川结衣中文字幕在线| 精品无码中文字幕在线| 国产午夜激情视频自拍| 国产av精选一区二区| 无码aⅴ精品一区二区三区浪潮| 亚洲男同帅gay片在线观看| 白白视频在线免费观看| 亚洲av综合av一区| 国产 字幕 制服 中文 在线| 日韩亚洲制服丝袜中文字幕| 一区二区三区在线乱码| 夜夜爽日日澡人人添| 亚洲av鲁丝一区二区三区| 日本一区二区久久精品亚洲中文无| 日韩女优精品一区二区三区| 无码精品日韩中文字幕| 欧美精品日韩一区二区三区 |