亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于序列模式挖掘的trace探測方法

2018-07-25 11:21:20廖湖聲

計(jì)算機(jī)應(yīng)用與軟件 2018年7期

潘龍廖湖聲蘇航

1(北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院北京 100124) 2(北京工業(yè)大學(xué)軟件學(xué)院北京 100124)

0 引言

即時(shí)編譯技術(shù)JIT compilation(just in-time compilation)是一種在程序運(yùn)行時(shí)刻識別出其中頻繁運(yùn)行的程序片段，并將其編譯為目標(biāo)代碼然后執(zhí)行的程序優(yōu)化技術(shù)，可以有效地提升程序執(zhí)行效率，最早可追溯至20世紀(jì)60年代McCarthy提出的在運(yùn)行時(shí)刻翻譯的函數(shù)。即時(shí)編譯技術(shù)可以分為基于方法和基于蹤跡(trace)兩種，其中基于方法的即時(shí)編譯對頻繁執(zhí)行的整個(gè)方法進(jìn)行編譯，粒度較大；基于trace的即時(shí)編譯在運(yùn)行時(shí)動(dòng)態(tài)地識別出頻繁執(zhí)行的代碼序列，并將其作為編譯的基本單元，粒度較小，可以減少整體編譯時(shí)間并提高目標(biāo)代碼質(zhì)量。

數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有價(jià)值的模式的核心過程，旨在提取有效的、新穎的、潛在有用的、易被理解的知識。序列模式挖掘作為數(shù)據(jù)挖掘的一個(gè)重要研究方向，是一種在序列數(shù)據(jù)庫中挖掘頻繁出現(xiàn)的子序列作為模式的知識發(fā)現(xiàn)過程。序列模式挖掘在基因序列分析、購物行為分析，商業(yè)分析等實(shí)際領(lǐng)域得到了廣泛應(yīng)用。應(yīng)用序列模式挖掘，能夠發(fā)現(xiàn)潛在的知識，幫助決策者進(jìn)行更好的決策和規(guī)劃，從而獲得巨大的經(jīng)濟(jì)效益與社會效益。程序解釋執(zhí)行過程中，按順序執(zhí)行的基本塊便可以看作是序列數(shù)據(jù)。

服務(wù)器端程序運(yùn)行于網(wǎng)絡(luò)環(huán)境下，服務(wù)器響應(yīng)用戶請求的解釋型語言程序通常是動(dòng)態(tài)生成或用戶提交的，無法事先進(jìn)行編譯優(yōu)化處理，可以使用即時(shí)編譯技術(shù)提高程序執(zhí)行效率。同時(shí)，服務(wù)器端程序具有并發(fā)執(zhí)行的特點(diǎn)，并發(fā)執(zhí)行的解釋型程序可以看作是多個(gè)基本塊序列，通過對這些基本塊序列應(yīng)用序列模式挖掘，可以識別服務(wù)端程序中的熱點(diǎn)代碼序列，即熱點(diǎn)trace。服務(wù)器端的trace探測能夠利用服務(wù)器端并發(fā)的特點(diǎn)，更為高效地識別trace，從而提升程序執(zhí)行效率，提高用戶請求的響應(yīng)速度。

為了更好地識別服務(wù)器端程序中的熱點(diǎn)trace，提高服務(wù)器端程序的請求處理速度，本文提出了一種基于序列模式挖掘的trace探測方法，將并發(fā)執(zhí)行的服務(wù)器端程序產(chǎn)生的多個(gè)基本塊序列作為序列數(shù)據(jù)庫，通過識別其中的序列模式來發(fā)現(xiàn)程序中的熱點(diǎn)trace，解決了現(xiàn)有的trace探測方法無法針對服務(wù)器端程序進(jìn)行高效探測的問題。該方法主要分為基本塊數(shù)據(jù)準(zhǔn)備、序列模式挖掘和序列模式去重與合并三個(gè)部分，在序列模式挖掘部分設(shè)計(jì)并提出了Pisat算法，用于識別熱點(diǎn)trace。實(shí)驗(yàn)結(jié)果表明這種方法有效地提高了熱點(diǎn)trace的探測效率。

1 相關(guān)工作

1.1 基于trace的即時(shí)編譯

基于trace的即時(shí)編譯是一種在運(yùn)行時(shí)動(dòng)態(tài)地識別出頻繁執(zhí)行的代碼序列，并將其作為編譯的基本單元的技術(shù)。第一個(gè)實(shí)現(xiàn)基于trace的即時(shí)編譯系統(tǒng)是Dynamo[1]，它是一個(gè)能提高指令流執(zhí)行效率的動(dòng)態(tài)優(yōu)化系統(tǒng)。DynamoRIO[2]對Dynamo進(jìn)行了擴(kuò)展，它能夠動(dòng)態(tài)地減少解釋過程中的開銷，然而DynamoRIO的trace仍然在機(jī)器指令層面，沒有包含解釋器層面的高級信息，一些編譯優(yōu)化在這一層面也無法進(jìn)行。

2006年，Gal等[3]開發(fā)了第一個(gè)針對高級語言的基于trace的虛擬機(jī)HotpathVM，它將字節(jié)碼作為探測對象。該虛擬機(jī)動(dòng)態(tài)地探測頻繁運(yùn)行的字節(jié)碼，將這些字節(jié)碼編譯為SSA(Static Single Assignment)作為中間表示，并將其翻譯為機(jī)器碼。

H?ubl等[4]基于HotSpot虛擬機(jī)，開發(fā)基于trace的即時(shí)編譯系統(tǒng)。但該解決方案不能跨越函數(shù)，trace都很短小，節(jié)約了探測和編譯的時(shí)間，但增大了環(huán)境切換的開銷。

2015年，陶勝召等[5]提出了基于trace的CMinus語言即時(shí)編譯技術(shù)，在該技術(shù)中，CMinus程序經(jīng)過詞法分析和語法分析之后得到抽象語法樹，并按照一定的規(guī)則將其轉(zhuǎn)換為基本塊流圖。解釋執(zhí)行將針對基本塊流圖進(jìn)行，在解釋執(zhí)行過程中，采用基于計(jì)數(shù)的熱點(diǎn)trace探測策略。雖然該研究較好地實(shí)現(xiàn)了基于trace的即時(shí)編譯技術(shù)，但是對于trace的探測是針對程序的單次執(zhí)行，無法利用服務(wù)器端程序的運(yùn)行特點(diǎn)來高效進(jìn)行trace探測。

1.2 序列模式挖掘

設(shè)I={x1,x2,…,xn}為所有數(shù)據(jù)項(xiàng)的集合。元素e是由各種數(shù)據(jù)項(xiàng)組成的數(shù)據(jù)項(xiàng)集。序列s=就是若干元素的有序列表，元素之間是有順序的，但元素內(nèi)的數(shù)據(jù)項(xiàng)是無序的。設(shè)有兩個(gè)序列α=，β=，如果存在一組正整數(shù)1≤i1

序列模式挖掘最早由R.Agrawal和R.Srikant在1995年提出，是數(shù)據(jù)挖掘一個(gè)重要的研究領(lǐng)域。經(jīng)典的靜態(tài)序列數(shù)據(jù)庫的序列模式挖掘算法主要有兩種類型。第一種是類apriori算法，例如：R.Agrawal和R.Srikant提出的AprioriAll算法、GSP算法[6]；F.Masseglia等[7]提出的PSP算法；Zaki[8]提出的SPADE算法和J.Ayres[9]提出的SPAM算法，都需要?jiǎng)?chuàng)建候選集并多次掃描整個(gè)序列數(shù)據(jù)庫以得到序列模式。第二種是基于模式增長的方法，例如FreeSpan算法[10]、PrefixSpan算法[11]等，這些算法在挖掘過程中不產(chǎn)生候選序列，通過分而治之的思想把搜索空間劃分成更小的空間，通過連接實(shí)現(xiàn)序列模式的增長。

在許多實(shí)際應(yīng)用中，數(shù)據(jù)通常是動(dòng)態(tài)變化的，傳統(tǒng)的靜態(tài)序列數(shù)據(jù)庫的序列模式挖掘算法難以適用于這種情況。Huang等[12]提出了漸進(jìn)式序列模式挖掘算法Pisa，支持在挖掘過程中對序列數(shù)據(jù)庫進(jìn)行增加和刪除。Pisa算法的基本思想是構(gòu)造一棵PS-tree，來保存滑動(dòng)窗口內(nèi)的序列信息。在PS-tree中，節(jié)點(diǎn)代表了序列中的元素，其數(shù)據(jù)結(jié)構(gòu)如圖1所示。Pisa算法根據(jù)序列數(shù)據(jù)庫中新到來的數(shù)據(jù)和PS-tree中記錄的序列id和時(shí)間戳，逐步地更新PS-tree節(jié)點(diǎn)。同一序列中先后出現(xiàn)的元素，在PS-Tree中表現(xiàn)為父子節(jié)點(diǎn)關(guān)系，作為候選序列模式。PS-tree不僅存儲了序列中的元素和時(shí)間戳，而且有效地計(jì)算了每個(gè)候選序列模式的發(fā)生頻率。雖然Pisa算法解決了數(shù)據(jù)動(dòng)態(tài)變化的問題，但該算法在識別序列模式的過程中忽略了同一序列中的頻繁子序列，并且在序列數(shù)據(jù)庫Db只包含一條序列時(shí)無法正常工作。

圖1 PS-Tree一般節(jié)點(diǎn)

2 基于序列模式挖掘的trace探測

設(shè)所有的基本塊對象的集合為I={x1,x2,…,xn}，數(shù)據(jù)項(xiàng)xi(1≤i≤n)為基本塊ID。元素e代表某一時(shí)刻執(zhí)行的基本塊集合。程序執(zhí)行產(chǎn)生的序列s=是一系列不斷到來的基本塊的集合。設(shè)有兩個(gè)序列α=、β=，如果存在一組正整數(shù)1≤i1

在解釋執(zhí)行每個(gè)基本塊時(shí)都會觸發(fā)如圖2所示的trace探測執(zhí)行過程，如果解釋執(zhí)行遇到的基本塊已經(jīng)編譯，直接執(zhí)行已編譯版本。如果解釋執(zhí)行遇到的基本塊未被編譯，則進(jìn)行解釋執(zhí)行并收集基本塊(數(shù)據(jù)準(zhǔn)備)。收集一定數(shù)量的基本塊后利用序列模式挖掘的方法識別trace，并進(jìn)行trace編譯。

圖2 trace探測執(zhí)行流程

基于序列模式挖掘的trace探測主要分為3個(gè)步驟，分別是數(shù)據(jù)準(zhǔn)備、序列模式挖掘算法和序列模式的去重與合并。數(shù)據(jù)準(zhǔn)備階段接收解釋器發(fā)送來的基本塊數(shù)據(jù)，并轉(zhuǎn)換為序列數(shù)據(jù)庫，序列數(shù)據(jù)庫作為序列模式挖掘算法的輸入生成序列模式，通過序列模式生成熱點(diǎn)trace返回并請求即時(shí)編譯系統(tǒng)編譯trace。

2.1 數(shù)據(jù)準(zhǔn)備階段

數(shù)據(jù)準(zhǔn)備工作在基于序列模式挖掘的trace探測任務(wù)中所占的工作量比較大，是保證數(shù)據(jù)挖掘成功先決條件，主要工作有基本塊數(shù)據(jù)采集和通過數(shù)據(jù)預(yù)處理生成序列數(shù)據(jù)庫。若有表1中的示例程序和如圖3所示的按照基本塊轉(zhuǎn)換規(guī)則生成的基本塊流圖，數(shù)據(jù)準(zhǔn)備工作就是針對程序執(zhí)行過程中產(chǎn)生的這些基本塊進(jìn)行的。

表1 示例程序

圖3 基本塊流圖

數(shù)據(jù)準(zhǔn)備階段負(fù)責(zé)收集服務(wù)器端程序執(zhí)行過程中產(chǎn)生的基本塊數(shù)據(jù)。每次程序執(zhí)行對應(yīng)一個(gè)基本塊數(shù)據(jù)緩沖區(qū)，緩沖區(qū)具有固定長度，程序解釋執(zhí)行過程中發(fā)送基本塊數(shù)據(jù)到對應(yīng)的緩沖區(qū)中，以固定的時(shí)間間隔將緩沖區(qū)中的數(shù)據(jù)轉(zhuǎn)換為序列數(shù)據(jù)庫發(fā)送至序列模式挖掘模塊。緩沖區(qū)中只保留最近一個(gè)時(shí)間間隔的基本塊數(shù)據(jù)，當(dāng)基本塊數(shù)據(jù)個(gè)數(shù)大于緩沖區(qū)大小時(shí)舊的基本塊數(shù)據(jù)將會溢出，其中基本塊數(shù)據(jù)包括基本塊標(biāo)識、執(zhí)行基本塊的程序的標(biāo)識等信息。處理所有緩沖區(qū)中的數(shù)據(jù)，按照基本塊產(chǎn)生的順序轉(zhuǎn)換生成基本塊序列數(shù)據(jù)庫，為了實(shí)現(xiàn)方便，設(shè)置同一時(shí)刻的基本塊集合只包含一個(gè)基本塊?；緣K序列數(shù)據(jù)庫是序列模式挖掘的輸入數(shù)據(jù)。由于在程序執(zhí)行過程中基本塊的解釋執(zhí)行存在先后關(guān)系，所以整個(gè)序列數(shù)據(jù)庫也按照邏輯上的時(shí)間先后關(guān)系創(chuàng)建。

本文采用CMinus語言作為基于序列模式挖掘的trace探測的中間語言，使任何可以翻譯為CMinus的程序設(shè)計(jì)語言都能利用本文提供的技術(shù)提升效率。以表1中程序?yàn)槔?，?dāng)程序輸入數(shù)據(jù)為5 947，且有3個(gè)程序?qū)嵗谕瑫r(shí)執(zhí)行，也就是3條基本塊序列S1、S2和S3?？梢陨扇绫?所示的序列數(shù)據(jù)庫。

表2 序列數(shù)據(jù)庫

2.2 序列模式挖掘算法

我們提出了一種序列模式挖掘算法Pisat(Progressive Mining of Sequential Patterns for Trace)，用來識別基本塊序列數(shù)據(jù)庫中的序列模式。Pisat算法改進(jìn)了Pisa算法，使其支持單序列的序列模式挖掘，并修改了子序列頻繁程度的判定方法。

2.2.1 PST-tree

PST-tree通過存儲序列數(shù)據(jù)庫中各序列的信息來幫助Pisat算法識別序列模式。PST-tree是一顆多叉樹，父子節(jié)點(diǎn)表示同一序列中元素出現(xiàn)的先后關(guān)系。與PS-tree一樣，PST-tree也分為根節(jié)點(diǎn)和一般節(jié)點(diǎn)，除根節(jié)點(diǎn)外的所有其他節(jié)點(diǎn)都是普通節(jié)點(diǎn)。根節(jié)點(diǎn)只包含指向其孩子節(jié)點(diǎn)的指針。一般節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)如圖4所示，存儲了三種信息，節(jié)點(diǎn)的標(biāo)簽(label)，序列列表(seq_list)，以及序列列表中每個(gè)序列id(sequenceID)對應(yīng)的時(shí)間戳集合(timestampSet)。時(shí)間戳集合表示同一個(gè)元素多次出現(xiàn)，Pisat算法通過時(shí)間戳集合解決了pisa算法無法有效識別同一序列中序列模式，以及單一序列無法識別序列模式的問題。

labelsequenceID…sequenceIDtimestampSet…timestampSet

圖4 PST-tree一般節(jié)點(diǎn)結(jié)構(gòu)

2.2.2 Pisat算法

Pisat算法利用PST-Tree存儲所有序列的信息，Pisat算法接收最新時(shí)刻的所有序列的元素，后序遍歷PST-Tree并更新PST-Tree信息，直到?jīng)]有新的元素到來。遍歷PST-Tree的算法如表3所示，其主要思想是將新到來的元素插入到PST-Tree中。后序遍歷PST-Tree過程中，如果處理的是根節(jié)點(diǎn)，對于新到來的元素，如表2(t1)時(shí)刻序列S1，S2和S3對應(yīng)的元素E，E和B，如果該元素之前出現(xiàn)過，即新到來的元素中的基本塊id與根節(jié)點(diǎn)的某個(gè)孩子節(jié)點(diǎn)標(biāo)簽一致，那么檢查新到來元素的所屬序列是否在該孩子節(jié)點(diǎn)的序列列表中，如果存在，算法為節(jié)點(diǎn)中該序列添加一個(gè)當(dāng)前時(shí)間戳，表示多次出現(xiàn)，如果不存在，算法為節(jié)點(diǎn)中序列列表添加這個(gè)序列，并對應(yīng)當(dāng)前時(shí)間戳。如果新到來的元素之前沒有出現(xiàn)過，算法為新到來的元素創(chuàng)建一個(gè)新的孩子節(jié)點(diǎn)，包含其所屬序列和當(dāng)前時(shí)間戳。處理一般節(jié)點(diǎn)時(shí)，如果新到來元素所屬序列在節(jié)點(diǎn)的序列列表中，并且新到來元素不存在于根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的路徑上，開始處理一般節(jié)點(diǎn)，過程類似于對根節(jié)點(diǎn)的處理。處理完一般節(jié)點(diǎn)之后，如果節(jié)點(diǎn)的序列列表長度不小于支持度閾值support1×|Db|或者節(jié)點(diǎn)中某個(gè)序列對應(yīng)的所有時(shí)間戳數(shù)量不小于支持度閾值support2時(shí)，根節(jié)點(diǎn)到該節(jié)點(diǎn)的候選序列模式為序列模式，support2是新增加的支持度閾值，目的是幫助算法識別同一序列中的序列模式。

算法1traverse

輸入：當(dāng)前時(shí)間戳ct

需要遍歷的PST-Tree PS

新到來的所有序列的元素集合ES

序列數(shù)量sn

支持度1 support1

支持度2 support2

輸出：序列模式集合SP

算法traverse

1. foreach n of PS in post order

2. if(n is root)

3. foreach e of every seq in ES

4. if(e==label of one of node.child)

5. if(seq is in n.child.seq_list)

//添加時(shí)間戳

6. addTimestamp(n.child, seq, ct)

7. else

//創(chuàng)建序列

8. createSeq(n.child, seq, ct)

9. else

//創(chuàng)建孩子節(jié)點(diǎn)

10. createNode(n, e, seq, ct)

11. else

//節(jié)點(diǎn)是一般節(jié)點(diǎn)

12. foreach seq in n.seq_list

13. if(e=hasNewEle(ES, seq) && isNotOnPathFromRoot(e, n))

//ES中seq序列有新元素e，且e不在從根節(jié)點(diǎn)開始的路//徑上

14. if(e==label of one of node.child)

15. if(seq is in n.child.seq_list)

//添加時(shí)間戳

16. addTimestamp(n.child, seq, getLatestTimestamp(n,seq))

17. else

//創(chuàng)建序列

18. createSeq(n.child, seq,getLatestTimestamp(n, seq))

19. else

//創(chuàng)建孩子節(jié)點(diǎn)

20. createNode(n, e, seq, getLatestTimestamp(n, seq))

21. if(節(jié)點(diǎn)n的序列列表中序列數(shù)量≥sn*support1‖n.seq_list中某序列對應(yīng)的所有時(shí)間戳數(shù)量≥support2)

22. 根節(jié)點(diǎn)到該節(jié)點(diǎn)的標(biāo)簽作為序列模式,收集序列模式至集合SP

輔助函數(shù)：

addTimestamp(n, seq, ts): 為節(jié)點(diǎn)n的seq序列添加一個(gè)時(shí)間戳ts

createSeq(n, seq, ts): 為節(jié)點(diǎn)n創(chuàng)建一個(gè)sequenceID為seq且對應(yīng)時(shí)間戳為ts的序列

createNode(n, e, seq, ts): 為節(jié)點(diǎn)n創(chuàng)建一個(gè)label為e的子節(jié)點(diǎn)，包含一個(gè)sequenceID為seq且時(shí)間戳為ts的序列

hasNewEle(ES, seq): ES中seq序列是否存在新元素，存在則返回新到來的元素e

isNotOnPathFromRoot(e, n): 元素e包含的基本塊是否不在n到root的路徑上

getLatestTimestamp(n, seq): 返回節(jié)點(diǎn)n中seq序列對應(yīng)的時(shí)間戳集合中，最新的時(shí)間戳

如果有如表1所示的CMinus程序及轉(zhuǎn)換成的基本塊序列數(shù)據(jù)庫表2，可以對應(yīng)如圖5所示的建樹過程，若support1設(shè)置為1.5，support2設(shè)置為2，在(t5)時(shí)刻最左側(cè)的標(biāo)簽為C的節(jié)點(diǎn)，其序列列表長度

圖5 建樹過程

2.3 模式合并

挖掘得到的序列模式是程序中頻繁執(zhí)行的基本塊，但可能存在序列模式之間互相包含、有部分相同的情況，需要進(jìn)行一些去重與合并的處理，將處理后的序列模式作為trace發(fā)送至即時(shí)編譯系統(tǒng)。如果不進(jìn)行模式的去重與合并，會導(dǎo)致重復(fù)的trace被多次編譯，增加編譯開銷。對序列模式的處理包含以下幾種情況：

1) 當(dāng)前序列模式包含其他已存在的序列模式，則將已存在的序列模式合并至當(dāng)前序列模式。

2) 已存在的序列模式包含當(dāng)前序列模式，則將當(dāng)前序列模式合并至已存在的序列模式。

3) 已存在的序列模式包含當(dāng)前序列模式的一部分，且起點(diǎn)一致，則將當(dāng)前序列模式去重合并到已存在的序列模式中。

如圖 5所示PST-Tree中，若support1設(shè)置為0.5，support2設(shè)置為2，可以識別出序列模式SP1：{B，C，E}和SP2：{C，E，B}，對SP2中的元素按照基本塊id排序后為{B，C，E}，與SP1一致，將SP2合并至SP1：{B，C，E}，對序列模式進(jìn)行去重與合并之后可以有效地減少需要編譯的trace數(shù)量。

3 實(shí) 驗(yàn)

本文使用CMinus程序作為即時(shí)編譯系統(tǒng)的輸入，輸出是計(jì)算后的結(jié)果。首先對服務(wù)器端響應(yīng)用戶請求的CMinus語言程序進(jìn)行分析并生成基本塊流圖，生成基本塊流圖之后，即可對基本塊進(jìn)行解釋執(zhí)行。解釋執(zhí)行過程中，不斷將處理的基本塊發(fā)送至服務(wù)器端共用的基于序列模式挖掘的trace探測器。trace探測器識別的trace存放至trace集合，并通知JIT編譯器編譯trace。編譯完成后如解釋器再運(yùn)行到熱點(diǎn)trace，即可直接運(yùn)行編譯好的代碼。

為了驗(yàn)證本文提出的基于序列模式挖掘的trace探測方法的性能，實(shí)現(xiàn)了一個(gè)即時(shí)編譯系統(tǒng)，并設(shè)計(jì)了一組實(shí)驗(yàn)程序來比較基于計(jì)數(shù)的熱點(diǎn)trace探測策略與基于序列模式挖掘的熱點(diǎn)trace探測方法的效率。測試環(huán)境為：Windows 10操作系統(tǒng)，Intel(R) Core(TM) i5-4590 CPU@3.30 GHz，8.00 GB內(nèi)存，2 000 GB硬盤。開發(fā)環(huán)境為IntelliJ IEDA+jdk1.8。

本文在實(shí)驗(yàn)中使用的測試程序均為自定義用例，測試程序中包含了循環(huán)與分支等情況，并分別測試了程序在基于計(jì)數(shù)的熱點(diǎn)探測策略與基于序列模式挖掘的trace探測方法，比較識別第一條trace的耗時(shí)。識別第一條trace的耗時(shí)代表著trace探測策略效率的高低，trace探測策略的效率決定基于trace的即時(shí)編譯技術(shù)的優(yōu)化效果。

第一組測試程序如表3所示，圖6為測試結(jié)果，在程序只有單重循環(huán)的情況下，程序1-程序5無分支語句或只有一層分支語句，基于計(jì)數(shù)的策略耗時(shí)遠(yuǎn)小于基于序列模式挖掘的策略。程序6具有兩層分支語句，基于計(jì)數(shù)的策略耗時(shí)略高于基于序列模式挖掘的策略。程序7具有四層分支語句，基于計(jì)數(shù)的策略耗時(shí)遠(yuǎn)高于基于序列模式挖掘的策略。在程序具有雙重循環(huán)的情況下，程序8、程序9無分支語句，基于計(jì)數(shù)的策略耗時(shí)大于單重循環(huán)的情況，但仍小于基于序列模式的策略。程序10-程序13具有一層或兩層分支語句，基于計(jì)數(shù)的策略耗時(shí)接近或高于基于序列模式挖掘策略。在程序具有三重循環(huán)的情況下，程序14無分支語句，基于計(jì)數(shù)的策略耗時(shí)小于基于序列模式挖掘策略。程序15具有一層分支語句，基于計(jì)數(shù)的策略耗時(shí)略高于基于序列模式挖掘策略。

表3 第一組測試程序

圖6 識別第一條trace消耗的時(shí)間

為了更好地分析識別第一條trace的耗時(shí)與程序結(jié)構(gòu)的關(guān)系，本文設(shè)計(jì)了如表4所示的第二組實(shí)驗(yàn)。測試結(jié)果如圖7所示，程序在循環(huán)嵌套層數(shù)一定的情況下，基于計(jì)數(shù)的策略耗時(shí)隨著分支語句嵌套層數(shù)的增加而增加，而基于序列模式挖掘的策略耗時(shí)相對穩(wěn)定，一般情況下，基于序列模式挖掘的策略比基于計(jì)數(shù)的策略在效率上有所提升。

表4 第二組測試程序

圖7 識別第一條trace消耗的時(shí)間

實(shí)驗(yàn)結(jié)果表明：分支語句嵌套層數(shù)固定時(shí)，循環(huán)嵌套層數(shù)越多，基于計(jì)數(shù)的策略耗時(shí)越多。在循環(huán)層數(shù)固定時(shí)，程序內(nèi)分支語句的嵌套層數(shù)越多，基于計(jì)數(shù)的策略耗時(shí)越多，而基于序列模式挖掘的策略耗時(shí)相對穩(wěn)定，可以帶來效率上的提升。

4 結(jié) 語

為了更高效地識別服務(wù)器端程序的熱點(diǎn)trace，本文提出了一種基于序列模式挖掘的trace探測方法，解決了現(xiàn)有的trace探測方法無法針對服務(wù)器端程序進(jìn)行高效探測的問題。本方法收集程序解釋執(zhí)行過程中的基本塊，并轉(zhuǎn)換為基本塊序列數(shù)據(jù)庫，以固定的時(shí)間間隔發(fā)送至序列模式挖掘模塊。針對基本塊序列的特點(diǎn)，本文提出并使用Pisat算法作為序列模式挖掘模塊的核心算法。為了減少編譯開銷，本方法對識別出的序列模式進(jìn)行去重與合并作為熱點(diǎn)trace，最后對熱點(diǎn)trace進(jìn)行編譯。

通過實(shí)驗(yàn)證明，程序復(fù)雜程度足夠高時(shí)，該方法與基于計(jì)數(shù)的熱點(diǎn)trace探測方法相比，切實(shí)有效地提高了trace識別的效率。在今后的工作中，我們將對針對trace探測的序列模式算法Pisat進(jìn)行并行優(yōu)化，以期進(jìn)一步提高trace探測效率。