杜振龍,周 飛,沈海洋,李曉麗
電子筆記本:一種從會議、報告及講演的手機照片生成PPT的方法
杜振龍,周 飛,沈海洋,李曉麗
(南京工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 211816)
智能手機已成為人們生活的有力助手,將手機拍攝的會議、報告以及演講圖像生成PPT具有迫切的現(xiàn)實需求,方便人們有效快捷地瀏覽會議、報告及演講內(nèi)容。為此,提出了一種從會議、報告及演講的手機照片生成PPT方法,包括有效區(qū)域提取、內(nèi)容區(qū)域重投影和補全內(nèi)容區(qū)域。有效區(qū)域提取用大核形態(tài)學(xué)操作處理圖像,突出內(nèi)容區(qū)域和背景區(qū)域的差異,便于準(zhǔn)確提取有效內(nèi)容區(qū)域?;诮屈c約束恢復(fù)相機參數(shù),以虛擬視角方式將內(nèi)容區(qū)進行正投影。內(nèi)容區(qū)域補全用inpainting方法去除內(nèi)容區(qū)域的遮擋物。在多種會議、報告及演講場所的多種情景測試了該算法,能夠?qū)h、報告及演講的手機照片生成PPT。
PPT生成;有效內(nèi)容區(qū)域;重投影
手機已成為現(xiàn)代人們學(xué)習(xí)、工作和生活的重要輔助工具,方便了人們用影像、文字等數(shù)據(jù)形式記錄學(xué)習(xí)、工作、生活軌跡或有意義的事件。人們在參加會議、聆聽報告、演講時,經(jīng)常用手機拍攝會議、報告、講演相關(guān)的多張圖像,并在會后通過系列圖像了解和熟悉會議、報告、講演內(nèi)容。由于拍攝的手機圖像存在無序、區(qū)域不完整等問題,不可避免地造成人們需花費雙倍甚至更多時間了解會議、報告、講演內(nèi)容,人們迫切需要一種能夠從手機拍攝的會議、報告、講演相關(guān)的圖像中自動提取內(nèi)容的方法,從而方便人們高效地掌握會議、報告、講演內(nèi)容。本文提出一種從會議、報告及講演現(xiàn)場所拍攝圖像自動生成PPT的方法,即如何從手機拍攝的會議、報告、講演系列手機圖像生成相關(guān)PPT文檔。
采用傳統(tǒng)的字符識別OCR方法識別圖像包含文字內(nèi)容不可行,因為圖像中不僅包含文字,且包含圖像、公式等內(nèi)容,另即使識別部分文字,而分析文字的格式仍十分困難。用高精度光流法[1]、稠密SIFT流法[2]、面片匹配[3]等方法在多角點的文字型場景低效、易失效。本文關(guān)注的是如何將手機拍攝的現(xiàn)場圖像變形為理想拍攝的圖像,將會議、報告、講演的內(nèi)容區(qū)域提取并生成PPT,因此將內(nèi)容區(qū)域作為整體處理。采用大核腐蝕、膨脹,開、閉等形態(tài)學(xué)操作,以整體方式處理圖像,削弱文字、圖像特征對提取操作的不利影響,使有效內(nèi)容區(qū)域和周圍區(qū)域區(qū)形成明顯邊界,方便定位出有效內(nèi)容區(qū)域,實現(xiàn)提取內(nèi)容區(qū)域。
由于視角、距離、光照、遮擋等因素的影響,手機拍攝的會議、報告、講演相關(guān)圖像不可避免的包含一些無關(guān)的內(nèi)容,干擾、影響目標(biāo)影像的提取。會議、報告及講演內(nèi)容的“電子筆記本”包括其內(nèi)容提取、重投影內(nèi)容和補全內(nèi)容,最終以PPT形式輸出。
從多張會議、報告、講演現(xiàn)場拍攝圖像生成相關(guān)內(nèi)容PPT首先需恢復(fù)相機拍攝參數(shù)。從多張圖像反演相機參數(shù)已有較多方法,但需要至少2張以上的場景相關(guān)的圖像,而本文所處理的問題很多情況是單張圖像,且圖像間的相關(guān)性隨機性很大。Bundle方法集成了相機參數(shù)反求、圖像深度配準(zhǔn)、圖像變形等關(guān)鍵算法,用Bundle算法可方便、快速地將輸入的若干張圖像即刻生成2.5D或3D場景,但Bunldle方法適合處理稠密采樣場景。
隨著手機逐漸成為信息獲取的重要工具,圖像約束合成[4]與變形[5-6]、多視點視頻摘要[7]、室內(nèi)家具布置的增強現(xiàn)實[8-9]等均可利用手機獲取數(shù)據(jù)。諸多和現(xiàn)實生活相關(guān)的應(yīng)用使用SLAM算法反演相機參數(shù),并利用并行、GPU加速等方式加速SLAM執(zhí)行效率。近來SLAM算法已在位置依賴應(yīng)用[8-9]、無人駕駛等方面得到快速拓展。本文所處理圖像的拍攝位置變化不大,運用SLAM算法會額外引入計算代價。本文所處理的內(nèi)容區(qū)域呈平面矩形,因此利用區(qū)域的矩形約束給出了一種重投影算法,可高效地將圖像內(nèi)容區(qū)域正投影為無畸變的圖像。
傳統(tǒng)方法從相關(guān)圖像序列生成PPT文檔是利用圖像匹配、恢復(fù)相機參數(shù)、重建深度圖像、進而生成PPT文檔。檢測圖像SIFT特征點[2,10]、SURF特征點[11],光流法[1]、微匹配[12]、面片匹配PatchMatch[3]等確定圖像間的對應(yīng)關(guān)系,根據(jù)匹配點應(yīng)用最小二乘法確定相機參數(shù),并利用深度圖像準(zhǔn)確給出圖像變換結(jié)果,該方法優(yōu)點是結(jié)果精確,但計算量較大,不適合嵌入式設(shè)備和APP端應(yīng)用。另外,本文所處理的圖像來自于會議、報告、講演現(xiàn)場,文字中細小角點特征多,且圖像間的特征點對應(yīng)關(guān)系不固定,因此,選用內(nèi)容區(qū)域的矩形框為約束,在保證生成PPT質(zhì)量前提下避開了繁多的特點匹配計算。
多張會議、報告、講演現(xiàn)場拍攝圖像存在亮度差異,文獻[6]在中間域和共性內(nèi)容為確定圖像最終亮度。文獻[13]將圖像分解為光照圖應(yīng)的圖像域進行,有效防止了圖像材質(zhì)和光照編輯的相互影響。且根據(jù)源圖像的平均亮度確定生成PPT亮度。
從多張手機拍攝圖像生成PPT文檔算法包括3個階段:有效內(nèi)容區(qū)提取、對內(nèi)容區(qū)的重投影以及內(nèi)容區(qū)補全。從每張圖像提取出包含演講、會議和報告內(nèi)容的有效區(qū)域[14];內(nèi)容區(qū)域的重投影是把獲取視點與投影屏幕不垂直造成的圖像畸變通過視點垂直屏幕的重投影糾正畸變;內(nèi)容區(qū)補全是填補[15]遮擋部分形成完整PPT,如圖1所示。
首先利用大核腐蝕、膨脹,開、閉形態(tài)學(xué)操作,模糊圖像中的文字,在有效內(nèi)容區(qū)和周圍區(qū)形成明顯邊界,便于提取矩形內(nèi)容區(qū)域邊界,對邊界擬合,形成由若干線段封閉的有效區(qū)域,進而提取出有效內(nèi)容區(qū)域;對有效區(qū)域內(nèi)容矩形區(qū)域進行角點提取,得到相機的內(nèi)外參數(shù)和畸變系數(shù),并利用這些參數(shù)和系數(shù)恢復(fù)相機的正面投影,從而實現(xiàn)內(nèi)容區(qū)域的重投影;最后恢復(fù)圖像和文字內(nèi)容,并且補全遮擋部分[15]。
圖1 算法流程
受會議場地、布置,燈光、人員、拍攝位置等因素的影響,用手機從會議、報告、演講場所拍攝的圖像,存在很大的差異,主要有:①通常投影屏幕上方有會議條幅,條幅或多或少地會出現(xiàn)在拍攝圖像中,如圖2(a)和圖2(c)所示;②有時投影屏幕前會有嘉賓主席臺,造成在獲取的圖像下方包含主席臺的桌、椅,如圖2(b)和圖2(c)所示;③多數(shù)情況下投影屏幕區(qū)的亮度高于周圍區(qū)域,但有些報告內(nèi)容采用深色背景,致使獲取圖像的亮度與周圍亮度相差不大,如圖2(d)所示;④報告人采用的PPT模板相差很大,有的采用純底色嵌對比度大的文字,有的采用多種色調(diào)搭配,······,還有的存在一些背景圖片或者Logo等。
(a) 投影幕上方有橫幅(b) 演講者在屏幕前方 (c) 投影幕下方有嘉賓桌椅(d) 背景與周圍亮度較接近
提取會議、報告、演講圖像的內(nèi)容區(qū)域、剔除無關(guān)區(qū)域,可降低算法處理時間。會議、報告、演講圖像中內(nèi)容區(qū)域亮度高于周圍環(huán)境以便于觀眾觀看,本文利用該性質(zhì)界定有效內(nèi)容區(qū)域,采用迭代腐蝕、膨脹輔以開、閉形態(tài)學(xué)操作模糊、弱化文字細節(jié),突出內(nèi)容區(qū)域和周圍環(huán)境的分界以提取有效內(nèi)容區(qū)域(圖3)。
其中,為Oj算子作用半徑。