亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于成熟AI服務(wù)的音視頻檢索系統(tǒng)設(shè)計

        2024-04-29 00:00:00程通
        無線互聯(lián)科技 2024年3期
        關(guān)鍵詞:人工智能

        摘要:人工智能的時代已經(jīng)到來,不斷有新的人工智能算法、模型和服務(wù)產(chǎn)生。如何高質(zhì)量利用這些成熟的人工智能,發(fā)揮其經(jīng)濟價值,是一個不得不思考的問題。文章選擇音視頻檢索應(yīng)用場景,并結(jié)合利用人工智能服務(wù),闡述了基于成熟AI服務(wù)的音視頻檢索系統(tǒng)的需求分析、功能設(shè)計和系統(tǒng)架構(gòu)。

        關(guān)鍵詞:人工智能;音視頻檢索;系統(tǒng)設(shè)計;人工智能服務(wù)

        中圖分類號:TP399" 文獻標(biāo)志碼:A

        0 引言

        隨著人工智能(Artificial Intelligence,AI)的高速發(fā)展,成熟的AI服務(wù)和技術(shù)層出不窮,如圖像識別、語音識別、自然語言處理和生成式人工智能等[1]。國內(nèi)外各大人工智能公司通過網(wǎng)絡(luò)服務(wù)的形式提供了成熟的AI服務(wù)和技術(shù)。

        用戶通過調(diào)用AI服務(wù)獲取信息處理結(jié)果。這些AI服務(wù)都在實際應(yīng)用場景中通過驗證,其精確性和準(zhǔn)確性都能滿足具體應(yīng)用需求。

        如何將成熟的AI服務(wù)和技術(shù)應(yīng)用到適合的場景和系統(tǒng),發(fā)揮AI的作用反而成了問題。國家在《關(guān)于加快場景創(chuàng)新以人工智能高水平應(yīng)用促進經(jīng)濟高質(zhì)量發(fā)展的指導(dǎo)意見》中提出了人工智能在場景創(chuàng)新和系統(tǒng)設(shè)計等方面的不足,并給出了具體的指導(dǎo)思想、基本原則和發(fā)展目標(biāo)。本文將進一步研究使用當(dāng)前成熟的AI服務(wù)和技術(shù)設(shè)計音視頻檢索系統(tǒng)。

        1 人工智能服務(wù)

        當(dāng)前人工智能公司主要通過服務(wù)頁面和SDK 2種形式向用戶提供服務(wù)。

        1.1 服務(wù)頁面

        用戶通過服務(wù)頁面上傳數(shù)據(jù)或信息,人工智能服務(wù)運算完成后,再將運算結(jié)果返回到服務(wù)頁面。此服務(wù)適用于不需要將AI服務(wù)組合使用和嵌入系統(tǒng)使用的場景。

        1.2 人工智能服務(wù)SDK

        軟件開發(fā)工具(Software Development Kit,SDK)是功能函數(shù)或服務(wù)的集合,提供了調(diào)用API的環(huán)境;應(yīng)用程序接口(Application Programming Interface,API)提供數(shù)據(jù)和信息的接口。用戶通過授權(quán),獲取使用SDK調(diào)用人工智能服務(wù)API的權(quán)限。將數(shù)據(jù)或信息通過API提交給人工智能服務(wù),人工智能服務(wù)運算完后,將結(jié)果再通過API返回給用戶。

        系統(tǒng)開發(fā)采用SDK方式。此方式相比服務(wù)頁面方式更加靈活,提供的功能也較多。但需要一定的開發(fā)工作量和學(xué)習(xí)成本。

        1.3 當(dāng)前成熟的AI服務(wù)

        國內(nèi)外人工智能公司提供了大量成熟的人工智能服務(wù)。主要可分為文字識別、語言識別、圖像識別、自然語言處理和生成式人工智能等。部分成熟的人工智能服務(wù),如表1所示。

        2 需求分析

        2.1 音視頻的采集和存儲

        實際應(yīng)用中,音視頻來源具有多樣性。系統(tǒng)需要將各種來源的音視頻集中采集,轉(zhuǎn)換成相對統(tǒng)一的音視頻格式,并收集音視頻描述信息,系統(tǒng)再將轉(zhuǎn)換后的音視頻和描述信息結(jié)構(gòu)化后進行存儲。在此過程中,系統(tǒng)實時監(jiān)控數(shù)據(jù)的轉(zhuǎn)換、結(jié)構(gòu)化和存儲情況,及時對過載、異常等情況做出判斷和處理。

        2.2 音視頻預(yù)處理

        預(yù)處理過程主要完成分幀、抽幀、音視頻分離、音頻消噪和視頻幀信息保存等工作[4]。通過預(yù)處理為后面的人工智能處理提供數(shù)據(jù),建立為人工智能處理服務(wù)的預(yù)處理信息庫。

        2.3 人工智能處理

        此過程將配置并創(chuàng)建人工智能處理任務(wù)、工作流和人工智能信息庫。任務(wù)是為了完成一個目的而創(chuàng)建的,是工作流的集合。工作流主要完成AI服務(wù)的調(diào)用和結(jié)果信息存儲。

        2.4 檢索

        根據(jù)預(yù)處理信息庫和人工智能信息庫建立檢索指標(biāo)。通過一個或組合多個檢索指標(biāo),檢索預(yù)處理信息庫和人工智能信息庫的結(jié)果信息??梢灶A(yù)先配置常用檢索,如關(guān)鍵人或物體檢索、關(guān)鍵詞檢索和類似語句檢索等。

        2.5 可視化顯示

        以直觀的形式展現(xiàn)檢索結(jié)果,統(tǒng)計圖表、交互信息和動畫都是常用的可視化手段。

        3 功能設(shè)計

        3.1 音視頻采集轉(zhuǎn)換器

        音視頻采集轉(zhuǎn)換器主要用于創(chuàng)建音視頻基礎(chǔ)庫。音視頻基礎(chǔ)庫使用分布存儲的形式存放已經(jīng)標(biāo)準(zhǔn)化后的音視頻數(shù)據(jù)和描述信息。音視頻采集轉(zhuǎn)換器可以統(tǒng)一語料庫標(biāo)準(zhǔn),方便后面流程處理。

        3.1.1 音視頻主要來源

        音視頻主要來源于音視頻設(shè)備、音視頻文件和音視頻流。具體說明如表2所示。

        3.1.2 音視頻采集轉(zhuǎn)換器功能

        采集轉(zhuǎn)換器的功能包括采集音視頻、轉(zhuǎn)換音視頻、存儲音視頻和異常處理。具體功能描述如表3所示。

        3.1.3 音視頻采集轉(zhuǎn)換器邏輯流程

        各種不同來源的音視頻進入音視頻分類器。分類器判斷音視頻來源、格式、碼率、幀率和分辨率等指標(biāo),并適配對應(yīng)的音視頻采集器和轉(zhuǎn)換器進行處理。儲存器將處理完成的音視頻數(shù)據(jù)存入分布式存儲。異常處理模塊實時監(jiān)控上述過程,對異常進行判斷,并選擇相應(yīng)的處理流程。

        3.2 預(yù)處理器

        進行人工智能處理前,需為人工智能模型提供符合模型標(biāo)準(zhǔn)的數(shù)據(jù)。預(yù)處理器主要完成格式化和標(biāo)準(zhǔn)化人工智能模型或服務(wù)所需的數(shù)據(jù)。預(yù)處理器核心工作如表4所示。

        當(dāng)前人工智能服務(wù)處理音視頻還存在局限性。圖像識別和人臉識別服務(wù)只能處理圖片,所以需要將視頻進行分幀,并將關(guān)鍵幀提交給AI服務(wù)處理。視頻里很多幀的有效信息是重復(fù)的,如果每幀都提交給AI服務(wù)處理,會得到大量重復(fù)的結(jié)果信息,而且浪費運算資源。因此,需要在分幀的基礎(chǔ)上抽取有用的關(guān)鍵幀,將關(guān)鍵幀提交給AI服務(wù)處理。AI服務(wù)在識別音頻中的語音時,對提交的音頻大小是有限制的,所以需要將音頻切割成指定大小的音頻。

        預(yù)處理器產(chǎn)生的主要原因是當(dāng)前AI服務(wù)或模型對輸入?yún)?shù)的限制。隨著AI技術(shù)的發(fā)展和AI服務(wù)的不斷完善,AI服務(wù)對輸入?yún)?shù)的限制會越來越少,預(yù)處理器需要完成的工作也會隨之減少。

        3.3 人工智能處理器

        實現(xiàn)某個目的的音視頻檢索,需要多個AI服務(wù)的支持。AI服務(wù)處理的結(jié)果信息可能存在依賴關(guān)系,需要并行調(diào)用AI服務(wù)。在這種情況下,將人工智能處理器設(shè)計為并行的任務(wù)機制是有必要的。

        3.3.1 人工智能處理器構(gòu)成

        人工智能處理器主要由配置器、任務(wù)隊列管理器和人工智能信息庫構(gòu)成。

        配置器的主要工作是創(chuàng)建檢索目的、任務(wù)和工作流,并配置它們的層級關(guān)系。一個檢索目的由一個或多個任務(wù)組成;一個任務(wù)又由一個或多個工作流組成。

        標(biāo)準(zhǔn)工作流可描述為如下過程:配置預(yù)處理信息庫和人工智能信息庫;調(diào)用人工智能服務(wù)和輔助功能;處理預(yù)處理信息庫和人工智能信息庫數(shù)據(jù),獲取結(jié)果信息,并將其存入人工智能信息庫。工作流可以理解為一個通過AI服務(wù)處理數(shù)據(jù)的工作單元。工作流由數(shù)據(jù)輸入、數(shù)據(jù)處理、數(shù)據(jù)輸出和數(shù)據(jù)存儲構(gòu)成。

        工作流最主要的任務(wù)是調(diào)用AI服務(wù)處理數(shù)據(jù),調(diào)用AI服務(wù)需要了解AI服務(wù)的接口結(jié)構(gòu)。人工智能接口主要由接口調(diào)用描述信息、接口輸入?yún)?shù)信息和接口輸出參數(shù)信息構(gòu)成。人工智能服務(wù)接口調(diào)用描述如表5所示。

        人工智能服務(wù)接口的輸入和輸出信息主要描述了AI服務(wù)需要處理的數(shù)據(jù)和處理后返回的數(shù)據(jù)。輸入?yún)?shù)的描述信息通常包括:參數(shù)名、參數(shù)類型、是否必需和可選值范圍等。

        任務(wù)創(chuàng)建完成后,將交由任務(wù)隊列管理器運行。任務(wù)隊列管理器會依據(jù)目的、任務(wù)和工作流之間的依賴關(guān)系,依次運行相應(yīng)的具體工作流。

        人工智能信息庫是檢索的目標(biāo)庫,保存了每個工作流執(zhí)行完成后的結(jié)果信息,還保存了檢索最終信息與其依賴的工作流的結(jié)果信息之間的關(guān)系。

        3.3.2 常用AI音視頻檢索功能

        根據(jù)實際應(yīng)用場景,本文總結(jié)了關(guān)鍵人或物體檢索、關(guān)鍵詞檢索和類似語句檢索3個常用檢索功能。

        關(guān)鍵人或物體檢索功能查找視頻中需要檢索的人臉或物體,將視頻關(guān)鍵幀和需要識別的圖像輸入相似圖片搜索服務(wù),服務(wù)返回圖像相似度、定位等信息。功能保存結(jié)果信息和關(guān)聯(lián)信息到人工信息庫。

        關(guān)鍵詞檢索功能先將音頻通過語音識別服務(wù)轉(zhuǎn)換成文字,再從文字中查找需要檢索的關(guān)鍵詞。

        類似語句檢索功能是在關(guān)鍵詞檢索功能的基礎(chǔ)上,將轉(zhuǎn)換成文字的內(nèi)容與需要查詢的語句輸入語義相似度分析服務(wù)得到二者的相似度[5]。通過相似度判斷音頻是否包含需要查詢語句的語義。

        3.4 檢索器和可視化交互界面

        檢索器是人工智能處理器的用戶輸入端,用于向已配置好的人工智能處理器發(fā)送用戶輸入?yún)?shù)。可視化界面則是人工智能處理器的用戶輸出端,它以直觀的形式展示人工智能檢索后的結(jié)果和統(tǒng)計信息。檢索器和可視化交互界面是面向用戶的系統(tǒng)前端,為了使前后端解耦,系統(tǒng)采用前后端分離架構(gòu)。

        檢索器包括檢索項、檢索內(nèi)容、檢索匹配方式、檢索項關(guān)系。檢索項是需要檢索的指標(biāo);檢索內(nèi)容是指標(biāo)的檢索內(nèi)容;檢索匹配方式包含了檢索項與檢索內(nèi)容之間的關(guān)系。如果是多項檢索,則有多個檢索項。檢索項關(guān)系描述了各檢索項之間的邏輯關(guān)系。

        可視化交互界面主要分為檢索、統(tǒng)計和主顯示3個區(qū)域。檢索區(qū)域用于放置檢索器;統(tǒng)計區(qū)域用于顯示檢索后的統(tǒng)計圖表;主顯示區(qū)域顯示檢索后的音視頻概要信息。

        4 系統(tǒng)架構(gòu)設(shè)計

        系統(tǒng)主要分為人工智能服務(wù)、處理器、信息庫和用戶界面4個部分。人工智能服務(wù)部分是處理器調(diào)用的外部人工智能服務(wù)接口的集合。如果需要調(diào)用各個廠商的服務(wù),或者后期需要切換成不同廠商的服務(wù),可以在人工智能服務(wù)與處理器之間添加人工智能服務(wù)適配器。適配器的作用是當(dāng)智能服務(wù)發(fā)生變動時,處理器可以不做如何變動,直接調(diào)用需要的AI服務(wù)。適配器統(tǒng)一了處理器調(diào)用AI服務(wù)的標(biāo)準(zhǔn)。

        處理器由采集轉(zhuǎn)換器、預(yù)處理器和AI處理器構(gòu)成。它們是音視頻處理的3個階段,這3個階段分別創(chuàng)建了音視頻基礎(chǔ)庫、預(yù)處理信息庫和人工智能信息庫。

        由檢索器和可視化交互界面構(gòu)成的用戶界面,通過前后端分離架構(gòu),實現(xiàn)對信息庫的檢索和顯示。系統(tǒng)架構(gòu)如圖1所示。

        5 結(jié)語

        本文以音視頻檢索系統(tǒng)為例,通過需求分析、功能設(shè)計和架構(gòu)設(shè)計幾個方面闡述了關(guān)于如何使用和組織成熟AI服務(wù)和技術(shù)的方法,選擇合適的應(yīng)用場景,發(fā)揮成熟人工智能服務(wù)和技術(shù)的作用,使其更好地服務(wù)于國家和人民。

        參考文獻

        [1]柴焱.視音頻AI技術(shù)在垂類媒資中的深度應(yīng)用——以京視健康媒資系統(tǒng)建設(shè)為例[J].現(xiàn)代電視技術(shù),2022(1):97-101.

        [2]孫效華,張義文,侯璐,等.人工智能產(chǎn)品與服務(wù)體系研究綜述[J].包裝工程,2020(10):49-61.

        [3]傅駿,傅馨竹,龍輝陽,等.百度AI人工智能輔助程序的開發(fā)實踐[J].湖北農(nóng)機化,2020(5):179-180.

        [4]任杰.人工智能技術(shù)在視頻應(yīng)用中的發(fā)展——以中央廣播電視總臺應(yīng)用為例[J].演藝科技,2020(增刊1):67-72.

        [5]駱京.基于人工智能技術(shù)的內(nèi)容識別系統(tǒng)設(shè)計[J].現(xiàn)代電視技術(shù),2018(7):112-115.

        Design of audio and video retrieval system based on mature AI services

        Abstract: "The era of artificial intelligence has arrived, and new artificial intelligence algorithms, models and services are constantly being generated. How to make high-quality use of these mature artificial intelligence and give full play to its economic value is a problem that has to be considered. This paper selects the application scenarios of audio and video retrieval, and combines the use of artificial intelligence services to expound the demand analysis, functional design and system architecture of the audio and video retrieval system based on mature AI services.

        Key words: artificial intelligence; audio and video retrieval; system design; artificial intelligence services

        猜你喜歡
        人工智能
        我校新增“人工智能”本科專業(yè)
        用“小AI”解決人工智能的“大”煩惱
        汽車零部件(2020年3期)2020-03-27 05:30:20
        當(dāng)人工智能遇見再制造
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        AI人工智能解疑答問
        人工智能與就業(yè)
        基于人工智能的電力系統(tǒng)自動化控制
        人工智能,來了
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        人工智能來了
        免费亚洲一区二区三区av| 亚洲天天综合色制服丝袜在线| 亚洲av高清资源在线观看三区| 国产色av一区二区三区| 伊人大杳焦在线| 最近中文字幕在线mv视频在线| 成人日韩av不卡在线观看| 午夜一区二区三区免费观看| 亚洲精品国产一二三区| 幻女bbwxxxx在线视频| 精品国产18禁久久久久久久| 欧美国产成人精品一区二区三区| 欧美成人一级视频| 久久久精品人妻一区二| 国产亚洲精品视频一区二区三区| 天天躁日日躁狠狠躁欧美老妇| 亚洲国产精品一区二区久| 日本一区不卡高清在线观看| 亚洲男人av天堂久久资源| 午夜福利啪啪片| 亚洲AV秘 片一区二区三| 日韩精品精品一区二区三区| 人妻精品人妻一区二区三区四区| 人妻中文字幕乱人伦在线| 久久久久久人妻一区二区三区| 久久国产精品99精品国产987| 日本频道一区二区三区| 国产成人精品999视频| 又大又粗弄得我出好多水| 少妇高潮紧爽免费观看| 亚洲精品中文字幕一二三区| 久久精品免视看国产成人| 久久男人av资源网站无码| 亚洲永久免费中文字幕| 久久久99精品免费视频| a级毛片免费观看网站| 中字亚洲国产精品一区二区| 国产一区资源在线播放| 国产精品泄火熟女| 成人性生交片无码免费看| 日韩欧美在线播放视频|