傅駿 鄭丁元 曾欣雨 傅馨竹 顧詩藝 楊艷萍
關鍵詞:人工智能生成;虛擬現(xiàn)實;科研育人
在推行“123N”科研育人模式的過程中,圍繞“立德樹人”的育人主線,通過雙途徑提升,實現(xiàn)三階段培養(yǎng),緊扣“N”個痛點,以服務社會和實現(xiàn)文化傳承,項目團隊始終堅持科技倫理和工程倫理,充分尊重知識版權,正確合理利用商業(yè)軟件和開源軟件。
在承擔教育部VR專項教研課題與完成省級大學生創(chuàng)新創(chuàng)業(yè)課題《你好,青銅器》《VR助力人工智能教學》等VR作品期間,利用開源人工智能平臺開發(fā)了系列軟件,既滿足了制作VR作品的素材方面的精準需求,同時獲得多個軟件著作權,有力地提升了師生的工程實踐能力,培育了一批創(chuàng)新創(chuàng)業(yè)項目。
1開源人工智能平臺
搭建平臺需要選用合適的開發(fā)語言,完成素材的導人,對結果提取所需信息并保存。
1.1開發(fā)語言
開發(fā)人工智能程序時,建議采用“Python+VSCode"的開發(fā)環(huán)境[1]。
1.1.1Python
近年來,在主流編程語言應用排行榜中,Python長期占據(jù)前幾位甚至連續(xù)很長時間為第一名。原因在于其代碼簡潔、語法優(yōu)美、簡單易學,并且開源、擴展性好。有愛好者稱贊“Python為人工智能的首選語言”,它廣泛應用在機器學習、深度學習、神經(jīng)網(wǎng)絡等領域。
1.1.2Visual Studio Code
Python自帶集成開發(fā)和學習環(huán)境IDLE,但建議采用pycharm或Visual Studio Code開發(fā)。VSCode是一由微軟開發(fā)且跨平臺的免費源代碼編輯器,輕量、簡單易用。安裝VSCode后擴展安裝Python運行庫即可。
1.1.3開發(fā)原則
在開發(fā)時,遵循軟件工程倫理。只使用來自合法渠道的精確數(shù)據(jù),且只使用正當授權的手段。遵守最合適的產業(yè)標準,而不僅僅是技術標準。
代碼文檔化,變量名做到“見名知義”,添加必要的注釋。追求“清晰第一,效率第二”的原則,不允許賣弄技巧的堆積[2]。
1.2資源的導入
對文字和圖片的處理,均需要采用通用字符形式。base64是一種可以在HTTP協(xié)議下面?zhèn)鬏斶@種較長數(shù)據(jù)的編碼格式,并且它是以8字節(jié)來保存數(shù)據(jù)的,能夠表示ASCII碼。
1.2.1文本的讀入
用open即可導人txt命令??紤]到導人的txt文本可能存在多種格式的字符,使用以下命令導人txt文本,對不可識別的符號予以忽略:
1.2.2圖片的base64格式
一個圖片文件對象內包含許多的圖像信息,需要將表示它的數(shù)組結構轉為計算機文件數(shù)據(jù)傳輸協(xié)議之中的通用格式。Python中將圖片pic轉為base64和ASCII的命令為:
pica=open( 'pic-, -rb') .read
picb64=base64.b64encode( pica.read()))
picstr=str( picb64)
1.2.3正則表達式
正則表達式使用單個字符串來描述、匹配某個句法規(guī)則的字符串,通常被用來檢索、替換符合某個模式(規(guī)則)的文本。
在正則表達式中,將字符串zifu中的“AI”替換成“人工智能”和“虛擬現(xiàn)實”替換成“VR”的命令是:
1.3開源API調用
開源AI平臺主要提供的有應用功能、平臺功能和文心AIGC,提供SDK和API的一種或兩種方式供用戶使用。用戶在控制臺通過“創(chuàng)建應用”,獲得API_KEY(AK)和SECRET_KEY(SK)。
SDK使用流程相對簡潔,使用AK及SK即可實現(xiàn)功能。應用API時,要先通過AK及SK獲得訪問令牌[3]。
1.3.1獲得訪問令牌
獲得訪問令牌token的方法是:
1.3.2API訪問
平臺提供基于response庫的POST或GET兩種方式。比如,對圖片1mage實現(xiàn)ocr識別的API方式是:
1.3.3結果的提取和保存
API以字典和列表的形式來展示結果。列表的提取是用元素的下表標示,從0開始。字典是用“鍵一值”來訪問,如result[ 'name']。
不同功能的結果類型不一定相同??梢杂胻ype來查看數(shù)據(jù)類型。對字符型可以用eval轉化為數(shù)值型,對數(shù)值型則用str轉化為字符型。
有時為了便于區(qū)分,可以在保存的文本或圖片名稱中加上時間戳,采用的命令是time.ctime(),結果是“星期月日時分秒年”格式,如“Sun Feb 5 15:05:IO2023”表示當前是2023年2月5日星期天下午15:05:10。
2人工智能技術獲得VR作品素材
開發(fā)虛擬現(xiàn)實VR作品用到的素材有圖片、文字、語音、視頻等。它們可以利用人工智能生成AIGC技術,也可以利用素材進行基于人工智能的編輯。
2.1素材的人工智能生成AIGC技術
作品內容的生成在經(jīng)歷專業(yè)生成PGC、用戶生成UGC之后,發(fā)展到人工智能生成AIGC。AIGC也走過了助手和協(xié)作階段,進入到了原創(chuàng)階段。
2.1.1文心AI作畫
VR作品中的壁畫、掛圖等圖片可以利用文心AIGC技術生成。其流程是:
(1)導人文心一格API。
通過pip install wenxin-api命令安裝文心API。調用命令是:
import wenxin_api
from
wenxin—api. tasks. text—to—image
importTextToImage
(2)API調用生成圖片。
文心作畫的關鍵代碼是:
以上參數(shù)中,“text”是對圖片的描述文字,要遵循prompt規(guī)則?!皊tyle”是圖片格式,如蒸汽波藝術、像素風格、賽博朋克?!皉esolution”是生成的圖片尺寸,有1024x1024,1024x1536,1536x1024這3種?!皀umber”是生成的圖片數(shù)量,取值范圍是1—6。
(3)結果提取。
運行結果rst以字典形式展示,其中鍵“imgUrls”是生成的圖片的網(wǎng)址,通過picurl=rst[ 'imgUrls]獲得全部網(wǎng)址并保存在列表picurl中,picurl中元素個數(shù)即為獲得的圖片數(shù)量。
打開picurl中第1個網(wǎng)址查看圖片的命令是:
import webbrowser
webbrowser.open( picurl[0])
將第1個網(wǎng)頁中的圖片以參數(shù)“text”中的prompt及時間戳作為名稱,保存在當前路徑下的命令是:
2.1.2文本獲得語音
人工智能中文本合成技術的實現(xiàn)通過文本生成語音MP3格式的功能。文本合成調用的網(wǎng)址是HTTP:∥TSN.BAIDU.COM/TEXT2AUDIO.
代碼主要的參數(shù)中,“TEX”待轉換為語音的文本?!癓AN”是指語言類別?!癝PD”是語速,取值范圍為0~15?!癙IT”是音調,取值范圍為0~15。“VOL”是音量,取值范圍為0~15,默認值為5?!癙ER”選擇發(fā)音角色?!癆UE”為聲音輸出格式,3為MP3格式,4為PCM格式,6為WAV格式等。
經(jīng)過測試,合成2000字符的中文為MP3,時間一般在2~3s。聲音清晰,可直接使用。
2.2素材的人工智能編輯技術
對于獲得的文本、聲音、圖片等資源進行基于人工智能技術的編輯,滿足VR作品對素材的需求。
2.2.1文本翻譯
向外國人“講好中國故事”也是弘揚中華傳統(tǒng)文化的方式之一,對“立德樹人”、樹立文化自信大有益處。
文本翻譯功能獲得翻譯后的文本。文本翻譯調用的網(wǎng)址是HTTPS:∥AIP. BAIDUBCE. COM/RPC/2.O/MT/TEXTTRANS。代碼中主要的參數(shù)是語言類別,“FROM_LANG”是輸入文本的類別,可以設置為“AUTO”?!癟O_LANG”是翻譯后的語言類別,如中文為“ZH”。
翻譯后的結果以列表和字典形式展示。翻譯后的結果在鍵“TRANS_RESULT”下的“DST”中。
經(jīng)過測試,翻譯2000字符的中文為英語,時間一般在IS以內。
2.2.2圖片合規(guī)性審查
該功能過濾圖像中的色情、廣告、惡心、違禁等違規(guī)內容,也能從美觀、清晰等維度對圖像進行篩選。
圖片合規(guī)性審查的網(wǎng)址是HTTPS:∥AIP.BAIDUBCE. COM/REST/2. O/SOLUTION/VI/IMG—CENSOR/V2/USER—DEFINED。代碼的參數(shù)中,“IMAGE”為BASE64格式的圖片?!癐MGTYPE”是圖片類型,0是靜態(tài)圖片,1是動態(tài)圖片。
審查后的結果以列表和字典形式展示。其中,“CONCLUSIONTYPE”是審核結論,1表示合規(guī),2表示不合規(guī)。在鍵“CONCLUSION”下的“MSG”鍵中顯示不合規(guī)的具體項目,如“存在爆炸火災不合規(guī)”“疑似存在藝術品不合規(guī)”等。
2.2.3圖像的智能化編輯
(1)風格轉換。
圖像風格轉換提供多種藝術風格特效轉化服務,還可自定義風格圖像進行風格遷移。
實現(xiàn)風格轉換調用的網(wǎng)址是HTTPS:∥AIP.BAIDUBCE. COM/REST/2. O/IMAGE-PROCESS/V1/STYLE_TRANS。代碼中主要的參數(shù)“OPTION”是希望的圖像風格。其中,“CARTOON”是卡通畫風格,“PENCIL”是鉛筆風格,“GOTHIC”是哥特油畫風格。
圖1是將JPG格式原圖轉化為PENCIL鉛筆風格效果對比圖。該圖原件是基于文心AI作畫的AIGC技術生成的。
(2)黑白圖像上色。
本功能實現(xiàn)智能識別黑白圖像內容并填充色彩,使黑白圖像變得鮮活。
實現(xiàn)黑白圖像上色的網(wǎng)址是https:∥aip.baidubce. com/rest/2. 0/image-process/vl/colourize。
主要的參數(shù)是image,是base64格式的圖片。指定圖片名稱后,將實現(xiàn)保存上色后的圖片。
3結束語
在開發(fā)VR作品的過程中,應用人工智能技術開源平臺技術,基于AIGC生成技術創(chuàng)作素材以及基于人工智能技術對素材進行編輯,可以確保精準獲得自己需要的素材,同時不侵犯其他軟件的版權。
人工智能技術方興未艾,在創(chuàng)新創(chuàng)業(yè)課題中基于開源人工智能技術創(chuàng)作開發(fā)作品所需的素材,提升了項目團隊的科研能力和工程實踐能力,將“立德樹人”、科研育人落在了實處。