中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
唱歌就能畫一幅圖像? #whisper-to-stable-diffusion

現(xiàn)在熱門的不僅是多模態(tài)的文本圖像生成,前陣子,OpenAI 發(fā)布了一個(gè)自動(dòng)語音識(shí)別系統(tǒng) Whispe 。在處理口音、背景噪聲以及技術(shù)術(shù)語方面,Whisper 幾乎達(dá)到了人類的水準(zhǔn)。

 
那么將 Whisper 與 Stable Diffusion 結(jié)合,可以直接完成語音生成圖像的任務(wù)。用戶可以語音輸入一個(gè)短句,Whisper 會(huì)自動(dòng)將語音轉(zhuǎn)化為文本,接著,Stable Diffusion 會(huì)根據(jù)文本生成圖像。
步驟 
第一步:錄制音頻或上傳音頻文件
 
圖片來源:huggingface
 
第二步:檢查語言輸出,必要時(shí)進(jìn)行更正
 
圖片來源:huggingface
 
第三步:等待1~10秒,直到有穩(wěn)定的擴(kuò)散結(jié)果
 
圖片來源:huggingface
 
 
簡單概況一下,Whisper 是一個(gè)通用的語音識(shí)別模型,它是在各種音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練的,也是一個(gè)多任務(wù)模型,可以執(zhí)行多語言語音識(shí)別以及語音翻譯和語言識(shí)別。
 
Stable Diffusion 是一個(gè)通過文本生成圖像的模型。
 
將它們們結(jié)合起來,你就可以通過語音來直接生成圖像。
 
 
不如現(xiàn)在就試試看:
https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion

社群,請(qǐng)?zhí)砑涌头?/span>

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Stable Diffusion公司發(fā)布首個(gè)大語言模型StableLM,已開源公測(cè)!
AI模型大放異彩:2023年4月發(fā)布的23個(gè)模型總結(jié)與解析
探討AIGC的崛起歷程,淺析其背后技術(shù)發(fā)展
制霸抖音,干掉谷歌搜索?AIGC在2022晉升「頂流」
AI作畫的業(yè)界天花板被我找到了,AIGC模型揭秘 | 昆侖萬維
你可能不知道,Diffusion現(xiàn)在有多火
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服