中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

<mark id="0kb7w"></mark><big id="0kb7w"></big>

<mark id="0kb7w"></mark>

打開APP

未登錄

開通VIP，暢享免費(fèi)電子書等14項(xiàng)超值服

首頁

好書

留言交流

下載APP

聯(lián)系客服

唱歌就能畫一幅圖像？ #whisper-to-stable-diffusion

userphoto

Mixlab交叉學(xué)科 >《待分類》

2023.01.02 上海

現(xiàn)在熱門的不僅是多模態(tài)的文本圖像生成，前陣子，OpenAI 發(fā)布了一個(gè)自動(dòng)語音識(shí)別系統(tǒng) Whispe 。在處理口音、背景噪聲以及技術(shù)術(shù)語方面，Whisper 幾乎達(dá)到了人類的水準(zhǔn)。

那么將 Whisper 與 Stable Diffusion 結(jié)合，可以直接完成語音生成圖像的任務(wù)。用戶可以語音輸入一個(gè)短句，Whisper 會(huì)自動(dòng)將語音轉(zhuǎn)化為文本，接著，Stable Diffusion 會(huì)根據(jù)文本生成圖像。

步驟

第一步：錄制音頻或上傳音頻文件

圖片來源：huggingface

第二步：檢查語言輸出，必要時(shí)進(jìn)行更正

圖片來源：huggingface

第三步：等待1~10秒，直到有穩(wěn)定的擴(kuò)散結(jié)果

圖片來源：huggingface

簡單概況一下，Whisper 是一個(gè)通用的語音識(shí)別模型，它是在各種音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練的，也是一個(gè)多任務(wù)模型，可以執(zhí)行多語言語音識(shí)別以及語音翻譯和語言識(shí)別。

Stable Diffusion 是一個(gè)通過文本生成圖像的模型。

將它們們結(jié)合起來，你就可以通過語音來直接生成圖像。

不如現(xiàn)在就試試看:

https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion

社群，請(qǐng)?zhí)砑涌头?/span>

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

猜你喜歡

類似文章

Stable Diffusion公司發(fā)布首個(gè)大語言模型StableLM，已開源公測(cè)！

AI模型大放異彩：2023年4月發(fā)布的23個(gè)模型總結(jié)與解析

探討AIGC的崛起歷程，淺析其背后技術(shù)發(fā)展

制霸抖音，干掉谷歌搜索？AIGC在2022晉升「頂流」

AI作畫的業(yè)界天花板被我找到了，AIGC模型揭秘 | 昆侖萬維

你可能不知道，Diffusion現(xiàn)在有多火

更多類似文章 >>

生活服務(wù)

熱點(diǎn)新聞

聯(lián)系我們

分享收藏導(dǎo)長圖關(guān)注下載文章

綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)！

如果VIP功能使用有故障，
可點(diǎn)擊這里聯(lián)系客服！

聯(lián)系客服

<center id="qqpde"></center>