現(xiàn)在熱門的不僅是多模態(tài)的文本圖像生成,前陣子,OpenAI 發(fā)布了一個(gè)自動(dòng)語音識(shí)別系統(tǒng) Whispe 。在處理口音、背景噪聲以及技術(shù)術(shù)語方面,Whisper 幾乎達(dá)到了人類的水準(zhǔn)。
那么將 Whisper 與 Stable Diffusion 結(jié)合,可以直接完成語音生成圖像的任務(wù)。用戶可以語音輸入一個(gè)短句,Whisper 會(huì)自動(dòng)將語音轉(zhuǎn)化為文本,接著,Stable Diffusion 會(huì)根據(jù)文本生成圖像。第二步:檢查語言輸出,必要時(shí)進(jìn)行更正第三步:等待1~10秒,直到有穩(wěn)定的擴(kuò)散結(jié)果簡單概況一下,Whisper 是一個(gè)通用的語音識(shí)別模型,它是在各種音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練的,也是一個(gè)多任務(wù)模型,可以執(zhí)行多語言語音識(shí)別以及語音翻譯和語言識(shí)別。Stable Diffusion 是一個(gè)通過文本生成圖像的模型。將它們們結(jié)合起來,你就可以通過語音來直接生成圖像。https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion社群,請(qǐng)?zhí)砑涌头?/span>
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。