秒速生圖火爆全網(wǎng)

最近,在各大社交平臺上,一款叫作“盜夢師”的AI繪畫小程序火了。
具體火到什么程度呢?據(jù)以往團隊的采訪得知,9月產(chǎn)品剛上線一周時間,盜夢師便創(chuàng)造了日增5萬用戶的紀錄。
從Midjourney到Stable Diffusion,再到國內(nèi)如雨后春筍般涌現(xiàn)的AI繪畫平臺,在使用方式上差異不大,均采用「以文生圖」的方式。「以文生圖」顧名思義就是只要你把想法、腦洞以文字輸入給AI,這些文字描述就會被算法驅(qū)動,變成一張張生動、精致的圖片。
而真正能讓盜夢師從眾多AI繪畫平臺中脫穎而出的,當屬其鮮明的技術(shù)優(yōu)勢與舒適的產(chǎn)品體驗。
從輸入描述到輸出圖片,全程僅不到5秒,對比其他產(chǎn)品動輒幾十秒甚至幾分鐘的時間,可謂天壤之別。
同時還有多種繪畫風格、多圖批量輸出、多尺寸高分辨率、畫師參考等功能輔助用戶開展創(chuàng)作,使得整個繪畫過程更便捷、有趣和惠普。加之其免費的新手體驗,上線以來便在用戶間產(chǎn)生了良好的口碑。

最快,有多快
據(jù)了解,盜夢師由前谷歌人工智能研究院科學家、NLP自然語言處理領(lǐng)域預(yù)訓練語言模型“ALBERT”第一作者——藍振忠博士帶隊研發(fā)。
最終由西湖大學深度學習實驗室和西湖心辰科技有限公司(西湖大學深度學習實驗室孵化的AIGC創(chuàng)業(yè)公司)共同推出。
依托于西湖大學良好的科研和成果轉(zhuǎn)化環(huán)境、充足的科研資金及軟硬件設(shè)備,西湖心辰組建了一支長期致力于研究自然語言處理,計算機視覺及深度學習的結(jié)合與應(yīng)用的團隊。
在Stable Diffusion的基礎(chǔ)上,盜夢師憑借團隊在AI領(lǐng)域多年的深耕以及西湖大學實驗室的成熟算力,找到了一個可發(fā)揮自有技術(shù)優(yōu)勢的地帶,并通過“秒生圖,生精圖”的特點快速占領(lǐng)AI畫畫高地。
我們通過原生stable diffusion在pytorch、TensorRT與Oneflow三個框架下的實現(xiàn)與盜夢師自有模型對比可以看到:
pytorch上原生的Stable diffusion生成一張圖需要3.4s,第三方Oneflow需要1.4s生成時間。而盜夢師的自有模型只需要0.8s,并且不會影響生成效果。
這是因為盜夢師針對速度和質(zhì)量兩個方面分別做了技術(shù)優(yōu)化,在提速側(cè),進行了算子重寫、模型量化、采樣函數(shù)優(yōu)化;在提質(zhì)側(cè),采用了自有中文語言模型、多尺寸彈性訓練等。這才使得盜夢師在生成圖片時,不僅速度上有了質(zhì)的提升,最終的呈現(xiàn)效果也有明顯優(yōu)化。
各大模型分析
從今年8月發(fā)布至今,Stable Diffusion仍是最火的開源AI生圖模型。與其他開源圖片生成模型相比,其有著出圖速度快、質(zhì)量高等特點。
但在畫人物方面,Stable Diffusion的弊端也很明顯,如經(jīng)常存在多頭、多只手、多條腿或人物部分肢體丟失等問題。
原生Stable-Diffusion(左)與盜夢師(右)對比
同時,原生Stable Diffusion僅支持英文作為唯一輸入語言,對于國內(nèi)用戶來說也十分不友好。
針對語言障礙的問題,國內(nèi)曾有團隊開源了支持中文的stable diffusion模型——“太乙Stable Diffusion”。但經(jīng)測試發(fā)現(xiàn),太乙Stable Diffusion雖然能夠理解中文獨特的文化表達,但語義理解方面仍有所欠缺,會給出與輸入prompt不匹配的圖片。
如輸入:霧氣彌漫的森林,中世紀風格霍比特人村莊
太乙Stable Diffusion(左)與盜夢師(右)對比
而且無論對于哪種模型,圖片質(zhì)量的好壞都與輸入的關(guān)鍵詞密切相關(guān),專業(yè)、適當?shù)妮斎朐~需要用戶有大量的經(jīng)驗,新手往往用戶難以克服。
因此,改變模型是一切問題的根本解。
盜夢師改變了什么
如上文所說,文生圖效果由模型的圖像生成能力與自然語言理解能力共同決定。于是,盜夢師團隊在訓練圖像生成能力的同時著重加強了機器理解層的能力,使自己區(qū)別于市面上的其他平臺。
在圖像生成方面,盜夢師根據(jù)過往在AI生成領(lǐng)域積累的經(jīng)驗,在前期做了大量科研和訓練工作。并且使用了與Stable Diffusion不同的訓練方案,使得盜夢師生成的圖片更加精細,不會產(chǎn)生截斷等問題。
在語義理解方面,依賴于西湖心辰在NLP領(lǐng)域的大量技術(shù)與數(shù)據(jù)積累,盜夢師自有模型不僅能更好地理解用戶輸入詞,還擴大了原生Stable Diffusion的文本長度限制,支持更長的文本輸入。
此外,針對不懂得如何撰寫關(guān)鍵詞的新用戶,盜夢師還開發(fā)了“夢境增強模式”,可以對用戶的輸入詞做聯(lián)想增強,幫助新手畫師更輕易地畫出驚艷的圖片。
當然,盜夢師目前仍然存在一些業(yè)內(nèi)普遍的待解決的問題,比如眾所周知的AI畫手、AI吃面畫的缺陷
在藍振忠看來,目前AI繪畫仍處于早期階段,雖然目前的圖片生成AI能力確實到達了歷史上的峰值,但還是需要更大的規(guī)模的數(shù)據(jù)以及更長時間的訓練。
持續(xù)迭代后的AI,繪畫速度會更快,可以及時調(diào)控的能力也會更強。以盜夢師自我進修的速度和深度來看,我們有理由相信它將是未來引領(lǐng)AIGC潮流的先鋒。







