Mi a stabil diffúzió és hogyan lehet maximalizálni az erejét?

Liam Miller Liam Miller
2023. július 26. (Frissítve: 2023. július 26.)Beküldve: AI eszközök

A mesterséges intelligencia fejlődése most átvesz néhány olyan programot, amely segít a képek előállításában. Láthatja a Stable Diffusion eszközt. De mi az a stabil diffúzió? Ez egy képgeneráló eszköz. Elsődleges célja, hogy promptok segítségével képeket generáljon, és az emberek vonzónak és szórakoztatónak találják a különböző karakterek és elemek együttes generálását. Tudjon meg többet arról, hogy mi a Stable Diffusion, és ismerje meg, hogyan működik.

1. rész: Mi a stabil diffúzió

Ez egy mély tanulási, szöveg-kép modell, amely képeket hoz létre a fő téma leírására vonatkozó utasítások beírásával. Például beírhatja a „macska” szót, és az eszköz létrehoz egy képet egy macskáról. Komplex promptok bevitelekor azonban tovább hangsúlyozhatja vagy további részleteket adhat hozzá. A generatív neurális hálózat több lesz, mint egy mesterséges intelligencia eszköz, mivel olyan egyéb feladatok is kondicionálják, mint az outpainting, a befestés és a szöveges promptokon keresztüli kép-kép fordítás.

A Stable Diffusiont a Stability AI fejlesztette ki és finanszírozta, de a müncheni Ludwig Maximilian Egyetem CompVis csoportja rendelkezik a látens diffúziós modell műszaki engedélyével. Továbbá a fejlesztést Patrick Esser és Robin Rombach kutatók vezették, akik több képzési adatot szereztek a németországi nonprofit szervezetektől, mint a projektek támogatói. Később, 2022 októberében a vállalat 101 millió USTP4T101 millió dollárt gyűjtött be, miután 2022 augusztusában bevezette.

Stabil diffúzió

2. rész: Mi a VAE stabil diffúzió

Lehet, hogy találkozott ezzel az AI fotógenerátor használatakor, és a VAE hasznos az eszközhöz. A VAE a Variable Auto Encoder rövidítése, amely a dekóder finomhangolására szolgál, hogy jobb részleteket festhessen. Ez az AI eszköz kiegészítése, mivel segíthet élesebb képek és élénk színek készítésében, valamint javíthatja a kezek és az arcok generálását.

Természetesen a VAE nem csak a stabil diffúziót szolgálja, mert minden modell rendelkezik beépített VAE-vel a részletek kidolgozásához. Az összehasonlítás eredménye lesz az egyes modellek és a képek tömörítése utáni eredmény. Ezenkívül vannak külön VAE-fájlok, amelyeket letölthet eszközére. Egy dekóder kipróbálásához használhatja a következőket:

Vae Files

3. rész. Mi az a Dreambooth a stabil diffúzión és hogyan kell telepíteni

A DreamBooth egy mély tanulási generációs modell, amely finomhangolja a generált képeket, különösen az adott tárgyat. Kezdetben az Imagen szöveg-kép modelljén alapul, de sajnos az Imagen nem rendelkezik olyan előre betanított súlyokkal, mint a Stable Diffusion vagy más AI-eszközök. A DreamBooth-ot a Google kutatói és néhány munkatársa a Boston Egyetemről fejlesztette tovább 2022-ben.

A modell feladata a generált fotók módosítása, finomhangolása, de képes bármilyen környezetben és helyzetben ismerős témák visszaadására is. Mivel a legtöbb előre betanított diffúziós modellt még fejleszteni kell ebben a kategóriában, a DreamBooth fokozni fogja a diffúziós modellek képzését. Mindössze öt képpel a képmódosítás elvégezhető olyan platformokkal, mint a Stable Diffusion. Íme egy rövid útmutató a DreamBooth használatához a stabil diffúzióban:

1. lépés.Először is, rendelkeznie kell egy tantárgy képzési képeivel a DreamBooth-on való használatra. Győződjön meg arról, hogy az alanyról készült képek. Folytassa a képek átméretezését 512x512 pixelre.

2. lépés.Nyissa meg a DreamBooth-ot, és lépjen be Példány prompt és Osztály prompt. A módosítások feldolgozásához kattintson a gombra Játék gombot a felület bal oldalán.

Dreambooth Példány Prompt

3. lépésHa elkészült, tesztelje le, és megkapja a modell által generált néhány mintát. Letöltheti a modell-ellenőrzőpont fájlt a Google Drive-ról, és telepítheti a grafikus felhasználói felületre.

Dreambooth teszt

4. rész: Mi a CFG skála a stabil diffúzióban

Ez az érték a fotógenerátor modelljében található. És mivel ez elengedhetetlen, meg kell tanulnia, hogy mit érdemes optimalizálni a képeket. A Classifier Free Guidance Scale lehetővé teszi a felhasználók számára, hogy beállítsák az eredmény közelségét a bemeneti kép vagy a használt promptok alapján. Például, ha a CFG skálát egy kiválóbb értékre állítja, a kimenet jobban hasonlít a bemeneti képhez, de várhatóan torz lesz. Másrészt az alacsonyabb CGF skála messze távolítja a kimenetet az elsődleges prompttól, miközben jobb minőséget generál.

De mikor kell használni a CFG skálát a stabil diffúzióhoz? A válasz egyszerű: az AI fotógenerátor nem tud olyat létrehozni, ami nem tartozik a tudása körébe, ezért a CFG skála értékének felforgatásával segít több tárgy összekapcsolásában. Az egyetlen hátrány a képminőség költsége, amely arányos a felszólításokkal. Ha érdekli ez az eszköz, gyakorolnia kell a skála kalibrálását, hogy megtalálja az édes pontot.

CFG skála

5. rész. Mi a zajcsillapítás Erő Stabil diffúzió

Ez a módszer olyan folyamatot indít el, amely zajt ad a bemeneti képekhez. Ez csak egy Stabil diffúziós felskálázó. Kiváló érték a Stable Diffusion számára, mivel képes átjutni a képről-képre (img2img) vagy az InPaint-re. A zaj mértékét a zajerősség szabályozza, minimum 0-tól maximum 1-ig. Ha az értéket 0-ra állítja, a zaj nullára csökken, így a bemeneti képhez hasonló kép jön létre. Ellenkező esetben az 1 érték a bemenetet zajjal helyettesíti.

A zajerősség gyakorlati módszerként használható a kimenet közelségének meghatározására a bemeneti képek hatásával. Jó példa erre az alacsonyabb zajtalanítási erősség, amely a generált képeket közelebb hozza a bemenethez, ideális beállítás kisebb módosításokhoz. Másrészt a nagyobb zajtalanítási erősség valószínűleg növeli a változást, miközben csökkenti a bemeneti és kimeneti képek hasonlóságát. Ezért a magasabb értékek hasznosak a jelentős módosításoknál.

Zajtalanító erő

6. rész: Mi a Clip Skip stabil diffúzió és hogyan kell használni

A CLIP beágyazási rétegként ismert, amelyet szövegek elemzésére használnak. Felépítése rétegekből épül fel, amelyek egyedenként specifikusabbak, mint az előző. Például az 1. réteg lehet „Személy”, a 2. réteg pedig „nő” vagy „férfi”. Ezután a következő réteg a „szülő, apa, férfi, fiú stb.” lesz.

Célja a pontos szövegmodell elérése, amely megállítja a rétegek hosszú listáját, végül több adatot kever, és többet ad, mint amennyire szüksége van. A legjobb példa erre az 1,5-ös modell 12 fokozattal. Minden réteg rendelkezik szövegbeágyazással, és keverhető más részletekkel, például mérettel, színnel stb. A CLIP kihagyja a szövegtér méretet, és a pontos kimenetre jut. Használja a következőképpen:

1. lépés.A Stabil diffúziós ellenőrzőpontban lépjen a beállításokhoz, és válassza a „Stabil diffúzió” lehetőséget.

2. lépés.Görgessen le, és lépjen a „Klip átugrása” elemre. Állítsa be a kívánt értékre, majd görgessen felfelé, és kattintson a „Beállítások alkalmazása” gombra.

Klip átugrása

7. rész: Mi az a stabil diffúziógenerálási sebesség és hogyan lehet gyorsítani

Ha megnézi egy mesterséges intelligencia-generátor sebességét, arra számíthat, hogy eltart egy ideig, amíg az eredmények megjelennek. A Stable Diffusion generálási sebessége azonban 10 másodperc. Ez csak az online eszköz általános használatára vonatkozik, de az idő akár négy másodpercre is lecsökkenhet, ha előfizet az elsődleges vagy normál előfizetésre. Ez az egyik módja a modell sebességének felgyorsításának, de az eredmény pontossága eltolódik a bemenettől Stabil diffúziós üzenetek. Ezenkívül az eszköz ingyenes, csak néhány funkciókorlátozással az áras tervekből. Tehát hogyan gyorsíthatja fel a generálási sebességet, miközben nem fizet?

A gyorsítás egyetlen követelménye egy Nvidia kártya, ami lehet 4000-es, 3000-es, 2000-es, de akár 1000-es sorozat is. Használhatja Lovelace, Ampere, Pascal Turing stb. használatát. Alternatívaként használjon kisebb pontosságot, például a float16-ot, és futtasson kevesebb következtetési lépést.

Bónusz tippek: Változtassa meg a stabil diffúziós eredmények méretét

A mesterséges intelligencia modell megismerése után még egy dolgot tudnod kell: a fájlméret nagyon fontos tényező a képeknél, és a nagyobb fájlméret miatt felemésztik a tárhelyet. De azzal AnyRec ingyenes képkompresszor online, a fotók tömörítése kényelmes lesz. Az online eszköz a legújabb mesterséges intelligencia technológiával rendelkezik, amely segít optimalizálni a feltöltéseket, miközben csökkenti a fájlméretet. Mivel kisebb fájlokat generál, a felhasználó több képet importálhat a helyi mappából, és a tömörítő azonnal betölti azokat.

8. rész. GYIK a stabil diffúzióval kapcsolatban

Következtetés

Ez a bejegyzés elmagyarázza mi az a stabil diffúzió és hogyan működik a Clip Skip, a VAE, a DreamBooth, a CFG Scale és a Denoising Strength segítségével. Másrészt az AnyRec Free Image Compressor Online segítségével csökkentheti a generált képek fájlméretét. Teljesen ingyenes és korlátlanul használható!

Kapcsolódó cikkek: