क्या मैं स्टेबल डिफ्यूज़न का ऑफ़लाइन उपयोग कर सकता हूँ?

हाँ। टूल का उपयोग इंटरनेट कनेक्शन के बिना किया जा सकता है। ऐसा इसलिए है क्योंकि यह सिंथेटिक डेटा को स्थानीय रूप से संग्रहीत कर सकता है, जिससे एआई मॉडल को इंटरनेट नेटवर्क के बिना उपयोग करने का प्रशिक्षण मिलता है।

AI फोटो जनरेटर के क्या नुकसान हैं?

इसके लाभों के अलावा, उपकरण कम्प्यूटेशनल रूप से गहन हो सकता है, जबकि अधिक व्यापक डेटा वाले फ़ोटो और वीडियो से निपटने में समय लगता है। दूसरी बात यह है कि गुणवत्ता उपयोग किए गए इनपुट डेटा और नेटवर्क मापदंडों पर निर्भर करती है। इसका मतलब यह है कि इस बात की कोई गारंटी नहीं है कि आपको उच्च गुणवत्ता वाली छवि मिलेगी।

क्या स्टेबल डिफ्यूजन का उपयोग करते समय मुझे उच्च-स्तरीय उपकरणों की आवश्यकता है?

नहीं, फोटो जनरेटर का उपयोग नवीनतम कंप्यूटर संस्करण के बिना किया जा सकता है। भले ही आपके पास बाद वाला संस्करण हो, यह AI जनरेटर का उपयोग करने के लिए पर्याप्त होगा।

टेक्स्ट संकेत कहाँ से प्राप्त करें?

स्टेबल डिफ्यूजन में एक अंतर्निहित टेक्स्ट प्रॉम्प्ट इंजीनियर है जो आपको संकेतों को खोजने में मदद करता है। बस एक टेक्स्ट दर्ज करें और खोजें बटन पर क्लिक करें। परिणाम नमूने के रूप में छवियों के साथ सेकंडों में दिखाई देंगे।

ऑनलाइन टूल चलाने के लिए मुझे किस GPU की आवश्यकता होगी?

चूंकि यह अधिकांश जीपीयू का समर्थन करता है, आप एआई छवि जनरेटर को एनवीडिया और एएमडी के साथ 6 जीबी पर चला सकते हैं

स्थिर प्रसार

स्थिर प्रसार

स्थिर प्रसार क्या है और इसकी शक्ति को अधिकतम कैसे करें

जुलाई 26, 2023 / द्वारा अद्यतन लियाम मिलर प्रति एआई उपकरण

आर्टिफिशियल इंटेलिजेंस की प्रगति अब कुछ ऐसे कार्यक्रमों पर हावी हो रही है जो चित्र बनाने में मदद करेंगे। आप स्थिर प्रसार उपकरण देख सकते हैं। लेकिन स्थिर प्रसार क्या है? यह एक छवि-निर्माण उपकरण है. इसका प्राथमिक उद्देश्य संकेतों का उपयोग करके चित्र बनाना है, और लोगों को विभिन्न पात्रों और तत्वों को एक साथ उत्पन्न करना आकर्षक और मजेदार लगता है। स्टेबल डिफ्यूजन क्या है इसके बारे में और जानें और जानें कि यह कैसे काम करता है।

गाइड सूची

भाग 1: स्थिर प्रसार क्या है भाग 2: वीएई स्थिर प्रसार क्या है भाग 3: स्थिर प्रसार पर ड्रीमबूथ क्या है और कैसे स्थापित करें भाग 4: स्थिर प्रसार में सीएफजी स्केल क्या है भाग 5: डीनोइसिंग स्ट्रेंथ स्टेबल डिफ्यूजन क्या है भाग 6: क्लिप स्किप स्टेबल डिफ्यूजन क्या है और इसका उपयोग कैसे करें भाग 7: स्थिर प्रसार उत्पन्न करने वाली गति क्या है और गति कैसे बढ़ाएं भाग 8: स्थिर प्रसार के बारे में अक्सर पूछे जाने वाले प्रश्न

भाग 1: स्थिर प्रसार क्या है

यह एक गहन शिक्षण, टेक्स्ट-टू-इमेज मॉडल है, जो मुख्य विषय का वर्णन करने के लिए संकेतों को इनपुट करके चित्र बनाता है। उदाहरण के लिए, आप 'बिल्ली' डाल सकते हैं, और उपकरण एक बिल्ली की तस्वीर तैयार करेगा। हालाँकि, जब आप जटिल संकेत इनपुट करते हैं तो यह और अधिक जोर दे सकता है या अधिक विवरण जोड़ सकता है। जेनरेटिव न्यूरल नेटवर्क एक एआई टूल से कहीं अधिक बन जाता है, क्योंकि यह टेक्स्ट प्रॉम्प्ट के माध्यम से आउटपेंटिंग, इनपेंटिंग और इमेज-टू-इमेज अनुवाद जैसे अन्य कार्यों के साथ भी वातानुकूलित होता है।

स्टेबल डिफ्यूजन को स्टेबिलिटी एआई द्वारा विकसित और वित्त पोषित किया गया था, लेकिन म्यूनिख के लुडविग मैक्सिमिलियन विश्वविद्यालय में कॉम्पविस समूह के पास अव्यक्त प्रसार मॉडल के लिए तकनीकी लाइसेंस है। इसके अलावा, विकास का नेतृत्व शोधकर्ताओं पैट्रिक एस्सार और रॉबिन रोम्बाच ने किया, जिन्होंने परियोजनाओं के समर्थकों के रूप में जर्मनी में गैर-लाभकारी संगठनों से अधिक प्रशिक्षण डेटा प्राप्त किया। बाद में अक्टूबर 2022 में, कंपनी ने शुरुआत में अगस्त 2022 में इसे पेश करने के बाद US$101 मिलियन जुटाए।

भाग 2. वीएई स्थिर प्रसार क्या है

एआई फोटो जनरेटर का उपयोग करते समय आपने इसका सामना किया होगा, और वीएई टूल के लिए सहायक है। VAE का मतलब वेरिएबल ऑटो एनकोडर है, जिसका उपयोग बेहतर विवरण चित्रित करने के लिए डिकोडर को फाइन-ट्यून करने के लिए किया जाता है। यह एआई टूल के अतिरिक्त है, क्योंकि यह स्पष्ट छवियां और जीवंत रंग प्राप्त करने और हाथों और चेहरों की पीढ़ी में सुधार करने में मदद कर सकता है।

बेशक, वीएई केवल स्थिर प्रसार से कहीं अधिक के लिए है क्योंकि सभी मॉडलों में विवरण तैयार करने के लिए अंतर्निहित वीएई हैं। तुलना प्रत्येक मॉडल के बीच परिणाम होगी और जब आप चित्रों को संपीड़ित करेंगे तो वे कैसे दिखेंगे। इसके अलावा, अलग-अलग VAE फ़ाइलें हैं जिन्हें आप अपने डिवाइस पर डाउनलोड कर सकते हैं। एक डिकोडर आज़माने के लिए, आप निम्नलिखित का उपयोग कर सकते हैं:

एनीमे के लिए ऑरेंजमिक्स/कुछ भी वीएई।
एनीमे के लिए Kl-f8-anime2।
Vae-ft-mse-840000-ema-यथार्थवाद या पेंटिंग के लिए काट-छाँट।

भाग 3. स्थिर प्रसार पर ड्रीमबूथ क्या है और कैसे स्थापित करें

ड्रीमबूथ एक गहन शिक्षण पीढ़ी मॉडल है जो विशेष रूप से विशिष्ट विषय पर उत्पन्न चित्रों को ठीक करता है। प्रारंभ में, यह इमेजेन के टेक्स्ट-टू-इमेज मॉडल पर आधारित है, लेकिन दुर्भाग्य से, इमेजेन में स्टेबल डिफ्यूजन या अन्य एआई टूल्स जैसे पूर्व-प्रशिक्षित वजन नहीं हैं। ड्रीमबूथ को 2022 में Google शोधकर्ताओं और बोस्टन विश्वविद्यालय के कुछ सहयोगियों द्वारा विकसित किया गया था।

मॉडल का काम उत्पन्न तस्वीरों को संशोधित और परिष्कृत करना है, लेकिन यह किसी भी सेटिंग और स्थिति में परिचित विषयों को प्रस्तुत करने में भी सक्षम है। चूँकि अधिकांश पूर्व-प्रशिक्षित प्रसार मॉडलों को अभी भी इस श्रेणी में सुधार की आवश्यकता है, ड्रीमबूथ प्रसार मॉडलों के प्रशिक्षण को बढ़ावा देगा। केवल पांच छवियों के साथ, स्टेबल डिफ्यूजन जैसे प्लेटफार्मों के साथ छवि संशोधन किया जा सकता है। स्टेबल डिफ्यूजन पर ड्रीमबूथ का उपयोग कैसे करें, इस पर एक संक्षिप्त निर्देश यहां दिया गया है:

स्टेप 1।सबसे पहले, आपके पास ड्रीमबूथ पर उपयोग करने के लिए एक विषय की प्रशिक्षण छवियां होनी चाहिए। सुनिश्चित करें कि विषय में चित्र खींचे गए हैं। चित्रों का आकार 512x512 पिक्सेल करने के लिए आगे बढ़ें।

चरण दो।ड्रीमबूथ खोलें और प्रवेश करें उदाहरण शीघ्र तथा क्लास प्रॉम्प्ट. क्लिक करके परिवर्तनों की प्रक्रिया करें खेल इंटरफ़ेस के बाएँ भाग से बटन।

चरण 3।जब यह पूरा हो जाए, तो इसका परीक्षण करें और आपको मॉडल द्वारा उत्पन्न कुछ नमूने प्राप्त होंगे। आप अपने Google ड्राइव से मॉडल चेकपॉइंट फ़ाइल डाउनलोड कर सकते हैं और इसे GUI में इंस्टॉल कर सकते हैं।

भाग 4. स्थिर प्रसार में सीएफजी स्केल क्या है

आप यह मान सेट फोटो जेनरेटर मॉडल में पा सकते हैं। और चूँकि यह आवश्यक है, आपको सीखना चाहिए कि छवियों को अनुकूलित करने के लायक क्या है। क्लासिफायर फ्री गाइडेंस स्केल उपयोगकर्ताओं को इनपुट छवि या उपयोग किए गए संकेतों से परिणाम की निकटता को समायोजित करने की अनुमति देता है। उदाहरण के लिए, जब आप सीएफजी स्केल को अधिक उत्कृष्ट मूल्य पर समायोजित करते हैं, तो आउटपुट इनपुट छवि के समान होगा लेकिन विकृत होने की उम्मीद है। दूसरी ओर, कम सीजीएफ स्केल बेहतर गुणवत्ता उत्पन्न करते हुए आउटपुट को प्राथमिक प्रॉम्प्ट से बहुत दूर ले जाएगा।

लेकिन आपको स्थिर प्रसार पर सीएफजी स्केल का उपयोग करने की आवश्यकता कब होती है? उत्तर सरल है: एआई फोटो जनरेटर कुछ ऐसा नहीं बना सकता जो उसके ज्ञान में नहीं है, इसलिए सीएफजी स्केल आपको इसके मूल्य को बढ़ाकर कई विषयों को जोड़ने में मदद करेगा। एकमात्र दोष छवि गुणवत्ता का खर्च है, जो संकेतों के समानुपाती होता है। यदि इस उपकरण में रुचि है, तो आपको मीठे स्थान को खोजने के लिए पैमाने को कैलिब्रेट करने का अभ्यास करना चाहिए।

भाग 5. डीनोइसिंग स्ट्रेंथ स्टेबल डिफ्यूजन क्या है

यह विधि एक ऐसी प्रक्रिया शुरू करती है जो इनपुट छवियों में शोर जोड़ती है। यह सिर्फ एक है स्थिर प्रसार अपस्केलर. यह स्थिर प्रसार के लिए एक उत्कृष्ट मूल्य है, क्योंकि यह छवि-से-छवि (img2img) या InPaint के माध्यम से प्राप्त कर सकता है। शोर की मात्रा को डेनोइस स्ट्रेंथ द्वारा नियंत्रित किया जाता है, न्यूनतम 0 से अधिकतम 1 तक। मान को 0 पर रखने से शोर कम हो जाएगा, जिससे इनपुट छवि के समान छवि बन जाएगी। अन्यथा, 1 का मान इनपुट को शोर से बदल देगा।

आप इनपुट छवियों के प्रभाव के साथ आउटपुट की निकटता निर्धारित करने के लिए एक व्यावहारिक विधि के रूप में डेनोइस स्ट्रेंथ का उपयोग कर सकते हैं। एक बढ़िया उदाहरण कम डीनोइज़िंग स्ट्रेंथ है जो उत्पन्न छवियों को इनपुट के करीब दिखाती है, जो मामूली संशोधनों के लिए एक आदर्श सेटिंग है। दूसरी ओर, उच्च डीनोइज़िंग ताकत इनपुट और आउटपुट छवियों की समानता को कम करते हुए भिन्नता को बढ़ाएगी। इसलिए, उच्च मूल्य महत्वपूर्ण संशोधनों के लिए सहायक होते हैं।

भाग 6. क्लिप स्किप स्टेबल डिफ्यूजन क्या है और इसका उपयोग कैसे करें

CLIP को एम्बेडिंग लेयर के रूप में जाना जाता है जिसका उपयोग टेक्स्ट का विश्लेषण करने के लिए किया जाता है। इसकी संरचना परतों से बनी है, जो प्रत्येक व्यक्ति के लिए, पिछली परत से अधिक विशिष्ट होती है। उदाहरण के लिए, लेयर 1 "व्यक्ति" हो सकता है, और लेयर 2 "महिला" या "पुरुष" होगी। फिर, अगली परत "माता-पिता, पिता, पुरुष, लड़का, आदि" होगी।

इसका उद्देश्य सटीक टेक्स्ट मॉडल प्राप्त करना है, जो परतों की लंबी सूची को रोकता है, अंततः अधिक डेटा को मिश्रित करता है और आपको आपकी आवश्यकता से अधिक देता है। इसका सबसे अच्छा उदाहरण 12 रैंक गहराई वाला 1.5 मॉडल है। प्रत्येक परत में टेक्स्ट एम्बेडिंग होती है और इसे अन्य विवरणों, जैसे आकार, रंग, आदि के साथ मिलाया जा सकता है। CLIP टेक्स्ट स्पेस आयाम को छोड़ देता है और सटीक आउटपुट पर पहुंच जाता है। इसका उपयोग कैसे करें यहां बताया गया है:

स्टेप 1।स्थिर प्रसार चेकपॉइंट से, सेटिंग्स पर जाएं और "स्थिर प्रसार" का चयन करें।

चरण दो।नीचे स्क्रॉल करें और "क्लिप स्किप" पर जाएं। कृपया इसे वांछित मान पर सेट करें, फिर "सेटिंग्स लागू करें" बटन पर क्लिक करने के लिए ऊपर स्क्रॉल करें।

भाग 7. स्थिर प्रसार उत्पन्न करने वाली गति क्या है और गति कैसे बढ़ाएं

जब आप एआई जनरेटर की गति को देखेंगे, तो आप उम्मीद करेंगे कि परिणाम दिखाने में कुछ समय लगेगा। हालाँकि, स्टेबल डिफ्यूज़न की उत्पादन गति 10 सेकंड है। यह केवल ऑनलाइन टूल के सामान्य उपयोग के लिए है, लेकिन प्राथमिक या मानक योजना की सदस्यता लेने पर समय अभी भी चार सेकंड तक कम हो सकता है। यह मॉडल की गति को तेज़ करने का एक तरीका है, लेकिन परिणाम की सटीकता इनपुट से दूर हो जाती है स्थिर प्रसार संकेत देता है. इसके अलावा, कीमत वाले प्लान में केवल कुछ फीचर सीमाओं के साथ यह टूल मुफ़्त है। तो, भुगतान न करते हुए आप उत्पादन की गति कैसे बढ़ा सकते हैं?

त्वरण के लिए एकमात्र आवश्यकता एक एनवीडिया कार्ड है, जो 4000, 3000, 2000 और यहां तक कि 1000 श्रृंखला में भी हो सकता है। आप लवलेस, एम्पीयर, पास्कल ट्यूरिंग आदि का उपयोग कर सकते हैं। विकल्प के लिए, फ्लोट16 जैसी कम परिशुद्धता का उपयोग करें और कम अनुमान चरण चलाएँ।

बोनस युक्तियाँ: स्थिर प्रसार परिणाम आकार बदलें

एआई मॉडल के बारे में जानने के बाद, एक और बात है जो आपको जानना है: फ़ाइल आकार छवियों के लिए एक बड़ा कारक है, और बड़े फ़ाइल आकार के कारण वे आपके संग्रहण स्थान को खा सकते हैं। लेकिन इसके साथ AnyRec फ्री इमेज कंप्रेसर ऑनलाइन, फ़ोटो को कंप्रेस करना सुविधाजनक होगा। फ़ाइल आकार को कम करते हुए अपलोड को अनुकूलित करने में मदद करने के लिए ऑनलाइन टूल में नवीनतम एआई तकनीक है। चूंकि यह छोटी फ़ाइलें उत्पन्न करता है, उपयोगकर्ता स्थानीय फ़ोल्डर से अधिक छवियां आयात कर सकता है, और कंप्रेसर उन्हें तुरंत लोड कर देगा।

गुणवत्ता के साथ स्थिर प्रसार उत्पन्न छवियों को संपीड़ित करें।
संपीड़ित छवियों पर कोई वॉटरमार्क लागू न करें।
JPEG, GIF, TIFF, BMP, PNG और अन्य जैसे प्रारूपों का समर्थन करें।
छवि में विकृत, धुंधले और नए पिक्सेल को स्वतः ठीक करें।

भाग 8. स्थिर प्रसार के बारे में अक्सर पूछे जाने वाले प्रश्न

1. क्या मैं स्टेबल डिफ्यूज़न का ऑफ़लाइन उपयोग कर सकता हूँ?

हाँ। टूल का उपयोग इंटरनेट कनेक्शन के बिना किया जा सकता है। ऐसा इसलिए है क्योंकि यह सिंथेटिक डेटा को स्थानीय रूप से संग्रहीत कर सकता है, जिससे एआई मॉडल को इंटरनेट नेटवर्क के बिना उपयोग करने का प्रशिक्षण मिलता है।
2. AI फोटो जनरेटर के क्या नुकसान हैं?

इसके लाभों के अलावा, उपकरण कम्प्यूटेशनल रूप से गहन हो सकता है, जबकि अधिक व्यापक डेटा वाले फ़ोटो और वीडियो से निपटने में समय लगता है। दूसरी बात यह है कि गुणवत्ता उपयोग किए गए इनपुट डेटा और नेटवर्क मापदंडों पर निर्भर करती है। इसका मतलब यह है कि इस बात की कोई गारंटी नहीं है कि आपको उच्च गुणवत्ता वाली छवि मिलेगी।
3. क्या स्टेबल डिफ्यूजन का उपयोग करते समय मुझे उच्च-स्तरीय उपकरणों की आवश्यकता है?

नहीं, फोटो जनरेटर का उपयोग नवीनतम कंप्यूटर संस्करण के बिना किया जा सकता है। भले ही आपके पास बाद वाला संस्करण हो, यह AI जनरेटर का उपयोग करने के लिए पर्याप्त होगा।
4. टेक्स्ट संकेत कहाँ से प्राप्त करें?

स्टेबल डिफ्यूजन में एक अंतर्निहित टेक्स्ट प्रॉम्प्ट इंजीनियर है जो आपको संकेतों को खोजने में मदद करता है। बस एक टेक्स्ट दर्ज करें और खोजें बटन पर क्लिक करें। परिणाम नमूने के रूप में छवियों के साथ सेकंडों में दिखाई देंगे।
5. ऑनलाइन टूल चलाने के लिए मुझे किस जीपीयू की आवश्यकता होगी?

चूंकि यह अधिकांश जीपीयू का समर्थन करता है, आप एआई छवि जनरेटर को एनवीडिया और एएमडी के साथ 6 जीबी पर चला सकते हैं

निष्कर्ष

यह पोस्ट बताती है स्थिर प्रसार क्या है और यह क्लिप स्किप, वीएई, ड्रीमबूथ, सीएफजी स्केल और डीनोइज़िंग स्ट्रेंथ के साथ कैसे काम करता है। दूसरी ओर, आप उत्पन्न चित्रों के फ़ाइल आकार को कम करने के लिए AnyRec फ्री इमेज कंप्रेसर ऑनलाइन का उपयोग कर सकते हैं। यह पूरी तरह से मुफ़्त और उपयोग के लिए असीमित है!