स्थिर प्रसार क्या है और इसकी शक्ति को अधिकतम कैसे करें

लियाम मिलर लियाम मिलर
26 जुलाई, 2023 (अद्यतित: 26 जुलाई, 2023)दायर: एआई उपकरण

आर्टिफिशियल इंटेलिजेंस की प्रगति अब कुछ ऐसे कार्यक्रमों पर हावी हो रही है जो चित्र बनाने में मदद करेंगे। आप स्थिर प्रसार उपकरण देख सकते हैं। लेकिन स्थिर प्रसार क्या है? यह एक छवि-निर्माण उपकरण है. इसका प्राथमिक उद्देश्य संकेतों का उपयोग करके चित्र बनाना है, और लोगों को विभिन्न पात्रों और तत्वों को एक साथ उत्पन्न करना आकर्षक और मजेदार लगता है। स्टेबल डिफ्यूजन क्या है इसके बारे में और जानें और जानें कि यह कैसे काम करता है।

भाग 1: स्थिर प्रसार क्या है

यह एक गहन शिक्षण, टेक्स्ट-टू-इमेज मॉडल है, जो मुख्य विषय का वर्णन करने के लिए संकेतों को इनपुट करके चित्र बनाता है। उदाहरण के लिए, आप 'बिल्ली' डाल सकते हैं, और उपकरण एक बिल्ली की तस्वीर तैयार करेगा। हालाँकि, जब आप जटिल संकेत इनपुट करते हैं तो यह और अधिक जोर दे सकता है या अधिक विवरण जोड़ सकता है। जेनरेटिव न्यूरल नेटवर्क एक एआई टूल से कहीं अधिक बन जाता है, क्योंकि यह टेक्स्ट प्रॉम्प्ट के माध्यम से आउटपेंटिंग, इनपेंटिंग और इमेज-टू-इमेज अनुवाद जैसे अन्य कार्यों के साथ भी वातानुकूलित होता है।

स्टेबल डिफ्यूजन को स्टेबिलिटी एआई द्वारा विकसित और वित्त पोषित किया गया था, लेकिन म्यूनिख के लुडविग मैक्सिमिलियन विश्वविद्यालय में कॉम्पविस समूह के पास अव्यक्त प्रसार मॉडल के लिए तकनीकी लाइसेंस है। इसके अलावा, विकास का नेतृत्व शोधकर्ताओं पैट्रिक एस्सार और रॉबिन रोम्बाच ने किया, जिन्होंने परियोजनाओं के समर्थकों के रूप में जर्मनी में गैर-लाभकारी संगठनों से अधिक प्रशिक्षण डेटा प्राप्त किया। बाद में अक्टूबर 2022 में, कंपनी ने शुरुआत में अगस्त 2022 में इसे पेश करने के बाद US$101 मिलियन जुटाए।

स्थिर प्रसार

भाग 2. वीएई स्थिर प्रसार क्या है

एआई फोटो जनरेटर का उपयोग करते समय आपने इसका सामना किया होगा, और वीएई टूल के लिए सहायक है। VAE का मतलब वेरिएबल ऑटो एनकोडर है, जिसका उपयोग बेहतर विवरण चित्रित करने के लिए डिकोडर को फाइन-ट्यून करने के लिए किया जाता है। यह एआई टूल के अतिरिक्त है, क्योंकि यह स्पष्ट छवियां और जीवंत रंग प्राप्त करने और हाथों और चेहरों की पीढ़ी में सुधार करने में मदद कर सकता है।

बेशक, वीएई केवल स्थिर प्रसार से कहीं अधिक के लिए है क्योंकि सभी मॉडलों में विवरण तैयार करने के लिए अंतर्निहित वीएई हैं। तुलना प्रत्येक मॉडल के बीच परिणाम होगी और जब आप चित्रों को संपीड़ित करेंगे तो वे कैसे दिखेंगे। इसके अलावा, अलग-अलग VAE फ़ाइलें हैं जिन्हें आप अपने डिवाइस पर डाउनलोड कर सकते हैं। एक डिकोडर आज़माने के लिए, आप निम्नलिखित का उपयोग कर सकते हैं:

वै फ़ाइलें

भाग 3. स्थिर प्रसार पर ड्रीमबूथ क्या है और कैसे स्थापित करें

ड्रीमबूथ एक गहन शिक्षण पीढ़ी मॉडल है जो विशेष रूप से विशिष्ट विषय पर उत्पन्न चित्रों को ठीक करता है। प्रारंभ में, यह इमेजेन के टेक्स्ट-टू-इमेज मॉडल पर आधारित है, लेकिन दुर्भाग्य से, इमेजेन में स्टेबल डिफ्यूजन या अन्य एआई टूल्स जैसे पूर्व-प्रशिक्षित वजन नहीं हैं। ड्रीमबूथ को 2022 में Google शोधकर्ताओं और बोस्टन विश्वविद्यालय के कुछ सहयोगियों द्वारा विकसित किया गया था।

मॉडल का काम उत्पन्न तस्वीरों को संशोधित और परिष्कृत करना है, लेकिन यह किसी भी सेटिंग और स्थिति में परिचित विषयों को प्रस्तुत करने में भी सक्षम है। चूँकि अधिकांश पूर्व-प्रशिक्षित प्रसार मॉडलों को अभी भी इस श्रेणी में सुधार की आवश्यकता है, ड्रीमबूथ प्रसार मॉडलों के प्रशिक्षण को बढ़ावा देगा। केवल पांच छवियों के साथ, स्टेबल डिफ्यूजन जैसे प्लेटफार्मों के साथ छवि संशोधन किया जा सकता है। स्टेबल डिफ्यूजन पर ड्रीमबूथ का उपयोग कैसे करें, इस पर एक संक्षिप्त निर्देश यहां दिया गया है:

स्टेप 1।सबसे पहले, आपके पास ड्रीमबूथ पर उपयोग करने के लिए एक विषय की प्रशिक्षण छवियां होनी चाहिए। सुनिश्चित करें कि विषय में चित्र खींचे गए हैं। चित्रों का आकार 512x512 पिक्सेल करने के लिए आगे बढ़ें।

चरण दो।ड्रीमबूथ खोलें और प्रवेश करें उदाहरण शीघ्र तथा क्लास प्रॉम्प्ट. क्लिक करके परिवर्तनों की प्रक्रिया करें खेल इंटरफ़ेस के बाएँ भाग से बटन।

ड्रीमबूथ इंस्टेंस प्रॉम्प्ट

चरण 3।जब यह पूरा हो जाए, तो इसका परीक्षण करें और आपको मॉडल द्वारा उत्पन्न कुछ नमूने प्राप्त होंगे। आप अपने Google ड्राइव से मॉडल चेकपॉइंट फ़ाइल डाउनलोड कर सकते हैं और इसे GUI में इंस्टॉल कर सकते हैं।

ड्रीमबूथ टेस्ट

भाग 4. स्थिर प्रसार में सीएफजी स्केल क्या है

आप यह मान सेट फोटो जेनरेटर मॉडल में पा सकते हैं। और चूँकि यह आवश्यक है, आपको सीखना चाहिए कि छवियों को अनुकूलित करने के लायक क्या है। क्लासिफायर फ्री गाइडेंस स्केल उपयोगकर्ताओं को इनपुट छवि या उपयोग किए गए संकेतों से परिणाम की निकटता को समायोजित करने की अनुमति देता है। उदाहरण के लिए, जब आप सीएफजी स्केल को अधिक उत्कृष्ट मूल्य पर समायोजित करते हैं, तो आउटपुट इनपुट छवि के समान होगा लेकिन विकृत होने की उम्मीद है। दूसरी ओर, कम सीजीएफ स्केल बेहतर गुणवत्ता उत्पन्न करते हुए आउटपुट को प्राथमिक प्रॉम्प्ट से बहुत दूर ले जाएगा।

लेकिन आपको स्थिर प्रसार पर सीएफजी स्केल का उपयोग करने की आवश्यकता कब होती है? उत्तर सरल है: एआई फोटो जनरेटर कुछ ऐसा नहीं बना सकता जो उसके ज्ञान में नहीं है, इसलिए सीएफजी स्केल आपको इसके मूल्य को बढ़ाकर कई विषयों को जोड़ने में मदद करेगा। एकमात्र दोष छवि गुणवत्ता का खर्च है, जो संकेतों के समानुपाती होता है। यदि इस उपकरण में रुचि है, तो आपको मीठे स्थान को खोजने के लिए पैमाने को कैलिब्रेट करने का अभ्यास करना चाहिए।

सीएफजी स्केल

भाग 5. डीनोइसिंग स्ट्रेंथ स्टेबल डिफ्यूजन क्या है

यह विधि एक ऐसी प्रक्रिया शुरू करती है जो इनपुट छवियों में शोर जोड़ती है। यह सिर्फ एक है स्थिर प्रसार अपस्केलर. यह स्थिर प्रसार के लिए एक उत्कृष्ट मूल्य है, क्योंकि यह छवि-से-छवि (img2img) या InPaint के माध्यम से प्राप्त कर सकता है। शोर की मात्रा को डेनोइस स्ट्रेंथ द्वारा नियंत्रित किया जाता है, न्यूनतम 0 से अधिकतम 1 तक। मान को 0 पर रखने से शोर कम हो जाएगा, जिससे इनपुट छवि के समान छवि बन जाएगी। अन्यथा, 1 का मान इनपुट को शोर से बदल देगा।

आप इनपुट छवियों के प्रभाव के साथ आउटपुट की निकटता निर्धारित करने के लिए एक व्यावहारिक विधि के रूप में डेनोइस स्ट्रेंथ का उपयोग कर सकते हैं। एक बढ़िया उदाहरण कम डीनोइज़िंग स्ट्रेंथ है जो उत्पन्न छवियों को इनपुट के करीब दिखाती है, जो मामूली संशोधनों के लिए एक आदर्श सेटिंग है। दूसरी ओर, उच्च डीनोइज़िंग ताकत इनपुट और आउटपुट छवियों की समानता को कम करते हुए भिन्नता को बढ़ाएगी। इसलिए, उच्च मूल्य महत्वपूर्ण संशोधनों के लिए सहायक होते हैं।

ताकत को नकारना

भाग 6. क्लिप स्किप स्टेबल डिफ्यूजन क्या है और इसका उपयोग कैसे करें

CLIP को एक एम्बेडिंग परत के रूप में जाना जाता है जिसका उपयोग टेक्स्ट का विश्लेषण करने के लिए किया जाता है। इसकी संरचना परतों से बनी है, जो प्रति व्यक्ति पिछले वाले की तुलना में अधिक विशिष्ट है। उदाहरण के लिए, परत 1 "व्यक्ति" हो सकती है और परत 2 "महिला" या "पुरुष" होगी। फिर, अगली परत "माता-पिता, पिता, पुरुष, लड़का, आदि" होगी।

इसका उद्देश्य सटीक टेक्स्ट मॉडल प्राप्त करना है, जो परतों की लंबी सूची को रोकता है, अंततः अधिक डेटा को मिश्रित करता है और आपको आपकी आवश्यकता से अधिक देता है। इसका सबसे अच्छा उदाहरण 12 रैंक गहराई वाला 1.5 मॉडल है। प्रत्येक परत में टेक्स्ट एम्बेडिंग होती है और इसे अन्य विवरणों, जैसे आकार, रंग, आदि के साथ मिलाया जा सकता है। CLIP टेक्स्ट स्पेस आयाम को छोड़ देता है और सटीक आउटपुट पर पहुंच जाता है। इसका उपयोग कैसे करें यहां बताया गया है:

स्टेप 1।स्टेबल डिफ्यूजन चेकपॉइंट से, सेटिंग्स पर जाएं और "स्टेबल डिफ्यूजन" चुनें।

चरण दो।नीचे स्क्रॉल करें और "क्लिप स्किप" पर जाएँ। कृपया इसे वांछित मान पर सेट करें, फिर "सेटिंग्स लागू करें" बटन पर क्लिक करने के लिए ऊपर स्क्रॉल करें।

क्लिप छोड़ें

भाग 7. स्थिर प्रसार उत्पन्न करने वाली गति क्या है और गति कैसे बढ़ाएं

जब आप एआई जनरेटर की गति को देखेंगे, तो आप उम्मीद करेंगे कि परिणाम दिखाने में कुछ समय लगेगा। हालाँकि, स्टेबल डिफ्यूज़न की उत्पादन गति 10 सेकंड है। यह केवल ऑनलाइन टूल के सामान्य उपयोग के लिए है, लेकिन प्राथमिक या मानक योजना की सदस्यता लेने पर समय अभी भी चार सेकंड तक कम हो सकता है। यह मॉडल की गति को तेज़ करने का एक तरीका है, लेकिन परिणाम की सटीकता इनपुट से दूर हो जाती है स्थिर प्रसार संकेत देता है. इसके अलावा, कीमत वाले प्लान में केवल कुछ फीचर सीमाओं के साथ यह टूल मुफ़्त है। तो, भुगतान न करते हुए आप उत्पादन की गति कैसे बढ़ा सकते हैं?

त्वरण के लिए एकमात्र आवश्यकता एक एनवीडिया कार्ड है, जो 4000, 3000, 2000 और यहां तक कि 1000 श्रृंखला में भी हो सकता है। आप लवलेस, एम्पीयर, पास्कल ट्यूरिंग आदि का उपयोग कर सकते हैं। विकल्प के लिए, फ्लोट16 जैसी कम परिशुद्धता का उपयोग करें और कम अनुमान चरण चलाएँ।

बोनस युक्तियाँ: स्थिर प्रसार परिणाम आकार बदलें

एआई मॉडल के बारे में जानने के बाद, एक और बात है जो आपको जानना है: फ़ाइल आकार छवियों के लिए एक बड़ा कारक है, और बड़े फ़ाइल आकार के कारण वे आपके संग्रहण स्थान को खा सकते हैं। लेकिन इसके साथ AnyRec फ्री इमेज कंप्रेसर ऑनलाइन, फ़ोटो को कंप्रेस करना सुविधाजनक होगा। फ़ाइल आकार को कम करते हुए अपलोड को अनुकूलित करने में मदद करने के लिए ऑनलाइन टूल में नवीनतम एआई तकनीक है। चूंकि यह छोटी फ़ाइलें उत्पन्न करता है, उपयोगकर्ता स्थानीय फ़ोल्डर से अधिक छवियां आयात कर सकता है, और कंप्रेसर उन्हें तुरंत लोड कर देगा।

भाग 8. स्थिर प्रसार के बारे में अक्सर पूछे जाने वाले प्रश्न

निष्कर्ष

यह पोस्ट बताती है स्थिर प्रसार क्या है और यह क्लिप स्किप, वीएई, ड्रीमबूथ, सीएफजी स्केल और डीनोइज़िंग स्ट्रेंथ के साथ कैसे काम करता है। दूसरी ओर, आप उत्पन्न चित्रों के फ़ाइल आकार को कम करने के लिए AnyRec फ्री इमेज कंप्रेसर ऑनलाइन का उपयोग कर सकते हैं। यह पूरी तरह से मुफ़्त और उपयोग के लिए असीमित है!

संबंधित आलेख: