छोटो उत्तर: एआई अपस्केलिंगले मोडेललाई कम र उच्च-रिजोल्युसन छविहरूमा तालिम दिएर काम गर्छ, त्यसपछि अपस्केलिंगको समयमा विश्वासयोग्य अतिरिक्त पिक्सेलहरूको भविष्यवाणी गर्न यसलाई प्रयोग गर्छ। यदि मोडेलले प्रशिक्षणमा समान बनावट वा अनुहारहरू देखेको छ भने, यसले विश्वस्त विवरण थप्न सक्छ; यदि होइन भने, यसले हेलो, मोमी छाला, वा भिडियोमा झिलमिलाहट जस्ता कलाकृतिहरूलाई "भ्रम" गर्न सक्छ।
मुख्य कुराहरू:
भविष्यवाणी : यो मोडेलले वास्तविकताको ग्यारेन्टी गरिएको पुनर्निर्माण होइन, तर व्यावहारिक विवरण उत्पन्न गर्छ।
मोडेल छनोट : CNN हरू स्थिर हुन्छन्; GAN हरू तीखा देखिन सक्छन् तर सुविधाहरू आविष्कार गर्ने जोखिम लिन सक्छन्।
कलाकृति जाँच : हेलो, दोहोरिएको बनावट, "लगभग अक्षरहरू", र प्लास्टिक जस्तो अनुहारहरूमा ध्यान दिनुहोस्।
भिडियो स्थिरता : टेम्पोरल विधिहरू प्रयोग गर्नुहोस् नत्र तपाईंले फ्रेम-टु-फ्रेम झिलिमिली र बहाव देख्नुहुनेछ।
उच्च दांव प्रयोग : यदि शुद्धता महत्त्वपूर्ण छ भने, प्रशोधन खुलासा गर्नुहोस् र परिणामहरूलाई उदाहरणको रूपमा व्यवहार गर्नुहोस्।

तपाईंले सायद यो देख्नुभएको होला: एउटा सानो, कुरकुरे तस्बिर छाप्न, स्ट्रिम गर्न वा प्रस्तुतीकरणमा नझुकाईकन छोड्न पर्याप्त कुरकुरे कुरामा परिणत हुन्छ। यो धोखाधडी जस्तो लाग्छ। र - उत्तम तरिकामा - यो एक प्रकारले 😅 हो।
त्यसोभए, एआई अपस्केलिंगले कसरी काम गर्छ भन्ने कुरा "कम्प्युटरले विवरणहरू बढाउँछ" (हातले लहराउने) भन्दा बढी विशिष्ट कुरामा आउँछ र "धेरै उदाहरणहरूबाट सिकेका ढाँचाहरूको आधारमा मोडेलले प्रशंसनीय उच्च-रिजोल्युसन संरचनाको भविष्यवाणी गर्छ" ( छवि सुपर-रिजोल्युसनको लागि गहिरो शिक्षा: एक सर्वेक्षण ) भन्दा नजिक छ। त्यो भविष्यवाणी चरण सम्पूर्ण खेल हो - र त्यसैले एआई अपस्केलिंग आश्चर्यजनक देखिन सक्छ ... वा थोरै प्लास्टिक ... वा तपाईंको बिरालोले बोनस जुँगा बढाएको जस्तो।
यसपछि पढ्न मन लाग्ने लेखहरू:
🔗 एआई कसरी काम गर्छ
एआईमा मोडेल, डेटा र अनुमानको आधारभूत कुराहरू सिक्नुहोस्।.
🔗 एआईले कसरी सिक्छ
तालिम डेटा र प्रतिक्रियाले समयसँगै मोडेलको कार्यसम्पादनमा कसरी सुधार ल्याउँछ हेर्नुहोस्।.
🔗 एआईले कसरी विसंगतिहरू पत्ता लगाउँछ
ढाँचाको आधारभूत रेखाहरू बुझ्नुहोस् र कसरी AI ले असामान्य व्यवहारलाई छिटो फ्ल्याग गर्छ।.
🔗 एआईले कसरी प्रवृत्तिहरूको भविष्यवाणी गर्छ
संकेतहरू पत्ता लगाउने र भविष्यको मागको अनुमान गर्ने पूर्वानुमान विधिहरू अन्वेषण गर्नुहोस्।.
एआई अपस्केलिंगले कसरी काम गर्छ: मुख्य विचार, दैनिक शब्दहरूमा 🧩
अपस्केलिङ भनेको रिजोल्युसन बढाउनु हो: धेरै पिक्सेल, ठूलो छवि। परम्परागत अपस्केलिङ (जस्तै बाइक्युबिक) ले मूल रूपमा पिक्सेलहरू फैलाउँछ र ट्रान्जिसनहरू सहज बनाउँछ ( बाइक्युबिक इन्टरपोलेसन नयाँ आविष्कार गर्न सक्दैन - यो केवल इन्टरपोलेट गर्दछ।
एआई अपस्केलिंगले अझ साहसी कुराको प्रयास गर्दछ (अनुसन्धान संसारमा "सुपर-रिजोल्युसन" पनि भनिन्छ) ( छविको लागि गहिरो शिक्षा सुपर-रिजोल्युसन: एक सर्वेक्षण ):
-
यसले कम-रिजोल्युसन इनपुटलाई हेर्छ
-
ढाँचाहरू पहिचान गर्दछ (किनाराहरू, बनावटहरू, अनुहारका विशेषताहरू, पाठ स्ट्रोकहरू, कपडाको बुनाई ...)
-
उच्च-रिजोल्युसन संस्करण कस्तो देखिनु पर्छ
-
ती ढाँचाहरूसँग मिल्ने अतिरिक्त पिक्सेल डेटा उत्पन्न गर्छ
"वास्तविकतालाई पूर्ण रूपमा पुनर्स्थापित गर्नुहोस्" होइन, "अत्यधिक विश्वासयोग्य अनुमान लगाउनुहोस्" जस्तै ( इमेज सुपर-रिजोल्युसन युजिङ डीप कन्भोलुसनल नेटवर्क्स (SRCNN) )। यदि त्यो थोरै शंकास्पद सुनिन्छ भने, तपाईं गलत हुनुहुन्न - तर यो यति राम्रोसँग काम गर्नुको कारण पनि यही हो 😄
अनि हो, यसको अर्थ एआई अपस्केलिंग मूलतः नियन्त्रित भ्रम हो... तर उत्पादक, पिक्सेल-सम्मान गर्ने तरिकामा।.
एआई अपस्केलिंगको राम्रो संस्करण के हो? ✅🛠️
यदि तपाईं एआई अपस्केलर (वा सेटिङ प्रिसेट) को मूल्यांकन गर्दै हुनुहुन्छ भने, यहाँ सबैभन्दा महत्त्वपूर्ण कुरा के हो:
-
धेरै पकाउन नदिई डिटेल रिकभरी
राम्रो अपस्केलिङले क्रिस्पनेस र संरचना थप्छ, क्रन्ची आवाज वा नक्कली छिद्रहरू होइन। -
किनारा अनुशासन
सफा रेखाहरू सफा रहन्छन्। खराब मोडेलहरूले किनाराहरू हल्लिन्छन् वा हलो अंकुराउँछन्। -
बनावट यथार्थवाद
कपाल पेन्टब्रसको स्ट्रोक बन्नु हुँदैन। इँटा दोहोरिने ढाँचाको टिकट बन्नु हुँदैन। -
आवाज र कम्प्रेसन ह्यान्डलिंग
धेरै दैनिक तस्बिरहरू मृत्युसम्म JPEG' गरिएका हुन्छन्। राम्रो अपस्केलरले त्यो क्षतिलाई बढाउँदैन ( Real-ESRGAN )। -
अनुहार र पाठ सम्बन्धी जागरूकता
अनुहार र पाठ गल्तीहरू पत्ता लगाउने सबैभन्दा सजिलो ठाउँ हो। राम्रा मोडेलहरूले तिनीहरूलाई नम्रतापूर्वक व्यवहार गर्छन् (वा विशेष मोडहरू हुन्छन्)। -
फ्रेमहरूमा स्थिरता (भिडियोको लागि)
यदि विवरणहरू फ्रेम-टु-फ्रेममा झिलिमिली भए, तपाईंको आँखा चिच्याउनेछ। भिडियो अपस्केलिंग अस्थायी स्थिरता द्वारा जीवित वा मर्छ ( BasicVSR (CVPR २०२१) )। -
अर्थपूर्ण नियन्त्रणहरू
तपाईंलाई वास्तविक परिणामहरूमा नक्सा गर्ने स्लाइडरहरू चाहिन्छ: डिनोइज, डिब्लर, आर्टिफ्याक्ट हटाउने, ग्रेन रिटेन्सन, शार्पनिङ... व्यावहारिक कुराहरू।
एउटा मौन नियम जसले टिक्छ: "सबैभन्दा राम्रो" स्केलिंग त्यो हो जुन तपाईंले याद गर्नुहुन्न। यस्तो देखिन्छ कि तपाईंसँग सुरुमा राम्रो क्यामेरा थियो 📷✨
तुलना तालिका: लोकप्रिय एआई अपस्केलिंग विकल्पहरू (र तिनीहरू केका लागि राम्रो छन्) 📊🙂
तल एउटा व्यावहारिक तुलना दिइएको छ। मूल्यहरू जानाजानी अस्पष्ट छन् किनभने उपकरणहरू इजाजतपत्र, बन्डलहरू, गणना लागतहरू, र ती सबै रमाइलो चीजहरू अनुसार फरक हुन्छन्।.
| उपकरण / दृष्टिकोण | को लागि उत्तम | मूल्यको अवस्था | यो किन काम गर्छ (लगभग) |
|---|---|---|---|
| टोपाज-शैलीको डेस्कटप अपस्केलरहरू ( टोपाज फोटो , टोपाज भिडियो ) | तस्बिर, भिडियो, सजिलो कार्यप्रवाह | सशुल्क | बलियो सामान्य मोडेलहरू + धेरै ट्युनिङ, "केवल काम गर्छ" भन्ने झुकाव हुन्छ... प्रायः |
| एडोब “सुपर रिजोल्युसन” प्रकारका सुविधाहरू ( एडोब एन्हान्स > सुपर रिजोल्युसन ) | फोटोग्राफरहरू पहिले नै त्यो इकोसिस्टममा छन् | सदस्यता-y | ठोस विवरण पुनर्निर्माण, सामान्यतया रूढिवादी (कम नाटकीय) |
| वास्तविक-ESRGAN / ESRGAN भेरियन्टहरू ( वास्तविक-ESRGAN , ESRGAN ) | DIY, विकासकर्ताहरू, ब्याच कार्यहरू | नि:शुल्क (तर समयको हिसाबले महँगो) | बनावटको विवरणमा उत्कृष्ट, यदि तपाईं सावधान हुनुहुन्न भने अनुहारमा मसलादार हुन सक्छ। |
| प्रसार-आधारित अपस्केलिंग मोडहरू ( SR3 ) | रचनात्मक काम, शैलीबद्ध परिणामहरू | मिश्रित | भव्य विवरणहरू सिर्जना गर्न सक्छ - बकवास पनि आविष्कार गर्न सक्छ, त्यसैले... हो |
| खेल अपस्केलरहरू (DLSS/FSR-शैली) ( NVIDIA DLSS , AMD FSR 2 ) | वास्तविक-समय गेमिङ र रेन्डरिङ | बन्डल गरिएको | गति डेटा र सिकेका पूर्वअनुभवहरू प्रयोग गर्दछ - सहज प्रदर्शन जीत 🕹️ |
| क्लाउड अपस्केलिंग सेवाहरू | सुविधा, छिटो जित | प्रति-प्रयोग-भुक्तानी | छिटो + स्केलेबल, तर तपाईं नियन्त्रण र कहिलेकाहीं सूक्ष्मताको व्यापार गर्नुहुन्छ |
| भिडियो-केन्द्रित एआई अपस्केलरहरू ( बेसिकभीएसआर , टोपाज भिडियो ) | पुरानो फुटेज, एनिमे, अभिलेखहरू | सशुल्क | झिलमिलाहट कम गर्न अस्थायी तरिकाहरू + विशेष भिडियो मोडेलहरू |
| “स्मार्ट” फोन/ग्यालरी अपस्केलिंग | आकस्मिक प्रयोग | समावेश गरिएको | हलुका मोडेलहरू पूर्णता होइन, मनमोहक आउटपुटको लागि ट्युन गरिएका छन् (अझै पनि उपयोगी) |
ढाँचाबद्ध गर्ने विचित्र स्वीकारोक्ति: त्यो तालिकामा "पेड-इश" ले धेरै काम गरिरहेको छ। तर तपाईंले विचार बुझ्नुभयो 😅
ठूलो रहस्य: मोडेलहरूले कम-रिजोल्युसनदेखि उच्च-रिजोल्युसनसम्मको म्यापिङ सिक्छन् 🧠➡️🖼️
धेरैजसो एआई अपस्केलिंगको मुटुमा एक सुपरिवेक्षित सिकाइ सेटअप हुन्छ ( इमेज सुपर-रिजोल्युसन युजिङ डीप कन्भोलुसनल नेटवर्क्स (SRCNN) ):
-
उच्च-रिजोल्युसन तस्बिरहरू ("सत्य") बाट सुरु गर्नुहोस्।
-
तिनीहरूलाई कम-रिजोल्युसन संस्करणहरूमा डाउनस्याम्पल गर्नुहोस् ("इनपुट")
-
कम-रिजोल्युसनबाट मूल उच्च-रिजोल्युसन पुनर्निर्माण गर्न मोडेललाई तालिम दिनुहोस्।
समयसँगै, मोडेलले निम्न जस्ता सहसम्बन्धहरू सिक्छ:
-
"आँखा वरिपरि यस प्रकारको धमिलोपन प्रायः परेलाहरूमा हुन्छ"
-
"यो पिक्सेल क्लस्टरले प्रायः सेरिफ पाठलाई संकेत गर्छ"
-
"यो किनारा ग्रेडियन्ट छानाको रेखा जस्तो देखिन्छ, अनियमित आवाज जस्तो होइन"
यो विशिष्ट छविहरू कण्ठ गर्ने होइन (सरल अर्थमा), यो तथ्याङ्कीय संरचना सिक्ने हो ( छवि सुपर-रिजोल्युसनको लागि गहिरो सिकाइ: एक सर्वेक्षण )। यसलाई बनावट र किनाराहरूको व्याकरण सिक्ने जस्तै सोच्नुहोस्। कविता व्याकरण होइन, जस्तै ... IKEA म्यानुअल व्याकरण 🪑📦 (अनाड़ी रूपक, तर पर्याप्त नजिक)।
नट एण्ड बोल्ट: अनुमानको समयमा के हुन्छ (जब तपाईं माथिल्लो तहमा पुग्नुहुन्छ) ⚙️✨
जब तपाईंले एआई अपस्केलरमा छवि फिड गर्नुहुन्छ, त्यहाँ सामान्यतया यस्तो पाइपलाइन हुन्छ:
-
पूर्वप्रशोधन
-
रङ स्पेस रूपान्तरण गर्नुहोस् (कहिलेकाहीं)
-
पिक्सेल मानहरू सामान्य बनाउनुहोस्
-
यदि छवि ठूलो छ भने टुक्रा-टुक्रा पार्नुहोस् (VRAM वास्तविकता जाँच 😭) ( वास्तविक-ESRGAN रिपो (टाइल विकल्पहरू) )
-
-
सुविधा निकासी
-
प्रारम्भिक तहहरूले किनारा, कुना, ग्रेडियन्ट पत्ता लगाउँछन्
-
गहिरो तहहरूले ढाँचाहरू पत्ता लगाउँछन्: बनावट, आकार, अनुहारका घटकहरू
-
-
पुनर्निर्माण
-
मोडेलले उच्च-रिजोल्युसन सुविधा नक्सा उत्पन्न गर्दछ
-
त्यसपछि त्यसलाई वास्तविक पिक्सेल आउटपुटमा रूपान्तरण गर्दछ
-
-
प्रशोधन पछि
-
वैकल्पिक तिखार्ने
-
वैकल्पिक आवाज कम गर्नुहोस्
-
वैकल्पिक कलाकृति दमन (घण्टी, हेलो, अवरोध)
-
एउटा सूक्ष्म विवरण: धेरै उपकरणहरू टाइलहरूमा उच्च स्केल हुन्छन्, त्यसपछि सिमहरू मिलाउँछन्। उत्कृष्ट उपकरणहरूले टाइल सीमाहरू लुकाउँछन्। यदि तपाईंले आँखा चिम्लाउनुभयो भने मेह उपकरणहरूले हल्का ग्रिड चिन्हहरू छोड्छन्। र हो, तपाईं आँखा चिम्लाउनुहुनेछ, किनकि मानिसहरूलाई साना ग्रेम्लिनहरू जस्तै ३००% जुममा सूक्ष्म अपूर्णताहरू निरीक्षण गर्न मन पर्छ 🧌
एआई अपस्केलिंगको लागि प्रयोग गरिएका मुख्य मोडेल परिवारहरू (र तिनीहरू किन फरक महसुस गर्छन्) 🤖📚
१) CNN-आधारित सुपर-रिजोल्युसन (क्लासिक वर्कहर्स)
कन्भोलुसनल न्यूरल नेटवर्कहरू स्थानीय ढाँचाहरूमा उत्कृष्ट छन्: किनाराहरू, बनावटहरू, साना संरचनाहरू ( इमेज सुपर-रिजोल्युसन युजिङ डीप कन्भोलुसनल नेटवर्कहरू (SRCNN) )।
-
फाइदाहरू: छिटो, स्थिर, कम आश्चर्य
-
बेफाइदा: कडा धक्का दिएमा अलि "प्रशोधित" देखिन सक्छ
२) GAN-आधारित अपस्केलिंग (ESRGAN-शैली) 🎭
GANs (जेनेरेटिभ एडभर्सरियल नेटवर्क्स) ले जेनेरेटरलाई उच्च-रिजोल्युसन छविहरू उत्पादन गर्न तालिम दिन्छ जुन भेदभावकर्ताले वास्तविक छविहरू ( जेनेरेटिभ एडभर्सरियल नेटवर्क्स ) बाट छुट्याउन सक्दैन।
-
फाइदाहरू: पञ्च विवरण, प्रभावशाली बनावट
-
बेफाइदा: त्यस्तो विवरण आविष्कार गर्न सक्छ जुन त्यहाँ थिएन - कहिलेकाहीं गलत, कहिलेकाहीं अनौठो ( SRGAN , ESRGAN )
GAN ले तपाईंलाई सास फेर्न सक्ने तीक्ष्णता दिन सक्छ। यसले तपाईंको चित्र विषयलाई अतिरिक्त आँखीभौं पनि दिन सक्छ। त्यसैले... आफ्नो लडाईहरू छनौट गर्नुहोस् 😬
३) प्रसार-आधारित अपस्केलिंग (सिर्जनशील वाइल्डकार्ड) 🌫️➡️🖼️
SR3 ) उत्पादन गर्न निर्देशित गर्न सकिन्छ
-
फाइदाहरू: विशेष गरी रचनात्मक कामको लागि, प्रशंसनीय विवरणहरूमा अत्यन्तै राम्रो हुन सक्छ।
-
बेफाइदा: यदि सेटिङहरू आक्रामक छन् भने मूल पहिचान/संरचनाबाट टाढा जान सक्छ ( SR3 )
यहीँबाट "अपस्केलिंग" "पुनः कल्पना" मा मिसिन थाल्छ। कहिलेकाहीँ तपाईंले चाहेको कुरा त्यही हुन्छ। कहिलेकाहीँ त्यस्तो हुँदैन।.
४) अस्थायी स्थिरताका साथ भिडियो अपस्केलिंग 🎞️
भिडियो अपस्केलिंगले प्रायः गति-सचेत तर्क थप्छ:
-
विवरण स्थिर गर्न छिमेकी फ्रेमहरू प्रयोग गर्दछ ( BasicVSR (CVPR २०२१) )
-
झिलिमिली र क्रलिङ कलाकृतिहरूबाट बच्न प्रयास गर्दछ
-
प्रायः सुपर-रिजोल्युसनलाई डिनोइज र डिइन्टरलेसिङसँग जोड्दछ ( टोपाज भिडियो )
यदि छवि अपस्केलिंग एउटा चित्र पुनर्स्थापित गर्नु जस्तै हो भने, भिडियो अपस्केलिंग भनेको पात्रको नाकको आकार प्रत्येक पृष्ठमा परिवर्तन नगरीकन फ्लिपबुक पुनर्स्थापित गर्नु जस्तै हो। जुन ... सुन्दा भन्दा गाह्रो छ।.
किन एआई अपस्केलिंग कहिलेकाहीं नक्कली देखिन्छ (र यसलाई कसरी पहिचान गर्ने) 👀🚩
एआई अपस्केलिंग पहिचान गर्न सकिने तरिकाहरूमा असफल हुन्छ। एकपटक तपाईंले ढाँचाहरू सिक्नुभएपछि, तपाईंले तिनीहरूलाई जताततै देख्नुहुनेछ, जस्तै नयाँ कार किन्नु र अचानक हरेक सडकमा त्यो मोडेल देख्नु 😵💫
सामान्य भन्छन्:
-
अनुहारमा मैनको छाला
-
अति-तीक्ष्ण हलोहरू (क्लासिक "ओभरशूट" क्षेत्र) ( बाइक्यूबिक इन्टरपोलेसन )
-
दोहोरिएको बनावट (इँटाका भित्ताहरू कपी-पेस्ट ढाँचा बन्छन्)
-
"एल्गोरिथ्म" भनेर चिच्याउने क्रन्ची माइक्रो-कन्ट्रास्ट
-
अक्षरहरू लगभग अक्षर बन्ने ठाउँमा पाठको मिश्रण
-
डिटेल ड्रिफ्ट जहाँ साना सुविधाहरू सूक्ष्म रूपमा परिवर्तन हुन्छन्, विशेष गरी प्रसार कार्यप्रवाहहरूमा ( SR3 )
गाह्रो कुरा: कहिलेकाहीँ यी कलाकृतिहरू एकै नजरमा "राम्रो" देखिन्छन्। तपाईंको दिमागलाई तीक्ष्णता मन पर्छ। तर एक क्षण पछि, यो ... बन्द महसुस हुन्छ।.
एउटा राम्रो रणनीति भनेको जुम आउट गर्नु र सामान्य हेर्ने दूरीमा प्राकृतिक देखिन्छ कि छैन भनेर जाँच गर्नु हो। यदि यो ४००% जुममा मात्र राम्रो देखिन्छ भने, त्यो जित होइन, त्यो एउटा शौक हो 😅
एआई अपस्केलिंगले कसरी काम गर्छ: गणितको टाउको दुखाइ बिना प्रशिक्षण पक्ष 📉🙂
सुपर-रिजोल्युसन मोडेलहरूको प्रशिक्षणमा सामान्यतया समावेश हुन्छ:
-
जोडी डेटासेटहरू (कम-रिजोल्युसन इनपुट, उच्च-रिजोल्युसन लक्ष्य) ( डिप कन्भोलुसनल नेटवर्कहरू (SRCNN) प्रयोग गर्दै छवि सुपर-रिजोल्युसन )
-
गलत पुनर्निर्माणलाई दण्ड दिने क्षति कार्यहरू SRGAN )
सामान्य हानि प्रकारहरू:
-
पिक्सेल हानि (L1/L2)
शुद्धतालाई प्रोत्साहन गर्छ। थोरै नरम परिणामहरू उत्पादन गर्न सक्छ। -
बोधात्मक क्षतिले
सटीक पिक्सेलको सट्टा गहिरो विशेषताहरू (जस्तै "के यो देखिन्छ बोधात्मक क्षति (जोनसन एट अल।, २०१६) )। -
विरोधी क्षति (GAN)
ले यथार्थवादलाई प्रोत्साहन गर्छ, कहिलेकाहीँ शाब्दिक शुद्धताको मूल्यमा ( SRGAN , जेनेरेटिभ विरोधी नेटवर्कहरू )।
निरन्तर रस्साकस्सी चलिरहेको छ:
-
मूल
बनाम विश्वासयोग्य बनाउनुहोस् -
दृश्यात्मक रूपमा मनमोहक बनाउनुहोस्
त्यो स्पेक्ट्रममा फरक-फरक ठाउँहरूमा फरक-फरक उपकरणहरू हुन्छन्। र तपाईंले पारिवारिक तस्बिरहरू पुनर्स्थापना गर्दै हुनुहुन्छ वा पोस्टर तयार गर्दै हुनुहुन्छ जहाँ "राम्रो देखिने" फोरेन्सिक शुद्धता भन्दा बढी महत्त्वपूर्ण हुन्छ भन्ने आधारमा तपाईंले एउटालाई प्राथमिकता दिन सक्नुहुन्छ।.
व्यावहारिक कार्यप्रवाह: तस्बिरहरू, पुराना स्क्यानहरू, एनिमे, र भिडियो 📸🧾🎥
तस्बिरहरू (चित्रहरू, परिदृश्यहरू, उत्पादनका तस्बिरहरू)
उत्तम अभ्यास सामान्यतया:
-
पहिले हल्का आवाज कम गर्नुहोस् (आवश्यक भएमा)
-
रूढिवादी सेटिङहरू सहितको उच्चस्तरीय
-
यदि चीजहरू धेरै सहज लाग्छ भने फेरि दाना थप्नुहोस् (हो, साँच्चै)
अन्न नुन जस्तै हो। धेरै अन्नले खाना बिगार्छ, तर कुनै पनि अन्नको स्वाद अलि सपाट हुँदैन 🍟
पुराना स्क्यानहरू र धेरै संकुचित गरिएका तस्बिरहरू
यी कठिन छन् किनभने मोडेलले कम्प्रेसन ब्लकहरूलाई "बनावट" को रूपमा व्यवहार गर्न सक्छ।
प्रयास गर्नुहोस्:
-
कलाकृति हटाउने वा अवरोध हटाउने
-
त्यसपछि उच्चस्तरीय
-
त्यसपछि हल्का तिखार्ने (धेरै होइन... मलाई थाहा छ, सबैले त्यसै भन्छन्, तर अझै पनि)
एनिमे र लाइन आर्ट
रेखा कलाका फाइदाहरू:
-
सफा किनारहरू सुरक्षित गर्ने मोडेलहरू
-
कम बनावटको भ्रम
एनिमे अपस्केलिंग प्रायः राम्रो देखिन्छ किनभने आकारहरू सरल र एकरूप हुन्छन्। (भाग्यशाली।)
भिडियो
भिडियोले अतिरिक्त चरणहरू थप्छ:
-
आवाज हटाउनुहोस्
-
डिइन्टरलेस (केही स्रोतहरूको लागि)
-
उच्चस्तरीय
-
टेम्पोरल स्मूथिङ वा स्थिरीकरण ( BasicVSR (CVPR २०२१) )
-
एकताको लागि वैकल्पिक अन्न पुन: परिचय
यदि तपाईंले समयको स्थिरता छोड्नुभयो भने, तपाईंले त्यो चम्किलो विवरण झिलिमिली पाउनुहुनेछ। एकचोटि तपाईंले यो याद गर्नुभयो भने, तपाईं यसलाई देख्न सक्नुहुन्न। शान्त कोठामा चिच्याउने कुर्सी जस्तै 😖
अनुमान नगरी सेटिङहरू छनोट गर्दै (एउटा सानो चिट पाना) 🎛️😵💫
यहाँ एउटा राम्रो सुरुवाती मानसिकता छ:
-
यदि अनुहारहरू प्लास्टिक जस्तो देखिन्छन् भने
आवाज कम गर्नुहोस्, तिखार्नुहोस् कम गर्नुहोस्, अनुहार-संरक्षण गर्ने मोडेल वा मोड प्रयास गर्नुहोस्। -
यदि बनावट धेरै तीव्र देखिन्छ भने
"विवरण वृद्धि" वा "विवरण पुन: प्राप्ति गर्नुहोस्" स्लाइडरहरू तल्लो गर्नुहोस्, पछि सूक्ष्म दाना थप्नुहोस्। -
यदि किनारहरू चम्किन्छन् भने
शार्पनिङ कम गर्नुहोस्, हेलो सप्रेसन विकल्पहरू जाँच गर्नुहोस्। -
यदि तस्बिर धेरै "एआई" देखिन्छ भने
थप रूढिवादी बन्नुहोस्। कहिलेकाहीँ उत्तम चाल भनेको केवल ... कम हुन्छ।
साथै: सक्छौ भनेर मात्र ८x लाई अपस्केल नगर। सफा २x वा ४x प्रायः राम्रो हुन्छ। त्यसभन्दा बाहिर, तपाईं मोडेललाई आफ्नो पिक्सेलको बारेमा फ्यानफिक्शन लेख्न भनिरहनुभएको छ 📖😂
नैतिकता, प्रामाणिकता, र "सत्य" को अप्ठ्यारो प्रश्न 🧭😬
एआई अपस्केलिंगले रेखा धमिलो पार्छ:
-
पुनर्स्थापना भनेको त्यहाँ भएको कुरा पुन: प्राप्त गर्नु हो।
-
वृद्धि भनेको नभएको कुरा थप्नु हो
व्यक्तिगत तस्बिरहरूको साथ, यो सामान्यतया ठीक (र सुन्दर) हुन्छ। पत्रकारिता, कानुनी प्रमाण, मेडिकल इमेजिङ, वा निष्ठा महत्त्वपूर्ण हुने कुनै पनि कुरामा... तपाईंले सावधान रहनु आवश्यक छ ( OSAC/NIST: फोरेन्सिक डिजिटल छवि व्यवस्थापनको लागि मानक गाइड , फोरेन्सिक छवि विश्लेषणको लागि SWGDE दिशानिर्देशहरू )।
एउटा साधारण नियम:
-
यदि दांव उच्च छ भने, AI अपस्केलिंगलाई निश्चित होइन, उदाहरणात्मक रूपमा व्यवहार गर्नुहोस्।
साथै, व्यावसायिक सन्दर्भमा खुलासाको महत्व हुन्छ। एआई खराब भएकोले होइन, तर दर्शकहरूले विवरणहरू पुनर्निर्माण गरिएको थियो वा कैद गरिएको थियो भनेर जान्न योग्य छन्। त्यो केवल... सम्मानजनक छ।.
समापन नोटहरू र छोटो सारांश 🧡✅
त्यसो भए, एआई अपस्केलिंगले कसरी काम गर्छ भन्ने कुरा यो हो: मोडेलहरूले उच्च-रिजोल्युसन विवरणहरू कम-रिजोल्युसन ढाँचाहरूसँग कसरी सम्बन्धित हुन्छन् भनेर सिक्छन् छवि सुपर-रिजोल्युसनको लागि गहिरो शिक्षा: एक सर्वेक्षण )। मोडेल परिवार (CNN, GAN, प्रसार, भिडियो-टेम्पोरल) मा निर्भर गर्दै, त्यो भविष्यवाणी रूढिवादी र विश्वासयोग्य हुन सक्छ... वा बोल्ड र कहिलेकाहीं अनहिङ्ग्ड 😅
द्रुत सारांश
-
परम्परागत अपस्केलिंगले पिक्सेलहरू फैलाउँछ ( बाइक्युबिक इन्टरपोलेसन )
-
एआई अपस्केलिंगले सिकेका ढाँचाहरू प्रयोग गरेर छुटेको विवरणको भविष्यवाणी गर्दछ ( इमेज सुपर-रिजोल्युसनल नेटवर्कहरू प्रयोग गर्दै (SRCNN) )
-
सही मोडेल + संयमबाट उत्कृष्ट परिणामहरू आउँछन्।
-
भिडियोमा हेलो, मोमी अनुहार, दोहोरिएको बनावट र झिलिमिलीपनको लागि हेर्नुहोस् ( BasicVSR (CVPR २०२१) )
-
स्केलिंग प्रायः "विश्वसनीय पुनर्निर्माण" हो, पूर्ण सत्य होइन ( SRGAN , ESRGAN )
यदि तपाईं चाहनुहुन्छ भने, मलाई भन्नुहोस् कि तपाईं के बढाउँदै हुनुहुन्छ (अनुहार, पुराना तस्बिरहरू, भिडियो, एनिमे, टेक्स्ट स्क्यान), र म एउटा सेटिङ रणनीति सुझाव दिनेछु जसले सामान्य "एआई लुक" समस्याहरूबाट बच्न मद्दत गर्छ 🎯🙂
सोधिने प्रश्न
एआई अपस्केलिंग र यसले कसरी काम गर्छ
एआई अपस्केलिंग (प्रायः "सुपर-रिजोल्युसन" भनिन्छ) ले तालिमको क्रममा सिकेका ढाँचाहरूबाट हराएको उच्च-रिजोल्युसन विवरणको भविष्यवाणी गरेर छविको रिजोल्युसन बढाउँछ। बाइक्युबिक इन्टरपोलेसन जस्ता पिक्सेलहरू मात्र स्ट्रेच गर्नुको सट्टा, मोडेलले किनाराहरू, बनावटहरू, अनुहारहरू, र पाठ-जस्तै स्ट्रोकहरू अध्ययन गर्छ, त्यसपछि ती सिकेका ढाँचाहरूसँग मिल्ने नयाँ पिक्सेल डेटा उत्पन्न गर्छ। यो कम "वास्तविकता पुनर्स्थापित गर्ने" र बढी "विश्वसनीय अनुमान लगाउने" हो जुन प्राकृतिक रूपमा पढिन्छ।.
एआई अपस्केलिंग बनाम बाइक्युबिक वा परम्परागत रिसाइजिंग
परम्परागत अपस्केलिंग विधिहरू (जस्तै बाइक्युबिक) मुख्यतया अवस्थित पिक्सेलहरू बीच अन्तर्क्रिया गर्दछन्, वास्तविक नयाँ विवरण सिर्जना नगरी संक्रमणहरूलाई सहज बनाउँछन्। एआई अपस्केलिंगले दृश्य संकेतहरू पहिचान गरेर र ती संकेतहरूको उच्च-रिजोल्युसन संस्करणहरू कस्तो देखिन्छन् भनेर भविष्यवाणी गरेर प्रशंसनीय संरचना पुनर्निर्माण गर्ने लक्ष्य राख्छ। त्यसैले एआई परिणामहरू नाटकीय रूपमा तीखो महसुस गर्न सक्छन्, र किन तिनीहरूले स्रोतमा उपस्थित नभएका कलाकृतिहरू वा "आविष्कार" विवरणहरू परिचय गराउन सक्छन्।.
अनुहार किन मोमी जस्तो वा अत्यधिक चिल्लो देखिन सक्छ?
मोमी अनुहारहरू सामान्यतया आक्रामक डिनोइजिङ र स्मूथिङबाट आउँछन् जसले प्राकृतिक छालाको बनावटलाई धारिलो बनाउँछ। धेरै उपकरणहरूले आवाज र राम्रो बनावटलाई समान रूपमा व्यवहार गर्छन्, त्यसैले छविलाई "सफाई" गर्नाले छिद्रहरू र सूक्ष्म विवरणहरू मेटाउन सक्छ। एउटा सामान्य दृष्टिकोण भनेको डिनोइज र तिखाराइ कम गर्नु हो, उपलब्ध भएमा अनुहार-संरक्षण मोड प्रयोग गर्नुहोस्, त्यसपछि दानाको स्पर्श पुन: प्रस्तुत गर्नुहोस् ताकि परिणाम कम प्लास्टिक र बढी फोटोग्राफिक महसुस होस्।.
हेर्नको लागि सामान्य एआई अपस्केलिंग कलाकृतिहरू
सामान्य टेलहरूमा किनाराहरू वरिपरि हेलो, दोहोरिएको बनावट ढाँचाहरू (जस्तै प्रतिलिपि-टाँस्ने इँटाहरू), क्रन्ची माइक्रो-कन्ट्रास्ट, र "लगभग अक्षरहरू" मा परिणत हुने पाठ समावेश छ। प्रसार-आधारित कार्यप्रवाहहरूमा, तपाईंले विवरण बहाव पनि देख्न सक्नुहुन्छ जहाँ साना सुविधाहरू सूक्ष्म रूपमा परिवर्तन हुन्छन्। भिडियोको लागि, फ्रेमहरूमा फ्लिकर र क्रलिङ विवरणहरू ठूला रातो झण्डा हुन्। यदि यो चरम जुममा मात्र राम्रो देखिन्छ भने, सेटिङहरू सम्भवतः धेरै आक्रामक छन्।.
GAN, CNN, र प्रसार अपस्केलरहरू परिणामहरूमा कसरी फरक हुन्छन्
CNN-आधारित सुपर-रिजोल्युसन स्थिर र अधिक अनुमानित हुन सक्छ, तर यदि कडा धक्का दिइयो भने यो "प्रशोधित" देखिन सक्छ। GAN-आधारित विकल्पहरू (ESRGAN-शैली) ले प्रायः पंचर बनावट र कथित तीक्ष्णता उत्पादन गर्दछ, तर तिनीहरूले गलत विवरणहरू भ्रमित गर्न सक्छन्, विशेष गरी अनुहारहरूमा। प्रसार-आधारित अपस्केलिंगले सुन्दर, प्रशंसनीय विवरण उत्पन्न गर्न सक्छ, तर यदि मार्गदर्शन वा शक्ति सेटिङहरू धेरै बलियो छन् भने यो मूल संरचनाबाट बहन सक्छ।.
"धेरै एआई" देखिनबाट बच्नको लागि व्यावहारिक सेटिङ रणनीति
रूढिवादी सुरु गर्नुहोस्: चरम कारकहरूमा पुग्नु अघि २× वा ४× माथिल्लो तहमा। यदि अनुहारहरू प्लास्टिक जस्तो देखिन्छन् भने, आवाज घटाउने र तिखार्ने डायल ब्याक गर्नुहोस् र अनुहार-सचेत मोड प्रयास गर्नुहोस्। यदि बनावटहरू धेरै तीव्र हुन्छन् भने, विवरण वृद्धि कम गर्नुहोस् र पछि सूक्ष्म दाना थप्ने विचार गर्नुहोस्। यदि किनारहरू चम्किन्छन् भने, तिखार्ने कम गर्नुहोस् र हेलो वा आर्टिफ्याक्ट सप्रेसन जाँच गर्नुहोस्। धेरै पाइपलाइनहरूमा, "कम" ले जित्छ किनभने यसले विश्वासयोग्य यथार्थवादलाई सुरक्षित राख्छ।.
स्केलिंग गर्नु अघि पुराना स्क्यानहरू वा धेरै JPEG-संकुचित छविहरू ह्यान्डल गर्दै
कम्प्रेस गरिएका तस्बिरहरू जटिल हुन्छन् किनभने मोडेलहरूले ब्लक कलाकृतिहरूलाई वास्तविक बनावटको रूपमा व्यवहार गर्न सक्छन् र तिनीहरूलाई विस्तार गर्न सक्छन्। एउटा सामान्य कार्यप्रवाह भनेको पहिले कलाकृति हटाउने वा डिब्लक गर्ने, त्यसपछि माथि उठाउने, त्यसपछि आवश्यक परेमा मात्र हल्का तिखार्ने हो। स्क्यानहरूको लागि, कोमल सफाईले मोडेललाई क्षतिको सट्टा वास्तविक संरचनामा ध्यान केन्द्रित गर्न मद्दत गर्न सक्छ। लक्ष्य "नक्कली बनावट संकेतहरू" कम गर्नु हो ताकि अपस्केलरलाई आवाज निकाल्ने इनपुटहरूबाट विश्वस्त अनुमानहरू गर्न बाध्य नपरोस्।.
किन भिडियो अपस्केलिंग फोटो अपस्केलिंग भन्दा गाह्रो छ
भिडियो अपस्केलिंग फ्रेमहरूमा एकरूप हुनुपर्छ, केवल एउटा स्थिर छविमा मात्र राम्रो होइन। यदि विवरणहरू फ्रेम-टु-फ्रेममा झिलमिलाहट भएमा, परिणाम छिटो ध्यान भंग गर्ने हुन्छ। भिडियो-केन्द्रित दृष्टिकोणहरूले पुनर्निर्माण स्थिर गर्न र चम्किलो कलाकृतिहरूबाट बच्न छिमेकी फ्रेमहरूबाट अस्थायी जानकारी प्रयोग गर्दछ। धेरै कार्यप्रवाहहरूमा डिनोइज, निश्चित स्रोतहरूको लागि डिइन्टरलेसिङ, र वैकल्पिक ग्रेन रिइन्ट्रोडक्सन पनि समावेश छन् ताकि सम्पूर्ण अनुक्रम कृत्रिम रूपमा तीखो हुनुको सट्टा एकरूप महसुस होस्।.
जब एआई अपस्केलिंग उपयुक्त हुँदैन वा भर पर्नु जोखिमपूर्ण हुन्छ
एआई अपस्केलिंगलाई प्रमाणको रूपमा होइन, वृद्धिको रूपमा व्यवहार गर्नु राम्रो हुन्छ। पत्रकारिता, कानुनी प्रमाण, मेडिकल इमेजिङ, वा फोरेन्सिक कार्य जस्ता उच्च-दांवपूर्ण सन्दर्भहरूमा, "विश्वसनीय" पिक्सेलहरू उत्पन्न गर्नाले भ्रामक हुन सक्छ किनभने यसले क्याप्चर नगरिएका विवरणहरू थप्न सक्छ। सुरक्षित फ्रेमिङ भनेको यसलाई उदाहरणात्मक रूपमा प्रयोग गर्नु र एआई प्रक्रियाले पुनर्निर्माण गरेको विवरण खुलासा गर्नु हो। यदि निष्ठा महत्वपूर्ण छ भने, मौलिकहरू सुरक्षित गर्नुहोस् र प्रत्येक प्रशोधन चरण र सेटिङ दस्तावेज गर्नुहोस्।.
सन्दर्भ सामग्रीहरू
-
arXiv - छविको लागि गहन सिकाइ सुपर-रिजोल्युसन: एक सर्वेक्षण - arxiv.org
-
arXiv - गहिरो कन्भोलुसनल नेटवर्कहरू (SRCNN) प्रयोग गर्दै इमेज सुपर-रिजोल्युसन - arxiv.org
-
arXiv - वास्तविक-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA विकासकर्ता - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX सुपर रिजोल्युसन २ - gpuopen.com
-
कम्प्युटर भिजन फाउन्डेसन (CVF) खुला पहुँच - BasicVSR: भिडियो सुपर-रिजोल्युसनमा आवश्यक घटकहरूको खोजी (CVPR २०२१) - openaccess.thecvf.com
-
arXiv - जेनेरेटिभ एडभर्सरियल नेटवर्कहरू - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - ज्ञानेन्द्रिय क्षति (जोनसन एट अल।, २०१६) - arxiv.org
-
GitHub - वास्तविक-ESRGAN रिपो (टाइल विकल्पहरू) - github.com
-
विकिपिडिया - बाइक्युबिक इन्टरपोलेसन - wikipedia.org
-
टोपाज ल्याब्स - टोपाज फोटो - topazlabs.com
-
टोपाज ल्याब्स - टोपाज भिडियो - topazlabs.com
-
एडोब मद्दत केन्द्र - एडोब एन्हान्स > सुपर रिजोल्युसन - helpx.adobe.com
-
NIST / OSAC - फोरेन्सिक डिजिटल छवि व्यवस्थापनको लागि मानक गाइड (संस्करण १.०) - nist.gov
-
SWGDE - फोरेन्सिक छवि विश्लेषणका लागि दिशानिर्देशहरू - swgde.org