यह एक साधारण ड्राइविंग सिम्युलेटर है, लेकिन वीडियो गेम के ग्राफिक्स में क्रांति की शुरुआत हो सकती है।
कृत्रिम बुद्धि में वर्तमान उछाल ने कुछ आश्चर्यजनक क्षेत्र में उल्लेखनीय परिणाम उत्पन्न किए हैं: चित्र और फिल्म निर्माण का क्षेत्र। सबसे हालिया उदाहरण चिप डिजाइनर एनवीडिया द्वारा प्रस्तुत किया गया था, जिसने आज यह प्रदर्शित करने के लिए शोध प्रकाशित किया कि कैसे एआई-जनित दृश्यों का उपयोग पारंपरिक वीडियो गेम के साथ किया जा सकता है। परिणाम एक हाइब्रिड ग्राफिक्स सिस्टम है जो एक दिन वीडियो गेम, फिल्मों और आभासी वास्तविकता में उपयोग किया जा सकता है।
यह गहन शिक्षण का उपयोग करते हुए वीडियो सामग्री प्रस्तुत करने का एक नया तरीका है। जाहिर है कि एनवीडिया छवियों को बनाने के बारे में अच्छी तरह से परवाह करता है और गेमिंग उद्योग इस बात पर विचार कर रहा है कि एआई इस क्षेत्र में क्रांतिकारी बदलाव कैसे करेगा।
एनवीडिया के काम के परिणाम फोटोरिअलिस्टिक नहीं हैं और एआई-जनरेटेड इमेजरी में देखे गए ट्रेडमार्क विज़ुअल स्मियरिंग को प्रकट करते हैं। वे भी पूरी तरह से उपन्यास नहीं हैं। एनवीडिया के एक शोध पत्र में, कंपनी के इंजीनियरों ने वर्णन किया है कि कैसे उन्होंने कई मौजूदा तरीकों पर निर्माण किया, जैसे कि एक प्रभावशाली ओपन-सोर्स सिस्टम जिसे पिक्स२पिक्स कहा जाता है। उनके कार्य एक प्रकार का तंत्रिका नेटवर्क तैनात करते हैं जिसे जनरेटिव सोशल सिस्टम या यहां तक कि GAN के रूप में जाना जाता है। एआई छवि निर्माण में इनका व्यापक रूप से उपयोग किया जाता है, जिसमें क्रिस्टी द्वारा हाल ही में बेचे गए एआई पोर्ट्रेट की शुरूआत शामिल है।
हालांकि, एनवीडिया ने कई आविष्कार पेश किए हैं, और काम का एक उत्पाद, यह कहता है, एआई-जेनरेटेड ग्राफिक्स के साथ पहली वीडियो गेम प्रस्तुति है। यह एक आसान ड्राइविंग सिमुलेशन है जिसमें खिलाड़ी एआई-जनरेटेड स्पेस के कुछ शहर ब्लॉकों को ब्राउज़ करते हैं लेकिन अपने वाहन को नहीं छोड़ सकते हैं या बाहरी दुनिया के साथ बातचीत नहीं कर सकते हैं। डेमो केवल एक GPU के साथ संचालित होता है - इस तरह के अत्याधुनिक काम के लिए एक उल्लेखनीय उपलब्धि। (हालांकि माना जाता है कि GPU 3,000 डॉलर टाइटन वी तक पहुंचने के लिए फर्म का शीर्ष है, "अब तक का सबसे प्रभावी पीसी जीपीयू" और आमतौर पर गेमिंग के विपरीत उन्नत सिमुलेशन प्रोसेसिंग के लिए उपयोग किया जाता है।)
एनवीडिया का सिस्टम कुछ क्रियाओं का उपयोग करके ग्राफिक्स बनाता है। सबसे पहले, शोधकर्ताओं को प्रशिक्षण डेटा एकत्र करना होता है, जिसे इस उदाहरण में स्वायत्त ड्राइविंग अनुसंधान के लिए उपयोग किए गए ओपन-सोर्स डेटासेट से हटा दिया गया था। इस फुटेज को तब खंडित किया जाता है, जिसका अर्थ है कि प्रत्येक फ्रेम को विभिन्न वर्गों में विभाजित किया जाता है: आसमान, पेड़, कार, सड़क, भवन, आदि। इन वस्तुओं के नए प्रकार उत्पन्न करने के लिए इस विशिष्ट डेटा के साथ एक जनरेटिव प्रतिकूल नेटवर्क को प्रशिक्षित किया जाता है।
फिर, इंजीनियरों ने पारंपरिक गेम इंजन को नियोजित करके डिजिटल वातावरण की मूल टोपोलॉजी बनाई। इस तरह के मामलों में सिस्टम अवास्तविक इंजन 4 था, फिर एक पसंदीदा इंजन जिसका उपयोग Fortnite, PUBG, Gears of War 4 और कई अन्य शीर्षकों के लिए किया जाता था। एक ढांचे के रूप में इस वातावरण का उपयोग करते हुए, गहन शिक्षण एल्गोरिदम बाद में वास्तविक समय में प्रत्येक अलग-अलग वर्ग के लिए ग्राफिक्स बनाते हैं, उन्हें गेम इंजन के मॉडल से जोड़ते हैं।
"दुनिया की व्यवस्था पारंपरिक रूप से की गई है," एनवीडिया के नियोजित गहन शिक्षा के उपाध्यक्ष, ब्रायन कैटानज़ारो को स्पष्ट करते हैं, "केवल एक चीज जो एआई उत्पन्न करता है वह है छवियां।" वह कहते हैं कि प्रदर्शन अपने आप में मौलिक है, और इसे एक ही इंजीनियर ने तैयार किया था। "यह एक ऐसे खेल के बजाय प्रूफ-ऑफ-कॉन्सेप्ट है जो खेलने में मजेदार है"।
इस कार्यक्रम को बनाने के लिए एनवीडिया के इंजीनियरों को बहुत सारी चुनौतियों पर काम करने की जरूरत थी, जिनमें से सबसे बड़ी वस्तु स्थायित्व थी। समस्या यह है कि यदि गहन सीखने की गणना 25 फ्रेम प्रति सेकंड की गति से दुनिया के लिए ग्राफिक्स उत्पन्न कर रही है, तो वे चीजों को समान दिखने के लिए कैसे बनाए रखते हैं? कैटानज़ारो का कहना है कि इस कठिनाई का मतलब था कि मशीन का प्रारंभिक परिणाम " चेक इन करने में दर्दनाक " था क्योंकि रंग और बनावट "हर फ्रेम को बदल देते थे।"
समाधान मशीन को एक अस्थायी स्मृति देना था, इसलिए यह प्रत्येक नए फ्रेम की तुलना पहले की गई चीज़ों से करेगा। यह इन चित्रों के भीतर गति जैसी चीजों की भविष्यवाणी करने का प्रयास करता है और नए फ्रेम तैयार करता है जो स्क्रीन पर मौजूद चीज़ों के अनुरूप होते हैं। हालांकि यह सारी गणना महंगी है, और इस प्रकार यह खेल केवल 25 फ्रेम प्रति मिनट पर चलता है।
प्रौद्योगिकियां शुरुआती चरणों में बहुत अधिक हैं, कैटानज़ारो पर जोर देती हैं, और उपभोक्ता नामों में एआई-जेनरेट किए गए ग्राफिक्स दिखाई देने से पहले शायद दशकों का समय लगेगा। वह स्थिति की तुलना बीम ट्रेसिंग के विकास से करता है, छवियों में वर्तमान गर्म तकनीक जहां प्रकाश के व्यक्तिगत बीम तत्काल उत्पन्न होते हैं ताकि डिजिटल वातावरण में यथार्थवादी प्रतिबिंब, छाया और अस्पष्टता उत्पन्न हो सके। "बहुत पहले इंटरएक्टिव रे ट्रेसिंग प्रदर्शन बहुत पहले हुआ था, लेकिन हमें इसे कुछ हफ़्ते पहले तक बैचों में नहीं मिला," वे कहते हैं।
काम में अनुसंधान के विभिन्न क्षेत्रों में संभावित अनुप्रयोग हैं, हालांकि, रोबोटिक्स और सेल्फ-ड्राइविंग कारों सहित, जिसमें इसका उपयोग प्रशिक्षण परिवेश उत्पन्न करने के लिए किया जा सकता है। और यह अधिक सीमित क्षमता के बावजूद उपभोक्ता वस्तुओं में पहले दिखाई दे सकता है।
उदाहरण के लिए, इस तकनीक का उपयोग हाइब्रिड पिक्चर सिस्टम में किया जा सकता है, जहां पारंपरिक तरीकों का उपयोग करके अधिकांश गेम छोड़ दिया जाता है, हालांकि, एआई का उपयोग व्यक्तियों या वस्तुओं की समानता बनाने के लिए किया जाता है। उपभोक्ता स्मार्टफोन का उपयोग करके स्वयं फुटेज पकड़ सकते हैं, फिर इस जानकारी को क्लाउड पर अपलोड कर सकते हैं जहां गणना इसे कॉपी करना सीखेगी और फिर इसे मैचों में सम्मिलित करेगी। उदाहरण के लिए, यह गेमर्स की तरह दिखने वाले अवतार बनाना बहुत आसान बना सकता है।
हालाँकि, इस प्रकार की तकनीक कुछ स्पष्ट प्रश्न उठाती है। हाल ही में विशेषज्ञ एआई-जनित डीपफेक जैसे कि दुष्प्रचार और प्रचार के उपयोग के बारे में चिंतित हो गए हैं। शोधकर्ताओं ने दिखाया है कि राजनेताओं और मशहूर हस्तियों के नकली फुटेज बनाना या ऐसा करना आसान है जो उन्होंने नहीं किया, गलत हाथों में एक शक्तिशाली हथियार। प्रौद्योगिकी की क्षमताओं को आगे बढ़ाकर और अपने अध्ययन को प्रकाशित करके, एनवीडिया यकीनन इस संभावित समस्या में योगदान दे रहा है ...
हालांकि, संगठन का कहना है कि यह एक नया मुद्दा है। "मई [इस तकनीक] का उपयोग भ्रामक सामग्री बनाने के लिए किया जाता है? हां। प्रतिपादन के लिए किसी भी तकनीक का उपयोग ऐसा करने के लिए किया जा सकता है, " कैटानज़ारो कहते हैं। उनका कहना है कि एनवीडिया एआई फेक का पता लगाने के लिए अनुसंधान विधियों के लिए भागीदारों के साथ काम कर रहा है, लेकिन अंततः गलत सूचना की समस्या एक "विश्वास की समस्या" है और, इससे पहले के अधिकांश ट्रस्ट मुद्दों की तरह, इसे प्रक्रियाओं की एक सरणी का उपयोग करके हल करने की आवश्यकता होगी, न कि केवल तकनीकी..
कैटानज़ारो का कहना है कि एनवीडिया जैसी प्रौद्योगिकी कंपनियां केवल इतनी ज़िम्मेदारी ले सकती हैं। "क्या आप बिजली कंपनी को जवाबदेह ठहरा सकते हैं क्योंकि उन्होंने नकली वीडियो बनाने वाले कंप्यूटर को बिजली देने वाली बिजली बनाई है?" वह पूछता है।
और अंततः, एनवीडिया के लिए, एआई-जनित छवियों के साथ आगे बढ़ने का एक स्पष्ट लाभ है: यह उनके संगठन के अधिक हार्डवेयर को बढ़ावा देने में मदद करता है। 2010 के दशक की शुरुआत में जब से डीप लर्निंग बूम शुरू हुआ, एनवीडिया के शेयर की कीमत में उछाल आया क्योंकि यह स्पष्ट हो गया कि इसके कंप्यूटर चिप्स मशीन लर्निंग रिसर्च और उन्नति के लिए आदर्श रूप से अनुकूल थे।
तो क्या कंप्यूटर ग्राफिक्स में AI क्रांति संगठन की कमाई के लिए अच्छी हो सकती है? यह निश्चित रूप से चोट नहीं पहुंचाएगा, कैटानज़ारो हंसता है। "कुछ भी जो छवियों को बनाने की हमारी क्षमता को बढ़ाता है जो अधिक यथार्थवादी और सम्मोहक हैं, मेरा मानना है कि एनवीडिया की निचली रेखा के लिए बहुत अच्छा है।"
संदर्भ : द वर्ज