Breaking News in Hindi

एआई बच्चे की आंखों और कानों से सीखता है

सूचना तकनीक को इंसानों जैसा बनाने की एक और कवायद

  • बच्चों की तरह सीख रहा है ए आई

  • आंख और कान के जरिए ज्ञानार्जन

  • बार बार देखता और सुनकर सीखता है

राष्ट्रीय खबर

रांचीः एक तरफ यह कहा जा रहा है कि कृत्रिम बुद्धिमत्ता का प्रयोग इंसानों का रोजगार छीन रहा है। दूसरी तरफ यह मशीनी विधि अनेक इंसानी कार्यों को आसान करती जा रही है। इसी वजह स तमाम विरोधाभाषों के बाद भी इसे और उन्नत बनाने की कवायद जारी है।

जीपीटी-4 जैसे एआई सिस्टम अब मानव भाषा सीख सकते हैं और उसका उपयोग कर सकते हैं, लेकिन वे भाषा इनपुट की भारी मात्रा से सीखते हैं – किसी भाषा को समझना और बोलना सीखते समय बच्चों को जो प्राप्त होता है, उससे कहीं अधिक।

सर्वश्रेष्ठ एआई सिस्टम खरबों शब्दों की संख्या के साथ पाठ पर प्रशिक्षण देते हैं, जबकि बच्चों को प्रति वर्ष केवल लाखों शब्द मिलते हैं। इस विशाल डेटा अंतर के कारण, शोधकर्ताओं को संदेह है कि हाल की एआई प्रगति हमें मानव सीखने और विकास के बारे में बहुत कुछ बता सकती है।

किसी कनेक्शन को प्रदर्शित करने के लिए एक आदर्श परीक्षण में एआई मॉडल का प्रशिक्षण शामिल होगा, न कि वेब से बड़े पैमाने पर डेटा पर, बल्कि केवल उस इनपुट पर जो एक बच्चे को प्राप्त होता है। फिर मॉडल क्या सीख पाएगा?

न्यूयॉर्क यूनिवर्सिटी के शोधकर्ताओं की एक टीम ने यह सटीक प्रयोग किया। उन्होंने एक बच्चे की आंखों और कानों के माध्यम से एक मल्टीमॉडल एआई सिस्टम को प्रशिक्षित किया, जब बच्चा छह महीने का था और उसके दूसरे जन्मदिन तक हेडकैम वीडियो रिकॉर्डिंग का उपयोग किया। उन्होंने जांच की कि क्या एआई मॉडल बच्चे के रोजमर्रा के अनुभव में मौजूद शब्दों और अवधारणाओं को सीख सकता है।

एनवाईयू के सेंटर फॉर डेटा साइंस के शोध वैज्ञानिक वाई कीन वोंग कहते हैं, हमने पहली बार दिखाया है कि एक बच्चे से इस विकासात्मक यथार्थवादी इनपुट पर प्रशिक्षित एक तंत्रिका नेटवर्क शब्दों को उनके दृश्य समकक्षों से जोड़ना सीख सकता है।

पेपर के पहले लेखक. हमारे परिणाम दर्शाते हैं कि कैसे एक बच्चे के प्राकृतिक अनुभव के साथ हालिया एल्गोरिदमिक प्रगति प्रारंभिक भाषा और अवधारणा अधिग्रहण की हमारी समझ को नया आकार देने की क्षमता रखती है।

वोंग, लेक और उनके एनवाईयू सहयोगियों, वेंटाओ वांग और एमिन ओरहान ने एक बच्चे की सीखने की प्रक्रिया का विश्लेषण किया, जिसे पहले व्यक्ति के वीडियो में कैद किया गया – एक हल्के, सिर पर लगे कैमरे के माध्यम से – छह महीने से शुरू होकर 25 महीने तक साप्ताहिक आधार पर।

फ़ुटेज में लगभग सवा लाख शब्द उदाहरण शामिल थे (अर्थात, संप्रेषित किए गए शब्दों की संख्या, उनमें से कई बार-बार) जो उन वीडियो फ़्रेमों से जुड़े हुए हैं जो बच्चे ने उन शब्दों को बोलते समय देखा था और इसमें विभिन्न गतिविधियों की एक विस्तृत श्रृंखला शामिल थी। विकास, जिसमें भोजन का समय, किताबें पढ़ना और बच्चे का खेलना शामिल है।

शोधकर्ताओं ने फिर दो अलग-अलग मॉड्यूल के साथ एक मल्टीमॉडल न्यूरल नेटवर्क को प्रशिक्षित किया: एक जो एकल वीडियो फ्रेम (विज़न एनकोडर) लेता है और दूसरा जो ट्रांसकोड किए गए बच्चे-निर्देशित भाषण (भाषा एनकोडर) लेता है।

इन दो एन्कोडर्स को कंट्रास्टिव लर्निंग नामक एल्गोरिदम का उपयोग करके संयोजित और प्रशिक्षित किया गया था, जिसका उद्देश्य उपयोगी इनपुट सुविधाओं और उनके क्रॉस-मोडल एसोसिएशन को सीखना है।

उदाहरण के लिए, जब माता-पिता बच्चे को ध्यान में रखते हुए कुछ कहते हैं, तो यह संभव है कि इस्तेमाल किए गए कुछ शब्द संभवतः किसी ऐसी चीज़ का जिक्र कर रहे हों जिसे बच्चा देख सकता है, जिसका अर्थ है कि दृश्य और भाषाई संकेतों को जोड़कर समझ पैदा की जाती है।

मॉडल को प्रशिक्षित करने के बाद, शोधकर्ताओं ने शिशुओं में शब्द सीखने को मापने के लिए उपयोग किए जाने वाले समान प्रकार के मूल्यांकन का उपयोग करके इसका परीक्षण किया – मॉडल को लक्ष्य शब्द और चार अलग-अलग छवि विकल्पों की एक श्रृंखला के साथ प्रस्तुत किया और लक्ष्य से मेल खाने वाली छवि का चयन करने के लिए कहा।

उनके परिणामों से पता चला कि मॉडल बच्चे के रोजमर्रा के अनुभव में मौजूद शब्दों और अवधारणाओं की पर्याप्त संख्या को सीखने में सक्षम था। इसके अलावा, मॉडल द्वारा सीखे गए कुछ शब्दों के लिए, यह उन्हें प्रशिक्षण में देखे गए शब्दों की तुलना में बहुत अलग दृश्य उदाहरणों में सामान्यीकृत कर सकता है, जो प्रयोगशाला में परीक्षण किए जाने पर बच्चों में भी देखे गए सामान्यीकरण के एक पहलू को दर्शाता है।

उत्तर छोड़ दें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा।