OpenAI ने कथित तौर पर ChatGPT-4, CriticGPT पर आधारित एक नया AI मॉडल तैयार किया है। यह नया डिज़ाइन किया गया AI मॉडल ChatGPT द्वारा उत्पादित कोड में उपयोगकर्ताओं की त्रुटियों की पहचान करने में मदद करेगा। रिपोर्टों के अनुसार, यह नया AI मॉडल परीक्षण में है और इसने पहले ही कोड समीक्षा परिणामों में 60 प्रतिशत तक सुधार किया है। OpenAI द्वारा CriticGPT को OpenAI के रीइनफोर्समेंट लर्निंग फ्रॉम ह्यूमन फीडबैक (RLHF) लेबलिंग पाइपलाइन में शामिल किए जाने की संभावना है। उम्मीद है कि कंपनी का लक्ष्य AI प्रशिक्षकों को जटिल AI आउटपुट का मूल्यांकन करने के लिए अधिक कुशल उपकरण प्रदान करना है।
चैटजीपीटी को संचालित करने वाले जीपीटी-4 मॉडल का उद्देश्य आरएलएचएफ (मानव प्रतिक्रिया से प्रतिक्रिया सीखना) के माध्यम से अन्तरक्रियाशीलता और उपयोगिता को बढ़ाना है। इसमें एआई प्रशिक्षक विभिन्न प्रतिक्रियाओं का मूल्यांकन और रेटिंग करके उनकी गुणवत्ता में सुधार करते हैं। जैसे-जैसे चैटजीपीटी की तर्क क्षमताएँ आगे बढ़ती हैं, त्रुटियाँ अधिक सूक्ष्म होती जा रही हैं, जिससे प्रशिक्षकों के लिए अशुद्धियों की पहचान करना चुनौतीपूर्ण होता जा रहा है।
‘एलएलएम क्रिटिक्स एड इन डिटेक्टिंग एलएलएम एरर्स’ नामक एक अध्ययन में, क्रिटिकजीपीटी ने कोड का विश्लेषण करने और उन त्रुटियों की पहचान करने में दक्षता का प्रदर्शन किया जो मानव ध्यान से बच सकती हैं, जिससे मतिभ्रम का पता लगाने में सहायता मिलती है। शोधकर्ताओं ने क्रिटिकजीपीटी को कोड नमूनों में जानबूझकर डाले गए बग वाले डेटासेट पर प्रशिक्षित किया, जिससे यह कोडिंग त्रुटियों को प्रभावी ढंग से पहचानने और चिह्नित करने में सक्षम हो गया।
यह भी पढ़ें | मसाला गेम्स द्वारा डिटेक्टिव डॉटसन एक्सबॉक्स रिलीज़ की घोषणा की गई – विवरण देखें
आगे और क्या आने वाला है?
रिपोर्ट के अनुसार CriticGPT के प्रयोगों के दौरान, CriticGPT का उपयोग करने वाली टीमों ने अकेले काम करने वालों की तुलना में अधिक समग्र आलोचनाएँ कीं और कम झूठे सकारात्मक परिणामों की पहचान की। LLM आलोचकों ने LLM बग्स को पकड़ने में मदद की, “एक दूसरे प्रशिक्षक ने 60 प्रतिशत से अधिक समय में बिना सहायता वाले समीक्षक की तुलना में मानव+CriticGPT टीम की आलोचनाओं को प्राथमिकता दी, जैसा कि रिपोर्ट किया गया है।”
आलोचकों ने CriticGPT की क्षमताओं के बारे में चिंता जताई है, उन्होंने कहा कि ऐसा लगता है कि इसे मुख्य रूप से ChatGPT से संक्षिप्त प्रतिक्रियाओं पर प्रशिक्षित किया गया है। यह लंबे और अधिक जटिल कार्यों को प्रभावी ढंग से संभालने के लिए आगे के विकास की आवश्यकता का सुझाव देता है। इसके अतिरिक्त, एक महत्वपूर्ण चुनौती जो बनी हुई है वह है ‘ChatGPT मतिभ्रम’ के रूप में जानी जाने वाली घटना, जहां AI मॉडल गलत जानकारी उत्पन्न करता है और इसे तथ्यात्मक रूप में प्रस्तुत करता है, जिसे CriticGPT ने अभी तक पूरी तरह से संबोधित नहीं किया है।
इसके अलावा, प्रशिक्षकों द्वारा कभी-कभी लेबलिंग संबंधी गलतियाँ की जाती हैं, और एक उल्लेखनीय सीमा यह है कि वे प्रतिक्रिया के कई पहलुओं को शामिल करने वाले मुद्दों को संबोधित करने के बजाय अलग-अलग त्रुटियों पर ध्यान केंद्रित करते हैं। यह सीमा RLHF से निकटता से जुड़ी हुई है। जैसे-जैसे ये उन्नत मॉडल अधिक से अधिक जानकार होते जा रहे हैं, चिंता है कि मानव प्रशिक्षकों को क्रिटिकजीपीटी ढांचे के भीतर प्रभावी ढंग से सार्थक प्रतिक्रिया प्रदान करना चुनौतीपूर्ण लग सकता है।