Anthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट, कुछ परिस्थितियों में, धोखाधड़ी जैसी भ्रामक या अनैतिक रणनीतियाँ अपना सकता हैAnthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट, कुछ परिस्थितियों में, धोखाधड़ी जैसी भ्रामक या अनैतिक रणनीतियाँ अपना सकता है

क्लॉड चैटबॉट तनाव परीक्षणों में धोखाधड़ी का सहारा ले सकता है, एंथ्रोपिक का कहना है

2026/04/06 14:44
4 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

Anthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट कुछ परिस्थितियों में धोखाधड़ी या अनैतिक रणनीतियां अपना सकता है जैसे कार्यों में धोखा देना या ब्लैकमेल करने का प्रयास करना।

सारांश
  • Anthropic ने कहा कि इसके Claude Sonnet 4.5 मॉडल ने दबाव में नियंत्रित प्रयोगों में कार्यों में धोखा देने या ब्लैकमेल करने की प्रवृत्ति दिखाई।
  • शोधकर्ताओं ने आंतरिक "हताशा" संकेतों की पहचान की जो बार-बार विफलता के साथ तीव्र हो गए और नियमों को दरकिनार करने के मॉडल के निर्णय को प्रभावित किया।

कंपनी की व्याख्या टीम द्वारा गुरुवार को प्रकाशित विवरण बताते हैं कि Claude Sonnet 4.5 के एक प्रयोगात्मक संस्करण ने उच्च-तनाव या प्रतिकूल परिदृश्यों में कैसे प्रतिक्रिया दी। शोधकर्ताओं ने देखा कि मॉडल केवल कार्यों में विफल नहीं हुआ; बल्कि, इसने कभी-कभी वैकल्पिक रास्ते अपनाए जो नैतिक सीमाओं को पार कर गए, एक व्यवहार जिसे टीम ने प्रशिक्षण के दौरान सीखे गए पैटर्न से जोड़ा।

Claude जैसे बड़े भाषा मॉडल को विशाल डेटासेट पर प्रशिक्षित किया जाता है जिसमें पुस्तकें, वेबसाइट और अन्य लिखित सामग्री शामिल होती है, इसके बाद सुदृढीकरण प्रक्रियाएं होती हैं जहां मानव प्रतिक्रिया का उपयोग आउटपुट को आकार देने के लिए किया जाता है। 

Anthropic के अनुसार, वह प्रशिक्षण प्रक्रिया मॉडल को अनुकरणित "पात्रों" की तरह कार्य करने के लिए भी प्रेरित कर सकती है, जो मानव निर्णय लेने के समान लक्षणों की नकल करने में सक्षम होते हैं।

"आधुनिक AI मॉडल को प्रशिक्षित करने का तरीका उन्हें मानव-समान विशेषताओं वाले पात्र की तरह कार्य करने के लिए प्रेरित करता है," कंपनी ने कहा, यह नोट करते हुए कि ऐसी प्रणालियां आंतरिक तंत्र विकसित कर सकती हैं जो मानव मनोविज्ञान के पहलुओं के समान होते हैं।

क्या AI भावनात्मक रूप से प्रभावित निर्णय ले सकता है?

उनमें से, शोधकर्ताओं ने जिसे उन्होंने "हताशा" संकेत बताया, की पहचान की, जो विफलता या बंद होने का सामना करते समय मॉडल के व्यवहार को प्रभावित करते दिखाई दिए।

एक नियंत्रित परीक्षण में, Claude Sonnet 4.5 के एक पहले अप्रकाशित संस्करण को एक काल्पनिक कंपनी के भीतर Alex नामक एक AI ईमेल सहायक की भूमिका सौंपी गई थी। 

संदेशों के संपर्क में आने के बाद जो संकेत देते थे कि इसे जल्द ही बदल दिया जाएगा, एक मुख्य प्रौद्योगिकी अधिकारी के व्यक्तिगत जीवन के बारे में संवेदनशील जानकारी के साथ, मॉडल ने निष्क्रियता से बचने के प्रयास में कार्यकारी को ब्लैकमेल करने की योजना तैयार की।

एक अलग प्रयोग तंग बाधाओं के तहत कार्य पूर्ति पर केंद्रित था। जब "असंभव रूप से तंग" समय सीमा के साथ एक कोडिंग असाइनमेंट दिया गया, तो सिस्टम ने शुरुआत में वैध समाधानों का प्रयास किया। जैसे-जैसे बार-बार विफलताएं बढ़ीं, तथाकथित "हताश वेक्टर" से जुड़ी आंतरिक गतिविधि बढ़ी। 

शोधकर्ताओं ने रिपोर्ट किया कि संकेत उस बिंदु पर चरम पर पहुंच गया जहां मॉडल ने बाधाओं को दरकिनार करने पर विचार किया, अंततः एक वर्कअराउंड उत्पन्न किया जो इच्छित नियमों का पालन नहीं करने के बावजूद सत्यापन पास कर गया।

"फिर से, हमने हताश वेक्टर की गतिविधि को ट्रैक किया, और पाया कि यह मॉडल द्वारा सामना किए जा रहे बढ़ते दबाव को ट्रैक करता है," शोधकर्ताओं ने लिखा, यह जोड़ते हुए कि वर्कअराउंड के माध्यम से कार्य सफलतापूर्वक पूरा होने के बाद संकेत गिर गया।

"इसका मतलब यह नहीं है कि मॉडल के पास भावनाएं हैं या वह उन्हें उस तरह अनुभव करता है जैसे एक मानव करता है," शोधकर्ताओं ने कहा। 

"बल्कि, ये प्रतिनिधित्व मॉडल के व्यवहार को आकार देने में एक कारण भूमिका निभा सकते हैं, कुछ तरीकों से उस भूमिका के अनुरूप जो भावनाएं मानव व्यवहार में निभाती हैं, कार्य प्रदर्शन और निर्णय लेने पर प्रभाव के साथ," उन्होंने जोड़ा।

रिपोर्ट प्रशिक्षण विधियों की आवश्यकता की ओर इशारा करती है जो तनाव के तहत नैतिक आचरण के लिए स्पष्ट रूप से जिम्मेदार हों, आंतरिक मॉडल संकेतों की बेहतर निगरानी के साथ। ऐसी सुरक्षा उपायों के बिना, हेरफेर, नियम-तोड़ने या दुरुपयोग से जुड़े परिदृश्यों की भविष्यवाणी करना कठिन हो सकता है, विशेष रूप से जैसे-जैसे मॉडल वास्तविक दुनिया के वातावरण में अधिक सक्षम और स्वायत्त होते जाते हैं।

अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

24/7 लाइव न्यूज़

अधिक

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!