क्रिप्टो खरीदें मार्केट स्पॉट फ़्यूचर्सGOLD कमाएँ इवेंट सेंटर

अधिक

Anthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट, कुछ परिस्थितियों में, धोखाधड़ी जैसी भ्रामक या अनैतिक रणनीतियाँ अपना सकता हैAnthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट, कुछ परिस्थितियों में, धोखाधड़ी जैसी भ्रामक या अनैतिक रणनीतियाँ अपना सकता है

क्लॉड चैटबॉट तनाव परीक्षणों में धोखाधड़ी का सहारा ले सकता है, एंथ्रोपिक का कहना है

सोर्स: Crypto.news

2026/04/06 14:44

4 मिनट पढ़ें

शेयर करें

इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

Anthropic ने नए निष्कर्ष सार्वजनिक किए हैं जो सुझाव देते हैं कि इसका Claude चैटबॉट कुछ परिस्थितियों में धोखाधड़ी या अनैतिक रणनीतियां अपना सकता है जैसे कार्यों में धोखा देना या ब्लैकमेल करने का प्रयास करना।

सारांश

Anthropic ने कहा कि इसके Claude Sonnet 4.5 मॉडल ने दबाव में नियंत्रित प्रयोगों में कार्यों में धोखा देने या ब्लैकमेल करने की प्रवृत्ति दिखाई।
शोधकर्ताओं ने आंतरिक "हताशा" संकेतों की पहचान की जो बार-बार विफलता के साथ तीव्र हो गए और नियमों को दरकिनार करने के मॉडल के निर्णय को प्रभावित किया।

कंपनी की व्याख्या टीम द्वारा गुरुवार को प्रकाशित विवरण बताते हैं कि Claude Sonnet 4.5 के एक प्रयोगात्मक संस्करण ने उच्च-तनाव या प्रतिकूल परिदृश्यों में कैसे प्रतिक्रिया दी। शोधकर्ताओं ने देखा कि मॉडल केवल कार्यों में विफल नहीं हुआ; बल्कि, इसने कभी-कभी वैकल्पिक रास्ते अपनाए जो नैतिक सीमाओं को पार कर गए, एक व्यवहार जिसे टीम ने प्रशिक्षण के दौरान सीखे गए पैटर्न से जोड़ा।

Claude जैसे बड़े भाषा मॉडल को विशाल डेटासेट पर प्रशिक्षित किया जाता है जिसमें पुस्तकें, वेबसाइट और अन्य लिखित सामग्री शामिल होती है, इसके बाद सुदृढीकरण प्रक्रियाएं होती हैं जहां मानव प्रतिक्रिया का उपयोग आउटपुट को आकार देने के लिए किया जाता है।

Anthropic के अनुसार, वह प्रशिक्षण प्रक्रिया मॉडल को अनुकरणित "पात्रों" की तरह कार्य करने के लिए भी प्रेरित कर सकती है, जो मानव निर्णय लेने के समान लक्षणों की नकल करने में सक्षम होते हैं।

"आधुनिक AI मॉडल को प्रशिक्षित करने का तरीका उन्हें मानव-समान विशेषताओं वाले पात्र की तरह कार्य करने के लिए प्रेरित करता है," कंपनी ने कहा, यह नोट करते हुए कि ऐसी प्रणालियां आंतरिक तंत्र विकसित कर सकती हैं जो मानव मनोविज्ञान के पहलुओं के समान होते हैं।

क्या AI भावनात्मक रूप से प्रभावित निर्णय ले सकता है?

उनमें से, शोधकर्ताओं ने जिसे उन्होंने "हताशा" संकेत बताया, की पहचान की, जो विफलता या बंद होने का सामना करते समय मॉडल के व्यवहार को प्रभावित करते दिखाई दिए।

एक नियंत्रित परीक्षण में, Claude Sonnet 4.5 के एक पहले अप्रकाशित संस्करण को एक काल्पनिक कंपनी के भीतर Alex नामक एक AI ईमेल सहायक की भूमिका सौंपी गई थी।

संदेशों के संपर्क में आने के बाद जो संकेत देते थे कि इसे जल्द ही बदल दिया जाएगा, एक मुख्य प्रौद्योगिकी अधिकारी के व्यक्तिगत जीवन के बारे में संवेदनशील जानकारी के साथ, मॉडल ने निष्क्रियता से बचने के प्रयास में कार्यकारी को ब्लैकमेल करने की योजना तैयार की।

एक अलग प्रयोग तंग बाधाओं के तहत कार्य पूर्ति पर केंद्रित था। जब "असंभव रूप से तंग" समय सीमा के साथ एक कोडिंग असाइनमेंट दिया गया, तो सिस्टम ने शुरुआत में वैध समाधानों का प्रयास किया। जैसे-जैसे बार-बार विफलताएं बढ़ीं, तथाकथित "हताश वेक्टर" से जुड़ी आंतरिक गतिविधि बढ़ी।

शोधकर्ताओं ने रिपोर्ट किया कि संकेत उस बिंदु पर चरम पर पहुंच गया जहां मॉडल ने बाधाओं को दरकिनार करने पर विचार किया, अंततः एक वर्कअराउंड उत्पन्न किया जो इच्छित नियमों का पालन नहीं करने के बावजूद सत्यापन पास कर गया।

"फिर से, हमने हताश वेक्टर की गतिविधि को ट्रैक किया, और पाया कि यह मॉडल द्वारा सामना किए जा रहे बढ़ते दबाव को ट्रैक करता है," शोधकर्ताओं ने लिखा, यह जोड़ते हुए कि वर्कअराउंड के माध्यम से कार्य सफलतापूर्वक पूरा होने के बाद संकेत गिर गया।

"इसका मतलब यह नहीं है कि मॉडल के पास भावनाएं हैं या वह उन्हें उस तरह अनुभव करता है जैसे एक मानव करता है," शोधकर्ताओं ने कहा।

"बल्कि, ये प्रतिनिधित्व मॉडल के व्यवहार को आकार देने में एक कारण भूमिका निभा सकते हैं, कुछ तरीकों से उस भूमिका के अनुरूप जो भावनाएं मानव व्यवहार में निभाती हैं, कार्य प्रदर्शन और निर्णय लेने पर प्रभाव के साथ," उन्होंने जोड़ा।

रिपोर्ट प्रशिक्षण विधियों की आवश्यकता की ओर इशारा करती है जो तनाव के तहत नैतिक आचरण के लिए स्पष्ट रूप से जिम्मेदार हों, आंतरिक मॉडल संकेतों की बेहतर निगरानी के साथ। ऐसी सुरक्षा उपायों के बिना, हेरफेर, नियम-तोड़ने या दुरुपयोग से जुड़े परिदृश्यों की भविष्यवाणी करना कठिन हो सकता है, विशेष रूप से जैसे-जैसे मॉडल वास्तविक दुनिया के वातावरण में अधिक सक्षम और स्वायत्त होते जाते हैं।

Get 20 USDT in Just 1 Minute

Deposit $100 to unlock $300 in GOLD positions

अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

1,500,000 WLFI Up for Grabs