वित्त के सबसे रूढ़िवादी पहलुओं में से एक, किसी को ऋण देने का निर्णय, AI-संचालित क्रेडिट स्कोरिंग द्वारा बदला जा रहा है। जिन व्यक्तियों का क्रेडिट इतिहास समृद्ध है और जो लंबे समय से बैंकों के साथ हैं, उनके लिए यह एक क्रमिक परिवर्तन है। हालांकि, थिन-फ़ाइल उधारकर्ताओं और अनौपचारिक अर्थव्यवस्था में शामिल लोगों के लिए यह जीवन बदलने वाला हो सकता है। वे आखिरकार सिस्टम के लिए अदृश्य होने के बजाय पहचाने जा सकते हैं। यह लेख पारंपरिक क्रेडिट रिकॉर्ड की कमी वाले व्यक्तियों और छोटे व्यवसायों के लिए AI-आधारित क्रेडिट स्कोर बनाने के लिए वैकल्पिक डेटा के अनुप्रयोग, ब्यूरो डेटा अनुपलब्ध होने पर अनुचितता और पूर्वाग्रह के जोखिम, और अंडरबैंक्ड आबादी के अंडरराइटिंग में व्याख्यात्मक AI बनाने के नियामक प्रयास पर चर्चा करता है।
पारंपरिक क्रेडिट रेटिंग किसी प्रकार के वित्तीय अस्तित्व को मानती हैं। वे मान लेती हैं कि किसी व्यक्ति के पास बैंक खाता है, औपचारिक वित्तीय उत्पाद हैं, और उसने पहले ऋण लिया है या क्रेडिट कार्ड का उपयोग किया है। वे मान लेती हैं कि नियोक्ता औपचारिक तरीके से पेरोल संचालित करते हैं और व्यापारी अर्थव्यवस्था के दृश्य भाग में काम करते हैं — प्रलेखित भाग। व्यावहारिक रूप से, दुनिया का एक विशाल अनुपात ऐसा नहीं है। युवा वयस्कों के पास अक्सर कोई ऋण या कार्ड नहीं होते हैं। प्रवासियों के पास अपने मूल देशों में अच्छी क्रेडिट पृष्ठभूमि हो सकती है और अपने नए देशों में कुछ भी नहीं। उनके अधिकांश लेनदेन नकद में या डिजिटल प्लेटफॉर्म पर किए जाते हैं जो ब्यूरो को रिपोर्ट नहीं करते: गिग वर्कर्स, सड़क विक्रेता, अनौपचारिक दुकानदार, और बड़ी संख्या में सूक्ष्म-उद्यमी। जहां ब्यूरो हैं, वहां भी उनका कवरेज सतही या शहरी, औपचारिक रूप से नियोजित आबादी की ओर पक्षपाती हो सकता है। ऐसे आवेदकों की ब्यूरो फ़ाइल ऋणदाताओं को खाली या लगभग खाली दिखाई देती है। चूंकि जोखिम टीमों को ब्यूरो डेटा पर भरोसा करने के लिए प्रशिक्षित किया जाता है, वे सावधानी के पक्ष में गलतियां करते हैं। परिणाम अनुमानित है: बढ़ी हुई अस्वीकृति, संकुचित सीमाएं, बढ़ी हुई कीमतें, या पूर्ण बहिष्कार।
ये उधारकर्ता जरूरी नहीं कि अधिक जोखिम भरे हों; यह सिर्फ इतना है कि सिस्टम उन संकेतों के प्रति बहरा और अंधा है जो वास्तव में उनके वित्तीय जीवन को चिह्नित करते हैं। यहां क्रेडिट स्कोरिंग में AI के अनुप्रयोग की मूल अवधारणा सीधी है। जहां ब्यूरो आंकड़ों की कमी है या बहुत विरल हैं, वहां अन्यत्र खोजें। आधुनिक जीवन में असंख्य डिजिटल पदचिह्न हैं। जब ऐसे पदचिह्नों को सहमति के साथ जिम्मेदार तरीके से एकत्र किया जाता है और अधिक संगठित संकेतों में परिवर्तित किया जाता है, तो वे किसी व्यक्ति की स्थिरता, उनकी कमाई की क्षमता और उनके चुकाने की संभावना के बारे में बहुत कुछ बता सकते हैं। पहले और सबसे मूल्यवान स्रोतों में से एक अक्सर टेलीकॉम डेटा होता है। मोबाइल ऑपरेटर समझते हैं कि कोई नियमित रूप से प्रीपेड बैलेंस कैसे भरता है, क्या वे वर्षों तक एक ही नंबर का उपयोग करते हैं या बार-बार बदलते हैं, क्या वे अपनी गतिविधि में स्थिर हैं या अनियमित, और क्या वे समान आकार के डेटा पैक प्राप्त करते हैं। एक व्यक्ति जो समय के साथ एक नंबर रखता है, नंबर को रीलोड करता है, और उपयोग के सुसंगत पैटर्न प्रदर्शित करता है, आमतौर पर किसी समुदाय के भीतर अधिक गहराई से जुड़ा होता है और किसी ऐसे व्यक्ति की तुलना में उनके व्यवहार में अधिक सुसंगत होता है जो उपयोग में गिरावट या उतार-चढ़ाव दिखाता है। स्थिरता होने से कम क्रेडिट जोखिम से जुड़ी होती है।
शक्ति का एक अन्य स्रोत ई-कॉमर्स और डिजिटल प्लेटफॉर्म से डेटा है। राइड-हेलिंग ड्राइवर की ब्यूरो फ़ाइल में बहुत कम हो सकता है, लेकिन एक प्लेटफॉर्म यात्राओं की संख्या, प्रति सप्ताह आय, रद्दीकरण डेटा, ग्राहक समीक्षा और ड्राइवर की अवधि तक पहुंच सकता है। बाज़ार में विक्रेता के रूप में एक सूक्ष्म-व्यापारी पूर्ण किए गए आदेशों, किए गए रिफंड, उठाई गई शिकायतों, स्टॉक-आउट और विकास पैटर्न का इतिहास छोड़ता है। अनौपचारिक व्यवसायों के मामले में, प्लेटफॉर्म डेटा का उपयोग आधिकारिक वित्तीय विवरणों के निकटतम समतुल्य के रूप में किया जा सकता है। इसके बाद, बैंक खाता, डिजिटल वॉलेट और ओपन बैंकिंग API नकदी-प्रवाह डेटा है। हालांकि एक उधारकर्ता के पास लंबा क्रेडिट इतिहास नहीं हो सकता है, लेकिन उसके पास आमतौर पर एक खाता होता है जहां वेतन, गिग आय, प्रेषण या व्यावसायिक राजस्व जमा किया जाता है। समय-आधारित अंतर्वाह और बहिर्वाह के विश्लेषण के माध्यम से, ऋणदाता सामान्य आय, इसकी परिवर्तनशीलता, क्या इसमें बफर हैं या नहीं, और आय का कितना हिस्सा पहले से ही किराए, उपयोगिताओं और मौजूदा ऋणों जैसे आवर्ती खर्चों के लिए आवंटित किया गया है, का अनुमान लगा सकते हैं। अंडरबैंक्ड उधारकर्ता के मामले में, नकदी-प्रवाह अंडरराइटिंग अक्सर पारंपरिक स्कोरकार्ड की तुलना में अधिक विश्वसनीय होती है, जो पिछले ऋणों पर बहुत अधिक निर्भर करता है। पेरोल और रोजगार API द्वारा एक और परत प्रदान की जाती है।
उन स्थितियों में जहां नियोक्ता पेरोल सेवाओं से जुड़े हुए हैं, ऋणदाता रोजगार, मासिक कमाई, रोजगार की अवधि और मुआवजे में परिवर्तन की पुष्टि कर सकते हैं। कई अंशकालिक नौकरियों वाले लोगों के लिए, यह समग्र छवि एक पे स्लिप की तुलना में बहुत अधिक जानकारीपूर्ण होगी। अंत में, उचित उपयोग के साथ, व्यवहारिक और डिवाइस-स्तरीय डेटा का उपयोग धोखाधड़ी और जोखिम अनुमान दोनों में सहायता के लिए किया जा सकता है। एक व्यक्ति कितने समय से एक ही डिवाइस का उपयोग कर रहा है, उनके लॉगिन स्थानों की नियमितता, महीनों में वे ऐप का उपयोग कैसे करते हैं, साथ ही दिन का वह समय जब वे आमतौर पर लेनदेन करते हैं, वास्तविकता और स्थिरता के संकेतक प्रदान कर सकते हैं। इन संकेतों को सावधानी से संभाला जाना चाहिए ताकि प्रॉक्सी भेदभाव को रोका जा सके, हालांकि वे उपयोगी समर्थन हो सकते हैं। ये सभी स्रोत इस तथ्य से जुड़े हुए हैं कि वे किसी व्यक्ति के वास्तविक जीवन के बारे में बताते हैं और वह कैसे जीता है, कैसे कमाता है और भुगतान करता है, भले ही यह स्पष्ट हो कि उसने अपने जीवन में कभी क्रेडिट कार्ड पर अपनी उंगली नहीं रखी है।
\
डेटा के ये अन्य स्रोत घनी आबादी वाले और असंरचित हैं। टेलीकॉम लॉग, प्लेटफॉर्म इवेंट, बैंक लेनदेन और डिवाइस टेलीमेट्री की संरचना पारंपरिक ब्यूरो रिपोर्ट की तरह नहीं है। वे शोरगुल वाले, आयामी और विशिष्टता के पैटर्न से भरे हुए हैं। इस बिंदु पर, AI, विशेष रूप से आधुनिक मशीन लर्निंग, आवश्यक है। सामान्य जीवनचक्र डेटा के एकत्रीकरण से शुरू होता है। ऋणदाताओं के पास टेलीकॉम साझेदारों, ओपन बैंकिंग फीड, पेरोल API, और प्लेटफॉर्म साझेदारों तक पहुंच होती है, बशर्ते डेटा सुरक्षा कानूनों और ग्राहकों की प्रत्यक्ष सहमति के साथ।
वे कच्चे डेटा को सुरक्षित वातावरण में अवशोषित करते हैं और इसे सामान्य करते हैं। फोन रीचार्ज गतिविधियां, वॉलेट क्रेडिट और ई-कॉमर्स आदेशों को समय श्रृंखला में परिवर्तित किया जाता है जिनमें नियमित प्रारूप होते हैं। अनावश्यक विसंगतियों और डुप्लिकेट को समाप्त किया जाता है और लापता मानों को संसाधित किया जाता है। इससे, डेटा वैज्ञानिकों द्वारा विशेषताओं का निर्माण किया जाता है। वे केवल सभी कच्चे लेनदेन को मॉडल में डालने के बजाय सारांश चर बनाते हैं: औसत मासिक शुद्ध नकदी प्रवाह; महीनों का हिस्सा जहां बचत सकारात्मक है; लेनदारों को कोई भुगतान न करने की सबसे लंबी लगातार अवधि; कम-कमाई के महीने; प्लेटफॉर्म कमाई की वृद्धि या क्षय; काम के घंटों की परिवर्तनशीलता; सप्ताह-दर-सप्ताह स्थान की स्थिरता।
ये विशेषताएं किसी व्यक्ति के आर्थिक जीवन को ऐसी संख्याओं में निचोड़ने की कोशिश कर रही हैं जिन्हें मॉडल द्वारा पचाया जा सकता है। ग्रेडिएंट बूस्टिंग ट्री, रैंडम फॉरेस्ट और न्यूरल नेटवर्क फिर मशीन लर्निंग एल्गोरिदम हैं जिन्हें ऐतिहासिक डेटा पर प्रशिक्षित किया जाता है जहां परिणाम पहले से ही ज्ञात है। क्रेडिट स्कोरिंग के मामले में, परिणाम आमतौर पर एक निर्दिष्ट समय अवधि, जैसे छह या बारह महीनों में उधारकर्ता द्वारा डिफ़ॉल्ट होता है। मॉडल विशेषताओं के संयोजनों को जानता है जो अधिक या कम जोखिम का संकेत देते हैं। मानव अंडरराइटरों के बीच पाए गए पैटर्न की मानव विवेक द्वारा पहचान नहीं की गई होगी, जैसे नकदी-प्रवाह की अस्थिरता और प्लेटफॉर्म कार्यकाल के बीच मामूली इंटरैक्शन। सत्यापन महत्वपूर्ण है। मॉडल को उस डेटा पर लागू किया जाता है जिस पर इसे प्रशिक्षित नहीं किया गया था ताकि इसका प्रदर्शन वास्तविक हो और ओवरफिटिंग का परिणाम न हो।
AUC, गिनी गुणांक और कोलमोगोरोव-स्मिर्नोव आंकड़ों जैसे उपायों का उपयोग भेदभाव की शक्ति को मापने के लिए किया जाता है, जबकि कैलिब्रेशन प्लॉट यह दर्शाते हैं कि क्या पूर्वानुमानित संभावनाएं वास्तविक डिफ़ॉल्ट दरों के समान हैं। हेडलाइन आंकड़ों के अलावा, ऋणदाताओं को खंड के आधार पर प्रदर्शन को देखने की आवश्यकता है: नए-से-क्रेडिट बनाम अनुभवी उधारकर्ता, विभिन्न व्यवसाय, क्षेत्र और आय बैंड। तैनाती के बाद, मॉडल फिर नए आवेदकों को तुरंत रेट करेगा, और कुछ सेकंड के भीतर एक प्रतिक्रिया प्रदान की जाएगी। प्रक्रिया वहां समाप्त नहीं हो सकती। आंकड़े समय के साथ बदलते हैं, प्लेटफॉर्म अपनी नीतियों को विकसित करते हैं, और मैक्रोइकॉनॉमिक्स विकसित होता है।
\
:::tip यह कहानी सान्या कपूर द्वारा HackerNoon's Business Blogging Program के तहत एक रिलीज़ के रूप में वितरित की गई थी।
:::
\


