ओलुवापेलुमी बैंकोल द्वारा, शोधकर्ता, सूचना प्रणाली और साइबर सुरक्षा, नेवादा विश्वविद्यालय, लास वेगास
हर सुबह, लाखों अमेरिकी कनेक्टेड उपकरणों से भरे घरों में जागते हैं। थर्मोस्टेट जानता है कि आप कब जाते हैं। डोरबेल कैमरा आपकी गली को देखता है। सड़क के नीचे अस्पताल इन्फ्यूजन पंप, रोगी मॉनिटर और HVAC सिस्टम चलाता है जो आपके स्मार्ट रेफ्रिजरेटर की तरह ही नेटवर्क श्रेणी पर संचार करते हैं। और इनमें से लगभग कोई भी उपकरण पर्याप्त रूप से सुरक्षित नहीं है।

हमने कनेक्टेड मशीनों का एक असाधारण बुनियादी ढांचा बनाया है, और हम इसे एक अलग युग के लिए डिज़ाइन किए गए उपकरणों से बचा रहे हैं।
यह जागरूकता की समस्या नहीं है। साइबर सुरक्षा एक शीर्ष संघीय प्राथमिकता है। साइबर सुरक्षा और बुनियादी ढांचा सुरक्षा एजेंसी (CISA) साप्ताहिक सलाह प्रकाशित करती है। अरबों डॉलर एंटरप्राइज फायरवॉल, एंडपॉइंट सुरक्षा और सुरक्षा संचालन केंद्रों में प्रवाहित होते हैं। और फिर भी, हमले की सतह बढ़ती रहती है। 2024 तक, अकेले अमेरिकी पावर ग्रिड में 2.3 मिलियन से अधिक कनेक्टेड IoT उपकरण हैं, जिनमें से कई पुराने फर्मवेयर पर चल रहे हैं जिनमें कोई पैचिंग शेड्यूल नहीं है और कोई निगरानी नहीं है।
अंतर हम क्या जानते हैं और हम क्या डरते हैं के बीच नहीं है। अंतर हमारे द्वारा बनाई गई सुरक्षा प्रणालियों और उन वातावरणों के बीच है जिनमें उन प्रणालियों को वास्तव में संचालित करने की आवश्यकता है।
प्रयोगशाला वास्तविक दुनिया जैसी बिल्कुल नहीं दिखती
घुसपैठ का पता लगाने की प्रणालियां, नेटवर्क पर दुर्भावनापूर्ण गतिविधि को चिह्नित करने के लिए डिज़ाइन किया गया सॉफ़्टवेयर, पिछले दशक में नाटकीय रूप से सुधार हुआ है। मशीन लर्निंग और डीप लर्निंग मॉडल अब शोध सेटिंग्स में उल्लेखनीय सटीकता के साथ हमले के पैटर्न की पहचान कर सकते हैं। प्राकृतिक भाषा प्रसंस्करण से उधार ली गई ट्रांसफार्मर आर्किटेक्चर, अनुक्रमिक ट्रैफ़िक डेटा पर प्रशिक्षित लंबी अल्पकालिक स्मृति नेटवर्क, कई वर्गीकरणकर्ताओं को मिलाकर समूह मॉडल: अकादमिक साहित्य 98 या 99 प्रतिशत सटीकता प्राप्त करने वाली प्रणालियों से भरा है।
वे संख्याएं अक्सर भ्रामक होती हैं।
सटीकता का आंकड़ा आमतौर पर एक प्रयोगशाला डेटासेट से आता है, जो नियंत्रित स्थितियों में एकत्र किया जाता है, अपेक्षाकृत स्वच्छ ट्रैफ़िक वितरण के साथ, और उसी प्रकार के डेटा पर परीक्षण किया जाता है जिस पर मॉडल को प्रशिक्षित किया गया था। वास्तविक IoT नेटवर्क ऐसा नहीं दिखता। वे गंदे, विषम और लगातार बदलते रहते हैं। एक दर्जन निर्माताओं के उपकरण विभिन्न प्रारूपों में डेटा भेजते हैं। जब कोई नया उपकरण स्थापित करता है, दिनचर्या बदलता है, या बस एक सप्ताह के लिए चला जाता है तो ट्रैफ़िक पैटर्न बदल जाते हैं। और महत्वपूर्ण रूप से, वास्तविक हमले सामान्य ट्रैफ़िक के समुद्र में दुर्लभ घटनाएं हैं।
जब एक मॉडल को ऐसे डेटासेट पर प्रशिक्षित किया जाता है जहां हमले रिकॉर्ड का 40 प्रतिशत बनाते हैं, और फिर एक ऐसे नेटवर्क पर तैनात किया जाता है जहां हमले वास्तविक ट्रैफ़िक का 0.1 प्रतिशत होते हैं, तो मॉडल का व्यवहार पूरी तरह से बदल जाता है। इसने कभी नहीं सीखा है कि वास्तविक दुर्लभता कैसी दिखती है। परिणाम एक ऐसी प्रणाली है जो उन खतरों को चूक जाती है जिन्हें पकड़ने के लिए इसे बनाया गया था, जबकि पर्याप्त झूठे अलार्म उत्पन्न करता है जो उन विश्लेषकों को अभिभूत कर देते हैं जिन्हें उनकी समीक्षा करनी होती है।
वर्ग असंतुलन समस्या कोई फुटनोट नहीं है
शोध समुदाय में, प्रशिक्षण डेटा और वास्तविक दुनिया की स्थितियों के बीच बेमेल एक तकनीकी नाम से जाना जाता है: वर्ग असंतुलन। यह अच्छी तरह से समझा जाता है, सक्रिय रूप से अध्ययन किया जाता है, और इन प्रणालियों को तैनात करने वाले संगठनों द्वारा लगातार कम सराहा जाता है।
यहां मुख्य मुद्दा है। एक नेटवर्क घुसपैठ का पता लगाने की प्रणाली को प्रत्येक पैकेट या ट्रैफ़िक प्रवाह को सामान्य या दुर्भावनापूर्ण के रूप में वर्गीकृत करना चाहिए। वास्तविकता में, ट्रैफ़िक का विशाल बहुमत सामान्य है। हमले का ट्रैफ़िक अल्पसंख्यक वर्ग है, कभी-कभी सभी देखी गई घटनाओं के एक प्रतिशत से कम का प्रतिनिधित्व करता है। समग्र सटीकता को अधिकतम करने के लिए अनुकूलित मानक मशीन लर्निंग मॉडल, जल्दी से सीखते हैं कि सबसे अच्छी रणनीति केवल लगभग सब कुछ को सामान्य के रूप में वर्गीकृत करना है। वह रणनीति उत्कृष्ट सटीकता स्कोर उत्पन्न करती है। यह विनाशकारी वास्तविक दुनिया के परिणाम उत्पन्न करती है।
एक प्रणाली जो 80 प्रतिशत हमलों को चूक जाती है क्योंकि इसे बहुमत वर्ग को पसंद करने के लिए प्रशिक्षित किया गया है, वह कोई सुरक्षा प्रणाली नहीं है। यह एक अनुपालन चेकबॉक्स है।
एडाप्टिव SMOTE जैसी तकनीकों में शोध, जो अल्पसंख्यक-वर्ग के हमलों के सिंथेटिक उदाहरण उत्पन्न करता है ताकि मॉडल यह सीख सकें कि दुर्लभ खतरे कैसे दिखते हैं, ने वास्तविक वादा दिखाया है। लेकिन इन दृष्टिकोणों को विचारपूर्वक लागू करने, ऐसे डेटासेट के खिलाफ परीक्षण करने की आवश्यकता है जो वास्तव में तैनाती की स्थितियों को दर्शाते हैं, और सही मेट्रिक्स पर मूल्यांकन करने की आवश्यकता है। रिकॉल, वास्तविक हमलों का प्रतिशत जो सिस्टम वास्तव में पकड़ता है, समग्र सटीकता की तुलना में बहुत अधिक मायने रखता है जब छूटी हुई पहचान के परिणाम अस्पताल में रैंसमवेयर संक्रमण या उपयोगिता की नियंत्रण प्रणाली में गलत डेटा इंजेक्शन होते हैं।
बहु-आयामी समस्या जिसे कोई हल नहीं करना चाहता
एक संबंधित समस्या है जिस पर और भी कम ध्यान दिया जाता है: हम कैसे तय करते हैं कि घुसपैठ का पता लगाने की प्रणाली तैनात करने के लिए पर्याप्त अच्छी है।
अधिकांश मूल्यांकन एक या दो मेट्रिक्स चुनते हैं और उनके लिए अनुकूलित करते हैं। सटीकता सामान्य है। F1 स्कोर शैक्षणिक पत्रों में लोकप्रिय है। लेकिन एक वास्तविक दुनिया IoT तैनाती में कम से कम चार प्रतिस्पर्धी आयामों के बीच एक साथ व्यापार करने की आवश्यकता होती है: पहचान सटीकता, कम्प्यूटेशनल दक्षता, गलत सकारात्मक दर, और नए हमले के प्रकारों के लिए अनुकूलनशीलता।
एक प्रणाली जो ज्ञात हमलों का 99 प्रतिशत पता लगाती है लेकिन IoT उपकरण की तुलना में अधिक प्रसंस्करण शक्ति का उपभोग करती है जिसे वह सुरक्षित कर रही है, वह तैनात करने योग्य प्रणाली नहीं है। एक प्रणाली जो कुशलता से चलती है लेकिन प्रत्येक वास्तविक खतरे के लिए दस झूठे अलार्म उत्पन्न करती है, इतनी गंभीर अलर्ट थकान पैदा करती है कि विश्लेषक जांच करना बंद कर देते हैं। आज की हमले की वर्गीकरण के लिए अनुकूलित एक प्रणाली जो तब अनुकूलित नहीं हो सकती जब विरोधी रणनीति बदलते हैं, एक ज्ञात समाप्ति तिथि वाली प्रणाली है।
एक साझा, बहु-आयामी मूल्यांकन ढांचे की अनुपस्थिति का मतलब है कि घुसपैठ का पता लगाने की प्रणालियों को खरीदने या तैनात करने वाले संगठन सार्थक तुलना नहीं कर सकते। एक विक्रेता उद्योग-अग्रणी पहचान दरों का दावा कर सकता है जबकि चुपचाप एक ऐसे मेट्रिक के लिए अनुकूलित कर सकता है जो डेमो में अच्छा दिखता है और उत्पादन में विफल रहता है।
क्या बदलने की आवश्यकता है
आगे का रास्ता शोधकर्ताओं द्वारा बनाए गए और संचालकों द्वारा वास्तव में तैनात किए गए के बीच की दूरी को कम करने की आवश्यकता है।
पहला, शोध समुदाय को घुसपैठ का पता लगाने की प्रणालियों को यथार्थवादी ट्रैफ़िक वितरण के खिलाफ मूल्यांकन करने की आवश्यकता है, न कि केवल संतुलित बेंचमार्क डेटासेट। डिफ़ॉल्ट कॉन्फ़िगरेशन के साथ CIC-IDS2017 या NSL-KDD के खिलाफ परीक्षण ऐसी संख्याएं उत्पन्न करता है जो अनिवार्य रूप से काल्पनिक होती हैं जब वास्तविक अस्पताल नेटवर्क या स्मार्ट ग्रिड की तुलना में।
दूसरा, इन प्रणालियों को तैनात करने वाले संगठनों को खरीदने से पहले बहु-आयामी प्रदर्शन साक्ष्य की मांग करने की आवश्यकता है। केवल पहचान दर पर्याप्त नहीं है। दुर्लभ हमले की श्रेणियों पर गलत नकारात्मक दरों के लिए पूछें। सीमित कम्प्यूटेशनल बजट के तहत प्रदर्शन डेटा के लिए पूछें। पूछें कि तैनाती के छह महीने बाद प्रणाली कैसे प्रदर्शन करती है, जब ट्रैफ़िक पैटर्न बदल गए हों।
तीसरा, और सबसे अत्यावश्यक, महत्वपूर्ण बुनियादी ढांचे की रक्षा के लिए जिम्मेदार संघीय एजेंसियों को AI-आधारित घुसपैठ का पता लगाने के लिए न्यूनतम मूल्यांकन मानक स्थापित करने की आवश्यकता है। CISA और NIST ने उत्कृष्ट ढांचे तैयार किए हैं। उन ढांचों को IoT सुरक्षा प्रणालियों के लिए विशिष्ट, परीक्षण योग्य प्रदर्शन मानदंडों में अनुवाद करना अगला कदम है।
कनेक्टेड उपकरण कहीं नहीं जा रहे हैं। उन्हें जांचने वाले हमलावर भी कहीं नहीं जा रहे हैं। सवाल यह है कि क्या हम जो प्रणालियां उनकी रक्षा के लिए बनाते हैं, वे वास्तव में उस दुनिया के लिए बनाई गई हैं जिसमें वे प्रणालियां संचालित होंगी, या उस दुनिया के लिए जिसमें हम रहना चाहते थे जब हमने प्रशिक्षण डेटा लिखा था।
ओलुवापेलुमी बैंकोल नेवादा विश्वविद्यालय, लास वेगास में सूचना प्रणाली और साइबर सुरक्षा में एक शोधकर्ता हैं, जहां उनका काम IoT और क्लाउड नेटवर्क के लिए AI-संचालित घुसपैठ का पता लगाने पर केंद्रित है। उनके पास प्रबंधन सूचना प्रणाली और साइबर सुरक्षा में दोहरी मास्टर डिग्री है।







