क्रिप्टो खरीदें मार्केट स्पॉट फ़्यूचर्सGOLD कमाएँ इवेंट सेंटर

अधिक

लाखों SKU के लिए AI-संचालित विशेषता सॉर्टिंग पाइपलाइन बनाने पर पर्दे के पीछे की एक झलक।लाखों SKU के लिए AI-संचालित विशेषता सॉर्टिंग पाइपलाइन बनाने पर पर्दे के पीछे की एक झलक।

मैंने ई-कॉमर्स में बड़े पैमाने पर असंगत विशेषता मानों को ठीक करने के लिए AI का उपयोग कैसे किया

लेखक: Hackernoon

सोर्स: Hackernoon

2025/12/25 12:53

8 मिनट पढ़ें

शेयर करें

AI$0.01964-5.84%

LOOK$0.0039-6.92%

इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

जब लोग ई-कॉमर्स के स्केलिंग के बारे में बात करते हैं, तो वे बड़ी इंजीनियरिंग चुनौतियों पर ध्यान केंद्रित करते हैं: डिस्ट्रिब्यूटेड सर्च, रियल-टाइम इन्वेंटरी, रिकमेंडेशन इंजन और चेकआउट ऑप्टिमाइज़ेशन। लेकिन इन सबके नीचे एक शांत, अधिक स्थायी समस्या है जिससे लगभग हर रिटेलर जूझता है: एट्रिब्यूट वैल्यू।

एट्रिब्यूट प्रोडक्ट डिस्कवरी की रीढ़ हैं। वे फ़िल्टर, तुलना, सर्च रैंकिंग और रिकमेंडेशन लॉजिक को पावर देते हैं। लेकिन वास्तविक कैटलॉग में, एट्रिब्यूट वैल्यू शायद ही कभी साफ होती हैं। वे असंगत, डुप्लिकेट, गलत फ़ॉर्मेट या शब्दार्थ रूप से अस्पष्ट होती हैं।

Size जैसी सरल चीज़ को लें। आप देख सकते हैं:

Code

["XL", "Small", "12cm", "Large", "M", "S"]

या Colour:

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

व्यक्तिगत रूप से, ये असंगतताएं हानिरहित दिखती हैं। लेकिन उन्हें 30 लाख से अधिक SKU में गुणा करें, जिनमें से प्रत्येक में दर्जनों एट्रिब्यूट हैं, और समस्या व्यवस्थित हो जाती है। फ़िल्टर अप्रत्याशित रूप से व्यवहार करते हैं, सर्च इंजन प्रासंगिकता खो देते हैं, मर्चेंडाइज़र मैनुअल क्लीनअप में डूब जाते हैं, और ग्राहकों के लिए प्रोडक्ट डिस्कवरी धीमी और अधिक निराशाजनक हो जाती है।

यह वह चुनौती थी जिसका मैंने Zoro में एक फुल-स्टैक सॉफ़्टवेयर इंजीनियर के रूप में सामना किया, एक समस्या जिसे अनदेखा करना आसान था लेकिन हर प्रोडक्ट पेज को प्रभावित करती थी।

मेरा दृष्टिकोण: हाइब्रिड AI डिटर्मिनिज्म से मिलता है

मैं एक रहस्यमय ब्लैक बॉक्स AI नहीं चाहता था जो केवल चीजों को सॉर्ट करे। ऐसी प्रणालियों पर भरोसा करना, डीबग करना या स्केल करना कठिन होता है। इसके बजाय, मेरा लक्ष्य एक पाइपलाइन थी जो:

व्याख्या योग्य हो
अनुमानित हो
स्केलेबल हो
मनुष्यों द्वारा नियंत्रणीय हो

परिणाम एक हाइब्रिड AI पाइपलाइन था जो LLM से संदर्भात्मक तर्क को स्पष्ट नियमों और मर्चेंडाइज़र नियंत्रण के साथ जोड़ती है। यह जरूरत पड़ने पर स्मार्ट तरीके से काम करती है, लेकिन हमेशा अनुमानित रहती है। यह गार्डरेल के साथ AI है, नियंत्रण से बाहर AI नहीं।

बैकग्राउंड जॉब्स: थ्रूपुट के लिए निर्मित

सभी एट्रिब्यूट प्रोसेसिंग ऑफ़लाइन बैकग्राउंड जॉब्स में होती है, रियल टाइम में नहीं। यह कोई समझौता नहीं था; यह एक रणनीतिक आर्किटेक्चरल विकल्प था।

रियल-टाइम पाइपलाइन आकर्षक लगती हैं, लेकिन ई-कॉमर्स स्केल पर, वे पेश करती हैं:

अप्रत्याशित लेटेंसी
नाजुक निर्भरताएं
महंगे कंप्यूट स्पाइक्स
ऑपरेशनल नाजुकता

दूसरी ओर, ऑफ़लाइन जॉब्स ने हमें दिया:

हाई थ्रूपुट: लाइव सिस्टम को प्रभावित किए बिना विशाल बैचेज़ प्रोसेस किए गए
रेसिलिएंस: विफलताओं ने कभी भी ग्राहक ट्रैफ़िक को प्रभावित नहीं किया
कॉस्ट कंट्रोल: कंप्यूट को कम-ट्रैफ़िक समय के दौरान शेड्यूल किया जा सकता था
आइसोलेशन: LLM लेटेंसी ने कभी भी प्रोडक्ट पेजों को प्रभावित नहीं किया
कंसिस्टेंसी: अपडेट एटॉमिक और अनुमानित थे

लाखों SKU के साथ काम करते समय ग्राहक-सामना करने वाले सिस्टम को डेटा-प्रोसेसिंग पाइपलाइन से अलग रखना आवश्यक है।

क्लीनिंग और नॉर्मलाइज़ेशन

डेटा पर AI का उपयोग करने से पहले, मैंने शोर और भ्रम को दूर करने के लिए एक स्पष्ट प्रीप्रोसेसिंग स्टेप चलाया। यह स्टेप सरल लग सकता है, लेकिन इसने LLM के तर्क में बहुत सुधार किया।

क्लीनिंग पाइपलाइन में शामिल था:

व्हाइटस्पेस ट्रिम करना
खाली वैल्यू हटाना
वैल्यू को डीडुप्लिकेट करना
कैटेगरी ब्रेडक्रम्ब को संदर्भात्मक स्ट्रिंग में फ्लैट करना

इसने सुनिश्चित किया कि LLM को साफ, स्पष्ट इनपुट मिले, जो सुसंगत परिणामों की कुंजी है। गारबेज इन, गारबेज आउट। इस स्केल पर, छोटी त्रुटियां भी बाद में बड़ी समस्याओं का कारण बन सकती हैं।

संदर्भ के साथ LLM सर्विस

LLM केवल वैल्यू को वर्णानुक्रम में सॉर्ट नहीं कर रहा था। यह उनके बारे में तर्क कर रहा था।

सर्विस ने प्राप्त किया:

क्लीन किए गए एट्रिब्यूट वैल्यू
कैटेगरी ब्रेडक्रम्ब
एट्रिब्यूट मेटाडेटा

इस संदर्भ के साथ, मॉडल समझ सकता था:

कि Power Tools में "Voltage" संख्यात्मक है
कि Clothing में "Size" एक ज्ञात प्रगति का पालन करता है
कि Paints में "Colour" RAL मानकों का पालन कर सकता है
कि Hardware में "Material" में शब्दार्थ संबंध हैं

मॉडल ने लौटाया:

ऑर्डर की गई वैल्यू
परिष्कृत एट्रिब्यूट नाम
एक निर्णय: डिटर्मिनिस्टिक या संदर्भात्मक ऑर्डरिंग

यह पाइपलाइन को हर कैटेगरी के लिए नियमों को हार्डकोड किए बिना विभिन्न एट्रिब्यूट प्रकारों को संभालने देता है।

डिटर्मिनिस्टिक फॉलबैक

हर एट्रिब्यूट को AI की आवश्यकता नहीं है।

वास्तव में, कई एट्रिब्यूट डिटर्मिनिस्टिक लॉजिक द्वारा बेहतर तरीके से संभाले जाते हैं।

संख्यात्मक रेंज, यूनिट-आधारित वैल्यू और सरल सेट अक्सर लाभ उठाते हैं:

तेज़ प्रोसेसिंग
अनुमानित ऑर्डरिंग
कम लागत
शून्य अस्पष्टता

पाइपलाइन ने स्वचालित रूप से इन मामलों का पता लगाया और उनके लिए डिटर्मिनिस्टिक लॉजिक का उपयोग किया। इसने सिस्टम को कुशल रखा और अनावश्यक LLM कॉल से बचा।

मैनुअल बनाम LLM टैगिंग

मर्चेंडाइज़र को अभी भी नियंत्रण की आवश्यकता थी, विशेष रूप से व्यवसाय-संवेदनशील एट्रिब्यूट के लिए।

तो प्रत्येक कैटेगरी को टैग किया जा सकता था:

LLM_SORT — मॉडल को तय करने दें
MANUAL_SORT — मर्चेंडाइज़र ऑर्डर परिभाषित करते हैं

यह दोहरी-टैग प्रणाली लोगों को अंतिम निर्णय लेने देती है जबकि AI ने अधिकांश काम किया। इसने विश्वास भी बनाया, क्योंकि मर्चेंडाइज़र पाइपलाइन को तोड़े बिना आवश्यकता पड़ने पर मॉडल को ओवरराइड कर सकते थे।

पर्सिस्टेंस और कंट्रोल

सभी परिणाम सीधे प्रोडक्ट MongoDB डेटाबेस में स्टोर किए गए, जिससे आर्किटेक्चर सरल और केंद्रीकृत रहा।

MongoDB निम्न के लिए एकल ऑपरेशनल स्टोर बन गया:

सॉर्ट की गई एट्रिब्यूट वैल्यू
परिष्कृत एट्रिब्यूट नाम
कैटेगरी-लेवल सॉर्ट टैग
प्रोडक्ट-लेवल sortOrder फील्ड

इससे परिवर्तनों की समीक्षा करना, वैल्यू को ओवरराइड करना, कैटेगरी को रीप्रोसेस करना और अन्य सिस्टम के साथ सिंक करना आसान हो गया।

सर्च इंटीग्रेशन

एक बार सॉर्ट होने के बाद, वैल्यू निम्न में प्रवाहित हुईं:

कीवर्ड-संचालित सर्च के लिए Elasticsearch
सिमेंटिक और वेक्टर-आधारित सर्च के लिए Vespa

इसने सुनिश्चित किया कि:

फ़िल्टर तार्किक क्रम में दिखाई दिए
प्रोडक्ट पेज ने सुसंगत एट्रिब्यूट प्रदर्शित किए
सर्च इंजन ने उत्पादों को अधिक सटीक रूप से रैंक किया
ग्राहक कैटेगरी को अधिक आसानी से ब्राउज़ कर सके

सर्च वह जगह है जहां एट्रिब्यूट सॉर्टिंग सबसे अधिक दिखाई देती है, और जहां स्थिरता सबसे अधिक मायने रखती है।

आर्किटेक्चर अवलोकन

लाखों SKU में इसे काम करने के लिए, मैंने बैकग्राउंड जॉब्स, AI रीज़निंग और सर्च इंटीग्रेशन के आसपास निर्मित एक मॉड्यूलर पाइपलाइन डिज़ाइन की। नीचे दिया गया आर्किटेक्चर आरेख पूर्ण प्रवाह को कैप्चर करता है:

प्रोडक्ट डेटा प्रोडक्ट इनफॉर्मेशन सिस्टम से प्रवेश करता है
एट्रिब्यूट एक्सट्रैक्शन जॉब एट्रिब्यूट वैल्यू और कैटेगरी संदर्भ खींचता है
इन्हें AI सॉर्टिंग सर्विस को पास किया जाता है
अपडेट किए गए प्रोडक्ट दस्तावेज़ प्रोडक्ट MongoDB में लिखे जाते हैं
आउटबाउंड सिंक जॉब सॉर्ट ऑर्डर के साथ प्रोडक्ट इनफॉर्मेशन सिस्टम को अपडेट करता है
Elasticsearch और Vespa सिंक जॉब्स सॉर्ट किए गए डेटा को उनके संबंधित सर्च सिस्टम में पुश करते हैं
API सर्विसेज़ Elasticsearch और Vespa को क्लाइंट एप्लिकेशन से कनेक्ट करती हैं

यह प्रवाह सुनिश्चित करता है कि हर एट्रिब्यूट वैल्यू, चाहे AI द्वारा सॉर्ट की गई हो या मैनुअल रूप से सेट की गई हो, सर्च, मर्चेंडाइजिंग और ग्राहक अनुभव में परिलक्षित होती है।

समाधान व्यवहार में

यहाँ बताया गया है कि गंदी वैल्यू कैसे ट्रांसफॉर्म हुईं:

| Attribute | Raw Values | Ordered Output | |----|----|----| | Size | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Color | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Material | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numeric | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

ये उदाहरण दिखाते हैं कि कैसे पाइपलाइन संदर्भात्मक तर्क को स्पष्ट नियमों के साथ जोड़ती है ताकि साफ, समझने में आसान क्रम बनाए जा सकें।

रियल-टाइम प्रोसेसिंग के बजाय ऑफ़लाइन जॉब्स क्यों?

रियल-टाइम प्रोसेसिंग ने पेश किया होता:

अप्रत्याशित लेटेंसी
अधिक कंप्यूटिंग लागत
नाजुक निर्भरताएं
ऑपरेशनल जटिलता

ऑफ़लाइन जॉब्स ने हमें दिया:

बैच दक्षता
एसिंक्रोनस LLM कॉल
रिट्राय लॉजिक और एरर क्यू
ह्यूमन रिव्यू विंडो
अनुमानित कंप्यूट खर्च

ट्रेड-ऑफ डेटा इन्जेशन और डिस्प्ले के बीच एक छोटी देरी थी, लेकिन लाभ स्केल पर स्थिरता था, जिसे ग्राहक बहुत अधिक महत्व देते हैं।

प्रभाव

परिणाम महत्वपूर्ण थे:

30 लाख+ SKU में सुसंगत एट्रिब्यूट ऑर्डरिंग
डिटर्मिनिस्टिक फॉलबैक के माध्यम से अनुमानित संख्यात्मक सॉर्टिंग
मैनुअल टैगिंग के माध्यम से मर्चेंडाइज़र नियंत्रण
साफ प्रोडक्ट पेज और अधिक सहज फ़िल्टर
बेहतर सर्च प्रासंगिकता
उच्च ग्राहक विश्वास और रूपांतरण

यह केवल एक तकनीकी जीत नहीं थी; यह यूजर एक्सपीरियंस और राजस्व के लिए भी एक जीत थी।

सीखे गए सबक

हाइब्रिड पाइपलाइन स्केल पर शुद्ध AI से बेहतर प्रदर्शन करती हैं। गार्डरेल महत्वपूर्ण हैं।
संदर्भ नाटकीय रूप से LLM सटीकता में सुधार करता है
ऑफ़लाइन जॉब्स थ्रूपुट और रेसिलिएंस के लिए आवश्यक हैं
ह्यूमन ओवरराइड मैकेनिज्म विश्वास और अपनाने का निर्माण करते हैं
क्लीन इनपुट विश्वसनीय AI आउटपुट की नींव है

अंतिम विचार

एट्रिब्यूट वैल्यू को सॉर्ट करना सरल लगता है, लेकिन जब आपको लाखों उत्पादों के लिए ऐसा करना पड़े तो यह एक वास्तविक चुनौती बन जाती है।

LLM इंटेलिजेंस को स्पष्ट नियमों और मर्चेंडाइज़र नियंत्रण के साथ जोड़कर, मैंने एक जटिल, छिपी हुई समस्या को एक साफ, स्केलेबल सिस्टम में बदल दिया।

यह एक अनुस्मारक है कि कुछ सबसे बड़ी जीतें उबाऊ समस्याओं को हल करने से आती हैं, वे जिन्हें चूकना आसान है लेकिन हर प्रोडक्ट पेज पर दिखाई देती हैं।

\n \n \n

अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.