การมองเบื้องหลังการสร้างไปป์ไลน์การจัดเรียงแอตทริบิวต์ที่ขับเคลื่อนด้วย AI สำหรับ SKU หลายล้านรายการการมองเบื้องหลังการสร้างไปป์ไลน์การจัดเรียงแอตทริบิวต์ที่ขับเคลื่อนด้วย AI สำหรับ SKU หลายล้านรายการ

วิธีที่ฉันใช้ AI แก้ไขค่าแอตทริบิวต์ที่ไม่สอดคล้องกันในวงกว้างในอีคอมเมิร์ซ

2025/12/25 12:53
3 นาทีในการอ่าน
หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ crypto.news@mexc.com

เมื่อผู้คนพูดถึงการขยายขนาดอีคอมเมิร์ซ พวกเขามักจะมุ่งเน้นไปที่ความท้าทายด้านวิศวกรรมขนาดใหญ่: การค้นหาแบบกระจาย สินค้าคงคลังแบบเรียลไทม์ เครื่องมือแนะนำสินค้า และการเพิ่มประสิทธิภาพการชำระเงิน แต่ภายใต้ทั้งหมดนั้น มีปัญหาที่เงียบกว่าและคงอยู่นานกว่าที่ผู้ค้าปลีกเกือบทุกรายต้องดิ้นรนกับมัน: ค่าแอตทริบิวต์

แอตทริบิวต์คือกระดูกสันหลังของการค้นพบสินค้า พวกมันขับเคลื่อนตัวกรอง การเปรียบเทียบ การจัดอันดับการค้นหา และตรรกะการแนะนำ แต่ในแคตตาล็อกจริง ค่าแอตทริบิวต์ไม่ค่อยจะสะอาด มันไม่สอดคล้องกัน ซ้ำกัน จัดรูปแบบผิด หรือมีความหมายคลุมเครือ

ลองดูสิ่งที่เรียบง่ายอย่าง ขนาด คุณอาจเห็น:

Code

["XL", "Small", "12cm", "Large", "M", "S"]

หรือ สี:

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

เมื่อดูแต่ละรายการ ความไม่สอดคล้องเหล่านี้ดูไม่เป็นอันตราย แต่ลองคูณมันข้ามกว่า 3 ล้าน SKU โดยแต่ละรายการมีหลายสิบแอตทริบิวต์ และปัญหาก็กลายเป็นระบบ ตัวกรองทำงานอย่างคาดเดาไม่ได้ เครื่องมือค้นหาสูญเสียความเกี่ยวข้อง นักจัดการสินค้าจมอยู่ในการทำความสะอาดด้วยตนเอง และการค้นพบสินค้าก็ช้าลงและน่าหงุดหงิดยิ่งขึ้นสำหรับลูกค้า

นี่คือความท้าทายที่ผมเผชิญในฐานะวิศวกรซอฟต์แวร์แบบ full-stack ที่ Zoro ปัญหาที่มองข้ามได้ง่ายแต่ส่งผลกระทบต่อทุกหน้าสินค้า

แนวทางของฉัน: AI แบบผสมผสานพบกับหลักการแน่นอน

ผมไม่ต้องการ AI แบบกล่องดำลึกลับที่แค่จัดเรียงสิ่งของ ระบบแบบนั้นยากต่อการเชื่อถือ แก้ไขจุดบกพร่อง หรือขยายขนาด แทนที่จะเป็นเช่นนั้น ผมมุ่งหาไปป์ไลน์ที่:

  • อธิบายได้
  • คาดการณ์ได้
  • ขยายขนาดได้
  • ควบคุมได้โดยมนุษย์

ผลลัพธ์คือไปป์ไลน์ AI แบบผสมผสานที่รวมการให้เหตุผลตามบริบทจาก LLM เข้ากับกฎเกณฑ์ที่ชัดเจนและการควบคุมของนักจัดการสินค้า มันทำงานอย่างฉลาดเมื่อจำเป็น แต่ยังคงคาดการณ์ได้เสมอ นี่คือ AI ที่มีราวกั้น ไม่ใช่ AI ที่ควบคุมไม่ได้

งานเบื้องหลัง: สร้างขึ้นเพื่อความเร็วในการประมวลผล

การประมวลผลแอตทริบิวต์ทั้งหมดเกิดขึ้นในงานเบื้องหลังแบบออฟไลน์ ไม่ใช่แบบเรียลไทม์ นี่ไม่ใช่ข้อประนีประนอม มันเป็นตัวเลือกด้านสถาปัตยกรรมเชิงกลยุทธ์

ไปป์ไลน์แบบเรียลไทม์ฟังดูน่าดึงดูด แต่ที่ระดับอีคอมเมิร์ซ พวกมันนำมาซึ่ง:

  • ความหน่วงที่คาดเดาไม่ได้
  • การพึ่งพาที่เปราะบาง
  • ยอดการคำนวณที่แพง
  • ความเปราะบางในการดำเนินงาน

ในขณะที่งานแบบออฟไลน์ให้เรา:

  • ความเร็วในการประมวลผลสูง: ประมวลผลชุดใหญ่ๆ โดยไม่กระทบต่อระบบสด
  • ความยืดหยุ่น: ความล้มเหลวไม่กระทบต่อการเข้าชมของลูกค้า
  • การควบคุมต้นทุน: สามารถกำหนดเวลาการคำนวณในช่วงเวลาที่มีการเข้าชมน้อย
  • การแยก: ความหน่วงของ LLM ไม่กระทบต่อหน้าสินค้า
  • ความสอดคล้อง: การอัปเดตเป็นแบบอะตอมและคาดการณ์ได้

การแยกระบบที่หันหน้าไปหาลูกค้าออกจากไปป์ไลน์การประมวลผลข้อมูลเป็นสิ่งสำคัญเมื่อทำงานกับ SKU หลายล้าน

การทำความสะอาดและการปรับให้เป็นมาตรฐาน

ก่อนใช้ AI กับข้อมูล ผมใช้ขั้นตอนการประมวลผลล่วงหน้าที่ชัดเจนเพื่อกำจัดสัญญาณรบกวนและความสับสน ขั้นตอนนี้อาจฟังดูเรียบง่าย แต่มันช่วยปรับปรุงการให้เหตุผลของ LLM อย่างมาก

ไปป์ไลน์การทำความสะอาดรวมถึง:

  • ตัดช่องว่าง
  • ลบค่าว่าง
  • ลบค่าที่ซ้ำกัน
  • แปลงเส้นทางนำทางหมวดหมู่เป็นสตริงตามบริบท

สิ่งนี้ทำให้แน่ใจว่า LLM ได้รับอินพุตที่สะอาดและชัดเจน ซึ่งเป็นกุญแจสำคัญต่อผลลัพธ์ที่สอดคล้อง ขยะเข้าขยะออก ในขนาดนี้ แม้แต่ข้อผิดพลาดเล็กน้อยก็สามารถนำไปสู่ปัญหาที่ใหญ่ขึ้นในภายหลัง

บริการ LLM พร้อมบริบท

LLM ไม่ได้แค่จัดเรียงค่าตามตัวอักษร มันกำลังให้เหตุผลเกี่ยวกับพวกมัน

บริการได้รับ:

  • ค่าแอตทริบิวต์ที่ทำความสะอาดแล้ว
  • เส้นทางนำทางหมวดหมู่
  • เมตาดาต้าแอตทริบิวต์

ด้วยบริบทนี้ โมเดลสามารถเข้าใจได้ว่า:

  • ว่า "Voltage" ใน เครื่องมือไฟฟ้า เป็นตัวเลข
  • ว่า "Size" ใน เสื้อผ้า เป็นไปตามลำดับที่รู้จัก
  • ว่า "Colour" ใน สี อาจเป็นไปตามมาตรฐาน RAL
  • ว่า "Material" ใน ฮาร์ดแวร์ มีความสัมพันธ์เชิงความหมาย

โมเดลส่งคืน:

  • ค่าที่จัดเรียงแล้ว
  • ชื่อแอตทริบิวต์ที่ปรับปรุงแล้ว
  • การตัดสินใจ: การจัดเรียงแบบแน่นอนหรือแบบบริบท

สิ่งนี้ให้ไปป์ไลน์จัดการแอตทริบิวต์ประเภทต่างๆ ได้โดยไม่ต้องเขียนกฎเกณฑ์แบบฮาร์ดโค้ดสำหรับทุกหมวดหมู่

ทางเลือกสำรองแบบแน่นอน

แอตทริบิวต์ทุกตัวไม่จำเป็นต้องใช้ AI

อันที่จริง แอตทริบิวต์หลายตัวจัดการได้ดีกว่าด้วยตรรกะแบบแน่นอน

ช่วงตัวเลข ค่าตามหน่วย และชุดง่ายๆ มักได้ประโยชน์จาก:

  • การประมวลผลที่เร็วขึ้น
  • การจัดเรียงที่คาดการณ์ได้
  • ต้นทุนที่ต่ำกว่า
  • ความคลุมเครือเป็นศูนย์

ไปป์ไลน์ตรวจจับกรณีเหล่านี้โดยอัตโนมัติและใช้ตรรกะแบบแน่นอนสำหรับพวกมัน สิ่งนี้ทำให้ระบบมีประสิทธิภาพและหลีกเลี่ยงการเรียก LLM ที่ไม่จำเป็น

การแท็กด้วยตนเองเทียบกับ LLM

นักจัดการสินค้ายังคงต้องการการควบคุม โดยเฉพาะสำหรับแอตทริบิวต์ที่สำคัญต่อธุรกิจ

ดังนั้นแต่ละหมวดหมู่จึงสามารถแท็กเป็น:

  • LLM_SORT — ให้โมเดลตัดสินใจ
  • MANUAL_SORT — นักจัดการสินค้ากำหนดลำดับ

ระบบแท็กแบบคู่นี้ให้ผู้คนทำการตัดสินใจขั้นสุดท้ายในขณะที่ AI ทำงานส่วนใหญ่ นอกจากนี้ยังสร้างความไว้วางใจ เพราะนักจัดการสินค้าสามารถแทนที่โมเดลเมื่อจำเป็นโดยไม่ทำให้ไปป์ไลน์พัง

การจัดเก็บและการควบคุม

ผลลัพธ์ทั้งหมดถูกเก็บไว้โดยตรงในฐานข้อมูล Product MongoDB ทำให้สถาปัตยกรรมเรียบง่ายและรวมศูนย์

MongoDB กลายเป็นที่เก็บข้อมูลการดำเนินงานเดียวสำหรับ:

  • ค่าแอตทริบิวต์ที่จัดเรียงแล้ว
  • ชื่อแอตทริบิวต์ที่ปรับปรุงแล้ว
  • แท็กการจัดเรียงระดับหมวดหมู่
  • ฟิลด์ sortOrder ระดับสินค้า

สิ่งนี้ทำให้ง่ายต่อการตรวจสอบการเปลี่ยนแปลง แทนที่ค่า ประมวลผลหมวดหมู่ใหม่ และซิงค์กับระบบอื่นๆ

การรวมระบบการค้นหา

เมื่อจัดเรียงแล้ว ค่าจะไหลเข้าไปใน:

  • Elasticsearch สำหรับการค้นหาที่ขับเคลื่อนด้วยคีย์เวิร์ด
  • Vespa สำหรับการค้นหาแบบความหมายและเวกเตอร์

สิ่งนี้ทำให้แน่ใจว่า:

  • ตัวกรองปรากฏในลำดับที่เป็นตรรกะ
  • หน้าสินค้าแสดงแอตทริบิวต์ที่สอดคล้องกัน
  • เครื่องมือค้นหาจัดอันดับสินค้าได้แม่นยำยิ่งขึ้น
  • ลูกค้าสามารถเรียกดูหมวดหมู่ได้ง่ายขึ้น

การค้นหาคือจุดที่การจัดเรียงแอตทริบิวต์มองเห็นได้ชัดเจนที่สุด และที่ความสอดคล้องสำคัญที่สุด

ภาพรวมสถาปัตยกรรม

เพื่อให้สิ่งนี้ทำงานได้ข้าม SKU หลายล้าน ผมออกแบบไปป์ไลน์แบบโมดูลาร์ที่สร้างขึ้นจากงานเบื้องหลัง การให้เหตุผลของ AI และการรวมระบบการค้นหา แผนภาพสถาปัตยกรรมด้านล่างจับการไหลทั้งหมด:

  • ข้อมูลสินค้าเข้ามาจากระบบข้อมูลสินค้า
  • งานการแยกแอตทริบิวต์ดึงค่าแอตทริบิวต์และบริบทหมวดหมู่
  • สิ่งเหล่านี้ถูกส่งไปยังบริการจัดเรียง AI
  • เอกสารสินค้าที่อัปเดตแล้วถูกเขียนลงใน Product MongoDB
  • งานซิงค์ขาออกอัปเดตระบบข้อมูลสินค้าด้วยลำดับการจัดเรียง
  • งานซิงค์ Elasticsearch และ Vespa ผลักข้อมูลที่จัดเรียงแล้วเข้าสู่ระบบการค้นหาของแต่ละตัว
  • บริการ API เชื่อมต่อ Elasticsearch และ Vespa กับแอปพลิเคชันไคลเอนต์

การไหลนี้ทำให้แน่ใจว่าค่าแอตทริบิวต์ทุกตัว ไม่ว่าจะจัดเรียงโดย AI หรือตั้งค่าด้วยตนเอง ได้รับการสะท้อนในการค้นหา การจัดการสินค้า และประสบการณ์ของลูกค้า

โซลูชันในการปฏิบัติจริง

นี่คือวิธีที่ค่าที่ยุ่งเหยิงถูกเปลี่ยนแปลง:

| Attribute | Raw Values | Ordered Output | |----|----|----| | Size | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Color | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Material | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numeric | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

ตัวอย่างเหล่านี้แสดงให้เห็นว่าไปป์ไลน์รวมการให้เหตุผลตามบริบทเข้ากับกฎเกณฑ์ที่ชัดเจนเพื่อสร้างลำดับที่สะอาดและเข้าใจง่าย

ทำไมต้องเป็นงานออฟไลน์แทนการประมวลผลแบบเรียลไทม์?

การประมวลผลแบบเรียลไทม์จะนำมาซึ่ง:

  • ความหน่วงที่คาดเดาไม่ได้
  • ต้นทุนการคำนวณที่สูงขึ้น
  • การพึ่งพาที่เปราะบาง
  • ความซับซ้อนในการดำเนินงาน

งานออฟไลน์ให้เรา:

  • ประสิทธิภาพแบบชุด
  • การเรียก LLM แบบอะซิงโครนัส
  • ตรรกะการลองใหม่และคิวข้อผิดพลาด
  • ช่วงเวลาตรวจสอบโดยมนุษย์
  • การใช้จ่ายการคำนวณที่คาดการณ์ได้

การแลกเปลี่ยนคือความล่าช้าเล็กน้อยระหว่างการรับข้อมูลและการแสดงผล แต่ประโยชน์คือความสอดคล้องในระดับขนาดใหญ่ ซึ่งลูกค้าให้ความสำคัญมากกว่ามาก

ผลกระทบ

ผลลัพธ์มีนัยสำคัญ:

  • การจัดเรียงแอตทริบิวต์ที่สอดคล้องกันข้าม SKU กว่า 3 ล้านราย
  • การจัดเรียงตัวเลขที่คาดการณ์ได้ผ่านทางเลือกสำรองแบบแน่นอน
  • การควบคุมของนักจัดการสินค้าผ่านการแท็กด้วยตนเอง
  • หน้าสินค้าที่สะอาดขึ้นและตัวกรองที่ใช้งานง่ายขึ้น
  • ความเกี่ยวข้องของการค้นหาที่ดีขึ้น
  • ความมั่นใจของลูกค้าและการแปลงที่สูงขึ้น

นี่ไม่ใช่แค่ชนะทางเทคนิค มันเป็นชัยชนะสำหรับประสบการณ์ผู้ใช้และรายได้ด้วย

บทเรียนที่ได้เรียนรู้

  • ไปป์ไลน์แบบผสมผสานมีประสิทธิภาพดีกว่า AI บริสุทธิ์ในระดับขนาดใหญ่ ราวกั้นเป็นสิ่งสำคัญ
  • บริบทช่วยปรับปรุงความแม่นยำของ LLM อย่างมาก
  • งานออฟไลน์เป็นสิ่งจำเป็นสำหรับความเร็วในการประมวลผลและความยืดหยุ่น
  • กลไกการแทนที่โดยมนุษย์สร้างความไว้วางใจและการยอมรับ
  • อินพุตที่สะอาดคือรากฐานของเอาต์พุต AI ที่เชื่อถือได้

ความคิดสุดท้าย

การจัดเรียงค่าแอตทริบิวต์ฟังดูเรียบง่าย แต่มันกลายเป็นความท้าทายที่แท้จริงเมื่อคุณต้องทำมันสำหรับสินค้าหลายล้านรายการ

โดยการรวมความฉลาดของ LLM เข้ากับกฎเกณฑ์ที่ชัดเจนและการควบคุมของนักจัดการสินค้า ผมเปลี่ยนปัญหาที่ซับซ้อนและซ่อนอยู่ให้กลายเป็นระบบที่สะอาดและขยายขนาดได้

มันเป็นการเตือนใจว่าชัยชนะที่ยิ่งใหญ่ที่สุดบางอย่างมาจากการแก้ปัญหาที่น่าเบื่อ ปัญหาที่มองข้ามได้ง่ายแต่ปรากฏอยู่ในทุกหน้าสินค้า

\n \n \n

โอกาสทางการตลาด
Sleepless AI โลโก้
ราคา Sleepless AI(SLEEPLESSAI)
$0.01832
$0.01832$0.01832
+3.15%
USD
Sleepless AI (SLEEPLESSAI) กราฟราคาสด
ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC

ข่าวสดตลอด 24/7

มากกว่า

PRL $30,000 + 15,000 USDT

PRL $30,000 + 15,000 USDTPRL $30,000 + 15,000 USDT

ฝาก & เทรด PRL เพื่อเพิ่มรางวัลของคุณ!