ซื้อคริปโต ตลาด สปอต ฟิวเจอร์สGOLD Earn ศูนย์กิจกรรม

เพิ่มเติม

การมองเบื้องหลังการสร้างไปป์ไลน์การจัดเรียงแอตทริบิวต์ที่ขับเคลื่อนด้วย AI สำหรับ SKU หลายล้านรายการการมองเบื้องหลังการสร้างไปป์ไลน์การจัดเรียงแอตทริบิวต์ที่ขับเคลื่อนด้วย AI สำหรับ SKU หลายล้านรายการ

วิธีที่ฉันใช้ AI แก้ไขค่าแอตทริบิวต์ที่ไม่สอดคล้องกันในวงกว้างในอีคอมเมิร์ซ

แหล่งที่มา: Hackernoon

2025/12/25 12:53

3 นาทีในการอ่าน

แชร์

SLEEPLESSAI$0.01832-3.42%

หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ crypto.news@mexc.com

เมื่อผู้คนพูดถึงการขยายขนาดอีคอมเมิร์ซ พวกเขามักจะมุ่งเน้นไปที่ความท้าทายด้านวิศวกรรมขนาดใหญ่: การค้นหาแบบกระจาย สินค้าคงคลังแบบเรียลไทม์ เครื่องมือแนะนำสินค้า และการเพิ่มประสิทธิภาพการชำระเงิน แต่ภายใต้ทั้งหมดนั้น มีปัญหาที่เงียบกว่าและคงอยู่นานกว่าที่ผู้ค้าปลีกเกือบทุกรายต้องดิ้นรนกับมัน: ค่าแอตทริบิวต์

แอตทริบิวต์คือกระดูกสันหลังของการค้นพบสินค้า พวกมันขับเคลื่อนตัวกรอง การเปรียบเทียบ การจัดอันดับการค้นหา และตรรกะการแนะนำ แต่ในแคตตาล็อกจริง ค่าแอตทริบิวต์ไม่ค่อยจะสะอาด มันไม่สอดคล้องกัน ซ้ำกัน จัดรูปแบบผิด หรือมีความหมายคลุมเครือ

ลองดูสิ่งที่เรียบง่ายอย่าง ขนาด คุณอาจเห็น:

Code

["XL", "Small", "12cm", "Large", "M", "S"]

หรือ สี:

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

เมื่อดูแต่ละรายการ ความไม่สอดคล้องเหล่านี้ดูไม่เป็นอันตราย แต่ลองคูณมันข้ามกว่า 3 ล้าน SKU โดยแต่ละรายการมีหลายสิบแอตทริบิวต์ และปัญหาก็กลายเป็นระบบ ตัวกรองทำงานอย่างคาดเดาไม่ได้ เครื่องมือค้นหาสูญเสียความเกี่ยวข้อง นักจัดการสินค้าจมอยู่ในการทำความสะอาดด้วยตนเอง และการค้นพบสินค้าก็ช้าลงและน่าหงุดหงิดยิ่งขึ้นสำหรับลูกค้า

นี่คือความท้าทายที่ผมเผชิญในฐานะวิศวกรซอฟต์แวร์แบบ full-stack ที่ Zoro ปัญหาที่มองข้ามได้ง่ายแต่ส่งผลกระทบต่อทุกหน้าสินค้า

แนวทางของฉัน: AI แบบผสมผสานพบกับหลักการแน่นอน

ผมไม่ต้องการ AI แบบกล่องดำลึกลับที่แค่จัดเรียงสิ่งของ ระบบแบบนั้นยากต่อการเชื่อถือ แก้ไขจุดบกพร่อง หรือขยายขนาด แทนที่จะเป็นเช่นนั้น ผมมุ่งหาไปป์ไลน์ที่:

อธิบายได้
คาดการณ์ได้
ขยายขนาดได้
ควบคุมได้โดยมนุษย์

ผลลัพธ์คือไปป์ไลน์ AI แบบผสมผสานที่รวมการให้เหตุผลตามบริบทจาก LLM เข้ากับกฎเกณฑ์ที่ชัดเจนและการควบคุมของนักจัดการสินค้า มันทำงานอย่างฉลาดเมื่อจำเป็น แต่ยังคงคาดการณ์ได้เสมอ นี่คือ AI ที่มีราวกั้น ไม่ใช่ AI ที่ควบคุมไม่ได้

งานเบื้องหลัง: สร้างขึ้นเพื่อความเร็วในการประมวลผล

การประมวลผลแอตทริบิวต์ทั้งหมดเกิดขึ้นในงานเบื้องหลังแบบออฟไลน์ ไม่ใช่แบบเรียลไทม์ นี่ไม่ใช่ข้อประนีประนอม มันเป็นตัวเลือกด้านสถาปัตยกรรมเชิงกลยุทธ์

ไปป์ไลน์แบบเรียลไทม์ฟังดูน่าดึงดูด แต่ที่ระดับอีคอมเมิร์ซ พวกมันนำมาซึ่ง:

ความหน่วงที่คาดเดาไม่ได้
การพึ่งพาที่เปราะบาง
ยอดการคำนวณที่แพง
ความเปราะบางในการดำเนินงาน

ในขณะที่งานแบบออฟไลน์ให้เรา:

ความเร็วในการประมวลผลสูง: ประมวลผลชุดใหญ่ๆ โดยไม่กระทบต่อระบบสด
ความยืดหยุ่น: ความล้มเหลวไม่กระทบต่อการเข้าชมของลูกค้า
การควบคุมต้นทุน: สามารถกำหนดเวลาการคำนวณในช่วงเวลาที่มีการเข้าชมน้อย
การแยก: ความหน่วงของ LLM ไม่กระทบต่อหน้าสินค้า
ความสอดคล้อง: การอัปเดตเป็นแบบอะตอมและคาดการณ์ได้

การแยกระบบที่หันหน้าไปหาลูกค้าออกจากไปป์ไลน์การประมวลผลข้อมูลเป็นสิ่งสำคัญเมื่อทำงานกับ SKU หลายล้าน

การทำความสะอาดและการปรับให้เป็นมาตรฐาน

ก่อนใช้ AI กับข้อมูล ผมใช้ขั้นตอนการประมวลผลล่วงหน้าที่ชัดเจนเพื่อกำจัดสัญญาณรบกวนและความสับสน ขั้นตอนนี้อาจฟังดูเรียบง่าย แต่มันช่วยปรับปรุงการให้เหตุผลของ LLM อย่างมาก

ไปป์ไลน์การทำความสะอาดรวมถึง:

ตัดช่องว่าง
ลบค่าว่าง
ลบค่าที่ซ้ำกัน
แปลงเส้นทางนำทางหมวดหมู่เป็นสตริงตามบริบท

สิ่งนี้ทำให้แน่ใจว่า LLM ได้รับอินพุตที่สะอาดและชัดเจน ซึ่งเป็นกุญแจสำคัญต่อผลลัพธ์ที่สอดคล้อง ขยะเข้าขยะออก ในขนาดนี้ แม้แต่ข้อผิดพลาดเล็กน้อยก็สามารถนำไปสู่ปัญหาที่ใหญ่ขึ้นในภายหลัง

บริการ LLM พร้อมบริบท

LLM ไม่ได้แค่จัดเรียงค่าตามตัวอักษร มันกำลังให้เหตุผลเกี่ยวกับพวกมัน

บริการได้รับ:

ค่าแอตทริบิวต์ที่ทำความสะอาดแล้ว
เส้นทางนำทางหมวดหมู่
เมตาดาต้าแอตทริบิวต์

ด้วยบริบทนี้ โมเดลสามารถเข้าใจได้ว่า:

ว่า "Voltage" ใน เครื่องมือไฟฟ้า เป็นตัวเลข
ว่า "Size" ใน เสื้อผ้า เป็นไปตามลำดับที่รู้จัก
ว่า "Colour" ใน สี อาจเป็นไปตามมาตรฐาน RAL
ว่า "Material" ใน ฮาร์ดแวร์ มีความสัมพันธ์เชิงความหมาย

โมเดลส่งคืน:

ค่าที่จัดเรียงแล้ว
ชื่อแอตทริบิวต์ที่ปรับปรุงแล้ว
การตัดสินใจ: การจัดเรียงแบบแน่นอนหรือแบบบริบท

สิ่งนี้ให้ไปป์ไลน์จัดการแอตทริบิวต์ประเภทต่างๆ ได้โดยไม่ต้องเขียนกฎเกณฑ์แบบฮาร์ดโค้ดสำหรับทุกหมวดหมู่

ทางเลือกสำรองแบบแน่นอน

แอตทริบิวต์ทุกตัวไม่จำเป็นต้องใช้ AI

อันที่จริง แอตทริบิวต์หลายตัวจัดการได้ดีกว่าด้วยตรรกะแบบแน่นอน

ช่วงตัวเลข ค่าตามหน่วย และชุดง่ายๆ มักได้ประโยชน์จาก:

การประมวลผลที่เร็วขึ้น
การจัดเรียงที่คาดการณ์ได้
ต้นทุนที่ต่ำกว่า
ความคลุมเครือเป็นศูนย์

ไปป์ไลน์ตรวจจับกรณีเหล่านี้โดยอัตโนมัติและใช้ตรรกะแบบแน่นอนสำหรับพวกมัน สิ่งนี้ทำให้ระบบมีประสิทธิภาพและหลีกเลี่ยงการเรียก LLM ที่ไม่จำเป็น

การแท็กด้วยตนเองเทียบกับ LLM

นักจัดการสินค้ายังคงต้องการการควบคุม โดยเฉพาะสำหรับแอตทริบิวต์ที่สำคัญต่อธุรกิจ

ดังนั้นแต่ละหมวดหมู่จึงสามารถแท็กเป็น:

LLM_SORT — ให้โมเดลตัดสินใจ
MANUAL_SORT — นักจัดการสินค้ากำหนดลำดับ

ระบบแท็กแบบคู่นี้ให้ผู้คนทำการตัดสินใจขั้นสุดท้ายในขณะที่ AI ทำงานส่วนใหญ่ นอกจากนี้ยังสร้างความไว้วางใจ เพราะนักจัดการสินค้าสามารถแทนที่โมเดลเมื่อจำเป็นโดยไม่ทำให้ไปป์ไลน์พัง

การจัดเก็บและการควบคุม

ผลลัพธ์ทั้งหมดถูกเก็บไว้โดยตรงในฐานข้อมูล Product MongoDB ทำให้สถาปัตยกรรมเรียบง่ายและรวมศูนย์

MongoDB กลายเป็นที่เก็บข้อมูลการดำเนินงานเดียวสำหรับ:

ค่าแอตทริบิวต์ที่จัดเรียงแล้ว
ชื่อแอตทริบิวต์ที่ปรับปรุงแล้ว
แท็กการจัดเรียงระดับหมวดหมู่
ฟิลด์ sortOrder ระดับสินค้า

สิ่งนี้ทำให้ง่ายต่อการตรวจสอบการเปลี่ยนแปลง แทนที่ค่า ประมวลผลหมวดหมู่ใหม่ และซิงค์กับระบบอื่นๆ

การรวมระบบการค้นหา

เมื่อจัดเรียงแล้ว ค่าจะไหลเข้าไปใน:

Elasticsearch สำหรับการค้นหาที่ขับเคลื่อนด้วยคีย์เวิร์ด
Vespa สำหรับการค้นหาแบบความหมายและเวกเตอร์

สิ่งนี้ทำให้แน่ใจว่า:

ตัวกรองปรากฏในลำดับที่เป็นตรรกะ
หน้าสินค้าแสดงแอตทริบิวต์ที่สอดคล้องกัน
เครื่องมือค้นหาจัดอันดับสินค้าได้แม่นยำยิ่งขึ้น
ลูกค้าสามารถเรียกดูหมวดหมู่ได้ง่ายขึ้น

การค้นหาคือจุดที่การจัดเรียงแอตทริบิวต์มองเห็นได้ชัดเจนที่สุด และที่ความสอดคล้องสำคัญที่สุด

ภาพรวมสถาปัตยกรรม

เพื่อให้สิ่งนี้ทำงานได้ข้าม SKU หลายล้าน ผมออกแบบไปป์ไลน์แบบโมดูลาร์ที่สร้างขึ้นจากงานเบื้องหลัง การให้เหตุผลของ AI และการรวมระบบการค้นหา แผนภาพสถาปัตยกรรมด้านล่างจับการไหลทั้งหมด:

ข้อมูลสินค้าเข้ามาจากระบบข้อมูลสินค้า
งานการแยกแอตทริบิวต์ดึงค่าแอตทริบิวต์และบริบทหมวดหมู่
สิ่งเหล่านี้ถูกส่งไปยังบริการจัดเรียง AI
เอกสารสินค้าที่อัปเดตแล้วถูกเขียนลงใน Product MongoDB
งานซิงค์ขาออกอัปเดตระบบข้อมูลสินค้าด้วยลำดับการจัดเรียง
งานซิงค์ Elasticsearch และ Vespa ผลักข้อมูลที่จัดเรียงแล้วเข้าสู่ระบบการค้นหาของแต่ละตัว
บริการ API เชื่อมต่อ Elasticsearch และ Vespa กับแอปพลิเคชันไคลเอนต์

การไหลนี้ทำให้แน่ใจว่าค่าแอตทริบิวต์ทุกตัว ไม่ว่าจะจัดเรียงโดย AI หรือตั้งค่าด้วยตนเอง ได้รับการสะท้อนในการค้นหา การจัดการสินค้า และประสบการณ์ของลูกค้า

โซลูชันในการปฏิบัติจริง

นี่คือวิธีที่ค่าที่ยุ่งเหยิงถูกเปลี่ยนแปลง:

| Attribute | Raw Values | Ordered Output | |----|----|----| | Size | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Color | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Material | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numeric | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

ตัวอย่างเหล่านี้แสดงให้เห็นว่าไปป์ไลน์รวมการให้เหตุผลตามบริบทเข้ากับกฎเกณฑ์ที่ชัดเจนเพื่อสร้างลำดับที่สะอาดและเข้าใจง่าย

ทำไมต้องเป็นงานออฟไลน์แทนการประมวลผลแบบเรียลไทม์?

การประมวลผลแบบเรียลไทม์จะนำมาซึ่ง:

ความหน่วงที่คาดเดาไม่ได้
ต้นทุนการคำนวณที่สูงขึ้น
การพึ่งพาที่เปราะบาง
ความซับซ้อนในการดำเนินงาน

งานออฟไลน์ให้เรา:

ประสิทธิภาพแบบชุด
การเรียก LLM แบบอะซิงโครนัส
ตรรกะการลองใหม่และคิวข้อผิดพลาด
ช่วงเวลาตรวจสอบโดยมนุษย์
การใช้จ่ายการคำนวณที่คาดการณ์ได้

การแลกเปลี่ยนคือความล่าช้าเล็กน้อยระหว่างการรับข้อมูลและการแสดงผล แต่ประโยชน์คือความสอดคล้องในระดับขนาดใหญ่ ซึ่งลูกค้าให้ความสำคัญมากกว่ามาก

ผลกระทบ

ผลลัพธ์มีนัยสำคัญ:

การจัดเรียงแอตทริบิวต์ที่สอดคล้องกันข้าม SKU กว่า 3 ล้านราย
การจัดเรียงตัวเลขที่คาดการณ์ได้ผ่านทางเลือกสำรองแบบแน่นอน
การควบคุมของนักจัดการสินค้าผ่านการแท็กด้วยตนเอง
หน้าสินค้าที่สะอาดขึ้นและตัวกรองที่ใช้งานง่ายขึ้น
ความเกี่ยวข้องของการค้นหาที่ดีขึ้น
ความมั่นใจของลูกค้าและการแปลงที่สูงขึ้น

นี่ไม่ใช่แค่ชนะทางเทคนิค มันเป็นชัยชนะสำหรับประสบการณ์ผู้ใช้และรายได้ด้วย

บทเรียนที่ได้เรียนรู้

ไปป์ไลน์แบบผสมผสานมีประสิทธิภาพดีกว่า AI บริสุทธิ์ในระดับขนาดใหญ่ ราวกั้นเป็นสิ่งสำคัญ
บริบทช่วยปรับปรุงความแม่นยำของ LLM อย่างมาก
งานออฟไลน์เป็นสิ่งจำเป็นสำหรับความเร็วในการประมวลผลและความยืดหยุ่น
กลไกการแทนที่โดยมนุษย์สร้างความไว้วางใจและการยอมรับ
อินพุตที่สะอาดคือรากฐานของเอาต์พุต AI ที่เชื่อถือได้

ความคิดสุดท้าย

การจัดเรียงค่าแอตทริบิวต์ฟังดูเรียบง่าย แต่มันกลายเป็นความท้าทายที่แท้จริงเมื่อคุณต้องทำมันสำหรับสินค้าหลายล้านรายการ

โดยการรวมความฉลาดของ LLM เข้ากับกฎเกณฑ์ที่ชัดเจนและการควบคุมของนักจัดการสินค้า ผมเปลี่ยนปัญหาที่ซับซ้อนและซ่อนอยู่ให้กลายเป็นระบบที่สะอาดและขยายขนาดได้

มันเป็นการเตือนใจว่าชัยชนะที่ยิ่งใหญ่ที่สุดบางอย่างมาจากการแก้ปัญหาที่น่าเบื่อ ปัญหาที่มองข้ามได้ง่ายแต่ปรากฏอยู่ในทุกหน้าสินค้า

\n \n \n

โอกาสทางการตลาด

ราคา Sleepless AI(SLEEPLESSAI)

$0.01832

$0.01832$0.01832

+3.15%

USD

Sleepless AI (SLEEPLESSAI) กราฟราคาสด

รับ 20 USDT ในเวลาเพียง 1 นาที

ฝากเงิน $100 เพื่อปลดล็อก $300 ในโพสิชัน GOLD

ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC

1,500,000 WLFI รอให้คว้า

เข้าร่วมก่อนใคร & สเตก USD1 เพื่อรับ WLFI!

ข่าวที่กำลังมาแรง

มากกว่า

การคาดการณ์ราคาทองคำ: รับมือกับความผันผวนระยะสั้นก่อนการฟื้นตัวสำคัญในปี 2026

SBI Ripple Asia ทำแพลตฟอร์มการออกโทเค็นบน XRPL สำเร็จ

เกิดอะไรขึ้นกับ USDC ตอนนี้ Polymarket กำลังเปิดตัว stablecoin ของตัวเอง?

ซีอีโอ Binance แชร์สัญญาณตลาด Bitcoin ในแนวโน้มบวกท่ามกลางการสะสม

ลีราตุรกีร่วงหนักจากวิกฤตราคาน้ำมันที่ทำให้แนวโน้มเศรษฐกิจแย่ลง – การวิเคราะห์จาก Commerzbank

ข่าวสดตลอด 24/7

มากกว่า

มีการรายงานความเคลื่อนไหวสำคัญเกี่ยวกับ XRP อัปเดตถูกแชร์ผ่านวิดีโอใหม่ กำลังจับตาผลกระทบที่อาจเกิดขึ้นต่อภาพรวมตลาด

ผู้เขียน: Ripple Bull Winkle | Crypto Researcher 🚀🚨04:02

$HYPE เผาโทเค็นไปแล้ว 40,000 โทเค็นวันนี้ ข้อเสนอ HIP-4 อาจทำให้ค่าธรรมเนียมและการเผาเพิ่มขึ้น พร้อมทั้งลดปริมาณอุปทานลง

ผู้เขียน: ryandcrypto03:01

การเรียกร้องให้เปลี่ยนระบอบการปกครองของมกุฎราชกุมารอิหร่านผู้ลี้ภัยอาจส่งผลต่อเสถียรภาพทางภูมิรัฐศาสตร์ ซึ่งอาจส่งผลทางอ้อมต่อบรรยากาศการลงทุนในตลาด UKOIL

ผู้เขียน: CryptoSavingExpert ®02:32

SOL ร่วงลง 41% นับตั้งแต่ต้นปี 2026 กำลังมีการถกเถียงกันว่าอาจเข้าใกล้จุดต่ำสุดของตลาดแล้ว

ผู้เขียน: borovik02:25

เจมส์ ฮาเวลส์ ยุติการค้นหานาน 12 ปีเพื่อหาไดรฟ์ฮาร์ดดิสก์ที่มีบิตคอยน์ 8,000 BTC ซึ่งทำหายไปตั้งแต่ปี 2013

ผู้เขียน: Crypto Profe02:25