Cái nhìn hậu trường về việc xây dựng quy trình sắp xếp thuộc tính hỗ trợ bởi AI cho hàng triệu SKU.Cái nhìn hậu trường về việc xây dựng quy trình sắp xếp thuộc tính hỗ trợ bởi AI cho hàng triệu SKU.

Cách tôi sử dụng AI để sửa các giá trị thuộc tính không nhất quán ở quy mô lớn trong thương mại điện tử

Khi mọi người nói về việc mở rộng quy mô thương mại điện tử, họ tập trung vào các thử thách kỹ thuật lớn: tìm kiếm phân tán, kiểm kê theo thời gian thực, công cụ đề xuất và tối ưu hóa thanh toán. Nhưng bên dưới tất cả những điều đó là một vấn đề yên tĩnh hơn, dai dẳng hơn mà hầu như mọi nhà bán lẻ đều gặp khó khăn: giá trị thuộc tính.

Thuộc tính là xương sống của việc khám phá sản phẩm. Chúng hỗ trợ bộ lọc, so sánh, xếp hạng tìm kiếm và logic đề xuất. Nhưng trong các danh mục thực tế, giá trị thuộc tính hiếm khi sạch sẽ. Chúng không nhất quán, trùng lặp, sai định dạng hoặc không rõ ràng về mặt ngữ nghĩa.

Lấy một thứ đơn giản như Khối lượng. Bạn có thể thấy:

Code

["XL", "Small", "12cm", "Large", "M", "S"]

Hoặc Màu sắc:

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

Riêng lẻ, những sự không nhất quán này trông vô hại. Nhưng nhân chúng lên trên 3 triệu SKU, mỗi SKU có hàng chục thuộc tính, và vấn đề trở nên mang tính hệ thống. Các bộ lọc hoạt động không thể đoán trước, các công cụ tìm kiếm mất đi mức độ liên quan, những người quản lý hàng hóa chìm trong việc dọn dẹp thủ công, và việc khám phá sản phẩm trở nên chậm hơn và gây khó chịu hơn cho khách hàng.

Đây là thử thách tôi gặp phải với tư cách là một kỹ sư phần mềm full-stack tại Zoro, một vấn đề dễ bỏ qua nhưng ảnh hưởng đến mọi trang sản phẩm.

Cách tiếp cận của tôi: AI Hybrid kết hợp với tính xác định

Tôi không muốn một AI hộp đen bí ẩn chỉ đơn giản sắp xếp mọi thứ. Các hệ thống như vậy khó tin tưởng, gỡ lỗi hoặc mở rộng quy mô. Thay vào đó, tôi nhắm đến một pipeline:

  • có thể giải thích được
  • có thể dự đoán được
  • có thể mở rộng quy mô
  • có thể kiểm soát bởi con người

Kết quả là một pipeline AI hybrid kết hợp lý luận theo ngữ cảnh từ LLM với các quy tắc rõ ràng và kiểm soát của người quản lý hàng hóa. Nó hoạt động thông minh khi cần thiết, nhưng luôn duy trì tính dự đoán được. Đây là AI Agent có rào chắn, không phải AI Agent mất kiểm soát.

Background Jobs: Được xây dựng cho thông lượng

Tất cả xử lý thuộc tính diễn ra trong các tác vụ nền ngoại tuyến, không theo thời gian thực. Đây không phải là một sự thỏa hiệp; đó là một lựa chọn kiến trúc chiến lược.

Các pipeline theo thời gian thực nghe có vẻ hấp dẫn, nhưng ở quy mô thương mại điện tử, chúng mang lại:

  • độ trễ không thể dự đoán
  • các phụ thuộc mong manh
  • tăng đột biến chi phí tính toán
  • sự mỏng manh trong vận hành

Ngược lại, các tác vụ ngoại tuyến mang lại cho chúng tôi:

  • Thông lượng cao: các lô lớn được xử lý mà không ảnh hưởng đến hệ thống trực tiếp
  • Khả năng phục hồi: lỗi không bao giờ ảnh hưởng đến lưu lượng khách hàng
  • Kiểm soát chi phí: tính toán có thể được lên lịch trong thời gian lưu lượng thấp
  • Cô lập: độ trễ LLM không bao giờ ảnh hưởng đến các trang sản phẩm
  • Tính nhất quán: các cập nhật là nguyên tử và có thể dự đoán được

Giữ các hệ thống hướng đến khách hàng tách biệt khỏi các pipeline xử lý dữ liệu là điều cần thiết khi làm việc với hàng triệu SKU.

Làm sạch & Chuẩn hóa

Trước khi sử dụng AI trên dữ liệu, tôi đã chạy một bước tiền xử lý rõ ràng để loại bỏ nhiễu và nhầm lẫn. Bước này có vẻ đơn giản, nhưng nó cải thiện đáng kể khả năng lý luận của LLM.

Pipeline làm sạch bao gồm:

  • cắt bỏ khoảng trắng
  • loại bỏ các giá trị trống
  • loại bỏ các giá trị trùng lặp
  • làm phẳng breadcrumbs danh mục thành một chuỗi theo ngữ cảnh

Điều này đảm bảo LLM nhận được đầu vào sạch sẽ, rõ ràng, đây là chìa khóa cho kết quả nhất quán. Rác vào, rác ra. Ở quy mô này, ngay cả những lỗi nhỏ cũng có thể dẫn đến vấn đề lớn hơn sau này.

Dịch vụ LLM với Ngữ cảnh

LLM không chỉ sắp xếp các giá trị theo thứ tự bảng chữ cái. Nó đang lý luận về chúng.

Dịch vụ nhận:

  • các giá trị thuộc tính đã được làm sạch
  • breadcrumbs danh mục
  • metadata thuộc tính

Với ngữ cảnh này, mô hình có thể hiểu:

  • Rằng "Voltage" trong Công cụ điện là số
  • rằng "Size" trong Quần áo tuân theo một chuỗi đã biết
  • rằng "Colour" trong Sơn có thể tuân theo tiêu chuẩn RAL
  • rằng "Material" trong Phần cứng có mối quan hệ ngữ nghĩa

Mô hình trả về:

  • các giá trị đã được sắp xếp
  • tên thuộc tính được tinh chỉnh
  • một quyết định: sắp xếp xác định hoặc theo ngữ cảnh

Điều này cho phép pipeline xử lý các loại thuộc tính khác nhau mà không cần mã hóa cứng các quy tắc cho từng danh mục.

Các giải pháp dự phòng xác định

Không phải mọi thuộc tính đều cần AI.

Trên thực tế, nhiều thuộc tính được xử lý tốt hơn bằng logic xác định.

Các khoảng số, giá trị dựa trên đơn vị và các tập hợp đơn giản thường được hưởng lợi từ:

  • xử lý nhanh hơn
  • sắp xếp có thể dự đoán được
  • chi phí thấp hơn
  • không có sự mơ hồ

Pipeline tự động phát hiện các trường hợp này và sử dụng logic xác định cho chúng. Điều này giữ cho hệ thống hoạt động hiệu quả và tránh các cuộc gọi LLM không cần thiết.

Gắn thẻ thủ công vs LLM

Những người quản lý hàng hóa vẫn cần kiểm soát, đặc biệt đối với các thuộc tính nhạy cảm về mặt kinh doanh.

Vì vậy, mỗi danh mục có thể được gắn thẻ là:

  • LLM_SORT — để mô hình quyết định
  • MANUAL_SORT — những người quản lý hàng hóa xác định thứ tự

Hệ thống gắn thẻ kép này cho phép mọi người đưa ra quyết định cuối cùng trong khi AI thực hiện phần lớn công việc. Nó cũng xây dựng lòng tin, vì những người quản lý hàng hóa có thể ghi đè mô hình khi cần thiết mà không phá vỡ pipeline.

Lưu trữ & Kiểm soát

Tất cả kết quả đều được lưu trữ trực tiếp trong cơ sở dữ liệu Product MongoDB, giữ cho kiến trúc đơn giản và tập trung.

MongoDB trở thành kho lưu trữ hoạt động duy nhất cho:

  • các giá trị thuộc tính đã được sắp xếp
  • tên thuộc tính được tinh chỉnh
  • thẻ sắp xếp cấp danh mục
  • các trường sortOrder cấp sản phẩm

Điều này giúp dễ dàng xem xét các thay đổi, ghi đè giá trị, xử lý lại danh mục và đồng bộ với các hệ thống khác.

Tích hợp Tìm kiếm

Sau khi được sắp xếp, các giá trị chảy vào:

  • Elasticsearch cho tìm kiếm dựa trên từ khóa
  • Vespa cho tìm kiếm ngữ nghĩa và dựa trên vector

Điều này đảm bảo rằng:

  • các bộ lọc xuất hiện theo thứ tự hợp lý
  • Các trang sản phẩm hiển thị các thuộc tính nhất quán
  • các công cụ tìm kiếm xếp hạng sản phẩm chính xác hơn
  • Khách hàng có thể duyệt danh mục dễ dàng hơn

Tìm kiếm là nơi sắp xếp thuộc tính rõ ràng nhất và nơi tính nhất quán quan trọng nhất.

Tổng quan Kiến trúc

Để làm cho điều này hoạt động trên hàng triệu SKU, tôi đã thiết kế một pipeline mô-đun được xây dựng xung quanh các tác vụ nền, lý luận AI và tích hợp tìm kiếm. Sơ đồ kiến trúc bên dưới nắm bắt toàn bộ quy trình:

  • Dữ liệu sản phẩm đi vào từ Hệ thống Thông tin Sản phẩm
  • Tác vụ Trích xuất Thuộc tính kéo các giá trị thuộc tính và ngữ cảnh danh mục
  • Chúng được chuyển đến Dịch vụ Sắp xếp AI
  • Các tài liệu sản phẩm được cập nhật được ghi vào Product MongoDB
  • Tác vụ Đồng bộ Outbound cập nhật Hệ thống Thông tin Sản phẩm với thứ tự sắp xếp
  • Các Tác vụ Đồng bộ Elasticsearch và Vespa đẩy dữ liệu đã sắp xếp vào các hệ thống tìm kiếm tương ứng của chúng
  • Dịch vụ API kết nối Elasticsearch và Vespa với Ứng dụng Khách hàng

Luồng này đảm bảo rằng mọi giá trị thuộc tính, dù được sắp xếp bởi AI hay được đặt thủ công, đều được phản ánh trong tìm kiếm, bán hàng và trải nghiệm khách hàng.

Giải pháp trong Hành động

Đây là cách các giá trị lộn xộn được chuyển đổi:

| Thuộc tính | Giá trị Thô | Đầu ra Đã sắp xếp | |----|----|----| | Size | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Color | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Material | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numeric | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Những ví dụ này cho thấy cách pipeline kết hợp lý luận theo ngữ cảnh với các quy tắc rõ ràng để tạo ra các chuỗi sạch sẽ, dễ hiểu.

Tại sao Tác vụ Ngoại tuyến thay vì Xử lý Thời gian Thực?

Xử lý theo thời gian thực sẽ mang lại:

  • độ trễ không thể dự đoán
  • Chi phí tính toán cao hơn
  • các phụ thuộc mong manh
  • độ phức tạp vận hành

Các tác vụ ngoại tuyến mang lại cho chúng tôi:

  • hiệu quả theo lô
  • các cuộc gọi LLM không đồng bộ
  • logic thử lại và hàng đợi lỗi
  • cửa sổ xem xét của con người
  • chi tiêu tính toán có thể dự đoán được

Sự đánh đổi là một độ trễ nhỏ giữa việc thu thập dữ liệu và hiển thị, nhưng lợi ích là tính nhất quán ở quy mô, điều mà khách hàng đánh giá cao hơn nhiều.

Tác động

Kết quả rất đáng kể:

  • Sắp xếp thuộc tính nhất quán trên hơn 3 triệu SKU
  • Sắp xếp số có thể dự đoán được thông qua các giải pháp dự phòng xác định
  • Kiểm soát của người quản lý hàng hóa thông qua gắn thẻ thủ công
  • Các trang sản phẩm sạch hơn và các bộ lọc trực quan hơn
  • Cải thiện mức độ liên quan của tìm kiếm
  • Tăng niềm tin và chuyển đổi của khách hàng

Đây không chỉ là một chiến thắng kỹ thuật; nó còn là một chiến thắng cho trải nghiệm người dùng và doanh thu.

Bài học Kinh nghiệm

  • Các pipeline hybrid vượt trội hơn AI thuần túy ở quy mô lớn. Các rào chắn là quan trọng.
  • Ngữ cảnh cải thiện đáng kể độ chính xác của LLM
  • Các tác vụ ngoại tuyến là cần thiết cho thông lượng và khả năng phục hồi
  • Các cơ chế ghi đè của con người xây dựng lòng tin và sự chấp nhận
  • Đầu vào sạch là nền tảng của đầu ra AI đáng tin cậy

Suy nghĩ Cuối cùng

Sắp xếp giá trị thuộc tính nghe có vẻ đơn giản, nhưng nó trở thành một thử thách thực sự khi bạn phải làm điều đó cho hàng triệu sản phẩm.

Bằng cách kết hợp trí thông minh LLM với các quy tắc rõ ràng và kiểm soát của người quản lý hàng hóa, tôi đã chuyển đổi một vấn đề phức tạp, ẩn giấu thành một hệ thống sạch sẽ, có thể mở rộng quy mô.

Đó là một lời nhắc nhở rằng một số chiến thắng lớn nhất đến từ việc giải quyết các vấn đề nhàm chán, những vấn đề dễ bỏ lỡ nhưng xuất hiện trên mọi trang sản phẩm.

\n \n \n

Cơ hội thị trường
Logo Sleepless AI
Giá Sleepless AI(AI)
$0.03836
$0.03836$0.03836
+2.95%
USD
Biểu đồ giá Sleepless AI (AI) theo thời gian thực
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ service@support.mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.