Amazon Web Services ประกาศเมื่อวันศุกร์ว่าจะนำโปรเซสเซอร์จาก Cerebras มาติดตั้งในศูนย์ข้อมูลภายใต้ความร่วมมือหลายปีที่มุ่งเน้นไปที่การอนุมาน AI
ข้อตกลงนี้ทำให้ Amazon มีวิธีการใหม่ในการเร่งความเร็วในการตอบคำถาม เขียนโค้ด และจัดการคำขอของผู้ใช้แบบสดของโมเดล AI AWS กล่าวว่าจะใช้เทคโนโลยี Cerebras รวมถึง Wafer-Scale Engine สำหรับงานการอนุมาน
บริษัททั้งสองไม่ได้เปิดเผยเงื่อนไขทางการเงิน การตั้งค่านี้วางแผนไว้สำหรับ Amazon Bedrock ภายในศูนย์ข้อมูล AWS ทำให้ความร่วมมืออยู่ภายในผลิตภัณฑ์ AI หลักของ Amazon โดยตรง
AWS กล่าวว่าระบบจะรวมเซิร์ฟเวอร์ที่ขับเคลื่อนด้วย Amazon Trainium ระบบ Cerebras CS-3 และเครือข่าย Amazon's Elastic Fabric Adapter
ในปลายปีนี้ AWS ยังวางแผนที่จะนำเสนอโมเดลภาษาขนาดใหญ่แบบโอเพนซอร์สชั้นนำและ Amazon Nova บนฮาร์ดแวร์ Cerebras David Brown รองประธานฝ่ายบริการคอมพิวต์และ ML ที่ AWS กล่าวว่าความเร็วยังคงเป็นปัญหาสำคัญในการอนุมาน AI โดยเฉพาะสำหรับการช่วยเหลือการเขียนโค้ดแบบเรียลไทม์และแอปพลิเคชันแบบโต้ตอบ
David กล่าวว่า "การอนุมานคือจุดที่ AI มอบคุณค่าที่แท้จริงให้กับลูกค้า แต่ความเร็วยังคงเป็นคอขวดที่สำคัญสำหรับภาระงานที่ต้องการมากเช่นการช่วยเหลือการเขียนโค้ดแบบเรียลไทม์และแอปพลิเคชันแบบโต้ตอบ"
AWS กล่าวว่าการออกแบบใช้วิธีการที่เรียกว่า inference disaggregation ซึ่งหมายถึงการแบ่งการอนุมาน AI ออกเป็นสองส่วน ส่วนแรกคือการประมวลผลพรอมต์ หรือที่เรียกว่า prefill ส่วนที่สองคือการสร้างเอาต์พุต หรือที่เรียกว่า decode
AWS กล่าวว่างานทั้งสองมีพฤติกรรมที่แตกต่างกันมาก Prefill เป็นแบบขนาน ใช้การคำนวณหนัก และต้องการแบนด์วิดท์หน่วยความจำในระดับปานกลาง Decode เป็นแบบอนุกรม ใช้การคำนวณน้อยกว่า และขึ้นอยู่กับแบนด์วิดท์หน่วยความจำมากกว่า Decode ยังใช้เวลาส่วนใหญ่ในกรณีเหล่านี้เพราะทุกโทเค็นเอาต์พุตต้องถูกสร้างขึ้นทีละตัว
นั่นคือเหตุผลที่ AWS กำหนดฮาร์ดแวร์ที่แตกต่างกันให้กับแต่ละขั้นตอน Trainium จะจัดการ prefill Cerebras CS-3 จะจัดการ decode
AWS กล่าวว่าเครือข่าย EFA ที่มีเวลาแฝงต่ำและแบนด์วิดท์สูงจะเชื่อมต่อทั้งสองด้านเพื่อให้ระบบทำงานเป็นบริการเดียวในขณะที่โปรเซสเซอร์แต่ละตัวมุ่งเน้นไปที่งานที่แยกกัน
David กล่าวว่า "สิ่งที่เรากำลังสร้างกับ Cerebras แก้ปัญหานั้น: โดยการแบ่งภาระงานการอนุมานข้าม Trainium และ CS-3 และเชื่อมต่อพวกมันด้วย Amazon's Elastic Fabric Adapter แต่ละระบบทำในสิ่งที่มันทำได้ดีที่สุด ผลลัพธ์จะเป็นการอนุมานที่เร็วขึ้นและมีประสิทธิภาพสูงกว่าสิ่งที่มีอยู่ในปัจจุบันหลายเท่า"
AWS ยังกล่าวว่าบริการจะทำงานบน AWS Nitro System ซึ่งเป็นชั้นพื้นฐานสำหรับโครงสร้างพื้นฐานคลาวด์
นั่นหมายความว่าระบบ Cerebras CS-3 และอินสแตนซ์ที่ขับเคลื่อนด้วย Trainium คาดว่าจะทำงานด้วยความปลอดภัย การแยก และความสม่ำเสมอเดียวกันกับที่ลูกค้า AWS ใช้อยู่แล้ว
การประกาศนี้ยังทำให้ Amazon มีโอกาสอีกทางในการผลักดัน Trainium ต่อต้านชิปจาก Nvidia, AMD และบริษัทชิปใหญ่อื่นๆ AWS อธิบาย Trainium ว่าเป็นชิป AI ภายในที่สร้างขึ้นเพื่อประสิทธิภาพที่ปรับขนาดได้และประสิทธิภาพด้านต้นทุนในการฝึกอบรมและการอนุมาน
AWS กล่าวว่าห้องปฏิบัติการ AI หลักสองแห่งมีความมุ่งมั่นแล้ว Anthropic ได้ตั้งชื่อ AWS เป็นพันธมิตรการฝึกอบรมหลักและใช้ Trainium ในการฝึกอบรมและปรับใช้โมเดล OpenAI จะใช้ความจุ Trainium 2 กิกะวัตต์ผ่านโครงสร้างพื้นฐาน AWS สำหรับ Stateful Runtime Environment, frontier models และภาระงานขั้นสูงอื่นๆ
AWS เพิ่มว่า Trainium3 ได้รับการยอมรับอย่างแข็งแกร่งนับตั้งแต่เปิดตัวเมื่อเร็วๆ นี้ โดยมีลูกค้าในหลายอุตสาหกรรมมุ่งมั่นกับความจุขนาดใหญ่
Cerebras กำลังจัดการด้าน decode ของการตั้งค่า AWS กล่าวว่า CS-3 มีไว้สำหรับการเร่งความเร็วการถอดรหัส ซึ่งให้พื้นที่มากขึ้นสำหรับโทเค็นเอาต์พุตที่เร็ว Cerebras กล่าวว่า CS-3 เป็นระบบการอนุมาน AI ที่เร็วที่สุดในโลกและให้แบนด์วิดท์หน่วยความจำมากกว่า GPU ที่เร็วที่สุดหลายพันเท่า
บริษัทกล่าวว่าโมเดลการให้เหตุผลในขณะนี้คิดเป็นส่วนแบ่งที่ใหญ่ขึ้นของงานการอนุมานและสร้างโทเค็นต่อคำขอมากขึ้นในขณะที่พวกมันทำงานผ่านปัญหา Cerebras ยังกล่าวว่า OpenAI, Cognition, Mistral และอื่นๆ ใช้ระบบของมันสำหรับภาระงานที่ต้องการมาก โดยเฉพาะการเขียนโค้ดแบบ agentic
Andrew Feldman ผู้ก่อตั้งและประธานเจ้าหน้าที่บริหารของ Cerebras Systems กล่าวว่า "การร่วมมือกับ AWS เพื่อสร้างโซลูชันการอนุมานแบบแยกส่วนจะนำการอนุมานที่เร็วที่สุดมาสู่ฐานลูกค้าทั่วโลก"
Andrew เพิ่มเติมว่า "ทุกองค์กรทั่วโลกจะสามารถได้รับประโยชน์จากการอนุมานที่เร็วอย่างน่าทึ่งภายในสภาพแวดล้อม AWS ที่มีอยู่"
ข้อตกลงนี้เพิ่มแรงกดดันให้กับ Nvidia ซึ่งในเดือนธันวาคมได้ลงนามในข้อตกลงการให้สิทธิ์มูลค่า 20 พันล้านดอลลาร์กับ Groq และวางแผนจะเปิดตัวระบบการอนุมานใหม่ที่ใช้เทคโนโลยี Groq ในสัปดาห์หน้า
หากคุณกำลังอ่านสิ่งนี้ คุณก้าวนำอยู่แล้ว รักษาตำแหน่งนั้นไว้กับจดหมายข่าวของเรา


