NeMo Data Designer ของ NVIDIA ช่วยให้นักพัฒนาสามารถสร้างไปป์ไลน์ข้อมูลสังเคราะห์สำหรับการกลั่น AI โดยไม่ต้องกังวลเรื่องการอนุญาตใช้สิทธิ์หรือชุดข้อมูลขนาดใหญ่ (อ่านเพิ่มเติมNeMo Data Designer ของ NVIDIA ช่วยให้นักพัฒนาสามารถสร้างไปป์ไลน์ข้อมูลสังเคราะห์สำหรับการกลั่น AI โดยไม่ต้องกังวลเรื่องการอนุญาตใช้สิทธิ์หรือชุดข้อมูลขนาดใหญ่ (อ่านเพิ่มเติม

NVIDIA เปิดตัวเครื่องมือโอเพนซอร์สสำหรับการฝึกโมเดล AI ที่ปลอดภัยด้านลิขสิทธิ์

1 นาทีในการอ่าน

NVIDIA เปิดตัวเครื่องมือโอเพนซอร์สสำหรับการฝึกโมเดล AI ที่ปลอดภัยด้านลิขสิทธิ์

Peter Zhang 05 ก.พ. 2026 18:27

NeMo Data Designer ของ NVIDIA ช่วยให้นักพัฒนาสร้างไปป์ไลน์ข้อมูลสังเคราะห์สำหรับการกลั่น AI โดยไม่ต้องกังวลเรื่องลิขสิทธิ์หรือชุดข้อมูลขนาดใหญ่

NVIDIA เปิดตัวเครื่องมือโอเพนซอร์สสำหรับการฝึกโมเดล AI ที่ปลอดภัยด้านลิขสิทธิ์

NVIDIA ได้เผยแพร่กรอบการทำงานโดยละเอียดสำหรับการสร้างไปป์ไลน์ข้อมูลสังเคราะห์ที่สอดคล้องกับลิขสิทธิ์ โดยแก้ไขหนึ่งในปัญหาที่ยุ่งยากที่สุดในการพัฒนา AI: วิธีการฝึกโมเดลเฉพาะทางเมื่อข้อมูลในโลกความเป็นจริงมีจำกัด ละเอียดอ่อน หรือไม่ชัดเจนทางกฎหมาย

แนวทางนี้ผสมผสาน NeMo Data Designer แบบโอเพนซอร์สของ NVIDIA เข้ากับ distillable endpoints ของ OpenRouter เพื่อสร้างชุดข้อมูลการฝึกที่จะไม่ก่อให้เกิดปัญหาด้านการปฏิบัติตามกฎระเบียบในภายหลัง สำหรับองค์กรที่ติดอยู่ในภาวะตรวจสอบทางกฎหมายเรื่องลิขสิทธิ์ข้อมูล สิ่งนี้สามารถลดเวลาในวงจรการพัฒนาได้หลายสัปดาห์

ทำไมเรื่องนี้ถึงสำคัญในตอนนี้

Gartner คาดการณ์ว่าข้อมูลสังเคราะห์อาจแซงหน้าข้อมูลจริงในการฝึก AI ภายในปี 2030 นั่นไม่ใช่คำพูดเกินจริง—63% ของผู้นำ AI ระดับองค์กรได้รวมข้อมูลสังเคราะห์เข้ากับขั้นตอนการทำงานของพวกเขาแล้ว ตามการสำรวจอุตสาหกรรมล่าสุด ทีม Superintelligence ของ Microsoft ประกาศในช่วงปลายเดือนมกราคม 2026 ว่าพวกเขาจะใช้เทคนิคที่คล้ายกันกับชิป Maia 200 ของพวกเขาสำหรับการพัฒนาโมเดลรุ่นใหม่

ปัญหาหลักที่ NVIDIA แก้ไข: โมเดล AI ที่ทรงพลังส่วนใหญ่มีข้อจำกัดด้านลิขสิทธิ์ที่ห้ามการใช้ผลลัพธ์เพื่อฝึกโมเดลที่แข่งขัน ไปป์ไลน์ใหม่บังคับใช้การปฏิบัติตามแบบ "distillable" ที่ระดับ API ซึ่งหมายความว่านักพัฒนาจะไม่ทำให้ข้อมูลการฝึกของพวกเขาเป็นพิษโดยไม่ตั้งใจด้วยเนื้อหาที่ถูกจำกัดทางกฎหมาย

สิ่งที่ไปป์ไลน์ทำจริงๆ

ขั้นตอนทางเทคนิคแบ่งการสร้างข้อมูลสังเคราะห์ออกเป็นสามชั้น อันดับแรก คอลัมน์ตัวอย่างแทรกความหลากหลายที่ควบคุมได้—หมวดหมู่ผลิตภัณฑ์ ช่วงราคา ข้อจำกัดในการตั้งชื่อ—โดยไม่ต้องพึ่งความสุ่มของ LLM อันดับสอง คอลัมน์ที่สร้างโดย LLM สร้างเนื้อหาภาษาธรรมชาติที่มีเงื่อนไขจากเมล็ดพันธุ์เหล่านั้น อันดับสาม การประเมิน LLM-as-a-judge ให้คะแนนผลลัพธ์เพื่อความแม่นยำและความสมบูรณ์ก่อนที่จะเข้าสู่ชุดการฝึก

ตัวอย่างของ NVIDIA สร้างคู่คำถามและคำตอบเกี่ยวกับผลิตภัณฑ์จากแค็ตตาล็อกเมล็ดพันธุ์ขนาดเล็ก คำอธิบายเสื้อสเวตเตอร์อาจถูกติดธงว่า "แม่นยำบางส่วน" หากโมเดลสร้างวัสดุที่ไม่มีในข้อมูลต้นทาง ประตูคุณภาพนั้นสำคัญ: ข้อมูลสังเคราะห์ที่ไร้ค่าสร้างโมเดลที่ไร้ค่า

ไปป์ไลน์ทำงานบน Nemotron 3 Nano โมเดลการใช้เหตุผล Mamba MOE แบบผสมของ NVIDIA ที่ส่งผ่าน OpenRouter ไปยัง DeepInfra ทุกอย่างยังคงเป็นแบบประกาศ—สคีมากำหนดในโค้ด คำสั่งเทมเพลตด้วย Jinja ผลลัพธ์มีโครงสร้างผ่านโมเดล Pydantic

ผลกระทบต่อตลาด

ตลาดการสร้างข้อมูลสังเคราะห์มีมูลค่า 381 ล้านดอลลาร์ในปี 2022 และคาดว่าจะแตะ 2.1 พันล้านดอลลาร์ภายในปี 2028 เติบโต 33% ต่อปี การควบคุมไปป์ไลน์เหล่านี้กำหนดตำแหน่งการแข่งขันมากขึ้นเรื่อยๆ โดยเฉพาะในแอปพลิเคชัน AI ทางกายภาพเช่นหุ่นยนต์และระบบอัตโนมัติที่การเก็บรวบรวมข้อมูลการฝึกในโลกความเป็นจริงมีค่าใช้จ่ายหลายล้าน

สำหรับนักพัฒนา คุณค่าทันทีคือการข้ามคอขวดแบบดั้งเดิม: คุณไม่ต้องการชุดข้อมูลที่เป็นกรรมสิทธิ์ขนาดใหญ่หรือการตรวจสอบทางกฎหมายที่ยาวนานเพื่อสร้างโมเดลเฉพาะโดเมน รูปแบบเดียวกันใช้ได้กับการค้นหาองค์กร บอทสนับสนุน และเครื่องมือภายใน—ทุกที่ที่คุณต้องการ AI เฉพาะทางโดยไม่ต้องมีงบประมาณการเก็บรวบรวมข้อมูลเฉพาะทาง

รายละเอียดการใช้งานและโค้ดแบบเต็มมีให้ในพื้นที่เก็บ GitHub GenerativeAIExamples ของ NVIDIA

แหล่งที่มาของภาพ: Shutterstock
  • nvidia
  • ข้อมูลสังเคราะห์
  • การฝึก ai
  • nemo
  • machine learning
ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ service@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC

คุณอาจชอบเช่นกัน

เหรียญคริปโตที่ดีที่สุดที่ควรซื้อในช่วงตลาดตก: BlockDAG, SOL, Ondo Finance และ Render โดดเด่น

เหรียญคริปโตที่ดีที่สุดที่ควรซื้อในช่วงตลาดตก: BlockDAG, SOL, Ondo Finance และ Render โดดเด่น

กุมภาพันธ์ 2026 นำมาซึ่งช่วงเวลาที่ยากลำบากสำหรับนักลงทุนคริปโต Ethereum ลดลงมาที่ $2,320 หลังจากตกต่ำกว่าระดับราคาที่สำคัญ Solana […] The post Best Crypto
แชร์
Coindoo2026/02/06 03:02
หุ้น Sony Group Corporation (SONY): ขยายโปรแกรมซื้อหุ้นคืนหลังผลประกอบการไตรมาส 3 ทำสถิติสูงสุด

หุ้น Sony Group Corporation (SONY): ขยายโปรแกรมซื้อหุ้นคืนหลังผลประกอบการไตรมาส 3 ทำสถิติสูงสุด

โซนีขยายแผนซื้อหุ้นคืนเป็น ¥150,000 ล้าน ครอบคลุมหุ้นสูงสุด 55 ล้านหุ้น ไตรมาสที่ 3 ของปีงบประมาณทำยอดขายและกำไรจากการดำเนินงานสูงสุดเป็นประวัติการณ์ ส่งผลให้มีการปรับเพิ่ม
แชร์
Coincentral2026/02/06 03:01
Bitcoin อยู่ในสภาวะ oversold มากที่สุดเป็นอันดับสามในประวัติการณ์ ตามตัวชี้วัดหนึ่ง และอาจเกิดการพลิกตัวขึ้นอย่างรุนแรงในครั้งถัดไป

Bitcoin อยู่ในสภาวะ oversold มากที่สุดเป็นอันดับสามในประวัติการณ์ ตามตัวชี้วัดหนึ่ง และอาจเกิดการพลิกตัวขึ้นอย่างรุนแรงในครั้งถัดไป

 
  ตลาด
 
 
  แชร์ 
  
   แชร์บทความนี้
   
    คัดลอกลิงก์X (Twitter)LinkedInFacebookอีเมล
   
  
 


 
  Bitcoin เป็นการขายเกินที่มากเป็นอันดับสามตลอดกาล กล่าวว่า
แชร์
Coindesk2026/02/06 03:34