O3D-SIM สร้างขึ้นโดยการฉายหน้ากากและการฝังตัว 2D ไปยัง 3D โดยใช้ DBSCAN สำหรับการปรับปรุงเบื้องต้นO3D-SIM สร้างขึ้นโดยการฉายหน้ากากและการฝังตัว 2D ไปยัง 3D โดยใช้ DBSCAN สำหรับการปรับปรุงเบื้องต้น

การสร้างการแสดงผล 3D แบบเปิด: การรวมคุณลักษณะและการผสมผสานทางเรขาคณิตและความหมาย

2025/12/15 01:00
2 นาทีในการอ่าน
หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ crypto.news@mexc.com

บทคัดย่อและ 1 บทนำ

  1. งานวิจัยที่เกี่ยวข้อง

    2.1. การนำทางด้วยภาพและภาษา

    2.2. ความเข้าใจฉากเชิงความหมายและการแบ่งส่วนวัตถุ

    2.3. การสร้างฉาก 3 มิติ

  2. ระเบียบวิธี

    3.1. การเก็บรวบรวมข้อมูล

    3.2. ข้อมูลเชิงความหมายแบบเปิดจากภาพ

    3.3. การสร้างการแสดงผล 3 มิติแบบเปิด

    3.4. การนำทางด้วยภาษา

  3. การทดลอง

    4.1. การประเมินผลเชิงปริมาณ

    4.2. ผลลัพธ์เชิงคุณภาพ

  4. บทสรุปและงานในอนาคต คำชี้แจง และเอกสารอ้างอิง

3.3. การสร้างการแสดงผล 3 มิติแบบเปิด

เพื่อสร้าง O3D-SIM ให้สมบูรณ์ เราจะต่อยอดจากการสกัดคุณลักษณะของวัตถุแต่ละชิ้นโดยการฉายข้อมูลวัตถุไปยังพื้นที่ 3 มิติ การจัดกลุ่ม และการเชื่อมโยงวัตถุจากหลายภาพเพื่อสร้างการแสดงผลฉาก 3 มิติที่ครอบคลุม กระบวนการฉายข้อมูลเชิงความหมายไปยังพื้นที่ 3 มิติและการปรับปรุงแผนที่แสดงไว้ในรูปที่ 3

\ 3.3.1. การเริ่มต้น O3D-SIM

\ แผนที่ 3 มิติถูกสร้างขึ้นในตอนแรกโดยใช้ภาพที่เลือก ซึ่งทำหน้าที่เป็นกรอบอ้างอิงสำหรับการเริ่มต้นการแสดงผลฉากของเรา ขั้นตอนนี้สร้างโครงสร้างพื้นฐานของฉาก 3 มิติของเรา ซึ่งจะถูกเพิ่มเติมด้วยข้อมูลจากภาพต่อๆ ไปเพื่อเพิ่มความซับซ้อนและรายละเอียดของฉาก

\ ข้อมูลสำหรับวัตถุในฉาก 3 มิติถูกจัดระเบียบเป็นโหนดในพจนานุกรม ซึ่งเริ่มต้นเป็นค่าว่าง วัตถุจะถูกระบุจากภาพเริ่มต้นพร้อมกับข้อมูลที่เกี่ยวข้องซึ่งครอบคลุมคุณลักษณะการฝังและข้อมูลเกี่ยวกับหน้ากากของวัตถุ สำหรับวัตถุแต่ละชิ้นที่เห็นในภาพ กลุ่มจุด 3 มิติจะถูกสร้างขึ้นโดยใช้ข้อมูลความลึกที่มีอยู่และหน้ากากของวัตถุ การสร้างกลุ่มจุดนี้เกี่ยวข้องกับการแมปพิกเซล 2 มิติไปยังพื้นที่ 3 มิติ โดยอาศัยพารามิเตอร์ภายในของกล้องและค่าความลึก จากนั้นตำแหน่งของกล้องจะถูกใช้เพื่อจัดตำแหน่งกลุ่มจุดให้ถูกต้องในระบบพิกัดโลก เพื่อปรับปรุงการแสดงผลฉากของเรา การกรองพื้นหลังจะลบองค์ประกอบที่ระบุว่าเป็นพื้นหลัง เช่น ผนังหรือพื้น องค์ประกอบเหล่านี้จะถูกยกเว้นจากการประมวลผลเพิ่มเติม โดยเฉพาะในขั้นตอนการจัดกลุ่ม เนื่องจากไม่ใช่จุดโฟกัสหลักของการแสดงผลฉากของเรา

\ ชุดกลุ่มจุดของวัตถุจะถูกประมวลผลเพิ่มเติมโดยใช้การจัดกลุ่ม DBSCAN[34] เพื่อปรับปรุงการแสดงผล กลุ่มจุดจะถูกลดขนาดผ่านการกรองตาราง voxel เพื่อลดจำนวนจุดและความซับซ้อนในการคำนวณ ในขณะที่ยังคงรักษาโครงสร้างเชิงพื้นที่ของข้อมูลให้จัดการได้ DBSCAN จัดกลุ่มจุดที่อยู่ใกล้ชิดกันในขณะที่ทำเครื่องหมายจุดที่อยู่โดดเดี่ยวในพื้นที่ความหนาแน่นต่ำว่าเป็นสัญญาณรบกวน ในขั้นตอนหลังการจัดกลุ่ม กลุ่มที่ใหญ่ที่สุดมักจะสอดคล้องกับวัตถุหลักที่สนใจภายในกลุ่มจุดจะถูกระบุ สิ่งนี้ช่วยกรองสัญญาณรบกวนและจุดที่ไม่เกี่ยวข้อง ทำให้เกิดการแสดงผลที่สะอาดขึ้นของวัตถุที่สนใจ

\ ตำแหน่งของวัตถุในพื้นที่ 3 มิติถูกกำหนดโดยการคำนวณทิศทางของกล่องขอบเขต ซึ่งให้การแสดงผลเชิงพื้นที่ที่กระชับของตำแหน่งและขนาดของวัตถุในพื้นที่ 3 มิติ จากนั้นผลลัพธ์แผนที่ 3 มิติจะถูกเริ่มต้นด้วยชุดโหนดเริ่มต้น ซึ่งรวมถึงคุณลักษณะการฝัง ข้อมูลกลุ่มจุด กล่องขอบเขต และจำนวนจุดในกลุ่มจุดที่เกี่ยวข้องกับแต่ละโหนด แต่ละโหนดยังรวมถึงข้อมูลแหล่งที่มาเพื่ออำนวยความสะดวกในการติดตามแหล่งที่มาของข้อมูลและการเชื่อมโยงระหว่างโหนดและภาพ 2 มิติที่เกี่ยวข้อง

\ 3.3.2. การอัปเดตแบบเพิ่มขึ้นของ O3D-SIM

\ หลังจากเริ่มต้นฉาก เราอัปเดตการแสดงผลด้วยข้อมูลจากภาพใหม่ กระบวนการนี้ทำให้มั่นใจว่าฉาก 3 มิติของเรายังคงทันสมัยและแม่นยำเมื่อมีข้อมูลเพิ่มเติม มันวนซ้ำผ่านแต่ละภาพในลำดับภาพ สำหรับแต่ละภาพใหม่ ข้อมูลวัตถุหลายชิ้นจะถูกสกัดและฉากจะถูกอัปเดต

\ วัตถุจะถูกตรวจจับสำหรับแต่ละภาพใหม่ และโหนดใหม่จะถูกสร้างเหมือนกับภาพเริ่มต้น โหนดชั่วคราวเหล่านี้มีข้อมูล 3 มิติสำหรับวัตถุที่ตรวจพบใหม่ซึ่งต้องถูกรวมเข้ากับฉากที่มีอยู่หรือเพิ่มเป็นโหนดใหม่ ความคล้ายคลึงระหว่างโหนดฉากที่ตรวจพบใหม่และที่มีอยู่ถูกกำหนดโดยการรวมความคล้ายคลึงทางภาพ ซึ่งได้มาจากคุณลักษณะการฝัง และความคล้ายคลึงเชิงพื้นที่ (เรขาคณิต) ซึ่งได้มาจากการซ้อนทับกลุ่มจุด เพื่อสร้างมาตรวัดความคล้ายคลึงรวม หากมาตรวัดนี้เกินเกณฑ์ที่กำหนดไว้ล่วงหน้า การตรวจจับใหม่จะถือว่าสอดคล้องกับวัตถุที่มีอยู่ในฉาก โหนดที่ตรวจพบใหม่จะถูกรวมเข้ากับโหนดฉากที่มีอยู่หรือเพิ่มเป็นโหนดใหม่

\ การรวมเกี่ยวข้องกับการบูรณาการกลุ่มจุดและการเฉลี่ยคุณลักษณะการฝัง ค่าเฉลี่ยถ่วงน้ำหนักของการฝัง CLIP และ DINO จะถูกคำนวณ โดยพิจารณาการมีส่วนร่วมจากข้อมูลคีย์แหล่งที่มา โดยให้ความสำคัญกับโหนดที่มีตัวระบุแหล่งที่มามากกว่า หากต้องเพิ่มโหนดใหม่ จะถูกรวมเข้าไปในพจนานุกรมฉาก

\ การปรับปรุงฉากเกิดขึ้นเมื่อวัตถุจากทุกภาพในลำดับอินพุตถูกเพิ่มแล้ว กระบวนการนี้รวมโหนดที่แสดงถึงวัตถุทางกายภาพเดียวกันแต่เดิมถูกระบุแยกกันเนื่องจากการบดบัง การเปลี่ยนมุมมอง หรือปัจจัยที่คล้ายกัน มันใช้เมทริกซ์การซ้อนทับเพื่อระบุโหนดที่ใช้พื้นที่ร่วมกันและรวมเข้าด้วยกันอย่างมีเหตุผลเป็นโหนดเดียว ฉากจะถูกทำให้สมบูรณ์โดยการทิ้งโหนดที่ไม่ผ่านเกณฑ์จำนวนจุดขั้นต่ำหรือเกณฑ์การตรวจจับ สิ่งนี้ส่งผลให้เกิดการแสดงผลฉากสุดท้ายที่ได้รับการปรับปรุงและเหมาะสมที่สุด - แผนที่อินสแตนซ์เชิงความหมาย 3 มิติแบบเปิด หรือที่เรียกว่า O3D-SIM

\

:::info ผู้เขียน:

(1) Laksh Nanwani, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย; ผู้เขียนคนนี้มีส่วนร่วมเท่าเทียมกันในงานนี้;

(2) Kumaraditya Gupta, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย;

(3) Aditya Mathur, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย; ผู้เขียนคนนี้มีส่วนร่วมเท่าเทียมกันในงานนี้;

(4) Swayam Agrawal, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย;

(5) A.H. Abdul Hafez, มหาวิทยาลัย Hasan Kalyoncu, Sahinbey, Gaziantep, ตุรกี;

(6) K. Madhava Krishna, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย

:::


:::info บทความนี้มีอยู่บน arxiv ภายใต้สัญญาอนุญาต CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International)

:::

\

โอกาสทางการตลาด
OpenLedger โลโก้
ราคา OpenLedger(OPEN)
$0.17934
$0.17934$0.17934
+0.88%
USD
OpenLedger (OPEN) กราฟราคาสด
ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC

คุณอาจชอบเช่นกัน

มุมมองราคา Binance Coin: BNB สามารถแตะ ATH ใหม่ได้ในไตรมาสที่ 4 ปี 2026 หรือไม่?

มุมมองราคา Binance Coin: BNB สามารถแตะ ATH ใหม่ได้ในไตรมาสที่ 4 ปี 2026 หรือไม่?

ในขณะที่ชื่อเดิมยังคงครองส่วนแบ่งเงินทุนที่ใหญ่ที่สุด แต่ความสนใจของชุมชนกำลังเริ่มเปลี่ยนแปลง หลายคนกำลังมองข้าม range-bound ในปัจจุบัน
แชร์
Techbullion2026/04/06 22:49
ช่วงโอกาส $0.000022: เลือกควบคุม BlockDAG แทนการแข่งขันตลาดของ XRP และ Pi Network

ช่วงโอกาส $0.000022: เลือกควบคุม BlockDAG แทนการแข่งขันตลาดของ XRP และ Pi Network

ตลาดคริปโตในช่วงต้นปี 2026 ถูกกำหนดโดยการแบ่งแยกที่น่าสนใจระหว่างการฟื้นตัวของผู้เล่นเดิมและผู้เข้าสู่ตลาดใหม่ ในขณะที่ผู้เล่นที่มีชื่อเสียงกำลังนำทางเทคนิคที่ซับซ้อน
แชร์
Blockonomi2026/04/06 23:00
แอปเปิลถอด Bitchat ออกจากแอปสโตร์ในจีน

แอปเปิลถอด Bitchat ออกจากแอปสโตร์ในจีน

โพสต์เรื่อง Apple ดึง Bitchat ออกจาก App Store ของจีนปรากฏบน BitcoinEthereumNews.com การแจ้งให้ลบออก การรับรองแบบผกผัน มหาเศรษฐีด้านเทคโนโลยี Jack Dorsey
แชร์
BitcoinEthereumNews2026/04/06 23:17

ข่าวสดตลอด 24/7

มากกว่า

PRL $30,000 + 15,000 USDT

PRL $30,000 + 15,000 USDTPRL $30,000 + 15,000 USDT

ฝาก & เทรด PRL เพื่อเพิ่มรางวัลของคุณ!