ซื้อคริปโต ตลาด สปอต ฟิวเจอร์สGOLD Earn ศูนย์กิจกรรม

เพิ่มเติม

O3D-SIM สร้างขึ้นโดยการฉายหน้ากากและการฝังตัว 2D ไปยัง 3D โดยใช้ DBSCAN สำหรับการปรับปรุงเบื้องต้นO3D-SIM สร้างขึ้นโดยการฉายหน้ากากและการฝังตัว 2D ไปยัง 3D โดยใช้ DBSCAN สำหรับการปรับปรุงเบื้องต้น

การสร้างการแสดงผล 3D แบบเปิด: การรวมคุณลักษณะและการผสมผสานทางเรขาคณิตและความหมาย

แหล่งที่มา: Hackernoon

2025/12/15 01:00

2 นาทีในการอ่าน

แชร์

OPEN$0.17934+5.86%

หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ crypto.news@mexc.com

ตารางลิงก์

บทคัดย่อและ 1 บทนำ

งานวิจัยที่เกี่ยวข้อง

2.1. การนำทางด้วยภาพและภาษา

2.2. ความเข้าใจฉากเชิงความหมายและการแบ่งส่วนวัตถุ

2.3. การสร้างฉาก 3 มิติ
ระเบียบวิธี

3.1. การเก็บรวบรวมข้อมูล

3.2. ข้อมูลเชิงความหมายแบบเปิดจากภาพ

3.3. การสร้างการแสดงผล 3 มิติแบบเปิด

3.4. การนำทางด้วยภาษา
การทดลอง

4.1. การประเมินผลเชิงปริมาณ

4.2. ผลลัพธ์เชิงคุณภาพ
บทสรุปและงานในอนาคต คำชี้แจง และเอกสารอ้างอิง

3.3. การสร้างการแสดงผล 3 มิติแบบเปิด

เพื่อสร้าง O3D-SIM ให้สมบูรณ์ เราจะต่อยอดจากการสกัดคุณลักษณะของวัตถุแต่ละชิ้นโดยการฉายข้อมูลวัตถุไปยังพื้นที่ 3 มิติ การจัดกลุ่ม และการเชื่อมโยงวัตถุจากหลายภาพเพื่อสร้างการแสดงผลฉาก 3 มิติที่ครอบคลุม กระบวนการฉายข้อมูลเชิงความหมายไปยังพื้นที่ 3 มิติและการปรับปรุงแผนที่แสดงไว้ในรูปที่ 3

\ 3.3.1. การเริ่มต้น O3D-SIM

\ แผนที่ 3 มิติถูกสร้างขึ้นในตอนแรกโดยใช้ภาพที่เลือก ซึ่งทำหน้าที่เป็นกรอบอ้างอิงสำหรับการเริ่มต้นการแสดงผลฉากของเรา ขั้นตอนนี้สร้างโครงสร้างพื้นฐานของฉาก 3 มิติของเรา ซึ่งจะถูกเพิ่มเติมด้วยข้อมูลจากภาพต่อๆ ไปเพื่อเพิ่มความซับซ้อนและรายละเอียดของฉาก

\ ข้อมูลสำหรับวัตถุในฉาก 3 มิติถูกจัดระเบียบเป็นโหนดในพจนานุกรม ซึ่งเริ่มต้นเป็นค่าว่าง วัตถุจะถูกระบุจากภาพเริ่มต้นพร้อมกับข้อมูลที่เกี่ยวข้องซึ่งครอบคลุมคุณลักษณะการฝังและข้อมูลเกี่ยวกับหน้ากากของวัตถุ สำหรับวัตถุแต่ละชิ้นที่เห็นในภาพ กลุ่มจุด 3 มิติจะถูกสร้างขึ้นโดยใช้ข้อมูลความลึกที่มีอยู่และหน้ากากของวัตถุ การสร้างกลุ่มจุดนี้เกี่ยวข้องกับการแมปพิกเซล 2 มิติไปยังพื้นที่ 3 มิติ โดยอาศัยพารามิเตอร์ภายในของกล้องและค่าความลึก จากนั้นตำแหน่งของกล้องจะถูกใช้เพื่อจัดตำแหน่งกลุ่มจุดให้ถูกต้องในระบบพิกัดโลก เพื่อปรับปรุงการแสดงผลฉากของเรา การกรองพื้นหลังจะลบองค์ประกอบที่ระบุว่าเป็นพื้นหลัง เช่น ผนังหรือพื้น องค์ประกอบเหล่านี้จะถูกยกเว้นจากการประมวลผลเพิ่มเติม โดยเฉพาะในขั้นตอนการจัดกลุ่ม เนื่องจากไม่ใช่จุดโฟกัสหลักของการแสดงผลฉากของเรา

\ ชุดกลุ่มจุดของวัตถุจะถูกประมวลผลเพิ่มเติมโดยใช้การจัดกลุ่ม DBSCAN[34] เพื่อปรับปรุงการแสดงผล กลุ่มจุดจะถูกลดขนาดผ่านการกรองตาราง voxel เพื่อลดจำนวนจุดและความซับซ้อนในการคำนวณ ในขณะที่ยังคงรักษาโครงสร้างเชิงพื้นที่ของข้อมูลให้จัดการได้ DBSCAN จัดกลุ่มจุดที่อยู่ใกล้ชิดกันในขณะที่ทำเครื่องหมายจุดที่อยู่โดดเดี่ยวในพื้นที่ความหนาแน่นต่ำว่าเป็นสัญญาณรบกวน ในขั้นตอนหลังการจัดกลุ่ม กลุ่มที่ใหญ่ที่สุดมักจะสอดคล้องกับวัตถุหลักที่สนใจภายในกลุ่มจุดจะถูกระบุ สิ่งนี้ช่วยกรองสัญญาณรบกวนและจุดที่ไม่เกี่ยวข้อง ทำให้เกิดการแสดงผลที่สะอาดขึ้นของวัตถุที่สนใจ

\ ตำแหน่งของวัตถุในพื้นที่ 3 มิติถูกกำหนดโดยการคำนวณทิศทางของกล่องขอบเขต ซึ่งให้การแสดงผลเชิงพื้นที่ที่กระชับของตำแหน่งและขนาดของวัตถุในพื้นที่ 3 มิติ จากนั้นผลลัพธ์แผนที่ 3 มิติจะถูกเริ่มต้นด้วยชุดโหนดเริ่มต้น ซึ่งรวมถึงคุณลักษณะการฝัง ข้อมูลกลุ่มจุด กล่องขอบเขต และจำนวนจุดในกลุ่มจุดที่เกี่ยวข้องกับแต่ละโหนด แต่ละโหนดยังรวมถึงข้อมูลแหล่งที่มาเพื่ออำนวยความสะดวกในการติดตามแหล่งที่มาของข้อมูลและการเชื่อมโยงระหว่างโหนดและภาพ 2 มิติที่เกี่ยวข้อง

\ 3.3.2. การอัปเดตแบบเพิ่มขึ้นของ O3D-SIM

\ หลังจากเริ่มต้นฉาก เราอัปเดตการแสดงผลด้วยข้อมูลจากภาพใหม่ กระบวนการนี้ทำให้มั่นใจว่าฉาก 3 มิติของเรายังคงทันสมัยและแม่นยำเมื่อมีข้อมูลเพิ่มเติม มันวนซ้ำผ่านแต่ละภาพในลำดับภาพ สำหรับแต่ละภาพใหม่ ข้อมูลวัตถุหลายชิ้นจะถูกสกัดและฉากจะถูกอัปเดต

\ วัตถุจะถูกตรวจจับสำหรับแต่ละภาพใหม่ และโหนดใหม่จะถูกสร้างเหมือนกับภาพเริ่มต้น โหนดชั่วคราวเหล่านี้มีข้อมูล 3 มิติสำหรับวัตถุที่ตรวจพบใหม่ซึ่งต้องถูกรวมเข้ากับฉากที่มีอยู่หรือเพิ่มเป็นโหนดใหม่ ความคล้ายคลึงระหว่างโหนดฉากที่ตรวจพบใหม่และที่มีอยู่ถูกกำหนดโดยการรวมความคล้ายคลึงทางภาพ ซึ่งได้มาจากคุณลักษณะการฝัง และความคล้ายคลึงเชิงพื้นที่ (เรขาคณิต) ซึ่งได้มาจากการซ้อนทับกลุ่มจุด เพื่อสร้างมาตรวัดความคล้ายคลึงรวม หากมาตรวัดนี้เกินเกณฑ์ที่กำหนดไว้ล่วงหน้า การตรวจจับใหม่จะถือว่าสอดคล้องกับวัตถุที่มีอยู่ในฉาก โหนดที่ตรวจพบใหม่จะถูกรวมเข้ากับโหนดฉากที่มีอยู่หรือเพิ่มเป็นโหนดใหม่

\ การรวมเกี่ยวข้องกับการบูรณาการกลุ่มจุดและการเฉลี่ยคุณลักษณะการฝัง ค่าเฉลี่ยถ่วงน้ำหนักของการฝัง CLIP และ DINO จะถูกคำนวณ โดยพิจารณาการมีส่วนร่วมจากข้อมูลคีย์แหล่งที่มา โดยให้ความสำคัญกับโหนดที่มีตัวระบุแหล่งที่มามากกว่า หากต้องเพิ่มโหนดใหม่ จะถูกรวมเข้าไปในพจนานุกรมฉาก

\ การปรับปรุงฉากเกิดขึ้นเมื่อวัตถุจากทุกภาพในลำดับอินพุตถูกเพิ่มแล้ว กระบวนการนี้รวมโหนดที่แสดงถึงวัตถุทางกายภาพเดียวกันแต่เดิมถูกระบุแยกกันเนื่องจากการบดบัง การเปลี่ยนมุมมอง หรือปัจจัยที่คล้ายกัน มันใช้เมทริกซ์การซ้อนทับเพื่อระบุโหนดที่ใช้พื้นที่ร่วมกันและรวมเข้าด้วยกันอย่างมีเหตุผลเป็นโหนดเดียว ฉากจะถูกทำให้สมบูรณ์โดยการทิ้งโหนดที่ไม่ผ่านเกณฑ์จำนวนจุดขั้นต่ำหรือเกณฑ์การตรวจจับ สิ่งนี้ส่งผลให้เกิดการแสดงผลฉากสุดท้ายที่ได้รับการปรับปรุงและเหมาะสมที่สุด - แผนที่อินสแตนซ์เชิงความหมาย 3 มิติแบบเปิด หรือที่เรียกว่า O3D-SIM

:::info ผู้เขียน:

(1) Laksh Nanwani, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย; ผู้เขียนคนนี้มีส่วนร่วมเท่าเทียมกันในงานนี้;

(2) Kumaraditya Gupta, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย;

(3) Aditya Mathur, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย; ผู้เขียนคนนี้มีส่วนร่วมเท่าเทียมกันในงานนี้;

(4) Swayam Agrawal, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย;

(5) A.H. Abdul Hafez, มหาวิทยาลัย Hasan Kalyoncu, Sahinbey, Gaziantep, ตุรกี;

(6) K. Madhava Krishna, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย

:::

:::info บทความนี้มีอยู่บน arxiv ภายใต้สัญญาอนุญาต CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International)

:::

โอกาสทางการตลาด

ราคา OpenLedger(OPEN)

$0.17934

$0.17934$0.17934

+0.88%

USD

OpenLedger (OPEN) กราฟราคาสด

รับ 20 USDT ในเวลาเพียง 1 นาที

ฝากเงิน $100 เพื่อปลดล็อก $300 ในโพสิชัน GOLD

ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC