บทคัดย่อและ 1 บทนำ
งานวิจัยที่เกี่ยวข้อง
2.1. การนำทางด้วยภาพและภาษา
2.2. ความเข้าใจฉากเชิงความหมายและการแบ่งส่วนวัตถุ
2.3. การสร้างฉาก 3 มิติ
ระเบียบวิธี
3.1. การเก็บรวบรวมข้อมูล
3.2. ข้อมูลเชิงความหมายแบบเปิดจากภาพ
3.3. การสร้างการแสดงผล 3 มิติแบบเปิด
3.4. การนำทางด้วยภาษา
การทดลอง
4.1. การประเมินผลเชิงปริมาณ
4.2. ผลลัพธ์เชิงคุณภาพ
บทสรุปและงานในอนาคต คำชี้แจง และเอกสารอ้างอิง
เพื่อสร้าง O3D-SIM ให้สมบูรณ์ เราจะต่อยอดจากการสกัดคุณลักษณะของวัตถุแต่ละชิ้นโดยการฉายข้อมูลวัตถุไปยังพื้นที่ 3 มิติ การจัดกลุ่ม และการเชื่อมโยงวัตถุจากหลายภาพเพื่อสร้างการแสดงผลฉาก 3 มิติที่ครอบคลุม กระบวนการฉายข้อมูลเชิงความหมายไปยังพื้นที่ 3 มิติและการปรับปรุงแผนที่แสดงไว้ในรูปที่ 3
\ 3.3.1. การเริ่มต้น O3D-SIM
\ แผนที่ 3 มิติถูกสร้างขึ้นในตอนแรกโดยใช้ภาพที่เลือก ซึ่งทำหน้าที่เป็นกรอบอ้างอิงสำหรับการเริ่มต้นการแสดงผลฉากของเรา ขั้นตอนนี้สร้างโครงสร้างพื้นฐานของฉาก 3 มิติของเรา ซึ่งจะถูกเพิ่มเติมด้วยข้อมูลจากภาพต่อๆ ไปเพื่อเพิ่มความซับซ้อนและรายละเอียดของฉาก
\ ข้อมูลสำหรับวัตถุในฉาก 3 มิติถูกจัดระเบียบเป็นโหนดในพจนานุกรม ซึ่งเริ่มต้นเป็นค่าว่าง วัตถุจะถูกระบุจากภาพเริ่มต้นพร้อมกับข้อมูลที่เกี่ยวข้องซึ่งครอบคลุมคุณลักษณะการฝังและข้อมูลเกี่ยวกับหน้ากากของวัตถุ สำหรับวัตถุแต่ละชิ้นที่เห็นในภาพ กลุ่มจุด 3 มิติจะถูกสร้างขึ้นโดยใช้ข้อมูลความลึกที่มีอยู่และหน้ากากของวัตถุ การสร้างกลุ่มจุดนี้เกี่ยวข้องกับการแมปพิกเซล 2 มิติไปยังพื้นที่ 3 มิติ โดยอาศัยพารามิเตอร์ภายในของกล้องและค่าความลึก จากนั้นตำแหน่งของกล้องจะถูกใช้เพื่อจัดตำแหน่งกลุ่มจุดให้ถูกต้องในระบบพิกัดโลก เพื่อปรับปรุงการแสดงผลฉากของเรา การกรองพื้นหลังจะลบองค์ประกอบที่ระบุว่าเป็นพื้นหลัง เช่น ผนังหรือพื้น องค์ประกอบเหล่านี้จะถูกยกเว้นจากการประมวลผลเพิ่มเติม โดยเฉพาะในขั้นตอนการจัดกลุ่ม เนื่องจากไม่ใช่จุดโฟกัสหลักของการแสดงผลฉากของเรา
\ ชุดกลุ่มจุดของวัตถุจะถูกประมวลผลเพิ่มเติมโดยใช้การจัดกลุ่ม DBSCAN[34] เพื่อปรับปรุงการแสดงผล กลุ่มจุดจะถูกลดขนาดผ่านการกรองตาราง voxel เพื่อลดจำนวนจุดและความซับซ้อนในการคำนวณ ในขณะที่ยังคงรักษาโครงสร้างเชิงพื้นที่ของข้อมูลให้จัดการได้ DBSCAN จัดกลุ่มจุดที่อยู่ใกล้ชิดกันในขณะที่ทำเครื่องหมายจุดที่อยู่โดดเดี่ยวในพื้นที่ความหนาแน่นต่ำว่าเป็นสัญญาณรบกวน ในขั้นตอนหลังการจัดกลุ่ม กลุ่มที่ใหญ่ที่สุดมักจะสอดคล้องกับวัตถุหลักที่สนใจภายในกลุ่มจุดจะถูกระบุ สิ่งนี้ช่วยกรองสัญญาณรบกวนและจุดที่ไม่เกี่ยวข้อง ทำให้เกิดการแสดงผลที่สะอาดขึ้นของวัตถุที่สนใจ
\ ตำแหน่งของวัตถุในพื้นที่ 3 มิติถูกกำหนดโดยการคำนวณทิศทางของกล่องขอบเขต ซึ่งให้การแสดงผลเชิงพื้นที่ที่กระชับของตำแหน่งและขนาดของวัตถุในพื้นที่ 3 มิติ จากนั้นผลลัพธ์แผนที่ 3 มิติจะถูกเริ่มต้นด้วยชุดโหนดเริ่มต้น ซึ่งรวมถึงคุณลักษณะการฝัง ข้อมูลกลุ่มจุด กล่องขอบเขต และจำนวนจุดในกลุ่มจุดที่เกี่ยวข้องกับแต่ละโหนด แต่ละโหนดยังรวมถึงข้อมูลแหล่งที่มาเพื่ออำนวยความสะดวกในการติดตามแหล่งที่มาของข้อมูลและการเชื่อมโยงระหว่างโหนดและภาพ 2 มิติที่เกี่ยวข้อง
\ 3.3.2. การอัปเดตแบบเพิ่มขึ้นของ O3D-SIM
\ หลังจากเริ่มต้นฉาก เราอัปเดตการแสดงผลด้วยข้อมูลจากภาพใหม่ กระบวนการนี้ทำให้มั่นใจว่าฉาก 3 มิติของเรายังคงทันสมัยและแม่นยำเมื่อมีข้อมูลเพิ่มเติม มันวนซ้ำผ่านแต่ละภาพในลำดับภาพ สำหรับแต่ละภาพใหม่ ข้อมูลวัตถุหลายชิ้นจะถูกสกัดและฉากจะถูกอัปเดต
\ วัตถุจะถูกตรวจจับสำหรับแต่ละภาพใหม่ และโหนดใหม่จะถูกสร้างเหมือนกับภาพเริ่มต้น โหนดชั่วคราวเหล่านี้มีข้อมูล 3 มิติสำหรับวัตถุที่ตรวจพบใหม่ซึ่งต้องถูกรวมเข้ากับฉากที่มีอยู่หรือเพิ่มเป็นโหนดใหม่ ความคล้ายคลึงระหว่างโหนดฉากที่ตรวจพบใหม่และที่มีอยู่ถูกกำหนดโดยการรวมความคล้ายคลึงทางภาพ ซึ่งได้มาจากคุณลักษณะการฝัง และความคล้ายคลึงเชิงพื้นที่ (เรขาคณิต) ซึ่งได้มาจากการซ้อนทับกลุ่มจุด เพื่อสร้างมาตรวัดความคล้ายคลึงรวม หากมาตรวัดนี้เกินเกณฑ์ที่กำหนดไว้ล่วงหน้า การตรวจจับใหม่จะถือว่าสอดคล้องกับวัตถุที่มีอยู่ในฉาก โหนดที่ตรวจพบใหม่จะถูกรวมเข้ากับโหนดฉากที่มีอยู่หรือเพิ่มเป็นโหนดใหม่
\ การรวมเกี่ยวข้องกับการบูรณาการกลุ่มจุดและการเฉลี่ยคุณลักษณะการฝัง ค่าเฉลี่ยถ่วงน้ำหนักของการฝัง CLIP และ DINO จะถูกคำนวณ โดยพิจารณาการมีส่วนร่วมจากข้อมูลคีย์แหล่งที่มา โดยให้ความสำคัญกับโหนดที่มีตัวระบุแหล่งที่มามากกว่า หากต้องเพิ่มโหนดใหม่ จะถูกรวมเข้าไปในพจนานุกรมฉาก
\ การปรับปรุงฉากเกิดขึ้นเมื่อวัตถุจากทุกภาพในลำดับอินพุตถูกเพิ่มแล้ว กระบวนการนี้รวมโหนดที่แสดงถึงวัตถุทางกายภาพเดียวกันแต่เดิมถูกระบุแยกกันเนื่องจากการบดบัง การเปลี่ยนมุมมอง หรือปัจจัยที่คล้ายกัน มันใช้เมทริกซ์การซ้อนทับเพื่อระบุโหนดที่ใช้พื้นที่ร่วมกันและรวมเข้าด้วยกันอย่างมีเหตุผลเป็นโหนดเดียว ฉากจะถูกทำให้สมบูรณ์โดยการทิ้งโหนดที่ไม่ผ่านเกณฑ์จำนวนจุดขั้นต่ำหรือเกณฑ์การตรวจจับ สิ่งนี้ส่งผลให้เกิดการแสดงผลฉากสุดท้ายที่ได้รับการปรับปรุงและเหมาะสมที่สุด - แผนที่อินสแตนซ์เชิงความหมาย 3 มิติแบบเปิด หรือที่เรียกว่า O3D-SIM
\
:::info ผู้เขียน:
(1) Laksh Nanwani, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย; ผู้เขียนคนนี้มีส่วนร่วมเท่าเทียมกันในงานนี้;
(2) Kumaraditya Gupta, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย;
(3) Aditya Mathur, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย; ผู้เขียนคนนี้มีส่วนร่วมเท่าเทียมกันในงานนี้;
(4) Swayam Agrawal, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย;
(5) A.H. Abdul Hafez, มหาวิทยาลัย Hasan Kalyoncu, Sahinbey, Gaziantep, ตุรกี;
(6) K. Madhava Krishna, สถาบันเทคโนโลยีสารสนเทศนานาชาติ, ไฮเดอราบาด, อินเดีย
:::
:::info บทความนี้มีอยู่บน arxiv ภายใต้สัญญาอนุญาต CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International)
:::
\


