在增强现实和虚拟现实中,室内语义场景重建是一项具有挑战性的任务。由于室内场景的复杂性和遮挡问题,场景重建的质量受到限制。主要是因为难以估计场景的空间结构以及对物体位置推断的学习不足。
针对上述问题,中国科学院新疆生态与地理研究所包安明研究员团队提出将PesRec方法用于单张图像的室内语义场景重建。PesRec结合了新设计的空间布局估计器和3D物体检测器,以有效地从RGB图像中学习场景参数特征。该团队修改了一个物体网格生成器,通过点云优化增强了PesRec在重建室内遮挡物体方面的鲁棒性。利用分析的场景参数和空间结构,PesRec通过在估计的布局立方体中放置缩放到3D检测框的物体网格来重建室内场景。
PesRec方法包括三个子任务:空间布局估计网络(SLEN)、3D物体检测网络(3D-ODN)和局部密度网格网络(LDMN)。1SLEN模块从图像中估计2D-3D布局属性和相机姿态。3D-ODN模块检测物体的方向和3D边界框。LDMN模块基于检测到的3D边界框重建物体网格,并根据其相应的姿态将其缩放到正确的位置。实验结果表明,通过联合训练和推理这三个模块,PesRec在每个子任务上的性能得到了显著提升。
最终,PesRec在Pix3D数据集上的物体重建平均Chamfer距离为5.24 × 10^-3,在SUN RGB-D数据集上的3D物体检测mAP为53.61%,布局估计的3D IoU为79.7%。这些结果表明,PesRec通过联合训练空间布局估计、3D物体检测和网格重建模块,实现了高质量的场景重建。其创新的多任务学习方法和鲁棒的参数估计技术,为室内语义场景重建提供了新的解决方案。
相关成果以“PesRec: A parametric estimation method for indoor semantic scene reconstruction from a single image”为题,发表在International Journal of Applied Earth Observation and Geoinformation。中国科学院新疆生态与地理研究所硕士生曹兴文为论文第一作者。该研究得到国家自然科学基金项等项目的支持。