在计算机视觉与机器人领域,视觉传感器(如摄像头、深度相机)的坐标系系统是理解图像数据、实现三维重建与空间感知的基础。许多初学者在面对像素坐标、相机坐标、世界坐标等概念时容易混淆,本文将系统梳理视觉传感器中常见的坐标系及其转换关系,帮助读者构建清晰的数学与物理框架。
视觉传感器通常涉及四个核心坐标系:像素坐标系、图像坐标系、相机坐标系和世界坐标系。每个坐标系都有其特定的定义与作用。
像素坐标系以图像的左上角为原点,横轴向右为u轴,纵轴向下为v轴。坐标单位为像素,直接对应图像存储的矩阵行列。一张1920×1080的图像中,点(u,v)表示第u列、第v行的像素位置。像素坐标系是离散的,便于计算机处理,但缺乏物理尺度信息。
图像坐标系建立在物理成像平面上,原点为图像中心(光轴与成像平面的交点),x轴和y轴分别平行于像素坐标系的u轴和v轴,但单位转换为毫米或厘米等物理单位。从像素坐标到图像坐标的转换涉及内参矩阵,包括焦距(fx, fy)和主点偏移(cx, cy)。公式为:x = (u - cx) / fx, y = (v - cy) / fy。这一转换将离散像素映射到连续的物理平面,是后续三维计算的关键步骤。
第三,相机坐标系以相机光心为原点,Z轴沿光轴方向指向场景,X轴和Y轴分别平行于图像坐标系的x轴和y轴。该坐标系描述物体相对于相机的位置,单位通常为米。从图像坐标到相机坐标的转换需要引入深度信息Zc,关系为:Xc = x Zc, Yc = y Zc。对于单目相机,Zc未知,需通过多视角或先验知识估计;而深度相机可直接提供Zc值。
世界坐标系是全局参考系,原点可任意定义(如场景中的固定点),用于描述物体在真实空间中的绝对位置。从相机坐标到世界坐标的转换通过外参矩阵实现,包括旋转矩阵R和平移向量t,公式为:P_w = R P_c + t。外参反映了相机在世界中的姿态与位置,可通过标定获得。
坐标转换的完整链条为:像素坐标 → 图像坐标 → 相机坐标 → 世界坐标。这一过程在视觉应用中无处不在,例如在自动驾驶中,摄像头捕捉的车辆图像需转换为世界坐标以规划路径;在AR应用中,虚拟物体需根据相机姿态叠加到真实场景。
理解坐标系还需注意传感器类型的影响。对于RGB-D相机,深度信息简化了三维重建;而对于鱼眼或全景相机,内参模型更为复杂,涉及畸变校正。多传感器融合(如相机与IMU)中,坐标系对齐是保证数据一致性的前提。
实践中,坐标系的标定至关重要。内参标定常用张正友棋盘法,外参标定则需已知世界坐标的标定物。误差会累积在转换链中,因此高精度标定是视觉系统可靠性的保障。
视觉传感器的坐标系是连接二维图像与三维世界的桥梁。掌握其转换逻辑,不仅能深化对视觉原理的理解,更能为SLAM、三维检测、机器人导航等应用奠定坚实基础。随着视觉技术的普及,这一基础框架的重要性将日益凸显。