Manhattan World(曼哈顿世界)

  • “曼哈顿世界”(Manhattan World)是计算机视觉和机器人领域的一个几何假设,指的是一种场景结构假设,即场景中的物体主要沿着三个互相垂直的方向排列。

  • 这三个方向通常对应于:
    • 水平方向1(例如:x 轴)

    • 水平方向2(与 x 轴正交,例如:y 轴)

    • 垂直方向(例如:z 轴,竖直方向)

作用

  • 在计算机视觉中,曼哈顿世界假设常用于:
    • 三维重建(如用单张图像恢复三维结构)

    • 相机姿态估计

    • 消失点检测 (vanishing point detection)

    • SLAM(同步定位与地图构建)

    • 室内场景理解

  • 这个假设可以大大**简化问题建模和求解难度**,比如:
    • 如果知道一幅图像符合曼哈顿世界结构,就可以根据图像中出现的**三组平行线的消失点**来恢复相机的旋转矩阵。

    • 对于消失点检测,若假设场景为曼哈顿世界,就只需找到三组正交方向的消失点。

举例说明

  • 假设你拍了一张室内照片,场景是一个标准的房间:
    • 地板和天花板是水平的

    • 墙壁垂直地面

    • 桌子、门、窗户也都沿着这三个主方向对齐

  • 这个房间就是一个典型的“曼哈顿世界”。

拓展: 非曼哈顿世界(Non-Manhattan World)

  • 并不是所有场景都符合曼哈顿世界假设。例如:
    • 山地、森林、自然风景

    • 建筑风格复杂的城市(如巴黎或成都)

    • 室内有斜屋顶或异形设计

  • 为了解决这些情况,研究者提出了扩展版本,比如:
    • Atlanta World:允许多个方向,但每组仍成直角

    • Piecewise Manhattan World:局部区域满足曼哈顿世界,但整体不是

    • Non-Manhattan structures:完全不依赖正交结构,使用更通用的方法(如深度学习、几何优化)