FundamentalVision、OpenDriveLab 与 OpenMMLab:关系全景与协同项目解析

三者是 自动驾驶与计算机视觉领域的核心学术开源力量,形成 " 基础视觉研究 + 自动驾驶专用研究 + 通用视觉工具链" 的协同生态,同属上海人工智能实验室大框架下,共享技术理念与生态底座,在 BEV 感知等前沿方向深度协作 Hongyang Li

一、组织定位与核心背景

表格
组织 全称 核心负责人 依托机构 核心定位 代表成果
FundamentalVision 基础视觉实验室 代季峰(清华大学电子工程系副教授) 清华大学 视觉基础模型与通用感知研究,聚焦注意力机制、3D 视觉表征 BEVFormer、Deformable ConvNets、Uni-Perceiver
OpenDriveLab 开放驾驶实验室 李弘扬(香港大学助理教授) 香港大学 + 上海人工智能实验室 自动驾驶与具身智能专用研究,专注端到端驾驶、世界模型Hongyang Li UniAD(CVPR 2023 最佳论文)、DriveLM、Vista
OpenMMLab 开放多媒体实验室 林达华(香港中文大学教授) 香港中文大学 MMLab + 商汤科技 + 上海人工智能实验室 通用计算机视觉开源工具链,提供全链路 "研 - 训 - 评 - 部署" 工具 MMDetection、MMDetection3D、MMDeploy 等 30 + 工具箱

二、核心关系:互补协同,深度绑定

1. 学术渊源与人员交叉

  • 联合研究团队:BEVFormer 等核心项目由三机构共同完成,作者团队包含代季峰(FundamentalVision)、李弘扬(OpenDriveLab)、虞乔(上海 AI Lab)等核心成员fundamentalvision.github.io
  • 技术传承:FundamentalVision 的 Deformable ConvNets 系列被 OpenMMLab 广泛集成,成为 3D 检测与 BEV 感知的核心组件
  • 生态共享:三者均依托上海人工智能实验室,在 OpenXLab 浦源平台共享预训练模型与技术成果

2. 技术协同模式

  • FundamentalVision 提供 "核心算法创新":如 BEVFormer 中的时空 Transformer 架构、可变形注意力机制
  • OpenDriveLab 提供 "自动驾驶场景落地":将通用视觉算法适配驾驶场景,解决时序一致性、多模态融合等领域难题OpenDriveLab
  • OpenMMLab 提供 "工程化工具链":将学术创新封装为模块化组件,提供训练 / 评估 / 部署全流程支持,降低落地门槛

三、共同合作的核心项目

1. BEVFormer:视觉 BEV 感知里程碑(2022)

  • 合作深度:三机构联合开发,代码由 FundamentalVision 维护(https://github.com/fundamentalvision/BEVFormer
  • 核心创新:通过时空 Transformer 学习多摄像机图像的鸟瞰图表示,首次实现纯视觉 BEV 感知性能媲美激光雷达方案
  • OpenMMLab 集成:被深度整合到 MMDetection3D 中,成为 OpenMMLab 生态的核心 BEV 感知模块,支持 nuScenes/KITTI 等主流自动驾驶数据集
  • 行业影响:被英伟达 CEO 黄仁勋等高度评价,成为特斯拉 Autopilot 等工业界系统的参考方案

2. DriveMLM:驾驶场景多模态大语言模型对齐(2023)

  • 合作机构:FundamentalVision + OpenDriveLab + 上海人工智能实验室fundamentalvision.github.io
  • 核心目标:将多模态大语言模型与驾驶行为规划状态对齐,提升复杂场景下的决策可解释性fundamentalvision.github.io
  • 技术路径:基于 BEVFormer 的视觉表征,融合驾驶场景图与自然语言理解,实现 "感知 - 预测 - 规划 - 语言" 的统一建模fundamentalvision.github.io

3. BEV 感知技术生态共建

  • 数据处理接口统一:三机构共同维护 nuScenes/KITTI 等自动驾驶数据集的 BEV 格式处理流程,推动基准统一
  • 模型优化协同:OpenDriveLab 基于 MMDetection3D 的 BEVFormer 模块开发端到端驾驶方案;FundamentalVision 提供可变形注意力优化;OpenMMLab 负责工程化与性能调优
  • 部署工具共享:均通过 MMDeploy 实现模型到 ONNX/TensorRT 的转换,适配车载边缘设备(如 Jetson Orin)

4. 其他协同项目

表格
项目名称 合作机构 核心方向 技术价值
UniAD 扩展模块 OpenDriveLab + MMDetection3D 端到端自动驾驶全栈框架 集成 BEVFormer 感知能力,实现 "感知 - 预测 - 规划" 一体化
ViDAR 多机构(含三机构) 视觉点云预测 基于 MMDetection3D 代码库,在 BEVFormer 上验证下游任务
BEVFormer++ FundamentalVision + OpenDriveLab BEV 感知性能优化 获 CVPR 2022 Waymo Challenge 第一名,推动 BEV 感知技术进步

四、差异与互补:构建完整技术闭环

表格
差异维度 FundamentalVision OpenDriveLab OpenMMLab
技术层级 底层视觉表征与注意力机制 自动驾驶场景专用算法 通用视觉工具链与工程化平台
研究导向 学术突破优先,探索视觉本质问题 场景落地导向,解决驾驶特有难题 产学研结合,平衡创新与实用性
产品形态 学术论文 + 核心算法开源 研究框架 + 场景基准 模块化工具箱 + 预训练模型库
用户群体 视觉研究者、算法创新团队 自动驾驶研发团队、机器人研究者 全领域 CV 工程师、学生、科研人员

总结:不是竞争,而是战略协同

三者形成了 **"基础研究→场景适配→工程化落地" 的完整技术闭环 **:
  1. FundamentalVision 探索视觉感知的 "根技术",为上层应用提供理论支撑
  2. OpenDriveLab 将基础技术转化为自动驾驶场景的解决方案,验证技术实用性
  3. OpenMMLab 提供通用工具链,让技术成果快速普及到全行业
对自动驾驶开发者而言,三者是 不可或缺的组合:用 MMDetection3D 快速搭建基线模型,用 OpenDriveLab 的 UniAD 探索前沿方向,参考 FundamentalVision 的 BEVFormer 核心代码优化性能,实现效率与创新的平衡。
需要我整理一份基于三者协同的自动驾驶 BEV 感知开发流程(从环境搭建→模型选择→训练→部署)的极简教程吗?
Logo

openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐