fundamentalvision和OpenDriveLab和OpenMMLab 三者之间的关系有什么共同合作的项目

luoganttcc

397人浏览 · 2026-03-06 13:33:33

luoganttcc · 2026-03-06 13:33:33 发布

FundamentalVision、OpenDriveLab 与 OpenMMLab：关系全景与协同项目解析

三者是 自动驾驶与计算机视觉领域的核心学术开源力量，形成 " 基础视觉研究 + 自动驾驶专用研究 + 通用视觉工具链" 的协同生态，同属上海人工智能实验室大框架下，共享技术理念与生态底座，在 BEV 感知等前沿方向深度协作 Hongyang Li 。

一、组织定位与核心背景

表格

组织	全称	核心负责人	依托机构	核心定位	代表成果
FundamentalVision	基础视觉实验室	代季峰（清华大学电子工程系副教授）	清华大学	视觉基础模型与通用感知研究，聚焦注意力机制、3D 视觉表征	BEVFormer、Deformable ConvNets、Uni-Perceiver
OpenDriveLab	开放驾驶实验室	李弘扬（香港大学助理教授）	香港大学 + 上海人工智能实验室	自动驾驶与具身智能专用研究，专注端到端驾驶、世界模型Hongyang Li	UniAD（CVPR 2023 最佳论文）、DriveLM、Vista
OpenMMLab	开放多媒体实验室	林达华（香港中文大学教授）	香港中文大学 MMLab + 商汤科技 + 上海人工智能实验室	通用计算机视觉开源工具链，提供全链路 "研 - 训 - 评 - 部署" 工具	MMDetection、MMDetection3D、MMDeploy 等 30 + 工具箱

二、核心关系：互补协同，深度绑定

1. 学术渊源与人员交叉

联合研究团队：BEVFormer 等核心项目由三机构共同完成，作者团队包含代季峰（FundamentalVision）、李弘扬（OpenDriveLab）、虞乔（上海 AI Lab）等核心成员fundamentalvision.github.io
技术传承：FundamentalVision 的 Deformable ConvNets 系列被 OpenMMLab 广泛集成，成为 3D 检测与 BEV 感知的核心组件
生态共享：三者均依托上海人工智能实验室，在 OpenXLab 浦源平台共享预训练模型与技术成果

2. 技术协同模式

FundamentalVision 提供 "核心算法创新"：如 BEVFormer 中的时空 Transformer 架构、可变形注意力机制
OpenDriveLab 提供 "自动驾驶场景落地"：将通用视觉算法适配驾驶场景，解决时序一致性、多模态融合等领域难题OpenDriveLab
OpenMMLab 提供 "工程化工具链"：将学术创新封装为模块化组件，提供训练 / 评估 / 部署全流程支持，降低落地门槛

三、共同合作的核心项目

1. BEVFormer：视觉 BEV 感知里程碑（2022）

合作深度：三机构联合开发，代码由 FundamentalVision 维护（https://github.com/fundamentalvision/BEVFormer）
核心创新：通过时空 Transformer 学习多摄像机图像的鸟瞰图表示，首次实现纯视觉 BEV 感知性能媲美激光雷达方案
OpenMMLab 集成：被深度整合到 MMDetection3D 中，成为 OpenMMLab 生态的核心 BEV 感知模块，支持 nuScenes/KITTI 等主流自动驾驶数据集
行业影响：被英伟达 CEO 黄仁勋等高度评价，成为特斯拉 Autopilot 等工业界系统的参考方案

2. DriveMLM：驾驶场景多模态大语言模型对齐（2023）

合作机构：FundamentalVision + OpenDriveLab + 上海人工智能实验室fundamentalvision.github.io
核心目标：将多模态大语言模型与驾驶行为规划状态对齐，提升复杂场景下的决策可解释性fundamentalvision.github.io
技术路径：基于 BEVFormer 的视觉表征，融合驾驶场景图与自然语言理解，实现 "感知 - 预测 - 规划 - 语言" 的统一建模fundamentalvision.github.io

3. BEV 感知技术生态共建

数据处理接口统一：三机构共同维护 nuScenes/KITTI 等自动驾驶数据集的 BEV 格式处理流程，推动基准统一
模型优化协同：OpenDriveLab 基于 MMDetection3D 的 BEVFormer 模块开发端到端驾驶方案；FundamentalVision 提供可变形注意力优化；OpenMMLab 负责工程化与性能调优
部署工具共享：均通过 MMDeploy 实现模型到 ONNX/TensorRT 的转换，适配车载边缘设备（如 Jetson Orin）

4. 其他协同项目

表格

项目名称	合作机构	核心方向	技术价值
UniAD 扩展模块	OpenDriveLab + MMDetection3D	端到端自动驾驶全栈框架	集成 BEVFormer 感知能力，实现 "感知 - 预测 - 规划" 一体化
ViDAR	多机构（含三机构）	视觉点云预测	基于 MMDetection3D 代码库，在 BEVFormer 上验证下游任务
BEVFormer++	FundamentalVision + OpenDriveLab	BEV 感知性能优化	获 CVPR 2022 Waymo Challenge 第一名，推动 BEV 感知技术进步

四、差异与互补：构建完整技术闭环

表格

差异维度	FundamentalVision	OpenDriveLab	OpenMMLab
技术层级	底层视觉表征与注意力机制	自动驾驶场景专用算法	通用视觉工具链与工程化平台
研究导向	学术突破优先，探索视觉本质问题	场景落地导向，解决驾驶特有难题	产学研结合，平衡创新与实用性
产品形态	学术论文 + 核心算法开源	研究框架 + 场景基准	模块化工具箱 + 预训练模型库
用户群体	视觉研究者、算法创新团队	自动驾驶研发团队、机器人研究者	全领域 CV 工程师、学生、科研人员

总结：不是竞争，而是战略协同

三者形成了 **"基础研究→场景适配→工程化落地" 的完整技术闭环 **：

FundamentalVision 探索视觉感知的 "根技术"，为上层应用提供理论支撑
OpenDriveLab 将基础技术转化为自动驾驶场景的解决方案，验证技术实用性
OpenMMLab 提供通用工具链，让技术成果快速普及到全行业

对自动驾驶开发者而言，三者是 不可或缺的组合：用 MMDetection3D 快速搭建基线模型，用 OpenDriveLab 的 UniAD 探索前沿方向，参考 FundamentalVision 的 BEVFormer 核心代码优化性能，实现效率与创新的平衡。

需要我整理一份基于三者协同的自动驾驶 BEV 感知开发流程（从环境搭建→模型选择→训练→部署）的极简教程吗？

openvela 操作系统专为 AIoT 领域量身定制，以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势，已成为众多物联网设备和 AI 硬件的技术首选，涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐

cover

Arm Ethos‑U65：YOLOv8n 模型准备与 Vela 编译

cover

Arm Ethos-U65 介绍（1）架构、数据格式与算子

UniAD_v2 模型NPU适配

参考github网址：https://github.com/OpenDriveLab/UniAD/tree/v2.0参考readme：https://gitcode.com/Ascend/DrivingSDK/blob/master/model_examples/UniAD/README.md。

所有评论(0)

查看更多评论

luoganttcc

已为社区贡献11条内容