率先实现VLA，小米开源Xiaomi OneVL自动驾驶模型

AI科技圈最近一周又发生了啥？

啥都生

380人浏览 · 2026-05-18 08:45:00

啥都生 · 2026-05-18 08:45:00 发布

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

AI科技圈最近一周又发生了啥？

OpenAI Codex正式登陆ChatGPT手机App

OpenAI把Codex搬进了ChatGPT手机端，iOS和安卓同步上线preview，连免费用户都能用。现在每周有400多万人用Codex，手机版主打一个"走到哪批到哪"——你可以在咖啡厅审批代码、通勤路上拍板技术方案、等咖啡时让AI查bug，所有文件和权限都留在你的开发电脑上，手机只收实时更新。底层走安全中继，不直接暴露公网。同时远程SSH也正式发布了，Codex能直接连团队的托管开发环境。后面还会上CI流水线用的访问令牌、Hooks自定义功能，以及符合HIPAA标准的医疗场景支持。Windows版手机连接功能还要再等等

https://openai.com/index/work-with-codex-from-anywhere/

Kimi推出WebBridge浏览器插件

月之暗面发布Kimi WebBridge浏览器扩展，支持Kimi Code、Claude Code、Cursor、Codex、OpenClaw等主流本地AI Agent直接操控浏览器，能带着用户的登录状态和Cookie完成点击、输入、填表、跨站信息整合等操作，且不会占用鼠标键盘。安装方式分两步：先在Chrome/Edge商店安装插件，再通过一行命令让本地Agent装上守护程序和Skill；已部署Kimi Claw Desktop的用户则无需额外配置。目前内部测试已跑通两个场景——自动采集多款笔记APP的商店素材并分析设计风格差异，以及一键接管量化平台完成数据抓取、策略回测和报告撰写。对于固定流程的重复任务，用户还可以创建不消耗大模型Token的专用CLI工具来执行

kimi.com/zh-cn/features/webbridge

阿里正式发布Qoder 1.0，从AI IDE升级为智能体自主开发工作台

Qoder 1.0从AI IDE升级为智能体自主开发工作台，用户只需定义需求，Agent团队即可自主完成执行、验证和交付全流程。核心升级包括Quest升级为独立视窗，支持任务管理、状态追踪和产物审查；并行能力扩展至跨项目、跨代码库维度，一屏掌握多任务全局；推出团队级知识引擎，整合记忆、Repo Wiki和知识卡片，实测代码保留率提升11%，输入Token消耗降低40%，对话轮次减少33%；Experts专家团入驻Quest，支持规划、调研、编码、审查、测试五类专家流水线协同，并新增自定义专家能力。底层Agent Harness完成系统性重构，将聊天对话升级为结构化任务运行时，上下文供给收敛为贯穿运行时的知识工程

https://mp.weixin.qq.com/s/iy0MjNjAj2Yb23CSDmx19w

小米开源Xiaomi OneVL自动驾驶模型

小米研究院发布OneVL视觉-语言模型，用"层级化任务编码"机制替代传统的专家混合架构，通过统一token序列表示加任务路由注意力，让单一模型同时搞定图像识别、目标检测、视觉问答和图像分割。实测下来参数量减少约40%，推理速度提升超2倍，在NAVSIM、ROADWork、Impromptu、Alpamayo-R1四个基准上均以4B参数拿下最优，延迟控制在3-5秒区间。架构上走双路径编码，一路抓局部细节一路抓全局语义，再用可学习的交叉注意力融合。预训练用了4500万图像-文本对，覆盖自然场景、文档、表格等，零样本迁移能力也不错。论文和代码已公开

https://github.com/xiaomi-research/onevl

谷歌安卓Show大会，Gemini Intelligence全面接入安卓

谷歌在安卓Show大会上宣布安卓史上最大更新，正式推出安卓版Gemini Intelligence，核心能力包括跨App自动执行多步骤任务、Chrome浏览器集成Gemini插件实现自动浏览与实时生图、一键填写表格、Rambler口述转文字，以及自然语言自定义桌面组件，首批今夏落地三星Galaxy和谷歌Pixel手机，晚些时候覆盖手表、汽车、眼镜等全安卓生态。同时发布首款从零为Gemini打造的Googlebook笔记本，搭载智能光标Magic Pointer，用户鼠标指向内容并语音指令即可让AI理解上下文执行任务，支持跨安卓设备无缝体验。此外，谷歌与苹果联手为RCS消息引入端到端加密。谷歌还预告I/O大会将抢先预览预计今年晚些时候发布的智能眼镜

https://mp.weixin.qq.com/s/2j5lju0TlYEgQbycpjTu9w

前阿里Qwen负责人林俊旸创业

前阿里千问大模型技术负责人林俊旸近期已开启创业，方向聚焦世界模型和具身大脑，已招募来自字节、腾讯及海外背景的核心成员，并以约20亿美元估值启动融资，接触机构包括红杉中国、高榕创投等。林俊旸自2022年起主导Qwen系列模型研发与开源，2026年3月因团队拆分重组离开阿里，此前已在Qwen内部组建机器人与具身智能小团队，并在社交平台表达"多模态基础模型应从虚拟走向物理世界"的判断。目前该领域已吸引李飞飞World Labs（估值50亿美元）、杨立昆AMI Labs（投前估值35亿美元）等顶级AI研究者入局

https://mp.weixin.qq.com/s/eWxAChZE5Xkgi8xQdUdGJQ

OpenAI砸40亿美元成立部署公司，同步推出网络安全工具Daybreak

OpenAI宣布成立OpenAI部署公司，由OpenAI控股并获19家投资机构、咨询公司和系统集成商支持，初始投资超40亿美元，旨在将前沿AI嵌入企业核心业务场景。该公司同时收购英国AI咨询公司Tomoro，约150名部署工程师加入。其核心模式是派遣"前沿部署工程师"深入企业，围绕销售、法务、客户支持、软件开发等关键流程重新设计基础设施，帮助AI从模型调用转向实际业务产出。此外，OpenAI还推出网络安全工具Daybreak，整合最强模型与Codex能力，可自动化漏洞发现、修复验证、威胁建模等安全流程，目标让软件从设计之初就内置防护机制

https://openai.com/daybreak/

中国移动发布MoMA模型服务平台与MobileClaw智能体框架

2026移动云大会期间，中国移动启动"算力新动能行动计划"，发布AIDC跃升、算力互联等成果，围绕国家算力枢纽节点建设GW级高性能数据中心，升级1500个边缘智算中心，建成1ms-5ms-20ms三级时延圈，日调度Token达百万亿级。同时发布国内首个开放普惠的大模型聚合平台——移动模型服务平台MoMA，整合超300款主流AI模型，包括DeepSeek、豆包、千问、GLM、MiniMax等；以及央企首个自研桌面级AI办公智能体——移动版智能体框架MobileClaw，支持一键接入主流IM工具，内置超150个行业Skills，适配移动云智算一体机等软硬一体算力设施

https://mp.weixin.qq.com/s/o20vx_EPnduXjqSVFriT0g

千问APP与淘宝全面打通

千问APP与淘宝完成全面打通，更新至6.9.1及以上版本即可在千问内完成商品挑选、对比及下单。新功能覆盖三类购物场景：针对多条件复杂需求，可同时筛选多个参数并提示性能过剩风险；针对描述模糊的需求，能结合图片和文字推理用户意图，如根据沙发照片推荐合适尺寸的边几；针对场景化采购，可生成整套商品组合，如孕期待产包、露营装备清单等。此外，千问还具备"反套路"能力，遇到伪需求或智商税产品会直接劝阻，比如否定玉石床治糖尿病的说法，或提醒用户健身器材已够用不必再买

https://mp.weixin.qq.com/s/-2Il_yefQVnmdM0ZHC0nUg

openvela

openvela 操作系统专为 AIoT 领域量身定制，以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势，已成为众多物联网设备和 AI 硬件的技术首选，涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐

智能进化觉醒！openvela trunk-5.5 发布：端侧 AI Agent 开源和多方位升级

openvela

小米开源 OmniVoice：3 秒克隆人声、600 种语言、中文吊打 ElevenLabs，免费商用！

ElevenLabs 能做的，OmniVoice 都能做。它免费、开源、支持本地部署，并覆盖 600+ 语言。600+ 语言Apache-2.0中文 WER 0.84%3 秒音频克隆人声。

openvela

[特殊字符] 东芝天氟地水 + 宏云智能 → 米家/HA 统一控制，智能家居整合方案 - 手残党求骂醒版

💡 终端设备📡 协议转换硬件🧠 Home Assistant 控制中枢👤 控制入口Zigbee 2.4GHzWiFi/蓝牙 LANRS485/Modbus 有线无线 Mesh局域网直连专线通讯未来协议/API📱 HA Companion APP / 网页🗣️ 语音入口: 小爱/Siri/HA Assist🖥️ 墙面平板/Lovelace中控HA 核心引擎自动化引擎 & Node-RE