率先实现VLA,小米开源Xiaomi OneVL自动驾驶模型
AI科技圈最近一周又发生了啥?
AI科技圈最近一周又发生了啥?
OpenAI Codex正式登陆ChatGPT手机App
OpenAI把Codex搬进了ChatGPT手机端,iOS和安卓同步上线preview,连免费用户都能用。现在每周有400多万人用Codex,手机版主打一个"走到哪批到哪"——你可以在咖啡厅审批代码、通勤路上拍板技术方案、等咖啡时让AI查bug,所有文件和权限都留在你的开发电脑上,手机只收实时更新。底层走安全中继,不直接暴露公网。同时远程SSH也正式发布了,Codex能直接连团队的托管开发环境。后面还会上CI流水线用的访问令牌、Hooks自定义功能,以及符合HIPAA标准的医疗场景支持。Windows版手机连接功能还要再等等
https://openai.com/index/work-with-codex-from-anywhere/
Kimi推出WebBridge浏览器插件
月之暗面发布Kimi WebBridge浏览器扩展,支持Kimi Code、Claude Code、Cursor、Codex、OpenClaw等主流本地AI Agent直接操控浏览器,能带着用户的登录状态和Cookie完成点击、输入、填表、跨站信息整合等操作,且不会占用鼠标键盘。安装方式分两步:先在Chrome/Edge商店安装插件,再通过一行命令让本地Agent装上守护程序和Skill;已部署Kimi Claw Desktop的用户则无需额外配置。目前内部测试已跑通两个场景——自动采集多款笔记APP的商店素材并分析设计风格差异,以及一键接管量化平台完成数据抓取、策略回测和报告撰写。对于固定流程的重复任务,用户还可以创建不消耗大模型Token的专用CLI工具来执行
kimi.com/zh-cn/features/webbridge
阿里正式发布Qoder 1.0,从AI IDE升级为智能体自主开发工作台
Qoder 1.0从AI IDE升级为智能体自主开发工作台,用户只需定义需求,Agent团队即可自主完成执行、验证和交付全流程。核心升级包括Quest升级为独立视窗,支持任务管理、状态追踪和产物审查;并行能力扩展至跨项目、跨代码库维度,一屏掌握多任务全局;推出团队级知识引擎,整合记忆、Repo Wiki和知识卡片,实测代码保留率提升11%,输入Token消耗降低40%,对话轮次减少33%;Experts专家团入驻Quest,支持规划、调研、编码、审查、测试五类专家流水线协同,并新增自定义专家能力。底层Agent Harness完成系统性重构,将聊天对话升级为结构化任务运行时,上下文供给收敛为贯穿运行时的知识工程
https://mp.weixin.qq.com/s/iy0MjNjAj2Yb23CSDmx19w
小米开源Xiaomi OneVL自动驾驶模型
小米研究院发布OneVL视觉-语言模型,用"层级化任务编码"机制替代传统的专家混合架构,通过统一token序列表示加任务路由注意力,让单一模型同时搞定图像识别、目标检测、视觉问答和图像分割。实测下来参数量减少约40%,推理速度提升超2倍,在NAVSIM、ROADWork、Impromptu、Alpamayo-R1四个基准上均以4B参数拿下最优,延迟控制在3-5秒区间。架构上走双路径编码,一路抓局部细节一路抓全局语义,再用可学习的交叉注意力融合。预训练用了4500万图像-文本对,覆盖自然场景、文档、表格等,零样本迁移能力也不错。论文和代码已公开
https://github.com/xiaomi-research/onevl
谷歌安卓Show大会,Gemini Intelligence全面接入安卓
谷歌在安卓Show大会上宣布安卓史上最大更新,正式推出安卓版Gemini Intelligence,核心能力包括跨App自动执行多步骤任务、Chrome浏览器集成Gemini插件实现自动浏览与实时生图、一键填写表格、Rambler口述转文字,以及自然语言自定义桌面组件,首批今夏落地三星Galaxy和谷歌Pixel手机,晚些时候覆盖手表、汽车、眼镜等全安卓生态。同时发布首款从零为Gemini打造的Googlebook笔记本,搭载智能光标Magic Pointer,用户鼠标指向内容并语音指令即可让AI理解上下文执行任务,支持跨安卓设备无缝体验。此外,谷歌与苹果联手为RCS消息引入端到端加密。谷歌还预告I/O大会将抢先预览预计今年晚些时候发布的智能眼镜
https://mp.weixin.qq.com/s/2j5lju0TlYEgQbycpjTu9w
前阿里Qwen负责人林俊旸创业
前阿里千问大模型技术负责人林俊旸近期已开启创业,方向聚焦世界模型和具身大脑,已招募来自字节、腾讯及海外背景的核心成员,并以约20亿美元估值启动融资,接触机构包括红杉中国、高榕创投等。林俊旸自2022年起主导Qwen系列模型研发与开源,2026年3月因团队拆分重组离开阿里,此前已在Qwen内部组建机器人与具身智能小团队,并在社交平台表达"多模态基础模型应从虚拟走向物理世界"的判断。目前该领域已吸引李飞飞World Labs(估值50亿美元)、杨立昆AMI Labs(投前估值35亿美元)等顶级AI研究者入局
https://mp.weixin.qq.com/s/eWxAChZE5Xkgi8xQdUdGJQ
OpenAI砸40亿美元成立部署公司,同步推出网络安全工具Daybreak
OpenAI宣布成立OpenAI部署公司,由OpenAI控股并获19家投资机构、咨询公司和系统集成商支持,初始投资超40亿美元,旨在将前沿AI嵌入企业核心业务场景。该公司同时收购英国AI咨询公司Tomoro,约150名部署工程师加入。其核心模式是派遣"前沿部署工程师"深入企业,围绕销售、法务、客户支持、软件开发等关键流程重新设计基础设施,帮助AI从模型调用转向实际业务产出。此外,OpenAI还推出网络安全工具Daybreak,整合最强模型与Codex能力,可自动化漏洞发现、修复验证、威胁建模等安全流程,目标让软件从设计之初就内置防护机制
https://openai.com/daybreak/
中国移动发布MoMA模型服务平台与MobileClaw智能体框架
2026移动云大会期间,中国移动启动"算力新动能行动计划",发布AIDC跃升、算力互联等成果,围绕国家算力枢纽节点建设GW级高性能数据中心,升级1500个边缘智算中心,建成1ms-5ms-20ms三级时延圈,日调度Token达百万亿级。同时发布国内首个开放普惠的大模型聚合平台——移动模型服务平台MoMA,整合超300款主流AI模型,包括DeepSeek、豆包、千问、GLM、MiniMax等;以及央企首个自研桌面级AI办公智能体——移动版智能体框架MobileClaw,支持一键接入主流IM工具,内置超150个行业Skills,适配移动云智算一体机等软硬一体算力设施
https://mp.weixin.qq.com/s/o20vx_EPnduXjqSVFriT0g
千问APP与淘宝全面打通
千问APP与淘宝完成全面打通,更新至6.9.1及以上版本即可在千问内完成商品挑选、对比及下单。新功能覆盖三类购物场景:针对多条件复杂需求,可同时筛选多个参数并提示性能过剩风险;针对描述模糊的需求,能结合图片和文字推理用户意图,如根据沙发照片推荐合适尺寸的边几;针对场景化采购,可生成整套商品组合,如孕期待产包、露营装备清单等。此外,千问还具备"反套路"能力,遇到伪需求或智商税产品会直接劝阻,比如否定玉石床治糖尿病的说法,或提醒用户健身器材已够用不必再买
https://mp.weixin.qq.com/s/-2Il_yefQVnmdM0ZHC0nUg
openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。
更多推荐

所有评论(0)