完整目录

  1. 百度文心 5.1 大模型正式上线

  2. HiDream-ai 开源 8B 统一图像生成模型 HiDream-O1-Image

  3. Thinking Machines Lab 发布实时多模态交互模型 TML-Interaction-Small

  4. OpenBMB 开源端侧多模态模型 MiniCPM-V 4.6

  5. Claude Opus 4.7 快速模式上线 API 及多款第三方工具

  6. Jina AI 发布四模态通用嵌入模型 jina-embeddings-v5-omni

  7. Perceptron 推出视频与具身推理专用模型 Perceptron Mk1

  8. 小米开源自动驾驶 VLA 框架 OneVL

  9. 上海人工智能实验室发布科学多模态模型 Intern-S2-Preview

  10. Boson AI 推出实时数字人基础模型 Higgs Avatar v1


详细内容

1. 百度文心 5.1 大模型正式上线

核心内容
百度官宣文心 5.1 大模型正式发布,用户可通过文心官网、飞桨星河社区 Playground 体验使用。新版本在保留旗舰级智能水准的前提下,大幅优化参数利用率、压缩训练成本,目前已接入 ISEKAI ZERO、Mulan AI 等数十款创作类智能体平台。

关键性能与技术

  • 整体参数量缩减至文心 5.0 的 1/3,激活参数量降至原先 1/2,预训练成本仅为同规模行业模型的 6%

  • Arena 搜索榜单得分 1223 分,位列全球第四、国内第一

  • 智能体能力超越 DeepSeek-V4-Pro,性能对标国际顶尖闭源模型

  • 工具辅助数学竞赛评测 AIME26 得分 99.6,成绩仅次于 Gemini 3.1 Pro

  • 搭载多维度弹性预训练、分离式全异步强化学习、多教师在线策略蒸馏多重技术架构

相关链接
https://yiyan.baidu.com/blog/zh/posts/ernie-5.1-0508-release/


2. HiDream-ai 开源 8B 统一图像生成模型 HiDream-O1-Image

核心内容
HiDream-ai 团队开源代号 “Peanut” 的原生统一图像生成模型 HiDream-O1-Image,分为原版未蒸馏 full、精简蒸馏 Dev 两个版本,同步配套推理式提示词智能体。项目代码与模型权重基于 MIT 许可协议对外开放。

关键性能与技术

  • 80 亿参数规格,采用像素级统一 Transformer 架构,无需额外搭配 VAE 与独立文本编码器

  • 原生支持 2048×2048 超高分辨率绘图,适配文生图、图像编辑、个性化主体创作等场景

  • 登陆 Artificial Analysis 文生图榜单位列第八,跻身主流开源图像模型行列

  • GenEval 评测得分 0.90,DPG-Bench 得分 89.83,综合实力优于 FLUX.2 [Dev]、Qwen-Image

相关链接
https://github.com/HiDream-ai/HiDream-O1-Image
https://huggingface.co/HiDream-ai/HiDream-O1-Image


3. Thinking Machines Lab 发布实时多模态交互模型 TML-Interaction-Small

核心内容
团队推出交互模型全新研发理念,将交互能力设定为模型原生属性,而非外置功能组件。TML-Interaction-Small 是首款兼顾高智能度与实时交互能力的模型,后续将限量开放研究体验权限。

关键性能与技术

  • 276B 混合专家架构,单次推理激活参数仅 12B

  • 采用时间对齐微轮转结构,以 200 毫秒为单位不间断处理音、视、文本数据流

  • FD-bench V1.5 评测均分 77.8,大幅领先 GPT-realtime-2.0 的 46.8 分

  • 平均响应延迟低至 0.40 秒,在同类对比模型中响应速度最优

  • 支持会话自主管理、音视频主动插话、多人并行对话、时间感知研判等交互功能

相关链接
https://thinkingmachines.ai/blog/interaction-models/


4. OpenBMB 开源端侧多模态模型 MiniCPM-V 4.6

核心内容
OpenBMB 推出 13 亿参数轻量化边缘多模态模型 MiniCPM-V 4.6,模型权重遵循 Apache 2.0 协议开源。模型针对消费级终端设备定制优化,可直接在 iOS、安卓、鸿蒙三大操作系统本地部署运行。

关键性能与技术

  • 依托 SigLIP2-400M 视觉编码器 + Qwen3.5-0.8B 语言模型组合搭建

  • 基于 LLaVA-UHD v4 架构设计,视觉编码计算量降幅超 50%

  • Artificial Analysis 智能指数得分 13,超越同基础模型版本,调用 token 成本降低 19 倍

  • 支持 4 倍、16 倍混合视觉令牌压缩,可灵活平衡生成精度与运行速度

  • 提供 GGUF、BNB、AWQ、GPTQ 多种量化格式,适配不同部署环境

相关链接
https://huggingface.co/openbmb/MiniCPM-V-4.6
https://github.com/OpenBMB/MiniCPM-V-edge-demo


5. Claude Opus 4.7 快速模式上线 API 及多款第三方工具

核心内容
Claude Opus 4.7 快速模式以研究预览形式上线官方 API 与 Claude Code,同时接入六款主流第三方应用。API 调用需要加入候补名单审核开通权限,Claude Code 端可手动启用该模式,后续将默认生效。

关键信息

  • 运行速度为标准版本的 2.5 倍,调用成本则达到标准版 6 倍

  • 官方建议常规业务场景依旧优先使用标准模式保障效果

  • 支持接入平台:Cursor、Emergent Labs、FactoryAI、v0、Warp、Windsurf

相关链接
https://x.com/ClaudeDevs/status/2054299069804433576
https://x.com/cursor_ai/status/2054274305345618163


6. Jina AI 发布四模态通用嵌入模型 jina-embeddings-v5-omni

核心内容
Jina AI 全新打造 jina-embeddings-v5-omni 嵌入模型,首次实现文本、图像、音频、视频四类模态统一向量化处理。新版文本向量和旧版 v5-text 数据完全兼容,存量业务无需重建索引即可直接升级更替。

关键性能与技术

  • 分为两大版本:small 约 1.57B 参数、1024 维向量、32K 上下文;nano 约 0.95B 参数、768 维向量、8K 上下文

  • 采用冻结编码器搭配轻量化投影层结构,仅训练占总权重 0.35% 的投影模块

  • small 版本综合均分 53.93,性能接近体量高出 5.7 倍的 LCO-7B 模型

  • 支持嵌套维度裁剪,可按需自定义向量维度大小

  • 已上架 HuggingFace、官方 API、弹性推理服务平台

相关链接
https://jina.ai/news/jina-embeddings-v5-omni-multimodal-embeddings-for-text-image-audio-and-video
https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni


7. Perceptron 推出视频与具身推理专用模型 Perceptron Mk1

核心内容
Perceptron AI 推出闭源模型 Perceptron Mk1,聚焦视频解析与物理场景具身推理,可作为物理世界智能体的感知推理底层能力,适用于工业制造、机器人操控、智能安防等场景,目前可通过平台与 SDK 调用 API 服务。

关键性能与技术

  • 最高支持 2 帧每秒视频处理速度,上下文窗口可达 32K 令牌

  • 具备时序推理、时间锚点定位、场景目标统计、复杂图文识别、多摄像头联动像素级推理能力

  • 推理水准对标 Gemini、GPT 系列顶尖模型

  • 调用定价:输入每百万 token 0.15 美元,输出每百万 token 1.50 美元,资费低于 Gemini Flash Lite

相关链接
https://www.perceptron.inc/blog/introducing-perceptron-mk1


8. 小米开源自动驾驶 VLA 框架 OneVL

核心内容
小米具身智能团队开源自动驾驶视觉语言框架 OneVL,同步放出技术论文、模型权重与推理代码,训练代码后续逐步公开。该框架解决了显性思维链推理延迟偏高、隐性思维链识别精度不足的行业痛点。

关键性能与技术

  • 基于 Qwen3-VL-4B-Instruct 底座开发,增设视觉、语言双辅助解码器

  • 训练阶段监督隐性标记预测画面帧与思维文本,推理阶段删减解码器实现预填充加速

  • 在 NAVSIM、ROADWork、Impromptu、APR1 四项测试集轨迹预测精度均位居前列

  • 首款综合精度超越显性自回归思维链的隐性推理方案

  • 推理耗时和简答类模型持平,相较显性思维链提速 1.5-2.3 倍

相关链接
https://github.com/xiaomi-research/onevl
https://arxiv.org/abs/2604.18486


9. 上海人工智能实验室发布科学多模态模型 Intern-S2-Preview

核心内容
上海人工智能实验室发布 35B 参数科学领域多模态基础模型 Intern-S2-Preview,模型文件、源码已在 HuggingFace、ModelScope、GitHub 平台开源共享。

关键性能与技术

  • 科学任务处理能力可对标万亿参数规格的 Intern-S1-Pro 模型

  • 开源模型中率先实现材料晶体结构生成,兼顾专业能力与通用交互能力

  • 智能体综合能力在多项测评中显著提升

  • 借助权重共享 MTP 结构搭配 KL 损失优化,提升生成通过率与输出速度

  • 思维链压缩技术缩短回复篇幅,同时保留高阶推理实力

相关链接
https://github.com/InternLM/Intern-S1
https://huggingface.co/collections/internlm/intern-s2
https://chat.intern-ai.org.cn


10. Boson AI 推出实时数字人基础模型 Higgs Avatar v1

核心内容
Boson AI 上线实时虚拟数字人模型 Higgs Avatar v1,现阶段处于私有预览阶段,开放预约登记通道。模型和自研音频模型深度联动,为语音交互智能体打造动态人脸形象展示效果。

关键性能与技术

  • 单张静态图片即可生成具备对话、聆听、反应能力的实时交互人脸

  • 面部表情、唇形动作、头部姿态能够和语音内容精准同步

  • 单帧画面生成耗时约 16 毫秒,满足实时对话帧率要求

  • 单张 H100 显卡可同时承载 8 路数字人并发对话

  • 技术演示中的数字人智能体支持实时打断对话、调取外部工具操作

相关链接
https://www.boson.ai/blog/higgs-avatar-v1
https://www.bilibili.com/video/BV1pB586fEap/

Logo

openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐