【AIGC行业前沿】2026年5月AIGC行业前沿模型发布动态（5月10-5月17）

近期AI领域迎来多项重要更新：百度发布文心5.1大模型，参数效率显著提升；HiDream开源8B图像生成模型HiDream-O1-Image；Thinking Machines推出实时交互模型TML-Interaction-Small；OpenBMB开源端侧多模态模型MiniCPM-V 4.6。此外，Claude Opus 4.7快速模式上线API，Jina AI发布四模态嵌入模型，Percept

骑着拖拉机去旅行

319人浏览 · 2026-05-24 15:08:28

骑着拖拉机去旅行 · 2026-05-24 15:08:28 发布

完整目录

百度文心 5.1 大模型正式上线
HiDream-ai 开源 8B 统一图像生成模型 HiDream-O1-Image
Thinking Machines Lab 发布实时多模态交互模型 TML-Interaction-Small
OpenBMB 开源端侧多模态模型 MiniCPM-V 4.6
Claude Opus 4.7 快速模式上线 API 及多款第三方工具
Jina AI 发布四模态通用嵌入模型 jina-embeddings-v5-omni
Perceptron 推出视频与具身推理专用模型 Perceptron Mk1
小米开源自动驾驶 VLA 框架 OneVL
上海人工智能实验室发布科学多模态模型 Intern-S2-Preview
Boson AI 推出实时数字人基础模型 Higgs Avatar v1

详细内容

1. 百度文心 5.1 大模型正式上线

核心内容
百度官宣文心 5.1 大模型正式发布，用户可通过文心官网、飞桨星河社区 Playground 体验使用。新版本在保留旗舰级智能水准的前提下，大幅优化参数利用率、压缩训练成本，目前已接入 ISEKAI ZERO、Mulan AI 等数十款创作类智能体平台。

关键性能与技术

整体参数量缩减至文心 5.0 的 1/3，激活参数量降至原先 1/2，预训练成本仅为同规模行业模型的 6%
Arena 搜索榜单得分 1223 分，位列全球第四、国内第一
智能体能力超越 DeepSeek-V4-Pro，性能对标国际顶尖闭源模型
工具辅助数学竞赛评测 AIME26 得分 99.6，成绩仅次于 Gemini 3.1 Pro
搭载多维度弹性预训练、分离式全异步强化学习、多教师在线策略蒸馏多重技术架构

相关链接
https://yiyan.baidu.com/blog/zh/posts/ernie-5.1-0508-release/

2. HiDream-ai 开源 8B 统一图像生成模型 HiDream-O1-Image

核心内容
HiDream-ai 团队开源代号 “Peanut” 的原生统一图像生成模型 HiDream-O1-Image，分为原版未蒸馏 full、精简蒸馏 Dev 两个版本，同步配套推理式提示词智能体。项目代码与模型权重基于 MIT 许可协议对外开放。

关键性能与技术

80 亿参数规格，采用像素级统一 Transformer 架构，无需额外搭配 VAE 与独立文本编码器
原生支持 2048×2048 超高分辨率绘图，适配文生图、图像编辑、个性化主体创作等场景
登陆 Artificial Analysis 文生图榜单位列第八，跻身主流开源图像模型行列
GenEval 评测得分 0.90，DPG-Bench 得分 89.83，综合实力优于 FLUX.2 [Dev]、Qwen-Image

相关链接
https://github.com/HiDream-ai/HiDream-O1-Image
https://huggingface.co/HiDream-ai/HiDream-O1-Image

3. Thinking Machines Lab 发布实时多模态交互模型 TML-Interaction-Small

核心内容
团队推出交互模型全新研发理念，将交互能力设定为模型原生属性，而非外置功能组件。TML-Interaction-Small 是首款兼顾高智能度与实时交互能力的模型，后续将限量开放研究体验权限。

关键性能与技术

276B 混合专家架构，单次推理激活参数仅 12B
采用时间对齐微轮转结构，以 200 毫秒为单位不间断处理音、视、文本数据流
FD-bench V1.5 评测均分 77.8，大幅领先 GPT-realtime-2.0 的 46.8 分
平均响应延迟低至 0.40 秒，在同类对比模型中响应速度最优
支持会话自主管理、音视频主动插话、多人并行对话、时间感知研判等交互功能

相关链接
https://thinkingmachines.ai/blog/interaction-models/

4. OpenBMB 开源端侧多模态模型 MiniCPM-V 4.6

核心内容
OpenBMB 推出 13 亿参数轻量化边缘多模态模型 MiniCPM-V 4.6，模型权重遵循 Apache 2.0 协议开源。模型针对消费级终端设备定制优化，可直接在 iOS、安卓、鸿蒙三大操作系统本地部署运行。

关键性能与技术

依托 SigLIP2-400M 视觉编码器 + Qwen3.5-0.8B 语言模型组合搭建
基于 LLaVA-UHD v4 架构设计，视觉编码计算量降幅超 50%
Artificial Analysis 智能指数得分 13，超越同基础模型版本，调用 token 成本降低 19 倍
支持 4 倍、16 倍混合视觉令牌压缩，可灵活平衡生成精度与运行速度
提供 GGUF、BNB、AWQ、GPTQ 多种量化格式，适配不同部署环境

相关链接
https://huggingface.co/openbmb/MiniCPM-V-4.6
https://github.com/OpenBMB/MiniCPM-V-edge-demo

5. Claude Opus 4.7 快速模式上线 API 及多款第三方工具

核心内容
Claude Opus 4.7 快速模式以研究预览形式上线官方 API 与 Claude Code，同时接入六款主流第三方应用。API 调用需要加入候补名单审核开通权限，Claude Code 端可手动启用该模式，后续将默认生效。

关键信息

运行速度为标准版本的 2.5 倍，调用成本则达到标准版 6 倍
官方建议常规业务场景依旧优先使用标准模式保障效果
支持接入平台：Cursor、Emergent Labs、FactoryAI、v0、Warp、Windsurf

相关链接
https://x.com/ClaudeDevs/status/2054299069804433576
https://x.com/cursor_ai/status/2054274305345618163

6. Jina AI 发布四模态通用嵌入模型 jina-embeddings-v5-omni

核心内容
Jina AI 全新打造 jina-embeddings-v5-omni 嵌入模型，首次实现文本、图像、音频、视频四类模态统一向量化处理。新版文本向量和旧版 v5-text 数据完全兼容，存量业务无需重建索引即可直接升级更替。

关键性能与技术

分为两大版本：small 约 1.57B 参数、1024 维向量、32K 上下文；nano 约 0.95B 参数、768 维向量、8K 上下文
采用冻结编码器搭配轻量化投影层结构，仅训练占总权重 0.35% 的投影模块
small 版本综合均分 53.93，性能接近体量高出 5.7 倍的 LCO-7B 模型
支持嵌套维度裁剪，可按需自定义向量维度大小
已上架 HuggingFace、官方 API、弹性推理服务平台

相关链接
https://jina.ai/news/jina-embeddings-v5-omni-multimodal-embeddings-for-text-image-audio-and-video
https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni

7. Perceptron 推出视频与具身推理专用模型 Perceptron Mk1

核心内容
Perceptron AI 推出闭源模型 Perceptron Mk1，聚焦视频解析与物理场景具身推理，可作为物理世界智能体的感知推理底层能力，适用于工业制造、机器人操控、智能安防等场景，目前可通过平台与 SDK 调用 API 服务。

关键性能与技术

最高支持 2 帧每秒视频处理速度，上下文窗口可达 32K 令牌
具备时序推理、时间锚点定位、场景目标统计、复杂图文识别、多摄像头联动像素级推理能力
推理水准对标 Gemini、GPT 系列顶尖模型
调用定价：输入每百万 token 0.15 美元，输出每百万 token 1.50 美元，资费低于 Gemini Flash Lite

相关链接
https://www.perceptron.inc/blog/introducing-perceptron-mk1

8. 小米开源自动驾驶 VLA 框架 OneVL

核心内容
小米具身智能团队开源自动驾驶视觉语言框架 OneVL，同步放出技术论文、模型权重与推理代码，训练代码后续逐步公开。该框架解决了显性思维链推理延迟偏高、隐性思维链识别精度不足的行业痛点。

关键性能与技术

基于 Qwen3-VL-4B-Instruct 底座开发，增设视觉、语言双辅助解码器
训练阶段监督隐性标记预测画面帧与思维文本，推理阶段删减解码器实现预填充加速
在 NAVSIM、ROADWork、Impromptu、APR1 四项测试集轨迹预测精度均位居前列
首款综合精度超越显性自回归思维链的隐性推理方案
推理耗时和简答类模型持平，相较显性思维链提速 1.5-2.3 倍

相关链接
https://github.com/xiaomi-research/onevl
https://arxiv.org/abs/2604.18486

9. 上海人工智能实验室发布科学多模态模型 Intern-S2-Preview

核心内容
上海人工智能实验室发布 35B 参数科学领域多模态基础模型 Intern-S2-Preview，模型文件、源码已在 HuggingFace、ModelScope、GitHub 平台开源共享。

关键性能与技术

科学任务处理能力可对标万亿参数规格的 Intern-S1-Pro 模型
开源模型中率先实现材料晶体结构生成，兼顾专业能力与通用交互能力
智能体综合能力在多项测评中显著提升
借助权重共享 MTP 结构搭配 KL 损失优化，提升生成通过率与输出速度
思维链压缩技术缩短回复篇幅，同时保留高阶推理实力

相关链接
https://github.com/InternLM/Intern-S1
https://huggingface.co/collections/internlm/intern-s2
https://chat.intern-ai.org.cn

10. Boson AI 推出实时数字人基础模型 Higgs Avatar v1

核心内容
Boson AI 上线实时虚拟数字人模型 Higgs Avatar v1，现阶段处于私有预览阶段，开放预约登记通道。模型和自研音频模型深度联动，为语音交互智能体打造动态人脸形象展示效果。

关键性能与技术

单张静态图片即可生成具备对话、聆听、反应能力的实时交互人脸
面部表情、唇形动作、头部姿态能够和语音内容精准同步
单帧画面生成耗时约 16 毫秒，满足实时对话帧率要求
单张 H100 显卡可同时承载 8 路数字人并发对话
技术演示中的数字人智能体支持实时打断对话、调取外部工具操作

相关链接
https://www.boson.ai/blog/higgs-avatar-v1
https://www.bilibili.com/video/BV1pB586fEap/

openvela 操作系统专为 AIoT 领域量身定制，以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势，已成为众多物联网设备和 AI 硬件的技术首选，涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐

cover

声音克隆小米大模型 OmniVoice 完整使用指南｜3 秒克隆人声｜支持 600 多种语言和中文方言详细安装教程

cover

智能进化觉醒！openvela trunk-5.5 发布：端侧 AI Agent 开源和多方位升级

小米开源 OmniVoice：3 秒克隆人声、600 种语言、中文吊打 ElevenLabs，免费商用！

ElevenLabs 能做的，OmniVoice 都能做。它免费、开源、支持本地部署，并覆盖 600+ 语言。600+ 语言Apache-2.0中文 WER 0.84%3 秒音频克隆人声。

所有评论(0)

查看更多评论

骑着拖拉机去旅行

@weixin_31588979

已为社区贡献1条内容