【AIGC行业前沿】2026年5月AIGC行业前沿模型发布动态(5月10-5月17)
近期AI领域迎来多项重要更新:百度发布文心5.1大模型,参数效率显著提升;HiDream开源8B图像生成模型HiDream-O1-Image;Thinking Machines推出实时交互模型TML-Interaction-Small;OpenBMB开源端侧多模态模型MiniCPM-V 4.6。此外,Claude Opus 4.7快速模式上线API,Jina AI发布四模态嵌入模型,Percept
完整目录
-
百度文心 5.1 大模型正式上线
-
HiDream-ai 开源 8B 统一图像生成模型 HiDream-O1-Image
-
Thinking Machines Lab 发布实时多模态交互模型 TML-Interaction-Small
-
OpenBMB 开源端侧多模态模型 MiniCPM-V 4.6
-
Claude Opus 4.7 快速模式上线 API 及多款第三方工具
-
Jina AI 发布四模态通用嵌入模型 jina-embeddings-v5-omni
-
Perceptron 推出视频与具身推理专用模型 Perceptron Mk1
-
小米开源自动驾驶 VLA 框架 OneVL
-
上海人工智能实验室发布科学多模态模型 Intern-S2-Preview
-
Boson AI 推出实时数字人基础模型 Higgs Avatar v1
详细内容
1. 百度文心 5.1 大模型正式上线
核心内容
百度官宣文心 5.1 大模型正式发布,用户可通过文心官网、飞桨星河社区 Playground 体验使用。新版本在保留旗舰级智能水准的前提下,大幅优化参数利用率、压缩训练成本,目前已接入 ISEKAI ZERO、Mulan AI 等数十款创作类智能体平台。
关键性能与技术
-
整体参数量缩减至文心 5.0 的 1/3,激活参数量降至原先 1/2,预训练成本仅为同规模行业模型的 6%
-
Arena 搜索榜单得分 1223 分,位列全球第四、国内第一
-
智能体能力超越 DeepSeek-V4-Pro,性能对标国际顶尖闭源模型
-
工具辅助数学竞赛评测 AIME26 得分 99.6,成绩仅次于 Gemini 3.1 Pro
-
搭载多维度弹性预训练、分离式全异步强化学习、多教师在线策略蒸馏多重技术架构
相关链接
https://yiyan.baidu.com/blog/zh/posts/ernie-5.1-0508-release/
2. HiDream-ai 开源 8B 统一图像生成模型 HiDream-O1-Image
核心内容
HiDream-ai 团队开源代号 “Peanut” 的原生统一图像生成模型 HiDream-O1-Image,分为原版未蒸馏 full、精简蒸馏 Dev 两个版本,同步配套推理式提示词智能体。项目代码与模型权重基于 MIT 许可协议对外开放。
关键性能与技术
-
80 亿参数规格,采用像素级统一 Transformer 架构,无需额外搭配 VAE 与独立文本编码器
-
原生支持 2048×2048 超高分辨率绘图,适配文生图、图像编辑、个性化主体创作等场景
-
登陆 Artificial Analysis 文生图榜单位列第八,跻身主流开源图像模型行列
-
GenEval 评测得分 0.90,DPG-Bench 得分 89.83,综合实力优于 FLUX.2 [Dev]、Qwen-Image
相关链接
https://github.com/HiDream-ai/HiDream-O1-Image
https://huggingface.co/HiDream-ai/HiDream-O1-Image
3. Thinking Machines Lab 发布实时多模态交互模型 TML-Interaction-Small
核心内容
团队推出交互模型全新研发理念,将交互能力设定为模型原生属性,而非外置功能组件。TML-Interaction-Small 是首款兼顾高智能度与实时交互能力的模型,后续将限量开放研究体验权限。
关键性能与技术
-
276B 混合专家架构,单次推理激活参数仅 12B
-
采用时间对齐微轮转结构,以 200 毫秒为单位不间断处理音、视、文本数据流
-
FD-bench V1.5 评测均分 77.8,大幅领先 GPT-realtime-2.0 的 46.8 分
-
平均响应延迟低至 0.40 秒,在同类对比模型中响应速度最优
-
支持会话自主管理、音视频主动插话、多人并行对话、时间感知研判等交互功能
相关链接
https://thinkingmachines.ai/blog/interaction-models/
4. OpenBMB 开源端侧多模态模型 MiniCPM-V 4.6
核心内容
OpenBMB 推出 13 亿参数轻量化边缘多模态模型 MiniCPM-V 4.6,模型权重遵循 Apache 2.0 协议开源。模型针对消费级终端设备定制优化,可直接在 iOS、安卓、鸿蒙三大操作系统本地部署运行。
关键性能与技术
-
依托 SigLIP2-400M 视觉编码器 + Qwen3.5-0.8B 语言模型组合搭建
-
基于 LLaVA-UHD v4 架构设计,视觉编码计算量降幅超 50%
-
Artificial Analysis 智能指数得分 13,超越同基础模型版本,调用 token 成本降低 19 倍
-
支持 4 倍、16 倍混合视觉令牌压缩,可灵活平衡生成精度与运行速度
-
提供 GGUF、BNB、AWQ、GPTQ 多种量化格式,适配不同部署环境
相关链接
https://huggingface.co/openbmb/MiniCPM-V-4.6
https://github.com/OpenBMB/MiniCPM-V-edge-demo
5. Claude Opus 4.7 快速模式上线 API 及多款第三方工具
核心内容
Claude Opus 4.7 快速模式以研究预览形式上线官方 API 与 Claude Code,同时接入六款主流第三方应用。API 调用需要加入候补名单审核开通权限,Claude Code 端可手动启用该模式,后续将默认生效。
关键信息
-
运行速度为标准版本的 2.5 倍,调用成本则达到标准版 6 倍
-
官方建议常规业务场景依旧优先使用标准模式保障效果
-
支持接入平台:Cursor、Emergent Labs、FactoryAI、v0、Warp、Windsurf
相关链接
https://x.com/ClaudeDevs/status/2054299069804433576
https://x.com/cursor_ai/status/2054274305345618163
6. Jina AI 发布四模态通用嵌入模型 jina-embeddings-v5-omni
核心内容
Jina AI 全新打造 jina-embeddings-v5-omni 嵌入模型,首次实现文本、图像、音频、视频四类模态统一向量化处理。新版文本向量和旧版 v5-text 数据完全兼容,存量业务无需重建索引即可直接升级更替。
关键性能与技术
-
分为两大版本:small 约 1.57B 参数、1024 维向量、32K 上下文;nano 约 0.95B 参数、768 维向量、8K 上下文
-
采用冻结编码器搭配轻量化投影层结构,仅训练占总权重 0.35% 的投影模块
-
small 版本综合均分 53.93,性能接近体量高出 5.7 倍的 LCO-7B 模型
-
支持嵌套维度裁剪,可按需自定义向量维度大小
-
已上架 HuggingFace、官方 API、弹性推理服务平台
相关链接
https://jina.ai/news/jina-embeddings-v5-omni-multimodal-embeddings-for-text-image-audio-and-video
https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni
7. Perceptron 推出视频与具身推理专用模型 Perceptron Mk1
核心内容
Perceptron AI 推出闭源模型 Perceptron Mk1,聚焦视频解析与物理场景具身推理,可作为物理世界智能体的感知推理底层能力,适用于工业制造、机器人操控、智能安防等场景,目前可通过平台与 SDK 调用 API 服务。
关键性能与技术
-
最高支持 2 帧每秒视频处理速度,上下文窗口可达 32K 令牌
-
具备时序推理、时间锚点定位、场景目标统计、复杂图文识别、多摄像头联动像素级推理能力
-
推理水准对标 Gemini、GPT 系列顶尖模型
-
调用定价:输入每百万 token 0.15 美元,输出每百万 token 1.50 美元,资费低于 Gemini Flash Lite
相关链接
https://www.perceptron.inc/blog/introducing-perceptron-mk1
8. 小米开源自动驾驶 VLA 框架 OneVL
核心内容
小米具身智能团队开源自动驾驶视觉语言框架 OneVL,同步放出技术论文、模型权重与推理代码,训练代码后续逐步公开。该框架解决了显性思维链推理延迟偏高、隐性思维链识别精度不足的行业痛点。
关键性能与技术
-
基于 Qwen3-VL-4B-Instruct 底座开发,增设视觉、语言双辅助解码器
-
训练阶段监督隐性标记预测画面帧与思维文本,推理阶段删减解码器实现预填充加速
-
在 NAVSIM、ROADWork、Impromptu、APR1 四项测试集轨迹预测精度均位居前列
-
首款综合精度超越显性自回归思维链的隐性推理方案
-
推理耗时和简答类模型持平,相较显性思维链提速 1.5-2.3 倍
相关链接
https://github.com/xiaomi-research/onevl
https://arxiv.org/abs/2604.18486
9. 上海人工智能实验室发布科学多模态模型 Intern-S2-Preview
核心内容
上海人工智能实验室发布 35B 参数科学领域多模态基础模型 Intern-S2-Preview,模型文件、源码已在 HuggingFace、ModelScope、GitHub 平台开源共享。
关键性能与技术
-
科学任务处理能力可对标万亿参数规格的 Intern-S1-Pro 模型
-
开源模型中率先实现材料晶体结构生成,兼顾专业能力与通用交互能力
-
智能体综合能力在多项测评中显著提升
-
借助权重共享 MTP 结构搭配 KL 损失优化,提升生成通过率与输出速度
-
思维链压缩技术缩短回复篇幅,同时保留高阶推理实力
相关链接
https://github.com/InternLM/Intern-S1
https://huggingface.co/collections/internlm/intern-s2
https://chat.intern-ai.org.cn
10. Boson AI 推出实时数字人基础模型 Higgs Avatar v1
核心内容
Boson AI 上线实时虚拟数字人模型 Higgs Avatar v1,现阶段处于私有预览阶段,开放预约登记通道。模型和自研音频模型深度联动,为语音交互智能体打造动态人脸形象展示效果。
关键性能与技术
-
单张静态图片即可生成具备对话、聆听、反应能力的实时交互人脸
-
面部表情、唇形动作、头部姿态能够和语音内容精准同步
-
单帧画面生成耗时约 16 毫秒,满足实时对话帧率要求
-
单张 H100 显卡可同时承载 8 路数字人并发对话
-
技术演示中的数字人智能体支持实时打断对话、调取外部工具操作
相关链接
https://www.boson.ai/blog/higgs-avatar-v1
https://www.bilibili.com/video/BV1pB586fEap/
openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。
更多推荐


所有评论(0)