发布时间:2026-05-28
浏览量图标 1次浏览

百度发布40亿参数文档智能模型Qianfan-OCR,多项基准超越Gemini-3-Pro和Qwen3-VL-235B

摘要

1M AI News 监测,百度千帆团队发布 Qianfan-OCR,一个 40 亿参数的端到端视觉语言模型,将文档解析、版面分析和文档理解统一到单一框架中,直接从图像生成 Markdown。模型由自研 Qianfan-ViT 视觉编码器(支持最高 4K 分辨率)和 Qwen3-4B 语言骨干组成,支持 192 种语言。

核心创新是「Layout-as-Thought」机制:模型在生成最终输出前,先以结构化方式推理版面布局(边界框、元素类型、阅读顺序),再据此生成结果,对复杂排版的文档效果显著。

基准表现:

1. OmniDocBench v1.5 得分 93.12,端到端模型排名第一
2. OlmOCR Bench 得分 79.8,端到端模型排名第一
3. OCRBench 得分 880,同类最高
4. 关键信息提取(KIE)平均得分 87.9,超越 Gemini-3-Pro 和参数量达 235B 的 Qwen3-VL

模型通过百度智能云千帆平台提供 API 访问,使用示例和代码已开源在 GitHub(baidubce/Qianfan-VL)。

🚀 主流数字货币交易所推荐

安全稳定的交易平台 | 新用户注册享专属福利

Binance币安交易所LOGO

Binance 币安

全球最大加密货币交易所

立即注册 下载APP
OKX欧易交易所LOGO

OKX 欧易

老牌知名数字资产平台

立即注册 下载APP
Bybit交易所LOGO

Bybit

专业合约交易平台

立即注册 下载APP

⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部