注目★★★★★Hacker News2026年6月24日

百度がOCRモデル「Unlimited-OCR」公開、長大文書を1ショットで解析

30秒で把握

1百度が長文書対応OCRモデル「Unlimited-OCR」をOSSで公開
2最大32,768トークン対応・複数ページPDF解析をOpenAI互換APIで提供
3HuggingFaceまたはSGLangで即時利用可能・Python環境構築手順も公開済み

要約

百度（Baidu）はDeepSeek-OCRの後継にあたるOCRモデル「Unlimited-OCR」をオープンソースで公開し、arXiv論文も同時に公開した。長文書を1回の推論で解析する「One-shot Long-horizon Parsing」を実現し、複数ページPDFにも対応する。HuggingFace Transformersおよび SGLang サーバー経由でOpenAI互換APIとして利用でき、コンテキスト長は最大32,768トークンをサポートする。

あなたへの影響

PDF・スキャン文書の自動構造化パイプラインを構築している日本のエンジニアは、Unlimited-OCRをHuggingFaceまたはSGLang経由で即座に試せる状態にあり。

推奨：既存OCRサービスの置き換え候補として今四半期中に評価を始める価値がある。

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

百度がOCRモデル「Unlimited-OCR」公開、長大文書を1ショットで解析

30秒で把握

要約

あなたへの影響

関連する記事

Mistral OCR 4 公開、バウンディングボックス搭載で人間評価の勝率72%・$2/1000ページ

Slack で @Claude をタグして仕事を任せる「Claude Tag」、Anthropic社内では製品チームコードの65%を生成

OpenAI「Daybreak」公開：Codex SecurityとGPT-5.5-Cyberで脆弱性を自動検出・修正