注目★★★★★Hacker News
百度がOCRモデル「Unlimited-OCR」公開、長大文書を1ショットで解析
30秒で把握
- 1百度が長文書対応OCRモデル「Unlimited-OCR」をOSSで公開
- 2最大32,768トークン対応・複数ページPDF解析をOpenAI互換APIで提供
- 3HuggingFaceまたはSGLangで即時利用可能・Python環境構築手順も公開済み
要約
百度(Baidu)はDeepSeek-OCRの後継にあたるOCRモデル「Unlimited-OCR」をオープンソースで公開し、arXiv論文も同時に公開した。長文書を1回の推論で解析する「One-shot Long-horizon Parsing」を実現し、複数ページPDFにも対応する。HuggingFace Transformersおよび SGLang サーバー経由でOpenAI互換APIとして利用でき、コンテキスト長は最大32,768トークンをサポートする。
あなたへの影響
PDF・スキャン文書の自動構造化パイプラインを構築している日本のエンジニアは、Unlimited-OCRをHuggingFaceまたはSGLang経由で即座に試せる状態にあり。
推奨:既存OCRサービスの置き換え候補として今四半期中に評価を始める価値がある。