最重要★★★★★Hacker News
Mistral OCR 4 公開、バウンディングボックス搭載で人間評価の勝率72%・$2/1000ページ
30秒で把握
- 1Mistral OCR 4 公開・バウンディングボックス/ブロック分類/信頼スコア対応
- 2OlmOCRBenchトップ85.20・人間評価勝率72%・Batch APIで$2/1000ページ
- 3単一コンテナ自己ホスト対応・RAG/検索パイプラインへの統合可否を確認
要約
Mistralは新世代OCRモデル「Mistral OCR 4」を公開し、テキスト抽出に加えバウンディングボックス・ブロック分類・信頼スコアのインライン出力に対応した。公開ベンチマークOlmOCRBenchで85.20のトップスコアを記録し、独立アノテーターによる人間評価では競合全システムに対して平均勝率72%を達成した。価格はAPI経由で1,000ページあたり$4、Batch API利用時は50%引きの$2まで下がる。170言語・10言語グループをサポートし、単一コンテナでの完全自己ホスト展開が可能でデータ主権要件にも対応する。PDF・DOC・PPT・OpenDocumentなど主要エンタープライズ形式に対応し、RAGや検索パイプラインへの組み込み用途を想定している。
あなたへの影響
RAGやエンタープライズ検索を本番運用しているチームは、Batch APIで$2/1000ページという単価とOlmOCRBenchスコア85.20をコスト試算の基準に使えるため、既存OCRサービスとの乗り換え評価を今四半期中に実施する価値がある。
推奨:自己ホスト版は単一コンテナで動くため、データを外部に出せない金融・医療系の構成でも採用しやすい。