
SmolDocling
高速で正確なマルチモーダル文書変換
SmolDocling-256M-previewは、効率的な文書変換を目的としたマルチモーダル(画像+テキスト)モデルです。Doclingとの完全な互換性を確保しながら、OCR、レイアウト保持、コード/数式/表認識などの機能を提供。高速推論も特徴です。

SmolDoclingについてもっと知る
SmolDocling
SmolDoclingは、効率的なドキュメント変換を目的とした多様な機能を備えた画像テキスト変換モデルです。DocTags、高速推論、Doclingとのシームレスな統合により、様々なドキュメントを正確かつ迅速に変換します。科学論文から一般文書まで幅広く対応し、コード、数式、表、グラフなども正確に処理します。
- •効率的なDocTagsによるトークン化:DocTagsは、ドキュメント構造とテキストを明確に分離する効率的なタグシステムです。これにより、画像からテキストへの変換における曖昧さを軽減し、HTMLやMarkdownへの直接変換に伴う情報損失や非効率性を回避します。Doclingとの統合により、HTML、Markdown、JSONへのエクスポートが可能になり、CPUでのオフロード処理による効率化も実現します。
- •高精度OCR:OCR機能により、画像からテキストを正確に抽出します。バウンディングボックスを用いたOCRもサポートし、ドキュメント要素の位置情報を保持します。
- •レイアウトと位置情報の保持:ドキュメントのレイアウトと各要素の位置情報を保持し、構造を維持したまま変換します。
- •コード認識:コードブロックを検出し、インデントを含む適切な形式で処理します。
- •数式認識:数式を識別し、処理します。
- •グラフ認識:グラフデータの抽出と解釈を行います。
- •表認識:表の列と行ヘッダーを認識し、構造化されたデータを抽出します。
- •図表分類:図表などのグラフィック要素を分類します。
- •キャプション対応:キャプションと関連する画像や図表をリンク付けます。
- •リスト整理:リスト要素を適切に整理・構造化します。
- •フルページ変換:コード、数式、表、グラフなど、ページ上の全ての要素を処理し、包括的なドキュメント変換を実現します。
- •バウンディングボックス付きOCR:バウンディングボックスを用いた領域指定OCRが可能です。
- •汎用的なドキュメント処理:科学論文と非科学論文の両方に対応した汎用的なドキュメント処理モデルです。
- •Doclingとのシームレスな統合:Doclingとのシームレスな統合により、様々な出力形式(md、htmlなど)への変換が可能です。
- •高速推論(VLLM):VLLMを用いた高速推論により、A100 GPU上で平均0.35秒/ページの処理速度を実現します。
SmolDoclingは、ドキュメント変換のワークフローを劇的に改善する、強力な多様な機能を備えた画像テキスト変換モデルです。DocTagsによる効率的なトークン化、高速推論、そしてDoclingとのシームレスな統合により、精度の高い変換と処理時間の短縮を実現します。様々なドキュメントタイプに対応し、コード、数式、表、グラフなど、あらゆる要素を正確に処理することで、時間と労力の節約に貢献します。SmolDoclingを選択することで、ドキュメント処理における課題を克服し、生産性を向上させることができます。










