ds4sd
/

SmolDocling-256M-preview

@@ -38,7 +38,7 @@ pipeline_tag: image-text-to-text
 - 📊 **Better chart recognition 🛠️**
 - 📚 **One shot multi-page inference ⏱️**
-## How to get started
 You can use transformers or docling to perform inference:
@@ -115,17 +115,23 @@ print(doc.export_to_markdown())
 <summary> 🚀 Fast Batch Inference Using VLLM</summary>
 ```python
-!pip install vllm
 import time
 import os
 from vllm import LLM, SamplingParams
 from PIL import Image
 # Configuration
 MODEL_PATH = "ds4sd/SmolDocling-256M-preview"
-IMAGE_DIR = "images_dir"
-OUTPUT_DIR = "output_pred_dir"
 PROMPT_TEXT = "Convert page to Docling."
 # Ensure output directory exists
@@ -152,12 +158,29 @@ for idx, img_file in enumerate(image_files, 1):
     llm_input = {"prompt": chat_template, "multi_modal_data": {"image": image}}
     output = llm.generate([llm_input], sampling_params=sampling_params)[0]
-    output_text = output.outputs[0].text
-    output_filename = os.path.splitext(img_file)[0] + ".dt"
     output_path = os.path.join(OUTPUT_DIR, output_filename)
     with open(output_path, "w", encoding="utf-8") as f:
-        f.write(output_text)
 print(f"Total time: {time.time() - start_time:.2f} sec")
 ```
@@ -223,5 +246,7 @@ DocTags are integrated with Docling, which allows export to HTML, Markdown, and
 - **Finetuned from model:** Based on [Idefics3](https://huggingface.co/HuggingFaceM4/Idefics3-8B-Llama3) (see technical summary)
 **Repository:** [Docling](https://github.com/docling-project/docling)
-**Paper [optional]:** [Coming soon]
-**Demo [optional]:** [Coming soon]

 - 📊 **Better chart recognition 🛠️**
 - 📚 **One shot multi-page inference ⏱️**
+## ⌨️ Get started (code examples)
 You can use transformers or docling to perform inference:
 <summary> 🚀 Fast Batch Inference Using VLLM</summary>
 ```python
+# Prerequisites:
+# pip install vllm
+# pip install docling_core
+# place page images you want to convert into img/ dir
 import time
 import os
 from vllm import LLM, SamplingParams
 from PIL import Image
+from docling_core.types.doc import DoclingDocument
+from docling_core.types.doc.document import DocTagsDocument
 # Configuration
 MODEL_PATH = "ds4sd/SmolDocling-256M-preview"
+# IMAGE_DIR = "images_dir"
+IMAGE_DIR = "img/"
+OUTPUT_DIR = "out/"
 PROMPT_TEXT = "Convert page to Docling."
 # Ensure output directory exists
     llm_input = {"prompt": chat_template, "multi_modal_data": {"image": image}}
     output = llm.generate([llm_input], sampling_params=sampling_params)[0]
+    doctags = output.outputs[0].text
+    img_fn = os.path.splitext(img_file)[0]
+    output_filename = img_fn + ".dt"
     output_path = os.path.join(OUTPUT_DIR, output_filename)
     with open(output_path, "w", encoding="utf-8") as f:
+        f.write(doctags)
+    # To convert to Docling Document, MD, HTML, etc.:
+    doctags_doc = DocTagsDocument.from_doctags_and_image_pairs([doctags], [image])
+    doc = DoclingDocument(name="Document")
+    doc.load_from_doctags(doctags_doc)
+    # export as any format
+    # HTML
+    # print(doc.export_to_html())
+    # with open(output_file, "w", encoding="utf-8") as f:
+    #     f.write(doc.export_to_html())
+    # MD
+    output_filename_md = img_fn + ".md"
+    output_path_md = os.path.join(OUTPUT_DIR, output_filename_md)
+    markdown = doc.export_to_markdown()
+    with open(output_path_md, "w", encoding="utf-8") as f:
+        f.write(markdown)
 print(f"Total time: {time.time() - start_time:.2f} sec")
 ```
 - **Finetuned from model:** Based on [Idefics3](https://huggingface.co/HuggingFaceM4/Idefics3-8B-Llama3) (see technical summary)
 **Repository:** [Docling](https://github.com/docling-project/docling)
+**Paper:** [Coming soon]
+**Demo:** [Coming soon]