ds4sd
/

SmolDocling-256M-preview

@@ -44,15 +44,20 @@ You can use transformers or docling to perform inference:
 <summary>Single image inference using Tranformers</summary>
 ```python
 import torch
-from PIL import Image
 from transformers import AutoProcessor, AutoModelForVision2Seq
 from transformers.image_utils import load_image
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # Load images
-image = load_image("https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg")
 # Initialize processor and model
 processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
@@ -88,8 +93,9 @@ doctags = processor.batch_decode(
 )[0].lstrip()
 # Populate document
-doctags_doc = DoclingDocument.from_doctags_and_image_pairs([doctags], images)
-doc = DoclingDocument()  # Initialize doc if needed
 doc.load_from_doctags(doctags_doc)
 # export as any format
@@ -98,8 +104,7 @@ doc.load_from_doctags(doctags_doc)
 # with open(output_file, "w", encoding="utf-8") as f:
 #     f.write(doc.export_to_html())
 # MD
-# print(doc.export_to_markdown())
 ```
 </details>
@@ -108,16 +113,21 @@ doc.load_from_doctags(doctags_doc)
 <summary>Multi-page image inference using Tranformers</summary>
 ```python
 import torch
-from PIL import Image
 from transformers import AutoProcessor, AutoModelForVision2Seq
 from transformers.image_utils import load_image
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # Load images
-page_1 = load_image("https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg")
-page_2 = load_image("https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg")
 # Initialize processor and model
 processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
@@ -153,11 +163,12 @@ doctags = processor.batch_decode(
     skip_special_tokens=False,
 )[0].lstrip()
 # create a docling document
 doc = DoclingDocument(name="Document")
-# populate it
-doc.load_from_document_tokens([doctags], [page_1, page_2])
 # export as any format
 # HTML
@@ -165,7 +176,7 @@ doc.load_from_document_tokens([doctags], [page_1, page_2])
 # with open(output_file, "w", encoding="utf-8") as f:
 #     f.write(doc.export_to_html())
 # MD
-# print(doc.export_to_markdown())
 ``````
 </details>

 <summary>Single image inference using Tranformers</summary>
 ```python
+# Prerequisites:
+# pip install torch
+# pip install docling_core
 import torch
+from docling_core.types.doc import DoclingDocument
+from docling_core.types.doc.document import DocTagsDocument
 from transformers import AutoProcessor, AutoModelForVision2Seq
 from transformers.image_utils import load_image
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # Load images
+image = load_image("https://upload.wikimedia.org/wikipedia/commons/7/76/GazettedeFrance.jpg")
 # Initialize processor and model
 processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
 )[0].lstrip()
 # Populate document
+doctags_doc = DocTagsDocument.from_doctags_and_image_pairs([doctags], [image])
+# create a docling document
+doc = DoclingDocument(name="Document")
 doc.load_from_doctags(doctags_doc)
 # export as any format
 # with open(output_file, "w", encoding="utf-8") as f:
 #     f.write(doc.export_to_html())
 # MD
+print(doc.export_to_markdown())
 ```
 </details>
 <summary>Multi-page image inference using Tranformers</summary>
 ```python
+# Prerequisites:
+# pip install torch
+# pip install docling_core
 import torch
+from docling_core.types.doc import DoclingDocument
+from docling_core.types.doc.document import DocTagsDocument
 from transformers import AutoProcessor, AutoModelForVision2Seq
 from transformers.image_utils import load_image
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # Load images
+page_1 = load_image("https://upload.wikimedia.org/wikipedia/commons/7/76/GazettedeFrance.jpg")
+page_2 = load_image("https://upload.wikimedia.org/wikipedia/commons/7/76/GazettedeFrance.jpg")
 # Initialize processor and model
 processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
     skip_special_tokens=False,
 )[0].lstrip()
+# populate it
+doctags_split = doctags.split("<page_break>")
+doctags_doc = DocTagsDocument.from_doctags_and_image_pairs(doctags_split, [page_1, page_2])
 # create a docling document
 doc = DoclingDocument(name="Document")
+doc.load_from_doctags(doctags_doc)
 # export as any format
 # HTML
 # with open(output_file, "w", encoding="utf-8") as f:
 #     f.write(doc.export_to_html())
 # MD
+print(doc.export_to_markdown())
 ``````
 </details>