PyPI - pembot - Versions diffs - 0.0.5__py2.py3-none-any.whl → 0.0.6__py2.py3-none-any.whl - Mend

pembot 0.0.5py2.py3-none-any.whl → 0.0.6py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of pembot might be problematic. Click here for more details.

Files changed (42) hide show

pembot/.git/COMMIT_EDITMSG CHANGED Viewed

	@@ -1 +1 @@
1	- ~~fixed~~ ~~the~~ ~~output_dir~~ ~~bug~~; ~~fixed~~ ~~the~~ ~~excel~~ to ~~json~~ ~~function~~; ~~ran~~ ~~some~~ ~~tests~~ on ~~convertor;~~ ~~incremented~~ ~~the~~ ~~version~~ on the ~~package;~~ ~~removed~~ ~~dependency~~ on ~~schema / structure,~~ and ~~shifted~~ ~~required~~ ~~fields~~ to a ~~pickle~~ ~~file path in the cli args~~;
1	+ handled config loading errors gracefully; added gemini support, as an option; added huggingface nanonets transformers support (as an option); redesigned the extract markdown for captioning and image ocr (block image and full-page image);

pembot/.git/index CHANGED Viewed

Binary file

pembot/.git/logs/HEAD CHANGED Viewed

@@ -5,3 +5,4 @@ ac9c9018c62fa30dc142665c1b5a375f4e056880 72f047cda92abcd1ddc857f6461de605f866833
 e91172752e9a421ae463112d2b0506b37498c98d 0c8d9b2690545bf1906b05cd9f18b783b3eb74f1 cyto <silverstone965@gmail.com> 1749716350 +0530	commit: added a pem blog chunking module for updating from local, and, an embedding loop to embed all the blogs, with document id as the filter in the search, and the first line title as the filter in updation
 0c8d9b2690545bf1906b05cd9f18b783b3eb74f1 eb75e1c49f1e5b79dca17ccdbec8067756523238 cyto <silverstone965@gmail.com> 1750856653 +0530	commit: made arrangements for the cases when custom file bytes are to be processed to text output; handled a ollama running / crashing error
 eb75e1c49f1e5b79dca17ccdbec8067756523238 0bdb4169fc0f312b8698f1df17a258fff163aeaa cyto <silverstone965@gmail.com> 1750937276 +0530	commit: fixed the output_dir bug; fixed the excel to json function; ran some tests on convertor; incremented the version on the package; removed dependency on schema / structure, and shifted required fields to a pickle file path in the cli args;
+0bdb4169fc0f312b8698f1df17a258fff163aeaa 9528bbccd167e3f4ad583a1ae9fac98a52620e27 cyto <silverstone965@gmail.com> 1750947488 +0530	commit: handled local llm nonexistent error properly for choice of just passing None as llm_client;

pembot/.git/logs/refs/heads/main CHANGED Viewed

@@ -5,3 +5,4 @@ ac9c9018c62fa30dc142665c1b5a375f4e056880 72f047cda92abcd1ddc857f6461de605f866833
 e91172752e9a421ae463112d2b0506b37498c98d 0c8d9b2690545bf1906b05cd9f18b783b3eb74f1 cyto <silverstone965@gmail.com> 1749716350 +0530	commit: added a pem blog chunking module for updating from local, and, an embedding loop to embed all the blogs, with document id as the filter in the search, and the first line title as the filter in updation
 0c8d9b2690545bf1906b05cd9f18b783b3eb74f1 eb75e1c49f1e5b79dca17ccdbec8067756523238 cyto <silverstone965@gmail.com> 1750856653 +0530	commit: made arrangements for the cases when custom file bytes are to be processed to text output; handled a ollama running / crashing error
 eb75e1c49f1e5b79dca17ccdbec8067756523238 0bdb4169fc0f312b8698f1df17a258fff163aeaa cyto <silverstone965@gmail.com> 1750937276 +0530	commit: fixed the output_dir bug; fixed the excel to json function; ran some tests on convertor; incremented the version on the package; removed dependency on schema / structure, and shifted required fields to a pickle file path in the cli args;
+0bdb4169fc0f312b8698f1df17a258fff163aeaa 9528bbccd167e3f4ad583a1ae9fac98a52620e27 cyto <silverstone965@gmail.com> 1750947488 +0530	commit: handled local llm nonexistent error properly for choice of just passing None as llm_client;

pembot/.git/logs/refs/remotes/origin/main CHANGED Viewed

@@ -4,3 +4,4 @@ ac9c9018c62fa30dc142665c1b5a375f4e056880 72f047cda92abcd1ddc857f6461de605f866833
 e91172752e9a421ae463112d2b0506b37498c98d 0c8d9b2690545bf1906b05cd9f18b783b3eb74f1 cyto <silverstone965@gmail.com> 1749716371 +0530	update by push
 0c8d9b2690545bf1906b05cd9f18b783b3eb74f1 eb75e1c49f1e5b79dca17ccdbec8067756523238 cyto <silverstone965@gmail.com> 1750856672 +0530	update by push
 eb75e1c49f1e5b79dca17ccdbec8067756523238 0bdb4169fc0f312b8698f1df17a258fff163aeaa cyto <silverstone965@gmail.com> 1750937389 +0530	update by push
+0bdb4169fc0f312b8698f1df17a258fff163aeaa 9528bbccd167e3f4ad583a1ae9fac98a52620e27 cyto <silverstone965@gmail.com> 1750947502 +0530	update by push

pembot/.git/objects/3e/23850624fcf5f111d6ea88ddd64adf924cf82f ADDED Viewed

Binary file

pembot/.git/objects/4d/a03134f70896f72053fbdc0cd4f4c76d4ac1d8 ADDED Viewed

Binary file

pembot/.git/objects/95/28bbccd167e3f4ad583a1ae9fac98a52620e27 ADDED Viewed

Binary file

pembot/.git/objects/bd/8fd1cb166996e74a8631f3a6f764a53af75297 ADDED Viewed

Binary file

pembot/.git/objects/bf/518686b06069d2a8abd3689908b7e1a6e16b05 ADDED Viewed

Binary file

pembot/.git/objects/e0/9162dbd64d85bb5ed740aa99faefa73f293d78 ADDED Viewed

Binary file

pembot/.git/refs/heads/main CHANGED Viewed

	@@ -1 +1 @@
1	- ~~0bdb4169fc0f312b8698f1df17a258fff163aeaa~~
1	+ 9528bbccd167e3f4ad583a1ae9fac98a52620e27

pembot/.git/refs/remotes/origin/main CHANGED Viewed

	@@ -1 +1 @@
1	- ~~0bdb4169fc0f312b8698f1df17a258fff163aeaa~~
1	+ 9528bbccd167e3f4ad583a1ae9fac98a52620e27

pembot/AnyToText/convertor.py CHANGED Viewed

@@ -35,6 +35,8 @@ class Convertor():
         self.output= ""
+        # model_name=  "gemini-2.5-flash"
+        model_name= None
         # file_type can be pdf, excel, etc.
         if output_dir is None and myfile is None and file_bytes is not None and suffix is not None:
             with tempfile.TemporaryDirectory() as dp:
@@ -43,7 +45,7 @@ class Convertor():
                     myfile= Path(fp.name)
                     output_dir= Path(dp)
                     if file_type == 'pdf':
-                        extractor= MarkdownPDFExtractor(str(myfile), output_path= str(output_dir), page_delimiter= "-- NEXT PAGE --")
+                        extractor= MarkdownPDFExtractor(str(myfile), output_path= str(output_dir), page_delimiter= "-- NEXT PAGE --", model_name= model_name)
                         extractor.extract()
                         with open(output_dir / (myfile.stem + '.md')) as output_file:
                             self.output= output_file.read()
@@ -67,7 +69,7 @@ class Convertor():
                 print("the file was json")
             elif mt == 'application/pdf':
                 print("the file was pdf, outputting in: ", output_dir)
-                extractor= MarkdownPDFExtractor(str(myfile), output_path= str(self.output_dir), page_delimiter= "-- NEXT PAGE --")
+                extractor= MarkdownPDFExtractor(str(myfile), output_path= str(self.output_dir), page_delimiter= "-- NEXT PAGE --", model_name= model_name)
                 extractor.extract()
             elif mt in EXCEL_FILE_TYPES:
@@ -333,10 +335,10 @@ def chunk_text(text, chunk_size=500, overlap_size=50):
 if __name__ == '__main__':
     print("Test Run Start:")
     try:
-        # print("Test 1: scaned pdf page, bytes")
-        # with open("/home/cyto/Documents/scanned.pdf", "rb") as imgpdf:
-        #     conv= Convertor(file_bytes= imgpdf.read(), suffix= ".pdf", file_type= "pdf")
-        #     print(conv.output)
+        print("Test 1: scaned pdf page, bytes")
+        with open("/home/cyto/Documents/scanned.pdf", "rb") as imgpdf:
+            conv= Convertor(file_bytes= imgpdf.read(), suffix= ".pdf", file_type= "pdf")
+            print(conv.output)
         # print("Test 2: JD pdf, bytes")
         # with open("/home/cyto/dev/pembotdir/jds/PM Trainee.pdf", "rb") as imgpdf:

pembot/__init__.py CHANGED Viewed

@@ -1,6 +1,6 @@
 """
 A Python Package to convert PEM blog content to usseful information by leveraging LLMs
 """
-__version__ = '0.0.5'
+__version__ = '0.0.6'
 from .main import save_to_json_file, make_query
 __all__ = ["save_to_json_file", "make_query"]

pembot/config/config.yaml CHANGED Viewed

@@ -2,4 +2,4 @@ OUTPUT_DIR: /home/cyto/dev/pembotdir
 PAGE_DELIMITER: ___________________________ NEXT PAGE ___________________________
 app:
   name: pembot
-  version: 0.0.5
+  version: 0.0.6

pembot/pdf2markdown/.git/COMMIT_EDITMSG ADDED Viewed

	@@ -0,0 +1 @@
1	+ cyto/argument-list-bug-fix;authentication-used-in-gradio-client

pembot/pdf2markdown/.git/config CHANGED Viewed

@@ -9,3 +9,6 @@
 [branch "main"]
 	remote = origin
 	merge = refs/heads/main
+[remote "myorigin"]
+	url = https://github.com/silverstone-git/pdf-to-markdown.git
+	fetch = +refs/heads/*:refs/remotes/myorigin/*

pembot/pdf2markdown/.git/index CHANGED Viewed

Binary file

pembot/pdf2markdown/.git/logs/HEAD CHANGED Viewed

@@ -1 +1,4 @@
 0000000000000000000000000000000000000000 ffb759ee4605b232366a9ee58134532913c3f9e0 cyto <cyto@callisto.localdomain> 1747745478 +0530	clone: from https://github.com/iamarunbrahma/pdf-to-markdown
+ffb759ee4605b232366a9ee58134532913c3f9e0 b8702320e56074e9680181d8b7897d6a0a552e2d cyto <silverstone965@gmail.com> 1750947962 +0530	commit: handled config loading errors gracefully; added gemini support, as an option; added huggingface nanonets transformers support (as an option); redesigned the extract markdown for captioning and image ocr (block image and full-page image);
+b8702320e56074e9680181d8b7897d6a0a552e2d 14251b198e0bac39a3dc3b42f9e57b20c01465fb cyto <silverstone965@gmail.com> 1751604763 +0530	commit: removed deps on torch and transformers; used gradio client for ocr through public spaces;
+14251b198e0bac39a3dc3b42f9e57b20c01465fb b48d697aa9fd97151eb2a84a1af5d408b7630232 cyto <silverstone965@gmail.com> 1751871887 +0530	commit: cyto/argument-list-bug-fix;authentication-used-in-gradio-client

pembot/pdf2markdown/.git/logs/refs/heads/main CHANGED Viewed

@@ -1 +1,4 @@
 0000000000000000000000000000000000000000 ffb759ee4605b232366a9ee58134532913c3f9e0 cyto <cyto@callisto.localdomain> 1747745478 +0530	clone: from https://github.com/iamarunbrahma/pdf-to-markdown
+ffb759ee4605b232366a9ee58134532913c3f9e0 b8702320e56074e9680181d8b7897d6a0a552e2d cyto <silverstone965@gmail.com> 1750947962 +0530	commit: handled config loading errors gracefully; added gemini support, as an option; added huggingface nanonets transformers support (as an option); redesigned the extract markdown for captioning and image ocr (block image and full-page image);
+b8702320e56074e9680181d8b7897d6a0a552e2d 14251b198e0bac39a3dc3b42f9e57b20c01465fb cyto <silverstone965@gmail.com> 1751604763 +0530	commit: removed deps on torch and transformers; used gradio client for ocr through public spaces;
+14251b198e0bac39a3dc3b42f9e57b20c01465fb b48d697aa9fd97151eb2a84a1af5d408b7630232 cyto <silverstone965@gmail.com> 1751871887 +0530	commit: cyto/argument-list-bug-fix;authentication-used-in-gradio-client

pembot/pdf2markdown/.git/logs/refs/remotes/myorigin/main ADDED Viewed

@@ -0,0 +1,3 @@
+0000000000000000000000000000000000000000 b8702320e56074e9680181d8b7897d6a0a552e2d cyto <silverstone965@gmail.com> 1750948073 +0530	update by push
+b8702320e56074e9680181d8b7897d6a0a552e2d 14251b198e0bac39a3dc3b42f9e57b20c01465fb cyto <silverstone965@gmail.com> 1751604904 +0530	update by push
+14251b198e0bac39a3dc3b42f9e57b20c01465fb b48d697aa9fd97151eb2a84a1af5d408b7630232 cyto <silverstone965@gmail.com> 1751872077 +0530	update by push

pembot/pdf2markdown/.git/objects/14/251b198e0bac39a3dc3b42f9e57b20c01465fb ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/24/8f03b5f969a7fbd396b496f40b57f0ae81c148 ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/57/74dc9c3901d2ffb2cd7dafe2ad6612a7f9f42c ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/72/2dc14f82e78ce41717348b256e0c17834933b4 ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/79/eb7b93ced70e399bd561093c45de7641414dbd ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/8d/9ce1fd9733a78c592b34af9c94b98960c601ed ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/95/745843bb4377d6042180daeda818c0b16fd493 ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/a5/c6dfb577782c259990dcf977e355298e923428 ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/b4/8d697aa9fd97151eb2a84a1af5d408b7630232 ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/b8/702320e56074e9680181d8b7897d6a0a552e2d ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/e6/9de29bb2d1d6434b8b29ae775ad8c2e48c5391 ADDED Viewed

Binary file

pembot/pdf2markdown/.git/refs/heads/main CHANGED Viewed

	@@ -1 +1 @@
1	- ~~ffb759ee4605b232366a9ee58134532913c3f9e0~~
1	+ b48d697aa9fd97151eb2a84a1af5d408b7630232

pembot/pdf2markdown/.git/refs/remotes/myorigin/main ADDED Viewed

	@@ -0,0 +1 @@
1	+ b48d697aa9fd97151eb2a84a1af5d408b7630232

pembot/pdf2markdown/extract.py CHANGED Viewed

@@ -2,11 +2,9 @@ import fitz
 import pdfplumber
 import re
 import yaml
-# import pytesseract
+import pytesseract
 import numpy as np
-from transformers import AutoTokenizer, AutoProcessor, AutoModelForImageTextToText, VisionEncoderDecoderModel, ViTImageProcessor
 from typing import Literal, final
-import torch
 from PIL import Image
 import os
 import logging
@@ -19,6 +17,9 @@ import io
 from google import genai
 from google.genai import types
 import mimetypes
+from gradio_client import Client, handle_file
+import gradio as gr
+import tempfile
@@ -75,25 +76,18 @@ class MarkdownPDFExtractor(PDFExtractor):
         super().__init__(pdf_path)
         if model_name is None:
-            self.MODEL_NAME= "gemini-2.5-flash"
+            # self.MODEL_NAME= "gemini-2.5-flash"
+            self.MODEL_NAME= "Nanonets-OCR-s"
         else:
             self.MODEL_NAME= model_name
         if  "gemini" in self.MODEL_NAME:
             self.gclient = genai.Client(api_key= os.getenv("GEMINI_API_KEY", ''))
-        else:
-            model_path = "nanonets/Nanonets-OCR-s"
-            self.model = AutoModelForImageTextToText.from_pretrained(
-                model_path,
-                torch_dtype="auto",
-                device_map="auto",
-                attn_implementation="flash_attention_2"
-            )
-            self.model.eval()
-            self.tokenizer = AutoTokenizer.from_pretrained(model_path)
-            self.processor = AutoProcessor.from_pretrained(model_path)
-            self.setup_image_captioning()
+        elif "anonet" in self.MODEL_NAME:
+            # self.nclient= Client("prithivMLmods/Multimodal-OCR2")
+            # zerogpu public
+            self.nclient= Client("deepak-mehta/ocr-simplify", hf_token= os.getenv('HF_TOKEN', ''))
         self.markdown_content= ""
@@ -108,25 +102,6 @@ class MarkdownPDFExtractor(PDFExtractor):
-    def setup_image_captioning(self):
-        """Set up the image captioning model."""
-        try:
-            self.model = VisionEncoderDecoderModel.from_pretrained(
-                "nlpconnect/vit-gpt2-image-captioning"
-            )
-            self.feature_extractor = ViTImageProcessor.from_pretrained(
-                "nlpconnect/vit-gpt2-image-captioning"
-            )
-            self.tokenizer = AutoTokenizer.from_pretrained(
-                "nlpconnect/vit-gpt2-image-captioning"
-            )
-            self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-            self.model.to(self.device)
-            self.logger.info("Image captioning model set up successfully.")
-        except Exception as e:
-            self.logger.error(f"Error setting up image captioning model: {e}")
-            self.logger.exception(traceback.format_exc())
     def extract(self):
         try:
             markdown_content, markdown_pages = self.extract_markdown()
@@ -143,12 +118,18 @@ class MarkdownPDFExtractor(PDFExtractor):
             return "", []
-    def ocr_page_with_nanonets_s(self, pil_image, img_bytes, max_new_tokens: int | None = None):
-        prompt = """Extract the text from the above document as if you were reading it naturally. Return the tables in html format. Return the equations in LaTeX representation. If there is an image in the document and image caption is not present, add a small description of the image inside the <img></img> tag; otherwise, add the image caption inside <img></img>. Watermarks should be wrapped in brackets. Ex: <watermark>OFFICIAL COPY</watermark>. Page numbers should be wrapped in brackets. Ex: <page_number>14</page_number> or <page_number>9/22</page_number>. Prefer using ☐ and ☑ for check boxes."""
+    def image_ocr(self, pil_image, img_bytes, max_new_tokens: int | None = None, prompt: str | None= None):
+        if prompt is None:
+            prompt = """Extract the text from the above document as if you were reading it naturally. Return the tables in html format. Return the equations in LaTeX representation. If there is an image in the document and image caption is not present, add a small description of the image inside the <img></img> tag; otherwise, add the image caption inside <img></img>. Watermarks should be wrapped in brackets. Ex: <watermark>OFFICIAL COPY</watermark>. Page numbers should be wrapped in brackets. Ex: <page_number>14</page_number> or <page_number>9/22</page_number>. Prefer using ☐ and ☑ for check boxes."""
         if max_new_tokens is None:
             max_new_tokens= 4096
-        if 'gemini' in self.MODEL_NAME:
+        w, h= pil_image.size
+        if w < 200 or h < 50:
+            return "<img> A small image </img>"
+        model_name= self.MODEL_NAME.lower()
+        if 'gemini' in model_name:
             image_format = pil_image.format
             dummy_filename = f"dummy.{image_format.lower()}"
@@ -165,24 +146,40 @@ class MarkdownPDFExtractor(PDFExtractor):
             )
             # print("response :", response)
             return response.text
-        else:
-            image = pil_image
-            messages = [
-                {"role": "system", "content": "You are a helpful assistant."},
-                {"role": "user", "content": [
-                    {"type": "image", "image": image},
-                    {"type": "text", "text": prompt},
-                ]},
-            ]
-            text = self.processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-            inputs = self.processor(text=[text], images=[image], padding=True, return_tensors="pt")
-            inputs = inputs.to(self.model.device)
+        elif 'nanonet' in model_name:
-            output_ids = self.model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False)
-            generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(inputs.input_ids, output_ids)]
-            output_text = self.processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)
-            return output_text[0]
+            result= ""
+            try:
+                with tempfile.NamedTemporaryFile(suffix=f'.{pil_image.format.lower()}', mode= 'w') as temp_file:
+                    pil_image.save(temp_file.name)
+                    print("file name: ", temp_file.name)
+                    gr_image= handle_file(temp_file.name)
+                    print("gr image : ", gr_image)
+                    result = self.nclient.predict(
+                        # model_name="Nanonets-OCR-s",
+                        # text= prompt,
+                        gr_image,
+                        # max_new_tokens=max_new_tokens,
+                        # temperature=0.6,
+                        # top_p=0.9,
+                        # top_k=50,
+                        # repetition_penalty=1.2,
+                        # prithiv model
+                        # api_name="/generate_image"
+                        max_new_tokens,
+                        # spaces zerogpu
+                        api_name="/predict"
+                    )
+                    print("ocr'd: ", result[:100] + "...")
+            except Exception as e:
+                print("Error during nanonet inference", e)
+            return result
+        else:
+            return pytesseract.image_to_string(pil_image)
@@ -219,7 +216,7 @@ class MarkdownPDFExtractor(PDFExtractor):
                 for page_num, page in enumerate(doc):
                     current_page_markdown_blocks = [] # Collect markdown blocks for the current page
                     page_has_searchable_text = False
-                    page_has_embedded_images = False
+                    # page_has_embedded_images = False
                     self.logger.info(f"\nProcessing page {page_num + 1}...")
@@ -252,7 +249,7 @@ class MarkdownPDFExtractor(PDFExtractor):
                             try:
                                 image_bytes= io.BytesIO(img_data)
                                 pil_image = Image.open(image_bytes)
-                                ocr_text_from_block_image = self.ocr_page_with_nanonets_s(
+                                ocr_text_from_block_image = self.image_ocr(
                                     pil_image, image_bytes, max_new_tokens=15000
                                 )
@@ -292,7 +289,7 @@ class MarkdownPDFExtractor(PDFExtractor):
                             image_bytestream= io.BytesIO(img_bytes)
                             pil_image = Image.open(image_bytestream)
-                            ocr_text_from_page = self.ocr_page_with_nanonets_s(
+                            ocr_text_from_page = self.image_ocr(
                                 pil_image, image_bytestream, max_new_tokens=15000
                             )
@@ -389,7 +386,7 @@ class MarkdownPDFExtractor(PDFExtractor):
             # ocr_result = pytesseract.image_to_string(
             #     image
             # )
-            ocr_result= self.ocr_page_with_nanonets_s(image, image_bytes, max_new_tokens=15000)
+            ocr_result= self.image_ocr(image, image_bytes, max_new_tokens=15000)
             return ocr_result.strip()
@@ -409,38 +406,9 @@ class MarkdownPDFExtractor(PDFExtractor):
             if image.mode != "RGB":
                 image = image.convert("RGB")
-            image_format = image.format
-            dummy_filename = f"dummy.{image_format.lower()}"
-            mime_type, _ = mimetypes.guess_type(dummy_filename)
-            if "gemini" in self.MODEL_NAME:
-                response=  self.gclient.models.generate_content(
-                    model= self.MODEL_NAME,
-                    contents=[
-                        types.Part.from_bytes(
-                            data=image_bytes.getvalue(),
-                            mime_type= mime_type
-                        ),
-                        "Write a caption for this image"
-                    ]
-                )
-                return response.text
-            else:
-                # Ensure the image is in the correct shape
-                image = np.array(image).transpose(2, 0, 1)  # Convert to (C, H, W) format
-                inputs = self.feature_extractor(images=image, return_tensors="pt").to(
-                    self.device
-                )
-                pixel_values = inputs.pixel_values
-                generated_ids = self.model.generate(pixel_values, max_length=30)
+            caption= self.image_ocr(image, image_bytes, max_new_tokens=15000, prompt= "Write a caption for this image")
+            return caption
-                generated_ids = self.model.generate(pixel_values, max_length=30)
-                generated_caption = self.tokenizer.batch_decode(
-                    generated_ids, skip_special_tokens=True
-                )[0]
-                return generated_caption.strip()
         except Exception as e:
             self.logger.error(f"Error captioning image: {e}")
             self.logger.exception(traceback.format_exc())

pembot/pdf2markdown/pyrightconfig.json ADDED Viewed

@@ -0,0 +1,4 @@
+{
+  "venvPath": "../..",
+  "venv": "venvpem"
+}

pembot/requirements.txt ADDED Viewed

@@ -0,0 +1,80 @@
+aiofiles==24.1.0
+annotated-types==0.7.0
+anyio==4.9.0
+audioop-lts==0.2.1
+cachetools==5.5.2
+certifi==2025.6.15
+cffi==1.17.1
+charset-normalizer==3.4.2
+click==8.2.1
+cryptography==45.0.5
+dnspython==2.7.0
+et_xmlfile==2.0.0
+fastapi==0.115.14
+ffmpy==0.6.0
+filelock==3.18.0
+fsspec==2025.5.1
+google-auth==2.40.3
+google-genai==1.24.0
+gradio==5.35.0
+gradio_client==1.10.4
+greenlet==3.2.3
+groovy==0.1.2
+h11==0.16.0
+hf-xet==1.1.5
+httpcore==1.0.9
+httpx==0.28.1
+huggingface-hub==0.33.2
+idna==3.10
+Jinja2==3.1.6
+markdown-it-py==3.0.0
+MarkupSafe==3.0.2
+mdurl==0.1.2
+msgpack==1.1.1
+numpy==2.3.1
+ollama==0.5.1
+openpyxl==3.1.5
+orjson==3.10.18
+packaging==25.0
+pandas==2.3.0
+pathlib==1.0.1
+pdfminer.six==20250506
+pdfplumber==0.11.7
+pembot==0.0.6
+pillow==11.3.0
+pyasn1==0.6.1
+pyasn1_modules==0.4.2
+pycparser==2.22
+pydantic==2.11.7
+pydantic_core==2.33.2
+pydub==0.25.1
+Pygments==2.19.2
+pymongo==4.13.2
+PyMuPDF==1.26.3
+pynvim==0.5.2
+pypdfium2==4.30.1
+pytesseract==0.3.13
+python-dateutil==2.9.0.post0
+python-multipart==0.0.20
+pytz==2025.2
+PyYAML==6.0.2
+requests==2.32.4
+rich==14.0.0
+rsa==4.9.1
+ruff==0.12.1
+safehttpx==0.1.6
+semantic-version==2.10.0
+shellingham==1.5.4
+six==1.17.0
+sniffio==1.3.1
+starlette==0.46.2
+tenacity==8.5.0
+tomlkit==0.13.3
+tqdm==4.67.1
+typer==0.16.0
+typing-inspection==0.4.1
+typing_extensions==4.14.0
+tzdata==2025.2
+urllib3==2.5.0
+uvicorn==0.35.0
+websockets==15.0.1

{pembot-0.0.5.dist-info → pembot-0.0.6.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: pembot
-Version: 0.0.5
+Version: 0.0.6
 Summary: A Python Package to convert PEM blog content to usseful information by leveraging LLMs
 Author-email: cyto <aryan_sidhwani@protonmail.com>
 License-Expression: MIT

{pembot-0.0.5.dist-info → pembot-0.0.6.dist-info}/RECORD RENAMED Viewed

@@ -1,16 +1,17 @@
 pembot/.gitignore,sha256=_7FTsZokJ_pzEyyPjOsGw5x5Xx3gUBFaafs7UlPsv9E,98
 pembot/LICENSE,sha256=OXLcl0T2SZ8Pmy2_dmlvKuetivmyPd5m1q-Gyd-zaYY,35149
-pembot/__init__.py,sha256=8YYLSe42l8VZcVXDH-vxQKFUGbki1Q8JbnkindAmEMs,211
+pembot/__init__.py,sha256=s4fd-1t1D43kkQi_78FmX_7hi-NsBfqtc2BHwNrMHtw,211
 pembot/gartner.py,sha256=3ALknQ5mSXIimmwCa3JFDzB_EW2hHEcQO1T2odyBquk,5408
 pembot/main.py,sha256=lZLIV8XPonvNoY4LVS-5fct1y9URMXWoSGJUKMw3Yg8,9667
 pembot/output_structure_local.py,sha256=YfpHzfTNeLMSsB_CjAamha9D6Iz7E1IC-tW9xPCMWFc,3000
 pembot/pem.py,sha256=mv6iGcN1peSY7z2dtCQ_BKj31EFBNfczBhps_d-0XDo,6377
 pembot/query.py,sha256=D1RPRoImDWCafbshT2NpO4ymVj2RySm8j5FJ5bRzYWw,8476
-pembot/.git/COMMIT_EDITMSG,sha256=Tm5a80gXZb68HaSqG7HGQWXscLh79ki2ekRF5swa3lw,238
+pembot/requirements.txt,sha256=6OV_n5JVco2lLA8Wq38tJX1bYgo_UU0R9RKgs4d2wfc,1360
+pembot/.git/COMMIT_EDITMSG,sha256=HR106qWTNcQKmC8LAIwmZ9A9YBTENaUYQy3UtJmK0XY,238
 pembot/.git/HEAD,sha256=KNJb-Cr0wOK3L1CVmyvrhZ4-YLljCl6MYD2tTdsrboA,21
 pembot/.git/config,sha256=ZFl9d2GyxirgRXRsv8iULIieKxwGC9P6SAjB_AmTkmQ,271
 pembot/.git/description,sha256=hatsFj1DoX6pz3eIMIvKFGbxsKjRzJLibpv2PaQGKu4,73
-pembot/.git/index,sha256=08t-REdJo1OXpli82XwFCMECzmOhGxRuHdZgRyD1wnk,1814
+pembot/.git/index,sha256=9R33jd4OjVHXzQElukY8zpNSB7v6vW4j4GMcpNBT5bo,1814
 pembot/.git/packed-refs,sha256=7DECsr7q7vJ6Gw6a2gS3dE4v-YzbxGiWYoSWM43DgsQ,112
 pembot/.git/hooks/applypatch-msg.sample,sha256=AiNJeguLAzqlijpSG4YphpOGz3qw4vEBlj0yiqYhk_c,478
 pembot/.git/hooks/commit-msg.sample,sha256=H3TV6SkpebVz69WXQdRsuT_zkazdCD00C5Q3B1PZJDc,896
@@ -27,10 +28,10 @@ pembot/.git/hooks/push-to-checkout.sample,sha256=pT0HQXmLKHxt16-mSu5HPzBeZdP0lGO
 pembot/.git/hooks/sendemail-validate.sample,sha256=ROv8kj3FRmvACWAvDs8Ge5xlRZq_6IaN3Em3jmztepI,2308
 pembot/.git/hooks/update.sample,sha256=jV8vqD4QPPCLV-qmdSHfkZT0XL28s32lKtWGCXoU0QY,3650
 pembot/.git/info/exclude,sha256=ZnH-g7egfIky7okWTR8nk7IxgFjri5jcXAbuClo7DsE,240
-pembot/.git/logs/HEAD,sha256=sAWs-cIFQY0k-nZzMnbgHnfYWnvRiZA4PGHifOTzx-c,1929
-pembot/.git/logs/refs/heads/main,sha256=sAWs-cIFQY0k-nZzMnbgHnfYWnvRiZA4PGHifOTzx-c,1929
+pembot/.git/logs/HEAD,sha256=crGP01FLAqdksSr1razn4_Aa5devc2MaSbfStzWV4Os,2160
+pembot/.git/logs/refs/heads/main,sha256=crGP01FLAqdksSr1razn4_Aa5devc2MaSbfStzWV4Os,2160
 pembot/.git/logs/refs/remotes/origin/HEAD,sha256=OrkNquczPPh6fEGtutFKva_-_JhAdwnvXpCCPC4N6jk,194
-pembot/.git/logs/refs/remotes/origin/main,sha256=TzZ8B_7cB9ODuU2sqJ_2omvV7houIBI8mq-7SrWFyNY,876
+pembot/.git/logs/refs/remotes/origin/main,sha256=5cKDe0WKpvOSobN6UHTaj0is1mUWZMz0xjzyBSz1l2s,1022
 pembot/.git/objects/0a/fb3a98cdc55b1434b44534ec2bf22c56cfa26c,sha256=Xxw20vI57zuhERWopDAZpQw6rAOhFtUr05lzpGyCTTE,120
 pembot/.git/objects/0b/db4169fc0f312b8698f1df17a258fff163aeaa,sha256=hsOHhX0Yajg27Y7B9lo-WjDXzW1KNMg2CBr93G116EY,387
 pembot/.git/objects/0c/8d9b2690545bf1906b05cd9f18b783b3eb74f1,sha256=GKt_CAJNOQXwGnoFLuiNpkd0s_hP_UDLKd59VRknYy0,330
@@ -40,10 +41,12 @@ pembot/.git/objects/1f/83a471c8119f7794d98c049170a5d7d07a4b71,sha256=XnMaYQUA8iT
 pembot/.git/objects/28/db0ab48059acccd7d257aa02e52e9b6b83a4a5,sha256=S6PrWSQlkifYxKIgFdU0PZD0uLebS6uAP2LAUwp5yOI,91
 pembot/.git/objects/35/97e518a8658280be9f377f78edf1dfa1f23814,sha256=gfc5bFLVZpwNQb1Ox2VosDYAjw0Lc5ZLjmvNA8gWcmg,2546
 pembot/.git/objects/3d/07d3b29ff53d95de3898fb786d61732f210515,sha256=A9MNZO3QZ6ghGd1MyfmJ6H3dBTpF4HZcRosVxWytx8E,4077
+pembot/.git/objects/3e/23850624fcf5f111d6ea88ddd64adf924cf82f,sha256=ygVUpaLo7cxUdIgjFlaBh2BkllV6BIYYkzLIxsPKjWE,4111
 pembot/.git/objects/3e/cf23eb95123287531d708a21d4ba88d92ccabb,sha256=Jlg3XIzIjk3N5ZKolXbz_betMybJ2t2TVuOARg2ruQU,4943
 pembot/.git/objects/3f/78215d7e17da726fb352fd92b3c117db9b63ba,sha256=J8r5hqTEgAwlH5sDjr9tp1ipqpvs4BAVQY5rkiKqDCw,4080
 pembot/.git/objects/3f/e072cf3cb6a9f30c3e9936e3ddf622e80270d0,sha256=Z-UoKi2MYe0qGTtBxAr5cnIOHKkhoEXMgalevFUz9lA,2992
 pembot/.git/objects/41/cbeb6bcb4c6fa9ef9be571082d95ecb4ea0ee3,sha256=waMrzjG_o5D4JgHkjjqcDQCwuS17w60JRkVr25ZFlcI,117
+pembot/.git/objects/4d/a03134f70896f72053fbdc0cd4f4c76d4ac1d8,sha256=GBhAvxM1omIt-PN6mNXYlIJMN5nx2AUE0ZOf68El5pc,117
 pembot/.git/objects/51/9e780574933d7627a083222bd10dd74f430904,sha256=3e3Iu2-waVySghbLYXmwhDPpfhV4PF82suvjcYkSVog,3604
 pembot/.git/objects/61/46a371b9c1bd9f51af273f11f986cfd1bedeba,sha256=KZvfnjxuriY54uWZQOM-GLovAvHs1k8_KwhpjNA5lW4,128
 pembot/.git/objects/63/1700a51c8fa97b543991f5f61bfcd1e7e1327d,sha256=sYkhBkrSPQ8klX2gPrXJUZVt2a0iaF7KC7NFGBuxgeY,4360
@@ -55,6 +58,7 @@ pembot/.git/objects/86/cdaec229f1fbebf43042266b03878944669f25,sha256=eTvQhUeYXP8
 pembot/.git/objects/87/d6df5217a4a374f8c1211a05f9bd657f72c9a7,sha256=OGq5-x1lFa94vTX7WYO6o4TGvCZwAvZ6LXm6N3dpiKM,3881
 pembot/.git/objects/8b/5be2af9b16f290549193859c214cd9072212e8,sha256=DhGeGisCdFZ0TcRKp5angRpaseI87TQDt5FtGZInstk,117
 pembot/.git/objects/93/8f29d9b4b1ae86e39dddf9e3d115a82ddfc9b6,sha256=xf8oZ5IBMTxfkH7MFfukV7ZIu0Apd-78eJTdlI7GBv0,90
+pembot/.git/objects/95/28bbccd167e3f4ad583a1ae9fac98a52620e27,sha256=jwJdRviwjGJIyMpE_BM6mr7B9ofGEsI5ZToJo5nmlao,263
 pembot/.git/objects/9b/123713e30fc9e225f9ac8ff5b02f8f8cf86456,sha256=xIETiieOoilleucGg7vXOgjZ-v5PI0t34fDJjDD665A,4204
 pembot/.git/objects/ab/139d2cd4798dd8e2c565b80440b1a44b376126,sha256=v1UO-WINmigZNYD74kyIv310Kq5k4SNL-gQ2DYlw9xk,6258
 pembot/.git/objects/ab/c6b15265171457b41e2cfdaf3b8c3994a59eb7,sha256=ivRCkHzUZHXB16wn2ojARknUrwBkoUsV_18QT3Jbs-k,205
@@ -62,11 +66,14 @@ pembot/.git/objects/ac/9c9018c62fa30dc142665c1b5a375f4e056880,sha256=P_8LPBV0v4D
 pembot/.git/objects/b1/1173d9b68db117437ccb9551461152e1e8a77d,sha256=6cl8NMNQ9b5fBh97GPEQNssOVrh-EQLJfhqSBbNb_vU,205
 pembot/.git/objects/b2/4e79ab07fe9e68781961a25ff9f1dbb1546fbb,sha256=zfd9KnP9YtBMwzci1BMWFHAQR4BWJ3XQsyr-rFqdw0Q,135
 pembot/.git/objects/b8/eea52176ffa4d88c5a9976bee26092421565d3,sha256=xCom1B6wyws8ZNTJoIL4JtVIXNv1yPCwsXfNsVCAGQA,4410
+pembot/.git/objects/bd/8fd1cb166996e74a8631f3a6f764a53af75297,sha256=JOkICUEv6tdVp7mYDUKtXnsWq3IIZSmm8iUP7OqQwc4,56
 pembot/.git/objects/bf/068a0714e2145de83a5c004f4213b091439d0e,sha256=MpiiCqAk6GQ5iGzeThU0rsabrgA5tCAgdIWudAM0IrA,420
 pembot/.git/objects/bf/32a7e6872e5dc4025ee3df3c921ec7ade0855f,sha256=lwL9ickzIFtMJgNKaPp6nTGDlMhPs6fkZTWevQWK_Lc,56
+pembot/.git/objects/bf/518686b06069d2a8abd3689908b7e1a6e16b05,sha256=w-HgdJdX2_ZdiIptJv8BcWdeDEyhl42WEk8P72X8YKU,421
 pembot/.git/objects/c0/793458db6e1bee7f79f1a504fb8ff4963f8ed3,sha256=b8lo_OrMeGgirc9yY_OFjv5xVpG6FBpZnBf7jbtlmyw,421
 pembot/.git/objects/c2/443060c07101948487cfa93cc39e082e9e0f5f,sha256=d9rjB8sgBOUQ-HQ8yu5I-c5Dqr_q2z0OOCXSufjDAak,3998
 pembot/.git/objects/d0/937f7d832266337289d5ec09459f931a46fcf7,sha256=_RZ7Z2EZp1OOF_XZhY6e1tzWwhI8Fa5R9aaF_W8APBA,56
+pembot/.git/objects/e0/9162dbd64d85bb5ed740aa99faefa73f293d78,sha256=I5fpz3BQ2maFPTSu43T1uvYMuLiep1C3K6CsX8UMNPI,196
 pembot/.git/objects/e5/3070f2b07f45d031444b09b1b38658f3caf29e,sha256=irJ-z8kPZmg85B0f4TQz73yJoCMWMWsIR3Pi5wx1Dlk,4034
 pembot/.git/objects/e7/911a702079a6144997ea4e70f59abbe59ec2bc,sha256=r4zY-__F4gSfjE7onRTrcxvv8umXKuPuFzd95AiQ0cs,392
 pembot/.git/objects/e9/1172752e9a421ae463112d2b0506b37498c98d,sha256=qWZpM65kQPSxlVHAtyzH5L-j3rL-b9Jw-A7YBm4NMlI,249
@@ -83,26 +90,28 @@ pembot/.git/objects/fc/e56f1e09d09a05b9babf796fb40bece176f3a2,sha256=g-IVuI_8YBn
 pembot/.git/objects/pack/pack-d5469edc8c36e3bb1de5e0070e4d5b1eae935dd4.idx,sha256=CNzx_lz6v4PulPxRW2t9nz-ifvplpSFPhMA2M9WNUrA,3424
 pembot/.git/objects/pack/pack-d5469edc8c36e3bb1de5e0070e4d5b1eae935dd4.pack,sha256=dk3Sqrd0L-tNVLRy3uJdTYJNkw8v59mE1hV8zrCFNzc,41355
 pembot/.git/objects/pack/pack-d5469edc8c36e3bb1de5e0070e4d5b1eae935dd4.rev,sha256=7U3tpTWQ3dn5dwQo_KWMWxF31cKaDnCk2AzTO7Cx4Bg,388
-pembot/.git/refs/heads/main,sha256=54t3FdOxyxoG7KRRUgPS3G9f4WGNrpxuNVAPZbd3N0o,41
+pembot/.git/refs/heads/main,sha256=Sz6HMFv8rlaBjeNHaBfSrRUorGipDPAJnfxmiUADG5I,41
 pembot/.git/refs/remotes/origin/HEAD,sha256=K7aiSqD8bEhBAPXVGim7rYQc0sdV9dk_qiBOXbtOsrQ,30
-pembot/.git/refs/remotes/origin/main,sha256=54t3FdOxyxoG7KRRUgPS3G9f4WGNrpxuNVAPZbd3N0o,41
+pembot/.git/refs/remotes/origin/main,sha256=Sz6HMFv8rlaBjeNHaBfSrRUorGipDPAJnfxmiUADG5I,41
 pembot/AnyToText/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-pembot/AnyToText/convertor.py,sha256=26Pq4OLhVNHgIhJdLLcxGPFTtdnG2lsQkR_53_zkZZM,16997
+pembot/AnyToText/convertor.py,sha256=8fDFxjyiL8H9mhZTjmxgePQj-sVZCHnEfMooYMqt6wk,17104
 pembot/TextEmbedder/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 pembot/TextEmbedder/gemini_embedder.py,sha256=P679-2mmQESlYKML1vcrwx_-CSgWJgIQk7NL4F7BLQE,677
 pembot/TextEmbedder/mongodb_embedder.py,sha256=pD8mP-uC_o0COPdOrCTMpoC5PdF8hXlqARHvTr2T-VI,9642
 pembot/TextEmbedder/mongodb_index_creator.py,sha256=ejpsF_y1zY6Z0nux02vjODiDPnxx-YA_xy2PmT94zZ4,5306
 pembot/TextEmbedder/vector_query.py,sha256=Kh1uhx9CatB-oQlQtnW-1I2Qz7MGHI20n2h_8peAChM,1986
-pembot/config/config.yaml,sha256=xANYakwM7ZTuPH89FNY-Z1V050Lvi_HtHnOUvIKjBqs,156
+pembot/config/config.yaml,sha256=JHvRjzmkPIdKjryQY3W375B1IQgFvbumQ727AwvRW7U,156
 pembot/pdf2markdown/LICENSE,sha256=1JTJhQjUYDqJzFJhNtitm7mHyE71PRHgetIqRRWg6Pk,1068
 pembot/pdf2markdown/README.md,sha256=jitM1pwI69oa0N4mXv5-SY1ka9Sz3jsRNCDdpW-50kY,4545
 pembot/pdf2markdown/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-pembot/pdf2markdown/extract.py,sha256=PreFHesr8T6pVzgX87nSbPBlSsKfQZKOf5CVya2ys0s,35212
+pembot/pdf2markdown/extract.py,sha256=ylkPfxMJiePUKmGlZ8B3fz51FtG17Q8P27KGLrz9J48,33289
+pembot/pdf2markdown/pyrightconfig.json,sha256=Vt_k4N2LtZhth0lQOQAOnRKDOQkYYVzmdtb-bP3gu7M,47
 pembot/pdf2markdown/requirements.txt,sha256=0vZQzkSZKLNVUttd4euoDyYEy0nc2W3CIVxhepHW5Ho,76
+pembot/pdf2markdown/.git/COMMIT_EDITMSG,sha256=n3-nJDAjMCjnbADDTrmOPQYgrUSZRElYCQsXxv_AS1g,64
 pembot/pdf2markdown/.git/HEAD,sha256=KNJb-Cr0wOK3L1CVmyvrhZ4-YLljCl6MYD2tTdsrboA,21
-pembot/pdf2markdown/.git/config,sha256=ltEWI476vFz2goGWD7QmCDvC6UCQ9ELviXuURlvte_w,269
+pembot/pdf2markdown/.git/config,sha256=bxpN4Vp2IKsAw9QkRoCIXULseCngmK7OQMg_81HDmww,398
 pembot/pdf2markdown/.git/description,sha256=hatsFj1DoX6pz3eIMIvKFGbxsKjRzJLibpv2PaQGKu4,73
-pembot/pdf2markdown/.git/index,sha256=nB0bXnuMd6Gde6mwU2J3v3xf7FR-BAxLUrije4qQ4IY,488
+pembot/pdf2markdown/.git/index,sha256=b6ZJzQ8qBONIIcgKXWOnK38rPQ1h93xQGpjMUmeVhqc,656
 pembot/pdf2markdown/.git/packed-refs,sha256=kJfKR7KBh8Ao4cGF_14wFxiFMP_lBLTKdXRAB2UMQ_o,112
 pembot/pdf2markdown/.git/hooks/applypatch-msg.sample,sha256=AiNJeguLAzqlijpSG4YphpOGz3qw4vEBlj0yiqYhk_c,478
 pembot/pdf2markdown/.git/hooks/commit-msg.sample,sha256=H3TV6SkpebVz69WXQdRsuT_zkazdCD00C5Q3B1PZJDc,896
@@ -119,19 +128,32 @@ pembot/pdf2markdown/.git/hooks/push-to-checkout.sample,sha256=pT0HQXmLKHxt16-mSu
 pembot/pdf2markdown/.git/hooks/sendemail-validate.sample,sha256=ROv8kj3FRmvACWAvDs8Ge5xlRZq_6IaN3Em3jmztepI,2308
 pembot/pdf2markdown/.git/hooks/update.sample,sha256=jV8vqD4QPPCLV-qmdSHfkZT0XL28s32lKtWGCXoU0QY,3650
 pembot/pdf2markdown/.git/info/exclude,sha256=ZnH-g7egfIky7okWTR8nk7IxgFjri5jcXAbuClo7DsE,240
-pembot/pdf2markdown/.git/logs/HEAD,sha256=jJscThcgJ-i1V19vA4RVs9acp0QIKsVSwY9zAmV3tjU,193
-pembot/pdf2markdown/.git/logs/refs/heads/main,sha256=jJscThcgJ-i1V19vA4RVs9acp0QIKsVSwY9zAmV3tjU,193
+pembot/pdf2markdown/.git/logs/HEAD,sha256=kgz5CoaL_AuYbbsv4KXiCvuqydnLusQUvmjDdzMtl6U,1002
+pembot/pdf2markdown/.git/logs/refs/heads/main,sha256=kgz5CoaL_AuYbbsv4KXiCvuqydnLusQUvmjDdzMtl6U,1002
+pembot/pdf2markdown/.git/logs/refs/remotes/myorigin/main,sha256=bmsvulVWtYHEVD_JpjpPFXZKCZd9dZVkA-XT3fzBauw,438
 pembot/pdf2markdown/.git/logs/refs/remotes/origin/HEAD,sha256=jJscThcgJ-i1V19vA4RVs9acp0QIKsVSwY9zAmV3tjU,193
+pembot/pdf2markdown/.git/objects/14/251b198e0bac39a3dc3b42f9e57b20c01465fb,sha256=Ssx4RupGzteVz0Irtgh95-Ccnacskv8ql8zLtqUgmOE,209
+pembot/pdf2markdown/.git/objects/24/8f03b5f969a7fbd396b496f40b57f0ae81c148,sha256=ScB91DWSzfIrFLnghWglGqxxxmHxzODACQiXJEHDeWA,229
+pembot/pdf2markdown/.git/objects/57/74dc9c3901d2ffb2cd7dafe2ad6612a7f9f42c,sha256=0Vkgzw7kU0cludbgJUyqCWLgK5Q3vfFnoKmeLq6c-uU,52
+pembot/pdf2markdown/.git/objects/72/2dc14f82e78ce41717348b256e0c17834933b4,sha256=062pZN8JWfsC9z4MKIEgUcLIdnjzC6hwPjjsvHDhW-M,266
+pembot/pdf2markdown/.git/objects/79/eb7b93ced70e399bd561093c45de7641414dbd,sha256=4mcMnseFu9SBgw2L5xJe3V_Lb5ZcjBRv1Dc-pAZrznw,9793
+pembot/pdf2markdown/.git/objects/8d/9ce1fd9733a78c592b34af9c94b98960c601ed,sha256=eJMRf2BFDCxSgPuVPPLd6zZu3NmwMeYVYwyxW9QkW6M,9772
+pembot/pdf2markdown/.git/objects/95/745843bb4377d6042180daeda818c0b16fd493,sha256=ddMj81nqLqqtVtrJ6TV7eOEjrzq38AbIjgWAPj0MaT8,12391
+pembot/pdf2markdown/.git/objects/a5/c6dfb577782c259990dcf977e355298e923428,sha256=c6vkmaxLJ8-6V2DykAhGnGUFJc1EH_-TuDeijrrHRWg,265
+pembot/pdf2markdown/.git/objects/b4/8d697aa9fd97151eb2a84a1af5d408b7630232,sha256=nSKTkx4mVrz7uaJkacuDJH7KO-vR1-OrvBV-e2HQvm0,194
+pembot/pdf2markdown/.git/objects/b8/702320e56074e9680181d8b7897d6a0a552e2d,sha256=-XJJ4C0svu4LaZ9Zi3pAWVvy18w2CJ2lg16Zr2Hnu-U,372
+pembot/pdf2markdown/.git/objects/e6/9de29bb2d1d6434b8b29ae775ad8c2e48c5391,sha256=FkxfqAZ_rPGkPwnOPQ416_U6f1cj7L8VqGZ8_FPCb2w,15
 pembot/pdf2markdown/.git/objects/pack/pack-d3051affdd6c31306dc53489168fc870872085d1.idx,sha256=nZ0BJQYRC49OtqnyhZR_teR85PqslUG6j16UAKoX8m4,3452
 pembot/pdf2markdown/.git/objects/pack/pack-d3051affdd6c31306dc53489168fc870872085d1.pack,sha256=_KzHMGgrVzHGn2ZiKyHlvqc-BwTEeq3PqDPPJ9DYI5E,32222
 pembot/pdf2markdown/.git/objects/pack/pack-d3051affdd6c31306dc53489168fc870872085d1.rev,sha256=1jASJFjt2r2Sxd2G87oSTfrQnowK2ThvjVlWTIF-47E,392
-pembot/pdf2markdown/.git/refs/heads/main,sha256=E8R7BznAiEnrV1-8RJMSrGaOr2vzg00LO6dN7x8O37o,41
+pembot/pdf2markdown/.git/refs/heads/main,sha256=oRkN5qBSGT5N23aQ_E4DIUGMZLPez-Cij_1QgK-k3jI,41
+pembot/pdf2markdown/.git/refs/remotes/myorigin/main,sha256=oRkN5qBSGT5N23aQ_E4DIUGMZLPez-Cij_1QgK-k3jI,41
 pembot/pdf2markdown/.git/refs/remotes/origin/HEAD,sha256=K7aiSqD8bEhBAPXVGim7rYQc0sdV9dk_qiBOXbtOsrQ,30
 pembot/pdf2markdown/config/config.yaml,sha256=w75W2Eg4-tu8rRk_23PqxWDh0010kRKLmPrh46f_Njc,66
 pembot/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 pembot/utils/inference_client.py,sha256=jeURmY2P5heVlH1dCV0XSgiX3U2qYGEmrnUv0KFpdww,5380
 pembot/utils/string_tools.py,sha256=gtRa5rBR0Q7GspTu2WtCnvhJQLFjPfWLvhmyiPkyStU,1883
-pembot-0.0.5.dist-info/licenses/LICENSE,sha256=OXLcl0T2SZ8Pmy2_dmlvKuetivmyPd5m1q-Gyd-zaYY,35149
-pembot-0.0.5.dist-info/WHEEL,sha256=Dyt6SBfaasWElUrURkknVFAZDHSTwxg3PaTza7RSbkY,100
-pembot-0.0.5.dist-info/METADATA,sha256=RUAzpxKZigCjcI-yk-WR1zD_u15rKhQqWAqAIhxnnNs,313
-pembot-0.0.5.dist-info/RECORD,,
+pembot-0.0.6.dist-info/licenses/LICENSE,sha256=OXLcl0T2SZ8Pmy2_dmlvKuetivmyPd5m1q-Gyd-zaYY,35149
+pembot-0.0.6.dist-info/WHEEL,sha256=Dyt6SBfaasWElUrURkknVFAZDHSTwxg3PaTza7RSbkY,100
+pembot-0.0.6.dist-info/METADATA,sha256=jcibBPdDsmAbgWICvgecVgEEk_9wPQ4xDBkHpdhjKPw,313
+pembot-0.0.6.dist-info/RECORD,,

{pembot-0.0.5.dist-info → pembot-0.0.6.dist-info}/WHEEL RENAMED Viewed

File without changes

{pembot-0.0.5.dist-info → pembot-0.0.6.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

pembot 0.0.5__py2.py3-none-any.whl → 0.0.6__py2.py3-none-any.whl

Potentially problematic release.

pembot 0.0.5py2.py3-none-any.whl → 0.0.6py2.py3-none-any.whl