PyPI - pembot - Versions diffs - 0.0.6__py2.py3-none-any.whl → 0.0.8__py2.py3-none-any.whl - Mend

pembot 0.0.6py2.py3-none-any.whl → 0.0.8py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of pembot might be problematic. Click here for more details.

Files changed (39) hide show

pembot/.git/COMMIT_EDITMSG CHANGED Viewed

	@@ -1 +1 @@
1	- ~~handled config loading errors gracefully;~~ added ~~gemini~~ ~~support,~~ as ~~an option; added huggingface nanonets transformers support (as an option); redesigned the extract markdown for captioning and image ocr (block image and full-page image);~~
1	+ added model name to convertor

pembot/.git/index CHANGED Viewed

Binary file

pembot/.git/logs/HEAD CHANGED Viewed

@@ -6,3 +6,5 @@ e91172752e9a421ae463112d2b0506b37498c98d 0c8d9b2690545bf1906b05cd9f18b783b3eb74f
 0c8d9b2690545bf1906b05cd9f18b783b3eb74f1 eb75e1c49f1e5b79dca17ccdbec8067756523238 cyto <silverstone965@gmail.com> 1750856653 +0530	commit: made arrangements for the cases when custom file bytes are to be processed to text output; handled a ollama running / crashing error
 eb75e1c49f1e5b79dca17ccdbec8067756523238 0bdb4169fc0f312b8698f1df17a258fff163aeaa cyto <silverstone965@gmail.com> 1750937276 +0530	commit: fixed the output_dir bug; fixed the excel to json function; ran some tests on convertor; incremented the version on the package; removed dependency on schema / structure, and shifted required fields to a pickle file path in the cli args;
 0bdb4169fc0f312b8698f1df17a258fff163aeaa 9528bbccd167e3f4ad583a1ae9fac98a52620e27 cyto <silverstone965@gmail.com> 1750947488 +0530	commit: handled local llm nonexistent error properly for choice of just passing None as llm_client;
+9528bbccd167e3f4ad583a1ae9fac98a52620e27 ef0503a60244391590b16042019032e91d7cc30d cyto <silverstone965@gmail.com> 1751872559 +0530	commit: added a model_name_parameter to change models quicky
+ef0503a60244391590b16042019032e91d7cc30d af80ddb5890f062e364ea8ade2d602df4e12de8c cyto <silverstone965@gmail.com> 1751896700 +0530	commit: added model name to convertor

pembot/.git/logs/refs/heads/main CHANGED Viewed

@@ -6,3 +6,5 @@ e91172752e9a421ae463112d2b0506b37498c98d 0c8d9b2690545bf1906b05cd9f18b783b3eb74f
 0c8d9b2690545bf1906b05cd9f18b783b3eb74f1 eb75e1c49f1e5b79dca17ccdbec8067756523238 cyto <silverstone965@gmail.com> 1750856653 +0530	commit: made arrangements for the cases when custom file bytes are to be processed to text output; handled a ollama running / crashing error
 eb75e1c49f1e5b79dca17ccdbec8067756523238 0bdb4169fc0f312b8698f1df17a258fff163aeaa cyto <silverstone965@gmail.com> 1750937276 +0530	commit: fixed the output_dir bug; fixed the excel to json function; ran some tests on convertor; incremented the version on the package; removed dependency on schema / structure, and shifted required fields to a pickle file path in the cli args;
 0bdb4169fc0f312b8698f1df17a258fff163aeaa 9528bbccd167e3f4ad583a1ae9fac98a52620e27 cyto <silverstone965@gmail.com> 1750947488 +0530	commit: handled local llm nonexistent error properly for choice of just passing None as llm_client;
+9528bbccd167e3f4ad583a1ae9fac98a52620e27 ef0503a60244391590b16042019032e91d7cc30d cyto <silverstone965@gmail.com> 1751872559 +0530	commit: added a model_name_parameter to change models quicky
+ef0503a60244391590b16042019032e91d7cc30d af80ddb5890f062e364ea8ade2d602df4e12de8c cyto <silverstone965@gmail.com> 1751896700 +0530	commit: added model name to convertor

pembot/.git/logs/refs/remotes/origin/main CHANGED Viewed

@@ -5,3 +5,5 @@ e91172752e9a421ae463112d2b0506b37498c98d 0c8d9b2690545bf1906b05cd9f18b783b3eb74f
 0c8d9b2690545bf1906b05cd9f18b783b3eb74f1 eb75e1c49f1e5b79dca17ccdbec8067756523238 cyto <silverstone965@gmail.com> 1750856672 +0530	update by push
 eb75e1c49f1e5b79dca17ccdbec8067756523238 0bdb4169fc0f312b8698f1df17a258fff163aeaa cyto <silverstone965@gmail.com> 1750937389 +0530	update by push
 0bdb4169fc0f312b8698f1df17a258fff163aeaa 9528bbccd167e3f4ad583a1ae9fac98a52620e27 cyto <silverstone965@gmail.com> 1750947502 +0530	update by push
+9528bbccd167e3f4ad583a1ae9fac98a52620e27 ef0503a60244391590b16042019032e91d7cc30d cyto <silverstone965@gmail.com> 1751872581 +0530	update by push
+ef0503a60244391590b16042019032e91d7cc30d af80ddb5890f062e364ea8ade2d602df4e12de8c cyto <silverstone965@gmail.com> 1751896713 +0530	update by push

pembot/.git/objects/0c/ab66ffbaf50ef60dd41f3498595ebd2526b33c ADDED Viewed

Binary file

pembot/.git/objects/41/ae8fa8f8baa2daee5ec0aa21ae17922ae051a0 ADDED Viewed

Binary file

pembot/.git/objects/50/39b29fda67743a044993436df6a4a1db7b8888 ADDED Viewed

Binary file

pembot/.git/objects/7a/7d28b0313a3d9d509823faaae31949af8610ef ADDED Viewed

Binary file

pembot/.git/objects/7e/0907822f7d316ebe0be07e1f6918bef412c80b ADDED Viewed

Binary file

pembot/.git/objects/af/80ddb5890f062e364ea8ade2d602df4e12de8c ADDED Viewed

Binary file

pembot/.git/objects/b8/884c6145221ac66f84bf88919754c2cb05c12d ADDED Viewed

Binary file

pembot/.git/objects/ee/a73c7f24094ed83b014f7cfce46e10f817bec8 ADDED Viewed

Binary file

pembot/.git/objects/ef/0503a60244391590b16042019032e91d7cc30d ADDED Viewed

@@ -0,0 +1,3 @@
+x��Kj1D��)z� ��ĴZ-{�h����>2�AVU��Qom��9��j�5�d��,��#��tQF&T�J|��ۀ�t̙�(�T��E�
+9U��i�%� �>�}z�ǲ��~��q����pYߩ�OP���s	ޤ3R�v
+�*�.��z���a��Ԟ�t��¯����B���k�U�

pembot/.git/objects/f6/b1d54483ce20fbcb252a8a93a5eff7bec88729 ADDED Viewed

Binary file

pembot/.git/objects/f8/6fbd490878cb0d3c35cc4443672d1309171bf1 ADDED Viewed

Binary file

pembot/.git/refs/heads/main CHANGED Viewed

	@@ -1 +1 @@
1	- ~~9528bbccd167e3f4ad583a1ae9fac98a52620e27~~
1	+ af80ddb5890f062e364ea8ade2d602df4e12de8c

pembot/.git/refs/remotes/origin/main CHANGED Viewed

	@@ -1 +1 @@
1	- ~~9528bbccd167e3f4ad583a1ae9fac98a52620e27~~
1	+ af80ddb5890f062e364ea8ade2d602df4e12de8c

pembot/AnyToText/convertor.py CHANGED Viewed

@@ -31,12 +31,14 @@ EXCEL_FILE_TYPES= [
 class Convertor():
-    def __init__(self, myfile: Path | None= None, output_dir: Path | None= None, file_bytes: bytes | None= None, suffix: str | None= None, file_type: str | None= None):
+    def __init__(self, myfile: Path | None= None, output_dir: Path | None= None, file_bytes: bytes | None= None, suffix: str | None= None, file_type: str | None= None, model_name: str | None = None):
         self.output= ""
-        # model_name=  "gemini-2.5-flash"
-        model_name= None
+        if model_name is None:
+            # model_name=  "gemini-2.5-flash"
+            model_name=  "Nanonets-OCR-s"
         # file_type can be pdf, excel, etc.
         if output_dir is None and myfile is None and file_bytes is not None and suffix is not None:
             with tempfile.TemporaryDirectory() as dp:

pembot/TextEmbedder/mongodb_embedder.py CHANGED Viewed

@@ -29,6 +29,7 @@ def search_within_document(
     limit: int = 5,
     index_name: str = "test_search",
     embeddings_collection_name: str= "doc_chunks",
+    document_belongs_to_a_type = "",
 ):
     """
     Performs a vector similarity search within the chunks of a specific document
@@ -42,6 +43,7 @@ def search_within_document(
         index_name: The name of your MongoDB Atlas Vector Search index.
                     You MUST have a vector search index created on the 'embedding' field
                     of the 'embeddings_collection' collection for this to work efficiently.
+        document_belongs_to_a_type: When search spaces intersect for different docIds, such that docId is an array field,
     Returns:
         A list of dictionaries, where each dictionary represents a matching chunk
@@ -50,10 +52,23 @@ def search_within_document(
     embeddings_collection = db_client[embeddings_collection_name]
     print(f"Searching within document (docId: {document_name_id})...")
+    # print(f" filter (slug: {document_belongs_to_a_type})...")
     # MongoDB Atlas Vector Search aggregation pipeline
     # The 'path' should point to the field containing the embeddings.
     # The 'filter' stage is crucial for searching within a specific document.
+    #
+    project_dict= {
+        '_id': 0,
+        'docId': 1,
+        'chunk_number': 1,
+        'chunk_text': 1,
+        'score': { '$meta': 'vectorSearchScore' } # Get the similarity score
+    }
+    if document_belongs_to_a_type:
+        project_dict['type']= 1
     pipeline = [
         {
             '$vectorSearch': {
@@ -66,25 +81,21 @@ def search_within_document(
                 'index': index_name,
                 #filter to search only within the specified document
-                'filter': {
-                    'docId': document_name_id
-                }
+                'filter':
+                    { "type": {"$in": [document_belongs_to_a_type ]} } if document_belongs_to_a_type else
+                    { 'docId': document_name_id }
             }
         },
         # to exclude the MongoDB internal _id
         {
-            '$project': {
-                '_id': 0,
-                'docId': 1,
-                'chunk_number': 1,
-                'chunk_text': 1,
-                'score': { '$meta': 'vectorSearchScore' } # Get the similarity score
-            }
+            '$project': project_dict
         }
     ]
+    # print("sesraching now:")
     results = list(embeddings_collection.aggregate(pipeline))
+    # print("search results: ", results)
     if not results:
         print(f"No relevant chunks found for document '{document_name_id}' with the given query.")
@@ -100,15 +111,18 @@ def search_within_document(
-def process_document_and_embed(db_client,
+def process_document_and_embed(
+    db_client,
     llm_client,
     inference_client,
     file_path: Path,
     chunk_size: int,
-    embedding_model: str = 'nomic-embed-text:v1.5',
+    embedding_model: str = 'BAAI/bge-en-icl',
     embeddings_collection_name= "doc_chunks",
     use_custom_id: str | None = None,
-    use_custom_input: str | None = None
+    use_custom_input: str | None = None,
+    document_belongs_to_a_type= "",
+    type_info= []
 ) -> list[dict]:
     """
     Processes an input document by chunking its text, generating embeddings using
@@ -228,13 +242,30 @@ def process_document_and_embed(db_client,
                 'chunk_text': chunk,
                 'embedding': embedding,
                 'chunk_id_global': chunk_id_global,
-                'chunk_id_doc_specific': chunk_id_doc_specific
+                'chunk_id_doc_specific': chunk_id_doc_specific,
             }
-            embeddings_collection.update_one(
-                {'docId': document_name_id, 'chunk_number': i + 1},
-                {'$set': doc_set},
-                upsert=True
-            )
+            # TBD: this is NOT pushing array, this is creating a "$push" field with type: "" object
+            if len(type_info) > 0:
+                embeddings_collection.update_one(
+                    {'docId': document_name_id, 'chunk_number': i + 1},
+                    {
+                        '$set': doc_set,
+                        '$push': {
+                            "type": type_info
+                        }
+                    },
+                    upsert=True
+                )
+            else:
+                embeddings_collection.update_one(
+                    {'docId': document_name_id, 'chunk_number': i + 1},
+                    {'$set': doc_set},
+                    upsert=True
+                )
             print(f"Successfully stored chunk {i+1} for '{file_path.name}' in MongoDB.")
             res.append({**doc_set, "docId": document_name_id, "chunk_number": i + 1})

pembot/TextEmbedder/mongodb_index_creator.py CHANGED Viewed

@@ -4,7 +4,7 @@ from pymongo.operations import SearchIndexModel
 import time
 import os
-def create_vector_index(collection: Collection, index_name: str, num_dimensions: int = 768):
+def create_vector_index(collection: Collection, index_name: str, num_dimensions: int = 768, document_belongs_to_a_type= ""):
     """
     Creates a MongoDB Atlas Vector Search index if it does not already exist.
@@ -13,14 +13,14 @@ def create_vector_index(collection: Collection, index_name: str, num_dimensions:
         index_name: The desired name for the vector search index.
         num_dimensions: The number of dimensions for the embedding vectors.
     """
     # 1. Check if the index already exists
     existing_indexes = list(collection.list_search_indexes())
     for index in existing_indexes:
         if index.get('name') == index_name:
             print(f"Search index '{index_name}' already exists. Skipping creation.")
             # Optional: You can also check if the existing index is "READY"
             if index.get('status') == 'READY':
                 print(f"Index '{index_name}' is already ready for querying.")
@@ -33,20 +33,27 @@ def create_vector_index(collection: Collection, index_name: str, num_dimensions:
     # 2. If the index does not exist, proceed to create it
     print(f"Search index '{index_name}' does not exist. Creating it now...")
+    fields_arr= [
+        {
+            "type": "vector",
+            "path": "embedding",
+            "similarity": "dotProduct", # Or "cosine", "euclidean"
+            "numDimensions": num_dimensions,
+            "quantization": "scalar" # Or "none"
+        },
+        {
+            "type": "filter",
+            "path": "docId"
+        }
+    ]
+    if document_belongs_to_a_type:
+        fields_arr.append({
+            "type": "filter",
+            "path": "type"
+        })
     search_index_model = SearchIndexModel(definition={
-            "fields": [
-                {
-                    "type": "vector",
-                    "path": "embedding",
-                    "similarity": "dotProduct", # Or "cosine", "euclidean"
-                    "numDimensions": num_dimensions,
-                    "quantization": "scalar" # Or "none"
-                },
-                {
-                    "type": "filter",
-                    "path": "docId"
-                }
-            ]
+            "fields": fields_arr
         },
         name=index_name,
         type="vectorSearch"
@@ -70,7 +77,7 @@ def _wait_for_index_ready(collection: Collection, index_name: str):
     Helper function to poll the index status until it's ready.
     """
     print("Polling to check if the index is ready. This may take some time (up to a few minutes for large indexes).")
     start_time = time.time()
     timeout = 300 # 5 minutes timeout, adjust as needed
@@ -89,7 +96,7 @@ def _wait_for_index_ready(collection: Collection, index_name: str):
                 print(f"Index '{index_name}' status: {current_status}. Waiting...")
         except Exception as e:
             print(f"Error while polling index status: {e}. Retrying...")
         if time.time() - start_time > timeout:
             status= indices[0].get('status') if indices else 'N/A'
             print(f"Timeout: Index '{index_name}' did not become ready within {timeout} seconds. Current status: {status}")
@@ -99,9 +106,9 @@ def _wait_for_index_ready(collection: Collection, index_name: str):
 # --- Example Usage ---
 if __name__ == "__main__":
     # Replace with your database and collection names
-    DATABASE_NAME = "pembot"
+    DATABASE_NAME = "pembot"
     COLLECTION_NAME = "doc_chunks"
     VECTOR_INDEX_NAME = "test_search"
@@ -119,7 +126,7 @@ if __name__ == "__main__":
         # Call the function to create the index, with existence check
         create_vector_index(collection, VECTOR_INDEX_NAME, num_dimensions=EMBEDDING_DIMENSIONS)
         # Test calling it again to see the "already exists" message
         create_vector_index(collection, VECTOR_INDEX_NAME, num_dimensions=EMBEDDING_DIMENSIONS)
@@ -129,5 +136,3 @@ if __name__ == "__main__":
         if 'mongo_client' in locals() and mongo_client:
             mongo_client.close()
             print("MongoDB connection closed.")

pembot/__init__.py CHANGED Viewed

@@ -1,6 +1,6 @@
 """
 A Python Package to convert PEM blog content to usseful information by leveraging LLMs
 """
-__version__ = '0.0.6'
+__version__ = '0.0.8'
 from .main import save_to_json_file, make_query
 __all__ = ["save_to_json_file", "make_query"]

pembot/config/config.yaml CHANGED Viewed

@@ -2,4 +2,4 @@ OUTPUT_DIR: /home/cyto/dev/pembotdir
 PAGE_DELIMITER: ___________________________ NEXT PAGE ___________________________
 app:
   name: pembot
-  version: 0.0.6
+  version: 0.0.8

pembot/pdf2markdown/.git/COMMIT_EDITMSG CHANGED Viewed

	@@ -1 +1 @@
1	- ~~cyto/argument~~-~~list-bug-fix;authentication-used-in-gradio-client~~
1	+ handled the gpu errors non-gracefully so that it stops

pembot/pdf2markdown/.git/index CHANGED Viewed

Binary file

pembot/pdf2markdown/.git/logs/HEAD CHANGED Viewed

@@ -2,3 +2,4 @@
 ffb759ee4605b232366a9ee58134532913c3f9e0 b8702320e56074e9680181d8b7897d6a0a552e2d cyto <silverstone965@gmail.com> 1750947962 +0530	commit: handled config loading errors gracefully; added gemini support, as an option; added huggingface nanonets transformers support (as an option); redesigned the extract markdown for captioning and image ocr (block image and full-page image);
 b8702320e56074e9680181d8b7897d6a0a552e2d 14251b198e0bac39a3dc3b42f9e57b20c01465fb cyto <silverstone965@gmail.com> 1751604763 +0530	commit: removed deps on torch and transformers; used gradio client for ocr through public spaces;
 14251b198e0bac39a3dc3b42f9e57b20c01465fb b48d697aa9fd97151eb2a84a1af5d408b7630232 cyto <silverstone965@gmail.com> 1751871887 +0530	commit: cyto/argument-list-bug-fix;authentication-used-in-gradio-client
+b48d697aa9fd97151eb2a84a1af5d408b7630232 f3b2d76c75bbd50e04fc4c2ad17fc94ca6daed32 cyto <silverstone965@gmail.com> 1751896628 +0530	commit: handled the gpu errors non-gracefully so that it stops

pembot/pdf2markdown/.git/logs/refs/heads/main CHANGED Viewed

@@ -2,3 +2,4 @@
 ffb759ee4605b232366a9ee58134532913c3f9e0 b8702320e56074e9680181d8b7897d6a0a552e2d cyto <silverstone965@gmail.com> 1750947962 +0530	commit: handled config loading errors gracefully; added gemini support, as an option; added huggingface nanonets transformers support (as an option); redesigned the extract markdown for captioning and image ocr (block image and full-page image);
 b8702320e56074e9680181d8b7897d6a0a552e2d 14251b198e0bac39a3dc3b42f9e57b20c01465fb cyto <silverstone965@gmail.com> 1751604763 +0530	commit: removed deps on torch and transformers; used gradio client for ocr through public spaces;
 14251b198e0bac39a3dc3b42f9e57b20c01465fb b48d697aa9fd97151eb2a84a1af5d408b7630232 cyto <silverstone965@gmail.com> 1751871887 +0530	commit: cyto/argument-list-bug-fix;authentication-used-in-gradio-client
+b48d697aa9fd97151eb2a84a1af5d408b7630232 f3b2d76c75bbd50e04fc4c2ad17fc94ca6daed32 cyto <silverstone965@gmail.com> 1751896628 +0530	commit: handled the gpu errors non-gracefully so that it stops

pembot/pdf2markdown/.git/logs/refs/remotes/myorigin/main CHANGED Viewed

@@ -1,3 +1,4 @@
 0000000000000000000000000000000000000000 b8702320e56074e9680181d8b7897d6a0a552e2d cyto <silverstone965@gmail.com> 1750948073 +0530	update by push
 b8702320e56074e9680181d8b7897d6a0a552e2d 14251b198e0bac39a3dc3b42f9e57b20c01465fb cyto <silverstone965@gmail.com> 1751604904 +0530	update by push
 14251b198e0bac39a3dc3b42f9e57b20c01465fb b48d697aa9fd97151eb2a84a1af5d408b7630232 cyto <silverstone965@gmail.com> 1751872077 +0530	update by push
+b48d697aa9fd97151eb2a84a1af5d408b7630232 f3b2d76c75bbd50e04fc4c2ad17fc94ca6daed32 cyto <silverstone965@gmail.com> 1751896663 +0530	update by push

pembot/pdf2markdown/.git/objects/24/7b15a6b1e0e3d270c05af184f048736376cd4e ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/a7/4bcd5e67cb1066dd504b92b42390fe0b2c3d38 ADDED Viewed

Binary file

pembot/pdf2markdown/.git/objects/f3/b2d76c75bbd50e04fc4c2ad17fc94ca6daed32 ADDED Viewed

	@@ -0,0 +1 @@
1	+ x��Kj!3vw� �l媷?`k�v��>�!�C'��:'Hk�f't:�lȺ�6g�u2j�߈G�TV��ةN��gb�rp��F��ɚ��RI��<Z��

pembot/pdf2markdown/.git/refs/heads/main CHANGED Viewed

	@@ -1 +1 @@
1	- ~~b48d697aa9fd97151eb2a84a1af5d408b7630232~~
1	+ f3b2d76c75bbd50e04fc4c2ad17fc94ca6daed32

pembot/pdf2markdown/.git/refs/remotes/myorigin/main CHANGED Viewed

	@@ -1 +1 @@
1	- ~~b48d697aa9fd97151eb2a84a1af5d408b7630232~~
1	+ f3b2d76c75bbd50e04fc4c2ad17fc94ca6daed32

pembot/pdf2markdown/extract.py CHANGED Viewed

@@ -115,6 +115,10 @@ class MarkdownPDFExtractor(PDFExtractor):
         except Exception as e:
             self.logger.error(f"Error processing PDF: {e}")
             self.logger.exception(traceback.format_exc())
+            error_message= str(e).lower()
+            if "GPU" in error_message and "quota" in error_message:
+                return "GPU quota error", []
             return "", []
@@ -176,6 +180,12 @@ class MarkdownPDFExtractor(PDFExtractor):
                     print("ocr'd: ", result[:100] + "...")
             except Exception as e:
                 print("Error during nanonet inference", e)
+                error_message = str(e)
+                if "You have exceeded your Pro GPU quota" in error_message:
+                    # print("\n\n\nFALLING BACK TO TESS\n\n\n")
+                    # return pytesseract.image_to_string(pil_image)
+                    raise e
             return result
         else:
@@ -262,6 +272,9 @@ class MarkdownPDFExtractor(PDFExtractor):
                             except Exception as e:
                                 self.logger.error(f"    Error processing embedded image block for OCR: {e}")
                                 current_page_markdown_blocks.append("\n\n![Image Processing Error](error_on_page_{page_num+1}_block_{block_num+1}.png)\n\n")
+                                error_message= str(e).lower()
+                                if "GPU" in error_message and "quota" in error_message:
+                                    raise e
                     # Insert tables at their approximate positions (after blocks are processed for the page)
@@ -306,6 +319,9 @@ class MarkdownPDFExtractor(PDFExtractor):
                                 self.logger.info(f"  Full-page OCR yielded no text for page {page_num+1}.")
                         except Exception as e:
                             self.logger.error(f"  Error during full-page OCR on page {page_num+1}: {e}")
+                            error_message= str(e).lower()
+                            if "GPU" in error_message and "quota" in error_message:
+                                raise e
                     else:
                         self.logger.info(f"  Page {page_num + 1} has sufficient searchable text or embedded image OCR; skipping full-page OCR.")
@@ -329,7 +345,12 @@ class MarkdownPDFExtractor(PDFExtractor):
             except Exception as e:
                 self.logger.critical(f"An unexpected error occurred during markdown extraction: {e}")
                 self.logger.exception(traceback.format_exc())
-                return "", []
+                error_message= str(e).lower()
+                if "GPU" in error_message and "quota" in error_message:
+                    return "GPU quota error", []
+                else:
+                    return "", []
     def extract_tables(self):
         """Extract tables from PDF using pdfplumber."""
@@ -412,6 +433,9 @@ class MarkdownPDFExtractor(PDFExtractor):
         except Exception as e:
             self.logger.error(f"Error captioning image: {e}")
             self.logger.exception(traceback.format_exc())
+            error_message= str(e)
+            if "GPU" in error_message and "quota" in error_message:
+                raise e
             return ""
     def clean_text(self, text):
@@ -726,6 +750,7 @@ class MarkdownPDFExtractor(PDFExtractor):
             self.logger.exception(traceback.format_exc())
             return ""
     def get_header_level(self, font_size):
         """Determine header level based on font size."""
         if font_size > 24:

pembot/query.py CHANGED Viewed

@@ -68,7 +68,8 @@ def multi_embedding_average(llm_client, inference_client, descriptions, model= "
         except Exception as e:
             print(f"Error generating embedding for description '{desc}': {e}")
             # Decide how to handle errors: skip, raise, or use a placeholder
-            continue
+            # continue
+            raise e
         time.sleep(1)
     if not description_embeddings:
@@ -81,7 +82,7 @@ def multi_embedding_average(llm_client, inference_client, descriptions, model= "
-def rag_query_llm(db_client, llm_client, inference_client, user_query: str, document_id: str, required_fields_descriptions: list[str], model_name: str = "deepseek-ai/DeepSeek-R1-0528-Qwen3-8B", ollama_base_url: str = "http://localhost:11434", no_of_fields= 4, embedding_model= "BAAI/bge-en-icl", llm_provider_name: PROVIDER_T= "novita", index_name: str= "test_search", embeddings_collection= "doc_chunks"):
+def rag_query_llm(db_client, llm_client, inference_client, user_query: str, document_id: str, required_fields_descriptions: list[str], model_name: str = "deepseek-ai/DeepSeek-R1-0528-Qwen3-8B", ollama_base_url: str = "http://localhost:11434", no_of_fields= 4, embedding_model= "BAAI/bge-en-icl", llm_provider_name: PROVIDER_T= "novita", index_name: str= "test_search", embeddings_collection= "doc_chunks", document_belongs_to_a_type= ""):
     """
     Performs a RAG (Retrieval Augmented Generation) query using a Hugging Face
     embedding model, ChromaDB for retrieval, and a local Ollama model for generation.
@@ -119,10 +120,10 @@ def rag_query_llm(db_client, llm_client, inference_client, user_query: str, docu
     aggregate_query_embedding= multi_embedding_average(llm_client, inference_client, required_fields_descriptions, model= embedding_model, embed_locally= embed_locally)
     print("Aggregate query embedding generated. length: ", len(aggregate_query_embedding))
-    create_vector_index(db_client[embeddings_collection], index_name, num_dimensions= len(aggregate_query_embedding))
+    create_vector_index(db_client[embeddings_collection], index_name, num_dimensions= len(aggregate_query_embedding), document_belongs_to_a_type= document_belongs_to_a_type)
     # check the order of args
-    relevant_chunks= search_within_document(db_client, aggregate_query_embedding, document_id, limit= no_of_fields, index_name= index_name, embeddings_collection_name= embeddings_collection)
+    relevant_chunks= search_within_document(db_client, aggregate_query_embedding, document_id, limit= no_of_fields, index_name= index_name, embeddings_collection_name= embeddings_collection, document_belongs_to_a_type= document_belongs_to_a_type)
     relevant_chunks= list(map(lambda x: x['chunk_text'], relevant_chunks))
     if not relevant_chunks:

{pembot-0.0.6.dist-info → pembot-0.0.8.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: pembot
-Version: 0.0.6
+Version: 0.0.8
 Summary: A Python Package to convert PEM blog content to usseful information by leveraging LLMs
 Author-email: cyto <aryan_sidhwani@protonmail.com>
 License-Expression: MIT

{pembot-0.0.6.dist-info → pembot-0.0.8.dist-info}/RECORD RENAMED Viewed

@@ -1,17 +1,17 @@
 pembot/.gitignore,sha256=_7FTsZokJ_pzEyyPjOsGw5x5Xx3gUBFaafs7UlPsv9E,98
 pembot/LICENSE,sha256=OXLcl0T2SZ8Pmy2_dmlvKuetivmyPd5m1q-Gyd-zaYY,35149
-pembot/__init__.py,sha256=s4fd-1t1D43kkQi_78FmX_7hi-NsBfqtc2BHwNrMHtw,211
+pembot/__init__.py,sha256=XAG3pbUQGlrUZZgAKAxq96MjvCGaEPkpGTSKIwzNvGY,211
 pembot/gartner.py,sha256=3ALknQ5mSXIimmwCa3JFDzB_EW2hHEcQO1T2odyBquk,5408
 pembot/main.py,sha256=lZLIV8XPonvNoY4LVS-5fct1y9URMXWoSGJUKMw3Yg8,9667
 pembot/output_structure_local.py,sha256=YfpHzfTNeLMSsB_CjAamha9D6Iz7E1IC-tW9xPCMWFc,3000
 pembot/pem.py,sha256=mv6iGcN1peSY7z2dtCQ_BKj31EFBNfczBhps_d-0XDo,6377
-pembot/query.py,sha256=D1RPRoImDWCafbshT2NpO4ymVj2RySm8j5FJ5bRzYWw,8476
+pembot/query.py,sha256=d6K2PyDDGoIOqwn7A_KIBr83w0zjMAHjhmx1S9VlVgg,8642
 pembot/requirements.txt,sha256=6OV_n5JVco2lLA8Wq38tJX1bYgo_UU0R9RKgs4d2wfc,1360
-pembot/.git/COMMIT_EDITMSG,sha256=HR106qWTNcQKmC8LAIwmZ9A9YBTENaUYQy3UtJmK0XY,238
+pembot/.git/COMMIT_EDITMSG,sha256=H9feTx6U3VWbFycy9cq077mD4oxuv2gz4G3EUOdQmV4,30
 pembot/.git/HEAD,sha256=KNJb-Cr0wOK3L1CVmyvrhZ4-YLljCl6MYD2tTdsrboA,21
 pembot/.git/config,sha256=ZFl9d2GyxirgRXRsv8iULIieKxwGC9P6SAjB_AmTkmQ,271
 pembot/.git/description,sha256=hatsFj1DoX6pz3eIMIvKFGbxsKjRzJLibpv2PaQGKu4,73
-pembot/.git/index,sha256=9R33jd4OjVHXzQElukY8zpNSB7v6vW4j4GMcpNBT5bo,1814
+pembot/.git/index,sha256=EEe4lVsgYW5zuGbFVZ8a4t7AqjDlPTqU1JGDynBe2Sc,1814
 pembot/.git/packed-refs,sha256=7DECsr7q7vJ6Gw6a2gS3dE4v-YzbxGiWYoSWM43DgsQ,112
 pembot/.git/hooks/applypatch-msg.sample,sha256=AiNJeguLAzqlijpSG4YphpOGz3qw4vEBlj0yiqYhk_c,478
 pembot/.git/hooks/commit-msg.sample,sha256=H3TV6SkpebVz69WXQdRsuT_zkazdCD00C5Q3B1PZJDc,896
@@ -28,13 +28,14 @@ pembot/.git/hooks/push-to-checkout.sample,sha256=pT0HQXmLKHxt16-mSu5HPzBeZdP0lGO
 pembot/.git/hooks/sendemail-validate.sample,sha256=ROv8kj3FRmvACWAvDs8Ge5xlRZq_6IaN3Em3jmztepI,2308
 pembot/.git/hooks/update.sample,sha256=jV8vqD4QPPCLV-qmdSHfkZT0XL28s32lKtWGCXoU0QY,3650
 pembot/.git/info/exclude,sha256=ZnH-g7egfIky7okWTR8nk7IxgFjri5jcXAbuClo7DsE,240
-pembot/.git/logs/HEAD,sha256=crGP01FLAqdksSr1razn4_Aa5devc2MaSbfStzWV4Os,2160
-pembot/.git/logs/refs/heads/main,sha256=crGP01FLAqdksSr1razn4_Aa5devc2MaSbfStzWV4Os,2160
+pembot/.git/logs/HEAD,sha256=zUB4DZpCGTMM1FnKY1jQ98WAMwY8twSD8qaFz3Q-K-4,2521
+pembot/.git/logs/refs/heads/main,sha256=zUB4DZpCGTMM1FnKY1jQ98WAMwY8twSD8qaFz3Q-K-4,2521
 pembot/.git/logs/refs/remotes/origin/HEAD,sha256=OrkNquczPPh6fEGtutFKva_-_JhAdwnvXpCCPC4N6jk,194
-pembot/.git/logs/refs/remotes/origin/main,sha256=5cKDe0WKpvOSobN6UHTaj0is1mUWZMz0xjzyBSz1l2s,1022
+pembot/.git/logs/refs/remotes/origin/main,sha256=t9RDc56CIhCL27FolwvJyBJ6LK8uGVFkzXTZmWqHukw,1314
 pembot/.git/objects/0a/fb3a98cdc55b1434b44534ec2bf22c56cfa26c,sha256=Xxw20vI57zuhERWopDAZpQw6rAOhFtUr05lzpGyCTTE,120
 pembot/.git/objects/0b/db4169fc0f312b8698f1df17a258fff163aeaa,sha256=hsOHhX0Yajg27Y7B9lo-WjDXzW1KNMg2CBr93G116EY,387
 pembot/.git/objects/0c/8d9b2690545bf1906b05cd9f18b783b3eb74f1,sha256=GKt_CAJNOQXwGnoFLuiNpkd0s_hP_UDLKd59VRknYy0,330
+pembot/.git/objects/0c/ab66ffbaf50ef60dd41f3498595ebd2526b33c,sha256=Uk1dStvEBica-t38qHsZZ_4mxvi6b6VA9PaKE4KSunQ,90
 pembot/.git/objects/18/28e18ab80aa64d334b26428708140e280cbc63,sha256=PTF8WLVhzxBDTZhwU_PBHrkQBbijHbKvttSr0XVTOcU,3936
 pembot/.git/objects/19/f61df7dbd562d04f561288677bbf2f18f5dff7,sha256=zg8IdUSnMYpJ6HsfY2LQbXQTMwlT1IPWRSEiY2uDwyE,392
 pembot/.git/objects/1f/83a471c8119f7794d98c049170a5d7d07a4b71,sha256=XnMaYQUA8iT1fiOIvlBav331Ry7pNBOBqI3wB3Y1VM0,90
@@ -45,8 +46,10 @@ pembot/.git/objects/3e/23850624fcf5f111d6ea88ddd64adf924cf82f,sha256=ygVUpaLo7cx
 pembot/.git/objects/3e/cf23eb95123287531d708a21d4ba88d92ccabb,sha256=Jlg3XIzIjk3N5ZKolXbz_betMybJ2t2TVuOARg2ruQU,4943
 pembot/.git/objects/3f/78215d7e17da726fb352fd92b3c117db9b63ba,sha256=J8r5hqTEgAwlH5sDjr9tp1ipqpvs4BAVQY5rkiKqDCw,4080
 pembot/.git/objects/3f/e072cf3cb6a9f30c3e9936e3ddf622e80270d0,sha256=Z-UoKi2MYe0qGTtBxAr5cnIOHKkhoEXMgalevFUz9lA,2992
+pembot/.git/objects/41/ae8fa8f8baa2daee5ec0aa21ae17922ae051a0,sha256=TLuVmtSH9K33qB-WHMxKDUihHCrwdTtCKtjBs-rAnJ4,56
 pembot/.git/objects/41/cbeb6bcb4c6fa9ef9be571082d95ecb4ea0ee3,sha256=waMrzjG_o5D4JgHkjjqcDQCwuS17w60JRkVr25ZFlcI,117
 pembot/.git/objects/4d/a03134f70896f72053fbdc0cd4f4c76d4ac1d8,sha256=GBhAvxM1omIt-PN6mNXYlIJMN5nx2AUE0ZOf68El5pc,117
+pembot/.git/objects/50/39b29fda67743a044993436df6a4a1db7b8888,sha256=NYNmYtOq8IMmH32GaQSOBpTRTTm6jEJfY3vytVpzfKM,115
 pembot/.git/objects/51/9e780574933d7627a083222bd10dd74f430904,sha256=3e3Iu2-waVySghbLYXmwhDPpfhV4PF82suvjcYkSVog,3604
 pembot/.git/objects/61/46a371b9c1bd9f51af273f11f986cfd1bedeba,sha256=KZvfnjxuriY54uWZQOM-GLovAvHs1k8_KwhpjNA5lW4,128
 pembot/.git/objects/63/1700a51c8fa97b543991f5f61bfcd1e7e1327d,sha256=sYkhBkrSPQ8klX2gPrXJUZVt2a0iaF7KC7NFGBuxgeY,4360
@@ -54,6 +57,8 @@ pembot/.git/objects/64/00040794955d17c9a1fe1aaaea59f2c4822177,sha256=-tFnLFQvYrt
 pembot/.git/objects/6d/7a865a23b1cb4182f67907820104ced48b11c9,sha256=dJRTCmT9rLygONcQ7MPETl9AImF3Iy5tB_KUeCvKyKY,2651
 pembot/.git/objects/72/f047cda92abcd1ddc857f6461de605f8668331,sha256=PFb9LUDMnUCnuJcXUa5W1ea__fdP17kNyWrnqvnOpjs,240
 pembot/.git/objects/73/2e98f08bc806c331b06847fc8c743f545499e5,sha256=kbKUb6fwwhRO73B4EZmol55JBvckqE3GNZ9PqHRB2ag,3995
+pembot/.git/objects/7a/7d28b0313a3d9d509823faaae31949af8610ef,sha256=X59k-p9VNLBpmJlL53qIz8mntLeCSpnjw-rq9u9z_6I,90
+pembot/.git/objects/7e/0907822f7d316ebe0be07e1f6918bef412c80b,sha256=lFc55Bu-vEXF8In553gHxlEsB47Vg2qFXHiJqepWEqg,5167
 pembot/.git/objects/86/cdaec229f1fbebf43042266b03878944669f25,sha256=eTvQhUeYXP8E181oTOcBydcgmImr62IizaH_Jbcbg8g,4077
 pembot/.git/objects/87/d6df5217a4a374f8c1211a05f9bd657f72c9a7,sha256=OGq5-x1lFa94vTX7WYO6o4TGvCZwAvZ6LXm6N3dpiKM,3881
 pembot/.git/objects/8b/5be2af9b16f290549193859c214cd9072212e8,sha256=DhGeGisCdFZ0TcRKp5angRpaseI87TQDt5FtGZInstk,117
@@ -63,8 +68,10 @@ pembot/.git/objects/9b/123713e30fc9e225f9ac8ff5b02f8f8cf86456,sha256=xIETiieOoil
 pembot/.git/objects/ab/139d2cd4798dd8e2c565b80440b1a44b376126,sha256=v1UO-WINmigZNYD74kyIv310Kq5k4SNL-gQ2DYlw9xk,6258
 pembot/.git/objects/ab/c6b15265171457b41e2cfdaf3b8c3994a59eb7,sha256=ivRCkHzUZHXB16wn2ojARknUrwBkoUsV_18QT3Jbs-k,205
 pembot/.git/objects/ac/9c9018c62fa30dc142665c1b5a375f4e056880,sha256=P_8LPBV0v4D17Akj4f5Cr2dhgNFUsh4o7DLK78CfNPo,349
+pembot/.git/objects/af/80ddb5890f062e364ea8ade2d602df4e12de8c,sha256=QELzH3NdMCFohFEcf5oAAu_e54VFr-LhTyPbXY7GjSk,169
 pembot/.git/objects/b1/1173d9b68db117437ccb9551461152e1e8a77d,sha256=6cl8NMNQ9b5fBh97GPEQNssOVrh-EQLJfhqSBbNb_vU,205
 pembot/.git/objects/b2/4e79ab07fe9e68781961a25ff9f1dbb1546fbb,sha256=zfd9KnP9YtBMwzci1BMWFHAQR4BWJ3XQsyr-rFqdw0Q,135
+pembot/.git/objects/b8/884c6145221ac66f84bf88919754c2cb05c12d,sha256=6EJskrHAkqVAC5ExxIZDQT_2kZWhfLPPAPbX61tmwgw,170
 pembot/.git/objects/b8/eea52176ffa4d88c5a9976bee26092421565d3,sha256=xCom1B6wyws8ZNTJoIL4JtVIXNv1yPCwsXfNsVCAGQA,4410
 pembot/.git/objects/bd/8fd1cb166996e74a8631f3a6f764a53af75297,sha256=JOkICUEv6tdVp7mYDUKtXnsWq3IIZSmm8iUP7OqQwc4,56
 pembot/.git/objects/bf/068a0714e2145de83a5c004f4213b091439d0e,sha256=MpiiCqAk6GQ5iGzeThU0rsabrgA5tCAgdIWudAM0IrA,420
@@ -79,8 +86,12 @@ pembot/.git/objects/e7/911a702079a6144997ea4e70f59abbe59ec2bc,sha256=r4zY-__F4gS
 pembot/.git/objects/e9/1172752e9a421ae463112d2b0506b37498c98d,sha256=qWZpM65kQPSxlVHAtyzH5L-j3rL-b9Jw-A7YBm4NMlI,249
 pembot/.git/objects/ea/0af89e61a882c5afc2a8c281b2d96f174bfe58,sha256=lXbMvL_xl8PhWWfL5WAnvxqE3usiGO3iY83yi3GZwXc,4438
 pembot/.git/objects/eb/75e1c49f1e5b79dca17ccdbec8067756523238,sha256=ltEINFUpQP86CkE4nAT1Afegz3ytY3Nlx1P6ibTFEbo,305
+pembot/.git/objects/ee/a73c7f24094ed83b014f7cfce46e10f817bec8,sha256=fFYq_ODekFhF9SwBL9GP_fGDsNavXVVOuI6kmnHlkiY,5140
+pembot/.git/objects/ef/0503a60244391590b16042019032e91d7cc30d,sha256=mrF9jZHY2oJm8tkd8nQdMgUPbrZfENOFaR3mvbwi1dg,187
 pembot/.git/objects/f1/655afa1c5636c8d58969e3194bb770aefbc552,sha256=Ugf-wTcOlwZXmxmbnjEc3iOK3dDRntTVONOJsrOjl3E,205
 pembot/.git/objects/f4/e991088a63def67a30a2b8bbdb4d58514abab8,sha256=Y5WfCEpk121Cy9gaFfSY4ZkUz54qu45osRZdTy9kZ8c,393
+pembot/.git/objects/f6/b1d54483ce20fbcb252a8a93a5eff7bec88729,sha256=MrRy-fBSXZcp-yJM3e-tH3wCdUS-VFX6rW_mKTa-0_Y,419
+pembot/.git/objects/f8/6fbd490878cb0d3c35cc4443672d1309171bf1,sha256=hBVqthGLEEX2NmdD51kjiIeTd5CP5MU8it41zHlW3m0,419
 pembot/.git/objects/f8/cbb5bfd1503e66cec2c593362c60a317b6d300,sha256=p_PmV9ng8Bhxj4AJjQRxpZDWcSHcksAhYU5r77adriY,4581
 pembot/.git/objects/f9/98e1f01c2bf0a20159fc851327af05beb3ac88,sha256=uU1uWZIPyQBpUuEM4m9Ff-gnn7opvjOpIt3JoqdFwN0,205
 pembot/.git/objects/fa/9c9a62ec1203a5868b033ded428c2382c4e1b6,sha256=is9gmIhAL-QXC9oLx3DHkatfI9wWFePJlo1yGPZrPaE,196
@@ -90,28 +101,28 @@ pembot/.git/objects/fc/e56f1e09d09a05b9babf796fb40bece176f3a2,sha256=g-IVuI_8YBn
 pembot/.git/objects/pack/pack-d5469edc8c36e3bb1de5e0070e4d5b1eae935dd4.idx,sha256=CNzx_lz6v4PulPxRW2t9nz-ifvplpSFPhMA2M9WNUrA,3424
 pembot/.git/objects/pack/pack-d5469edc8c36e3bb1de5e0070e4d5b1eae935dd4.pack,sha256=dk3Sqrd0L-tNVLRy3uJdTYJNkw8v59mE1hV8zrCFNzc,41355
 pembot/.git/objects/pack/pack-d5469edc8c36e3bb1de5e0070e4d5b1eae935dd4.rev,sha256=7U3tpTWQ3dn5dwQo_KWMWxF31cKaDnCk2AzTO7Cx4Bg,388
-pembot/.git/refs/heads/main,sha256=Sz6HMFv8rlaBjeNHaBfSrRUorGipDPAJnfxmiUADG5I,41
+pembot/.git/refs/heads/main,sha256=DymD5B54ONj5DkUMd4HYO5m52NWPWMez_QV6RdNCG0g,41
 pembot/.git/refs/remotes/origin/HEAD,sha256=K7aiSqD8bEhBAPXVGim7rYQc0sdV9dk_qiBOXbtOsrQ,30
-pembot/.git/refs/remotes/origin/main,sha256=Sz6HMFv8rlaBjeNHaBfSrRUorGipDPAJnfxmiUADG5I,41
+pembot/.git/refs/remotes/origin/main,sha256=DymD5B54ONj5DkUMd4HYO5m52NWPWMez_QV6RdNCG0g,41
 pembot/AnyToText/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-pembot/AnyToText/convertor.py,sha256=8fDFxjyiL8H9mhZTjmxgePQj-sVZCHnEfMooYMqt6wk,17104
+pembot/AnyToText/convertor.py,sha256=gqvhwFssUsAeirfO4n0Ztwga1hn8zHbdG96sMTjYrpE,17188
 pembot/TextEmbedder/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 pembot/TextEmbedder/gemini_embedder.py,sha256=P679-2mmQESlYKML1vcrwx_-CSgWJgIQk7NL4F7BLQE,677
-pembot/TextEmbedder/mongodb_embedder.py,sha256=pD8mP-uC_o0COPdOrCTMpoC5PdF8hXlqARHvTr2T-VI,9642
-pembot/TextEmbedder/mongodb_index_creator.py,sha256=ejpsF_y1zY6Z0nux02vjODiDPnxx-YA_xy2PmT94zZ4,5306
+pembot/TextEmbedder/mongodb_embedder.py,sha256=RotNlerS3WKEUGRNeQM5MTkl5BtaWNHVaXO1gN5NicI,10682
+pembot/TextEmbedder/mongodb_index_creator.py,sha256=kopqdVYJii_wExVrXGZjMfqWZ2dD42b3PeNWo71weHI,5354
 pembot/TextEmbedder/vector_query.py,sha256=Kh1uhx9CatB-oQlQtnW-1I2Qz7MGHI20n2h_8peAChM,1986
-pembot/config/config.yaml,sha256=JHvRjzmkPIdKjryQY3W375B1IQgFvbumQ727AwvRW7U,156
+pembot/config/config.yaml,sha256=y-2BklPelldaXJ_hxFD9k-bFpDA6OAZkaoh5XlvASCE,156
 pembot/pdf2markdown/LICENSE,sha256=1JTJhQjUYDqJzFJhNtitm7mHyE71PRHgetIqRRWg6Pk,1068
 pembot/pdf2markdown/README.md,sha256=jitM1pwI69oa0N4mXv5-SY1ka9Sz3jsRNCDdpW-50kY,4545
 pembot/pdf2markdown/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-pembot/pdf2markdown/extract.py,sha256=ylkPfxMJiePUKmGlZ8B3fz51FtG17Q8P27KGLrz9J48,33289
+pembot/pdf2markdown/extract.py,sha256=0fnZnUqNy7shef6dijqEAMgBSf0YAiEx_mbRSU_pmQg,34418
 pembot/pdf2markdown/pyrightconfig.json,sha256=Vt_k4N2LtZhth0lQOQAOnRKDOQkYYVzmdtb-bP3gu7M,47
 pembot/pdf2markdown/requirements.txt,sha256=0vZQzkSZKLNVUttd4euoDyYEy0nc2W3CIVxhepHW5Ho,76
-pembot/pdf2markdown/.git/COMMIT_EDITMSG,sha256=n3-nJDAjMCjnbADDTrmOPQYgrUSZRElYCQsXxv_AS1g,64
+pembot/pdf2markdown/.git/COMMIT_EDITMSG,sha256=K6REOtE5mjRmxGSeQdpaFAr1luu1BmaZnzXkTjKINzY,55
 pembot/pdf2markdown/.git/HEAD,sha256=KNJb-Cr0wOK3L1CVmyvrhZ4-YLljCl6MYD2tTdsrboA,21
 pembot/pdf2markdown/.git/config,sha256=bxpN4Vp2IKsAw9QkRoCIXULseCngmK7OQMg_81HDmww,398
 pembot/pdf2markdown/.git/description,sha256=hatsFj1DoX6pz3eIMIvKFGbxsKjRzJLibpv2PaQGKu4,73
-pembot/pdf2markdown/.git/index,sha256=b6ZJzQ8qBONIIcgKXWOnK38rPQ1h93xQGpjMUmeVhqc,656
+pembot/pdf2markdown/.git/index,sha256=0VmTX9ESG5zK1K1FPqgzWMCzNvTfSUfnBeod1rhNHW8,656
 pembot/pdf2markdown/.git/packed-refs,sha256=kJfKR7KBh8Ao4cGF_14wFxiFMP_lBLTKdXRAB2UMQ_o,112
 pembot/pdf2markdown/.git/hooks/applypatch-msg.sample,sha256=AiNJeguLAzqlijpSG4YphpOGz3qw4vEBlj0yiqYhk_c,478
 pembot/pdf2markdown/.git/hooks/commit-msg.sample,sha256=H3TV6SkpebVz69WXQdRsuT_zkazdCD00C5Q3B1PZJDc,896
@@ -128,11 +139,12 @@ pembot/pdf2markdown/.git/hooks/push-to-checkout.sample,sha256=pT0HQXmLKHxt16-mSu
 pembot/pdf2markdown/.git/hooks/sendemail-validate.sample,sha256=ROv8kj3FRmvACWAvDs8Ge5xlRZq_6IaN3Em3jmztepI,2308
 pembot/pdf2markdown/.git/hooks/update.sample,sha256=jV8vqD4QPPCLV-qmdSHfkZT0XL28s32lKtWGCXoU0QY,3650
 pembot/pdf2markdown/.git/info/exclude,sha256=ZnH-g7egfIky7okWTR8nk7IxgFjri5jcXAbuClo7DsE,240
-pembot/pdf2markdown/.git/logs/HEAD,sha256=kgz5CoaL_AuYbbsv4KXiCvuqydnLusQUvmjDdzMtl6U,1002
-pembot/pdf2markdown/.git/logs/refs/heads/main,sha256=kgz5CoaL_AuYbbsv4KXiCvuqydnLusQUvmjDdzMtl6U,1002
-pembot/pdf2markdown/.git/logs/refs/remotes/myorigin/main,sha256=bmsvulVWtYHEVD_JpjpPFXZKCZd9dZVkA-XT3fzBauw,438
+pembot/pdf2markdown/.git/logs/HEAD,sha256=Y5czyWfueqU9tPNqxXVaF_68HbwbQmSHXFJtAgsqAZc,1196
+pembot/pdf2markdown/.git/logs/refs/heads/main,sha256=Y5czyWfueqU9tPNqxXVaF_68HbwbQmSHXFJtAgsqAZc,1196
+pembot/pdf2markdown/.git/logs/refs/remotes/myorigin/main,sha256=IRBHjv2h2ZmZW1wiNFT6J0mY2KXK9juXpTz_QgW4R24,584
 pembot/pdf2markdown/.git/logs/refs/remotes/origin/HEAD,sha256=jJscThcgJ-i1V19vA4RVs9acp0QIKsVSwY9zAmV3tjU,193
 pembot/pdf2markdown/.git/objects/14/251b198e0bac39a3dc3b42f9e57b20c01465fb,sha256=Ssx4RupGzteVz0Irtgh95-Ccnacskv8ql8zLtqUgmOE,209
+pembot/pdf2markdown/.git/objects/24/7b15a6b1e0e3d270c05af184f048736376cd4e,sha256=rD1H5Ywoiuw8gwDZyHJ1p4zxqfIh47ym6jJg0pL6KLI,10023
 pembot/pdf2markdown/.git/objects/24/8f03b5f969a7fbd396b496f40b57f0ae81c148,sha256=ScB91DWSzfIrFLnghWglGqxxxmHxzODACQiXJEHDeWA,229
 pembot/pdf2markdown/.git/objects/57/74dc9c3901d2ffb2cd7dafe2ad6612a7f9f42c,sha256=0Vkgzw7kU0cludbgJUyqCWLgK5Q3vfFnoKmeLq6c-uU,52
 pembot/pdf2markdown/.git/objects/72/2dc14f82e78ce41717348b256e0c17834933b4,sha256=062pZN8JWfsC9z4MKIEgUcLIdnjzC6hwPjjsvHDhW-M,266
@@ -140,20 +152,22 @@ pembot/pdf2markdown/.git/objects/79/eb7b93ced70e399bd561093c45de7641414dbd,sha25
 pembot/pdf2markdown/.git/objects/8d/9ce1fd9733a78c592b34af9c94b98960c601ed,sha256=eJMRf2BFDCxSgPuVPPLd6zZu3NmwMeYVYwyxW9QkW6M,9772
 pembot/pdf2markdown/.git/objects/95/745843bb4377d6042180daeda818c0b16fd493,sha256=ddMj81nqLqqtVtrJ6TV7eOEjrzq38AbIjgWAPj0MaT8,12391
 pembot/pdf2markdown/.git/objects/a5/c6dfb577782c259990dcf977e355298e923428,sha256=c6vkmaxLJ8-6V2DykAhGnGUFJc1EH_-TuDeijrrHRWg,265
+pembot/pdf2markdown/.git/objects/a7/4bcd5e67cb1066dd504b92b42390fe0b2c3d38,sha256=Tg_Co5uUFebLteNs9dqzI-P4FGwktB-K1PZN4drr9Rk,266
 pembot/pdf2markdown/.git/objects/b4/8d697aa9fd97151eb2a84a1af5d408b7630232,sha256=nSKTkx4mVrz7uaJkacuDJH7KO-vR1-OrvBV-e2HQvm0,194
 pembot/pdf2markdown/.git/objects/b8/702320e56074e9680181d8b7897d6a0a552e2d,sha256=-XJJ4C0svu4LaZ9Zi3pAWVvy18w2CJ2lg16Zr2Hnu-U,372
 pembot/pdf2markdown/.git/objects/e6/9de29bb2d1d6434b8b29ae775ad8c2e48c5391,sha256=FkxfqAZ_rPGkPwnOPQ416_U6f1cj7L8VqGZ8_FPCb2w,15
+pembot/pdf2markdown/.git/objects/f3/b2d76c75bbd50e04fc4c2ad17fc94ca6daed32,sha256=CohsUCG2jiRVFKvC6ouCuy1pE0RS8C_dHMfOpSoCTM8,187
 pembot/pdf2markdown/.git/objects/pack/pack-d3051affdd6c31306dc53489168fc870872085d1.idx,sha256=nZ0BJQYRC49OtqnyhZR_teR85PqslUG6j16UAKoX8m4,3452
 pembot/pdf2markdown/.git/objects/pack/pack-d3051affdd6c31306dc53489168fc870872085d1.pack,sha256=_KzHMGgrVzHGn2ZiKyHlvqc-BwTEeq3PqDPPJ9DYI5E,32222
 pembot/pdf2markdown/.git/objects/pack/pack-d3051affdd6c31306dc53489168fc870872085d1.rev,sha256=1jASJFjt2r2Sxd2G87oSTfrQnowK2ThvjVlWTIF-47E,392
-pembot/pdf2markdown/.git/refs/heads/main,sha256=oRkN5qBSGT5N23aQ_E4DIUGMZLPez-Cij_1QgK-k3jI,41
-pembot/pdf2markdown/.git/refs/remotes/myorigin/main,sha256=oRkN5qBSGT5N23aQ_E4DIUGMZLPez-Cij_1QgK-k3jI,41
+pembot/pdf2markdown/.git/refs/heads/main,sha256=II7qd2fp3dz8A72owuHimxMIScJpmznueAkXM0sHxJU,41
+pembot/pdf2markdown/.git/refs/remotes/myorigin/main,sha256=II7qd2fp3dz8A72owuHimxMIScJpmznueAkXM0sHxJU,41
 pembot/pdf2markdown/.git/refs/remotes/origin/HEAD,sha256=K7aiSqD8bEhBAPXVGim7rYQc0sdV9dk_qiBOXbtOsrQ,30
 pembot/pdf2markdown/config/config.yaml,sha256=w75W2Eg4-tu8rRk_23PqxWDh0010kRKLmPrh46f_Njc,66
 pembot/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 pembot/utils/inference_client.py,sha256=jeURmY2P5heVlH1dCV0XSgiX3U2qYGEmrnUv0KFpdww,5380
 pembot/utils/string_tools.py,sha256=gtRa5rBR0Q7GspTu2WtCnvhJQLFjPfWLvhmyiPkyStU,1883
-pembot-0.0.6.dist-info/licenses/LICENSE,sha256=OXLcl0T2SZ8Pmy2_dmlvKuetivmyPd5m1q-Gyd-zaYY,35149
-pembot-0.0.6.dist-info/WHEEL,sha256=Dyt6SBfaasWElUrURkknVFAZDHSTwxg3PaTza7RSbkY,100
-pembot-0.0.6.dist-info/METADATA,sha256=jcibBPdDsmAbgWICvgecVgEEk_9wPQ4xDBkHpdhjKPw,313
-pembot-0.0.6.dist-info/RECORD,,
+pembot-0.0.8.dist-info/licenses/LICENSE,sha256=OXLcl0T2SZ8Pmy2_dmlvKuetivmyPd5m1q-Gyd-zaYY,35149
+pembot-0.0.8.dist-info/WHEEL,sha256=Dyt6SBfaasWElUrURkknVFAZDHSTwxg3PaTza7RSbkY,100
+pembot-0.0.8.dist-info/METADATA,sha256=kfa20bL5qROy6a8bsALEzDRlmF-JnTgmR7Qc8rz6PNQ,313
+pembot-0.0.8.dist-info/RECORD,,

{pembot-0.0.6.dist-info → pembot-0.0.8.dist-info}/WHEEL RENAMED Viewed

File without changes

{pembot-0.0.6.dist-info → pembot-0.0.8.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

pembot 0.0.6__py2.py3-none-any.whl → 0.0.8__py2.py3-none-any.whl

Potentially problematic release.

pembot 0.0.6py2.py3-none-any.whl → 0.0.8py2.py3-none-any.whl