PyPI - sunholo - Versions diffs - 0.80.4__py3-none-any.whl → 0.80.6__py3-none-any.whl - Mend

sunholo 0.80.4py3-none-any.whl → 0.80.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

sunholo/chunker/process_chunker_data.py CHANGED Viewed

@@ -15,6 +15,7 @@ from ..discovery_engine.chunker_handler import discovery_engine_chunker_check
 from .publish import process_docs_chunks_vector_name
 from .splitter import chunk_doc_to_docs
 from ..azure.blobs import is_azure_blob
+from ..utils import ConfigManager
 from ..custom_logging import log
@@ -29,13 +30,15 @@ def process_chunker_data(message_data, metadata, vector_name):
     log.debug(f"Found metadata in pubsub: {metadata=}")
+    config=ConfigManager(vector_name)
     # checks if only a llamaindex chunking/embedder, return early as no other processing needed
     llamacheck = llamaindex_chunker_check(message_data, metadata, vector_name)
     if llamacheck:
         return llamacheck
     # if only a discovery engine memory, return early as no other processing needed
-    discovery_check = discovery_engine_chunker_check(message_data, metadata, vector_name)
+    discovery_check = discovery_engine_chunker_check(message_data, metadata, config=config)
     if discovery_check:
         return discovery_check

sunholo/components/retriever.py CHANGED Viewed

@@ -60,6 +60,9 @@ def pick_retriever(vector_name:str=None, config:ConfigManager=None, embeddings=N
                 if vectorstore == "vertex_ai_search" or vectorstore == "discovery_engine":
                     # use direct retriever
+                    if value.get('chunks'):
+                        log.warning(f"{config.vector_name} will not be using GoogleVertexAISearchRetriever with chunks vertex AI search as not supported yet")
+                        continue
                     from langchain.retrievers import GoogleVertexAISearchRetriever
                     gcp_config = config.vacConfig('gcp_config')
                     try:
@@ -76,6 +79,7 @@ def pick_retriever(vector_name:str=None, config:ConfigManager=None, embeddings=N
                         continue
                     retriever_list.append(gcp_retriever)
+                    continue
                 from_metadata_id = value.get('from_metadata_id')
                 if from_metadata_id:

sunholo/discovery_engine/__init__.py CHANGED Viewed

	@@ -1 +1,2 @@
1 1	from .discovery_engine_client import DiscoveryEngineClient
2	+ from .get_ai_search_chunks import get_all_chunks

sunholo/discovery_engine/chunker_handler.py CHANGED Viewed

@@ -1,5 +1,5 @@
 from ..custom_logging import log
-from ..utils.config import load_config_key
+from ..utils import ConfigManager
 from ..utils.gcp_project import get_gcp_project
 from ..components import load_memories
@@ -7,7 +7,7 @@ from .discovery_engine_client import DiscoveryEngineClient
 from .create_new import create_new_discovery_engine
-def do_discovery_engine(message_data, metadata, vector_name):
+def do_discovery_engine(message_data:str, metadata:dict, config:ConfigManager=None):
     """
     Example:
@@ -15,13 +15,13 @@ def do_discovery_engine(message_data, metadata, vector_name):
     message_data = "gs://bucket_name/path_to_file.txt"
     metadata = {"user": "admin"}
     vector_name = "example_vector"
-    response = do_discovery_engine(message_data, metadata, vector_name)
+    response = do_discovery_engine(message_data, metadata, config=config)
     print(response)
     # Imported file to corpus: {'status': 'success'}
     ```
     """
-    memories = load_memories(vector_name)
+    memories = load_memories(config=config)
     tools = []
     if not memories:
@@ -38,7 +38,7 @@ def do_discovery_engine(message_data, metadata, vector_name):
                     continue
                 #location = gcp_config.get('location')
                 corpus = DiscoveryEngineClient(
-                    data_store_id=vector_name,
+                    data_store_id=config.vector_name,
                     project_id=get_gcp_project(),
                     # location needs to be 'eu' or 'us' which doesn't work with other configurations
                     #location=location or global_location
@@ -65,14 +65,14 @@ def do_discovery_engine(message_data, metadata, vector_name):
                 log.error(f"Error importing {message_data} - {corp=} - {str(err)}")
                 if str(err).startswith("404"):
-                    log.info(f"Attempting to create a new DiscoveryEngine corpus: {vector_name}")
+                    log.info(f"Attempting to create a new DiscoveryEngine corpus: {config.vector_name}")
                     try:
-                        new_corp = create_new_discovery_engine(vector_name)
+                        new_corp = create_new_discovery_engine(config)
                     except Exception as err:
-                        log.error(f"Failed to create new DiscoveryEngine {vector_name} - {str(err)}")
+                        log.error(f"Failed to create new DiscoveryEngine {config.vector_name} - {str(err)}")
                         continue
                     if new_corp:
-                        log.info(f"Found new DiscoveryEngine {vector_name=} - {new_corp=}")
+                        log.info(f"Found new DiscoveryEngine {config.vector_name=} - {new_corp=}")
                         response = corp.import_documents(
                             gcs_uri=message_data
                         )
@@ -86,8 +86,9 @@ def do_discovery_engine(message_data, metadata, vector_name):
         log.warning("Only gs:// data is supported for Discovery Engine")
-def check_discovery_engine_in_memory(vector_name):
-    memories = load_config_key("memory", vector_name=vector_name, kind="vacConfig")
+def check_discovery_engine_in_memory(config:ConfigManager):
+    memories = config.vacConfig("memory")
     for memory in memories:  # Iterate over the list
         for key, value in memory.items():  # Now iterate over the dictionary
             log.info(f"Found memory {key}")
@@ -99,16 +100,33 @@ def check_discovery_engine_in_memory(vector_name):
     return False
-def discovery_engine_chunker_check(message_data, metadata, vector_name):
+def check_write_memories(config:ConfigManager):
+    write_mem = []
+    memories = config.vacConfig("memory")
+    for memory in memories:
+        for key, value in memory.items():
+            if value.get('read_only'):
+                continue
+            write_mem.append(memory)
+    return write_mem
+def discovery_engine_chunker_check(message_data, metadata, vector_name:str=None, config:ConfigManager=None):
+    if config is None:
+        if vector_name is None:
+            raise ValueError("Must provide config or vector_name")
+        config = ConfigManager(vector_name=vector_name)
     # discovery engine handles its own chunking/embedding
-    memories = load_config_key("memory", vector_name=vector_name, kind="vacConfig")
+    memories = config.vacConfig("memory")
     if not memories:
         return None
-    total_memories = len(memories)
+    total_memories = len(check_write_memories(config))
     llama = None
-    if check_discovery_engine_in_memory(vector_name):
-        llama = do_discovery_engine(message_data, metadata, vector_name)
+    if check_discovery_engine_in_memory(config):
+        llama = do_discovery_engine(message_data, metadata, config=config)
         log.info(f"Processed discovery engine: {llama}")
     # If discovery engine is the only entry, return

sunholo/discovery_engine/create_new.py CHANGED Viewed

@@ -1,10 +1,10 @@
 from .discovery_engine_client import DiscoveryEngineClient
-from ..utils.config import load_config_key
+from ..utils import ConfigManager
 from ..utils.gcp_project import get_gcp_project
-def create_new_discovery_engine(vector_name):
+def create_new_discovery_engine(config:ConfigManager):
-    chunker_config = load_config_key("chunker", vector_name=vector_name, kind="vacConfig")
+    chunker_config = config.vacConfig("chunker")
     chunk_size = 500
     if chunker_config:
@@ -18,7 +18,7 @@ def create_new_discovery_engine(vector_name):
     #location = gcp_config.get('location')
     de = DiscoveryEngineClient(
-                    data_store_id=vector_name,
+                    data_store_id=config.vector_name,
                     project_id=project_id,
                     # location needs to be 'eu' or 'us' which doesn't work with other configurations
                     #location=location

sunholo/discovery_engine/get_ai_search_chunks.py ADDED Viewed

@@ -0,0 +1,53 @@
+from ..utils import ConfigManager
+from ..utils.gcp_project  import get_gcp_project
+from ..custom_logging import log
+from .discovery_engine_client import DiscoveryEngineClient
+from ..components import load_memories
+def get_all_chunks(question:str, config:ConfigManager):
+    """
+    Look through a config memory key and find all Vertex AI Search retrievers, call them and return a joined string of chunks
+        args: question - question to search similarity for
+        config: A ConfigManager object
+        returns: a big string of chunks
+    """
+    memories = load_memories(config=config)
+    chunks = []
+    if not memories:
+        return None
+    vector_name = config.vector_name
+    for memory in memories:
+        for key, value in memory.items():  # Now iterate over the dictionary
+            log.info(f"Found memory {key}")
+            vectorstore = value.get('vectorstore')
+            if vectorstore == "discovery_engine" or vectorstore == "vertex_ai_search":
+                if value.get('read_only'):
+                    new_vector_name = value.get('vector_name')
+                    if not new_vector_name:
+                        log.warning("read_only specified but no new vector_name to read from")
+                    vector_name = new_vector_name
+                num_chunks = value.get('num_chunks') or 3
+                chunk = get_chunks(question, vector_name, num_chunks)
+                if chunk:
+                    chunks.append(chunk)
+    if chunks:
+        return "\n".join(chunks)
+    log.warning(f"No chunks found for {vector_name}")
+    return None
+def get_chunks(question, vector_name, num_chunks):
+    de = DiscoveryEngineClient(vector_name, project_id=get_gcp_project())
+    try:
+        return de.get_chunks(question, num_previous_chunks=num_chunks, num_next_chunks=num_chunks)
+    except Exception as err:
+        log.error(f"No discovery engine chunks found: {str(err)}")

sunholo/gcs/add_file.py CHANGED Viewed

@@ -118,12 +118,13 @@ def add_file_to_gcs(filename: str,
     if os.getenv('EXTENSIONS_BUCKET'):
         bucket_filepath = os.path.basename(filename)
-    if vector_name is None:
-            vector_name = "global"
+    if not vector_name:
+        vector_name = "global"
     if not bucket_filepath:
         bucket_filepath = f"{vector_name}/{year}/{month}/{day}/{hour}/{os.path.basename(filename)}"
     bucket_filepath_prev = f"{vector_name}/{year}/{month}/{day}/{hour_prev}/{os.path.basename(filename)}"
     blob = bucket.blob(bucket_filepath)

{sunholo-0.80.4.dist-info → sunholo-0.80.6.dist-info}/METADATA RENAMED Viewed

@@ -1,9 +1,9 @@
 Metadata-Version: 2.1
 Name: sunholo
-Version: 0.80.4
+Version: 0.80.6
 Summary: Large Language Model DevOps - a package to help deploy LLMs to the Cloud.
 Home-page: https://github.com/sunholo-data/sunholo-py
-Download-URL: https://github.com/sunholo-data/sunholo-py/archive/refs/tags/v0.80.4.tar.gz
+Download-URL: https://github.com/sunholo-data/sunholo-py/archive/refs/tags/v0.80.6.tar.gz
 Author: Holosun ApS
 Author-email: multivac@sunholo.com
 License: Apache License, Version 2.0

{sunholo-0.80.4.dist-info → sunholo-0.80.6.dist-info}/RECORD RENAMED Viewed

@@ -37,7 +37,7 @@ sunholo/chunker/images.py,sha256=id2PBu6XyGEOtgafq2v0c9_O6kxaC_pYFMnbsIitkSg,186
 sunholo/chunker/loaders.py,sha256=CCB0IGigNAWT__2ImVin_j83W3eGS2Qe5I6U18YQzoM,10275
 sunholo/chunker/message_data.py,sha256=EaiY7_HClpcfPUAYaAm6Zk5ReeZ9s9F_jBVd0kDgI-4,10836
 sunholo/chunker/pdfs.py,sha256=njDPop751GMHi3cOwIKd2Yct-_lWR2gqcB7WykfHphs,2480
-sunholo/chunker/process_chunker_data.py,sha256=OnMvXHRv3rGpFsU50FyUNkNIwC1D8TkhaWWbn72yQss,3523
+sunholo/chunker/process_chunker_data.py,sha256=uO-YOEHIjAOy0ZMJ0vea9OMNsQBISHfhbtgoyuHiP6s,3598
 sunholo/chunker/publish.py,sha256=AX5u-fcyDytED67IfizMzvOMcYPXEo6XBJvyk_7maK8,2939
 sunholo/chunker/pubsub.py,sha256=48bhuAcszN7LGe3-ksPSLHHhq0uKxiXOrizck5qpcP0,1012
 sunholo/chunker/splitter.py,sha256=QLAEsJOpEYFZr9-UGZUuAlNVyjfCWb8jvzCHg0rVShE,6751
@@ -55,7 +55,7 @@ sunholo/cli/swagger.py,sha256=absYKAU-7Yd2eiVNUY-g_WLl2zJfeRUNdWQ0oH8M_HM,1564
 sunholo/cli/vertex.py,sha256=8130YCarxHL1UC3aqblNmUwGZTXbkdL4Y_FOnZJsWiI,2056
 sunholo/components/__init__.py,sha256=IDoylb74zFKo6NIS3RQqUl0PDFBGVxM1dfUmO7OJ44U,176
 sunholo/components/llm.py,sha256=5wRVf7lIb7q1vRADNcdQp26L9l4vGHFIvjtUDurZN_s,11488
-sunholo/components/retriever.py,sha256=4gCtTXOjsAbNAuc3DmcFWU_Bq3wDoLe-cTfBI_8FvII,7388
+sunholo/components/retriever.py,sha256=hKF3Az6DfDwUaKLkSTuzGg_5THS_lv7C51tfnzhb960,7653
 sunholo/components/vectorstore.py,sha256=xKk7micTRwZckaI7U6PxvFz_ZSjCH48xPTDYiDcv2tc,5913
 sunholo/database/__init__.py,sha256=Zz0Shcq-CtStf9rJGIYB_Ybzb8rY_Q9mfSj-nviM490,241
 sunholo/database/alloydb.py,sha256=c1PEmK9fJCxYaVmKv4emvOoXrajV7KqaVK5mqpeksvM,11527
@@ -70,14 +70,15 @@ sunholo/database/sql/sb/create_table.sql,sha256=SbcOrf5tUiVKGUohu1lau7IsbDRbTFbr
 sunholo/database/sql/sb/delete_source_row.sql,sha256=r6fEuUKdbiLHCDGKSbKINDCpJjsmfHZNNOo1ptwLLSo,75
 sunholo/database/sql/sb/return_sources.sql,sha256=89KAnxfK8n_qGK9jy1OQT8f9n4uYUtYL5cCxbC2mj_c,255
 sunholo/database/sql/sb/setup.sql,sha256=CvoFvZQev2uWjmFa3aj3m3iuPFzAAJZ0S7Qi3L3-zZI,89
-sunholo/discovery_engine/__init__.py,sha256=qUKWzuHApDRJIUoynukVdGRBEq8eC9T7l9a3bWckgI0,59
-sunholo/discovery_engine/chunker_handler.py,sha256=kCprXDwb-6BQkuVkP2SVEY2_UZbo7xF7NAnPAC_3xrs,4616
-sunholo/discovery_engine/create_new.py,sha256=7oZG78T6lW0EspRzlo7-qRyXFSuFxDn2dfSAVEaqlqY,978
+sunholo/discovery_engine/__init__.py,sha256=P00bB8aVVWefOZbCQvzHsVMuP_sd-_d_4o5xCuCpN3g,108
+sunholo/discovery_engine/chunker_handler.py,sha256=Fv4BLOBi_7ap3AiAy4TlTN48CLZSMurJ3TkvC75Euro,5123
+sunholo/discovery_engine/create_new.py,sha256=NzhSh6nG6nQ5J9gZh8IDph4JiEVT_DC5GGvP0GuwTWs,943
 sunholo/discovery_engine/discovery_engine_client.py,sha256=oORB2SVVqrYrz7E3srPrknyuR6Dl3SJJwaVrbVXJER4,17726
+sunholo/discovery_engine/get_ai_search_chunks.py,sha256=7yMpGaLU1nL3ttFLE-cIhNao-Vq9SY1edFC3T-7wH2I,1944
 sunholo/embedder/__init__.py,sha256=sI4N_CqgEVcrMDxXgxKp1FsfsB4FpjoXgPGkl4N_u4I,44
 sunholo/embedder/embed_chunk.py,sha256=MCbTePWjUbIRVDFFhHJ94BvOZvIom62-mTr0PmfQyt0,6951
 sunholo/gcs/__init__.py,sha256=SZvbsMFDko40sIRHTHppA37IijvJTae54vrhooEF5-4,90
-sunholo/gcs/add_file.py,sha256=l04xuFoVzw1AbjME_cABvMVZ7bnrT2JHNG04OuF25zU,7127
+sunholo/gcs/add_file.py,sha256=0GruAKsvVO9qVddwJ1ugr4ldpk_QKXmhKKVio2QwuPE,7124
 sunholo/gcs/download_folder.py,sha256=ijJTnS595JqZhBH8iHFErQilMbkuKgL-bnTCMLGuvlA,1614
 sunholo/gcs/download_url.py,sha256=i_LKd3fJQNDqpUzDgSSehWVSzOPA-HPM7o0Tf8nLrM4,5235
 sunholo/gcs/metadata.py,sha256=oQLcXi4brsZ74aegWyC1JZmhlaEV270HS5_UWtAYYWE,898
@@ -133,9 +134,9 @@ sunholo/vertex/init.py,sha256=1OQwcPBKZYBTDPdyU7IM4X4OmiXLdsNV30C-fee2scQ,2875
 sunholo/vertex/memory_tools.py,sha256=pgSahVDh7GPEulu3nl-w0jb5lTClb4TCnVxPnMokNZY,7533
 sunholo/vertex/safety.py,sha256=S9PgQT1O_BQAkcqauWncRJaydiP8Q_Jzmu9gxYfy1VA,2482
 sunholo/vertex/type_dict_to_json.py,sha256=uTzL4o9tJRao4u-gJOFcACgWGkBOtqACmb6ihvCErL8,4694
-sunholo-0.80.4.dist-info/LICENSE.txt,sha256=SdE3QjnD3GEmqqg9EX3TM9f7WmtOzqS1KJve8rhbYmU,11345
-sunholo-0.80.4.dist-info/METADATA,sha256=KytnH3hckVqgDQgTflabGRp0B3SRdyjcTHq2OCZVm2c,7348
-sunholo-0.80.4.dist-info/WHEEL,sha256=R0nc6qTxuoLk7ShA2_Y-UWkN8ZdfDBG2B6Eqpz2WXbs,91
-sunholo-0.80.4.dist-info/entry_points.txt,sha256=bZuN5AIHingMPt4Ro1b_T-FnQvZ3teBes-3OyO0asl4,49
-sunholo-0.80.4.dist-info/top_level.txt,sha256=wt5tadn5--5JrZsjJz2LceoUvcrIvxjHJe-RxuudxAk,8
-sunholo-0.80.4.dist-info/RECORD,,
+sunholo-0.80.6.dist-info/LICENSE.txt,sha256=SdE3QjnD3GEmqqg9EX3TM9f7WmtOzqS1KJve8rhbYmU,11345
+sunholo-0.80.6.dist-info/METADATA,sha256=CQEUn95SrlED6d_I0m_V-ZhLHTOXD0nVugPZbWl3N4k,7348
+sunholo-0.80.6.dist-info/WHEEL,sha256=R0nc6qTxuoLk7ShA2_Y-UWkN8ZdfDBG2B6Eqpz2WXbs,91
+sunholo-0.80.6.dist-info/entry_points.txt,sha256=bZuN5AIHingMPt4Ro1b_T-FnQvZ3teBes-3OyO0asl4,49
+sunholo-0.80.6.dist-info/top_level.txt,sha256=wt5tadn5--5JrZsjJz2LceoUvcrIvxjHJe-RxuudxAk,8
+sunholo-0.80.6.dist-info/RECORD,,

{sunholo-0.80.4.dist-info → sunholo-0.80.6.dist-info}/LICENSE.txt RENAMED Viewed

File without changes

{sunholo-0.80.4.dist-info → sunholo-0.80.6.dist-info}/WHEEL RENAMED Viewed

File without changes

{sunholo-0.80.4.dist-info → sunholo-0.80.6.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{sunholo-0.80.4.dist-info → sunholo-0.80.6.dist-info}/top_level.txt RENAMED Viewed

File without changes

sunholo 0.80.4__py3-none-any.whl → 0.80.6__py3-none-any.whl

sunholo 0.80.4py3-none-any.whl → 0.80.6py3-none-any.whl