PyPI - alita-sdk - Versions diffs - 0.3.263__py3-none-any.whl → 0.3.499__py3-none-any.whl - Mend

alita-sdk 0.3.263py3-none-any.whl → 0.3.499py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (248) hide show

alita_sdk/cli/__init__.py +10 -0
alita_sdk/cli/__main__.py +17 -0
alita_sdk/cli/agent/__init__.py +5 -0
alita_sdk/cli/agent/default.py +258 -0
alita_sdk/cli/agent_executor.py +155 -0
alita_sdk/cli/agent_loader.py +215 -0
alita_sdk/cli/agent_ui.py +228 -0
alita_sdk/cli/agents.py +3601 -0
alita_sdk/cli/callbacks.py +647 -0
alita_sdk/cli/cli.py +168 -0
alita_sdk/cli/config.py +306 -0
alita_sdk/cli/context/__init__.py +30 -0
alita_sdk/cli/context/cleanup.py +198 -0
alita_sdk/cli/context/manager.py +731 -0
alita_sdk/cli/context/message.py +285 -0
alita_sdk/cli/context/strategies.py +289 -0
alita_sdk/cli/context/token_estimation.py +127 -0
alita_sdk/cli/formatting.py +182 -0
alita_sdk/cli/input_handler.py +419 -0
alita_sdk/cli/inventory.py +1256 -0
alita_sdk/cli/mcp_loader.py +315 -0
alita_sdk/cli/toolkit.py +327 -0
alita_sdk/cli/toolkit_loader.py +85 -0
alita_sdk/cli/tools/__init__.py +43 -0
alita_sdk/cli/tools/approval.py +224 -0
alita_sdk/cli/tools/filesystem.py +1751 -0
alita_sdk/cli/tools/planning.py +389 -0
alita_sdk/cli/tools/terminal.py +414 -0
alita_sdk/community/__init__.py +64 -8
alita_sdk/community/inventory/__init__.py +224 -0
alita_sdk/community/inventory/config.py +257 -0
alita_sdk/community/inventory/enrichment.py +2137 -0
alita_sdk/community/inventory/extractors.py +1469 -0
alita_sdk/community/inventory/ingestion.py +3172 -0
alita_sdk/community/inventory/knowledge_graph.py +1457 -0
alita_sdk/community/inventory/parsers/__init__.py +218 -0
alita_sdk/community/inventory/parsers/base.py +295 -0
alita_sdk/community/inventory/parsers/csharp_parser.py +907 -0
alita_sdk/community/inventory/parsers/go_parser.py +851 -0
alita_sdk/community/inventory/parsers/html_parser.py +389 -0
alita_sdk/community/inventory/parsers/java_parser.py +593 -0
alita_sdk/community/inventory/parsers/javascript_parser.py +629 -0
alita_sdk/community/inventory/parsers/kotlin_parser.py +768 -0
alita_sdk/community/inventory/parsers/markdown_parser.py +362 -0
alita_sdk/community/inventory/parsers/python_parser.py +604 -0
alita_sdk/community/inventory/parsers/rust_parser.py +858 -0
alita_sdk/community/inventory/parsers/swift_parser.py +832 -0
alita_sdk/community/inventory/parsers/text_parser.py +322 -0
alita_sdk/community/inventory/parsers/yaml_parser.py +370 -0
alita_sdk/community/inventory/patterns/__init__.py +61 -0
alita_sdk/community/inventory/patterns/ast_adapter.py +380 -0
alita_sdk/community/inventory/patterns/loader.py +348 -0
alita_sdk/community/inventory/patterns/registry.py +198 -0
alita_sdk/community/inventory/presets.py +535 -0
alita_sdk/community/inventory/retrieval.py +1403 -0
alita_sdk/community/inventory/toolkit.py +173 -0
alita_sdk/community/inventory/visualize.py +1370 -0
alita_sdk/configurations/__init__.py +10 -0
alita_sdk/configurations/ado.py +4 -2
alita_sdk/configurations/azure_search.py +1 -1
alita_sdk/configurations/bigquery.py +1 -1
alita_sdk/configurations/bitbucket.py +94 -2
alita_sdk/configurations/browser.py +18 -0
alita_sdk/configurations/carrier.py +19 -0
alita_sdk/configurations/confluence.py +96 -1
alita_sdk/configurations/delta_lake.py +1 -1
alita_sdk/configurations/figma.py +0 -5
alita_sdk/configurations/github.py +65 -1
alita_sdk/configurations/gitlab.py +79 -0
alita_sdk/configurations/google_places.py +17 -0
alita_sdk/configurations/jira.py +103 -0
alita_sdk/configurations/postman.py +1 -1
alita_sdk/configurations/qtest.py +1 -3
alita_sdk/configurations/report_portal.py +19 -0
alita_sdk/configurations/salesforce.py +19 -0
alita_sdk/configurations/service_now.py +1 -12
alita_sdk/configurations/sharepoint.py +19 -0
alita_sdk/configurations/sonar.py +18 -0
alita_sdk/configurations/sql.py +20 -0
alita_sdk/configurations/testio.py +18 -0
alita_sdk/configurations/testrail.py +88 -0
alita_sdk/configurations/xray.py +94 -1
alita_sdk/configurations/zephyr_enterprise.py +94 -1
alita_sdk/configurations/zephyr_essential.py +95 -0
alita_sdk/runtime/clients/artifact.py +12 -2
alita_sdk/runtime/clients/client.py +235 -66
alita_sdk/runtime/clients/mcp_discovery.py +342 -0
alita_sdk/runtime/clients/mcp_manager.py +262 -0
alita_sdk/runtime/clients/sandbox_client.py +373 -0
alita_sdk/runtime/langchain/assistant.py +123 -17
alita_sdk/runtime/langchain/constants.py +8 -1
alita_sdk/runtime/langchain/document_loaders/AlitaDocxMammothLoader.py +315 -3
alita_sdk/runtime/langchain/document_loaders/AlitaExcelLoader.py +209 -31
alita_sdk/runtime/langchain/document_loaders/AlitaImageLoader.py +1 -1
alita_sdk/runtime/langchain/document_loaders/AlitaJSONLoader.py +8 -2
alita_sdk/runtime/langchain/document_loaders/AlitaMarkdownLoader.py +66 -0
alita_sdk/runtime/langchain/document_loaders/AlitaPDFLoader.py +79 -10
alita_sdk/runtime/langchain/document_loaders/AlitaPowerPointLoader.py +52 -15
alita_sdk/runtime/langchain/document_loaders/AlitaPythonLoader.py +9 -0
alita_sdk/runtime/langchain/document_loaders/AlitaTableLoader.py +1 -4
alita_sdk/runtime/langchain/document_loaders/AlitaTextLoader.py +15 -2
alita_sdk/runtime/langchain/document_loaders/ImageParser.py +30 -0
alita_sdk/runtime/langchain/document_loaders/constants.py +187 -40
alita_sdk/runtime/langchain/interfaces/llm_processor.py +4 -2
alita_sdk/runtime/langchain/langraph_agent.py +406 -91
alita_sdk/runtime/langchain/utils.py +51 -8
alita_sdk/runtime/llms/preloaded.py +2 -6
alita_sdk/runtime/models/mcp_models.py +61 -0
alita_sdk/runtime/toolkits/__init__.py +26 -0
alita_sdk/runtime/toolkits/application.py +9 -2
alita_sdk/runtime/toolkits/artifact.py +19 -7
alita_sdk/runtime/toolkits/datasource.py +13 -6
alita_sdk/runtime/toolkits/mcp.py +780 -0
alita_sdk/runtime/toolkits/planning.py +178 -0
alita_sdk/runtime/toolkits/subgraph.py +11 -6
alita_sdk/runtime/toolkits/tools.py +214 -60
alita_sdk/runtime/toolkits/vectorstore.py +9 -4
alita_sdk/runtime/tools/__init__.py +22 -0
alita_sdk/runtime/tools/application.py +16 -4
alita_sdk/runtime/tools/artifact.py +312 -19
alita_sdk/runtime/tools/function.py +100 -4
alita_sdk/runtime/tools/graph.py +81 -0
alita_sdk/runtime/tools/image_generation.py +212 -0
alita_sdk/runtime/tools/llm.py +539 -180
alita_sdk/runtime/tools/mcp_inspect_tool.py +284 -0
alita_sdk/runtime/tools/mcp_remote_tool.py +181 -0
alita_sdk/runtime/tools/mcp_server_tool.py +3 -1
alita_sdk/runtime/tools/planning/__init__.py +36 -0
alita_sdk/runtime/tools/planning/models.py +246 -0
alita_sdk/runtime/tools/planning/wrapper.py +607 -0
alita_sdk/runtime/tools/router.py +2 -1
alita_sdk/runtime/tools/sandbox.py +375 -0
alita_sdk/runtime/tools/vectorstore.py +62 -63
alita_sdk/runtime/tools/vectorstore_base.py +156 -85
alita_sdk/runtime/utils/AlitaCallback.py +106 -20
alita_sdk/runtime/utils/mcp_client.py +465 -0
alita_sdk/runtime/utils/mcp_oauth.py +244 -0
alita_sdk/runtime/utils/mcp_sse_client.py +405 -0
alita_sdk/runtime/utils/mcp_tools_discovery.py +124 -0
alita_sdk/runtime/utils/streamlit.py +41 -14
alita_sdk/runtime/utils/toolkit_utils.py +28 -9
alita_sdk/runtime/utils/utils.py +14 -0
alita_sdk/tools/__init__.py +78 -35
alita_sdk/tools/ado/__init__.py +0 -1
alita_sdk/tools/ado/repos/__init__.py +10 -6
alita_sdk/tools/ado/repos/repos_wrapper.py +12 -11
alita_sdk/tools/ado/test_plan/__init__.py +10 -7
alita_sdk/tools/ado/test_plan/test_plan_wrapper.py +56 -23
alita_sdk/tools/ado/wiki/__init__.py +10 -11
alita_sdk/tools/ado/wiki/ado_wrapper.py +114 -28
alita_sdk/tools/ado/work_item/__init__.py +10 -11
alita_sdk/tools/ado/work_item/ado_wrapper.py +63 -10
alita_sdk/tools/advanced_jira_mining/__init__.py +10 -7
alita_sdk/tools/aws/delta_lake/__init__.py +13 -11
alita_sdk/tools/azure_ai/search/__init__.py +11 -7
alita_sdk/tools/base_indexer_toolkit.py +392 -86
alita_sdk/tools/bitbucket/__init__.py +18 -11
alita_sdk/tools/bitbucket/api_wrapper.py +52 -9
alita_sdk/tools/bitbucket/cloud_api_wrapper.py +5 -5
alita_sdk/tools/browser/__init__.py +40 -16
alita_sdk/tools/browser/crawler.py +3 -1
alita_sdk/tools/browser/utils.py +15 -6
alita_sdk/tools/carrier/__init__.py +17 -17
alita_sdk/tools/carrier/backend_reports_tool.py +8 -4
alita_sdk/tools/carrier/excel_reporter.py +8 -4
alita_sdk/tools/chunkers/__init__.py +3 -1
alita_sdk/tools/chunkers/code/codeparser.py +1 -1
alita_sdk/tools/chunkers/sematic/json_chunker.py +1 -0
alita_sdk/tools/chunkers/sematic/markdown_chunker.py +97 -6
alita_sdk/tools/chunkers/sematic/proposal_chunker.py +1 -1
alita_sdk/tools/chunkers/universal_chunker.py +270 -0
alita_sdk/tools/cloud/aws/__init__.py +9 -6
alita_sdk/tools/cloud/azure/__init__.py +9 -6
alita_sdk/tools/cloud/gcp/__init__.py +9 -6
alita_sdk/tools/cloud/k8s/__init__.py +9 -6
alita_sdk/tools/code/linter/__init__.py +7 -7
alita_sdk/tools/code/loaders/codesearcher.py +3 -2
alita_sdk/tools/code/sonar/__init__.py +18 -12
alita_sdk/tools/code_indexer_toolkit.py +199 -0
alita_sdk/tools/confluence/__init__.py +14 -11
alita_sdk/tools/confluence/api_wrapper.py +198 -58
alita_sdk/tools/confluence/loader.py +10 -0
alita_sdk/tools/custom_open_api/__init__.py +9 -4
alita_sdk/tools/elastic/__init__.py +8 -7
alita_sdk/tools/elitea_base.py +543 -64
alita_sdk/tools/figma/__init__.py +10 -8
alita_sdk/tools/figma/api_wrapper.py +352 -153
alita_sdk/tools/github/__init__.py +13 -11
alita_sdk/tools/github/api_wrapper.py +9 -26
alita_sdk/tools/github/github_client.py +75 -12
alita_sdk/tools/github/schemas.py +2 -1
alita_sdk/tools/gitlab/__init__.py +11 -10
alita_sdk/tools/gitlab/api_wrapper.py +135 -45
alita_sdk/tools/gitlab_org/__init__.py +11 -9
alita_sdk/tools/google/bigquery/__init__.py +12 -13
alita_sdk/tools/google_places/__init__.py +18 -10
alita_sdk/tools/jira/__init__.py +14 -8
alita_sdk/tools/jira/api_wrapper.py +315 -168
alita_sdk/tools/keycloak/__init__.py +8 -7
alita_sdk/tools/localgit/local_git.py +56 -54
alita_sdk/tools/memory/__init__.py +27 -11
alita_sdk/tools/non_code_indexer_toolkit.py +7 -2
alita_sdk/tools/ocr/__init__.py +8 -7
alita_sdk/tools/openapi/__init__.py +10 -1
alita_sdk/tools/pandas/__init__.py +8 -7
alita_sdk/tools/pandas/api_wrapper.py +7 -25
alita_sdk/tools/postman/__init__.py +8 -10
alita_sdk/tools/postman/api_wrapper.py +19 -8
alita_sdk/tools/postman/postman_analysis.py +8 -1
alita_sdk/tools/pptx/__init__.py +8 -9
alita_sdk/tools/qtest/__init__.py +19 -13
alita_sdk/tools/qtest/api_wrapper.py +1784 -88
alita_sdk/tools/rally/__init__.py +10 -9
alita_sdk/tools/report_portal/__init__.py +20 -15
alita_sdk/tools/salesforce/__init__.py +19 -15
alita_sdk/tools/servicenow/__init__.py +14 -11
alita_sdk/tools/sharepoint/__init__.py +14 -13
alita_sdk/tools/sharepoint/api_wrapper.py +179 -39
alita_sdk/tools/sharepoint/authorization_helper.py +191 -1
alita_sdk/tools/sharepoint/utils.py +8 -2
alita_sdk/tools/slack/__init__.py +10 -7
alita_sdk/tools/sql/__init__.py +19 -18
alita_sdk/tools/sql/api_wrapper.py +71 -23
alita_sdk/tools/testio/__init__.py +18 -12
alita_sdk/tools/testrail/__init__.py +10 -10
alita_sdk/tools/testrail/api_wrapper.py +213 -45
alita_sdk/tools/utils/__init__.py +28 -4
alita_sdk/tools/utils/content_parser.py +181 -61
alita_sdk/tools/utils/text_operations.py +254 -0
alita_sdk/tools/vector_adapters/VectorStoreAdapter.py +83 -27
alita_sdk/tools/xray/__init__.py +12 -7
alita_sdk/tools/xray/api_wrapper.py +58 -113
alita_sdk/tools/zephyr/__init__.py +9 -6
alita_sdk/tools/zephyr_enterprise/__init__.py +13 -8
alita_sdk/tools/zephyr_enterprise/api_wrapper.py +17 -7
alita_sdk/tools/zephyr_essential/__init__.py +13 -9
alita_sdk/tools/zephyr_essential/api_wrapper.py +289 -47
alita_sdk/tools/zephyr_essential/client.py +6 -4
alita_sdk/tools/zephyr_scale/__init__.py +10 -7
alita_sdk/tools/zephyr_scale/api_wrapper.py +6 -2
alita_sdk/tools/zephyr_squad/__init__.py +9 -6
{alita_sdk-0.3.263.dist-info → alita_sdk-0.3.499.dist-info}/METADATA +180 -33
alita_sdk-0.3.499.dist-info/RECORD +433 -0
alita_sdk-0.3.499.dist-info/entry_points.txt +2 -0
alita_sdk-0.3.263.dist-info/RECORD +0 -342
{alita_sdk-0.3.263.dist-info → alita_sdk-0.3.499.dist-info}/WHEEL +0 -0
{alita_sdk-0.3.263.dist-info → alita_sdk-0.3.499.dist-info}/licenses/LICENSE +0 -0
{alita_sdk-0.3.263.dist-info → alita_sdk-0.3.499.dist-info}/top_level.txt +0 -0

alita_sdk/runtime/langchain/document_loaders/AlitaMarkdownLoader.py ADDED Viewed

@@ -0,0 +1,66 @@
+from pathlib import Path
+from typing import Any, List, Union, Generator, Iterator
+from langchain_core.documents import Document
+from langchain_community.document_loaders.unstructured import (
+    UnstructuredFileLoader,
+    validate_unstructured_version,
+)
+class AlitaMarkdownLoader(UnstructuredFileLoader):
+    def __init__(
+        self,
+        file_path: Union[str, Path],
+        mode: str = "elements",
+        chunker_config: dict = None,
+        **unstructured_kwargs: Any,
+    ):
+        """
+        Args:
+            file_path: The path to the Markdown file to load.
+            mode: The mode to use when loading the file. Can be one of "single",
+                "multi", or "all". Default is "single".
+            chunker_config: Configuration dictionary for the markdown chunker.
+            **unstructured_kwargs: Any kwargs to pass to the unstructured.
+        """
+        file_path = str(file_path)
+        validate_unstructured_version("0.4.16")
+        self.chunker_config = chunker_config or {
+            "strip_header": False,
+            "return_each_line": False,
+            "headers_to_split_on": [],
+            "max_tokens": 512,
+            "token_overlap": 10,
+        }
+        super().__init__(file_path=file_path, mode=mode, **unstructured_kwargs)
+    def _file_content_generator(self) -> Generator[Document, None, None]:
+        """
+        Creates a generator that yields a single Document object
+        representing the entire content of the Markdown file.
+        """
+        with open(self.file_path, "r", encoding="utf-8") as file:
+            content = file.read()
+        yield Document(page_content=content, metadata={"source": self.file_path})
+    def _get_elements(self) -> List[Document]:
+        """
+        Processes the Markdown file using the markdown_chunker and returns the chunks.
+        """
+        from alita_sdk.tools.chunkers.sematic.markdown_chunker import markdown_chunker
+        # Create a generator for the file content
+        file_content_generator = self._file_content_generator()
+        # Use the markdown_chunker to process the content
+        chunks = markdown_chunker(file_content_generator, config=self.chunker_config)
+        # Convert the generator to a list of Document objects
+        return list(chunks)
+    def lazy_load(self) -> Iterator[Document]:
+        """Load file."""
+        elements = self._get_elements()
+        self._post_process_elements(elements)
+        yield from elements

alita_sdk/runtime/langchain/document_loaders/AlitaPDFLoader.py CHANGED Viewed

@@ -1,5 +1,8 @@
 import pymupdf
-from langchain_community.document_loaders import PyPDFLoader
+import fitz
+from langchain_community.document_loaders import PyPDFium2Loader
+from .ImageParser import ImageParser
 from .utils import perform_llm_prediction_for_image_bytes, create_temp_file
 from langchain_core.tools import ToolException
@@ -20,6 +23,7 @@ class AlitaPDFLoader:
         self.headers = kwargs.get('headers', None)
         self.extraction_mode = kwargs.get('extraction_mode', "plain")
         self.extraction_kwargs = kwargs.get('extraction_kwargs', None)
+        self.images_parser=ImageParser(llm=self.llm, prompt=self.prompt)
     def get_content(self):
         if hasattr(self, 'file_path'):
@@ -41,8 +45,59 @@ class AlitaPDFLoader:
         return text_content
     def read_pdf_page(self, report, page, index):
-        text_content = f'Page: {index}\n'
-        text_content += page.get_text()
+        # Extract text in block format (to more accurately match hyperlinks to text)
+        text_blocks = page.get_text("blocks")  # Returns a list of text blocks
+        words = page.get_text("words")  # Returns words with their coordinates
+        # Extract hyperlinks
+        links = page.get_links()
+        # Create a list to store the modified text
+        modified_text = []
+        for block in text_blocks:
+            block_rect = fitz.Rect(block[:4])  # Coordinates of the text block
+            block_text = block[4]  # The actual text of the block
+            # Check if there are hyperlinks intersecting with this text block
+            for link in links:
+                if "uri" in link:  # Ensure this is a hyperlink
+                    link_rect = link["from"]  # Coordinates of the hyperlink area
+                    link_uri = link["uri"]  # The URL of the hyperlink
+                    # Expand the hyperlink area slightly to account for inaccuracies
+                    link_rect = fitz.Rect(
+                        link_rect.x0 - 1, link_rect.y0 - 1, link_rect.x1 + 1, link_rect.y1 + 1
+                    )
+                    # Find words that are inside the hyperlink area
+                    link_text = []
+                    for word in words:
+                        word_rect = fitz.Rect(word[:4])  # Coordinates of the word
+                        word_text = word[4]
+                        # Check if the word rectangle is fully inside the hyperlink rectangle
+                        if link_rect.contains(word_rect):
+                            link_text.append(word_text)
+                        # If the word partially intersects, check vertical alignment
+                        elif link_rect.intersects(word_rect):
+                            # Condition: The word must be on the same line as the hyperlink
+                            if abs(link_rect.y0 - word_rect.y0) < 2 and abs(link_rect.y1 - word_rect.y1) < 2:
+                                link_text.append(word_text)
+                    # Format the hyperlink in Markdown
+                    full_text = " ".join(link_text) if link_text else "No text"
+                    hyperlink = f"[{full_text}]({link_uri})"
+                    # Replace the hyperlink text in the block with the formatted hyperlink
+                    block_text = block_text.replace(full_text, hyperlink)
+            # Add the processed text block to the result
+            modified_text.append(block_text)
+        # Combine all text blocks into the final text for the page
+        text_content = f'Page: {index}\n' + "\n".join(modified_text)
         if self.extract_images:
             images = page.get_images(full=True)
             for i, img in enumerate(images):
@@ -54,10 +109,24 @@ class AlitaPDFLoader:
     def load(self):
         if not hasattr(self, 'file_path'):
-            self.file_path = create_temp_file(self.file_content)
-        return PyPDFLoader(file_path=self.file_path,
-                           password=self.password,
-                           headers=self.headers,
-                           extract_images=self.extract_images,
-                           extraction_mode=self.extraction_mode,
-                           extraction_kwargs=self.extraction_kwargs).load()
+            import tempfile
+            with tempfile.NamedTemporaryFile(mode='w+b', delete=True, suffix=".pdf") as temp_file:
+                temp_file.write(self.file_content)
+                temp_file.flush()
+                self.file_path = temp_file.name
+                return self._load_docs()
+        else:
+            return self._load_docs()
+    def _load_docs(self):
+        docs = PyPDFium2Loader(
+                file_path = self.file_path,
+                password=self.password,
+                headers=self.headers,
+                extract_images = self.extract_images,
+                images_parser = ImageParser(llm=self.llm, prompt=self.prompt),
+            ).load()
+        for doc in docs:
+            doc.metadata['chunk_id'] = doc.metadata['page']
+        return docs

alita_sdk/runtime/langchain/document_loaders/AlitaPowerPointLoader.py CHANGED Viewed

@@ -1,10 +1,10 @@
 import io
-from langchain_community.document_loaders import UnstructuredPowerPointLoader
 from langchain_core.tools import ToolException
 from pptx import Presentation
 from .utils import perform_llm_prediction_for_image_bytes, create_temp_file
 from pptx.enum.shapes import MSO_SHAPE_TYPE
+from langchain_core.documents import Document
 class AlitaPowerPointLoader:
@@ -22,33 +22,70 @@ class AlitaPowerPointLoader:
         self.extract_images = unstructured_kwargs.get('extract_images', False)
         self.llm = unstructured_kwargs.get('llm', None)
         self.prompt = unstructured_kwargs.get('prompt', "Describe image")
+        self.pages_per_chunk = unstructured_kwargs.get('pages_per_chunk', 5)
     def get_content(self):
-        prs = Presentation(io.BytesIO(self.file_content))
-        text_content = ''
+        if hasattr(self, 'file_path'):
+            with open(self.file_path, 'rb') as f:
+                prs = Presentation(f)
+        elif hasattr(self, 'file_content'):
+            prs = Presentation(io.BytesIO(self.file_content))
+        pages = []
         if self.page_number is not None:
-            text_content += self.read_pptx_slide(prs.slides[self.page_number - 1], self.page_number)
+            pages.append(self.read_pptx_slide(prs.slides[self.page_number - 1], self.page_number))
         else:
             for index, slide in enumerate(prs.slides, start=1):
-                text_content += self.read_pptx_slide(slide, index)
-        return text_content
+                pages.append(self.read_pptx_slide(slide, index))
+        if self.mode == 'single':
+            return "\n".join(pages)
+        if self.mode == 'paged':
+            return pages
+        else:
+            raise ToolException(f"Unknown mode value: {self.mode}. Only 'single', 'paged' values allowed.")
     def read_pptx_slide(self, slide, index):
         text_content = f'Slide: {index}\n'
         for shape in slide.shapes:
-            if hasattr(shape, "text"):
-                text_content += shape.text + "\n"
+            if hasattr(shape, "text_frame") and shape.text_frame is not None:
+                for paragraph in shape.text_frame.paragraphs:
+                    for run in paragraph.runs:
+                        if run.hyperlink and run.hyperlink.address:
+                            link_text = run.text.strip() or "Link"
+                            link_url = run.hyperlink.address
+                            text_content += f" [{link_text}]({link_url}) "
+                        else:
+                            text_content += run.text
+                text_content += "\n"
             elif self.extract_images and shape.shape_type == MSO_SHAPE_TYPE.PICTURE:
                 try:
-                    caption = perform_llm_prediction_for_image_bytes(shape.image.blob, self.llm)
+                    caption = perform_llm_prediction_for_image_bytes(shape.image.blob, self.llm, self.prompt)
                 except:
                     caption = "unknown"
                 text_content += "\n**Image Transcript:**\n" + caption + "\n--------------------\n"
-        return text_content
+        return text_content + "\n"
     def load(self):
-        if not self.file_path:
-            self.file_path = create_temp_file(self.file_content)
-        return UnstructuredPowerPointLoader(file_path=self.file_path,
-                           mode=self.mode,
-                           **self.unstructured_kwargs).load()
+        content = self.get_content()
+        if isinstance(content, str):
+            yield Document(page_content=content, metadata={})
+        elif isinstance(content, list):
+            chunk = []
+            chunk_count = 0
+            for page_number, page in enumerate(content, start=1):
+                chunk.append(page)
+                if len(chunk) == self.pages_per_chunk:
+                    chunk_content = "\n".join(chunk)
+                    yield Document(
+                        page_content=chunk_content,
+                        metadata={"chunk_number": chunk_count + 1,
+                                  "pages_in_chunk": list(range(page_number - len(chunk) + 1, page_number + 1))}
+                    )
+                    chunk = []
+                    chunk_count += 1
+            if chunk:
+                chunk_content = "\n".join(chunk)
+                yield Document(
+                    page_content=chunk_content,
+                    metadata={"chunk_number": chunk_count + 1,
+                              "pages_in_chunk": list(range(len(content) - len(chunk) + 1, len(content) + 1))}
+                )

alita_sdk/runtime/langchain/document_loaders/AlitaPythonLoader.py ADDED Viewed

@@ -0,0 +1,9 @@
+from pathlib import Path
+from typing import Union
+from langchain_community.document_loaders.python import PythonLoader
+class AlitaPythonLoader(PythonLoader):
+    """Load `Python` files, respecting any non-default encoding if specified."""
+    def __init__(self, file_path: Union[str, Path], **kwargs):
+        super().__init__(file_path)

alita_sdk/runtime/langchain/document_loaders/AlitaTableLoader.py CHANGED Viewed

@@ -17,8 +17,6 @@ from langchain_core.documents import Document
 from typing import List, Optional, Iterator
 from json import dumps
 from .utils import cleanse_data
-from ..tools.log import print_log
 class AlitaTableLoader(BaseLoader):
     def __init__(self,
@@ -65,7 +63,7 @@ class AlitaTableLoader(BaseLoader):
                 "source": f'{self.file_path}:{idx+1}',
                 "table_source": self.file_path,
             }
-            if len(docs) == 0:
+            if len(docs) == 0 and not self.raw_content:
                 header_metadata = metadata.copy()
                 header_metadata["header"] = "true"
                 header = "\t".join([str(value) for value in row.keys()])
@@ -74,7 +72,6 @@ class AlitaTableLoader(BaseLoader):
                 docs.append(Document(page_content=row, metadata=metadata))
                 continue
             if self.json_documents:
-                # print_log(row)
                 metadata['columns'] = list(row.keys())
                 metadata['og_data'] = dumps(row)
                 docs.append(Document(page_content=self.row_processor(row), metadata=metadata))

alita_sdk/runtime/langchain/document_loaders/AlitaTextLoader.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import Iterator
+from typing import Iterator, Generator
 from langchain_core.documents import Document
@@ -6,6 +6,9 @@ from langchain_community.document_loaders.base import BaseLoader
 from langchain_community.document_loaders.helpers import detect_file_encodings
 from langchain_core.tools import ToolException
+from alita_sdk.tools.chunkers import markdown_chunker
 class AlitaTextLoader(BaseLoader):
     def __init__(self, **kwargs):
@@ -19,6 +22,8 @@ class AlitaTextLoader(BaseLoader):
             raise ToolException("'file_path' or 'file_content' parameter should be provided.")
         self.encoding = kwargs.get('encoding', 'utf-8')
         self.autodetect_encoding = kwargs.get('autodetect_encoding', False)
+        self.max_tokens=kwargs.get('max_tokens', 1024)
+        self.token_overlap = kwargs.get('token_overlap', 10)
     def get_content(self):
         text = ""
@@ -59,8 +64,16 @@ class AlitaTextLoader(BaseLoader):
         return text
+    def generate_document(self, text, metadata) -> Generator[Document, None, None]:
+        yield Document(page_content=text, metadata=metadata)
     def lazy_load(self) -> Iterator[Document]:
         """Load from file path."""
         text = self.get_content()
         metadata = {"source": str(self.file_path) if hasattr(self, 'file_path') else self.file_name}
-        yield Document(page_content=text, metadata=metadata)
+        chunks = markdown_chunker(file_content_generator=self.generate_document(text, metadata),
+                                  config={
+                                      "max_tokens": self.max_tokens,
+                                      "token_overlap": self.token_overlap
+                                  })
+        yield from chunks

alita_sdk/runtime/langchain/document_loaders/ImageParser.py ADDED Viewed

@@ -0,0 +1,30 @@
+from typing import Iterator
+from langchain_community.document_loaders.parsers.images import BaseImageBlobParser
+from langchain_core.documents import Document
+from langchain_core.documents.base import Blob
+from alita_sdk.runtime.langchain.document_loaders.AlitaImageLoader import AlitaImageLoader
+class ImageParser(BaseImageBlobParser):
+    def __init__(self, **kwargs):
+        self.llm = kwargs.get('llm')
+        self.prompt = kwargs.get('prompt')
+    def lazy_parse(self, blob: Blob) -> Iterator[Document]:
+        try:
+            yield from super().lazy_parse(blob)
+        except Exception:
+            yield Document(page_content="[Image: Unknown]")
+    def _analyze_image(self, img) -> str:
+        from io import BytesIO
+        byte_stream = BytesIO()
+        img.save(byte_stream, format='PNG')
+        image_bytes = byte_stream.getvalue()
+        try:
+            return AlitaImageLoader(file_content=image_bytes, file_name="image.png", prompt=self.prompt, llm=self.llm).get_content()
+        except Exception:
+            return "Image: unknown"

alita-sdk 0.3.263__py3-none-any.whl → 0.3.499__py3-none-any.whl

alita-sdk 0.3.263py3-none-any.whl → 0.3.499py3-none-any.whl