PyPI - alita-sdk - Versions diffs - 0.3.257__py3-none-any.whl → 0.3.562__py3-none-any.whl - Mend

alita-sdk 0.3.257py3-none-any.whl → 0.3.562py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (278) hide show

alita_sdk/cli/__init__.py +10 -0
alita_sdk/cli/__main__.py +17 -0
alita_sdk/cli/agent/__init__.py +5 -0
alita_sdk/cli/agent/default.py +258 -0
alita_sdk/cli/agent_executor.py +155 -0
alita_sdk/cli/agent_loader.py +215 -0
alita_sdk/cli/agent_ui.py +228 -0
alita_sdk/cli/agents.py +3601 -0
alita_sdk/cli/callbacks.py +647 -0
alita_sdk/cli/cli.py +168 -0
alita_sdk/cli/config.py +306 -0
alita_sdk/cli/context/__init__.py +30 -0
alita_sdk/cli/context/cleanup.py +198 -0
alita_sdk/cli/context/manager.py +731 -0
alita_sdk/cli/context/message.py +285 -0
alita_sdk/cli/context/strategies.py +289 -0
alita_sdk/cli/context/token_estimation.py +127 -0
alita_sdk/cli/formatting.py +182 -0
alita_sdk/cli/input_handler.py +419 -0
alita_sdk/cli/inventory.py +1073 -0
alita_sdk/cli/mcp_loader.py +315 -0
alita_sdk/cli/toolkit.py +327 -0
alita_sdk/cli/toolkit_loader.py +85 -0
alita_sdk/cli/tools/__init__.py +43 -0
alita_sdk/cli/tools/approval.py +224 -0
alita_sdk/cli/tools/filesystem.py +1751 -0
alita_sdk/cli/tools/planning.py +389 -0
alita_sdk/cli/tools/terminal.py +414 -0
alita_sdk/community/__init__.py +72 -12
alita_sdk/community/inventory/__init__.py +236 -0
alita_sdk/community/inventory/config.py +257 -0
alita_sdk/community/inventory/enrichment.py +2137 -0
alita_sdk/community/inventory/extractors.py +1469 -0
alita_sdk/community/inventory/ingestion.py +3172 -0
alita_sdk/community/inventory/knowledge_graph.py +1457 -0
alita_sdk/community/inventory/parsers/__init__.py +218 -0
alita_sdk/community/inventory/parsers/base.py +295 -0
alita_sdk/community/inventory/parsers/csharp_parser.py +907 -0
alita_sdk/community/inventory/parsers/go_parser.py +851 -0
alita_sdk/community/inventory/parsers/html_parser.py +389 -0
alita_sdk/community/inventory/parsers/java_parser.py +593 -0
alita_sdk/community/inventory/parsers/javascript_parser.py +629 -0
alita_sdk/community/inventory/parsers/kotlin_parser.py +768 -0
alita_sdk/community/inventory/parsers/markdown_parser.py +362 -0
alita_sdk/community/inventory/parsers/python_parser.py +604 -0
alita_sdk/community/inventory/parsers/rust_parser.py +858 -0
alita_sdk/community/inventory/parsers/swift_parser.py +832 -0
alita_sdk/community/inventory/parsers/text_parser.py +322 -0
alita_sdk/community/inventory/parsers/yaml_parser.py +370 -0
alita_sdk/community/inventory/patterns/__init__.py +61 -0
alita_sdk/community/inventory/patterns/ast_adapter.py +380 -0
alita_sdk/community/inventory/patterns/loader.py +348 -0
alita_sdk/community/inventory/patterns/registry.py +198 -0
alita_sdk/community/inventory/presets.py +535 -0
alita_sdk/community/inventory/retrieval.py +1403 -0
alita_sdk/community/inventory/toolkit.py +173 -0
alita_sdk/community/inventory/toolkit_utils.py +176 -0
alita_sdk/community/inventory/visualize.py +1370 -0
alita_sdk/configurations/__init__.py +11 -0
alita_sdk/configurations/ado.py +148 -2
alita_sdk/configurations/azure_search.py +1 -1
alita_sdk/configurations/bigquery.py +1 -1
alita_sdk/configurations/bitbucket.py +94 -2
alita_sdk/configurations/browser.py +18 -0
alita_sdk/configurations/carrier.py +19 -0
alita_sdk/configurations/confluence.py +130 -1
alita_sdk/configurations/delta_lake.py +1 -1
alita_sdk/configurations/figma.py +76 -5
alita_sdk/configurations/github.py +65 -1
alita_sdk/configurations/gitlab.py +81 -0
alita_sdk/configurations/google_places.py +17 -0
alita_sdk/configurations/jira.py +103 -0
alita_sdk/configurations/openapi.py +111 -0
alita_sdk/configurations/postman.py +1 -1
alita_sdk/configurations/qtest.py +72 -3
alita_sdk/configurations/report_portal.py +115 -0
alita_sdk/configurations/salesforce.py +19 -0
alita_sdk/configurations/service_now.py +1 -12
alita_sdk/configurations/sharepoint.py +167 -0
alita_sdk/configurations/sonar.py +18 -0
alita_sdk/configurations/sql.py +20 -0
alita_sdk/configurations/testio.py +101 -0
alita_sdk/configurations/testrail.py +88 -0
alita_sdk/configurations/xray.py +94 -1
alita_sdk/configurations/zephyr_enterprise.py +94 -1
alita_sdk/configurations/zephyr_essential.py +95 -0
alita_sdk/runtime/clients/artifact.py +21 -4
alita_sdk/runtime/clients/client.py +458 -67
alita_sdk/runtime/clients/mcp_discovery.py +342 -0
alita_sdk/runtime/clients/mcp_manager.py +262 -0
alita_sdk/runtime/clients/sandbox_client.py +352 -0
alita_sdk/runtime/langchain/_constants_bkup.py +1318 -0
alita_sdk/runtime/langchain/assistant.py +183 -43
alita_sdk/runtime/langchain/constants.py +647 -1
alita_sdk/runtime/langchain/document_loaders/AlitaDocxMammothLoader.py +315 -3
alita_sdk/runtime/langchain/document_loaders/AlitaExcelLoader.py +209 -31
alita_sdk/runtime/langchain/document_loaders/AlitaImageLoader.py +1 -1
alita_sdk/runtime/langchain/document_loaders/AlitaJSONLinesLoader.py +77 -0
alita_sdk/runtime/langchain/document_loaders/AlitaJSONLoader.py +10 -3
alita_sdk/runtime/langchain/document_loaders/AlitaMarkdownLoader.py +66 -0
alita_sdk/runtime/langchain/document_loaders/AlitaPDFLoader.py +79 -10
alita_sdk/runtime/langchain/document_loaders/AlitaPowerPointLoader.py +52 -15
alita_sdk/runtime/langchain/document_loaders/AlitaPythonLoader.py +9 -0
alita_sdk/runtime/langchain/document_loaders/AlitaTableLoader.py +1 -4
alita_sdk/runtime/langchain/document_loaders/AlitaTextLoader.py +15 -2
alita_sdk/runtime/langchain/document_loaders/ImageParser.py +30 -0
alita_sdk/runtime/langchain/document_loaders/constants.py +189 -41
alita_sdk/runtime/langchain/interfaces/llm_processor.py +4 -2
alita_sdk/runtime/langchain/langraph_agent.py +407 -92
alita_sdk/runtime/langchain/utils.py +102 -8
alita_sdk/runtime/llms/preloaded.py +2 -6
alita_sdk/runtime/models/mcp_models.py +61 -0
alita_sdk/runtime/skills/__init__.py +91 -0
alita_sdk/runtime/skills/callbacks.py +498 -0
alita_sdk/runtime/skills/discovery.py +540 -0
alita_sdk/runtime/skills/executor.py +610 -0
alita_sdk/runtime/skills/input_builder.py +371 -0
alita_sdk/runtime/skills/models.py +330 -0
alita_sdk/runtime/skills/registry.py +355 -0
alita_sdk/runtime/skills/skill_runner.py +330 -0
alita_sdk/runtime/toolkits/__init__.py +28 -0
alita_sdk/runtime/toolkits/application.py +14 -4
alita_sdk/runtime/toolkits/artifact.py +24 -9
alita_sdk/runtime/toolkits/datasource.py +13 -6
alita_sdk/runtime/toolkits/mcp.py +780 -0
alita_sdk/runtime/toolkits/planning.py +178 -0
alita_sdk/runtime/toolkits/skill_router.py +238 -0
alita_sdk/runtime/toolkits/subgraph.py +11 -6
alita_sdk/runtime/toolkits/tools.py +314 -70
alita_sdk/runtime/toolkits/vectorstore.py +11 -5
alita_sdk/runtime/tools/__init__.py +24 -0
alita_sdk/runtime/tools/application.py +16 -4
alita_sdk/runtime/tools/artifact.py +367 -33
alita_sdk/runtime/tools/data_analysis.py +183 -0
alita_sdk/runtime/tools/function.py +100 -4
alita_sdk/runtime/tools/graph.py +81 -0
alita_sdk/runtime/tools/image_generation.py +218 -0
alita_sdk/runtime/tools/llm.py +1013 -177
alita_sdk/runtime/tools/loop.py +3 -1
alita_sdk/runtime/tools/loop_output.py +3 -1
alita_sdk/runtime/tools/mcp_inspect_tool.py +284 -0
alita_sdk/runtime/tools/mcp_remote_tool.py +181 -0
alita_sdk/runtime/tools/mcp_server_tool.py +3 -1
alita_sdk/runtime/tools/planning/__init__.py +36 -0
alita_sdk/runtime/tools/planning/models.py +246 -0
alita_sdk/runtime/tools/planning/wrapper.py +607 -0
alita_sdk/runtime/tools/router.py +2 -1
alita_sdk/runtime/tools/sandbox.py +375 -0
alita_sdk/runtime/tools/skill_router.py +776 -0
alita_sdk/runtime/tools/tool.py +3 -1
alita_sdk/runtime/tools/vectorstore.py +69 -65
alita_sdk/runtime/tools/vectorstore_base.py +163 -90
alita_sdk/runtime/utils/AlitaCallback.py +137 -21
alita_sdk/runtime/utils/mcp_client.py +492 -0
alita_sdk/runtime/utils/mcp_oauth.py +361 -0
alita_sdk/runtime/utils/mcp_sse_client.py +434 -0
alita_sdk/runtime/utils/mcp_tools_discovery.py +124 -0
alita_sdk/runtime/utils/streamlit.py +41 -14
alita_sdk/runtime/utils/toolkit_utils.py +28 -9
alita_sdk/runtime/utils/utils.py +48 -0
alita_sdk/tools/__init__.py +135 -37
alita_sdk/tools/ado/__init__.py +2 -2
alita_sdk/tools/ado/repos/__init__.py +15 -19
alita_sdk/tools/ado/repos/repos_wrapper.py +12 -20
alita_sdk/tools/ado/test_plan/__init__.py +26 -8
alita_sdk/tools/ado/test_plan/test_plan_wrapper.py +56 -28
alita_sdk/tools/ado/wiki/__init__.py +27 -12
alita_sdk/tools/ado/wiki/ado_wrapper.py +114 -40
alita_sdk/tools/ado/work_item/__init__.py +27 -12
alita_sdk/tools/ado/work_item/ado_wrapper.py +95 -11
alita_sdk/tools/advanced_jira_mining/__init__.py +12 -8
alita_sdk/tools/aws/delta_lake/__init__.py +14 -11
alita_sdk/tools/aws/delta_lake/tool.py +5 -1
alita_sdk/tools/azure_ai/search/__init__.py +13 -8
alita_sdk/tools/base/tool.py +5 -1
alita_sdk/tools/base_indexer_toolkit.py +454 -110
alita_sdk/tools/bitbucket/__init__.py +27 -19
alita_sdk/tools/bitbucket/api_wrapper.py +285 -27
alita_sdk/tools/bitbucket/cloud_api_wrapper.py +5 -5
alita_sdk/tools/browser/__init__.py +41 -16
alita_sdk/tools/browser/crawler.py +3 -1
alita_sdk/tools/browser/utils.py +15 -6
alita_sdk/tools/carrier/__init__.py +18 -17
alita_sdk/tools/carrier/backend_reports_tool.py +8 -4
alita_sdk/tools/carrier/excel_reporter.py +8 -4
alita_sdk/tools/chunkers/__init__.py +3 -1
alita_sdk/tools/chunkers/code/codeparser.py +1 -1
alita_sdk/tools/chunkers/sematic/json_chunker.py +2 -1
alita_sdk/tools/chunkers/sematic/markdown_chunker.py +97 -6
alita_sdk/tools/chunkers/sematic/proposal_chunker.py +1 -1
alita_sdk/tools/chunkers/universal_chunker.py +270 -0
alita_sdk/tools/cloud/aws/__init__.py +11 -7
alita_sdk/tools/cloud/azure/__init__.py +11 -7
alita_sdk/tools/cloud/gcp/__init__.py +11 -7
alita_sdk/tools/cloud/k8s/__init__.py +11 -7
alita_sdk/tools/code/linter/__init__.py +9 -8
alita_sdk/tools/code/loaders/codesearcher.py +3 -2
alita_sdk/tools/code/sonar/__init__.py +20 -13
alita_sdk/tools/code_indexer_toolkit.py +199 -0
alita_sdk/tools/confluence/__init__.py +21 -14
alita_sdk/tools/confluence/api_wrapper.py +197 -58
alita_sdk/tools/confluence/loader.py +14 -2
alita_sdk/tools/custom_open_api/__init__.py +11 -5
alita_sdk/tools/elastic/__init__.py +10 -8
alita_sdk/tools/elitea_base.py +546 -64
alita_sdk/tools/figma/__init__.py +11 -8
alita_sdk/tools/figma/api_wrapper.py +352 -153
alita_sdk/tools/github/__init__.py +17 -17
alita_sdk/tools/github/api_wrapper.py +9 -26
alita_sdk/tools/github/github_client.py +81 -12
alita_sdk/tools/github/schemas.py +2 -1
alita_sdk/tools/github/tool.py +5 -1
alita_sdk/tools/gitlab/__init__.py +18 -13
alita_sdk/tools/gitlab/api_wrapper.py +224 -80
alita_sdk/tools/gitlab_org/__init__.py +13 -10
alita_sdk/tools/google/bigquery/__init__.py +13 -13
alita_sdk/tools/google/bigquery/tool.py +5 -1
alita_sdk/tools/google_places/__init__.py +20 -11
alita_sdk/tools/jira/__init__.py +21 -11
alita_sdk/tools/jira/api_wrapper.py +315 -168
alita_sdk/tools/keycloak/__init__.py +10 -8
alita_sdk/tools/localgit/__init__.py +8 -3
alita_sdk/tools/localgit/local_git.py +62 -54
alita_sdk/tools/localgit/tool.py +5 -1
alita_sdk/tools/memory/__init__.py +38 -14
alita_sdk/tools/non_code_indexer_toolkit.py +7 -2
alita_sdk/tools/ocr/__init__.py +10 -8
alita_sdk/tools/openapi/__init__.py +281 -108
alita_sdk/tools/openapi/api_wrapper.py +883 -0
alita_sdk/tools/openapi/tool.py +20 -0
alita_sdk/tools/pandas/__init__.py +18 -11
alita_sdk/tools/pandas/api_wrapper.py +40 -45
alita_sdk/tools/pandas/dataframe/generator/base.py +3 -1
alita_sdk/tools/postman/__init__.py +10 -11
alita_sdk/tools/postman/api_wrapper.py +19 -8
alita_sdk/tools/postman/postman_analysis.py +8 -1
alita_sdk/tools/pptx/__init__.py +10 -10
alita_sdk/tools/qtest/__init__.py +21 -14
alita_sdk/tools/qtest/api_wrapper.py +1784 -88
alita_sdk/tools/rally/__init__.py +12 -10
alita_sdk/tools/report_portal/__init__.py +22 -16
alita_sdk/tools/salesforce/__init__.py +21 -16
alita_sdk/tools/servicenow/__init__.py +20 -16
alita_sdk/tools/servicenow/api_wrapper.py +1 -1
alita_sdk/tools/sharepoint/__init__.py +16 -14
alita_sdk/tools/sharepoint/api_wrapper.py +179 -39
alita_sdk/tools/sharepoint/authorization_helper.py +191 -1
alita_sdk/tools/sharepoint/utils.py +8 -2
alita_sdk/tools/slack/__init__.py +11 -7
alita_sdk/tools/sql/__init__.py +21 -19
alita_sdk/tools/sql/api_wrapper.py +71 -23
alita_sdk/tools/testio/__init__.py +20 -13
alita_sdk/tools/testrail/__init__.py +12 -11
alita_sdk/tools/testrail/api_wrapper.py +214 -46
alita_sdk/tools/utils/__init__.py +28 -4
alita_sdk/tools/utils/content_parser.py +182 -62
alita_sdk/tools/utils/text_operations.py +254 -0
alita_sdk/tools/vector_adapters/VectorStoreAdapter.py +83 -27
alita_sdk/tools/xray/__init__.py +17 -14
alita_sdk/tools/xray/api_wrapper.py +58 -113
alita_sdk/tools/yagmail/__init__.py +8 -3
alita_sdk/tools/zephyr/__init__.py +11 -7
alita_sdk/tools/zephyr_enterprise/__init__.py +15 -9
alita_sdk/tools/zephyr_enterprise/api_wrapper.py +30 -15
alita_sdk/tools/zephyr_essential/__init__.py +15 -10
alita_sdk/tools/zephyr_essential/api_wrapper.py +297 -54
alita_sdk/tools/zephyr_essential/client.py +6 -4
alita_sdk/tools/zephyr_scale/__init__.py +12 -8
alita_sdk/tools/zephyr_scale/api_wrapper.py +39 -31
alita_sdk/tools/zephyr_squad/__init__.py +11 -7
{alita_sdk-0.3.257.dist-info → alita_sdk-0.3.562.dist-info}/METADATA +184 -37
alita_sdk-0.3.562.dist-info/RECORD +450 -0
alita_sdk-0.3.562.dist-info/entry_points.txt +2 -0
alita_sdk/tools/bitbucket/tools.py +0 -304
alita_sdk-0.3.257.dist-info/RECORD +0 -343
{alita_sdk-0.3.257.dist-info → alita_sdk-0.3.562.dist-info}/WHEEL +0 -0
{alita_sdk-0.3.257.dist-info → alita_sdk-0.3.562.dist-info}/licenses/LICENSE +0 -0
{alita_sdk-0.3.257.dist-info → alita_sdk-0.3.562.dist-info}/top_level.txt +0 -0

alita_sdk/runtime/langchain/document_loaders/AlitaJSONLinesLoader.py ADDED Viewed

@@ -0,0 +1,77 @@
+from .AlitaJSONLoader import AlitaJSONLoader
+import json
+from io import StringIO
+from typing import List, Iterator
+from langchain_core.documents import Document
+from langchain_core.tools import ToolException
+class AlitaJSONLinesLoader(AlitaJSONLoader):
+    """Load local JSONL files (one JSON object per line) using AlitaJSONLoader behavior.
+    Behavior:
+    - Supports both `file_path` and `file_content` (bytes or file-like object), same as AlitaJSONLoader.
+    - Treats each non-empty line as an independent JSON object.
+    - Aggregates all parsed JSON objects into a list and feeds them through the same
+      RecursiveJsonSplitter-based chunking used by AlitaJSONLoader.lazy_load.
+    - Returns a list of Documents with chunked JSON content.
+    """
+    def __init__(self, **kwargs):
+        # Reuse AlitaJSONLoader initialization logic (file_path / file_content handling, encoding, etc.)
+        super().__init__(**kwargs)
+    def _iter_lines(self) -> Iterator[str]:
+        """Yield lines from file_path or file_content, mirroring AlitaJSONLoader sources."""
+        # Prefer file_path if available
+        if hasattr(self, "file_path") and self.file_path:
+            with open(self.file_path, "r", encoding=self.encoding) as f:
+                for line in f:
+                    yield line
+        # Fallback to file_content if available
+        elif hasattr(self, "file_content") and self.file_content:
+            # file_content may be bytes or a file-like object
+            if isinstance(self.file_content, (bytes, bytearray)):
+                text = self.file_content.decode(self.encoding)
+                for line in StringIO(text):
+                    yield line
+            else:
+                # Assume it's a text file-like object positioned at the beginning
+                self.file_content.seek(0)
+                for line in self.file_content:
+                    yield line
+        else:
+            raise ToolException("'file_path' or 'file_content' parameter should be provided.")
+    def load(self) -> List[Document]:  # type: ignore[override]
+        """Load JSONL content by delegating each non-empty line to AlitaJSONLoader.
+        For each non-empty line in the underlying source (file_path or file_content):
+        - Create a temporary AlitaJSONLoader instance with that line as file_content.
+        - Call lazy_load() on that instance to apply the same RecursiveJsonSplitter logic
+          as for a normal JSON file.
+        - Accumulate all Documents from all lines and return them as a single list.
+        """
+        docs: List[Document] = []
+        for raw_line in self._iter_lines():
+            line = raw_line.strip()
+            if not line:
+                continue
+            try:
+                # Instantiate a per-line AlitaJSONLoader using the same configuration
+                line_loader = AlitaJSONLoader(
+                    file_content=line,
+                    file_name=getattr(self, "file_name", str(getattr(self, "file_path", "no_name"))),
+                    encoding=self.encoding,
+                    autodetect_encoding=self.autodetect_encoding,
+                    max_tokens=self.max_tokens,
+                )
+                for doc in line_loader.lazy_load():
+                    docs.append(doc)
+            except Exception as e:
+                raise ToolException(f"Error processing JSONL line: {line[:100]}... Error: {e}") from e
+        return docs

alita_sdk/runtime/langchain/document_loaders/AlitaJSONLoader.py CHANGED Viewed

@@ -30,7 +30,12 @@ class AlitaJSONLoader(BaseLoader):
                 with open(self.file_path, encoding=self.encoding) as f:
                     return json.load(f)
             elif hasattr(self, 'file_content') and self.file_content:
-                return json.load(self.file_content)
+                if isinstance(self.file_content, bytes):
+                    return json.loads(self.file_content.decode(self.encoding))
+                elif isinstance(self.file_content, str):
+                    return json.loads(self.file_content)
+                else:
+                    return json.load(self.file_content)
             else:
                 raise ValueError("Neither file_path nor file_content is provided.")
@@ -42,7 +47,6 @@ class AlitaJSONLoader(BaseLoader):
                         try:
                             with open(self.file_path, encoding=encoding.encoding) as f:
                                 return f.read()
-                            break
                         except UnicodeDecodeError:
                             continue
                 elif hasattr(self, 'file_content') and self.file_content:
@@ -68,6 +72,9 @@ class AlitaJSONLoader(BaseLoader):
         else:
             data_dict = content_json
         chunks = RecursiveJsonSplitter(max_chunk_size=self.max_tokens).split_json(json_data=data_dict)
+        chunk_id = 1
         for chunk in chunks:
-            metadata = {"source": str(self.file_path) if hasattr(self, 'file_path') else self.file_name}
+            metadata = {"source": str(self.file_path) if hasattr(self, 'file_path') else self.file_name,
+                        "chunk_id": chunk_id}
+            chunk_id+=1
             yield Document(page_content=json.dumps(chunk), metadata=metadata)

alita_sdk/runtime/langchain/document_loaders/AlitaMarkdownLoader.py ADDED Viewed

@@ -0,0 +1,66 @@
+from pathlib import Path
+from typing import Any, List, Union, Generator, Iterator
+from langchain_core.documents import Document
+from langchain_community.document_loaders.unstructured import (
+    UnstructuredFileLoader,
+    validate_unstructured_version,
+)
+class AlitaMarkdownLoader(UnstructuredFileLoader):
+    def __init__(
+        self,
+        file_path: Union[str, Path],
+        mode: str = "elements",
+        chunker_config: dict = None,
+        **unstructured_kwargs: Any,
+    ):
+        """
+        Args:
+            file_path: The path to the Markdown file to load.
+            mode: The mode to use when loading the file. Can be one of "single",
+                "multi", or "all". Default is "single".
+            chunker_config: Configuration dictionary for the markdown chunker.
+            **unstructured_kwargs: Any kwargs to pass to the unstructured.
+        """
+        file_path = str(file_path)
+        validate_unstructured_version("0.4.16")
+        self.chunker_config = chunker_config or {
+            "strip_header": False,
+            "return_each_line": False,
+            "headers_to_split_on": [],
+            "max_tokens": 512,
+            "token_overlap": 10,
+        }
+        super().__init__(file_path=file_path, mode=mode, **unstructured_kwargs)
+    def _file_content_generator(self) -> Generator[Document, None, None]:
+        """
+        Creates a generator that yields a single Document object
+        representing the entire content of the Markdown file.
+        """
+        with open(self.file_path, "r", encoding="utf-8") as file:
+            content = file.read()
+        yield Document(page_content=content, metadata={"source": self.file_path})
+    def _get_elements(self) -> List[Document]:
+        """
+        Processes the Markdown file using the markdown_chunker and returns the chunks.
+        """
+        from alita_sdk.tools.chunkers.sematic.markdown_chunker import markdown_chunker
+        # Create a generator for the file content
+        file_content_generator = self._file_content_generator()
+        # Use the markdown_chunker to process the content
+        chunks = markdown_chunker(file_content_generator, config=self.chunker_config)
+        # Convert the generator to a list of Document objects
+        return list(chunks)
+    def lazy_load(self) -> Iterator[Document]:
+        """Load file."""
+        elements = self._get_elements()
+        self._post_process_elements(elements)
+        yield from elements

alita_sdk/runtime/langchain/document_loaders/AlitaPDFLoader.py CHANGED Viewed

@@ -1,5 +1,8 @@
 import pymupdf
-from langchain_community.document_loaders import PyPDFLoader
+import fitz
+from langchain_community.document_loaders import PyPDFium2Loader
+from .ImageParser import ImageParser
 from .utils import perform_llm_prediction_for_image_bytes, create_temp_file
 from langchain_core.tools import ToolException
@@ -20,6 +23,7 @@ class AlitaPDFLoader:
         self.headers = kwargs.get('headers', None)
         self.extraction_mode = kwargs.get('extraction_mode', "plain")
         self.extraction_kwargs = kwargs.get('extraction_kwargs', None)
+        self.images_parser=ImageParser(llm=self.llm, prompt=self.prompt)
     def get_content(self):
         if hasattr(self, 'file_path'):
@@ -41,8 +45,59 @@ class AlitaPDFLoader:
         return text_content
     def read_pdf_page(self, report, page, index):
-        text_content = f'Page: {index}\n'
-        text_content += page.get_text()
+        # Extract text in block format (to more accurately match hyperlinks to text)
+        text_blocks = page.get_text("blocks")  # Returns a list of text blocks
+        words = page.get_text("words")  # Returns words with their coordinates
+        # Extract hyperlinks
+        links = page.get_links()
+        # Create a list to store the modified text
+        modified_text = []
+        for block in text_blocks:
+            block_rect = fitz.Rect(block[:4])  # Coordinates of the text block
+            block_text = block[4]  # The actual text of the block
+            # Check if there are hyperlinks intersecting with this text block
+            for link in links:
+                if "uri" in link:  # Ensure this is a hyperlink
+                    link_rect = link["from"]  # Coordinates of the hyperlink area
+                    link_uri = link["uri"]  # The URL of the hyperlink
+                    # Expand the hyperlink area slightly to account for inaccuracies
+                    link_rect = fitz.Rect(
+                        link_rect.x0 - 1, link_rect.y0 - 1, link_rect.x1 + 1, link_rect.y1 + 1
+                    )
+                    # Find words that are inside the hyperlink area
+                    link_text = []
+                    for word in words:
+                        word_rect = fitz.Rect(word[:4])  # Coordinates of the word
+                        word_text = word[4]
+                        # Check if the word rectangle is fully inside the hyperlink rectangle
+                        if link_rect.contains(word_rect):
+                            link_text.append(word_text)
+                        # If the word partially intersects, check vertical alignment
+                        elif link_rect.intersects(word_rect):
+                            # Condition: The word must be on the same line as the hyperlink
+                            if abs(link_rect.y0 - word_rect.y0) < 2 and abs(link_rect.y1 - word_rect.y1) < 2:
+                                link_text.append(word_text)
+                    # Format the hyperlink in Markdown
+                    full_text = " ".join(link_text) if link_text else "No text"
+                    hyperlink = f"[{full_text}]({link_uri})"
+                    # Replace the hyperlink text in the block with the formatted hyperlink
+                    block_text = block_text.replace(full_text, hyperlink)
+            # Add the processed text block to the result
+            modified_text.append(block_text)
+        # Combine all text blocks into the final text for the page
+        text_content = f'Page: {index}\n' + "\n".join(modified_text)
         if self.extract_images:
             images = page.get_images(full=True)
             for i, img in enumerate(images):
@@ -54,10 +109,24 @@ class AlitaPDFLoader:
     def load(self):
         if not hasattr(self, 'file_path'):
-            self.file_path = create_temp_file(self.file_content)
-        return PyPDFLoader(file_path=self.file_path,
-                           password=self.password,
-                           headers=self.headers,
-                           extract_images=self.extract_images,
-                           extraction_mode=self.extraction_mode,
-                           extraction_kwargs=self.extraction_kwargs).load()
+            import tempfile
+            with tempfile.NamedTemporaryFile(mode='w+b', delete=True, suffix=".pdf") as temp_file:
+                temp_file.write(self.file_content)
+                temp_file.flush()
+                self.file_path = temp_file.name
+                return self._load_docs()
+        else:
+            return self._load_docs()
+    def _load_docs(self):
+        docs = PyPDFium2Loader(
+                file_path = self.file_path,
+                password=self.password,
+                headers=self.headers,
+                extract_images = self.extract_images,
+                images_parser = ImageParser(llm=self.llm, prompt=self.prompt),
+            ).load()
+        for doc in docs:
+            doc.metadata['chunk_id'] = doc.metadata['page']
+        return docs

alita_sdk/runtime/langchain/document_loaders/AlitaPowerPointLoader.py CHANGED Viewed

@@ -1,10 +1,10 @@
 import io
-from langchain_community.document_loaders import UnstructuredPowerPointLoader
 from langchain_core.tools import ToolException
 from pptx import Presentation
 from .utils import perform_llm_prediction_for_image_bytes, create_temp_file
 from pptx.enum.shapes import MSO_SHAPE_TYPE
+from langchain_core.documents import Document
 class AlitaPowerPointLoader:
@@ -22,33 +22,70 @@ class AlitaPowerPointLoader:
         self.extract_images = unstructured_kwargs.get('extract_images', False)
         self.llm = unstructured_kwargs.get('llm', None)
         self.prompt = unstructured_kwargs.get('prompt', "Describe image")
+        self.pages_per_chunk = unstructured_kwargs.get('pages_per_chunk', 5)
     def get_content(self):
-        prs = Presentation(io.BytesIO(self.file_content))
-        text_content = ''
+        if hasattr(self, 'file_path'):
+            with open(self.file_path, 'rb') as f:
+                prs = Presentation(f)
+        elif hasattr(self, 'file_content'):
+            prs = Presentation(io.BytesIO(self.file_content))
+        pages = []
         if self.page_number is not None:
-            text_content += self.read_pptx_slide(prs.slides[self.page_number - 1], self.page_number)
+            pages.append(self.read_pptx_slide(prs.slides[self.page_number - 1], self.page_number))
         else:
             for index, slide in enumerate(prs.slides, start=1):
-                text_content += self.read_pptx_slide(slide, index)
-        return text_content
+                pages.append(self.read_pptx_slide(slide, index))
+        if self.mode == 'single':
+            return "\n".join(pages)
+        if self.mode == 'paged':
+            return pages
+        else:
+            raise ToolException(f"Unknown mode value: {self.mode}. Only 'single', 'paged' values allowed.")
     def read_pptx_slide(self, slide, index):
         text_content = f'Slide: {index}\n'
         for shape in slide.shapes:
-            if hasattr(shape, "text"):
-                text_content += shape.text + "\n"
+            if hasattr(shape, "text_frame") and shape.text_frame is not None:
+                for paragraph in shape.text_frame.paragraphs:
+                    for run in paragraph.runs:
+                        if run.hyperlink and run.hyperlink.address:
+                            link_text = run.text.strip() or "Link"
+                            link_url = run.hyperlink.address
+                            text_content += f" [{link_text}]({link_url}) "
+                        else:
+                            text_content += run.text
+                text_content += "\n"
             elif self.extract_images and shape.shape_type == MSO_SHAPE_TYPE.PICTURE:
                 try:
-                    caption = perform_llm_prediction_for_image_bytes(shape.image.blob, self.llm)
+                    caption = perform_llm_prediction_for_image_bytes(shape.image.blob, self.llm, self.prompt)
                 except:
                     caption = "unknown"
                 text_content += "\n**Image Transcript:**\n" + caption + "\n--------------------\n"
-        return text_content
+        return text_content + "\n"
     def load(self):
-        if not self.file_path:
-            self.file_path = create_temp_file(self.file_content)
-        return UnstructuredPowerPointLoader(file_path=self.file_path,
-                           mode=self.mode,
-                           **self.unstructured_kwargs).load()
+        content = self.get_content()
+        if isinstance(content, str):
+            yield Document(page_content=content, metadata={})
+        elif isinstance(content, list):
+            chunk = []
+            chunk_count = 0
+            for page_number, page in enumerate(content, start=1):
+                chunk.append(page)
+                if len(chunk) == self.pages_per_chunk:
+                    chunk_content = "\n".join(chunk)
+                    yield Document(
+                        page_content=chunk_content,
+                        metadata={"chunk_number": chunk_count + 1,
+                                  "pages_in_chunk": list(range(page_number - len(chunk) + 1, page_number + 1))}
+                    )
+                    chunk = []
+                    chunk_count += 1
+            if chunk:
+                chunk_content = "\n".join(chunk)
+                yield Document(
+                    page_content=chunk_content,
+                    metadata={"chunk_number": chunk_count + 1,
+                              "pages_in_chunk": list(range(len(content) - len(chunk) + 1, len(content) + 1))}
+                )

alita_sdk/runtime/langchain/document_loaders/AlitaPythonLoader.py ADDED Viewed

@@ -0,0 +1,9 @@
+from pathlib import Path
+from typing import Union
+from langchain_community.document_loaders.python import PythonLoader
+class AlitaPythonLoader(PythonLoader):
+    """Load `Python` files, respecting any non-default encoding if specified."""
+    def __init__(self, file_path: Union[str, Path], **kwargs):
+        super().__init__(file_path)

alita_sdk/runtime/langchain/document_loaders/AlitaTableLoader.py CHANGED Viewed

@@ -17,8 +17,6 @@ from langchain_core.documents import Document
 from typing import List, Optional, Iterator
 from json import dumps
 from .utils import cleanse_data
-from ..tools.log import print_log
 class AlitaTableLoader(BaseLoader):
     def __init__(self,
@@ -65,7 +63,7 @@ class AlitaTableLoader(BaseLoader):
                 "source": f'{self.file_path}:{idx+1}',
                 "table_source": self.file_path,
             }
-            if len(docs) == 0:
+            if len(docs) == 0 and not self.raw_content:
                 header_metadata = metadata.copy()
                 header_metadata["header"] = "true"
                 header = "\t".join([str(value) for value in row.keys()])
@@ -74,7 +72,6 @@ class AlitaTableLoader(BaseLoader):
                 docs.append(Document(page_content=row, metadata=metadata))
                 continue
             if self.json_documents:
-                # print_log(row)
                 metadata['columns'] = list(row.keys())
                 metadata['og_data'] = dumps(row)
                 docs.append(Document(page_content=self.row_processor(row), metadata=metadata))

alita_sdk/runtime/langchain/document_loaders/AlitaTextLoader.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import Iterator
+from typing import Iterator, Generator
 from langchain_core.documents import Document
@@ -6,6 +6,9 @@ from langchain_community.document_loaders.base import BaseLoader
 from langchain_community.document_loaders.helpers import detect_file_encodings
 from langchain_core.tools import ToolException
+from alita_sdk.tools.chunkers import markdown_chunker
 class AlitaTextLoader(BaseLoader):
     def __init__(self, **kwargs):
@@ -19,6 +22,8 @@ class AlitaTextLoader(BaseLoader):
             raise ToolException("'file_path' or 'file_content' parameter should be provided.")
         self.encoding = kwargs.get('encoding', 'utf-8')
         self.autodetect_encoding = kwargs.get('autodetect_encoding', False)
+        self.max_tokens=kwargs.get('max_tokens', 1024)
+        self.token_overlap = kwargs.get('token_overlap', 10)
     def get_content(self):
         text = ""
@@ -59,8 +64,16 @@ class AlitaTextLoader(BaseLoader):
         return text
+    def generate_document(self, text, metadata) -> Generator[Document, None, None]:
+        yield Document(page_content=text, metadata=metadata)
     def lazy_load(self) -> Iterator[Document]:
         """Load from file path."""
         text = self.get_content()
         metadata = {"source": str(self.file_path) if hasattr(self, 'file_path') else self.file_name}
-        yield Document(page_content=text, metadata=metadata)
+        chunks = markdown_chunker(file_content_generator=self.generate_document(text, metadata),
+                                  config={
+                                      "max_tokens": self.max_tokens,
+                                      "token_overlap": self.token_overlap
+                                  })
+        yield from chunks

alita_sdk/runtime/langchain/document_loaders/ImageParser.py ADDED Viewed

@@ -0,0 +1,30 @@
+from typing import Iterator
+from langchain_community.document_loaders.parsers.images import BaseImageBlobParser
+from langchain_core.documents import Document
+from langchain_core.documents.base import Blob
+from alita_sdk.runtime.langchain.document_loaders.AlitaImageLoader import AlitaImageLoader
+class ImageParser(BaseImageBlobParser):
+    def __init__(self, **kwargs):
+        self.llm = kwargs.get('llm')
+        self.prompt = kwargs.get('prompt')
+    def lazy_parse(self, blob: Blob) -> Iterator[Document]:
+        try:
+            yield from super().lazy_parse(blob)
+        except Exception:
+            yield Document(page_content="[Image: Unknown]")
+    def _analyze_image(self, img) -> str:
+        from io import BytesIO
+        byte_stream = BytesIO()
+        img.save(byte_stream, format='PNG')
+        image_bytes = byte_stream.getvalue()
+        try:
+            return AlitaImageLoader(file_content=image_bytes, file_name="image.png", prompt=self.prompt, llm=self.llm).get_content()
+        except Exception:
+            return "Image: unknown"

alita-sdk 0.3.257__py3-none-any.whl → 0.3.562__py3-none-any.whl

alita-sdk 0.3.257py3-none-any.whl → 0.3.562py3-none-any.whl