PyPI - alita-sdk - Versions diffs - 0.3.462__py3-none-any.whl → 0.3.627__py3-none-any.whl - Mend

alita-sdk 0.3.462py3-none-any.whl → 0.3.627py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (261) hide show

alita_sdk/cli/agent/__init__.py +5 -0
alita_sdk/cli/agent/default.py +258 -0
alita_sdk/cli/agent_executor.py +15 -3
alita_sdk/cli/agent_loader.py +56 -8
alita_sdk/cli/agent_ui.py +93 -31
alita_sdk/cli/agents.py +2274 -230
alita_sdk/cli/callbacks.py +96 -25
alita_sdk/cli/cli.py +10 -1
alita_sdk/cli/config.py +162 -9
alita_sdk/cli/context/__init__.py +30 -0
alita_sdk/cli/context/cleanup.py +198 -0
alita_sdk/cli/context/manager.py +731 -0
alita_sdk/cli/context/message.py +285 -0
alita_sdk/cli/context/strategies.py +289 -0
alita_sdk/cli/context/token_estimation.py +127 -0
alita_sdk/cli/input_handler.py +419 -0
alita_sdk/cli/inventory.py +1073 -0
alita_sdk/cli/testcases/__init__.py +94 -0
alita_sdk/cli/testcases/data_generation.py +119 -0
alita_sdk/cli/testcases/discovery.py +96 -0
alita_sdk/cli/testcases/executor.py +84 -0
alita_sdk/cli/testcases/logger.py +85 -0
alita_sdk/cli/testcases/parser.py +172 -0
alita_sdk/cli/testcases/prompts.py +91 -0
alita_sdk/cli/testcases/reporting.py +125 -0
alita_sdk/cli/testcases/setup.py +108 -0
alita_sdk/cli/testcases/test_runner.py +282 -0
alita_sdk/cli/testcases/utils.py +39 -0
alita_sdk/cli/testcases/validation.py +90 -0
alita_sdk/cli/testcases/workflow.py +196 -0
alita_sdk/cli/toolkit.py +14 -17
alita_sdk/cli/toolkit_loader.py +35 -5
alita_sdk/cli/tools/__init__.py +36 -2
alita_sdk/cli/tools/approval.py +224 -0
alita_sdk/cli/tools/filesystem.py +910 -64
alita_sdk/cli/tools/planning.py +389 -0
alita_sdk/cli/tools/terminal.py +414 -0
alita_sdk/community/__init__.py +72 -12
alita_sdk/community/inventory/__init__.py +236 -0
alita_sdk/community/inventory/config.py +257 -0
alita_sdk/community/inventory/enrichment.py +2137 -0
alita_sdk/community/inventory/extractors.py +1469 -0
alita_sdk/community/inventory/ingestion.py +3172 -0
alita_sdk/community/inventory/knowledge_graph.py +1457 -0
alita_sdk/community/inventory/parsers/__init__.py +218 -0
alita_sdk/community/inventory/parsers/base.py +295 -0
alita_sdk/community/inventory/parsers/csharp_parser.py +907 -0
alita_sdk/community/inventory/parsers/go_parser.py +851 -0
alita_sdk/community/inventory/parsers/html_parser.py +389 -0
alita_sdk/community/inventory/parsers/java_parser.py +593 -0
alita_sdk/community/inventory/parsers/javascript_parser.py +629 -0
alita_sdk/community/inventory/parsers/kotlin_parser.py +768 -0
alita_sdk/community/inventory/parsers/markdown_parser.py +362 -0
alita_sdk/community/inventory/parsers/python_parser.py +604 -0
alita_sdk/community/inventory/parsers/rust_parser.py +858 -0
alita_sdk/community/inventory/parsers/swift_parser.py +832 -0
alita_sdk/community/inventory/parsers/text_parser.py +322 -0
alita_sdk/community/inventory/parsers/yaml_parser.py +370 -0
alita_sdk/community/inventory/patterns/__init__.py +61 -0
alita_sdk/community/inventory/patterns/ast_adapter.py +380 -0
alita_sdk/community/inventory/patterns/loader.py +348 -0
alita_sdk/community/inventory/patterns/registry.py +198 -0
alita_sdk/community/inventory/presets.py +535 -0
alita_sdk/community/inventory/retrieval.py +1403 -0
alita_sdk/community/inventory/toolkit.py +173 -0
alita_sdk/community/inventory/toolkit_utils.py +176 -0
alita_sdk/community/inventory/visualize.py +1370 -0
alita_sdk/configurations/__init__.py +1 -1
alita_sdk/configurations/ado.py +141 -20
alita_sdk/configurations/bitbucket.py +0 -3
alita_sdk/configurations/confluence.py +76 -42
alita_sdk/configurations/figma.py +76 -0
alita_sdk/configurations/gitlab.py +17 -5
alita_sdk/configurations/openapi.py +329 -0
alita_sdk/configurations/qtest.py +72 -1
alita_sdk/configurations/report_portal.py +96 -0
alita_sdk/configurations/sharepoint.py +148 -0
alita_sdk/configurations/testio.py +83 -0
alita_sdk/runtime/clients/artifact.py +3 -3
alita_sdk/runtime/clients/client.py +353 -48
alita_sdk/runtime/clients/sandbox_client.py +0 -21
alita_sdk/runtime/langchain/_constants_bkup.py +1318 -0
alita_sdk/runtime/langchain/assistant.py +123 -26
alita_sdk/runtime/langchain/constants.py +642 -1
alita_sdk/runtime/langchain/document_loaders/AlitaExcelLoader.py +103 -60
alita_sdk/runtime/langchain/document_loaders/AlitaJSONLinesLoader.py +77 -0
alita_sdk/runtime/langchain/document_loaders/AlitaJSONLoader.py +6 -3
alita_sdk/runtime/langchain/document_loaders/AlitaPowerPointLoader.py +226 -7
alita_sdk/runtime/langchain/document_loaders/AlitaTextLoader.py +5 -2
alita_sdk/runtime/langchain/document_loaders/constants.py +12 -7
alita_sdk/runtime/langchain/langraph_agent.py +279 -73
alita_sdk/runtime/langchain/utils.py +82 -15
alita_sdk/runtime/llms/preloaded.py +2 -6
alita_sdk/runtime/skills/__init__.py +91 -0
alita_sdk/runtime/skills/callbacks.py +498 -0
alita_sdk/runtime/skills/discovery.py +540 -0
alita_sdk/runtime/skills/executor.py +610 -0
alita_sdk/runtime/skills/input_builder.py +371 -0
alita_sdk/runtime/skills/models.py +330 -0
alita_sdk/runtime/skills/registry.py +355 -0
alita_sdk/runtime/skills/skill_runner.py +330 -0
alita_sdk/runtime/toolkits/__init__.py +7 -0
alita_sdk/runtime/toolkits/application.py +21 -9
alita_sdk/runtime/toolkits/artifact.py +15 -5
alita_sdk/runtime/toolkits/datasource.py +13 -6
alita_sdk/runtime/toolkits/mcp.py +139 -251
alita_sdk/runtime/toolkits/mcp_config.py +1048 -0
alita_sdk/runtime/toolkits/planning.py +178 -0
alita_sdk/runtime/toolkits/skill_router.py +238 -0
alita_sdk/runtime/toolkits/subgraph.py +251 -6
alita_sdk/runtime/toolkits/tools.py +238 -32
alita_sdk/runtime/toolkits/vectorstore.py +11 -5
alita_sdk/runtime/tools/__init__.py +3 -1
alita_sdk/runtime/tools/application.py +20 -6
alita_sdk/runtime/tools/artifact.py +511 -28
alita_sdk/runtime/tools/data_analysis.py +183 -0
alita_sdk/runtime/tools/function.py +43 -15
alita_sdk/runtime/tools/image_generation.py +50 -44
alita_sdk/runtime/tools/llm.py +852 -67
alita_sdk/runtime/tools/loop.py +3 -1
alita_sdk/runtime/tools/loop_output.py +3 -1
alita_sdk/runtime/tools/mcp_remote_tool.py +25 -10
alita_sdk/runtime/tools/mcp_server_tool.py +7 -6
alita_sdk/runtime/tools/planning/__init__.py +36 -0
alita_sdk/runtime/tools/planning/models.py +246 -0
alita_sdk/runtime/tools/planning/wrapper.py +607 -0
alita_sdk/runtime/tools/router.py +2 -4
alita_sdk/runtime/tools/sandbox.py +9 -6
alita_sdk/runtime/tools/skill_router.py +776 -0
alita_sdk/runtime/tools/tool.py +3 -1
alita_sdk/runtime/tools/vectorstore.py +7 -2
alita_sdk/runtime/tools/vectorstore_base.py +51 -11
alita_sdk/runtime/utils/AlitaCallback.py +137 -21
alita_sdk/runtime/utils/constants.py +5 -1
alita_sdk/runtime/utils/mcp_client.py +492 -0
alita_sdk/runtime/utils/mcp_oauth.py +202 -5
alita_sdk/runtime/utils/mcp_sse_client.py +36 -7
alita_sdk/runtime/utils/mcp_tools_discovery.py +124 -0
alita_sdk/runtime/utils/serialization.py +155 -0
alita_sdk/runtime/utils/streamlit.py +6 -10
alita_sdk/runtime/utils/toolkit_utils.py +16 -5
alita_sdk/runtime/utils/utils.py +36 -0
alita_sdk/tools/__init__.py +113 -29
alita_sdk/tools/ado/repos/__init__.py +51 -33
alita_sdk/tools/ado/repos/repos_wrapper.py +148 -89
alita_sdk/tools/ado/test_plan/__init__.py +25 -9
alita_sdk/tools/ado/test_plan/test_plan_wrapper.py +23 -1
alita_sdk/tools/ado/utils.py +1 -18
alita_sdk/tools/ado/wiki/__init__.py +25 -8
alita_sdk/tools/ado/wiki/ado_wrapper.py +291 -22
alita_sdk/tools/ado/work_item/__init__.py +26 -9
alita_sdk/tools/ado/work_item/ado_wrapper.py +56 -3
alita_sdk/tools/advanced_jira_mining/__init__.py +11 -8
alita_sdk/tools/aws/delta_lake/__init__.py +13 -9
alita_sdk/tools/aws/delta_lake/tool.py +5 -1
alita_sdk/tools/azure_ai/search/__init__.py +11 -8
alita_sdk/tools/azure_ai/search/api_wrapper.py +1 -1
alita_sdk/tools/base/tool.py +5 -1
alita_sdk/tools/base_indexer_toolkit.py +170 -45
alita_sdk/tools/bitbucket/__init__.py +17 -12
alita_sdk/tools/bitbucket/api_wrapper.py +59 -11
alita_sdk/tools/bitbucket/cloud_api_wrapper.py +49 -35
alita_sdk/tools/browser/__init__.py +5 -4
alita_sdk/tools/carrier/__init__.py +5 -6
alita_sdk/tools/carrier/backend_reports_tool.py +6 -6
alita_sdk/tools/carrier/run_ui_test_tool.py +6 -6
alita_sdk/tools/carrier/ui_reports_tool.py +5 -5
alita_sdk/tools/chunkers/__init__.py +3 -1
alita_sdk/tools/chunkers/code/treesitter/treesitter.py +37 -13
alita_sdk/tools/chunkers/sematic/json_chunker.py +1 -0
alita_sdk/tools/chunkers/sematic/markdown_chunker.py +97 -6
alita_sdk/tools/chunkers/universal_chunker.py +270 -0
alita_sdk/tools/cloud/aws/__init__.py +10 -7
alita_sdk/tools/cloud/azure/__init__.py +10 -7
alita_sdk/tools/cloud/gcp/__init__.py +10 -7
alita_sdk/tools/cloud/k8s/__init__.py +10 -7
alita_sdk/tools/code/linter/__init__.py +10 -8
alita_sdk/tools/code/loaders/codesearcher.py +3 -2
alita_sdk/tools/code/sonar/__init__.py +10 -7
alita_sdk/tools/code_indexer_toolkit.py +73 -23
alita_sdk/tools/confluence/__init__.py +21 -15
alita_sdk/tools/confluence/api_wrapper.py +78 -23
alita_sdk/tools/confluence/loader.py +4 -2
alita_sdk/tools/custom_open_api/__init__.py +12 -5
alita_sdk/tools/elastic/__init__.py +11 -8
alita_sdk/tools/elitea_base.py +493 -30
alita_sdk/tools/figma/__init__.py +58 -11
alita_sdk/tools/figma/api_wrapper.py +1235 -143
alita_sdk/tools/figma/figma_client.py +73 -0
alita_sdk/tools/figma/toon_tools.py +2748 -0
alita_sdk/tools/github/__init__.py +13 -14
alita_sdk/tools/github/github_client.py +224 -100
alita_sdk/tools/github/graphql_client_wrapper.py +119 -33
alita_sdk/tools/github/schemas.py +14 -5
alita_sdk/tools/github/tool.py +5 -1
alita_sdk/tools/github/tool_prompts.py +9 -22
alita_sdk/tools/gitlab/__init__.py +15 -11
alita_sdk/tools/gitlab/api_wrapper.py +207 -41
alita_sdk/tools/gitlab_org/__init__.py +10 -8
alita_sdk/tools/gitlab_org/api_wrapper.py +63 -64
alita_sdk/tools/google/bigquery/__init__.py +13 -12
alita_sdk/tools/google/bigquery/tool.py +5 -1
alita_sdk/tools/google_places/__init__.py +10 -8
alita_sdk/tools/google_places/api_wrapper.py +1 -1
alita_sdk/tools/jira/__init__.py +17 -11
alita_sdk/tools/jira/api_wrapper.py +91 -40
alita_sdk/tools/keycloak/__init__.py +11 -8
alita_sdk/tools/localgit/__init__.py +9 -3
alita_sdk/tools/localgit/local_git.py +62 -54
alita_sdk/tools/localgit/tool.py +5 -1
alita_sdk/tools/memory/__init__.py +11 -3
alita_sdk/tools/non_code_indexer_toolkit.py +1 -0
alita_sdk/tools/ocr/__init__.py +11 -8
alita_sdk/tools/openapi/__init__.py +490 -114
alita_sdk/tools/openapi/api_wrapper.py +1368 -0
alita_sdk/tools/openapi/tool.py +20 -0
alita_sdk/tools/pandas/__init__.py +20 -12
alita_sdk/tools/pandas/api_wrapper.py +38 -25
alita_sdk/tools/pandas/dataframe/generator/base.py +3 -1
alita_sdk/tools/postman/__init__.py +11 -11
alita_sdk/tools/pptx/__init__.py +10 -9
alita_sdk/tools/pptx/pptx_wrapper.py +1 -1
alita_sdk/tools/qtest/__init__.py +30 -10
alita_sdk/tools/qtest/api_wrapper.py +430 -13
alita_sdk/tools/rally/__init__.py +10 -8
alita_sdk/tools/rally/api_wrapper.py +1 -1
alita_sdk/tools/report_portal/__init__.py +12 -9
alita_sdk/tools/salesforce/__init__.py +10 -9
alita_sdk/tools/servicenow/__init__.py +17 -14
alita_sdk/tools/servicenow/api_wrapper.py +1 -1
alita_sdk/tools/sharepoint/__init__.py +10 -8
alita_sdk/tools/sharepoint/api_wrapper.py +4 -4
alita_sdk/tools/slack/__init__.py +10 -8
alita_sdk/tools/slack/api_wrapper.py +2 -2
alita_sdk/tools/sql/__init__.py +11 -9
alita_sdk/tools/testio/__init__.py +10 -8
alita_sdk/tools/testrail/__init__.py +11 -8
alita_sdk/tools/testrail/api_wrapper.py +1 -1
alita_sdk/tools/utils/__init__.py +9 -4
alita_sdk/tools/utils/content_parser.py +77 -3
alita_sdk/tools/utils/text_operations.py +410 -0
alita_sdk/tools/utils/tool_prompts.py +79 -0
alita_sdk/tools/vector_adapters/VectorStoreAdapter.py +17 -13
alita_sdk/tools/xray/__init__.py +12 -9
alita_sdk/tools/yagmail/__init__.py +9 -3
alita_sdk/tools/zephyr/__init__.py +9 -7
alita_sdk/tools/zephyr_enterprise/__init__.py +11 -8
alita_sdk/tools/zephyr_essential/__init__.py +10 -8
alita_sdk/tools/zephyr_essential/api_wrapper.py +30 -13
alita_sdk/tools/zephyr_essential/client.py +2 -2
alita_sdk/tools/zephyr_scale/__init__.py +11 -9
alita_sdk/tools/zephyr_scale/api_wrapper.py +2 -2
alita_sdk/tools/zephyr_squad/__init__.py +10 -8
{alita_sdk-0.3.462.dist-info → alita_sdk-0.3.627.dist-info}/METADATA +147 -7
alita_sdk-0.3.627.dist-info/RECORD +468 -0
alita_sdk-0.3.627.dist-info/entry_points.txt +2 -0
alita_sdk-0.3.462.dist-info/RECORD +0 -384
alita_sdk-0.3.462.dist-info/entry_points.txt +0 -2
{alita_sdk-0.3.462.dist-info → alita_sdk-0.3.627.dist-info}/WHEEL +0 -0
{alita_sdk-0.3.462.dist-info → alita_sdk-0.3.627.dist-info}/licenses/LICENSE +0 -0
{alita_sdk-0.3.462.dist-info → alita_sdk-0.3.627.dist-info}/top_level.txt +0 -0

alita_sdk/tools/code/sonar/__init__.py CHANGED Viewed

@@ -5,8 +5,9 @@ from pydantic import create_model, BaseModel, ConfigDict, Field
 from .api_wrapper import SonarApiWrapper
 from ...base.tool import BaseAction
 from ...elitea_base import filter_missconfigured_index_tools
-from ...utils import clean_string, TOOLKIT_SPLITTER, get_max_toolkit_length
+from ...utils import clean_string, get_max_toolkit_length
 from ....configurations.sonar import SonarConfiguration
+from ....runtime.utils.constants import TOOLKIT_NAME_META, TOOL_NAME_META, TOOLKIT_TYPE_META
 name = "sonar"
@@ -21,12 +22,10 @@ def get_tools(tool):
 class SonarToolkit(BaseToolkit):
     tools: list[BaseTool] = []
-    toolkit_max_length: int = 0
     @staticmethod
     def toolkit_config_schema() -> BaseModel:
         selected_tools = {x['name']: x['args_schema'].schema() for x in SonarApiWrapper.model_construct().get_available_tools()}
-        SonarToolkit.toolkit_max_length = get_max_toolkit_length(selected_tools)
         return create_model(
             name,
             sonar_project_name=(str, Field(description="Project name of the desired repository")),
@@ -55,15 +54,19 @@ class SonarToolkit(BaseToolkit):
         sonar_api_wrapper = SonarApiWrapper(**wrapper_payload)
         available_tools = sonar_api_wrapper.get_available_tools()
         tools = []
-        prefix = clean_string(toolkit_name, SonarToolkit.toolkit_max_length) + TOOLKIT_SPLITTER if toolkit_name else ''
         for tool in available_tools:
             if selected_tools and tool["name"] not in selected_tools:
                 continue
+            description = tool["description"]
+            if toolkit_name:
+                description = f"Toolkit: {toolkit_name}\n{description}"
+            description = description[:1000]
             tools.append(BaseAction(
                 api_wrapper=sonar_api_wrapper,
-                name=prefix + tool["name"],
-                description=tool["description"],
-                args_schema=tool["args_schema"]
+                name=tool["name"],
+                description=description,
+                args_schema=tool["args_schema"],
+                metadata={TOOLKIT_NAME_META: toolkit_name, TOOLKIT_TYPE_META: name, TOOL_NAME_META: tool["name"]} if toolkit_name else {TOOL_NAME_META: tool["name"]}
             ))
         return cls(tools=tools)

alita_sdk/tools/code_indexer_toolkit.py CHANGED Viewed

@@ -9,13 +9,13 @@ from langchain_core.tools import ToolException
 from pydantic import Field
 from alita_sdk.tools.base_indexer_toolkit import BaseIndexerToolkit
-from .chunkers.code.codeparser import parse_code_files_for_db
 logger = logging.getLogger(__name__)
 class CodeIndexerToolkit(BaseIndexerToolkit):
     def _get_indexed_data(self, index_name: str):
+        self._ensure_vectorstore_initialized()
         if not self.vector_adapter:
             raise ToolException("Vector adapter is not initialized. "
                              "Check your configuration: embedding_model and vectorstore_type.")
@@ -38,12 +38,14 @@ class CodeIndexerToolkit(BaseIndexerToolkit):
             branch: Optional[str] = None,
             whitelist: Optional[List[str]] = None,
             blacklist: Optional[List[str]] = None,
+            chunking_config: Optional[dict] = None,
             **kwargs) -> Generator[Document, None, None]:
         """Index repository files in the vector store using code parsing."""
         yield from self.loader(
             branch=branch,
             whitelist=whitelist,
-            blacklist=blacklist
+            blacklist=blacklist,
+            chunking_config=chunking_config
         )
     def _extend_data(self, documents: Generator[Document, None, None]):
@@ -66,26 +68,55 @@ class CodeIndexerToolkit(BaseIndexerToolkit):
     def loader(self,
                branch: Optional[str] = None,
                whitelist: Optional[List[str]] = None,
-               blacklist: Optional[List[str]] = None) -> Generator[Document, None, None]:
+               blacklist: Optional[List[str]] = None,
+               chunked: bool = True,
+               chunking_config: Optional[dict] = None) -> Generator[Document, None, None]:
         """
-        Generates file content from a branch, respecting whitelist and blacklist patterns.
+        Generates Documents from files in a branch, respecting whitelist and blacklist patterns.
         Parameters:
         - branch (Optional[str]): Branch for listing files. Defaults to the current branch if None.
         - whitelist (Optional[List[str]]): File extensions or paths to include. Defaults to all files if None.
         - blacklist (Optional[List[str]]): File extensions or paths to exclude. Defaults to no exclusions if None.
+        - chunked (bool): If True (default), applies universal chunker based on file type.
+                         If False, returns raw Documents without chunking.
+        - chunking_config (Optional[dict]): Chunking configuration by file extension
         Returns:
-        - generator: Yields content from files matching the whitelist but not the blacklist.
+        - generator: Yields Documents from files matching the whitelist but not the blacklist.
+                    Each document has exactly the key 'filename' in metadata, which is used as an ID
+                    for further operations (indexing, deduplication, and retrieval).
         Example:
         # Use 'feature-branch', include '.py' files, exclude 'test_' files
-        file_generator = loader(branch='feature-branch', whitelist=['*.py'], blacklist=['*test_*'])
+        for doc in loader(branch='feature-branch', whitelist=['*.py'], blacklist=['*test_*']):
+            print(doc.page_content)
         Notes:
         - Whitelist and blacklist use Unix shell-style wildcards.
         - Files must match the whitelist and not the blacklist to be included.
+        - Each document MUST have exactly the key 'filename' in metadata. This key is used as an ID
+          for further operations such as indexing, deduplication, and retrieval.
+        - When chunked=True:
+          - .md files → markdown chunker (header-based splitting)
+          - .py/.js/.ts/etc → code parser (TreeSitter-based)
+          - .json files → JSON chunker
+          - other files → default text chunker
         """
+        import hashlib
+        # Auto-include extensions from chunking_config if whitelist is specified
+        # This allows chunking config to work without manually adding extensions to whitelist
+        if chunking_config and whitelist:
+            for ext_pattern in chunking_config.keys():
+                # Normalize extension pattern (both ".cbl" and "*.cbl" should work)
+                normalized = ext_pattern if ext_pattern.startswith('*') else f'*{ext_pattern}'
+                if normalized not in whitelist:
+                    whitelist.append(normalized)
+                    self._log_tool_event(
+                        message=f"Auto-included extension '{normalized}' from chunking_config",
+                        tool_name="loader"
+                    )
         _files = self.__handle_get_files("", self.__get_branch(branch))
         self._log_tool_event(message="Listing files in branch", tool_name="loader")
@@ -103,41 +134,60 @@ class CodeIndexerToolkit(BaseIndexerToolkit):
                         or any(file_path.endswith(f'.{pattern}') for pattern in blacklist))
             return False
-        def file_content_generator():
+        def raw_document_generator() -> Generator[Document, None, None]:
+            """Yields raw Documents without chunking."""
             self._log_tool_event(message="Reading the files", tool_name="loader")
-            # log the progress of file reading
             total_files = len(_files)
+            processed = 0
             for idx, file in enumerate(_files, 1):
                 if is_whitelisted(file) and not is_blacklisted(file):
-                    # read file ONLY if it matches whitelist and does not match blacklist
                     try:
                         file_content = self._read_file(file, self.__get_branch(branch))
                     except Exception as e:
                         logger.error(f"Failed to read file {file}: {e}")
-                        file_content = ""
+                        continue
                     if not file_content:
-                        # empty file, skip
                         continue
-                    #
-                    # ensure file content is a string
+                    # Ensure file content is a string
                     if isinstance(file_content, bytes):
                         file_content = file_content.decode("utf-8", errors="ignore")
                     elif isinstance(file_content, dict) and file.endswith('.json'):
                         file_content = json.dumps(file_content)
                     elif not isinstance(file_content, str):
                         file_content = str(file_content)
-                    #
-                    # hash the file content to ensure uniqueness
-                    import hashlib
+                    # Hash the file content for uniqueness tracking
                     file_hash = hashlib.sha256(file_content.encode("utf-8")).hexdigest()
-                    yield {"file_name": file,
-                           "file_content": file_content,
-                           "commit_hash": file_hash}
+                    processed += 1
+                    yield Document(
+                        page_content=file_content,
+                        metadata={
+                            'file_path': file,
+                            'filename': file,
+                            'source': file,
+                            'commit_hash': file_hash,
+                        }
+                    )
                 if idx % 10 == 0 or idx == total_files:
-                    self._log_tool_event(message=f"{idx} out of {total_files} files have been read", tool_name="loader")
-            self._log_tool_event(message=f"{len(_files)} have been read", tool_name="loader")
-        return parse_code_files_for_db(file_content_generator())
+                    self._log_tool_event(
+                        message=f"{idx} out of {total_files} files checked, {processed} matched",
+                        tool_name="loader"
+                    )
+            self._log_tool_event(message=f"{processed} files loaded", tool_name="loader")
+        if not chunked:
+            # Return raw documents without chunking
+            return raw_document_generator()
+        # Apply universal chunker based on file type
+        from .chunkers.universal_chunker import universal_chunker
+        return universal_chunker(raw_document_generator())
     def __handle_get_files(self, path: str, branch: str):
         """

alita_sdk/tools/confluence/__init__.py CHANGED Viewed

@@ -6,14 +6,15 @@ from ..base.tool import BaseAction
 from pydantic import create_model, BaseModel, ConfigDict, Field
 from ..elitea_base import filter_missconfigured_index_tools
-from ..utils import clean_string, TOOLKIT_SPLITTER, get_max_toolkit_length, parse_list, check_connection_response
+from ..utils import clean_string, get_max_toolkit_length, parse_list, check_connection_response
 from ...configurations.confluence import ConfluenceConfiguration
 from ...configurations.pgvector import PgVectorConfiguration
 import requests
+from ...runtime.utils.constants import TOOLKIT_NAME_META, TOOL_NAME_META, TOOLKIT_TYPE_META
 name = "confluence"
-def get_tools(tool):
+def get_toolkit(tool):
     return ConfluenceToolkit().get_toolkit(
         selected_tools=tool['settings'].get('selected_tools', []),
         space=tool['settings'].get('space', None),
@@ -33,18 +34,19 @@ def get_tools(tool):
         doctype='doc',
         embedding_model=tool['settings'].get('embedding_model'),
         vectorstore_type="PGVector"
-    ).get_tools()
+    )
+def get_tools(tool):
+    return get_toolkit(tool).get_tools()
 class ConfluenceToolkit(BaseToolkit):
     tools: List[BaseTool] = []
-    toolkit_max_length: int = 0
     @staticmethod
     def toolkit_config_schema() -> BaseModel:
         selected_tools = {x['name']: x['args_schema'].schema() for x in
                           ConfluenceAPIWrapper.model_construct().get_available_tools()}
-        ConfluenceToolkit.toolkit_max_length = get_max_toolkit_length(selected_tools)
         @check_connection_response
         def check_connection(self):
@@ -69,16 +71,16 @@ class ConfluenceToolkit(BaseToolkit):
             name,
             space=(str, Field(description="Space")),
             cloud=(bool, Field(description="Hosting Option", json_schema_extra={'configuration': True})),
-            limit=(int, Field(description="Pages limit per request", default=5)),
+            limit=(int, Field(description="Pages limit per request", default=5, gt=0)),
             labels=(Optional[str], Field(
                 description="List of comma separated labels used for labeling of agent's created or updated entities",
                 default=None,
                 examples="alita,elitea;another-label"
             )),
-            max_pages=(int, Field(description="Max total pages", default=10)),
-            number_of_retries=(int, Field(description="Number of retries", default=2)),
-            min_retry_seconds=(int, Field(description="Min retry, sec", default=10)),
-            max_retry_seconds=(int, Field(description="Max retry, sec", default=60)),
+            max_pages=(int, Field(description="Max total pages", default=10, gt=0)),
+            number_of_retries=(int, Field(description="Number of retries", default=2, ge=0)),
+            min_retry_seconds=(int, Field(description="Min retry, sec", default=10, ge=0)),
+            max_retry_seconds=(int, Field(description="Max retry, sec", default=60, ge=0)),
             # optional field for custom headers as dictionary
             custom_headers=(Optional[dict], Field(description="Custom headers for API requests", default={})),
             confluence_configuration=(ConfluenceConfiguration, Field(description="Confluence Configuration", json_schema_extra={'configuration_types': ['confluence']})),
@@ -94,7 +96,6 @@ class ConfluenceToolkit(BaseToolkit):
                 'metadata': {
                     "label": "Confluence",
                     "icon_url": None,
-                    "max_length": ConfluenceToolkit.toolkit_max_length,
                     "categories": ["documentation"],
                     "extra_categories": ["confluence", "wiki", "knowledge base", "documentation", "atlassian"]
                 }
@@ -115,18 +116,23 @@ class ConfluenceToolkit(BaseToolkit):
             **(kwargs.get('pgvector_configuration') or {}),
         }
         confluence_api_wrapper = ConfluenceAPIWrapper(**wrapper_payload)
-        prefix = clean_string(toolkit_name, ConfluenceToolkit.toolkit_max_length) + TOOLKIT_SPLITTER if toolkit_name else ''
         available_tools = confluence_api_wrapper.get_available_tools()
         tools = []
         for tool in available_tools:
             if selected_tools:
                 if tool["name"] not in selected_tools:
                     continue
+            description = tool["description"]
+            if toolkit_name:
+                description = f"Toolkit: {toolkit_name}\n{description}"
+            description = f"Confluence space: {confluence_api_wrapper.space}\n{description}"
+            description = description[:1000]
             tools.append(BaseAction(
                 api_wrapper=confluence_api_wrapper,
-                name=prefix + tool["name"],
-                description=f"Confluence space: {confluence_api_wrapper.space}" + tool["description"],
-                args_schema=tool["args_schema"]
+                name=tool["name"],
+                description=description,
+                args_schema=tool["args_schema"],
+                metadata={TOOLKIT_NAME_META: toolkit_name, TOOLKIT_TYPE_META: name, TOOL_NAME_META: tool["name"]} if toolkit_name else {TOOL_NAME_META: tool["name"]}
             ))
         return cls(tools=tools)

alita_sdk/tools/confluence/api_wrapper.py CHANGED Viewed

@@ -480,21 +480,69 @@ class ConfluenceAPIWrapper(NonCodeIndexerToolkit):
         """Gets pages with specific label in the Confluence space."""
         start = 0
-        pages_info = []
-        for _ in range((self.max_pages + self.limit - 1) // self.limit):
-            pages = self.client.get_all_pages_by_label(label, start=start,
-                                                       limit=self.limit)  # , expand="body.view.value"
+        pages_info: List[Dict[str, Any]] = []
+        seen_ids: set[str] = set()
+        # Use a while-loop driven by unique pages collected and
+        # presence of additional results instead of a fixed number
+        # of iterations based purely on max_pages/limit.
+        while len(pages_info) < (self.max_pages or 0):
+            pages = self.client.get_all_pages_by_label(
+                label,
+                start=start,
+                limit=self.limit,
+            )  # , expand="body.view.value"
             if not pages:
                 break
-            pages_info += [{
-                'page_id': page.metadata['id'],
-                'page_title': page.metadata['title'],
-                'page_url': page.metadata['source'],
-                'content': page.page_content
-            } for page in self.get_pages_by_id([page["id"] for page in pages])]
+            # Collect only ids we haven't processed yet to avoid
+            # calling get_page_by_id multiple times for the same
+            # Confluence page.
+            new_ids: List[str] = []
+            for p in pages:
+                page_id = p["id"] if isinstance(p, dict) else getattr(p, "id", None)
+                if page_id is None:
+                    continue
+                if page_id in seen_ids:
+                    continue
+                seen_ids.add(page_id)
+                new_ids.append(page_id)
+            if new_ids:
+                for page in self.get_pages_by_id(new_ids):
+                    meta = getattr(page, "metadata", {}) or {}
+                    page_id = meta.get("id")
+                    page_title = meta.get("title")
+                    page_url = meta.get("source")
+                    content = getattr(page, "page_content", None)
+                    if page_id is None:
+                        continue
+                    pages_info.append(
+                        {
+                            "page_id": page_id,
+                            "page_title": page_title,
+                            "page_url": page_url,
+                            "content": content,
+                        }
+                    )
+                    # Respect max_pages on unique pages collected.
+                    if len(pages_info) >= (self.max_pages or 0):
+                        break
+            # Advance the offset by the requested page size.
             start += self.limit
-        return pages_info
+            # Defensive break: if the API returns fewer items than
+            # requested, there are likely no more pages to fetch.
+            if len(pages) < self.limit:
+                break
+        # Slice as an extra safety net in case of any race conditions
+        # around the max_pages guard in the loop above.
+        return pages_info[: (self.max_pages or len(pages_info))]
     def is_public_page(self, page: dict) -> bool:
         """Check if a page is publicly accessible."""
@@ -572,11 +620,18 @@ class ConfluenceAPIWrapper(NonCodeIndexerToolkit):
     def _process_search(self, cql, skip_images: bool = False):
         start = 0
         pages_info = []
+        seen_ids: set = set()  # Track seen page IDs to avoid duplicates
         for _ in range((self.max_pages + self.limit - 1) // self.limit):
             pages = self.client.cql(cql, start=start, limit=self.limit).get("results", [])
             if not pages:
                 break
-            page_ids = [page['content']['id'] for page in pages]
+            # Deduplicate page IDs before processing
+            page_ids = []
+            for page in pages:
+                page_id = page['content']['id']
+                if page_id not in seen_ids:
+                    seen_ids.add(page_id)
+                    page_ids.append(page_id)
             for page in self.get_pages_by_id(page_ids, skip_images):
                 page_info = {
                     'content': page.page_content,
@@ -896,14 +951,14 @@ class ConfluenceAPIWrapper(NonCodeIndexerToolkit):
                     # Re-verify extension filters
                     # Check if file should be skipped based on skip_extensions
-                    if any(re.match(pattern.replace('*', '.*') + '$', title, re.IGNORECASE)
+                    if any(re.match(re.escape(pattern).replace(r'\*', '.*') + '$', title, re.IGNORECASE)
                            for pattern in self._skip_extensions):
                         continue
                     # Check if file should be included based on include_extensions
                     # If include_extensions is empty, process all files (that weren't skipped)
                     if self._include_extensions and not (
-                    any(re.match(pattern.replace('*', '.*') + '$', title, re.IGNORECASE)
+                    any(re.match(re.escape(pattern).replace(r'\*', '.*') + '$', title, re.IGNORECASE)
                         for pattern in self._include_extensions)):
                         continue
@@ -914,6 +969,9 @@ class ConfluenceAPIWrapper(NonCodeIndexerToolkit):
                     created_date = hist.get('createdDate', '') if hist else attachment.get('created', '')
                     last_updated = hist.get('lastUpdated', {}).get('when', '') if hist else ''
+                    attachment_path = attachment['_links']['download'] if attachment.get(
+                            '_links', {}).get('download') else ''
+                    download_url = self.client.url.rstrip('/') + attachment_path
                     metadata = {
                         'name': title,
                         'size': attachment.get('extensions', {}).get('fileSize', None),
@@ -923,14 +981,10 @@ class ConfluenceAPIWrapper(NonCodeIndexerToolkit):
                         'media_type': media_type,
                         'labels': [label['name'] for label in
                                    attachment.get('metadata', {}).get('labels', {}).get('results', [])],
-                        'download_url': self.base_url.rstrip('/') + attachment['_links']['download'] if attachment.get(
-                            '_links', {}).get('download') else None
+                        'download_url': download_url
                     }
-                    download_url = self.base_url.rstrip('/') + attachment['_links']['download']
                     try:
-                        resp = self.client.request(method="GET", path=download_url[len(self.base_url):], advanced_mode=True)
+                        resp = self.client.request(method="GET", path=attachment_path, advanced_mode=True)
                         if resp.status_code == 200:
                             content = resp.content
                         else:
@@ -1683,8 +1737,8 @@ class ConfluenceAPIWrapper(NonCodeIndexerToolkit):
             "page_ids": (Optional[List[str]], Field(description="List of page IDs to retrieve.", default=None)),
             "label": (Optional[str], Field(description="Label to filter pages.", default=None)),
             "cql": (Optional[str], Field(description="CQL query to filter pages.", default=None)),
-            "limit": (Optional[int], Field(description="Limit the number of results.", default=10)),
-            "max_pages": (Optional[int], Field(description="Maximum number of pages to retrieve.", default=1000)),
+            "limit": (Optional[int], Field(description="Limit the number of results.", default=10, gt=0)),
+            "max_pages": (Optional[int], Field(description="Maximum number of pages to retrieve.", default=1000, gt=0)),
             "include_restricted_content": (Optional[bool], Field(description="Include restricted content.", default=False)),
             "include_archived_content": (Optional[bool], Field(description="Include archived content.", default=False)),
             "include_attachments": (Optional[bool], Field(description="Include attachments.", default=False)),
@@ -1820,4 +1874,5 @@ class ConfluenceAPIWrapper(NonCodeIndexerToolkit):
                 "description": self.get_page_attachments.__doc__,
                 "args_schema": GetPageAttachmentsInput,
             }
-        ]
+        ]

alita_sdk/tools/confluence/loader.py CHANGED Viewed

@@ -48,7 +48,8 @@ class AlitaConfluenceLoader(ConfluenceLoader):
                 del kwargs[key]
             except:
                 pass
-        self.base_url = kwargs.get('url')
+        # utilize adjusted URL from Confluence instance for base_url
+        self.base_url = confluence_client.url
         self.space_key = kwargs.get('space_key')
         self.page_ids = kwargs.get('page_ids')
         self.label = kwargs.get('label')
@@ -108,7 +109,8 @@ class AlitaConfluenceLoader(ConfluenceLoader):
         texts = []
         for attachment in attachments:
             media_type = attachment["metadata"]["mediaType"]
-            absolute_url = self.base_url + attachment["_links"]["download"]
+            # utilize adjusted URL from Confluence instance for attachment download URL
+            absolute_url = self.confluence.url + attachment["_links"]["download"]
             title = attachment["title"]
             try:
                 if media_type == "application/pdf":

alita_sdk/tools/custom_open_api/__init__.py CHANGED Viewed

@@ -5,7 +5,8 @@ from pydantic import create_model, BaseModel, ConfigDict, Field
 from .api_wrapper import OpenApiWrapper
 from ..base.tool import BaseAction
-from ..utils import clean_string, TOOLKIT_SPLITTER
+from ..utils import clean_string
+from ...runtime.utils.constants import TOOLKIT_NAME_META, TOOL_NAME_META, TOOLKIT_TYPE_META
 name = "openapi"
@@ -43,15 +44,21 @@ class OpenApiToolkit(BaseToolkit):
         openapi_api_wrapper = OpenApiWrapper(**kwargs)
         available_tools = openapi_api_wrapper.get_available_tools()
         tools = []
-        prefix = clean_string(toolkit_name + TOOLKIT_SPLITTER) if toolkit_name else ''
+        # Use clean toolkit name for context (max 1000 chars in description)
+        toolkit_context = f" [Toolkit: {clean_string(toolkit_name)}]" if toolkit_name else ''
         for tool in available_tools:
             if selected_tools and tool["name"] not in selected_tools:
                 continue
+            # Add toolkit context to description with character limit
+            description = tool["description"]
+            if toolkit_context and len(description + toolkit_context) <= 1000:
+                description = description + toolkit_context
             tools.append(BaseAction(
                 api_wrapper=openapi_api_wrapper,
-                name=prefix + tool["name"],
-                description=tool["description"],
-                args_schema=tool["args_schema"]
+                name=tool["name"],
+                description=description,
+                args_schema=tool["args_schema"],
+                metadata={TOOLKIT_NAME_META: toolkit_name, TOOLKIT_TYPE_META: name, TOOL_NAME_META: tool["name"]} if toolkit_name else {TOOL_NAME_META: tool["name"]}
             ))
         return cls(tools=tools)

alita_sdk/tools/elastic/__init__.py CHANGED Viewed

@@ -5,7 +5,8 @@ from pydantic import BaseModel, ConfigDict, create_model, Field, SecretStr
 from .api_wrapper import ELITEAElasticApiWrapper
 from ..base.tool import BaseAction
-from ..utils import clean_string, TOOLKIT_SPLITTER, get_max_toolkit_length
+from ..utils import clean_string, get_max_toolkit_length
+from ...runtime.utils.constants import TOOLKIT_NAME_META, TOOL_NAME_META, TOOLKIT_TYPE_META
 name = "elastic"
@@ -19,15 +20,13 @@ def get_tools(tool):
 class ElasticToolkit(BaseToolkit):
     tools: list[BaseTool] = []
-    toolkit_max_length: int = 0
     @staticmethod
     def toolkit_config_schema() -> BaseModel:
         selected_tools = {x['name']: x['args_schema'].schema() for x in ELITEAElasticApiWrapper.model_construct().get_available_tools()}
-        ElasticToolkit.toolkit_max_length = get_max_toolkit_length(selected_tools)
         return create_model(
             name,
-            url=(str, Field(default=None, title="Elasticsearch URL", description="Elasticsearch URL", json_schema_extra={'toolkit_name': True, 'max_toolkit_length': ElasticToolkit.toolkit_max_length})),
+            url=(Optional[str], Field(default=None, title="Elasticsearch URL", description="Elasticsearch URL", json_schema_extra={'toolkit_name': True})),
             api_key=(
                 Optional[SecretStr],
                 Field(
@@ -48,15 +47,19 @@ class ElasticToolkit(BaseToolkit):
         elastic_api_wrapper = ELITEAElasticApiWrapper(**kwargs)
         available_tools = elastic_api_wrapper.get_available_tools()
         tools = []
-        prefix = clean_string(toolkit_name, ElasticToolkit.toolkit_max_length) + TOOLKIT_SPLITTER if toolkit_name else ''
         for tool in available_tools:
             if selected_tools and tool["name"] not in selected_tools:
                 continue
+            description = tool["description"]
+            if toolkit_name:
+                description = f"Toolkit: {toolkit_name}\n{description}"
+            description = description[:1000]
             tools.append(BaseAction(
                 api_wrapper=elastic_api_wrapper,
-                name=prefix + tool["name"],
-                description=tool["description"],
-                args_schema=tool["args_schema"]
+                name=tool["name"],
+                description=description,
+                args_schema=tool["args_schema"],
+                metadata={TOOLKIT_NAME_META: toolkit_name, TOOLKIT_TYPE_META: name, TOOL_NAME_META: tool["name"]} if toolkit_name else {TOOL_NAME_META: tool["name"]}
             ))
         return cls(tools=tools)

alita-sdk 0.3.462__py3-none-any.whl → 0.3.627__py3-none-any.whl

alita-sdk 0.3.462py3-none-any.whl → 0.3.627py3-none-any.whl