PyPI - aiecs - Versions diffs - 1.5.1__py3-none-any.whl - Mend

aiecs 1.5.1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (302) hide show

aiecs/__init__.py +72 -0
aiecs/__main__.py +41 -0
aiecs/aiecs_client.py +469 -0
aiecs/application/__init__.py +10 -0
aiecs/application/executors/__init__.py +10 -0
aiecs/application/executors/operation_executor.py +363 -0
aiecs/application/knowledge_graph/__init__.py +7 -0
aiecs/application/knowledge_graph/builder/__init__.py +37 -0
aiecs/application/knowledge_graph/builder/document_builder.py +375 -0
aiecs/application/knowledge_graph/builder/graph_builder.py +356 -0
aiecs/application/knowledge_graph/builder/schema_mapping.py +531 -0
aiecs/application/knowledge_graph/builder/structured_pipeline.py +443 -0
aiecs/application/knowledge_graph/builder/text_chunker.py +319 -0
aiecs/application/knowledge_graph/extractors/__init__.py +27 -0
aiecs/application/knowledge_graph/extractors/base.py +100 -0
aiecs/application/knowledge_graph/extractors/llm_entity_extractor.py +327 -0
aiecs/application/knowledge_graph/extractors/llm_relation_extractor.py +349 -0
aiecs/application/knowledge_graph/extractors/ner_entity_extractor.py +244 -0
aiecs/application/knowledge_graph/fusion/__init__.py +23 -0
aiecs/application/knowledge_graph/fusion/entity_deduplicator.py +387 -0
aiecs/application/knowledge_graph/fusion/entity_linker.py +343 -0
aiecs/application/knowledge_graph/fusion/knowledge_fusion.py +580 -0
aiecs/application/knowledge_graph/fusion/relation_deduplicator.py +189 -0
aiecs/application/knowledge_graph/pattern_matching/__init__.py +21 -0
aiecs/application/knowledge_graph/pattern_matching/pattern_matcher.py +344 -0
aiecs/application/knowledge_graph/pattern_matching/query_executor.py +378 -0
aiecs/application/knowledge_graph/profiling/__init__.py +12 -0
aiecs/application/knowledge_graph/profiling/query_plan_visualizer.py +199 -0
aiecs/application/knowledge_graph/profiling/query_profiler.py +223 -0
aiecs/application/knowledge_graph/reasoning/__init__.py +27 -0
aiecs/application/knowledge_graph/reasoning/evidence_synthesis.py +347 -0
aiecs/application/knowledge_graph/reasoning/inference_engine.py +504 -0
aiecs/application/knowledge_graph/reasoning/logic_form_parser.py +167 -0
aiecs/application/knowledge_graph/reasoning/logic_parser/__init__.py +79 -0
aiecs/application/knowledge_graph/reasoning/logic_parser/ast_builder.py +513 -0
aiecs/application/knowledge_graph/reasoning/logic_parser/ast_nodes.py +630 -0
aiecs/application/knowledge_graph/reasoning/logic_parser/ast_validator.py +654 -0
aiecs/application/knowledge_graph/reasoning/logic_parser/error_handler.py +477 -0
aiecs/application/knowledge_graph/reasoning/logic_parser/parser.py +390 -0
aiecs/application/knowledge_graph/reasoning/logic_parser/query_context.py +217 -0
aiecs/application/knowledge_graph/reasoning/logic_query_integration.py +169 -0
aiecs/application/knowledge_graph/reasoning/query_planner.py +872 -0
aiecs/application/knowledge_graph/reasoning/reasoning_engine.py +554 -0
aiecs/application/knowledge_graph/retrieval/__init__.py +19 -0
aiecs/application/knowledge_graph/retrieval/retrieval_strategies.py +596 -0
aiecs/application/knowledge_graph/search/__init__.py +59 -0
aiecs/application/knowledge_graph/search/hybrid_search.py +423 -0
aiecs/application/knowledge_graph/search/reranker.py +295 -0
aiecs/application/knowledge_graph/search/reranker_strategies.py +553 -0
aiecs/application/knowledge_graph/search/text_similarity.py +398 -0
aiecs/application/knowledge_graph/traversal/__init__.py +15 -0
aiecs/application/knowledge_graph/traversal/enhanced_traversal.py +329 -0
aiecs/application/knowledge_graph/traversal/path_scorer.py +269 -0
aiecs/application/knowledge_graph/validators/__init__.py +13 -0
aiecs/application/knowledge_graph/validators/relation_validator.py +189 -0
aiecs/application/knowledge_graph/visualization/__init__.py +11 -0
aiecs/application/knowledge_graph/visualization/graph_visualizer.py +321 -0
aiecs/common/__init__.py +9 -0
aiecs/common/knowledge_graph/__init__.py +17 -0
aiecs/common/knowledge_graph/runnable.py +484 -0
aiecs/config/__init__.py +16 -0
aiecs/config/config.py +498 -0
aiecs/config/graph_config.py +137 -0
aiecs/config/registry.py +23 -0
aiecs/core/__init__.py +46 -0
aiecs/core/interface/__init__.py +34 -0
aiecs/core/interface/execution_interface.py +152 -0
aiecs/core/interface/storage_interface.py +171 -0
aiecs/domain/__init__.py +289 -0
aiecs/domain/agent/__init__.py +189 -0
aiecs/domain/agent/base_agent.py +697 -0
aiecs/domain/agent/exceptions.py +103 -0
aiecs/domain/agent/graph_aware_mixin.py +559 -0
aiecs/domain/agent/hybrid_agent.py +490 -0
aiecs/domain/agent/integration/__init__.py +26 -0
aiecs/domain/agent/integration/context_compressor.py +222 -0
aiecs/domain/agent/integration/context_engine_adapter.py +252 -0
aiecs/domain/agent/integration/retry_policy.py +219 -0
aiecs/domain/agent/integration/role_config.py +213 -0
aiecs/domain/agent/knowledge_aware_agent.py +646 -0
aiecs/domain/agent/lifecycle.py +296 -0
aiecs/domain/agent/llm_agent.py +300 -0
aiecs/domain/agent/memory/__init__.py +12 -0
aiecs/domain/agent/memory/conversation.py +197 -0
aiecs/domain/agent/migration/__init__.py +14 -0
aiecs/domain/agent/migration/conversion.py +160 -0
aiecs/domain/agent/migration/legacy_wrapper.py +90 -0
aiecs/domain/agent/models.py +317 -0
aiecs/domain/agent/observability.py +407 -0
aiecs/domain/agent/persistence.py +289 -0
aiecs/domain/agent/prompts/__init__.py +29 -0
aiecs/domain/agent/prompts/builder.py +161 -0
aiecs/domain/agent/prompts/formatters.py +189 -0
aiecs/domain/agent/prompts/template.py +255 -0
aiecs/domain/agent/registry.py +260 -0
aiecs/domain/agent/tool_agent.py +257 -0
aiecs/domain/agent/tools/__init__.py +12 -0
aiecs/domain/agent/tools/schema_generator.py +221 -0
aiecs/domain/community/__init__.py +155 -0
aiecs/domain/community/agent_adapter.py +477 -0
aiecs/domain/community/analytics.py +481 -0
aiecs/domain/community/collaborative_workflow.py +642 -0
aiecs/domain/community/communication_hub.py +645 -0
aiecs/domain/community/community_builder.py +320 -0
aiecs/domain/community/community_integration.py +800 -0
aiecs/domain/community/community_manager.py +813 -0
aiecs/domain/community/decision_engine.py +879 -0
aiecs/domain/community/exceptions.py +225 -0
aiecs/domain/community/models/__init__.py +33 -0
aiecs/domain/community/models/community_models.py +268 -0
aiecs/domain/community/resource_manager.py +457 -0
aiecs/domain/community/shared_context_manager.py +603 -0
aiecs/domain/context/__init__.py +58 -0
aiecs/domain/context/context_engine.py +989 -0
aiecs/domain/context/conversation_models.py +354 -0
aiecs/domain/context/graph_memory.py +467 -0
aiecs/domain/execution/__init__.py +12 -0
aiecs/domain/execution/model.py +57 -0
aiecs/domain/knowledge_graph/__init__.py +19 -0
aiecs/domain/knowledge_graph/models/__init__.py +52 -0
aiecs/domain/knowledge_graph/models/entity.py +130 -0
aiecs/domain/knowledge_graph/models/evidence.py +194 -0
aiecs/domain/knowledge_graph/models/inference_rule.py +186 -0
aiecs/domain/knowledge_graph/models/path.py +179 -0
aiecs/domain/knowledge_graph/models/path_pattern.py +173 -0
aiecs/domain/knowledge_graph/models/query.py +272 -0
aiecs/domain/knowledge_graph/models/query_plan.py +187 -0
aiecs/domain/knowledge_graph/models/relation.py +136 -0
aiecs/domain/knowledge_graph/schema/__init__.py +23 -0
aiecs/domain/knowledge_graph/schema/entity_type.py +135 -0
aiecs/domain/knowledge_graph/schema/graph_schema.py +271 -0
aiecs/domain/knowledge_graph/schema/property_schema.py +155 -0
aiecs/domain/knowledge_graph/schema/relation_type.py +171 -0
aiecs/domain/knowledge_graph/schema/schema_manager.py +496 -0
aiecs/domain/knowledge_graph/schema/type_enums.py +205 -0
aiecs/domain/task/__init__.py +13 -0
aiecs/domain/task/dsl_processor.py +613 -0
aiecs/domain/task/model.py +62 -0
aiecs/domain/task/task_context.py +268 -0
aiecs/infrastructure/__init__.py +24 -0
aiecs/infrastructure/graph_storage/__init__.py +11 -0
aiecs/infrastructure/graph_storage/base.py +601 -0
aiecs/infrastructure/graph_storage/batch_operations.py +449 -0
aiecs/infrastructure/graph_storage/cache.py +429 -0
aiecs/infrastructure/graph_storage/distributed.py +226 -0
aiecs/infrastructure/graph_storage/error_handling.py +390 -0
aiecs/infrastructure/graph_storage/graceful_degradation.py +306 -0
aiecs/infrastructure/graph_storage/health_checks.py +378 -0
aiecs/infrastructure/graph_storage/in_memory.py +514 -0
aiecs/infrastructure/graph_storage/index_optimization.py +483 -0
aiecs/infrastructure/graph_storage/lazy_loading.py +410 -0
aiecs/infrastructure/graph_storage/metrics.py +357 -0
aiecs/infrastructure/graph_storage/migration.py +413 -0
aiecs/infrastructure/graph_storage/pagination.py +471 -0
aiecs/infrastructure/graph_storage/performance_monitoring.py +466 -0
aiecs/infrastructure/graph_storage/postgres.py +871 -0
aiecs/infrastructure/graph_storage/query_optimizer.py +635 -0
aiecs/infrastructure/graph_storage/schema_cache.py +290 -0
aiecs/infrastructure/graph_storage/sqlite.py +623 -0
aiecs/infrastructure/graph_storage/streaming.py +495 -0
aiecs/infrastructure/messaging/__init__.py +13 -0
aiecs/infrastructure/messaging/celery_task_manager.py +383 -0
aiecs/infrastructure/messaging/websocket_manager.py +298 -0
aiecs/infrastructure/monitoring/__init__.py +34 -0
aiecs/infrastructure/monitoring/executor_metrics.py +174 -0
aiecs/infrastructure/monitoring/global_metrics_manager.py +213 -0
aiecs/infrastructure/monitoring/structured_logger.py +48 -0
aiecs/infrastructure/monitoring/tracing_manager.py +410 -0
aiecs/infrastructure/persistence/__init__.py +24 -0
aiecs/infrastructure/persistence/context_engine_client.py +187 -0
aiecs/infrastructure/persistence/database_manager.py +333 -0
aiecs/infrastructure/persistence/file_storage.py +754 -0
aiecs/infrastructure/persistence/redis_client.py +220 -0
aiecs/llm/__init__.py +86 -0
aiecs/llm/callbacks/__init__.py +11 -0
aiecs/llm/callbacks/custom_callbacks.py +264 -0
aiecs/llm/client_factory.py +420 -0
aiecs/llm/clients/__init__.py +33 -0
aiecs/llm/clients/base_client.py +193 -0
aiecs/llm/clients/googleai_client.py +181 -0
aiecs/llm/clients/openai_client.py +131 -0
aiecs/llm/clients/vertex_client.py +437 -0
aiecs/llm/clients/xai_client.py +184 -0
aiecs/llm/config/__init__.py +51 -0
aiecs/llm/config/config_loader.py +275 -0
aiecs/llm/config/config_validator.py +236 -0
aiecs/llm/config/model_config.py +151 -0
aiecs/llm/utils/__init__.py +10 -0
aiecs/llm/utils/validate_config.py +91 -0
aiecs/main.py +363 -0
aiecs/scripts/__init__.py +3 -0
aiecs/scripts/aid/VERSION_MANAGEMENT.md +97 -0
aiecs/scripts/aid/__init__.py +19 -0
aiecs/scripts/aid/version_manager.py +215 -0
aiecs/scripts/dependance_check/DEPENDENCY_SYSTEM_SUMMARY.md +242 -0
aiecs/scripts/dependance_check/README_DEPENDENCY_CHECKER.md +310 -0
aiecs/scripts/dependance_check/__init__.py +17 -0
aiecs/scripts/dependance_check/dependency_checker.py +938 -0
aiecs/scripts/dependance_check/dependency_fixer.py +391 -0
aiecs/scripts/dependance_check/download_nlp_data.py +396 -0
aiecs/scripts/dependance_check/quick_dependency_check.py +270 -0
aiecs/scripts/dependance_check/setup_nlp_data.sh +217 -0
aiecs/scripts/dependance_patch/__init__.py +7 -0
aiecs/scripts/dependance_patch/fix_weasel/README_WEASEL_PATCH.md +126 -0
aiecs/scripts/dependance_patch/fix_weasel/__init__.py +11 -0
aiecs/scripts/dependance_patch/fix_weasel/fix_weasel_validator.py +128 -0
aiecs/scripts/dependance_patch/fix_weasel/fix_weasel_validator.sh +82 -0
aiecs/scripts/dependance_patch/fix_weasel/patch_weasel_library.sh +188 -0
aiecs/scripts/dependance_patch/fix_weasel/run_weasel_patch.sh +41 -0
aiecs/scripts/tools_develop/README.md +449 -0
aiecs/scripts/tools_develop/TOOL_AUTO_DISCOVERY.md +234 -0
aiecs/scripts/tools_develop/__init__.py +21 -0
aiecs/scripts/tools_develop/check_type_annotations.py +259 -0
aiecs/scripts/tools_develop/validate_tool_schemas.py +422 -0
aiecs/scripts/tools_develop/verify_tools.py +356 -0
aiecs/tasks/__init__.py +1 -0
aiecs/tasks/worker.py +172 -0
aiecs/tools/__init__.py +299 -0
aiecs/tools/apisource/__init__.py +99 -0
aiecs/tools/apisource/intelligence/__init__.py +19 -0
aiecs/tools/apisource/intelligence/data_fusion.py +381 -0
aiecs/tools/apisource/intelligence/query_analyzer.py +413 -0
aiecs/tools/apisource/intelligence/search_enhancer.py +388 -0
aiecs/tools/apisource/monitoring/__init__.py +9 -0
aiecs/tools/apisource/monitoring/metrics.py +303 -0
aiecs/tools/apisource/providers/__init__.py +115 -0
aiecs/tools/apisource/providers/base.py +664 -0
aiecs/tools/apisource/providers/census.py +401 -0
aiecs/tools/apisource/providers/fred.py +564 -0
aiecs/tools/apisource/providers/newsapi.py +412 -0
aiecs/tools/apisource/providers/worldbank.py +357 -0
aiecs/tools/apisource/reliability/__init__.py +12 -0
aiecs/tools/apisource/reliability/error_handler.py +375 -0
aiecs/tools/apisource/reliability/fallback_strategy.py +391 -0
aiecs/tools/apisource/tool.py +850 -0
aiecs/tools/apisource/utils/__init__.py +9 -0
aiecs/tools/apisource/utils/validators.py +338 -0
aiecs/tools/base_tool.py +201 -0
aiecs/tools/docs/__init__.py +121 -0
aiecs/tools/docs/ai_document_orchestrator.py +599 -0
aiecs/tools/docs/ai_document_writer_orchestrator.py +2403 -0
aiecs/tools/docs/content_insertion_tool.py +1333 -0
aiecs/tools/docs/document_creator_tool.py +1317 -0
aiecs/tools/docs/document_layout_tool.py +1166 -0
aiecs/tools/docs/document_parser_tool.py +994 -0
aiecs/tools/docs/document_writer_tool.py +1818 -0
aiecs/tools/knowledge_graph/__init__.py +17 -0
aiecs/tools/knowledge_graph/graph_reasoning_tool.py +734 -0
aiecs/tools/knowledge_graph/graph_search_tool.py +923 -0
aiecs/tools/knowledge_graph/kg_builder_tool.py +476 -0
aiecs/tools/langchain_adapter.py +542 -0
aiecs/tools/schema_generator.py +275 -0
aiecs/tools/search_tool/__init__.py +100 -0
aiecs/tools/search_tool/analyzers.py +589 -0
aiecs/tools/search_tool/cache.py +260 -0
aiecs/tools/search_tool/constants.py +128 -0
aiecs/tools/search_tool/context.py +216 -0
aiecs/tools/search_tool/core.py +749 -0
aiecs/tools/search_tool/deduplicator.py +123 -0
aiecs/tools/search_tool/error_handler.py +271 -0
aiecs/tools/search_tool/metrics.py +371 -0
aiecs/tools/search_tool/rate_limiter.py +178 -0
aiecs/tools/search_tool/schemas.py +277 -0
aiecs/tools/statistics/__init__.py +80 -0
aiecs/tools/statistics/ai_data_analysis_orchestrator.py +643 -0
aiecs/tools/statistics/ai_insight_generator_tool.py +505 -0
aiecs/tools/statistics/ai_report_orchestrator_tool.py +694 -0
aiecs/tools/statistics/data_loader_tool.py +564 -0
aiecs/tools/statistics/data_profiler_tool.py +658 -0
aiecs/tools/statistics/data_transformer_tool.py +573 -0
aiecs/tools/statistics/data_visualizer_tool.py +495 -0
aiecs/tools/statistics/model_trainer_tool.py +487 -0
aiecs/tools/statistics/statistical_analyzer_tool.py +459 -0
aiecs/tools/task_tools/__init__.py +86 -0
aiecs/tools/task_tools/chart_tool.py +732 -0
aiecs/tools/task_tools/classfire_tool.py +922 -0
aiecs/tools/task_tools/image_tool.py +447 -0
aiecs/tools/task_tools/office_tool.py +684 -0
aiecs/tools/task_tools/pandas_tool.py +635 -0
aiecs/tools/task_tools/report_tool.py +635 -0
aiecs/tools/task_tools/research_tool.py +392 -0
aiecs/tools/task_tools/scraper_tool.py +715 -0
aiecs/tools/task_tools/stats_tool.py +688 -0
aiecs/tools/temp_file_manager.py +130 -0
aiecs/tools/tool_executor/__init__.py +37 -0
aiecs/tools/tool_executor/tool_executor.py +881 -0
aiecs/utils/LLM_output_structor.py +445 -0
aiecs/utils/__init__.py +34 -0
aiecs/utils/base_callback.py +47 -0
aiecs/utils/cache_provider.py +695 -0
aiecs/utils/execution_utils.py +184 -0
aiecs/utils/logging.py +1 -0
aiecs/utils/prompt_loader.py +14 -0
aiecs/utils/token_usage_repository.py +323 -0
aiecs/ws/__init__.py +0 -0
aiecs/ws/socket_server.py +52 -0
aiecs-1.5.1.dist-info/METADATA +608 -0
aiecs-1.5.1.dist-info/RECORD +302 -0
aiecs-1.5.1.dist-info/WHEEL +5 -0
aiecs-1.5.1.dist-info/entry_points.txt +10 -0
aiecs-1.5.1.dist-info/licenses/LICENSE +225 -0
aiecs-1.5.1.dist-info/top_level.txt +1 -0

aiecs/tools/task_tools/stats_tool.py ADDED Viewed

@@ -0,0 +1,688 @@
+import os
+import logging
+import tempfile
+from typing import Dict, Any, List, Optional, Union, Tuple
+from enum import Enum
+from dataclasses import dataclass
+import pandas as pd
+import numpy as np
+from pydantic import BaseModel, ConfigDict, Field
+from aiecs.tools.base_tool import BaseTool
+from aiecs.tools import register_tool
+# Enums for configuration options
+class ScalerType(str, Enum):
+    STANDARD = "standard"
+    MINMAX = "minmax"
+    ROBUST = "robust"
+    NONE = "none"
+# Exceptions
+class StatsToolError(Exception):
+    pass
+class FileOperationError(StatsToolError):
+    pass
+class AnalysisError(StatsToolError):
+    pass
+# Utility Dataclass for Statistical Results
+@dataclass
+class StatsResult:
+    """Structured statistical result."""
+    test_type: str
+    statistic: float
+    pvalue: float
+    significant: bool
+    additional_metrics: Dict[str, Any]
+    def to_dict(self) -> Dict[str, Any]:
+        return {
+            "test_type": self.test_type,
+            "statistic": self.statistic,
+            "pvalue": self.pvalue,
+            "significant": self.significant,
+            **self.additional_metrics,
+        }
+@register_tool("stats")
+class StatsTool(BaseTool):
+    """Enhanced statistical analysis tool for various data formats and operations."""
+    # Configuration schema
+    class Config(BaseModel):
+        """Configuration for the stats tool"""
+        model_config = ConfigDict(env_prefix="STATS_TOOL_")
+        max_file_size_mb: int = Field(default=200, description="Maximum file size in megabytes")
+        allowed_extensions: List[str] = Field(
+            default=[
+                ".sav",
+                ".sas7bdat",
+                ".por",
+                ".csv",
+                ".xlsx",
+                ".xls",
+                ".json",
+                ".parquet",
+                ".feather",
+            ],
+            description="Allowed file extensions",
+        )
+    def __init__(self, config: Dict[str, Any] = None):
+        super().__init__(config)
+        # Parse configuration
+        self.config = self.Config(**(config or {}))
+        self.logger = logging.getLogger(__name__)
+        if not self.logger.handlers:
+            h = logging.StreamHandler()
+            h.setFormatter(logging.Formatter("%(asctime)s %(levelname)s %(message)s"))
+            self.logger.addHandler(h)
+        self.logger.setLevel(logging.INFO)
+    def _load_data(
+        self,
+        file_path: str,
+        nrows: Optional[int] = None,
+        sheet_name: Optional[Union[str, int]] = 0,
+    ) -> pd.DataFrame:
+        """Load data from various file formats into a pandas DataFrame."""
+        try:
+            ext = os.path.splitext(file_path)[1].lower()
+            if ext in [".sav", ".sas7bdat", ".por"]:
+                import pyreadstat
+                if ext == ".sav":
+                    df, meta = pyreadstat.read_sav(file_path)
+                elif ext == ".sas7bdat":
+                    df, meta = pyreadstat.read_sas7bdat(file_path)
+                else:
+                    df, meta = pyreadstat.read_por(file_path)
+                return df
+            elif ext == ".csv":
+                return pd.read_csv(file_path, nrows=nrows)
+            elif ext in [".xlsx", ".xls"]:
+                return pd.read_excel(file_path, sheet_name=sheet_name, nrows=nrows)
+            elif ext == ".json":
+                return pd.read_json(file_path)
+            elif ext == ".parquet":
+                return pd.read_parquet(file_path)
+            elif ext == ".feather":
+                return pd.read_feather(file_path)
+            else:
+                raise FileOperationError(f"Unsupported file format: {ext}")
+        except Exception as e:
+            raise FileOperationError(f"Error reading file {file_path}: {str(e)}")
+    def _validate_variables(self, df: pd.DataFrame, vars_to_check: List[str]) -> None:
+        """Validate variables exist in the dataset."""
+        if not vars_to_check:
+            return
+        available_vars = df.columns.tolist()
+        missing_vars = [var for var in vars_to_check if var not in available_vars]
+        if missing_vars:
+            raise FileOperationError(f"Variables not found in dataset: {', '.join(missing_vars)}")
+    def _interpret_effect_size(self, d: float) -> str:
+        """Interpret Cohen's d or Cramer's V effect size."""
+        thresholds = [(0.2, "negligible"), (0.5, "small"), (0.8, "medium")]
+        for threshold, label in thresholds:
+            if abs(d) < threshold:
+                return label
+        return "large"
+    def read_data(
+        self,
+        file_path: str,
+        nrows: Optional[int] = None,
+        sheet_name: Optional[Union[str, int]] = 0,
+    ) -> Dict[str, Any]:
+        """Read data from various file formats."""
+        df = self._load_data(file_path, nrows, sheet_name)
+        return {
+            "variables": df.columns.tolist(),
+            "observations": len(df),
+            "dtypes": {col: str(dtype) for col, dtype in df.dtypes.items()},
+            "memory_usage": df.memory_usage(deep=True).sum() / (1024 * 1024),
+            "preview": df.head(5).to_dict(orient="records"),
+        }
+    def describe(
+        self,
+        file_path: str,
+        variables: Optional[List[str]] = None,
+        include_percentiles: bool = False,
+        percentiles: Optional[List[float]] = None,
+    ) -> Dict[str, Any]:
+        """Generate descriptive statistics for variables."""
+        df = self._load_data(file_path)
+        if variables:
+            self._validate_variables(df, variables)
+            df = df[variables]
+        desc = df.describe()
+        if include_percentiles and percentiles:
+            additional_percentiles = [p for p in percentiles if p not in [0.25, 0.5, 0.75]]
+            if additional_percentiles:
+                additional_desc = df.describe(percentiles=percentiles)
+                desc = pd.concat(
+                    [
+                        desc,
+                        additional_desc.loc[[f"{int(p*100)}%" for p in additional_percentiles]],
+                    ]
+                )
+        numeric_cols = df.select_dtypes(include=[np.number]).columns
+        if numeric_cols.any():
+            desc.loc["skew"] = df[numeric_cols].skew()
+            desc.loc["kurtosis"] = df[numeric_cols].kurt()
+        return {"statistics": desc.to_dict(), "summary": desc.to_string()}
+    def ttest(
+        self,
+        file_path: str,
+        var1: str,
+        var2: str,
+        equal_var: bool = True,
+        paired: bool = False,
+    ) -> Dict[str, Any]:
+        """Perform t-tests (independent or paired). Also handles legacy ttest_ind."""
+        df = self._load_data(file_path)
+        self._validate_variables(df, [var1, var2])
+        import scipy.stats as stats
+        a = df[var1].dropna().values
+        b = df[var2].dropna().values
+        if paired:
+            min_len = min(len(a), len(b))
+            stat, p = stats.ttest_rel(a[:min_len], b[:min_len])
+            test_type = "paired t-test"
+        else:
+            stat, p = stats.ttest_ind(a, b, equal_var=equal_var)
+            test_type = (
+                "independent t-test (equal variance)"
+                if equal_var
+                else "Welch's t-test (unequal variance)"
+            )
+        mean_a = np.mean(a)
+        mean_b = np.mean(b)
+        std_a = np.std(a, ddof=1)
+        std_b = np.std(b, ddof=1)
+        if equal_var:
+            pooled_std = np.sqrt(
+                ((len(a) - 1) * std_a**2 + (len(b) - 1) * std_b**2) / (len(a) + len(b) - 2)
+            )
+            cohens_d = (mean_a - mean_b) / pooled_std
+        else:
+            cohens_d = (mean_a - mean_b) / np.sqrt((std_a**2 + std_b**2) / 2)
+        return StatsResult(
+            test_type=test_type,
+            statistic=float(stat),
+            pvalue=float(p),
+            significant=p < 0.05,
+            additional_metrics={
+                "cohens_d": float(cohens_d),
+                "effect_size_interpretation": self._interpret_effect_size(cohens_d),
+                "group1_mean": float(mean_a),
+                "group2_mean": float(mean_b),
+                "group1_std": float(std_a),
+                "group2_std": float(std_b),
+                "group1_n": int(len(a)),
+                "group2_n": int(len(b)),
+            },
+        ).to_dict()
+    # Legacy method (now an alias)
+    ttest_ind = ttest
+    def correlation(
+        self,
+        file_path: str,
+        variables: Optional[List[str]] = None,
+        var1: Optional[str] = None,
+        var2: Optional[str] = None,
+        method: str = "pearson",
+    ) -> Dict[str, Any]:
+        """Perform correlation analysis."""
+        df = self._load_data(file_path)
+        if variables:
+            self._validate_variables(df, variables)
+        if var1 and var2:
+            self._validate_variables(df, [var1, var2])
+        import scipy.stats as stats
+        result = {}
+        if variables:
+            corr_matrix = df[variables].corr(method=method)
+            result["correlation_matrix"] = corr_matrix.to_dict()
+            flat_corrs = [
+                {
+                    "var1": v1,
+                    "var2": v2,
+                    "correlation": corr_matrix.loc[v1, v2],
+                    "abs_correlation": abs(corr_matrix.loc[v1, v2]),
+                }
+                for i, v1 in enumerate(variables)
+                for j, v2 in enumerate(variables)
+                if i < j
+            ]
+            flat_corrs.sort(key=lambda x: x["abs_correlation"], reverse=True)
+            result["pairs"] = flat_corrs
+        elif var1 and var2:
+            x = df[var1].dropna()
+            y = df[var2].dropna()
+            method_map = {
+                "pearson": (stats.pearsonr, "Pearson's r"),
+                "spearman": (stats.spearmanr, "Spearman's rho"),
+                "kendall": (stats.kendalltau, "Kendall's tau"),
+            }
+            func, method_name = method_map[method]
+            corr, p = func(x, y)
+            result = {
+                "method": method_name,
+                "correlation": float(corr),
+                "pvalue": float(p),
+                "significant": p < 0.05,
+                "n": len(x),
+            }
+        return result
+    def anova(
+        self,
+        file_path: str,
+        dependent: str,
+        factor: str,
+        post_hoc: bool = False,
+    ) -> Dict[str, Any]:
+        """Perform one-way ANOVA with optional post-hoc tests."""
+        df = self._load_data(file_path)
+        self._validate_variables(df, [dependent, factor])
+        import scipy.stats as stats
+        from statsmodels.stats.multicomp import pairwise_tukeyhsd
+        dependent_var = df[dependent].dropna()
+        factor_var = df[factor].dropna()
+        min_len = min(len(dependent_var), len(factor_var))
+        dependent_var = dependent_var[:min_len]
+        factor_var = factor_var[:min_len]
+        groups = {name: group[dependent].dropna().values for name, group in df.groupby(factor)}
+        stat, p = stats.f_oneway(*groups.values())
+        result = {
+            "F": float(stat),
+            "pvalue": float(p),
+            "significant": p < 0.05,
+            "groups": len(groups),
+            "group_sizes": {name: len(values) for name, values in groups.items()},
+            "group_means": {name: float(np.mean(values)) for name, values in groups.items()},
+            "group_std": {name: float(np.std(values, ddof=1)) for name, values in groups.items()},
+        }
+        if post_hoc:
+            post_hoc_df = pd.DataFrame({"value": dependent_var, "group": factor_var})
+            tukey = pairwise_tukeyhsd(post_hoc_df["value"], post_hoc_df["group"])
+            from itertools import combinations
+            group_pairs = list(combinations(tukey.groupsunique, 2))
+            tukey_results = [
+                {
+                    "group1": str(group1),
+                    "group2": str(group2),
+                    "mean_difference": float(mean_diff),
+                    "p_adjusted": float(p_adj),
+                    "significant": bool(reject),
+                    "conf_lower": float(lower),
+                    "conf_upper": float(upper),
+                }
+                for (
+                    group1,
+                    group2,
+                ), mean_diff, p_adj, lower, upper, reject in zip(
+                    group_pairs,
+                    tukey.meandiffs,
+                    tukey.pvalues,
+                    tukey.confint[:, 0],
+                    tukey.confint[:, 1],
+                    tukey.reject,
+                )
+            ]
+            result["post_hoc"] = {
+                "method": "Tukey HSD",
+                "alpha": 0.05,  # Standard significance level for Tukey HSD
+                "comparisons": tukey_results,
+            }
+        return result
+    def chi_square(
+        self, file_path: str, var1: str, var2: str, correction: bool = True
+    ) -> Dict[str, Any]:
+        """Perform chi-square test of independence."""
+        df = self._load_data(file_path)
+        self._validate_variables(df, [var1, var2])
+        import scipy.stats as stats
+        contingency = pd.crosstab(df[var1], df[var2])
+        chi2, p, dof, expected = stats.chi2_contingency(contingency, correction=correction)
+        n = contingency.sum().sum()
+        min_dim = min(contingency.shape) - 1
+        cramers_v = np.sqrt(chi2 / (n * min_dim))
+        return {
+            "chi2": float(chi2),
+            "pvalue": float(p),
+            "dof": int(dof),
+            "significant": p < 0.05,
+            "cramers_v": float(cramers_v),
+            "effect_size_interpretation": self._interpret_effect_size(cramers_v),
+            "contingency_table": contingency.to_dict(),
+            "expected_frequencies": pd.DataFrame(
+                expected, index=contingency.index, columns=contingency.columns
+            ).to_dict(),
+            "test_type": (
+                "Chi-square test with Yates correction" if correction else "Chi-square test"
+            ),
+        }
+    def non_parametric(
+        self,
+        file_path: str,
+        test_type: str,
+        variables: List[str],
+        grouping: Optional[str] = None,
+    ) -> Dict[str, Any]:
+        """Perform non-parametric statistical tests."""
+        df = self._load_data(file_path)
+        self._validate_variables(df, variables + ([grouping] if grouping else []))
+        import scipy.stats as stats
+        if test_type == "mann_whitney":
+            if len(variables) != 2:
+                raise AnalysisError("Mann-Whitney U test requires exactly 2 variables")
+            x = df[variables[0]].dropna().values
+            y = df[variables[1]].dropna().values
+            u_stat, p_value = stats.mannwhitneyu(x, y)
+            return StatsResult(
+                test_type="Mann-Whitney U test",
+                statistic=float(u_stat),
+                pvalue=float(p_value),
+                significant=p_value < 0.05,
+                additional_metrics={
+                    "n1": len(x),
+                    "n2": len(y),
+                    "median1": float(np.median(x)),
+                    "median2": float(np.median(y)),
+                },
+            ).to_dict()
+        elif test_type == "wilcoxon":
+            if len(variables) != 2:
+                raise AnalysisError("Wilcoxon signed-rank test requires exactly 2 variables")
+            x = df[variables[0]].dropna().values
+            y = df[variables[1]].dropna().values
+            min_len = min(len(x), len(y))
+            x = x[:min_len]
+            y = y[:min_len]
+            w_stat, p_value = stats.wilcoxon(x, y)
+            return StatsResult(
+                test_type="Wilcoxon signed-rank test",
+                statistic=float(w_stat),
+                pvalue=float(p_value),
+                significant=p_value < 0.05,
+                additional_metrics={
+                    "n_pairs": min_len,
+                    "median_difference": float(np.median(x - y)),
+                },
+            ).to_dict()
+        elif test_type == "kruskal":
+            if not grouping:
+                raise AnalysisError("Kruskal-Wallis test requires a grouping variable")
+            groups = {
+                f"{var}_{name}": group[var].dropna().values
+                for name, group in df.groupby(grouping)
+                for var in variables
+            }
+            h_stat, p_value = stats.kruskal(*groups.values())
+            return StatsResult(
+                test_type="Kruskal-Wallis H test",
+                statistic=float(h_stat),
+                pvalue=float(p_value),
+                significant=p_value < 0.05,
+                additional_metrics={
+                    "groups": len(groups),
+                    "group_sizes": {name: len(values) for name, values in groups.items()},
+                    "group_medians": {
+                        name: float(np.median(values)) for name, values in groups.items()
+                    },
+                },
+            ).to_dict()
+        elif test_type == "friedman":
+            if len(variables) < 2:
+                raise AnalysisError("Friedman test requires at least 2 variables")
+            data = df[variables].dropna()
+            chi2, p_value = stats.friedmanchisquare(*[data[var].values for var in variables])
+            return StatsResult(
+                test_type="Friedman test",
+                statistic=float(chi2),
+                pvalue=float(p_value),
+                significant=p_value < 0.05,
+                additional_metrics={
+                    "n_measures": len(variables),
+                    "n_samples": len(data),
+                    "variable_medians": {var: float(np.median(data[var])) for var in variables},
+                },
+            ).to_dict()
+        else:
+            raise AnalysisError(
+                f"Unsupported non-parametric test type: {test_type}. Supported types: mann_whitney, wilcoxon, kruskal, friedman"
+            )
+    def regression(
+        self,
+        file_path: str,
+        formula: str,
+        regression_type: str = "ols",
+        robust: bool = False,
+        structured_output: bool = True,
+    ) -> Dict[str, Any]:
+        """Perform regression analysis with various models."""
+        df = self._load_data(file_path)
+        import statsmodels.formula.api as smf
+        try:
+            model_map = {
+                "ols": smf.ols,
+                "logit": smf.logit,
+                "probit": smf.probit,
+                "poisson": smf.poisson,
+            }
+            model = model_map[regression_type](formula=formula, data=df)
+            fit = model.fit(cov_type="HC3" if robust else "nonrobust")
+            if structured_output:
+                result = {
+                    "model_type": regression_type,
+                    "formula": formula,
+                    "n_observations": int(fit.nobs),
+                    "r_squared": (float(fit.rsquared) if hasattr(fit, "rsquared") else None),
+                    "adj_r_squared": (
+                        float(fit.rsquared_adj) if hasattr(fit, "rsquared_adj") else None
+                    ),
+                    "aic": float(fit.aic) if hasattr(fit, "aic") else None,
+                    "bic": float(fit.bic) if hasattr(fit, "bic") else None,
+                    "f_statistic": (float(fit.fvalue) if hasattr(fit, "fvalue") else None),
+                    "f_pvalue": (float(fit.f_pvalue) if hasattr(fit, "f_pvalue") else None),
+                    "log_likelihood": (float(fit.llf) if hasattr(fit, "llf") else None),
+                    "coefficients": {
+                        var: {
+                            "coef": float(fit.params[var]),
+                            "std_err": float(fit.bse[var]),
+                            "t_value": (
+                                float(fit.tvalues[var]) if hasattr(fit, "tvalues") else None
+                            ),
+                            "p_value": float(fit.pvalues[var]),
+                            "significant": fit.pvalues[var] < 0.05,
+                            "conf_lower": float(fit.conf_int().loc[var, 0]),
+                            "conf_upper": float(fit.conf_int().loc[var, 1]),
+                        }
+                        for var in fit.params.index
+                    },
+                }
+                return {
+                    "summary_text": fit.summary().as_text(),
+                    "structured": result,
+                }
+            return {"summary": fit.summary().as_text()}
+        except Exception as e:
+            raise AnalysisError(f"Regression error: {str(e)}")
+    def time_series(
+        self,
+        file_path: str,
+        variable: str,
+        date_variable: Optional[str] = None,
+        model_type: str = "arima",
+        order: Optional[Tuple[int, int, int]] = (1, 1, 1),
+        seasonal_order: Optional[Tuple[int, int, int, int]] = None,
+        forecast_periods: int = 10,
+    ) -> Dict[str, Any]:
+        """Perform time series analysis."""
+        df = self._load_data(file_path)
+        self._validate_variables(df, [variable] + ([date_variable] if date_variable else []))
+        from statsmodels.tsa.arima.model import ARIMA
+        from statsmodels.tsa.statespace.sarimax import SARIMAX
+        try:
+            ts_data = df[variable].dropna()
+            if date_variable and date_variable in df.columns:
+                ts_data.index = df[date_variable]
+            if model_type == "arima":
+                model = ARIMA(ts_data, order=order)
+                fit = model.fit()
+                model_type_name = "ARIMA"
+            elif model_type == "sarima":
+                if not seasonal_order:
+                    raise AnalysisError("seasonal_order must be provided for SARIMA model")
+                model = SARIMAX(ts_data, order=order, seasonal_order=seasonal_order)
+                fit = model.fit(disp=False)
+                model_type_name = "SARIMA"
+            else:
+                raise AnalysisError(f"Unsupported time series model: {model_type}")
+            forecast = fit.forecast(steps=forecast_periods)
+            forecast_index = pd.date_range(
+                start=(
+                    ts_data.index[-1]
+                    if isinstance(ts_data.index, pd.DatetimeIndex)
+                    else len(ts_data)
+                ),
+                periods=forecast_periods + 1,
+                freq="D",
+            )[1:]
+            return {
+                "model_type": model_type_name,
+                "order": order,
+                "seasonal_order": (seasonal_order if model_type == "sarima" else None),
+                "aic": float(fit.aic),
+                "bic": float(fit.bic),
+                "forecast": {
+                    "values": (
+                        forecast.tolist()
+                        if isinstance(forecast, np.ndarray)
+                        else forecast.values.tolist()
+                    ),
+                    "index": (
+                        forecast_index.strftime("%Y-%m-%d").tolist()
+                        if isinstance(forecast_index, pd.DatetimeIndex)
+                        else list(range(len(forecast)))
+                    ),
+                },
+                "summary": str(fit.summary()),
+            }
+        except Exception as e:
+            raise AnalysisError(f"Time series analysis error: {str(e)}")
+    def preprocess(
+        self,
+        file_path: str,
+        variables: List[str],
+        operation: str,
+        scaler_type: ScalerType = ScalerType.STANDARD,
+        output_path: Optional[str] = None,
+    ) -> Dict[str, Any]:
+        """Preprocess data with various operations."""
+        df = self._load_data(file_path)
+        self._validate_variables(df, variables)
+        data = df[variables].copy()
+        result = {"operation": operation}
+        if operation == "scale":
+            from sklearn.preprocessing import (
+                StandardScaler,
+                MinMaxScaler,
+                RobustScaler,
+            )
+            scaler_map = {
+                ScalerType.STANDARD: (StandardScaler, "StandardScaler"),
+                ScalerType.MINMAX: (MinMaxScaler, "MinMaxScaler"),
+                ScalerType.ROBUST: (RobustScaler, "RobustScaler"),
+            }
+            scaler_cls, scaler_name = scaler_map[scaler_type]
+            scaler = scaler_cls()
+            scaled_data = scaler.fit_transform(data)
+            scaled_df = pd.DataFrame(
+                scaled_data,
+                columns=[f"{col}_scaled" for col in data.columns],
+                index=data.index,
+            )
+            result.update(
+                {
+                    "scaler": scaler_name,
+                    "original_stats": data.describe().to_dict(),
+                    "scaled_stats": scaled_df.describe().to_dict(),
+                    "preview": scaled_df.head(5).to_dict(orient="records"),
+                }
+            )
+            processed_df = scaled_df
+        elif operation == "impute":
+            import numpy as np
+            imputed_df = data.copy()
+            numeric_cols = data.select_dtypes(include=[np.number]).columns
+            for col in numeric_cols:
+                imputed_df[col] = data[col].fillna(data[col].mean())
+            cat_cols = data.select_dtypes(exclude=[np.number]).columns
+            for col in cat_cols:
+                imputed_df[col] = data[col].fillna(
+                    data[col].mode()[0] if not data[col].mode().empty else None
+                )
+            result.update(
+                {
+                    "imputation_method": {
+                        "numeric": "mean",
+                        "categorical": "mode",
+                    },
+                    "missing_counts_before": data.isna().sum().to_dict(),
+                    "missing_counts_after": imputed_df.isna().sum().to_dict(),
+                    "preview": imputed_df.head(5).to_dict(orient="records"),
+                }
+            )
+            processed_df = imputed_df
+        if output_path:
+            output_path = (
+                os.path.abspath(output_path)
+                if os.path.isabs(output_path)
+                else os.path.join(tempfile.gettempdir(), "stats_outputs", output_path)
+            )
+            os.makedirs(os.path.dirname(output_path), exist_ok=True)
+            processed_df.to_csv(output_path)
+            result["output_file"] = output_path
+        return result