PyPI - kailash - Versions diffs - 0.3.2__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

kailash 0.3.2py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (151) hide show

kailash/__init__.py +33 -1
kailash/access_control/__init__.py +129 -0
kailash/access_control/managers.py +461 -0
kailash/access_control/rule_evaluators.py +467 -0
kailash/access_control_abac.py +825 -0
kailash/config/__init__.py +27 -0
kailash/config/database_config.py +359 -0
kailash/database/__init__.py +28 -0
kailash/database/execution_pipeline.py +499 -0
kailash/middleware/__init__.py +306 -0
kailash/middleware/auth/__init__.py +33 -0
kailash/middleware/auth/access_control.py +436 -0
kailash/middleware/auth/auth_manager.py +422 -0
kailash/middleware/auth/jwt_auth.py +477 -0
kailash/middleware/auth/kailash_jwt_auth.py +616 -0
kailash/middleware/communication/__init__.py +37 -0
kailash/middleware/communication/ai_chat.py +989 -0
kailash/middleware/communication/api_gateway.py +802 -0
kailash/middleware/communication/events.py +470 -0
kailash/middleware/communication/realtime.py +710 -0
kailash/middleware/core/__init__.py +21 -0
kailash/middleware/core/agent_ui.py +890 -0
kailash/middleware/core/schema.py +643 -0
kailash/middleware/core/workflows.py +396 -0
kailash/middleware/database/__init__.py +63 -0
kailash/middleware/database/base.py +113 -0
kailash/middleware/database/base_models.py +525 -0
kailash/middleware/database/enums.py +106 -0
kailash/middleware/database/migrations.py +12 -0
kailash/{api/database.py → middleware/database/models.py} +183 -291
kailash/middleware/database/repositories.py +685 -0
kailash/middleware/database/session_manager.py +19 -0
kailash/middleware/mcp/__init__.py +38 -0
kailash/middleware/mcp/client_integration.py +585 -0
kailash/middleware/mcp/enhanced_server.py +576 -0
kailash/nodes/__init__.py +27 -3
kailash/nodes/admin/__init__.py +42 -0
kailash/nodes/admin/audit_log.py +794 -0
kailash/nodes/admin/permission_check.py +864 -0
kailash/nodes/admin/role_management.py +823 -0
kailash/nodes/admin/security_event.py +1523 -0
kailash/nodes/admin/user_management.py +944 -0
kailash/nodes/ai/a2a.py +24 -7
kailash/nodes/ai/ai_providers.py +248 -40
kailash/nodes/ai/embedding_generator.py +11 -11
kailash/nodes/ai/intelligent_agent_orchestrator.py +99 -11
kailash/nodes/ai/llm_agent.py +436 -5
kailash/nodes/ai/self_organizing.py +85 -10
kailash/nodes/ai/vision_utils.py +148 -0
kailash/nodes/alerts/__init__.py +26 -0
kailash/nodes/alerts/base.py +234 -0
kailash/nodes/alerts/discord.py +499 -0
kailash/nodes/api/auth.py +287 -6
kailash/nodes/api/rest.py +151 -0
kailash/nodes/auth/__init__.py +17 -0
kailash/nodes/auth/directory_integration.py +1228 -0
kailash/nodes/auth/enterprise_auth_provider.py +1328 -0
kailash/nodes/auth/mfa.py +2338 -0
kailash/nodes/auth/risk_assessment.py +872 -0
kailash/nodes/auth/session_management.py +1093 -0
kailash/nodes/auth/sso.py +1040 -0
kailash/nodes/base.py +344 -13
kailash/nodes/base_cycle_aware.py +4 -2
kailash/nodes/base_with_acl.py +1 -1
kailash/nodes/code/python.py +283 -10
kailash/nodes/compliance/__init__.py +9 -0
kailash/nodes/compliance/data_retention.py +1888 -0
kailash/nodes/compliance/gdpr.py +2004 -0
kailash/nodes/data/__init__.py +22 -2
kailash/nodes/data/async_connection.py +469 -0
kailash/nodes/data/async_sql.py +757 -0
kailash/nodes/data/async_vector.py +598 -0
kailash/nodes/data/readers.py +767 -0
kailash/nodes/data/retrieval.py +360 -1
kailash/nodes/data/sharepoint_graph.py +397 -21
kailash/nodes/data/sql.py +94 -5
kailash/nodes/data/streaming.py +68 -8
kailash/nodes/data/vector_db.py +54 -4
kailash/nodes/enterprise/__init__.py +13 -0
kailash/nodes/enterprise/batch_processor.py +741 -0
kailash/nodes/enterprise/data_lineage.py +497 -0
kailash/nodes/logic/convergence.py +31 -9
kailash/nodes/logic/operations.py +14 -3
kailash/nodes/mixins/__init__.py +8 -0
kailash/nodes/mixins/event_emitter.py +201 -0
kailash/nodes/mixins/mcp.py +9 -4
kailash/nodes/mixins/security.py +165 -0
kailash/nodes/monitoring/__init__.py +7 -0
kailash/nodes/monitoring/performance_benchmark.py +2497 -0
kailash/nodes/rag/__init__.py +284 -0
kailash/nodes/rag/advanced.py +1615 -0
kailash/nodes/rag/agentic.py +773 -0
kailash/nodes/rag/conversational.py +999 -0
kailash/nodes/rag/evaluation.py +875 -0
kailash/nodes/rag/federated.py +1188 -0
kailash/nodes/rag/graph.py +721 -0
kailash/nodes/rag/multimodal.py +671 -0
kailash/nodes/rag/optimized.py +933 -0
kailash/nodes/rag/privacy.py +1059 -0
kailash/nodes/rag/query_processing.py +1335 -0
kailash/nodes/rag/realtime.py +764 -0
kailash/nodes/rag/registry.py +547 -0
kailash/nodes/rag/router.py +837 -0
kailash/nodes/rag/similarity.py +1854 -0
kailash/nodes/rag/strategies.py +566 -0
kailash/nodes/rag/workflows.py +575 -0
kailash/nodes/security/__init__.py +19 -0
kailash/nodes/security/abac_evaluator.py +1411 -0
kailash/nodes/security/audit_log.py +103 -0
kailash/nodes/security/behavior_analysis.py +1893 -0
kailash/nodes/security/credential_manager.py +401 -0
kailash/nodes/security/rotating_credentials.py +760 -0
kailash/nodes/security/security_event.py +133 -0
kailash/nodes/security/threat_detection.py +1103 -0
kailash/nodes/testing/__init__.py +9 -0
kailash/nodes/testing/credential_testing.py +499 -0
kailash/nodes/transform/__init__.py +10 -2
kailash/nodes/transform/chunkers.py +592 -1
kailash/nodes/transform/processors.py +484 -14
kailash/nodes/validation.py +321 -0
kailash/runtime/access_controlled.py +1 -1
kailash/runtime/async_local.py +41 -7
kailash/runtime/docker.py +1 -1
kailash/runtime/local.py +474 -55
kailash/runtime/parallel.py +1 -1
kailash/runtime/parallel_cyclic.py +1 -1
kailash/runtime/testing.py +210 -2
kailash/security.py +1 -1
kailash/utils/migrations/__init__.py +25 -0
kailash/utils/migrations/generator.py +433 -0
kailash/utils/migrations/models.py +231 -0
kailash/utils/migrations/runner.py +489 -0
kailash/utils/secure_logging.py +342 -0
kailash/workflow/__init__.py +16 -0
kailash/workflow/cyclic_runner.py +3 -4
kailash/workflow/graph.py +70 -2
kailash/workflow/resilience.py +249 -0
kailash/workflow/templates.py +726 -0
{kailash-0.3.2.dist-info → kailash-0.4.1.dist-info}/METADATA +256 -20
kailash-0.4.1.dist-info/RECORD +227 -0
kailash/api/__init__.py +0 -17
kailash/api/__main__.py +0 -6
kailash/api/studio_secure.py +0 -893
kailash/mcp/__main__.py +0 -13
kailash/mcp/server_new.py +0 -336
kailash/mcp/servers/__init__.py +0 -12
kailash-0.3.2.dist-info/RECORD +0 -136
{kailash-0.3.2.dist-info → kailash-0.4.1.dist-info}/WHEEL +0 -0
{kailash-0.3.2.dist-info → kailash-0.4.1.dist-info}/entry_points.txt +0 -0
{kailash-0.3.2.dist-info → kailash-0.4.1.dist-info}/licenses/LICENSE +0 -0
{kailash-0.3.2.dist-info → kailash-0.4.1.dist-info}/top_level.txt +0 -0

kailash/nodes/transform/processors.py CHANGED Viewed

@@ -352,15 +352,13 @@ class DataTransformer(Node):
         return validated
     def run(self, **kwargs) -> dict[str, Any]:
-        # Extract the transformation functions
-        transformations = kwargs.get("transformations", [])
+        # Extract the transformation functions from config first, then kwargs
+        transformations = self.config.get("transformations", []) or kwargs.get(
+            "transformations", []
+        )
         if not transformations:
             return {"result": kwargs.get("data", [])}
-        # Debug: Check what kwargs we received
-        print(f"DATATRANSFORMER RUN DEBUG: kwargs keys = {list(kwargs.keys())}")
-        print(f"DATATRANSFORMER RUN DEBUG: kwargs = {kwargs}")
         # Get all input data
         input_data = {}
         for key, value in kwargs.items():
@@ -368,7 +366,13 @@ class DataTransformer(Node):
                 input_data[key] = value
         # Execute the transformations
-        result = input_data.get("data", [])
+        # Initialize result - default to empty dict if no data key and we have other inputs
+        if "data" in input_data:
+            result = input_data["data"]
+        elif input_data:  # If we have other inputs but no 'data' key
+            result = {}  # Default to empty dict instead of list
+        else:
+            result = []  # Only use empty list if no inputs at all
         for transform_str in transformations:
             try:
@@ -386,6 +390,10 @@ class DataTransformer(Node):
                     "float": float,
                     "bool": bool,
                     "sorted": sorted,
+                    "print": print,  # Allow print for debugging
+                    "isinstance": isinstance,
+                    "type": type,
+                    "__builtins__": {"__import__": __import__},  # Allow imports
                 }
                 # For multi-line code blocks
@@ -394,13 +402,8 @@ class DataTransformer(Node):
                     local_vars = input_data.copy()
                     local_vars["result"] = result
-                    # Debug: Print available variables
-                    print(
-                        f"DataTransformer DEBUG - Available variables: {list(local_vars.keys())}"
-                    )
-                    print(
-                        f"DataTransformer DEBUG - Input data keys: {list(input_data.keys())}"
-                    )
+                    # Add a locals function that returns the current local_vars
+                    safe_globals["locals"] = lambda: local_vars
                     # Execute the code block
                     exec(transform_str, safe_globals, local_vars)  # noqa: S102
@@ -473,6 +476,9 @@ class DataTransformer(Node):
             except Exception as e:
                 tb = traceback.format_exc()
                 self.logger.error(f"Error executing transformation: {e}")
+                self.logger.error(f"Transformation: {transform_str}")
+                self.logger.error(f"Input data: {input_data}")
+                self.logger.error(f"Result before error: {result}")
                 raise RuntimeError(
                     f"Error executing transformation '{transform_str}': {str(e)}\n{tb}"
                 )
@@ -523,5 +529,469 @@ class Sort(Node):
         return {"sorted_data": sorted_data}
+@register_node()
+class ContextualCompressorNode(Node):
+    """
+    Contextual compression node that filters and compresses retrieved content
+    to maximize relevant information density for optimal context utilization.
+    This node is essential for managing LLM context windows by intelligently
+    compressing retrieved documents while preserving query-relevant information.
+    It uses multiple compression strategies and relevance scoring to ensure
+    optimal information density.
+    Design Philosophy:
+        The ContextualCompressorNode embodies "information density optimization."
+        Rather than naive truncation, it uses semantic understanding to preserve
+        the most relevant information for the given query while respecting token
+        budget constraints.
+    Upstream Dependencies:
+        - Retrieval nodes providing candidate documents
+        - Embedding nodes for semantic analysis
+        - LLM nodes for relevance scoring
+        - Query transformation nodes
+    Downstream Consumers:
+        - LLM Agent nodes consuming compressed context
+        - Response generation nodes
+        - Context-aware processing nodes
+        - Token-budgeted operations
+    Configuration:
+        - max_tokens: Maximum token budget for compressed output
+        - compression_ratio: Target compression ratio (0.0-1.0)
+        - relevance_threshold: Minimum relevance score for inclusion
+        - compression_strategy: Method for content compression
+    Examples:
+        >>> compressor = ContextualCompressorNode(
+        ...     max_tokens=2000,
+        ...     compression_ratio=0.6,
+        ...     relevance_threshold=0.7
+        ... )
+        >>> result = compressor.run(
+        ...     query="machine learning algorithms",
+        ...     retrieved_docs=[{"content": "...", "metadata": {}}],
+        ...     compression_target=1500
+        ... )
+        >>> compressed_context = result["compressed_context"]
+    """
+    def __init__(self, name: str = "contextual_compressor", **kwargs):
+        # Set attributes before calling super().__init__() as Kailash validates during init
+        self.max_tokens = kwargs.get("max_tokens", 4000)
+        self.compression_ratio = kwargs.get("compression_ratio", 0.6)
+        self.relevance_threshold = kwargs.get("relevance_threshold", 0.7)
+        self.compression_strategy = kwargs.get(
+            "compression_strategy", "extractive_summarization"
+        )
+        super().__init__(name=name)
+    def get_parameters(self) -> dict[str, NodeParameter]:
+        """Get node parameters for Kailash framework."""
+        return {
+            "query": NodeParameter(
+                name="query",
+                type=str,
+                required=True,
+                description="Query for relevance-based compression",
+            ),
+            "retrieved_docs": NodeParameter(
+                name="retrieved_docs",
+                type=list,
+                required=True,
+                description="List of retrieved documents to compress",
+            ),
+            "compression_target": NodeParameter(
+                name="compression_target",
+                type=int,
+                required=False,
+                default=self.max_tokens,
+                description="Target token count for compressed content",
+            ),
+            "max_tokens": NodeParameter(
+                name="max_tokens",
+                type=int,
+                required=False,
+                default=self.max_tokens,
+                description="Maximum tokens for contextual compression",
+            ),
+            "compression_ratio": NodeParameter(
+                name="compression_ratio",
+                type=float,
+                required=False,
+                default=self.compression_ratio,
+                description="Target compression ratio (0.0-1.0)",
+            ),
+            "relevance_threshold": NodeParameter(
+                name="relevance_threshold",
+                type=float,
+                required=False,
+                default=self.relevance_threshold,
+                description="Relevance threshold for passage selection",
+            ),
+            "compression_strategy": NodeParameter(
+                name="compression_strategy",
+                type=str,
+                required=False,
+                default=self.compression_strategy,
+                description="Compression strategy (extractive_summarization, abstractive_synthesis, hierarchical_organization)",
+            ),
+        }
+    def run(self, **kwargs) -> dict[str, Any]:
+        """Run contextual compression on retrieved documents."""
+        query = kwargs.get("query", "")
+        retrieved_docs = kwargs.get("retrieved_docs", [])
+        compression_target = kwargs.get("compression_target", self.max_tokens)
+        if not query:
+            return {
+                "error": "Query is required for contextual compression",
+                "compressed_context": "",
+                "compression_metadata": {},
+            }
+        if not retrieved_docs:
+            return {
+                "compressed_context": "",
+                "compression_metadata": {
+                    "original_document_count": 0,
+                    "selected_passage_count": 0,
+                    "compression_ratio": 0.0,
+                },
+                "num_input_docs": 0,
+                "compression_success": False,
+            }
+        try:
+            # Stage 1: Score passages for relevance
+            scored_passages = self._score_passage_relevance(query, retrieved_docs)
+            # Stage 2: Select optimal passages within budget
+            selected_passages = self._select_optimal_passages(
+                scored_passages, compression_target
+            )
+            # Stage 3: Compress selected content
+            compressed_context = self._compress_selected_content(
+                query, selected_passages
+            )
+            # Stage 4: Generate metadata
+            compression_metadata = self._generate_compression_metadata(
+                retrieved_docs, selected_passages, compressed_context
+            )
+            return {
+                "compressed_context": compressed_context,
+                "compression_metadata": compression_metadata,
+                "selected_passages": selected_passages,
+                "num_input_docs": len(retrieved_docs),
+                "compression_success": len(compressed_context) > 0,
+            }
+        except Exception as e:
+            return {
+                "error": f"Compression failed: {str(e)}",
+                "compressed_context": "",
+                "compression_metadata": {},
+                "num_input_docs": len(retrieved_docs),
+                "compression_success": False,
+            }
+    def _score_passage_relevance(self, query: str, documents: list) -> list:
+        """Score each passage for relevance to the query using heuristic methods."""
+        scored_passages = []
+        query_words = set(query.lower().split())
+        for i, doc in enumerate(documents):
+            content = doc.get("content", "") if isinstance(doc, dict) else str(doc)
+            if not content.strip():
+                continue
+            # Calculate relevance score using multiple factors
+            content_words = set(content.lower().split())
+            # 1. Keyword overlap score
+            keyword_overlap = (
+                len(query_words & content_words) / len(query_words)
+                if query_words
+                else 0
+            )
+            # 2. Content density score (information per word)
+            word_count = len(content_words)
+            density_score = min(1.0, word_count / 100)  # Normalize to reasonable length
+            # 3. Position bonus (earlier documents often more relevant)
+            position_bonus = max(0.1, 1.0 - (i * 0.1))
+            # 4. Original similarity score if available
+            original_score = (
+                doc.get("similarity_score", 0.5) if isinstance(doc, dict) else 0.5
+            )
+            # Combine scores
+            relevance_score = (
+                0.4 * keyword_overlap
+                + 0.2 * density_score
+                + 0.1 * position_bonus
+                + 0.3 * original_score
+            )
+            # Apply relevance threshold
+            if relevance_score >= self.relevance_threshold:
+                scored_passages.append(
+                    {
+                        "document": doc,
+                        "content": content,
+                        "relevance_score": relevance_score,
+                        "keyword_overlap": keyword_overlap,
+                        "original_index": i,
+                        "token_count": len(content.split())
+                        * 1.3,  # Rough token estimate
+                    }
+                )
+        # Sort by relevance score
+        scored_passages.sort(key=lambda x: x["relevance_score"], reverse=True)
+        return scored_passages
+    def _select_optimal_passages(
+        self, scored_passages: list, target_tokens: int
+    ) -> list:
+        """Select optimal passages within token budget."""
+        if not scored_passages:
+            return []
+        selected = []
+        total_tokens = 0
+        diversity_threshold = 0.8
+        for passage in scored_passages:
+            passage_tokens = passage["token_count"]
+            # Check token budget
+            if total_tokens + passage_tokens > target_tokens:
+                # Try to fit partial content if it's high value
+                if passage["relevance_score"] > 0.9 and len(selected) < 3:
+                    remaining_tokens = target_tokens - total_tokens
+                    if remaining_tokens > 50:  # Minimum useful content
+                        # Truncate passage to fit
+                        truncated_content = self._truncate_passage(
+                            passage["content"], remaining_tokens
+                        )
+                        passage_copy = passage.copy()
+                        passage_copy["content"] = truncated_content
+                        passage_copy["token_count"] = remaining_tokens
+                        passage_copy["is_truncated"] = True
+                        selected.append(passage_copy)
+                        total_tokens = target_tokens
+                break
+            # Check diversity (avoid near-duplicate content)
+            is_diverse = True
+            for selected_passage in selected:
+                similarity = self._calculate_content_similarity(
+                    passage["content"], selected_passage["content"]
+                )
+                if similarity > diversity_threshold:
+                    is_diverse = False
+                    break
+            if is_diverse:
+                selected.append(passage)
+                total_tokens += passage_tokens
+        return selected
+    def _compress_selected_content(self, query: str, selected_passages: list) -> str:
+        """Compress selected passages into coherent context."""
+        if not selected_passages:
+            return ""
+        # For now, use extractive summarization (concatenate most relevant parts)
+        if self.compression_strategy == "extractive_summarization":
+            return self._extractive_compression(query, selected_passages)
+        elif self.compression_strategy == "abstractive_synthesis":
+            return self._abstractive_compression(query, selected_passages)
+        elif self.compression_strategy == "hierarchical_organization":
+            return self._hierarchical_compression(query, selected_passages)
+        else:
+            # Default to extractive
+            return self._extractive_compression(query, selected_passages)
+    def _extractive_compression(self, query: str, passages: list) -> str:
+        """Extract and concatenate the most relevant sentences."""
+        compressed_parts = []
+        query_words = set(query.lower().split())
+        for passage in passages:
+            content = passage["content"]
+            # Split into sentences
+            sentences = self._split_into_sentences(content)
+            # Score each sentence for relevance
+            sentence_scores = []
+            for sentence in sentences:
+                sentence_words = set(sentence.lower().split())
+                overlap = (
+                    len(query_words & sentence_words) / len(query_words)
+                    if query_words
+                    else 0
+                )
+                sentence_scores.append((sentence, overlap))
+            # Sort by relevance and take top sentences
+            sentence_scores.sort(key=lambda x: x[1], reverse=True)
+            top_sentences = [
+                s[0] for s in sentence_scores[:3]
+            ]  # Top 3 sentences per passage
+            if top_sentences:
+                compressed_parts.append(" ".join(top_sentences))
+        return "\n\n".join(compressed_parts)
+    def _abstractive_compression(self, query: str, passages: list) -> str:
+        """Create abstractive summary (simplified version)."""
+        # In a real implementation, this would use an LLM
+        # For now, create a structured summary
+        key_points = []
+        for passage in passages:
+            content = passage["content"]
+            # Extract key phrases (simplified)
+            sentences = self._split_into_sentences(content)
+            if sentences:
+                # Take first and last sentence as key points
+                key_points.append(sentences[0])
+                if len(sentences) > 1:
+                    key_points.append(sentences[-1])
+        return f"Summary for query '{query}':\n" + "\n".join(
+            f"• {point}" for point in key_points[:10]
+        )
+    def _hierarchical_compression(self, query: str, passages: list) -> str:
+        """Organize information hierarchically."""
+        organized_content = {
+            "primary_information": [],
+            "supporting_details": [],
+            "additional_context": [],
+        }
+        for i, passage in enumerate(passages):
+            content = passage["content"]
+            relevance = passage["relevance_score"]
+            if relevance > 0.8:
+                organized_content["primary_information"].append(content)
+            elif relevance > 0.6:
+                organized_content["supporting_details"].append(content)
+            else:
+                organized_content["additional_context"].append(content)
+        result_parts = []
+        if organized_content["primary_information"]:
+            result_parts.append("PRIMARY INFORMATION:")
+            result_parts.extend(organized_content["primary_information"])
+        if organized_content["supporting_details"]:
+            result_parts.append("\nSUPPORTING DETAILS:")
+            result_parts.extend(organized_content["supporting_details"])
+        if organized_content["additional_context"]:
+            result_parts.append("\nADDITIONAL CONTEXT:")
+            result_parts.extend(
+                organized_content["additional_context"][:2]
+            )  # Limit additional context
+        return "\n".join(result_parts)
+    def _split_into_sentences(self, text: str) -> list:
+        """Split text into sentences (simplified)."""
+        import re
+        sentences = re.split(r"[.!?]+", text)
+        return [s.strip() for s in sentences if s.strip()]
+    def _calculate_content_similarity(self, content1: str, content2: str) -> float:
+        """Calculate Jaccard similarity between two content pieces."""
+        words1 = set(content1.lower().split())
+        words2 = set(content2.lower().split())
+        if not words1 or not words2:
+            return 0.0
+        intersection = len(words1 & words2)
+        union = len(words1 | words2)
+        return intersection / union if union > 0 else 0.0
+    def _truncate_passage(self, content: str, max_tokens: int) -> str:
+        """Intelligently truncate passage to fit token budget."""
+        words = content.split()
+        target_words = int(max_tokens / 1.3)  # Rough token-to-word ratio
+        if len(words) <= target_words:
+            return content
+        # Try to end at sentence boundary
+        truncated_words = words[:target_words]
+        truncated_text = " ".join(truncated_words)
+        # Find last sentence boundary
+        last_sentence_end = max(
+            truncated_text.rfind("."),
+            truncated_text.rfind("!"),
+            truncated_text.rfind("?"),
+        )
+        if (
+            last_sentence_end > len(truncated_text) * 0.7
+        ):  # If we can preserve most content
+            return truncated_text[: last_sentence_end + 1]
+        else:
+            return truncated_text + "..."
+    def _generate_compression_metadata(
+        self, original_docs: list, selected_passages: list, compressed_context: str
+    ) -> dict:
+        """Generate metadata about the compression process."""
+        original_length = sum(
+            len(doc.get("content", "") if isinstance(doc, dict) else str(doc))
+            for doc in original_docs
+        )
+        compressed_length = len(compressed_context)
+        return {
+            "original_document_count": len(original_docs),
+            "selected_passage_count": len(selected_passages),
+            "original_char_count": original_length,
+            "compressed_char_count": compressed_length,
+            "compression_ratio": (
+                compressed_length / original_length if original_length > 0 else 0
+            ),
+            "avg_relevance_score": (
+                sum(p["relevance_score"] for p in selected_passages)
+                / len(selected_passages)
+                if selected_passages
+                else 0
+            ),
+            "compression_strategy": self.compression_strategy,
+            "token_budget": self.max_tokens,
+            "passages_truncated": sum(
+                1 for p in selected_passages if p.get("is_truncated", False)
+            ),
+        }
 # Backward compatibility aliases
 Filter = FilterNode

kailash 0.3.2__py3-none-any.whl → 0.4.1__py3-none-any.whl

kailash 0.3.2py3-none-any.whl → 0.4.1py3-none-any.whl