PyPI - runbooks - Versions diffs - 1.1.3__py3-none-any.whl → 1.1.5__py3-none-any.whl - Mend

runbooks 1.1.3py3-none-any.whl → 1.1.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (247) hide show

runbooks/__init__.py +31 -2
runbooks/__init___optimized.py +18 -4
runbooks/_platform/__init__.py +1 -5
runbooks/_platform/core/runbooks_wrapper.py +141 -138
runbooks/aws2/accuracy_validator.py +812 -0
runbooks/base.py +7 -0
runbooks/cfat/WEIGHT_CONFIG_README.md +1 -1
runbooks/cfat/assessment/compliance.py +8 -8
runbooks/cfat/assessment/runner.py +1 -0
runbooks/cfat/cloud_foundations_assessment.py +227 -239
runbooks/cfat/models.py +6 -2
runbooks/cfat/tests/__init__.py +6 -1
runbooks/cli/__init__.py +13 -0
runbooks/cli/commands/cfat.py +274 -0
runbooks/cli/commands/finops.py +1164 -0
runbooks/cli/commands/inventory.py +379 -0
runbooks/cli/commands/operate.py +239 -0
runbooks/cli/commands/security.py +248 -0
runbooks/cli/commands/validation.py +825 -0
runbooks/cli/commands/vpc.py +310 -0
runbooks/cli/registry.py +107 -0
runbooks/cloudops/__init__.py +23 -30
runbooks/cloudops/base.py +96 -107
runbooks/cloudops/cost_optimizer.py +549 -547
runbooks/cloudops/infrastructure_optimizer.py +5 -4
runbooks/cloudops/interfaces.py +226 -227
runbooks/cloudops/lifecycle_manager.py +5 -4
runbooks/cloudops/mcp_cost_validation.py +252 -235
runbooks/cloudops/models.py +78 -53
runbooks/cloudops/monitoring_automation.py +5 -4
runbooks/cloudops/notebook_framework.py +179 -215
runbooks/cloudops/security_enforcer.py +125 -159
runbooks/common/accuracy_validator.py +11 -0
runbooks/common/aws_pricing.py +349 -326
runbooks/common/aws_pricing_api.py +211 -212
runbooks/common/aws_profile_manager.py +341 -0
runbooks/common/aws_utils.py +75 -80
runbooks/common/business_logic.py +127 -105
runbooks/common/cli_decorators.py +36 -60
runbooks/common/comprehensive_cost_explorer_integration.py +456 -464
runbooks/common/cross_account_manager.py +198 -205
runbooks/common/date_utils.py +27 -39
runbooks/common/decorators.py +235 -0
runbooks/common/dry_run_examples.py +173 -208
runbooks/common/dry_run_framework.py +157 -155
runbooks/common/enhanced_exception_handler.py +15 -4
runbooks/common/enhanced_logging_example.py +50 -64
runbooks/common/enhanced_logging_integration_example.py +65 -37
runbooks/common/env_utils.py +16 -16
runbooks/common/error_handling.py +40 -38
runbooks/common/lazy_loader.py +41 -23
runbooks/common/logging_integration_helper.py +79 -86
runbooks/common/mcp_cost_explorer_integration.py +478 -495
runbooks/common/mcp_integration.py +63 -74
runbooks/common/memory_optimization.py +140 -118
runbooks/common/module_cli_base.py +37 -58
runbooks/common/organizations_client.py +176 -194
runbooks/common/patterns.py +204 -0
runbooks/common/performance_monitoring.py +67 -71
runbooks/common/performance_optimization_engine.py +283 -274
runbooks/common/profile_utils.py +248 -39
runbooks/common/rich_utils.py +643 -92
runbooks/common/sre_performance_suite.py +177 -186
runbooks/enterprise/__init__.py +1 -1
runbooks/enterprise/logging.py +144 -106
runbooks/enterprise/security.py +187 -204
runbooks/enterprise/validation.py +43 -56
runbooks/finops/__init__.py +29 -33
runbooks/finops/account_resolver.py +1 -1
runbooks/finops/advanced_optimization_engine.py +980 -0
runbooks/finops/automation_core.py +268 -231
runbooks/finops/business_case_config.py +184 -179
runbooks/finops/cli.py +660 -139
runbooks/finops/commvault_ec2_analysis.py +157 -164
runbooks/finops/compute_cost_optimizer.py +336 -320
runbooks/finops/config.py +20 -20
runbooks/finops/cost_optimizer.py +488 -622
runbooks/finops/cost_processor.py +332 -214
runbooks/finops/dashboard_runner.py +1006 -172
runbooks/finops/ebs_cost_optimizer.py +991 -657
runbooks/finops/elastic_ip_optimizer.py +317 -257
runbooks/finops/enhanced_mcp_integration.py +340 -0
runbooks/finops/enhanced_progress.py +40 -37
runbooks/finops/enhanced_trend_visualization.py +3 -2
runbooks/finops/enterprise_wrappers.py +230 -292
runbooks/finops/executive_export.py +203 -160
runbooks/finops/helpers.py +130 -288
runbooks/finops/iam_guidance.py +1 -1
runbooks/finops/infrastructure/__init__.py +80 -0
runbooks/finops/infrastructure/commands.py +506 -0
runbooks/finops/infrastructure/load_balancer_optimizer.py +866 -0
runbooks/finops/infrastructure/vpc_endpoint_optimizer.py +832 -0
runbooks/finops/markdown_exporter.py +338 -175
runbooks/finops/mcp_validator.py +1952 -0
runbooks/finops/nat_gateway_optimizer.py +1513 -482
runbooks/finops/network_cost_optimizer.py +657 -587
runbooks/finops/notebook_utils.py +226 -188
runbooks/finops/optimization_engine.py +1136 -0
runbooks/finops/optimizer.py +25 -29
runbooks/finops/rds_snapshot_optimizer.py +367 -411
runbooks/finops/reservation_optimizer.py +427 -363
runbooks/finops/scenario_cli_integration.py +77 -78
runbooks/finops/scenarios.py +1278 -439
runbooks/finops/schemas.py +218 -182
runbooks/finops/snapshot_manager.py +2289 -0
runbooks/finops/tests/test_finops_dashboard.py +3 -3
runbooks/finops/tests/test_reference_images_validation.py +2 -2
runbooks/finops/tests/test_single_account_features.py +17 -17
runbooks/finops/tests/validate_test_suite.py +1 -1
runbooks/finops/types.py +3 -3
runbooks/finops/validation_framework.py +263 -269
runbooks/finops/vpc_cleanup_exporter.py +191 -146
runbooks/finops/vpc_cleanup_optimizer.py +593 -575
runbooks/finops/workspaces_analyzer.py +171 -182
runbooks/hitl/enhanced_workflow_engine.py +1 -1
runbooks/integration/__init__.py +89 -0
runbooks/integration/mcp_integration.py +1920 -0
runbooks/inventory/CLAUDE.md +816 -0
runbooks/inventory/README.md +3 -3
runbooks/inventory/Tests/common_test_data.py +30 -30
runbooks/inventory/__init__.py +2 -2
runbooks/inventory/cloud_foundations_integration.py +144 -149
runbooks/inventory/collectors/aws_comprehensive.py +28 -11
runbooks/inventory/collectors/aws_networking.py +111 -101
runbooks/inventory/collectors/base.py +4 -0
runbooks/inventory/core/collector.py +495 -313
runbooks/inventory/discovery.md +2 -2
runbooks/inventory/drift_detection_cli.py +69 -96
runbooks/inventory/find_ec2_security_groups.py +1 -1
runbooks/inventory/inventory_mcp_cli.py +48 -46
runbooks/inventory/list_rds_snapshots_aggregator.py +192 -208
runbooks/inventory/mcp_inventory_validator.py +549 -465
runbooks/inventory/mcp_vpc_validator.py +359 -442
runbooks/inventory/organizations_discovery.py +56 -52
runbooks/inventory/rich_inventory_display.py +33 -32
runbooks/inventory/unified_validation_engine.py +278 -251
runbooks/inventory/vpc_analyzer.py +733 -696
runbooks/inventory/vpc_architecture_validator.py +293 -348
runbooks/inventory/vpc_dependency_analyzer.py +382 -378
runbooks/inventory/vpc_flow_analyzer.py +3 -3
runbooks/main.py +152 -9147
runbooks/main_final.py +91 -60
runbooks/main_minimal.py +22 -10
runbooks/main_optimized.py +131 -100
runbooks/main_ultra_minimal.py +7 -2
runbooks/mcp/__init__.py +36 -0
runbooks/mcp/integration.py +679 -0
runbooks/metrics/dora_metrics_engine.py +2 -2
runbooks/monitoring/performance_monitor.py +9 -4
runbooks/operate/dynamodb_operations.py +3 -1
runbooks/operate/ec2_operations.py +145 -137
runbooks/operate/iam_operations.py +146 -152
runbooks/operate/mcp_integration.py +1 -1
runbooks/operate/networking_cost_heatmap.py +33 -10
runbooks/operate/privatelink_operations.py +1 -1
runbooks/operate/rds_operations.py +223 -254
runbooks/operate/s3_operations.py +107 -118
runbooks/operate/vpc_endpoints.py +1 -1
runbooks/operate/vpc_operations.py +648 -618
runbooks/remediation/base.py +1 -1
runbooks/remediation/commons.py +10 -7
runbooks/remediation/commvault_ec2_analysis.py +71 -67
runbooks/remediation/ec2_unattached_ebs_volumes.py +1 -0
runbooks/remediation/multi_account.py +24 -21
runbooks/remediation/rds_snapshot_list.py +91 -65
runbooks/remediation/remediation_cli.py +92 -146
runbooks/remediation/universal_account_discovery.py +83 -79
runbooks/remediation/workspaces_list.py +49 -44
runbooks/security/__init__.py +19 -0
runbooks/security/assessment_runner.py +1150 -0
runbooks/security/baseline_checker.py +812 -0
runbooks/security/cloudops_automation_security_validator.py +509 -535
runbooks/security/compliance_automation_engine.py +17 -17
runbooks/security/config/__init__.py +2 -2
runbooks/security/config/compliance_config.py +50 -50
runbooks/security/config_template_generator.py +63 -76
runbooks/security/enterprise_security_framework.py +1 -1
runbooks/security/executive_security_dashboard.py +519 -508
runbooks/security/integration_test_enterprise_security.py +5 -3
runbooks/security/multi_account_security_controls.py +959 -1210
runbooks/security/real_time_security_monitor.py +422 -444
runbooks/security/run_script.py +1 -1
runbooks/security/security_baseline_tester.py +1 -1
runbooks/security/security_cli.py +143 -112
runbooks/security/test_2way_validation.py +439 -0
runbooks/security/two_way_validation_framework.py +852 -0
runbooks/sre/mcp_reliability_engine.py +6 -6
runbooks/sre/production_monitoring_framework.py +167 -177
runbooks/tdd/__init__.py +15 -0
runbooks/tdd/cli.py +1071 -0
runbooks/utils/__init__.py +14 -17
runbooks/utils/logger.py +7 -2
runbooks/utils/version_validator.py +51 -48
runbooks/validation/__init__.py +6 -6
runbooks/validation/cli.py +9 -3
runbooks/validation/comprehensive_2way_validator.py +754 -708
runbooks/validation/mcp_validator.py +906 -228
runbooks/validation/terraform_citations_validator.py +104 -115
runbooks/validation/terraform_drift_detector.py +447 -451
runbooks/vpc/README.md +617 -0
runbooks/vpc/__init__.py +8 -1
runbooks/vpc/analyzer.py +577 -0
runbooks/vpc/cleanup_wrapper.py +476 -413
runbooks/vpc/cli_cloudtrail_commands.py +339 -0
runbooks/vpc/cli_mcp_validation_commands.py +480 -0
runbooks/vpc/cloudtrail_audit_integration.py +717 -0
runbooks/vpc/config.py +92 -97
runbooks/vpc/cost_engine.py +411 -148
runbooks/vpc/cost_explorer_integration.py +553 -0
runbooks/vpc/cross_account_session.py +101 -106
runbooks/vpc/enhanced_mcp_validation.py +917 -0
runbooks/vpc/eni_gate_validator.py +961 -0
runbooks/vpc/heatmap_engine.py +190 -162
runbooks/vpc/mcp_no_eni_validator.py +681 -640
runbooks/vpc/nat_gateway_optimizer.py +358 -0
runbooks/vpc/networking_wrapper.py +15 -8
runbooks/vpc/pdca_remediation_planner.py +528 -0
runbooks/vpc/performance_optimized_analyzer.py +219 -231
runbooks/vpc/runbooks_adapter.py +1167 -241
runbooks/vpc/tdd_red_phase_stubs.py +601 -0
runbooks/vpc/test_data_loader.py +358 -0
runbooks/vpc/tests/conftest.py +314 -4
runbooks/vpc/tests/test_cleanup_framework.py +1022 -0
runbooks/vpc/tests/test_cost_engine.py +0 -2
runbooks/vpc/topology_generator.py +326 -0
runbooks/vpc/unified_scenarios.py +1302 -1129
runbooks/vpc/vpc_cleanup_integration.py +1943 -1115
runbooks-1.1.5.dist-info/METADATA +328 -0
{runbooks-1.1.3.dist-info → runbooks-1.1.5.dist-info}/RECORD +233 -200
runbooks/finops/README.md +0 -414
runbooks/finops/accuracy_cross_validator.py +0 -647
runbooks/finops/business_cases.py +0 -950
runbooks/finops/dashboard_router.py +0 -922
runbooks/finops/ebs_optimizer.py +0 -956
runbooks/finops/embedded_mcp_validator.py +0 -1629
runbooks/finops/enhanced_dashboard_runner.py +0 -527
runbooks/finops/finops_dashboard.py +0 -584
runbooks/finops/finops_scenarios.py +0 -1218
runbooks/finops/legacy_migration.py +0 -730
runbooks/finops/multi_dashboard.py +0 -1519
runbooks/finops/single_dashboard.py +0 -1113
runbooks/finops/unlimited_scenarios.py +0 -393
runbooks-1.1.3.dist-info/METADATA +0 -799
{runbooks-1.1.3.dist-info → runbooks-1.1.5.dist-info}/WHEEL +0 -0
{runbooks-1.1.3.dist-info → runbooks-1.1.5.dist-info}/entry_points.txt +0 -0
{runbooks-1.1.3.dist-info → runbooks-1.1.5.dist-info}/licenses/LICENSE +0 -0
{runbooks-1.1.3.dist-info → runbooks-1.1.5.dist-info}/top_level.txt +0 -0

runbooks/sre/production_monitoring_framework.py CHANGED Viewed

@@ -50,7 +50,7 @@ from runbooks.common.rich_utils import (
 class AlertSeverity(Enum):
     """Alert severity levels for monitoring framework."""
     INFO = "INFO"
     WARNING = "WARNING"
     CRITICAL = "CRITICAL"
@@ -59,7 +59,7 @@ class AlertSeverity(Enum):
 class OperationStatus(Enum):
     """Operation status for monitoring."""
     HEALTHY = "HEALTHY"
     DEGRADED = "DEGRADED"
     UNHEALTHY = "UNHEALTHY"
@@ -69,7 +69,7 @@ class OperationStatus(Enum):
 @dataclass
 class SLATarget:
     """SLA target definition with thresholds."""
     name: str
     target_value: float
     warning_threshold: float
@@ -81,7 +81,7 @@ class SLATarget:
 @dataclass
 class MonitoringMetric:
     """Individual monitoring metric result."""
     metric_name: str
     current_value: float
     target_value: float
@@ -93,7 +93,7 @@ class MonitoringMetric:
 @dataclass
 class AlertEvent:
     """Alert event structure."""
     alert_id: str
     severity: AlertSeverity
     metric_name: str
@@ -107,201 +107,195 @@ class AlertEvent:
 class ProductionMonitoringFramework:
     """
     Enterprise production monitoring framework for CloudOps operations.
     Monitors SLA compliance, performance metrics, and operational health
     across 61-account enterprise environment.
     """
     def __init__(self, console_instance: Optional[Console] = None):
         """
         Initialize production monitoring framework.
         Args:
             console_instance: Rich console for output
         """
         self.console = console_instance or console
         self.start_time = time.time()
         # SLA targets for enterprise operations
         self.sla_targets = {
-            'availability': SLATarget(
-                name='availability',
+            "availability": SLATarget(
+                name="availability",
                 target_value=99.9,
                 warning_threshold=99.5,
                 critical_threshold=99.0,
-                unit='%',
-                description='System availability percentage'
+                unit="%",
+                description="System availability percentage",
             ),
-            'latency_p95': SLATarget(
-                name='latency_p95',
+            "latency_p95": SLATarget(
+                name="latency_p95",
                 target_value=30.0,
                 warning_threshold=45.0,
                 critical_threshold=60.0,
-                unit='seconds',
-                description='95th percentile operation latency'
+                unit="seconds",
+                description="95th percentile operation latency",
             ),
-            'success_rate': SLATarget(
-                name='success_rate',
+            "success_rate": SLATarget(
+                name="success_rate",
                 target_value=95.0,
                 warning_threshold=90.0,
                 critical_threshold=85.0,
-                unit='%',
-                description='Operation success rate'
+                unit="%",
+                description="Operation success rate",
             ),
-            'error_budget': SLATarget(
-                name='error_budget',
+            "error_budget": SLATarget(
+                name="error_budget",
                 target_value=0.1,
                 warning_threshold=0.05,
                 critical_threshold=0.01,
-                unit='%',
-                description='Monthly error budget remaining'
-            )
+                unit="%",
+                description="Monthly error budget remaining",
+            ),
         }
         # Monitoring state
         self.active_alerts = []
         self.metrics_history = []
         self.circuit_breaker_state = {}
         self.monitoring_active = False
         # Performance tracking
         self.operation_metrics = {
-            'total_operations': 0,
-            'successful_operations': 0,
-            'failed_operations': 0,
-            'average_latency': 0.0,
-            'p95_latency': 0.0
+            "total_operations": 0,
+            "successful_operations": 0,
+            "failed_operations": 0,
+            "average_latency": 0.0,
+            "p95_latency": 0.0,
         }
     async def start_monitoring(self, interval_seconds: int = 60) -> None:
         """
         Start continuous monitoring loop.
         Args:
             interval_seconds: Monitoring interval in seconds
         """
         self.monitoring_active = True
         print_success("🚀 Production monitoring framework started")
         with Live(self._create_monitoring_dashboard(), refresh_per_second=1, console=self.console) as live:
             while self.monitoring_active:
                 try:
                     # Collect current metrics
                     current_metrics = await self._collect_current_metrics()
                     # Evaluate SLA compliance
                     sla_violations = self._evaluate_sla_compliance(current_metrics)
                     # Process alerts
                     await self._process_alerts(sla_violations)
                     # Update circuit breaker states
                     self._update_circuit_breakers(current_metrics)
                     # Update dashboard
                     live.update(self._create_monitoring_dashboard())
                     # Store metrics history
-                    self.metrics_history.append({
-                        'timestamp': datetime.now(),
-                        'metrics': current_metrics
-                    })
+                    self.metrics_history.append({"timestamp": datetime.now(), "metrics": current_metrics})
                     # Clean old history (keep 24 hours)
                     self._cleanup_metrics_history()
                     await asyncio.sleep(interval_seconds)
                 except Exception as e:
                     print_error(f"Monitoring loop error: {str(e)}")
                     await asyncio.sleep(5)  # Short retry interval
     async def stop_monitoring(self) -> None:
         """Stop the monitoring framework gracefully."""
         self.monitoring_active = False
         print_info("📊 Production monitoring framework stopped")
     async def _collect_current_metrics(self) -> Dict[str, MonitoringMetric]:
         """
         Collect current operational metrics.
         Returns:
             Dictionary of current metrics
         """
         current_metrics = {}
         # Calculate availability (based on successful operations)
-        total_ops = max(self.operation_metrics['total_operations'], 1)
-        success_ops = self.operation_metrics['successful_operations']
+        total_ops = max(self.operation_metrics["total_operations"], 1)
+        success_ops = self.operation_metrics["successful_operations"]
         availability = (success_ops / total_ops) * 100
-        current_metrics['availability'] = MonitoringMetric(
-            metric_name='availability',
+        current_metrics["availability"] = MonitoringMetric(
+            metric_name="availability",
             current_value=availability,
-            target_value=self.sla_targets['availability'].target_value,
-            status=self._determine_status('availability', availability),
+            target_value=self.sla_targets["availability"].target_value,
+            status=self._determine_status("availability", availability),
             timestamp=datetime.now(),
             details={
-                'total_operations': total_ops,
-                'successful_operations': success_ops,
-                'failed_operations': self.operation_metrics['failed_operations']
-            }
+                "total_operations": total_ops,
+                "successful_operations": success_ops,
+                "failed_operations": self.operation_metrics["failed_operations"],
+            },
         )
         # P95 latency monitoring
-        p95_latency = self.operation_metrics['p95_latency']
-        current_metrics['latency_p95'] = MonitoringMetric(
-            metric_name='latency_p95',
+        p95_latency = self.operation_metrics["p95_latency"]
+        current_metrics["latency_p95"] = MonitoringMetric(
+            metric_name="latency_p95",
             current_value=p95_latency,
-            target_value=self.sla_targets['latency_p95'].target_value,
-            status=self._determine_status('latency_p95', p95_latency),
+            target_value=self.sla_targets["latency_p95"].target_value,
+            status=self._determine_status("latency_p95", p95_latency),
             timestamp=datetime.now(),
-            details={
-                'average_latency': self.operation_metrics['average_latency'],
-                'p95_latency': p95_latency
-            }
+            details={"average_latency": self.operation_metrics["average_latency"], "p95_latency": p95_latency},
         )
         # Success rate monitoring
         success_rate = (success_ops / total_ops) * 100
-        current_metrics['success_rate'] = MonitoringMetric(
-            metric_name='success_rate',
+        current_metrics["success_rate"] = MonitoringMetric(
+            metric_name="success_rate",
             current_value=success_rate,
-            target_value=self.sla_targets['success_rate'].target_value,
-            status=self._determine_status('success_rate', success_rate),
+            target_value=self.sla_targets["success_rate"].target_value,
+            status=self._determine_status("success_rate", success_rate),
             timestamp=datetime.now(),
-            details={'success_percentage': success_rate}
+            details={"success_percentage": success_rate},
         )
         # Error budget monitoring (simplified calculation)
-        error_budget = max(0.0, 1.0 - (self.operation_metrics['failed_operations'] / total_ops)) * 100
-        current_metrics['error_budget'] = MonitoringMetric(
-            metric_name='error_budget',
+        error_budget = max(0.0, 1.0 - (self.operation_metrics["failed_operations"] / total_ops)) * 100
+        current_metrics["error_budget"] = MonitoringMetric(
+            metric_name="error_budget",
             current_value=error_budget,
-            target_value=self.sla_targets['error_budget'].target_value,
-            status=self._determine_status('error_budget', error_budget),
+            target_value=self.sla_targets["error_budget"].target_value,
+            status=self._determine_status("error_budget", error_budget),
             timestamp=datetime.now(),
-            details={'error_budget_remaining': error_budget}
+            details={"error_budget_remaining": error_budget},
         )
         return current_metrics
     def _determine_status(self, metric_name: str, current_value: float) -> OperationStatus:
         """
         Determine operation status based on current value and thresholds.
         Args:
             metric_name: Name of the metric
             current_value: Current metric value
         Returns:
             OperationStatus enum value
         """
         sla = self.sla_targets[metric_name]
         # For latency, higher is worse
-        if metric_name == 'latency_p95':
+        if metric_name == "latency_p95":
             if current_value <= sla.target_value:
                 return OperationStatus.HEALTHY
             elif current_value <= sla.warning_threshold:
@@ -310,7 +304,7 @@ class ProductionMonitoringFramework:
                 return OperationStatus.UNHEALTHY
             else:
                 return OperationStatus.CRITICAL
         # For other metrics, lower is worse
         else:
             if current_value >= sla.target_value:
@@ -321,29 +315,29 @@ class ProductionMonitoringFramework:
                 return OperationStatus.UNHEALTHY
             else:
                 return OperationStatus.CRITICAL
     def _evaluate_sla_compliance(self, current_metrics: Dict[str, MonitoringMetric]) -> List[MonitoringMetric]:
         """
         Evaluate SLA compliance and identify violations.
         Args:
             current_metrics: Current metric values
         Returns:
             List of metrics that violate SLA thresholds
         """
         violations = []
         for metric in current_metrics.values():
             if metric.status in [OperationStatus.UNHEALTHY, OperationStatus.CRITICAL]:
                 violations.append(metric)
         return violations
     async def _process_alerts(self, violations: List[MonitoringMetric]) -> None:
         """
         Process SLA violations and generate alerts.
         Args:
             violations: List of metric violations
         """
@@ -351,23 +345,25 @@ class ProductionMonitoringFramework:
             # Create alert event
             alert = AlertEvent(
                 alert_id=f"SLA-{violation.metric_name}-{int(time.time())}",
-                severity=AlertSeverity.CRITICAL if violation.status == OperationStatus.CRITICAL else AlertSeverity.WARNING,
+                severity=AlertSeverity.CRITICAL
+                if violation.status == OperationStatus.CRITICAL
+                else AlertSeverity.WARNING,
                 metric_name=violation.metric_name,
                 current_value=violation.current_value,
                 threshold_value=self.sla_targets[violation.metric_name].critical_threshold,
                 message=f"SLA violation detected for {violation.metric_name}: {violation.current_value:.2f}{self.sla_targets[violation.metric_name].unit}",
-                timestamp=datetime.now()
+                timestamp=datetime.now(),
             )
             # Add to active alerts if not already present
             if not any(a.metric_name == alert.metric_name and not a.resolved for a in self.active_alerts):
                 self.active_alerts.append(alert)
                 await self._send_alert(alert)
     async def _send_alert(self, alert: AlertEvent) -> None:
         """
         Send alert notification (placeholder for integration with alerting systems).
         Args:
             alert: Alert event to send
         """
@@ -376,32 +372,32 @@ class ProductionMonitoringFramework:
         # - PagerDuty/OpsGenie
         # - Email notifications
         # - ServiceNow incidents
         if alert.severity == AlertSeverity.CRITICAL:
             print_error(f"🚨 CRITICAL ALERT: {alert.message}")
         else:
             print_warning(f"⚠️  WARNING ALERT: {alert.message}")
     def _update_circuit_breakers(self, current_metrics: Dict[str, MonitoringMetric]) -> None:
         """
         Update circuit breaker states based on current metrics.
         Args:
             current_metrics: Current metric values
         """
         for metric_name, metric in current_metrics.items():
             if metric.status == OperationStatus.CRITICAL:
-                self.circuit_breaker_state[metric_name] = 'OPEN'
+                self.circuit_breaker_state[metric_name] = "OPEN"
             elif metric.status == OperationStatus.HEALTHY:
-                self.circuit_breaker_state[metric_name] = 'CLOSED'
+                self.circuit_breaker_state[metric_name] = "CLOSED"
             else:
                 # Keep current state for degraded/unhealthy
                 pass
     def _create_monitoring_dashboard(self) -> Panel:
         """
         Create Rich dashboard for monitoring display.
         Returns:
             Rich Panel with monitoring dashboard
         """
@@ -411,136 +407,130 @@ class ProductionMonitoringFramework:
         metrics_table.add_column("Current", style="yellow")
         metrics_table.add_column("Target", style="green")
         metrics_table.add_column("Status", style="blue")
         for sla_name, sla in self.sla_targets.items():
             # Get current value from operation metrics
-            if sla_name == 'availability':
-                total = max(self.operation_metrics['total_operations'], 1)
-                current = (self.operation_metrics['successful_operations'] / total) * 100
-            elif sla_name == 'latency_p95':
-                current = self.operation_metrics['p95_latency']
-            elif sla_name == 'success_rate':
-                total = max(self.operation_metrics['total_operations'], 1)
-                current = (self.operation_metrics['successful_operations'] / total) * 100
+            if sla_name == "availability":
+                total = max(self.operation_metrics["total_operations"], 1)
+                current = (self.operation_metrics["successful_operations"] / total) * 100
+            elif sla_name == "latency_p95":
+                current = self.operation_metrics["p95_latency"]
+            elif sla_name == "success_rate":
+                total = max(self.operation_metrics["total_operations"], 1)
+                current = (self.operation_metrics["successful_operations"] / total) * 100
             else:  # error_budget
                 current = 0.1  # Placeholder calculation
             status = self._determine_status(sla_name, current)
             status_color = {
                 OperationStatus.HEALTHY: "[green]HEALTHY[/green]",
                 OperationStatus.DEGRADED: "[yellow]DEGRADED[/yellow]",
                 OperationStatus.UNHEALTHY: "[red]UNHEALTHY[/red]",
-                OperationStatus.CRITICAL: "[red bold]CRITICAL[/red bold]"
+                OperationStatus.CRITICAL: "[red bold]CRITICAL[/red bold]",
             }[status]
             metrics_table.add_row(
-                sla.description,
-                f"{current:.2f}{sla.unit}",
-                f"{sla.target_value:.2f}{sla.unit}",
-                status_color
+                sla.description, f"{current:.2f}{sla.unit}", f"{sla.target_value:.2f}{sla.unit}", status_color
             )
         # Active alerts table
         alerts_table = Table(title="🚨 Active Alerts")
         alerts_table.add_column("Severity", style="red")
         alerts_table.add_column("Metric", style="cyan")
         alerts_table.add_column("Message", style="yellow")
         alerts_table.add_column("Time", style="blue")
         active_alerts = [a for a in self.active_alerts if not a.resolved][-5:]  # Show last 5
         for alert in active_alerts:
             alerts_table.add_row(
                 alert.severity.value,
                 alert.metric_name,
                 alert.message[:50] + "..." if len(alert.message) > 50 else alert.message,
-                alert.timestamp.strftime("%H:%M:%S")
+                alert.timestamp.strftime("%H:%M:%S"),
             )
         if not active_alerts:
             alerts_table.add_row("None", "All systems operational", "No active alerts", "")
         # Create dashboard layout
         dashboard_content = f"""
 [bold blue]CloudOps Production Monitoring Dashboard[/bold blue]
-📊 Operations: {self.operation_metrics['total_operations']} total
-✅ Success: {self.operation_metrics['successful_operations']}
-❌ Failed: {self.operation_metrics['failed_operations']}
-⏱️  Avg Latency: {self.operation_metrics['average_latency']:.2f}s
+📊 Operations: {self.operation_metrics["total_operations"]} total
+✅ Success: {self.operation_metrics["successful_operations"]}
+❌ Failed: {self.operation_metrics["failed_operations"]}
+⏱️  Avg Latency: {self.operation_metrics["average_latency"]:.2f}s
 {metrics_table}
 {alerts_table}
-🔧 Circuit Breakers: {len([k for k, v in self.circuit_breaker_state.items() if v == 'OPEN'])} OPEN
+🔧 Circuit Breakers: {len([k for k, v in self.circuit_breaker_state.items() if v == "OPEN"])} OPEN
 ⚡ Uptime: {time.time() - self.start_time:.0f}s
 """
         return create_panel(dashboard_content, title="Enterprise SRE Monitoring")
     def _cleanup_metrics_history(self) -> None:
         """Clean up old metrics history to prevent memory leaks."""
         cutoff_time = datetime.now() - timedelta(hours=24)
-        self.metrics_history = [
-            entry for entry in self.metrics_history
-            if entry['timestamp'] > cutoff_time
-        ]
+        self.metrics_history = [entry for entry in self.metrics_history if entry["timestamp"] > cutoff_time]
     # Public interface for recording operations
     def record_operation_start(self, operation_name: str) -> str:
         """
         Record the start of an operation for monitoring.
         Args:
             operation_name: Name of the operation
         Returns:
             Operation tracking ID
         """
         operation_id = f"{operation_name}-{int(time.time())}"
-        self.operation_metrics['total_operations'] += 1
+        self.operation_metrics["total_operations"] += 1
         return operation_id
     def record_operation_success(self, operation_id: str, latency: float) -> None:
         """
         Record successful operation completion.
         Args:
             operation_id: Operation tracking ID
             latency: Operation latency in seconds
         """
-        self.operation_metrics['successful_operations'] += 1
+        self.operation_metrics["successful_operations"] += 1
         # Update latency metrics (simplified calculation)
-        total_ops = self.operation_metrics['total_operations']
-        current_avg = self.operation_metrics['average_latency']
+        total_ops = self.operation_metrics["total_operations"]
+        current_avg = self.operation_metrics["average_latency"]
         new_avg = ((current_avg * (total_ops - 1)) + latency) / total_ops
-        self.operation_metrics['average_latency'] = new_avg
+        self.operation_metrics["average_latency"] = new_avg
         # Simplified P95 calculation (use 95% of max latency seen)
-        self.operation_metrics['p95_latency'] = max(self.operation_metrics['p95_latency'], latency * 0.95)
+        self.operation_metrics["p95_latency"] = max(self.operation_metrics["p95_latency"], latency * 0.95)
     def record_operation_failure(self, operation_id: str, error: str) -> None:
         """
         Record failed operation.
         Args:
             operation_id: Operation tracking ID
             error: Error message
         """
-        self.operation_metrics['failed_operations'] += 1
+        self.operation_metrics["failed_operations"] += 1
     def is_circuit_breaker_open(self, metric_name: str) -> bool:
         """
         Check if circuit breaker is open for a specific metric.
         Args:
             metric_name: Name of the metric to check
         Returns:
             True if circuit breaker is open
         """
-        return self.circuit_breaker_state.get(metric_name) == 'OPEN'
+        return self.circuit_breaker_state.get(metric_name) == "OPEN"
 # Export public interface
@@ -557,28 +547,28 @@ __all__ = [
 # CLI interface for running monitoring
 if __name__ == "__main__":
     import argparse
     parser = argparse.ArgumentParser(description="CloudOps Production Monitoring Framework")
     parser.add_argument("--interval", type=int, default=60, help="Monitoring interval in seconds")
     parser.add_argument("--demo", action="store_true", help="Run in demo mode with simulated metrics")
     args = parser.parse_args()
     async def main():
         monitoring = ProductionMonitoringFramework()
         if args.demo:
             # Simulate some operations for demo
-            monitoring.operation_metrics['total_operations'] = 1000
-            monitoring.operation_metrics['successful_operations'] = 950
-            monitoring.operation_metrics['failed_operations'] = 50
-            monitoring.operation_metrics['average_latency'] = 15.5
-            monitoring.operation_metrics['p95_latency'] = 28.2
+            monitoring.operation_metrics["total_operations"] = 1000
+            monitoring.operation_metrics["successful_operations"] = 950
+            monitoring.operation_metrics["failed_operations"] = 50
+            monitoring.operation_metrics["average_latency"] = 15.5
+            monitoring.operation_metrics["p95_latency"] = 28.2
         await monitoring.start_monitoring(args.interval)
     # Run the monitoring framework
     try:
         asyncio.run(main())
     except KeyboardInterrupt:
-        console.print("\n[yellow]Monitoring framework stopped by user[/yellow]")
+        console.print("\n[yellow]Monitoring framework stopped by user[/yellow]")

runbooks 1.1.3__py3-none-any.whl → 1.1.5__py3-none-any.whl

runbooks 1.1.3py3-none-any.whl → 1.1.5py3-none-any.whl