PyPI - gitflow-analytics - Versions diffs - 1.0.3__py3-none-any.whl → 1.3.6__py3-none-any.whl - Mend

gitflow-analytics 1.0.3py3-none-any.whl → 1.3.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (116) hide show

gitflow_analytics/_version.py +1 -1
gitflow_analytics/classification/__init__.py +31 -0
gitflow_analytics/classification/batch_classifier.py +752 -0
gitflow_analytics/classification/classifier.py +464 -0
gitflow_analytics/classification/feature_extractor.py +725 -0
gitflow_analytics/classification/linguist_analyzer.py +574 -0
gitflow_analytics/classification/model.py +455 -0
gitflow_analytics/cli.py +4108 -350
gitflow_analytics/cli_rich.py +198 -48
gitflow_analytics/config/__init__.py +43 -0
gitflow_analytics/config/errors.py +261 -0
gitflow_analytics/config/loader.py +904 -0
gitflow_analytics/config/profiles.py +264 -0
gitflow_analytics/config/repository.py +124 -0
gitflow_analytics/config/schema.py +441 -0
gitflow_analytics/config/validator.py +154 -0
gitflow_analytics/config.py +44 -508
gitflow_analytics/core/analyzer.py +1209 -98
gitflow_analytics/core/cache.py +1337 -29
gitflow_analytics/core/data_fetcher.py +1193 -0
gitflow_analytics/core/identity.py +363 -14
gitflow_analytics/core/metrics_storage.py +526 -0
gitflow_analytics/core/progress.py +372 -0
gitflow_analytics/core/schema_version.py +269 -0
gitflow_analytics/extractors/ml_tickets.py +1100 -0
gitflow_analytics/extractors/story_points.py +8 -1
gitflow_analytics/extractors/tickets.py +749 -11
gitflow_analytics/identity_llm/__init__.py +6 -0
gitflow_analytics/identity_llm/analysis_pass.py +231 -0
gitflow_analytics/identity_llm/analyzer.py +464 -0
gitflow_analytics/identity_llm/models.py +76 -0
gitflow_analytics/integrations/github_integration.py +175 -11
gitflow_analytics/integrations/jira_integration.py +461 -24
gitflow_analytics/integrations/orchestrator.py +124 -1
gitflow_analytics/metrics/activity_scoring.py +322 -0
gitflow_analytics/metrics/branch_health.py +470 -0
gitflow_analytics/metrics/dora.py +379 -20
gitflow_analytics/models/database.py +843 -53
gitflow_analytics/pm_framework/__init__.py +115 -0
gitflow_analytics/pm_framework/adapters/__init__.py +50 -0
gitflow_analytics/pm_framework/adapters/jira_adapter.py +1845 -0
gitflow_analytics/pm_framework/base.py +406 -0
gitflow_analytics/pm_framework/models.py +211 -0
gitflow_analytics/pm_framework/orchestrator.py +652 -0
gitflow_analytics/pm_framework/registry.py +333 -0
gitflow_analytics/qualitative/__init__.py +9 -10
gitflow_analytics/qualitative/chatgpt_analyzer.py +259 -0
gitflow_analytics/qualitative/classifiers/__init__.py +3 -3
gitflow_analytics/qualitative/classifiers/change_type.py +518 -244
gitflow_analytics/qualitative/classifiers/domain_classifier.py +272 -165
gitflow_analytics/qualitative/classifiers/intent_analyzer.py +321 -222
gitflow_analytics/qualitative/classifiers/llm/__init__.py +35 -0
gitflow_analytics/qualitative/classifiers/llm/base.py +193 -0
gitflow_analytics/qualitative/classifiers/llm/batch_processor.py +383 -0
gitflow_analytics/qualitative/classifiers/llm/cache.py +479 -0
gitflow_analytics/qualitative/classifiers/llm/cost_tracker.py +435 -0
gitflow_analytics/qualitative/classifiers/llm/openai_client.py +403 -0
gitflow_analytics/qualitative/classifiers/llm/prompts.py +373 -0
gitflow_analytics/qualitative/classifiers/llm/response_parser.py +287 -0
gitflow_analytics/qualitative/classifiers/llm_commit_classifier.py +607 -0
gitflow_analytics/qualitative/classifiers/risk_analyzer.py +215 -189
gitflow_analytics/qualitative/core/__init__.py +4 -4
gitflow_analytics/qualitative/core/llm_fallback.py +239 -235
gitflow_analytics/qualitative/core/nlp_engine.py +157 -148
gitflow_analytics/qualitative/core/pattern_cache.py +214 -192
gitflow_analytics/qualitative/core/processor.py +381 -248
gitflow_analytics/qualitative/enhanced_analyzer.py +2236 -0
gitflow_analytics/qualitative/example_enhanced_usage.py +420 -0
gitflow_analytics/qualitative/models/__init__.py +7 -7
gitflow_analytics/qualitative/models/schemas.py +155 -121
gitflow_analytics/qualitative/utils/__init__.py +4 -4
gitflow_analytics/qualitative/utils/batch_processor.py +136 -123
gitflow_analytics/qualitative/utils/cost_tracker.py +142 -140
gitflow_analytics/qualitative/utils/metrics.py +172 -158
gitflow_analytics/qualitative/utils/text_processing.py +146 -104
gitflow_analytics/reports/__init__.py +100 -0
gitflow_analytics/reports/analytics_writer.py +539 -14
gitflow_analytics/reports/base.py +648 -0
gitflow_analytics/reports/branch_health_writer.py +322 -0
gitflow_analytics/reports/classification_writer.py +924 -0
gitflow_analytics/reports/cli_integration.py +427 -0
gitflow_analytics/reports/csv_writer.py +1676 -212
gitflow_analytics/reports/data_models.py +504 -0
gitflow_analytics/reports/database_report_generator.py +427 -0
gitflow_analytics/reports/example_usage.py +344 -0
gitflow_analytics/reports/factory.py +499 -0
gitflow_analytics/reports/formatters.py +698 -0
gitflow_analytics/reports/html_generator.py +1116 -0
gitflow_analytics/reports/interfaces.py +489 -0
gitflow_analytics/reports/json_exporter.py +2770 -0
gitflow_analytics/reports/narrative_writer.py +2287 -158
gitflow_analytics/reports/story_point_correlation.py +1144 -0
gitflow_analytics/reports/weekly_trends_writer.py +389 -0
gitflow_analytics/training/__init__.py +5 -0
gitflow_analytics/training/model_loader.py +377 -0
gitflow_analytics/training/pipeline.py +550 -0
gitflow_analytics/tui/__init__.py +1 -1
gitflow_analytics/tui/app.py +129 -126
gitflow_analytics/tui/screens/__init__.py +3 -3
gitflow_analytics/tui/screens/analysis_progress_screen.py +188 -179
gitflow_analytics/tui/screens/configuration_screen.py +154 -178
gitflow_analytics/tui/screens/loading_screen.py +100 -110
gitflow_analytics/tui/screens/main_screen.py +89 -72
gitflow_analytics/tui/screens/results_screen.py +305 -281
gitflow_analytics/tui/widgets/__init__.py +2 -2
gitflow_analytics/tui/widgets/data_table.py +67 -69
gitflow_analytics/tui/widgets/export_modal.py +76 -76
gitflow_analytics/tui/widgets/progress_widget.py +41 -46
gitflow_analytics-1.3.6.dist-info/METADATA +1015 -0
gitflow_analytics-1.3.6.dist-info/RECORD +122 -0
gitflow_analytics-1.0.3.dist-info/METADATA +0 -490
gitflow_analytics-1.0.3.dist-info/RECORD +0 -62
{gitflow_analytics-1.0.3.dist-info → gitflow_analytics-1.3.6.dist-info}/WHEEL +0 -0
{gitflow_analytics-1.0.3.dist-info → gitflow_analytics-1.3.6.dist-info}/entry_points.txt +0 -0
{gitflow_analytics-1.0.3.dist-info → gitflow_analytics-1.3.6.dist-info}/licenses/LICENSE +0 -0
{gitflow_analytics-1.0.3.dist-info → gitflow_analytics-1.3.6.dist-info}/top_level.txt +0 -0

gitflow_analytics/qualitative/utils/metrics.py CHANGED Viewed

@@ -1,25 +1,23 @@
 """Performance and accuracy metrics for qualitative analysis."""
 import logging
-import time
+import statistics
 from collections import defaultdict, deque
 from dataclasses import dataclass
 from datetime import datetime, timedelta
-from typing import Dict, List, Optional, Tuple
-import statistics
-@dataclass
+@dataclass
 class ProcessingMetrics:
     """Metrics for a single processing operation."""
     operation: str
     processing_time_ms: float
     items_processed: int
     confidence_score: float
     method_used: str  # 'nlp' or 'llm'
     timestamp: datetime
     @property
     def items_per_second(self) -> float:
         """Calculate processing rate."""
@@ -30,47 +28,52 @@ class ProcessingMetrics:
 class PerformanceMetrics:
     """Track and analyze performance metrics for qualitative analysis.
     This class provides comprehensive performance monitoring including
     processing times, accuracy metrics, cost tracking, and system health
     indicators for the qualitative analysis pipeline.
     """
     def __init__(self, max_history: int = 10000):
         """Initialize performance metrics tracker.
         Args:
             max_history: Maximum number of metrics to keep in memory
         """
         self.max_history = max_history
         self.logger = logging.getLogger(__name__)
         # Processing metrics
         self.processing_metrics: deque[ProcessingMetrics] = deque(maxlen=max_history)
         # Method usage tracking
         self.method_usage = defaultdict(int)
         self.method_performance = defaultdict(list)
         # Confidence tracking
         self.confidence_history = deque(maxlen=max_history)
         # Error tracking
         self.error_counts = defaultdict(int)
         self.error_history = deque(maxlen=1000)
         # Cache performance
         self.cache_hits = 0
         self.cache_misses = 0
         # Quality metrics
         self.classification_accuracy = deque(maxlen=1000)
-    def record_processing(self, operation: str, processing_time_ms: float,
-                         items_processed: int, confidence_score: float,
-                         method_used: str) -> None:
+    def record_processing(
+        self,
+        operation: str,
+        processing_time_ms: float,
+        items_processed: int,
+        confidence_score: float,
+        method_used: str,
+    ) -> None:
         """Record a processing operation.
         Args:
             operation: Type of operation (e.g., 'classification', 'analysis')
             processing_time_ms: Processing time in milliseconds
@@ -84,264 +87,275 @@ class PerformanceMetrics:
             items_processed=items_processed,
             confidence_score=confidence_score,
             method_used=method_used,
-            timestamp=datetime.utcnow()
+            timestamp=datetime.utcnow(),
         )
         self.processing_metrics.append(metric)
         self.method_usage[method_used] += items_processed
         self.method_performance[method_used].append(processing_time_ms / items_processed)
         self.confidence_history.append(confidence_score)
     def record_cache_hit(self) -> None:
         """Record a cache hit."""
         self.cache_hits += 1
     def record_cache_miss(self) -> None:
         """Record a cache miss."""
         self.cache_misses += 1
     def record_error(self, error_type: str, error_message: str) -> None:
         """Record an error occurrence.
         Args:
             error_type: Type of error
             error_message: Error message
         """
         self.error_counts[error_type] += 1
-        self.error_history.append({
-            'type': error_type,
-            'message': error_message,
-            'timestamp': datetime.utcnow()
-        })
+        self.error_history.append(
+            {"type": error_type, "message": error_message, "timestamp": datetime.utcnow()}
+        )
     def record_classification_accuracy(self, accuracy: float) -> None:
         """Record classification accuracy measurement.
         Args:
             accuracy: Accuracy score (0.0 to 1.0)
         """
         self.classification_accuracy.append(accuracy)
-    def get_processing_stats(self, hours: int = 24) -> Dict[str, any]:
+    def get_processing_stats(self, hours: int = 24) -> dict[str, any]:
         """Get processing statistics for the last N hours.
         Args:
             hours: Number of hours to analyze
         Returns:
             Dictionary with processing statistics
         """
         cutoff_time = datetime.utcnow() - timedelta(hours=hours)
-        recent_metrics = [
-            m for m in self.processing_metrics
-            if m.timestamp >= cutoff_time
-        ]
+        recent_metrics = [m for m in self.processing_metrics if m.timestamp >= cutoff_time]
         if not recent_metrics:
             return {
-                'total_operations': 0,
-                'total_items_processed': 0,
-                'avg_processing_time_ms': 0.0,
-                'avg_items_per_second': 0.0,
-                'avg_confidence': 0.0,
-                'method_breakdown': {},
-                'cache_hit_rate': 0.0
+                "total_operations": 0,
+                "total_items_processed": 0,
+                "avg_processing_time_ms": 0.0,
+                "avg_items_per_second": 0.0,
+                "avg_confidence": 0.0,
+                "method_breakdown": {},
+                "cache_hit_rate": 0.0,
             }
         # Calculate statistics
         total_items = sum(m.items_processed for m in recent_metrics)
         total_time = sum(m.processing_time_ms for m in recent_metrics)
         avg_processing_time = total_time / len(recent_metrics)
         avg_items_per_second = statistics.mean([m.items_per_second for m in recent_metrics])
         avg_confidence = statistics.mean([m.confidence_score for m in recent_metrics])
         # Method breakdown
         method_breakdown = {}
-        for method in ['nlp', 'llm']:
+        for method in ["nlp", "llm"]:
             method_metrics = [m for m in recent_metrics if m.method_used == method]
             if method_metrics:
                 method_items = sum(m.items_processed for m in method_metrics)
                 method_breakdown[method] = {
-                    'items_processed': method_items,
-                    'percentage': (method_items / total_items) * 100 if total_items > 0 else 0,
-                    'avg_confidence': statistics.mean([m.confidence_score for m in method_metrics]),
-                    'avg_processing_time_ms': statistics.mean([m.processing_time_ms for m in method_metrics])
+                    "items_processed": method_items,
+                    "percentage": (method_items / total_items) * 100 if total_items > 0 else 0,
+                    "avg_confidence": statistics.mean([m.confidence_score for m in method_metrics]),
+                    "avg_processing_time_ms": statistics.mean(
+                        [m.processing_time_ms for m in method_metrics]
+                    ),
                 }
         # Cache hit rate
         total_cache_requests = self.cache_hits + self.cache_misses
-        cache_hit_rate = (self.cache_hits / total_cache_requests) if total_cache_requests > 0 else 0.0
+        cache_hit_rate = (
+            (self.cache_hits / total_cache_requests) if total_cache_requests > 0 else 0.0
+        )
         return {
-            'total_operations': len(recent_metrics),
-            'total_items_processed': total_items,
-            'avg_processing_time_ms': avg_processing_time,
-            'avg_items_per_second': avg_items_per_second,
-            'avg_confidence': avg_confidence,
-            'method_breakdown': method_breakdown,
-            'cache_hit_rate': cache_hit_rate,
-            'time_period_hours': hours
+            "total_operations": len(recent_metrics),
+            "total_items_processed": total_items,
+            "avg_processing_time_ms": avg_processing_time,
+            "avg_items_per_second": avg_items_per_second,
+            "avg_confidence": avg_confidence,
+            "method_breakdown": method_breakdown,
+            "cache_hit_rate": cache_hit_rate,
+            "time_period_hours": hours,
         }
-    def get_quality_metrics(self) -> Dict[str, any]:
+    def get_quality_metrics(self) -> dict[str, any]:
         """Get quality and accuracy metrics.
         Returns:
             Dictionary with quality metrics
         """
         if not self.confidence_history:
             return {
-                'avg_confidence': 0.0,
-                'confidence_distribution': {},
-                'classification_accuracy': 0.0,
-                'quality_trend': 'stable'
+                "avg_confidence": 0.0,
+                "confidence_distribution": {},
+                "classification_accuracy": 0.0,
+                "quality_trend": "stable",
             }
         # Confidence statistics
         confidences = list(self.confidence_history)
         avg_confidence = statistics.mean(confidences)
         # Confidence distribution
         confidence_buckets = {
-            'high (>0.8)': sum(1 for c in confidences if c > 0.8),
-            'medium (0.6-0.8)': sum(1 for c in confidences if 0.6 <= c <= 0.8),
-            'low (<0.6)': sum(1 for c in confidences if c < 0.6)
+            "high (>0.8)": sum(1 for c in confidences if c > 0.8),
+            "medium (0.6-0.8)": sum(1 for c in confidences if 0.6 <= c <= 0.8),
+            "low (<0.6)": sum(1 for c in confidences if c < 0.6),
         }
         # Quality trend (comparing recent vs. older metrics)
         if len(confidences) >= 100:
             recent_confidence = statistics.mean(confidences[-50:])
             older_confidence = statistics.mean(confidences[-100:-50])
             if recent_confidence > older_confidence + 0.05:
-                quality_trend = 'improving'
+                quality_trend = "improving"
             elif recent_confidence < older_confidence - 0.05:
-                quality_trend = 'declining'
+                quality_trend = "declining"
             else:
-                quality_trend = 'stable'
+                quality_trend = "stable"
         else:
-            quality_trend = 'insufficient_data'
+            quality_trend = "insufficient_data"
         # Classification accuracy
-        avg_accuracy = statistics.mean(self.classification_accuracy) if self.classification_accuracy else 0.0
+        avg_accuracy = (
+            statistics.mean(self.classification_accuracy) if self.classification_accuracy else 0.0
+        )
         return {
-            'avg_confidence': avg_confidence,
-            'confidence_distribution': confidence_buckets,
-            'classification_accuracy': avg_accuracy,
-            'quality_trend': quality_trend,
-            'total_samples': len(confidences)
+            "avg_confidence": avg_confidence,
+            "confidence_distribution": confidence_buckets,
+            "classification_accuracy": avg_accuracy,
+            "quality_trend": quality_trend,
+            "total_samples": len(confidences),
         }
-    def get_error_analysis(self) -> Dict[str, any]:
+    def get_error_analysis(self) -> dict[str, any]:
         """Get error analysis and system health metrics.
         Returns:
             Dictionary with error analysis
         """
         # Recent errors (last 24 hours)
         cutoff_time = datetime.utcnow() - timedelta(hours=24)
-        recent_errors = [
-            error for error in self.error_history
-            if error['timestamp'] >= cutoff_time
-        ]
+        recent_errors = [error for error in self.error_history if error["timestamp"] >= cutoff_time]
         # Error type breakdown
         error_type_counts = defaultdict(int)
         for error in recent_errors:
-            error_type_counts[error['type']] += 1
+            error_type_counts[error["type"]] += 1
         # Total operations for error rate calculation
-        total_operations = len([
-            m for m in self.processing_metrics
-            if m.timestamp >= cutoff_time
-        ])
+        total_operations = len([m for m in self.processing_metrics if m.timestamp >= cutoff_time])
         error_rate = len(recent_errors) / total_operations if total_operations > 0 else 0.0
         return {
-            'total_errors_24h': len(recent_errors),
-            'error_rate': error_rate,
-            'error_types': dict(error_type_counts),
-            'most_common_error': max(error_type_counts.keys(), key=error_type_counts.get) if error_type_counts else None,
-            'system_health': 'healthy' if error_rate < 0.01 else 'degraded' if error_rate < 0.05 else 'unhealthy'
+            "total_errors_24h": len(recent_errors),
+            "error_rate": error_rate,
+            "error_types": dict(error_type_counts),
+            "most_common_error": (
+                max(error_type_counts.keys(), key=error_type_counts.get)
+                if error_type_counts
+                else None
+            ),
+            "system_health": (
+                "healthy" if error_rate < 0.01 else "degraded" if error_rate < 0.05 else "unhealthy"
+            ),
         }
-    def get_performance_alerts(self) -> List[str]:
+    def get_performance_alerts(self) -> list[str]:
         """Get performance alerts and recommendations.
         Returns:
             List of alert messages
         """
         alerts = []
         # Check recent performance
         stats = self.get_processing_stats(hours=1)
         quality = self.get_quality_metrics()
         errors = self.get_error_analysis()
         # Processing speed alerts
-        if stats['avg_items_per_second'] < 50:  # Less than 50 items/second
+        if stats["avg_items_per_second"] < 50:  # Less than 50 items/second
             alerts.append("Processing speed below target (< 50 items/second)")
         # Confidence alerts
-        if quality['avg_confidence'] < 0.6:
+        if quality["avg_confidence"] < 0.6:
             alerts.append("Average confidence below threshold (< 0.6)")
         # Method balance alerts
-        if 'llm' in stats['method_breakdown']:
-            llm_percentage = stats['method_breakdown']['llm']['percentage']
+        if "llm" in stats["method_breakdown"]:
+            llm_percentage = stats["method_breakdown"]["llm"]["percentage"]
             if llm_percentage > 20:  # More than 20% using LLM
-                alerts.append(f"High LLM usage ({llm_percentage:.1f}%) - consider tuning NLP thresholds")
+                alerts.append(
+                    f"High LLM usage ({llm_percentage:.1f}%) - consider tuning NLP thresholds"
+                )
         # Error rate alerts
-        if errors['error_rate'] > 0.05:  # More than 5% error rate
+        if errors["error_rate"] > 0.05:  # More than 5% error rate
             alerts.append(f"High error rate ({errors['error_rate']:.1%})")
         # Cache performance alerts
-        if stats['cache_hit_rate'] < 0.3:  # Less than 30% cache hit rate
+        if stats["cache_hit_rate"] < 0.3:  # Less than 30% cache hit rate
             alerts.append("Low cache hit rate - pattern learning may be ineffective")
         # Quality trend alerts
-        if quality['quality_trend'] == 'declining':
+        if quality["quality_trend"] == "declining":
             alerts.append("Quality trend declining - review recent changes")
         return alerts
-    def get_optimization_suggestions(self) -> List[str]:
+    def get_optimization_suggestions(self) -> list[str]:
         """Get optimization suggestions based on metrics.
         Returns:
             List of optimization suggestions
         """
         suggestions = []
         stats = self.get_processing_stats(hours=24)
         quality = self.get_quality_metrics()
         # Performance optimizations
-        if stats['avg_items_per_second'] < 100:
+        if stats["avg_items_per_second"] < 100:
             suggestions.append("Consider increasing batch size or enabling parallel processing")
         # Method optimization
-        method_breakdown = stats['method_breakdown']
-        if 'llm' in method_breakdown and method_breakdown['llm']['percentage'] > 15:
-            suggestions.append("High LLM usage - consider lowering confidence threshold or improving NLP patterns")
-        if 'nlp' in method_breakdown and method_breakdown['nlp']['avg_confidence'] < 0.7:
+        method_breakdown = stats["method_breakdown"]
+        if "llm" in method_breakdown and method_breakdown["llm"]["percentage"] > 15:
+            suggestions.append(
+                "High LLM usage - consider lowering confidence threshold or improving NLP patterns"
+            )
+        if "nlp" in method_breakdown and method_breakdown["nlp"]["avg_confidence"] < 0.7:
             suggestions.append("NLP confidence low - consider updating classification patterns")
         # Quality optimizations
-        if quality['avg_confidence'] < 0.7:
-            suggestions.append("Overall confidence low - review classification accuracy and update models")
-        confidence_dist = quality['confidence_distribution']
-        if confidence_dist.get('low (<0.6)', 0) > confidence_dist.get('high (>0.8)', 0):
-            suggestions.append("Many low-confidence predictions - consider additional training data")
+        if quality["avg_confidence"] < 0.7:
+            suggestions.append(
+                "Overall confidence low - review classification accuracy and update models"
+            )
+        confidence_dist = quality["confidence_distribution"]
+        if confidence_dist.get("low (<0.6)", 0) > confidence_dist.get("high (>0.8)", 0):
+            suggestions.append(
+                "Many low-confidence predictions - consider additional training data"
+            )
         # Cache optimizations
-        if stats['cache_hit_rate'] < 0.5:
-            suggestions.append("Low cache hit rate - increase cache size or improve pattern matching")
-        return suggestions
+        if stats["cache_hit_rate"] < 0.5:
+            suggestions.append(
+                "Low cache hit rate - increase cache size or improve pattern matching"
+            )
+        return suggestions

gitflow-analytics 1.0.3__py3-none-any.whl → 1.3.6__py3-none-any.whl

gitflow-analytics 1.0.3py3-none-any.whl → 1.3.6py3-none-any.whl