PyPI - greenmining - Versions diffs - 1.0.2__tar.gz → 1.0.3__tar.gz - Mend

greenmining 1.0.2tar.gz → 1.0.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (45) hide show

{greenmining-1.0.2/greenmining.egg-info → greenmining-1.0.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: greenmining
-Version: 1.0.2
+Version: 1.0.3
 Summary: Analyze GitHub repositories to identify green software engineering patterns and energy-efficient practices
 Author-email: Adam Bouafia <a.bouafia@student.vu.nl>
 License: MIT
@@ -397,6 +397,119 @@ controller.generate_report()
 print("Analysis complete! Check data/ directory for results.")
 ```
+#### Complete Working Example: Full Pipeline
+This is a complete, production-ready example that demonstrates the entire analysis pipeline. This example successfully analyzed 100 repositories with 30,543 commits in our testing.
+```python
+import os
+from pathlib import Path
+from dotenv import load_dotenv
+# Load environment variables
+load_dotenv()
+# Import from greenmining package
+from greenmining import fetch_repositories
+from greenmining.services.commit_extractor import CommitExtractor
+from greenmining.services.data_analyzer import DataAnalyzer
+from greenmining.services.data_aggregator import DataAggregator
+# Configuration
+token = os.getenv("GITHUB_TOKEN")
+output_dir = Path("results")
+output_dir.mkdir(exist_ok=True)
+# STAGE 1: Fetch Repositories
+print("Fetching repositories...")
+repositories = fetch_repositories(
+    github_token=token,
+    max_repos=100,
+    min_stars=10,
+    keywords="software engineering",
+)
+print(f"✓ Fetched {len(repositories)} repositories")
+# STAGE 2: Extract Commits
+print("\nExtracting commits...")
+extractor = CommitExtractor(
+    github_token=token,
+    max_commits=1000,
+    skip_merges=True,
+    days_back=730,
+    timeout=120,
+)
+all_commits = extractor.extract_from_repositories(repositories)
+print(f"✓ Extracted {len(all_commits)} commits")
+# Save commits
+extractor.save_results(
+    all_commits,
+    output_dir / "commits.json",
+    len(repositories)
+)
+# STAGE 3: Analyze Commits
+print("\nAnalyzing commits...")
+analyzer = DataAnalyzer(
+    enable_nlp=True,
+    enable_ml_features=True,
+    enable_diff_analysis=False,  # Set to True for detailed code analysis (slower)
+)
+analyzed_commits = analyzer.analyze_commits(all_commits)
+# Count green-aware commits
+green_count = sum(1 for c in analyzed_commits if c.get("green_aware", False))
+green_percentage = (green_count / len(analyzed_commits) * 100) if analyzed_commits else 0
+print(f"✓ Analyzed {len(analyzed_commits)} commits")
+print(f"✓ Green-aware: {green_count} ({green_percentage:.1f}%)")
+# Save analysis
+analyzer.save_results(analyzed_commits, output_dir / "analyzed.json")
+# STAGE 4: Aggregate Results
+print("\nAggregating results...")
+aggregator = DataAggregator(
+    enable_enhanced_stats=True,
+    enable_temporal=True,
+    temporal_granularity="quarter",
+)
+results = aggregator.aggregate(analyzed_commits, repositories)
+# STAGE 5: Save Results
+print("\nSaving results...")
+aggregator.save_results(
+    results,
+    output_dir / "aggregated.json",
+    output_dir / "aggregated.csv",
+    analyzed_commits
+)
+# Print summary
+print("\n" + "="*80)
+print("ANALYSIS COMPLETE")
+print("="*80)
+aggregator.print_summary(results)
+print(f"\n📁 Results saved in: {output_dir.absolute()}")
+```
+**What this example does:**
+1. **Fetches repositories** from GitHub based on keywords and filters
+2. **Extracts commits** from each repository (up to 1000 per repo)
+3. **Analyzes commits** for green software patterns using NLP and ML
+4. **Aggregates results** with temporal analysis and enhanced statistics
+5. **Saves results** to JSON and CSV files for further analysis
+**Expected output files:**
+- `commits.json` - All extracted commits with metadata
+- `analyzed.json` - Commits analyzed for green patterns
+- `aggregated.json` - Summary statistics and pattern distributions
+- `aggregated.csv` - Tabular format for spreadsheet analysis
+- `metadata.json` - Experiment configuration and timing
+**Performance:** This pipeline successfully processed 100 repositories (30,543 commits) in approximately 6.4 hours, identifying 7,600 green-aware commits (24.9%).
 ### Docker Usage
 ```bash

{greenmining-1.0.2 → greenmining-1.0.3}/README.md RENAMED Viewed

@@ -343,6 +343,119 @@ controller.generate_report()
 print("Analysis complete! Check data/ directory for results.")
 ```
+#### Complete Working Example: Full Pipeline
+This is a complete, production-ready example that demonstrates the entire analysis pipeline. This example successfully analyzed 100 repositories with 30,543 commits in our testing.
+```python
+import os
+from pathlib import Path
+from dotenv import load_dotenv
+# Load environment variables
+load_dotenv()
+# Import from greenmining package
+from greenmining import fetch_repositories
+from greenmining.services.commit_extractor import CommitExtractor
+from greenmining.services.data_analyzer import DataAnalyzer
+from greenmining.services.data_aggregator import DataAggregator
+# Configuration
+token = os.getenv("GITHUB_TOKEN")
+output_dir = Path("results")
+output_dir.mkdir(exist_ok=True)
+# STAGE 1: Fetch Repositories
+print("Fetching repositories...")
+repositories = fetch_repositories(
+    github_token=token,
+    max_repos=100,
+    min_stars=10,
+    keywords="software engineering",
+)
+print(f"✓ Fetched {len(repositories)} repositories")
+# STAGE 2: Extract Commits
+print("\nExtracting commits...")
+extractor = CommitExtractor(
+    github_token=token,
+    max_commits=1000,
+    skip_merges=True,
+    days_back=730,
+    timeout=120,
+)
+all_commits = extractor.extract_from_repositories(repositories)
+print(f"✓ Extracted {len(all_commits)} commits")
+# Save commits
+extractor.save_results(
+    all_commits,
+    output_dir / "commits.json",
+    len(repositories)
+)
+# STAGE 3: Analyze Commits
+print("\nAnalyzing commits...")
+analyzer = DataAnalyzer(
+    enable_nlp=True,
+    enable_ml_features=True,
+    enable_diff_analysis=False,  # Set to True for detailed code analysis (slower)
+)
+analyzed_commits = analyzer.analyze_commits(all_commits)
+# Count green-aware commits
+green_count = sum(1 for c in analyzed_commits if c.get("green_aware", False))
+green_percentage = (green_count / len(analyzed_commits) * 100) if analyzed_commits else 0
+print(f"✓ Analyzed {len(analyzed_commits)} commits")
+print(f"✓ Green-aware: {green_count} ({green_percentage:.1f}%)")
+# Save analysis
+analyzer.save_results(analyzed_commits, output_dir / "analyzed.json")
+# STAGE 4: Aggregate Results
+print("\nAggregating results...")
+aggregator = DataAggregator(
+    enable_enhanced_stats=True,
+    enable_temporal=True,
+    temporal_granularity="quarter",
+)
+results = aggregator.aggregate(analyzed_commits, repositories)
+# STAGE 5: Save Results
+print("\nSaving results...")
+aggregator.save_results(
+    results,
+    output_dir / "aggregated.json",
+    output_dir / "aggregated.csv",
+    analyzed_commits
+)
+# Print summary
+print("\n" + "="*80)
+print("ANALYSIS COMPLETE")
+print("="*80)
+aggregator.print_summary(results)
+print(f"\n📁 Results saved in: {output_dir.absolute()}")
+```
+**What this example does:**
+1. **Fetches repositories** from GitHub based on keywords and filters
+2. **Extracts commits** from each repository (up to 1000 per repo)
+3. **Analyzes commits** for green software patterns using NLP and ML
+4. **Aggregates results** with temporal analysis and enhanced statistics
+5. **Saves results** to JSON and CSV files for further analysis
+**Expected output files:**
+- `commits.json` - All extracted commits with metadata
+- `analyzed.json` - Commits analyzed for green patterns
+- `aggregated.json` - Summary statistics and pattern distributions
+- `aggregated.csv` - Tabular format for spreadsheet analysis
+- `metadata.json` - Experiment configuration and timing
+**Performance:** This pipeline successfully processed 100 repositories (30,543 commits) in approximately 6.4 hours, identifying 7,600 green-aware commits (24.9%).
 ### Docker Usage
 ```bash

{greenmining-1.0.2 → greenmining-1.0.3}/greenmining/__init__.py RENAMED Viewed

@@ -9,7 +9,7 @@ from greenmining.gsf_patterns import (
     is_green_aware,
 )
-__version__ = "0.1.12"
+__version__ = "1.0.3"
 def fetch_repositories(

{greenmining-1.0.2 → greenmining-1.0.3/greenmining.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: greenmining
-Version: 1.0.2
+Version: 1.0.3
 Summary: Analyze GitHub repositories to identify green software engineering patterns and energy-efficient practices
 Author-email: Adam Bouafia <a.bouafia@student.vu.nl>
 License: MIT
@@ -397,6 +397,119 @@ controller.generate_report()
 print("Analysis complete! Check data/ directory for results.")
 ```
+#### Complete Working Example: Full Pipeline
+This is a complete, production-ready example that demonstrates the entire analysis pipeline. This example successfully analyzed 100 repositories with 30,543 commits in our testing.
+```python
+import os
+from pathlib import Path
+from dotenv import load_dotenv
+# Load environment variables
+load_dotenv()
+# Import from greenmining package
+from greenmining import fetch_repositories
+from greenmining.services.commit_extractor import CommitExtractor
+from greenmining.services.data_analyzer import DataAnalyzer
+from greenmining.services.data_aggregator import DataAggregator
+# Configuration
+token = os.getenv("GITHUB_TOKEN")
+output_dir = Path("results")
+output_dir.mkdir(exist_ok=True)
+# STAGE 1: Fetch Repositories
+print("Fetching repositories...")
+repositories = fetch_repositories(
+    github_token=token,
+    max_repos=100,
+    min_stars=10,
+    keywords="software engineering",
+)
+print(f"✓ Fetched {len(repositories)} repositories")
+# STAGE 2: Extract Commits
+print("\nExtracting commits...")
+extractor = CommitExtractor(
+    github_token=token,
+    max_commits=1000,
+    skip_merges=True,
+    days_back=730,
+    timeout=120,
+)
+all_commits = extractor.extract_from_repositories(repositories)
+print(f"✓ Extracted {len(all_commits)} commits")
+# Save commits
+extractor.save_results(
+    all_commits,
+    output_dir / "commits.json",
+    len(repositories)
+)
+# STAGE 3: Analyze Commits
+print("\nAnalyzing commits...")
+analyzer = DataAnalyzer(
+    enable_nlp=True,
+    enable_ml_features=True,
+    enable_diff_analysis=False,  # Set to True for detailed code analysis (slower)
+)
+analyzed_commits = analyzer.analyze_commits(all_commits)
+# Count green-aware commits
+green_count = sum(1 for c in analyzed_commits if c.get("green_aware", False))
+green_percentage = (green_count / len(analyzed_commits) * 100) if analyzed_commits else 0
+print(f"✓ Analyzed {len(analyzed_commits)} commits")
+print(f"✓ Green-aware: {green_count} ({green_percentage:.1f}%)")
+# Save analysis
+analyzer.save_results(analyzed_commits, output_dir / "analyzed.json")
+# STAGE 4: Aggregate Results
+print("\nAggregating results...")
+aggregator = DataAggregator(
+    enable_enhanced_stats=True,
+    enable_temporal=True,
+    temporal_granularity="quarter",
+)
+results = aggregator.aggregate(analyzed_commits, repositories)
+# STAGE 5: Save Results
+print("\nSaving results...")
+aggregator.save_results(
+    results,
+    output_dir / "aggregated.json",
+    output_dir / "aggregated.csv",
+    analyzed_commits
+)
+# Print summary
+print("\n" + "="*80)
+print("ANALYSIS COMPLETE")
+print("="*80)
+aggregator.print_summary(results)
+print(f"\n📁 Results saved in: {output_dir.absolute()}")
+```
+**What this example does:**
+1. **Fetches repositories** from GitHub based on keywords and filters
+2. **Extracts commits** from each repository (up to 1000 per repo)
+3. **Analyzes commits** for green software patterns using NLP and ML
+4. **Aggregates results** with temporal analysis and enhanced statistics
+5. **Saves results** to JSON and CSV files for further analysis
+**Expected output files:**
+- `commits.json` - All extracted commits with metadata
+- `analyzed.json` - Commits analyzed for green patterns
+- `aggregated.json` - Summary statistics and pattern distributions
+- `aggregated.csv` - Tabular format for spreadsheet analysis
+- `metadata.json` - Experiment configuration and timing
+**Performance:** This pipeline successfully processed 100 repositories (30,543 commits) in approximately 6.4 hours, identifying 7,600 green-aware commits (24.9%).
 ### Docker Usage
 ```bash

{greenmining-1.0.2 → greenmining-1.0.3}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "greenmining"
-version = "1.0.2"
+version = "1.0.3"
 description = "Analyze GitHub repositories to identify green software engineering patterns and energy-efficient practices"
 readme = "README.md"
 requires-python = ">=3.9"