npm - tech-hub-skills - Versions diffs - 1.5.1 → 1.5.2 - Mend

tech-hub-skills 1.5.1 → 1.5.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (197) hide show

package/.claude/LICENSE +21 -21
package/.claude/README.md +291 -291
package/.claude/bin/cli.js +266 -266
package/.claude/bin/copilot.js +182 -182
package/.claude/bin/postinstall.js +42 -42
package/.claude/commands/README.md +336 -336
package/.claude/commands/ai-engineer.md +104 -104
package/.claude/commands/aws.md +143 -143
package/.claude/commands/azure.md +149 -149
package/.claude/commands/backend-developer.md +108 -108
package/.claude/commands/code-review.md +399 -399
package/.claude/commands/compliance-automation.md +747 -747
package/.claude/commands/compliance-officer.md +108 -108
package/.claude/commands/data-engineer.md +113 -113
package/.claude/commands/data-governance.md +102 -102
package/.claude/commands/data-scientist.md +123 -123
package/.claude/commands/database-admin.md +109 -109
package/.claude/commands/devops.md +160 -160
package/.claude/commands/docker.md +160 -160
package/.claude/commands/enterprise-dashboard.md +613 -613
package/.claude/commands/finops.md +184 -184
package/.claude/commands/frontend-developer.md +108 -108
package/.claude/commands/gcp.md +143 -143
package/.claude/commands/ml-engineer.md +115 -115
package/.claude/commands/mlops.md +187 -187
package/.claude/commands/network-engineer.md +109 -109
package/.claude/commands/optimization-advisor.md +329 -329
package/.claude/commands/orchestrator.md +623 -623
package/.claude/commands/platform-engineer.md +102 -102
package/.claude/commands/process-automation.md +226 -226
package/.claude/commands/process-changelog.md +184 -184
package/.claude/commands/process-documentation.md +484 -484
package/.claude/commands/process-kanban.md +324 -324
package/.claude/commands/process-versioning.md +214 -214
package/.claude/commands/product-designer.md +104 -104
package/.claude/commands/project-starter.md +443 -443
package/.claude/commands/qa-engineer.md +109 -109
package/.claude/commands/security-architect.md +135 -135
package/.claude/commands/sre.md +109 -109
package/.claude/commands/system-design.md +126 -126
package/.claude/commands/technical-writer.md +101 -101
package/.claude/package.json +46 -46
package/.claude/roles/ai-engineer/skills/01-prompt-engineering/README.md +252 -252
package/.claude/roles/ai-engineer/skills/01-prompt-engineering/prompt_ab_tester.py +356 -356
package/.claude/roles/ai-engineer/skills/01-prompt-engineering/prompt_template_manager.py +274 -274
package/.claude/roles/ai-engineer/skills/01-prompt-engineering/token_cost_estimator.py +324 -324
package/.claude/roles/ai-engineer/skills/02-rag-pipeline/README.md +448 -448
package/.claude/roles/ai-engineer/skills/02-rag-pipeline/document_chunker.py +336 -336
package/.claude/roles/ai-engineer/skills/02-rag-pipeline/rag_pipeline.sql +213 -213
package/.claude/roles/ai-engineer/skills/03-agent-orchestration/README.md +599 -599
package/.claude/roles/ai-engineer/skills/04-llm-guardrails/README.md +735 -735
package/.claude/roles/ai-engineer/skills/05-vector-embeddings/README.md +711 -711
package/.claude/roles/ai-engineer/skills/06-llm-evaluation/README.md +777 -777
package/.claude/roles/azure/skills/01-infrastructure-fundamentals/README.md +264 -264
package/.claude/roles/azure/skills/02-data-factory/README.md +264 -264
package/.claude/roles/azure/skills/03-synapse-analytics/README.md +264 -264
package/.claude/roles/azure/skills/04-databricks/README.md +264 -264
package/.claude/roles/azure/skills/05-functions/README.md +264 -264
package/.claude/roles/azure/skills/06-kubernetes-service/README.md +264 -264
package/.claude/roles/azure/skills/07-openai-service/README.md +264 -264
package/.claude/roles/azure/skills/08-machine-learning/README.md +264 -264
package/.claude/roles/azure/skills/09-storage-adls/README.md +264 -264
package/.claude/roles/azure/skills/10-networking/README.md +264 -264
package/.claude/roles/azure/skills/11-sql-cosmos/README.md +264 -264
package/.claude/roles/azure/skills/12-event-hubs/README.md +264 -264
package/.claude/roles/code-review/skills/01-automated-code-review/README.md +394 -394
package/.claude/roles/code-review/skills/02-pr-review-workflow/README.md +427 -427
package/.claude/roles/code-review/skills/03-code-quality-gates/README.md +518 -518
package/.claude/roles/code-review/skills/04-reviewer-assignment/README.md +504 -504
package/.claude/roles/code-review/skills/05-review-analytics/README.md +540 -540
package/.claude/roles/data-engineer/skills/01-lakehouse-architecture/README.md +550 -550
package/.claude/roles/data-engineer/skills/01-lakehouse-architecture/bronze_ingestion.py +337 -337
package/.claude/roles/data-engineer/skills/01-lakehouse-architecture/medallion_queries.sql +300 -300
package/.claude/roles/data-engineer/skills/02-etl-pipeline/README.md +580 -580
package/.claude/roles/data-engineer/skills/03-data-quality/README.md +579 -579
package/.claude/roles/data-engineer/skills/04-streaming-pipelines/README.md +608 -608
package/.claude/roles/data-engineer/skills/05-performance-optimization/README.md +547 -547
package/.claude/roles/data-governance/skills/01-data-catalog/README.md +112 -112
package/.claude/roles/data-governance/skills/02-data-lineage/README.md +129 -129
package/.claude/roles/data-governance/skills/03-data-quality-framework/README.md +182 -182
package/.claude/roles/data-governance/skills/04-access-control/README.md +39 -39
package/.claude/roles/data-governance/skills/05-master-data-management/README.md +40 -40
package/.claude/roles/data-governance/skills/06-compliance-privacy/README.md +46 -46
package/.claude/roles/data-scientist/skills/01-eda-automation/README.md +230 -230
package/.claude/roles/data-scientist/skills/01-eda-automation/eda_generator.py +446 -446
package/.claude/roles/data-scientist/skills/02-statistical-modeling/README.md +264 -264
package/.claude/roles/data-scientist/skills/03-feature-engineering/README.md +264 -264
package/.claude/roles/data-scientist/skills/04-predictive-modeling/README.md +264 -264
package/.claude/roles/data-scientist/skills/05-customer-analytics/README.md +264 -264
package/.claude/roles/data-scientist/skills/06-campaign-analysis/README.md +264 -264
package/.claude/roles/data-scientist/skills/07-experimentation/README.md +264 -264
package/.claude/roles/data-scientist/skills/08-data-visualization/README.md +264 -264
package/.claude/roles/devops/skills/01-cicd-pipeline/README.md +264 -264
package/.claude/roles/devops/skills/02-container-orchestration/README.md +264 -264
package/.claude/roles/devops/skills/03-infrastructure-as-code/README.md +264 -264
package/.claude/roles/devops/skills/04-gitops/README.md +264 -264
package/.claude/roles/devops/skills/05-environment-management/README.md +264 -264
package/.claude/roles/devops/skills/06-automated-testing/README.md +264 -264
package/.claude/roles/devops/skills/07-release-management/README.md +264 -264
package/.claude/roles/devops/skills/08-monitoring-alerting/README.md +264 -264
package/.claude/roles/devops/skills/09-devsecops/README.md +265 -265
package/.claude/roles/finops/skills/01-cost-visibility/README.md +264 -264
package/.claude/roles/finops/skills/02-resource-tagging/README.md +264 -264
package/.claude/roles/finops/skills/03-budget-management/README.md +264 -264
package/.claude/roles/finops/skills/04-reserved-instances/README.md +264 -264
package/.claude/roles/finops/skills/05-spot-optimization/README.md +264 -264
package/.claude/roles/finops/skills/06-storage-tiering/README.md +264 -264
package/.claude/roles/finops/skills/07-compute-rightsizing/README.md +264 -264
package/.claude/roles/finops/skills/08-chargeback/README.md +264 -264
package/.claude/roles/ml-engineer/skills/01-mlops-pipeline/README.md +566 -566
package/.claude/roles/ml-engineer/skills/02-feature-engineering/README.md +655 -655
package/.claude/roles/ml-engineer/skills/03-model-training/README.md +704 -704
package/.claude/roles/ml-engineer/skills/04-model-serving/README.md +845 -845
package/.claude/roles/ml-engineer/skills/05-model-monitoring/README.md +874 -874
package/.claude/roles/mlops/skills/01-ml-pipeline-orchestration/README.md +264 -264
package/.claude/roles/mlops/skills/02-experiment-tracking/README.md +264 -264
package/.claude/roles/mlops/skills/03-model-registry/README.md +264 -264
package/.claude/roles/mlops/skills/04-feature-store/README.md +264 -264
package/.claude/roles/mlops/skills/05-model-deployment/README.md +264 -264
package/.claude/roles/mlops/skills/06-model-observability/README.md +264 -264
package/.claude/roles/mlops/skills/07-data-versioning/README.md +264 -264
package/.claude/roles/mlops/skills/08-ab-testing/README.md +264 -264
package/.claude/roles/mlops/skills/09-automated-retraining/README.md +264 -264
package/.claude/roles/platform-engineer/skills/01-internal-developer-platform/README.md +153 -153
package/.claude/roles/platform-engineer/skills/02-self-service-infrastructure/README.md +57 -57
package/.claude/roles/platform-engineer/skills/03-slo-sli-management/README.md +59 -59
package/.claude/roles/platform-engineer/skills/04-developer-experience/README.md +57 -57
package/.claude/roles/platform-engineer/skills/05-incident-management/README.md +73 -73
package/.claude/roles/platform-engineer/skills/06-capacity-management/README.md +59 -59
package/.claude/roles/product-designer/skills/01-requirements-discovery/README.md +407 -407
package/.claude/roles/product-designer/skills/02-user-research/README.md +382 -382
package/.claude/roles/product-designer/skills/03-brainstorming-ideation/README.md +437 -437
package/.claude/roles/product-designer/skills/04-ux-design/README.md +496 -496
package/.claude/roles/product-designer/skills/05-product-market-fit/README.md +376 -376
package/.claude/roles/product-designer/skills/06-stakeholder-management/README.md +412 -412
package/.claude/roles/security-architect/skills/01-pii-detection/README.md +319 -319
package/.claude/roles/security-architect/skills/02-threat-modeling/README.md +264 -264
package/.claude/roles/security-architect/skills/03-infrastructure-security/README.md +264 -264
package/.claude/roles/security-architect/skills/04-iam/README.md +264 -264
package/.claude/roles/security-architect/skills/05-application-security/README.md +264 -264
package/.claude/roles/security-architect/skills/06-secrets-management/README.md +264 -264
package/.claude/roles/security-architect/skills/07-security-monitoring/README.md +264 -264
package/.claude/roles/system-design/skills/01-architecture-patterns/README.md +337 -337
package/.claude/roles/system-design/skills/02-requirements-engineering/README.md +264 -264
package/.claude/roles/system-design/skills/03-scalability/README.md +264 -264
package/.claude/roles/system-design/skills/04-high-availability/README.md +264 -264
package/.claude/roles/system-design/skills/05-cost-optimization-design/README.md +264 -264
package/.claude/roles/system-design/skills/06-api-design/README.md +264 -264
package/.claude/roles/system-design/skills/07-observability-architecture/README.md +264 -264
package/.claude/roles/system-design/skills/08-process-automation/PROCESS_TEMPLATE.md +336 -336
package/.claude/roles/system-design/skills/08-process-automation/README.md +521 -521
package/.claude/roles/system-design/skills/08-process-automation/ai_prompt_generator.py +744 -744
package/.claude/roles/system-design/skills/08-process-automation/automation_recommender.py +688 -688
package/.claude/roles/system-design/skills/08-process-automation/plan_generator.py +679 -679
package/.claude/roles/system-design/skills/08-process-automation/process_analyzer.py +528 -528
package/.claude/roles/system-design/skills/08-process-automation/process_parser.py +684 -684
package/.claude/roles/system-design/skills/08-process-automation/role_matcher.py +615 -615
package/.claude/skills/README.md +336 -336
package/.claude/skills/ai-engineer.md +104 -104
package/.claude/skills/aws.md +143 -143
package/.claude/skills/azure.md +149 -149
package/.claude/skills/backend-developer.md +108 -108
package/.claude/skills/code-review.md +399 -399
package/.claude/skills/compliance-automation.md +747 -747
package/.claude/skills/compliance-officer.md +108 -108
package/.claude/skills/data-engineer.md +113 -113
package/.claude/skills/data-governance.md +102 -102
package/.claude/skills/data-scientist.md +123 -123
package/.claude/skills/database-admin.md +109 -109
package/.claude/skills/devops.md +160 -160
package/.claude/skills/docker.md +160 -160
package/.claude/skills/enterprise-dashboard.md +613 -613
package/.claude/skills/finops.md +184 -184
package/.claude/skills/frontend-developer.md +108 -108
package/.claude/skills/gcp.md +143 -143
package/.claude/skills/ml-engineer.md +115 -115
package/.claude/skills/mlops.md +187 -187
package/.claude/skills/network-engineer.md +109 -109
package/.claude/skills/optimization-advisor.md +329 -329
package/.claude/skills/orchestrator.md +623 -623
package/.claude/skills/platform-engineer.md +102 -102
package/.claude/skills/process-automation.md +226 -226
package/.claude/skills/process-changelog.md +184 -184
package/.claude/skills/process-documentation.md +484 -484
package/.claude/skills/process-kanban.md +324 -324
package/.claude/skills/process-versioning.md +214 -214
package/.claude/skills/product-designer.md +104 -104
package/.claude/skills/project-starter.md +443 -443
package/.claude/skills/qa-engineer.md +109 -109
package/.claude/skills/security-architect.md +135 -135
package/.claude/skills/sre.md +109 -109
package/.claude/skills/system-design.md +126 -126
package/.claude/skills/technical-writer.md +101 -101
package/.gitattributes +2 -2
package/GITHUB_COPILOT.md +106 -106
package/README.md +192 -184
package/package.json +16 -8

package/.claude/roles/data-engineer/skills/01-lakehouse-architecture/bronze_ingestion.py CHANGED Viewed

@@ -1,337 +1,337 @@
-"""
-Bronze Layer: Raw Data Ingestion
-Ingest data from multiple sources with validation and error handling.
-"""
-import json
-import os
-from datetime import datetime
-from pathlib import Path
-from typing import Dict, Any, List, Optional, Union
-import pandas as pd
-from pyspark.sql import SparkSession, DataFrame
-from pyspark.sql.types import StructType, StructField, StringType, IntegerType, TimestampType
-from pyspark.sql import functions as F
-import logging
-logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger(__name__)
-class BronzeLoader:
-    """
-    Bronze layer ingestion with schema validation and audit logging.
-    Bronze layer principles:
-    - Append-only (preserve full history)
-    - Raw data with minimal transformation
-    - Add metadata (ingestion timestamp, source, file name)
-    - Schema validation
-    - Error quarantine
-    """
-    def __init__(
-        self,
-        spark: Optional[SparkSession] = None,
-        bronze_path: str = "/lakehouse/bronze",
-        quarantine_path: str = "/lakehouse/quarantine"
-    ):
-        """
-        Initialize Bronze loader.
-        Args:
-            spark: SparkSession (creates one if not provided)
-            bronze_path: Path to bronze layer storage
-            quarantine_path: Path for invalid records
-        """
-        self.spark = spark or self._create_spark_session()
-        self.bronze_path = bronze_path
-        self.quarantine_path = quarantine_path
-        # Create directories if they don't exist
-        Path(bronze_path).mkdir(parents=True, exist_ok=True)
-        Path(quarantine_path).mkdir(parents=True, exist_ok=True)
-    def _create_spark_session(self) -> SparkSession:
-        """Create Spark session with Delta Lake support."""
-        return SparkSession.builder \
-            .appName("BronzeIngestion") \
-            .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
-            .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
-            .config("spark.databricks.delta.retentionDurationCheck.enabled", "false") \
-            .getOrCreate()
-    def ingest_from_source(
-        self,
-        source_path: str,
-        table_name: str,
-        source_format: str = "json",
-        schema: Optional[StructType] = None,
-        options: Optional[Dict[str, str]] = None
-    ) -> Dict[str, Any]:
-        """
-        Ingest data from source into Bronze layer.
-        Args:
-            source_path: Path to source data
-            table_name: Name for bronze table
-            source_format: Format (json, csv, parquet, etc.)
-            schema: Optional schema to enforce
-            options: Additional read options
-        Returns:
-            Ingestion metrics
-        """
-        logger.info(f"Starting ingestion: {table_name} from {source_path}")
-        try:
-            # Read source data
-            df = self._read_source(source_path, source_format, schema, options)
-            # Add bronze layer metadata
-            df_bronze = self._add_bronze_metadata(df, source_path, table_name)
-            # Validate schema if provided
-            if schema:
-                df_bronze = self._validate_schema(df_bronze, schema)
-            # Write to bronze layer
-            bronze_table_path = f"{self.bronze_path}/{table_name}"
-            df_bronze.write \
-                .format("delta") \
-                .mode("append") \
-                .option("mergeSchema", "true") \
-                .save(bronze_table_path)
-            # Collect metrics
-            record_count = df_bronze.count()
-            metrics = {
-                "status": "success",
-                "table_name": table_name,
-                "records_ingested": record_count,
-                "source_path": source_path,
-                "ingestion_timestamp": datetime.now().isoformat(),
-                "bronze_path": bronze_table_path
-            }
-            logger.info(f"✅ Successfully ingested {record_count} records to {table_name}")
-            return metrics
-        except Exception as e:
-            logger.error(f"❌ Ingestion failed: {str(e)}")
-            return {
-                "status": "failed",
-                "table_name": table_name,
-                "error": str(e),
-                "ingestion_timestamp": datetime.now().isoformat()
-            }
-    def _read_source(
-        self,
-        source_path: str,
-        source_format: str,
-        schema: Optional[StructType] = None,
-        options: Optional[Dict[str, str]] = None
-    ) -> DataFrame:
-        """Read data from source."""
-        options = options or {}
-        reader = self.spark.read.format(source_format)
-        if schema:
-            reader = reader.schema(schema)
-        for key, value in options.items():
-            reader = reader.option(key, value)
-        return reader.load(source_path)
-    def _add_bronze_metadata(
-        self,
-        df: DataFrame,
-        source_path: str,
-        table_name: str
-    ) -> DataFrame:
-        """Add bronze layer audit columns."""
-        return df \
-            .withColumn("_bronze_ingestion_timestamp", F.current_timestamp()) \
-            .withColumn("_bronze_source_path", F.lit(source_path)) \
-            .withColumn("_bronze_table_name", F.lit(table_name)) \
-            .withColumn("_bronze_ingestion_date", F.current_date())
-    def _validate_schema(
-        self,
-        df: DataFrame,
-        expected_schema: StructType
-    ) -> DataFrame:
-        """
-        Validate DataFrame against expected schema.
-        Quarantine records that don't match schema.
-        """
-        # In production, implement sophisticated schema validation
-        # For now, we return the df as-is
-        return df
-    def ingest_csv(
-        self,
-        csv_path: str,
-        table_name: str,
-        delimiter: str = ",",
-        header: bool = True,
-        schema: Optional[StructType] = None
-    ) -> Dict[str, Any]:
-        """Convenience method for CSV ingestion."""
-        options = {
-            "delimiter": delimiter,
-            "header": str(header).lower(),
-            "inferSchema": "true" if schema is None else "false"
-        }
-        return self.ingest_from_source(
-            source_path=csv_path,
-            table_name=table_name,
-            source_format="csv",
-            schema=schema,
-            options=options
-        )
-    def ingest_json(
-        self,
-        json_path: str,
-        table_name: str,
-        multiline: bool = False,
-        schema: Optional[StructType] = None
-    ) -> Dict[str, Any]:
-        """Convenience method for JSON ingestion."""
-        options = {
-            "multiLine": str(multiline).lower()
-        }
-        return self.ingest_from_source(
-            source_path=json_path,
-            table_name=table_name,
-            source_format="json",
-            schema=schema,
-            options=options
-        )
-    def ingest_parquet(
-        self,
-        parquet_path: str,
-        table_name: str
-    ) -> Dict[str, Any]:
-        """Convenience method for Parquet ingestion."""
-        return self.ingest_from_source(
-            source_path=parquet_path,
-            table_name=table_name,
-            source_format="parquet"
-        )
-    def create_bronze_table(
-        self,
-        table_name: str,
-        schema: StructType,
-        partition_by: Optional[List[str]] = None
-    ) -> None:
-        """Create an empty bronze table with schema."""
-        bronze_table_path = f"{self.bronze_path}/{table_name}"
-        # Create empty DataFrame with schema
-        empty_df = self.spark.createDataFrame([], schema)
-        # Add bronze metadata columns
-        bronze_df = self._add_bronze_metadata(empty_df, "initialized", table_name)
-        # Write table
-        writer = bronze_df.write.format("delta").mode("overwrite")
-        if partition_by:
-            writer = writer.partitionBy(*partition_by)
-        writer.save(bronze_table_path)
-        logger.info(f"✅ Created bronze table: {table_name}")
-# Example CRM schema
-CRM_LEADS_SCHEMA = StructType([
-    StructField("lead_id", StringType(), False),
-    StructField("email", StringType(), True),
-    StructField("company", StringType(), True),
-    StructField("industry", StringType(), True),
-    StructField("company_size", StringType(), True),
-    StructField("job_title", StringType(), True),
-    StructField("lead_source", StringType(), True),
-    StructField("created_date", TimestampType(), True),
-    StructField("lead_score", IntegerType(), True),
-    StructField("status", StringType(), True)
-])
-# Example usage
-if __name__ == "__main__":
-    print("=" * 80)
-    print("Bronze Layer Ingestion Demo")
-    print("=" * 80)
-    # Create sample data
-    sample_data = [
-        {
-            "lead_id": "L001",
-            "email": "john@techcorp.com",
-            "company": "TechCorp",
-            "industry": "Software",
-            "company_size": "100-500",
-            "job_title": "Data Scientist",
-            "lead_source": "Website",
-            "created_date": "2025-01-15T10:30:00",
-            "lead_score": 85,
-            "status": "New"
-        },
-        {
-            "lead_id": "L002",
-            "email": "sarah@datainc.com",
-            "company": "Data Inc",
-            "industry": "Analytics",
-            "company_size": "50-100",
-            "job_title": "ML Engineer",
-            "lead_source": "LinkedIn",
-            "created_date": "2025-01-16T14:20:00",
-            "lead_score": 92,
-            "status": "Qualified"
-        }
-    ]
-    # Save as JSON
-    sample_path = "/tmp/sample_crm_leads.json"
-    with open(sample_path, 'w') as f:
-        json.dump(sample_data, f)
-    # Initialize Bronze loader
-    bronze = BronzeLoader(
-        bronze_path="./lakehouse/bronze",
-        quarantine_path="./lakehouse/quarantine"
-    )
-    # Ingest data
-    metrics = bronze.ingest_json(
-        json_path=sample_path,
-        table_name="crm_leads",
-        multiline=True,
-        schema=CRM_LEADS_SCHEMA
-    )
-    print("\n📊 Ingestion Metrics:")
-    print(json.dumps(metrics, indent=2))
-    # Query bronze table
-    print("\n📋 Bronze Table Sample:")
-    bronze_df = bronze.spark.read.format("delta").load("./lakehouse/bronze/crm_leads")
-    bronze_df.show(truncate=False)
-    print(f"\nBronze table row count: {bronze_df.count()}")
+"""
+Bronze Layer: Raw Data Ingestion
+Ingest data from multiple sources with validation and error handling.
+"""
+import json
+import os
+from datetime import datetime
+from pathlib import Path
+from typing import Dict, Any, List, Optional, Union
+import pandas as pd
+from pyspark.sql import SparkSession, DataFrame
+from pyspark.sql.types import StructType, StructField, StringType, IntegerType, TimestampType
+from pyspark.sql import functions as F
+import logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+class BronzeLoader:
+    """
+    Bronze layer ingestion with schema validation and audit logging.
+    Bronze layer principles:
+    - Append-only (preserve full history)
+    - Raw data with minimal transformation
+    - Add metadata (ingestion timestamp, source, file name)
+    - Schema validation
+    - Error quarantine
+    """
+    def __init__(
+        self,
+        spark: Optional[SparkSession] = None,
+        bronze_path: str = "/lakehouse/bronze",
+        quarantine_path: str = "/lakehouse/quarantine"
+    ):
+        """
+        Initialize Bronze loader.
+        Args:
+            spark: SparkSession (creates one if not provided)
+            bronze_path: Path to bronze layer storage
+            quarantine_path: Path for invalid records
+        """
+        self.spark = spark or self._create_spark_session()
+        self.bronze_path = bronze_path
+        self.quarantine_path = quarantine_path
+        # Create directories if they don't exist
+        Path(bronze_path).mkdir(parents=True, exist_ok=True)
+        Path(quarantine_path).mkdir(parents=True, exist_ok=True)
+    def _create_spark_session(self) -> SparkSession:
+        """Create Spark session with Delta Lake support."""
+        return SparkSession.builder \
+            .appName("BronzeIngestion") \
+            .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
+            .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
+            .config("spark.databricks.delta.retentionDurationCheck.enabled", "false") \
+            .getOrCreate()
+    def ingest_from_source(
+        self,
+        source_path: str,
+        table_name: str,
+        source_format: str = "json",
+        schema: Optional[StructType] = None,
+        options: Optional[Dict[str, str]] = None
+    ) -> Dict[str, Any]:
+        """
+        Ingest data from source into Bronze layer.
+        Args:
+            source_path: Path to source data
+            table_name: Name for bronze table
+            source_format: Format (json, csv, parquet, etc.)
+            schema: Optional schema to enforce
+            options: Additional read options
+        Returns:
+            Ingestion metrics
+        """
+        logger.info(f"Starting ingestion: {table_name} from {source_path}")
+        try:
+            # Read source data
+            df = self._read_source(source_path, source_format, schema, options)
+            # Add bronze layer metadata
+            df_bronze = self._add_bronze_metadata(df, source_path, table_name)
+            # Validate schema if provided
+            if schema:
+                df_bronze = self._validate_schema(df_bronze, schema)
+            # Write to bronze layer
+            bronze_table_path = f"{self.bronze_path}/{table_name}"
+            df_bronze.write \
+                .format("delta") \
+                .mode("append") \
+                .option("mergeSchema", "true") \
+                .save(bronze_table_path)
+            # Collect metrics
+            record_count = df_bronze.count()
+            metrics = {
+                "status": "success",
+                "table_name": table_name,
+                "records_ingested": record_count,
+                "source_path": source_path,
+                "ingestion_timestamp": datetime.now().isoformat(),
+                "bronze_path": bronze_table_path
+            }
+            logger.info(f"✅ Successfully ingested {record_count} records to {table_name}")
+            return metrics
+        except Exception as e:
+            logger.error(f"❌ Ingestion failed: {str(e)}")
+            return {
+                "status": "failed",
+                "table_name": table_name,
+                "error": str(e),
+                "ingestion_timestamp": datetime.now().isoformat()
+            }
+    def _read_source(
+        self,
+        source_path: str,
+        source_format: str,
+        schema: Optional[StructType] = None,
+        options: Optional[Dict[str, str]] = None
+    ) -> DataFrame:
+        """Read data from source."""
+        options = options or {}
+        reader = self.spark.read.format(source_format)
+        if schema:
+            reader = reader.schema(schema)
+        for key, value in options.items():
+            reader = reader.option(key, value)
+        return reader.load(source_path)
+    def _add_bronze_metadata(
+        self,
+        df: DataFrame,
+        source_path: str,
+        table_name: str
+    ) -> DataFrame:
+        """Add bronze layer audit columns."""
+        return df \
+            .withColumn("_bronze_ingestion_timestamp", F.current_timestamp()) \
+            .withColumn("_bronze_source_path", F.lit(source_path)) \
+            .withColumn("_bronze_table_name", F.lit(table_name)) \
+            .withColumn("_bronze_ingestion_date", F.current_date())
+    def _validate_schema(
+        self,
+        df: DataFrame,
+        expected_schema: StructType
+    ) -> DataFrame:
+        """
+        Validate DataFrame against expected schema.
+        Quarantine records that don't match schema.
+        """
+        # In production, implement sophisticated schema validation
+        # For now, we return the df as-is
+        return df
+    def ingest_csv(
+        self,
+        csv_path: str,
+        table_name: str,
+        delimiter: str = ",",
+        header: bool = True,
+        schema: Optional[StructType] = None
+    ) -> Dict[str, Any]:
+        """Convenience method for CSV ingestion."""
+        options = {
+            "delimiter": delimiter,
+            "header": str(header).lower(),
+            "inferSchema": "true" if schema is None else "false"
+        }
+        return self.ingest_from_source(
+            source_path=csv_path,
+            table_name=table_name,
+            source_format="csv",
+            schema=schema,
+            options=options
+        )
+    def ingest_json(
+        self,
+        json_path: str,
+        table_name: str,
+        multiline: bool = False,
+        schema: Optional[StructType] = None
+    ) -> Dict[str, Any]:
+        """Convenience method for JSON ingestion."""
+        options = {
+            "multiLine": str(multiline).lower()
+        }
+        return self.ingest_from_source(
+            source_path=json_path,
+            table_name=table_name,
+            source_format="json",
+            schema=schema,
+            options=options
+        )
+    def ingest_parquet(
+        self,
+        parquet_path: str,
+        table_name: str
+    ) -> Dict[str, Any]:
+        """Convenience method for Parquet ingestion."""
+        return self.ingest_from_source(
+            source_path=parquet_path,
+            table_name=table_name,
+            source_format="parquet"
+        )
+    def create_bronze_table(
+        self,
+        table_name: str,
+        schema: StructType,
+        partition_by: Optional[List[str]] = None
+    ) -> None:
+        """Create an empty bronze table with schema."""
+        bronze_table_path = f"{self.bronze_path}/{table_name}"
+        # Create empty DataFrame with schema
+        empty_df = self.spark.createDataFrame([], schema)
+        # Add bronze metadata columns
+        bronze_df = self._add_bronze_metadata(empty_df, "initialized", table_name)
+        # Write table
+        writer = bronze_df.write.format("delta").mode("overwrite")
+        if partition_by:
+            writer = writer.partitionBy(*partition_by)
+        writer.save(bronze_table_path)
+        logger.info(f"✅ Created bronze table: {table_name}")
+# Example CRM schema
+CRM_LEADS_SCHEMA = StructType([
+    StructField("lead_id", StringType(), False),
+    StructField("email", StringType(), True),
+    StructField("company", StringType(), True),
+    StructField("industry", StringType(), True),
+    StructField("company_size", StringType(), True),
+    StructField("job_title", StringType(), True),
+    StructField("lead_source", StringType(), True),
+    StructField("created_date", TimestampType(), True),
+    StructField("lead_score", IntegerType(), True),
+    StructField("status", StringType(), True)
+])
+# Example usage
+if __name__ == "__main__":
+    print("=" * 80)
+    print("Bronze Layer Ingestion Demo")
+    print("=" * 80)
+    # Create sample data
+    sample_data = [
+        {
+            "lead_id": "L001",
+            "email": "john@techcorp.com",
+            "company": "TechCorp",
+            "industry": "Software",
+            "company_size": "100-500",
+            "job_title": "Data Scientist",
+            "lead_source": "Website",
+            "created_date": "2025-01-15T10:30:00",
+            "lead_score": 85,
+            "status": "New"
+        },
+        {
+            "lead_id": "L002",
+            "email": "sarah@datainc.com",
+            "company": "Data Inc",
+            "industry": "Analytics",
+            "company_size": "50-100",
+            "job_title": "ML Engineer",
+            "lead_source": "LinkedIn",
+            "created_date": "2025-01-16T14:20:00",
+            "lead_score": 92,
+            "status": "Qualified"
+        }
+    ]
+    # Save as JSON
+    sample_path = "/tmp/sample_crm_leads.json"
+    with open(sample_path, 'w') as f:
+        json.dump(sample_data, f)
+    # Initialize Bronze loader
+    bronze = BronzeLoader(
+        bronze_path="./lakehouse/bronze",
+        quarantine_path="./lakehouse/quarantine"
+    )
+    # Ingest data
+    metrics = bronze.ingest_json(
+        json_path=sample_path,
+        table_name="crm_leads",
+        multiline=True,
+        schema=CRM_LEADS_SCHEMA
+    )
+    print("\n📊 Ingestion Metrics:")
+    print(json.dumps(metrics, indent=2))
+    # Query bronze table
+    print("\n📋 Bronze Table Sample:")
+    bronze_df = bronze.spark.read.format("delta").load("./lakehouse/bronze/crm_leads")
+    bronze_df.show(truncate=False)
+    print(f"\nBronze table row count: {bronze_df.count()}")