npm - @xdev-asia/xdev-knowledge-mcp - Versions diffs - 1.0.41 → 1.0.43 - Mend

@xdev-asia/xdev-knowledge-mcp 1.0.41 → 1.0.43

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (23) hide show

package/content/series/luyen-thi/luyen-thi-aws-ai-practitioner/index.md ADDED Viewed

@@ -0,0 +1,257 @@
+---
+id: 019c9619-lt01-7001-c001-lt0100000001
+title: "Luyện thi AWS Certified AI Practitioner (AIF-C01)"
+slug: luyen-thi-aws-ai-practitioner
+description: >-
+  Lộ trình ôn tập toàn diện cho kỳ thi AWS Certified AI Practitioner (AIF-C01).
+  Bao phủ đầy đủ 5 domain: AI/ML Fundamentals, Generative AI, Foundation Models,
+  Responsible AI, Security & Governance. 12 bài học chuyên sâu kèm thi thử tiếng Anh.
+featured_image: images/blog/aws-ai-practitioner-series-banner.png
+level: beginner
+duration_hours: 30
+lesson_count: 12
+price: '0.00'
+is_free: true
+view_count: 0
+average_rating: '0.00'
+review_count: 0
+enrollment_count: 0
+meta: null
+published_at: '2026-04-04T10:00:00.000000Z'
+created_at: '2026-04-04T10:00:00.000000Z'
+author:
+  id: 019c9616-d2b4-713f-9b2c-40e2e92a05cf
+  name: Duy Tran
+  avatar: avatars/7e8eb5c6-4cac-455b-a701-4060f085d501.jpeg
+category:
+  id: 019c9616-cat9-7009-a009-000000000009
+  name: Luyện thi chứng chỉ
+  slug: luyen-thi
+tags:
+  - name: AWS
+    slug: aws
+  - name: AI
+    slug: ai
+  - name: Chứng chỉ
+    slug: chung-chi
+  - name: Amazon Bedrock
+    slug: amazon-bedrock
+  - name: SageMaker
+    slug: sagemaker
+  - name: Generative AI
+    slug: generative-ai
+quiz_slug: aws-ai-practitioner
+sections:
+  - id: section-01
+    title: "Domain 1: Fundamentals of AI and ML (20%)"
+    description: Khái niệm AI, ML, Deep Learning, ML lifecycle, data types, use cases
+    sort_order: 1
+    lessons:
+      - id: 019c9619-lt01-d1-l01
+        title: "Bài 1: AI, ML & Deep Learning — Concepts and Terminology"
+        slug: bai-1-ai-ml-deep-learning-concepts
+        description: >-
+          AI vs ML vs DL. Supervised, Unsupervised, Reinforcement Learning.
+          Classification, Regression, Clustering. Neural Networks basics.
+          Training, Validation, Test sets. Bias-Variance tradeoff.
+        duration_minutes: 60
+        is_free: true
+        sort_order: 0
+        video_url: null
+      - id: 019c9619-lt01-d1-l02
+        title: "Bài 2: ML Development Lifecycle & AWS AI Services Overview"
+        slug: bai-2-ml-lifecycle-aws-services
+        description: >-
+          ML pipeline: data collection → feature engineering → training → evaluation → deployment.
+          AWS AI/ML service stack. SageMaker, Rekognition, Comprehend, Polly,
+          Transcribe, Translate, Textract, Lex, Personalize, Forecast, Kendra.
+        duration_minutes: 60
+        is_free: true
+        sort_order: 1
+        video_url: null
+  - id: section-02
+    title: "Domain 2: Fundamentals of Generative AI (24%)"
+    description: GenAI concepts, Foundation Models, LLMs, Transformer architecture
+    sort_order: 2
+    lessons:
+      - id: 019c9619-lt01-d2-l03
+        title: "Bài 3: Generative AI & Foundation Models"
+        slug: bai-3-generative-ai-foundation-models
+        description: >-
+          Generative AI là gì. Foundation Models: pre-training, fine-tuning.
+          Types: text-to-text, text-to-image, text-to-code. Tokenization.
+          Model parameters, inference, temperature, top-p, top-k.
+        duration_minutes: 60
+        is_free: true
+        sort_order: 0
+        video_url: null
+      - id: 019c9619-lt01-d2-l04
+        title: "Bài 4: LLMs, Transformers & Multi-modal Models"
+        slug: bai-4-llm-transformers-multimodal
+        description: >-
+          Transformer architecture: attention mechanism, self-attention.
+          GPT (decoder-only), BERT (encoder-only), T5 (encoder-decoder).
+          Multi-modal models. Hallucination: causes and mitigation.
+          Embeddings và vector representations.
+        duration_minutes: 60
+        is_free: true
+        sort_order: 1
+        video_url: null
+  - id: section-03
+    title: "Domain 3: Applications of Foundation Models (28%)"
+    description: Prompt engineering, RAG, fine-tuning, Amazon Bedrock
+    sort_order: 3
+    lessons:
+      - id: 019c9619-lt01-d3-l05
+        title: "Bài 5: Prompt Engineering Techniques"
+        slug: bai-5-prompt-engineering
+        description: >-
+          Zero-shot, Few-shot, Chain-of-Thought prompting.
+          System prompts, role-based prompting. Prompt templates.
+          Best practices: clarity, specificity, constraints.
+          Common pitfalls và cách tối ưu.
+        duration_minutes: 60
+        is_free: true
+        sort_order: 0
+        video_url: null
+      - id: 019c9619-lt01-d3-l06
+        title: "Bài 6: RAG — Retrieval-Augmented Generation"
+        slug: bai-6-rag-retrieval-augmented-generation
+        description: >-
+          RAG architecture: indexing, retrieval, generation.
+          Vector databases, embeddings, similarity search.
+          Amazon Bedrock Knowledge Bases. Chunking strategies.
+          RAG vs Fine-tuning: khi nào dùng gì.
+        duration_minutes: 60
+        is_free: true
+        sort_order: 1
+        video_url: null
+      - id: 019c9619-lt01-d3-l07
+        title: "Bài 7: Fine-tuning & Model Customization"
+        slug: bai-7-fine-tuning-model-customization
+        description: >-
+          Pre-training vs Fine-tuning vs Prompt Engineering.
+          Continued pre-training, instruction tuning.
+          PEFT: LoRA, QLoRA. Training data preparation.
+          Amazon Bedrock Custom Models, SageMaker JumpStart.
+        duration_minutes: 60
+        is_free: true
+        sort_order: 2
+        video_url: null
+      - id: 019c9619-lt01-d3-l08
+        title: "Bài 8: Amazon Bedrock — Complete Deep Dive"
+        slug: bai-8-amazon-bedrock-deep-dive
+        description: >-
+          Bedrock architecture, supported models (Claude, Llama, Titan, Mistral).
+          Bedrock Agents, Guardrails, Knowledge Bases, Model Evaluation.
+          PlayGrounds. Bedrock API & SDKs. Pricing models.
+          PartyRock for prototyping.
+        duration_minutes: 75
+        is_free: true
+        sort_order: 3
+        video_url: null
+  - id: section-04
+    title: "Domain 4: Guidelines for Responsible AI (14%)"
+    description: Fairness, transparency, explainability, responsible AI practices
+    sort_order: 4
+    lessons:
+      - id: 019c9619-lt01-d4-l09
+        title: "Bài 9: Responsible AI — Fairness, Bias & Transparency"
+        slug: bai-9-responsible-ai-fairness-bias
+        description: >-
+          AWS Responsible AI principles. Types of bias: selection, measurement,
+          algorithmic bias. Fairness metrics. Model explainability: SHAP, LIME.
+          SageMaker Clarify. AWS AI Service Cards.
+        duration_minutes: 50
+        is_free: true
+        sort_order: 0
+        video_url: null
+      - id: 019c9619-lt01-d4-l10
+        title: "Bài 10: Human-in-the-Loop & AI Governance"
+        slug: bai-10-human-in-the-loop-governance
+        description: >-
+          Human review workflows. Amazon Augmented AI (A2I).
+          Model monitoring và drift detection. Guardrails for Bedrock.
+          Content filtering, toxicity detection. Watermarking.
+        duration_minutes: 50
+        is_free: true
+        sort_order: 1
+        video_url: null
+  - id: section-05
+    title: "Domain 5: Security, Compliance & Governance (14%)"
+    description: AI security, data privacy, compliance, exam strategy
+    sort_order: 5
+    lessons:
+      - id: 019c9619-lt01-d5-l11
+        title: "Bài 11: AI Security & Data Privacy on AWS"
+        slug: bai-11-ai-security-data-privacy
+        description: >-
+          IAM for AI services. Data encryption (KMS, at-rest, in-transit).
+          VPC configuration cho SageMaker. Data privacy: PII detection,
+          Amazon Macie. Compliance frameworks: GDPR, HIPAA, SOC.
+          Shared responsibility model for AI.
+        duration_minutes: 50
+        is_free: true
+        sort_order: 0
+        video_url: null
+      - id: 019c9619-lt01-d5-l12
+        title: "Bài 12: Exam Strategy, Cheat Sheet & Mock Exam Guide"
+        slug: bai-12-exam-strategy-cheat-sheet
+        description: >-
+          AIF-C01 exam format: 65 questions, 90 minutes, 700/1000.
+          Domain weight strategy. Elimination techniques.
+          Complete cheat sheet: services mapping, key concepts.
+          Hướng dẫn thi thử và đánh giá kết quả.
+        duration_minutes: 45
+        is_free: true
+        sort_order: 1
+        video_url: null
+reviews: []
+quizzes: []
+---
+## Giới thiệu
+Khoá học **Luyện thi AWS Certified AI Practitioner (AIF-C01)** giúp bạn ôn tập có hệ thống, bao phủ đầy đủ 5 domain của kỳ thi — từ nền tảng AI/ML đến GenAI, Amazon Bedrock, Responsible AI và Security.
+### Ai nên học?
+- Developer, DevOps, Solution Architect muốn chứng chỉ AI
+- Business Analyst, Product Manager muốn hiểu AI trên AWS
+- Người mới bắt đầu với AI, muốn có foundation vững chắc
+- Ai đã có kiến thức AI cơ bản, muốn validate bằng chứng chỉ AWS
+### Cấu trúc đề thi AIF-C01
+| Domain | Tỷ trọng | Số bài học |
+|--------|----------|------------|
+| Domain 1: Fundamentals of AI and ML | 20% | Bài 1–2 |
+| Domain 2: Fundamentals of Generative AI | 24% | Bài 3–4 |
+| Domain 3: Applications of Foundation Models | 28% | Bài 5–8 |
+| Domain 4: Guidelines for Responsible AI | 14% | Bài 9–10 |
+| Domain 5: Security, Compliance & Governance | 14% | Bài 11–12 |
+- **Số câu**: 65 câu (scored) + 15 câu (unscored) = 80 câu tổng cộng
+- **Thời gian**: 90 phút
+- **Điểm đạt**: 700/1000
+- **Phí thi**: $100 USD
+- **Ngôn ngữ thi**: Tiếng Anh (và nhiều ngôn ngữ khác)
+- **Hình thức**: Pearson VUE testing center hoặc online proctored
+### Lộ trình học
+1. **Học lý thuyết** qua 12 bài trong series này
+2. **Thi thử** với đề trắc nghiệm tiếng Anh mô phỏng
+3. **Ôn lại** domain yếu, thi lại cho đến khi đạt ≥80%
+4. **Đăng ký thi** khi tự tin — [aws.amazon.com/certification](https://aws.amazon.com/certification/certified-ai-practitioner/)

package/content/series/luyen-thi/luyen-thi-aws-ml-specialty/chapters/01-phan-1-data-engineering/lessons/01-bai-1-data-repositories-ingestion.md ADDED Viewed

@@ -0,0 +1,193 @@
+---
+id: 14a964b2-b4b7-46e5-95b0-7d91d9cacdf5
+title: 'Bài 1: Data Repositories & Ingestion — S3, Kinesis, Glue'
+slug: bai-1-data-repositories-ingestion
+description: >-
+  S3 data lake cho ML. Kinesis Data Streams/Firehose cho streaming ingestion.
+  AWS Glue ETL jobs và Data Catalog. Lake Formation. Data Wrangler.
+  Chiến lược lưu trữ: Parquet, ORC, CSV, JSON.
+duration_minutes: 60
+is_free: true
+video_url: null
+sort_order: 1
+section_title: "Phần 1: Data Engineering (20%)"
+course:
+  id: 019c9619-lt02-7002-c002-lt0200000002
+  title: 'Luyện thi AWS Certified Machine Learning - Specialty'
+  slug: luyen-thi-aws-ml-specialty
+---
+<h2 id="overview"><strong>1. Tổng quan Data Engineering trong MLS-C01</strong></h2>
+<p>Domain Data Engineering chiếm <strong>20% đề thi MLS-C01</strong>. Đây là phần bắt buộc phải nắm vững — đề thi thường hỏi "Which service should be used to ingest/store/transform data for ML?"</p>
+<blockquote>
+<p><strong>Exam tip:</strong> Phần lớn câu hỏi Data Engineering sẽ cho một scenario và hỏi service phù hợp. Key pattern: batch → S3 + Glue; streaming → Kinesis; structured/SQL → Athena; catalog → Glue Data Catalog.</p>
+</blockquote>
+<h2 id="s3-ml"><strong>2. Amazon S3 — ML Data Lake</strong></h2>
+<p><strong>Amazon S3</strong> là nền tảng lưu trữ dữ liệu ML trên AWS. Mọi pipeline ML đều bắt đầu và kết thúc từ S3: training data, model artifacts, predictions.</p>
+<h3 id="s3-storage-classes"><strong>2.1. S3 Storage Classes cho ML</strong></h3>
+<table>
+<thead><tr><th>Storage Class</th><th>Use Case</th><th>Cost</th></tr></thead>
+<tbody>
+<tr><td><strong>S3 Standard</strong></td><td>Active training data, frequent access</td><td>Cao nhất</td></tr>
+<tr><td><strong>S3 Intelligent-Tiering</strong></td><td>Mixed access patterns (tự động tier)</td><td>Tự động tối ưu</td></tr>
+<tr><td><strong>S3 Standard-IA</strong></td><td>Backup datasets, infrequent access</td><td>Thấp hơn Standard</td></tr>
+<tr><td><strong>S3 Glacier Instant Retrieval</strong></td><td>Archived datasets, occasional retrieval</td><td>Thấp</td></tr>
+<tr><td><strong>S3 Glacier Deep Archive</strong></td><td>Long-term compliance archives</td><td>Thấp nhất</td></tr>
+</tbody>
+</table>
+<h3 id="s3-file-formats"><strong>2.2. File Formats for ML</strong></h3>
+<table>
+<thead><tr><th>Format</th><th>Type</th><th>Best For</th><th>Compression</th></tr></thead>
+<tbody>
+<tr><td><strong>Parquet</strong></td><td>Columnar</td><td>Analytics, large datasets, feature stores</td><td>Excellent</td></tr>
+<tr><td><strong>ORC</strong></td><td>Columnar</td><td>Hive/EMR workloads</td><td>Excellent</td></tr>
+<tr><td><strong>CSV</strong></td><td>Row-based</td><td>Simple, SageMaker training input</td><td>Poor</td></tr>
+<tr><td><strong>JSON</strong></td><td>Semi-structured</td><td>Nested data, APIs</td><td>Poor</td></tr>
+<tr><td><strong>RecordIO</strong></td><td>Binary</td><td>SageMaker Pipe Mode training</td><td>Good</td></tr>
+</tbody>
+</table>
+<blockquote>
+<p><strong>Exam tip:</strong> Khi đề hỏi về <em>performance optimization</em> cho large-scale training, đáp án thường là chuyển sang <strong>Parquet</strong> (columnar, compressed) và dùng <strong>Pipe Mode</strong> thay vì File Mode trong SageMaker.</p>
+</blockquote>
+<pre><code class="language-text">S3 Data Lake Architecture for ML:
+┌─────────────────────────────────────────────────────────┐
+│                    Amazon S3 Buckets                     │
+├──────────────┬──────────────┬──────────────┬────────────┤
+│  Raw Zone    │ Processed    │  Features    │  Models    │
+│  (landing)   │  Zone        │  Zone        │  & Output  │
+│              │              │              │            │
+│  CSV/JSON    │  Parquet/ORC │  Feature     │  Model     │
+│  original    │  cleaned     │  Store       │  Artifacts │
+│  data        │  transformed │  snapshots   │  Predictions│
+└──────────────┴──────────────┴──────────────┴────────────┘
+       ↑                ↑                ↑
+   Kinesis          AWS Glue         SageMaker
+  (streaming)        (ETL)           Processing
+</code></pre>
+<h2 id="kinesis"><strong>3. Amazon Kinesis — Streaming Ingestion</strong></h2>
+<p>Kinesis là họ dịch vụ cho <strong>real-time data streaming</strong>. Đây là topic quan trọng trong đề thi — cần phân biệt rõ 4 services.</p>
+<table>
+<thead><tr><th>Service</th><th>Function</th><th>Destination</th><th>ML Use Case</th></tr></thead>
+<tbody>
+<tr><td><strong>Kinesis Data Streams (KDS)</strong></td><td>Custom real-time processing</td><td>Custom consumers</td><td>Real-time feature engineering</td></tr>
+<tr><td><strong>Kinesis Data Firehose</strong></td><td>Managed delivery (no code)</td><td>S3, Redshift, ES, Splunk</td><td>Batch loading to data lake</td></tr>
+<tr><td><strong>Kinesis Data Analytics</strong></td><td>SQL/Flink on streams</td><td>S3, Redshift</td><td>Real-time aggregations, anomaly detect</td></tr>
+<tr><td><strong>Kinesis Video Streams</strong></td><td>Video ingestion</td><td>Rekognition, SageMaker</td><td>Computer vision pipelines</td></tr>
+</tbody>
+</table>
+<blockquote>
+<p><strong>Exam tip:</strong> Câu hỏi phổ biến: "IoT sensors gửi data liên tục, cần store vào S3 cho ML training mà không cần custom code?" → Kinesis <strong>Data Firehose</strong> (managed, no code). "Cần xử lý real-time với custom logic?" → Kinesis <strong>Data Streams</strong>.</p>
+</blockquote>
+<h3 id="kinesis-shards"><strong>3.1. KDS Shards & Capacity</strong></h3>
+<pre><code class="language-text">Kinesis Data Streams Capacity:
+┌─────────────────────────────────────────────┐
+│  Each Shard:                                │
+│  • Ingest:  1 MB/s OR 1,000 records/s       │
+│  • Read:    2 MB/s                          │
+│  • Retention: 24 hours (default) → 7 days  │
+└─────────────────────────────────────────────┘
+Stream with N shards:
+• Total ingest: N × 1 MB/s
+• Total read:   N × 2 MB/s
+</code></pre>
+<h2 id="glue"><strong>4. AWS Glue — ETL for ML</strong></h2>
+<p><strong>AWS Glue</strong> là fully managed ETL service. Trong ML pipeline, Glue dùng để <strong>transform và clean data</strong> trước khi đưa vào training.</p>
+<h3 id="glue-components"><strong>4.1. Glue Components</strong></h3>
+<table>
+<thead><tr><th>Component</th><th>Function</th></tr></thead>
+<tbody>
+<tr><td><strong>Glue Data Catalog</strong></td><td>Central metadata repository — schemas, tables, partitions</td></tr>
+<tr><td><strong>Glue Crawlers</strong></td><td>Auto-discover schema từ S3/RDS/Redshift và populate Data Catalog</td></tr>
+<tr><td><strong>Glue ETL Jobs</strong></td><td>Spark-based transformation jobs (Python/Scala)</td></tr>
+<tr><td><strong>Glue DataBrew</strong></td><td>No-code visual data preparation (250+ pre-built transforms)</td></tr>
+<tr><td><strong>Glue Studio</strong></td><td>Visual ETL job builder (drag-and-drop)</td></tr>
+</tbody>
+</table>
+<blockquote>
+<p><strong>Exam tip:</strong> <strong>Glue Data Catalog</strong> là metadata store chung cho Athena, EMR, Redshift Spectrum. Khi đề hỏi "centralized schema management" → Glue Data Catalog. Khi hỏi "no-code data cleaning" → Glue DataBrew.</p>
+</blockquote>
+<h2 id="lake-formation"><strong>5. AWS Lake Formation</strong></h2>
+<p><strong>Lake Formation</strong> build trên S3 + Glue để management <strong>data lake security và governance</strong>. Key feature: column-level và row-level access control.</p>
+<pre><code class="language-text">Lake Formation Architecture:
+  IAM Users ──→ Lake Formation ──→ S3 Data Lake
+  IAM Roles       (Security         (Raw/Processed)
+                   & Governance)
+                       ↓
+                  Column/Row
+                  Level Access
+                  Control
+</code></pre>
+<h2 id="cheat-sheet"><strong>6. Cheat Sheet — Data Ingestion Services</strong></h2>
+<table>
+<thead><tr><th>Scenario</th><th>Service</th></tr></thead>
+<tbody>
+<tr><td>Streaming → S3 với no-code</td><td>Kinesis Data Firehose</td></tr>
+<tr><td>Real-time processing với custom logic</td><td>Kinesis Data Streams</td></tr>
+<tr><td>SQL on streaming data</td><td>Kinesis Data Analytics (Flink)</td></tr>
+<tr><td>Batch ETL Spark-based</td><td>AWS Glue ETL Jobs</td></tr>
+<tr><td>No-code visual data prep</td><td>Glue DataBrew</td></tr>
+<tr><td>Schema discovery from S3</td><td>Glue Crawlers + Data Catalog</td></tr>
+<tr><td>SQL queries on S3</td><td>Amazon Athena</td></tr>
+<tr><td>Data lake governance</td><td>AWS Lake Formation</td></tr>
+<tr><td>Large-scale Spark/Hadoop</td><td>Amazon EMR</td></tr>
+</tbody>
+</table>
+<h2 id="practice"><strong>7. Practice Questions</strong></h2>
+<p><strong>Q1:</strong> A company wants to ingest IoT sensor data into Amazon S3 for ML training. The data arrives continuously and no custom processing is required. Which service is the MOST cost-effective?</p>
+<ul>
+<li>A) Amazon Kinesis Data Streams with a Lambda consumer</li>
+<li>B) Amazon Kinesis Data Firehose ✓</li>
+<li>C) Amazon EMR with Spark Streaming</li>
+<li>D) AWS Glue ETL jobs on a schedule</li>
+</ul>
+<p><em>Explanation: Kinesis Data Firehose is fully managed and requires no custom code — it directly delivers streaming data to S3, Redshift, or Elasticsearch. Data Streams requires custom consumers, EMR is heavy lift, and Glue is for batch ETL.</em></p>
+<p><strong>Q2:</strong> A data engineer wants to query raw CSV files in S3 using SQL without loading them into a database. Which service should be used?</p>
+<ul>
+<li>A) Amazon RDS</li>
+<li>B) Amazon DynamoDB</li>
+<li>C) Amazon Athena ✓</li>
+<li>D) Amazon Redshift</li>
+</ul>
+<p><em>Explanation: Amazon Athena is serverless and allows SQL queries directly on S3 data without loading. It reads files in-place and supports formats like CSV, Parquet, ORC, JSON.</em></p>
+<p><strong>Q3:</strong> Which file format provides the BEST performance for columnar analytics queries on large ML datasets stored in Amazon S3?</p>
+<ul>
+<li>A) CSV</li>
+<li>B) JSON</li>
+<li>C) XML</li>
+<li>D) Apache Parquet ✓</li>
+</ul>
+<p><em>Explanation: Parquet is a columnar format with excellent compression and predicate pushdown support. Columnar formats allow reading only the required columns, dramatically reducing I/O for analytical queries.</em></p>

package/content/series/luyen-thi/luyen-thi-aws-ml-specialty/chapters/01-phan-1-data-engineering/lessons/02-bai-2-data-transformation.md ADDED Viewed

@@ -0,0 +1,178 @@
+---
+id: 621b7555-2901-469d-8b0b-a800506c8212
+title: 'Bài 2: Data Transformation & Feature Engineering'
+slug: bai-2-data-transformation
+description: >-
+  SageMaker Processing Jobs cho data prep. SageMaker Feature Store.
+  Xử lý missing values, encoding, normalization, scaling.
+  Text preprocessing, imbalanced data techniques.
+duration_minutes: 60
+is_free: true
+video_url: null
+sort_order: 2
+section_title: "Phần 1: Data Engineering (20%)"
+course:
+  id: 019c9619-lt02-7002-c002-lt0200000002
+  title: 'Luyện thi AWS Certified Machine Learning - Specialty'
+  slug: luyen-thi-aws-ml-specialty
+---
+<h2 id="overview"><strong>1. Data Transformation trong ML Pipeline</strong></h2>
+<p>Trước khi train model, raw data phải qua nhiều bước transformation. Đây là nguồn gốc của câu nói nổi tiếng: <em>"Garbage in, garbage out"</em>. Đề thi MLS-C01 thường hỏi kỹ thuật xử lý data và tools phù hợp.</p>
+<h2 id="processing-jobs"><strong>2. SageMaker Processing Jobs</strong></h2>
+<p><strong>SageMaker Processing Jobs</strong> là managed service để chạy data processing scripts (Python, Spark) trên ephemeral compute clusters.</p>
+<table>
+<thead><tr><th>Processor Type</th><th>Framework</th><th>Use Case</th></tr></thead>
+<tbody>
+<tr><td><strong>ScriptProcessor</strong></td><td>Custom Docker container</td><td>Any custom script</td></tr>
+<tr><td><strong>SKLearnProcessor</strong></td><td>scikit-learn</td><td>Classic ML preprocessing</td></tr>
+<tr><td><strong>PySparkProcessor</strong></td><td>Apache Spark</td><td>Large-scale distributed processing</td></tr>
+<tr><td><strong>FrameworkProcessor</strong></td><td>TensorFlow/PyTorch</td><td>Deep learning data prep</td></tr>
+</tbody>
+</table>
+<pre><code class="language-text">SageMaker Processing Job Flow:
+S3 (input data)
+      ↓
+┌─────────────────────┐
+│  Processing Job     │
+│  (compute cluster)  │
+│                     │
+│  - Preprocess data  │
+│  - Feature engineer │
+│  - Split train/test │
+└─────────────────────┘
+      ↓
+S3 (output: train/, validation/, test/)
+</code></pre>
+<h2 id="missing-values"><strong>3. Xử lý Missing Values</strong></h2>
+<table>
+<thead><tr><th>Strategy</th><th>Method</th><th>When to Use</th></tr></thead>
+<tbody>
+<tr><td><strong>Deletion</strong></td><td>Drop rows/columns</td><td>MCAR, ít missing (&lt;5%)</td></tr>
+<tr><td><strong>Mean/Median Imputation</strong></td><td>Điền giá trị trung bình</td><td>Numeric, MCAR/MAR</td></tr>
+<tr><td><strong>Mode Imputation</strong></td><td>Điền giá trị phổ biến nhất</td><td>Categorical</td></tr>
+<tr><td><strong>KNN Imputation</strong></td><td>Dùng K neighbors gần nhất</td><td>Patterns in data, không quá lớn</td></tr>
+<tr><td><strong>Model-based (MICE)</strong></td><td>Multiple imputation</td><td>Complex missingness patterns</td></tr>
+<tr><td><strong>Indicator Feature</strong></td><td>Thêm cột is_missing</td><td>Khi missingness chứa thông tin</td></tr>
+</tbody>
+</table>
+<blockquote>
+<p><strong>Exam tip:</strong> Ba loại missing data: <strong>MCAR</strong> (Missing Completely At Random) — deletion an toàn; <strong>MAR</strong> (Missing At Random) — imputation phù hợp; <strong>MNAR</strong> (Missing Not At Random) — cần indicator feature hoặc domain knowledge.</p>
+</blockquote>
+<h2 id="encoding"><strong>4. Categorical Encoding</strong></h2>
+<table>
+<thead><tr><th>Encoding</th><th>Method</th><th>When to Use</th><th>Issues</th></tr></thead>
+<tbody>
+<tr><td><strong>One-Hot Encoding</strong></td><td>Binary columns mỗi category</td><td>Nominal (no order), ít categories</td><td>High cardinality → curse of dimensionality</td></tr>
+<tr><td><strong>Label Encoding</strong></td><td>0, 1, 2, 3...</td><td>Ordinal (có thứ tự)</td><td>Implies false order for nominal</td></tr>
+<tr><td><strong>Target Encoding</strong></td><td>Mean of target per category</td><td>High cardinality nominal</td><td>Data leakage risk nếu không cẩn thận</td></tr>
+<tr><td><strong>Embeddings</strong></td><td>Dense vector representation</td><td>Text, high cardinality</td><td>Cần đủ data để learn</td></tr>
+</tbody>
+</table>
+<h2 id="scaling"><strong>5. Normalization & Scaling</strong></h2>
+<table>
+<thead><tr><th>Technique</th><th>Formula</th><th>Output Range</th><th>Best For</th></tr></thead>
+<tbody>
+<tr><td><strong>Min-Max Normalization</strong></td><td>(x - min) / (max - min)</td><td>[0, 1]</td><td>Neural networks, distance-based</td></tr>
+<tr><td><strong>Standardization (Z-score)</strong></td><td>(x - mean) / std</td><td>Mean=0, SD=1</td><td>Linear models, SVM, PCA</td></tr>
+<tr><td><strong>Robust Scaler</strong></td><td>(x - median) / IQR</td><td>Centered</td><td>Outliers present</td></tr>
+<tr><td><strong>Log Transform</strong></td><td>log(x)</td><td>Compressed</td><td>Skewed distributions</td></tr>
+</tbody>
+</table>
+<h2 id="imbalanced"><strong>6. Xử lý Imbalanced Data</strong></h2>
+<p>Class imbalance (e.g., fraud detection: 99% normal, 1% fraud) khiến model bias về majority class.</p>
+<table>
+<thead><tr><th>Technique</th><th>Method</th><th>Direction</th></tr></thead>
+<tbody>
+<tr><td><strong>Oversampling</strong></td><td>Duplicate minority class samples</td><td>↑ minority</td></tr>
+<tr><td><strong>SMOTE</strong></td><td>Synthetic Minority Oversampling Technique — generate synthetic samples</td><td>↑ minority</td></tr>
+<tr><td><strong>Undersampling</strong></td><td>Remove majority class samples</td><td>↓ majority</td></tr>
+<tr><td><strong>Class Weights</strong></td><td>Penalize misclassification of minority more</td><td>No data change</td></tr>
+<tr><td><strong>Ensemble Methods</strong></td><td>BalancedBagging, EasyEnsemble</td><td>Algorithm-level</td></tr>
+</tbody>
+</table>
+<blockquote>
+<p><strong>Exam tip:</strong> Metric phù hợp cho imbalanced data: <strong>F1 Score, AUC-ROC, Precision-Recall</strong> — KHÔNG dùng Accuracy (misleading). AWS SageMaker Clarify có thể detect class imbalance.</p>
+</blockquote>
+<h2 id="feature-store"><strong>7. SageMaker Feature Store</strong></h2>
+<p><strong>SageMaker Feature Store</strong> là centralized repository để store, share và reuse ML features.</p>
+<pre><code class="language-text">Feature Store Architecture:
+          Feature Groups
+         ┌──────────────────────────────┐
+         │  user_features               │
+         │  ┌──────┬────────┬────────┐  │
+         │  │ id   │ age    │ recency│  │
+         │  └──────┴────────┴────────┘  │
+         └──────────────────────────────┘
+               ↓ writes              ↑ reads
+    ┌──────────────────┐   ┌──────────────────┐
+    │  Offline Store   │   │  Online Store    │
+    │  (S3 - training) │   │  (DynamoDB -     │
+    │  batch reads     │   │  low-latency     │
+    │                  │   │  inference)      │
+    └──────────────────┘   └──────────────────┘
+</code></pre>
+<h2 id="cheat-sheet"><strong>8. Cheat Sheet — Feature Engineering</strong></h2>
+<table>
+<thead><tr><th>Problem</th><th>Solution</th></tr></thead>
+<tbody>
+<tr><td>High cardinality categorical</td><td>Target encoding hoặc embeddings</td></tr>
+<tr><td>Missing values (numeric)</td><td>Median imputation + indicator feature</td></tr>
+<tr><td>Skewed distribution</td><td>Log transform hoặc Box-Cox</td></tr>
+<tr><td>Outliers</td><td>Robust Scaler hoặc clip/winsorize</td></tr>
+<tr><td>Imbalanced classes</td><td>SMOTE + class weights + AUC metric</td></tr>
+<tr><td>Reuse features across teams</td><td>SageMaker Feature Store</td></tr>
+</tbody>
+</table>
+<h2 id="practice"><strong>9. Practice Questions</strong></h2>
+<p><strong>Q1:</strong> A dataset for fraud detection has 98% negative (non-fraud) and 2% positive (fraud) examples. Which metric is MOST appropriate to evaluate the model?</p>
+<ul>
+<li>A) Accuracy</li>
+<li>B) R-squared</li>
+<li>C) AUC-ROC ✓</li>
+<li>D) Mean Absolute Error</li>
+</ul>
+<p><em>Explanation: Accuracy is misleading for imbalanced data (predicting all negative gives 98% accuracy). AUC-ROC measures the model's ability to distinguish classes across all thresholds, making it ideal for imbalanced classification.</em></p>
+<p><strong>Q2:</strong> Which technique generates SYNTHETIC samples to address class imbalance?</p>
+<ul>
+<li>A) Random undersampling</li>
+<li>B) SMOTE (Synthetic Minority Oversampling Technique) ✓</li>
+<li>C) Class weighting</li>
+<li>D) Feature scaling</li>
+</ul>
+<p><em>Explanation: SMOTE creates new synthetic samples for the minority class by interpolating between existing minority class examples, rather than just duplicating them.</em></p>
+<p><strong>Q3:</strong> A company wants to share engineered features between their training pipeline and real-time inference service. Which SageMaker feature addresses this?</p>
+<ul>
+<li>A) SageMaker Processing Jobs</li>
+<li>B) SageMaker Experiments</li>
+<li>C) SageMaker Feature Store ✓</li>
+<li>D) SageMaker Data Wrangler</li>
+</ul>
+<p><em>Explanation: SageMaker Feature Store provides both an offline store (S3, for batch training) and online store (DynamoDB-backed, for low-latency real-time inference), ensuring feature consistency between training and serving.</em></p>