npm - @synsci/cli-darwin-x64 - Versions diffs - 1.1.49 - Mend

@synsci/cli-darwin-x64 1.1.49

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (373) hide show

package/bin/skills/accelerate/SKILL.md +332 -0
package/bin/skills/accelerate/references/custom-plugins.md +453 -0
package/bin/skills/accelerate/references/megatron-integration.md +489 -0
package/bin/skills/accelerate/references/performance.md +525 -0
package/bin/skills/audiocraft/SKILL.md +564 -0
package/bin/skills/audiocraft/references/advanced-usage.md +666 -0
package/bin/skills/audiocraft/references/troubleshooting.md +504 -0
package/bin/skills/autogpt/SKILL.md +403 -0
package/bin/skills/autogpt/references/advanced-usage.md +535 -0
package/bin/skills/autogpt/references/troubleshooting.md +420 -0
package/bin/skills/awq/SKILL.md +310 -0
package/bin/skills/awq/references/advanced-usage.md +324 -0
package/bin/skills/awq/references/troubleshooting.md +344 -0
package/bin/skills/axolotl/SKILL.md +158 -0
package/bin/skills/axolotl/references/api.md +5548 -0
package/bin/skills/axolotl/references/dataset-formats.md +1029 -0
package/bin/skills/axolotl/references/index.md +15 -0
package/bin/skills/axolotl/references/other.md +3563 -0
package/bin/skills/bigcode-evaluation-harness/SKILL.md +405 -0
package/bin/skills/bigcode-evaluation-harness/references/benchmarks.md +393 -0
package/bin/skills/bigcode-evaluation-harness/references/custom-tasks.md +424 -0
package/bin/skills/bigcode-evaluation-harness/references/issues.md +394 -0
package/bin/skills/bitsandbytes/SKILL.md +411 -0
package/bin/skills/bitsandbytes/references/memory-optimization.md +521 -0
package/bin/skills/bitsandbytes/references/qlora-training.md +521 -0
package/bin/skills/bitsandbytes/references/quantization-formats.md +447 -0
package/bin/skills/blip-2/SKILL.md +564 -0
package/bin/skills/blip-2/references/advanced-usage.md +680 -0
package/bin/skills/blip-2/references/troubleshooting.md +526 -0
package/bin/skills/chroma/SKILL.md +406 -0
package/bin/skills/chroma/references/integration.md +38 -0
package/bin/skills/clip/SKILL.md +253 -0
package/bin/skills/clip/references/applications.md +207 -0
package/bin/skills/constitutional-ai/SKILL.md +290 -0
package/bin/skills/crewai/SKILL.md +498 -0
package/bin/skills/crewai/references/flows.md +438 -0
package/bin/skills/crewai/references/tools.md +429 -0
package/bin/skills/crewai/references/troubleshooting.md +480 -0
package/bin/skills/deepspeed/SKILL.md +141 -0
package/bin/skills/deepspeed/references/08.md +17 -0
package/bin/skills/deepspeed/references/09.md +173 -0
package/bin/skills/deepspeed/references/2020.md +378 -0
package/bin/skills/deepspeed/references/2023.md +279 -0
package/bin/skills/deepspeed/references/assets.md +179 -0
package/bin/skills/deepspeed/references/index.md +35 -0
package/bin/skills/deepspeed/references/mii.md +118 -0
package/bin/skills/deepspeed/references/other.md +1191 -0
package/bin/skills/deepspeed/references/tutorials.md +6554 -0
package/bin/skills/dspy/SKILL.md +590 -0
package/bin/skills/dspy/references/examples.md +663 -0
package/bin/skills/dspy/references/modules.md +475 -0
package/bin/skills/dspy/references/optimizers.md +566 -0
package/bin/skills/faiss/SKILL.md +221 -0
package/bin/skills/faiss/references/index_types.md +280 -0
package/bin/skills/flash-attention/SKILL.md +367 -0
package/bin/skills/flash-attention/references/benchmarks.md +215 -0
package/bin/skills/flash-attention/references/transformers-integration.md +293 -0
package/bin/skills/gguf/SKILL.md +427 -0
package/bin/skills/gguf/references/advanced-usage.md +504 -0
package/bin/skills/gguf/references/troubleshooting.md +442 -0
package/bin/skills/gptq/SKILL.md +450 -0
package/bin/skills/gptq/references/calibration.md +337 -0
package/bin/skills/gptq/references/integration.md +129 -0
package/bin/skills/gptq/references/troubleshooting.md +95 -0
package/bin/skills/grpo-rl-training/README.md +97 -0
package/bin/skills/grpo-rl-training/SKILL.md +572 -0
package/bin/skills/grpo-rl-training/examples/reward_functions_library.py +393 -0
package/bin/skills/grpo-rl-training/templates/basic_grpo_training.py +228 -0
package/bin/skills/guidance/SKILL.md +572 -0
package/bin/skills/guidance/references/backends.md +554 -0
package/bin/skills/guidance/references/constraints.md +674 -0
package/bin/skills/guidance/references/examples.md +767 -0
package/bin/skills/hqq/SKILL.md +445 -0
package/bin/skills/hqq/references/advanced-usage.md +528 -0
package/bin/skills/hqq/references/troubleshooting.md +503 -0
package/bin/skills/hugging-face-cli/SKILL.md +191 -0
package/bin/skills/hugging-face-cli/references/commands.md +954 -0
package/bin/skills/hugging-face-cli/references/examples.md +374 -0
package/bin/skills/hugging-face-datasets/SKILL.md +547 -0
package/bin/skills/hugging-face-datasets/examples/diverse_training_examples.json +239 -0
package/bin/skills/hugging-face-datasets/examples/system_prompt_template.txt +196 -0
package/bin/skills/hugging-face-datasets/examples/training_examples.json +176 -0
package/bin/skills/hugging-face-datasets/scripts/dataset_manager.py +522 -0
package/bin/skills/hugging-face-datasets/scripts/sql_manager.py +844 -0
package/bin/skills/hugging-face-datasets/templates/chat.json +55 -0
package/bin/skills/hugging-face-datasets/templates/classification.json +62 -0
package/bin/skills/hugging-face-datasets/templates/completion.json +51 -0
package/bin/skills/hugging-face-datasets/templates/custom.json +75 -0
package/bin/skills/hugging-face-datasets/templates/qa.json +54 -0
package/bin/skills/hugging-face-datasets/templates/tabular.json +81 -0
package/bin/skills/hugging-face-evaluation/SKILL.md +656 -0
package/bin/skills/hugging-face-evaluation/examples/USAGE_EXAMPLES.md +382 -0
package/bin/skills/hugging-face-evaluation/examples/artificial_analysis_to_hub.py +141 -0
package/bin/skills/hugging-face-evaluation/examples/example_readme_tables.md +135 -0
package/bin/skills/hugging-face-evaluation/examples/metric_mapping.json +50 -0
package/bin/skills/hugging-face-evaluation/requirements.txt +20 -0
package/bin/skills/hugging-face-evaluation/scripts/evaluation_manager.py +1374 -0
package/bin/skills/hugging-face-evaluation/scripts/inspect_eval_uv.py +104 -0
package/bin/skills/hugging-face-evaluation/scripts/inspect_vllm_uv.py +317 -0
package/bin/skills/hugging-face-evaluation/scripts/lighteval_vllm_uv.py +303 -0
package/bin/skills/hugging-face-evaluation/scripts/run_eval_job.py +98 -0
package/bin/skills/hugging-face-evaluation/scripts/run_vllm_eval_job.py +331 -0
package/bin/skills/hugging-face-evaluation/scripts/test_extraction.py +206 -0
package/bin/skills/hugging-face-jobs/SKILL.md +1041 -0
package/bin/skills/hugging-face-jobs/index.html +216 -0
package/bin/skills/hugging-face-jobs/references/hardware_guide.md +336 -0
package/bin/skills/hugging-face-jobs/references/hub_saving.md +352 -0
package/bin/skills/hugging-face-jobs/references/token_usage.md +546 -0
package/bin/skills/hugging-face-jobs/references/troubleshooting.md +475 -0
package/bin/skills/hugging-face-jobs/scripts/cot-self-instruct.py +718 -0
package/bin/skills/hugging-face-jobs/scripts/finepdfs-stats.py +546 -0
package/bin/skills/hugging-face-jobs/scripts/generate-responses.py +587 -0
package/bin/skills/hugging-face-model-trainer/SKILL.md +711 -0
package/bin/skills/hugging-face-model-trainer/references/gguf_conversion.md +296 -0
package/bin/skills/hugging-face-model-trainer/references/hardware_guide.md +283 -0
package/bin/skills/hugging-face-model-trainer/references/hub_saving.md +364 -0
package/bin/skills/hugging-face-model-trainer/references/reliability_principles.md +371 -0
package/bin/skills/hugging-face-model-trainer/references/trackio_guide.md +189 -0
package/bin/skills/hugging-face-model-trainer/references/training_methods.md +150 -0
package/bin/skills/hugging-face-model-trainer/references/training_patterns.md +203 -0
package/bin/skills/hugging-face-model-trainer/references/troubleshooting.md +282 -0
package/bin/skills/hugging-face-model-trainer/scripts/convert_to_gguf.py +424 -0
package/bin/skills/hugging-face-model-trainer/scripts/dataset_inspector.py +417 -0
package/bin/skills/hugging-face-model-trainer/scripts/estimate_cost.py +150 -0
package/bin/skills/hugging-face-model-trainer/scripts/train_dpo_example.py +106 -0
package/bin/skills/hugging-face-model-trainer/scripts/train_grpo_example.py +89 -0
package/bin/skills/hugging-face-model-trainer/scripts/train_sft_example.py +122 -0
package/bin/skills/hugging-face-paper-publisher/SKILL.md +627 -0
package/bin/skills/hugging-face-paper-publisher/examples/example_usage.md +327 -0
package/bin/skills/hugging-face-paper-publisher/references/quick_reference.md +216 -0
package/bin/skills/hugging-face-paper-publisher/scripts/paper_manager.py +508 -0
package/bin/skills/hugging-face-paper-publisher/templates/arxiv.md +299 -0
package/bin/skills/hugging-face-paper-publisher/templates/ml-report.md +358 -0
package/bin/skills/hugging-face-paper-publisher/templates/modern.md +319 -0
package/bin/skills/hugging-face-paper-publisher/templates/standard.md +201 -0
package/bin/skills/hugging-face-tool-builder/SKILL.md +115 -0
package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.py +57 -0
package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.sh +40 -0
package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.tsx +57 -0
package/bin/skills/hugging-face-tool-builder/references/find_models_by_paper.sh +230 -0
package/bin/skills/hugging-face-tool-builder/references/hf_enrich_models.sh +96 -0
package/bin/skills/hugging-face-tool-builder/references/hf_model_card_frontmatter.sh +188 -0
package/bin/skills/hugging-face-tool-builder/references/hf_model_papers_auth.sh +171 -0
package/bin/skills/hugging-face-trackio/SKILL.md +65 -0
package/bin/skills/hugging-face-trackio/references/logging_metrics.md +206 -0
package/bin/skills/hugging-face-trackio/references/retrieving_metrics.md +223 -0
package/bin/skills/huggingface-tokenizers/SKILL.md +516 -0
package/bin/skills/huggingface-tokenizers/references/algorithms.md +653 -0
package/bin/skills/huggingface-tokenizers/references/integration.md +637 -0
package/bin/skills/huggingface-tokenizers/references/pipeline.md +723 -0
package/bin/skills/huggingface-tokenizers/references/training.md +565 -0
package/bin/skills/instructor/SKILL.md +740 -0
package/bin/skills/instructor/references/examples.md +107 -0
package/bin/skills/instructor/references/providers.md +70 -0
package/bin/skills/instructor/references/validation.md +606 -0
package/bin/skills/knowledge-distillation/SKILL.md +458 -0
package/bin/skills/knowledge-distillation/references/minillm.md +334 -0
package/bin/skills/lambda-labs/SKILL.md +545 -0
package/bin/skills/lambda-labs/references/advanced-usage.md +611 -0
package/bin/skills/lambda-labs/references/troubleshooting.md +530 -0
package/bin/skills/langchain/SKILL.md +480 -0
package/bin/skills/langchain/references/agents.md +499 -0
package/bin/skills/langchain/references/integration.md +562 -0
package/bin/skills/langchain/references/rag.md +600 -0
package/bin/skills/langsmith/SKILL.md +422 -0
package/bin/skills/langsmith/references/advanced-usage.md +548 -0
package/bin/skills/langsmith/references/troubleshooting.md +537 -0
package/bin/skills/litgpt/SKILL.md +469 -0
package/bin/skills/litgpt/references/custom-models.md +568 -0
package/bin/skills/litgpt/references/distributed-training.md +451 -0
package/bin/skills/litgpt/references/supported-models.md +336 -0
package/bin/skills/litgpt/references/training-recipes.md +619 -0
package/bin/skills/llama-cpp/SKILL.md +258 -0
package/bin/skills/llama-cpp/references/optimization.md +89 -0
package/bin/skills/llama-cpp/references/quantization.md +213 -0
package/bin/skills/llama-cpp/references/server.md +125 -0
package/bin/skills/llama-factory/SKILL.md +80 -0
package/bin/skills/llama-factory/references/_images.md +23 -0
package/bin/skills/llama-factory/references/advanced.md +1055 -0
package/bin/skills/llama-factory/references/getting_started.md +349 -0
package/bin/skills/llama-factory/references/index.md +19 -0
package/bin/skills/llama-factory/references/other.md +31 -0
package/bin/skills/llamaguard/SKILL.md +337 -0
package/bin/skills/llamaindex/SKILL.md +569 -0
package/bin/skills/llamaindex/references/agents.md +83 -0
package/bin/skills/llamaindex/references/data_connectors.md +108 -0
package/bin/skills/llamaindex/references/query_engines.md +406 -0
package/bin/skills/llava/SKILL.md +304 -0
package/bin/skills/llava/references/training.md +197 -0
package/bin/skills/lm-evaluation-harness/SKILL.md +490 -0
package/bin/skills/lm-evaluation-harness/references/api-evaluation.md +490 -0
package/bin/skills/lm-evaluation-harness/references/benchmark-guide.md +488 -0
package/bin/skills/lm-evaluation-harness/references/custom-tasks.md +602 -0
package/bin/skills/lm-evaluation-harness/references/distributed-eval.md +519 -0
package/bin/skills/long-context/SKILL.md +536 -0
package/bin/skills/long-context/references/extension_methods.md +468 -0
package/bin/skills/long-context/references/fine_tuning.md +611 -0
package/bin/skills/long-context/references/rope.md +402 -0
package/bin/skills/mamba/SKILL.md +260 -0
package/bin/skills/mamba/references/architecture-details.md +206 -0
package/bin/skills/mamba/references/benchmarks.md +255 -0
package/bin/skills/mamba/references/training-guide.md +388 -0
package/bin/skills/megatron-core/SKILL.md +366 -0
package/bin/skills/megatron-core/references/benchmarks.md +249 -0
package/bin/skills/megatron-core/references/parallelism-guide.md +404 -0
package/bin/skills/megatron-core/references/production-examples.md +473 -0
package/bin/skills/megatron-core/references/training-recipes.md +547 -0
package/bin/skills/miles/SKILL.md +315 -0
package/bin/skills/miles/references/api-reference.md +141 -0
package/bin/skills/miles/references/troubleshooting.md +352 -0
package/bin/skills/mlflow/SKILL.md +704 -0
package/bin/skills/mlflow/references/deployment.md +744 -0
package/bin/skills/mlflow/references/model-registry.md +770 -0
package/bin/skills/mlflow/references/tracking.md +680 -0
package/bin/skills/modal/SKILL.md +341 -0
package/bin/skills/modal/references/advanced-usage.md +503 -0
package/bin/skills/modal/references/troubleshooting.md +494 -0
package/bin/skills/model-merging/SKILL.md +539 -0
package/bin/skills/model-merging/references/evaluation.md +462 -0
package/bin/skills/model-merging/references/examples.md +428 -0
package/bin/skills/model-merging/references/methods.md +352 -0
package/bin/skills/model-pruning/SKILL.md +495 -0
package/bin/skills/model-pruning/references/wanda.md +347 -0
package/bin/skills/moe-training/SKILL.md +526 -0
package/bin/skills/moe-training/references/architectures.md +432 -0
package/bin/skills/moe-training/references/inference.md +348 -0
package/bin/skills/moe-training/references/training.md +425 -0
package/bin/skills/nanogpt/SKILL.md +290 -0
package/bin/skills/nanogpt/references/architecture.md +382 -0
package/bin/skills/nanogpt/references/data.md +476 -0
package/bin/skills/nanogpt/references/training.md +564 -0
package/bin/skills/nemo-curator/SKILL.md +383 -0
package/bin/skills/nemo-curator/references/deduplication.md +87 -0
package/bin/skills/nemo-curator/references/filtering.md +102 -0
package/bin/skills/nemo-evaluator/SKILL.md +494 -0
package/bin/skills/nemo-evaluator/references/adapter-system.md +340 -0
package/bin/skills/nemo-evaluator/references/configuration.md +447 -0
package/bin/skills/nemo-evaluator/references/custom-benchmarks.md +315 -0
package/bin/skills/nemo-evaluator/references/execution-backends.md +361 -0
package/bin/skills/nemo-guardrails/SKILL.md +297 -0
package/bin/skills/nnsight/SKILL.md +436 -0
package/bin/skills/nnsight/references/README.md +78 -0
package/bin/skills/nnsight/references/api.md +344 -0
package/bin/skills/nnsight/references/tutorials.md +300 -0
package/bin/skills/openrlhf/SKILL.md +249 -0
package/bin/skills/openrlhf/references/algorithm-comparison.md +404 -0
package/bin/skills/openrlhf/references/custom-rewards.md +530 -0
package/bin/skills/openrlhf/references/hybrid-engine.md +287 -0
package/bin/skills/openrlhf/references/multi-node-training.md +454 -0
package/bin/skills/outlines/SKILL.md +652 -0
package/bin/skills/outlines/references/backends.md +615 -0
package/bin/skills/outlines/references/examples.md +773 -0
package/bin/skills/outlines/references/json_generation.md +652 -0
package/bin/skills/peft/SKILL.md +431 -0
package/bin/skills/peft/references/advanced-usage.md +514 -0
package/bin/skills/peft/references/troubleshooting.md +480 -0
package/bin/skills/phoenix/SKILL.md +475 -0
package/bin/skills/phoenix/references/advanced-usage.md +619 -0
package/bin/skills/phoenix/references/troubleshooting.md +538 -0
package/bin/skills/pinecone/SKILL.md +358 -0
package/bin/skills/pinecone/references/deployment.md +181 -0
package/bin/skills/pytorch-fsdp/SKILL.md +126 -0
package/bin/skills/pytorch-fsdp/references/index.md +7 -0
package/bin/skills/pytorch-fsdp/references/other.md +4249 -0
package/bin/skills/pytorch-lightning/SKILL.md +346 -0
package/bin/skills/pytorch-lightning/references/callbacks.md +436 -0
package/bin/skills/pytorch-lightning/references/distributed.md +490 -0
package/bin/skills/pytorch-lightning/references/hyperparameter-tuning.md +556 -0
package/bin/skills/pyvene/SKILL.md +473 -0
package/bin/skills/pyvene/references/README.md +73 -0
package/bin/skills/pyvene/references/api.md +383 -0
package/bin/skills/pyvene/references/tutorials.md +376 -0
package/bin/skills/qdrant/SKILL.md +493 -0
package/bin/skills/qdrant/references/advanced-usage.md +648 -0
package/bin/skills/qdrant/references/troubleshooting.md +631 -0
package/bin/skills/ray-data/SKILL.md +326 -0
package/bin/skills/ray-data/references/integration.md +82 -0
package/bin/skills/ray-data/references/transformations.md +83 -0
package/bin/skills/ray-train/SKILL.md +406 -0
package/bin/skills/ray-train/references/multi-node.md +628 -0
package/bin/skills/rwkv/SKILL.md +260 -0
package/bin/skills/rwkv/references/architecture-details.md +344 -0
package/bin/skills/rwkv/references/rwkv7.md +386 -0
package/bin/skills/rwkv/references/state-management.md +369 -0
package/bin/skills/saelens/SKILL.md +386 -0
package/bin/skills/saelens/references/README.md +70 -0
package/bin/skills/saelens/references/api.md +333 -0
package/bin/skills/saelens/references/tutorials.md +318 -0
package/bin/skills/segment-anything/SKILL.md +500 -0
package/bin/skills/segment-anything/references/advanced-usage.md +589 -0
package/bin/skills/segment-anything/references/troubleshooting.md +484 -0
package/bin/skills/sentence-transformers/SKILL.md +255 -0
package/bin/skills/sentence-transformers/references/models.md +123 -0
package/bin/skills/sentencepiece/SKILL.md +235 -0
package/bin/skills/sentencepiece/references/algorithms.md +200 -0
package/bin/skills/sentencepiece/references/training.md +304 -0
package/bin/skills/sglang/SKILL.md +442 -0
package/bin/skills/sglang/references/deployment.md +490 -0
package/bin/skills/sglang/references/radix-attention.md +413 -0
package/bin/skills/sglang/references/structured-generation.md +541 -0
package/bin/skills/simpo/SKILL.md +219 -0
package/bin/skills/simpo/references/datasets.md +478 -0
package/bin/skills/simpo/references/hyperparameters.md +452 -0
package/bin/skills/simpo/references/loss-functions.md +350 -0
package/bin/skills/skypilot/SKILL.md +509 -0
package/bin/skills/skypilot/references/advanced-usage.md +491 -0
package/bin/skills/skypilot/references/troubleshooting.md +570 -0
package/bin/skills/slime/SKILL.md +464 -0
package/bin/skills/slime/references/api-reference.md +392 -0
package/bin/skills/slime/references/troubleshooting.md +386 -0
package/bin/skills/speculative-decoding/SKILL.md +467 -0
package/bin/skills/speculative-decoding/references/lookahead.md +309 -0
package/bin/skills/speculative-decoding/references/medusa.md +350 -0
package/bin/skills/stable-diffusion/SKILL.md +519 -0
package/bin/skills/stable-diffusion/references/advanced-usage.md +716 -0
package/bin/skills/stable-diffusion/references/troubleshooting.md +555 -0
package/bin/skills/tensorboard/SKILL.md +629 -0
package/bin/skills/tensorboard/references/integrations.md +638 -0
package/bin/skills/tensorboard/references/profiling.md +545 -0
package/bin/skills/tensorboard/references/visualization.md +620 -0
package/bin/skills/tensorrt-llm/SKILL.md +187 -0
package/bin/skills/tensorrt-llm/references/multi-gpu.md +298 -0
package/bin/skills/tensorrt-llm/references/optimization.md +242 -0
package/bin/skills/tensorrt-llm/references/serving.md +470 -0
package/bin/skills/tinker/SKILL.md +362 -0
package/bin/skills/tinker/references/api-reference.md +168 -0
package/bin/skills/tinker/references/getting-started.md +157 -0
package/bin/skills/tinker/references/loss-functions.md +163 -0
package/bin/skills/tinker/references/models-and-lora.md +139 -0
package/bin/skills/tinker/references/recipes.md +280 -0
package/bin/skills/tinker/references/reinforcement-learning.md +212 -0
package/bin/skills/tinker/references/rendering.md +243 -0
package/bin/skills/tinker/references/supervised-learning.md +232 -0
package/bin/skills/tinker-training-cost/SKILL.md +187 -0
package/bin/skills/tinker-training-cost/scripts/calculate_cost.py +123 -0
package/bin/skills/torchforge/SKILL.md +433 -0
package/bin/skills/torchforge/references/api-reference.md +327 -0
package/bin/skills/torchforge/references/troubleshooting.md +409 -0
package/bin/skills/torchtitan/SKILL.md +358 -0
package/bin/skills/torchtitan/references/checkpoint.md +181 -0
package/bin/skills/torchtitan/references/custom-models.md +258 -0
package/bin/skills/torchtitan/references/float8.md +133 -0
package/bin/skills/torchtitan/references/fsdp.md +126 -0
package/bin/skills/transformer-lens/SKILL.md +346 -0
package/bin/skills/transformer-lens/references/README.md +54 -0
package/bin/skills/transformer-lens/references/api.md +362 -0
package/bin/skills/transformer-lens/references/tutorials.md +339 -0
package/bin/skills/trl-fine-tuning/SKILL.md +455 -0
package/bin/skills/trl-fine-tuning/references/dpo-variants.md +227 -0
package/bin/skills/trl-fine-tuning/references/online-rl.md +82 -0
package/bin/skills/trl-fine-tuning/references/reward-modeling.md +122 -0
package/bin/skills/trl-fine-tuning/references/sft-training.md +168 -0
package/bin/skills/unsloth/SKILL.md +80 -0
package/bin/skills/unsloth/references/index.md +7 -0
package/bin/skills/unsloth/references/llms-full.md +16799 -0
package/bin/skills/unsloth/references/llms-txt.md +12044 -0
package/bin/skills/unsloth/references/llms.md +82 -0
package/bin/skills/verl/SKILL.md +391 -0
package/bin/skills/verl/references/api-reference.md +301 -0
package/bin/skills/verl/references/troubleshooting.md +391 -0
package/bin/skills/vllm/SKILL.md +364 -0
package/bin/skills/vllm/references/optimization.md +226 -0
package/bin/skills/vllm/references/quantization.md +284 -0
package/bin/skills/vllm/references/server-deployment.md +255 -0
package/bin/skills/vllm/references/troubleshooting.md +447 -0
package/bin/skills/weights-and-biases/SKILL.md +590 -0
package/bin/skills/weights-and-biases/references/artifacts.md +584 -0
package/bin/skills/weights-and-biases/references/integrations.md +700 -0
package/bin/skills/weights-and-biases/references/sweeps.md +847 -0
package/bin/skills/whisper/SKILL.md +317 -0
package/bin/skills/whisper/references/languages.md +189 -0
package/bin/synsc +0 -0
package/package.json +10 -0

package/bin/skills/moe-training/references/architectures.md ADDED Viewed

@@ -0,0 +1,432 @@
+# MoE Model Architectures
+Comprehensive guide to different Mixture of Experts architectures and their design patterns.
+## Table of Contents
+- Mixtral 8x7B (Mistral AI)
+- DeepSeek-V3 (DeepSeek AI)
+- Switch Transformers (Google)
+- GLaM (Google)
+- Comparison Table
+## Mixtral 8x7B (Mistral AI - 2024)
+### Architecture Overview
+**Parameters:**
+- Total: 47B parameters
+- Active per token: 13B (2 experts out of 8)
+- Each expert: ~7B parameters
+**Key Features:**
+- **Top-2 routing**: Each token routed to 2 experts
+- **8 experts per layer**: Sparse activation
+- **SMoE architecture**: Sparse Mixture of Experts
+- **Grouped-Query Attention (GQA)**: Efficient attention mechanism
+### Layer Structure
+```python
+# Mixtral Transformer Block
+class MixtralDecoderLayer(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Self-attention
+        self.self_attn = MixtralAttention(config)
+        # MoE Feed-Forward
+        self.block_sparse_moe = MixtralSparseMoeBlock(config)
+        # Layer norms
+        self.input_layernorm = MixtralRMSNorm(config.hidden_size)
+        self.post_attention_layernorm = MixtralRMSNorm(config.hidden_size)
+    def forward(self, hidden_states, attention_mask=None):
+        residual = hidden_states
+        # Self-attention
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(hidden_states, attention_mask)
+        hidden_states = residual + hidden_states
+        # MoE FFN
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.block_sparse_moe(hidden_states)
+        hidden_states = residual + hidden_states
+        return hidden_states
+```
+### Sparse MoE Block
+```python
+class MixtralSparseMoeBlock(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.hidden_dim = config.hidden_size
+        self.ffn_dim = config.intermediate_size
+        self.num_experts = config.num_local_experts  # 8
+        self.top_k = config.num_experts_per_tok       # 2
+        # Router (gating network)
+        self.gate = nn.Linear(self.hidden_dim, self.num_experts, bias=False)
+        # 8 expert FFNs
+        self.experts = nn.ModuleList([
+            MixtralBlockSparseTop2MLP(config)
+            for _ in range(self.num_experts)
+        ])
+    def forward(self, hidden_states):
+        batch_size, sequence_length, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+        # Router logits (batch * seq_len, num_experts)
+        router_logits = self.gate(hidden_states)
+        # Top-2 routing
+        routing_weights = F.softmax(router_logits, dim=1)
+        routing_weights, selected_experts = torch.topk(
+            routing_weights, self.top_k, dim=-1
+        )
+        # Normalize top-2 weights to sum to 1
+        routing_weights /= routing_weights.sum(dim=-1, keepdim=True)
+        # Route to experts
+        final_hidden_states = torch.zeros(
+            (batch_size * sequence_length, hidden_dim),
+            dtype=hidden_states.dtype,
+            device=hidden_states.device
+        )
+        # Process each expert
+        for expert_idx in range(self.num_experts):
+            expert_layer = self.experts[expert_idx]
+            idx, top_x = torch.where(selected_experts == expert_idx)
+            if idx.shape[0] == 0:
+                continue
+            # Tokens routed to this expert
+            top_x_list = top_x.tolist()
+            idx_list = idx.tolist()
+            # Current expert input
+            current_state = hidden_states[None, idx_list].reshape(-1, hidden_dim)
+            current_hidden_states = expert_layer(current_state)
+            # Weight by routing scores
+            current_hidden_states *= routing_weights[idx_list, top_x_list, None]
+            # Accumulate
+            final_hidden_states.index_add_(0, idx, current_hidden_states.to(hidden_states.dtype))
+        final_hidden_states = final_hidden_states.reshape(batch_size, sequence_length, hidden_dim)
+        return final_hidden_states
+```
+### Expert FFN
+```python
+class MixtralBlockSparseTop2MLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.ffn_dim = config.intermediate_size
+        self.hidden_dim = config.hidden_size
+        self.w1 = nn.Linear(self.hidden_dim, self.ffn_dim, bias=False)
+        self.w2 = nn.Linear(self.ffn_dim, self.hidden_dim, bias=False)
+        self.w3 = nn.Linear(self.hidden_dim, self.ffn_dim, bias=False)
+        self.act_fn = nn.SiLU()
+    def forward(self, hidden_states):
+        # SwiGLU activation
+        current_hidden_states = self.act_fn(self.w1(hidden_states)) * self.w3(hidden_states)
+        current_hidden_states = self.w2(current_hidden_states)
+        return current_hidden_states
+```
+### Configuration
+```json
+{
+  "architectures": ["MixtralForCausalLM"],
+  "hidden_size": 4096,
+  "intermediate_size": 14336,
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "num_local_experts": 8,
+  "num_experts_per_tok": 2,
+  "vocab_size": 32000,
+  "max_position_embeddings": 32768,
+  "rms_norm_eps": 1e-5,
+  "rope_theta": 1000000.0
+}
+```
+## DeepSeek-V3 (DeepSeek AI - December 2024)
+### Architecture Overview
+**Parameters:**
+- Total: 671B parameters
+- Active per token: 37B
+- Model size: Massive-scale MoE
+**Key Innovations:**
+1. **DeepSeekMoE**: Finer-grained experts with shared experts
+2. **Multi-Head Latent Attention (MLA)**: Reduced KV cache memory
+3. **Auxiliary-Loss-Free Load Balancing**: No auxiliary loss needed
+4. **Multi-Token Prediction (MTP)**: Predict multiple tokens simultaneously
+### DeepSeekMoE Architecture
+```python
+class DeepSeekMoE(nn.Module):
+    """Finer-grained experts with shared experts."""
+    def __init__(self, config):
+        super().__init__()
+        self.num_experts = config.num_experts  # More fine-grained
+        self.num_shared_experts = config.num_shared_experts  # e.g., 2
+        self.num_routed_experts = self.num_experts - self.num_shared_experts
+        self.top_k = config.top_k
+        # Shared experts (always activated)
+        self.shared_experts = nn.ModuleList([
+            FFN(config) for _ in range(self.num_shared_experts)
+        ])
+        # Routed experts (top-k activated)
+        self.routed_experts = nn.ModuleList([
+            FFN(config) for _ in range(self.num_routed_experts)
+        ])
+        # Router for routed experts only
+        self.gate = nn.Linear(config.hidden_size, self.num_routed_experts, bias=False)
+    def forward(self, x):
+        # Shared experts (always computed)
+        shared_output = sum(expert(x) for expert in self.shared_experts)
+        # Router for top-k routed experts
+        router_logits = self.gate(x)
+        routing_weights = F.softmax(router_logits, dim=-1)
+        routing_weights, selected_experts = torch.topk(routing_weights, self.top_k, dim=-1)
+        routing_weights /= routing_weights.sum(dim=-1, keepdim=True)
+        # Routed experts output
+        routed_output = torch.zeros_like(x)
+        for i in range(self.top_k):
+            expert_idx = selected_experts[:, :, i]
+            expert_weight = routing_weights[:, :, i:i+1]
+            for eidx in range(self.num_routed_experts):
+                mask = (expert_idx == eidx)
+                if mask.any():
+                    routed_output[mask] += expert_weight[mask] * self.routed_experts[eidx](x[mask])
+        # Combine shared and routed
+        return shared_output + routed_output
+```
+### Multi-Head Latent Attention (MLA)
+```python
+class MultiHeadLatentAttention(nn.Module):
+    """Compress KV cache with latent vectors."""
+    def __init__(self, config):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.num_heads
+        self.latent_dim = config.latent_dim  # Compressed dimension
+        # Project to latent space
+        self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim)
+        self.kv_proj = nn.Linear(self.hidden_size, self.latent_dim)  # Compress!
+        # Decompress for attention
+        self.k_decompress = nn.Linear(self.latent_dim, self.num_heads * self.head_dim)
+        self.v_decompress = nn.Linear(self.latent_dim, self.num_heads * self.head_dim)
+        self.o_proj = nn.Linear(self.num_heads * self.head_dim, self.hidden_size)
+    def forward(self, hidden_states, past_key_value=None):
+        batch_size, seq_len, _ = hidden_states.shape
+        # Query
+        q = self.q_proj(hidden_states)
+        q = q.view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)
+        # Compress KV to latent
+        kv_latent = self.kv_proj(hidden_states)  # (batch, seq, latent_dim)
+        # Store compressed KV in cache (huge memory savings!)
+        if past_key_value is not None:
+            kv_latent = torch.cat([past_key_value, kv_latent], dim=1)
+        # Decompress for attention
+        k = self.k_decompress(kv_latent)
+        v = self.v_decompress(kv_latent)
+        k = k.view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
+        v = v.view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2)
+        # Attention
+        attn_output = F.scaled_dot_product_attention(q, k, v)
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        attn_output = attn_output.view(batch_size, seq_len, -1)
+        return self.o_proj(attn_output), kv_latent
+```
+### Auxiliary-Loss-Free Load Balancing
+```python
+# DeepSeek-V3 uses bias terms instead of auxiliary loss
+class DeepSeekRouter(nn.Module):
+    def __init__(self, hidden_size, num_experts):
+        super().__init__()
+        self.weight = nn.Parameter(torch.empty(num_experts, hidden_size))
+        self.bias = nn.Parameter(torch.zeros(num_experts))  # Load balancing bias!
+        # Initialize
+        nn.init.kaiming_uniform_(self.weight, a=math.sqrt(5))
+    def forward(self, x):
+        # Router with bias for load balancing
+        logits = F.linear(x, self.weight, self.bias)
+        return logits
+```
+## Switch Transformers (Google - 2021)
+### Architecture Overview
+**Key Innovation**: Simplest MoE - Top-1 routing
+**Parameters:**
+- Switch-C: 1.6T parameters
+- Active per token: ~10B
+### Top-1 Routing
+```python
+class SwitchTransformersTop1Router(nn.Module):
+    """Simplest routing: one expert per token."""
+    def __init__(self, config):
+        super().__init__()
+        self.num_experts = config.num_experts
+        self.expert_capacity = config.expert_capacity
+        # Router
+        self.classifier = nn.Linear(config.d_model, config.num_experts)
+    def forward(self, hidden_states):
+        # Router logits
+        router_logits = self.classifier(hidden_states)
+        # Add noise for load balancing (during training)
+        if self.training:
+            router_logits += torch.randn_like(router_logits) * config.router_jitter_noise
+        # Top-1: Argmax (hard routing)
+        router_probs = F.softmax(router_logits, dim=-1)
+        expert_index = torch.argmax(router_probs, dim=-1)
+        # Expert capacity: drop tokens if expert is full
+        expert_mask = F.one_hot(expert_index, self.num_experts)
+        expert_capacity_mask = self._get_capacity_mask(expert_mask)
+        return expert_index, expert_mask, expert_capacity_mask
+    def _get_capacity_mask(self, expert_mask):
+        """Enforce expert capacity limits."""
+        # Count tokens per expert
+        tokens_per_expert = expert_mask.sum(dim=0)
+        # Mark tokens exceeding capacity
+        capacity_mask = tokens_per_expert < self.expert_capacity
+        return capacity_mask
+```
+### Load Balancing Loss
+```python
+def switch_load_balancing_loss(router_probs, expert_indices, num_experts):
+    """Auxiliary loss to encourage uniform expert usage."""
+    # Fraction of probability mass assigned to each expert
+    router_prob_per_expert = router_probs.mean(dim=0)  # (num_experts,)
+    # Fraction of tokens routed to each expert
+    expert_counts = F.one_hot(expert_indices, num_experts).float().mean(dim=0)
+    # Loss: num_experts * sum(prob_mass * token_fraction)
+    # Minimized when both are uniform (1/num_experts)
+    loss = num_experts * (router_prob_per_expert * expert_counts).sum()
+    return loss
+```
+## Architecture Comparison Table
+| Model | Total Params | Active Params | Routing | Experts/Layer | Top-K | Key Innovation |
+|-------|-------------|---------------|---------|---------------|-------|----------------|
+| **Mixtral 8x7B** | 47B | 13B | Top-2 | 8 | 2 | Balanced top-2, GQA |
+| **DeepSeek-V3** | 671B | 37B | Top-K | Many | Variable | MLA, shared experts, no aux loss |
+| **Switch-C** | 1.6T | ~10B | Top-1 | 2048 | 1 | Simplest routing |
+| **GLaM** | 1.2T | ~97B | Top-2 | 64 | 2 | Capacity factor tuning |
+## Design Patterns
+### Pattern 1: Shared + Routed Experts (DeepSeek)
+```python
+# Best for: Ensuring some experts always activated
+output = shared_experts(x) + routed_experts(x)
+```
+**Pros:**
+- Guarantees minimum computation
+- Shared experts learn common patterns
+- Routed experts specialize
+### Pattern 2: Pure Sparse Routing (Mixtral, Switch)
+```python
+# Best for: Maximum sparsity and efficiency
+output = sum(weight_i * expert_i(x) for i in top_k)
+```
+**Pros:**
+- Simplest implementation
+- Maximum parameter efficiency
+- Clear expert specialization
+### Pattern 3: Expert Choice Routing
+```python
+# Experts choose tokens (instead of tokens choosing experts)
+for expert in experts:
+    top_k_tokens = expert.select_top_k_tokens(all_tokens)
+    expert.process(top_k_tokens)
+```
+**Pros:**
+- Perfect load balancing
+- No token dropping
+- Variable tokens per expert
+## Resources
+- **Mixtral Paper**: https://arxiv.org/abs/2401.04088
+- **DeepSeek-V3**: https://arxiv.org/abs/2412.19437
+- **Switch Transformers**: https://arxiv.org/abs/2101.03961
+- **GLaM**: https://arxiv.org/abs/2112.06905