npm - @synsci/cli-darwin-x64 - Versions diffs - 1.1.49 - Mend

@synsci/cli-darwin-x64 1.1.49

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (373) hide show

package/bin/skills/accelerate/SKILL.md +332 -0
package/bin/skills/accelerate/references/custom-plugins.md +453 -0
package/bin/skills/accelerate/references/megatron-integration.md +489 -0
package/bin/skills/accelerate/references/performance.md +525 -0
package/bin/skills/audiocraft/SKILL.md +564 -0
package/bin/skills/audiocraft/references/advanced-usage.md +666 -0
package/bin/skills/audiocraft/references/troubleshooting.md +504 -0
package/bin/skills/autogpt/SKILL.md +403 -0
package/bin/skills/autogpt/references/advanced-usage.md +535 -0
package/bin/skills/autogpt/references/troubleshooting.md +420 -0
package/bin/skills/awq/SKILL.md +310 -0
package/bin/skills/awq/references/advanced-usage.md +324 -0
package/bin/skills/awq/references/troubleshooting.md +344 -0
package/bin/skills/axolotl/SKILL.md +158 -0
package/bin/skills/axolotl/references/api.md +5548 -0
package/bin/skills/axolotl/references/dataset-formats.md +1029 -0
package/bin/skills/axolotl/references/index.md +15 -0
package/bin/skills/axolotl/references/other.md +3563 -0
package/bin/skills/bigcode-evaluation-harness/SKILL.md +405 -0
package/bin/skills/bigcode-evaluation-harness/references/benchmarks.md +393 -0
package/bin/skills/bigcode-evaluation-harness/references/custom-tasks.md +424 -0
package/bin/skills/bigcode-evaluation-harness/references/issues.md +394 -0
package/bin/skills/bitsandbytes/SKILL.md +411 -0
package/bin/skills/bitsandbytes/references/memory-optimization.md +521 -0
package/bin/skills/bitsandbytes/references/qlora-training.md +521 -0
package/bin/skills/bitsandbytes/references/quantization-formats.md +447 -0
package/bin/skills/blip-2/SKILL.md +564 -0
package/bin/skills/blip-2/references/advanced-usage.md +680 -0
package/bin/skills/blip-2/references/troubleshooting.md +526 -0
package/bin/skills/chroma/SKILL.md +406 -0
package/bin/skills/chroma/references/integration.md +38 -0
package/bin/skills/clip/SKILL.md +253 -0
package/bin/skills/clip/references/applications.md +207 -0
package/bin/skills/constitutional-ai/SKILL.md +290 -0
package/bin/skills/crewai/SKILL.md +498 -0
package/bin/skills/crewai/references/flows.md +438 -0
package/bin/skills/crewai/references/tools.md +429 -0
package/bin/skills/crewai/references/troubleshooting.md +480 -0
package/bin/skills/deepspeed/SKILL.md +141 -0
package/bin/skills/deepspeed/references/08.md +17 -0
package/bin/skills/deepspeed/references/09.md +173 -0
package/bin/skills/deepspeed/references/2020.md +378 -0
package/bin/skills/deepspeed/references/2023.md +279 -0
package/bin/skills/deepspeed/references/assets.md +179 -0
package/bin/skills/deepspeed/references/index.md +35 -0
package/bin/skills/deepspeed/references/mii.md +118 -0
package/bin/skills/deepspeed/references/other.md +1191 -0
package/bin/skills/deepspeed/references/tutorials.md +6554 -0
package/bin/skills/dspy/SKILL.md +590 -0
package/bin/skills/dspy/references/examples.md +663 -0
package/bin/skills/dspy/references/modules.md +475 -0
package/bin/skills/dspy/references/optimizers.md +566 -0
package/bin/skills/faiss/SKILL.md +221 -0
package/bin/skills/faiss/references/index_types.md +280 -0
package/bin/skills/flash-attention/SKILL.md +367 -0
package/bin/skills/flash-attention/references/benchmarks.md +215 -0
package/bin/skills/flash-attention/references/transformers-integration.md +293 -0
package/bin/skills/gguf/SKILL.md +427 -0
package/bin/skills/gguf/references/advanced-usage.md +504 -0
package/bin/skills/gguf/references/troubleshooting.md +442 -0
package/bin/skills/gptq/SKILL.md +450 -0
package/bin/skills/gptq/references/calibration.md +337 -0
package/bin/skills/gptq/references/integration.md +129 -0
package/bin/skills/gptq/references/troubleshooting.md +95 -0
package/bin/skills/grpo-rl-training/README.md +97 -0
package/bin/skills/grpo-rl-training/SKILL.md +572 -0
package/bin/skills/grpo-rl-training/examples/reward_functions_library.py +393 -0
package/bin/skills/grpo-rl-training/templates/basic_grpo_training.py +228 -0
package/bin/skills/guidance/SKILL.md +572 -0
package/bin/skills/guidance/references/backends.md +554 -0
package/bin/skills/guidance/references/constraints.md +674 -0
package/bin/skills/guidance/references/examples.md +767 -0
package/bin/skills/hqq/SKILL.md +445 -0
package/bin/skills/hqq/references/advanced-usage.md +528 -0
package/bin/skills/hqq/references/troubleshooting.md +503 -0
package/bin/skills/hugging-face-cli/SKILL.md +191 -0
package/bin/skills/hugging-face-cli/references/commands.md +954 -0
package/bin/skills/hugging-face-cli/references/examples.md +374 -0
package/bin/skills/hugging-face-datasets/SKILL.md +547 -0
package/bin/skills/hugging-face-datasets/examples/diverse_training_examples.json +239 -0
package/bin/skills/hugging-face-datasets/examples/system_prompt_template.txt +196 -0
package/bin/skills/hugging-face-datasets/examples/training_examples.json +176 -0
package/bin/skills/hugging-face-datasets/scripts/dataset_manager.py +522 -0
package/bin/skills/hugging-face-datasets/scripts/sql_manager.py +844 -0
package/bin/skills/hugging-face-datasets/templates/chat.json +55 -0
package/bin/skills/hugging-face-datasets/templates/classification.json +62 -0
package/bin/skills/hugging-face-datasets/templates/completion.json +51 -0
package/bin/skills/hugging-face-datasets/templates/custom.json +75 -0
package/bin/skills/hugging-face-datasets/templates/qa.json +54 -0
package/bin/skills/hugging-face-datasets/templates/tabular.json +81 -0
package/bin/skills/hugging-face-evaluation/SKILL.md +656 -0
package/bin/skills/hugging-face-evaluation/examples/USAGE_EXAMPLES.md +382 -0
package/bin/skills/hugging-face-evaluation/examples/artificial_analysis_to_hub.py +141 -0
package/bin/skills/hugging-face-evaluation/examples/example_readme_tables.md +135 -0
package/bin/skills/hugging-face-evaluation/examples/metric_mapping.json +50 -0
package/bin/skills/hugging-face-evaluation/requirements.txt +20 -0
package/bin/skills/hugging-face-evaluation/scripts/evaluation_manager.py +1374 -0
package/bin/skills/hugging-face-evaluation/scripts/inspect_eval_uv.py +104 -0
package/bin/skills/hugging-face-evaluation/scripts/inspect_vllm_uv.py +317 -0
package/bin/skills/hugging-face-evaluation/scripts/lighteval_vllm_uv.py +303 -0
package/bin/skills/hugging-face-evaluation/scripts/run_eval_job.py +98 -0
package/bin/skills/hugging-face-evaluation/scripts/run_vllm_eval_job.py +331 -0
package/bin/skills/hugging-face-evaluation/scripts/test_extraction.py +206 -0
package/bin/skills/hugging-face-jobs/SKILL.md +1041 -0
package/bin/skills/hugging-face-jobs/index.html +216 -0
package/bin/skills/hugging-face-jobs/references/hardware_guide.md +336 -0
package/bin/skills/hugging-face-jobs/references/hub_saving.md +352 -0
package/bin/skills/hugging-face-jobs/references/token_usage.md +546 -0
package/bin/skills/hugging-face-jobs/references/troubleshooting.md +475 -0
package/bin/skills/hugging-face-jobs/scripts/cot-self-instruct.py +718 -0
package/bin/skills/hugging-face-jobs/scripts/finepdfs-stats.py +546 -0
package/bin/skills/hugging-face-jobs/scripts/generate-responses.py +587 -0
package/bin/skills/hugging-face-model-trainer/SKILL.md +711 -0
package/bin/skills/hugging-face-model-trainer/references/gguf_conversion.md +296 -0
package/bin/skills/hugging-face-model-trainer/references/hardware_guide.md +283 -0
package/bin/skills/hugging-face-model-trainer/references/hub_saving.md +364 -0
package/bin/skills/hugging-face-model-trainer/references/reliability_principles.md +371 -0
package/bin/skills/hugging-face-model-trainer/references/trackio_guide.md +189 -0
package/bin/skills/hugging-face-model-trainer/references/training_methods.md +150 -0
package/bin/skills/hugging-face-model-trainer/references/training_patterns.md +203 -0
package/bin/skills/hugging-face-model-trainer/references/troubleshooting.md +282 -0
package/bin/skills/hugging-face-model-trainer/scripts/convert_to_gguf.py +424 -0
package/bin/skills/hugging-face-model-trainer/scripts/dataset_inspector.py +417 -0
package/bin/skills/hugging-face-model-trainer/scripts/estimate_cost.py +150 -0
package/bin/skills/hugging-face-model-trainer/scripts/train_dpo_example.py +106 -0
package/bin/skills/hugging-face-model-trainer/scripts/train_grpo_example.py +89 -0
package/bin/skills/hugging-face-model-trainer/scripts/train_sft_example.py +122 -0
package/bin/skills/hugging-face-paper-publisher/SKILL.md +627 -0
package/bin/skills/hugging-face-paper-publisher/examples/example_usage.md +327 -0
package/bin/skills/hugging-face-paper-publisher/references/quick_reference.md +216 -0
package/bin/skills/hugging-face-paper-publisher/scripts/paper_manager.py +508 -0
package/bin/skills/hugging-face-paper-publisher/templates/arxiv.md +299 -0
package/bin/skills/hugging-face-paper-publisher/templates/ml-report.md +358 -0
package/bin/skills/hugging-face-paper-publisher/templates/modern.md +319 -0
package/bin/skills/hugging-face-paper-publisher/templates/standard.md +201 -0
package/bin/skills/hugging-face-tool-builder/SKILL.md +115 -0
package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.py +57 -0
package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.sh +40 -0
package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.tsx +57 -0
package/bin/skills/hugging-face-tool-builder/references/find_models_by_paper.sh +230 -0
package/bin/skills/hugging-face-tool-builder/references/hf_enrich_models.sh +96 -0
package/bin/skills/hugging-face-tool-builder/references/hf_model_card_frontmatter.sh +188 -0
package/bin/skills/hugging-face-tool-builder/references/hf_model_papers_auth.sh +171 -0
package/bin/skills/hugging-face-trackio/SKILL.md +65 -0
package/bin/skills/hugging-face-trackio/references/logging_metrics.md +206 -0
package/bin/skills/hugging-face-trackio/references/retrieving_metrics.md +223 -0
package/bin/skills/huggingface-tokenizers/SKILL.md +516 -0
package/bin/skills/huggingface-tokenizers/references/algorithms.md +653 -0
package/bin/skills/huggingface-tokenizers/references/integration.md +637 -0
package/bin/skills/huggingface-tokenizers/references/pipeline.md +723 -0
package/bin/skills/huggingface-tokenizers/references/training.md +565 -0
package/bin/skills/instructor/SKILL.md +740 -0
package/bin/skills/instructor/references/examples.md +107 -0
package/bin/skills/instructor/references/providers.md +70 -0
package/bin/skills/instructor/references/validation.md +606 -0
package/bin/skills/knowledge-distillation/SKILL.md +458 -0
package/bin/skills/knowledge-distillation/references/minillm.md +334 -0
package/bin/skills/lambda-labs/SKILL.md +545 -0
package/bin/skills/lambda-labs/references/advanced-usage.md +611 -0
package/bin/skills/lambda-labs/references/troubleshooting.md +530 -0
package/bin/skills/langchain/SKILL.md +480 -0
package/bin/skills/langchain/references/agents.md +499 -0
package/bin/skills/langchain/references/integration.md +562 -0
package/bin/skills/langchain/references/rag.md +600 -0
package/bin/skills/langsmith/SKILL.md +422 -0
package/bin/skills/langsmith/references/advanced-usage.md +548 -0
package/bin/skills/langsmith/references/troubleshooting.md +537 -0
package/bin/skills/litgpt/SKILL.md +469 -0
package/bin/skills/litgpt/references/custom-models.md +568 -0
package/bin/skills/litgpt/references/distributed-training.md +451 -0
package/bin/skills/litgpt/references/supported-models.md +336 -0
package/bin/skills/litgpt/references/training-recipes.md +619 -0
package/bin/skills/llama-cpp/SKILL.md +258 -0
package/bin/skills/llama-cpp/references/optimization.md +89 -0
package/bin/skills/llama-cpp/references/quantization.md +213 -0
package/bin/skills/llama-cpp/references/server.md +125 -0
package/bin/skills/llama-factory/SKILL.md +80 -0
package/bin/skills/llama-factory/references/_images.md +23 -0
package/bin/skills/llama-factory/references/advanced.md +1055 -0
package/bin/skills/llama-factory/references/getting_started.md +349 -0
package/bin/skills/llama-factory/references/index.md +19 -0
package/bin/skills/llama-factory/references/other.md +31 -0
package/bin/skills/llamaguard/SKILL.md +337 -0
package/bin/skills/llamaindex/SKILL.md +569 -0
package/bin/skills/llamaindex/references/agents.md +83 -0
package/bin/skills/llamaindex/references/data_connectors.md +108 -0
package/bin/skills/llamaindex/references/query_engines.md +406 -0
package/bin/skills/llava/SKILL.md +304 -0
package/bin/skills/llava/references/training.md +197 -0
package/bin/skills/lm-evaluation-harness/SKILL.md +490 -0
package/bin/skills/lm-evaluation-harness/references/api-evaluation.md +490 -0
package/bin/skills/lm-evaluation-harness/references/benchmark-guide.md +488 -0
package/bin/skills/lm-evaluation-harness/references/custom-tasks.md +602 -0
package/bin/skills/lm-evaluation-harness/references/distributed-eval.md +519 -0
package/bin/skills/long-context/SKILL.md +536 -0
package/bin/skills/long-context/references/extension_methods.md +468 -0
package/bin/skills/long-context/references/fine_tuning.md +611 -0
package/bin/skills/long-context/references/rope.md +402 -0
package/bin/skills/mamba/SKILL.md +260 -0
package/bin/skills/mamba/references/architecture-details.md +206 -0
package/bin/skills/mamba/references/benchmarks.md +255 -0
package/bin/skills/mamba/references/training-guide.md +388 -0
package/bin/skills/megatron-core/SKILL.md +366 -0
package/bin/skills/megatron-core/references/benchmarks.md +249 -0
package/bin/skills/megatron-core/references/parallelism-guide.md +404 -0
package/bin/skills/megatron-core/references/production-examples.md +473 -0
package/bin/skills/megatron-core/references/training-recipes.md +547 -0
package/bin/skills/miles/SKILL.md +315 -0
package/bin/skills/miles/references/api-reference.md +141 -0
package/bin/skills/miles/references/troubleshooting.md +352 -0
package/bin/skills/mlflow/SKILL.md +704 -0
package/bin/skills/mlflow/references/deployment.md +744 -0
package/bin/skills/mlflow/references/model-registry.md +770 -0
package/bin/skills/mlflow/references/tracking.md +680 -0
package/bin/skills/modal/SKILL.md +341 -0
package/bin/skills/modal/references/advanced-usage.md +503 -0
package/bin/skills/modal/references/troubleshooting.md +494 -0
package/bin/skills/model-merging/SKILL.md +539 -0
package/bin/skills/model-merging/references/evaluation.md +462 -0
package/bin/skills/model-merging/references/examples.md +428 -0
package/bin/skills/model-merging/references/methods.md +352 -0
package/bin/skills/model-pruning/SKILL.md +495 -0
package/bin/skills/model-pruning/references/wanda.md +347 -0
package/bin/skills/moe-training/SKILL.md +526 -0
package/bin/skills/moe-training/references/architectures.md +432 -0
package/bin/skills/moe-training/references/inference.md +348 -0
package/bin/skills/moe-training/references/training.md +425 -0
package/bin/skills/nanogpt/SKILL.md +290 -0
package/bin/skills/nanogpt/references/architecture.md +382 -0
package/bin/skills/nanogpt/references/data.md +476 -0
package/bin/skills/nanogpt/references/training.md +564 -0
package/bin/skills/nemo-curator/SKILL.md +383 -0
package/bin/skills/nemo-curator/references/deduplication.md +87 -0
package/bin/skills/nemo-curator/references/filtering.md +102 -0
package/bin/skills/nemo-evaluator/SKILL.md +494 -0
package/bin/skills/nemo-evaluator/references/adapter-system.md +340 -0
package/bin/skills/nemo-evaluator/references/configuration.md +447 -0
package/bin/skills/nemo-evaluator/references/custom-benchmarks.md +315 -0
package/bin/skills/nemo-evaluator/references/execution-backends.md +361 -0
package/bin/skills/nemo-guardrails/SKILL.md +297 -0
package/bin/skills/nnsight/SKILL.md +436 -0
package/bin/skills/nnsight/references/README.md +78 -0
package/bin/skills/nnsight/references/api.md +344 -0
package/bin/skills/nnsight/references/tutorials.md +300 -0
package/bin/skills/openrlhf/SKILL.md +249 -0
package/bin/skills/openrlhf/references/algorithm-comparison.md +404 -0
package/bin/skills/openrlhf/references/custom-rewards.md +530 -0
package/bin/skills/openrlhf/references/hybrid-engine.md +287 -0
package/bin/skills/openrlhf/references/multi-node-training.md +454 -0
package/bin/skills/outlines/SKILL.md +652 -0
package/bin/skills/outlines/references/backends.md +615 -0
package/bin/skills/outlines/references/examples.md +773 -0
package/bin/skills/outlines/references/json_generation.md +652 -0
package/bin/skills/peft/SKILL.md +431 -0
package/bin/skills/peft/references/advanced-usage.md +514 -0
package/bin/skills/peft/references/troubleshooting.md +480 -0
package/bin/skills/phoenix/SKILL.md +475 -0
package/bin/skills/phoenix/references/advanced-usage.md +619 -0
package/bin/skills/phoenix/references/troubleshooting.md +538 -0
package/bin/skills/pinecone/SKILL.md +358 -0
package/bin/skills/pinecone/references/deployment.md +181 -0
package/bin/skills/pytorch-fsdp/SKILL.md +126 -0
package/bin/skills/pytorch-fsdp/references/index.md +7 -0
package/bin/skills/pytorch-fsdp/references/other.md +4249 -0
package/bin/skills/pytorch-lightning/SKILL.md +346 -0
package/bin/skills/pytorch-lightning/references/callbacks.md +436 -0
package/bin/skills/pytorch-lightning/references/distributed.md +490 -0
package/bin/skills/pytorch-lightning/references/hyperparameter-tuning.md +556 -0
package/bin/skills/pyvene/SKILL.md +473 -0
package/bin/skills/pyvene/references/README.md +73 -0
package/bin/skills/pyvene/references/api.md +383 -0
package/bin/skills/pyvene/references/tutorials.md +376 -0
package/bin/skills/qdrant/SKILL.md +493 -0
package/bin/skills/qdrant/references/advanced-usage.md +648 -0
package/bin/skills/qdrant/references/troubleshooting.md +631 -0
package/bin/skills/ray-data/SKILL.md +326 -0
package/bin/skills/ray-data/references/integration.md +82 -0
package/bin/skills/ray-data/references/transformations.md +83 -0
package/bin/skills/ray-train/SKILL.md +406 -0
package/bin/skills/ray-train/references/multi-node.md +628 -0
package/bin/skills/rwkv/SKILL.md +260 -0
package/bin/skills/rwkv/references/architecture-details.md +344 -0
package/bin/skills/rwkv/references/rwkv7.md +386 -0
package/bin/skills/rwkv/references/state-management.md +369 -0
package/bin/skills/saelens/SKILL.md +386 -0
package/bin/skills/saelens/references/README.md +70 -0
package/bin/skills/saelens/references/api.md +333 -0
package/bin/skills/saelens/references/tutorials.md +318 -0
package/bin/skills/segment-anything/SKILL.md +500 -0
package/bin/skills/segment-anything/references/advanced-usage.md +589 -0
package/bin/skills/segment-anything/references/troubleshooting.md +484 -0
package/bin/skills/sentence-transformers/SKILL.md +255 -0
package/bin/skills/sentence-transformers/references/models.md +123 -0
package/bin/skills/sentencepiece/SKILL.md +235 -0
package/bin/skills/sentencepiece/references/algorithms.md +200 -0
package/bin/skills/sentencepiece/references/training.md +304 -0
package/bin/skills/sglang/SKILL.md +442 -0
package/bin/skills/sglang/references/deployment.md +490 -0
package/bin/skills/sglang/references/radix-attention.md +413 -0
package/bin/skills/sglang/references/structured-generation.md +541 -0
package/bin/skills/simpo/SKILL.md +219 -0
package/bin/skills/simpo/references/datasets.md +478 -0
package/bin/skills/simpo/references/hyperparameters.md +452 -0
package/bin/skills/simpo/references/loss-functions.md +350 -0
package/bin/skills/skypilot/SKILL.md +509 -0
package/bin/skills/skypilot/references/advanced-usage.md +491 -0
package/bin/skills/skypilot/references/troubleshooting.md +570 -0
package/bin/skills/slime/SKILL.md +464 -0
package/bin/skills/slime/references/api-reference.md +392 -0
package/bin/skills/slime/references/troubleshooting.md +386 -0
package/bin/skills/speculative-decoding/SKILL.md +467 -0
package/bin/skills/speculative-decoding/references/lookahead.md +309 -0
package/bin/skills/speculative-decoding/references/medusa.md +350 -0
package/bin/skills/stable-diffusion/SKILL.md +519 -0
package/bin/skills/stable-diffusion/references/advanced-usage.md +716 -0
package/bin/skills/stable-diffusion/references/troubleshooting.md +555 -0
package/bin/skills/tensorboard/SKILL.md +629 -0
package/bin/skills/tensorboard/references/integrations.md +638 -0
package/bin/skills/tensorboard/references/profiling.md +545 -0
package/bin/skills/tensorboard/references/visualization.md +620 -0
package/bin/skills/tensorrt-llm/SKILL.md +187 -0
package/bin/skills/tensorrt-llm/references/multi-gpu.md +298 -0
package/bin/skills/tensorrt-llm/references/optimization.md +242 -0
package/bin/skills/tensorrt-llm/references/serving.md +470 -0
package/bin/skills/tinker/SKILL.md +362 -0
package/bin/skills/tinker/references/api-reference.md +168 -0
package/bin/skills/tinker/references/getting-started.md +157 -0
package/bin/skills/tinker/references/loss-functions.md +163 -0
package/bin/skills/tinker/references/models-and-lora.md +139 -0
package/bin/skills/tinker/references/recipes.md +280 -0
package/bin/skills/tinker/references/reinforcement-learning.md +212 -0
package/bin/skills/tinker/references/rendering.md +243 -0
package/bin/skills/tinker/references/supervised-learning.md +232 -0
package/bin/skills/tinker-training-cost/SKILL.md +187 -0
package/bin/skills/tinker-training-cost/scripts/calculate_cost.py +123 -0
package/bin/skills/torchforge/SKILL.md +433 -0
package/bin/skills/torchforge/references/api-reference.md +327 -0
package/bin/skills/torchforge/references/troubleshooting.md +409 -0
package/bin/skills/torchtitan/SKILL.md +358 -0
package/bin/skills/torchtitan/references/checkpoint.md +181 -0
package/bin/skills/torchtitan/references/custom-models.md +258 -0
package/bin/skills/torchtitan/references/float8.md +133 -0
package/bin/skills/torchtitan/references/fsdp.md +126 -0
package/bin/skills/transformer-lens/SKILL.md +346 -0
package/bin/skills/transformer-lens/references/README.md +54 -0
package/bin/skills/transformer-lens/references/api.md +362 -0
package/bin/skills/transformer-lens/references/tutorials.md +339 -0
package/bin/skills/trl-fine-tuning/SKILL.md +455 -0
package/bin/skills/trl-fine-tuning/references/dpo-variants.md +227 -0
package/bin/skills/trl-fine-tuning/references/online-rl.md +82 -0
package/bin/skills/trl-fine-tuning/references/reward-modeling.md +122 -0
package/bin/skills/trl-fine-tuning/references/sft-training.md +168 -0
package/bin/skills/unsloth/SKILL.md +80 -0
package/bin/skills/unsloth/references/index.md +7 -0
package/bin/skills/unsloth/references/llms-full.md +16799 -0
package/bin/skills/unsloth/references/llms-txt.md +12044 -0
package/bin/skills/unsloth/references/llms.md +82 -0
package/bin/skills/verl/SKILL.md +391 -0
package/bin/skills/verl/references/api-reference.md +301 -0
package/bin/skills/verl/references/troubleshooting.md +391 -0
package/bin/skills/vllm/SKILL.md +364 -0
package/bin/skills/vllm/references/optimization.md +226 -0
package/bin/skills/vllm/references/quantization.md +284 -0
package/bin/skills/vllm/references/server-deployment.md +255 -0
package/bin/skills/vllm/references/troubleshooting.md +447 -0
package/bin/skills/weights-and-biases/SKILL.md +590 -0
package/bin/skills/weights-and-biases/references/artifacts.md +584 -0
package/bin/skills/weights-and-biases/references/integrations.md +700 -0
package/bin/skills/weights-and-biases/references/sweeps.md +847 -0
package/bin/skills/whisper/SKILL.md +317 -0
package/bin/skills/whisper/references/languages.md +189 -0
package/bin/synsc +0 -0
package/package.json +10 -0

package/bin/skills/ray-train/references/multi-node.md ADDED Viewed

@@ -0,0 +1,628 @@
+# Ray Train Multi-Node Setup
+## Ray Cluster Architecture
+Ray Train runs on a **Ray cluster** with one head node and multiple worker nodes.
+**Components**:
+- **Head node**: Coordinates workers, runs scheduling
+- **Worker nodes**: Execute training tasks
+- **Object store**: Shared memory across nodes (using Apache Arrow/Plasma)
+## Local Multi-Node Setup
+### Manual Cluster Setup
+**Head node**:
+```bash
+# Start Ray head
+ray start --head --port=6379 --dashboard-host=0.0.0.0
+# Output:
+# Started Ray on this node with:
+#   - Head node IP: 192.168.1.100
+#   - Dashboard: http://192.168.1.100:8265
+```
+**Worker nodes**:
+```bash
+# Connect to head node
+ray start --address=192.168.1.100:6379
+# Output:
+# Started Ray on this node.
+# Connected to Ray cluster.
+```
+**Training script**:
+```python
+import ray
+from ray.train.torch import TorchTrainer
+from ray.train import ScalingConfig
+# Connect to cluster
+ray.init(address='auto')  # Auto-detects cluster
+# Train across all nodes
+trainer = TorchTrainer(
+    train_func,
+    scaling_config=ScalingConfig(
+        num_workers=16,  # Total workers across all nodes
+        use_gpu=True,
+        placement_strategy="SPREAD"  # Spread across nodes
+    )
+)
+result = trainer.fit()
+```
+### Check Cluster Status
+```bash
+# View cluster status
+ray status
+# Output:
+# ======== Cluster Status ========
+# Nodes: 4
+# Total CPUs: 128
+# Total GPUs: 32
+# Total memory: 512 GB
+```
+**Python API**:
+```python
+import ray
+ray.init(address='auto')
+# Get cluster resources
+print(ray.cluster_resources())
+# {'CPU': 128.0, 'GPU': 32.0, 'memory': 549755813888, 'node:192.168.1.100': 1.0, ...}
+# Get available resources
+print(ray.available_resources())
+```
+## Cloud Deployments
+### AWS EC2 Cluster
+**Cluster config** (`cluster.yaml`):
+```yaml
+cluster_name: ray-train-cluster
+max_workers: 3  # 3 worker nodes
+provider:
+  type: aws
+  region: us-west-2
+  availability_zone: us-west-2a
+auth:
+  ssh_user: ubuntu
+head_node_type: head_node
+available_node_types:
+  head_node:
+    node_config:
+      InstanceType: p3.2xlarge  # V100 GPU
+      ImageId: ami-0a2363a9cff180a64  # Deep Learning AMI
+    resources: {"CPU": 8, "GPU": 1}
+    min_workers: 0
+    max_workers: 0
+  worker_node:
+    node_config:
+      InstanceType: p3.8xlarge  # 4× V100
+      ImageId: ami-0a2363a9cff180a64
+    resources: {"CPU": 32, "GPU": 4}
+    min_workers: 3
+    max_workers: 3
+setup_commands:
+  - pip install -U ray[train] torch transformers
+head_setup_commands:
+  - pip install -U "ray[default]"
+```
+**Launch cluster**:
+```bash
+# Start cluster
+ray up cluster.yaml
+# SSH to head node
+ray attach cluster.yaml
+# Run training
+python train.py
+# Teardown
+ray down cluster.yaml
+```
+**Auto-submit job**:
+```bash
+# Submit job from local machine
+ray job submit \
+  --address http://<head-node-ip>:8265 \
+  --working-dir . \
+  -- python train.py
+```
+### GCP Cluster
+**Cluster config** (`gcp-cluster.yaml`):
+```yaml
+cluster_name: ray-train-gcp
+provider:
+  type: gcp
+  region: us-central1
+  availability_zone: us-central1-a
+  project_id: my-project-id
+auth:
+  ssh_user: ubuntu
+head_node_type: head_node
+available_node_types:
+  head_node:
+    node_config:
+      machineType: n1-standard-8
+      disks:
+        - boot: true
+          autoDelete: true
+          type: PERSISTENT
+          initializeParams:
+            diskSizeGb: 50
+            sourceImage: projects/deeplearning-platform-release/global/images/family/pytorch-latest-gpu
+      guestAccelerators:
+        - acceleratorType: nvidia-tesla-v100
+          acceleratorCount: 1
+    resources: {"CPU": 8, "GPU": 1}
+  worker_node:
+    node_config:
+      machineType: n1-highmem-16
+      disks:
+        - boot: true
+          autoDelete: true
+          type: PERSISTENT
+          initializeParams:
+            diskSizeGb: 100
+            sourceImage: projects/deeplearning-platform-release/global/images/family/pytorch-latest-gpu
+      guestAccelerators:
+        - acceleratorType: nvidia-tesla-v100
+          acceleratorCount: 4
+    resources: {"CPU": 16, "GPU": 4}
+    min_workers: 2
+    max_workers: 10
+setup_commands:
+  - pip install -U ray[train] torch transformers
+```
+**Launch**:
+```bash
+ray up gcp-cluster.yaml --yes
+```
+### Azure Cluster
+**Cluster config** (`azure-cluster.yaml`):
+```yaml
+cluster_name: ray-train-azure
+provider:
+  type: azure
+  location: eastus
+  resource_group: ray-cluster-rg
+  subscription_id: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
+auth:
+  ssh_user: ubuntu
+  ssh_private_key: ~/.ssh/id_rsa
+head_node_type: head_node
+available_node_types:
+  head_node:
+    node_config:
+      azure_arm_parameters:
+        vmSize: Standard_NC6  # K80 GPU
+        imagePublisher: microsoft-dsvm
+        imageOffer: ubuntu-1804
+        imageSku: 1804-gen2
+        imageVersion: latest
+    resources: {"CPU": 6, "GPU": 1}
+  worker_node:
+    node_config:
+      azure_arm_parameters:
+        vmSize: Standard_NC24  # 4× K80
+        imagePublisher: microsoft-dsvm
+        imageOffer: ubuntu-1804
+        imageSku: 1804-gen2
+        imageVersion: latest
+    resources: {"CPU": 24, "GPU": 4}
+    min_workers: 2
+    max_workers: 10
+```
+## Kubernetes Deployment
+### KubeRay Operator
+**Install KubeRay**:
+```bash
+# Add Helm repo
+helm repo add kuberay https://ray-project.github.io/kuberay-helm/
+# Install operator
+helm install kuberay-operator kuberay/kuberay-operator --version 0.6.0
+```
+**RayCluster manifest** (`ray-cluster.yaml`):
+```yaml
+apiVersion: ray.io/v1alpha1
+kind: RayCluster
+metadata:
+  name: ray-train-cluster
+spec:
+  rayVersion: '2.40.0'
+  headGroupSpec:
+    rayStartParams:
+      dashboard-host: '0.0.0.0'
+    template:
+      spec:
+        containers:
+        - name: ray-head
+          image: rayproject/ray:2.40.0-py310-gpu
+          resources:
+            limits:
+              cpu: "8"
+              memory: "32Gi"
+              nvidia.com/gpu: "1"
+            requests:
+              cpu: "8"
+              memory: "32Gi"
+              nvidia.com/gpu: "1"
+          ports:
+          - containerPort: 6379
+            name: gcs-server
+          - containerPort: 8265
+            name: dashboard
+          - containerPort: 10001
+            name: client
+  workerGroupSpecs:
+  - replicas: 4
+    minReplicas: 2
+    maxReplicas: 10
+    groupName: gpu-workers
+    rayStartParams: {}
+    template:
+      spec:
+        containers:
+        - name: ray-worker
+          image: rayproject/ray:2.40.0-py310-gpu
+          resources:
+            limits:
+              cpu: "16"
+              memory: "64Gi"
+              nvidia.com/gpu: "4"
+            requests:
+              cpu: "16"
+              memory: "64Gi"
+              nvidia.com/gpu: "4"
+```
+**Deploy**:
+```bash
+kubectl apply -f ray-cluster.yaml
+# Check status
+kubectl get rayclusters
+# Access dashboard
+kubectl port-forward service/ray-train-cluster-head-svc 8265:8265
+# Open http://localhost:8265
+```
+**Submit training job**:
+```bash
+# Port-forward Ray client port
+kubectl port-forward service/ray-train-cluster-head-svc 10001:10001
+# Submit from local machine
+RAY_ADDRESS="ray://localhost:10001" python train.py
+```
+## SLURM Integration
+### SLURM Job Script
+**Launch Ray cluster** (`ray_cluster.sh`):
+```bash
+#!/bin/bash
+#SBATCH --job-name=ray-train
+#SBATCH --nodes=4
+#SBATCH --ntasks-per-node=1
+#SBATCH --cpus-per-task=32
+#SBATCH --gres=gpu:8
+#SBATCH --time=24:00:00
+#SBATCH --output=ray_train_%j.out
+# Load modules
+module load cuda/11.8
+module load python/3.10
+# Activate environment
+source ~/venv/bin/activate
+# Get head node
+head_node=$(hostname)
+head_node_ip=$(hostname -I | awk '{print $1}')
+# Start Ray head on first node
+if [ "$SLURM_NODEID" -eq 0 ]; then
+    echo "Starting Ray head node at $head_node_ip"
+    ray start --head --node-ip-address=$head_node_ip \
+      --port=6379 \
+      --dashboard-host=0.0.0.0 \
+      --num-cpus=$SLURM_CPUS_PER_TASK \
+      --num-gpus=$SLURM_GPUS_ON_NODE \
+      --block &
+    sleep 10
+fi
+# Start Ray workers on other nodes
+if [ "$SLURM_NODEID" -ne 0 ]; then
+    echo "Starting Ray worker node"
+    ray start --address=$head_node_ip:6379 \
+      --num-cpus=$SLURM_CPUS_PER_TASK \
+      --num-gpus=$SLURM_GPUS_ON_NODE \
+      --block &
+fi
+sleep 5
+# Run training on head node only
+if [ "$SLURM_NODEID" -eq 0 ]; then
+    echo "Running training..."
+    python train.py --address=$head_node_ip:6379
+fi
+# Wait for all processes
+wait
+```
+**Submit job**:
+```bash
+sbatch ray_cluster.sh
+```
+**Training script** (`train.py`):
+```python
+import argparse
+import ray
+from ray.train.torch import TorchTrainer
+from ray.train import ScalingConfig
+def main(args):
+    # Connect to Ray cluster
+    ray.init(address=args.address)
+    # Train across all SLURM nodes
+    trainer = TorchTrainer(
+        train_func,
+        scaling_config=ScalingConfig(
+            num_workers=32,  # 4 nodes × 8 GPUs
+            use_gpu=True,
+            placement_strategy="SPREAD"
+        )
+    )
+    result = trainer.fit()
+    print(f"Training complete: {result.metrics}")
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--address', required=True)
+    args = parser.parse_args()
+    main(args)
+```
+## Autoscaling
+### Enable Autoscaling
+**Cluster config with autoscaling**:
+```yaml
+cluster_name: ray-autoscale
+max_workers: 10  # Maximum worker nodes
+idle_timeout_minutes: 5  # Shutdown idle workers after 5 min
+provider:
+  type: aws
+  region: us-west-2
+available_node_types:
+  worker_node:
+    min_workers: 2  # Always keep 2 workers
+    max_workers: 10  # Scale up to 10
+    resources: {"CPU": 32, "GPU": 4}
+    node_config:
+      InstanceType: p3.8xlarge
+```
+**Training with autoscaling**:
+```python
+from ray.train.torch import TorchTrainer
+from ray.train import ScalingConfig, RunConfig
+# Request resources, Ray autoscaler adds nodes as needed
+trainer = TorchTrainer(
+    train_func,
+    scaling_config=ScalingConfig(
+        num_workers=40,  # Ray will autoscale to 10 nodes (40 GPUs)
+        use_gpu=True,
+        trainer_resources={"CPU": 0}  # Trainer doesn't need resources
+    ),
+    run_config=RunConfig(
+        name="autoscale-training",
+        storage_path="s3://my-bucket/ray-results"
+    )
+)
+result = trainer.fit()
+```
+## Network Configuration
+### Firewall Rules
+**Required ports**:
+- **6379**: Ray GCS (Global Control Store)
+- **8265**: Ray Dashboard
+- **10001**: Ray Client
+- **8000-9000**: Worker communication (configurable)
+**AWS Security Group**:
+```bash
+# Allow Ray ports within cluster
+aws ec2 authorize-security-group-ingress \
+  --group-id sg-xxxxx \
+  --source-group sg-xxxxx \
+  --protocol tcp \
+  --port 6379
+aws ec2 authorize-security-group-ingress \
+  --group-id sg-xxxxx \
+  --source-group sg-xxxxx \
+  --protocol tcp \
+  --port 8000-9000
+```
+### High-Performance Networking
+**Enable InfiniBand/RDMA** (on-prem):
+```bash
+# Set Ray to use specific network interface
+export RAY_BACKEND_LOG_LEVEL=debug
+export NCCL_SOCKET_IFNAME=ib0  # InfiniBand interface
+export NCCL_IB_DISABLE=0       # Enable InfiniBand
+ray start --head --node-ip-address=$(ip addr show ib0 | grep 'inet ' | awk '{print $2}' | cut -d/ -f1)
+```
+**AWS Enhanced Networking**:
+```yaml
+# Use ENA (Elastic Network Adapter)
+worker_node:
+  node_config:
+    InstanceType: p3dn.24xlarge  # 100 Gbps networking
+    EbsOptimized: true
+    NetworkInterfaces:
+      - DeviceIndex: 0
+        DeleteOnTermination: true
+        InterfaceType: ena  # Enhanced networking
+```
+## Monitoring and Debugging
+### Ray Dashboard
+**Access dashboard**:
+```bash
+# Local: http://localhost:8265
+# Remote: http://<head-node-ip>:8265
+# SSH tunnel for secure access
+ssh -L 8265:localhost:8265 user@<head-node-ip>
+```
+**Dashboard features**:
+- Cluster utilization (CPU, GPU, memory)
+- Running tasks and actors
+- Object store usage
+- Logs and errors
+### Cluster Logs
+**View logs**:
+```bash
+# Head node logs
+tail -f /tmp/ray/session_latest/logs/monitor.log
+# Worker node logs
+tail -f /tmp/ray/session_latest/logs/raylet.log
+# All logs
+ray logs
+```
+**Python logging**:
+```python
+import logging
+logger = logging.getLogger("ray")
+logger.setLevel(logging.DEBUG)
+# In training function
+def train_func(config):
+    logger.info(f"Worker {ray.get_runtime_context().get_worker_id()} starting")
+    # Training...
+```
+## Best Practices
+### 1. Placement Strategies
+```python
+# PACK: Pack workers on fewer nodes (better for communication)
+ScalingConfig(num_workers=16, placement_strategy="PACK")
+# SPREAD: Spread across nodes (better for fault tolerance)
+ScalingConfig(num_workers=16, placement_strategy="SPREAD")
+# STRICT_SPREAD: Exactly one worker per node
+ScalingConfig(num_workers=4, placement_strategy="STRICT_SPREAD")
+```
+### 2. Resource Allocation
+```python
+# Reserve resources per worker
+ScalingConfig(
+    num_workers=8,
+    use_gpu=True,
+    resources_per_worker={"CPU": 8, "GPU": 1},  # Explicit allocation
+    trainer_resources={"CPU": 2}  # Reserve for trainer
+)
+```
+### 3. Fault Tolerance
+```python
+from ray.train import RunConfig, FailureConfig
+trainer = TorchTrainer(
+    train_func,
+    run_config=RunConfig(
+        failure_config=FailureConfig(
+            max_failures=3  # Retry up to 3 times on worker failure
+        )
+    )
+)
+```
+## Resources
+- Ray Cluster Launcher: https://docs.ray.io/en/latest/cluster/getting-started.html
+- KubeRay: https://docs.ray.io/en/latest/cluster/kubernetes/index.html
+- SLURM: https://docs.ray.io/en/latest/cluster/vms/user-guides/launching-clusters/slurm.html
+- Autoscaling: https://docs.ray.io/en/latest/cluster/vms/user-guides/configuring-autoscaling.html