npm - @synsci/cli-darwin-x64 - Versions diffs - 1.1.49 - Mend

@synsci/cli-darwin-x64 1.1.49

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (373) hide show

package/bin/skills/accelerate/SKILL.md +332 -0
package/bin/skills/accelerate/references/custom-plugins.md +453 -0
package/bin/skills/accelerate/references/megatron-integration.md +489 -0
package/bin/skills/accelerate/references/performance.md +525 -0
package/bin/skills/audiocraft/SKILL.md +564 -0
package/bin/skills/audiocraft/references/advanced-usage.md +666 -0
package/bin/skills/audiocraft/references/troubleshooting.md +504 -0
package/bin/skills/autogpt/SKILL.md +403 -0
package/bin/skills/autogpt/references/advanced-usage.md +535 -0
package/bin/skills/autogpt/references/troubleshooting.md +420 -0
package/bin/skills/awq/SKILL.md +310 -0
package/bin/skills/awq/references/advanced-usage.md +324 -0
package/bin/skills/awq/references/troubleshooting.md +344 -0
package/bin/skills/axolotl/SKILL.md +158 -0
package/bin/skills/axolotl/references/api.md +5548 -0
package/bin/skills/axolotl/references/dataset-formats.md +1029 -0
package/bin/skills/axolotl/references/index.md +15 -0
package/bin/skills/axolotl/references/other.md +3563 -0
package/bin/skills/bigcode-evaluation-harness/SKILL.md +405 -0
package/bin/skills/bigcode-evaluation-harness/references/benchmarks.md +393 -0
package/bin/skills/bigcode-evaluation-harness/references/custom-tasks.md +424 -0
package/bin/skills/bigcode-evaluation-harness/references/issues.md +394 -0
package/bin/skills/bitsandbytes/SKILL.md +411 -0
package/bin/skills/bitsandbytes/references/memory-optimization.md +521 -0
package/bin/skills/bitsandbytes/references/qlora-training.md +521 -0
package/bin/skills/bitsandbytes/references/quantization-formats.md +447 -0
package/bin/skills/blip-2/SKILL.md +564 -0
package/bin/skills/blip-2/references/advanced-usage.md +680 -0
package/bin/skills/blip-2/references/troubleshooting.md +526 -0
package/bin/skills/chroma/SKILL.md +406 -0
package/bin/skills/chroma/references/integration.md +38 -0
package/bin/skills/clip/SKILL.md +253 -0
package/bin/skills/clip/references/applications.md +207 -0
package/bin/skills/constitutional-ai/SKILL.md +290 -0
package/bin/skills/crewai/SKILL.md +498 -0
package/bin/skills/crewai/references/flows.md +438 -0
package/bin/skills/crewai/references/tools.md +429 -0
package/bin/skills/crewai/references/troubleshooting.md +480 -0
package/bin/skills/deepspeed/SKILL.md +141 -0
package/bin/skills/deepspeed/references/08.md +17 -0
package/bin/skills/deepspeed/references/09.md +173 -0
package/bin/skills/deepspeed/references/2020.md +378 -0
package/bin/skills/deepspeed/references/2023.md +279 -0
package/bin/skills/deepspeed/references/assets.md +179 -0
package/bin/skills/deepspeed/references/index.md +35 -0
package/bin/skills/deepspeed/references/mii.md +118 -0
package/bin/skills/deepspeed/references/other.md +1191 -0
package/bin/skills/deepspeed/references/tutorials.md +6554 -0
package/bin/skills/dspy/SKILL.md +590 -0
package/bin/skills/dspy/references/examples.md +663 -0
package/bin/skills/dspy/references/modules.md +475 -0
package/bin/skills/dspy/references/optimizers.md +566 -0
package/bin/skills/faiss/SKILL.md +221 -0
package/bin/skills/faiss/references/index_types.md +280 -0
package/bin/skills/flash-attention/SKILL.md +367 -0
package/bin/skills/flash-attention/references/benchmarks.md +215 -0
package/bin/skills/flash-attention/references/transformers-integration.md +293 -0
package/bin/skills/gguf/SKILL.md +427 -0
package/bin/skills/gguf/references/advanced-usage.md +504 -0
package/bin/skills/gguf/references/troubleshooting.md +442 -0
package/bin/skills/gptq/SKILL.md +450 -0
package/bin/skills/gptq/references/calibration.md +337 -0
package/bin/skills/gptq/references/integration.md +129 -0
package/bin/skills/gptq/references/troubleshooting.md +95 -0
package/bin/skills/grpo-rl-training/README.md +97 -0
package/bin/skills/grpo-rl-training/SKILL.md +572 -0
package/bin/skills/grpo-rl-training/examples/reward_functions_library.py +393 -0
package/bin/skills/grpo-rl-training/templates/basic_grpo_training.py +228 -0
package/bin/skills/guidance/SKILL.md +572 -0
package/bin/skills/guidance/references/backends.md +554 -0
package/bin/skills/guidance/references/constraints.md +674 -0
package/bin/skills/guidance/references/examples.md +767 -0
package/bin/skills/hqq/SKILL.md +445 -0
package/bin/skills/hqq/references/advanced-usage.md +528 -0
package/bin/skills/hqq/references/troubleshooting.md +503 -0
package/bin/skills/hugging-face-cli/SKILL.md +191 -0
package/bin/skills/hugging-face-cli/references/commands.md +954 -0
package/bin/skills/hugging-face-cli/references/examples.md +374 -0
package/bin/skills/hugging-face-datasets/SKILL.md +547 -0
package/bin/skills/hugging-face-datasets/examples/diverse_training_examples.json +239 -0
package/bin/skills/hugging-face-datasets/examples/system_prompt_template.txt +196 -0
package/bin/skills/hugging-face-datasets/examples/training_examples.json +176 -0
package/bin/skills/hugging-face-datasets/scripts/dataset_manager.py +522 -0
package/bin/skills/hugging-face-datasets/scripts/sql_manager.py +844 -0
package/bin/skills/hugging-face-datasets/templates/chat.json +55 -0
package/bin/skills/hugging-face-datasets/templates/classification.json +62 -0
package/bin/skills/hugging-face-datasets/templates/completion.json +51 -0
package/bin/skills/hugging-face-datasets/templates/custom.json +75 -0
package/bin/skills/hugging-face-datasets/templates/qa.json +54 -0
package/bin/skills/hugging-face-datasets/templates/tabular.json +81 -0
package/bin/skills/hugging-face-evaluation/SKILL.md +656 -0
package/bin/skills/hugging-face-evaluation/examples/USAGE_EXAMPLES.md +382 -0
package/bin/skills/hugging-face-evaluation/examples/artificial_analysis_to_hub.py +141 -0
package/bin/skills/hugging-face-evaluation/examples/example_readme_tables.md +135 -0
package/bin/skills/hugging-face-evaluation/examples/metric_mapping.json +50 -0
package/bin/skills/hugging-face-evaluation/requirements.txt +20 -0
package/bin/skills/hugging-face-evaluation/scripts/evaluation_manager.py +1374 -0
package/bin/skills/hugging-face-evaluation/scripts/inspect_eval_uv.py +104 -0
package/bin/skills/hugging-face-evaluation/scripts/inspect_vllm_uv.py +317 -0
package/bin/skills/hugging-face-evaluation/scripts/lighteval_vllm_uv.py +303 -0
package/bin/skills/hugging-face-evaluation/scripts/run_eval_job.py +98 -0
package/bin/skills/hugging-face-evaluation/scripts/run_vllm_eval_job.py +331 -0
package/bin/skills/hugging-face-evaluation/scripts/test_extraction.py +206 -0
package/bin/skills/hugging-face-jobs/SKILL.md +1041 -0
package/bin/skills/hugging-face-jobs/index.html +216 -0
package/bin/skills/hugging-face-jobs/references/hardware_guide.md +336 -0
package/bin/skills/hugging-face-jobs/references/hub_saving.md +352 -0
package/bin/skills/hugging-face-jobs/references/token_usage.md +546 -0
package/bin/skills/hugging-face-jobs/references/troubleshooting.md +475 -0
package/bin/skills/hugging-face-jobs/scripts/cot-self-instruct.py +718 -0
package/bin/skills/hugging-face-jobs/scripts/finepdfs-stats.py +546 -0
package/bin/skills/hugging-face-jobs/scripts/generate-responses.py +587 -0
package/bin/skills/hugging-face-model-trainer/SKILL.md +711 -0
package/bin/skills/hugging-face-model-trainer/references/gguf_conversion.md +296 -0
package/bin/skills/hugging-face-model-trainer/references/hardware_guide.md +283 -0
package/bin/skills/hugging-face-model-trainer/references/hub_saving.md +364 -0
package/bin/skills/hugging-face-model-trainer/references/reliability_principles.md +371 -0
package/bin/skills/hugging-face-model-trainer/references/trackio_guide.md +189 -0
package/bin/skills/hugging-face-model-trainer/references/training_methods.md +150 -0
package/bin/skills/hugging-face-model-trainer/references/training_patterns.md +203 -0
package/bin/skills/hugging-face-model-trainer/references/troubleshooting.md +282 -0
package/bin/skills/hugging-face-model-trainer/scripts/convert_to_gguf.py +424 -0
package/bin/skills/hugging-face-model-trainer/scripts/dataset_inspector.py +417 -0
package/bin/skills/hugging-face-model-trainer/scripts/estimate_cost.py +150 -0
package/bin/skills/hugging-face-model-trainer/scripts/train_dpo_example.py +106 -0
package/bin/skills/hugging-face-model-trainer/scripts/train_grpo_example.py +89 -0
package/bin/skills/hugging-face-model-trainer/scripts/train_sft_example.py +122 -0
package/bin/skills/hugging-face-paper-publisher/SKILL.md +627 -0
package/bin/skills/hugging-face-paper-publisher/examples/example_usage.md +327 -0
package/bin/skills/hugging-face-paper-publisher/references/quick_reference.md +216 -0
package/bin/skills/hugging-face-paper-publisher/scripts/paper_manager.py +508 -0
package/bin/skills/hugging-face-paper-publisher/templates/arxiv.md +299 -0
package/bin/skills/hugging-face-paper-publisher/templates/ml-report.md +358 -0
package/bin/skills/hugging-face-paper-publisher/templates/modern.md +319 -0
package/bin/skills/hugging-face-paper-publisher/templates/standard.md +201 -0
package/bin/skills/hugging-face-tool-builder/SKILL.md +115 -0
package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.py +57 -0
package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.sh +40 -0
package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.tsx +57 -0
package/bin/skills/hugging-face-tool-builder/references/find_models_by_paper.sh +230 -0
package/bin/skills/hugging-face-tool-builder/references/hf_enrich_models.sh +96 -0
package/bin/skills/hugging-face-tool-builder/references/hf_model_card_frontmatter.sh +188 -0
package/bin/skills/hugging-face-tool-builder/references/hf_model_papers_auth.sh +171 -0
package/bin/skills/hugging-face-trackio/SKILL.md +65 -0
package/bin/skills/hugging-face-trackio/references/logging_metrics.md +206 -0
package/bin/skills/hugging-face-trackio/references/retrieving_metrics.md +223 -0
package/bin/skills/huggingface-tokenizers/SKILL.md +516 -0
package/bin/skills/huggingface-tokenizers/references/algorithms.md +653 -0
package/bin/skills/huggingface-tokenizers/references/integration.md +637 -0
package/bin/skills/huggingface-tokenizers/references/pipeline.md +723 -0
package/bin/skills/huggingface-tokenizers/references/training.md +565 -0
package/bin/skills/instructor/SKILL.md +740 -0
package/bin/skills/instructor/references/examples.md +107 -0
package/bin/skills/instructor/references/providers.md +70 -0
package/bin/skills/instructor/references/validation.md +606 -0
package/bin/skills/knowledge-distillation/SKILL.md +458 -0
package/bin/skills/knowledge-distillation/references/minillm.md +334 -0
package/bin/skills/lambda-labs/SKILL.md +545 -0
package/bin/skills/lambda-labs/references/advanced-usage.md +611 -0
package/bin/skills/lambda-labs/references/troubleshooting.md +530 -0
package/bin/skills/langchain/SKILL.md +480 -0
package/bin/skills/langchain/references/agents.md +499 -0
package/bin/skills/langchain/references/integration.md +562 -0
package/bin/skills/langchain/references/rag.md +600 -0
package/bin/skills/langsmith/SKILL.md +422 -0
package/bin/skills/langsmith/references/advanced-usage.md +548 -0
package/bin/skills/langsmith/references/troubleshooting.md +537 -0
package/bin/skills/litgpt/SKILL.md +469 -0
package/bin/skills/litgpt/references/custom-models.md +568 -0
package/bin/skills/litgpt/references/distributed-training.md +451 -0
package/bin/skills/litgpt/references/supported-models.md +336 -0
package/bin/skills/litgpt/references/training-recipes.md +619 -0
package/bin/skills/llama-cpp/SKILL.md +258 -0
package/bin/skills/llama-cpp/references/optimization.md +89 -0
package/bin/skills/llama-cpp/references/quantization.md +213 -0
package/bin/skills/llama-cpp/references/server.md +125 -0
package/bin/skills/llama-factory/SKILL.md +80 -0
package/bin/skills/llama-factory/references/_images.md +23 -0
package/bin/skills/llama-factory/references/advanced.md +1055 -0
package/bin/skills/llama-factory/references/getting_started.md +349 -0
package/bin/skills/llama-factory/references/index.md +19 -0
package/bin/skills/llama-factory/references/other.md +31 -0
package/bin/skills/llamaguard/SKILL.md +337 -0
package/bin/skills/llamaindex/SKILL.md +569 -0
package/bin/skills/llamaindex/references/agents.md +83 -0
package/bin/skills/llamaindex/references/data_connectors.md +108 -0
package/bin/skills/llamaindex/references/query_engines.md +406 -0
package/bin/skills/llava/SKILL.md +304 -0
package/bin/skills/llava/references/training.md +197 -0
package/bin/skills/lm-evaluation-harness/SKILL.md +490 -0
package/bin/skills/lm-evaluation-harness/references/api-evaluation.md +490 -0
package/bin/skills/lm-evaluation-harness/references/benchmark-guide.md +488 -0
package/bin/skills/lm-evaluation-harness/references/custom-tasks.md +602 -0
package/bin/skills/lm-evaluation-harness/references/distributed-eval.md +519 -0
package/bin/skills/long-context/SKILL.md +536 -0
package/bin/skills/long-context/references/extension_methods.md +468 -0
package/bin/skills/long-context/references/fine_tuning.md +611 -0
package/bin/skills/long-context/references/rope.md +402 -0
package/bin/skills/mamba/SKILL.md +260 -0
package/bin/skills/mamba/references/architecture-details.md +206 -0
package/bin/skills/mamba/references/benchmarks.md +255 -0
package/bin/skills/mamba/references/training-guide.md +388 -0
package/bin/skills/megatron-core/SKILL.md +366 -0
package/bin/skills/megatron-core/references/benchmarks.md +249 -0
package/bin/skills/megatron-core/references/parallelism-guide.md +404 -0
package/bin/skills/megatron-core/references/production-examples.md +473 -0
package/bin/skills/megatron-core/references/training-recipes.md +547 -0
package/bin/skills/miles/SKILL.md +315 -0
package/bin/skills/miles/references/api-reference.md +141 -0
package/bin/skills/miles/references/troubleshooting.md +352 -0
package/bin/skills/mlflow/SKILL.md +704 -0
package/bin/skills/mlflow/references/deployment.md +744 -0
package/bin/skills/mlflow/references/model-registry.md +770 -0
package/bin/skills/mlflow/references/tracking.md +680 -0
package/bin/skills/modal/SKILL.md +341 -0
package/bin/skills/modal/references/advanced-usage.md +503 -0
package/bin/skills/modal/references/troubleshooting.md +494 -0
package/bin/skills/model-merging/SKILL.md +539 -0
package/bin/skills/model-merging/references/evaluation.md +462 -0
package/bin/skills/model-merging/references/examples.md +428 -0
package/bin/skills/model-merging/references/methods.md +352 -0
package/bin/skills/model-pruning/SKILL.md +495 -0
package/bin/skills/model-pruning/references/wanda.md +347 -0
package/bin/skills/moe-training/SKILL.md +526 -0
package/bin/skills/moe-training/references/architectures.md +432 -0
package/bin/skills/moe-training/references/inference.md +348 -0
package/bin/skills/moe-training/references/training.md +425 -0
package/bin/skills/nanogpt/SKILL.md +290 -0
package/bin/skills/nanogpt/references/architecture.md +382 -0
package/bin/skills/nanogpt/references/data.md +476 -0
package/bin/skills/nanogpt/references/training.md +564 -0
package/bin/skills/nemo-curator/SKILL.md +383 -0
package/bin/skills/nemo-curator/references/deduplication.md +87 -0
package/bin/skills/nemo-curator/references/filtering.md +102 -0
package/bin/skills/nemo-evaluator/SKILL.md +494 -0
package/bin/skills/nemo-evaluator/references/adapter-system.md +340 -0
package/bin/skills/nemo-evaluator/references/configuration.md +447 -0
package/bin/skills/nemo-evaluator/references/custom-benchmarks.md +315 -0
package/bin/skills/nemo-evaluator/references/execution-backends.md +361 -0
package/bin/skills/nemo-guardrails/SKILL.md +297 -0
package/bin/skills/nnsight/SKILL.md +436 -0
package/bin/skills/nnsight/references/README.md +78 -0
package/bin/skills/nnsight/references/api.md +344 -0
package/bin/skills/nnsight/references/tutorials.md +300 -0
package/bin/skills/openrlhf/SKILL.md +249 -0
package/bin/skills/openrlhf/references/algorithm-comparison.md +404 -0
package/bin/skills/openrlhf/references/custom-rewards.md +530 -0
package/bin/skills/openrlhf/references/hybrid-engine.md +287 -0
package/bin/skills/openrlhf/references/multi-node-training.md +454 -0
package/bin/skills/outlines/SKILL.md +652 -0
package/bin/skills/outlines/references/backends.md +615 -0
package/bin/skills/outlines/references/examples.md +773 -0
package/bin/skills/outlines/references/json_generation.md +652 -0
package/bin/skills/peft/SKILL.md +431 -0
package/bin/skills/peft/references/advanced-usage.md +514 -0
package/bin/skills/peft/references/troubleshooting.md +480 -0
package/bin/skills/phoenix/SKILL.md +475 -0
package/bin/skills/phoenix/references/advanced-usage.md +619 -0
package/bin/skills/phoenix/references/troubleshooting.md +538 -0
package/bin/skills/pinecone/SKILL.md +358 -0
package/bin/skills/pinecone/references/deployment.md +181 -0
package/bin/skills/pytorch-fsdp/SKILL.md +126 -0
package/bin/skills/pytorch-fsdp/references/index.md +7 -0
package/bin/skills/pytorch-fsdp/references/other.md +4249 -0
package/bin/skills/pytorch-lightning/SKILL.md +346 -0
package/bin/skills/pytorch-lightning/references/callbacks.md +436 -0
package/bin/skills/pytorch-lightning/references/distributed.md +490 -0
package/bin/skills/pytorch-lightning/references/hyperparameter-tuning.md +556 -0
package/bin/skills/pyvene/SKILL.md +473 -0
package/bin/skills/pyvene/references/README.md +73 -0
package/bin/skills/pyvene/references/api.md +383 -0
package/bin/skills/pyvene/references/tutorials.md +376 -0
package/bin/skills/qdrant/SKILL.md +493 -0
package/bin/skills/qdrant/references/advanced-usage.md +648 -0
package/bin/skills/qdrant/references/troubleshooting.md +631 -0
package/bin/skills/ray-data/SKILL.md +326 -0
package/bin/skills/ray-data/references/integration.md +82 -0
package/bin/skills/ray-data/references/transformations.md +83 -0
package/bin/skills/ray-train/SKILL.md +406 -0
package/bin/skills/ray-train/references/multi-node.md +628 -0
package/bin/skills/rwkv/SKILL.md +260 -0
package/bin/skills/rwkv/references/architecture-details.md +344 -0
package/bin/skills/rwkv/references/rwkv7.md +386 -0
package/bin/skills/rwkv/references/state-management.md +369 -0
package/bin/skills/saelens/SKILL.md +386 -0
package/bin/skills/saelens/references/README.md +70 -0
package/bin/skills/saelens/references/api.md +333 -0
package/bin/skills/saelens/references/tutorials.md +318 -0
package/bin/skills/segment-anything/SKILL.md +500 -0
package/bin/skills/segment-anything/references/advanced-usage.md +589 -0
package/bin/skills/segment-anything/references/troubleshooting.md +484 -0
package/bin/skills/sentence-transformers/SKILL.md +255 -0
package/bin/skills/sentence-transformers/references/models.md +123 -0
package/bin/skills/sentencepiece/SKILL.md +235 -0
package/bin/skills/sentencepiece/references/algorithms.md +200 -0
package/bin/skills/sentencepiece/references/training.md +304 -0
package/bin/skills/sglang/SKILL.md +442 -0
package/bin/skills/sglang/references/deployment.md +490 -0
package/bin/skills/sglang/references/radix-attention.md +413 -0
package/bin/skills/sglang/references/structured-generation.md +541 -0
package/bin/skills/simpo/SKILL.md +219 -0
package/bin/skills/simpo/references/datasets.md +478 -0
package/bin/skills/simpo/references/hyperparameters.md +452 -0
package/bin/skills/simpo/references/loss-functions.md +350 -0
package/bin/skills/skypilot/SKILL.md +509 -0
package/bin/skills/skypilot/references/advanced-usage.md +491 -0
package/bin/skills/skypilot/references/troubleshooting.md +570 -0
package/bin/skills/slime/SKILL.md +464 -0
package/bin/skills/slime/references/api-reference.md +392 -0
package/bin/skills/slime/references/troubleshooting.md +386 -0
package/bin/skills/speculative-decoding/SKILL.md +467 -0
package/bin/skills/speculative-decoding/references/lookahead.md +309 -0
package/bin/skills/speculative-decoding/references/medusa.md +350 -0
package/bin/skills/stable-diffusion/SKILL.md +519 -0
package/bin/skills/stable-diffusion/references/advanced-usage.md +716 -0
package/bin/skills/stable-diffusion/references/troubleshooting.md +555 -0
package/bin/skills/tensorboard/SKILL.md +629 -0
package/bin/skills/tensorboard/references/integrations.md +638 -0
package/bin/skills/tensorboard/references/profiling.md +545 -0
package/bin/skills/tensorboard/references/visualization.md +620 -0
package/bin/skills/tensorrt-llm/SKILL.md +187 -0
package/bin/skills/tensorrt-llm/references/multi-gpu.md +298 -0
package/bin/skills/tensorrt-llm/references/optimization.md +242 -0
package/bin/skills/tensorrt-llm/references/serving.md +470 -0
package/bin/skills/tinker/SKILL.md +362 -0
package/bin/skills/tinker/references/api-reference.md +168 -0
package/bin/skills/tinker/references/getting-started.md +157 -0
package/bin/skills/tinker/references/loss-functions.md +163 -0
package/bin/skills/tinker/references/models-and-lora.md +139 -0
package/bin/skills/tinker/references/recipes.md +280 -0
package/bin/skills/tinker/references/reinforcement-learning.md +212 -0
package/bin/skills/tinker/references/rendering.md +243 -0
package/bin/skills/tinker/references/supervised-learning.md +232 -0
package/bin/skills/tinker-training-cost/SKILL.md +187 -0
package/bin/skills/tinker-training-cost/scripts/calculate_cost.py +123 -0
package/bin/skills/torchforge/SKILL.md +433 -0
package/bin/skills/torchforge/references/api-reference.md +327 -0
package/bin/skills/torchforge/references/troubleshooting.md +409 -0
package/bin/skills/torchtitan/SKILL.md +358 -0
package/bin/skills/torchtitan/references/checkpoint.md +181 -0
package/bin/skills/torchtitan/references/custom-models.md +258 -0
package/bin/skills/torchtitan/references/float8.md +133 -0
package/bin/skills/torchtitan/references/fsdp.md +126 -0
package/bin/skills/transformer-lens/SKILL.md +346 -0
package/bin/skills/transformer-lens/references/README.md +54 -0
package/bin/skills/transformer-lens/references/api.md +362 -0
package/bin/skills/transformer-lens/references/tutorials.md +339 -0
package/bin/skills/trl-fine-tuning/SKILL.md +455 -0
package/bin/skills/trl-fine-tuning/references/dpo-variants.md +227 -0
package/bin/skills/trl-fine-tuning/references/online-rl.md +82 -0
package/bin/skills/trl-fine-tuning/references/reward-modeling.md +122 -0
package/bin/skills/trl-fine-tuning/references/sft-training.md +168 -0
package/bin/skills/unsloth/SKILL.md +80 -0
package/bin/skills/unsloth/references/index.md +7 -0
package/bin/skills/unsloth/references/llms-full.md +16799 -0
package/bin/skills/unsloth/references/llms-txt.md +12044 -0
package/bin/skills/unsloth/references/llms.md +82 -0
package/bin/skills/verl/SKILL.md +391 -0
package/bin/skills/verl/references/api-reference.md +301 -0
package/bin/skills/verl/references/troubleshooting.md +391 -0
package/bin/skills/vllm/SKILL.md +364 -0
package/bin/skills/vllm/references/optimization.md +226 -0
package/bin/skills/vllm/references/quantization.md +284 -0
package/bin/skills/vllm/references/server-deployment.md +255 -0
package/bin/skills/vllm/references/troubleshooting.md +447 -0
package/bin/skills/weights-and-biases/SKILL.md +590 -0
package/bin/skills/weights-and-biases/references/artifacts.md +584 -0
package/bin/skills/weights-and-biases/references/integrations.md +700 -0
package/bin/skills/weights-and-biases/references/sweeps.md +847 -0
package/bin/skills/whisper/SKILL.md +317 -0
package/bin/skills/whisper/references/languages.md +189 -0
package/bin/synsc +0 -0
package/package.json +10 -0

package/bin/skills/rwkv/references/rwkv7.md ADDED Viewed

@@ -0,0 +1,386 @@
+# RWKV-7: Latest Improvements (March 2025)
+## Overview
+RWKV-7 is the latest version released in March 2025, introducing multimodal capabilities and improved scaling to 14B+ parameters.
+**Paper**: https://arxiv.org/abs/2503.14456 (March 2025)
+## Key Improvements Over RWKV-6
+### 1. Enhanced Numerical Stability
+**Problem in RWKV-6**:
+```python
+# Exponential operations could overflow for large models
+att_aa = exp(w) * att_aa + k * v  # Overflow risk!
+```
+**RWKV-7 Solution**:
+```python
+# Log-space computation with safe exponentiation
+log_att_aa = log_softmax([log(k * v), log_w + log(att_aa)])
+att_aa = exp(log_att_aa)
+```
+**Result**: Stable training up to 14B parameters (RWKV-6 struggled beyond 7B)
+### 2. Improved Time-Decay Initialization
+**RWKV-6**:
+```python
+# Simple logarithmic spacing
+time_decay[i] = -5.0 + 8.0 * (i / n_layers)
+```
+**RWKV-7**:
+```python
+# Adaptive per-head decay with better range
+for layer in range(n_layers):
+    for head in range(n_heads):
+        # Different heads specialize in different timescales
+        alpha = (layer / n_layers) ** 0.7  # Non-linear progression
+        beta = (head / n_heads) * 0.5
+        time_decay[layer, head] = -6.0 + 9.0 * alpha + beta
+# Result: Better long/short-term memory balance
+```
+**Impact**: 15-20% perplexity improvement on long-context tasks
+### 3. Multi-Head Time-Mixing Refinements
+**RWKV-6 Multi-Head**:
+```python
+# Simple concatenation
+heads = [head_i(x) for head_i in heads]
+output = concat(heads)
+```
+**RWKV-7 Multi-Head**:
+```python
+# Attention-style output projection
+heads = [head_i(x) for head_i in heads]
+concat_heads = concat(heads)
+output = output_proj(concat_heads)  # Learnable mixing
+# Plus: Per-head layer norm
+for i, head in enumerate(heads):
+    heads[i] = head_norm[i](head)  # Separate norm per head
+```
+**Result**: Better head specialization, 8-12% quality improvement
+### 4. Rotary Position Encoding (RoPE) Integration
+**New in RWKV-7**:
+```python
+class RWKV7_TimeMix(nn.Module):
+    def __init__(self, d_model, n_heads):
+        super().__init__()
+        self.rope = RotaryEmbedding(d_model // n_heads)
+    def forward(self, x):
+        k = self.key(x)  # (B, T, d_model)
+        v = self.value(x)
+        # Apply RoPE to keys
+        k = self.rope.rotate_queries_or_keys(k)
+        # WKV with position-aware keys
+        wkv = self.wkv(k, v)
+        return wkv
+```
+**Why useful**: Improves positional awareness without breaking O(n) complexity
+### 5. RWKV-7 Block Structure
+```python
+class RWKV7_Block(nn.Module):
+    def __init__(self, d_model, n_heads):
+        super().__init__()
+        self.ln1 = nn.LayerNorm(d_model)
+        self.ln2 = nn.LayerNorm(d_model)
+        # Multi-head time-mixing with RoPE
+        self.att = RWKV7_MultiHeadTimeMix(d_model, n_heads)
+        # Enhanced channel-mixing
+        self.ffn = RWKV7_ChannelMix(d_model, hidden_ratio=3.5)  # Larger FFN
+    def forward(self, x, state):
+        # Pre-norm (like GPT)
+        att_out, new_state = self.att(self.ln1(x), state)
+        x = x + att_out
+        # FFN with gating
+        ffn_out = self.ffn(self.ln2(x))
+        x = x + ffn_out
+        return x, new_state
+```
+## Multimodal Capabilities
+### Vision Encoder Integration
+**Architecture**:
+```python
+class RWKV7_Multimodal(nn.Module):
+    def __init__(self):
+        super().__init__()
+        # Vision encoder (CLIP-style)
+        self.vision_encoder = VisionTransformer(
+            patch_size=14,
+            d_model=1024,
+            n_layers=24
+        )
+        # Projection to RWKV space
+        self.vision_proj = nn.Linear(1024, d_model)
+        # RWKV language model
+        self.rwkv = RWKV7_LanguageModel(d_model=2560, n_layers=40)
+    def forward(self, image, text, state=None):
+        # Encode image to patches
+        vision_tokens = self.vision_encoder(image)  # (B, 256, 1024)
+        vision_tokens = self.vision_proj(vision_tokens)  # (B, 256, 2560)
+        # Concatenate vision and text tokens
+        combined = torch.cat([vision_tokens, text], dim=1)
+        # Process with RWKV
+        out, state = self.rwkv(combined, state)
+        return out, state
+```
+### Vision-Language Tasks
+**Image Captioning**:
+```python
+model = RWKV7_Multimodal()
+# Encode image
+image = load_image('cat.jpg')
+vision_tokens = model.vision_encoder(image)
+# Generate caption
+state = None
+_, state = model.rwkv(vision_tokens, state)  # Process image
+# Autoregressive caption generation
+caption = []
+for _ in range(max_length):
+    logits, state = model.rwkv(prev_token, state)
+    next_token = sample(logits)
+    caption.append(next_token)
+```
+**VQA (Visual Question Answering)**:
+```python
+# Question: "What color is the cat?"
+question_tokens = tokenizer.encode("What color is the cat?")
+# Process image + question
+combined = torch.cat([vision_tokens, question_tokens], dim=1)
+answer_logits, state = model.rwkv(combined, state)
+# Answer: "orange"
+```
+### Training Multimodal RWKV-7
+```python
+# Pretrain vision encoder (CLIP-style)
+train_vision_encoder(image_text_pairs)
+# Freeze vision encoder
+model.vision_encoder.requires_grad_(False)
+# Train projection + RWKV
+for batch in multimodal_dataloader:
+    images, captions = batch
+    # Forward
+    vision_tokens = model.vision_encoder(images)
+    vision_tokens = model.vision_proj(vision_tokens)
+    logits, _ = model.rwkv(
+        torch.cat([vision_tokens, captions[:, :-1]], dim=1),
+        state=None
+    )
+    # Loss (next token prediction)
+    loss = F.cross_entropy(
+        logits[:, vision_tokens.shape[1]:].reshape(-1, vocab_size),
+        captions.reshape(-1)
+    )
+    loss.backward()
+    optimizer.step()
+```
+## Scaling to 14B Parameters
+### Model Configuration
+| Model | Layers | d_model | n_heads | Params | Context | VRAM (FP16) |
+|-------|--------|---------|---------|--------|---------|-------------|
+| RWKV-7-1.5B | 24 | 2048 | 16 | 1.5B | Infinite | 3 GB |
+| RWKV-7-3B | 32 | 2560 | 20 | 3B | Infinite | 6 GB |
+| RWKV-7-7B | 32 | 4096 | 32 | 7B | Infinite | 14 GB |
+| RWKV-7-14B | 40 | 5120 | 40 | 14B | Infinite | 28 GB |
+### Training Efficiency Improvements
+**RWKV-6 Training (7B)**:
+- Speed: 45K tokens/sec (8× A100)
+- Memory: 38 GB per GPU (4K sequence)
+- Stability: Occasional loss spikes
+**RWKV-7 Training (14B)**:
+- Speed: 52K tokens/sec (8× A100) - **15% faster**
+- Memory: 42 GB per GPU (4K sequence) - **Better utilization**
+- Stability: No loss spikes - **Improved stability**
+**Key optimization**: Fused CUDA kernels for multi-head WKV
+### RWKV-7 vs GPT-3 (14B)
+| Metric | RWKV-7-14B | GPT-3-13B | Advantage |
+|--------|------------|-----------|-----------|
+| Training Speed | 52K tok/s | 28K tok/s | 1.9× |
+| Inference (2K ctx) | 6,100 tok/s | 1,800 tok/s | 3.4× |
+| Inference (8K ctx) | 5,800 tok/s | 450 tok/s | **12.9×** |
+| Memory (inference) | 28 GB | 52 GB | 1.9× |
+| Perplexity (Pile) | 6.8 | 7.2 | +6% |
+## Production Use Cases
+### Microsoft Integration
+**Windows Copilot** (Limited Release):
+- Uses RWKV-7-3B for on-device inference
+- 5-8× faster than GPT-2 with better quality
+- Constant memory for infinite context
+**Office 365** (Experimental):
+- Document summarization with RWKV-7-7B
+- Handles 100K+ token documents efficiently
+- No KV cache storage needed
+### NVIDIA NeMo Support
+**NeMo Guardrails with RWKV-7**:
+```python
+from nemoguardrails import RailsConfig
+from nemoguardrails.llm.providers import register_llm_provider
+# Register RWKV-7 as LLM backend
+register_llm_provider("rwkv7", RWKV7Provider)
+config = RailsConfig.from_path("config/")
+rails = LLMRails(config, llm_provider="rwkv7")
+# Use for content moderation
+response = rails.generate(user_input="...")
+```
+## Benchmarks (RWKV-7 vs RWKV-6)
+### Language Modeling
+| Dataset | RWKV-6-7B | RWKV-7-7B | Improvement |
+|---------|-----------|-----------|-------------|
+| Pile (val) | 7.8 | 7.1 | +9% |
+| C4 | 9.3 | 8.6 | +8% |
+| WikiText-103 | 8.4 | 7.7 | +8% |
+| Lambada | 11.2 | 9.8 | +13% |
+### Long-Context Tasks (32K context)
+| Task | RWKV-6-7B | RWKV-7-7B | Improvement |
+|------|-----------|-----------|-------------|
+| QuALITY | 52.3 | 61.8 | +18% |
+| Qasper | 38.1 | 46.7 | +23% |
+| NarrativeQA | 41.2 | 49.5 | +20% |
+**RWKV-7's improved time-decay** significantly helps long-context understanding
+### Multimodal Benchmarks
+| Task | RWKV-7-7B | LLaVA-7B | BLIP-2-7B |
+|------|-----------|----------|-----------|
+| VQAv2 | 74.2 | 78.5 | 82.1 |
+| GQA | 58.3 | 62.1 | 65.4 |
+| TextVQA | 51.2 | 58.2 | 60.8 |
+| COCO Caption | 118.3 | 125.7 | 132.4 |
+**Note**: RWKV-7 competitive but not SOTA on vision (vision-focused models still better)
+## Migration from RWKV-6 to RWKV-7
+### Model Conversion
+```python
+# Load RWKV-6 checkpoint
+rwkv6_state = torch.load('rwkv6-7b.pth')
+# Initialize RWKV-7 model
+rwkv7_model = RWKV7_Model(d_model=4096, n_layers=32, n_heads=32)
+# Convert weights (mostly compatible)
+for key in rwkv6_state:
+    if 'time_mixing' in key:
+        # RWKV-7 uses multi-head, need to split
+        rwkv7_key = convert_key_to_multihead(key)
+        rwkv7_model.state_dict()[rwkv7_key].copy_(rwkv6_state[key])
+    else:
+        # Direct copy
+        rwkv7_model.state_dict()[key].copy_(rwkv6_state[key])
+# Fine-tune on small dataset to adapt
+finetune(rwkv7_model, small_dataset, epochs=1)
+```
+### State Compatibility
+**RWKV-6 State**:
+```python
+state_v6 = (att_aa, att_ab, att_x_prev, ffn_x_prev)  # 4 components
+```
+**RWKV-7 State** (Multi-head):
+```python
+state_v7 = (
+    att_aa_heads,  # (n_heads, d_model//n_heads)
+    att_ab_heads,  # (n_heads, d_model//n_heads)
+    att_x_prev,
+    ffn_x_prev
+)  # 4 components, but att_* are multi-head
+```
+**Conversion**:
+```python
+# Split RWKV-6 state into RWKV-7 multi-head state
+def convert_state_v6_to_v7(state_v6, n_heads):
+    att_aa, att_ab, att_x_prev, ffn_x_prev = state_v6
+    d_head = att_aa.shape[-1] // n_heads
+    att_aa_heads = att_aa.view(-1, n_heads, d_head).transpose(0, 1)
+    att_ab_heads = att_ab.view(-1, n_heads, d_head).transpose(0, 1)
+    return (att_aa_heads, att_ab_heads, att_x_prev, ffn_x_prev)
+```
+## Resources
+- **Paper**: https://arxiv.org/abs/2503.14456 (RWKV-7, March 2025)
+- **GitHub**: https://github.com/BlinkDL/RWKV-LM (v7 branch)
+- **Models**: https://huggingface.co/BlinkDL/rwkv-7-world
+- **Multimodal Demo**: https://huggingface.co/spaces/BlinkDL/RWKV-7-Multimodal
+- **Discord**: https://discord.gg/bDSBUMeFpc
+- **Wiki**: https://wiki.rwkv.com/rwkv7