@synsci/cli-darwin-x64 1.1.49

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (373) hide show
  1. package/bin/skills/accelerate/SKILL.md +332 -0
  2. package/bin/skills/accelerate/references/custom-plugins.md +453 -0
  3. package/bin/skills/accelerate/references/megatron-integration.md +489 -0
  4. package/bin/skills/accelerate/references/performance.md +525 -0
  5. package/bin/skills/audiocraft/SKILL.md +564 -0
  6. package/bin/skills/audiocraft/references/advanced-usage.md +666 -0
  7. package/bin/skills/audiocraft/references/troubleshooting.md +504 -0
  8. package/bin/skills/autogpt/SKILL.md +403 -0
  9. package/bin/skills/autogpt/references/advanced-usage.md +535 -0
  10. package/bin/skills/autogpt/references/troubleshooting.md +420 -0
  11. package/bin/skills/awq/SKILL.md +310 -0
  12. package/bin/skills/awq/references/advanced-usage.md +324 -0
  13. package/bin/skills/awq/references/troubleshooting.md +344 -0
  14. package/bin/skills/axolotl/SKILL.md +158 -0
  15. package/bin/skills/axolotl/references/api.md +5548 -0
  16. package/bin/skills/axolotl/references/dataset-formats.md +1029 -0
  17. package/bin/skills/axolotl/references/index.md +15 -0
  18. package/bin/skills/axolotl/references/other.md +3563 -0
  19. package/bin/skills/bigcode-evaluation-harness/SKILL.md +405 -0
  20. package/bin/skills/bigcode-evaluation-harness/references/benchmarks.md +393 -0
  21. package/bin/skills/bigcode-evaluation-harness/references/custom-tasks.md +424 -0
  22. package/bin/skills/bigcode-evaluation-harness/references/issues.md +394 -0
  23. package/bin/skills/bitsandbytes/SKILL.md +411 -0
  24. package/bin/skills/bitsandbytes/references/memory-optimization.md +521 -0
  25. package/bin/skills/bitsandbytes/references/qlora-training.md +521 -0
  26. package/bin/skills/bitsandbytes/references/quantization-formats.md +447 -0
  27. package/bin/skills/blip-2/SKILL.md +564 -0
  28. package/bin/skills/blip-2/references/advanced-usage.md +680 -0
  29. package/bin/skills/blip-2/references/troubleshooting.md +526 -0
  30. package/bin/skills/chroma/SKILL.md +406 -0
  31. package/bin/skills/chroma/references/integration.md +38 -0
  32. package/bin/skills/clip/SKILL.md +253 -0
  33. package/bin/skills/clip/references/applications.md +207 -0
  34. package/bin/skills/constitutional-ai/SKILL.md +290 -0
  35. package/bin/skills/crewai/SKILL.md +498 -0
  36. package/bin/skills/crewai/references/flows.md +438 -0
  37. package/bin/skills/crewai/references/tools.md +429 -0
  38. package/bin/skills/crewai/references/troubleshooting.md +480 -0
  39. package/bin/skills/deepspeed/SKILL.md +141 -0
  40. package/bin/skills/deepspeed/references/08.md +17 -0
  41. package/bin/skills/deepspeed/references/09.md +173 -0
  42. package/bin/skills/deepspeed/references/2020.md +378 -0
  43. package/bin/skills/deepspeed/references/2023.md +279 -0
  44. package/bin/skills/deepspeed/references/assets.md +179 -0
  45. package/bin/skills/deepspeed/references/index.md +35 -0
  46. package/bin/skills/deepspeed/references/mii.md +118 -0
  47. package/bin/skills/deepspeed/references/other.md +1191 -0
  48. package/bin/skills/deepspeed/references/tutorials.md +6554 -0
  49. package/bin/skills/dspy/SKILL.md +590 -0
  50. package/bin/skills/dspy/references/examples.md +663 -0
  51. package/bin/skills/dspy/references/modules.md +475 -0
  52. package/bin/skills/dspy/references/optimizers.md +566 -0
  53. package/bin/skills/faiss/SKILL.md +221 -0
  54. package/bin/skills/faiss/references/index_types.md +280 -0
  55. package/bin/skills/flash-attention/SKILL.md +367 -0
  56. package/bin/skills/flash-attention/references/benchmarks.md +215 -0
  57. package/bin/skills/flash-attention/references/transformers-integration.md +293 -0
  58. package/bin/skills/gguf/SKILL.md +427 -0
  59. package/bin/skills/gguf/references/advanced-usage.md +504 -0
  60. package/bin/skills/gguf/references/troubleshooting.md +442 -0
  61. package/bin/skills/gptq/SKILL.md +450 -0
  62. package/bin/skills/gptq/references/calibration.md +337 -0
  63. package/bin/skills/gptq/references/integration.md +129 -0
  64. package/bin/skills/gptq/references/troubleshooting.md +95 -0
  65. package/bin/skills/grpo-rl-training/README.md +97 -0
  66. package/bin/skills/grpo-rl-training/SKILL.md +572 -0
  67. package/bin/skills/grpo-rl-training/examples/reward_functions_library.py +393 -0
  68. package/bin/skills/grpo-rl-training/templates/basic_grpo_training.py +228 -0
  69. package/bin/skills/guidance/SKILL.md +572 -0
  70. package/bin/skills/guidance/references/backends.md +554 -0
  71. package/bin/skills/guidance/references/constraints.md +674 -0
  72. package/bin/skills/guidance/references/examples.md +767 -0
  73. package/bin/skills/hqq/SKILL.md +445 -0
  74. package/bin/skills/hqq/references/advanced-usage.md +528 -0
  75. package/bin/skills/hqq/references/troubleshooting.md +503 -0
  76. package/bin/skills/hugging-face-cli/SKILL.md +191 -0
  77. package/bin/skills/hugging-face-cli/references/commands.md +954 -0
  78. package/bin/skills/hugging-face-cli/references/examples.md +374 -0
  79. package/bin/skills/hugging-face-datasets/SKILL.md +547 -0
  80. package/bin/skills/hugging-face-datasets/examples/diverse_training_examples.json +239 -0
  81. package/bin/skills/hugging-face-datasets/examples/system_prompt_template.txt +196 -0
  82. package/bin/skills/hugging-face-datasets/examples/training_examples.json +176 -0
  83. package/bin/skills/hugging-face-datasets/scripts/dataset_manager.py +522 -0
  84. package/bin/skills/hugging-face-datasets/scripts/sql_manager.py +844 -0
  85. package/bin/skills/hugging-face-datasets/templates/chat.json +55 -0
  86. package/bin/skills/hugging-face-datasets/templates/classification.json +62 -0
  87. package/bin/skills/hugging-face-datasets/templates/completion.json +51 -0
  88. package/bin/skills/hugging-face-datasets/templates/custom.json +75 -0
  89. package/bin/skills/hugging-face-datasets/templates/qa.json +54 -0
  90. package/bin/skills/hugging-face-datasets/templates/tabular.json +81 -0
  91. package/bin/skills/hugging-face-evaluation/SKILL.md +656 -0
  92. package/bin/skills/hugging-face-evaluation/examples/USAGE_EXAMPLES.md +382 -0
  93. package/bin/skills/hugging-face-evaluation/examples/artificial_analysis_to_hub.py +141 -0
  94. package/bin/skills/hugging-face-evaluation/examples/example_readme_tables.md +135 -0
  95. package/bin/skills/hugging-face-evaluation/examples/metric_mapping.json +50 -0
  96. package/bin/skills/hugging-face-evaluation/requirements.txt +20 -0
  97. package/bin/skills/hugging-face-evaluation/scripts/evaluation_manager.py +1374 -0
  98. package/bin/skills/hugging-face-evaluation/scripts/inspect_eval_uv.py +104 -0
  99. package/bin/skills/hugging-face-evaluation/scripts/inspect_vllm_uv.py +317 -0
  100. package/bin/skills/hugging-face-evaluation/scripts/lighteval_vllm_uv.py +303 -0
  101. package/bin/skills/hugging-face-evaluation/scripts/run_eval_job.py +98 -0
  102. package/bin/skills/hugging-face-evaluation/scripts/run_vllm_eval_job.py +331 -0
  103. package/bin/skills/hugging-face-evaluation/scripts/test_extraction.py +206 -0
  104. package/bin/skills/hugging-face-jobs/SKILL.md +1041 -0
  105. package/bin/skills/hugging-face-jobs/index.html +216 -0
  106. package/bin/skills/hugging-face-jobs/references/hardware_guide.md +336 -0
  107. package/bin/skills/hugging-face-jobs/references/hub_saving.md +352 -0
  108. package/bin/skills/hugging-face-jobs/references/token_usage.md +546 -0
  109. package/bin/skills/hugging-face-jobs/references/troubleshooting.md +475 -0
  110. package/bin/skills/hugging-face-jobs/scripts/cot-self-instruct.py +718 -0
  111. package/bin/skills/hugging-face-jobs/scripts/finepdfs-stats.py +546 -0
  112. package/bin/skills/hugging-face-jobs/scripts/generate-responses.py +587 -0
  113. package/bin/skills/hugging-face-model-trainer/SKILL.md +711 -0
  114. package/bin/skills/hugging-face-model-trainer/references/gguf_conversion.md +296 -0
  115. package/bin/skills/hugging-face-model-trainer/references/hardware_guide.md +283 -0
  116. package/bin/skills/hugging-face-model-trainer/references/hub_saving.md +364 -0
  117. package/bin/skills/hugging-face-model-trainer/references/reliability_principles.md +371 -0
  118. package/bin/skills/hugging-face-model-trainer/references/trackio_guide.md +189 -0
  119. package/bin/skills/hugging-face-model-trainer/references/training_methods.md +150 -0
  120. package/bin/skills/hugging-face-model-trainer/references/training_patterns.md +203 -0
  121. package/bin/skills/hugging-face-model-trainer/references/troubleshooting.md +282 -0
  122. package/bin/skills/hugging-face-model-trainer/scripts/convert_to_gguf.py +424 -0
  123. package/bin/skills/hugging-face-model-trainer/scripts/dataset_inspector.py +417 -0
  124. package/bin/skills/hugging-face-model-trainer/scripts/estimate_cost.py +150 -0
  125. package/bin/skills/hugging-face-model-trainer/scripts/train_dpo_example.py +106 -0
  126. package/bin/skills/hugging-face-model-trainer/scripts/train_grpo_example.py +89 -0
  127. package/bin/skills/hugging-face-model-trainer/scripts/train_sft_example.py +122 -0
  128. package/bin/skills/hugging-face-paper-publisher/SKILL.md +627 -0
  129. package/bin/skills/hugging-face-paper-publisher/examples/example_usage.md +327 -0
  130. package/bin/skills/hugging-face-paper-publisher/references/quick_reference.md +216 -0
  131. package/bin/skills/hugging-face-paper-publisher/scripts/paper_manager.py +508 -0
  132. package/bin/skills/hugging-face-paper-publisher/templates/arxiv.md +299 -0
  133. package/bin/skills/hugging-face-paper-publisher/templates/ml-report.md +358 -0
  134. package/bin/skills/hugging-face-paper-publisher/templates/modern.md +319 -0
  135. package/bin/skills/hugging-face-paper-publisher/templates/standard.md +201 -0
  136. package/bin/skills/hugging-face-tool-builder/SKILL.md +115 -0
  137. package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.py +57 -0
  138. package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.sh +40 -0
  139. package/bin/skills/hugging-face-tool-builder/references/baseline_hf_api.tsx +57 -0
  140. package/bin/skills/hugging-face-tool-builder/references/find_models_by_paper.sh +230 -0
  141. package/bin/skills/hugging-face-tool-builder/references/hf_enrich_models.sh +96 -0
  142. package/bin/skills/hugging-face-tool-builder/references/hf_model_card_frontmatter.sh +188 -0
  143. package/bin/skills/hugging-face-tool-builder/references/hf_model_papers_auth.sh +171 -0
  144. package/bin/skills/hugging-face-trackio/SKILL.md +65 -0
  145. package/bin/skills/hugging-face-trackio/references/logging_metrics.md +206 -0
  146. package/bin/skills/hugging-face-trackio/references/retrieving_metrics.md +223 -0
  147. package/bin/skills/huggingface-tokenizers/SKILL.md +516 -0
  148. package/bin/skills/huggingface-tokenizers/references/algorithms.md +653 -0
  149. package/bin/skills/huggingface-tokenizers/references/integration.md +637 -0
  150. package/bin/skills/huggingface-tokenizers/references/pipeline.md +723 -0
  151. package/bin/skills/huggingface-tokenizers/references/training.md +565 -0
  152. package/bin/skills/instructor/SKILL.md +740 -0
  153. package/bin/skills/instructor/references/examples.md +107 -0
  154. package/bin/skills/instructor/references/providers.md +70 -0
  155. package/bin/skills/instructor/references/validation.md +606 -0
  156. package/bin/skills/knowledge-distillation/SKILL.md +458 -0
  157. package/bin/skills/knowledge-distillation/references/minillm.md +334 -0
  158. package/bin/skills/lambda-labs/SKILL.md +545 -0
  159. package/bin/skills/lambda-labs/references/advanced-usage.md +611 -0
  160. package/bin/skills/lambda-labs/references/troubleshooting.md +530 -0
  161. package/bin/skills/langchain/SKILL.md +480 -0
  162. package/bin/skills/langchain/references/agents.md +499 -0
  163. package/bin/skills/langchain/references/integration.md +562 -0
  164. package/bin/skills/langchain/references/rag.md +600 -0
  165. package/bin/skills/langsmith/SKILL.md +422 -0
  166. package/bin/skills/langsmith/references/advanced-usage.md +548 -0
  167. package/bin/skills/langsmith/references/troubleshooting.md +537 -0
  168. package/bin/skills/litgpt/SKILL.md +469 -0
  169. package/bin/skills/litgpt/references/custom-models.md +568 -0
  170. package/bin/skills/litgpt/references/distributed-training.md +451 -0
  171. package/bin/skills/litgpt/references/supported-models.md +336 -0
  172. package/bin/skills/litgpt/references/training-recipes.md +619 -0
  173. package/bin/skills/llama-cpp/SKILL.md +258 -0
  174. package/bin/skills/llama-cpp/references/optimization.md +89 -0
  175. package/bin/skills/llama-cpp/references/quantization.md +213 -0
  176. package/bin/skills/llama-cpp/references/server.md +125 -0
  177. package/bin/skills/llama-factory/SKILL.md +80 -0
  178. package/bin/skills/llama-factory/references/_images.md +23 -0
  179. package/bin/skills/llama-factory/references/advanced.md +1055 -0
  180. package/bin/skills/llama-factory/references/getting_started.md +349 -0
  181. package/bin/skills/llama-factory/references/index.md +19 -0
  182. package/bin/skills/llama-factory/references/other.md +31 -0
  183. package/bin/skills/llamaguard/SKILL.md +337 -0
  184. package/bin/skills/llamaindex/SKILL.md +569 -0
  185. package/bin/skills/llamaindex/references/agents.md +83 -0
  186. package/bin/skills/llamaindex/references/data_connectors.md +108 -0
  187. package/bin/skills/llamaindex/references/query_engines.md +406 -0
  188. package/bin/skills/llava/SKILL.md +304 -0
  189. package/bin/skills/llava/references/training.md +197 -0
  190. package/bin/skills/lm-evaluation-harness/SKILL.md +490 -0
  191. package/bin/skills/lm-evaluation-harness/references/api-evaluation.md +490 -0
  192. package/bin/skills/lm-evaluation-harness/references/benchmark-guide.md +488 -0
  193. package/bin/skills/lm-evaluation-harness/references/custom-tasks.md +602 -0
  194. package/bin/skills/lm-evaluation-harness/references/distributed-eval.md +519 -0
  195. package/bin/skills/long-context/SKILL.md +536 -0
  196. package/bin/skills/long-context/references/extension_methods.md +468 -0
  197. package/bin/skills/long-context/references/fine_tuning.md +611 -0
  198. package/bin/skills/long-context/references/rope.md +402 -0
  199. package/bin/skills/mamba/SKILL.md +260 -0
  200. package/bin/skills/mamba/references/architecture-details.md +206 -0
  201. package/bin/skills/mamba/references/benchmarks.md +255 -0
  202. package/bin/skills/mamba/references/training-guide.md +388 -0
  203. package/bin/skills/megatron-core/SKILL.md +366 -0
  204. package/bin/skills/megatron-core/references/benchmarks.md +249 -0
  205. package/bin/skills/megatron-core/references/parallelism-guide.md +404 -0
  206. package/bin/skills/megatron-core/references/production-examples.md +473 -0
  207. package/bin/skills/megatron-core/references/training-recipes.md +547 -0
  208. package/bin/skills/miles/SKILL.md +315 -0
  209. package/bin/skills/miles/references/api-reference.md +141 -0
  210. package/bin/skills/miles/references/troubleshooting.md +352 -0
  211. package/bin/skills/mlflow/SKILL.md +704 -0
  212. package/bin/skills/mlflow/references/deployment.md +744 -0
  213. package/bin/skills/mlflow/references/model-registry.md +770 -0
  214. package/bin/skills/mlflow/references/tracking.md +680 -0
  215. package/bin/skills/modal/SKILL.md +341 -0
  216. package/bin/skills/modal/references/advanced-usage.md +503 -0
  217. package/bin/skills/modal/references/troubleshooting.md +494 -0
  218. package/bin/skills/model-merging/SKILL.md +539 -0
  219. package/bin/skills/model-merging/references/evaluation.md +462 -0
  220. package/bin/skills/model-merging/references/examples.md +428 -0
  221. package/bin/skills/model-merging/references/methods.md +352 -0
  222. package/bin/skills/model-pruning/SKILL.md +495 -0
  223. package/bin/skills/model-pruning/references/wanda.md +347 -0
  224. package/bin/skills/moe-training/SKILL.md +526 -0
  225. package/bin/skills/moe-training/references/architectures.md +432 -0
  226. package/bin/skills/moe-training/references/inference.md +348 -0
  227. package/bin/skills/moe-training/references/training.md +425 -0
  228. package/bin/skills/nanogpt/SKILL.md +290 -0
  229. package/bin/skills/nanogpt/references/architecture.md +382 -0
  230. package/bin/skills/nanogpt/references/data.md +476 -0
  231. package/bin/skills/nanogpt/references/training.md +564 -0
  232. package/bin/skills/nemo-curator/SKILL.md +383 -0
  233. package/bin/skills/nemo-curator/references/deduplication.md +87 -0
  234. package/bin/skills/nemo-curator/references/filtering.md +102 -0
  235. package/bin/skills/nemo-evaluator/SKILL.md +494 -0
  236. package/bin/skills/nemo-evaluator/references/adapter-system.md +340 -0
  237. package/bin/skills/nemo-evaluator/references/configuration.md +447 -0
  238. package/bin/skills/nemo-evaluator/references/custom-benchmarks.md +315 -0
  239. package/bin/skills/nemo-evaluator/references/execution-backends.md +361 -0
  240. package/bin/skills/nemo-guardrails/SKILL.md +297 -0
  241. package/bin/skills/nnsight/SKILL.md +436 -0
  242. package/bin/skills/nnsight/references/README.md +78 -0
  243. package/bin/skills/nnsight/references/api.md +344 -0
  244. package/bin/skills/nnsight/references/tutorials.md +300 -0
  245. package/bin/skills/openrlhf/SKILL.md +249 -0
  246. package/bin/skills/openrlhf/references/algorithm-comparison.md +404 -0
  247. package/bin/skills/openrlhf/references/custom-rewards.md +530 -0
  248. package/bin/skills/openrlhf/references/hybrid-engine.md +287 -0
  249. package/bin/skills/openrlhf/references/multi-node-training.md +454 -0
  250. package/bin/skills/outlines/SKILL.md +652 -0
  251. package/bin/skills/outlines/references/backends.md +615 -0
  252. package/bin/skills/outlines/references/examples.md +773 -0
  253. package/bin/skills/outlines/references/json_generation.md +652 -0
  254. package/bin/skills/peft/SKILL.md +431 -0
  255. package/bin/skills/peft/references/advanced-usage.md +514 -0
  256. package/bin/skills/peft/references/troubleshooting.md +480 -0
  257. package/bin/skills/phoenix/SKILL.md +475 -0
  258. package/bin/skills/phoenix/references/advanced-usage.md +619 -0
  259. package/bin/skills/phoenix/references/troubleshooting.md +538 -0
  260. package/bin/skills/pinecone/SKILL.md +358 -0
  261. package/bin/skills/pinecone/references/deployment.md +181 -0
  262. package/bin/skills/pytorch-fsdp/SKILL.md +126 -0
  263. package/bin/skills/pytorch-fsdp/references/index.md +7 -0
  264. package/bin/skills/pytorch-fsdp/references/other.md +4249 -0
  265. package/bin/skills/pytorch-lightning/SKILL.md +346 -0
  266. package/bin/skills/pytorch-lightning/references/callbacks.md +436 -0
  267. package/bin/skills/pytorch-lightning/references/distributed.md +490 -0
  268. package/bin/skills/pytorch-lightning/references/hyperparameter-tuning.md +556 -0
  269. package/bin/skills/pyvene/SKILL.md +473 -0
  270. package/bin/skills/pyvene/references/README.md +73 -0
  271. package/bin/skills/pyvene/references/api.md +383 -0
  272. package/bin/skills/pyvene/references/tutorials.md +376 -0
  273. package/bin/skills/qdrant/SKILL.md +493 -0
  274. package/bin/skills/qdrant/references/advanced-usage.md +648 -0
  275. package/bin/skills/qdrant/references/troubleshooting.md +631 -0
  276. package/bin/skills/ray-data/SKILL.md +326 -0
  277. package/bin/skills/ray-data/references/integration.md +82 -0
  278. package/bin/skills/ray-data/references/transformations.md +83 -0
  279. package/bin/skills/ray-train/SKILL.md +406 -0
  280. package/bin/skills/ray-train/references/multi-node.md +628 -0
  281. package/bin/skills/rwkv/SKILL.md +260 -0
  282. package/bin/skills/rwkv/references/architecture-details.md +344 -0
  283. package/bin/skills/rwkv/references/rwkv7.md +386 -0
  284. package/bin/skills/rwkv/references/state-management.md +369 -0
  285. package/bin/skills/saelens/SKILL.md +386 -0
  286. package/bin/skills/saelens/references/README.md +70 -0
  287. package/bin/skills/saelens/references/api.md +333 -0
  288. package/bin/skills/saelens/references/tutorials.md +318 -0
  289. package/bin/skills/segment-anything/SKILL.md +500 -0
  290. package/bin/skills/segment-anything/references/advanced-usage.md +589 -0
  291. package/bin/skills/segment-anything/references/troubleshooting.md +484 -0
  292. package/bin/skills/sentence-transformers/SKILL.md +255 -0
  293. package/bin/skills/sentence-transformers/references/models.md +123 -0
  294. package/bin/skills/sentencepiece/SKILL.md +235 -0
  295. package/bin/skills/sentencepiece/references/algorithms.md +200 -0
  296. package/bin/skills/sentencepiece/references/training.md +304 -0
  297. package/bin/skills/sglang/SKILL.md +442 -0
  298. package/bin/skills/sglang/references/deployment.md +490 -0
  299. package/bin/skills/sglang/references/radix-attention.md +413 -0
  300. package/bin/skills/sglang/references/structured-generation.md +541 -0
  301. package/bin/skills/simpo/SKILL.md +219 -0
  302. package/bin/skills/simpo/references/datasets.md +478 -0
  303. package/bin/skills/simpo/references/hyperparameters.md +452 -0
  304. package/bin/skills/simpo/references/loss-functions.md +350 -0
  305. package/bin/skills/skypilot/SKILL.md +509 -0
  306. package/bin/skills/skypilot/references/advanced-usage.md +491 -0
  307. package/bin/skills/skypilot/references/troubleshooting.md +570 -0
  308. package/bin/skills/slime/SKILL.md +464 -0
  309. package/bin/skills/slime/references/api-reference.md +392 -0
  310. package/bin/skills/slime/references/troubleshooting.md +386 -0
  311. package/bin/skills/speculative-decoding/SKILL.md +467 -0
  312. package/bin/skills/speculative-decoding/references/lookahead.md +309 -0
  313. package/bin/skills/speculative-decoding/references/medusa.md +350 -0
  314. package/bin/skills/stable-diffusion/SKILL.md +519 -0
  315. package/bin/skills/stable-diffusion/references/advanced-usage.md +716 -0
  316. package/bin/skills/stable-diffusion/references/troubleshooting.md +555 -0
  317. package/bin/skills/tensorboard/SKILL.md +629 -0
  318. package/bin/skills/tensorboard/references/integrations.md +638 -0
  319. package/bin/skills/tensorboard/references/profiling.md +545 -0
  320. package/bin/skills/tensorboard/references/visualization.md +620 -0
  321. package/bin/skills/tensorrt-llm/SKILL.md +187 -0
  322. package/bin/skills/tensorrt-llm/references/multi-gpu.md +298 -0
  323. package/bin/skills/tensorrt-llm/references/optimization.md +242 -0
  324. package/bin/skills/tensorrt-llm/references/serving.md +470 -0
  325. package/bin/skills/tinker/SKILL.md +362 -0
  326. package/bin/skills/tinker/references/api-reference.md +168 -0
  327. package/bin/skills/tinker/references/getting-started.md +157 -0
  328. package/bin/skills/tinker/references/loss-functions.md +163 -0
  329. package/bin/skills/tinker/references/models-and-lora.md +139 -0
  330. package/bin/skills/tinker/references/recipes.md +280 -0
  331. package/bin/skills/tinker/references/reinforcement-learning.md +212 -0
  332. package/bin/skills/tinker/references/rendering.md +243 -0
  333. package/bin/skills/tinker/references/supervised-learning.md +232 -0
  334. package/bin/skills/tinker-training-cost/SKILL.md +187 -0
  335. package/bin/skills/tinker-training-cost/scripts/calculate_cost.py +123 -0
  336. package/bin/skills/torchforge/SKILL.md +433 -0
  337. package/bin/skills/torchforge/references/api-reference.md +327 -0
  338. package/bin/skills/torchforge/references/troubleshooting.md +409 -0
  339. package/bin/skills/torchtitan/SKILL.md +358 -0
  340. package/bin/skills/torchtitan/references/checkpoint.md +181 -0
  341. package/bin/skills/torchtitan/references/custom-models.md +258 -0
  342. package/bin/skills/torchtitan/references/float8.md +133 -0
  343. package/bin/skills/torchtitan/references/fsdp.md +126 -0
  344. package/bin/skills/transformer-lens/SKILL.md +346 -0
  345. package/bin/skills/transformer-lens/references/README.md +54 -0
  346. package/bin/skills/transformer-lens/references/api.md +362 -0
  347. package/bin/skills/transformer-lens/references/tutorials.md +339 -0
  348. package/bin/skills/trl-fine-tuning/SKILL.md +455 -0
  349. package/bin/skills/trl-fine-tuning/references/dpo-variants.md +227 -0
  350. package/bin/skills/trl-fine-tuning/references/online-rl.md +82 -0
  351. package/bin/skills/trl-fine-tuning/references/reward-modeling.md +122 -0
  352. package/bin/skills/trl-fine-tuning/references/sft-training.md +168 -0
  353. package/bin/skills/unsloth/SKILL.md +80 -0
  354. package/bin/skills/unsloth/references/index.md +7 -0
  355. package/bin/skills/unsloth/references/llms-full.md +16799 -0
  356. package/bin/skills/unsloth/references/llms-txt.md +12044 -0
  357. package/bin/skills/unsloth/references/llms.md +82 -0
  358. package/bin/skills/verl/SKILL.md +391 -0
  359. package/bin/skills/verl/references/api-reference.md +301 -0
  360. package/bin/skills/verl/references/troubleshooting.md +391 -0
  361. package/bin/skills/vllm/SKILL.md +364 -0
  362. package/bin/skills/vllm/references/optimization.md +226 -0
  363. package/bin/skills/vllm/references/quantization.md +284 -0
  364. package/bin/skills/vllm/references/server-deployment.md +255 -0
  365. package/bin/skills/vllm/references/troubleshooting.md +447 -0
  366. package/bin/skills/weights-and-biases/SKILL.md +590 -0
  367. package/bin/skills/weights-and-biases/references/artifacts.md +584 -0
  368. package/bin/skills/weights-and-biases/references/integrations.md +700 -0
  369. package/bin/skills/weights-and-biases/references/sweeps.md +847 -0
  370. package/bin/skills/whisper/SKILL.md +317 -0
  371. package/bin/skills/whisper/references/languages.md +189 -0
  372. package/bin/synsc +0 -0
  373. package/package.json +10 -0
@@ -0,0 +1,1055 @@
1
+ # Llama-Factory - Advanced
2
+
3
+ **Pages:** 14
4
+
5
+ ---
6
+
7
+ ## GPT-OSS¶
8
+
9
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/best_practice/gpt-oss.html
10
+
11
+ **Contents:**
12
+ - GPT-OSS¶
13
+ - 3 Steps to LoRA Fine-tuning for GPT-OSS¶
14
+ - 1. Install LLaMA-Factory and transformers¶
15
+ - 2. Train GPT-OSS on a single GPU (requires VRAM > 44 GB, multi-GPU supported)¶
16
+ - 3. Merge LoRA Weights¶
17
+ - Chat with the Fine-tuned Model¶
18
+ - Full Fine-tuning Script¶
19
+
20
+ Fine-tune the Model via Web UI:
21
+
22
+ ---
23
+
24
+ ## NPU 推理¶
25
+
26
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/npu_inference.html
27
+
28
+ **Contents:**
29
+ - NPU 推理¶
30
+ - 环境安装¶
31
+ - 版本需求¶
32
+ - 硬件环境¶
33
+ - 软件环境¶
34
+ - vLLM-Ascend安装¶
35
+ - LLaMA-Factory安装¶
36
+ - 推理测试¶
37
+ - 可视化界面¶
38
+ - 性能对比¶
39
+
40
+ Python:>= 3.10, < 3.12
41
+
42
+ CANN >= 8.1.RC1,包括 toolkit、kernels、nnal。
43
+
44
+ 使用下述命令安装 vLLM-Ascend 。
45
+
46
+ 使用下述命令安装 LLaMA-Factory 。
47
+
48
+ 使用下述命令启动LLaMA-Factory的可视化界面。
49
+
50
+ 选择模型并切换到chat模式并将推理引擎修改为vLLM,然后点击加载模型。
51
+
52
+ 在推理性能上。vLLM框架比huggingface的推理速度提升了超过一倍。
53
+
54
+ ---
55
+
56
+ ## Trainers¶
57
+
58
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/trainers.html
59
+
60
+ **Contents:**
61
+ - Trainers¶
62
+ - Pre-training¶
63
+ - Post-training¶
64
+ - Supervised Fine-Tuning¶
65
+ - RLHF¶
66
+ - Reward model¶
67
+ - PPO¶
68
+ - DPO¶
69
+ - KTO¶
70
+
71
+ 大语言模型通过在一个大型的通用数据集上通过无监督学习的方式进行预训练来学习语言的表征/初始化模型权重/学习概率分布。 我们期望在预训练后模型能够处理大量、多种类的数据集,进而可以通过监督学习的方式来微调模型使其适应特定的任务。
72
+
73
+ 预训练时,请将 stage 设置为 pt ,并确保使用的数据集符合 预训练数据集 格式 。
74
+
75
+ 在预训练结束后,模型的参数得到初始化,模型能够理解语义、语法以及识别上下文关系,在处理一般性任务时有着不错的表现。 尽管模型涌现出的零样本学习,少样本学习的特性使其能在一定程度上完成特定任务, 但仅通过提示(prompt)并不一定能使其表现令人满意。因此,我们需要后训练(post-training)来使得模型在特定任务上也有足够好的表现。
76
+
77
+ Supervised Fine-Tuning(监督微调)是一种在预训练模型上使用小规模有标签数据集进行训练的方法。 相比于预训练一个全新的模型,对已有的预训练模型进行监督微调是更快速更节省成本的途径。
78
+
79
+ 监督微调时,请将 stage 设置为 sft 。 下面提供监督微调的配置示例:
80
+
81
+ 由于在监督微调中语言模型学习的数据来自互联网,所以模型可能无法很好地遵循用户指令,甚至可能输出非法、暴力的内容,因此我们需要将模型行为与用户需求对齐(alignment)。 通过 RLHF(Reinforcement Learning from Human Feedback) 方法,我们可以通过人类反馈来进一步微调模型,使得模型能够更好更安全地遵循用户指令。
82
+
83
+ 但是,获取真实的人类数据是十分耗时且昂贵的。一个自然的想法是我们可以训练一个奖励模型(reward model)来代替人类对语言模型的输出进行评价。 为了训练这个奖励模型,我们需要让奖励模型获知人类偏好,而这通常通过输入经过人类标注的偏好数据集来实现。 在偏好数据集中,数据由三部分组成:输入、好的回答、坏的回答。奖励模型在偏好数据集上训练,从而可以更符合人类偏好地评价语言模型的输出。
84
+
85
+ 在训练奖励模型时,请将 stage 设置为 rm ,确保使用的数据集符合 偏好数据集 格式并且指定奖励模型的保存路径。 以下提供一个示例:
86
+
87
+ 在训练奖励完模型之后,我们可以开始进行模型的强化学习部分。与监督学习不同,在强化学习中我们没有标注好的数据。语言模型接受prompt作为输入,其输出作为奖励模型的输入。奖励模型评价语言模型的输出,并将评价返回给语言模型。确保两个模型都能良好运行是一个具有挑战性的任务。 一种实现方式是使用近端策略优化(PPO,Proximal Policy Optimization)。其主要思想是:我们既希望语言模型的输出能够尽可能地获得奖励模型的高评价,又不希望语言模型的变化过于“激进”。 通过这种方法,我们可以使得模型在学习趋近人类偏好的同时不过多地丢失其原有的解决问题的能力。
88
+
89
+ 在使用 PPO 进行强化学习时,请将 stage 设置为 ppo,并且指定所使用奖励模型的路径。 下面是一个示例:
90
+
91
+ 既然同时保证语言模型与奖励模型的良好运行是有挑战性的,一种想法是我们可以丢弃奖励模型, 进而直接基于人类偏好训练我们的语言模型,这大大简化了训练过程。
92
+
93
+ 在使用 DPO 时,请将 stage 设置为 dpo,确保使用的数据集符合 偏好数据集 格式并且设置偏好优化相关参数。 以下是一个示例:
94
+
95
+ KTO(Kahneman-Taversky Optimization) 的出现是为了解决成对的偏好数据难以获得的问题。 KTO使用了一种新的损失函数使其只需二元的标记数据, 即只需标注回答的好坏即可训练,并取得与 DPO 相似甚至更好的效果。
96
+
97
+ 在使用 KTO 时,请将 stage 设置为 kto ,设置偏好优化相关参数并使用 KTO 数据集。
98
+
99
+ ---
100
+
101
+ ## 模型支持¶
102
+
103
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/model_support.html
104
+
105
+ **Contents:**
106
+ - 模型支持¶
107
+ - 注册 template¶
108
+ - 多模态数据构建¶
109
+ - 提供模型路径¶
110
+
111
+ LLaMA-Factory 允许用户添加自定义模型支持。我们将以 LLaMA-4 多模态模型为例,详细介绍如何为新模型添加支持。对于多模态模型,我们需要完成两个主要任务:
112
+
113
+ 首先,我们可以通过以下方法获取 LLaMA-4 模型的 template
114
+
115
+ 输出如下。通过观察输出我们可以得到模型的 chat_template。除此以外也可以通过 huggingface repo 来获取模型的 template.
116
+
117
+ 通过观察输出,我们可以得知 LLaMA-4 的 chat_template 主要由以下几部分组成:
118
+
119
+ 用户消息: <|header_start|>user<|header_end|>\n\n{{content}}<|eot|>
120
+
121
+ 助手消息: <|header_start|>assistant<|header_end|>\n\n{{content}}<|eot|>
122
+
123
+ 系统消息: <|header_start|>system<|header_end|>\n\n{{content}}<|eot|>
124
+
125
+ 工具消息: <|header_start|>ipython<|header_end|>\n\n"{{content}}"<|eot|>
126
+
127
+ 我们可以在 src/llamafactory/data/template.py 中使用 register_template 方法为自定义模型注册 chat_template。 在实际应用中,我们往往会在用户输入的信息后添加助手回复模板的头部 <|header_start|>assistant<|header_end|> 来引导模型进行回复。 因此我们可以看到,用户消息和工具输出的模板中都附有了助手回复的头部,而助手消息格式 format_assitant 也因此省略了助手回复的头部, 只保留其内容部分 {{content}}<|eot|>
128
+
129
+ 我们可以根据上面的输出完成 name, format_user, format_assistant, format_system 与 format_observation 字段的填写。
130
+
131
+ format_prefix 字段用于指定模型的开头部分,通常可以在 tokenizer_config.json 中找到。
132
+
133
+ stop_words 字段用于指定模型的停止词,可以在 generation_config.json 中找到 eos_token_id,再把 eos_token_id 对应的 token 填入。
134
+
135
+ 对于多模态模型,我们还需要在 mm_plugin 字段中指定多模态插件。
136
+
137
+ 对于多模态模型,我们参照原始模型在 LLaMA-Factory 中实现多模态数据的解析。
138
+
139
+ 我们可以在 src/llamafactory/data/mm_plugin.py 中实现 Llama4Plugin 类来解析多模态数据。
140
+
141
+ Llama4Plugin 类继承自 BasePlugin 类,并实现了 get_mm_inputs 和 process_messages 方法来解析多模态数据。
142
+
143
+ get_mm_inputs 的作用是将图像、视频等多模态数据转化为模型可以接收的输入,如 pixel_values。为实现 get_mm_inputs,首先我们需要检查 llama4 的 processor 是否可以与 已有实现 兼容。 模型官方仓库中的 processing_llama4.py 表明 llama4 的 processor 返回数据包含字段 pixel_values,这与 LLaMA-Factory 中的已有实现兼容。因此,我们只需要参照已有的 get_mm_inputs 方法实现即可。
144
+
145
+ process_messages 的作用是根据输入图片/视频的大小,数量等信息在 messages 中插入相应数量的占位符,以便模型可以正确解析多模态数据。 我们需要参考 原仓库实现 以及 LLaMA-Factory 中的规范返回 list[dict[str, str]] 类型的 messages 。
146
+
147
+ 最后, 在 src/llamafactory/extras/constants.py 中提供模型的下载路径。 例如:
148
+
149
+ **Examples:**
150
+
151
+ Example 1 (python):
152
+ ```python
153
+ ========== Template ==========
154
+ <|begin_of_text|><|header_start|>user<|header_end|>
155
+
156
+ {{content}}<|eot|><|header_start|>assistant<|header_end|>
157
+
158
+ {{content}}<|eot|><|header_start|>system<|header_end|>
159
+
160
+ {{content}}<|eot|><|header_start|>ipython<|header_end|>
161
+
162
+ "{{content}}"<|eot|><|header_start|>assistant<|header_end|>
163
+ ```
164
+
165
+ Example 2 (python):
166
+ ```python
167
+ register_template(
168
+ # 模板名称
169
+ name="llama4",
170
+ # 用户消息格式,结尾附有 generation prompt 的模板
171
+ format_user=StringFormatter(
172
+ slots=["<|header_start|>user<|header_end|>\n\n{{content}}<|eot|><|header_start|>assistant<|header_end|>\n\n"]
173
+ ),
174
+ # 助手消息格式
175
+ format_assistant=StringFormatter(slots=["{{content}}<|eot|>"]),
176
+ # 系统消息格式
177
+ format_system=StringFormatter(slots=["<|header_start|>system<|header_end|>\n\n{{content}}<|eot|>"]),
178
+ # 函数调用格式
179
+ format_function=FunctionFormatter(slots=["{{content}}<|eot|>"], tool_format="llama3"),
180
+ # 工具输出格式,结尾附有 generation prompt 的模板
181
+ format_observation=StringFormatter(
182
+ slots=[
183
+ "<|header_start|>ipython<|header_end|>\n\n{{content}}<|eot|><|header_start|>assistant<|header_end|>\n\n"
184
+ ]
185
+ ),
186
+ # 工具调用格式
187
+ format_tools=ToolFormatter(tool_format="llama3"),
188
+ format_prefix=EmptyFormatter(slots=[{"bos_token"}]),
189
+ stop_words=["<|eot|>", "<|eom|>"],
190
+ mm_plugin=get_mm_plugin(name="llama4", image_token="<|image|>"),
191
+ )
192
+ ```
193
+
194
+ ---
195
+
196
+ ## Quantization¶
197
+
198
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/quantization.html
199
+
200
+ **Contents:**
201
+ - Quantization¶
202
+ - PTQ¶
203
+ - GPTQ¶
204
+ - QAT¶
205
+ - AWQ¶
206
+ - AQLM¶
207
+ - OFTQ¶
208
+ - bitsandbytes¶
209
+ - HQQ¶
210
+ - EETQ¶
211
+
212
+ 随着语言模型规模的不断增大,其训练的难度和成本已成为共识。 而随着用户数量的增加,模型推理的成本也在不断攀升,甚至可能成为限制模型部署的首要因素。 因此,我们需要对模型进行压缩以加速推理过程,而模型量化是其中一种有效的方法。
213
+
214
+ 大语言模型的参数通常以高精度浮点数存储,这导致模型推理需要大量计算资源。 量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储, 可以在不改变模型参数量和架构的前提下加速推理过程。这种方法使得模型的部署更加经济高效,也更具可行性。
215
+
216
+ 浮点数一般由3部分组成:符号位、指数位和尾数位。指数位越大,可表示的数字范围越大。尾数位越大、数字的精度越高。
217
+
218
+ 量化可以根据何时量化分为:后训练量化和训练感知量化,也可以根据量化参数的确定方式分为:静态量化和动态量化。
219
+
220
+ 后训练量化(PTQ, Post-Training Quantization)一般是指在模型预训练完成后,基于校准数据集(calibration dataset)确定量化参数进而对模型进行量化。
221
+
222
+ GPTQ(Group-wise Precision Tuning Quantization)是一种静态的后训练量化技术。”静态”指的是预训练模型一旦确定,经过量化后量化参数不再更改。GPTQ 量化技术将 fp16 精度的模型量化为 4-bit ,在节省了约 75% 的显存的同时大幅提高了推理速度。 为了使用GPTQ量化模型,您需要指定量化模型名称或路径,例如 model_name_or_path: TechxGenus/Meta-Llama-3-8B-Instruct-GPTQ
223
+
224
+ 在训练感知量化(QAT, Quantization-Aware Training)中,模型一般在预训练过程中被量化,然后又在训练数据上再次微调,得到最后的量化模型。
225
+
226
+ AWQ(Activation-Aware Layer Quantization)是一种静态的后训练量化技术。其思想基于:有很小一部分的权重十分重要,为了保持性能这些权重不会被量化。 AWQ 的优势在于其需要的校准数据集更小,且在指令微调和多模态模型上表现良好。 为了使用 AWQ 量化模型,您需要指定量化模型名称或路径,例如 model_name_or_path: TechxGenus/Meta-Llama-3-8B-Instruct-AWQ
227
+
228
+ AQLM(Additive Quantization of Language Models)作为一种只对模型权重进行量化的PTQ方法,在 2-bit 量化下达到了当时的最佳表现,并且在 3-bit 和 4-bit 量化下也展示了性能的提升。 尽管 AQLM 在模型推理速度方面的提升并不是最显著的,但其在 2-bit 量化下的优异表现意味着您可以以极低的显存占用来部署大模型。
229
+
230
+ OFTQ(On-the-fly Quantization)指的是模型无需校准数据集,直接在推理阶段进行量化。OFTQ是一种动态的后训练量化技术. OFTQ在保持性能的同时。 因此,在使用OFTQ量化方法时,您需要指定预训练模型、指定量化方法 quantization_method 和指定量化位数 quantization_bit 下面提供了一个使用bitsandbytes量化方法的配置示例:
231
+
232
+ 区别于 GPTQ, bitsandbytes 是一种动态的后训练量化技术。bitsandbytes 使得大于 1B 的语言模型也能在 8-bit 量化后不过多地损失性能。 经过bitsandbytes 8-bit 量化的模型能够在保持性能的情况下节省约50%的显存。
233
+
234
+ 依赖校准数据集的方法往往准确度较高,不依赖校准数据集的方法往往速度较快。HQQ(Half-Quadratic Quantization)希望能在准确度和速度之间取得较好的平衡。作为一种动态的后训练量化方法,HQQ无需校准阶段, 但能够取得与需要校准数据集的方法相当的准确度,并且有着极快的推理速度。
235
+
236
+ EETQ(Easy and Efficient Quantization for Transformers)是一种只对模型权重进行量化的PTQ方法。具有较快的速度和简单易用的特性。
237
+
238
+ ---
239
+
240
+ ## NPU 训练¶
241
+
242
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/npu_training.html
243
+
244
+ **Contents:**
245
+ - NPU 训练¶
246
+ - 支持设备¶
247
+ - 单机微调¶
248
+ - 多机微调¶
249
+
250
+ Atlas A2训练系列(Atlas 800T A2, Atlas 900 A2 PoD, Atlas 200T A2 Box16, Atlas 300T A2)
251
+
252
+ Atlas 800I A2推理系列(Atlas 800I A2)
253
+
254
+ 以 davinci0 单卡为例,下载并使用ascend llamafactory镜像。
255
+
256
+ 首先在环境当前目录下执行如下命令,进入容器。
257
+
258
+ 如果在单机上使用多卡微调时,可使用 --device /dev/davinci1, --device /dev/davinci2, ... 来增加 NPU 卡。
259
+
260
+ 昇腾 NPU 卡从 0 开始编号,docker 容器内也是如此;
261
+
262
+ 如映射物理机上的 davinci6,davinci7 NPU 卡到容器内使用,其对应的卡号分别为 0,1
263
+
264
+ 进入docker后安装相关依赖、设置环境变量、配置 LoRA 微调参数文件(qwen1_5_lora_sft_ds.yaml)
265
+
266
+ ASCEND_RT_VISIBLE_DEVICES=0指定使用容器内卡号
267
+
268
+ USE_MODELSCOPE_HUB=1使用modelscope
269
+
270
+ 在 LLAMA-Factory 目录下,创建如下 qwen1_5_lora_sft_ds.yaml:
271
+
272
+ 使用 torchrun 启动 LoRA 微调,如正常输出模型加载、损失 loss 等日志,即说明成功微调。
273
+
274
+ 经 LoRA 微调后,通过 llamafactory-cli chat 使用微调后的模型进行交互对话,使用 Ctrl+C 或输入 exit 退出该问答聊天。
275
+
276
+ 多机微调时,不建议使用容器部署方式(单机都不够用的情况下,起多个容器资源更加紧张),请直接在每个节点安装 llamafactory(请参考 NPU 中的安装步骤),同时仍需要安装 DeepSpeed 和 ModelScope:
277
+
278
+ 安装成功后,请在每个节点上使用 export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3 显式指定所需的 NPU 卡号,不指定时默认使用当前节点的所有 NPU 卡。
279
+
280
+ 然后,必须在每个节点上使用 export HCCL_SOCKET_IFNAME=eth0 来指定当前节点的 HCCL 通信网卡(请使用目标网卡名替换 eth0)。
281
+
282
+ 以两机环境为例,分别在主、从节点(机器)上执行如下两条命令即可启动多机训练:
283
+
284
+ ---
285
+
286
+ ## NPU¶
287
+
288
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/npu.html
289
+
290
+ **Contents:**
291
+ - NPU¶
292
+ - Install By Docker¶
293
+ - 使用 docker-compose 构建并启动 docker 容器¶
294
+ - 不使用 docker-compose¶
295
+ - Install By pip¶
296
+ - 依赖1: NPU 驱动¶
297
+ - 依赖2: NPU 开发包¶
298
+ - 依赖3: torch-npu¶
299
+ - 依赖校验¶
300
+ - Verification¶
301
+
302
+ 目前LLaMA-Factory 通过 torch-npu 库完成了对华为昇腾 910b 系列芯片的支持, 包含 32GB 和 64GB 两个版本。跟其他使用相比,会需要额外3个前置条件
303
+
304
+ CANN Toolkit 和 Kernels库正常安装
305
+
306
+ 为方便昇腾用户使用,LLaMA-Factory 提供已预装昇腾环境的 Install By Docker 及自行安装昇腾环境,Install By pip 两种方式,可按需自行选择:
307
+
308
+ 请确保宿主机已根据昇腾卡型号成功安装对应的固件和驱动,可参考 快速安装昇腾环境 指引。
309
+
310
+ LLaMA-Factory 提供 使用 docker-compose 构建并启动 docker 容器 和 不使用 docker-compose 两种构建方式,请根据需求选择其一。
311
+
312
+ 进入 LLaMA-Factory 项目中存放 Dockerfile 及 docker-compose.yaml 的 docker-npu 目录:
313
+
314
+ 构建 docker 镜像并启动 docker 容器:
315
+
316
+ 使用 docker build 直接构建 docker 镜像:
317
+
318
+ 自行 pip 安装时, python 版本建议使用3.10, 目前该版本对于 NPU 的使用情况会相对稳定,其他版本可能会遇到一些未知的情况
319
+
320
+ 可以按照 快速安装昇腾环境 指引,或者使用以下命令完成快速安装:
321
+
322
+ 依赖3建议在安装 LLaMA-Factory 的时候一起选配安装, 把 torch-npu 一起加入安装目标,命令如下
323
+
324
+ 3个依赖都安装后,可以通过如下的 python 脚本对 torch_npu 的可用情况做一下校验
325
+
326
+ 使用以下指令对 LLaMA-Factory × 昇腾的安装进行校验:
327
+
328
+ 如下所示,正确显示 LLaMA-Factory、PyTorch NPU 和 CANN 版本号及 NPU 型号等信息即说明安装成功。
329
+
330
+ 前面依赖安装完毕和完成校验后,即可像文档的其他部分一样正常使用 llamafactory-cli 的相关功能, NPU 的使用是无侵入的。主要的区别是需要修改一下命令行中 设备变量使用 将原来的 Nvidia 卡的变量 CUDA_VISIBLE_DEVICES 替换为 ASCEND_RT_VISIBLE_DEVICES, 类似如下命令
331
+
332
+ 通过 ASCEND_RT_VISIBLE_DEVICES 环境变量指定昇腾 NPU 卡,如 ASCEND_RT_VISIBLE_DEVICES=0,1,2,3 指定使用 0,1,2,3四张 NPU 卡进行微调/推理。
333
+
334
+ 昇腾 NPU 卡从 0 开始编号,docker 容器内也是如此; 如映射物理机上的 6,7 号 NPU 卡到容器内使用,其对应的卡号分别为 0,1
335
+
336
+ 检查是否安装 torch-npu,建议通过 pip install -e '.[torch-npu,metrics]' 安装 LLaMA-Factory。
337
+
338
+ Q:使用昇腾 NPU 推理报错 RuntimeError: ACL stream synchronize failed, error code:507018
339
+
340
+ A: 设置 do_sample: false,取消随机抽样策略。
341
+
342
+ https://github.com/hiyouga/LLaMA-Factory/issues/3840
343
+
344
+ Q:使用 ChatGLM 系列模型微调/训练模型时,报错 NotImplementedError: Unknown device for graph fuser
345
+
346
+ A: 在 modelscope 或 huggingface 下载的 repo 里修改 modeling_chatglm.py 代码,取消 torch.jit 装饰器注释
347
+
348
+ https://github.com/hiyouga/LLaMA-Factory/issues/3788
349
+
350
+ https://github.com/hiyouga/LLaMA-Factory/issues/4228
351
+
352
+ Q:微调/训练启动后,HCCL 报错,包含如下关键信息:
353
+
354
+ A: 杀掉 device 侧所有进程,等待 10s 后重新启动训练。
355
+
356
+ https://github.com/hiyouga/LLaMA-Factory/issues/3839
357
+
358
+ Q:使用 TeleChat 模型在昇腾 NPU 推理时,报错 AssertionError: Torch not compiled with CUDA enabled
359
+
360
+ A: 此问题一般由代码中包含 cuda 相关硬编码造成,根据报错信息,找到 cuda 硬编码所在位置,对应修改为 NPU 代码。如 .cuda() 替换为 .npu() ; .to("cuda") 替换为 .to("npu")
361
+
362
+ Q:模型微调遇到报错 DeviceType must be NPU. Actual DeviceType is: cpu,例如下列报错信息
363
+
364
+ A: 此类报错通常为部分 Tensor 未放到 NPU 上,请确保报错中算子所涉及的操作数均在 NPU 上。如上面的报错中,MulKernelNpuOpApi 算子为乘法算子,应确保 next_tokens 和 unfinished_sequences 均已放在 NPU 上。
365
+
366
+ 如需更多 LLaMA-Factory × 昇腾实践指引,可参考 全流程昇腾实践 。
367
+
368
+ ---
369
+
370
+ ## Monitors¶
371
+
372
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/monitor.html
373
+
374
+ **Contents:**
375
+ - Monitors¶
376
+ - LlamaBoard¶
377
+ - SwanLab¶
378
+ - TensorBoard¶
379
+ - Wandb¶
380
+ - MLflow¶
381
+
382
+ LLaMA-Factory 支持多种训练可视化工具,包括:LlamaBoard 、 SwanLab、TensorBoard 、 Wandb 、 MLflow 。
383
+
384
+ LlamaBoard 是指 WebUI 中自带的Loss曲线看板,可以方便的查看训练过程中的Loss变化情况。
385
+
386
+ 如果你想使用 LlamaBoard,只需使用 WebUI 启动训练即可。
387
+
388
+ SwanLab 是一个开源的训练跟踪与可视化工具,云端和离线均可使用,支持超参数记录、指标记录、多实验对比、硬件监控、实验环境记录等功能,可以有效地帮助开发者管理实验。
389
+
390
+ 如果你想使用 SwanLab,请在启动训练时在训练配置文件中添加以下参数:
391
+
392
+ 或者,在WebUI的 SwanLab 模块中开启 SwanLab 记录:
393
+
394
+ TensorBoard 是 TensorFlow 开源的离线训练跟踪工具,可以用于记录与可视化训练过程。
395
+
396
+ 如果你想使用 TensorBoard,请在启动训练时在训练配置文件中添加以下参数:
397
+
398
+ 或者,在WebUI的 其他参数设置 模块中的 启用外部记录面板 中开启 TensorBoard 记录:
399
+
400
+ Wandb(Weights and Biases)是一个云端的训练跟踪工具,可以用于记录与可视化训练过程。
401
+
402
+ 如果你想使用 Wandb,请在启动训练时在训练配置文件中添加以下参数:
403
+
404
+ 或者,在WebUI的 其他参数设置 模块中的 启用外部记录面板 中开启 Wandb 记录:
405
+
406
+ MLflow 是Databricks开源的离线训练跟踪工具,用于记录与可视化训练过程。
407
+
408
+ 如果你想使用 MLflow,请在启动训练时在训练配置文件中添加以下参数:
409
+
410
+ 或者,在WebUI的 其他参数设置 模块中的 启用外部记录面板 中开启 MLflow 记录:
411
+
412
+ ---
413
+
414
+ ## Acceleration¶
415
+
416
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/acceleration.html
417
+
418
+ **Contents:**
419
+ - Acceleration¶
420
+ - FlashAttention¶
421
+ - Unsloth¶
422
+ - Liger Kernel¶
423
+
424
+ LLaMA-Factory 支持多种加速技术,包括:FlashAttention 、 Unsloth 、 Liger Kernel 。
425
+
426
+ FlashAttention 能够加快注意力机制的运算速度,同时减少对内存的使用。
427
+
428
+ 如果您想使用 FlashAttention,请在启动训练时在训练配置文件中添加以下参数:
429
+
430
+ Unsloth 框架支持 Llama, Mistral, Phi-3, Gemma, Yi, DeepSeek, Qwen等大语言模型并且支持 4-bit 和 16-bit 的 QLoRA/LoRA 微调,该框架在提高运算速度的同时还减少了显存占用。
431
+
432
+ 如果您想使用 Unsloth, 请在启动训练时在训练配置文件中添加以下参数:
433
+
434
+ Liger Kernel 是一个大语言模型训练的性能优化框架, 可有效地提高吞吐量并减少内存占用。
435
+
436
+ 如果您想使用 Liger Kernel,请在启动训练时在训练配置文件中添加以下参数:
437
+
438
+ ---
439
+
440
+ ## Distributed Training¶
441
+
442
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/distributed.html
443
+
444
+ **Contents:**
445
+ - Distributed Training¶
446
+ - NativeDDP¶
447
+ - 单机多卡¶
448
+ - llamafactory-cli¶
449
+ - torchrun¶
450
+ - accelerate¶
451
+ - 多机多卡¶
452
+ - llamafactory-cli¶
453
+ - torchrun¶
454
+ - accelerate¶
455
+
456
+ LLaMA-Factory 支持单机多卡和多机多卡分布式训练。同时也支持 DDP , DeepSpeed 和 FSDP 三种分布式引擎。
457
+
458
+ DDP (DistributedDataParallel) 通过实现模型并行和数据并行实现训练加速。 使用 DDP 的程序需要生成多个进程并且为每个进程创建一个 DDP 实例,他们之间通过 torch.distributed 库同步。
459
+
460
+ DeepSpeed 是微软开发的分布式训练引擎,并提供ZeRO(Zero Redundancy Optimizer)、offload、Sparse Attention、1 bit Adam、流水线并行等优化技术。 您可以根据任务需求与设备选择使用。
461
+
462
+ FSDP 通过全切片数据并行技术(Fully Sharded Data Parallel)来处理更多更大的模型。在 DDP 中,每张 GPU 都各自保留了一份完整的模型参数和优化器参数。而 FSDP 切分了模型参数、梯度与优化器参数,使得每张 GPU 只保留这些参数的一部分。 除了并行技术之外,FSDP 还支持将模型参数卸载至CPU,从而进一步降低显存需求。
463
+
464
+ NativeDDP 是 PyTorch 提供的一种分布式训练方式,您可以通过以下命令启动训练:
465
+
466
+ 您可以使用 llamafactory-cli 启动 NativeDDP 引擎。
467
+
468
+ 如果 CUDA_VISIBLE_DEVICES 没有指定,则默认使用所有GPU。如果需要指定GPU,例如第0、1个GPU,可以使用:
469
+
470
+ 您也可以使用 torchrun 指令启动 NativeDDP 引擎进行单机多卡训练。下面提供一个示例:
471
+
472
+ 您还可以使用 accelerate 指令启动进行单机多卡训练。
473
+
474
+ 首先运行以下命令,根据需求回答一系列问题后生成配置文件:
475
+
476
+ 您也可以使用 torchrun 指令启动 NativeDDP 引擎进行多机多卡训练。
477
+
478
+ 您还可以使用 accelerate 指令启动进行多机多卡训练。
479
+
480
+ 首先运行以下命令,根据需求回答一系列问题后生成配置文件:
481
+
482
+ DeepSpeed 是由微软开发的一个开源深度学习优化库,旨在提高大模型训练的效率和速度。在使用 DeepSpeed 之前,您需要先估计训练任务的显存大小,再根据任务需求与资源情况选择合适的 ZeRO 阶段。
483
+
484
+ ZeRO-1: 仅划分优化器参数,每个GPU各有一份完整的模型参数与梯度。
485
+
486
+ ZeRO-2: 划分优化器参数与梯度,每个GPU各有一份完整的模型参数。
487
+
488
+ ZeRO-3: 划分优化器参数、梯度与模型参数。
489
+
490
+ 简单来说:从 ZeRO-1 到 ZeRO-3,阶段数越高,显存需求越小,但是训练速度也依次变慢。此外,设置 offload_param=cpu 参数会大幅减小显存需求,但会极大地使训练速度减慢。因此,如果您有足够的显存, 应当使用 ZeRO-1,并且确保 offload_param=none。
491
+
492
+ LLaMA-Factory提供了使用不同阶段的 DeepSpeed 配置文件的示例。包括:
493
+
494
+ https://huggingface.co/docs/transformers/deepspeed 提供了更为详细的介绍。
495
+
496
+ 您可以使用 llamafactory-cli 启动 DeepSpeed 引擎进行单机多卡训练。
497
+
498
+ 为了启动 DeepSpeed 引擎,配置文件中 deepspeed 参数指定了 DeepSpeed 配置文件的路径:
499
+
500
+ 您也可以使用 deepspeed 指令启动 DeepSpeed 引擎进行单机多卡训练。
501
+
502
+ 使用 deepspeed 指令启动 DeepSpeed 引擎时您无法使用 CUDA_VISIBLE_DEVICES 指定GPU。而需要:
503
+
504
+ --include localhost:1 表示只是用本节点的gpu1。
505
+
506
+ LLaMA-Factory 支持使用 DeepSpeed 的多机多卡训练,您可以通过以下命令启动:
507
+
508
+ 您也可以使用 deepspeed 指令来启动多机多卡训练。
509
+
510
+ hostfile的每一行指定一个节点,每行的格式为 <hostname> slots=<num_slots> , 其中 <hostname> 是节点的主机名, <num_slots> 是该节点上的GPU数量。下面是一个例子: .. code-block:
511
+
512
+ 请在 https://www.deepspeed.ai/getting-started/ 了解更多。
513
+
514
+ 如果没有指定 hostfile 变量, DeepSpeed 会搜索 /job/hostfile 文件。如果仍未找到,那么 DeepSpeed 会使用本机上所有可用的GPU。
515
+
516
+ 您还可以使用 accelerate 指令启动 DeepSpeed 引擎。 首先通过以下命令生成 DeepSpeed 配置文件:
517
+
518
+ 只需在 ZeRO-0 的基础上修改 zero_optimization 中的 stage 参数即可。
519
+
520
+ 只需在 ZeRO-0 的基础上在 zero_optimization 中添加 offload_optimizer 参数即可。
521
+
522
+ 只需在 ZeRO-0 的基础上修改 zero_optimization 中的参数。
523
+
524
+ 只需在 ZeRO-3 的基础上添加 zero_optimization 中的 offload_optimizer 和 offload_param 参数即可。
525
+
526
+ https://www.deepspeed.ai/docs/config-json/ 提供了关于deepspeed配置文件的更详细的介绍。
527
+
528
+ PyTorch 的全切片数据并行技术 FSDP (Fully Sharded Data Parallel)能让我们处理更多更大的模型。LLaMA-Factory支持使用 FSDP 引擎进行分布式训练。
529
+
530
+ FSDP 的参数 ShardingStrategy 的不同取值决定了模型的划分方式:
531
+
532
+ FULL_SHARD: 将模型参数、梯度和优化器状态都切分到不同的GPU上,类似ZeRO-3。
533
+
534
+ SHARD_GRAD_OP: 将梯度、优化器状态切分到不同的GPU上,每个GPU仍各自保留一份完整的模型参数。类似ZeRO-2。
535
+
536
+ NO_SHARD: 不切分任何参数。类似ZeRO-0。
537
+
538
+ 您只需根据需要修改 examples/accelerate/fsdp_config.yaml 以及 examples/extras/fsdp_qlora/llama3_lora_sft.yaml ,文件然后运行以下命令即可启动 FSDP+QLoRA 微调:
539
+
540
+ 此外,您也可以使用 accelerate 启动 FSDP 引擎, 节点数与 GPU 数可以通过 num_machines 和 num_processes 指定。对此,Huggingface 提供了便捷的配置功能。 只需运行:
541
+
542
+ 根据提示回答一系列问题后,我们就可以生成 FSDP 所需的配置文件。
543
+
544
+ 当然您也可以根据需求自行配置 fsdp_config.yaml 。
545
+
546
+ 请确保 num_processes 和实际使用的总GPU数量一致
547
+
548
+ 不要在 FSDP+QLoRA 中使用 GPTQ/AWQ 模型
549
+
550
+ ---
551
+
552
+ ## Arguments¶
553
+
554
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/arguments.html
555
+
556
+ **Contents:**
557
+ - Arguments¶
558
+ - Finetuning Arguments¶
559
+ - 基本参数¶
560
+ - LoRA¶
561
+ - RLHF¶
562
+ - Freeze¶
563
+ - Apollo¶
564
+ - BAdam¶
565
+ - GaLore¶
566
+ - Data Arguments¶
567
+
568
+ 是否以纯 bf16 精度训练模型(不使用 AMP)。
569
+
570
+ Literal[“pt”, “sft”, “rm”, “ppo”, “dpo”, “kto”]
571
+
572
+ Literal[“lora”, “freeze”, “full”]
573
+
574
+ 是否仅训练扩展块中的参数(LLaMA Pro 模式)。
575
+
576
+ freeze_multi_modal_projector
577
+
578
+ 是否在评估时计算 token 级别的准确率。
579
+
580
+ include_effective_tokens_per_second
581
+
582
+ 除 LoRA 层之外设置为可训练并保存在最终检查点中的模块名称。使用逗号分隔多个模块。
583
+
584
+ LoRA 缩放系数。一般情况下为 lora_rank * 2。
585
+
586
+ LoRA 微调的本征维数 r,r 越大可训练的参数越多。
587
+
588
+ 应用 LoRA 方法的模块名称。使用逗号分隔多个模块,使用 all 指定所有模块。
589
+
590
+ LoRA+ 学习率比例(λ = ηB/ηA)。 ηA, ηB 分别是 adapter matrices A 与 B 的学习率。
591
+
592
+ loraplus_lr_embedding
593
+
594
+ 是否使用秩稳定 LoRA (Rank-Stabilized LoRA)。
595
+
596
+ 是否使用权重分解 LoRA(Weight-Decomposed LoRA)。
597
+
598
+ PiSSA 中 FSVD 执行的迭代步数。使用 -1 将其禁用。
599
+
600
+ 是否将 PiSSA 适配器转换为正常的 LoRA 适配器。
601
+
602
+ 是否创建一个具有随机初始化权重的新适配器。
603
+
604
+ DPO 训练中的 sft loss 系数。
605
+
606
+ Literal[“sigmoid”, “hinge”, “ipo”, “kto_pair”, “orpo”, “simpo”]
607
+
608
+ DPO 训练中使用的偏好损失类型。可选值为: sigmoid, hinge, ipo, kto_pair, orpo, simpo。
609
+
610
+ 标签平滑系数,取值范围为 [0,0.5]。
611
+
612
+ KTO 训练中 chosen 标签 loss 的权重。
613
+
614
+ KTO 训练中 rejected 标签 loss 的权重。
615
+
616
+ SimPO 损失中的 reward margin。
617
+
618
+ PPO 训练中的 mini-batch 大小。
619
+
620
+ PPO 训练中自适应 KL 控制的目标 KL 值。
621
+
622
+ PPO 或 DPO 训练中使用的参考模型路径。
623
+
624
+ ref_model_quantization_bit
625
+
626
+ 参考模型的量化位数,支持 4 位或 8 位量化。
627
+
628
+ reward_model_adapters
629
+
630
+ reward_model_quantization_bit
631
+
632
+ Literal[“lora”, “full”, “api”]
633
+
634
+ PPO 训练中使用的奖励模型类型。可选值为: lora, full, api。
635
+
636
+ freeze_trainable_layers
637
+
638
+ 可训练层的数量。正数表示最后 n 层被设置为可训练的,负数表示前 n 层被设置为可训练的。
639
+
640
+ freeze_trainable_modules
641
+
642
+ 可训练层的名称。使用 all 来指定所有模块。
643
+
644
+ 除了隐藏层外可以被训练的模块名称,被指定的模块将会被设置为可训练的。使用逗号分隔多个模块。
645
+
646
+ 适用 APOLLO 的模块名称。使用逗号分隔多个模块,使用 all 指定所有线性模块。
647
+
648
+ apollo_update_interval
649
+
650
+ Literal[“svd”, “random”]
651
+
652
+ APOLLO 低秩投影算法类型(svd 或 random)。
653
+
654
+ Literal[“std”, “right”, “left”]
655
+
656
+ Literal[“channel”, “tensor”]
657
+
658
+ APOLLO 缩放类型(channel 或 tensor)。
659
+
660
+ BAdam 的使用模式,可选值为 layer 或 ratio。
661
+
662
+ layer-wise BAdam 的起始块索引。
663
+
664
+ layer-wise BAdam 中块更新策略,可选值有: ascending, descending, random, fixed。
665
+
666
+ badam_switch_interval
667
+
668
+ layer-wise BAdam 中块更新步数间隔。使用 -1 禁用块更新。
669
+
670
+ ratio-wise BAdam 中的更新比例。
671
+
672
+ BAdam 优化器的掩码模式,可选值为 adjacent 或 scatter。
673
+
674
+ BAdam 优化器的详细输出级别,0 表示无输出,1 表示输出块前缀,2 表示输出可训练参数。
675
+
676
+ 应用 GaLore 的模块名称。使用逗号分隔多个模块,使用 all 指定所有线性模块。
677
+
678
+ galore_update_interval
679
+
680
+ GaLore 投影的类型,可选值有: std, reverse_std, right, left, full。
681
+
682
+ 用于训练的数据集名称。使用逗号分隔多个数据集。
683
+
684
+ 用于评估的数据集名称。使用逗号分隔多个数据集。
685
+
686
+ 是否在每个评估数据集上分开计算loss,默认concate后为整体计算。
687
+
688
+ Union[str, Dict[str, Any]]
689
+
690
+ 存储数据集的文件夹路径,可以是字符串或字典。 类型:str 或 dict(需符合 dataset_info.json 的格式)
691
+
692
+ 当为字符串时,表示数据集目录的路径,例如:data 。
693
+
694
+ 当为字典时,将覆盖默认从本地 dataset_info.json 加载的行为。应具有以下结构:
695
+
696
+ 存储图像、视频或音频的文件夹路径。如果未指定,默认为 dataset_dir。
697
+
698
+ data_shared_file_system
699
+
700
+ 多机多卡时,不同机器存放数据集的路径是否是共享文件系统。数据集处理在该值为true时只在第一个node发生,为false时在每个node都处理一次。
701
+
702
+ 输入的最大 token 数,超过该长度会被截断。
703
+
704
+ 启用 streaming 时用于随机选择样本的 buffer 大小。
705
+
706
+ Literal[“concat”, “interleave_under”, “interleave_over”]
707
+
708
+ 数据集混合策略,支持 concat、 interleave_under、 interleave_over。
709
+
710
+ 使用 interleave 策略时,指定从多个数据集中采样的概率。多个数据集的概率用逗号分隔。
711
+
712
+ preprocessing_batch_size
713
+
714
+ preprocessing_num_workers
715
+
716
+ 每个数据集的最大样本数:设置后,每个数据集的样本数将被截断至指定的 max_samples。
717
+
718
+ ignore_pad_token_for_loss
719
+
720
+ 计算 loss 时是否忽略 pad token。
721
+
722
+ 验证集相对所使用的训练数据集的大小。取值在 [0,1) 之间。启用 streaming 时 val_size 应是整数。
723
+
724
+ 是否启用 sequences packing。预训练时默认启用。
725
+
726
+ 是否启用不使用 cross-attention 的 sequences packing。
727
+
728
+ Tokenized datasets的保存或加载路径。如果路径存在,会加载已有的 tokenized datasets;如果路径不存在,则会在分词后将 tokenized datasets 保存在此路径中。
729
+
730
+ 模型路径(本地路径或 Huggingface/ModelScope 路径)。
731
+
732
+ 适配器路径(本地路径或 Huggingface/ModelScope 路径)。使用逗号分隔多个适配器路径。
733
+
734
+ 保存从 Hugging Face 或 ModelScope 下载的模型的本地路径。
735
+
736
+ 是否使用 fast_tokenizer 。
737
+
738
+ 是否在分词时将 special token 分割。
739
+
740
+ 要添加到 tokenizer 中的 special token。多个 special token 用逗号分隔。
741
+
742
+ Optional[Literal[“linear”, “dynamic”, “yarn”, “llama3”]]
743
+
744
+ RoPE Embedding 的缩放策略,支持 linear、dynamic、yarn 或 llama3。
745
+
746
+ Literal[“auto”, “disabled”, “sdpa”, “fa2”]
747
+
748
+ 是否启用 FlashAttention 来加速训练和推理。可选值为 auto, disabled, sdpa, fa2。
749
+
750
+ 是否启用 Shift Short Attention (S^2-Attn)。
751
+
752
+ Optional[Literal[“convert”, “load”]]
753
+
754
+ 需要将模型转换为 mixture_of_depths(MoD)模型时指定: convert 需要加载 mixture_of_depths(MoD)模型时指定: load。
755
+
756
+ 是否使用 unsloth 优化 LoRA 微调。
757
+
758
+ MoE 架构中 aux_loss 系数。数值越大,各个专家负载越均衡。
759
+
760
+ disable_gradient_checkpointing
761
+
762
+ 是否将 layernorm 层权重精度提高至 fp32。
763
+
764
+ 是否将 lm_head 输出精度提高至 fp32。
765
+
766
+ Literal[“huggingface”, “vllm”]
767
+
768
+ 推理时使用的后端引擎,支持 huggingface 或 vllm。
769
+
770
+ Literal[“auto”, “float16”, “bfloat16”, “float32”]
771
+
772
+ 推理时使用的模型权重和激活值的数据类型。支持 auto, float16, bfloat16, float32。
773
+
774
+ 用于登录 HuggingFace 的验证 token。
775
+
776
+ 用于登录 ModelScope Hub 的验证 token。
777
+
778
+ 用于登录 Modelers Hub 的验证 token。
779
+
780
+ 是否信任来自 Hub 上数据集/模型的代码执行。
781
+
782
+ Optional[torch.dtype]
783
+
784
+ 用于计算模型输出的数据类型,无需手动指定。
785
+
786
+ Optional[Union[str, Dict[str, Any]]]
787
+
788
+ 是否禁用 vLLM 中的 CUDA graph。
789
+
790
+ Optional[Union[dict, str]]
791
+
792
+ vLLM引擎初始化配置。以字典或JSON字符串输入。
793
+
794
+ Literal[“bitsandbytes”, “hqq”, “eetq”]
795
+
796
+ 指定用于量化的算法,支持 “bitsandbytes”, “hqq” 和 “eetq”。
797
+
798
+ 指定在量化过程中使用的位数,通常是4位、8位等。
799
+
800
+ Literal[“fp4”, “nf4”]
801
+
802
+ 量化时使用的数据类型,支持 “fp4” 和 “nf4”。
803
+
804
+ 是否在量化过程中使用 double quantization,通常用于 “bitsandbytes” int4 量化训练。
805
+
806
+ quantization_device_map
807
+
808
+ Optional[Literal[“auto”]]
809
+
810
+ 用于推理 4-bit 量化模型的设备映射。需要 “bitsandbytes >= 0.43.0”。
811
+
812
+ Literal[“cpu”, “auto”]
813
+
814
+ 导出模型时使用的设备,auto 可自动加速导出。
815
+
816
+ export_quantization_bit
817
+
818
+ export_quantization_dataset
819
+
820
+ 用于量化导出模型的数据集路径或数据集名称。
821
+
822
+ export_quantization_nsamples
823
+
824
+ export_quantization_maxlen
825
+
826
+ True: .bin 格式保存。 False: .safetensors 格式保存。
827
+
828
+ 模型上传至 Huggingface 的仓库名称。
829
+
830
+ 评估任务的名称,可选项有 mmlu_test, ceval_validation, cmmlu_test
831
+
832
+ 保存评估结果的路径。 如果该路径已经存在则会抛出错误。
833
+
834
+ 评估数据集的下载模式,如果数据集已经存在则重复使用,否则则下载。
835
+
836
+ DownloadMode.REUSE_DATASET_IF_EXISTS
837
+
838
+ 是否使用采样策略生成文本。如果设置为 False,将使用 greedy decoding。
839
+
840
+ 用于调整生成文本的随机性。temperature 越高,生成的文本越随机;temperature 越低,生成的文本越确定。
841
+
842
+ 用于控制生成时候选 token 集合大小的参数。例如:top_p = 0.7 意味着模型会先选择概率最高的若干个 token 直到其累积概率之和大于 0.7,然后在这些 token 组成的集合中进行采样。
843
+
844
+ 用于控制生成时候选 token 集合大小的参数。例如:top_k = 50 意味着模型会在概率最高的50个 token 组成的集合中进行采样。
845
+
846
+ 用于 beam_search 的束宽度。值为 1 表示不使用 beam_search。
847
+
848
+ 文本最大长度(包括输入文本和生成文本的长度)。
849
+
850
+ 生成文本的最大长度。设置 max_new_tokens 会覆盖 max_length。
851
+
852
+ 对生成重复 token 的惩罚系数。对于已经生成过的 token 生成概率乘以 1/repetition_penalty。值小于 1.0 会提高重复 token 的生成概率,大于 1.0 则会降低重复 token 的生成概率。
853
+
854
+ 在使用 beam_search 时对生成文本长度的惩罚系数。length_penalty > 0 鼓励模型生成更长的序列,length_penalty < 0 会鼓励模型生成更短的序列。
855
+
856
+ 默认的 system_message,例如: “You are a helpful assistant.”
857
+
858
+ Literal[“cloud”, “local”]
859
+
860
+ 训练结果将保存在 <ray_storage_path>/ray_run_name 路径下。
861
+
862
+ 每个工作进程分配的资源。默认使用 1 GPU。
863
+
864
+ Literal[“SPREAD”, “PACK”, “STRICT_SPREAD”, “STRICT_PACK”]
865
+
866
+ Ray 训练的资源调度策略。可选值包括 SPREAD、PACK、STRICT_SPREAD 和 STRICT_PACK。
867
+
868
+ DISABLE_VERSION_CHECK
869
+
870
+ LLAMAFACTORY_VERBOSITY
871
+
872
+ 设置 LLaMA-Factory 的日志级别(“DEBUG”,”INFO”,”WARN”)
873
+
874
+ 优先使用 ModelScope 下载模型/数据集或使用缓存路径中的模型/数据集
875
+
876
+ 优先使用 Openmind 下载模型/数据集或使用缓存路径中的模型/数据集
877
+
878
+ 是否使用 Ray 进行分布式执行或任务管理。
879
+
880
+ 是否表示启用特定的 PyTorch 优化。
881
+
882
+ ASCEND_RT_VISIBLE_DEVICES
883
+
884
+ Torchrun部署中主节点 (master node) 的网络地址
885
+
886
+ Torchrun部署中主节点用于通信的端口号
887
+
888
+ 当前节点在所有节点中的 rank,通常从 0 到 NNODES-1。
889
+
890
+ 设置 Gradio 服务器 IP 地址(例如 0.0.0.0)
891
+
892
+ 启用 Gradio 服务器的 IPv6 支持
893
+
894
+ 支持使用 lmf 表示 llamafactory-cli
895
+
896
+ ---
897
+
898
+ ## Adapters¶
899
+
900
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/adapters.html
901
+
902
+ **Contents:**
903
+ - Adapters¶
904
+ - Full Parameter Fine-tuning¶
905
+ - Freeze¶
906
+ - LoRA¶
907
+ - LoRA+¶
908
+ - rsLoRA¶
909
+ - DoRA¶
910
+ - PiSSA¶
911
+ - Galore¶
912
+ - BAdam¶
913
+
914
+ LLaMA-Factory 支持多种调优算法,包括: Full Parameter Fine-tuning 、 Freeze 、 LoRA 、 Galore 、 BAdam 。
915
+
916
+ 全参微调指的是在训练过程中对于预训练模型的所有权重都进行更新,但其对显存的要求是巨大的。
917
+
918
+ 如果您需要进行全参微调,请将 finetuning_type 设置为 full 。 下面是一个例子:
919
+
920
+ Freeze(冻结微调)指的是在训练过程中只对模型的小部分权重进行更新,这样可以降低对显存的要求。
921
+
922
+ 如果您需要进行冻结微调,请将 finetuning_type 设置为 freeze 并且设置相关参数, 例如冻结的层数 freeze_trainable_layers 、可训练的模块名称 freeze_trainable_modules 等。
923
+
924
+ freeze_trainable_layers
925
+
926
+ 可训练层的数量。正数表示最后 n 层被设置为可训练的,负数表示前 n 层被设置为可训练的。默认值为 2
927
+
928
+ freeze_trainable_modules
929
+
930
+ 可训练层的名称。使用 all 来指定所有模块。默认值为 all
931
+
932
+ freeze_extra_modules[非必须]
933
+
934
+ 除了隐藏层外可以被训练的模块名称,被指定的模块将会被设置为可训练的。使用逗号分隔多个模块。默认值为 None
935
+
936
+ 如果您需要进行 LoRA 微调,请将 finetuning_type 设置为 lora 并且设置相关参数。 下面是一个例子:
937
+
938
+ additional_target[非必须]
939
+
940
+ 除 LoRA 层之外设置为可训练并保存在最终检查点中的模块名称。使用逗号分隔多个模块。默认值为 None
941
+
942
+ LoRA 缩放系数。一般情况下为 lora_rank * 2, 默认值为 None
943
+
944
+ LoRA 微调中的 dropout 率。默认值为 0
945
+
946
+ LoRA 微调的本征维数 r, r 越大可训练的参数越多。默认值为 8
947
+
948
+ 应用 LoRA 方法的模块名称。使用逗号分隔多个模块,使用 all 指定所有模块。默认值为 all
949
+
950
+ loraplus_lr_ratio[非必须]
951
+
952
+ LoRA+ 学习率比例(λ = ηB/ηA)。 ηA, ηB 分别是 adapter matrices A 与 B 的学习率。LoRA+ 的理想取值与所选择的模型和任务有关。默认值为 None
953
+
954
+ loraplus_lr_embedding[非必须]
955
+
956
+ LoRA+ 嵌入层的学习率, 默认值为 1e-6
957
+
958
+ 是否使用秩稳定 LoRA(Rank-Stabilized LoRA),默认值为 False。
959
+
960
+ 是否使用权重分解 LoRA(Weight-Decomposed LoRA),默认值为 False
961
+
962
+ 是否初始化 PiSSA 适配器,默认值为 False
963
+
964
+ PiSSA 中 FSVD 执行的迭代步数。使用 -1 将其禁用,默认值为 16
965
+
966
+ 是否将 PiSSA 适配器转换为正常的 LoRA 适配器,默认值为 False
967
+
968
+ 是否创建一个具有随机初始化权重的新适配器,默认值为 False
969
+
970
+ 在LoRA中,适配器矩阵 A 和 B 的学习率相同。您可以通过设置 loraplus_lr_ratio 来调整学习率比例。在 LoRA+ 中,适配器矩阵 A 的学习率 ηA 即为优化器学习率。适配器矩阵 B 的学习率 ηB 为 λ * ηA。 其中 λ 为 loraplus_lr_ratio 的值。
971
+
972
+ LoRA 通过添加低秩适配器进行微调,然而 lora_rank 的增大往往会导致梯度塌陷,使得训练变得不稳定。这使得在使用较大的 lora_rank 进行 LoRA 微调时较难取得令人满意的效果。rsLoRA(Rank-Stabilized LoRA) 通过修改缩放因子使得模型训练更加稳定。 使用 rsLoRA 时, 您只需要将 use_rslora 设置为 True 并设置所需的 lora_rank。
973
+
974
+ DoRA (Weight-Decomposed Low-Rank Adaptation)提出尽管 LoRA 大幅降低了推理成本,但这种方式取得的性能与全量微调之间仍有差距。
975
+
976
+ DoRA 将权重矩阵分解为大小与单位方向矩阵的乘积,并进一步微调二者(对方向矩阵则进一步使用 LoRA 分解),从而实现 LoRA 与 Full Fine-tuning 之间的平衡。
977
+
978
+ 如果您需要使用 DoRA,请将 use_dora 设置为 True 。
979
+
980
+ 在 LoRA 中,适配器矩阵 A 由 kaiming_uniform 初始化,而适配器矩阵 B 则全初始化为0。这导致一开始的输入并不会改变模型输出并且使得梯度较小,收敛较慢。 PiSSA 通过奇异值分解直接分解原权重矩阵进行初始化,其优势在于它可以更快更好地收敛。
981
+
982
+ 如果您需要使用 PiSSA,请将 pissa_init 设置为 True 。
983
+
984
+ 当您需要在训练中使用 GaLore(Gradient Low-Rank Projection)算法时,可以通过设置 GaloreArguments 中的参数进行配置。
985
+
986
+ 不要将 LoRA 和 GaLore/BAdam 一起使用。
987
+
988
+ ``galore_layerwise``为 ``true``时请不要设置 ``gradient_accumulation``参数。
989
+
990
+ 是否使用 GaLore 算法,默认值为 False。
991
+
992
+ 应用 GaLore 的模块名称。使用逗号分隔多个模块,使用 all 指定所有线性模块。默认值为 all。
993
+
994
+ galore_update_interval
995
+
996
+ 更新 GaLore 投影的步数间隔,默认值为 200。
997
+
998
+ GaLore 的缩放系数,默认值为 0.25。
999
+
1000
+ GaLore 投影的类型,可选值有: std , reverse_std, right, left, full。默认值为 std。
1001
+
1002
+ 是否启用逐层更新以进一步节省内存,默认值为 False。
1003
+
1004
+ BAdam 是一种内存高效的全参优化方法,您通过配置 BAdamArgument 中的参数可以对其进行详细设置。 下面是一个例子:
1005
+
1006
+ 不要将 LoRA 和 GaLore/BAdam 一起使用。
1007
+
1008
+ 使用 BAdam 时请设置 finetuning_type 为 full 且 pure_bf16 为 True 。
1009
+
1010
+ badam_mode = layer 时仅支持使用 DeepSpeed ZeRO3 进行 单卡 或 多卡 训练。
1011
+
1012
+ badam_mode = ratio 时仅支持 单卡 训练。
1013
+
1014
+ 是否使用 BAdam 优化器,默认值为 False。
1015
+
1016
+ BAdam 的使用模式,可选值为 layer 或 ratio,默认值为 layer。
1017
+
1018
+ layer-wise BAdam 的起始块索引,默认值为 None。
1019
+
1020
+ layer-wise BAdam 中块更新策略,可选值有: ascending, descending, random, fixed。默认值为 ascending。
1021
+
1022
+ badam_switch_interval
1023
+
1024
+ layer-wise BAdam 中块更新步数间隔。使用 -1 禁用块更新,默认值为 50。
1025
+
1026
+ ratio-wise BAdam 中的更新比例,默认值为 0.05。
1027
+
1028
+ BAdam 优化器的掩码模式,可选值为 adjacent 或 scatter,默认值为 adjacent。
1029
+
1030
+ BAdam 优化器的详细输出级别,0 表示无输出,1 表示输出块前缀,2 表示输出可训练参数。默认值为 0。
1031
+
1032
+ ---
1033
+
1034
+ ## Extras¶
1035
+
1036
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/extras.html
1037
+
1038
+ **Contents:**
1039
+ - Extras¶
1040
+ - LLaMA Pro¶
1041
+
1042
+ 为了解决大语言模型的遗忘问题, LLaMA Pro 通过在原有模型上增加新模块以适应新的任务,使其在多个新任务上的表现均优于原始模型。 LLaMA-Factory 支持 LLaMA Pro 的使用。 您可以使用运行 expand.sh 将 Meta-Llama-3-8B-Instruct 扩展为 llama3-8b-instruct-pro。
1043
+
1044
+ 对于 LLaMA Pro 模型进行训练时,您需要指定 use_llama_pro 为 true。
1045
+
1046
+ ---
1047
+
1048
+ ## Fine-tuning Best Practices¶
1049
+
1050
+ **URL:** https://llamafactory.readthedocs.io/en/latest/advanced/best_practice/index.html
1051
+
1052
+ **Contents:**
1053
+ - Fine-tuning Best Practices¶
1054
+
1055
+ ---