llama-cpp-python 0.1.78__tar.gz → 0.1.79__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (293) hide show
  1. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/CHANGELOG.md +6 -0
  2. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/PKG-INFO +4 -1
  3. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/README.md +3 -0
  4. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/llama.py +30 -41
  5. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/llama_cpp.py +453 -312
  6. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/PKG-INFO +4 -1
  7. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/SOURCES.txt +39 -12
  8. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/pyproject.toml +4 -1
  9. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/setup.py +1 -1
  10. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/tests/test_llama.py +17 -5
  11. llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/full-rocm.Dockerfile +44 -0
  12. llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/lamma-cpp-clblast.srpm.spec +58 -0
  13. llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/lamma-cpp-cublas.srpm.spec +59 -0
  14. llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/llama-cpp.srpm.spec +58 -0
  15. llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/main-rocm.Dockerfile +44 -0
  16. llama_cpp_python-0.1.79/vendor/llama.cpp/.dockerignore +17 -0
  17. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/build.yml +46 -17
  18. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.gitignore +8 -17
  19. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/CMakeLists.txt +49 -2
  20. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/Makefile +40 -10
  21. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/README.md +144 -95
  22. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ci/run.sh +23 -22
  23. llama_cpp_python-0.1.79/vendor/llama.cpp/common/CMakeLists.txt +20 -0
  24. {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/common.cpp +67 -37
  25. {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/common.h +22 -10
  26. llama_cpp_python-0.1.79/vendor/llama.cpp/convert-falcon-hf-to-gguf.py +279 -0
  27. llama_cpp_python-0.1.79/vendor/llama.cpp/convert-gptneox-hf-to-gguf.py +267 -0
  28. llama_cpp_python-0.1.79/vendor/llama.cpp/convert-llama-7b-pth-to-gguf.py +308 -0
  29. llama_cpp_python-0.1.79/vendor/llama.cpp/convert-llama-ggmlv3-to-gguf.py +345 -0
  30. llama_cpp_python-0.1.79/vendor/llama.cpp/convert-llama-hf-to-gguf.py +328 -0
  31. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/convert-lora-to-ggml.py +18 -17
  32. llama_cpp_python-0.1.79/vendor/llama.cpp/convert.py +1111 -0
  33. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/docs/token_generation_performance_tips.md +3 -3
  34. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/CMakeLists.txt +2 -21
  35. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/beam_search/CMakeLists.txt +8 -0
  36. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/beam_search/beam_search.cpp +188 -0
  37. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/convert-llama2c-to-ggml/README.md +9 -5
  38. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/convert-llama2c-to-ggml/convert-llama2c-to-ggml.cpp +88 -50
  39. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/embd-input-lib.cpp +3 -3
  40. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/embd_input.py +1 -0
  41. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/llava.py +1 -0
  42. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/minigpt4.py +1 -0
  43. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/panda_gpt.py +1 -0
  44. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embedding/embedding.cpp +20 -13
  45. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/gguf/gguf.cpp +246 -0
  46. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/gptneox-wip/cmpnct_gpt2bpe.hpp +1133 -0
  47. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/gptneox-wip/falcon-main.cpp +1111 -0
  48. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/gptneox-wip/gptneox-main.cpp +1082 -0
  49. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/graph.py +1 -0
  50. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/jeopardy.sh +0 -0
  51. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/json-schema-to-grammar.py +1 -0
  52. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/llama-bench/CMakeLists.txt +8 -0
  53. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/llama-bench/llama-bench.cpp +1011 -0
  54. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/main/README.md +4 -0
  55. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/main/main.cpp +30 -31
  56. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/make-ggml.py +1 -0
  57. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/metal/metal.cpp +1 -1
  58. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/perplexity/perplexity.cpp +286 -41
  59. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize/quantize.cpp +18 -18
  60. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize-stats/quantize-stats.cpp +1 -1
  61. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/reason-act.sh +0 -1
  62. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/save-load-state/save-load-state.cpp +4 -6
  63. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/README.md +4 -5
  64. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/api_like_OAI.py +1 -0
  65. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/chat-llama2.sh +0 -0
  66. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/chat.sh +0 -0
  67. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/deps.sh +5 -3
  68. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/server/index.html.hpp +2272 -0
  69. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/public/index.html +233 -16
  70. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/server.cpp +250 -103
  71. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server-llama2-13B.sh +0 -0
  72. llama_cpp_python-0.1.79/vendor/llama.cpp/examples/simple/simple.cpp +130 -0
  73. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/train-text-from-scratch/train-text-from-scratch.cpp +70 -72
  74. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-alloc.c +79 -65
  75. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-alloc.h +1 -1
  76. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-cuda.cu +342 -69
  77. llama_cpp_python-0.1.79/vendor/llama.cpp/ggml-cuda.h +46 -0
  78. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-metal.h +3 -0
  79. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-metal.m +102 -66
  80. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-metal.metal +113 -9
  81. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml.c +2064 -233
  82. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml.h +238 -13
  83. llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/LICENSE +21 -0
  84. llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/README.md +55 -0
  85. llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/gguf/__init__.py +1 -0
  86. llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/gguf/gguf.py +727 -0
  87. llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/pyproject.toml +28 -0
  88. llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/tests/test_gguf.py +7 -0
  89. llama_cpp_python-0.1.79/vendor/llama.cpp/grammars/README.md +91 -0
  90. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/k_quants.c +110 -54
  91. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/llama.cpp +4826 -3006
  92. {llama_cpp_python-0.1.78/vendor/llama.cpp/spm-headers → llama_cpp_python-0.1.79/vendor/llama.cpp}/llama.h +174 -123
  93. llama_cpp_python-0.1.79/vendor/llama.cpp/models/.editorconfig +1 -0
  94. llama_cpp_python-0.1.79/vendor/llama.cpp/models/ggml-vocab-llama.gguf +0 -0
  95. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/requirements.txt +1 -0
  96. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/get-wikitext-2.sh +0 -0
  97. llama_cpp_python-0.1.79/vendor/llama.cpp/scripts/qnt-all.sh +27 -0
  98. llama_cpp_python-0.1.79/vendor/llama.cpp/scripts/run-all-perf.sh +31 -0
  99. llama_cpp_python-0.1.79/vendor/llama.cpp/scripts/run-all-ppl.sh +27 -0
  100. llama_cpp_python-0.1.79/vendor/llama.cpp/scripts/sync-ggml.sh +16 -0
  101. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/spm-headers/ggml.h +238 -13
  102. {llama_cpp_python-0.1.78/vendor/llama.cpp → llama_cpp_python-0.1.79/vendor/llama.cpp/spm-headers}/llama.h +174 -123
  103. llama_cpp_python-0.1.79/vendor/llama.cpp/tests/CMakeLists.txt +37 -0
  104. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-grammar-parser.cpp +2 -1
  105. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-llama-grammar.cpp +3 -3
  106. llama_cpp_python-0.1.79/vendor/llama.cpp/tests/test-tokenizer-0.cpp +140 -0
  107. llama_cpp_python-0.1.79/vendor/llama.cpp/tests/test-tokenizer-1.cpp +116 -0
  108. llama_cpp_python-0.1.78/vendor/llama.cpp/.dockerignore +0 -24
  109. llama_cpp_python-0.1.78/vendor/llama.cpp/convert-pth-to-ggml.py +0 -13
  110. llama_cpp_python-0.1.78/vendor/llama.cpp/convert.py +0 -1326
  111. llama_cpp_python-0.1.78/vendor/llama.cpp/examples/server/index.html.hpp +0 -1698
  112. llama_cpp_python-0.1.78/vendor/llama.cpp/examples/simple/simple.cpp +0 -181
  113. llama_cpp_python-0.1.78/vendor/llama.cpp/ggml-cuda.h +0 -37
  114. llama_cpp_python-0.1.78/vendor/llama.cpp/llama-util.h +0 -553
  115. llama_cpp_python-0.1.78/vendor/llama.cpp/models/ggml-vocab.bin +0 -0
  116. llama_cpp_python-0.1.78/vendor/llama.cpp/scripts/perf-run-all.sh +0 -93
  117. llama_cpp_python-0.1.78/vendor/llama.cpp/scripts/ppl-run-all.sh +0 -39
  118. llama_cpp_python-0.1.78/vendor/llama.cpp/scripts/sync-ggml.sh +0 -14
  119. llama_cpp_python-0.1.78/vendor/llama.cpp/tests/CMakeLists.txt +0 -17
  120. llama_cpp_python-0.1.78/vendor/llama.cpp/tests/test-tokenizer-0.cpp +0 -105
  121. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.dockerignore +0 -0
  122. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/ISSUE_TEMPLATE/bug_report.md +0 -0
  123. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/ISSUE_TEMPLATE/feature_request.md +0 -0
  124. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/dependabot.yml +0 -0
  125. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/build-and-release.yaml +0 -0
  126. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/build-docker.yaml +0 -0
  127. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/publish-to-test.yaml +0 -0
  128. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/publish.yaml +0 -0
  129. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/test-pypi.yaml +0 -0
  130. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/test.yaml +0 -0
  131. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.gitignore +0 -0
  132. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.gitmodules +0 -0
  133. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.readthedocs.yaml +0 -0
  134. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/CMakeLists.txt +0 -0
  135. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/LICENSE.md +0 -0
  136. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/Makefile +0 -0
  137. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/README.md +0 -0
  138. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/cuda_simple/Dockerfile +0 -0
  139. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/Dockerfile +0 -0
  140. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/build.sh +0 -0
  141. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/hug_model.py +0 -0
  142. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/start.sh +0 -0
  143. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/start_server.sh +0 -0
  144. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/openblas_simple/Dockerfile +0 -0
  145. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/simple/Dockerfile +0 -0
  146. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/simple/run.sh +0 -0
  147. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docs/api-reference.md +0 -0
  148. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docs/index.md +0 -0
  149. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docs/install/macos.md +0 -0
  150. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docs/requirements.txt +0 -0
  151. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/fastapi_server.py +0 -0
  152. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/high_level_api_embedding.py +0 -0
  153. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/high_level_api_inference.py +0 -0
  154. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/high_level_api_streaming.py +0 -0
  155. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/langchain_custom_llm.py +0 -0
  156. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/Chat.py +0 -0
  157. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/Miku.py +0 -0
  158. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/ReasonAct.py +0 -0
  159. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/common.py +0 -0
  160. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/low_level_api_chat_cpp.py +0 -0
  161. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/low_level_api_llama_cpp.py +0 -0
  162. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/quantize.py +0 -0
  163. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/util.py +0 -0
  164. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/notebooks/Clients.ipynb +0 -0
  165. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/notebooks/Guidance.ipynb +0 -0
  166. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/notebooks/PerformanceTuning.ipynb +0 -0
  167. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/__init__.py +0 -0
  168. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/llama_grammar.py +0 -0
  169. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/llama_types.py +0 -0
  170. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/py.typed +0 -0
  171. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/server/__init__.py +0 -0
  172. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/server/__main__.py +0 -0
  173. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/server/app.py +0 -0
  174. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/utils.py +0 -0
  175. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/dependency_links.txt +0 -0
  176. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/requires.txt +0 -0
  177. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/top_level.txt +0 -0
  178. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/mkdocs.yml +0 -0
  179. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/poetry.lock +0 -0
  180. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/poetry.toml +0 -0
  181. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/setup.cfg +0 -0
  182. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.clang-tidy +0 -0
  183. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/full-cuda.Dockerfile +0 -0
  184. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/full.Dockerfile +0 -0
  185. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/main-cuda.Dockerfile +0 -0
  186. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/main.Dockerfile +0 -0
  187. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/tools.sh +0 -0
  188. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.ecrc +0 -0
  189. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.editorconfig +0 -0
  190. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.flake8 +0 -0
  191. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/ISSUE_TEMPLATE/custom.md +0 -0
  192. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/docker.yml +0 -0
  193. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/editorconfig.yml +0 -0
  194. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/tidy-post.yml +0 -0
  195. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/tidy-review.yml +0 -0
  196. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.pre-commit-config.yaml +0 -0
  197. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/LICENSE +0 -0
  198. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/Package.swift +0 -0
  199. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/SHA256SUMS +0 -0
  200. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/build.zig +0 -0
  201. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ci/README.md +0 -0
  202. {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/console.cpp +0 -0
  203. {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/console.h +0 -0
  204. {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/grammar-parser.cpp +0 -0
  205. {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/grammar-parser.h +0 -0
  206. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/docs/BLIS.md +0 -0
  207. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/Miku.sh +0 -0
  208. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/alpaca.sh +0 -0
  209. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/baby-llama/CMakeLists.txt +0 -0
  210. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/baby-llama/baby-llama.cpp +0 -0
  211. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/benchmark/CMakeLists.txt +0 -0
  212. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/benchmark/benchmark-matmult.cpp +0 -0
  213. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat-13B.bat +0 -0
  214. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat-13B.sh +0 -0
  215. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat-persistent.sh +0 -0
  216. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat-vicuna.sh +0 -0
  217. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat.sh +0 -0
  218. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/convert-llama2c-to-ggml/CMakeLists.txt +0 -0
  219. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/.gitignore +0 -0
  220. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/CMakeLists.txt +0 -0
  221. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/README.md +0 -0
  222. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/embd-input-test.cpp +0 -0
  223. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/embd-input.h +0 -0
  224. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embedding/CMakeLists.txt +0 -0
  225. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embedding/README.md +0 -0
  226. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/gpt4all.sh +0 -0
  227. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/README.md +0 -0
  228. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/qasheet.csv +0 -0
  229. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/questions.txt +0 -0
  230. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/llama.vim +0 -0
  231. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/llama2-13b.sh +0 -0
  232. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/llama2.sh +0 -0
  233. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/llm.vim +0 -0
  234. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/main/CMakeLists.txt +0 -0
  235. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/metal/CMakeLists.txt +0 -0
  236. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/perplexity/CMakeLists.txt +0 -0
  237. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/perplexity/README.md +0 -0
  238. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize/CMakeLists.txt +0 -0
  239. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize/README.md +0 -0
  240. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize-stats/CMakeLists.txt +0 -0
  241. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/save-load-state/CMakeLists.txt +0 -0
  242. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/CMakeLists.txt +0 -0
  243. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/chat.mjs +0 -0
  244. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/completion.js.hpp +0 -0
  245. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/httplib.h +0 -0
  246. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/index.js.hpp +0 -0
  247. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/json-schema-to-grammar.mjs.hpp +0 -0
  248. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/json.hpp +0 -0
  249. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/public/completion.js +0 -0
  250. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/public/index.js +0 -0
  251. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/public/json-schema-to-grammar.mjs +0 -0
  252. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/simple/CMakeLists.txt +0 -0
  253. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/train-text-from-scratch/CMakeLists.txt +0 -0
  254. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/train-text-from-scratch/README.md +0 -0
  255. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/flake.lock +0 -0
  256. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/flake.nix +0 -0
  257. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-mpi.c +0 -0
  258. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-mpi.h +0 -0
  259. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-opencl.cpp +0 -0
  260. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-opencl.h +0 -0
  261. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/arithmetic.gbnf +0 -0
  262. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/chess.gbnf +0 -0
  263. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/japanese.gbnf +0 -0
  264. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/json.gbnf +0 -0
  265. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/list.gbnf +0 -0
  266. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/k_quants.h +0 -0
  267. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama-leader.jpeg +0 -0
  268. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama0-banner.png +0 -0
  269. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama0-logo.png +0 -0
  270. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama1-banner.png +0 -0
  271. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama1-logo.png +0 -0
  272. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/pocs/CMakeLists.txt +0 -0
  273. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/pocs/vdot/CMakeLists.txt +0 -0
  274. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/pocs/vdot/q8dot.cpp +0 -0
  275. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/pocs/vdot/vdot.cpp +0 -0
  276. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/alpaca.txt +0 -0
  277. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/chat-with-bob.txt +0 -0
  278. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/chat-with-vicuna-v0.txt +0 -0
  279. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/chat-with-vicuna-v1.txt +0 -0
  280. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/chat.txt +0 -0
  281. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/dan-modified.txt +0 -0
  282. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/dan.txt +0 -0
  283. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/reason-act.txt +0 -0
  284. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/build-info.cmake +0 -0
  285. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/build-info.h.in +0 -0
  286. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/build-info.sh +0 -0
  287. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/verify-checksum-models.py +0 -0
  288. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-double-float.cpp +0 -0
  289. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-grad0.cpp +0 -0
  290. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-opt.cpp +0 -0
  291. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-quantize-fns.cpp +0 -0
  292. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-quantize-perf.cpp +0 -0
  293. {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-sampling.cpp +0 -0
@@ -7,6 +7,12 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
7
7
 
8
8
  ## [Unreleased]
9
9
 
10
+ ## [0.1.79]
11
+
12
+ ### Added
13
+
14
+ - (llama.cpp) GGUF support
15
+
10
16
  ## [0.1.78]
11
17
 
12
18
  ### Added
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.1
2
2
  Name: llama_cpp_python
3
- Version: 0.1.78
3
+ Version: 0.1.79
4
4
  Summary: A Python wrapper for llama.cpp
5
5
  Author: Andrei Betlen
6
6
  Author-email: abetlen@gmail.com
@@ -35,6 +35,9 @@ This package provides:
35
35
 
36
36
  Documentation is available at [https://llama-cpp-python.readthedocs.io/en/latest](https://llama-cpp-python.readthedocs.io/en/latest).
37
37
 
38
+ > [!WARNING]
39
+ > Starting with version 0.1.79 the model format has changed from `ggmlv3` to `gguf`. Old model files can be converted using the `convert-llama-ggmlv3-to-gguf.py` script in [`llama.cpp`](https://github.com/ggerganov/llama.cpp)
40
+
38
41
 
39
42
  ## Installation from PyPI (recommended)
40
43
 
@@ -17,6 +17,9 @@ This package provides:
17
17
 
18
18
  Documentation is available at [https://llama-cpp-python.readthedocs.io/en/latest](https://llama-cpp-python.readthedocs.io/en/latest).
19
19
 
20
+ > [!WARNING]
21
+ > Starting with version 0.1.79 the model format has changed from `ggmlv3` to `gguf`. Old model files can be converted using the `convert-llama-ggmlv3-to-gguf.py` script in [`llama.cpp`](https://github.com/ggerganov/llama.cpp)
22
+
20
23
 
21
24
  ## Installation from PyPI (recommended)
22
25
 
@@ -228,7 +228,7 @@ class Llama:
228
228
  rope_freq_scale: float = 1.0,
229
229
  n_gqa: Optional[int] = None, # (TEMPORARY) must be 8 for llama2 70b
230
230
  rms_norm_eps: Optional[float] = None, # (TEMPORARY)
231
- mul_mat_q: Optional[bool] = None, # (TEMPORARY)
231
+ mul_mat_q: Optional[bool] = None,
232
232
  verbose: bool = True,
233
233
  ):
234
234
  """Load a llama.cpp model from `model_path`.
@@ -290,11 +290,6 @@ class Llama:
290
290
  self.params.rope_freq_base = rope_freq_base
291
291
  self.params.rope_freq_scale = rope_freq_scale
292
292
 
293
- if n_gqa is not None:
294
- self.params.n_gqa = n_gqa
295
-
296
- if rms_norm_eps is not None:
297
- self.params.rms_norm_eps = rms_norm_eps
298
293
 
299
294
  if mul_mat_q is not None:
300
295
  self.params.mul_mat_q = mul_mat_q
@@ -371,8 +366,8 @@ class Llama:
371
366
  sorted=sorted,
372
367
  )
373
368
  self._candidates = candidates
374
- self._token_nl = Llama.token_nl()
375
- self._token_eos = Llama.token_eos()
369
+ self._token_nl = self.token_nl()
370
+ self._token_eos = self.token_eos()
376
371
  self._candidates_data_id = np.arange(self._n_vocab, dtype=np.intc) # type: ignore
377
372
  self._candidates_data_p = np.zeros(self._n_vocab, dtype=np.single)
378
373
 
@@ -413,11 +408,11 @@ class Llama:
413
408
  Returns:
414
409
  A list of tokens.
415
410
  """
416
- assert self.ctx is not None
411
+ assert self.model is not None
417
412
  n_ctx = self._n_ctx
418
413
  tokens = (llama_cpp.llama_token * n_ctx)()
419
- n_tokens = llama_cpp.llama_tokenize(
420
- self.ctx,
414
+ n_tokens = llama_cpp.llama_tokenize_with_model(
415
+ self.model,
421
416
  text,
422
417
  tokens,
423
418
  llama_cpp.c_int(n_ctx),
@@ -426,8 +421,8 @@ class Llama:
426
421
  if n_tokens < 0:
427
422
  n_tokens = abs(n_tokens)
428
423
  tokens = (llama_cpp.llama_token * n_tokens)()
429
- n_tokens = llama_cpp.llama_tokenize(
430
- self.ctx,
424
+ n_tokens = llama_cpp.llama_tokenize_with_model(
425
+ self.model,
431
426
  text,
432
427
  tokens,
433
428
  llama_cpp.c_int(n_tokens),
@@ -448,13 +443,19 @@ class Llama:
448
443
  Returns:
449
444
  The detokenized string.
450
445
  """
451
- assert self.ctx is not None
446
+ assert self.model is not None
452
447
  output = b""
448
+ size = 8
449
+ buffer = (ctypes.c_char * size)()
453
450
  for token in tokens:
454
- output += llama_cpp.llama_token_to_str(
455
- self.ctx, llama_cpp.llama_token(token)
451
+ n = llama_cpp.llama_token_to_str_with_model(
452
+ self.model, llama_cpp.llama_token(token), buffer, size
456
453
  )
457
- return output
454
+ assert n <= size
455
+ output += bytes(buffer[:n])
456
+ # NOTE: Llama1 models automatically added a space at the start of the prompt
457
+ # this line removes a leading space if the first token is a beginning of sentence token
458
+ return output[1:] if len(tokens) > 0 and tokens[0] == self.token_bos() else output
458
459
 
459
460
  def set_cache(self, cache: Optional[BaseLlamaCache]):
460
461
  """Set the cache.
@@ -885,7 +886,7 @@ class Llama:
885
886
  created: int = int(time.time())
886
887
  completion_tokens: List[int] = []
887
888
  # Add blank space to start of prompt to match OG llama tokenizer
888
- prompt_tokens: List[int] = self.tokenize(b" " + prompt.encode("utf-8"))
889
+ prompt_tokens: List[int] = self.tokenize(prompt.encode("utf-8")) if prompt != "" else [self.token_bos()]
889
890
  text: bytes = b""
890
891
  returned_tokens: int = 0
891
892
  stop = (
@@ -1581,13 +1582,7 @@ class Llama:
1581
1582
  lora_base=self.lora_base,
1582
1583
  lora_path=self.lora_path,
1583
1584
  tensor_split=self.tensor_split,
1584
- ### TEMPORARY ###
1585
- n_gqa=self.params.n_gqa,
1586
- rms_norm_eps=self.params.rms_norm_eps,
1587
- ### TEMPORARY ###
1588
- ### DEPRECATED ###
1589
- n_parts=self.n_parts,
1590
- ### DEPRECATED ###
1585
+ mul_mat_q=self.params.mul_mat_q,
1591
1586
  )
1592
1587
 
1593
1588
  def __setstate__(self, state):
@@ -1609,14 +1604,8 @@ class Llama:
1609
1604
  lora_base=state["lora_base"],
1610
1605
  lora_path=state["lora_path"],
1611
1606
  tensor_split=state["tensor_split"],
1607
+ mul_mat_q=state["mul_mat_q"],
1612
1608
  verbose=state["verbose"],
1613
- ### TEMPORARY ###
1614
- n_gqa=state["n_gqa"],
1615
- rms_norm_eps=state["rms_norm_eps"],
1616
- ### TEMPORARY ###
1617
- ### DEPRECATED ###
1618
- n_parts=state["n_parts"],
1619
- ### DEPRECATED ###
1620
1609
  )
1621
1610
 
1622
1611
  def save_state(self) -> LlamaState:
@@ -1681,20 +1670,20 @@ class Llama:
1681
1670
  assert self.ctx is not None
1682
1671
  return LlamaTokenizer(self)
1683
1672
 
1684
- @staticmethod
1685
- def token_eos() -> int:
1673
+ def token_eos(self) -> int:
1686
1674
  """Return the end-of-sequence token."""
1687
- return llama_cpp.llama_token_eos()
1675
+ assert self.ctx is not None
1676
+ return llama_cpp.llama_token_eos(self.ctx)
1688
1677
 
1689
- @staticmethod
1690
- def token_bos() -> int:
1678
+ def token_bos(self) -> int:
1691
1679
  """Return the beginning-of-sequence token."""
1692
- return llama_cpp.llama_token_bos()
1680
+ assert self.ctx is not None
1681
+ return llama_cpp.llama_token_bos(self.ctx)
1693
1682
 
1694
- @staticmethod
1695
- def token_nl() -> int:
1683
+ def token_nl(self) -> int:
1696
1684
  """Return the newline token."""
1697
- return llama_cpp.llama_token_nl()
1685
+ assert self.ctx is not None
1686
+ return llama_cpp.llama_token_nl(self.ctx)
1698
1687
 
1699
1688
  @staticmethod
1700
1689
  def logits_to_logprobs(logits: List[float]) -> List[float]: