llama-cpp-python 0.1.78__tar.gz → 0.1.79__tar.gz
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/CHANGELOG.md +6 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/PKG-INFO +4 -1
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/README.md +3 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/llama.py +30 -41
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/llama_cpp.py +453 -312
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/PKG-INFO +4 -1
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/SOURCES.txt +39 -12
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/pyproject.toml +4 -1
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/setup.py +1 -1
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/tests/test_llama.py +17 -5
- llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/full-rocm.Dockerfile +44 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/lamma-cpp-clblast.srpm.spec +58 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/lamma-cpp-cublas.srpm.spec +59 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/llama-cpp.srpm.spec +58 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/.devops/main-rocm.Dockerfile +44 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/.dockerignore +17 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/build.yml +46 -17
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.gitignore +8 -17
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/CMakeLists.txt +49 -2
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/Makefile +40 -10
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/README.md +144 -95
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ci/run.sh +23 -22
- llama_cpp_python-0.1.79/vendor/llama.cpp/common/CMakeLists.txt +20 -0
- {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/common.cpp +67 -37
- {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/common.h +22 -10
- llama_cpp_python-0.1.79/vendor/llama.cpp/convert-falcon-hf-to-gguf.py +279 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/convert-gptneox-hf-to-gguf.py +267 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/convert-llama-7b-pth-to-gguf.py +308 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/convert-llama-ggmlv3-to-gguf.py +345 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/convert-llama-hf-to-gguf.py +328 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/convert-lora-to-ggml.py +18 -17
- llama_cpp_python-0.1.79/vendor/llama.cpp/convert.py +1111 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/docs/token_generation_performance_tips.md +3 -3
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/CMakeLists.txt +2 -21
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/beam_search/CMakeLists.txt +8 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/beam_search/beam_search.cpp +188 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/convert-llama2c-to-ggml/README.md +9 -5
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/convert-llama2c-to-ggml/convert-llama2c-to-ggml.cpp +88 -50
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/embd-input-lib.cpp +3 -3
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/embd_input.py +1 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/llava.py +1 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/minigpt4.py +1 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/panda_gpt.py +1 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embedding/embedding.cpp +20 -13
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/gguf/gguf.cpp +246 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/gptneox-wip/cmpnct_gpt2bpe.hpp +1133 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/gptneox-wip/falcon-main.cpp +1111 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/gptneox-wip/gptneox-main.cpp +1082 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/graph.py +1 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/jeopardy.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/json-schema-to-grammar.py +1 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/llama-bench/CMakeLists.txt +8 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/llama-bench/llama-bench.cpp +1011 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/main/README.md +4 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/main/main.cpp +30 -31
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/make-ggml.py +1 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/metal/metal.cpp +1 -1
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/perplexity/perplexity.cpp +286 -41
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize/quantize.cpp +18 -18
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize-stats/quantize-stats.cpp +1 -1
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/reason-act.sh +0 -1
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/save-load-state/save-load-state.cpp +4 -6
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/README.md +4 -5
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/api_like_OAI.py +1 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/chat-llama2.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/chat.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/deps.sh +5 -3
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/server/index.html.hpp +2272 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/public/index.html +233 -16
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/server.cpp +250 -103
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server-llama2-13B.sh +0 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/examples/simple/simple.cpp +130 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/train-text-from-scratch/train-text-from-scratch.cpp +70 -72
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-alloc.c +79 -65
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-alloc.h +1 -1
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-cuda.cu +342 -69
- llama_cpp_python-0.1.79/vendor/llama.cpp/ggml-cuda.h +46 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-metal.h +3 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-metal.m +102 -66
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-metal.metal +113 -9
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml.c +2064 -233
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml.h +238 -13
- llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/LICENSE +21 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/README.md +55 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/gguf/__init__.py +1 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/gguf/gguf.py +727 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/pyproject.toml +28 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/gguf-py/tests/test_gguf.py +7 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/grammars/README.md +91 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/k_quants.c +110 -54
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/llama.cpp +4826 -3006
- {llama_cpp_python-0.1.78/vendor/llama.cpp/spm-headers → llama_cpp_python-0.1.79/vendor/llama.cpp}/llama.h +174 -123
- llama_cpp_python-0.1.79/vendor/llama.cpp/models/.editorconfig +1 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/models/ggml-vocab-llama.gguf +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/requirements.txt +1 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/get-wikitext-2.sh +0 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/scripts/qnt-all.sh +27 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/scripts/run-all-perf.sh +31 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/scripts/run-all-ppl.sh +27 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/scripts/sync-ggml.sh +16 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/spm-headers/ggml.h +238 -13
- {llama_cpp_python-0.1.78/vendor/llama.cpp → llama_cpp_python-0.1.79/vendor/llama.cpp/spm-headers}/llama.h +174 -123
- llama_cpp_python-0.1.79/vendor/llama.cpp/tests/CMakeLists.txt +37 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-grammar-parser.cpp +2 -1
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-llama-grammar.cpp +3 -3
- llama_cpp_python-0.1.79/vendor/llama.cpp/tests/test-tokenizer-0.cpp +140 -0
- llama_cpp_python-0.1.79/vendor/llama.cpp/tests/test-tokenizer-1.cpp +116 -0
- llama_cpp_python-0.1.78/vendor/llama.cpp/.dockerignore +0 -24
- llama_cpp_python-0.1.78/vendor/llama.cpp/convert-pth-to-ggml.py +0 -13
- llama_cpp_python-0.1.78/vendor/llama.cpp/convert.py +0 -1326
- llama_cpp_python-0.1.78/vendor/llama.cpp/examples/server/index.html.hpp +0 -1698
- llama_cpp_python-0.1.78/vendor/llama.cpp/examples/simple/simple.cpp +0 -181
- llama_cpp_python-0.1.78/vendor/llama.cpp/ggml-cuda.h +0 -37
- llama_cpp_python-0.1.78/vendor/llama.cpp/llama-util.h +0 -553
- llama_cpp_python-0.1.78/vendor/llama.cpp/models/ggml-vocab.bin +0 -0
- llama_cpp_python-0.1.78/vendor/llama.cpp/scripts/perf-run-all.sh +0 -93
- llama_cpp_python-0.1.78/vendor/llama.cpp/scripts/ppl-run-all.sh +0 -39
- llama_cpp_python-0.1.78/vendor/llama.cpp/scripts/sync-ggml.sh +0 -14
- llama_cpp_python-0.1.78/vendor/llama.cpp/tests/CMakeLists.txt +0 -17
- llama_cpp_python-0.1.78/vendor/llama.cpp/tests/test-tokenizer-0.cpp +0 -105
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.dockerignore +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/ISSUE_TEMPLATE/bug_report.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/ISSUE_TEMPLATE/feature_request.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/dependabot.yml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/build-and-release.yaml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/build-docker.yaml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/publish-to-test.yaml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/publish.yaml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/test-pypi.yaml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.github/workflows/test.yaml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.gitignore +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.gitmodules +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/.readthedocs.yaml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/LICENSE.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/Makefile +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/README.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/cuda_simple/Dockerfile +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/Dockerfile +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/build.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/hug_model.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/start.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/open_llama/start_server.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/openblas_simple/Dockerfile +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/simple/Dockerfile +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docker/simple/run.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docs/api-reference.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docs/index.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docs/install/macos.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/docs/requirements.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/fastapi_server.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/high_level_api_embedding.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/high_level_api_inference.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/high_level_api_streaming.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/high_level_api/langchain_custom_llm.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/Chat.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/Miku.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/ReasonAct.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/common.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/low_level_api_chat_cpp.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/low_level_api_llama_cpp.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/quantize.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/low_level_api/util.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/notebooks/Clients.ipynb +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/notebooks/Guidance.ipynb +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/examples/notebooks/PerformanceTuning.ipynb +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/__init__.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/llama_grammar.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/llama_types.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/py.typed +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/server/__init__.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/server/__main__.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/server/app.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp/utils.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/dependency_links.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/requires.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/llama_cpp_python.egg-info/top_level.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/mkdocs.yml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/poetry.lock +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/poetry.toml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/setup.cfg +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.clang-tidy +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/full-cuda.Dockerfile +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/full.Dockerfile +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/main-cuda.Dockerfile +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/main.Dockerfile +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.devops/tools.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.ecrc +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.editorconfig +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.flake8 +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/ISSUE_TEMPLATE/custom.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/docker.yml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/editorconfig.yml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/tidy-post.yml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.github/workflows/tidy-review.yml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/.pre-commit-config.yaml +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/LICENSE +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/Package.swift +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/SHA256SUMS +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/build.zig +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ci/README.md +0 -0
- {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/console.cpp +0 -0
- {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/console.h +0 -0
- {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/grammar-parser.cpp +0 -0
- {llama_cpp_python-0.1.78/vendor/llama.cpp/examples → llama_cpp_python-0.1.79/vendor/llama.cpp/common}/grammar-parser.h +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/docs/BLIS.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/Miku.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/alpaca.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/baby-llama/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/baby-llama/baby-llama.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/benchmark/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/benchmark/benchmark-matmult.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat-13B.bat +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat-13B.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat-persistent.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat-vicuna.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/chat.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/convert-llama2c-to-ggml/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/.gitignore +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/README.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/embd-input-test.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embd-input/embd-input.h +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embedding/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/embedding/README.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/gpt4all.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/README.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/qasheet.csv +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/jeopardy/questions.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/llama.vim +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/llama2-13b.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/llama2.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/llm.vim +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/main/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/metal/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/perplexity/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/perplexity/README.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize/README.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/quantize-stats/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/save-load-state/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/chat.mjs +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/completion.js.hpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/httplib.h +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/index.js.hpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/json-schema-to-grammar.mjs.hpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/json.hpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/public/completion.js +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/public/index.js +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/server/public/json-schema-to-grammar.mjs +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/simple/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/train-text-from-scratch/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/examples/train-text-from-scratch/README.md +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/flake.lock +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/flake.nix +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-mpi.c +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-mpi.h +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-opencl.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/ggml-opencl.h +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/arithmetic.gbnf +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/chess.gbnf +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/japanese.gbnf +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/json.gbnf +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/grammars/list.gbnf +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/k_quants.h +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama-leader.jpeg +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama0-banner.png +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama0-logo.png +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama1-banner.png +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/media/llama1-logo.png +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/pocs/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/pocs/vdot/CMakeLists.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/pocs/vdot/q8dot.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/pocs/vdot/vdot.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/alpaca.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/chat-with-bob.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/chat-with-vicuna-v0.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/chat-with-vicuna-v1.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/chat.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/dan-modified.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/dan.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/prompts/reason-act.txt +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/build-info.cmake +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/build-info.h.in +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/build-info.sh +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/scripts/verify-checksum-models.py +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-double-float.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-grad0.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-opt.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-quantize-fns.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-quantize-perf.cpp +0 -0
- {llama_cpp_python-0.1.78 → llama_cpp_python-0.1.79}/vendor/llama.cpp/tests/test-sampling.cpp +0 -0
|
@@ -1,6 +1,6 @@
|
|
|
1
1
|
Metadata-Version: 2.1
|
|
2
2
|
Name: llama_cpp_python
|
|
3
|
-
Version: 0.1.
|
|
3
|
+
Version: 0.1.79
|
|
4
4
|
Summary: A Python wrapper for llama.cpp
|
|
5
5
|
Author: Andrei Betlen
|
|
6
6
|
Author-email: abetlen@gmail.com
|
|
@@ -35,6 +35,9 @@ This package provides:
|
|
|
35
35
|
|
|
36
36
|
Documentation is available at [https://llama-cpp-python.readthedocs.io/en/latest](https://llama-cpp-python.readthedocs.io/en/latest).
|
|
37
37
|
|
|
38
|
+
> [!WARNING]
|
|
39
|
+
> Starting with version 0.1.79 the model format has changed from `ggmlv3` to `gguf`. Old model files can be converted using the `convert-llama-ggmlv3-to-gguf.py` script in [`llama.cpp`](https://github.com/ggerganov/llama.cpp)
|
|
40
|
+
|
|
38
41
|
|
|
39
42
|
## Installation from PyPI (recommended)
|
|
40
43
|
|
|
@@ -17,6 +17,9 @@ This package provides:
|
|
|
17
17
|
|
|
18
18
|
Documentation is available at [https://llama-cpp-python.readthedocs.io/en/latest](https://llama-cpp-python.readthedocs.io/en/latest).
|
|
19
19
|
|
|
20
|
+
> [!WARNING]
|
|
21
|
+
> Starting with version 0.1.79 the model format has changed from `ggmlv3` to `gguf`. Old model files can be converted using the `convert-llama-ggmlv3-to-gguf.py` script in [`llama.cpp`](https://github.com/ggerganov/llama.cpp)
|
|
22
|
+
|
|
20
23
|
|
|
21
24
|
## Installation from PyPI (recommended)
|
|
22
25
|
|
|
@@ -228,7 +228,7 @@ class Llama:
|
|
|
228
228
|
rope_freq_scale: float = 1.0,
|
|
229
229
|
n_gqa: Optional[int] = None, # (TEMPORARY) must be 8 for llama2 70b
|
|
230
230
|
rms_norm_eps: Optional[float] = None, # (TEMPORARY)
|
|
231
|
-
mul_mat_q: Optional[bool] = None,
|
|
231
|
+
mul_mat_q: Optional[bool] = None,
|
|
232
232
|
verbose: bool = True,
|
|
233
233
|
):
|
|
234
234
|
"""Load a llama.cpp model from `model_path`.
|
|
@@ -290,11 +290,6 @@ class Llama:
|
|
|
290
290
|
self.params.rope_freq_base = rope_freq_base
|
|
291
291
|
self.params.rope_freq_scale = rope_freq_scale
|
|
292
292
|
|
|
293
|
-
if n_gqa is not None:
|
|
294
|
-
self.params.n_gqa = n_gqa
|
|
295
|
-
|
|
296
|
-
if rms_norm_eps is not None:
|
|
297
|
-
self.params.rms_norm_eps = rms_norm_eps
|
|
298
293
|
|
|
299
294
|
if mul_mat_q is not None:
|
|
300
295
|
self.params.mul_mat_q = mul_mat_q
|
|
@@ -371,8 +366,8 @@ class Llama:
|
|
|
371
366
|
sorted=sorted,
|
|
372
367
|
)
|
|
373
368
|
self._candidates = candidates
|
|
374
|
-
self._token_nl =
|
|
375
|
-
self._token_eos =
|
|
369
|
+
self._token_nl = self.token_nl()
|
|
370
|
+
self._token_eos = self.token_eos()
|
|
376
371
|
self._candidates_data_id = np.arange(self._n_vocab, dtype=np.intc) # type: ignore
|
|
377
372
|
self._candidates_data_p = np.zeros(self._n_vocab, dtype=np.single)
|
|
378
373
|
|
|
@@ -413,11 +408,11 @@ class Llama:
|
|
|
413
408
|
Returns:
|
|
414
409
|
A list of tokens.
|
|
415
410
|
"""
|
|
416
|
-
assert self.
|
|
411
|
+
assert self.model is not None
|
|
417
412
|
n_ctx = self._n_ctx
|
|
418
413
|
tokens = (llama_cpp.llama_token * n_ctx)()
|
|
419
|
-
n_tokens = llama_cpp.
|
|
420
|
-
self.
|
|
414
|
+
n_tokens = llama_cpp.llama_tokenize_with_model(
|
|
415
|
+
self.model,
|
|
421
416
|
text,
|
|
422
417
|
tokens,
|
|
423
418
|
llama_cpp.c_int(n_ctx),
|
|
@@ -426,8 +421,8 @@ class Llama:
|
|
|
426
421
|
if n_tokens < 0:
|
|
427
422
|
n_tokens = abs(n_tokens)
|
|
428
423
|
tokens = (llama_cpp.llama_token * n_tokens)()
|
|
429
|
-
n_tokens = llama_cpp.
|
|
430
|
-
self.
|
|
424
|
+
n_tokens = llama_cpp.llama_tokenize_with_model(
|
|
425
|
+
self.model,
|
|
431
426
|
text,
|
|
432
427
|
tokens,
|
|
433
428
|
llama_cpp.c_int(n_tokens),
|
|
@@ -448,13 +443,19 @@ class Llama:
|
|
|
448
443
|
Returns:
|
|
449
444
|
The detokenized string.
|
|
450
445
|
"""
|
|
451
|
-
assert self.
|
|
446
|
+
assert self.model is not None
|
|
452
447
|
output = b""
|
|
448
|
+
size = 8
|
|
449
|
+
buffer = (ctypes.c_char * size)()
|
|
453
450
|
for token in tokens:
|
|
454
|
-
|
|
455
|
-
self.
|
|
451
|
+
n = llama_cpp.llama_token_to_str_with_model(
|
|
452
|
+
self.model, llama_cpp.llama_token(token), buffer, size
|
|
456
453
|
)
|
|
457
|
-
|
|
454
|
+
assert n <= size
|
|
455
|
+
output += bytes(buffer[:n])
|
|
456
|
+
# NOTE: Llama1 models automatically added a space at the start of the prompt
|
|
457
|
+
# this line removes a leading space if the first token is a beginning of sentence token
|
|
458
|
+
return output[1:] if len(tokens) > 0 and tokens[0] == self.token_bos() else output
|
|
458
459
|
|
|
459
460
|
def set_cache(self, cache: Optional[BaseLlamaCache]):
|
|
460
461
|
"""Set the cache.
|
|
@@ -885,7 +886,7 @@ class Llama:
|
|
|
885
886
|
created: int = int(time.time())
|
|
886
887
|
completion_tokens: List[int] = []
|
|
887
888
|
# Add blank space to start of prompt to match OG llama tokenizer
|
|
888
|
-
prompt_tokens: List[int] = self.tokenize(
|
|
889
|
+
prompt_tokens: List[int] = self.tokenize(prompt.encode("utf-8")) if prompt != "" else [self.token_bos()]
|
|
889
890
|
text: bytes = b""
|
|
890
891
|
returned_tokens: int = 0
|
|
891
892
|
stop = (
|
|
@@ -1581,13 +1582,7 @@ class Llama:
|
|
|
1581
1582
|
lora_base=self.lora_base,
|
|
1582
1583
|
lora_path=self.lora_path,
|
|
1583
1584
|
tensor_split=self.tensor_split,
|
|
1584
|
-
|
|
1585
|
-
n_gqa=self.params.n_gqa,
|
|
1586
|
-
rms_norm_eps=self.params.rms_norm_eps,
|
|
1587
|
-
### TEMPORARY ###
|
|
1588
|
-
### DEPRECATED ###
|
|
1589
|
-
n_parts=self.n_parts,
|
|
1590
|
-
### DEPRECATED ###
|
|
1585
|
+
mul_mat_q=self.params.mul_mat_q,
|
|
1591
1586
|
)
|
|
1592
1587
|
|
|
1593
1588
|
def __setstate__(self, state):
|
|
@@ -1609,14 +1604,8 @@ class Llama:
|
|
|
1609
1604
|
lora_base=state["lora_base"],
|
|
1610
1605
|
lora_path=state["lora_path"],
|
|
1611
1606
|
tensor_split=state["tensor_split"],
|
|
1607
|
+
mul_mat_q=state["mul_mat_q"],
|
|
1612
1608
|
verbose=state["verbose"],
|
|
1613
|
-
### TEMPORARY ###
|
|
1614
|
-
n_gqa=state["n_gqa"],
|
|
1615
|
-
rms_norm_eps=state["rms_norm_eps"],
|
|
1616
|
-
### TEMPORARY ###
|
|
1617
|
-
### DEPRECATED ###
|
|
1618
|
-
n_parts=state["n_parts"],
|
|
1619
|
-
### DEPRECATED ###
|
|
1620
1609
|
)
|
|
1621
1610
|
|
|
1622
1611
|
def save_state(self) -> LlamaState:
|
|
@@ -1681,20 +1670,20 @@ class Llama:
|
|
|
1681
1670
|
assert self.ctx is not None
|
|
1682
1671
|
return LlamaTokenizer(self)
|
|
1683
1672
|
|
|
1684
|
-
|
|
1685
|
-
def token_eos() -> int:
|
|
1673
|
+
def token_eos(self) -> int:
|
|
1686
1674
|
"""Return the end-of-sequence token."""
|
|
1687
|
-
|
|
1675
|
+
assert self.ctx is not None
|
|
1676
|
+
return llama_cpp.llama_token_eos(self.ctx)
|
|
1688
1677
|
|
|
1689
|
-
|
|
1690
|
-
def token_bos() -> int:
|
|
1678
|
+
def token_bos(self) -> int:
|
|
1691
1679
|
"""Return the beginning-of-sequence token."""
|
|
1692
|
-
|
|
1680
|
+
assert self.ctx is not None
|
|
1681
|
+
return llama_cpp.llama_token_bos(self.ctx)
|
|
1693
1682
|
|
|
1694
|
-
|
|
1695
|
-
def token_nl() -> int:
|
|
1683
|
+
def token_nl(self) -> int:
|
|
1696
1684
|
"""Return the newline token."""
|
|
1697
|
-
|
|
1685
|
+
assert self.ctx is not None
|
|
1686
|
+
return llama_cpp.llama_token_nl(self.ctx)
|
|
1698
1687
|
|
|
1699
1688
|
@staticmethod
|
|
1700
1689
|
def logits_to_logprobs(logits: List[float]) -> List[float]:
|