RubyGems - llama_cpp - Versions diffs - 0.3.0 → 0.3.2 - Mend

llama_cpp 0.3.0 → 0.3.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +34 -0
data/README.md +9 -0
data/examples/chat.rb +1 -1
data/examples/embedding.rb +1 -1
data/examples/prompt_jp.txt +8 -0
data/ext/llama_cpp/extconf.rb +2 -2
data/ext/llama_cpp/llama_cpp.cpp +195 -2
data/ext/llama_cpp/src/ggml-cuda.cu +499 -118
data/ext/llama_cpp/src/ggml-cuda.h +1 -4
data/ext/llama_cpp/src/ggml-metal.m +3 -1
data/ext/llama_cpp/src/ggml-opencl.cpp +357 -176
data/ext/llama_cpp/src/ggml.c +690 -1512
data/ext/llama_cpp/src/ggml.h +88 -62
data/ext/llama_cpp/src/llama.cpp +230 -261
data/ext/llama_cpp/src/llama.h +31 -6
data/lib/llama_cpp/version.rb +2 -2
data/lib/llama_cpp.rb +15 -12
data/sig/llama_cpp.rbs +21 -1
metadata +3 -2

data/ext/llama_cpp/src/ggml-cuda.h CHANGED Viewed

@@ -8,10 +8,6 @@ extern "C" {
 #define GGML_CUDA_MAX_DEVICES       16
-struct ggml_tensor_extra_gpu {
-    void * data_device[GGML_CUDA_MAX_DEVICES]; // 1 pointer for each device for split tensors
-};
 void   ggml_init_cublas(void);
 void   ggml_cuda_set_tensor_split(const float * tensor_split);
@@ -29,6 +25,7 @@ void   ggml_cuda_transform_tensor(void * data, struct ggml_tensor * tensor);
 void   ggml_cuda_free_data(struct ggml_tensor * tensor);
 void   ggml_cuda_assign_buffers(struct ggml_tensor * tensor);
 void   ggml_cuda_assign_buffers_no_scratch(struct ggml_tensor * tensor);
+void   ggml_cuda_assign_buffers_force_inplace(struct ggml_tensor * tensor);
 void   ggml_cuda_set_main_device(int main_device);
 void   ggml_cuda_set_scratch_size(size_t scratch_size);
 void   ggml_cuda_free_scratch(void);

data/ext/llama_cpp/src/ggml-metal.m CHANGED Viewed

@@ -202,7 +202,9 @@ struct ggml_metal_context * ggml_metal_init(void) {
 void ggml_metal_free(struct ggml_metal_context * ctx) {
     fprintf(stderr, "%s: deallocating\n", __func__);
+    for (int i = 0; i < ctx->n_buffers; ++i) {
+        [ctx->buffers[i].metal release];
+    }
     free(ctx);
 }