RubyGems - llama_cpp - Versions diffs - 0.3.1 → 0.3.3 - Mend

llama_cpp 0.3.1 → 0.3.3

Files changed (24) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +41 -0
data/README.md +9 -0
data/examples/chat.rb +1 -1
data/examples/embedding.rb +1 -1
data/examples/prompt_jp.txt +8 -0
data/ext/llama_cpp/extconf.rb +11 -2
data/ext/llama_cpp/llama_cpp.cpp +284 -111
data/ext/llama_cpp/src/ggml-cuda.cu +639 -148
data/ext/llama_cpp/src/ggml-cuda.h +0 -4
data/ext/llama_cpp/src/ggml-metal.h +5 -1
data/ext/llama_cpp/src/ggml-metal.m +19 -6
data/ext/llama_cpp/src/ggml-metal.metal +56 -47
data/ext/llama_cpp/src/ggml-mpi.c +216 -0
data/ext/llama_cpp/src/ggml-mpi.h +39 -0
data/ext/llama_cpp/src/ggml-opencl.cpp +11 -7
data/ext/llama_cpp/src/ggml.c +1734 -2248
data/ext/llama_cpp/src/ggml.h +152 -80
data/ext/llama_cpp/src/llama.cpp +282 -90
data/ext/llama_cpp/src/llama.h +30 -1
data/lib/llama_cpp/version.rb +2 -2
data/lib/llama_cpp.rb +16 -13
data/sig/llama_cpp.rbs +22 -2
metadata +5 -2

data/ext/llama_cpp/llama_cpp.cpp CHANGED Viewed

@@ -1,8 +1,8 @@
 #include "llama_cpp.h"
 VALUE rb_mLLaMACpp;
 VALUE rb_cLLaMAModel;
+VALUE rb_cLLaMATimings;
 VALUE rb_cLLaMAContext;
 VALUE rb_cLLaMAContextParams;
 VALUE rb_cLLaMAModelQuantizeParams;
@@ -17,9 +17,9 @@ public:
     data.id = 0;
     data.logit = 0.0;
     data.p = 0.0;
-  };
+  }
-  ~LLaMATokenDataWrapper(){};
+  ~LLaMATokenDataWrapper() {}
 };
 class RbLLaMATokenData {
@@ -28,22 +28,22 @@ public:
     LLaMATokenDataWrapper* ptr = (LLaMATokenDataWrapper*)ruby_xmalloc(sizeof(LLaMATokenDataWrapper));
     new (ptr) LLaMATokenDataWrapper();
     return TypedData_Wrap_Struct(self, &llama_token_data_type, ptr);
-  };
+  }
   static void llama_token_data_free(void* ptr) {
     ((LLaMATokenDataWrapper*)ptr)->~LLaMATokenDataWrapper();
     ruby_xfree(ptr);
-  };
+  }
   static size_t llama_token_data_size(const void* ptr) {
     return sizeof(*((LLaMATokenDataWrapper*)ptr));
-  };
+  }
   static LLaMATokenDataWrapper* get_llama_token_data(VALUE self) {
     LLaMATokenDataWrapper* ptr;
     TypedData_Get_Struct(self, LLaMATokenDataWrapper, &llama_token_data_type, ptr);
     return ptr;
-  };
+  }
   static void define_class(VALUE outer) {
     rb_cLLaMATokenData = rb_define_class_under(outer, "TokenData", rb_cObject);
@@ -95,36 +95,36 @@ private:
     LLaMATokenDataWrapper* ptr = get_llama_token_data(self);
     ptr->data.id = NUM2INT(id);
     return INT2NUM(ptr->data.id);
-  };
+  }
   static VALUE _llama_token_data_get_id(VALUE self) {
     LLaMATokenDataWrapper* ptr = get_llama_token_data(self);
     return INT2NUM(ptr->data.id);
-  };
+  }
   // logit
   static VALUE _llama_token_data_set_logit(VALUE self, VALUE logit) {
     LLaMATokenDataWrapper* ptr = get_llama_token_data(self);
     ptr->data.logit = NUM2DBL(logit);
     return DBL2NUM(ptr->data.logit);
-  };
+  }
   static VALUE _llama_token_data_get_logit(VALUE self) {
     LLaMATokenDataWrapper* ptr = get_llama_token_data(self);
     return DBL2NUM(ptr->data.logit);
-  };
+  }
   // p
   static VALUE _llama_token_data_set_p(VALUE self, VALUE p) {
     LLaMATokenDataWrapper* ptr = get_llama_token_data(self);
     ptr->data.p = NUM2DBL(p);
     return DBL2NUM(ptr->data.p);
-  };
+  }
   static VALUE _llama_token_data_get_p(VALUE self) {
     LLaMATokenDataWrapper* ptr = get_llama_token_data(self);
     return DBL2NUM(ptr->data.p);
-  };
+  }
 };
 const rb_data_type_t RbLLaMATokenData::llama_token_data_type = {
@@ -145,14 +145,14 @@ public:
     array.data = nullptr;
     array.size = 0;
     array.sorted = false;
-  };
+  }
   ~LLaMATokenDataArrayWrapper() {
     if (array.data) {
       ruby_xfree(array.data);
       array.data = nullptr;
     }
-  };
+  }
 };
 class RbLLaMATokenDataArray {
@@ -161,22 +161,22 @@ public:
     LLaMATokenDataArrayWrapper* ptr = (LLaMATokenDataArrayWrapper*)ruby_xmalloc(sizeof(LLaMATokenDataArrayWrapper));
     new (ptr) LLaMATokenDataArrayWrapper();
     return TypedData_Wrap_Struct(self, &llama_token_data_array_type, ptr);
-  };
+  }
   static void llama_token_data_array_free(void* ptr) {
     ((LLaMATokenDataArrayWrapper*)ptr)->~LLaMATokenDataArrayWrapper();
     ruby_xfree(ptr);
-  };
+  }
   static size_t llama_token_data_array_size(const void* ptr) {
     return sizeof(*((LLaMATokenDataArrayWrapper*)ptr));
-  };
+  }
   static LLaMATokenDataArrayWrapper* get_llama_token_data_array(VALUE self) {
     LLaMATokenDataArrayWrapper* ptr;
     TypedData_Get_Struct(self, LLaMATokenDataArrayWrapper, &llama_token_data_array_type, ptr);
     return ptr;
-  };
+  }
   static void define_class(VALUE outer) {
     rb_cLLaMATokenDataArray = rb_define_class_under(outer, "TokenDataArray", rb_cObject);
@@ -184,7 +184,7 @@ public:
     rb_define_method(rb_cLLaMATokenDataArray, "initialize", RUBY_METHOD_FUNC(_llama_token_data_array_init), -1);
     rb_define_method(rb_cLLaMATokenDataArray, "size", RUBY_METHOD_FUNC(_llama_token_data_array_get_size), 0);
     rb_define_method(rb_cLLaMATokenDataArray, "sorted", RUBY_METHOD_FUNC(_llama_token_data_array_get_sorted), 0);
-  };
+  }
 private:
   static const rb_data_type_t llama_token_data_array_type;
@@ -233,17 +233,17 @@ private:
     ptr->array.sorted = kw_values[0] == Qtrue;
     return self;
-  };
+  }
   static VALUE _llama_token_data_array_get_size(VALUE self) {
     LLaMATokenDataArrayWrapper* ptr = get_llama_token_data_array(self);
     return SIZET2NUM(ptr->array.size);
-  };
+  }
   static VALUE _llama_token_data_array_get_sorted(VALUE self) {
     LLaMATokenDataArrayWrapper* ptr = get_llama_token_data_array(self);
     return ptr->array.sorted ? Qtrue : Qfalse;
-  };
+  }
 };
 const rb_data_type_t RbLLaMATokenDataArray::llama_token_data_array_type = {
@@ -256,13 +256,118 @@ const rb_data_type_t RbLLaMATokenDataArray::llama_token_data_array_type = {
   RUBY_TYPED_FREE_IMMEDIATELY
 };
+class LLaMATimingsWrapper {
+public:
+  struct llama_timings timings;
+  LLaMATimingsWrapper() {}
+  ~LLaMATimingsWrapper() {}
+};
+class RbLLaMATimings {
+public:
+  static VALUE llama_timings_alloc(VALUE self) {
+    LLaMATimingsWrapper* ptr = (LLaMATimingsWrapper*)ruby_xmalloc(sizeof(LLaMATimingsWrapper));
+    new (ptr) LLaMATimingsWrapper();
+    return TypedData_Wrap_Struct(self, &llama_timings_type, ptr);
+  }
+  static void llama_timings_free(void* ptr) {
+    ((LLaMATimingsWrapper*)ptr)->~LLaMATimingsWrapper();
+    ruby_xfree(ptr);
+  }
+  static size_t llama_timings_size(const void* ptr) {
+    return sizeof(*((LLaMATimingsWrapper*)ptr));
+  }
+  static LLaMATimingsWrapper* get_llama_timings(VALUE self) {
+    LLaMATimingsWrapper* ptr;
+    TypedData_Get_Struct(self, LLaMATimingsWrapper, &llama_timings_type, ptr);
+    return ptr;
+  }
+  static void define_class(VALUE outer) {
+    rb_cLLaMATimings = rb_define_class_under(outer, "Timings", rb_cObject);
+    rb_define_alloc_func(rb_cLLaMATimings, llama_timings_alloc);
+    rb_define_method(rb_cLLaMATimings, "t_start_ms", RUBY_METHOD_FUNC(_llama_timings_get_t_start_ms), 0);
+    rb_define_method(rb_cLLaMATimings, "t_end_ms", RUBY_METHOD_FUNC(_llama_timings_get_t_end_ms), 0);
+    rb_define_method(rb_cLLaMATimings, "t_load_ms", RUBY_METHOD_FUNC(_llama_timings_get_t_load_ms), 0);
+    rb_define_method(rb_cLLaMATimings, "t_sample_ms", RUBY_METHOD_FUNC(_llama_timings_get_t_sample_ms), 0);
+    rb_define_method(rb_cLLaMATimings, "t_p_eval_ms", RUBY_METHOD_FUNC(_llama_timings_get_t_p_eval_ms), 0);
+    rb_define_method(rb_cLLaMATimings, "t_eval_ms", RUBY_METHOD_FUNC(_llama_timings_get_t_eval_ms), 0);
+    rb_define_method(rb_cLLaMATimings, "n_sample", RUBY_METHOD_FUNC(_llama_timings_get_n_sample), 0);
+    rb_define_method(rb_cLLaMATimings, "n_p_eval", RUBY_METHOD_FUNC(_llama_timings_get_n_p_eval), 0);
+    rb_define_method(rb_cLLaMATimings, "n_eval", RUBY_METHOD_FUNC(_llama_timings_get_n_eval), 0);
+  }
+private:
+  static const rb_data_type_t llama_timings_type;
+  static VALUE _llama_timings_get_t_start_ms(VALUE self) {
+    LLaMATimingsWrapper* ptr = get_llama_timings(self);
+    return DBL2NUM(ptr->timings.t_start_ms);
+  }
+  static VALUE _llama_timings_get_t_end_ms(VALUE self) {
+    LLaMATimingsWrapper* ptr = get_llama_timings(self);
+    return DBL2NUM(ptr->timings.t_end_ms);
+  }
+  static VALUE _llama_timings_get_t_load_ms(VALUE self) {
+    LLaMATimingsWrapper* ptr = get_llama_timings(self);
+    return DBL2NUM(ptr->timings.t_load_ms);
+  }
+  static VALUE _llama_timings_get_t_sample_ms(VALUE self) {
+    LLaMATimingsWrapper* ptr = get_llama_timings(self);
+    return DBL2NUM(ptr->timings.t_sample_ms);
+  }
+  static VALUE _llama_timings_get_t_p_eval_ms(VALUE self) {
+    LLaMATimingsWrapper* ptr = get_llama_timings(self);
+    return DBL2NUM(ptr->timings.t_p_eval_ms);
+  }
+  static VALUE _llama_timings_get_t_eval_ms(VALUE self) {
+    LLaMATimingsWrapper* ptr = get_llama_timings(self);
+    return DBL2NUM(ptr->timings.t_eval_ms);
+  }
+  static VALUE _llama_timings_get_n_sample(VALUE self) {
+    LLaMATimingsWrapper* ptr = get_llama_timings(self);
+    return INT2NUM(ptr->timings.n_sample);
+  }
+  static VALUE _llama_timings_get_n_p_eval(VALUE self) {
+    LLaMATimingsWrapper* ptr = get_llama_timings(self);
+    return INT2NUM(ptr->timings.n_p_eval);
+  }
+  static VALUE _llama_timings_get_n_eval(VALUE self) {
+    LLaMATimingsWrapper* ptr = get_llama_timings(self);
+    return INT2NUM(ptr->timings.n_eval);
+  }
+};
+const rb_data_type_t RbLLaMATimings::llama_timings_type = {
+  "RbLLaMATimings",
+  { NULL,
+    RbLLaMATimings::llama_timings_free,
+    RbLLaMATimings::llama_timings_size },
+  NULL,
+  NULL,
+  RUBY_TYPED_FREE_IMMEDIATELY
+};
 class LLaMAContextParamsWrapper {
 public:
   struct llama_context_params params;
-  LLaMAContextParamsWrapper() : params(llama_context_default_params()){};
+  LLaMAContextParamsWrapper() : params(llama_context_default_params()) {}
-  ~LLaMAContextParamsWrapper(){};
+  ~LLaMAContextParamsWrapper() {}
 };
 class RbLLaMAContextParams {
@@ -271,22 +376,22 @@ public:
     LLaMAContextParamsWrapper* ptr = (LLaMAContextParamsWrapper*)ruby_xmalloc(sizeof(LLaMAContextParamsWrapper));
     new (ptr) LLaMAContextParamsWrapper();
     return TypedData_Wrap_Struct(self, &llama_context_params_type, ptr);
-  };
+  }
   static void llama_context_params_free(void* ptr) {
     ((LLaMAContextParamsWrapper*)ptr)->~LLaMAContextParamsWrapper();
     ruby_xfree(ptr);
-  };
+  }
   static size_t llama_context_params_size(const void* ptr) {
     return sizeof(*((LLaMAContextParamsWrapper*)ptr));
-  };
+  }
   static LLaMAContextParamsWrapper* get_llama_context_params(VALUE self) {
     LLaMAContextParamsWrapper* ptr;
     TypedData_Get_Struct(self, LLaMAContextParamsWrapper, &llama_context_params_type, ptr);
     return ptr;
-  };
+  }
   static void define_class(VALUE outer) {
     rb_cLLaMAContextParams = rb_define_class_under(outer, "ContextParams", rb_cObject);
@@ -317,7 +422,7 @@ public:
     rb_define_method(rb_cLLaMAContextParams, "use_mlock", RUBY_METHOD_FUNC(_llama_context_params_get_use_mlock), 0);
     rb_define_method(rb_cLLaMAContextParams, "embedding=", RUBY_METHOD_FUNC(_llama_context_params_set_embedding), 1);
     rb_define_method(rb_cLLaMAContextParams, "embedding", RUBY_METHOD_FUNC(_llama_context_params_get_embedding), 0);
-  };
+  }
 private:
   static const rb_data_type_t llama_context_params_type;
@@ -326,55 +431,55 @@ private:
   //   LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
   //   new (ptr) LLaMAContextParamsWrapper();
   //   return self;
-  // };
+  // }
   // n_ctx
   static VALUE _llama_context_params_set_n_ctx(VALUE self, VALUE n_ctx) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.n_ctx = NUM2INT(n_ctx);
     return INT2NUM(ptr->params.n_ctx);
-  };
+  }
   static VALUE _llama_context_params_get_n_ctx(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return INT2NUM(ptr->params.n_ctx);
-  };
+  }
   // n_batch
   static VALUE _llama_context_params_set_n_batch(VALUE self, VALUE n_batch) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.n_batch = NUM2INT(n_batch);
     return INT2NUM(ptr->params.n_batch);
-  };
+  }
   static VALUE _llama_context_params_get_n_batch(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return INT2NUM(ptr->params.n_batch);
-  };
+  }
   // n_gpu_layers
   static VALUE _llama_context_params_set_n_gpu_layers(VALUE self, VALUE n_gpu_layers) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.n_gpu_layers = NUM2INT(n_gpu_layers);
     return INT2NUM(ptr->params.n_gpu_layers);
-  };
+  }
   static VALUE _llama_context_params_get_n_gpu_layers(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return INT2NUM(ptr->params.n_gpu_layers);
-  };
+  }
   // main_gpu
   static VALUE _llama_context_params_set_main_gpu(VALUE self, VALUE main_gpu) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.main_gpu = NUM2INT(main_gpu);
     return INT2NUM(ptr->params.main_gpu);
-  };
+  }
   static VALUE _llama_context_params_get_main_gpu(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return INT2NUM(ptr->params.main_gpu);
-  };
+  }
   // tensor_split
   static VALUE _llama_context_params_get_tensor_split(VALUE self) {
@@ -387,19 +492,19 @@ private:
       rb_ary_store(ret, i, DBL2NUM(ptr->params.tensor_split[i]));
     }
     return ret;
-  };
+  }
   // low_vram
   static VALUE _llama_context_params_set_low_vram(VALUE self, VALUE low_vram) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.low_vram = low_vram == Qtrue ? true : false;
     return ptr->params.low_vram ? Qtrue : Qfalse;
-  };
+  }
   static VALUE _llama_context_params_get_low_vram(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return ptr->params.low_vram ? Qtrue : Qfalse;
-  };
+  }
   // seed
   static VALUE _llama_context_params_set_seed(VALUE self, VALUE seed) {
@@ -410,84 +515,84 @@ private:
     }
     ptr->params.seed = NUM2INT(seed);
     return INT2NUM(ptr->params.seed);
-  };
+  }
   static VALUE _llama_context_params_get_seed(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return INT2NUM(ptr->params.seed);
-  };
+  }
   // f16_kv
   static VALUE _llama_context_params_set_f16_kv(VALUE self, VALUE f16_kv) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.f16_kv = f16_kv == Qtrue ? true : false;
     return ptr->params.f16_kv ? Qtrue : Qfalse;
-  };
+  }
   static VALUE _llama_context_params_get_f16_kv(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return ptr->params.f16_kv ? Qtrue : Qfalse;
-  };
+  }
   // logits_all
   static VALUE _llama_context_params_set_logits_all(VALUE self, VALUE logits_all) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.logits_all = logits_all == Qtrue ? true : false;
     return ptr->params.logits_all ? Qtrue : Qfalse;
-  };
+  }
   static VALUE _llama_context_params_get_logits_all(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return ptr->params.logits_all ? Qtrue : Qfalse;
-  };
+  }
   // vocab_only
   static VALUE _llama_context_params_set_vocab_only(VALUE self, VALUE vocab_only) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.vocab_only = vocab_only == Qtrue ? true : false;
     return ptr->params.vocab_only ? Qtrue : Qfalse;
-  };
+  }
   static VALUE _llama_context_params_get_vocab_only(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return ptr->params.vocab_only ? Qtrue : Qfalse;
-  };
+  }
   // use_mmap
   static VALUE _llama_context_params_set_use_mmap(VALUE self, VALUE use_mmap) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.use_mmap = use_mmap == Qtrue ? true : false;
     return ptr->params.use_mmap ? Qtrue : Qfalse;
-  };
+  }
   static VALUE _llama_context_params_get_use_mmap(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return ptr->params.use_mmap ? Qtrue : Qfalse;
-  };
+  }
   // use_mlock
   static VALUE _llama_context_params_set_use_mlock(VALUE self, VALUE use_mlock) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.use_mlock = use_mlock == Qtrue ? true : false;
     return ptr->params.use_mlock ? Qtrue : Qfalse;
-  };
+  }
   static VALUE _llama_context_params_get_use_mlock(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return ptr->params.use_mlock ? Qtrue : Qfalse;
-  };
+  }
   // embedding
   static VALUE _llama_context_params_set_embedding(VALUE self, VALUE embedding) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     ptr->params.embedding = embedding == Qtrue ? true : false;
     return ptr->params.embedding ? Qtrue : Qfalse;
-  };
+  }
   static VALUE _llama_context_params_get_embedding(VALUE self) {
     LLaMAContextParamsWrapper* ptr = get_llama_context_params(self);
     return ptr->params.embedding ? Qtrue : Qfalse;
-  };
+  }
 };
 const rb_data_type_t RbLLaMAContextParams::llama_context_params_type = {
@@ -504,9 +609,9 @@ class LLaMAModelQuantizeParamsWrapper {
 public:
   llama_model_quantize_params params;
-  LLaMAModelQuantizeParamsWrapper() : params(llama_model_quantize_default_params()){};
+  LLaMAModelQuantizeParamsWrapper() : params(llama_model_quantize_default_params()) {}
-  ~LLaMAModelQuantizeParamsWrapper(){};
+  ~LLaMAModelQuantizeParamsWrapper() {}
 };
 class RbLLaMAModelQuantizeParams {
@@ -515,22 +620,22 @@ public:
     LLaMAModelQuantizeParamsWrapper* ptr = (LLaMAModelQuantizeParamsWrapper*)ruby_xmalloc(sizeof(LLaMAModelQuantizeParamsWrapper));
     new (ptr) LLaMAModelQuantizeParamsWrapper();
     return TypedData_Wrap_Struct(self, &llama_model_quantize_params_type, ptr);
-  };
+  }
   static void llama_model_quantize_params_free(void* ptr) {
     ((LLaMAModelQuantizeParamsWrapper*)ptr)->~LLaMAModelQuantizeParamsWrapper();
     ruby_xfree(ptr);
-  };
+  }
   static size_t llama_model_quantize_params_size(const void* ptr) {
     return sizeof(*((LLaMAModelQuantizeParamsWrapper*)ptr));
-  };
+  }
   static LLaMAModelQuantizeParamsWrapper* get_llama_model_quantize_params(VALUE self) {
     LLaMAModelQuantizeParamsWrapper* ptr;
     TypedData_Get_Struct(self, LLaMAModelQuantizeParamsWrapper, &llama_model_quantize_params_type, ptr);
     return ptr;
-  };
+  }
   static void define_class(VALUE outer) {
     rb_cLLaMAModelQuantizeParams = rb_define_class_under(outer, "ModelQuantizeParams", rb_cObject);
@@ -543,7 +648,7 @@ public:
     rb_define_method(rb_cLLaMAModelQuantizeParams, "allow_requantize", RUBY_METHOD_FUNC(_llama_model_quantize_params_get_allow_requantize), 0);
     rb_define_method(rb_cLLaMAModelQuantizeParams, "quantize_output_tensor=", RUBY_METHOD_FUNC(_llama_model_quantize_params_set_quantize_output_tensor), 1);
     rb_define_method(rb_cLLaMAModelQuantizeParams, "quantize_output_tensor", RUBY_METHOD_FUNC(_llama_model_quantize_params_get_quantize_output_tensor), 0);
-  };
+  }
 private:
   static const rb_data_type_t llama_model_quantize_params_type;
@@ -553,24 +658,24 @@ private:
     LLaMAModelQuantizeParamsWrapper* ptr = get_llama_model_quantize_params(self);
     ptr->params.nthread = NUM2INT(n_thread);
     return INT2NUM(ptr->params.nthread);
-  };
+  }
   static VALUE _llama_model_quantize_params_get_n_thread(VALUE self) {
     LLaMAModelQuantizeParamsWrapper* ptr = get_llama_model_quantize_params(self);
     return INT2NUM(ptr->params.nthread);
-  };
+  }
   // ftype
   static VALUE _llama_model_quantize_params_set_ftype(VALUE self, VALUE ftype) {
     LLaMAModelQuantizeParamsWrapper* ptr = get_llama_model_quantize_params(self);
     ptr->params.ftype = static_cast<enum llama_ftype>(NUM2INT(ftype));
     return INT2NUM(ptr->params.ftype);
-  };
+  }
   static VALUE _llama_model_quantize_params_get_ftype(VALUE self) {
     LLaMAModelQuantizeParamsWrapper* ptr = get_llama_model_quantize_params(self);
     return INT2NUM(ptr->params.ftype);
-  };
+  }
   // allow_requantize
   static VALUE _llama_model_quantize_params_set_allow_requantize(VALUE self, VALUE allow_requantize) {
@@ -581,12 +686,12 @@ private:
       ptr->params.allow_requantize = true;
     }
     return ptr->params.allow_requantize ? Qtrue : Qfalse;
-  };
+  }
   static VALUE _llama_model_quantize_params_get_allow_requantize(VALUE self) {
     LLaMAModelQuantizeParamsWrapper* ptr = get_llama_model_quantize_params(self);
     return ptr->params.allow_requantize ? Qtrue : Qfalse;
-  };
+  }
   // quantize_output_tensor
   static VALUE _llama_model_quantize_params_set_quantize_output_tensor(VALUE self, VALUE quantize_output_tensor) {
@@ -597,12 +702,12 @@ private:
       ptr->params.quantize_output_tensor = true;
     }
     return ptr->params.quantize_output_tensor ? Qtrue : Qfalse;
-  };
+  }
   static VALUE _llama_model_quantize_params_get_quantize_output_tensor(VALUE self) {
     LLaMAModelQuantizeParamsWrapper* ptr = get_llama_model_quantize_params(self);
     return ptr->params.quantize_output_tensor ? Qtrue : Qfalse;
-  };
+  }
 };
 const rb_data_type_t RbLLaMAModelQuantizeParams::llama_model_quantize_params_type = {
@@ -619,13 +724,13 @@ class LLaMAModelWrapper {
 public:
   struct llama_model* model;
-  LLaMAModelWrapper() : model(NULL){};
+  LLaMAModelWrapper() : model(NULL) {}
   ~LLaMAModelWrapper() {
     if (model != NULL) {
       llama_free_model(model);
     }
-  };
+  }
 };
 class RbLLaMAModel {
@@ -802,7 +907,7 @@ private:
       return Qnil;
     }
     return Qnil;
-  };
+  }
 };
 const rb_data_type_t RbLLaMAModel::llama_model_type = {
@@ -819,13 +924,13 @@ class LLaMAContextWrapper {
 public:
   struct llama_context* ctx;
-  LLaMAContextWrapper() : ctx(NULL){};
+  LLaMAContextWrapper() : ctx(NULL) {}
   ~LLaMAContextWrapper() {
     if (ctx != NULL) {
       llama_free(ctx);
     }
-  };
+  }
 };
 class RbLLaMAContext {
@@ -834,22 +939,22 @@ public:
     LLaMAContextWrapper* ptr = (LLaMAContextWrapper*)ruby_xmalloc(sizeof(LLaMAContextWrapper));
     new (ptr) LLaMAContextWrapper();
     return TypedData_Wrap_Struct(self, &llama_context_type, ptr);
-  };
+  }
   static void llama_context_free(void* ptr) {
     ((LLaMAContextWrapper*)ptr)->~LLaMAContextWrapper();
     ruby_xfree(ptr);
-  };
+  }
   static size_t llama_context_size(const void* ptr) {
     return sizeof(*((LLaMAContextWrapper*)ptr));
-  };
+  }
   static LLaMAContextWrapper* get_llama_context(VALUE self) {
     LLaMAContextWrapper* ptr;
     TypedData_Get_Struct(self, LLaMAContextWrapper, &llama_context_type, ptr);
     return ptr;
-  };
+  }
   static void define_class(VALUE outer) {
     rb_cLLaMAContext = rb_define_class_under(outer, "Context", rb_cObject);
@@ -866,6 +971,7 @@ public:
     rb_define_method(rb_cLLaMAContext, "n_vocab", RUBY_METHOD_FUNC(_llama_context_n_vocab), 0);
     rb_define_method(rb_cLLaMAContext, "n_ctx", RUBY_METHOD_FUNC(_llama_context_n_ctx), 0);
     rb_define_method(rb_cLLaMAContext, "n_embd", RUBY_METHOD_FUNC(_llama_context_n_embd), 0);
+    rb_define_method(rb_cLLaMAContext, "timings", RUBY_METHOD_FUNC(_llama_context_get_timings), 0);
     rb_define_method(rb_cLLaMAContext, "print_timings", RUBY_METHOD_FUNC(_llama_context_print_timings), 0);
     rb_define_method(rb_cLLaMAContext, "reset_timings", RUBY_METHOD_FUNC(_llama_context_reset_timings), 0);
     rb_define_method(rb_cLLaMAContext, "kv_cache_token_count", RUBY_METHOD_FUNC(_llama_context_kv_cache_token_count), 0);
@@ -874,6 +980,7 @@ public:
     rb_define_method(rb_cLLaMAContext, "save_session_file", RUBY_METHOD_FUNC(_llama_context_save_session_file), -1);
     rb_define_method(rb_cLLaMAContext, "sample_repetition_penalty", RUBY_METHOD_FUNC(_llama_context_sample_repetition_penalty), -1);
     rb_define_method(rb_cLLaMAContext, "sample_frequency_and_presence_penalties", RUBY_METHOD_FUNC(_llama_context_sample_frequency_and_presence_penalties), -1);
+    rb_define_method(rb_cLLaMAContext, "sample_classifier_free_guidance", RUBY_METHOD_FUNC(_llama_context_sample_classifier_free_guidance), -1);
     rb_define_method(rb_cLLaMAContext, "sample_softmax", RUBY_METHOD_FUNC(_llama_context_sample_softmax), 1);
     rb_define_method(rb_cLLaMAContext, "sample_top_k", RUBY_METHOD_FUNC(_llama_context_sample_top_k), -1);
     rb_define_method(rb_cLLaMAContext, "sample_top_p", RUBY_METHOD_FUNC(_llama_context_sample_top_p), -1);
@@ -884,7 +991,7 @@ public:
     rb_define_method(rb_cLLaMAContext, "sample_token_mirostat_v2", RUBY_METHOD_FUNC(_llama_context_sample_token_mirostat_v2), -1);
     rb_define_method(rb_cLLaMAContext, "sample_token_greedy", RUBY_METHOD_FUNC(_llama_context_sample_token_greedy), 1);
     rb_define_method(rb_cLLaMAContext, "sample_token", RUBY_METHOD_FUNC(_llama_context_sample_token), 1);
-  };
+  }
 private:
   static const rb_data_type_t llama_context_type;
@@ -923,7 +1030,7 @@ private:
     rb_iv_set(self, "@has_evaluated", Qfalse);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_eval(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -978,7 +1085,7 @@ private:
     rb_iv_set(self, "@has_evaluated", Qtrue);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_eval_embd(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1051,7 +1158,7 @@ private:
     }
     RB_GC_GUARD(fname_);
     return Qtrue;
-  };
+  }
   static VALUE _llama_context_tokenize(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1097,7 +1204,7 @@ private:
     RB_GC_GUARD(text_);
     return output;
-  };
+  }
   static VALUE _llama_context_token_to_str(VALUE self, VALUE token_) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1108,7 +1215,7 @@ private:
     const llama_token token = NUM2INT(token_);
     const char* str = llama_token_to_str(ptr->ctx, token);
     return str != nullptr ? rb_utf8_str_new_cstr(str) : rb_utf8_str_new_cstr("");
-  };
+  }
   static VALUE _llama_context_logits(VALUE self) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1133,7 +1240,7 @@ private:
     }
     return output;
-  };
+  }
   static VALUE _llama_context_embeddings(VALUE self) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1161,7 +1268,7 @@ private:
     }
     return output;
-  };
+  }
   static VALUE _llama_context_vocab(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1198,7 +1305,7 @@ private:
     }
     return rb_ary_new_from_args(2, ret_strings, ret_scores);
-  };
+  }
   static VALUE _llama_context_n_vocab(VALUE self) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1207,7 +1314,7 @@ private:
       return Qnil;
     }
     return INT2NUM(llama_n_vocab(ptr->ctx));
-  };
+  }
   static VALUE _llama_context_n_ctx(VALUE self) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1216,7 +1323,7 @@ private:
       return Qnil;
     }
     return INT2NUM(llama_n_ctx(ptr->ctx));
-  };
+  }
   static VALUE _llama_context_n_embd(VALUE self) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1225,7 +1332,19 @@ private:
       return Qnil;
     }
     return INT2NUM(llama_n_embd(ptr->ctx));
-  };
+  }
+  static VALUE _llama_context_get_timings(VALUE self) {
+    LLaMAContextWrapper* ptr = get_llama_context(self);
+    if (ptr->ctx == NULL) {
+      rb_raise(rb_eRuntimeError, "LLaMA context is not initialized");
+      return Qnil;
+    }
+    VALUE tm_obj = rb_funcall(rb_cLLaMATimings, rb_intern("new"), 0);
+    LLaMATimingsWrapper* tm_ptr = RbLLaMATimings::get_llama_timings(tm_obj);
+    tm_ptr->timings = llama_get_timings(ptr->ctx);
+    return tm_obj;
+  }
   static VALUE _llama_context_print_timings(VALUE self) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1235,7 +1354,7 @@ private:
     }
     llama_print_timings(ptr->ctx);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_reset_timings(VALUE self) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1245,7 +1364,7 @@ private:
     }
     llama_reset_timings(ptr->ctx);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_kv_cache_token_count(VALUE self) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1254,7 +1373,7 @@ private:
       return Qnil;
     }
     return INT2NUM(llama_get_kv_cache_token_count(ptr->ctx));
-  };
+  }
   static VALUE _llama_context_set_rng_seed(VALUE self, VALUE seed_) {
     LLaMAContextWrapper* ptr = get_llama_context(self);
@@ -1269,7 +1388,7 @@ private:
     const uint32_t seed = NUM2INT(seed_);
     llama_set_rng_seed(ptr->ctx, seed);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_load_session_file(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1407,7 +1526,7 @@ private:
     llama_sample_repetition_penalty(ctx_ptr->ctx, &(cnd_ptr->array), last_n_tokens_data.data(), last_tokens_size, penalty);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_sample_frequency_and_presence_penalties(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1458,7 +1577,52 @@ private:
     llama_sample_frequency_and_presence_penalties(ctx_ptr->ctx, &(cnd_ptr->array), last_n_tokens_data.data(), last_tokens_size, alpha_frequency, alpha_presence);
     return Qnil;
-  };
+  }
+  static VALUE _llama_context_sample_classifier_free_guidance(int argc, VALUE* argv, VALUE self) {
+    VALUE kw_args = Qnil;
+    ID kw_table[3] = { rb_intern("guidance"), rb_intern("scale"), rb_intern("smooth_factor") };
+    VALUE kw_values[3] = { Qundef, Qundef, Qundef };
+    VALUE candidates = Qnil;
+    rb_scan_args(argc, argv, "1:", &candidates, &kw_args);
+    rb_get_kwargs(kw_args, kw_table, 3, 0, kw_values);
+    if (!rb_obj_is_kind_of(kw_values[0], rb_cLLaMAContext)) {
+      rb_raise(rb_eArgError, "guidance must be a Context");
+      return Qnil;
+    }
+    if (!RB_FLOAT_TYPE_P(kw_values[1])) {
+      rb_raise(rb_eArgError, "scale must be a float");
+      return Qnil;
+    }
+    if (!RB_FLOAT_TYPE_P(kw_values[2])) {
+      rb_raise(rb_eArgError, "smooth_factor must be a float");
+      return Qnil;
+    }
+    LLaMAContextWrapper* ctx_ptr = get_llama_context(self);
+    if (ctx_ptr->ctx == NULL) {
+      rb_raise(rb_eRuntimeError, "LLaMA context is not initialized");
+      return Qnil;
+    }
+    LLaMATokenDataArrayWrapper* cnd_ptr = RbLLaMATokenDataArray::get_llama_token_data_array(candidates);
+    if (cnd_ptr->array.data == nullptr) {
+      rb_raise(rb_eRuntimeError, "TokenDataArray is empty");
+      return Qnil;
+    }
+    LLaMAContextWrapper* guidance_ptr = get_llama_context(kw_values[0]);
+    if (guidance_ptr->ctx == NULL) {
+      rb_raise(rb_eRuntimeError, "guidance context is not initialized");
+      return Qnil;
+    }
+    const float scale = NUM2DBL(kw_values[1]);
+    const float smooth_factor = NUM2DBL(kw_values[2]);
+    llama_sample_classifier_free_guidance(ctx_ptr->ctx, &(cnd_ptr->array), guidance_ptr->ctx, scale, smooth_factor);
+    return Qnil;
+  }
   static VALUE _llama_context_sample_softmax(VALUE self, VALUE candidates) {
     if (!rb_obj_is_kind_of(candidates, rb_cLLaMATokenDataArray)) {
@@ -1480,7 +1644,7 @@ private:
     llama_sample_softmax(ctx_ptr->ctx, &(cnd_ptr->array));
     return Qnil;
-  };
+  }
   static VALUE _llama_context_sample_top_k(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1519,7 +1683,7 @@ private:
     llama_sample_top_k(ctx_ptr->ctx, &(cnd_ptr->array), k, min_keep);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_sample_top_p(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1558,7 +1722,7 @@ private:
     llama_sample_top_p(ctx_ptr->ctx, &(cnd_ptr->array), prob, min_keep);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_sample_tail_free(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1597,7 +1761,7 @@ private:
     llama_sample_tail_free(ctx_ptr->ctx, &(cnd_ptr->array), z, min_keep);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_sample_typical(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1636,7 +1800,7 @@ private:
     llama_sample_typical(ctx_ptr->ctx, &(cnd_ptr->array), prob, min_keep);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_sample_temperature(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1670,7 +1834,7 @@ private:
     llama_sample_temperature(ctx_ptr->ctx, &(cnd_ptr->array), temperature);
     return Qnil;
-  };
+  }
   static VALUE _llama_context_sample_token_mirostat(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1722,7 +1886,7 @@ private:
     rb_ary_store(ret, 0, INT2NUM(id));
     rb_ary_store(ret, 1, DBL2NUM(mu));
     return ret;
-  };
+  }
   static VALUE _llama_context_sample_token_mirostat_v2(int argc, VALUE* argv, VALUE self) {
     VALUE kw_args = Qnil;
@@ -1769,7 +1933,7 @@ private:
     rb_ary_store(ret, 0, INT2NUM(id));
     rb_ary_store(ret, 1, DBL2NUM(mu));
     return ret;
-  };
+  }
   static VALUE _llama_context_sample_token_greedy(VALUE self, VALUE candidates) {
     LLaMAContextWrapper* ctx_ptr = get_llama_context(self);
@@ -1788,7 +1952,7 @@ private:
     }
     llama_token id = llama_sample_token_greedy(ctx_ptr->ctx, &(cnd_ptr->array));
     return INT2NUM(id);
-  };
+  }
   static VALUE _llama_context_sample_token(VALUE self, VALUE candidates) {
     LLaMAContextWrapper* ctx_ptr = get_llama_context(self);
@@ -1807,7 +1971,7 @@ private:
     }
     llama_token id = llama_sample_token(ctx_ptr->ctx, &(cnd_ptr->array));
     return INT2NUM(id);
-  };
+  }
 };
 const rb_data_type_t RbLLaMAContext::llama_context_type = {
@@ -1822,7 +1986,7 @@ const rb_data_type_t RbLLaMAContext::llama_context_type = {
 // module functions
-static VALUE rb_llama_llama_init_backend(int argc, VALUE* argv, VALUE self) {
+static VALUE rb_llama_llama_backend_init(int argc, VALUE* argv, VALUE self) {
   VALUE kw_args = Qnil;
   ID kw_table[1] = { rb_intern("numa") };
   VALUE kw_values[1] = { Qundef };
@@ -1830,7 +1994,13 @@ static VALUE rb_llama_llama_init_backend(int argc, VALUE* argv, VALUE self) {
   rb_get_kwargs(kw_args, kw_table, 0, 1, kw_values);
   const bool numa = kw_values[0] == Qundef ? false : (RTEST ? true : false);
-  llama_init_backend(numa);
+  llama_backend_init(numa);
+  return Qnil;
+}
+static VALUE rb_llama_llama_backend_free(VALUE self) {
+  llama_backend_free();
   return Qnil;
 }
@@ -1898,10 +2068,13 @@ extern "C" void Init_llama_cpp(void) {
   RbLLaMATokenData::define_class(rb_mLLaMACpp);
   RbLLaMATokenDataArray::define_class(rb_mLLaMACpp);
   RbLLaMAModel::define_class(rb_mLLaMACpp);
+  RbLLaMATimings::define_class(rb_mLLaMACpp);
   RbLLaMAContext::define_class(rb_mLLaMACpp);
   RbLLaMAContextParams::define_class(rb_mLLaMACpp);
+  RbLLaMAModelQuantizeParams::define_class(rb_mLLaMACpp);
-  rb_define_module_function(rb_mLLaMACpp, "init_backend", rb_llama_llama_init_backend, -1);
+  rb_define_module_function(rb_mLLaMACpp, "backend_init", rb_llama_llama_backend_init, -1);
+  rb_define_module_function(rb_mLLaMACpp, "backend_free", rb_llama_llama_backend_free, 0);
   rb_define_module_function(rb_mLLaMACpp, "model_quantize", rb_llama_model_quantize, -1);
   rb_define_module_function(rb_mLLaMACpp, "token_bos", rb_llama_token_bos, 0);
   rb_define_module_function(rb_mLLaMACpp, "token_eos", rb_llama_token_eos, 0);