llama_cpp 0.18.2 → 0.19.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
checksums.yaml CHANGED
@@ -1,7 +1,7 @@
1
1
  ---
2
2
  SHA256:
3
- metadata.gz: a043b8beda10d1eed3dfd6ab21932f567fa9ff69a82e14048f19993bbcff9c3a
4
- data.tar.gz: '08bba39155267edd1d5a99ad4170e44b3075fe552b096d16bac38d438a9004e5'
3
+ metadata.gz: 60a718430e278569f1e5eeb08cfa9f56b1f7b1f804234633dbfba9a504959ae9
4
+ data.tar.gz: f33f971717366760f84c40ca003015f3fadd18cde969aa511031ffcd4517de32
5
5
  SHA512:
6
- metadata.gz: 404c50dedbd90e8c457113145d3029f130a2c6cf8cd9aee9be867c03ac7061c271907649cfb59dd23ff1331d9c64eaf234434a2354c8f3079265a4efe7cd9ea0
7
- data.tar.gz: b2b75ed8a826c5eb5683010dcf7ca0ad9f99d3f0cfd5c2016acf1717489e17eef005ad9eaa9997fb2529c9c75f40bc301c4c3804e24b3334036244dec69f4b92
6
+ metadata.gz: c85e04506be2a1bf0d4c3d99aa5b9fcf9f2ca6f4eb8673558a8d8755a056cff700769f16e429a048c2c3abdbac5fcb02818f92ae78966fdbe2b8f813638948a3
7
+ data.tar.gz: a9ecfe4fa2b2314d57390e87bbed7734e9499d0ceea80c9e444e1877617f55f0da6fa06f77afddd0107723315bb43b0f66e85557612816cba66e29735f9da261
data/CHANGELOG.md CHANGED
@@ -1,4 +1,25 @@
1
1
 
2
+ ## [[0.19.0](https://github.com/yoshoku/llama_cpp.rb/compare/v0.18.2...v0.19.0)] - 2025-03-16
3
+
4
+ **Breaking Changes**
5
+
6
+ - Change supported llama.cpp version to b4885
7
+ - Add `LlamaKvCache` class.
8
+ - Add `llama_get_kv_cache_token_count` module function.
9
+ - Rename module functions in `LLaMACpp`:
10
+ - `llama_get_kv_cache_token_count` to `llama_kv_self_n_tokens`
11
+ - `llama_get_kv_cache_used_cells` to `llama_kv_self_used_cells`
12
+ - `llama_kv_cache_clear` to `llama_kv_self_clear`
13
+ - `llama_kv_cache_seq_rm` to `llama_kv_self_seq_rm`
14
+ - `llama_kv_cache_seq_cp` to `llama_kv_self_seq_cp`
15
+ - `llama_kv_cache_seq_keep` to `llama_kv_self_seq_keep`
16
+ - `llama_kv_cache_seq_add` to `llama_kv_self_seq_add`
17
+ - `llama_kv_cache_seq_div` to `llama_kv_self_seq_div`
18
+ - `llama_kv_cache_seq_pos_max` to `llama_kv_self_seq_pos_max`
19
+ - `llama_kv_cache_defrag` to `llama_kv_self_defrag`
20
+ - `llama_kv_cache_update` to `llama_kv_self_update`
21
+ - `llama_kv_cache_can_shift?` to `llama_kv_self_can_shift?`
22
+
2
23
  ## [[0.18.1](https://github.com/yoshoku/llama_cpp.rb/compare/v0.18.1...v0.18.2)] - 2025-03-01
3
24
 
4
25
  - Change supported llama.cpp version to b4793
@@ -9,6 +9,7 @@ VALUE rb_cLlamaContextParams;
9
9
  VALUE rb_cLlamaModelQuantizeParams;
10
10
  VALUE rb_cLlamaLogitBias;
11
11
  VALUE rb_cLlamaAdapterLora;
12
+ VALUE rb_cLlamaKvCache;
12
13
  VALUE rb_cLlamaKvCacheView;
13
14
  VALUE rb_cLlamaTokenDataArray;
14
15
  VALUE rb_cLlamaBatch;
@@ -1767,6 +1768,60 @@ static VALUE rb_llama_adapter_lora_free(VALUE self, VALUE adapter) {
1767
1768
  return Qnil;
1768
1769
  }
1769
1770
 
1771
+ /* llama_kv_cache wrapper */
1772
+ typedef struct {
1773
+ struct llama_kv_cache* kv_cache;
1774
+ } llama_kv_cache_wrapper;
1775
+
1776
+ static void llama_kv_cache_wrapper_free(void *ptr) {
1777
+ if (ptr) {
1778
+ ruby_xfree(ptr);
1779
+ }
1780
+ }
1781
+
1782
+ static size_t llama_kv_cache_wrapper_size(const void *ptr) {
1783
+ return sizeof(*((llama_kv_cache_wrapper*)ptr));
1784
+ }
1785
+
1786
+ static rb_data_type_t llama_kv_cache_wrapper_data_type = {
1787
+ "LlamaKvCache",
1788
+ { NULL,
1789
+ llama_kv_cache_wrapper_free,
1790
+ llama_kv_cache_wrapper_size },
1791
+ NULL,
1792
+ NULL,
1793
+ RUBY_TYPED_FREE_IMMEDIATELY
1794
+ };
1795
+
1796
+ static VALUE llama_kv_cache_wrapper_alloc(VALUE self) {
1797
+ llama_kv_cache_wrapper* data = (llama_kv_cache_wrapper*)ruby_xmalloc(sizeof(llama_kv_cache_wrapper));
1798
+ data->kv_cache = NULL;
1799
+ return TypedData_Wrap_Struct(self, &llama_kv_cache_wrapper_data_type, data);
1800
+ }
1801
+
1802
+ // static llama_kv_cache_wrapper* get_llama_kv_cache_wrapper(VALUE self) {
1803
+ // llama_kv_cache_wrapper* data = NULL;
1804
+ // TypedData_Get_Struct(self, llama_kv_cache_wrapper, &llama_kv_cache_wrapper_data_type, data);
1805
+ // return data;
1806
+ // }
1807
+
1808
+ /**
1809
+ * @overload llama_get_kv_self(context)
1810
+ * @param [LlamaContext] context
1811
+ * @return [LlamaKvCache]
1812
+ */
1813
+ static VALUE rb_llama_get_kv_self(VALUE self, VALUE ctx) {
1814
+ if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
1815
+ rb_raise(rb_eArgError, "ctx must be a LlamaContext");
1816
+ return Qnil;
1817
+ }
1818
+ llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
1819
+ llama_kv_cache_wrapper* kv_cache_wrapper = (llama_kv_cache_wrapper*)ruby_xmalloc(sizeof(llama_kv_cache_wrapper));
1820
+ kv_cache_wrapper->kv_cache = llama_get_kv_self(context_wrapper->context);
1821
+ RB_GC_GUARD(ctx);
1822
+ return TypedData_Wrap_Struct(rb_cLlamaKvCache, &llama_kv_cache_wrapper_data_type, kv_cache_wrapper);
1823
+ }
1824
+
1770
1825
  /* struct llama_kv_cache_view_cell */
1771
1826
  static void llama_kv_cache_view_cell_free(void *ptr) {
1772
1827
  ruby_xfree(ptr);
@@ -1938,62 +1993,62 @@ static VALUE rb_llama_kv_cache_view_update(VALUE self, VALUE ctx, VALUE view) {
1938
1993
  }
1939
1994
 
1940
1995
  /**
1941
- * @overload llama_get_kv_cache_token_count(context)
1996
+ * @overload llama_kv_self_n_tokens(context)
1942
1997
  * @param [LlamaContext] context
1943
1998
  * @return [Integer]
1944
1999
  */
1945
- static VALUE rb_llama_get_kv_cache_token_count(VALUE self, VALUE ctx) {
2000
+ static VALUE rb_llama_kv_self_n_tokens(VALUE self, VALUE ctx) {
1946
2001
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
1947
2002
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
1948
2003
  return Qnil;
1949
2004
  }
1950
2005
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
1951
- const int32_t n_tokens_kv_cache = llama_get_kv_cache_token_count(context_wrapper->context);
2006
+ const int32_t n_tokens_kv_self = llama_kv_self_n_tokens(context_wrapper->context);
1952
2007
  RB_GC_GUARD(ctx);
1953
- return INT2NUM(n_tokens_kv_cache);
2008
+ return INT2NUM(n_tokens_kv_self);
1954
2009
  }
1955
2010
 
1956
2011
  /**
1957
- * @overload llama_get_kv_cache_used_cells(context)
2012
+ * @overload llama_kv_self_used_cells(context)
1958
2013
  * @param [LlamaContext] context
1959
2014
  * @return [Integer]
1960
2015
  */
1961
- static VALUE rb_llama_get_kv_cache_used_cells(VALUE self, VALUE ctx) {
2016
+ static VALUE rb_llama_kv_self_used_cells(VALUE self, VALUE ctx) {
1962
2017
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
1963
2018
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
1964
2019
  return Qnil;
1965
2020
  }
1966
2021
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
1967
- const int32_t n_used_kv_cells = llama_get_kv_cache_used_cells(context_wrapper->context);
2022
+ const int32_t n_used_kv_cells = llama_kv_self_used_cells(context_wrapper->context);
1968
2023
  RB_GC_GUARD(ctx);
1969
2024
  return INT2NUM(n_used_kv_cells);
1970
2025
  }
1971
2026
 
1972
2027
  /**
1973
- * @overload llama_kv_cache_clear(context)
2028
+ * @overload llama_kv_self_clear(context)
1974
2029
  * @param [LlamaContext] context
1975
2030
  * @return [NilClass]
1976
2031
  */
1977
- static VALUE rb_llama_kv_cache_clear(VALUE self, VALUE ctx) {
2032
+ static VALUE rb_llama_kv_self_clear(VALUE self, VALUE ctx) {
1978
2033
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
1979
2034
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
1980
2035
  return Qnil;
1981
2036
  }
1982
2037
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
1983
- llama_kv_cache_clear(context_wrapper->context);
2038
+ llama_kv_self_clear(context_wrapper->context);
1984
2039
  RB_GC_GUARD(ctx);
1985
2040
  return Qnil;
1986
2041
  }
1987
2042
 
1988
2043
  /**
1989
- * @overload llama_kv_cache_seq_rm(context, seq_id, p0, p1)
2044
+ * @overload llama_kv_self_seq_rm(context, seq_id, p0, p1)
1990
2045
  * @param [LlamaContext] context
1991
2046
  * @param [Integer] seq_id
1992
2047
  * @param [Integer] p0
1993
2048
  * @param [Integer] p1
1994
2049
  * @return [Boolean]
1995
2050
  */
1996
- static VALUE rb_llama_kv_cache_seq_rm(VALUE self, VALUE ctx, VALUE seq_id, VALUE p0, VALUE p1) {
2051
+ static VALUE rb_llama_kv_self_seq_rm(VALUE self, VALUE ctx, VALUE seq_id, VALUE p0, VALUE p1) {
1997
2052
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
1998
2053
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
1999
2054
  return Qnil;
@@ -2011,13 +2066,13 @@ static VALUE rb_llama_kv_cache_seq_rm(VALUE self, VALUE ctx, VALUE seq_id, VALUE
2011
2066
  return Qnil;
2012
2067
  }
2013
2068
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
2014
- const bool res = llama_kv_cache_seq_rm(context_wrapper->context, NUM2INT(seq_id), NUM2INT(p0), NUM2INT(p1));
2069
+ const bool res = llama_kv_self_seq_rm(context_wrapper->context, NUM2INT(seq_id), NUM2INT(p0), NUM2INT(p1));
2015
2070
  RB_GC_GUARD(ctx);
2016
2071
  return res ? Qtrue : Qfalse;
2017
2072
  }
2018
2073
 
2019
2074
  /**
2020
- * @overload llama_kv_cache_seq_cp(context, seq_id_src, seq_id_dst, p0, p1)
2075
+ * @overload llama_kv_self_seq_cp(context, seq_id_src, seq_id_dst, p0, p1)
2021
2076
  * @param [LlamaContext] context
2022
2077
  * @param [Integer] seq_id_src
2023
2078
  * @param [Integer] seq_id_dst
@@ -2025,7 +2080,7 @@ static VALUE rb_llama_kv_cache_seq_rm(VALUE self, VALUE ctx, VALUE seq_id, VALUE
2025
2080
  * @param [Integer] p1
2026
2081
  * @return [NilClass]
2027
2082
  */
2028
- static VALUE rb_llama_kv_cache_seq_cp(VALUE self, VALUE ctx, VALUE seq_id_src, VALUE seq_id_dst, VALUE p0, VALUE p1) {
2083
+ static VALUE rb_llama_kv_self_seq_cp(VALUE self, VALUE ctx, VALUE seq_id_src, VALUE seq_id_dst, VALUE p0, VALUE p1) {
2029
2084
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
2030
2085
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
2031
2086
  return Qnil;
@@ -2047,18 +2102,18 @@ static VALUE rb_llama_kv_cache_seq_cp(VALUE self, VALUE ctx, VALUE seq_id_src, V
2047
2102
  return Qnil;
2048
2103
  }
2049
2104
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
2050
- llama_kv_cache_seq_cp(context_wrapper->context, NUM2INT(seq_id_src), NUM2INT(seq_id_dst), NUM2INT(p0), NUM2INT(p1));
2105
+ llama_kv_self_seq_cp(context_wrapper->context, NUM2INT(seq_id_src), NUM2INT(seq_id_dst), NUM2INT(p0), NUM2INT(p1));
2051
2106
  RB_GC_GUARD(ctx);
2052
2107
  return Qnil;
2053
2108
  }
2054
2109
 
2055
2110
  /**
2056
- * @overload llama_kv_cache_seq_keep(context, seq_id)
2111
+ * @overload llama_kv_self_seq_keep(context, seq_id)
2057
2112
  * @param [LlamaContext] context
2058
2113
  * @param [Integer] seq_id
2059
2114
  * @return [NilClass]
2060
2115
  */
2061
- static VALUE rb_llama_kv_cache_seq_keep(VALUE self, VALUE ctx, VALUE seq_id) {
2116
+ static VALUE rb_llama_kv_self_seq_keep(VALUE self, VALUE ctx, VALUE seq_id) {
2062
2117
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
2063
2118
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
2064
2119
  return Qnil;
@@ -2068,13 +2123,13 @@ static VALUE rb_llama_kv_cache_seq_keep(VALUE self, VALUE ctx, VALUE seq_id) {
2068
2123
  return Qnil;
2069
2124
  }
2070
2125
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
2071
- llama_kv_cache_seq_keep(context_wrapper->context, NUM2INT(seq_id));
2126
+ llama_kv_self_seq_keep(context_wrapper->context, NUM2INT(seq_id));
2072
2127
  RB_GC_GUARD(ctx);
2073
2128
  return Qnil;
2074
2129
  }
2075
2130
 
2076
2131
  /**
2077
- * @overload llama_kv_cache_seq_add(context, seq_id, p0, p1, delta)
2132
+ * @overload llama_kv_self_seq_add(context, seq_id, p0, p1, delta)
2078
2133
  * @param [LlamaContext] context
2079
2134
  * @param [Integer] seq_id
2080
2135
  * @param [Integer] p0
@@ -2082,7 +2137,7 @@ static VALUE rb_llama_kv_cache_seq_keep(VALUE self, VALUE ctx, VALUE seq_id) {
2082
2137
  * @param [Integer] delta
2083
2138
  * @return [NilClass]
2084
2139
  */
2085
- static VALUE rb_llama_kv_cache_seq_add(VALUE self, VALUE ctx, VALUE seq_id, VALUE p0, VALUE p1, VALUE delta) {
2140
+ static VALUE rb_llama_kv_self_seq_add(VALUE self, VALUE ctx, VALUE seq_id, VALUE p0, VALUE p1, VALUE delta) {
2086
2141
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
2087
2142
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
2088
2143
  return Qnil;
@@ -2104,13 +2159,13 @@ static VALUE rb_llama_kv_cache_seq_add(VALUE self, VALUE ctx, VALUE seq_id, VALU
2104
2159
  return Qnil;
2105
2160
  }
2106
2161
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
2107
- llama_kv_cache_seq_add(context_wrapper->context, NUM2INT(seq_id), NUM2INT(p0), NUM2INT(p1), NUM2INT(delta));
2162
+ llama_kv_self_seq_add(context_wrapper->context, NUM2INT(seq_id), NUM2INT(p0), NUM2INT(p1), NUM2INT(delta));
2108
2163
  RB_GC_GUARD(ctx);
2109
2164
  return Qnil;
2110
2165
  }
2111
2166
 
2112
2167
  /**
2113
- * @overload llama_kv_cache_seq_div(context, seq_id, p0, p1, d)
2168
+ * @overload llama_kv_self_seq_div(context, seq_id, p0, p1, d)
2114
2169
  * @param [LlamaContext] context
2115
2170
  * @param [Integer] seq_id
2116
2171
  * @param [Integer] p0
@@ -2118,7 +2173,7 @@ static VALUE rb_llama_kv_cache_seq_add(VALUE self, VALUE ctx, VALUE seq_id, VALU
2118
2173
  * @param [Integer] d
2119
2174
  * @return [NilClass]
2120
2175
  */
2121
- static VALUE rb_llama_kv_cache_seq_div(VALUE self, VALUE ctx, VALUE seq_id, VALUE p0, VALUE p1, VALUE d) {
2176
+ static VALUE rb_llama_kv_self_seq_div(VALUE self, VALUE ctx, VALUE seq_id, VALUE p0, VALUE p1, VALUE d) {
2122
2177
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
2123
2178
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
2124
2179
  return Qnil;
@@ -2140,18 +2195,18 @@ static VALUE rb_llama_kv_cache_seq_div(VALUE self, VALUE ctx, VALUE seq_id, VALU
2140
2195
  return Qnil;
2141
2196
  }
2142
2197
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
2143
- llama_kv_cache_seq_div(context_wrapper->context, NUM2INT(seq_id), NUM2INT(p0), NUM2INT(p1), NUM2INT(d));
2198
+ llama_kv_self_seq_div(context_wrapper->context, NUM2INT(seq_id), NUM2INT(p0), NUM2INT(p1), NUM2INT(d));
2144
2199
  RB_GC_GUARD(ctx);
2145
2200
  return Qnil;
2146
2201
  }
2147
2202
 
2148
2203
  /**
2149
- * @overload llama_kv_cache_seq_pos_max(context, seq_id)
2204
+ * @overload llama_kv_self_seq_pos_max(context, seq_id)
2150
2205
  * @param [LlamaContext] context
2151
2206
  * @param [Integer] seq_id
2152
2207
  * @return [Integer]
2153
2208
  */
2154
- static VALUE rb_llama_kv_cache_seq_pos_max(VALUE self, VALUE ctx, VALUE seq_id) {
2209
+ static VALUE rb_llama_kv_self_seq_pos_max(VALUE self, VALUE ctx, VALUE seq_id) {
2155
2210
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
2156
2211
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
2157
2212
  return Qnil;
@@ -2161,55 +2216,55 @@ static VALUE rb_llama_kv_cache_seq_pos_max(VALUE self, VALUE ctx, VALUE seq_id)
2161
2216
  return Qnil;
2162
2217
  }
2163
2218
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
2164
- const int32_t pos_max = llama_kv_cache_seq_pos_max(context_wrapper->context, NUM2INT(seq_id));
2219
+ const int32_t pos_max = llama_kv_self_seq_pos_max(context_wrapper->context, NUM2INT(seq_id));
2165
2220
  RB_GC_GUARD(ctx);
2166
2221
  return INT2NUM(pos_max);
2167
2222
  }
2168
2223
 
2169
2224
  /**
2170
- * @overload llama_kv_cache_defrag(context)
2225
+ * @overload llama_kv_self_defrag(context)
2171
2226
  * @param [LlamaContext] context
2172
2227
  * @return [NilClass]
2173
2228
  */
2174
- static VALUE rb_llama_kv_cache_defrag(VALUE self, VALUE ctx) {
2229
+ static VALUE rb_llama_kv_self_defrag(VALUE self, VALUE ctx) {
2175
2230
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
2176
2231
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
2177
2232
  return Qnil;
2178
2233
  }
2179
2234
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
2180
- llama_kv_cache_defrag(context_wrapper->context);
2235
+ llama_kv_self_defrag(context_wrapper->context);
2181
2236
  RB_GC_GUARD(ctx);
2182
2237
  return Qnil;
2183
2238
  }
2184
2239
 
2185
2240
  /**
2186
- * @overload llama_kv_cache_update(context)
2241
+ * @overload llama_kv_self_update(context)
2187
2242
  * @param [LlamaContext] context
2188
2243
  * @return [NilClass]
2189
2244
  */
2190
- static VALUE rb_llama_kv_cache_update(VALUE self, VALUE ctx) {
2245
+ static VALUE rb_llama_kv_self_update(VALUE self, VALUE ctx) {
2191
2246
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
2192
2247
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
2193
2248
  return Qnil;
2194
2249
  }
2195
2250
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
2196
- llama_kv_cache_update(context_wrapper->context);
2251
+ llama_kv_self_update(context_wrapper->context);
2197
2252
  RB_GC_GUARD(ctx);
2198
2253
  return Qnil;
2199
2254
  }
2200
2255
 
2201
2256
  /**
2202
- * @overload llama_kv_cache_can_shift?(context)
2257
+ * @overload llama_kv_self_can_shift?(context)
2203
2258
  * @param [LlamaContext] context
2204
2259
  * @return [Boolean]
2205
2260
  */
2206
- static VALUE rb_llama_kv_cache_can_shift(VALUE self, VALUE ctx) {
2261
+ static VALUE rb_llama_kv_self_can_shift(VALUE self, VALUE ctx) {
2207
2262
  if (!rb_obj_is_kind_of(ctx, rb_cLlamaContext)) {
2208
2263
  rb_raise(rb_eArgError, "ctx must be a LlamaContext");
2209
2264
  return Qnil;
2210
2265
  }
2211
2266
  llama_context_wrapper* context_wrapper = get_llama_context_wrapper(ctx);
2212
- const bool res = llama_kv_cache_can_shift(context_wrapper->context);
2267
+ const bool res = llama_kv_self_can_shift(context_wrapper->context);
2213
2268
  RB_GC_GUARD(ctx);
2214
2269
  return res ? Qtrue : Qfalse;
2215
2270
  }
@@ -4708,6 +4763,9 @@ void Init_llama_cpp(void) {
4708
4763
  /* TODO: llama_get_model */
4709
4764
  rb_define_module_function(rb_mLlamaCpp, "llama_get_model", rb_llama_get_model, 1);
4710
4765
 
4766
+ /* llama_get_kv_self */
4767
+ rb_define_module_function(rb_mLlamaCpp, "llama_get_kv_self", rb_llama_get_kv_self, 1);
4768
+
4711
4769
  /* llama_pooling_type */
4712
4770
  rb_define_module_function(rb_mLlamaCpp, "llama_pooling_type", rb_llama_pooling_type, 1);
4713
4771
 
@@ -4802,6 +4860,13 @@ void Init_llama_cpp(void) {
4802
4860
  */
4803
4861
  rb_define_method(rb_cLlamaKvCacheViewCell, "pos", RUBY_METHOD_FUNC(llama_kv_cache_view_cell_get_pos), 0);
4804
4862
 
4863
+ /**
4864
+ * Document-class: LlamaCpp::LlamaKvCache
4865
+ * "struct llama_kv_cache" wrapper class
4866
+ */
4867
+ rb_cLlamaKvCache = rb_define_class_under(rb_mLlamaCpp, "LlamaKvCache", rb_cObject);
4868
+ rb_define_alloc_func(rb_cLlamaKvCache, llama_kv_cache_wrapper_alloc);
4869
+
4805
4870
  /**
4806
4871
  * Document-class: LlamaCpp::LlamaKvCacheView
4807
4872
  * "struct llama_kv_cache_view" wrapper class
@@ -4848,41 +4913,41 @@ void Init_llama_cpp(void) {
4848
4913
  /* llama_kv_cache_view_update */
4849
4914
  rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_view_update", rb_llama_kv_cache_view_update, 2);
4850
4915
 
4851
- /* llama_get_kv_cache_token_count */
4852
- rb_define_module_function(rb_mLlamaCpp, "llama_get_kv_cache_token_count", rb_llama_get_kv_cache_token_count, 1);
4916
+ /* llama_kv_self_n_tokens */
4917
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_n_tokens", rb_llama_kv_self_n_tokens, 1);
4853
4918
 
4854
- /* llama_get_kv_cache_used_cells */
4855
- rb_define_module_function(rb_mLlamaCpp, "llama_get_kv_cache_used_cells", rb_llama_get_kv_cache_used_cells, 1);
4919
+ /* llama_kv_self_used_cells */
4920
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_used_cells", rb_llama_kv_self_used_cells, 1);
4856
4921
 
4857
- /* llama_kv_cache_clear */
4858
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_clear", rb_llama_kv_cache_clear, 1);
4922
+ /* llama_kv_self_clear */
4923
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_clear", rb_llama_kv_self_clear, 1);
4859
4924
 
4860
- /* llama_kv_cache_seq_rm */
4861
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_seq_rm", rb_llama_kv_cache_seq_rm, 4);
4925
+ /* llama_kv_self_seq_rm */
4926
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_seq_rm", rb_llama_kv_self_seq_rm, 4);
4862
4927
 
4863
- /* llama_kv_cache_seq_cp */
4864
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_seq_cp", rb_llama_kv_cache_seq_cp, 5);
4928
+ /* llama_kv_self_seq_cp */
4929
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_seq_cp", rb_llama_kv_self_seq_cp, 5);
4865
4930
 
4866
- /* llama_kv_cache_seq_keep */
4867
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_seq_keep", rb_llama_kv_cache_seq_keep, 2);
4931
+ /* llama_kv_self_seq_keep */
4932
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_seq_keep", rb_llama_kv_self_seq_keep, 2);
4868
4933
 
4869
- /* llama_kv_cache_seq_add */
4870
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_seq_add", rb_llama_kv_cache_seq_add, 5);
4934
+ /* llama_kv_self_seq_add */
4935
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_seq_add", rb_llama_kv_self_seq_add, 5);
4871
4936
 
4872
- /* llama_kv_cache_seq_div */
4873
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_seq_div", rb_llama_kv_cache_seq_div, 5);
4937
+ /* llama_kv_self_seq_div */
4938
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_seq_div", rb_llama_kv_self_seq_div, 5);
4874
4939
 
4875
- /* llama_kv_cache_seq_pos_max */
4876
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_seq_pos_max", rb_llama_kv_cache_seq_pos_max, 2);
4940
+ /* llama_kv_self_seq_pos_max */
4941
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_seq_pos_max", rb_llama_kv_self_seq_pos_max, 2);
4877
4942
 
4878
- /* llama_kv_cache_defrag */
4879
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_defrag", rb_llama_kv_cache_defrag, 1);
4943
+ /* llama_kv_self_defrag */
4944
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_defrag", rb_llama_kv_self_defrag, 1);
4880
4945
 
4881
- /* llama_kv_cache_update */
4882
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_update", rb_llama_kv_cache_update, 1);
4946
+ /* llama_kv_self_update */
4947
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_update", rb_llama_kv_self_update, 1);
4883
4948
 
4884
- /* llama_kv_cache_can_shift */
4885
- rb_define_module_function(rb_mLlamaCpp, "llama_kv_cache_can_shift?", rb_llama_kv_cache_can_shift, 1);
4949
+ /* llama_kv_self_can_shift */
4950
+ rb_define_module_function(rb_mLlamaCpp, "llama_kv_self_can_shift?", rb_llama_kv_self_can_shift, 1);
4886
4951
 
4887
4952
  /* llama_state_get_size */
4888
4953
  rb_define_module_function(rb_mLlamaCpp, "llama_state_get_size", rb_llama_state_get_size, 1);
@@ -5091,7 +5156,7 @@ void Init_llama_cpp(void) {
5091
5156
  /* llama_sampler_init_grammar */
5092
5157
  rb_define_module_function(rb_mLlamaCpp, "llama_sampler_init_grammar", rb_llama_sampler_init_grammar, 3);
5093
5158
 
5094
- /* TODO: llama_sampler_init_grammar_lazy */
5159
+ /* TODO: llama_sampler_init_grammar_lazy_patterns */
5095
5160
 
5096
5161
  /* llama_sampler_init_penalties */
5097
5162
  rb_define_module_function(rb_mLlamaCpp, "llama_sampler_init_penalties", rb_llama_sampler_init_penalties, 4);
@@ -3,8 +3,8 @@
3
3
  # llama_cpp.rb provides Ruby bindings for the llama.cpp.
4
4
  module LlamaCpp
5
5
  # The version of llama_cpp.rb you install.
6
- VERSION = '0.18.2'
6
+ VERSION = '0.19.0'
7
7
 
8
8
  # The supported version of llama.cpp.
9
- LLAMA_CPP_VERSION = 'b4793'
9
+ LLAMA_CPP_VERSION = 'b4885'
10
10
  end
metadata CHANGED
@@ -1,13 +1,13 @@
1
1
  --- !ruby/object:Gem::Specification
2
2
  name: llama_cpp
3
3
  version: !ruby/object:Gem::Version
4
- version: 0.18.2
4
+ version: 0.19.0
5
5
  platform: ruby
6
6
  authors:
7
7
  - yoshoku
8
8
  bindir: exe
9
9
  cert_chain: []
10
- date: 2025-03-01 00:00:00.000000000 Z
10
+ date: 2025-03-16 00:00:00.000000000 Z
11
11
  dependencies: []
12
12
  description: llama_cpp.rb provides Ruby bindings for the llama.cpp.
13
13
  email: