npm - @fugood/llama.node - Versions diffs - 1.3.2 → 1.3.4 - Mend

@fugood/llama.node 1.3.2 → 1.3.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (37) hide show

package/CMakeLists.txt +8 -3
package/package.json +14 -14
package/scripts/llama.cpp.patch +5 -5
package/src/LlamaCompletionWorker.cpp +33 -33
package/src/LlamaContext.cpp +17 -16
package/src/llama.cpp/CMakeLists.txt +4 -0
package/src/llama.cpp/common/CMakeLists.txt +6 -37
package/src/llama.cpp/common/common.cpp +1 -5
package/src/llama.cpp/common/download.cpp +47 -29
package/src/llama.cpp/common/log.cpp +6 -0
package/src/llama.cpp/common/log.h +2 -0
package/src/llama.cpp/ggml/include/ggml.h +71 -0
package/src/llama.cpp/ggml/src/CMakeLists.txt +16 -0
package/src/llama.cpp/ggml/src/ggml-cpu/CMakeLists.txt +15 -3
package/src/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c +29 -0
package/src/llama.cpp/ggml/src/ggml-cpu/kleidiai/kernels.cpp +283 -0
package/src/llama.cpp/ggml/src/ggml-cpu/kleidiai/kernels.h +1 -0
package/src/llama.cpp/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp +235 -34
package/src/llama.cpp/ggml/src/ggml-cpu/ops.cpp +289 -277
package/src/llama.cpp/ggml/src/ggml-cpu/ops.h +4 -0
package/src/llama.cpp/ggml/src/ggml-cpu/repack.cpp +95 -42
package/src/llama.cpp/ggml/src/ggml-cpu/unary-ops.cpp +16 -0
package/src/llama.cpp/ggml/src/ggml-cpu/unary-ops.h +2 -0
package/src/llama.cpp/ggml/src/ggml-cpu/vec.cpp +17 -0
package/src/llama.cpp/ggml/src/ggml-cpu/vec.h +10 -0
package/src/llama.cpp/src/CMakeLists.txt +6 -0
package/src/llama.cpp/src/llama-arch.cpp +32 -0
package/src/llama.cpp/src/llama-arch.h +2 -0
package/src/llama.cpp/src/llama-graph.cpp +2 -1
package/src/llama.cpp/src/llama-model.cpp +102 -0
package/src/llama.cpp/src/llama-model.h +2 -0
package/src/llama.cpp/src/llama-sampling.cpp +10 -5
package/src/llama.cpp/src/llama-vocab.cpp +16 -1
package/src/llama.cpp/src/llama-vocab.h +1 -0
package/src/llama.cpp/src/models/afmoe.cpp +187 -0
package/src/llama.cpp/src/models/models.h +4 -0
package/src/llama.cpp/src/unicode.cpp +77 -0

package/CMakeLists.txt CHANGED Viewed

@@ -120,9 +120,14 @@ if (CMAKE_CXX_COMPILER_ID STREQUAL "Clang" AND NOT DEFINED GGML_OPENMP OR GGML_O
 endif()
 set(LLAMA_BUILD_COMMON ON CACHE BOOL "Build common")
+set(LLAMA_BUILD_TOOLS OFF CACHE BOOL "Build tools")
+set(LLAMA_BUILD_TESTS OFF CACHE BOOL "Build tests")
+set(LLAMA_BUILD_SERVER OFF CACHE BOOL "Build server")
+set(LLAMA_BUILD_EXAMPLES OFF CACHE BOOL "Build examples")
 set(LLAMA_CURL OFF CACHE BOOL "Build curl")
+set(LLAMA_INSTALL_VERSION "0.0.0") # TODO: Set the version number (0.0.<BUILD_NUMBER>)
 set(BUILD_SHARED_LIBS OFF CACHE BOOL "Build shared libraries")
 add_definitions(-DGGML_MAX_NAME=80)
@@ -172,7 +177,7 @@ if (NOT MSVC AND CMAKE_SYSTEM_NAME STREQUAL "Windows")
   add_library(win_dynamic_load ${WIN_DYNAMIC_LOAD_SRC})
   set_target_properties(win_dynamic_load PROPERTIES COMPILE_FLAGS "-Wno-implicit-function-declaration")
   unset(CMAKE_JS_SRC)
   unset(CMAKE_JS_LIB)
   unset(CMAKE_JS_NODELIB_DEF)
@@ -207,7 +212,7 @@ if(CMAKE_JS_NODELIB_DEF AND CMAKE_JS_NODELIB_TARGET)
 endif()
 if (GGML_METAL AND NOT GGML_METAL_EMBED_LIBRARY)
-  # copy ${CMAKE_BINARY_DIR}/bin/default.metallib
+  # copy ${CMAKE_BINARY_DIR}/bin/default.metallib
   add_custom_command(
     TARGET copy_assets
     COMMAND ${CMAKE_COMMAND} -E copy ${CMAKE_BINARY_DIR}/bin/default.metallib ${METAL_LIB_TARGET_PATH}

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "name": "@fugood/llama.node",
   "access": "public",
-  "version": "1.3.2",
+  "version": "1.3.4",
   "description": "An another Node binding of llama.cpp",
   "main": "lib/index.js",
   "scripts": {
@@ -72,19 +72,19 @@
     "CMakeLists.txt"
   ],
   "optionalDependencies": {
-    "@fugood/node-llama-linux-x64": "1.3.2",
-    "@fugood/node-llama-linux-x64-vulkan": "1.3.2",
-    "@fugood/node-llama-linux-x64-cuda": "1.3.2",
-    "@fugood/node-llama-linux-arm64": "1.3.2",
-    "@fugood/node-llama-linux-arm64-vulkan": "1.3.2",
-    "@fugood/node-llama-linux-arm64-cuda": "1.3.2",
-    "@fugood/node-llama-win32-x64": "1.3.2",
-    "@fugood/node-llama-win32-x64-vulkan": "1.3.2",
-    "@fugood/node-llama-win32-x64-cuda": "1.3.2",
-    "@fugood/node-llama-win32-arm64": "1.3.2",
-    "@fugood/node-llama-win32-arm64-vulkan": "1.3.2",
-    "@fugood/node-llama-darwin-x64": "1.3.2",
-    "@fugood/node-llama-darwin-arm64": "1.3.2"
+    "@fugood/node-llama-linux-x64": "1.3.4",
+    "@fugood/node-llama-linux-x64-vulkan": "1.3.4",
+    "@fugood/node-llama-linux-x64-cuda": "1.3.4",
+    "@fugood/node-llama-linux-arm64": "1.3.4",
+    "@fugood/node-llama-linux-arm64-vulkan": "1.3.4",
+    "@fugood/node-llama-linux-arm64-cuda": "1.3.4",
+    "@fugood/node-llama-win32-x64": "1.3.4",
+    "@fugood/node-llama-win32-x64-vulkan": "1.3.4",
+    "@fugood/node-llama-win32-x64-cuda": "1.3.4",
+    "@fugood/node-llama-win32-arm64": "1.3.4",
+    "@fugood/node-llama-win32-arm64-vulkan": "1.3.4",
+    "@fugood/node-llama-darwin-x64": "1.3.4",
+    "@fugood/node-llama-darwin-arm64": "1.3.4"
   },
   "devDependencies": {
     "@babel/preset-env": "^7.24.4",

package/scripts/llama.cpp.patch CHANGED Viewed

@@ -1,8 +1,8 @@
 diff --git a/src/llama.cpp/common/CMakeLists.txt b/src/llama.cpp/common/CMakeLists.txt
-index 7086d08e5..9a727bcf8 100644
+index 706fa32ee..248459903 100644
 --- a/src/llama.cpp/common/CMakeLists.txt
 +++ b/src/llama.cpp/common/CMakeLists.txt
-@@ -172,9 +172,16 @@ if (LLAMA_LLGUIDANCE)
+@@ -141,9 +141,16 @@ if (LLAMA_LLGUIDANCE)
      set(LLAMA_COMMON_EXTRA_LIBS ${LLAMA_COMMON_EXTRA_LIBS} llguidance ${LLGUIDANCE_PLATFORM_LIBS})
  endif ()
@@ -85,10 +85,10 @@ index 50efb0d4e..f471a84c7 100644
  struct common_chat_tool_call {
      std::string name;
 diff --git a/src/llama.cpp/common/common.cpp b/src/llama.cpp/common/common.cpp
-index a8d709ab1..d8aed9c7e 100644
+index 4dc95dcba..ea0ea86c0 100644
 --- a/src/llama.cpp/common/common.cpp
 +++ b/src/llama.cpp/common/common.cpp
-@@ -1159,6 +1159,7 @@ struct llama_model_params common_model_params_to_llama(common_params & params) {
+@@ -1155,6 +1155,7 @@ struct llama_model_params common_model_params_to_llama(common_params & params) {
          mparams.n_gpu_layers = params.n_gpu_layers;
      }
@@ -109,7 +109,7 @@ index f42c083fa..c573cc812 100644
      int32_t n_ctx                 =  4096; // context size
      int32_t n_batch               =  2048; // logical batch size for prompt processing (must be >=32 to use BLAS)
 diff --git a/src/llama.cpp/ggml/src/ggml-cpu/CMakeLists.txt b/src/llama.cpp/ggml/src/ggml-cpu/CMakeLists.txt
-index a55191aed..53e318c62 100644
+index e52e050a8..c1000c162 100644
 --- a/src/llama.cpp/ggml/src/ggml-cpu/CMakeLists.txt
 +++ b/src/llama.cpp/ggml/src/ggml-cpu/CMakeLists.txt
@@ -106,7 +106,7 @@ function(ggml_add_cpu_backend_variant_impl tag_name)

package/src/LlamaCompletionWorker.cpp CHANGED Viewed

@@ -9,10 +9,10 @@ Napi::Array TokenProbsToArray(Napi::Env env, llama_context* ctx, const std::vect
   for (size_t i = 0; i < probs.size(); i++) {
     const auto &prob = probs[i];
     Napi::Object token_obj = Napi::Object::New(env);
     std::string token_str = common_token_to_piece(ctx, prob.tok);
     token_obj.Set("content", Napi::String::New(env, token_str));
     Napi::Array token_probs = Napi::Array::New(env);
     for (size_t j = 0; j < prob.probs.size(); j++) {
       const auto &p = prob.probs[j];
@@ -83,10 +83,10 @@ void LlamaCompletionWorker::Execute() {
     }
     auto completion = _rn_ctx->completion;
     // Prepare completion context
     completion->rewind();
     // Set up parameters
     _rn_ctx->params.prompt = _params.prompt;
     _rn_ctx->params.sampling = _params.sampling;
@@ -95,50 +95,50 @@ void LlamaCompletionWorker::Execute() {
     _rn_ctx->params.n_ctx = _params.n_ctx;
     _rn_ctx->params.n_batch = _params.n_batch;
     _rn_ctx->params.ctx_shift = _params.ctx_shift;
     // Set prefill text
     completion->prefill_text = _prefill_text;
     // Set up TTS guide tokens if enabled
     if (_has_vocoder && _rn_ctx->tts_wrapper != nullptr) {
       _rn_ctx->tts_wrapper->guide_tokens = _guide_tokens;
       _rn_ctx->tts_wrapper->next_token_uses_guide_token = true;
     }
     // Initialize sampling
     if (!completion->initSampling()) {
       SetError("Failed to initialize sampling");
       return;
     }
     // Load prompt (handles both text-only and multimodal)
     completion->loadPrompt(_media_paths);
     // Check if context is full after loading prompt
     if (completion->context_full) {
       _result.context_full = true;
       return;
     }
     // Begin completion with chat format and reasoning settings
     completion->beginCompletion(_chat_format, common_reasoning_format_from_name(_reasoning_format), _thinking_forced_open);
     // Main completion loop
     int token_count = 0;
     const int max_tokens = _params.n_predict < 0 ? std::numeric_limits<int>::max() : _params.n_predict;
     while (completion->has_next_token && !_interrupted && token_count < max_tokens) {
       // Get next token using rn-llama completion
       rnllama::completion_token_output token_output = completion->doCompletion();
       if (token_output.tok == -1) {
         break;
       }
       token_count++;
       std::string token_text = common_token_to_piece(_rn_ctx->ctx, token_output.tok);
       _result.text += token_text;
       // Check for stopping strings after adding the token
       if (!_stop_words.empty()) {
         size_t stop_pos = completion->findStoppingStrings(_result.text, token_text.size(), rnllama::STOP_FULL);
@@ -148,7 +148,7 @@ void LlamaCompletionWorker::Execute() {
           break;
         }
       }
       // Handle streaming callback
       if (_has_callback && !completion->incomplete) {
         struct TokenData {
@@ -160,9 +160,9 @@ void LlamaCompletionWorker::Execute() {
           std::vector<rnllama::completion_token_output> completion_probabilities;
           llama_context* ctx;
         };
         auto partial_output = completion->parseChatOutput(true);
         // Extract completion probabilities if n_probs > 0, similar to iOS implementation
         std::vector<rnllama::completion_token_output> probs_output;
         if (_rn_ctx->params.sampling.n_probs > 0) {
@@ -171,23 +171,23 @@ void LlamaCompletionWorker::Execute() {
           size_t probs_stop_pos = std::min(_sent_token_probs_index + to_send_toks.size(), completion->generated_token_probs.size());
           if (probs_pos < probs_stop_pos) {
             probs_output = std::vector<rnllama::completion_token_output>(
-              completion->generated_token_probs.begin() + probs_pos,
+              completion->generated_token_probs.begin() + probs_pos,
               completion->generated_token_probs.begin() + probs_stop_pos
             );
           }
           _sent_token_probs_index = probs_stop_pos;
         }
         TokenData *token_data = new TokenData{
-          token_text,
-          partial_output.content,
-          partial_output.reasoning_content,
-          partial_output.tool_calls,
+          token_text,
+          partial_output.content,
+          partial_output.reasoning_content,
+          partial_output.tool_calls,
           partial_output.accumulated_text,
           probs_output,
           _rn_ctx->ctx
         };
         _tsfn.BlockingCall(token_data, [](Napi::Env env, Napi::Function jsCallback,
                                           TokenData *data) {
           auto obj = Napi::Object::New(env);
@@ -216,25 +216,25 @@ void LlamaCompletionWorker::Execute() {
             obj.Set("tool_calls", tool_calls);
           }
           obj.Set("accumulated_text", Napi::String::New(env, data->accumulated_text));
           // Add completion_probabilities if available
           if (!data->completion_probabilities.empty()) {
             obj.Set("completion_probabilities", TokenProbsToArray(env, data->ctx, data->completion_probabilities));
           }
           delete data;
           jsCallback.Call({obj});
         });
       }
     }
     // Check stopping conditions
     if (token_count >= max_tokens) {
       _result.stopped_limited = true;
     } else if (!completion->has_next_token && completion->n_remain == 0) {
       _result.stopped_limited = true;
     }
     // Set completion results from rn-llama completion context
     // tokens_evaluated should include both prompt tokens and generated tokens that were processed
     _result.tokens_evaluated = completion->num_prompt_tokens + completion->num_tokens_predicted;
@@ -245,20 +245,20 @@ void LlamaCompletionWorker::Execute() {
     _result.stopped_words = completion->stopped_word;
     _result.stopping_word = completion->stopping_word;
     _result.stopped_limited = completion->stopped_limit;
     // Get audio tokens if TTS is enabled
     if (_has_vocoder && _rn_ctx->tts_wrapper != nullptr) {
       _result.audio_tokens = _rn_ctx->tts_wrapper->audio_tokens;
     }
+    common_perf_print(_rn_ctx->ctx, _rn_ctx->completion->ctx_sampling);
     // End completion
     completion->endCompletion();
   } catch (const std::exception &e) {
     SetError(e.what());
     return;
   }
   if (_onComplete) {
     _onComplete();
   }

package/src/LlamaContext.cpp CHANGED Viewed

@@ -376,6 +376,7 @@ LlamaContext::LlamaContext(const Napi::CallbackInfo &info)
     _rn_ctx = nullptr;
     Napi::TypeError::New(env, "Failed to load model").ThrowAsJavaScriptException();
   }
+  _rn_ctx->attachThreadpoolsIfAvailable();
   // Release progress callback after model is loaded
   if (has_progress_callback) {
@@ -386,7 +387,7 @@ LlamaContext::LlamaContext(const Napi::CallbackInfo &info)
   if (!lora.empty()) {
     _rn_ctx->applyLoraAdapters(lora);
   }
   _info = common_params_get_system_info(params);
 }
@@ -636,7 +637,7 @@ Napi::Value LlamaContext::GetFormattedChat(const Napi::CallbackInfo &info) {
     auto enable_thinking = get_option<bool>(params, "enable_thinking", false);
     auto add_generation_prompt = get_option<bool>(params, "add_generation_prompt", true);
     auto now_str = get_option<std::string>(params, "now", "");
     std::map<std::string, std::string> chat_template_kwargs;
     if (params.Has("chat_template_kwargs") && params.Get("chat_template_kwargs").IsObject()) {
       auto kwargs_obj = params.Get("chat_template_kwargs").As<Napi::Object>();
@@ -873,7 +874,7 @@ Napi::Value LlamaContext::Completion(const Napi::CallbackInfo &info) {
       auto enable_thinking = get_option<bool>(options, "enable_thinking", true);
       auto add_generation_prompt = get_option<bool>(options, "add_generation_prompt", true);
       auto now_str = get_option<std::string>(options, "now", "");
       std::map<std::string, std::string> chat_template_kwargs;
       if (options.Has("chat_template_kwargs") && options.Get("chat_template_kwargs").IsObject()) {
         auto kwargs_obj = options.Get("chat_template_kwargs").As<Napi::Object>();
@@ -886,7 +887,7 @@ Napi::Value LlamaContext::Completion(const Napi::CallbackInfo &info) {
       }
       common_chat_params chatParams;
       try {
         chatParams = _rn_ctx->getFormattedChatWithJinja(
             json_stringify(messages), chat_template,
@@ -1043,7 +1044,7 @@ Napi::Value LlamaContext::Tokenize(const Napi::CallbackInfo &info) {
   }
   auto text = info[0].ToString().Utf8Value();
   std::vector<std::string> media_paths;
   if (info.Length() >= 2 && info[1].IsArray()) {
     // Direct array format: tokenize(text, [media_paths])
     auto media_paths_array = info[1].As<Napi::Array>();
@@ -1051,7 +1052,7 @@ Napi::Value LlamaContext::Tokenize(const Napi::CallbackInfo &info) {
       media_paths.push_back(media_paths_array.Get(i).ToString().Utf8Value());
     }
   }
   auto *worker = new TokenizeWorker(info, _rn_ctx, text, media_paths);
   worker->Queue();
   return worker->Promise();
@@ -1072,7 +1073,7 @@ Napi::Value LlamaContext::Detokenize(const Napi::CallbackInfo &info) {
   for (size_t i = 0; i < tokens.Length(); i++) {
     token_ids.push_back(tokens.Get(i).ToNumber().Int32Value());
   }
   auto *worker = new DetokenizeWorker(info, _rn_ctx, token_ids);
   worker->Queue();
   return worker->Promise();
@@ -1112,16 +1113,16 @@ Napi::Value LlamaContext::Rerank(const Napi::CallbackInfo &info) {
     Napi::TypeError::New(env, "Context is disposed")
         .ThrowAsJavaScriptException();
   }
   auto query = info[0].ToString().Utf8Value();
   auto documents_array = info[1].As<Napi::Array>();
   // Convert documents array to vector
   std::vector<std::string> documents;
   for (size_t i = 0; i < documents_array.Length(); i++) {
     documents.push_back(documents_array.Get(i).ToString().Utf8Value());
   }
   auto options = Napi::Object::New(env);
   if (info.Length() >= 3 && info[2].IsObject()) {
     options = info[2].As<Napi::Object>();
@@ -1130,7 +1131,7 @@ Napi::Value LlamaContext::Rerank(const Napi::CallbackInfo &info) {
   common_params rerankParams;
   rerankParams.embedding = true;
   rerankParams.embd_normalize = get_option<int32_t>(options, "normalize", -1);
   auto *worker = new RerankWorker(info, _rn_ctx, query, documents, rerankParams);
   worker->Queue();
   return worker->Promise();
@@ -1379,13 +1380,13 @@ LlamaContext::GetFormattedAudioCompletion(const Napi::CallbackInfo &info) {
   }
   auto text = info[1].ToString().Utf8Value();
   auto speaker_json = info[0].IsString() ? info[0].ToString().Utf8Value() : "";
   if (!_rn_ctx->tts_wrapper) {
     Napi::Error::New(env, "Vocoder not initialized")
         .ThrowAsJavaScriptException();
     return env.Undefined();
   }
   auto result_data = _rn_ctx->tts_wrapper->getFormattedAudioCompletion(_rn_ctx, speaker_json, text);
   Napi::Object result = Napi::Object::New(env);
   result.Set("prompt", Napi::String::New(env, result_data.prompt));
@@ -1406,13 +1407,13 @@ LlamaContext::GetAudioCompletionGuideTokens(const Napi::CallbackInfo &info) {
     return env.Undefined();
   }
   auto text = info[0].ToString().Utf8Value();
   if (!_rn_ctx->tts_wrapper) {
     Napi::Error::New(env, "Vocoder not initialized")
         .ThrowAsJavaScriptException();
     return env.Undefined();
   }
   auto result = _rn_ctx->tts_wrapper->getAudioCompletionGuideTokens(_rn_ctx, text);
   auto tokens = Napi::Int32Array::New(env, result.size());
   memcpy(tokens.Data(), result.data(), result.size() * sizeof(int32_t));
@@ -1448,7 +1449,7 @@ Napi::Value LlamaContext::DecodeAudioTokens(const Napi::CallbackInfo &info) {
         .ThrowAsJavaScriptException();
     return env.Undefined();
   }
   auto *worker = new DecodeAudioTokenWorker(info, _rn_ctx, tokens);
   worker->Queue();
   return worker->Promise();

package/src/llama.cpp/CMakeLists.txt CHANGED Viewed

@@ -92,6 +92,7 @@ option(LLAMA_TOOLS_INSTALL  "llama: install tools"        ${LLAMA_TOOLS_INSTALL_
 # 3rd party libs
 option(LLAMA_CURL       "llama: use libcurl to download model from an URL" ON)
+option(LLAMA_HTTPLIB    "llama: if libcurl is disabled, use httplib to download model from an URL" ON)
 option(LLAMA_OPENSSL    "llama: use openssl to support HTTPS" OFF)
 option(LLAMA_LLGUIDANCE "llama-common: include LLGuidance library for structured output in common utils" OFF)
@@ -200,6 +201,9 @@ endif()
 if (LLAMA_BUILD_COMMON)
     add_subdirectory(common)
+    if (LLAMA_HTTPLIB)
+        add_subdirectory(vendor/cpp-httplib)
+    endif()
 endif()
 if (LLAMA_BUILD_COMMON AND LLAMA_BUILD_TESTS AND NOT CMAKE_JS_VERSION)

package/src/llama.cpp/common/CMakeLists.txt CHANGED Viewed

@@ -79,10 +79,11 @@ if (BUILD_SHARED_LIBS)
     set_target_properties(${TARGET} PROPERTIES POSITION_INDEPENDENT_CODE ON)
 endif()
+# TODO: use list(APPEND LLAMA_COMMON_EXTRA_LIBS ...)
 set(LLAMA_COMMON_EXTRA_LIBS build_info)
-# Use curl to download model url
 if (LLAMA_CURL)
+    # Use curl to download model url
     find_package(CURL)
     if (NOT CURL_FOUND)
         message(FATAL_ERROR "Could NOT find CURL. Hint: to disable this feature, set -DLLAMA_CURL=OFF")
@@ -90,42 +91,10 @@ if (LLAMA_CURL)
     target_compile_definitions(${TARGET} PUBLIC LLAMA_USE_CURL)
     include_directories(${CURL_INCLUDE_DIRS})
     set(LLAMA_COMMON_EXTRA_LIBS ${LLAMA_COMMON_EXTRA_LIBS} ${CURL_LIBRARIES})
-endif()
-if (LLAMA_OPENSSL)
-    find_package(OpenSSL)
-    if (OpenSSL_FOUND)
-        include(CheckCSourceCompiles)
-        set(SAVED_CMAKE_REQUIRED_INCLUDES ${CMAKE_REQUIRED_INCLUDES})
-        set(CMAKE_REQUIRED_INCLUDES ${OPENSSL_INCLUDE_DIR})
-        check_c_source_compiles("
-        #include <openssl/opensslv.h>
-        #if defined(OPENSSL_IS_BORINGSSL) || defined(LIBRESSL_VERSION_NUMBER)
-        #    if OPENSSL_VERSION_NUMBER < 0x1010107f
-        #        error bad version
-        #    endif
-        #else
-        #    if OPENSSL_VERSION_NUMBER < 0x30000000L
-        #        error bad version
-        #    endif
-        #endif
-        int main() { return 0; }
-        " OPENSSL_VERSION_SUPPORTED)
-        set(CMAKE_REQUIRED_INCLUDES ${SAVED_CMAKE_REQUIRED_INCLUDES})
-        if (OPENSSL_VERSION_SUPPORTED)
-            message(STATUS "OpenSSL found: ${OPENSSL_VERSION}")
-            target_compile_definitions(${TARGET} PUBLIC CPPHTTPLIB_OPENSSL_SUPPORT)
-            target_link_libraries(${TARGET} PUBLIC OpenSSL::SSL OpenSSL::Crypto)
-            if (APPLE AND CMAKE_SYSTEM_NAME STREQUAL "Darwin")
-                target_compile_definitions(${TARGET} PUBLIC CPPHTTPLIB_USE_CERTS_FROM_MACOSX_KEYCHAIN)
-                find_library(CORE_FOUNDATION_FRAMEWORK CoreFoundation REQUIRED)
-                find_library(SECURITY_FRAMEWORK Security REQUIRED)
-                target_link_libraries(${TARGET} PUBLIC ${CORE_FOUNDATION_FRAMEWORK} ${SECURITY_FRAMEWORK})
-            endif()
-        endif()
-    else()
-        message(STATUS "OpenSSL not found, SSL support disabled")
-    endif()
+elseif (LLAMA_HTTPLIB)
+    # otherwise, use cpp-httplib
+    target_compile_definitions(${TARGET} PUBLIC LLAMA_USE_HTTPLIB)
+    set(LLAMA_COMMON_EXTRA_LIBS ${LLAMA_COMMON_EXTRA_LIBS} cpp-httplib)
 endif()
 if (LLAMA_LLGUIDANCE)

package/src/llama.cpp/common/common.cpp CHANGED Viewed

@@ -355,11 +355,7 @@ bool parse_cpu_mask(const std::string & mask, bool (&boolmask)[GGML_MAX_N_THREAD
 }
 void common_init() {
-    llama_log_set([](ggml_log_level level, const char * text, void * /*user_data*/) {
-        if (LOG_DEFAULT_LLAMA <= common_log_verbosity_thold) {
-            common_log_add(common_log_main(), level, "%s", text);
-        }
-    }, NULL);
+    llama_log_set(common_log_default_callback, NULL);
 #ifdef NDEBUG
     const char * build_type = "";

package/src/llama.cpp/common/download.cpp CHANGED Viewed

@@ -20,7 +20,7 @@
 #if defined(LLAMA_USE_CURL)
 #include <curl/curl.h>
 #include <curl/easy.h>
-#else
+#elif defined(LLAMA_USE_HTTPLIB)
 #include "http.h"
 #endif
@@ -467,7 +467,7 @@ std::pair<long, std::vector<char>> common_remote_get_content(const std::string &
     return { res_code, std::move(res_buffer) };
 }
-#else
+#elif defined(LLAMA_USE_HTTPLIB)
 static bool is_output_a_tty() {
 #if defined(_WIN32)
@@ -713,6 +713,8 @@ std::pair<long, std::vector<char>> common_remote_get_content(const std::string
 #endif // LLAMA_USE_CURL
+#if defined(LLAMA_USE_CURL) || defined(LLAMA_USE_HTTPLIB)
 static bool common_download_file_single(const std::string & url,
                                         const std::string & path,
                                         const std::string & bearer_token,
@@ -907,33 +909,6 @@ common_hf_file_res common_get_hf_file(const std::string & hf_repo_with_tag, cons
     return { hf_repo, ggufFile, mmprojFile };
 }
-std::vector<common_cached_model_info> common_list_cached_models() {
-    std::vector<common_cached_model_info> models;
-    const std::string cache_dir = fs_get_cache_directory();
-    const std::vector<common_file_info> files = fs_list_files(cache_dir);
-    for (const auto & file : files) {
-        if (string_starts_with(file.name, "manifest=") && string_ends_with(file.name, ".json")) {
-            common_cached_model_info model_info;
-            model_info.manifest_path = file.path;
-            std::string fname = file.name;
-            string_replace_all(fname, ".json", ""); // remove extension
-            auto parts = string_split<std::string>(fname, '=');
-            if (parts.size() == 4) {
-                // expect format: manifest=<user>=<model>=<tag>=<other>
-                model_info.user  = parts[1];
-                model_info.model = parts[2];
-                model_info.tag   = parts[3];
-            } else {
-                // invalid format
-                continue;
-            }
-            model_info.size = 0; // TODO: get GGUF size, not manifest size
-            models.push_back(model_info);
-        }
-    }
-    return models;
-}
 //
 // Docker registry functions
 //
@@ -1052,3 +1027,46 @@ std::string common_docker_resolve_model(const std::string & docker) {
         throw;
     }
 }
+#else
+common_hf_file_res common_get_hf_file(const std::string &, const std::string &, bool) {
+    throw std::runtime_error("download functionality is not enabled in this build");
+}
+bool common_download_model(const common_params_model &, const std::string &, bool) {
+    throw std::runtime_error("download functionality is not enabled in this build");
+}
+std::string common_docker_resolve_model(const std::string &) {
+    throw std::runtime_error("download functionality is not enabled in this build");
+}
+#endif // LLAMA_USE_CURL || LLAMA_USE_HTTPLIB
+std::vector<common_cached_model_info> common_list_cached_models() {
+    std::vector<common_cached_model_info> models;
+    const std::string cache_dir = fs_get_cache_directory();
+    const std::vector<common_file_info> files = fs_list_files(cache_dir);
+    for (const auto & file : files) {
+        if (string_starts_with(file.name, "manifest=") && string_ends_with(file.name, ".json")) {
+            common_cached_model_info model_info;
+            model_info.manifest_path = file.path;
+            std::string fname = file.name;
+            string_replace_all(fname, ".json", ""); // remove extension
+            auto parts = string_split<std::string>(fname, '=');
+            if (parts.size() == 4) {
+                // expect format: manifest=<user>=<model>=<tag>=<other>
+                model_info.user  = parts[1];
+                model_info.model = parts[2];
+                model_info.tag   = parts[3];
+            } else {
+                // invalid format
+                continue;
+            }
+            model_info.size = 0; // TODO: get GGUF size, not manifest size
+            models.push_back(model_info);
+        }
+    }
+    return models;
+}

package/src/llama.cpp/common/log.cpp CHANGED Viewed

@@ -442,3 +442,9 @@ void common_log_set_prefix(struct common_log * log, bool prefix) {
 void common_log_set_timestamps(struct common_log * log, bool timestamps) {
     log->set_timestamps(timestamps);
 }
+void common_log_default_callback(enum ggml_log_level level, const char * text, void * /*user_data*/) {
+    if (LOG_DEFAULT_LLAMA <= common_log_verbosity_thold) {
+        common_log_add(common_log_main(), level, "%s", text);
+    }
+}

package/src/llama.cpp/common/log.h CHANGED Viewed

@@ -36,6 +36,8 @@ extern int common_log_verbosity_thold;
 void common_log_set_verbosity_thold(int verbosity); // not thread-safe
+void common_log_default_callback(enum ggml_log_level level, const char * text, void * user_data);
 // the common_log uses an internal worker thread to print/write log messages
 // when the worker thread is paused, incoming log messages are discarded
 struct common_log;