npm - modelfusion - Versions diffs - 0.106.0 → 0.108.0 - Mend

modelfusion 0.106.0 → 0.108.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (82) hide show

package/model-provider/llamacpp/{LlamaCppTextGenerationModel.d.ts → LlamaCppCompletionModel.d.ts} RENAMED Viewed

@@ -8,7 +8,7 @@ import { PromptTemplateTextStreamingModel } from "../../model-function/generate-
 import { TextGenerationModelSettings, TextStreamingModel } from "../../model-function/generate-text/TextGenerationModel.js";
 import { TextGenerationPromptTemplate } from "../../model-function/generate-text/TextGenerationPromptTemplate.js";
 import { LlamaCppTokenizer } from "./LlamaCppTokenizer.js";
-export interface LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE extends number | undefined> extends TextGenerationModelSettings {
+export interface LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE extends number | undefined> extends TextGenerationModelSettings {
     api?: ApiConfiguration;
     /**
      * Specify the context window size of the model that you have loaded in your
@@ -16,26 +16,113 @@ export interface LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE extends
      */
     contextWindowSize?: CONTEXT_WINDOW_SIZE;
     /**
-     * Save the prompt and generation for avoid reprocess entire prompt if a part of this isn't change (default: false)
+     * Adjust the randomness of the generated text (default: 0.8).
      */
-    cachePrompt?: boolean;
     temperature?: number;
+    /**
+     * Limit the next token selection to the K most probable tokens (default: 40).
+     */
     topK?: number;
+    /**
+     * Limit the next token selection to a subset of tokens with a cumulative probability above a threshold P (default: 0.95).
+     */
     topP?: number;
+    /**
+     * The minimum probability for a token to be considered, relative to the probability of the most likely token (default: 0.05).
+     */
+    minP?: number;
+    /**
+     * Specify the number of tokens from the prompt to retain when the context size is exceeded
+     * and tokens need to be discarded. By default, this value is set to 0 (meaning no tokens
+     * are kept). Use -1 to retain all tokens from the prompt.
+     */
     nKeep?: number;
+    /**
+     * Enable tail free sampling with parameter z (default: 1.0, 1.0 = disabled).
+     */
     tfsZ?: number;
+    /**
+     * Enable locally typical sampling with parameter p (default: 1.0, 1.0 = disabled).
+     */
     typicalP?: number;
+    /**
+     * Control the repetition of token sequences in the generated text (default: 1.1).
+     */
     repeatPenalty?: number;
+    /**
+     * Last n tokens to consider for penalizing repetition (default: 64, 0 = disabled, -1 = ctx-size).
+     */
     repeatLastN?: number;
+    /**
+     * Penalize newline tokens when applying the repeat penalty (default: true).
+     */
     penalizeNl?: boolean;
+    /**
+     * Repeat alpha presence penalty (default: 0.0, 0.0 = disabled).
+     */
+    presencePenalty?: number;
+    /**
+     * Repeat alpha frequency penalty (default: 0.0, 0.0 = disabled).
+     */
+    frequencyPenalty?: number;
+    /**
+     * This will replace the prompt for the purpose of the penalty evaluation.
+     * Can be either null, a string or an array of numbers representing tokens
+     * (default: null = use the original prompt).
+     */
+    penaltyPrompt?: string | number[];
+    /**
+     * Enable Mirostat sampling, controlling perplexity during text generation
+     * (default: 0, 0 = disabled, 1 = Mirostat, 2 = Mirostat 2.0).
+     */
     mirostat?: number;
+    /**
+     * Set the Mirostat target entropy, parameter tau (default: 5.0).
+     */
     mirostatTau?: number;
+    /**
+     * Set the Mirostat learning rate, parameter eta (default: 0.1).
+     */
     mirostatEta?: number;
+    /**
+     * Set grammar for grammar-based sampling (default: no grammar)
+     *
+     * @see https://github.com/ggerganov/llama.cpp/blob/master/grammars/README.md
+     */
+    grammar?: string;
+    /**
+     * Set the random number generator (RNG) seed
+     * (default: -1, -1 = random seed).
+     */
     seed?: number;
+    /**
+     * Ignore end of stream token and continue generating (default: false).
+     */
     ignoreEos?: boolean;
+    /**
+     * Modify the likelihood of a token appearing in the generated text completion.
+     * For example, use "logit_bias": [[15043,1.0]] to increase the likelihood of the token
+     * 'Hello', or "logit_bias": [[15043,-1.0]] to decrease its likelihood.
+     * Setting the value to false, "logit_bias": [[15043,false]] ensures that the token Hello is
+     * never produced (default: []).
+     */
     logitBias?: Array<[number, number | false]>;
+    /**
+     * If greater than 0, the response also contains the probabilities of top N tokens
+     * for each generated token (default: 0)
+     */
+    nProbs?: number;
+    /**
+     * Save the prompt and generation for avoid reprocess entire prompt if a part of this isn't change (default: false)
+     */
+    cachePrompt?: boolean;
+    /**
+     * Assign the completion task to an specific slot.
+     * If is -1 the task will be assigned to a Idle slot (default: -1)
+     */
+    slotId?: number;
 }
-export interface LlamaCppTextGenerationPrompt {
+export interface LlamaCppCompletionPrompt {
     /**
      * Text prompt. Images can be included through references such as `[img-ID]`, e.g. `[img-1]`.
      */
@@ -45,18 +132,18 @@ export interface LlamaCppTextGenerationPrompt {
      */
     images?: Record<number, string>;
 }
-export declare class LlamaCppTextGenerationModel<CONTEXT_WINDOW_SIZE extends number | undefined> extends AbstractModel<LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>> implements TextStreamingModel<LlamaCppTextGenerationPrompt, LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>> {
-    constructor(settings?: LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>);
+export declare class LlamaCppCompletionModel<CONTEXT_WINDOW_SIZE extends number | undefined> extends AbstractModel<LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>> implements TextStreamingModel<LlamaCppCompletionPrompt, LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>> {
+    constructor(settings?: LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>);
     readonly provider = "llamacpp";
     get modelName(): null;
     get contextWindowSize(): CONTEXT_WINDOW_SIZE;
     readonly tokenizer: LlamaCppTokenizer;
-    callAPI<RESPONSE>(prompt: LlamaCppTextGenerationPrompt, options: {
-        responseFormat: LlamaCppTextGenerationResponseFormatType<RESPONSE>;
+    callAPI<RESPONSE>(prompt: LlamaCppCompletionPrompt, options: {
+        responseFormat: LlamaCppCompletionResponseFormatType<RESPONSE>;
     } & FunctionOptions): Promise<RESPONSE>;
-    get settingsForEvent(): Partial<LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>>;
-    countPromptTokens(prompt: LlamaCppTextGenerationPrompt): Promise<number>;
-    doGenerateTexts(prompt: LlamaCppTextGenerationPrompt, options?: FunctionOptions): Promise<{
+    get settingsForEvent(): Partial<LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>>;
+    countPromptTokens(prompt: LlamaCppCompletionPrompt): Promise<number>;
+    doGenerateTexts(prompt: LlamaCppCompletionPrompt, options?: FunctionOptions): Promise<{
         response: {
             model: string;
             stop: true;
@@ -81,11 +168,11 @@ export declare class LlamaCppTextGenerationModel<CONTEXT_WINDOW_SIZE extends num
                 presence_penalty: number;
                 repeat_last_n: number;
                 repeat_penalty: number;
-                temp: number;
                 tfs_z: number;
                 top_k: number;
                 top_p: number;
                 typical_p: number;
+                temperature?: number | undefined;
             };
             stopped_eos: boolean;
             stopped_limit: boolean;
@@ -96,10 +183,10 @@ export declare class LlamaCppTextGenerationModel<CONTEXT_WINDOW_SIZE extends num
                 predicted_n: number;
                 predicted_per_second: number | null;
                 predicted_per_token_ms: number | null;
-                prompt_ms: number | null;
                 prompt_n: number;
                 prompt_per_second: number | null;
                 prompt_per_token_ms: number | null;
+                prompt_ms?: number | null | undefined;
             };
             tokens_cached: number;
             tokens_evaluated: number;
@@ -116,7 +203,7 @@ export declare class LlamaCppTextGenerationModel<CONTEXT_WINDOW_SIZE extends num
             totalTokens: number;
         };
     }>;
-    doStreamText(prompt: LlamaCppTextGenerationPrompt, options?: FunctionOptions): Promise<AsyncIterable<Delta<{
+    doStreamText(prompt: LlamaCppCompletionPrompt, options?: FunctionOptions): Promise<AsyncIterable<Delta<{
         model: string;
         stop: true;
         content: string;
@@ -140,11 +227,11 @@ export declare class LlamaCppTextGenerationModel<CONTEXT_WINDOW_SIZE extends num
             presence_penalty: number;
             repeat_last_n: number;
             repeat_penalty: number;
-            temp: number;
             tfs_z: number;
             top_k: number;
             top_p: number;
             typical_p: number;
+            temperature?: number | undefined;
         };
         stopped_eos: boolean;
         stopped_limit: boolean;
@@ -155,10 +242,10 @@ export declare class LlamaCppTextGenerationModel<CONTEXT_WINDOW_SIZE extends num
             predicted_n: number;
             predicted_per_second: number | null;
             predicted_per_token_ms: number | null;
-            prompt_ms: number | null;
             prompt_n: number;
             prompt_per_second: number | null;
             prompt_per_token_ms: number | null;
+            prompt_ms?: number | null | undefined;
         };
         tokens_cached: number;
         tokens_evaluated: number;
@@ -169,16 +256,16 @@ export declare class LlamaCppTextGenerationModel<CONTEXT_WINDOW_SIZE extends num
         content: string;
     }>>>;
     extractTextDelta(delta: unknown): string;
-    withTextPrompt(): PromptTemplateTextStreamingModel<string, LlamaCppTextGenerationPrompt, LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>, this>;
+    withTextPrompt(): PromptTemplateTextStreamingModel<string, LlamaCppCompletionPrompt, LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>, this>;
     /**
      * Maps the prompt for a text version of the Llama.cpp prompt template (without image support).
      */
-    withTextPromptTemplate<INPUT_PROMPT>(promptTemplate: TextGenerationPromptTemplate<INPUT_PROMPT, string>): PromptTemplateTextStreamingModel<INPUT_PROMPT, string, LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>, PromptTemplateTextStreamingModel<string, LlamaCppTextGenerationPrompt, LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>, this>>;
+    withTextPromptTemplate<INPUT_PROMPT>(promptTemplate: TextGenerationPromptTemplate<INPUT_PROMPT, string>): PromptTemplateTextStreamingModel<INPUT_PROMPT, string, LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>, PromptTemplateTextStreamingModel<string, LlamaCppCompletionPrompt, LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>, this>>;
     /**
      * Maps the prompt for the full Llama.cpp prompt template (incl. image support).
      */
-    withPromptTemplate<INPUT_PROMPT>(promptTemplate: TextGenerationPromptTemplate<INPUT_PROMPT, LlamaCppTextGenerationPrompt>): PromptTemplateTextStreamingModel<INPUT_PROMPT, LlamaCppTextGenerationPrompt, LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>, this>;
-    withSettings(additionalSettings: Partial<LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>>): this;
+    withPromptTemplate<INPUT_PROMPT>(promptTemplate: TextGenerationPromptTemplate<INPUT_PROMPT, LlamaCppCompletionPrompt>): PromptTemplateTextStreamingModel<INPUT_PROMPT, LlamaCppCompletionPrompt, LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>, this>;
+    withSettings(additionalSettings: Partial<LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>>): this;
 }
 declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
     content: z.ZodString;
@@ -202,7 +289,7 @@ declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
         seed: z.ZodNumber;
         stop: z.ZodArray<z.ZodString, "many">;
         stream: z.ZodBoolean;
-        temp: z.ZodNumber;
+        temperature: z.ZodOptional<z.ZodNumber>;
         tfs_z: z.ZodNumber;
         top_k: z.ZodNumber;
         top_p: z.ZodNumber;
@@ -226,11 +313,11 @@ declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
         presence_penalty: number;
         repeat_last_n: number;
         repeat_penalty: number;
-        temp: number;
         tfs_z: number;
         top_k: number;
         top_p: number;
         typical_p: number;
+        temperature?: number | undefined;
     }, {
         model: string;
         stream: boolean;
@@ -250,11 +337,11 @@ declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
         presence_penalty: number;
         repeat_last_n: number;
         repeat_penalty: number;
-        temp: number;
         tfs_z: number;
         top_k: number;
         top_p: number;
         typical_p: number;
+        temperature?: number | undefined;
     }>;
     model: z.ZodString;
     prompt: z.ZodString;
@@ -267,7 +354,7 @@ declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
         predicted_n: z.ZodNumber;
         predicted_per_second: z.ZodNullable<z.ZodNumber>;
         predicted_per_token_ms: z.ZodNullable<z.ZodNumber>;
-        prompt_ms: z.ZodNullable<z.ZodNumber>;
+        prompt_ms: z.ZodOptional<z.ZodNullable<z.ZodNumber>>;
         prompt_n: z.ZodNumber;
         prompt_per_second: z.ZodNullable<z.ZodNumber>;
         prompt_per_token_ms: z.ZodNullable<z.ZodNumber>;
@@ -276,19 +363,19 @@ declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
         predicted_n: number;
         predicted_per_second: number | null;
         predicted_per_token_ms: number | null;
-        prompt_ms: number | null;
         prompt_n: number;
         prompt_per_second: number | null;
         prompt_per_token_ms: number | null;
+        prompt_ms?: number | null | undefined;
     }, {
         predicted_ms: number;
         predicted_n: number;
         predicted_per_second: number | null;
         predicted_per_token_ms: number | null;
-        prompt_ms: number | null;
         prompt_n: number;
         prompt_per_second: number | null;
         prompt_per_token_ms: number | null;
+        prompt_ms?: number | null | undefined;
     }>;
     tokens_cached: z.ZodNumber;
     tokens_evaluated: z.ZodNumber;
@@ -318,11 +405,11 @@ declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
         presence_penalty: number;
         repeat_last_n: number;
         repeat_penalty: number;
-        temp: number;
         tfs_z: number;
         top_k: number;
         top_p: number;
         typical_p: number;
+        temperature?: number | undefined;
     };
     stopped_eos: boolean;
     stopped_limit: boolean;
@@ -333,10 +420,10 @@ declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
         predicted_n: number;
         predicted_per_second: number | null;
         predicted_per_token_ms: number | null;
-        prompt_ms: number | null;
         prompt_n: number;
         prompt_per_second: number | null;
         prompt_per_token_ms: number | null;
+        prompt_ms?: number | null | undefined;
     };
     tokens_cached: number;
     tokens_evaluated: number;
@@ -366,11 +453,11 @@ declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
         presence_penalty: number;
         repeat_last_n: number;
         repeat_penalty: number;
-        temp: number;
         tfs_z: number;
         top_k: number;
         top_p: number;
         typical_p: number;
+        temperature?: number | undefined;
     };
     stopped_eos: boolean;
     stopped_limit: boolean;
@@ -381,10 +468,10 @@ declare const llamaCppTextGenerationResponseSchema: z.ZodObject<{
         predicted_n: number;
         predicted_per_second: number | null;
         predicted_per_token_ms: number | null;
-        prompt_ms: number | null;
         prompt_n: number;
         prompt_per_second: number | null;
         prompt_per_token_ms: number | null;
+        prompt_ms?: number | null | undefined;
     };
     tokens_cached: number;
     tokens_evaluated: number;
@@ -416,11 +503,11 @@ declare const llamaCppTextStreamChunkSchema: import("../../core/schema/ZodSchema
         presence_penalty: number;
         repeat_last_n: number;
         repeat_penalty: number;
-        temp: number;
         tfs_z: number;
         top_k: number;
         top_p: number;
         typical_p: number;
+        temperature?: number | undefined;
     };
     stopped_eos: boolean;
     stopped_limit: boolean;
@@ -431,10 +518,10 @@ declare const llamaCppTextStreamChunkSchema: import("../../core/schema/ZodSchema
         predicted_n: number;
         predicted_per_second: number | null;
         predicted_per_token_ms: number | null;
-        prompt_ms: number | null;
         prompt_n: number;
         prompt_per_second: number | null;
         prompt_per_token_ms: number | null;
+        prompt_ms?: number | null | undefined;
     };
     tokens_cached: number;
     tokens_evaluated: number;
@@ -445,11 +532,11 @@ declare const llamaCppTextStreamChunkSchema: import("../../core/schema/ZodSchema
     content: string;
 }>;
 export type LlamaCppTextStreamChunk = (typeof llamaCppTextStreamChunkSchema)["_type"];
-export type LlamaCppTextGenerationResponseFormatType<T> = {
+export type LlamaCppCompletionResponseFormatType<T> = {
     stream: boolean;
     handler: ResponseHandler<T>;
 };
-export declare const LlamaCppTextGenerationResponseFormat: {
+export declare const LlamaCppCompletionResponseFormat: {
     /**
      * Returns the response as a JSON object.
      */
@@ -479,11 +566,11 @@ export declare const LlamaCppTextGenerationResponseFormat: {
                 presence_penalty: number;
                 repeat_last_n: number;
                 repeat_penalty: number;
-                temp: number;
                 tfs_z: number;
                 top_k: number;
                 top_p: number;
                 typical_p: number;
+                temperature?: number | undefined;
             };
             stopped_eos: boolean;
             stopped_limit: boolean;
@@ -494,10 +581,10 @@ export declare const LlamaCppTextGenerationResponseFormat: {
                 predicted_n: number;
                 predicted_per_second: number | null;
                 predicted_per_token_ms: number | null;
-                prompt_ms: number | null;
                 prompt_n: number;
                 prompt_per_second: number | null;
                 prompt_per_token_ms: number | null;
+                prompt_ms?: number | null | undefined;
             };
             tokens_cached: number;
             tokens_evaluated: number;
@@ -537,11 +624,11 @@ export declare const LlamaCppTextGenerationResponseFormat: {
                 presence_penalty: number;
                 repeat_last_n: number;
                 repeat_penalty: number;
-                temp: number;
                 tfs_z: number;
                 top_k: number;
                 top_p: number;
                 typical_p: number;
+                temperature?: number | undefined;
             };
             stopped_eos: boolean;
             stopped_limit: boolean;
@@ -552,10 +639,10 @@ export declare const LlamaCppTextGenerationResponseFormat: {
                 predicted_n: number;
                 predicted_per_second: number | null;
                 predicted_per_token_ms: number | null;
-                prompt_ms: number | null;
                 prompt_n: number;
                 prompt_per_second: number | null;
                 prompt_per_token_ms: number | null;
+                prompt_ms?: number | null | undefined;
             };
             tokens_cached: number;
             tokens_evaluated: number;

package/model-provider/llamacpp/{LlamaCppTextGenerationModel.js → LlamaCppCompletionModel.js} RENAMED Viewed

@@ -11,7 +11,7 @@ import { parseEventSourceStream } from "../../util/streaming/parseEventSourceStr
 import { LlamaCppApiConfiguration } from "./LlamaCppApiConfiguration.js";
 import { failedLlamaCppCallResponseHandler } from "./LlamaCppError.js";
 import { LlamaCppTokenizer } from "./LlamaCppTokenizer.js";
-export class LlamaCppTextGenerationModel extends AbstractModel {
+export class LlamaCppCompletionModel extends AbstractModel {
     constructor(settings = {}) {
         super({ settings });
         Object.defineProperty(this, "provider", {
@@ -53,10 +53,10 @@ export class LlamaCppTextGenerationModel extends AbstractModel {
                             data,
                         }))
                         : undefined,
-                    cache_prompt: this.settings.cachePrompt,
                     temperature: this.settings.temperature,
                     top_k: this.settings.topK,
                     top_p: this.settings.topP,
+                    min_p: this.settings.minP,
                     n_predict: this.settings.maxGenerationTokens,
                     n_keep: this.settings.nKeep,
                     stop: this.settings.stopSequences,
@@ -65,12 +65,19 @@ export class LlamaCppTextGenerationModel extends AbstractModel {
                     repeat_penalty: this.settings.repeatPenalty,
                     repeat_last_n: this.settings.repeatLastN,
                     penalize_nl: this.settings.penalizeNl,
+                    presence_penalty: this.settings.presencePenalty,
+                    frequency_penalty: this.settings.frequencyPenalty,
+                    penalty_prompt: this.settings.penaltyPrompt,
                     mirostat: this.settings.mirostat,
                     mirostat_tau: this.settings.mirostatTau,
                     mirostat_eta: this.settings.mirostatEta,
+                    grammar: this.settings.grammar,
                     seed: this.settings.seed,
                     ignore_eos: this.settings.ignoreEos,
                     logit_bias: this.settings.logitBias,
+                    n_probs: this.settings.nProbs,
+                    cache_prompt: this.settings.cachePrompt,
+                    slot_id: this.settings.slotId,
                 },
                 failedResponseHandler: failedLlamaCppCallResponseHandler,
                 successfulResponseHandler: responseFormat.handler,
@@ -82,22 +89,29 @@ export class LlamaCppTextGenerationModel extends AbstractModel {
         const eventSettingProperties = [
             ...textGenerationModelProperties,
             "contextWindowSize",
-            "cachePrompt",
             "temperature",
             "topK",
             "topP",
+            "minP",
             "nKeep",
             "tfsZ",
             "typicalP",
             "repeatPenalty",
             "repeatLastN",
             "penalizeNl",
+            "presencePenalty",
+            "frequencyPenalty",
+            "penaltyPrompt",
             "mirostat",
             "mirostatTau",
             "mirostatEta",
+            "grammar",
             "seed",
             "ignoreEos",
             "logitBias",
+            "nProbs",
+            "cachePrompt",
+            "slotId",
         ];
         return Object.fromEntries(Object.entries(this.settings).filter(([key]) => eventSettingProperties.includes(key)));
     }
@@ -108,7 +122,7 @@ export class LlamaCppTextGenerationModel extends AbstractModel {
     async doGenerateTexts(prompt, options) {
         const response = await this.callAPI(prompt, {
             ...options,
-            responseFormat: LlamaCppTextGenerationResponseFormat.json,
+            responseFormat: LlamaCppCompletionResponseFormat.json,
         });
         return {
             response,
@@ -132,7 +146,7 @@ export class LlamaCppTextGenerationModel extends AbstractModel {
     doStreamText(prompt, options) {
         return this.callAPI(prompt, {
             ...options,
-            responseFormat: LlamaCppTextGenerationResponseFormat.deltaIterable,
+            responseFormat: LlamaCppCompletionResponseFormat.deltaIterable,
         });
     }
     extractTextDelta(delta) {
@@ -175,7 +189,7 @@ export class LlamaCppTextGenerationModel extends AbstractModel {
         });
     }
     withSettings(additionalSettings) {
-        return new LlamaCppTextGenerationModel(Object.assign({}, this.settings, additionalSettings));
+        return new LlamaCppCompletionModel(Object.assign({}, this.settings, additionalSettings));
     }
 }
 const llamaCppTextGenerationResponseSchema = z.object({
@@ -200,7 +214,7 @@ const llamaCppTextGenerationResponseSchema = z.object({
         seed: z.number(),
         stop: z.array(z.string()),
         stream: z.boolean(),
-        temp: z.number(),
+        temperature: z.number().optional(), // optional for backwards compatibility
         tfs_z: z.number(),
         top_k: z.number(),
         top_p: z.number(),
@@ -217,7 +231,7 @@ const llamaCppTextGenerationResponseSchema = z.object({
         predicted_n: z.number(),
         predicted_per_second: z.number().nullable(),
         predicted_per_token_ms: z.number().nullable(),
-        prompt_ms: z.number().nullable(),
+        prompt_ms: z.number().nullable().optional(),
         prompt_n: z.number(),
         prompt_per_second: z.number().nullable(),
         prompt_per_token_ms: z.number().nullable(),
@@ -263,7 +277,7 @@ async function createLlamaCppFullDeltaIterableQueue(stream) {
     });
     return queue;
 }
-export const LlamaCppTextGenerationResponseFormat = {
+export const LlamaCppCompletionResponseFormat = {
     /**
      * Returns the response as a JSON object.
      */

package/model-provider/llamacpp/{LlamaCppTextGenerationModel.test.cjs → LlamaCppCompletionModel.test.cjs} RENAMED Viewed

@@ -3,7 +3,7 @@ Object.defineProperty(exports, "__esModule", { value: true });
 const streamText_js_1 = require("../../model-function/generate-text/streamText.cjs");
 const StreamingTestServer_js_1 = require("../../test/StreamingTestServer.cjs");
 const arrayFromAsync_js_1 = require("../../test/arrayFromAsync.cjs");
-const LlamaCppTextGenerationModel_js_1 = require("./LlamaCppTextGenerationModel.cjs");
+const LlamaCppCompletionModel_js_1 = require("./LlamaCppCompletionModel.cjs");
 describe("streamText", () => {
     const server = new StreamingTestServer_js_1.StreamingTestServer("http://127.0.0.1:8080/completion");
     server.setupTestEnvironment();
@@ -17,7 +17,7 @@ describe("streamText", () => {
                 `"mirostat_eta":0.10000000149011612,"mirostat_tau":5.0,"model":"models/llama-2-7b-chat.Q4_K_M.gguf",` +
                 `"n_ctx":4096,"n_keep":0,"n_predict":-1,"n_probs":0,"penalize_nl":true,"penalty_prompt_tokens":[],` +
                 `"presence_penalty":0.0,"repeat_last_n":64,"repeat_penalty":1.100000023841858,"seed":4294967295,` +
-                `"stop":[],"stream":true,"temp":0.800000011920929,"tfs_z":1.0,"top_k":40,"top_p":0.949999988079071,` +
+                `"stop":[],"stream":true,"temperature":0.800000011920929,"tfs_z":1.0,"top_k":40,"top_p":0.949999988079071,` +
                 `"typical_p":1.0,"use_penalty_prompt_tokens":false},"model":"models/llama-2-7b-chat.Q4_K_M.gguf",` +
                 `"prompt":"hello","slot_id":0,"stop":true,"stopped_eos":true,"stopped_limit":false,` +
                 `"stopped_word":false,"stopping_word":"","timings":{"predicted_ms":1054.704,"predicted_n":69,` +
@@ -26,7 +26,7 @@ describe("streamText", () => {
                 `"prompt_per_token_ms":48.845600000000005},"tokens_cached":74,"tokens_evaluated":5,` +
                 `"tokens_predicted":69,"truncated":false}\n\n`,
         ];
-        const stream = await (0, streamText_js_1.streamText)(new LlamaCppTextGenerationModel_js_1.LlamaCppTextGenerationModel().withTextPrompt(), "hello");
+        const stream = await (0, streamText_js_1.streamText)(new LlamaCppCompletionModel_js_1.LlamaCppCompletionModel().withTextPrompt(), "hello");
         // note: space moved to last chunk bc of trimming
         expect(await (0, arrayFromAsync_js_1.arrayFromAsync)(stream)).toStrictEqual([
             "Hello",

package/model-provider/llamacpp/LlamaCppCompletionModel.test.d.ts ADDED Viewed

	@@ -0,0 +1 @@
1	+ export {};

package/model-provider/llamacpp/{LlamaCppTextGenerationModel.test.js → LlamaCppCompletionModel.test.js} RENAMED Viewed

@@ -1,7 +1,7 @@
 import { streamText } from "../../model-function/generate-text/streamText.js";
 import { StreamingTestServer } from "../../test/StreamingTestServer.js";
 import { arrayFromAsync } from "../../test/arrayFromAsync.js";
-import { LlamaCppTextGenerationModel } from "./LlamaCppTextGenerationModel.js";
+import { LlamaCppCompletionModel } from "./LlamaCppCompletionModel.js";
 describe("streamText", () => {
     const server = new StreamingTestServer("http://127.0.0.1:8080/completion");
     server.setupTestEnvironment();
@@ -15,7 +15,7 @@ describe("streamText", () => {
                 `"mirostat_eta":0.10000000149011612,"mirostat_tau":5.0,"model":"models/llama-2-7b-chat.Q4_K_M.gguf",` +
                 `"n_ctx":4096,"n_keep":0,"n_predict":-1,"n_probs":0,"penalize_nl":true,"penalty_prompt_tokens":[],` +
                 `"presence_penalty":0.0,"repeat_last_n":64,"repeat_penalty":1.100000023841858,"seed":4294967295,` +
-                `"stop":[],"stream":true,"temp":0.800000011920929,"tfs_z":1.0,"top_k":40,"top_p":0.949999988079071,` +
+                `"stop":[],"stream":true,"temperature":0.800000011920929,"tfs_z":1.0,"top_k":40,"top_p":0.949999988079071,` +
                 `"typical_p":1.0,"use_penalty_prompt_tokens":false},"model":"models/llama-2-7b-chat.Q4_K_M.gguf",` +
                 `"prompt":"hello","slot_id":0,"stop":true,"stopped_eos":true,"stopped_limit":false,` +
                 `"stopped_word":false,"stopping_word":"","timings":{"predicted_ms":1054.704,"predicted_n":69,` +
@@ -24,7 +24,7 @@ describe("streamText", () => {
                 `"prompt_per_token_ms":48.845600000000005},"tokens_cached":74,"tokens_evaluated":5,` +
                 `"tokens_predicted":69,"truncated":false}\n\n`,
         ];
-        const stream = await streamText(new LlamaCppTextGenerationModel().withTextPrompt(), "hello");
+        const stream = await streamText(new LlamaCppCompletionModel().withTextPrompt(), "hello");
         // note: space moved to last chunk bc of trimming
         expect(await arrayFromAsync(stream)).toStrictEqual([
             "Hello",

package/model-provider/llamacpp/LlamaCppFacade.cjs CHANGED Viewed

@@ -3,10 +3,10 @@ Object.defineProperty(exports, "__esModule", { value: true });
 exports.Tokenizer = exports.TextEmbedder = exports.TextGenerator = void 0;
 const LlamaCppApiConfiguration_js_1 = require("./LlamaCppApiConfiguration.cjs");
 const LlamaCppTextEmbeddingModel_js_1 = require("./LlamaCppTextEmbeddingModel.cjs");
-const LlamaCppTextGenerationModel_js_1 = require("./LlamaCppTextGenerationModel.cjs");
+const LlamaCppCompletionModel_js_1 = require("./LlamaCppCompletionModel.cjs");
 const LlamaCppTokenizer_js_1 = require("./LlamaCppTokenizer.cjs");
 function TextGenerator(settings = {}) {
-    return new LlamaCppTextGenerationModel_js_1.LlamaCppTextGenerationModel(settings);
+    return new LlamaCppCompletionModel_js_1.LlamaCppCompletionModel(settings);
 }
 exports.TextGenerator = TextGenerator;
 function TextEmbedder(settings = {}) {

package/model-provider/llamacpp/LlamaCppFacade.d.ts CHANGED Viewed

@@ -1,7 +1,7 @@
 import { ApiConfiguration } from "../../core/api/ApiConfiguration.js";
 import { LlamaCppTextEmbeddingModel, LlamaCppTextEmbeddingModelSettings } from "./LlamaCppTextEmbeddingModel.js";
-import { LlamaCppTextGenerationModel, LlamaCppTextGenerationModelSettings } from "./LlamaCppTextGenerationModel.js";
+import { LlamaCppCompletionModel, LlamaCppCompletionModelSettings } from "./LlamaCppCompletionModel.js";
 import { LlamaCppTokenizer } from "./LlamaCppTokenizer.js";
-export declare function TextGenerator<CONTEXT_WINDOW_SIZE extends number>(settings?: LlamaCppTextGenerationModelSettings<CONTEXT_WINDOW_SIZE>): LlamaCppTextGenerationModel<CONTEXT_WINDOW_SIZE>;
+export declare function TextGenerator<CONTEXT_WINDOW_SIZE extends number>(settings?: LlamaCppCompletionModelSettings<CONTEXT_WINDOW_SIZE>): LlamaCppCompletionModel<CONTEXT_WINDOW_SIZE>;
 export declare function TextEmbedder(settings?: LlamaCppTextEmbeddingModelSettings): LlamaCppTextEmbeddingModel;
 export declare function Tokenizer(api?: ApiConfiguration): LlamaCppTokenizer;

package/model-provider/llamacpp/LlamaCppFacade.js CHANGED Viewed

@@ -1,9 +1,9 @@
 import { LlamaCppApiConfiguration } from "./LlamaCppApiConfiguration.js";
 import { LlamaCppTextEmbeddingModel, } from "./LlamaCppTextEmbeddingModel.js";
-import { LlamaCppTextGenerationModel, } from "./LlamaCppTextGenerationModel.js";
+import { LlamaCppCompletionModel, } from "./LlamaCppCompletionModel.js";
 import { LlamaCppTokenizer } from "./LlamaCppTokenizer.js";
 export function TextGenerator(settings = {}) {
-    return new LlamaCppTextGenerationModel(settings);
+    return new LlamaCppCompletionModel(settings);
 }
 export function TextEmbedder(settings = {}) {
     return new LlamaCppTextEmbeddingModel(settings);

package/model-provider/llamacpp/index.cjs CHANGED Viewed

@@ -33,5 +33,5 @@ var LlamaCppError_js_1 = require("./LlamaCppError.cjs");
 Object.defineProperty(exports, "LlamaCppError", { enumerable: true, get: function () { return LlamaCppError_js_1.LlamaCppError; } });
 exports.llamacpp = __importStar(require("./LlamaCppFacade.cjs"));
 __exportStar(require("./LlamaCppTextEmbeddingModel.cjs"), exports);
-__exportStar(require("./LlamaCppTextGenerationModel.cjs"), exports);
+__exportStar(require("./LlamaCppCompletionModel.cjs"), exports);
 __exportStar(require("./LlamaCppTokenizer.cjs"), exports);