npm - cui-llama.rn - Versions diffs - 1.0.3 → 1.0.6 - Mend

cui-llama.rn 1.0.3 → 1.0.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (62) hide show

package/README.md +35 -39
package/android/src/main/CMakeLists.txt +12 -2
package/android/src/main/java/com/rnllama/LlamaContext.java +29 -9
package/android/src/main/java/com/rnllama/RNLlama.java +33 -1
package/android/src/main/jni.cpp +62 -8
package/android/src/newarch/java/com/rnllama/RNLlamaModule.java +5 -0
package/android/src/oldarch/java/com/rnllama/RNLlamaModule.java +5 -0
package/cpp/common.cpp +3237 -3231
package/cpp/common.h +469 -468
package/cpp/ggml-aarch64.c +2193 -2193
package/cpp/ggml-aarch64.h +39 -39
package/cpp/ggml-alloc.c +1036 -1042
package/cpp/ggml-backend-impl.h +153 -153
package/cpp/ggml-backend.c +2240 -2234
package/cpp/ggml-backend.h +238 -238
package/cpp/ggml-common.h +1833 -1829
package/cpp/ggml-impl.h +755 -655
package/cpp/ggml-metal.h +65 -65
package/cpp/ggml-metal.m +3269 -3269
package/cpp/ggml-quants.c +14872 -14860
package/cpp/ggml-quants.h +132 -132
package/cpp/ggml.c +22055 -22044
package/cpp/ggml.h +2453 -2447
package/cpp/llama-grammar.cpp +539 -0
package/cpp/llama-grammar.h +39 -0
package/cpp/llama-impl.h +26 -0
package/cpp/llama-sampling.cpp +635 -0
package/cpp/llama-sampling.h +56 -0
package/cpp/llama-vocab.cpp +1721 -0
package/cpp/llama-vocab.h +130 -0
package/cpp/llama.cpp +19171 -21892
package/cpp/llama.h +1240 -1217
package/cpp/log.h +737 -737
package/cpp/rn-llama.hpp +207 -29
package/cpp/sampling.cpp +460 -460
package/cpp/sgemm.cpp +1027 -1027
package/cpp/sgemm.h +14 -14
package/cpp/unicode.cpp +6 -0
package/cpp/unicode.h +3 -0
package/ios/RNLlama.mm +15 -6
package/ios/RNLlamaContext.h +2 -8
package/ios/RNLlamaContext.mm +41 -34
package/lib/commonjs/NativeRNLlama.js.map +1 -1
package/lib/commonjs/chat.js +37 -0
package/lib/commonjs/chat.js.map +1 -0
package/lib/commonjs/index.js +14 -1
package/lib/commonjs/index.js.map +1 -1
package/lib/module/NativeRNLlama.js.map +1 -1
package/lib/module/chat.js +31 -0
package/lib/module/chat.js.map +1 -0
package/lib/module/index.js +14 -1
package/lib/module/index.js.map +1 -1
package/lib/typescript/NativeRNLlama.d.ts +5 -1
package/lib/typescript/NativeRNLlama.d.ts.map +1 -1
package/lib/typescript/chat.d.ts +10 -0
package/lib/typescript/chat.d.ts.map +1 -0
package/lib/typescript/index.d.ts +9 -2
package/lib/typescript/index.d.ts.map +1 -1
package/package.json +1 -1
package/src/NativeRNLlama.ts +10 -1
package/src/chat.ts +44 -0
package/src/index.ts +31 -4

package/src/NativeRNLlama.ts CHANGED Viewed

@@ -19,7 +19,6 @@ export type NativeContextParams = {
   lora?: string // lora_adaptor
   lora_scaled?: number
-  lora_base?: string
   rope_freq_base?: number
   rope_freq_scale?: number
@@ -112,6 +111,11 @@ export type NativeSessionLoadResult = {
   prompt: string
 }
+export type NativeLlamaChatMessage = {
+  role: string
+  content: string
+}
 export interface Spec extends TurboModule {
   setContextLimit(limit: number): Promise<void>
   initContext(params: NativeContextParams): Promise<NativeLlamaContext>
@@ -132,6 +136,11 @@ export interface Spec extends TurboModule {
   stopCompletion(contextId: number): Promise<void>
   tokenizeAsync(contextId: number, text: string): Promise<NativeTokenizeResult>
   tokenizeSync(contextId: number, text: string): NativeTokenizeResult
+  getFormattedChat(
+    contextId: number,
+    messages: NativeLlamaChatMessage[],
+    chatTemplate?: string,
+  ): Promise<string>
   detokenize(contextId: number, tokens: number[]): Promise<string>
   embedding(contextId: number, text: string): Promise<NativeEmbeddingResult>
   bench(

package/src/chat.ts ADDED Viewed

@@ -0,0 +1,44 @@
+import type { NativeLlamaChatMessage } from './NativeRNLlama'
+export type RNLlamaMessagePart = {
+  text?: string
+}
+export type RNLlamaOAICompatibleMessage = {
+  role: string
+  content?: string | RNLlamaMessagePart[] | any // any for check invalid content type
+}
+export function formatChat(
+  messages: RNLlamaOAICompatibleMessage[],
+): NativeLlamaChatMessage[] {
+  const chat: NativeLlamaChatMessage[] = []
+  messages.forEach((currMsg) => {
+    const role: string = currMsg.role || ''
+    let content: string = ''
+    if ('content' in currMsg) {
+      if (typeof currMsg.content === 'string') {
+        ;({ content } = currMsg)
+      } else if (Array.isArray(currMsg.content)) {
+        currMsg.content.forEach((part) => {
+          if ('text' in part) {
+            content += `${content ? '\n' : ''}${part.text}`
+          }
+        })
+      } else {
+        throw new TypeError(
+          "Invalid 'content' type (ref: https://github.com/ggerganov/llama.cpp/issues/8367)",
+        )
+      }
+    } else {
+      throw new Error(
+        "Missing 'content' (ref: https://github.com/ggerganov/llama.cpp/issues/8367)",
+      )
+    }
+    chat.push({ role, content })
+  })
+  return chat
+}

package/src/index.ts CHANGED Viewed

@@ -12,6 +12,8 @@ import type {
   NativeSessionLoadResult,
 } from './NativeRNLlama'
 import { SchemaGrammarConverter, convertJsonSchemaToGrammar } from './grammar'
+import type { RNLlamaOAICompatibleMessage } from './chat'
+import { formatChat } from './chat'
 export { SchemaGrammarConverter, convertJsonSchemaToGrammar }
@@ -40,8 +42,11 @@ export type ContextParams = NativeContextParams
 export type CompletionParams = Omit<
   NativeCompletionParams,
-  'emit_partial_completion'
->
+  'emit_partial_completion' | 'prompt'
+> & {
+  prompt?: string
+  messages?: RNLlamaOAICompatibleMessage[]
+}
 export type BenchResult = {
   modelDesc: string
@@ -60,7 +65,9 @@ export class LlamaContext {
   reasonNoGPU: string = ''
-  model: Object = {}
+  model: {
+    isChatTemplateSupported?: boolean
+  } = {}
   constructor({ contextId, gpu, reasonNoGPU, model }: NativeLlamaContext) {
     this.id = contextId
@@ -74,7 +81,7 @@ export class LlamaContext {
    */
   async loadSession(filepath: string): Promise<NativeSessionLoadResult> {
     let path = filepath
-    if (filepath.startsWith(`file://`)) path = path.slice(7)
+    if (path.startsWith('file://')) path = path.slice(7)
     return RNLlama.loadSession(this.id, path)
   }
@@ -88,10 +95,27 @@ export class LlamaContext {
     return RNLlama.saveSession(this.id, filepath, options?.tokenSize || -1)
   }
+  async getFormattedChat(
+    messages: RNLlamaOAICompatibleMessage[],
+  ): Promise<string> {
+    const chat = formatChat(messages)
+    return RNLlama.getFormattedChat(
+      this.id,
+      chat,
+      this.model?.isChatTemplateSupported ? undefined : 'chatml',
+    )
+  }
   async completion(
     params: CompletionParams,
     callback?: (data: TokenData) => void,
   ): Promise<NativeCompletionResult> {
+    let finalPrompt = params.prompt
+    if (params.messages) { // messages always win
+      finalPrompt = await this.getFormattedChat(params.messages)
+    }
     let tokenListener: any =
       callback &&
       EventEmitter.addListener(EVENT_ON_TOKEN, (evt: TokenNativeEvent) => {
@@ -99,8 +123,11 @@ export class LlamaContext {
         if (contextId !== this.id) return
         callback(tokenResult)
       })
+    if (!finalPrompt) throw new Error('Prompt is required')
     const promise = RNLlama.completion(this.id, {
       ...params,
+      prompt: finalPrompt,
       emit_partial_completion: !!callback,
     })
     return promise