npm - @saber2pr/ai-assistant - Versions diffs - 0.0.13 → 0.0.15 - Mend

@saber2pr/ai-assistant 0.0.13 → 0.0.15

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

package/ReadMe.md +3 -0
package/lib/app.js +3 -12
package/lib/components/MyRuntimeProvider/index.js +1 -1
package/lib/components/MyRuntimeProvider/myModelAdapterStream.d.ts +1 -1
package/lib/components/MyRuntimeProvider/myModelAdapterStream.js +322 -116
package/lib/types/assistant.d.ts +21 -0
package/package.json +1 -1

package/ReadMe.md CHANGED Viewed

@@ -49,6 +49,9 @@ Initializes and mounts the AI assistant. This assistant runs entirely in the bro
 | `containerId` | `string` | `'ai-assistant-root'` | The ID of the container element where the assistant will be mounted. |
 | `initialPosition` | `{ x: number; y: number }` | Bottom-right | The initial coordinates of the floating button. |
 | `onBeforeChat` | `Function` | - | A hook to intercept and modify messages before they are sent to the AI. |
+| `maxMessages` | `number` | `20` | Maximum number of messages to keep in context. Older messages will be truncated. Set to 0 to disable. |
+| `maxContextLength` | `number` | `2500` | Maximum total characters in the context. Messages will be truncated from the oldest if exceeded. Set to 0 to disable. |
+| `maxTokens` | `number` | `3200` | Maximum estimated tokens in the context. This prevents exceeding the model's context window. For 4096 context window models, safe value is ~3200 (leaves ~900 tokens buffer). Set to 0 to disable. |
 ### Local Development

package/lib/app.js CHANGED Viewed

@@ -5,23 +5,14 @@ var __importDefault = (this && this.__importDefault) || function (mod) {
 Object.defineProperty(exports, "__esModule", { value: true });
 var chat_1 = __importDefault(require("./chat"));
 var h1 = document.createElement('h1');
-h1.textContent = 'Click the bottom right sidebar button to open the AI assistant';
+h1.textContent =
+    'Click the bottom right sidebar button to open the AI assistant';
 document.body.append(h1);
 // 默认执行初始化
 (0, chat_1.default)({
-    locale: 'en-US',
+    locale: 'zh-CN',
     // welcomeMessage: '有什么可以帮忙的？',
     // suggestions: ['如何用 Typescript 实现 Helloworld？', '物联网是什么？'],
     // placeholder: '给 GPT 发送消息',
     // emptyMessage: '我是AI，可以回答你的问题，请在下方输入框输入你的需求～',
-    // async onBeforeChat(messages) {
-    //   const knowledgeContent = await fetch('http://localhost:5001/HTML超文本标记语言/移动端禁用双指放大.md').then(res => res.text())
-    //   return [
-    //     {
-    //       role: "system",
-    //       content: `你是我的博客助手，根据我博客内容回答：移动端禁用双指放大的方法：\n${knowledgeContent}`
-    //     },
-    //     ...messages
-    //   ]
-    // },
 });

package/lib/components/MyRuntimeProvider/index.js CHANGED Viewed

@@ -13,7 +13,7 @@ function MyRuntimeProvider(_a) {
     var children = _a.children;
     var llm = (0, context_1.useLLm)();
     var config = react_1.default.useContext(context_2.AIConfigContext);
-    var runtime = (0, react_2.useLocalRuntime)((0, myModelAdapterStream_1.MyModelAdapterStream)(llm, config.onBeforeChat), {
+    var runtime = (0, react_2.useLocalRuntime)((0, myModelAdapterStream_1.MyModelAdapterStream)(llm, config.onBeforeChat, config.maxMessages, config.maxContextLength, config.maxTokens), {
         adapters: {
             speech: new react_2.WebSpeechSynthesisAdapter(),
         },

package/lib/components/MyRuntimeProvider/myModelAdapterStream.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
 import { ChatModelAdapter } from '@assistant-ui/react';
 import { MLCEngine } from '@mlc-ai/web-llm';
 import { ChatMessage } from '../../types/assistant';
-export declare const MyModelAdapterStream: (llm: MLCEngine, onBeforeChat?: (messages: ChatMessage[], llm: MLCEngine) => ChatMessage[] | Promise<ChatMessage[]>) => ChatModelAdapter;
+export declare const MyModelAdapterStream: (llm: MLCEngine, onBeforeChat?: (messages: ChatMessage[], llm: MLCEngine) => ChatMessage[] | Promise<ChatMessage[]>, maxMessages?: number, maxContextLength?: number, maxTokens?: number) => ChatModelAdapter;

package/lib/components/MyRuntimeProvider/myModelAdapterStream.js CHANGED Viewed

@@ -1,4 +1,15 @@
 "use strict";
+var __assign = (this && this.__assign) || function () {
+    __assign = Object.assign || function(t) {
+        for (var s, i = 1, n = arguments.length; i < n; i++) {
+            s = arguments[i];
+            for (var p in s) if (Object.prototype.hasOwnProperty.call(s, p))
+                t[p] = s[p];
+        }
+        return t;
+    };
+    return __assign.apply(this, arguments);
+};
 var __generator = (this && this.__generator) || function (thisArg, body) {
     var _ = { label: 0, sent: function() { if (t[0] & 1) throw t[1]; return t[1]; }, trys: [], ops: [] }, f, y, t, g = Object.create((typeof Iterator === "function" ? Iterator : Object).prototype);
     return g.next = verb(0), g["throw"] = verb(1), g["return"] = verb(2), typeof Symbol === "function" && (g[Symbol.iterator] = function() { return this; }), g;
@@ -46,52 +57,282 @@ var __asyncGenerator = (this && this.__asyncGenerator) || function (thisArg, _ar
     function reject(value) { resume("throw", value); }
     function settle(f, v) { if (f(v), q.shift(), q.length) resume(q[0][0], q[0][1]); }
 };
+var __spreadArray = (this && this.__spreadArray) || function (to, from, pack) {
+    if (pack || arguments.length === 2) for (var i = 0, l = from.length, ar; i < l; i++) {
+        if (ar || !(i in from)) {
+            if (!ar) ar = Array.prototype.slice.call(from, 0, i);
+            ar[i] = from[i];
+        }
+    }
+    return to.concat(ar || Array.prototype.slice.call(from));
+};
 Object.defineProperty(exports, "__esModule", { value: true });
 exports.MyModelAdapterStream = void 0;
 var event_1 = require("../../utils/event");
 var constants_1 = require("../../constants");
-var MyModelAdapterStream = function (llm, onBeforeChat) { return ({
-    run: function (_a) {
-        return __asyncGenerator(this, arguments, function run_1(_b) {
-            var chatMessages, chunks, reply, _c, chunks_1, chunks_1_1, chunk, e_1_1, summaryResponse, title, error_1;
-            var _d, e_1, _e, _f;
-            var _g, _h, _j;
-            var messages = _b.messages, abortSignal = _b.abortSignal;
-            return __generator(this, function (_k) {
-                switch (_k.label) {
-                    case 0:
-                        chatMessages = messages.map(function (item) { return ({
-                            role: item.role,
-                            content: item.content[0].text,
-                        }); });
-                        if (!onBeforeChat) return [3 /*break*/, 2];
-                        return [4 /*yield*/, __await(onBeforeChat(chatMessages, llm))];
-                    case 1:
-                        chatMessages = _k.sent();
-                        _k.label = 2;
-                    case 2: return [4 /*yield*/, __await(llm.chat.completions.create({
-                            messages: chatMessages,
-                            temperature: 1,
-                            stream: true,
-                        }))];
-                    case 3:
-                        chunks = _k.sent();
-                        reply = "";
-                        _k.label = 4;
-                    case 4:
-                        _k.trys.push([4, 11, 12, 17]);
-                        _c = true, chunks_1 = __asyncValues(chunks);
-                        _k.label = 5;
-                    case 5: return [4 /*yield*/, __await(chunks_1.next())];
-                    case 6:
-                        if (!(chunks_1_1 = _k.sent(), _d = chunks_1_1.done, !_d)) return [3 /*break*/, 10];
-                        _f = chunks_1_1.value;
-                        _c = false;
-                        chunk = _f;
-                        reply += ((_g = chunk.choices[0]) === null || _g === void 0 ? void 0 : _g.delta.content) || "";
-                        return [4 /*yield*/, __await({
+/**
+ * Rough estimation: 1 token ≈ 1.3-1.5 characters for English, 1.5-2 for Chinese
+ * Using 1.5 as a conservative estimate
+ */
+function estimateTokens(text) {
+    // Rough estimate: Chinese characters count more, English less
+    var chineseChars = (text.match(/[\u4e00-\u9fa5]/g) || []).length;
+    var otherChars = text.length - chineseChars;
+    // Chinese: ~1.8 tokens per char, English: ~1.3 tokens per char
+    return Math.ceil(chineseChars * 1.8 + otherChars * 1.3);
+}
+/**
+ * Truncate messages based on maxMessages and maxContextLength
+ * Also considers token estimation to avoid exceeding context window
+ */
+function truncateMessages(messages, maxMessages, maxContextLength, maxTokens) {
+    var result = __spreadArray([], messages, true);
+    // Truncate by message count (keep the most recent messages)
+    if (maxMessages && maxMessages > 0 && result.length > maxMessages) {
+        // Always keep the first message if it's a system message
+        var firstMessage = result[0];
+        var isSystemFirst = firstMessage.role === 'system';
+        if (isSystemFirst) {
+            result = __spreadArray([firstMessage], result.slice(-(maxMessages - 1)), true);
+        }
+        else {
+            result = result.slice(-maxMessages);
+        }
+    }
+    // Truncate by total character length
+    if (maxContextLength && maxContextLength > 0) {
+        var firstMessage = result[0];
+        var isSystemFirst = firstMessage.role === 'system';
+        var otherMessages = isSystemFirst ? result.slice(1) : result;
+        // Calculate length of other messages
+        var otherMessagesLength = otherMessages.reduce(function (sum, msg) { return sum + msg.content.length; }, 0);
+        var systemMessageLength = isSystemFirst ? firstMessage.content.length : 0;
+        var totalLength = otherMessagesLength + systemMessageLength;
+        if (totalLength > maxContextLength) {
+            // Reserve 20% of maxContextLength for system message, or at least 500 chars
+            var systemMessageReserve = Math.max(500, Math.floor(maxContextLength * 0.2));
+            var availableForOther = maxContextLength - systemMessageReserve;
+            // Truncate system message if it's too long
+            var systemMessage = null;
+            if (isSystemFirst) {
+                if (firstMessage.content.length > systemMessageReserve) {
+                    // Keep the beginning of system message (usually contains important instructions)
+                    systemMessage = __assign(__assign({}, firstMessage), { content: firstMessage.content.substring(0, systemMessageReserve) + '...' });
+                }
+                else {
+                    systemMessage = firstMessage;
+                }
+            }
+            // Truncate other messages to fit in remaining space
+            var truncated = __spreadArray([], otherMessages, true);
+            var currentLength = truncated.reduce(function (sum, msg) { return sum + msg.content.length; }, 0);
+            var systemLength = systemMessage ? systemMessage.content.length : 0;
+            // Remove oldest messages until under limit
+            while (truncated.length > 0 && (currentLength + systemLength) > maxContextLength) {
+                var removed = truncated.shift();
+                if (removed) {
+                    currentLength -= removed.content.length;
+                }
+            }
+            // If still too long, truncate system message further
+            if (systemMessage && (currentLength + systemMessage.content.length) > maxContextLength) {
+                var maxSystemLength = Math.max(200, maxContextLength - currentLength - 100); // Leave some buffer
+                if (systemMessage.content.length > maxSystemLength) {
+                    systemMessage = __assign(__assign({}, systemMessage), { content: systemMessage.content.substring(0, maxSystemLength) + '...' });
+                }
+            }
+            result = systemMessage ? __spreadArray([systemMessage], truncated, true) : truncated;
+        }
+    }
+    // Additional token-based truncation as a safety net
+    // Default to 3500 tokens (leaving ~600 tokens buffer for 4096 context window)
+    var tokenLimit = maxTokens || 3500;
+    if (tokenLimit > 0) {
+        var totalTokens = result.reduce(function (sum, msg) { return sum + estimateTokens(msg.content); }, 0);
+        if (totalTokens > tokenLimit) {
+            var firstMessage = result[0];
+            var isSystemFirst = firstMessage.role === 'system';
+            var systemMessage = isSystemFirst ? firstMessage : null;
+            var otherMessages = isSystemFirst ? result.slice(1) : result;
+            // Reserve tokens for system message (max 800 tokens)
+            var systemTokens = systemMessage ? Math.min(estimateTokens(systemMessage.content), 800) : 0;
+            var availableTokens = tokenLimit - systemTokens;
+            // Truncate other messages
+            var truncated = __spreadArray([], otherMessages, true);
+            var currentTokens = truncated.reduce(function (sum, msg) { return sum + estimateTokens(msg.content); }, 0);
+            // Remove oldest messages until under token limit
+            while (truncated.length > 0 && (currentTokens + systemTokens) > tokenLimit) {
+                var removed = truncated.shift();
+                if (removed) {
+                    currentTokens -= estimateTokens(removed.content);
+                }
+            }
+            // Truncate system message if still needed
+            var finalSystemMessage = systemMessage;
+            if (systemMessage && (currentTokens + systemTokens) > tokenLimit) {
+                var maxSystemTokens = Math.max(200, tokenLimit - currentTokens - 100);
+                var systemContent = systemMessage.content;
+                var systemContentTokens = estimateTokens(systemContent);
+                if (systemContentTokens > maxSystemTokens) {
+                    // Binary search for approximate length
+                    var low = 0;
+                    var high = systemContent.length;
+                    while (low < high) {
+                        var mid = Math.floor((low + high) / 2);
+                        var testContent = systemContent.substring(0, mid);
+                        if (estimateTokens(testContent) <= maxSystemTokens) {
+                            low = mid + 1;
+                        }
+                        else {
+                            high = mid;
+                        }
+                    }
+                    systemContent = systemContent.substring(0, Math.max(0, low - 1)) + '...';
+                }
+                finalSystemMessage = __assign(__assign({}, systemMessage), { content: systemContent });
+            }
+            result = finalSystemMessage ? __spreadArray([finalSystemMessage], truncated, true) : truncated;
+        }
+    }
+    return result;
+}
+var MyModelAdapterStream = function (llm, onBeforeChat, maxMessages, maxContextLength, maxTokens) {
+    if (maxMessages === void 0) { maxMessages = 20; }
+    if (maxContextLength === void 0) { maxContextLength = 2500; }
+    if (maxTokens === void 0) { maxTokens = 3200; }
+    return ({
+        run: function (_a) {
+            return __asyncGenerator(this, arguments, function run_1(_b) {
+                var chatMessages, finalTokenLimit, totalTokens, firstMessage, isSystemFirst, systemMessage, otherMessages, finalSystemMessage, systemTokens_1, low, high, mid, testContent, systemTokens, availableTokens, truncated, currentTokens, i, msg, msgTokens, chunks, reply, _c, chunks_1, chunks_1_1, chunk, e_1_1, summaryResponse, title, error_1;
+                var _d, e_1, _e, _f;
+                var _g, _h, _j;
+                var messages = _b.messages, abortSignal = _b.abortSignal;
+                return __generator(this, function (_k) {
+                    switch (_k.label) {
+                        case 0:
+                            chatMessages = messages.map(function (item) { return ({
+                                role: item.role,
+                                content: item.content[0].text,
+                            }); });
+                            // Apply truncation before onBeforeChat hook
+                            chatMessages = truncateMessages(chatMessages, maxMessages, maxContextLength, maxTokens);
+                            if (!onBeforeChat) return [3 /*break*/, 2];
+                            return [4 /*yield*/, __await(onBeforeChat(chatMessages, llm)
+                                // Re-apply truncation after onBeforeChat in case it added more content
+                                // Use stricter limits to ensure we don't exceed context window
+                                )];
+                        case 1:
+                            chatMessages = _k.sent();
+                            // Re-apply truncation after onBeforeChat in case it added more content
+                            // Use stricter limits to ensure we don't exceed context window
+                            chatMessages = truncateMessages(chatMessages, maxMessages, maxContextLength, maxTokens);
+                            _k.label = 2;
+                        case 2:
+                            finalTokenLimit = maxTokens || 3200;
+                            if (finalTokenLimit > 0) {
+                                totalTokens = chatMessages.reduce(function (sum, msg) { return sum + estimateTokens(msg.content); }, 0);
+                                if (totalTokens > finalTokenLimit) {
+                                    firstMessage = chatMessages[0];
+                                    isSystemFirst = (firstMessage === null || firstMessage === void 0 ? void 0 : firstMessage.role) === 'system';
+                                    systemMessage = isSystemFirst ? firstMessage : null;
+                                    otherMessages = isSystemFirst ? chatMessages.slice(1) : chatMessages;
+                                    finalSystemMessage = systemMessage;
+                                    if (systemMessage) {
+                                        systemTokens_1 = estimateTokens(systemMessage.content);
+                                        if (systemTokens_1 > 500) {
+                                            low = 0;
+                                            high = systemMessage.content.length;
+                                            while (low < high) {
+                                                mid = Math.floor((low + high) / 2);
+                                                testContent = systemMessage.content.substring(0, mid);
+                                                if (estimateTokens(testContent) <= 500) {
+                                                    low = mid + 1;
+                                                }
+                                                else {
+                                                    high = mid;
+                                                }
+                                            }
+                                            finalSystemMessage = __assign(__assign({}, systemMessage), { content: systemMessage.content.substring(0, Math.max(0, low - 1)) + '...' });
+                                        }
+                                    }
+                                    systemTokens = finalSystemMessage ? estimateTokens(finalSystemMessage.content) : 0;
+                                    availableTokens = finalTokenLimit - systemTokens;
+                                    truncated = [];
+                                    currentTokens = 0;
+                                    // Add messages from newest to oldest until we hit the limit
+                                    for (i = otherMessages.length - 1; i >= 0; i--) {
+                                        msg = otherMessages[i];
+                                        msgTokens = estimateTokens(msg.content);
+                                        if (currentTokens + msgTokens <= availableTokens) {
+                                            truncated.unshift(msg);
+                                            currentTokens += msgTokens;
+                                        }
+                                        else {
+                                            break;
+                                        }
+                                    }
+                                    chatMessages = finalSystemMessage ? __spreadArray([finalSystemMessage], truncated, true) : truncated;
+                                }
+                            }
+                            return [4 /*yield*/, __await(llm.chat.completions.create({
+                                    messages: chatMessages,
+                                    temperature: 1,
+                                    stream: true,
+                                }))];
+                        case 3:
+                            chunks = _k.sent();
+                            reply = "";
+                            _k.label = 4;
+                        case 4:
+                            _k.trys.push([4, 11, 12, 17]);
+                            _c = true, chunks_1 = __asyncValues(chunks);
+                            _k.label = 5;
+                        case 5: return [4 /*yield*/, __await(chunks_1.next())];
+                        case 6:
+                            if (!(chunks_1_1 = _k.sent(), _d = chunks_1_1.done, !_d)) return [3 /*break*/, 10];
+                            _f = chunks_1_1.value;
+                            _c = false;
+                            chunk = _f;
+                            reply += ((_g = chunk.choices[0]) === null || _g === void 0 ? void 0 : _g.delta.content) || "";
+                            return [4 /*yield*/, __await({
+                                    status: {
+                                        type: 'running',
+                                    },
+                                    content: [
+                                        {
+                                            text: reply,
+                                            type: 'text',
+                                        },
+                                    ],
+                                })];
+                        case 7: return [4 /*yield*/, _k.sent()];
+                        case 8:
+                            _k.sent();
+                            _k.label = 9;
+                        case 9:
+                            _c = true;
+                            return [3 /*break*/, 5];
+                        case 10: return [3 /*break*/, 17];
+                        case 11:
+                            e_1_1 = _k.sent();
+                            e_1 = { error: e_1_1 };
+                            return [3 /*break*/, 17];
+                        case 12:
+                            _k.trys.push([12, , 15, 16]);
+                            if (!(!_c && !_d && (_e = chunks_1.return))) return [3 /*break*/, 14];
+                            return [4 /*yield*/, __await(_e.call(chunks_1))];
+                        case 13:
+                            _k.sent();
+                            _k.label = 14;
+                        case 14: return [3 /*break*/, 16];
+                        case 15:
+                            if (e_1) throw e_1.error;
+                            return [7 /*endfinally*/];
+                        case 16: return [7 /*endfinally*/];
+                        case 17: return [4 /*yield*/, __await({
                                 status: {
-                                    type: 'running',
+                                    type: 'complete',
+                                    reason: 'stop',
                                 },
                                 content: [
                                     {
@@ -99,80 +340,45 @@ var MyModelAdapterStream = function (llm, onBeforeChat) { return ({
                                         type: 'text',
                                     },
                                 ],
-                            })];
-                    case 7: return [4 /*yield*/, _k.sent()];
-                    case 8:
-                        _k.sent();
-                        _k.label = 9;
-                    case 9:
-                        _c = true;
-                        return [3 /*break*/, 5];
-                    case 10: return [3 /*break*/, 17];
-                    case 11:
-                        e_1_1 = _k.sent();
-                        e_1 = { error: e_1_1 };
-                        return [3 /*break*/, 17];
-                    case 12:
-                        _k.trys.push([12, , 15, 16]);
-                        if (!(!_c && !_d && (_e = chunks_1.return))) return [3 /*break*/, 14];
-                        return [4 /*yield*/, __await(_e.call(chunks_1))];
-                    case 13:
-                        _k.sent();
-                        _k.label = 14;
-                    case 14: return [3 /*break*/, 16];
-                    case 15:
-                        if (e_1) throw e_1.error;
-                        return [7 /*endfinally*/];
-                    case 16: return [7 /*endfinally*/];
-                    case 17: return [4 /*yield*/, __await({
-                            status: {
-                                type: 'complete',
-                                reason: 'stop',
-                            },
-                            content: [
-                                {
-                                    text: reply,
-                                    type: 'text',
-                                },
-                            ],
-                        }
-                        // 对话完成后，如果这是第一轮对话，生成标题
-                        )];
-                    case 18: return [4 /*yield*/, _k.sent()];
-                    case 19:
-                        _k.sent();
-                        if (!(messages.length === 1)) return [3 /*break*/, 23];
-                        _k.label = 20;
-                    case 20:
-                        _k.trys.push([20, 22, , 23]);
-                        return [4 /*yield*/, __await(llm.chat.completions.create({
-                                messages: [
-                                    {
-                                        role: 'system',
-                                        content: 'You are a title generation assistant. Please summarize a short title (no more than 10 words) based on the user\'s input, without punctuation.'
-                                    },
-                                    {
-                                        role: 'user',
-                                        content: messages[0].content[0].text
-                                    }
-                                ],
-                                temperature: 0.5,
-                            }))];
-                    case 21:
-                        summaryResponse = _k.sent();
-                        title = (_j = (_h = summaryResponse.choices[0]) === null || _h === void 0 ? void 0 : _h.message.content) === null || _j === void 0 ? void 0 : _j.trim();
-                        if (title) {
-                            event_1.Dispatcher.instance.dispatch(constants_1.EVENT_THREAD_SET_TITLE, { data: title });
-                        }
-                        return [3 /*break*/, 23];
-                    case 22:
-                        error_1 = _k.sent();
-                        console.error('Failed to generate summary title:', error_1);
-                        return [3 /*break*/, 23];
-                    case 23: return [2 /*return*/];
-                }
+                            }
+                            // 对话完成后，如果这是第一轮对话，生成标题
+                            )];
+                        case 18: return [4 /*yield*/, _k.sent()];
+                        case 19:
+                            _k.sent();
+                            if (!(messages.length === 1)) return [3 /*break*/, 23];
+                            _k.label = 20;
+                        case 20:
+                            _k.trys.push([20, 22, , 23]);
+                            return [4 /*yield*/, __await(llm.chat.completions.create({
+                                    messages: [
+                                        {
+                                            role: 'system',
+                                            content: 'You are a title generation assistant. Please summarize a short title (no more than 10 words) based on the user\'s input, without punctuation.'
+                                        },
+                                        {
+                                            role: 'user',
+                                            content: messages[0].content[0].text
+                                        }
+                                    ],
+                                    temperature: 0.5,
+                                }))];
+                        case 21:
+                            summaryResponse = _k.sent();
+                            title = (_j = (_h = summaryResponse.choices[0]) === null || _h === void 0 ? void 0 : _h.message.content) === null || _j === void 0 ? void 0 : _j.trim();
+                            if (title) {
+                                event_1.Dispatcher.instance.dispatch(constants_1.EVENT_THREAD_SET_TITLE, { data: title });
+                            }
+                            return [3 /*break*/, 23];
+                        case 22:
+                            error_1 = _k.sent();
+                            console.error('Failed to generate summary title:', error_1);
+                            return [3 /*break*/, 23];
+                        case 23: return [2 /*return*/];
+                    }
+                });
             });
-        });
-    },
-}); };
+        },
+    });
+};
 exports.MyModelAdapterStream = MyModelAdapterStream;

package/lib/types/assistant.d.ts CHANGED Viewed

@@ -55,4 +55,25 @@ export interface AIAssistantConfig {
      * }
      */
     onBeforeChat?: (messages: ChatMessage[], llm: MLCEngine) => ChatMessage[] | Promise<ChatMessage[]>;
+    /**
+     * Maximum number of messages to keep in context. Older messages will be truncated.
+     * Set to 0 or undefined to disable truncation.
+     * @default 20
+     */
+    maxMessages?: number;
+    /**
+     * Maximum total characters in the context. Messages will be truncated from the oldest if exceeded.
+     * Note: This is a rough estimate. Actual token count may vary. For models with 4096 context window,
+     * a safe value is around 2500-3000 characters.
+     * Set to 0 or undefined to disable truncation.
+     * @default 2500
+     */
+    maxContextLength?: number;
+    /**
+     * Maximum estimated tokens in the context. This is a safety net to prevent exceeding model's context window.
+     * For models with 4096 context window, a safe value is around 3200 tokens (leaving ~900 tokens buffer for response and overhead).
+     * Set to 0 or undefined to disable token-based truncation.
+     * @default 3200
+     */
+    maxTokens?: number;
 }

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@saber2pr/ai-assistant",
-  "version": "0.0.13",
+  "version": "0.0.15",
   "description": "AI Assistant",
   "files": [
     "lib"