npm - onbuzz - Versions diffs - 4.8.2 → 4.8.3 - Mend

onbuzz 4.8.2 → 4.8.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/package.json +1 -1
package/src/services/__tests__/compactionRetry.test.js +42 -42
package/src/utilities/constants.js +19 -11

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "onbuzz",
-  "version": "4.8.2",
+  "version": "4.8.3",
   "description": "Loxia OnBuzz - Your AI Fleet",
   "type": "module",
   "main": "src/index.js",

package/src/services/__tests__/compactionRetry.test.js CHANGED Viewed

@@ -19,11 +19,11 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
   };
   const mockModelsService = {
-    getAvailableModelNames: jest.fn().mockReturnValue(['gpt-5.1-codex-mini', 'gpt-5-mini']),
+    getAvailableModelNames: jest.fn().mockReturnValue(['gpt-4.1-nano', 'gpt-4.1-mini']),
     getModels: jest.fn().mockReturnValue([
-      { name: 'gpt-5.1-codex-mini', type: 'chat', contextWindow: 400000 },
-      { name: 'gpt-5-mini', type: 'chat', contextWindow: 400000 },
-      { name: 'gpt-5-nano', type: 'chat', contextWindow: 400000 },
+      { name: 'gpt-4.1-nano', type: 'chat', contextWindow: 400000 },
+      { name: 'gpt-4.1-mini', type: 'chat', contextWindow: 400000 },
+      { name: 'gpt-4.1-nano', type: 'chat', contextWindow: 400000 },
       { name: 'random-model-xyz', type: 'chat', contextWindow: 200000 }
     ])
   };
@@ -53,12 +53,12 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
       const onRetryAttempt = jest.fn();
       // Only 2 validated models available; first fails, second succeeds
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini', 'gpt-5-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano', 'gpt-4.1-mini']);
       mockAiService.sendMessage
         .mockRejectedValueOnce(new Error('Service unavailable'))
         .mockResolvedValueOnce({ content: 'Summary of conversation' });
-      await service._generateSummary(testMessages, 'gpt-5.1-codex-mini', { onRetryAttempt });
+      await service._generateSummary(testMessages, 'gpt-4.1-nano', { onRetryAttempt });
       expect(onRetryAttempt).toHaveBeenCalledTimes(1);
     });
@@ -66,18 +66,18 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
     test('onRetryAttempt receives correct message, failedModel, nextModel, attempt', async () => {
       const onRetryAttempt = jest.fn();
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini', 'gpt-5-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano', 'gpt-4.1-mini']);
       mockAiService.sendMessage
         .mockRejectedValueOnce(new Error('Service unavailable'))
         .mockResolvedValueOnce({ content: 'Summary of conversation' });
-      await service._generateSummary(testMessages, 'gpt-5.1-codex-mini', { onRetryAttempt });
+      await service._generateSummary(testMessages, 'gpt-4.1-nano', { onRetryAttempt });
       expect(onRetryAttempt).toHaveBeenCalledWith(
         expect.objectContaining({
           type: 'compaction_retry',
-          failedModel: 'gpt-5.1-codex-mini',
-          nextModel: 'gpt-5-mini',
+          failedModel: 'gpt-4.1-nano',
+          nextModel: 'gpt-4.1-mini',
           attempt: 1
         })
       );
@@ -87,14 +87,14 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
       const onRetryAttempt = jest.fn();
       // Only 1 validated model, and no suitable random models
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano']);
       mockModelsService.getModels.mockReturnValue([
-        { name: 'gpt-5.1-codex-mini', type: 'chat', contextWindow: 400000 }
+        { name: 'gpt-4.1-nano', type: 'chat', contextWindow: 400000 }
       ]);
       mockAiService.sendMessage.mockRejectedValue(new Error('Service unavailable'));
       await expect(
-        service._generateSummary(testMessages, 'gpt-5.1-codex-mini', { onRetryAttempt })
+        service._generateSummary(testMessages, 'gpt-4.1-nano', { onRetryAttempt })
       ).rejects.toThrow();
       // The only call to onRetryAttempt would be from the last-resort block, but
@@ -108,16 +108,16 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
   describe('Random model fallback', () => {
     test('after all recommended models fail, tries a random model from modelsService', async () => {
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano']);
       mockModelsService.getModels.mockReturnValue([
-        { name: 'gpt-5.1-codex-mini', type: 'chat', contextWindow: 400000 },
+        { name: 'gpt-4.1-nano', type: 'chat', contextWindow: 400000 },
         { name: 'random-model-xyz', type: 'chat', contextWindow: 200000 }
       ]);
       mockAiService.sendMessage
         .mockRejectedValueOnce(new Error('Service unavailable'))  // recommended model fails
         .mockResolvedValueOnce({ content: 'Last-resort summary' }); // random model succeeds
-      const result = await service._generateSummary(testMessages, 'gpt-5.1-codex-mini', {});
+      const result = await service._generateSummary(testMessages, 'gpt-4.1-nano', {});
       // Should have been called twice: once for recommended, once for random
       expect(mockAiService.sendMessage).toHaveBeenCalledTimes(2);
@@ -125,16 +125,16 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
     });
     test('random model success returns valid summary and does not throw', async () => {
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano']);
       mockModelsService.getModels.mockReturnValue([
-        { name: 'gpt-5.1-codex-mini', type: 'chat', contextWindow: 400000 },
+        { name: 'gpt-4.1-nano', type: 'chat', contextWindow: 400000 },
         { name: 'fallback-model', type: 'chat', contextWindow: 200000 }
       ]);
       mockAiService.sendMessage
         .mockRejectedValueOnce(new Error('Service unavailable'))
         .mockResolvedValueOnce({ content: 'Fallback summary content' });
-      const result = await service._generateSummary(testMessages, 'gpt-5.1-codex-mini', {});
+      const result = await service._generateSummary(testMessages, 'gpt-4.1-nano', {});
       expect(result.role).toBe('system');
       expect(result.type).toBe('summary');
@@ -142,44 +142,44 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
     });
     test('random model failure still throws ALL_MODELS_EXHAUSTED', async () => {
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano']);
       mockAiService.sendMessage.mockRejectedValue(new Error('Everything is broken'));
       await expect(
-        service._generateSummary(testMessages, 'gpt-5.1-codex-mini', {})
+        service._generateSummary(testMessages, 'gpt-4.1-nano', {})
       ).rejects.toThrow('ALL_MODELS_EXHAUSTED');
     });
     test('random model is NOT one already attempted (filtered out)', async () => {
-      // Only gpt-5.1-codex-mini is validated; random pool has others
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini']);
+      // Only gpt-4.1-nano is validated; random pool has others
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano']);
       mockModelsService.getModels.mockReturnValue([
-        { name: 'gpt-5.1-codex-mini', type: 'chat', contextWindow: 400000 },
+        { name: 'gpt-4.1-nano', type: 'chat', contextWindow: 400000 },
         { name: 'random-model-xyz', type: 'chat', contextWindow: 200000 }
       ]);
       mockAiService.sendMessage
-        .mockRejectedValueOnce(new Error('fail'))  // gpt-5.1-codex-mini fails
+        .mockRejectedValueOnce(new Error('fail'))  // gpt-4.1-nano fails
         .mockResolvedValueOnce({ content: 'Random success' }); // random-model-xyz succeeds
-      const result = await service._generateSummary(testMessages, 'gpt-5.1-codex-mini', {});
+      const result = await service._generateSummary(testMessages, 'gpt-4.1-nano', {});
       // Second call should be the random model, not the already-attempted one
       const secondCallModel = mockAiService.sendMessage.mock.calls[1][0];
-      expect(secondCallModel).not.toBe('gpt-5.1-codex-mini');
-      expect(result.metadata.compactionModel).not.toBe('gpt-5.1-codex-mini');
+      expect(secondCallModel).not.toBe('gpt-4.1-nano');
+      expect(result.metadata.compactionModel).not.toBe('gpt-4.1-nano');
     });
     test('random model must have sufficient context window', async () => {
       // All models except the recommended one have tiny context windows
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano']);
       mockModelsService.getModels.mockReturnValue([
-        { name: 'gpt-5.1-codex-mini', type: 'chat', contextWindow: 400000 },
+        { name: 'gpt-4.1-nano', type: 'chat', contextWindow: 400000 },
         { name: 'tiny-model', type: 'chat', contextWindow: 100 } // too small
       ]);
       mockAiService.sendMessage.mockRejectedValue(new Error('fail'));
       await expect(
-        service._generateSummary(testMessages, 'gpt-5.1-codex-mini', {})
+        service._generateSummary(testMessages, 'gpt-4.1-nano', {})
       ).rejects.toThrow('ALL_MODELS_EXHAUSTED');
       // Should only have tried the recommended model, not the tiny one
@@ -193,11 +193,11 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
     test('onAllModelsExhausted is called only after ALL models (including random) fail', async () => {
       const onAllModelsExhausted = jest.fn();
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano']);
       mockAiService.sendMessage.mockRejectedValue(new Error('fail'));
       await expect(
-        service._generateSummary(testMessages, 'gpt-5.1-codex-mini', { onAllModelsExhausted })
+        service._generateSummary(testMessages, 'gpt-4.1-nano', { onAllModelsExhausted })
       ).rejects.toThrow('ALL_MODELS_EXHAUSTED');
       expect(onAllModelsExhausted).toHaveBeenCalledTimes(1);
@@ -211,16 +211,16 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
     test('onAllModelsExhausted includes all attempted model names', async () => {
       const onAllModelsExhausted = jest.fn();
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini', 'gpt-5-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano', 'gpt-4.1-mini']);
       mockAiService.sendMessage.mockRejectedValue(new Error('fail'));
       await expect(
-        service._generateSummary(testMessages, 'gpt-5.1-codex-mini', { onAllModelsExhausted })
+        service._generateSummary(testMessages, 'gpt-4.1-nano', { onAllModelsExhausted })
       ).rejects.toThrow('ALL_MODELS_EXHAUSTED');
       const callArg = onAllModelsExhausted.mock.calls[0][0];
-      expect(callArg.models).toContain('gpt-5.1-codex-mini');
-      expect(callArg.models).toContain('gpt-5-mini');
+      expect(callArg.models).toContain('gpt-4.1-nano');
+      expect(callArg.models).toContain('gpt-4.1-mini');
       // Should also include at least one random model that was attempted
       expect(callArg.models.length).toBeGreaterThanOrEqual(2);
     });
@@ -233,10 +233,10 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
       const onRetryAttempt = jest.fn();
       const onAllModelsExhausted = jest.fn();
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini', 'gpt-5-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano', 'gpt-4.1-mini']);
       mockAiService.sendMessage.mockResolvedValueOnce({ content: 'Great summary here' });
-      const result = await service._generateSummary(testMessages, 'gpt-5.1-codex-mini', {
+      const result = await service._generateSummary(testMessages, 'gpt-4.1-nano', {
         onRetryAttempt,
         onAllModelsExhausted
       });
@@ -253,12 +253,12 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
       const onRetryAttempt = jest.fn();
       const onAllModelsExhausted = jest.fn();
-      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-5.1-codex-mini', 'gpt-5-mini']);
+      mockModelsService.getAvailableModelNames.mockReturnValue(['gpt-4.1-nano', 'gpt-4.1-mini']);
       mockAiService.sendMessage
         .mockRejectedValueOnce(new Error('429 rate limit'))
         .mockResolvedValueOnce({ content: 'Second model summary' });
-      const result = await service._generateSummary(testMessages, 'gpt-5.1-codex-mini', {
+      const result = await service._generateSummary(testMessages, 'gpt-4.1-nano', {
         onRetryAttempt,
         onAllModelsExhausted
       });
@@ -266,7 +266,7 @@ describe('ConversationCompactionService - _generateSummary retry behavior', () =
       expect(onRetryAttempt).toHaveBeenCalledTimes(1);
       expect(onAllModelsExhausted).not.toHaveBeenCalled();
       expect(result.content).toContain('Second model summary');
-      expect(result.metadata.compactionModel).toBe('gpt-5-mini');
+      expect(result.metadata.compactionModel).toBe('gpt-4.1-mini');
     });
   });
 });

package/src/utilities/constants.js CHANGED Viewed

@@ -656,22 +656,30 @@ const COMPACTION_CONFIG = {
   MIN_MIDDLE_SEGMENT_PERCENTAGE: 0.50, // Middle must be at least 50% of messages
   MAX_BOOKEND_PERCENTAGE: 0.50, // Beginning + end together capped at 50%
-  // Recommended model pool for compaction (validated against live model catalog at runtime)
-  // Names MUST match catalog keys exactly (no azure-openai- prefix)
-  // Ordered by context window size (largest first) to handle very large conversations
+  // Recommended model pool for compaction (validated against live model catalog at runtime).
+  // Names MUST match catalog keys exactly (no azure-openai- prefix).
+  //
+  // Compaction is a structured transcription job, not a reasoning task — the
+  // P7 prompt's three passes (USER VOICE / EVENT LOG / STATE NARRATIVE)
+  // produce ~1.5K output tokens of well-shaped text. Using reasoning models
+  // for this burns reasoning-token cost on a task that doesn't need it AND
+  // adds significant TTFT/total latency per pass. The previous defaults
+  // (gpt-5.1-codex-mini, gpt-5-mini, gpt-5-nano, o4-mini — all reasoning)
+  // were chosen for their 400K context windows, but the gpt-4.1 family
+  // offers 1M-token context AND is non-reasoning AND ~30× cheaper than the
+  // previous primary.
+  //
+  // Both entries below have 1M context, so the runtime model-filter never
+  // has to fall through to a smaller-context model for size reasons.
   COMPACTION_MODELS: [
-    'gpt-5.1-codex-mini',           // 400K context - best for large conversations
-    'gpt-5-mini',                   // 400K context
-    'gpt-5-nano',                   // 400K context - lightweight
-    'o4-mini'                       // 128K context - reasoning model
+    'gpt-4.1-nano',                 // 1M context, non-reasoning, cheapest — primary
+    'gpt-4.1-mini',                 // 1M context, non-reasoning           — fallback
   ],
   // Context windows for recommended compaction models (fallback if modelsService unavailable)
   MODEL_CONTEXT_WINDOWS: {
-    'gpt-5.1-codex-mini': 400000,
-    'gpt-5-mini': 400000,
-    'gpt-5-nano': 400000,
-    'o4-mini': 128000
+    'gpt-4.1-nano': 1048576,
+    'gpt-4.1-mini': 1048576,
   },
   // Token limits