npm - @vellumai/assistant - Versions diffs - 0.4.49 → 0.4.51 - Mend

@vellumai/assistant 0.4.49 → 0.4.51

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (353) hide show

package/ARCHITECTURE.md +24 -33
package/README.md +3 -3
package/docs/architecture/integrations.md +2 -2
package/docs/architecture/keychain-broker.md +6 -6
package/docs/architecture/memory.md +180 -119
package/knip.json +32 -0
package/package.json +3 -2
package/src/__tests__/agent-loop.test.ts +3 -1
package/src/__tests__/anthropic-provider.test.ts +114 -23
package/src/__tests__/approval-cascade.test.ts +1 -15
package/src/__tests__/approval-routes-http.test.ts +2 -0
package/src/__tests__/assistant-feature-flag-guard.test.ts +0 -23
package/src/__tests__/btw-routes.test.ts +61 -5
package/src/__tests__/canonical-guardian-store.test.ts +95 -0
package/src/__tests__/checker.test.ts +13 -0
package/src/__tests__/config-schema.test.ts +1 -68
package/src/__tests__/config-watcher.test.ts +8 -0
package/src/__tests__/context-memory-e2e.test.ts +11 -100
package/src/__tests__/conversation-routes-guardian-reply.test.ts +8 -0
package/src/__tests__/conversation-routes-slash-commands.test.ts +1 -0
package/src/__tests__/credential-security-e2e.test.ts +1 -0
package/src/__tests__/credential-security-invariants.test.ts +8 -7
package/src/__tests__/credential-vault-unit.test.ts +23 -18
package/src/__tests__/credential-vault.test.ts +30 -18
package/src/__tests__/credentials-cli.test.ts +257 -82
package/src/__tests__/cu-unified-flow.test.ts +532 -0
package/src/__tests__/date-context.test.ts +93 -77
package/src/__tests__/deterministic-verification-control-plane.test.ts +64 -0
package/src/__tests__/guardian-routing-invariants.test.ts +93 -0
package/src/__tests__/history-repair.test.ts +245 -0
package/src/__tests__/host-cu-proxy.test.ts +165 -3
package/src/__tests__/http-user-message-parity.test.ts +1 -0
package/src/__tests__/inbound-invite-redemption.test.ts +36 -7
package/src/__tests__/integration-status.test.ts +31 -30
package/src/__tests__/invite-redemption-service.test.ts +166 -13
package/src/__tests__/invite-routes-http.test.ts +166 -5
package/src/__tests__/keychain-broker-client.test.ts +4 -4
package/src/__tests__/list-messages-attachments.test.ts +193 -0
package/src/__tests__/memory-context-benchmark.benchmark.test.ts +56 -18
package/src/__tests__/memory-lifecycle-e2e.test.ts +244 -387
package/src/__tests__/memory-recall-quality.test.ts +244 -407
package/src/__tests__/memory-regressions.experimental.test.ts +126 -101
package/src/__tests__/memory-regressions.test.ts +477 -2841
package/src/__tests__/memory-retrieval.benchmark.test.ts +33 -150
package/src/__tests__/memory-upsert-concurrency.test.ts +5 -244
package/src/__tests__/mime-builder.test.ts +28 -0
package/src/__tests__/native-web-search.test.ts +1 -0
package/src/__tests__/oauth-cli.test.ts +824 -31
package/src/__tests__/oauth-provider-profiles.test.ts +1 -1
package/src/__tests__/oauth-store.test.ts +363 -17
package/src/__tests__/qdrant-collection-migration.test.ts +53 -8
package/src/__tests__/registry.test.ts +0 -1
package/src/__tests__/relay-server.test.ts +55 -1
package/src/__tests__/schedule-tools.test.ts +32 -0
package/src/__tests__/script-proxy-certs.test.ts +1 -1
package/src/__tests__/secret-onetime-send.test.ts +1 -0
package/src/__tests__/secret-routes-managed-proxy.test.ts +183 -0
package/src/__tests__/secure-keys.test.ts +78 -18
package/src/__tests__/send-endpoint-busy.test.ts +3 -0
package/src/__tests__/server-history-render.test.ts +2 -2
package/src/__tests__/session-abort-tool-results.test.ts +1 -14
package/src/__tests__/session-agent-loop-overflow.test.ts +1583 -0
package/src/__tests__/session-agent-loop.test.ts +19 -15
package/src/__tests__/session-confirmation-signals.test.ts +1 -15
package/src/__tests__/session-error.test.ts +124 -2
package/src/__tests__/session-history-web-search.test.ts +918 -0
package/src/__tests__/session-pre-run-repair.test.ts +1 -14
package/src/__tests__/session-provider-retry-repair.test.ts +25 -28
package/src/__tests__/session-queue.test.ts +37 -27
package/src/__tests__/session-runtime-assembly.test.ts +54 -0
package/src/__tests__/session-slash-known.test.ts +1 -15
package/src/__tests__/session-slash-queue.test.ts +1 -15
package/src/__tests__/session-slash-unknown.test.ts +1 -15
package/src/__tests__/session-workspace-cache-state.test.ts +3 -33
package/src/__tests__/session-workspace-injection.test.ts +3 -37
package/src/__tests__/session-workspace-tool-tracking.test.ts +3 -37
package/src/__tests__/skills-install-extract.test.ts +93 -0
package/src/__tests__/skills.test.ts +2 -2
package/src/__tests__/skillssh-registry.test.ts +451 -0
package/src/__tests__/slack-channel-config.test.ts +10 -8
package/src/__tests__/trust-store.test.ts +15 -0
package/src/__tests__/twilio-config.test.ts +11 -10
package/src/__tests__/twilio-provider.test.ts +9 -4
package/src/__tests__/voice-invite-redemption.test.ts +85 -5
package/src/agent/ax-tree-compaction.test.ts +51 -0
package/src/agent/loop.ts +39 -12
package/src/approvals/AGENTS.md +1 -1
package/src/approvals/guardian-request-resolvers.ts +14 -2
package/src/bundler/compiler-tools.ts +66 -2
package/src/calls/call-domain.ts +134 -3
package/src/calls/call-store.ts +6 -0
package/src/calls/relay-server.ts +44 -6
package/src/calls/relay-setup-router.ts +17 -1
package/src/calls/twilio-config.ts +5 -4
package/src/calls/twilio-provider.ts +14 -9
package/src/calls/twilio-rest.ts +10 -7
package/src/calls/types.ts +3 -1
package/src/cli/commands/config.ts +14 -9
package/src/cli/commands/contacts.ts +3 -0
package/src/cli/commands/credentials.ts +170 -174
package/src/cli/commands/doctor.ts +11 -8
package/src/cli/commands/keys.ts +9 -9
package/src/cli/commands/mcp.ts +46 -59
package/src/cli/commands/memory.ts +16 -165
package/src/cli/commands/oauth/apps.ts +68 -10
package/src/cli/commands/oauth/connections.ts +475 -105
package/src/cli/commands/oauth/index.ts +3 -3
package/src/cli/commands/oauth/providers.ts +18 -4
package/src/cli/commands/sessions.ts +5 -2
package/src/cli/commands/skills.ts +173 -1
package/src/cli/http-client.ts +0 -20
package/src/cli/main-screen.tsx +2 -2
package/src/cli/program.ts +5 -6
package/src/cli.ts +20 -22
package/src/config/__tests__/feature-flag-registry-bundled.test.ts +39 -0
package/src/config/bundled-skills/computer-use/TOOLS.json +1 -1
package/src/config/bundled-skills/computer-use/tools/computer-use-observe.ts +12 -0
package/src/config/bundled-skills/contacts/SKILL.md +35 -11
package/src/config/bundled-skills/contacts/tools/google-contacts.ts +1 -1
package/src/config/bundled-skills/gmail/SKILL.md +1 -1
package/src/config/bundled-skills/gmail/TOOLS.json +52 -0
package/src/config/bundled-skills/gmail/tools/gmail-archive.ts +13 -3
package/src/config/bundled-skills/gmail/tools/gmail-attachments.ts +9 -2
package/src/config/bundled-skills/gmail/tools/gmail-draft.ts +5 -1
package/src/config/bundled-skills/gmail/tools/gmail-filters.ts +5 -1
package/src/config/bundled-skills/gmail/tools/gmail-follow-up.ts +5 -1
package/src/config/bundled-skills/gmail/tools/gmail-forward.ts +5 -1
package/src/config/bundled-skills/gmail/tools/gmail-label.ts +9 -2
package/src/config/bundled-skills/gmail/tools/gmail-outreach-scan.ts +5 -1
package/src/config/bundled-skills/gmail/tools/gmail-send-draft.ts +5 -1
package/src/config/bundled-skills/gmail/tools/gmail-sender-digest.ts +5 -1
package/src/config/bundled-skills/gmail/tools/gmail-trash.ts +5 -1
package/src/config/bundled-skills/gmail/tools/gmail-unsubscribe.ts +5 -1
package/src/config/bundled-skills/gmail/tools/gmail-vacation.ts +5 -1
package/src/config/bundled-skills/google-calendar/TOOLS.json +20 -0
package/src/config/bundled-skills/google-calendar/tools/calendar-check-availability.ts +2 -1
package/src/config/bundled-skills/google-calendar/tools/calendar-create-event.ts +2 -1
package/src/config/bundled-skills/google-calendar/tools/calendar-get-event.ts +2 -1
package/src/config/bundled-skills/google-calendar/tools/calendar-list-events.ts +2 -1
package/src/config/bundled-skills/google-calendar/tools/calendar-rsvp.ts +2 -1
package/src/config/bundled-skills/google-calendar/tools/shared.ts +8 -2
package/src/config/bundled-skills/messaging/SKILL.md +1 -1
package/src/config/bundled-skills/messaging/tools/messaging-analyze-style.ts +2 -2
package/src/config/bundled-skills/messaging/tools/messaging-archive-by-sender.ts +2 -2
package/src/config/bundled-skills/messaging/tools/messaging-auth-test.ts +2 -2
package/src/config/bundled-skills/messaging/tools/messaging-list-conversations.ts +2 -2
package/src/config/bundled-skills/messaging/tools/messaging-mark-read.ts +2 -2
package/src/config/bundled-skills/messaging/tools/messaging-read.ts +2 -2
package/src/config/bundled-skills/messaging/tools/messaging-search.ts +2 -2
package/src/config/bundled-skills/messaging/tools/messaging-send.ts +2 -2
package/src/config/bundled-skills/messaging/tools/messaging-sender-digest.ts +2 -2
package/src/config/bundled-skills/messaging/tools/shared.ts +7 -5
package/src/config/bundled-skills/slack/tools/shared.ts +1 -1
package/src/config/bundled-skills/slack/tools/slack-add-reaction.ts +1 -1
package/src/config/bundled-skills/slack/tools/slack-channel-details.ts +1 -1
package/src/config/bundled-skills/slack/tools/slack-delete-message.ts +1 -1
package/src/config/bundled-skills/slack/tools/slack-edit-message.ts +1 -1
package/src/config/bundled-skills/slack/tools/slack-leave-channel.ts +1 -1
package/src/config/bundled-skills/slack/tools/slack-scan-digest.ts +1 -1
package/src/config/bundled-tool-registry.ts +2 -5
package/src/config/loader.ts +6 -42
package/src/config/schema.ts +1 -12
package/src/config/schemas/memory-lifecycle.ts +0 -9
package/src/config/schemas/memory-processing.ts +0 -180
package/src/config/schemas/memory-retrieval.ts +32 -104
package/src/config/schemas/memory.ts +0 -10
package/src/config/types.ts +0 -4
package/src/contacts/contact-store.ts +39 -2
package/src/contacts/contacts-write.ts +9 -0
package/src/context/window-manager.ts +4 -1
package/src/daemon/config-watcher.ts +55 -2
package/src/daemon/daemon-control.ts +1 -1
package/src/daemon/date-context.ts +114 -31
package/src/daemon/handlers/config-ingress.ts +2 -2
package/src/daemon/handlers/config-slack-channel.ts +59 -39
package/src/daemon/handlers/config-telegram.ts +23 -14
package/src/daemon/handlers/session-history.ts +1 -358
package/src/daemon/handlers/sessions.ts +18 -13
package/src/daemon/handlers/shared.ts +3 -17
package/src/daemon/handlers/skills.ts +20 -1
package/src/daemon/history-repair.ts +72 -8
package/src/daemon/host-cu-proxy.ts +55 -26
package/src/daemon/lifecycle.ts +39 -4
package/src/daemon/mcp-reload-service.ts +2 -2
package/src/daemon/message-types/computer-use.ts +1 -12
package/src/daemon/message-types/memory.ts +4 -16
package/src/daemon/message-types/messages.ts +1 -0
package/src/daemon/message-types/sessions.ts +4 -42
package/src/daemon/server.ts +6 -1
package/src/daemon/session-agent-loop-handlers.ts +38 -0
package/src/daemon/session-agent-loop.ts +334 -48
package/src/daemon/session-error.ts +89 -6
package/src/daemon/session-history.ts +17 -7
package/src/daemon/session-media-retry.ts +6 -2
package/src/daemon/session-memory.ts +69 -149
package/src/daemon/session-process.ts +10 -1
package/src/daemon/session-runtime-assembly.ts +49 -19
package/src/daemon/session-slash.ts +3 -5
package/src/daemon/session-surfaces.ts +4 -1
package/src/daemon/session-tool-setup.ts +7 -1
package/src/daemon/session.ts +12 -2
package/src/email/providers/index.ts +2 -2
package/src/instrument.ts +61 -1
package/src/media/avatar-router.ts +1 -1
package/src/memory/admin.ts +2 -191
package/src/memory/canonical-guardian-store.ts +38 -2
package/src/memory/conversation-crud.ts +0 -33
package/src/memory/conversation-queries.ts +25 -83
package/src/memory/db-init.ts +32 -0
package/src/memory/embedding-backend.ts +84 -8
package/src/memory/embedding-types.ts +9 -1
package/src/memory/indexer.ts +7 -46
package/src/memory/invite-store.ts +19 -0
package/src/memory/items-extractor.ts +274 -76
package/src/memory/job-handlers/backfill.ts +2 -127
package/src/memory/job-handlers/cleanup.ts +2 -16
package/src/memory/job-handlers/extraction.ts +2 -138
package/src/memory/job-handlers/index-maintenance.ts +1 -6
package/src/memory/job-handlers/summarization.ts +3 -148
package/src/memory/job-utils.ts +21 -59
package/src/memory/jobs-store.ts +1 -159
package/src/memory/jobs-worker.ts +9 -52
package/src/memory/migrations/104-core-indexes.ts +3 -3
package/src/memory/migrations/149-oauth-tables.ts +2 -0
package/src/memory/migrations/150-oauth-apps-client-secret-path.ts +98 -0
package/src/memory/migrations/151-oauth-providers-ping-url.ts +11 -0
package/src/memory/migrations/152-memory-item-supersession.ts +44 -0
package/src/memory/migrations/153-drop-entity-tables.ts +15 -0
package/src/memory/migrations/154-drop-fts.ts +20 -0
package/src/memory/migrations/155-drop-conflicts.ts +7 -0
package/src/memory/migrations/156-call-session-invite-metadata.ts +24 -0
package/src/memory/migrations/157-invite-contact-id.ts +104 -0
package/src/memory/migrations/index.ts +8 -0
package/src/memory/migrations/registry.ts +6 -0
package/src/memory/qdrant-client.ts +148 -51
package/src/memory/raw-query.ts +1 -1
package/src/memory/retriever.test.ts +294 -273
package/src/memory/retriever.ts +421 -645
package/src/memory/schema/calls.ts +2 -0
package/src/memory/schema/contacts.ts +1 -0
package/src/memory/schema/memory-core.ts +3 -48
package/src/memory/schema/oauth.ts +2 -0
package/src/memory/search/formatting.ts +263 -176
package/src/memory/search/lexical.ts +1 -254
package/src/memory/search/ranking.ts +0 -455
package/src/memory/search/semantic.ts +100 -14
package/src/memory/search/staleness.ts +47 -0
package/src/memory/search/tier-classifier.ts +21 -0
package/src/memory/search/types.ts +15 -77
package/src/memory/task-memory-cleanup.ts +4 -6
package/src/messaging/provider.ts +1 -1
package/src/messaging/providers/gmail/adapter.ts +1 -1
package/src/messaging/providers/gmail/mime-builder.ts +17 -7
package/src/messaging/providers/telegram-bot/adapter.ts +17 -8
package/src/messaging/providers/whatsapp/adapter.ts +13 -9
package/src/messaging/registry.ts +9 -5
package/src/oauth/byo-connection.test.ts +40 -25
package/src/oauth/connect-orchestrator.ts +4 -10
package/src/oauth/connection-resolver.ts +20 -6
package/src/oauth/manual-token-connection.ts +5 -5
package/src/oauth/oauth-store.ts +183 -31
package/src/oauth/platform-connection.test.ts +1 -1
package/src/oauth/provider-behaviors.ts +503 -4
package/src/oauth/seed-providers.ts +214 -8
package/src/oauth/token-persistence.ts +31 -16
package/src/permissions/defaults.ts +1 -0
package/src/permissions/trust-store.ts +23 -1
package/src/playbooks/playbook-compiler.ts +1 -1
package/src/prompts/system-prompt.ts +18 -2
package/src/providers/anthropic/client.ts +56 -126
package/src/providers/types.ts +7 -1
package/src/runtime/AGENTS.md +9 -0
package/src/runtime/auth/route-policy.ts +6 -3
package/src/runtime/channel-readiness-service.ts +48 -40
package/src/runtime/guardian-reply-router.ts +24 -22
package/src/runtime/http-server.ts +2 -2
package/src/runtime/http-types.ts +2 -0
package/src/runtime/invite-redemption-service.ts +72 -12
package/src/runtime/invite-service.ts +43 -0
package/src/runtime/middleware/twilio-validation.ts +1 -1
package/src/runtime/pending-interactions.ts +2 -2
package/src/runtime/routes/brain-graph-routes.ts +10 -90
package/src/runtime/routes/btw-routes.ts +10 -5
package/src/runtime/routes/conversation-routes.ts +56 -11
package/src/runtime/routes/inbound-stages/acl-enforcement.ts +21 -12
package/src/runtime/routes/integrations/slack/channel.ts +2 -2
package/src/runtime/routes/integrations/telegram.ts +2 -2
package/src/runtime/routes/integrations/twilio.ts +17 -17
package/src/runtime/routes/invite-routes.ts +29 -4
package/src/runtime/routes/memory-item-routes.test.ts +754 -0
package/src/runtime/routes/memory-item-routes.ts +503 -0
package/src/runtime/routes/secret-routes.ts +17 -0
package/src/runtime/routes/session-management-routes.ts +3 -3
package/src/runtime/routes/settings-routes.ts +3 -3
package/src/runtime/routes/trust-rules-routes.ts +14 -0
package/src/runtime/routes/workspace-routes.ts +9 -4
package/src/runtime/routes/workspace-utils.ts +8 -2
package/src/schedule/integration-status.ts +26 -19
package/src/security/keychain-broker-client.ts +17 -4
package/src/security/oauth2.ts +6 -7
package/src/security/secure-keys.ts +44 -19
package/src/security/token-manager.ts +46 -39
package/src/services/vercel-deploy.ts +0 -24
package/src/signals/confirm.ts +78 -0
package/src/signals/mcp-reload.ts +18 -0
package/src/skills/catalog-install.ts +74 -18
package/src/skills/skillssh-registry.ts +503 -0
package/src/tools/assets/search.ts +5 -1
package/src/tools/computer-use/definitions.ts +0 -10
package/src/tools/computer-use/registry.ts +1 -1
package/src/tools/credentials/vault.ts +22 -7
package/src/tools/memory/definitions.ts +4 -13
package/src/tools/memory/handlers.test.ts +83 -103
package/src/tools/memory/handlers.ts +50 -85
package/src/tools/network/script-proxy/session-manager.ts +8 -8
package/src/tools/schedule/create.ts +10 -3
package/src/tools/schedule/update.ts +8 -1
package/src/tools/skills/load.ts +25 -2
package/src/watcher/provider-types.ts +1 -1
package/src/watcher/providers/github.ts +1 -1
package/src/watcher/providers/gmail.ts +3 -3
package/src/watcher/providers/google-calendar.ts +3 -3
package/src/watcher/providers/linear.ts +1 -1
package/src/__tests__/clarification-resolver.test.ts +0 -193
package/src/__tests__/conflict-intent-tokenization.test.ts +0 -160
package/src/__tests__/conflict-policy.test.ts +0 -269
package/src/__tests__/conflict-store.test.ts +0 -372
package/src/__tests__/contradiction-checker.test.ts +0 -361
package/src/__tests__/entity-extractor.test.ts +0 -211
package/src/__tests__/entity-search.test.ts +0 -1117
package/src/__tests__/profile-compiler.test.ts +0 -392
package/src/__tests__/session-conflict-gate.test.ts +0 -1228
package/src/__tests__/session-profile-injection.test.ts +0 -557
package/src/config/bundled-skills/knowledge-graph/SKILL.md +0 -25
package/src/config/bundled-skills/knowledge-graph/TOOLS.json +0 -66
package/src/config/bundled-skills/knowledge-graph/tools/graph-query.ts +0 -211
package/src/daemon/session-conflict-gate.ts +0 -167
package/src/daemon/session-dynamic-profile.ts +0 -77
package/src/memory/clarification-resolver.ts +0 -417
package/src/memory/conflict-intent.ts +0 -205
package/src/memory/conflict-policy.ts +0 -127
package/src/memory/conflict-store.ts +0 -410
package/src/memory/contradiction-checker.ts +0 -508
package/src/memory/entity-extractor.ts +0 -535
package/src/memory/format-recall.ts +0 -47
package/src/memory/fts-reconciler.ts +0 -165
package/src/memory/job-handlers/conflict.ts +0 -200
package/src/memory/profile-compiler.ts +0 -195
package/src/memory/recall-cache.ts +0 -117
package/src/memory/search/entity.ts +0 -535
package/src/memory/search/query-expansion.test.ts +0 -70
package/src/memory/search/query-expansion.ts +0 -118
package/src/runtime/routes/mcp-routes.ts +0 -20

package/src/memory/retriever.ts CHANGED Viewed

@@ -1,5 +1,4 @@
-import { createHash } from "crypto";
-import { inArray } from "drizzle-orm";
+import { inArray, sql } from "drizzle-orm";
 import type { AssistantConfig } from "../config/types.js";
 import { estimateTextTokens } from "../context/token-estimator.js";
@@ -12,40 +11,34 @@ import {
 import { getDb } from "./db.js";
 import {
   embedWithBackend,
+  generateSparseEmbedding,
   getMemoryBackendStatus,
   logMemoryEmbeddingWarning,
 } from "./embedding-backend.js";
-import { formatRecallText } from "./format-recall.js";
+import { isQdrantBreakerOpen } from "./qdrant-circuit-breaker.js";
 import {
-  isQdrantBreakerOpen,
-  QdrantCircuitOpenError,
-} from "./qdrant-circuit-breaker.js";
+  conversations,
+  memoryItems,
+  memoryItemSources,
+  messages,
+} from "./schema.js";
 import {
-  getCachedRecall,
-  getMemoryVersion,
-  setCachedRecall,
-} from "./recall-cache.js";
-import { memoryItemSources } from "./schema.js";
-import { entitySearch } from "./search/entity.js";
-import { MEMORY_CONTEXT_ACK } from "./search/formatting.js";
-import {
-  directItemSearch,
-  lexicalSearch,
-  recencySearch,
-} from "./search/lexical.js";
-import { buildFTSQuery, expandQueryForFTS } from "./search/query-expansion.js";
-import {
-  applySourceCaps,
-  mergeCandidates,
-  rerankWithLLM,
-} from "./search/ranking.js";
+  buildTwoLayerInjection,
+  IDENTITY_KINDS,
+  MEMORY_CONTEXT_ACK,
+  PREFERENCE_KINDS,
+} from "./search/formatting.js";
+import { recencySearch } from "./search/lexical.js";
 import { isQdrantConnectionError, semanticSearch } from "./search/semantic.js";
+import { applyStaleDemotion, computeStaleness } from "./search/staleness.js";
+import {
+  classifyTiers,
+  type TieredCandidate,
+} from "./search/tier-classifier.js";
 import type {
   Candidate,
-  CollectedCandidates,
   DegradationReason,
   DegradationStatus,
-  FallbackSource,
   MemoryRecallCandiateDebug,
   MemoryRecallOptions,
   MemoryRecallResult,
@@ -61,7 +54,6 @@ export {
 export type {
   DegradationReason,
   DegradationStatus,
-  FallbackSource,
   MemoryRecallCandiateDebug,
   MemoryRecallResult,
   ScopePolicyOverride,
@@ -69,22 +61,6 @@ export type {
 const log = getLogger("memory-retriever");
-/** Hash the retrieval-relevant config fields so the recall cache distinguishes different configs. */
-function buildConfigFingerprint(config: AssistantConfig): string {
-  const relevant = {
-    r: config.memory.retrieval,
-    e: {
-      provider: config.memory.embeddings.provider,
-      required: config.memory.embeddings.required,
-    },
-    ent: config.memory.entity.enabled,
-  };
-  return createHash("sha256")
-    .update(JSON.stringify(relevant))
-    .digest("hex")
-    .slice(0, 16);
-}
 const EMBED_MAX_RETRIES = 3;
 const EMBED_BASE_DELAY_MS = 500;
@@ -151,336 +127,18 @@ function buildScopeFilter(
   return [scopeId];
 }
-/**
- * Shared retrieval pipeline: collect candidates from all available sources
- * (lexical, recency, semantic, entity, direct item search) and merge them
- * using RRF.
- */
-export async function collectAndMergeCandidates(
-  query: string,
-  config: AssistantConfig,
-  opts?: {
-    queryVector?: number[] | null;
-    provider?: string;
-    model?: string;
-    conversationId?: string;
-    excludeMessageIds?: string[];
-    scopeId?: string;
-    scopePolicyOverride?: ScopePolicyOverride;
-  },
-): Promise<CollectedCandidates> {
-  const queryVector = opts?.queryVector ?? null;
-  const excludeMessageIds = opts?.excludeMessageIds ?? [];
-  const scopeId = opts?.scopeId;
-  const scopePolicy = config.memory.retrieval.scopePolicy;
-  // Build the list of scope IDs to include in queries.
-  // A per-call scopePolicyOverride takes precedence over the global policy.
-  const scopeIds = buildScopeFilter(
-    scopeId,
-    scopePolicy,
-    opts?.scopePolicyOverride,
-  );
-  let semanticSearchFailed = false;
-  let semanticSearchError: unknown;
-  // Detect when semantic search won't be available so we can compensate
-  // by boosting lexical/recency/direct item limits.
-  const semanticUnavailable = !queryVector || isQdrantBreakerOpen();
-  if (semanticUnavailable) {
-    log.debug("Semantic search unavailable — boosting lexical limits");
-  }
-  // -- Phase 1: cheap local searches (always run) --
-  const lexicalTopK = semanticUnavailable
-    ? config.memory.retrieval.lexicalTopK * 2
-    : config.memory.retrieval.lexicalTopK;
-  // When semantic search is unavailable, expand the conversational query
-  // into meaningful keywords for better FTS recall. This compensates for
-  // the lack of vector-based semantic matching.
-  const expandedFtsQuery = semanticUnavailable
-    ? buildFTSQuery(expandQueryForFTS(query))
-    : undefined;
-  const lexical = lexicalSearch(
-    query,
-    lexicalTopK,
-    excludeMessageIds,
-    scopeIds,
-    expandedFtsQuery,
-  );
-  const baseRecencyLimit = Math.max(
-    10,
-    Math.floor(config.memory.retrieval.semanticTopK / 2),
-  );
-  const recencyLimit = semanticUnavailable
-    ? Math.ceil(baseRecencyLimit * 1.5)
-    : baseRecencyLimit;
-  const recency = opts?.conversationId
-    ? recencySearch(
-        opts.conversationId,
-        recencyLimit,
-        excludeMessageIds,
-        scopeIds,
-      )
-    : [];
-  // Direct item search supplements FTS with LIKE-based matching.
-  // When exclusions are present, adaptively increase the fetch size until
-  // we collect directLimit valid (non-excluded) items or exhaust the DB.
-  const baseDirectLimit = Math.max(10, config.memory.retrieval.lexicalTopK);
-  const directLimit = semanticUnavailable
-    ? baseDirectLimit * 2
-    : baseDirectLimit;
-  // Helper: filter fetched direct items to those with at least one non-excluded source.
-  const filterDirectItems = (items: Candidate[]): Candidate[] => {
-    if (items.length === 0) return items;
-    const db = getDb();
-    const excludedSet = new Set(excludeMessageIds);
-    const allSources = db
-      .select({
-        memoryItemId: memoryItemSources.memoryItemId,
-        messageId: memoryItemSources.messageId,
-      })
-      .from(memoryItemSources)
-      .where(
-        inArray(
-          memoryItemSources.memoryItemId,
-          items.map((c) => c.id),
-        ),
-      )
-      .all();
-    const hasNonExcluded = new Set<string>();
-    const hasSources = new Set<string>();
-    for (const s of allSources) {
-      hasSources.add(s.memoryItemId);
-      if (!excludedSet.has(s.messageId)) {
-        hasNonExcluded.add(s.memoryItemId);
-      }
-    }
-    return items.filter(
-      (c) => !hasSources.has(c.id) || hasNonExcluded.has(c.id),
-    );
-  };
-  let directItems: Candidate[];
-  if (excludeMessageIds.length > 0) {
-    const MAX_FETCH = directLimit * 8;
-    // Probe: fetch directLimit items and measure how many survive filtering.
-    const probe = directItemSearch(query, directLimit, scopeIds);
-    const probeFiltered = filterDirectItems(probe);
-    const probeExhausted = probe.length < directLimit;
-    if (probeFiltered.length >= directLimit || probeExhausted) {
-      directItems = probeFiltered.slice(0, directLimit);
-    } else {
-      // Compute exclusion ratio from probe and extrapolate the fetch size
-      // needed to yield directLimit surviving items in a single query.
-      const exclusionRatio =
-        probe.length > 0 ? 1 - probeFiltered.length / probe.length : 0;
-      // Fetch enough to compensate for the observed exclusion rate, with
-      // a 1.5x safety margin to avoid a second round in most cases.
-      const estimatedFetch =
-        exclusionRatio < 1
-          ? Math.ceil((directLimit / (1 - exclusionRatio)) * 1.5)
-          : MAX_FETCH;
-      let fetchSize = Math.min(
-        Math.max(estimatedFetch, directLimit + 24),
-        MAX_FETCH,
-      );
-      let fetched = directItemSearch(query, fetchSize, scopeIds);
-      directItems = filterDirectItems(fetched).slice(0, directLimit);
-      // Retry loop: when the estimate under-fetched (uneven exclusion
-      // distribution), keep increasing fetchSize until quota is met or
-      // the DB is exhausted.
-      while (
-        directItems.length < directLimit &&
-        fetched.length === fetchSize &&
-        fetchSize < MAX_FETCH
-      ) {
-        fetchSize = Math.min(fetchSize * 2, MAX_FETCH);
-        fetched = directItemSearch(query, fetchSize, scopeIds);
-        directItems = filterDirectItems(fetched).slice(0, directLimit);
-      }
-    }
-  } else {
-    directItems = directItemSearch(query, directLimit, scopeIds);
-  }
-  // -- Early termination check --
-  // If cheap sources already produced enough high-relevance candidates,
-  // skip semantic and entity search entirely.
-  //
-  // Deduplicate before counting: lexical and recency can return the same
-  // segment (common when recent messages match the query), so checking raw
-  // counts would inflate the total and trigger early termination prematurely.
-  const etConfig = config.memory.retrieval.earlyTermination;
-  const cheapCandidateMap = new Map<string, Candidate>();
-  for (const c of [...lexical, ...recency, ...directItems]) {
-    const existing = cheapCandidateMap.get(c.key);
-    // Keep the candidate with higher query relevance (lexical score is the
-    // best proxy we have at this stage; confidence reflects extraction
-    // certainty, not query-match strength).
-    if (!existing || c.lexical > existing.lexical) {
-      cheapCandidateMap.set(c.key, c);
-    }
-  }
-  const cheapCandidates = [...cheapCandidateMap.values()];
-  // Gate on relevance instead of confidence: for direct item candidates,
-  // c.confidence reflects extraction certainty (memory_items.confidence),
-  // not query-match relevance. Common tokens can produce many high-confidence
-  // but weakly relevant items that would skip semantic search exactly when
-  // it's needed most. Instead, check lexical score (query-match relevance).
-  //
-  // Disable early termination when semantic search is unavailable: boosted
-  // limits inflate cheap candidate counts, making this gate trigger more
-  // easily. Skipping entity retrieval on top of losing semantic search
-  // would reduce recall quality further.
-  const canTerminateEarly =
-    etConfig.enabled &&
-    !semanticUnavailable &&
-    cheapCandidates.length >= etConfig.minCandidates &&
-    cheapCandidates.filter((c) => c.lexical >= etConfig.confidenceThreshold)
-      .length >= etConfig.minHighConfidence;
-  // -- Phase 2: entity search + await semantic (skipped on early termination) --
-  let semantic: Candidate[] = [];
-  let entity: Candidate[] = [];
-  let candidateDepths: Map<string, number> | undefined;
-  let relationSeedEntityCount = 0;
-  let relationTraversedEdgeCount = 0;
-  let relationNeighborEntityCount = 0;
-  let relationExpandedItemCount = 0;
-  if (!canTerminateEarly) {
-    // Start semantic search now that we know early termination won't apply.
-    // The network round-trip overlaps with entity search below.
-    const semanticPromise = queryVector
-      ? semanticSearch(
-          queryVector,
-          opts?.provider ?? "unknown",
-          opts?.model ?? "unknown",
-          config.memory.retrieval.semanticTopK,
-          excludeMessageIds,
-          scopeIds,
-        ).catch((err): Candidate[] => {
-          semanticSearchFailed = true;
-          semanticSearchError = err;
-          if (isQdrantConnectionError(err)) {
-            log.warn(
-              { err },
-              "Qdrant is unavailable — semantic search disabled, memory recall will be degraded",
-            );
-          } else {
-            log.warn(
-              { err },
-              "Semantic search failed, continuing with other retrieval methods",
-            );
-          }
-          return [];
-        })
-      : null;
-    // Entity search is synchronous — run it while the semantic promise
-    // is in flight.
-    if (config.memory.entity.enabled) {
-      const entitySearchResult = entitySearch(
-        query,
-        config.memory.entity,
-        scopeIds,
-        excludeMessageIds,
-      );
-      entity = entitySearchResult.candidates;
-      candidateDepths = entitySearchResult.candidateDepths;
-      relationSeedEntityCount = entitySearchResult.relationSeedEntityCount;
-      relationTraversedEdgeCount =
-        entitySearchResult.relationTraversedEdgeCount;
-      relationNeighborEntityCount =
-        entitySearchResult.relationNeighborEntityCount;
-      relationExpandedItemCount = entitySearchResult.relationExpandedItemCount;
-    }
-    if (semanticPromise) {
-      semantic = await semanticPromise;
-    }
-  }
-  if (canTerminateEarly) {
-    log.debug(
-      {
-        cheapCandidateCount: cheapCandidates.length,
-        highRelevanceCount: cheapCandidates.filter(
-          (c) => c.lexical >= etConfig.confidenceThreshold,
-        ).length,
-      },
-      "Early termination: skipping semantic and entity search — sufficient high-relevance candidates from cheap sources",
-    );
-  }
-  const relationScoreMultiplier =
-    config.memory.entity.enabled &&
-    config.memory.entity.relationRetrieval.enabled
-      ? config.memory.entity.relationRetrieval.neighborScoreMultiplier
-      : undefined;
-  const depthMap =
-    config.memory.entity.enabled &&
-    config.memory.entity.relationRetrieval.depthDecay
-      ? candidateDepths
-      : undefined;
-  const merged = mergeCandidates(
-    lexical,
-    semantic,
-    recency,
-    [...entity, ...directItems],
-    config.memory.retrieval.freshness,
-    relationScoreMultiplier,
-    depthMap,
-  );
-  return {
-    lexical,
-    recency,
-    semantic,
-    entity,
-    relationSeedEntityCount,
-    relationTraversedEdgeCount,
-    relationNeighborEntityCount,
-    relationExpandedItemCount,
-    earlyTerminated: canTerminateEarly,
-    semanticSearchFailed,
-    semanticUnavailable,
-    semanticSearchError,
-    merged,
-  };
-}
 /**
  * Build a structured degradation status describing which retrieval
  * capabilities are unavailable and what fallback sources remain.
  */
 function buildDegradationStatus(
   reason: DegradationReason,
-  config: AssistantConfig,
+  _config: AssistantConfig,
 ): DegradationStatus {
-  const fallbackSources: FallbackSource[] = [
-    "lexical",
-    "recency",
-    "direct_item",
-  ];
-  if (config.memory.entity.enabled) {
-    fallbackSources.push("entity");
-  }
   return {
     semanticUnavailable: true,
     reason,
-    fallbackSources,
+    fallbackSources: ["recency"],
   };
 }
@@ -576,86 +234,184 @@ async function generateQueryEmbedding(
   return { queryVector, provider, model, degraded, degradation, reason };
 }
-/** Result of the re-ranking stage. */
-interface RerankResult {
-  merged: Candidate[];
-  rerankApplied: boolean;
-}
 /**
- * Apply source caps and optionally LLM re-rank the merged candidates.
- * Returns `null` when the caller should return an early-exit `emptyResult`
- * (abort during re-ranking).
+ * Memory recall pipeline: hybrid search → tier classification →
+ * staleness annotation → two-layer XML injection.
+ *
+ * Pipeline steps:
+ *   1. Build query text (caller provides via buildMemoryQuery)
+ *   2. Generate dense + sparse embeddings
+ *   3. Hybrid search on Qdrant (dense + sparse RRF fusion)
+ *   4. Supplement with recency search (conversation-scoped, DB only)
+ *   5. Merge + deduplicate results
+ *   6. Classify tiers (score > 0.8 → tier 1, > 0.6 → tier 2)
+ *   7. Enrich item candidates with metadata for staleness
+ *   8. Compute staleness per item
+ *   9. Demote very_stale tier 1 → tier 2
+ *  10. Build two-layer XML injection with budget allocation
  */
-async function rerankMergedCandidates(
+export async function buildMemoryRecall(
   query: string,
-  candidates: Candidate[],
+  conversationId: string,
   config: AssistantConfig,
-  signal: AbortSignal | undefined,
-  start: number,
-  provider: string | undefined,
-  model: string | undefined,
-): Promise<RerankResult | { earlyExit: MemoryRecallResult }> {
-  let merged = applySourceCaps(candidates, config);
-  let rerankApplied = false;
-  const rerankingConfig = config.memory.retrieval.reranking;
-  if (rerankingConfig.enabled && merged.length >= 5) {
-    const rerankStart = Date.now();
-    const topCandidates = merged.slice(0, rerankingConfig.topK);
+  options?: MemoryRecallOptions,
+): Promise<MemoryRecallResult> {
+  const start = Date.now();
+  const excludeMessageIds =
+    options?.excludeMessageIds?.filter((id) => id.length > 0) ?? [];
+  const signal = options?.signal;
+  if (!config.memory.enabled) {
+    return emptyResult({
+      enabled: false,
+      degraded: false,
+      reason: "memory.disabled",
+      latencyMs: Date.now() - start,
+    });
+  }
+  if (signal?.aborted) {
+    return emptyResult({
+      enabled: true,
+      degraded: false,
+      reason: "memory.aborted",
+      latencyMs: Date.now() - start,
+    });
+  }
+  // ── Step 1+2: Generate dense and sparse embeddings ──────────────
+  const embeddingResult = await generateQueryEmbedding(
+    query,
+    config,
+    signal,
+    start,
+  );
+  if ("earlyExit" in embeddingResult) return embeddingResult.earlyExit;
+  const { queryVector, provider, model } = embeddingResult;
+  // Generate sparse embedding for the query text (TF-IDF based)
+  const sparseVector = generateSparseEmbedding(query);
+  const sparseVectorAvailable = sparseVector.indices.length > 0;
+  // ── Step 3: Hybrid search on Qdrant ─────────────────────────────
+  const scopePolicy = config.memory.retrieval.scopePolicy;
+  const scopeIds = buildScopeFilter(
+    options?.scopeId,
+    scopePolicy,
+    options?.scopePolicyOverride,
+  );
+  const HYBRID_LIMIT = 20;
+  let hybridCandidates: Candidate[] = [];
+  let semanticSearchFailed = false;
+  let sparseVectorUsed = false;
+  const hybridSearchStart = Date.now();
+  const qdrantBreakerOpen = isQdrantBreakerOpen();
+  if (queryVector && !qdrantBreakerOpen) {
     try {
-      const reranked = await rerankWithLLM(
-        query,
-        topCandidates,
-        rerankingConfig,
-      );
-      merged = [...reranked, ...merged.slice(rerankingConfig.topK)];
-      rerankApplied = true;
-      log.debug(
-        {
-          rerankLatencyMs: Date.now() - rerankStart,
-          rerankedCount: reranked.length,
-        },
-        "LLM re-ranking completed",
+      hybridCandidates = await semanticSearch(
+        queryVector,
+        provider ?? "unknown",
+        model ?? "unknown",
+        HYBRID_LIMIT,
+        excludeMessageIds,
+        scopeIds,
+        sparseVectorAvailable ? sparseVector : undefined,
       );
+      sparseVectorUsed = sparseVectorAvailable;
     } catch (err) {
-      if (signal?.aborted || isAbortError(err)) {
-        return {
-          earlyExit: emptyResult({
-            enabled: true,
-            degraded: false,
-            reason: "memory.aborted",
-            provider,
-            model,
-            latencyMs: Date.now() - start,
-          }),
-        };
+      semanticSearchFailed = true;
+      if (isQdrantConnectionError(err)) {
+        log.warn({ err }, "Qdrant unavailable — hybrid search disabled");
+      } else {
+        log.warn({ err }, "Hybrid search failed, continuing with recency only");
       }
-      log.warn(
-        { err, rerankLatencyMs: Date.now() - rerankStart },
-        "LLM re-ranking failed, using RRF order",
-      );
     }
   }
+  const hybridSearchMs = Date.now() - hybridSearchStart;
-  return { merged, rerankApplied };
-}
+  // ── Step 4: Recency supplement (DB only, conversation-scoped) ───
+  const recencyLimit = 5;
+  const recencyCandidates = conversationId
+    ? recencySearch(conversationId, recencyLimit, excludeMessageIds, scopeIds)
+    : [];
-/**
- * Trim candidates to the token budget, format for injection, and assemble
- * the final `MemoryRecallResult`.
- */
-function formatRecallResult(
-  query: string,
-  collected: CollectedCandidates,
-  merged: Candidate[],
-  rerankApplied: boolean,
-  config: AssistantConfig,
-  options: MemoryRecallOptions | undefined,
-  embedding: EmbeddingResult,
-  start: number,
-): MemoryRecallResult {
-  const mergedCount = merged.length;
+  // ── Step 5: Merge and deduplicate ──────────────────────────────
+  const candidateMap = new Map<string, Candidate>();
+  for (const c of [...hybridCandidates, ...recencyCandidates]) {
+    const existing = candidateMap.get(c.key);
+    if (!existing) {
+      candidateMap.set(c.key, { ...c });
+      continue;
+    }
+    // Keep highest scores from each source
+    existing.semantic = Math.max(existing.semantic, c.semantic);
+    existing.recency = Math.max(existing.recency, c.recency);
+    existing.confidence = Math.max(existing.confidence, c.confidence);
+    existing.importance = Math.max(existing.importance, c.importance);
+    if (c.text.length > existing.text.length) {
+      existing.text = c.text;
+    }
+  }
+  // Compute RRF-style final scores for the merged candidates
+  const allCandidates = [...candidateMap.values()];
+  for (const c of allCandidates) {
+    // Simple weighted combination — hybrid search already applies RRF fusion
+    // at the Qdrant level; here we combine the fused semantic score with recency.
+    c.finalScore = c.semantic * 0.7 + c.recency * 0.2 + c.confidence * 0.1;
+  }
+  allCandidates.sort((a, b) => b.finalScore - a.finalScore);
+  // ── Step 6: Tier classification ─────────────────────────────────
+  // Recency-only candidates (semantic=0) can never reach the tier 2 threshold
+  // (>0.6) since their max finalScore is 0.3. Promote them directly to tier 2
+  // so recent conversation context is preserved even without semantic signal.
+  const recencyOnlyKeys = new Set(
+    allCandidates
+      .filter((c) => c.semantic === 0 && c.recency > 0)
+      .map((c) => c.key),
+  );
+  const tiered = classifyTiers(allCandidates);
+  if (recencyOnlyKeys.size > 0) {
+    const alreadyTiered = new Set(tiered.map((c) => c.key));
+    for (const c of allCandidates) {
+      if (recencyOnlyKeys.has(c.key) && !alreadyTiered.has(c.key)) {
+        tiered.push({ ...c, tier: 2 });
+      }
+    }
+  }
+  // ── Step 6b: Enrich candidates with source labels ──────────────
+  enrichSourceLabels(tiered);
+  // ── Step 7: Enrich with item metadata for staleness ─────────────
+  const itemIds = tiered.filter((c) => c.type === "item").map((c) => c.id);
+  const itemMetadataMap = enrichItemMetadata(itemIds);
+  // ── Step 8: Compute staleness per item ──────────────────────────
+  const now = Date.now();
+  for (const c of tiered) {
+    if (c.type !== "item") continue;
+    const meta = itemMetadataMap.get(c.id);
+    if (!meta) continue;
+    const { level } = computeStaleness(
+      {
+        kind: c.kind,
+        firstSeenAt: meta.firstSeenAt,
+        sourceConversationCount: meta.sourceConversationCount,
+      },
+      now,
+    );
+    c.staleness = level;
+  }
+  // ── Step 9: Demote very_stale tier 1 → tier 2 ──────────────────
+  const afterDemotion = applyStaleDemotion(tiered);
+  // ── Step 10: Budget allocation and two-layer injection ──────────
   const maxInjectTokens = Math.max(
     1,
     Math.floor(
@@ -664,241 +420,265 @@ function formatRecallResult(
     ),
   );
-  const formatted = formatRecallText(merged, {
-    format: config.memory.retrieval.injectionFormat,
-    maxTokens: maxInjectTokens,
+  // Split into sections for two-layer injection
+  const identityItems = afterDemotion.filter(
+    (c) => c.tier === 1 && IDENTITY_KINDS.has(c.kind),
+  );
+  const preferences = afterDemotion.filter(
+    (c) => c.tier === 1 && PREFERENCE_KINDS.has(c.kind),
+  );
+  const tier1Candidates = afterDemotion.filter(
+    (c) =>
+      c.tier === 1 &&
+      !IDENTITY_KINDS.has(c.kind) &&
+      !PREFERENCE_KINDS.has(c.kind),
+  );
+  const tier2Candidates = afterDemotion.filter((c) => c.tier === 2);
+  const injectedText = buildTwoLayerInjection({
+    identityItems,
+    tier1Candidates,
+    tier2Candidates,
+    preferences,
+    totalBudgetTokens: maxInjectTokens,
   });
-  const { selected } = formatted;
-  const injectedText = formatted.text;
-  const topCandidates: MemoryRecallCandiateDebug[] = selected
+  // ── Assemble result ─────────────────────────────────────────────
+  const selectedCount =
+    identityItems.length +
+    tier1Candidates.length +
+    tier2Candidates.length +
+    preferences.length;
+  const tier1Count = afterDemotion.filter((c) => c.tier === 1).length;
+  const tier2Count = afterDemotion.filter((c) => c.tier === 2).length;
+  const stalenessStats = {
+    fresh: afterDemotion.filter((c) => c.staleness === "fresh").length,
+    aging: afterDemotion.filter((c) => c.staleness === "aging").length,
+    stale: afterDemotion.filter((c) => c.staleness === "stale").length,
+    very_stale: afterDemotion.filter((c) => c.staleness === "very_stale")
+      .length,
+  };
+  const topCandidates: MemoryRecallCandiateDebug[] = afterDemotion
     .slice(0, 10)
     .map((c) => ({
       key: c.key,
       type: c.type,
       kind: c.kind,
       finalScore: c.finalScore,
-      lexical: c.lexical,
       semantic: c.semantic,
       recency: c.recency,
     }));
   const latencyMs = Date.now() - start;
+  // Propagate degradation from semantic search failure or breaker-open skip
+  if (
+    semanticSearchFailed ||
+    qdrantBreakerOpen ||
+    (!queryVector && config.memory.embeddings.required)
+  ) {
+    embeddingResult.degraded = true;
+    embeddingResult.reason =
+      embeddingResult.reason ??
+      (qdrantBreakerOpen
+        ? "memory.qdrant_breaker_open"
+        : "memory.hybrid_search_failure");
+  }
   log.debug(
     {
       query: truncate(query, 120),
-      lexicalHits: collected.lexical.length,
-      semanticHits: collected.semantic.length,
-      recencyHits: collected.recency.length,
-      entityHits: collected.entity.length,
-      relationSeedEntityCount: collected.relationSeedEntityCount,
-      relationTraversedEdgeCount: collected.relationTraversedEdgeCount,
-      relationNeighborEntityCount: collected.relationNeighborEntityCount,
-      relationExpandedItemCount: collected.relationExpandedItemCount,
-      earlyTerminated: collected.earlyTerminated,
-      mergedCount,
-      selected: selected.length,
+      hybridHits: hybridCandidates.length,
+      recencyHits: recencyCandidates.length,
+      mergedCount: allCandidates.length,
+      tier1Count,
+      tier2Count,
+      stalenessStats,
+      selectedCount,
       maxInjectTokens,
-      rerankApplied,
       injectedTokens: estimateTextTokens(injectedText),
       latencyMs,
     },
     "Memory recall completed",
   );
-  return {
+  const result: MemoryRecallResult = {
     enabled: true,
-    degraded: embedding.degraded,
-    degradation: embedding.degradation,
-    reason: embedding.reason,
-    provider: embedding.provider,
-    model: embedding.model,
-    lexicalHits: collected.lexical.length,
-    semanticHits: collected.semantic.length,
-    recencyHits: collected.recency.length,
-    entityHits: collected.entity.length,
-    relationSeedEntityCount: collected.relationSeedEntityCount,
-    relationTraversedEdgeCount: collected.relationTraversedEdgeCount,
-    relationNeighborEntityCount: collected.relationNeighborEntityCount,
-    relationExpandedItemCount: collected.relationExpandedItemCount,
-    earlyTerminated: collected.earlyTerminated,
-    mergedCount,
-    selectedCount: selected.length,
-    rerankApplied,
+    degraded: embeddingResult.degraded,
+    degradation: embeddingResult.degradation,
+    reason: embeddingResult.reason,
+    provider: embeddingResult.provider,
+    model: embeddingResult.model,
+    semanticHits: hybridCandidates.length,
+    recencyHits: recencyCandidates.length,
+    mergedCount: allCandidates.length,
+    selectedCount,
     injectedTokens: estimateTextTokens(injectedText),
     injectedText,
     latencyMs,
     topCandidates,
+    tier1Count,
+    tier2Count,
+    hybridSearchMs,
+    sparseVectorUsed,
   };
+  return result;
 }
-export async function buildMemoryRecall(
-  query: string,
-  conversationId: string,
-  config: AssistantConfig,
-  options?: MemoryRecallOptions,
-): Promise<MemoryRecallResult> {
-  const start = Date.now();
-  const versionSnapshot = getMemoryVersion();
-  const excludeMessageIds =
-    options?.excludeMessageIds?.filter((id) => id.length > 0) ?? [];
-  const signal = options?.signal;
-  if (!config.memory.enabled) {
-    return emptyResult({
-      enabled: false,
-      degraded: false,
-      reason: "memory.disabled",
-      latencyMs: Date.now() - start,
-    });
-  }
-  if (signal?.aborted) {
-    return emptyResult({
-      enabled: true,
-      degraded: false,
-      reason: "memory.aborted",
-      latencyMs: Date.now() - start,
-    });
-  }
+/**
+ * Enrich item candidates with metadata needed for staleness computation:
+ * - firstSeenAt: when the item was first extracted
+ * - sourceConversationCount: number of distinct conversations that sourced this item
+ */
+function enrichItemMetadata(
+  itemIds: string[],
+): Map<
+  string,
+  { firstSeenAt: number; sourceConversationCount: number; kind: string }
+> {
+  const result = new Map<
+    string,
+    { firstSeenAt: number; sourceConversationCount: number; kind: string }
+  >();
+  if (itemIds.length === 0) return result;
-  // Check recall cache
-  const configFingerprint = buildConfigFingerprint(config);
-  const cached = getCachedRecall(
-    query,
-    conversationId,
-    options,
-    configFingerprint,
-  );
-  if (cached) {
-    log.debug(
-      { query: truncate(query, 120), latencyMs: Date.now() - start },
-      "Memory recall served from cache",
-    );
-    return { ...cached, latencyMs: Date.now() - start };
-  }
+  try {
+    const db = getDb();
-  // Stage 1: Embedding generation
-  const embeddingResult = await generateQueryEmbedding(
-    query,
-    config,
-    signal,
-    start,
-  );
-  if ("earlyExit" in embeddingResult) return embeddingResult.earlyExit;
+    // Fetch firstSeenAt and kind from memory_items
+    const items = db
+      .select({
+        id: memoryItems.id,
+        firstSeenAt: memoryItems.firstSeenAt,
+        kind: memoryItems.kind,
+      })
+      .from(memoryItems)
+      .where(inArray(memoryItems.id, itemIds))
+      .all();
-  // Stage 2: Candidate collection (lexical, recency, direct, semantic, entity)
-  let collected: CollectedCandidates;
-  try {
-    collected = await collectAndMergeCandidates(query, config, {
-      queryVector: embeddingResult.queryVector,
-      provider: embeddingResult.provider,
-      model: embeddingResult.model,
-      conversationId,
-      excludeMessageIds,
-      scopeId: options?.scopeId,
-      scopePolicyOverride: options?.scopePolicyOverride,
-    });
-  } catch (err) {
-    if (signal?.aborted || isAbortError(err)) {
-      return emptyResult({
-        enabled: true,
-        degraded: false,
-        reason: "memory.aborted",
-        provider: embeddingResult.provider,
-        model: embeddingResult.model,
-        latencyMs: Date.now() - start,
+    for (const item of items) {
+      result.set(item.id, {
+        firstSeenAt: item.firstSeenAt,
+        kind: item.kind,
+        sourceConversationCount: 1, // default, updated below
       });
     }
+    // Compute sourceConversationCount: count distinct conversation IDs
+    // across the memory_item_sources → messages join.
+    const sourceCountRows = db
+      .select({
+        memoryItemId: memoryItemSources.memoryItemId,
+        conversationCount:
+          sql<number>`COUNT(DISTINCT ${messages.conversationId})`.as(
+            "conversation_count",
+          ),
+      })
+      .from(memoryItemSources)
+      .innerJoin(messages, sql`${memoryItemSources.messageId} = ${messages.id}`)
+      .where(inArray(memoryItemSources.memoryItemId, itemIds))
+      .groupBy(memoryItemSources.memoryItemId)
+      .all();
+    for (const row of sourceCountRows) {
+      const existing = result.get(row.memoryItemId);
+      if (existing) {
+        existing.sourceConversationCount = row.conversationCount;
+      }
+    }
+  } catch (err) {
     log.warn(
       { err },
-      "Memory retrieval failed, returning degraded empty recall",
+      "Failed to enrich item metadata for staleness computation",
     );
-    return emptyResult({
-      enabled: true,
-      degraded: true,
-      reason: `memory.retrieval_failure: ${
-        err instanceof Error ? err.message : String(err)
-      }`,
-      provider: embeddingResult.provider,
-      model: embeddingResult.model,
-      latencyMs: Date.now() - start,
-    });
   }
-  // Propagate semantic search failure or breaker-based unavailability into
-  // degradation state. This ensures results computed with boosted limits
-  // are marked degraded and excluded from the recall cache — preventing
-  // stale boosted results from being served after the breaker closes.
-  //
-  // Exception: when semanticUnavailable is solely because no embedding
-  // provider is configured (queryVector == null) and embeddings are not
-  // required, lexical-only results are the expected steady state — do not
-  // mark as degraded.
-  const semanticActuallyFailed =
-    collected.semanticSearchFailed ||
-    (collected.semanticUnavailable &&
-      (embeddingResult.queryVector != null ||
-        config.memory.embeddings.required));
-  if (semanticActuallyFailed) {
-    embeddingResult.degraded = true;
-    embeddingResult.reason =
-      embeddingResult.reason ??
-      (collected.semanticUnavailable
-        ? embeddingResult.queryVector != null
-          ? "memory.qdrant_circuit_open"
-          : "memory.embedding_unavailable"
-        : "memory.semantic_search_failure");
-    if (!embeddingResult.degradation) {
-      const isQdrantIssue =
-        embeddingResult.queryVector != null ||
-        isQdrantConnectionError(collected.semanticSearchError) ||
-        collected.semanticSearchError instanceof QdrantCircuitOpenError;
-      const reason: DegradationReason = isQdrantIssue
-        ? "qdrant_unavailable"
-        : "embedding_generation_failed";
-      embeddingResult.degradation = buildDegradationStatus(reason, config);
-    }
-  }
+  return result;
+}
-  // Stage 3: Source caps + LLM re-ranking
-  const rerankResult = await rerankMergedCandidates(
-    query,
-    collected.merged,
-    config,
-    signal,
-    start,
-    embeddingResult.provider,
-    embeddingResult.model,
-  );
-  if ("earlyExit" in rerankResult) return rerankResult.earlyExit;
+/**
+ * Enrich tiered candidates with source labels (conversation titles).
+ *
+ * For "item" candidates: joins through memoryItemSources → messages → conversations
+ * to find the most recent conversation title associated with the item.
+ * For "segment" / "summary" candidates: looks up the conversation title directly
+ * via the candidate's key (which contains the conversationId for segments).
+ *
+ * Mutates the candidates in-place for efficiency.
+ */
+function enrichSourceLabels(candidates: TieredCandidate[]): void {
+  if (candidates.length === 0) return;
-  // Stage 4: Token budget trimming and result formatting
-  const result = formatRecallResult(
-    query,
-    collected,
-    rerankResult.merged,
-    rerankResult.rerankApplied,
-    config,
-    options,
-    embeddingResult,
-    start,
-  );
+  try {
+    const db = getDb();
-  // Only cache non-degraded results — degraded results (e.g. lexical-only
-  // fallback when embeddings fail) would delay quality recovery once the
-  // embedding backend comes back.
-  if (!result.degraded) {
-    setCachedRecall(
-      query,
-      conversationId,
-      options,
-      result,
-      versionSnapshot,
-      configFingerprint,
-    );
+    // Collect item IDs for items that need source label lookup
+    const itemCandidates = candidates.filter((c) => c.type === "item");
+    const itemIds = itemCandidates.map((c) => c.id);
+    if (itemIds.length > 0) {
+      // For items: find conversation titles via memoryItemSources → messages → conversations.
+      // Pick the most recent conversation title per item.
+      const rows = db
+        .select({
+          memoryItemId: memoryItemSources.memoryItemId,
+          title: conversations.title,
+          conversationUpdatedAt: conversations.updatedAt,
+        })
+        .from(memoryItemSources)
+        .innerJoin(
+          messages,
+          sql`${memoryItemSources.messageId} = ${messages.id}`,
+        )
+        .innerJoin(
+          conversations,
+          sql`${messages.conversationId} = ${conversations.id}`,
+        )
+        .where(inArray(memoryItemSources.memoryItemId, itemIds))
+        .all();
+      // Group by item ID and pick the most recently updated conversation title
+      const titleMap = new Map<string, string>();
+      const updatedAtMap = new Map<string, number>();
+      for (const row of rows) {
+        if (!row.title) continue;
+        const existing = updatedAtMap.get(row.memoryItemId);
+        if (existing === undefined || row.conversationUpdatedAt > existing) {
+          titleMap.set(row.memoryItemId, row.title);
+          updatedAtMap.set(row.memoryItemId, row.conversationUpdatedAt);
+        }
+      }
+      for (const c of itemCandidates) {
+        const title = titleMap.get(c.id);
+        if (title) {
+          c.sourceLabel = title;
+        }
+      }
+    }
+    // For segment candidates: the key format is "seg:<segmentId>" and the id is the segment's id.
+    // We can look up the conversation title via the segment's conversationId in memory_segments.
+    // However, segments already reference a conversationId in the schema — but the Candidate type
+    // doesn't carry it. For now, skip segment source labels as the join path would require
+    // importing memorySegments and an additional query. The primary value is item source labels.
+  } catch (err) {
+    log.warn({ err }, "Failed to enrich candidates with source labels");
   }
-  return result;
 }
+/**
+ * Strip memory recall messages from the conversation history.
+ *
+ * Handles both exact text matching and `<memory_context>` XML wrapper
+ * detection: when the recall text starts with `<memory_context>`, we
+ * also match user messages whose sole text block starts with the same
+ * tag (covering cases where the exact text differs slightly due to
+ * dynamic content).
+ */
 export function stripMemoryRecallMessages<
   T extends {
     role: "user" | "assistant";
@@ -918,6 +698,25 @@ export function stripMemoryRecallMessages<
     msg.content[0].type === "text" &&
     msg.content[0].text === MEMORY_CONTEXT_ACK;
+  // Check if the recall text uses the <memory_context> XML format
+  const isMemoryContextFormat = recallText
+    .trimStart()
+    .startsWith("<memory_context>");
+  // Helper: does a text block match the recall text?
+  const textMatches = (text: string | undefined): boolean => {
+    if (!text) return false;
+    if (text === recallText) return true;
+    // For <memory_context> format, match any block that starts with the tag
+    if (
+      isMemoryContextFormat &&
+      text.trimStart().startsWith("<memory_context>")
+    ) {
+      return true;
+    }
+    return false;
+  };
   // Prefer the canonical separate_context_message pair: a user message whose
   // sole text block is the recall text, followed by an assistant ack. This
   // must be checked first so that a real user message that happens to contain
@@ -928,7 +727,7 @@ export function stripMemoryRecallMessages<
       if (msg.role !== "user") continue;
       if (msg.content.length !== 1) continue;
       const block = msg.content[0];
-      if (block.type !== "text" || block.text !== recallText) continue;
+      if (block.type !== "text" || !textMatches(block.text)) continue;
       const next = messages[i + 1];
       if (next && isAck(next)) {
         return [...messages.slice(0, i), ...messages.slice(i + 2)];
@@ -937,7 +736,7 @@ export function stripMemoryRecallMessages<
   }
   // Fall back to generic text-match removal: find the last user message
-  // containing the recall text block (prepend_user_block or repair-merged).
+  // containing the recall text block.
   let targetIndex = -1;
   let blockIndex = -1;
   for (let i = messages.length - 1; i >= 0; i--) {
@@ -945,7 +744,7 @@ export function stripMemoryRecallMessages<
     if (msg.role !== "user" || msg.content.length === 0) continue;
     for (let bi = msg.content.length - 1; bi >= 0; bi--) {
       const block = msg.content[bi];
-      if (block.type === "text" && block.text === recallText) {
+      if (block.type === "text" && textMatches(block.text)) {
         targetIndex = i;
         blockIndex = bi;
         break;
@@ -983,21 +782,6 @@ export function stripMemoryRecallMessages<
   return cleaned;
 }
-export function injectMemoryRecallIntoUserMessage<
-  T extends {
-    role: "user" | "assistant";
-    content: Array<{ type: string; text?: string }>;
-  },
->(message: T, memoryRecallText: string): T {
-  if (message.role !== "user") return message;
-  if (memoryRecallText.trim().length === 0) return message;
-  const memoryBlock = { type: "text", text: memoryRecallText } as const;
-  return {
-    ...message,
-    content: [memoryBlock, ...message.content] as T["content"],
-  } as T;
-}
 /**
  * Inject memory recall as a separate user+assistant message pair before the
  * last user message. This separates memory context from the user's actual
@@ -1049,18 +833,10 @@ function emptyResult(
     reason: init.reason,
     provider: init.provider,
     model: init.model,
-    lexicalHits: 0,
     semanticHits: 0,
     recencyHits: 0,
-    entityHits: 0,
-    relationSeedEntityCount: 0,
-    relationTraversedEdgeCount: 0,
-    relationNeighborEntityCount: 0,
-    relationExpandedItemCount: 0,
-    earlyTerminated: false,
     mergedCount: 0,
     selectedCount: 0,
-    rerankApplied: false,
     injectedTokens: 0,
     injectedText: "",
     latencyMs: init.latencyMs,