PyPI - MemoryOS - Versions diffs - 2.0.3__py3-none-any.whl - Mend

MemoryOS 2.0.3__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (315) hide show

memoryos-2.0.3.dist-info/METADATA +418 -0
memoryos-2.0.3.dist-info/RECORD +315 -0
memoryos-2.0.3.dist-info/WHEEL +4 -0
memoryos-2.0.3.dist-info/entry_points.txt +3 -0
memoryos-2.0.3.dist-info/licenses/LICENSE +201 -0
memos/__init__.py +20 -0
memos/api/client.py +571 -0
memos/api/config.py +1018 -0
memos/api/context/dependencies.py +50 -0
memos/api/exceptions.py +53 -0
memos/api/handlers/__init__.py +62 -0
memos/api/handlers/add_handler.py +158 -0
memos/api/handlers/base_handler.py +194 -0
memos/api/handlers/chat_handler.py +1401 -0
memos/api/handlers/component_init.py +388 -0
memos/api/handlers/config_builders.py +190 -0
memos/api/handlers/feedback_handler.py +93 -0
memos/api/handlers/formatters_handler.py +237 -0
memos/api/handlers/memory_handler.py +316 -0
memos/api/handlers/scheduler_handler.py +497 -0
memos/api/handlers/search_handler.py +222 -0
memos/api/handlers/suggestion_handler.py +117 -0
memos/api/mcp_serve.py +614 -0
memos/api/middleware/request_context.py +101 -0
memos/api/product_api.py +38 -0
memos/api/product_models.py +1206 -0
memos/api/routers/__init__.py +1 -0
memos/api/routers/product_router.py +477 -0
memos/api/routers/server_router.py +394 -0
memos/api/server_api.py +44 -0
memos/api/start_api.py +433 -0
memos/chunkers/__init__.py +4 -0
memos/chunkers/base.py +24 -0
memos/chunkers/charactertext_chunker.py +41 -0
memos/chunkers/factory.py +24 -0
memos/chunkers/markdown_chunker.py +62 -0
memos/chunkers/sentence_chunker.py +54 -0
memos/chunkers/simple_chunker.py +50 -0
memos/cli.py +113 -0
memos/configs/__init__.py +0 -0
memos/configs/base.py +82 -0
memos/configs/chunker.py +59 -0
memos/configs/embedder.py +88 -0
memos/configs/graph_db.py +236 -0
memos/configs/internet_retriever.py +100 -0
memos/configs/llm.py +151 -0
memos/configs/mem_agent.py +54 -0
memos/configs/mem_chat.py +81 -0
memos/configs/mem_cube.py +105 -0
memos/configs/mem_os.py +83 -0
memos/configs/mem_reader.py +91 -0
memos/configs/mem_scheduler.py +385 -0
memos/configs/mem_user.py +70 -0
memos/configs/memory.py +324 -0
memos/configs/parser.py +38 -0
memos/configs/reranker.py +18 -0
memos/configs/utils.py +8 -0
memos/configs/vec_db.py +80 -0
memos/context/context.py +355 -0
memos/dependency.py +52 -0
memos/deprecation.py +262 -0
memos/embedders/__init__.py +0 -0
memos/embedders/ark.py +95 -0
memos/embedders/base.py +106 -0
memos/embedders/factory.py +29 -0
memos/embedders/ollama.py +77 -0
memos/embedders/sentence_transformer.py +49 -0
memos/embedders/universal_api.py +51 -0
memos/exceptions.py +30 -0
memos/graph_dbs/__init__.py +0 -0
memos/graph_dbs/base.py +274 -0
memos/graph_dbs/factory.py +27 -0
memos/graph_dbs/item.py +46 -0
memos/graph_dbs/nebular.py +1794 -0
memos/graph_dbs/neo4j.py +1942 -0
memos/graph_dbs/neo4j_community.py +1058 -0
memos/graph_dbs/polardb.py +5446 -0
memos/hello_world.py +97 -0
memos/llms/__init__.py +0 -0
memos/llms/base.py +25 -0
memos/llms/deepseek.py +13 -0
memos/llms/factory.py +38 -0
memos/llms/hf.py +443 -0
memos/llms/hf_singleton.py +114 -0
memos/llms/ollama.py +135 -0
memos/llms/openai.py +222 -0
memos/llms/openai_new.py +198 -0
memos/llms/qwen.py +13 -0
memos/llms/utils.py +14 -0
memos/llms/vllm.py +218 -0
memos/log.py +237 -0
memos/mem_agent/base.py +19 -0
memos/mem_agent/deepsearch_agent.py +391 -0
memos/mem_agent/factory.py +36 -0
memos/mem_chat/__init__.py +0 -0
memos/mem_chat/base.py +30 -0
memos/mem_chat/factory.py +21 -0
memos/mem_chat/simple.py +200 -0
memos/mem_cube/__init__.py +0 -0
memos/mem_cube/base.py +30 -0
memos/mem_cube/general.py +240 -0
memos/mem_cube/navie.py +172 -0
memos/mem_cube/utils.py +169 -0
memos/mem_feedback/base.py +15 -0
memos/mem_feedback/feedback.py +1192 -0
memos/mem_feedback/simple_feedback.py +40 -0
memos/mem_feedback/utils.py +230 -0
memos/mem_os/client.py +5 -0
memos/mem_os/core.py +1203 -0
memos/mem_os/main.py +582 -0
memos/mem_os/product.py +1608 -0
memos/mem_os/product_server.py +455 -0
memos/mem_os/utils/default_config.py +359 -0
memos/mem_os/utils/format_utils.py +1403 -0
memos/mem_os/utils/reference_utils.py +162 -0
memos/mem_reader/__init__.py +0 -0
memos/mem_reader/base.py +47 -0
memos/mem_reader/factory.py +53 -0
memos/mem_reader/memory.py +298 -0
memos/mem_reader/multi_modal_struct.py +965 -0
memos/mem_reader/read_multi_modal/__init__.py +43 -0
memos/mem_reader/read_multi_modal/assistant_parser.py +311 -0
memos/mem_reader/read_multi_modal/base.py +273 -0
memos/mem_reader/read_multi_modal/file_content_parser.py +826 -0
memos/mem_reader/read_multi_modal/image_parser.py +359 -0
memos/mem_reader/read_multi_modal/multi_modal_parser.py +252 -0
memos/mem_reader/read_multi_modal/string_parser.py +139 -0
memos/mem_reader/read_multi_modal/system_parser.py +327 -0
memos/mem_reader/read_multi_modal/text_content_parser.py +131 -0
memos/mem_reader/read_multi_modal/tool_parser.py +210 -0
memos/mem_reader/read_multi_modal/user_parser.py +218 -0
memos/mem_reader/read_multi_modal/utils.py +358 -0
memos/mem_reader/simple_struct.py +912 -0
memos/mem_reader/strategy_struct.py +163 -0
memos/mem_reader/utils.py +157 -0
memos/mem_scheduler/__init__.py +0 -0
memos/mem_scheduler/analyzer/__init__.py +0 -0
memos/mem_scheduler/analyzer/api_analyzer.py +714 -0
memos/mem_scheduler/analyzer/eval_analyzer.py +219 -0
memos/mem_scheduler/analyzer/mos_for_test_scheduler.py +571 -0
memos/mem_scheduler/analyzer/scheduler_for_eval.py +280 -0
memos/mem_scheduler/base_scheduler.py +1319 -0
memos/mem_scheduler/general_modules/__init__.py +0 -0
memos/mem_scheduler/general_modules/api_misc.py +137 -0
memos/mem_scheduler/general_modules/base.py +80 -0
memos/mem_scheduler/general_modules/init_components_for_scheduler.py +425 -0
memos/mem_scheduler/general_modules/misc.py +313 -0
memos/mem_scheduler/general_modules/scheduler_logger.py +389 -0
memos/mem_scheduler/general_modules/task_threads.py +315 -0
memos/mem_scheduler/general_scheduler.py +1495 -0
memos/mem_scheduler/memory_manage_modules/__init__.py +5 -0
memos/mem_scheduler/memory_manage_modules/memory_filter.py +306 -0
memos/mem_scheduler/memory_manage_modules/retriever.py +547 -0
memos/mem_scheduler/monitors/__init__.py +0 -0
memos/mem_scheduler/monitors/dispatcher_monitor.py +366 -0
memos/mem_scheduler/monitors/general_monitor.py +394 -0
memos/mem_scheduler/monitors/task_schedule_monitor.py +254 -0
memos/mem_scheduler/optimized_scheduler.py +410 -0
memos/mem_scheduler/orm_modules/__init__.py +0 -0
memos/mem_scheduler/orm_modules/api_redis_model.py +518 -0
memos/mem_scheduler/orm_modules/base_model.py +729 -0
memos/mem_scheduler/orm_modules/monitor_models.py +261 -0
memos/mem_scheduler/orm_modules/redis_model.py +699 -0
memos/mem_scheduler/scheduler_factory.py +23 -0
memos/mem_scheduler/schemas/__init__.py +0 -0
memos/mem_scheduler/schemas/analyzer_schemas.py +52 -0
memos/mem_scheduler/schemas/api_schemas.py +233 -0
memos/mem_scheduler/schemas/general_schemas.py +55 -0
memos/mem_scheduler/schemas/message_schemas.py +173 -0
memos/mem_scheduler/schemas/monitor_schemas.py +406 -0
memos/mem_scheduler/schemas/task_schemas.py +132 -0
memos/mem_scheduler/task_schedule_modules/__init__.py +0 -0
memos/mem_scheduler/task_schedule_modules/dispatcher.py +740 -0
memos/mem_scheduler/task_schedule_modules/local_queue.py +247 -0
memos/mem_scheduler/task_schedule_modules/orchestrator.py +74 -0
memos/mem_scheduler/task_schedule_modules/redis_queue.py +1385 -0
memos/mem_scheduler/task_schedule_modules/task_queue.py +162 -0
memos/mem_scheduler/utils/__init__.py +0 -0
memos/mem_scheduler/utils/api_utils.py +77 -0
memos/mem_scheduler/utils/config_utils.py +100 -0
memos/mem_scheduler/utils/db_utils.py +50 -0
memos/mem_scheduler/utils/filter_utils.py +176 -0
memos/mem_scheduler/utils/metrics.py +125 -0
memos/mem_scheduler/utils/misc_utils.py +290 -0
memos/mem_scheduler/utils/monitor_event_utils.py +67 -0
memos/mem_scheduler/utils/status_tracker.py +229 -0
memos/mem_scheduler/webservice_modules/__init__.py +0 -0
memos/mem_scheduler/webservice_modules/rabbitmq_service.py +485 -0
memos/mem_scheduler/webservice_modules/redis_service.py +380 -0
memos/mem_user/factory.py +94 -0
memos/mem_user/mysql_persistent_user_manager.py +271 -0
memos/mem_user/mysql_user_manager.py +502 -0
memos/mem_user/persistent_factory.py +98 -0
memos/mem_user/persistent_user_manager.py +260 -0
memos/mem_user/redis_persistent_user_manager.py +225 -0
memos/mem_user/user_manager.py +488 -0
memos/memories/__init__.py +0 -0
memos/memories/activation/__init__.py +0 -0
memos/memories/activation/base.py +42 -0
memos/memories/activation/item.py +56 -0
memos/memories/activation/kv.py +292 -0
memos/memories/activation/vllmkv.py +219 -0
memos/memories/base.py +19 -0
memos/memories/factory.py +42 -0
memos/memories/parametric/__init__.py +0 -0
memos/memories/parametric/base.py +19 -0
memos/memories/parametric/item.py +11 -0
memos/memories/parametric/lora.py +41 -0
memos/memories/textual/__init__.py +0 -0
memos/memories/textual/base.py +92 -0
memos/memories/textual/general.py +236 -0
memos/memories/textual/item.py +304 -0
memos/memories/textual/naive.py +187 -0
memos/memories/textual/prefer_text_memory/__init__.py +0 -0
memos/memories/textual/prefer_text_memory/adder.py +504 -0
memos/memories/textual/prefer_text_memory/config.py +106 -0
memos/memories/textual/prefer_text_memory/extractor.py +221 -0
memos/memories/textual/prefer_text_memory/factory.py +85 -0
memos/memories/textual/prefer_text_memory/retrievers.py +177 -0
memos/memories/textual/prefer_text_memory/spliter.py +132 -0
memos/memories/textual/prefer_text_memory/utils.py +93 -0
memos/memories/textual/preference.py +344 -0
memos/memories/textual/simple_preference.py +161 -0
memos/memories/textual/simple_tree.py +69 -0
memos/memories/textual/tree.py +459 -0
memos/memories/textual/tree_text_memory/__init__.py +0 -0
memos/memories/textual/tree_text_memory/organize/__init__.py +0 -0
memos/memories/textual/tree_text_memory/organize/handler.py +184 -0
memos/memories/textual/tree_text_memory/organize/manager.py +518 -0
memos/memories/textual/tree_text_memory/organize/relation_reason_detector.py +238 -0
memos/memories/textual/tree_text_memory/organize/reorganizer.py +622 -0
memos/memories/textual/tree_text_memory/retrieve/__init__.py +0 -0
memos/memories/textual/tree_text_memory/retrieve/advanced_searcher.py +364 -0
memos/memories/textual/tree_text_memory/retrieve/bm25_util.py +186 -0
memos/memories/textual/tree_text_memory/retrieve/bochasearch.py +419 -0
memos/memories/textual/tree_text_memory/retrieve/internet_retriever.py +270 -0
memos/memories/textual/tree_text_memory/retrieve/internet_retriever_factory.py +102 -0
memos/memories/textual/tree_text_memory/retrieve/reasoner.py +61 -0
memos/memories/textual/tree_text_memory/retrieve/recall.py +497 -0
memos/memories/textual/tree_text_memory/retrieve/reranker.py +111 -0
memos/memories/textual/tree_text_memory/retrieve/retrieval_mid_structs.py +16 -0
memos/memories/textual/tree_text_memory/retrieve/retrieve_utils.py +472 -0
memos/memories/textual/tree_text_memory/retrieve/searcher.py +848 -0
memos/memories/textual/tree_text_memory/retrieve/task_goal_parser.py +135 -0
memos/memories/textual/tree_text_memory/retrieve/utils.py +54 -0
memos/memories/textual/tree_text_memory/retrieve/xinyusearch.py +387 -0
memos/memos_tools/dinding_report_bot.py +453 -0
memos/memos_tools/lockfree_dict.py +120 -0
memos/memos_tools/notification_service.py +44 -0
memos/memos_tools/notification_utils.py +142 -0
memos/memos_tools/singleton.py +174 -0
memos/memos_tools/thread_safe_dict.py +310 -0
memos/memos_tools/thread_safe_dict_segment.py +382 -0
memos/multi_mem_cube/__init__.py +0 -0
memos/multi_mem_cube/composite_cube.py +86 -0
memos/multi_mem_cube/single_cube.py +874 -0
memos/multi_mem_cube/views.py +54 -0
memos/parsers/__init__.py +0 -0
memos/parsers/base.py +15 -0
memos/parsers/factory.py +21 -0
memos/parsers/markitdown.py +28 -0
memos/reranker/__init__.py +4 -0
memos/reranker/base.py +25 -0
memos/reranker/concat.py +103 -0
memos/reranker/cosine_local.py +102 -0
memos/reranker/factory.py +72 -0
memos/reranker/http_bge.py +324 -0
memos/reranker/http_bge_strategy.py +327 -0
memos/reranker/noop.py +19 -0
memos/reranker/strategies/__init__.py +4 -0
memos/reranker/strategies/base.py +61 -0
memos/reranker/strategies/concat_background.py +94 -0
memos/reranker/strategies/concat_docsource.py +110 -0
memos/reranker/strategies/dialogue_common.py +109 -0
memos/reranker/strategies/factory.py +31 -0
memos/reranker/strategies/single_turn.py +107 -0
memos/reranker/strategies/singleturn_outmem.py +98 -0
memos/settings.py +10 -0
memos/templates/__init__.py +0 -0
memos/templates/advanced_search_prompts.py +211 -0
memos/templates/cloud_service_prompt.py +107 -0
memos/templates/instruction_completion.py +66 -0
memos/templates/mem_agent_prompts.py +85 -0
memos/templates/mem_feedback_prompts.py +822 -0
memos/templates/mem_reader_prompts.py +1096 -0
memos/templates/mem_reader_strategy_prompts.py +238 -0
memos/templates/mem_scheduler_prompts.py +626 -0
memos/templates/mem_search_prompts.py +93 -0
memos/templates/mos_prompts.py +403 -0
memos/templates/prefer_complete_prompt.py +735 -0
memos/templates/tool_mem_prompts.py +139 -0
memos/templates/tree_reorganize_prompts.py +230 -0
memos/types/__init__.py +34 -0
memos/types/general_types.py +151 -0
memos/types/openai_chat_completion_types/__init__.py +15 -0
memos/types/openai_chat_completion_types/chat_completion_assistant_message_param.py +56 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_image_param.py +27 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_input_audio_param.py +23 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_param.py +43 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_refusal_param.py +16 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_text_param.py +16 -0
memos/types/openai_chat_completion_types/chat_completion_message_custom_tool_call_param.py +27 -0
memos/types/openai_chat_completion_types/chat_completion_message_function_tool_call_param.py +32 -0
memos/types/openai_chat_completion_types/chat_completion_message_param.py +18 -0
memos/types/openai_chat_completion_types/chat_completion_message_tool_call_union_param.py +15 -0
memos/types/openai_chat_completion_types/chat_completion_system_message_param.py +36 -0
memos/types/openai_chat_completion_types/chat_completion_tool_message_param.py +30 -0
memos/types/openai_chat_completion_types/chat_completion_user_message_param.py +34 -0
memos/utils.py +123 -0
memos/vec_dbs/__init__.py +0 -0
memos/vec_dbs/base.py +117 -0
memos/vec_dbs/factory.py +23 -0
memos/vec_dbs/item.py +50 -0
memos/vec_dbs/milvus.py +654 -0
memos/vec_dbs/qdrant.py +355 -0

memos/api/handlers/chat_handler.py ADDED Viewed

@@ -0,0 +1,1401 @@
+"""
+Chat handler for chat functionality (Class-based version).
+This module provides a complete implementation of chat handlers,
+consolidating all chat-related logic without depending on mos_server.
+"""
+import asyncio
+import json
+import re
+import time
+import traceback
+from collections.abc import Generator
+from datetime import datetime
+from typing import Any, Literal
+from fastapi import HTTPException
+from fastapi.responses import StreamingResponse
+from memos.api.handlers.base_handler import BaseHandler, HandlerDependencies
+from memos.api.product_models import (
+    APIADDRequest,
+    APIChatCompleteRequest,
+    APISearchRequest,
+    ChatPlaygroundRequest,
+    ChatRequest,
+)
+from memos.context.context import ContextThread
+from memos.mem_os.utils.format_utils import clean_json_response
+from memos.mem_os.utils.reference_utils import (
+    prepare_reference_data,
+    process_streaming_references_complete,
+)
+from memos.mem_reader.read_multi_modal.utils import detect_lang
+from memos.mem_scheduler.schemas.message_schemas import ScheduleMessageItem
+from memos.mem_scheduler.schemas.task_schemas import (
+    ANSWER_TASK_LABEL,
+    QUERY_TASK_LABEL,
+)
+from memos.templates.cloud_service_prompt import get_cloud_chat_prompt
+from memos.templates.mos_prompts import (
+    FURTHER_SUGGESTION_PROMPT,
+    get_memos_prompt,
+)
+from memos.types import MessageList
+class ChatHandler(BaseHandler):
+    """
+    Handler for chat operations.
+    Composes SearchHandler and AddHandler to provide complete chat functionality
+    without depending on mos_server. All chat logic is centralized here.
+    """
+    def __init__(
+        self,
+        dependencies: HandlerDependencies,
+        chat_llms: dict[str, Any],
+        search_handler=None,
+        add_handler=None,
+        online_bot=None,
+    ):
+        """
+        Initialize chat handler.
+        Args:
+            dependencies: HandlerDependencies instance
+            chat_llms: Dictionary mapping model names to LLM instances
+            search_handler: Optional SearchHandler instance (created if not provided)
+            add_handler: Optional AddHandler instance (created if not provided)
+            online_bot: Optional DingDing bot function for notifications
+        """
+        super().__init__(dependencies)
+        self._validate_dependencies("llm", "naive_mem_cube", "mem_reader", "mem_scheduler")
+        # Lazy import to avoid circular dependencies
+        if search_handler is None:
+            from memos.api.handlers.search_handler import SearchHandler
+            search_handler = SearchHandler(dependencies)
+        if add_handler is None:
+            from memos.api.handlers.add_handler import AddHandler
+            add_handler = AddHandler(dependencies)
+        self.chat_llms = chat_llms
+        self.search_handler = search_handler
+        self.add_handler = add_handler
+        self.online_bot = online_bot
+        # Check if scheduler is enabled
+        self.enable_mem_scheduler = (
+            hasattr(dependencies, "enable_mem_scheduler") and dependencies.enable_mem_scheduler
+        )
+        self.dependencies = dependencies
+    def handle_chat_complete(self, chat_req: APIChatCompleteRequest) -> dict[str, Any]:
+        """
+        Chat with MemOS for chat complete response (non-streaming).
+        Args:
+            chat_req: Chat complete request
+        Returns:
+            Dictionary with chat complete response and reasoning
+        Raises:
+            HTTPException: If chat fails
+        """
+        try:
+            # Resolve readable cube IDs (for search)
+            readable_cube_ids = chat_req.readable_cube_ids or [chat_req.user_id]
+            # Step 1: Search for relevant memories
+            search_req = APISearchRequest(
+                query=chat_req.query,
+                user_id=chat_req.user_id,
+                readable_cube_ids=readable_cube_ids,
+                mode=chat_req.mode,
+                internet_search=chat_req.internet_search,
+                top_k=chat_req.top_k,
+                chat_history=chat_req.history,
+                session_id=chat_req.session_id,
+                include_preference=chat_req.include_preference,
+                pref_top_k=chat_req.pref_top_k,
+                filter=chat_req.filter,
+            )
+            search_response = self.search_handler.handle_search_memories(search_req)
+            # Extract memories from search results
+            memories_list = []
+            if search_response.data and search_response.data.get("text_mem"):
+                text_mem_results = search_response.data["text_mem"]
+                if text_mem_results and text_mem_results[0].get("memories"):
+                    memories_list = text_mem_results[0]["memories"]
+            # Drop internet memories forced
+            memories_list = [
+                mem
+                for mem in memories_list
+                if mem.get("metadata", {}).get("memory_type") != "OuterMemory"
+            ]
+            # Filter memories by threshold
+            filtered_memories = self._filter_memories_by_threshold(
+                memories_list, chat_req.threshold or 0.5
+            )
+            # Step 2: Build system prompt
+            system_prompt = self._build_system_prompt(
+                query=chat_req.query,
+                memories=filtered_memories,
+                pref_string=search_response.data.get("pref_string", ""),
+                base_prompt=chat_req.system_prompt,
+            )
+            # Prepare message history
+            history_info = chat_req.history[-20:] if chat_req.history else []
+            current_messages = [
+                {"role": "system", "content": system_prompt},
+                *history_info,
+                {"role": "user", "content": chat_req.query},
+            ]
+            self.logger.info("[Cloud Service] Starting to generate chat complete response...")
+            # Step 3: Generate complete response from LLM
+            if chat_req.model_name_or_path and chat_req.model_name_or_path not in self.chat_llms:
+                raise HTTPException(
+                    status_code=400,
+                    detail=f"Model {chat_req.model_name_or_path} not suport, choose from {list(self.chat_llms.keys())}",
+                )
+            model = chat_req.model_name_or_path or next(iter(self.chat_llms.keys()))
+            self.logger.info(f"[Cloud Service] Chat Complete Model: {model}")
+            strat = time.time()
+            response = self.chat_llms[model].generate(current_messages, model_name_or_path=model)
+            end = time.time()
+            self.logger.info(f"[Cloud Service] Chat Complete Time: {end - strat} seconds")
+            if not response:
+                self.logger.error(
+                    f"[Cloud Service] Chat Complete Failed, LLM response is {response}"
+                )
+                raise HTTPException(
+                    status_code=500, detail="Chat complete failed, LLM response is None"
+                )
+            self.logger.info(
+                f"[Cloud Service] Chat Complete LLM Input: {json.dumps(current_messages, ensure_ascii=False)} Chat Complete LLM Response: {response}"
+            )
+            # Step 4: start add after chat asynchronously
+            if chat_req.add_message_on_answer:
+                # Resolve writable cube IDs (for add)
+                writable_cube_ids = chat_req.writable_cube_ids or [chat_req.user_id]
+                start = time.time()
+                self._start_add_to_memory(
+                    user_id=chat_req.user_id,
+                    writable_cube_ids=writable_cube_ids,
+                    session_id=chat_req.session_id or "default_session",
+                    query=chat_req.query,
+                    full_response=response,
+                    async_mode="async",
+                )
+                end = time.time()
+                self.logger.info(f"[Cloud Service] Chat Add Time: {end - start} seconds")
+            match = re.search(r"<think>([\s\S]*?)</think>", response)
+            reasoning_text = match.group(1) if match else None
+            final_text = (
+                re.sub(r"<think>[\s\S]*?</think>", "", response, count=1) if match else response
+            )
+            return {
+                "message": "Chat completed successfully",
+                "data": {"response": final_text, "reasoning": reasoning_text},
+            }
+        except ValueError as err:
+            raise HTTPException(status_code=404, detail=str(traceback.format_exc())) from err
+        except Exception as err:
+            self.logger.error(f"[Cloud Service] Failed to chat complete: {traceback.format_exc()}")
+            raise HTTPException(status_code=500, detail=str(traceback.format_exc())) from err
+    def handle_chat_stream(self, chat_req: ChatRequest) -> StreamingResponse:
+        """
+        Chat with MemOS via Server-Sent Events (SSE) stream for chat stream response.
+        Args:
+            chat_req: Chat stream request
+        Returns:
+            StreamingResponse with SSE formatted chat stream
+        Raises:
+            HTTPException: If stream initialization fails
+        """
+        try:
+            def generate_chat_response() -> Generator[str, None, None]:
+                """Generate chat stream response as SSE stream."""
+                try:
+                    # Resolve readable cube IDs (for search)
+                    readable_cube_ids = chat_req.readable_cube_ids or (
+                        [chat_req.mem_cube_id] if chat_req.mem_cube_id else [chat_req.user_id]
+                    )
+                    search_req = APISearchRequest(
+                        query=chat_req.query,
+                        user_id=chat_req.user_id,
+                        readable_cube_ids=readable_cube_ids,
+                        mode=chat_req.mode,
+                        internet_search=chat_req.internet_search,
+                        top_k=chat_req.top_k,
+                        chat_history=chat_req.history,
+                        session_id=chat_req.session_id,
+                        include_preference=chat_req.include_preference,
+                        pref_top_k=chat_req.pref_top_k,
+                        filter=chat_req.filter,
+                    )
+                    search_response = self.search_handler.handle_search_memories(search_req)
+                    # Use first readable cube ID for scheduler (backward compatibility)
+                    scheduler_cube_id = (
+                        readable_cube_ids[0] if readable_cube_ids else chat_req.user_id
+                    )
+                    self._send_message_to_scheduler(
+                        user_id=chat_req.user_id,
+                        mem_cube_id=scheduler_cube_id,
+                        query=chat_req.query,
+                        label=QUERY_TASK_LABEL,
+                    )
+                    # Extract memories from search results
+                    memories_list = []
+                    if search_response.data and search_response.data.get("text_mem"):
+                        text_mem_results = search_response.data["text_mem"]
+                        if text_mem_results and text_mem_results[0].get("memories"):
+                            memories_list = text_mem_results[0]["memories"]
+                    # Drop internet memories forced
+                    memories_list = [
+                        mem
+                        for mem in memories_list
+                        if mem.get("metadata", {}).get("memory_type") != "OuterMemory"
+                    ]
+                    # Filter memories by threshold
+                    filtered_memories = self._filter_memories_by_threshold(memories_list)
+                    # Step 2: Build system prompt with memories
+                    system_prompt = self._build_system_prompt(
+                        query=chat_req.query,
+                        memories=filtered_memories,
+                        pref_string=search_response.data.get("pref_string", ""),
+                        base_prompt=chat_req.system_prompt,
+                    )
+                    # Prepare messages
+                    history_info = chat_req.history[-20:] if chat_req.history else []
+                    current_messages = [
+                        {"role": "system", "content": system_prompt},
+                        *history_info,
+                        {"role": "user", "content": chat_req.query},
+                    ]
+                    self.logger.info(
+                        f"[Cloud Service] chat stream user_id: {chat_req.user_id}, readable_cube_ids: {readable_cube_ids}, "
+                        f"current_system_prompt: {system_prompt}"
+                    )
+                    # Step 3: Generate streaming response from LLM
+                    if (
+                        chat_req.model_name_or_path
+                        and chat_req.model_name_or_path not in self.chat_llms
+                    ):
+                        raise HTTPException(
+                            status_code=400,
+                            detail=f"Model {chat_req.model_name_or_path} not suport, choose from {list(self.chat_llms.keys())}",
+                        )
+                    model = chat_req.model_name_or_path or next(iter(self.chat_llms.keys()))
+                    self.logger.info(f"[Cloud Service] Chat Stream Model: {model}")
+                    start = time.time()
+                    response_stream = self.chat_llms[model].generate_stream(
+                        current_messages, model_name_or_path=model
+                    )
+                    # Stream the response
+                    buffer = ""
+                    full_response = ""
+                    in_think = False
+                    for chunk in response_stream:
+                        if chunk == "<think>":
+                            in_think = True
+                            continue
+                        if chunk == "</think>":
+                            in_think = False
+                            continue
+                        if in_think:
+                            chunk_data = f"data: {json.dumps({'type': 'reasoning', 'data': chunk}, ensure_ascii=False)}\n\n"
+                            yield chunk_data
+                            continue
+                        buffer += chunk
+                        full_response += chunk
+                        chunk_data = f"data: {json.dumps({'type': 'text', 'data': chunk}, ensure_ascii=False)}\n\n"
+                        yield chunk_data
+                    end = time.time()
+                    self.logger.info(f"[Cloud Service] Chat Stream Time: {end - start} seconds")
+                    self.logger.info(
+                        f"[Cloud Service] Chat Stream LLM Input: {json.dumps(current_messages, ensure_ascii=False)} Chat Stream LLM Response: {full_response}"
+                    )
+                    current_messages.append({"role": "assistant", "content": full_response})
+                    if chat_req.add_message_on_answer:
+                        # Resolve writable cube IDs (for add)
+                        writable_cube_ids = chat_req.writable_cube_ids or (
+                            [chat_req.mem_cube_id] if chat_req.mem_cube_id else [chat_req.user_id]
+                        )
+                        start = time.time()
+                        self._start_add_to_memory(
+                            user_id=chat_req.user_id,
+                            writable_cube_ids=writable_cube_ids,
+                            session_id=chat_req.session_id or "default_session",
+                            query=chat_req.query,
+                            full_response=full_response,
+                            async_mode="async",
+                        )
+                        end = time.time()
+                        self.logger.info(
+                            f"[Cloud Service] Chat Stream Add Time: {end - start} seconds"
+                        )
+                except Exception as e:
+                    self.logger.error(f"[Cloud Service] Error in chat stream: {e}", exc_info=True)
+                    error_data = f"data: {json.dumps({'type': 'error', 'content': str(traceback.format_exc())})}\n\n"
+                    yield error_data
+            return StreamingResponse(
+                generate_chat_response(),
+                media_type="text/event-stream",
+                headers={
+                    "Cache-Control": "no-cache",
+                    "Connection": "keep-alive",
+                    "Content-Type": "text/event-stream",
+                    "Access-Control-Allow-Origin": "*",
+                    "Access-Control-Allow-Headers": "*",
+                    "Access-Control-Allow-Methods": "*",
+                },
+            )
+        except ValueError as err:
+            raise HTTPException(status_code=404, detail=str(traceback.format_exc())) from err
+        except Exception as err:
+            self.logger.error(
+                f"[Cloud Service] Failed to start chat stream: {traceback.format_exc()}"
+            )
+            raise HTTPException(status_code=500, detail=str(traceback.format_exc())) from err
+    def handle_chat_stream_playground(self, chat_req: ChatPlaygroundRequest) -> StreamingResponse:
+        """
+        Chat with MemOS via Server-Sent Events (SSE) stream for playground chat stream response.
+        Args:
+            chat_req: Chat stream request
+        Returns:
+            StreamingResponse with SSE formatted chat stream
+        Raises:
+            HTTPException: If stream initialization fails
+        """
+        try:
+            def generate_chat_response() -> Generator[str, None, None]:
+                """Generate playground chat stream response as SSE stream."""
+                try:
+                    import time
+                    time_start = time.time()
+                    # Step 1: Search for memories using search handler
+                    yield f"data: {json.dumps({'type': 'status', 'data': '0'})}\n\n"
+                    # Resolve readable cube IDs (for search)
+                    readable_cube_ids = chat_req.readable_cube_ids or (
+                        [chat_req.mem_cube_id] if chat_req.mem_cube_id else [chat_req.user_id]
+                    )
+                    # Resolve writable cube IDs (for add)
+                    writable_cube_ids = chat_req.writable_cube_ids or (
+                        [chat_req.mem_cube_id] if chat_req.mem_cube_id else [chat_req.user_id]
+                    )
+                    # ====== first search text mem with parse goal ======
+                    search_req = APISearchRequest(
+                        query=chat_req.query,
+                        user_id=chat_req.user_id,
+                        readable_cube_ids=readable_cube_ids,
+                        mode="fast",
+                        internet_search=False,
+                        top_k=20,
+                        chat_history=chat_req.history,
+                        session_id=chat_req.session_id,
+                        include_preference=True,
+                        pref_top_k=chat_req.pref_top_k,
+                        filter=chat_req.filter,
+                        search_tool_memory=False,
+                    )
+                    start_time = time.time()
+                    search_response = self.search_handler.handle_search_memories(search_req)
+                    end_time = time.time()
+                    self.logger.info(
+                        f"[PLAYGROUND CHAT] first search time: {end_time - start_time}"
+                    )
+                    yield f"data: {json.dumps({'type': 'status', 'data': '1'})}\n\n"
+                    # Extract memories from search results (first search)
+                    memories_list = []
+                    if search_response.data and search_response.data.get("text_mem"):
+                        text_mem_results = search_response.data["text_mem"]
+                        if text_mem_results and text_mem_results[0].get("memories"):
+                            memories_list = text_mem_results[0]["memories"]
+                    # Filter memories by threshold
+                    filtered_memories = self._filter_memories_by_threshold(memories_list)[:5]
+                    # Prepare reference data (first search)
+                    reference = prepare_reference_data(filtered_memories)
+                    # get preference string
+                    pref_string = search_response.data.get("pref_string", "")
+                    yield f"data: {json.dumps({'type': 'reference', 'data': reference}, ensure_ascii=False)}\n\n"
+                    # Prepare preference markdown string
+                    if chat_req.include_preference:
+                        pref_list = search_response.data.get("pref_mem") or []
+                        pref_memories = pref_list[0].get("memories", []) if pref_list else []
+                        pref_md_string = self._build_pref_md_string_for_playground(pref_memories)
+                        yield f"data: {json.dumps({'type': 'pref_md_string', 'data': pref_md_string}, ensure_ascii=False)}\n\n"
+                    # Use first readable cube ID for scheduler (backward compatibility)
+                    scheduler_cube_id = (
+                        readable_cube_ids[0] if readable_cube_ids else chat_req.user_id
+                    )
+                    self._send_message_to_scheduler(
+                        user_id=chat_req.user_id,
+                        mem_cube_id=scheduler_cube_id,
+                        query=chat_req.query,
+                        label=QUERY_TASK_LABEL,
+                    )
+                    # parse goal for internet search
+                    searcher = self.dependencies.searcher
+                    parsed_goal = searcher.task_goal_parser.parse(
+                        task_description=chat_req.query,
+                        context="\n".join([memory.get("memory", "") for memory in memories_list]),
+                        conversation=chat_req.history,
+                        mode="fine",
+                    )
+                    self.logger.info(f"[PLAYGROUND CHAT] parsed_goal: {parsed_goal}")
+                    if chat_req.beginner_guide_step == "first":
+                        chat_req.internet_search = False
+                        parsed_goal.internet_search = False
+                    elif chat_req.beginner_guide_step == "second":
+                        chat_req.internet_search = True
+                        parsed_goal.internet_search = True
+                    if chat_req.internet_search or parsed_goal.internet_search:
+                        # internet status
+                        yield f"data: {json.dumps({'type': 'status', 'data': 'start_internet_search'})}\n\n"
+                    # ======  second deep search  ======
+                    search_req = APISearchRequest(
+                        query=(parsed_goal.rephrased_query or chat_req.query)
+                        + (f" {parsed_goal.memories}" if parsed_goal.memories else ""),
+                        user_id=chat_req.user_id,
+                        readable_cube_ids=readable_cube_ids,
+                        mode="fast",
+                        internet_search=chat_req.internet_search or parsed_goal.internet_search,
+                        top_k=100,  # for playground, we need to search more memories
+                        chat_history=chat_req.history,
+                        session_id=chat_req.session_id,
+                        include_preference=False,
+                        pref_top_k=chat_req.pref_top_k,
+                        filter=chat_req.filter,
+                        search_memory_type="All",
+                        search_tool_memory=False,
+                    )
+                    self.logger.info(f"[PLAYGROUND CHAT] second search query: {search_req.query}")
+                    start_time = time.time()
+                    search_response = self.search_handler.handle_search_memories(search_req)
+                    end_time = time.time()
+                    self.logger.info(
+                        f"[PLAYGROUND CHAT] second search time: {end_time - start_time}"
+                    )
+                    # for playground, add the query to memory without response
+                    self._start_add_to_memory(
+                        user_id=chat_req.user_id,
+                        writable_cube_ids=writable_cube_ids,
+                        session_id=chat_req.session_id or "default_session",
+                        query=chat_req.query,
+                        full_response=None,
+                        async_mode="sync",
+                    )
+                    # Extract memories from search results (second search)
+                    memories_list = []
+                    if search_response.data and search_response.data.get("text_mem"):
+                        text_mem_results = search_response.data["text_mem"]
+                        if text_mem_results and text_mem_results[0].get("memories"):
+                            memories_list = text_mem_results[0]["memories"]
+                    # Filter memories by threshold, min_num is the min number of memories for playground
+                    second_filtered_memories = self._filter_memories_by_threshold(
+                        memories_list, min_num=35
+                    )
+                    # dedup and supplement memories
+                    fast_length = len(filtered_memories)
+                    supplement_length = max(0, 50 - fast_length)  # 50 is the max mem for playground
+                    second_dedup_memories = self._dedup_and_supplement_memories(
+                        filtered_memories, second_filtered_memories
+                    )[:supplement_length]
+                    filtered_memories = filtered_memories + second_dedup_memories
+                    # Prepare remain reference data (second search)
+                    reference = prepare_reference_data(filtered_memories)
+                    # get internet reference
+                    internet_reference = self._get_internet_reference(
+                        search_response.data.get("text_mem")[0]["memories"]
+                    )
+                    yield f"data: {json.dumps({'type': 'reference', 'data': reference}, ensure_ascii=False)}\n\n"
+                    # Step 2: Build system prompt with memories
+                    lang = detect_lang(chat_req.query)
+                    if pref_string:
+                        pref_string += (
+                            "\n# 注意\n- 在思考内容中，不要出现引用序号和id [1,2,3]等标记，否则会导致引用错误。"
+                            if lang == "zh"
+                            else "\n#warning\n- In thinking content, do not appear the reference number and id [1,2,3]etc. otherwise it will cause reference error."
+                        )
+                    system_prompt = self._build_enhance_system_prompt(
+                        filtered_memories, pref_string, lang=lang
+                    )
+                    # Prepare messages
+                    history_info = chat_req.history[-20:] if chat_req.history else []
+                    current_messages = [
+                        {"role": "system", "content": system_prompt},
+                        *history_info,
+                        {"role": "user", "content": chat_req.query},
+                    ]
+                    self.logger.info(
+                        f"[PLAYGROUND CHAT] user_id: {chat_req.user_id}, readable_cube_ids: {readable_cube_ids}, "
+                        f"current_system_prompt: {system_prompt}"
+                    )
+                    # Step 3: Generate streaming response from LLM
+                    try:
+                        model = next(iter(self.chat_llms.keys()))
+                        self.logger.info(f"[PLAYGROUND CHAT] Chat Playground Stream Model: {model}")
+                        start = time.time()
+                        response_stream = self.chat_llms[model].generate_stream(
+                            current_messages, model_name_or_path=model
+                        )
+                        # Stream the response
+                        buffer = ""
+                        full_response = ""
+                        in_think = False
+                        for chunk in response_stream:
+                            if chunk == "<think>":
+                                in_think = True
+                                yield f"data: {json.dumps({'type': 'status', 'data': 'reasoning'})}\n\n"
+                                continue
+                            if chunk == "</think>":
+                                in_think = False
+                                yield f"data: {json.dumps({'type': 'status', 'data': '2'})}\n\n"
+                                continue
+                            if in_think:
+                                chunk_data = f"data: {json.dumps({'type': 'reasoning', 'data': chunk}, ensure_ascii=False)}\n\n"
+                                yield chunk_data
+                                continue
+                            buffer += chunk
+                            full_response += chunk
+                            # Process buffer to ensure complete reference tags
+                            processed_chunk, remaining_buffer = (
+                                process_streaming_references_complete(buffer)
+                            )
+                            if processed_chunk:
+                                chunk_data = f"data: {json.dumps({'type': 'text', 'data': processed_chunk}, ensure_ascii=False)}\n\n"
+                                yield chunk_data
+                                buffer = remaining_buffer
+                        # Process any remaining buffer
+                        if buffer:
+                            processed_chunk, _ = process_streaming_references_complete(buffer)
+                            if processed_chunk:
+                                chunk_data = f"data: {json.dumps({'type': 'text', 'data': processed_chunk}, ensure_ascii=False)}\n\n"
+                                yield chunk_data
+                        end = time.time()
+                        self.logger.info(
+                            f"[PLAYGROUND CHAT] Chat Playground Stream Time: {end - start} seconds"
+                        )
+                        self.logger.info(
+                            f"[PLAYGROUND CHAT] Chat Playground Stream LLM Input: {json.dumps(current_messages, ensure_ascii=False)} Chat Playground Stream LLM Response: {full_response}"
+                        )
+                    except Exception as llm_error:
+                        # Log the error
+                        self.logger.error(
+                            f"[PLAYGROUND CHAT] Error during LLM generation: {llm_error}",
+                            exc_info=True,
+                        )
+                        # Send error message to client
+                        error_msg = f"模型生成错误: {llm_error!s}"
+                        yield f"data: {json.dumps({'type': 'error', 'data': error_msg}, ensure_ascii=False)}\n\n"
+                        # Re-raise to let outer exception handler process it
+                        raise
+                    if chat_req.internet_search or parsed_goal.internet_search:
+                        # Yield internet reference after text response
+                        yield f"data: {json.dumps({'type': 'internet_reference', 'data': internet_reference}, ensure_ascii=False)}\n\n"
+                    # Calculate timing
+                    time_end = time.time()
+                    speed_improvement = round(float((len(system_prompt) / 2) * 0.0048 + 44.5), 1)
+                    total_time = round(float(time_end - time_start), 1)
+                    yield f"data: {json.dumps({'type': 'time', 'data': {'total_time': total_time, 'speed_improvement': f'{speed_improvement}%'}})}\n\n"
+                    # Get further suggestion
+                    current_messages.append({"role": "assistant", "content": full_response})
+                    further_suggestion = self._get_further_suggestion(current_messages)
+                    self.logger.info(f"[PLAYGROUND CHAT] further_suggestion: {further_suggestion}")
+                    yield f"data: {json.dumps({'type': 'suggestion', 'data': further_suggestion}, ensure_ascii=False)}\n\n"
+                    yield f"data: {json.dumps({'type': 'end'})}\n\n"
+                    # Use first readable cube ID for post-processing (backward compatibility)
+                    scheduler_cube_id = (
+                        readable_cube_ids[0] if readable_cube_ids else chat_req.user_id
+                    )
+                    self._start_post_chat_processing(
+                        user_id=chat_req.user_id,
+                        cube_id=scheduler_cube_id,
+                        session_id=chat_req.session_id or "default_session",
+                        query=chat_req.query,
+                        full_response=full_response,
+                        system_prompt=system_prompt,
+                        time_start=time_start,
+                        time_end=time_end,
+                        speed_improvement=speed_improvement,
+                        current_messages=current_messages,
+                    )
+                    self._start_add_to_memory(
+                        user_id=chat_req.user_id,
+                        writable_cube_ids=writable_cube_ids,
+                        session_id=chat_req.session_id or "default_session",
+                        query=chat_req.query,
+                        full_response=full_response,
+                        async_mode="sync",
+                    )
+                except Exception as e:
+                    self.logger.error(
+                        f"[PLAYGROUND CHAT] Error in playground chat stream: {e}", exc_info=True
+                    )
+                    error_data = f"data: {json.dumps({'type': 'error', 'content': str(traceback.format_exc())})}\n\n"
+                    yield error_data
+            return StreamingResponse(
+                generate_chat_response(),
+                media_type="text/event-stream",
+                headers={
+                    "Cache-Control": "no-cache",
+                    "Connection": "keep-alive",
+                    "Content-Type": "text/event-stream",
+                    "Access-Control-Allow-Origin": "*",
+                    "Access-Control-Allow-Headers": "*",
+                    "Access-Control-Allow-Methods": "*",
+                },
+            )
+        except ValueError as err:
+            raise HTTPException(status_code=404, detail=str(traceback.format_exc())) from err
+        except Exception as err:
+            self.logger.error(
+                f"[PLAYGROUND CHAT] Failed to start playground chat stream: {traceback.format_exc()}"
+            )
+            raise HTTPException(status_code=500, detail=str(traceback.format_exc())) from err
+    def _dedup_and_supplement_memories(
+        self, first_filtered_memories: list, second_filtered_memories: list
+    ) -> list:
+        """
+        Remove memories from second_filtered_memories whose content already exists in
+        first_filtered_memories, return the remaining list.
+        """
+        def _norm(text: str) -> str:
+            # Use normalized text as the dedup key; keep original text in the payload.
+            return " ".join(text.split())
+        first_memory_texts = {_norm(memory.get("memory", "")) for memory in first_filtered_memories}
+        remaining_memories = []
+        for memory in second_filtered_memories:
+            key = _norm(memory.get("memory", ""))
+            if key in first_memory_texts:
+                continue
+            first_memory_texts.add(key)
+            remaining_memories.append(memory)
+        return remaining_memories
+    def _get_internet_reference(
+        self, search_response: list[dict[str, any]]
+    ) -> list[dict[str, any]]:
+        """Get internet reference from search response."""
+        unique_set = set()
+        result = []
+        for item in search_response:
+            meta = item.get("metadata", {})
+            if meta.get("source") == "web" and meta.get("internet_info"):
+                info = meta.get("internet_info")
+                key = json.dumps(info, sort_keys=True)
+                if key not in unique_set:
+                    unique_set.add(key)
+                    result.append(info)
+        return result
+    def _build_pref_md_string_for_playground(self, pref_mem_list: list[any]) -> str:
+        """Build preference markdown string for playground."""
+        explicit = []
+        implicit = []
+        for pref_mem in pref_mem_list:
+            if pref_mem["metadata"]["preference_type"] == "explicit_preference":
+                explicit.append(
+                    {
+                        "content": pref_mem["metadata"]["preference"],
+                        "reasoning": pref_mem["metadata"]["reasoning"],
+                    }
+                )
+            elif pref_mem["metadata"]["preference_type"] == "implicit_preference":
+                implicit.append(
+                    {
+                        "content": pref_mem["metadata"]["preference"],
+                        "reasoning": pref_mem["metadata"]["reasoning"],
+                    }
+                )
+        explicit_md = "\n\n".join(
+            [
+                f"显性偏好 {i + 1}:\n- 抽取内容: {pref['content']}\n- 抽取理由: {pref['reasoning']}"
+                for i, pref in enumerate(explicit)
+            ]
+        )
+        implicit_md = "\n\n".join(
+            [
+                f"隐性偏好 {i + 1}:\n- 抽取内容: {pref['content']}\n- 抽取理由: {pref['reasoning']}"
+                for i, pref in enumerate(implicit)
+            ]
+        )
+        return f"{explicit_md}\n\n{implicit_md}"
+    def _build_system_prompt(
+        self,
+        query: str,
+        memories: list | None = None,
+        pref_string: str | None = None,
+        base_prompt: str | None = None,
+        **kwargs,
+    ) -> str:
+        """Build system prompt with optional memories context."""
+        if base_prompt is None:
+            lang = detect_lang(query)
+            base_prompt = get_cloud_chat_prompt(lang=lang)
+        memory_context = ""
+        if memories:
+            memory_list = []
+            for i, memory in enumerate(memories, 1):
+                text_memory = memory.get("memory", "")
+                memory_list.append(f"{i}. {text_memory}")
+            memory_context = "\n".join(memory_list)
+        if pref_string:
+            memory_context += f"\n\n{pref_string}"
+        if "{memories}" in base_prompt:
+            return base_prompt.format(memories=memory_context)
+        elif base_prompt and memories:
+            # For backward compatibility, append memories if no placeholder is found
+            memory_context_with_header = "\n\n## Fact Memories:\n" + memory_context
+            return base_prompt + memory_context_with_header
+        return base_prompt
+    def _build_enhance_system_prompt(
+        self,
+        memories_list: list,
+        pref_string: str = "",
+        lang: str = "en",
+        tone: str = "friendly",
+        verbosity: str = "mid",
+    ) -> str:
+        """
+        Build enhanced system prompt with memories (for streaming response).
+        Args:
+            memories_list: List of memory items
+            pref_string: Preference string
+            tone: Tone of the prompt
+            verbosity: Verbosity level
+        Returns:
+            System prompt string
+        """
+        now = datetime.now()
+        formatted_date = now.strftime("%Y-%m-%d %H:%M (%A)")
+        sys_body = get_memos_prompt(
+            date=formatted_date, tone=tone, verbosity=verbosity, mode="enhance", lang=lang
+        )
+        # Format memories
+        mem_block_o, mem_block_p = self._format_mem_block(memories_list)
+        return (
+            sys_body
+            + "\n\n# Memories\n## PersonalMemory (ordered)\n"
+            + mem_block_p
+            + "\n## OuterMemory (from Internet Search, ordered)\n"
+            + mem_block_o
+            + f"\n\n{pref_string}"
+        )
+    def _format_mem_block(
+        self, memories_all: list, max_items: int = 20, max_chars_each: int = 320
+    ) -> tuple[str, str]:
+        """
+        Format memory block for prompt.
+        Args:
+            memories_all: List of memory items
+            max_items: Maximum number of items to format
+            max_chars_each: Maximum characters per item
+        Returns:
+            Tuple of (outer_memory_block, personal_memory_block)
+        """
+        if not memories_all:
+            return "(none)", "(none)"
+        lines_o = []
+        lines_p = []
+        for idx, m in enumerate(memories_all[:max_items], 1):
+            mid = m.get("id", "").split("-")[0] if m.get("id") else f"mem_{idx}"
+            memory_content = m.get("memory", "")
+            metadata = m.get("metadata", {})
+            memory_type = metadata.get("memory_type", "")
+            created_time = metadata.get("updated_at", "") or metadata.get("created_at", "")
+            # format time to YYYY-MM-DD HH:MM (ISO 8601 -> YYYY-MM-DD HH:MM)
+            if created_time and isinstance(created_time, str):
+                try:
+                    dt = datetime.fromisoformat(created_time)
+                    created_time = dt.strftime("%Y-%m-%d %H:%M")
+                except ValueError:
+                    pass  # keep original value
+            tag = "O" if "Outer" in str(memory_type) else "P"
+            txt = memory_content.replace("\n", " ").strip()
+            if len(txt) > max_chars_each:
+                txt = txt[: max_chars_each - 1] + "…"
+            mid = mid or f"mem_{idx}"
+            if tag == "O":
+                lines_o.append(f"[{idx}:{mid}] :: [{tag}] {txt}\n")
+            elif tag == "P":
+                txt = f"(CreatedTime: {created_time}) {txt}"
+                lines_p.append(f"[{idx}:{mid}] :: [{tag}] {txt}")
+        return "\n".join(lines_o), "\n".join(lines_p)
+    def _filter_memories_by_threshold(
+        self,
+        memories: list,
+        threshold: float = 0.30,
+        min_num: int = 3,
+        memory_type: Literal["OuterMemory"] = "OuterMemory",
+    ) -> list:
+        """
+        Filter memories by threshold and type.
+        Args:
+            memories: List of memory items
+            threshold: Relevance threshold
+            min_num: Minimum number of memories to keep
+            memory_type: Memory type to filter
+        Returns:
+            Filtered list of memories
+        """
+        if not memories:
+            return []
+        # Handle dict format (from search results)
+        def get_relativity(m):
+            if isinstance(m, dict):
+                return m.get("metadata", {}).get("relativity", 0.0)
+            return getattr(getattr(m, "metadata", None), "relativity", 0.0)
+        def get_memory_type(m):
+            if isinstance(m, dict):
+                return m.get("metadata", {}).get("memory_type", "")
+            return getattr(getattr(m, "metadata", None), "memory_type", "")
+        sorted_memories = sorted(memories, key=get_relativity, reverse=True)
+        filtered_person = [m for m in memories if get_memory_type(m) != memory_type]
+        filtered_outer = [m for m in memories if get_memory_type(m) == memory_type]
+        filtered = []
+        per_memory_count = 0
+        for m in sorted_memories:
+            if get_relativity(m) >= threshold:
+                if get_memory_type(m) != memory_type:
+                    per_memory_count += 1
+                filtered.append(m)
+        if len(filtered) < min_num:
+            filtered = filtered_person[:min_num] + filtered_outer[:min_num]
+        else:
+            if per_memory_count < min_num:
+                filtered += filtered_person[per_memory_count:min_num]
+        filtered_memory = sorted(filtered, key=get_relativity, reverse=True)
+        return filtered_memory
+    def _get_further_suggestion(
+        self,
+        current_messages: MessageList,
+    ) -> list[str]:
+        """Get further suggestion based on current messages."""
+        try:
+            dialogue_info = "\n".join(
+                [f"{msg['role']}: {msg['content']}" for msg in current_messages[-2:]]
+            )
+            further_suggestion_prompt = FURTHER_SUGGESTION_PROMPT.format(dialogue=dialogue_info)
+            message_list = [{"role": "system", "content": further_suggestion_prompt}]
+            response = self.llm.generate(message_list)
+            clean_response = clean_json_response(response)
+            response_json = json.loads(clean_response)
+            return response_json["query"]
+        except Exception as e:
+            self.logger.error(f"Error getting further suggestion: {e}", exc_info=True)
+            return []
+    def _extract_references_from_response(self, response: str) -> tuple[str, list[dict]]:
+        """Extract reference information from the response and return clean text."""
+        import re
+        try:
+            references = []
+            # Pattern to match [refid:memoriesID]
+            pattern = r"\[(\d+):([^\]]+)\]"
+            matches = re.findall(pattern, response)
+            for ref_number, memory_id in matches:
+                references.append({"memory_id": memory_id, "reference_number": int(ref_number)})
+            # Remove all reference markers from the text to get clean text
+            clean_text = re.sub(pattern, "", response)
+            # Clean up any extra whitespace that might be left after removing markers
+            clean_text = re.sub(r"\s+", " ", clean_text).strip()
+            return clean_text, references
+        except Exception as e:
+            self.logger.error(f"Error extracting references from response: {e}", exc_info=True)
+            return response, []
+    def _extract_struct_data_from_history(self, chat_data: list[dict]) -> dict:
+        """
+        Extract structured message data from chat history.
+        Args:
+            chat_data: List of chat messages
+        Returns:
+            Dictionary with system, memory, and chat_history
+        """
+        system_content = ""
+        memory_content = ""
+        chat_history = []
+        for item in chat_data:
+            role = item.get("role")
+            content = item.get("content", "")
+            if role == "system":
+                parts = content.split("# Memories", 1)
+                system_content = parts[0].strip()
+                if len(parts) > 1:
+                    memory_content = "# Memories" + parts[1].strip()
+            elif role in ("user", "assistant"):
+                chat_history.append({"role": role, "content": content})
+        if chat_history and chat_history[-1]["role"] == "assistant":
+            if len(chat_history) >= 2 and chat_history[-2]["role"] == "user":
+                chat_history = chat_history[:-2]
+            else:
+                chat_history = chat_history[:-1]
+        return {"system": system_content, "memory": memory_content, "chat_history": chat_history}
+    def _send_message_to_scheduler(
+        self,
+        user_id: str,
+        mem_cube_id: str,
+        query: str,
+        label: str,
+    ) -> None:
+        """
+        Send message to scheduler.
+        Args:
+            user_id: User ID
+            mem_cube_id: Memory cube ID
+            query: Query content
+            label: Message label
+        """
+        try:
+            message_item = ScheduleMessageItem(
+                user_id=user_id,
+                mem_cube_id=mem_cube_id,
+                label=label,
+                content=query,
+                timestamp=datetime.utcnow(),
+            )
+            self.mem_scheduler.submit_messages(messages=[message_item])
+            self.logger.info(f"Sent message to scheduler with label: {label}")
+        except Exception as e:
+            self.logger.error(f"Failed to send message to scheduler: {e}", exc_info=True)
+    async def _add_conversation_to_memory(
+        self,
+        user_id: str,
+        writable_cube_ids: list[str],
+        session_id: str,
+        query: str,
+        clean_response: str | None = None,
+        async_mode: Literal["async", "sync"] = "sync",
+    ) -> None:
+        messages = [
+            {
+                "role": "user",
+                "content": query,
+                "chat_time": str(datetime.now().strftime("%Y-%m-%d %H:%M:%S")),
+            }
+        ]
+        if clean_response:
+            messages.append(
+                {
+                    "role": "assistant",
+                    "content": clean_response,
+                    "chat_time": str(datetime.now().strftime("%Y-%m-%d %H:%M:%S")),
+                }
+            )
+        add_req = APIADDRequest(
+            user_id=user_id,
+            writable_cube_ids=writable_cube_ids,
+            session_id=session_id,
+            messages=messages,
+            async_mode=async_mode,
+        )
+        self.add_handler.handle_add_memories(add_req)
+    async def _post_chat_processing(
+        self,
+        user_id: str,
+        cube_id: str,
+        session_id: str,
+        query: str,
+        full_response: str,
+        system_prompt: str,
+        time_start: float,
+        time_end: float,
+        speed_improvement: float,
+        current_messages: list,
+    ) -> None:
+        """
+        Asynchronous post-chat processing with complete functionality.
+        Includes:
+        - Reference extraction
+        - DingDing notification
+        - Scheduler messaging
+        - Memory addition
+        Args:
+            user_id: User ID
+            cube_id: Memory cube ID
+            session_id: Session ID
+            query: User query
+            full_response: Full LLM response
+            system_prompt: System prompt used
+            time_start: Start timestamp
+            time_end: End timestamp
+            speed_improvement: Speed improvement metric
+            current_messages: Current message history
+        """
+        try:
+            self.logger.info(
+                f"user_id: {user_id}, cube_id: {cube_id}, current_messages: {current_messages}"
+            )
+            self.logger.info(
+                f"user_id: {user_id}, cube_id: {cube_id}, full_response: {full_response}"
+            )
+            # Extract references and clean response
+            clean_response, extracted_references = self._extract_references_from_response(
+                full_response
+            )
+            struct_message = self._extract_struct_data_from_history(current_messages)
+            self.logger.info(f"Extracted {len(extracted_references)} references from response")
+            # Send DingDing notification if enabled
+            if self.online_bot:
+                self.logger.info("Online Bot Open!")
+                try:
+                    from memos.memos_tools.notification_utils import (
+                        send_online_bot_notification_async,
+                    )
+                    # Prepare notification data
+                    chat_data = {"query": query, "user_id": user_id, "cube_id": cube_id}
+                    chat_data.update(
+                        {
+                            "memory": struct_message["memory"],
+                            "chat_history": struct_message["chat_history"],
+                            "full_response": full_response,
+                        }
+                    )
+                    system_data = {
+                        "references": extracted_references,
+                        "time_start": time_start,
+                        "time_end": time_end,
+                        "speed_improvement": speed_improvement,
+                    }
+                    emoji_config = {"chat": "💬", "system_info": "📊"}
+                    await send_online_bot_notification_async(
+                        online_bot=self.online_bot,
+                        header_name="MemOS Chat Report",
+                        sub_title_name="chat_with_references",
+                        title_color="#00956D",
+                        other_data1=chat_data,
+                        other_data2=system_data,
+                        emoji=emoji_config,
+                    )
+                except Exception as e:
+                    self.logger.warning(f"Failed to send chat notification (async): {e}")
+            # Send answer to scheduler
+            self._send_message_to_scheduler(
+                user_id=user_id, mem_cube_id=cube_id, query=clean_response, label=ANSWER_TASK_LABEL
+            )
+            self.logger.info(f"Post-chat processing completed for user {user_id}")
+        except Exception as e:
+            self.logger.error(
+                f"Error in post-chat processing for user {user_id}: {e}", exc_info=True
+            )
+    def _start_post_chat_processing(
+        self,
+        user_id: str,
+        cube_id: str,
+        session_id: str,
+        query: str,
+        full_response: str,
+        system_prompt: str,
+        time_start: float,
+        time_end: float,
+        speed_improvement: float,
+        current_messages: list,
+    ) -> None:
+        """
+        Start asynchronous post-chat processing in a background thread.
+        Args:
+            user_id: User ID
+            cube_id: Memory cube ID
+            session_id: Session ID
+            query: User query
+            full_response: Full LLM response
+            system_prompt: System prompt used
+            time_start: Start timestamp
+            time_end: End timestamp
+            speed_improvement: Speed improvement metric
+            current_messages: Current message history
+        """
+        def run_async_in_thread():
+            """Running asynchronous tasks in a new thread"""
+            try:
+                loop = asyncio.new_event_loop()
+                asyncio.set_event_loop(loop)
+                try:
+                    loop.run_until_complete(
+                        self._post_chat_processing(
+                            user_id=user_id,
+                            cube_id=cube_id,
+                            session_id=session_id,
+                            query=query,
+                            full_response=full_response,
+                            system_prompt=system_prompt,
+                            time_start=time_start,
+                            time_end=time_end,
+                            speed_improvement=speed_improvement,
+                            current_messages=current_messages,
+                        )
+                    )
+                finally:
+                    loop.close()
+            except Exception as e:
+                self.logger.error(
+                    f"Error in thread-based post-chat processing for user {user_id}: {e}",
+                    exc_info=True,
+                )
+        try:
+            # Try to get the current event loop
+            asyncio.get_running_loop()
+            # Create task and store reference to prevent garbage collection
+            task = asyncio.create_task(
+                self._post_chat_processing(
+                    user_id=user_id,
+                    cube_id=cube_id,
+                    session_id=session_id,
+                    query=query,
+                    full_response=full_response,
+                    system_prompt=system_prompt,
+                    time_start=time_start,
+                    time_end=time_end,
+                    speed_improvement=speed_improvement,
+                    current_messages=current_messages,
+                )
+            )
+            # Add exception handling for the background task
+            task.add_done_callback(
+                lambda t: self.logger.error(
+                    f"Error in background post-chat processing for user {user_id}: {t.exception()}",
+                    exc_info=True,
+                )
+                if t.exception()
+                else None
+            )
+        except RuntimeError:
+            # No event loop, run in a new thread with context propagation
+            thread = ContextThread(
+                target=run_async_in_thread,
+                name=f"PostChatProcessing-{user_id}",
+                daemon=True,
+            )
+            thread.start()
+    def _start_add_to_memory(
+        self,
+        user_id: str,
+        writable_cube_ids: list[str],
+        session_id: str,
+        query: str,
+        full_response: str | None = None,
+        async_mode: Literal["async", "sync"] = "sync",
+    ) -> None:
+        def run_async_in_thread():
+            try:
+                loop = asyncio.new_event_loop()
+                asyncio.set_event_loop(loop)
+                try:
+                    clean_response = full_response
+                    if full_response:
+                        clean_response, _ = self._extract_references_from_response(full_response)
+                    loop.run_until_complete(
+                        self._add_conversation_to_memory(
+                            user_id=user_id,
+                            writable_cube_ids=writable_cube_ids,
+                            session_id=session_id,
+                            query=query,
+                            clean_response=clean_response,
+                            async_mode=async_mode,
+                        )
+                    )
+                finally:
+                    loop.close()
+            except Exception as e:
+                self.logger.error(
+                    f"Error in thread-based add to memory for user {user_id}: {e}",
+                    exc_info=True,
+                )
+        try:
+            asyncio.get_running_loop()
+            clean_response = full_response
+            if full_response:
+                clean_response, _ = self._extract_references_from_response(full_response)
+            task = asyncio.create_task(
+                self._add_conversation_to_memory(
+                    user_id=user_id,
+                    writable_cube_ids=writable_cube_ids,
+                    session_id=session_id,
+                    query=query,
+                    clean_response=clean_response,
+                    async_mode=async_mode,
+                )
+            )
+            task.add_done_callback(
+                lambda t: self.logger.error(
+                    f"Error in background add to memory for user {user_id}: {t.exception()}",
+                    exc_info=True,
+                )
+                if t.exception()
+                else None
+            )
+        except RuntimeError:
+            thread = ContextThread(
+                target=run_async_in_thread,
+                name=f"AddToMemory-{user_id}",
+                daemon=True,
+            )
+            thread.start()