PyPI - MemoryOS - Versions diffs - 2.0.3__py3-none-any.whl - Mend

MemoryOS 2.0.3__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (315) hide show

memoryos-2.0.3.dist-info/METADATA +418 -0
memoryos-2.0.3.dist-info/RECORD +315 -0
memoryos-2.0.3.dist-info/WHEEL +4 -0
memoryos-2.0.3.dist-info/entry_points.txt +3 -0
memoryos-2.0.3.dist-info/licenses/LICENSE +201 -0
memos/__init__.py +20 -0
memos/api/client.py +571 -0
memos/api/config.py +1018 -0
memos/api/context/dependencies.py +50 -0
memos/api/exceptions.py +53 -0
memos/api/handlers/__init__.py +62 -0
memos/api/handlers/add_handler.py +158 -0
memos/api/handlers/base_handler.py +194 -0
memos/api/handlers/chat_handler.py +1401 -0
memos/api/handlers/component_init.py +388 -0
memos/api/handlers/config_builders.py +190 -0
memos/api/handlers/feedback_handler.py +93 -0
memos/api/handlers/formatters_handler.py +237 -0
memos/api/handlers/memory_handler.py +316 -0
memos/api/handlers/scheduler_handler.py +497 -0
memos/api/handlers/search_handler.py +222 -0
memos/api/handlers/suggestion_handler.py +117 -0
memos/api/mcp_serve.py +614 -0
memos/api/middleware/request_context.py +101 -0
memos/api/product_api.py +38 -0
memos/api/product_models.py +1206 -0
memos/api/routers/__init__.py +1 -0
memos/api/routers/product_router.py +477 -0
memos/api/routers/server_router.py +394 -0
memos/api/server_api.py +44 -0
memos/api/start_api.py +433 -0
memos/chunkers/__init__.py +4 -0
memos/chunkers/base.py +24 -0
memos/chunkers/charactertext_chunker.py +41 -0
memos/chunkers/factory.py +24 -0
memos/chunkers/markdown_chunker.py +62 -0
memos/chunkers/sentence_chunker.py +54 -0
memos/chunkers/simple_chunker.py +50 -0
memos/cli.py +113 -0
memos/configs/__init__.py +0 -0
memos/configs/base.py +82 -0
memos/configs/chunker.py +59 -0
memos/configs/embedder.py +88 -0
memos/configs/graph_db.py +236 -0
memos/configs/internet_retriever.py +100 -0
memos/configs/llm.py +151 -0
memos/configs/mem_agent.py +54 -0
memos/configs/mem_chat.py +81 -0
memos/configs/mem_cube.py +105 -0
memos/configs/mem_os.py +83 -0
memos/configs/mem_reader.py +91 -0
memos/configs/mem_scheduler.py +385 -0
memos/configs/mem_user.py +70 -0
memos/configs/memory.py +324 -0
memos/configs/parser.py +38 -0
memos/configs/reranker.py +18 -0
memos/configs/utils.py +8 -0
memos/configs/vec_db.py +80 -0
memos/context/context.py +355 -0
memos/dependency.py +52 -0
memos/deprecation.py +262 -0
memos/embedders/__init__.py +0 -0
memos/embedders/ark.py +95 -0
memos/embedders/base.py +106 -0
memos/embedders/factory.py +29 -0
memos/embedders/ollama.py +77 -0
memos/embedders/sentence_transformer.py +49 -0
memos/embedders/universal_api.py +51 -0
memos/exceptions.py +30 -0
memos/graph_dbs/__init__.py +0 -0
memos/graph_dbs/base.py +274 -0
memos/graph_dbs/factory.py +27 -0
memos/graph_dbs/item.py +46 -0
memos/graph_dbs/nebular.py +1794 -0
memos/graph_dbs/neo4j.py +1942 -0
memos/graph_dbs/neo4j_community.py +1058 -0
memos/graph_dbs/polardb.py +5446 -0
memos/hello_world.py +97 -0
memos/llms/__init__.py +0 -0
memos/llms/base.py +25 -0
memos/llms/deepseek.py +13 -0
memos/llms/factory.py +38 -0
memos/llms/hf.py +443 -0
memos/llms/hf_singleton.py +114 -0
memos/llms/ollama.py +135 -0
memos/llms/openai.py +222 -0
memos/llms/openai_new.py +198 -0
memos/llms/qwen.py +13 -0
memos/llms/utils.py +14 -0
memos/llms/vllm.py +218 -0
memos/log.py +237 -0
memos/mem_agent/base.py +19 -0
memos/mem_agent/deepsearch_agent.py +391 -0
memos/mem_agent/factory.py +36 -0
memos/mem_chat/__init__.py +0 -0
memos/mem_chat/base.py +30 -0
memos/mem_chat/factory.py +21 -0
memos/mem_chat/simple.py +200 -0
memos/mem_cube/__init__.py +0 -0
memos/mem_cube/base.py +30 -0
memos/mem_cube/general.py +240 -0
memos/mem_cube/navie.py +172 -0
memos/mem_cube/utils.py +169 -0
memos/mem_feedback/base.py +15 -0
memos/mem_feedback/feedback.py +1192 -0
memos/mem_feedback/simple_feedback.py +40 -0
memos/mem_feedback/utils.py +230 -0
memos/mem_os/client.py +5 -0
memos/mem_os/core.py +1203 -0
memos/mem_os/main.py +582 -0
memos/mem_os/product.py +1608 -0
memos/mem_os/product_server.py +455 -0
memos/mem_os/utils/default_config.py +359 -0
memos/mem_os/utils/format_utils.py +1403 -0
memos/mem_os/utils/reference_utils.py +162 -0
memos/mem_reader/__init__.py +0 -0
memos/mem_reader/base.py +47 -0
memos/mem_reader/factory.py +53 -0
memos/mem_reader/memory.py +298 -0
memos/mem_reader/multi_modal_struct.py +965 -0
memos/mem_reader/read_multi_modal/__init__.py +43 -0
memos/mem_reader/read_multi_modal/assistant_parser.py +311 -0
memos/mem_reader/read_multi_modal/base.py +273 -0
memos/mem_reader/read_multi_modal/file_content_parser.py +826 -0
memos/mem_reader/read_multi_modal/image_parser.py +359 -0
memos/mem_reader/read_multi_modal/multi_modal_parser.py +252 -0
memos/mem_reader/read_multi_modal/string_parser.py +139 -0
memos/mem_reader/read_multi_modal/system_parser.py +327 -0
memos/mem_reader/read_multi_modal/text_content_parser.py +131 -0
memos/mem_reader/read_multi_modal/tool_parser.py +210 -0
memos/mem_reader/read_multi_modal/user_parser.py +218 -0
memos/mem_reader/read_multi_modal/utils.py +358 -0
memos/mem_reader/simple_struct.py +912 -0
memos/mem_reader/strategy_struct.py +163 -0
memos/mem_reader/utils.py +157 -0
memos/mem_scheduler/__init__.py +0 -0
memos/mem_scheduler/analyzer/__init__.py +0 -0
memos/mem_scheduler/analyzer/api_analyzer.py +714 -0
memos/mem_scheduler/analyzer/eval_analyzer.py +219 -0
memos/mem_scheduler/analyzer/mos_for_test_scheduler.py +571 -0
memos/mem_scheduler/analyzer/scheduler_for_eval.py +280 -0
memos/mem_scheduler/base_scheduler.py +1319 -0
memos/mem_scheduler/general_modules/__init__.py +0 -0
memos/mem_scheduler/general_modules/api_misc.py +137 -0
memos/mem_scheduler/general_modules/base.py +80 -0
memos/mem_scheduler/general_modules/init_components_for_scheduler.py +425 -0
memos/mem_scheduler/general_modules/misc.py +313 -0
memos/mem_scheduler/general_modules/scheduler_logger.py +389 -0
memos/mem_scheduler/general_modules/task_threads.py +315 -0
memos/mem_scheduler/general_scheduler.py +1495 -0
memos/mem_scheduler/memory_manage_modules/__init__.py +5 -0
memos/mem_scheduler/memory_manage_modules/memory_filter.py +306 -0
memos/mem_scheduler/memory_manage_modules/retriever.py +547 -0
memos/mem_scheduler/monitors/__init__.py +0 -0
memos/mem_scheduler/monitors/dispatcher_monitor.py +366 -0
memos/mem_scheduler/monitors/general_monitor.py +394 -0
memos/mem_scheduler/monitors/task_schedule_monitor.py +254 -0
memos/mem_scheduler/optimized_scheduler.py +410 -0
memos/mem_scheduler/orm_modules/__init__.py +0 -0
memos/mem_scheduler/orm_modules/api_redis_model.py +518 -0
memos/mem_scheduler/orm_modules/base_model.py +729 -0
memos/mem_scheduler/orm_modules/monitor_models.py +261 -0
memos/mem_scheduler/orm_modules/redis_model.py +699 -0
memos/mem_scheduler/scheduler_factory.py +23 -0
memos/mem_scheduler/schemas/__init__.py +0 -0
memos/mem_scheduler/schemas/analyzer_schemas.py +52 -0
memos/mem_scheduler/schemas/api_schemas.py +233 -0
memos/mem_scheduler/schemas/general_schemas.py +55 -0
memos/mem_scheduler/schemas/message_schemas.py +173 -0
memos/mem_scheduler/schemas/monitor_schemas.py +406 -0
memos/mem_scheduler/schemas/task_schemas.py +132 -0
memos/mem_scheduler/task_schedule_modules/__init__.py +0 -0
memos/mem_scheduler/task_schedule_modules/dispatcher.py +740 -0
memos/mem_scheduler/task_schedule_modules/local_queue.py +247 -0
memos/mem_scheduler/task_schedule_modules/orchestrator.py +74 -0
memos/mem_scheduler/task_schedule_modules/redis_queue.py +1385 -0
memos/mem_scheduler/task_schedule_modules/task_queue.py +162 -0
memos/mem_scheduler/utils/__init__.py +0 -0
memos/mem_scheduler/utils/api_utils.py +77 -0
memos/mem_scheduler/utils/config_utils.py +100 -0
memos/mem_scheduler/utils/db_utils.py +50 -0
memos/mem_scheduler/utils/filter_utils.py +176 -0
memos/mem_scheduler/utils/metrics.py +125 -0
memos/mem_scheduler/utils/misc_utils.py +290 -0
memos/mem_scheduler/utils/monitor_event_utils.py +67 -0
memos/mem_scheduler/utils/status_tracker.py +229 -0
memos/mem_scheduler/webservice_modules/__init__.py +0 -0
memos/mem_scheduler/webservice_modules/rabbitmq_service.py +485 -0
memos/mem_scheduler/webservice_modules/redis_service.py +380 -0
memos/mem_user/factory.py +94 -0
memos/mem_user/mysql_persistent_user_manager.py +271 -0
memos/mem_user/mysql_user_manager.py +502 -0
memos/mem_user/persistent_factory.py +98 -0
memos/mem_user/persistent_user_manager.py +260 -0
memos/mem_user/redis_persistent_user_manager.py +225 -0
memos/mem_user/user_manager.py +488 -0
memos/memories/__init__.py +0 -0
memos/memories/activation/__init__.py +0 -0
memos/memories/activation/base.py +42 -0
memos/memories/activation/item.py +56 -0
memos/memories/activation/kv.py +292 -0
memos/memories/activation/vllmkv.py +219 -0
memos/memories/base.py +19 -0
memos/memories/factory.py +42 -0
memos/memories/parametric/__init__.py +0 -0
memos/memories/parametric/base.py +19 -0
memos/memories/parametric/item.py +11 -0
memos/memories/parametric/lora.py +41 -0
memos/memories/textual/__init__.py +0 -0
memos/memories/textual/base.py +92 -0
memos/memories/textual/general.py +236 -0
memos/memories/textual/item.py +304 -0
memos/memories/textual/naive.py +187 -0
memos/memories/textual/prefer_text_memory/__init__.py +0 -0
memos/memories/textual/prefer_text_memory/adder.py +504 -0
memos/memories/textual/prefer_text_memory/config.py +106 -0
memos/memories/textual/prefer_text_memory/extractor.py +221 -0
memos/memories/textual/prefer_text_memory/factory.py +85 -0
memos/memories/textual/prefer_text_memory/retrievers.py +177 -0
memos/memories/textual/prefer_text_memory/spliter.py +132 -0
memos/memories/textual/prefer_text_memory/utils.py +93 -0
memos/memories/textual/preference.py +344 -0
memos/memories/textual/simple_preference.py +161 -0
memos/memories/textual/simple_tree.py +69 -0
memos/memories/textual/tree.py +459 -0
memos/memories/textual/tree_text_memory/__init__.py +0 -0
memos/memories/textual/tree_text_memory/organize/__init__.py +0 -0
memos/memories/textual/tree_text_memory/organize/handler.py +184 -0
memos/memories/textual/tree_text_memory/organize/manager.py +518 -0
memos/memories/textual/tree_text_memory/organize/relation_reason_detector.py +238 -0
memos/memories/textual/tree_text_memory/organize/reorganizer.py +622 -0
memos/memories/textual/tree_text_memory/retrieve/__init__.py +0 -0
memos/memories/textual/tree_text_memory/retrieve/advanced_searcher.py +364 -0
memos/memories/textual/tree_text_memory/retrieve/bm25_util.py +186 -0
memos/memories/textual/tree_text_memory/retrieve/bochasearch.py +419 -0
memos/memories/textual/tree_text_memory/retrieve/internet_retriever.py +270 -0
memos/memories/textual/tree_text_memory/retrieve/internet_retriever_factory.py +102 -0
memos/memories/textual/tree_text_memory/retrieve/reasoner.py +61 -0
memos/memories/textual/tree_text_memory/retrieve/recall.py +497 -0
memos/memories/textual/tree_text_memory/retrieve/reranker.py +111 -0
memos/memories/textual/tree_text_memory/retrieve/retrieval_mid_structs.py +16 -0
memos/memories/textual/tree_text_memory/retrieve/retrieve_utils.py +472 -0
memos/memories/textual/tree_text_memory/retrieve/searcher.py +848 -0
memos/memories/textual/tree_text_memory/retrieve/task_goal_parser.py +135 -0
memos/memories/textual/tree_text_memory/retrieve/utils.py +54 -0
memos/memories/textual/tree_text_memory/retrieve/xinyusearch.py +387 -0
memos/memos_tools/dinding_report_bot.py +453 -0
memos/memos_tools/lockfree_dict.py +120 -0
memos/memos_tools/notification_service.py +44 -0
memos/memos_tools/notification_utils.py +142 -0
memos/memos_tools/singleton.py +174 -0
memos/memos_tools/thread_safe_dict.py +310 -0
memos/memos_tools/thread_safe_dict_segment.py +382 -0
memos/multi_mem_cube/__init__.py +0 -0
memos/multi_mem_cube/composite_cube.py +86 -0
memos/multi_mem_cube/single_cube.py +874 -0
memos/multi_mem_cube/views.py +54 -0
memos/parsers/__init__.py +0 -0
memos/parsers/base.py +15 -0
memos/parsers/factory.py +21 -0
memos/parsers/markitdown.py +28 -0
memos/reranker/__init__.py +4 -0
memos/reranker/base.py +25 -0
memos/reranker/concat.py +103 -0
memos/reranker/cosine_local.py +102 -0
memos/reranker/factory.py +72 -0
memos/reranker/http_bge.py +324 -0
memos/reranker/http_bge_strategy.py +327 -0
memos/reranker/noop.py +19 -0
memos/reranker/strategies/__init__.py +4 -0
memos/reranker/strategies/base.py +61 -0
memos/reranker/strategies/concat_background.py +94 -0
memos/reranker/strategies/concat_docsource.py +110 -0
memos/reranker/strategies/dialogue_common.py +109 -0
memos/reranker/strategies/factory.py +31 -0
memos/reranker/strategies/single_turn.py +107 -0
memos/reranker/strategies/singleturn_outmem.py +98 -0
memos/settings.py +10 -0
memos/templates/__init__.py +0 -0
memos/templates/advanced_search_prompts.py +211 -0
memos/templates/cloud_service_prompt.py +107 -0
memos/templates/instruction_completion.py +66 -0
memos/templates/mem_agent_prompts.py +85 -0
memos/templates/mem_feedback_prompts.py +822 -0
memos/templates/mem_reader_prompts.py +1096 -0
memos/templates/mem_reader_strategy_prompts.py +238 -0
memos/templates/mem_scheduler_prompts.py +626 -0
memos/templates/mem_search_prompts.py +93 -0
memos/templates/mos_prompts.py +403 -0
memos/templates/prefer_complete_prompt.py +735 -0
memos/templates/tool_mem_prompts.py +139 -0
memos/templates/tree_reorganize_prompts.py +230 -0
memos/types/__init__.py +34 -0
memos/types/general_types.py +151 -0
memos/types/openai_chat_completion_types/__init__.py +15 -0
memos/types/openai_chat_completion_types/chat_completion_assistant_message_param.py +56 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_image_param.py +27 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_input_audio_param.py +23 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_param.py +43 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_refusal_param.py +16 -0
memos/types/openai_chat_completion_types/chat_completion_content_part_text_param.py +16 -0
memos/types/openai_chat_completion_types/chat_completion_message_custom_tool_call_param.py +27 -0
memos/types/openai_chat_completion_types/chat_completion_message_function_tool_call_param.py +32 -0
memos/types/openai_chat_completion_types/chat_completion_message_param.py +18 -0
memos/types/openai_chat_completion_types/chat_completion_message_tool_call_union_param.py +15 -0
memos/types/openai_chat_completion_types/chat_completion_system_message_param.py +36 -0
memos/types/openai_chat_completion_types/chat_completion_tool_message_param.py +30 -0
memos/types/openai_chat_completion_types/chat_completion_user_message_param.py +34 -0
memos/utils.py +123 -0
memos/vec_dbs/__init__.py +0 -0
memos/vec_dbs/base.py +117 -0
memos/vec_dbs/factory.py +23 -0
memos/vec_dbs/item.py +50 -0
memos/vec_dbs/milvus.py +654 -0
memos/vec_dbs/qdrant.py +355 -0

memos/memories/textual/prefer_text_memory/spliter.py ADDED Viewed

@@ -0,0 +1,132 @@
+import copy
+from memos.chunkers import ChunkerFactory
+from memos.configs.chunker import ChunkerConfigFactory
+from memos.configs.parser import ParserConfigFactory
+from memos.parsers.factory import ParserFactory
+from memos.types import MessageList
+class Splitter:
+    """Splitter."""
+    def __init__(
+        self,
+        lookback_turns: int = 1,
+        chunk_size: int = 256,
+        chunk_overlap: int = 128,
+        min_sentences_per_chunk: int = 1,
+        tokenizer: str = "gpt2",
+        parser_backend: str = "markitdown",
+        chunker_backend: str = "sentence",
+    ):
+        """Initialize the splitter."""
+        self.lookback_turns = lookback_turns
+        self.chunk_size = chunk_size
+        self.chunk_overlap = chunk_overlap
+        self.min_sentences_per_chunk = min_sentences_per_chunk
+        self.tokenizer = tokenizer
+        self.chunker_backend = chunker_backend
+        self.parser_backend = parser_backend
+        # Initialize parser
+        parser_config = ParserConfigFactory.model_validate(
+            {
+                "backend": self.parser_backend,
+                "config": {},
+            }
+        )
+        self.parser = ParserFactory.from_config(parser_config)
+        # Initialize chunker
+        chunker_config = ChunkerConfigFactory.model_validate(
+            {
+                "backend": self.chunker_backend,
+                "config": {
+                    "tokenizer_or_token_counter": self.tokenizer,
+                    "chunk_size": self.chunk_size,
+                    "chunk_overlap": self.chunk_overlap,
+                    "min_sentences_per_chunk": self.min_sentences_per_chunk,
+                },
+            }
+        )
+        self.chunker = ChunkerFactory.from_config(chunker_config)
+    def _split_with_lookback(self, data: MessageList) -> list[MessageList]:
+        """Split the messages or files into chunks by looking back fixed number of turns.
+        adjacent chunk with high duplicate rate,
+        default lookback turns is 1, only current turn in chunk"""
+        # Build QA pairs from chat history
+        pairs = self.build_qa_pairs(data)
+        chunks = []
+        # Create chunks by looking back fixed number of turns
+        for i in range(len(pairs)):
+            # Calculate the start index for lookback
+            start_idx = max(0, i + 1 - self.lookback_turns)
+            # Get the chunk of pairs (as many as available, up to lookback_turns)
+            chunk_pairs = pairs[start_idx : i + 1]
+            # Flatten chunk_pairs (list[list[dict]]) to MessageList (list[dict])
+            chunk_messages = []
+            for pair in chunk_pairs:
+                chunk_messages.extend(pair)
+            chunks.append(chunk_messages)
+        return chunks
+    def _split_with_overlap(self, data: MessageList) -> list[MessageList]:
+        """split the messages or files into chunks with overlap.
+        adjacent chunk with low duplicate rate"""
+        chunks = []
+        chunk = []
+        for i, item in enumerate(data):
+            chunk.append(item)
+            # 5 turns (Q + A = 10) each chunk
+            if len(chunk) >= 10:
+                chunks.append(chunk)
+                # overlap 1 turns (Q + A = 2)
+                context = copy.deepcopy(chunk[-2:]) if i + 1 < len(data) else []
+                chunk = context
+        if chunk:
+            chunks.append(chunk)
+        return chunks
+    def split_chunks(self, data: MessageList | str, **kwargs) -> list[MessageList] | list[str]:
+        """Split the messages or files into chunks.
+        Args:
+            data: MessageList or string to split
+        Returns:
+            List of MessageList chunks or list of string chunks
+        """
+        if isinstance(data, list):
+            if kwargs.get("split_type") == "lookback":
+                chunks = self._split_with_lookback(data)
+            elif kwargs.get("split_type") == "overlap":
+                chunks = self._split_with_overlap(data)
+            return chunks
+        else:
+            # Parse and chunk the string data using pre-initialized components
+            text = self.parser.parse(data)
+            chunks = self.chunker.chunk(text)
+            return [chunk.text for chunk in chunks]
+    def build_qa_pairs(self, chat_history: MessageList) -> list[MessageList]:
+        """Build QA pairs from chat history."""
+        qa_pairs = []
+        current_qa_pair = []
+        for message in chat_history:
+            if message["role"] == "user":
+                current_qa_pair.append(message)
+            elif message["role"] == "assistant":
+                if not current_qa_pair:
+                    continue
+                current_qa_pair.append(message)
+                qa_pairs.append(current_qa_pair.copy())
+                current_qa_pair = []  # reset
+        return qa_pairs

memos/memories/textual/prefer_text_memory/utils.py ADDED Viewed

@@ -0,0 +1,93 @@
+import json
+import re
+from memos.dependency import require_python_package
+from memos.memories.textual.item import TextualMemoryItem
+from memos.types import MessageList
+def convert_messages_to_string(messages: MessageList) -> str:
+    """Convert a list of messages to a string."""
+    message_text = ""
+    for message in messages:
+        content = message.get("content", "")
+        content = (
+            content.strip()
+            if isinstance(content, str)
+            else json.dumps(content, ensure_ascii=False).strip()
+        )
+        if message["role"] == "system":
+            continue
+        if message["role"] == "user":
+            message_text += f"User: {content}\n" if content else ""
+        elif message["role"] == "assistant":
+            tool_calls = message.get("tool_calls", [])
+            tool_calls_str = (
+                f"[tool_calls]: {json.dumps(tool_calls, ensure_ascii=False)}" if tool_calls else ""
+            )
+            line_str = (
+                f"Assistant: {content} {tool_calls_str}".strip()
+                if content or tool_calls_str
+                else ""
+            )
+            message_text += f"{line_str}\n" if line_str else ""
+        elif message["role"] == "tool":
+            tool_call_id = message.get("tool_call_id", "")
+            line_str = (
+                f"Tool: {content} [tool_call_id]: {tool_call_id}".strip()
+                if tool_call_id
+                else f"Tool: {content}".strip()
+            )
+            message_text += f"{line_str}\n" if line_str else ""
+    return message_text.strip()
+@require_python_package(
+    import_name="datasketch",
+    install_command="pip install datasketch",
+    install_link="https://github.com/ekzhu/datasketch",
+)
+def deduplicate_preferences(
+    prefs: list[TextualMemoryItem], similarity_threshold: float = 0.6, num_perm: int = 256
+) -> list[TextualMemoryItem]:
+    """
+    Deduplicate preference texts using MinHash algorithm.
+    Args:
+        prefs: List of preference memory items to deduplicate
+        similarity_threshold: Jaccard similarity threshold (0.0-1.0), default 0.8
+    Returns:
+        Deduplicated list of preference items
+    """
+    from datasketch import MinHash, MinHashLSH
+    if not prefs:
+        return prefs
+    # Use MinHashLSH for efficient similarity search
+    lsh = MinHashLSH(threshold=similarity_threshold, num_perm=num_perm)
+    unique_prefs = []
+    for i, pref in enumerate(prefs):
+        # Extract preference text
+        if hasattr(pref.metadata, "preference") and pref.metadata.preference:
+            text = pref.metadata.preference
+        else:
+            text = pref.memory
+        # Create MinHash from text tokens
+        minhash = MinHash(num_perm=num_perm)
+        # Simple tokenization: split by whitespace and clean
+        tokens = re.findall(r"\w+", text.lower())
+        for token in tokens:
+            minhash.update(token.encode("utf8"))
+        # Check for duplicates using LSH
+        similar_items = lsh.query(minhash)
+        if not similar_items:  # No similar items found
+            lsh.insert(i, minhash)
+            unique_prefs.append(pref)
+    return unique_prefs

memos/memories/textual/preference.py ADDED Viewed

@@ -0,0 +1,344 @@
+import json
+import os
+from datetime import datetime
+from typing import Any
+from memos.configs.memory import PreferenceTextMemoryConfig
+from memos.embedders.factory import (
+    ArkEmbedder,
+    EmbedderFactory,
+    OllamaEmbedder,
+    SenTranEmbedder,
+    UniversalAPIEmbedder,
+)
+from memos.llms.factory import AzureLLM, LLMFactory, OllamaLLM, OpenAILLM
+from memos.log import get_logger
+from memos.memories.textual.base import BaseTextMemory
+from memos.memories.textual.item import PreferenceTextualMemoryMetadata, TextualMemoryItem
+from memos.memories.textual.prefer_text_memory.factory import (
+    AdderFactory,
+    ExtractorFactory,
+    RetrieverFactory,
+)
+from memos.reranker.factory import RerankerFactory
+from memos.types import MessageList
+from memos.vec_dbs.factory import MilvusVecDB, QdrantVecDB, VecDBFactory
+from memos.vec_dbs.item import VecDBItem
+logger = get_logger(__name__)
+class PreferenceTextMemory(BaseTextMemory):
+    """Preference textual memory implementation for storing and retrieving memories."""
+    def __init__(self, config: PreferenceTextMemoryConfig):
+        """Initialize memory with the given configuration."""
+        self.config: PreferenceTextMemoryConfig = config
+        self.extractor_llm: OpenAILLM | OllamaLLM | AzureLLM = LLMFactory.from_config(
+            config.extractor_llm
+        )
+        self.vector_db: MilvusVecDB | QdrantVecDB = VecDBFactory.from_config(config.vector_db)
+        self.embedder: OllamaEmbedder | ArkEmbedder | SenTranEmbedder | UniversalAPIEmbedder = (
+            EmbedderFactory.from_config(config.embedder)
+        )
+        self.reranker = RerankerFactory.from_config(config.reranker)
+        self.extractor = ExtractorFactory.from_config(
+            config.extractor,
+            llm_provider=self.extractor_llm,
+            embedder=self.embedder,
+            vector_db=self.vector_db,
+        )
+        self.adder = AdderFactory.from_config(
+            config.adder,
+            llm_provider=self.extractor_llm,
+            embedder=self.embedder,
+            vector_db=self.vector_db,
+        )
+        self.retriever = RetrieverFactory.from_config(
+            config.retriever,
+            llm_provider=self.extractor_llm,
+            embedder=self.embedder,
+            reranker=self.reranker,
+            vector_db=self.vector_db,
+        )
+    def get_memory(
+        self, messages: list[MessageList], type: str, info: dict[str, Any]
+    ) -> list[TextualMemoryItem]:
+        """Get memory based on the messages.
+        Args:
+            messages (list[MessageList]): The messages to get memory from.
+            type (str): The type of memory to get.
+            info (dict[str, Any]): The info to get memory.
+        """
+        return self.extractor.extract(messages, type, info)
+    def search(
+        self, query: str, top_k: int, info=None, search_filter=None, **kwargs
+    ) -> list[TextualMemoryItem]:
+        """Search for memories based on a query.
+        Args:
+            query (str): The query to search for.
+            top_k (int): The number of top results to return.
+            info (dict): Leave a record of memory consumption.
+        Returns:
+            list[TextualMemoryItem]: List of matching memories.
+        """
+        if not isinstance(search_filter, dict):
+            search_filter = {}
+        search_filter.update({"status": "activated"})
+        logger.info(f"search_filter for preference memory: {search_filter}")
+        return self.retriever.retrieve(query, top_k, info, search_filter)
+    def load(self, dir: str) -> None:
+        """Load memories from the specified directory.
+        Args:
+            dir (str): The directory containing the memory files.
+        """
+        # For preference memory, we don't need to load from files
+        # as the data is stored in the vector database
+        try:
+            memory_file = os.path.join(dir, self.config.memory_filename)
+            if not os.path.exists(memory_file):
+                logger.warning(f"Memory file not found: {memory_file}")
+                return
+            with open(memory_file, encoding="utf-8") as f:
+                memories = json.load(f)
+            for collection_name, items in memories.items():
+                vec_db_items = [VecDBItem.from_dict(m) for m in items]
+                self.vector_db.add(collection_name, vec_db_items)
+                logger.info(f"Loaded {len(items)} memories from {collection_name} in {memory_file}")
+        except FileNotFoundError:
+            logger.error(f"Memory file not found in directory: {dir}")
+        except json.JSONDecodeError as e:
+            if e.pos == 0 and "Expecting value" in str(e):
+                logger.warning(f"Memory file is empty or contains only whitespace: {memory_file}")
+            else:
+                logger.error(f"Error decoding JSON from memory file: {e}")
+        except Exception as e:
+            logger.error(f"An error occurred while loading memories: {e}")
+    def dump(self, dir: str) -> None:
+        """Dump memories to the specified directory.
+        Args:
+            dir (str): The directory where the memory files will be saved.
+        """
+        # For preference memory, we don't need to dump to files
+        # as the data is stored in the vector database
+        try:
+            json_memories = {}
+            for collection_name in self.vector_db.config.collection_name:
+                items = self.vector_db.get_all(collection_name)
+                json_memories[collection_name] = [memory.to_dict() for memory in items]
+            os.makedirs(dir, exist_ok=True)
+            memory_file = os.path.join(dir, self.config.memory_filename)
+            with open(memory_file, "w", encoding="utf-8") as f:
+                json.dump(json_memories, f, indent=4, ensure_ascii=False)
+            logger.info(
+                f"Dumped {len(json_memories)} collections, {sum(len(items) for items in json_memories.values())} memories to {memory_file}"
+            )
+        except Exception as e:
+            logger.error(f"An error occurred while dumping memories: {e}")
+            raise
+    def extract(self, messages: MessageList) -> list[TextualMemoryItem]:
+        """Extract memories based on the messages.
+        Args:
+            messages (MessageList): The messages to extract memories from.
+        Returns:
+            list[TextualMemoryItem]: List of extracted memory items.
+        """
+        raise NotImplementedError
+    def add(self, memories: list[TextualMemoryItem | dict[str, Any]]) -> list[str]:
+        """Add memories.
+        Args:
+            memories: List of TextualMemoryItem objects or dictionaries to add.
+        """
+        return self.adder.add(memories)
+    def update(self, memory_id: str, new_memory: TextualMemoryItem | dict[str, Any]) -> None:
+        """Update a memory by memory_id."""
+        raise NotImplementedError
+    def get(self, memory_id: str, user_name: str | None = None) -> TextualMemoryItem:
+        """Get a memory by its ID.
+        Args:
+            memory_id (str): The ID of the memory to retrieve.
+        Returns:
+            TextualMemoryItem: The memory with the given ID.
+        """
+        raise NotImplementedError
+    def get_with_collection_name(
+        self, collection_name: str, memory_id: str
+    ) -> TextualMemoryItem | None:
+        """Get a memory by its ID and collection name.
+        Args:
+            memory_id (str): The ID of the memory to retrieve.
+            collection_name (str): The name of the collection to retrieve the memory from.
+        Returns:
+            TextualMemoryItem: The memory with the given ID and collection name.
+        """
+        try:
+            res = self.vector_db.get_by_id(collection_name, memory_id)
+            if res is None:
+                return None
+            return TextualMemoryItem(
+                id=res.id,
+                memory=res.memory,
+                metadata=PreferenceTextualMemoryMetadata(**res.payload),
+            )
+        except Exception as e:
+            # Convert any other exception to ValueError for consistent error handling
+            raise ValueError(
+                f"Memory with ID {memory_id} not found in collection {collection_name}: {e}"
+            ) from e
+    def get_by_ids(self, memory_ids: list[str]) -> list[TextualMemoryItem]:
+        """Get memories by their IDs.
+        Args:
+            memory_ids (list[str]): List of memory IDs to retrieve.
+        Returns:
+            list[TextualMemoryItem]: List of memories with the specified IDs.
+        """
+        raise NotImplementedError
+    def get_by_ids_with_collection_name(
+        self, collection_name: str, memory_ids: list[str]
+    ) -> list[TextualMemoryItem]:
+        """Get memories by their IDs and collection name.
+        Args:
+            collection_name (str): The name of the collection to retrieve the memory from.
+            memory_ids (list[str]): List of memory IDs to retrieve.
+        Returns:
+            list[TextualMemoryItem]: List of memories with the specified IDs and collection name.
+        """
+        try:
+            res = self.vector_db.get_by_ids(collection_name, memory_ids)
+            if not res:
+                return []
+            return [
+                TextualMemoryItem(
+                    id=memo.id,
+                    memory=memo.memory,
+                    metadata=PreferenceTextualMemoryMetadata(**memo.payload),
+                )
+                for memo in res
+            ]
+        except Exception as e:
+            # Convert any other exception to ValueError for consistent error handling
+            raise ValueError(
+                f"Memory with IDs {memory_ids} not found in collection {collection_name}: {e}"
+            ) from e
+    def get_all(self) -> list[TextualMemoryItem]:
+        """Get all memories.
+        Returns:
+            list[TextualMemoryItem]: List of all memories.
+        """
+        all_collections = ["explicit_preference", "implicit_preference"]
+        all_memories = {}
+        for collection_name in all_collections:
+            items = self.vector_db.get_all(collection_name)
+            all_memories[collection_name] = [
+                TextualMemoryItem(
+                    id=memo.id,
+                    memory=memo.memory,
+                    metadata=PreferenceTextualMemoryMetadata(**memo.payload),
+                )
+                for memo in items
+            ]
+        return all_memories
+    def get_memory_by_filter(
+        self,
+        filter: dict[str, Any] | None = None,
+        page: int | None = None,
+        page_size: int | None = None,
+    ):
+        """Get memories by filter.
+        Args:
+            filter (dict[str, Any]): Filter criteria.
+        Returns:
+            list[TextualMemoryItem]: List of memories that match the filter.
+        """
+        collection_list = self.vector_db.config.collection_name
+        memories = []
+        for collection_name in collection_list:
+            db_items = self.vector_db.get_by_filter(collection_name=collection_name, filter=filter)
+            db_items_memory = [
+                TextualMemoryItem(
+                    id=memo.id,
+                    memory=memo.memory,
+                    metadata=PreferenceTextualMemoryMetadata(**memo.payload),
+                )
+                for memo in db_items
+            ]
+            memories.extend(db_items_memory)
+        # sort
+        sorted_memories = sorted(
+            memories,
+            key=lambda item: datetime.fromisoformat(item.metadata.created_at),
+            reverse=True,
+        )
+        if page and page_size:
+            if page < 1:
+                page = 1
+            if page_size < 1:
+                page_size = 10
+            pick_memories = sorted_memories[(page - 1) * page_size : page * page_size]
+            return pick_memories, len(sorted_memories)
+        return sorted_memories, len(sorted_memories)
+    def delete(self, memory_ids: list[str]) -> None:
+        """Delete memories.
+        Args:
+            memory_ids (list[str]): List of memory IDs to delete.
+        """
+        collection_list = self.vector_db.config.collection_name
+        for collection_name in collection_list:
+            self.vector_db.delete(collection_name, memory_ids)
+    def delete_by_filter(self, filter: dict[str, Any]) -> None:
+        """Delete memories by filter.
+        Args:
+            filter (dict[str, Any]): Filter criteria.
+        """
+        collection_list = self.vector_db.config.collection_name
+        for collection_name in collection_list:
+            self.vector_db.delete_by_filter(collection_name=collection_name, filter=filter)
+    def delete_with_collection_name(self, collection_name: str, memory_ids: list[str]) -> None:
+        """Delete memories by their IDs and collection name.
+        Args:
+            collection_name (str): The name of the collection to delete the memory from.
+            memory_ids (list[str]): List of memory IDs to delete.
+        """
+        self.vector_db.delete(collection_name, memory_ids)
+    def delete_all(self) -> None:
+        """Delete all memories."""
+        for collection_name in self.vector_db.config.collection_name:
+            self.vector_db.delete_collection(collection_name)
+        self.vector_db.create_collection()
+    def drop(
+        self,
+    ) -> None:
+        """Drop all databases."""
+        raise NotImplementedError