PyPI - signalwire-agents - Versions diffs - 0.1.13__py3-none-any.whl → 1.0.17.dev4__py3-none-any.whl - Mend

signalwire-agents 0.1.13py3-none-any.whl → 1.0.17.dev4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (143) hide show

signalwire_agents/__init__.py +99 -15
signalwire_agents/agent_server.py +248 -60
signalwire_agents/agents/bedrock.py +296 -0
signalwire_agents/cli/__init__.py +9 -0
signalwire_agents/cli/build_search.py +951 -41
signalwire_agents/cli/config.py +80 -0
signalwire_agents/cli/core/__init__.py +10 -0
signalwire_agents/cli/core/agent_loader.py +470 -0
signalwire_agents/cli/core/argparse_helpers.py +179 -0
signalwire_agents/cli/core/dynamic_config.py +71 -0
signalwire_agents/cli/core/service_loader.py +303 -0
signalwire_agents/cli/dokku.py +2320 -0
signalwire_agents/cli/execution/__init__.py +10 -0
signalwire_agents/cli/execution/datamap_exec.py +446 -0
signalwire_agents/cli/execution/webhook_exec.py +134 -0
signalwire_agents/cli/init_project.py +2636 -0
signalwire_agents/cli/output/__init__.py +10 -0
signalwire_agents/cli/output/output_formatter.py +255 -0
signalwire_agents/cli/output/swml_dump.py +186 -0
signalwire_agents/cli/simulation/__init__.py +10 -0
signalwire_agents/cli/simulation/data_generation.py +374 -0
signalwire_agents/cli/simulation/data_overrides.py +200 -0
signalwire_agents/cli/simulation/mock_env.py +282 -0
signalwire_agents/cli/swaig_test_wrapper.py +52 -0
signalwire_agents/cli/test_swaig.py +566 -2366
signalwire_agents/cli/types.py +81 -0
signalwire_agents/core/__init__.py +2 -2
signalwire_agents/core/agent/__init__.py +12 -0
signalwire_agents/core/agent/config/__init__.py +12 -0
signalwire_agents/core/agent/deployment/__init__.py +9 -0
signalwire_agents/core/agent/deployment/handlers/__init__.py +9 -0
signalwire_agents/core/agent/prompt/__init__.py +14 -0
signalwire_agents/core/agent/prompt/manager.py +306 -0
signalwire_agents/core/agent/routing/__init__.py +9 -0
signalwire_agents/core/agent/security/__init__.py +9 -0
signalwire_agents/core/agent/swml/__init__.py +9 -0
signalwire_agents/core/agent/tools/__init__.py +15 -0
signalwire_agents/core/agent/tools/decorator.py +97 -0
signalwire_agents/core/agent/tools/registry.py +210 -0
signalwire_agents/core/agent_base.py +845 -2916
signalwire_agents/core/auth_handler.py +233 -0
signalwire_agents/core/config_loader.py +259 -0
signalwire_agents/core/contexts.py +418 -0
signalwire_agents/core/data_map.py +3 -15
signalwire_agents/core/function_result.py +116 -44
signalwire_agents/core/logging_config.py +162 -18
signalwire_agents/core/mixins/__init__.py +28 -0
signalwire_agents/core/mixins/ai_config_mixin.py +442 -0
signalwire_agents/core/mixins/auth_mixin.py +280 -0
signalwire_agents/core/mixins/prompt_mixin.py +358 -0
signalwire_agents/core/mixins/serverless_mixin.py +460 -0
signalwire_agents/core/mixins/skill_mixin.py +55 -0
signalwire_agents/core/mixins/state_mixin.py +153 -0
signalwire_agents/core/mixins/tool_mixin.py +230 -0
signalwire_agents/core/mixins/web_mixin.py +1142 -0
signalwire_agents/core/security_config.py +333 -0
signalwire_agents/core/skill_base.py +84 -1
signalwire_agents/core/skill_manager.py +62 -20
signalwire_agents/core/swaig_function.py +18 -5
signalwire_agents/core/swml_builder.py +207 -11
signalwire_agents/core/swml_handler.py +27 -21
signalwire_agents/core/swml_renderer.py +123 -312
signalwire_agents/core/swml_service.py +171 -203
signalwire_agents/mcp_gateway/__init__.py +29 -0
signalwire_agents/mcp_gateway/gateway_service.py +564 -0
signalwire_agents/mcp_gateway/mcp_manager.py +513 -0
signalwire_agents/mcp_gateway/session_manager.py +218 -0
signalwire_agents/prefabs/concierge.py +0 -3
signalwire_agents/prefabs/faq_bot.py +0 -3
signalwire_agents/prefabs/info_gatherer.py +0 -3
signalwire_agents/prefabs/receptionist.py +0 -3
signalwire_agents/prefabs/survey.py +0 -3
signalwire_agents/schema.json +9218 -5489
signalwire_agents/search/__init__.py +7 -1
signalwire_agents/search/document_processor.py +490 -31
signalwire_agents/search/index_builder.py +307 -37
signalwire_agents/search/migration.py +418 -0
signalwire_agents/search/models.py +30 -0
signalwire_agents/search/pgvector_backend.py +748 -0
signalwire_agents/search/query_processor.py +162 -31
signalwire_agents/search/search_engine.py +916 -35
signalwire_agents/search/search_service.py +376 -53
signalwire_agents/skills/README.md +452 -0
signalwire_agents/skills/__init__.py +14 -2
signalwire_agents/skills/api_ninjas_trivia/README.md +215 -0
signalwire_agents/skills/api_ninjas_trivia/__init__.py +12 -0
signalwire_agents/skills/api_ninjas_trivia/skill.py +237 -0
signalwire_agents/skills/datasphere/README.md +210 -0
signalwire_agents/skills/datasphere/skill.py +84 -3
signalwire_agents/skills/datasphere_serverless/README.md +258 -0
signalwire_agents/skills/datasphere_serverless/__init__.py +9 -0
signalwire_agents/skills/datasphere_serverless/skill.py +82 -1
signalwire_agents/skills/datetime/README.md +132 -0
signalwire_agents/skills/datetime/__init__.py +9 -0
signalwire_agents/skills/datetime/skill.py +20 -7
signalwire_agents/skills/joke/README.md +149 -0
signalwire_agents/skills/joke/__init__.py +9 -0
signalwire_agents/skills/joke/skill.py +21 -0
signalwire_agents/skills/math/README.md +161 -0
signalwire_agents/skills/math/__init__.py +9 -0
signalwire_agents/skills/math/skill.py +18 -4
signalwire_agents/skills/mcp_gateway/README.md +230 -0
signalwire_agents/skills/mcp_gateway/__init__.py +10 -0
signalwire_agents/skills/mcp_gateway/skill.py +421 -0
signalwire_agents/skills/native_vector_search/README.md +210 -0
signalwire_agents/skills/native_vector_search/__init__.py +9 -0
signalwire_agents/skills/native_vector_search/skill.py +569 -101
signalwire_agents/skills/play_background_file/README.md +218 -0
signalwire_agents/skills/play_background_file/__init__.py +12 -0
signalwire_agents/skills/play_background_file/skill.py +242 -0
signalwire_agents/skills/registry.py +395 -40
signalwire_agents/skills/spider/README.md +236 -0
signalwire_agents/skills/spider/__init__.py +13 -0
signalwire_agents/skills/spider/skill.py +598 -0
signalwire_agents/skills/swml_transfer/README.md +395 -0
signalwire_agents/skills/swml_transfer/__init__.py +10 -0
signalwire_agents/skills/swml_transfer/skill.py +359 -0
signalwire_agents/skills/weather_api/README.md +178 -0
signalwire_agents/skills/weather_api/__init__.py +12 -0
signalwire_agents/skills/weather_api/skill.py +191 -0
signalwire_agents/skills/web_search/README.md +163 -0
signalwire_agents/skills/web_search/__init__.py +9 -0
signalwire_agents/skills/web_search/skill.py +586 -112
signalwire_agents/skills/wikipedia_search/README.md +228 -0
signalwire_agents/{core/state → skills/wikipedia_search}/__init__.py +5 -4
signalwire_agents/skills/{wikipedia → wikipedia_search}/skill.py +33 -3
signalwire_agents/web/__init__.py +17 -0
signalwire_agents/web/web_service.py +559 -0
signalwire_agents-1.0.17.dev4.data/data/share/man/man1/sw-agent-init.1 +400 -0
signalwire_agents-1.0.17.dev4.data/data/share/man/man1/sw-search.1 +483 -0
signalwire_agents-1.0.17.dev4.data/data/share/man/man1/swaig-test.1 +308 -0
{signalwire_agents-0.1.13.dist-info → signalwire_agents-1.0.17.dev4.dist-info}/METADATA +347 -215
signalwire_agents-1.0.17.dev4.dist-info/RECORD +147 -0
signalwire_agents-1.0.17.dev4.dist-info/entry_points.txt +6 -0
signalwire_agents/core/state/file_state_manager.py +0 -219
signalwire_agents/core/state/state_manager.py +0 -101
signalwire_agents/skills/wikipedia/__init__.py +0 -9
signalwire_agents-0.1.13.data/data/schema.json +0 -5611
signalwire_agents-0.1.13.dist-info/RECORD +0 -67
signalwire_agents-0.1.13.dist-info/entry_points.txt +0 -3
{signalwire_agents-0.1.13.dist-info → signalwire_agents-1.0.17.dev4.dist-info}/WHEEL +0 -0
{signalwire_agents-0.1.13.dist-info → signalwire_agents-1.0.17.dev4.dist-info}/licenses/LICENSE +0 -0
{signalwire_agents-0.1.13.dist-info → signalwire_agents-1.0.17.dev4.dist-info}/top_level.txt +0 -0

signalwire_agents/search/index_builder.py CHANGED Viewed

@@ -35,29 +35,117 @@ logger = logging.getLogger(__name__)
 class IndexBuilder:
     """Build searchable indexes from document directories"""
-    def __init__(self, model_name: str = 'sentence-transformers/all-mpnet-base-v2',
-                 chunking_strategy: str = 'sentence',
-                 max_sentences_per_chunk: int = 50,
-                 chunk_size: int = 50,
-                 chunk_overlap: int = 10,
-                 split_newlines: Optional[int] = None,
-                 verbose: bool = False):
+    def __init__(
+        self,
+        model_name: str = 'sentence-transformers/all-mpnet-base-v2',
+        chunking_strategy: str = 'sentence',
+        max_sentences_per_chunk: int = 5,
+        chunk_size: int = 50,
+        chunk_overlap: int = 10,
+        split_newlines: Optional[int] = None,
+        index_nlp_backend: str = 'nltk',
+        verbose: bool = False,
+        semantic_threshold: float = 0.5,
+        topic_threshold: float = 0.3,
+        backend: str = 'sqlite',
+        connection_string: Optional[str] = None
+    ):
+        """
+        Initialize the index builder
+        Args:
+            model_name: Name of the sentence transformer model to use
+            chunking_strategy: Strategy for chunking documents ('sentence', 'sliding', 'paragraph', 'page', 'semantic', 'topic', 'qa', 'json')
+            max_sentences_per_chunk: For sentence strategy (default: 5)
+            chunk_size: For sliding strategy - words per chunk (default: 50)
+            chunk_overlap: For sliding strategy - overlap in words (default: 10)
+            split_newlines: For sentence strategy - split on multiple newlines (optional)
+            index_nlp_backend: NLP backend for indexing (default: 'nltk')
+            verbose: Whether to enable verbose logging (default: False)
+            semantic_threshold: Similarity threshold for semantic chunking (default: 0.5)
+            topic_threshold: Similarity threshold for topic chunking (default: 0.3)
+            backend: Storage backend ('sqlite' or 'pgvector') (default: 'sqlite')
+            connection_string: PostgreSQL connection string for pgvector backend
+        """
         self.model_name = model_name
         self.chunking_strategy = chunking_strategy
         self.max_sentences_per_chunk = max_sentences_per_chunk
         self.chunk_size = chunk_size
         self.chunk_overlap = chunk_overlap
         self.split_newlines = split_newlines
+        self.index_nlp_backend = index_nlp_backend
         self.verbose = verbose
+        self.semantic_threshold = semantic_threshold
+        self.topic_threshold = topic_threshold
+        self.backend = backend
+        self.connection_string = connection_string
         self.model = None
+        # Validate backend
+        if self.backend not in ['sqlite', 'pgvector']:
+            raise ValueError(f"Invalid backend '{self.backend}'. Must be 'sqlite' or 'pgvector'")
+        # Validate NLP backend
+        if self.index_nlp_backend not in ['nltk', 'spacy']:
+            logger.warning(f"Invalid index_nlp_backend '{self.index_nlp_backend}', using 'nltk'")
+            self.index_nlp_backend = 'nltk'
         self.doc_processor = DocumentProcessor(
             chunking_strategy=chunking_strategy,
             max_sentences_per_chunk=max_sentences_per_chunk,
             chunk_size=chunk_size,
-            overlap_size=chunk_overlap,
-            split_newlines=split_newlines
+            chunk_overlap=chunk_overlap,
+            split_newlines=split_newlines,
+            index_nlp_backend=self.index_nlp_backend,
+            verbose=self.verbose,
+            semantic_threshold=self.semantic_threshold,
+            topic_threshold=self.topic_threshold
         )
+    def _extract_metadata_from_json_content(self, content: str) -> tuple[Dict[str, Any], str]:
+        """
+        Extract metadata from JSON content if present
+        Returns:
+            (metadata_dict, metadata_text)
+        """
+        metadata_dict = {}
+        # Try to extract metadata from JSON structure in content
+        if '"metadata":' in content:
+            try:
+                # Look for metadata object in content
+                import re
+                # Find all metadata objects
+                pattern = r'"metadata"\s*:\s*(\{[^{}]*(?:\{[^{}]*\}[^{}]*)*\})'
+                matches = re.finditer(pattern, content)
+                for match in matches:
+                    try:
+                        json_metadata = json.loads(match.group(1))
+                        # Merge all found metadata
+                        if isinstance(json_metadata, dict):
+                            metadata_dict.update(json_metadata)
+                    except:
+                        pass
+            except Exception as e:
+                logger.debug(f"Error extracting JSON metadata: {e}")
+        # Create searchable text from all metadata keys and values
+        metadata_text_parts = []
+        for key, value in metadata_dict.items():
+            # Add key
+            metadata_text_parts.append(str(key))
+            # Add value(s)
+            if isinstance(value, list):
+                metadata_text_parts.extend(str(v) for v in value)
+            else:
+                metadata_text_parts.append(str(value))
+        metadata_text = ' '.join(metadata_text_parts).lower()
+        return metadata_dict, metadata_text
     def _load_model(self):
         """Load embedding model (lazy loading)"""
         if self.model is None:
@@ -75,7 +163,8 @@ class IndexBuilder:
     def build_index_from_sources(self, sources: List[Path], output_file: str,
                                 file_types: List[str], exclude_patterns: Optional[List[str]] = None,
-                                languages: List[str] = None, tags: Optional[List[str]] = None):
+                                languages: List[str] = None, tags: Optional[List[str]] = None,
+                                overwrite: bool = False):
         """
         Build complete search index from multiple sources (files and directories)
@@ -99,6 +188,7 @@ class IndexBuilder:
         # Process documents
         chunks = []
+        print(f"Processing {len(files)} files...")
         for file_path in files:
             try:
                 # For individual files, use the file's parent as the base directory
@@ -106,8 +196,8 @@ class IndexBuilder:
                 base_dir = self._get_base_directory_for_file(file_path, sources)
                 file_chunks = self._process_file(file_path, base_dir, tags)
                 chunks.extend(file_chunks)
-                if self.verbose:
-                    print(f"Processed {file_path}: {len(file_chunks)} chunks")
+                if self.verbose or file_path.suffix == '.json':
+                    print(f"  {file_path}: {len(file_chunks)} chunks")
             except Exception as e:
                 logger.error(f"Error processing {file_path}: {e}")
                 if self.verbose:
@@ -123,26 +213,47 @@ class IndexBuilder:
         # Generate embeddings
         self._load_model()
         if self.verbose:
-            print("Generating embeddings...")
+            print(f"Generating embeddings for {len(chunks)} chunks...")
+        else:
+            print(f"Generating embeddings for {len(chunks)} chunks...")
         for i, chunk in enumerate(chunks):
             try:
                 # Preprocess content for better search
                 processed = preprocess_document_content(
                     chunk['content'],
-                    language=chunk.get('language', 'en')
+                    language=chunk.get('language', 'en'),
+                    index_nlp_backend=self.index_nlp_backend
                 )
                 chunk['processed_content'] = processed['enhanced_text']
-                chunk['keywords'] = processed.get('keywords', [])
+                # Include tags in keywords for better search matching
+                keywords = processed.get('keywords', [])
+                chunk_tags = chunk.get('tags', [])
+                if chunk_tags:
+                    # Add tags to keywords list for FTS matching
+                    keywords.extend(chunk_tags)
+                    # Remove duplicates while preserving order
+                    keywords = list(dict.fromkeys(keywords))
+                chunk['keywords'] = keywords
+                # For embedding, include tags in the text for better semantic matching
+                embedding_text = processed['enhanced_text']
+                if chunk_tags:
+                    # Append tags to the text for embedding generation
+                    embedding_text += " " + " ".join(chunk_tags)
                 # Generate embedding (suppress progress bar)
-                embedding = self.model.encode(processed['enhanced_text'], show_progress_bar=False)
+                embedding = self.model.encode(embedding_text, show_progress_bar=False)
                 chunk['embedding'] = embedding.tobytes()
-                if self.verbose and (i + 1) % 50 == 0:
+                # Show progress more frequently
+                show_every = 50 if len(chunks) > 500 else max(10, len(chunks) // 10)
+                if (i + 1) % show_every == 0 or (i + 1) == len(chunks):
                     progress_pct = ((i + 1) / len(chunks)) * 100
-                    print(f"Generated embeddings: {i + 1}/{len(chunks)} chunks ({progress_pct:.1f}%)")
+                    print(f"  Progress: {i + 1}/{len(chunks)} chunks ({progress_pct:.1f}%)")
             except Exception as e:
                 logger.error(f"Error processing chunk {i}: {e}")
@@ -156,19 +267,24 @@ class IndexBuilder:
                 else:
                     chunk['embedding'] = b''
-        # Create SQLite database
-        sources_info = [str(s) for s in sources]
-        self._create_database(output_file, chunks, languages or ['en'], sources_info, file_types)
-        if self.verbose:
-            print(f"Index created: {output_file}")
-            print(f"Total chunks: {len(chunks)}")
+        # Store chunks based on backend
+        if self.backend == 'sqlite':
+            # Create SQLite database
+            sources_info = [str(s) for s in sources]
+            self._create_database(output_file, chunks, languages or ['en'], sources_info, file_types)
+            if self.verbose:
+                print(f"Index created: {output_file}")
+                print(f"Total chunks: {len(chunks)}")
+        else:
+            # Use pgvector backend
+            self._store_chunks_pgvector(chunks, output_file, languages or ['en'], overwrite)
     def build_index(self, source_dir: str, output_file: str,
                    file_types: List[str], exclude_patterns: Optional[List[str]] = None,
                    languages: List[str] = None, tags: Optional[List[str]] = None):
         """
-        Build complete search index from a single directory (legacy method)
+        Build complete search index from a single directory
         Args:
             source_dir: Directory to scan for documents
@@ -332,16 +448,57 @@ class IndexBuilder:
                      global_tags: Optional[List[str]] = None) -> List[Dict[str, Any]]:
         """Process single file into chunks"""
         try:
-            # Try to read as text first
-            try:
-                content = file_path.read_text(encoding='utf-8')
-            except UnicodeDecodeError:
+            relative_path = str(file_path.relative_to(source_dir))
+            file_extension = file_path.suffix.lower()
+            # Handle different file types appropriately
+            if file_extension == '.pdf':
+                # Use document processor for PDF extraction
+                content_result = self.doc_processor._extract_text_from_file(str(file_path))
+                if isinstance(content_result, str) and content_result.startswith('{"error"'):
+                    if self.verbose:
+                        print(f"Skipping PDF file (extraction failed): {file_path}")
+                    return []
+                content = content_result
+            elif file_extension in ['.docx', '.xlsx', '.pptx']:
+                # Use document processor for Office documents
+                content_result = self.doc_processor._extract_text_from_file(str(file_path))
+                if isinstance(content_result, str) and content_result.startswith('{"error"'):
+                    if self.verbose:
+                        print(f"Skipping office document (extraction failed): {file_path}")
+                    return []
+                content = content_result
+            elif file_extension == '.html':
+                # Use document processor for HTML
+                content_result = self.doc_processor._extract_text_from_file(str(file_path))
+                if isinstance(content_result, str) and content_result.startswith('{"error"'):
+                    if self.verbose:
+                        print(f"Skipping HTML file (extraction failed): {file_path}")
+                    return []
+                content = content_result
+            elif file_extension == '.rtf':
+                # Use document processor for RTF
+                content_result = self.doc_processor._extract_text_from_file(str(file_path))
+                if isinstance(content_result, str) and content_result.startswith('{"error"'):
+                    if self.verbose:
+                        print(f"Skipping RTF file (extraction failed): {file_path}")
+                    return []
+                content = content_result
+            else:
+                # Try to read as text file (markdown, txt, code, etc.)
+                try:
+                    content = file_path.read_text(encoding='utf-8')
+                except UnicodeDecodeError:
+                    if self.verbose:
+                        print(f"Skipping binary file: {file_path}")
+                    return []
+            # Validate content
+            if not content or (isinstance(content, str) and len(content.strip()) == 0):
                 if self.verbose:
-                    print(f"Skipping binary file: {file_path}")
+                    print(f"Skipping empty file: {file_path}")
                 return []
-            relative_path = str(file_path.relative_to(source_dir))
             # Create chunks using document processor - pass content directly, not file path
             chunks = self.doc_processor.create_chunks(
                 content=content,  # Pass the actual content, not the file path
@@ -390,6 +547,7 @@ class IndexBuilder:
                     end_line INTEGER,
                     tags TEXT,
                     metadata TEXT,
+                    metadata_text TEXT,  -- Searchable text representation of all metadata
                     chunk_hash TEXT UNIQUE,
                     created_at TEXT DEFAULT CURRENT_TIMESTAMP
                 )
@@ -399,6 +557,7 @@ class IndexBuilder:
                 CREATE VIRTUAL TABLE chunks_fts USING fts5(
                     processed_content,
                     keywords,
+                    metadata_text,
                     content='chunks',
                     content_rowid='id'
                 )
@@ -460,13 +619,47 @@ class IndexBuilder:
                 # Prepare data
                 keywords_json = json.dumps(chunk.get('keywords', []))
                 tags_json = json.dumps(chunk.get('tags', []))
-                metadata_json = json.dumps(chunk.get('metadata', {}))
+                # Extract metadata from JSON content and merge with chunk metadata
+                json_metadata, json_metadata_text = self._extract_metadata_from_json_content(chunk['content'])
+                chunk_metadata = chunk.get('metadata', {})
+                # Merge metadata: chunk metadata takes precedence
+                merged_metadata = {**json_metadata, **chunk_metadata}
+                metadata_json = json.dumps(merged_metadata)
+                # Create comprehensive metadata_text including tags
+                metadata_text_parts = []
+                # Add metadata text from JSON content
+                if json_metadata_text:
+                    metadata_text_parts.append(json_metadata_text)
+                # Add tags
+                tags = chunk.get('tags', [])
+                if tags:
+                    metadata_text_parts.extend(str(tag).lower() for tag in tags)
+                # Add section if present
+                if chunk.get('section'):
+                    metadata_text_parts.append(chunk['section'].lower())
+                # Add any additional metadata values
+                for key, value in chunk_metadata.items():
+                    if key not in json_metadata:  # Avoid duplicates
+                        metadata_text_parts.append(str(key).lower())
+                        if isinstance(value, list):
+                            metadata_text_parts.extend(str(v).lower() for v in value)
+                        else:
+                            metadata_text_parts.append(str(value).lower())
+                metadata_text = ' '.join(metadata_text_parts)
                 cursor.execute('''
                     INSERT OR IGNORE INTO chunks (
                         content, processed_content, keywords, language, embedding,
-                        filename, section, start_line, end_line, tags, metadata, chunk_hash
-                    ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
+                        filename, section, start_line, end_line, tags, metadata, metadata_text, chunk_hash
+                    ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
                 ''', (
                     chunk['content'],
                     chunk.get('processed_content', chunk['content']),
@@ -479,6 +672,7 @@ class IndexBuilder:
                     chunk.get('end_line'),
                     tags_json,
                     metadata_json,
+                    metadata_text,
                     chunk_hash
                 ))
@@ -531,4 +725,80 @@ class IndexBuilder:
             }
         except Exception as e:
-            return {"valid": False, "error": str(e)}
+            return {"valid": False, "error": str(e)}
+    def _store_chunks_pgvector(self, chunks: List[Dict[str, Any]], collection_name: str,
+                              languages: List[str], overwrite: bool = False):
+        """
+        Store chunks in pgvector backend
+        Args:
+            chunks: List of processed chunks
+            collection_name: Name for the collection (from output_file parameter)
+            languages: List of supported languages
+        """
+        from .pgvector_backend import PgVectorBackend
+        # Extract collection name from the provided name
+        if collection_name.endswith('.swsearch'):
+            collection_name = collection_name[:-9]  # Remove .swsearch extension
+        # Clean collection name for PostgreSQL
+        import re
+        collection_name = re.sub(r'[^a-zA-Z0-9_]', '_', collection_name)
+        if self.verbose:
+            print(f"Storing chunks in pgvector collection: {collection_name}")
+        # Create backend instance
+        backend = PgVectorBackend(self.connection_string)
+        try:
+            # Get embedding dimensions from model
+            if self.model:
+                embedding_dim = self.model.get_sentence_embedding_dimension()
+            else:
+                embedding_dim = 768  # Default for all-mpnet-base-v2
+            # Delete existing collection if overwrite is requested
+            if overwrite:
+                if self.verbose:
+                    print(f"Dropping existing collection: {collection_name}")
+                backend.delete_collection(collection_name)
+            # Create schema
+            backend.create_schema(collection_name, embedding_dim)
+            # Convert embeddings from bytes to numpy arrays
+            for chunk in chunks:
+                if chunk.get('embedding') and isinstance(chunk['embedding'], bytes):
+                    if np:
+                        chunk['embedding'] = np.frombuffer(chunk['embedding'], dtype=np.float32)
+                    else:
+                        # If numpy not available, leave as bytes
+                        pass
+            # Prepare config
+            config = {
+                'model_name': self.model_name,
+                'embedding_dimensions': embedding_dim,
+                'chunking_strategy': self.chunking_strategy,
+                'languages': languages,
+                'metadata': {
+                    'max_sentences_per_chunk': self.max_sentences_per_chunk,
+                    'chunk_size': self.chunk_size,
+                    'chunk_overlap': self.chunk_overlap,
+                    'index_nlp_backend': self.index_nlp_backend
+                }
+            }
+            # Store chunks
+            backend.store_chunks(chunks, collection_name, config)
+            if self.verbose:
+                stats = backend.get_stats(collection_name)
+                print(f"Stored {stats['total_chunks']} chunks in pgvector")
+                print(f"Collection: {collection_name}")
+        finally:
+            backend.close()

signalwire-agents 0.1.13__py3-none-any.whl → 1.0.17.dev4__py3-none-any.whl

signalwire-agents 0.1.13py3-none-any.whl → 1.0.17.dev4py3-none-any.whl