PyPI - vectordb-bench - Versions diffs - 0.0.18__py3-none-any.whl → 0.0.20__py3-none-any.whl - Mend

vectordb-bench 0.0.18py3-none-any.whl → 0.0.20py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (105) hide show

vectordb_bench/__init__.py +49 -24
vectordb_bench/__main__.py +4 -3
vectordb_bench/backend/assembler.py +12 -13
vectordb_bench/backend/cases.py +56 -46
vectordb_bench/backend/clients/__init__.py +101 -14
vectordb_bench/backend/clients/aliyun_elasticsearch/aliyun_elasticsearch.py +26 -0
vectordb_bench/backend/clients/aliyun_elasticsearch/config.py +18 -0
vectordb_bench/backend/clients/aliyun_opensearch/aliyun_opensearch.py +345 -0
vectordb_bench/backend/clients/aliyun_opensearch/config.py +47 -0
vectordb_bench/backend/clients/alloydb/alloydb.py +58 -80
vectordb_bench/backend/clients/alloydb/cli.py +52 -35
vectordb_bench/backend/clients/alloydb/config.py +30 -30
vectordb_bench/backend/clients/api.py +8 -9
vectordb_bench/backend/clients/aws_opensearch/aws_opensearch.py +46 -47
vectordb_bench/backend/clients/aws_opensearch/cli.py +4 -7
vectordb_bench/backend/clients/aws_opensearch/config.py +13 -9
vectordb_bench/backend/clients/aws_opensearch/run.py +69 -59
vectordb_bench/backend/clients/chroma/chroma.py +38 -36
vectordb_bench/backend/clients/chroma/config.py +4 -2
vectordb_bench/backend/clients/elastic_cloud/config.py +5 -5
vectordb_bench/backend/clients/elastic_cloud/elastic_cloud.py +23 -22
vectordb_bench/backend/clients/memorydb/cli.py +8 -8
vectordb_bench/backend/clients/memorydb/config.py +2 -2
vectordb_bench/backend/clients/memorydb/memorydb.py +65 -53
vectordb_bench/backend/clients/milvus/cli.py +62 -80
vectordb_bench/backend/clients/milvus/config.py +31 -7
vectordb_bench/backend/clients/milvus/milvus.py +23 -26
vectordb_bench/backend/clients/pgdiskann/cli.py +29 -22
vectordb_bench/backend/clients/pgdiskann/config.py +29 -26
vectordb_bench/backend/clients/pgdiskann/pgdiskann.py +55 -73
vectordb_bench/backend/clients/pgvecto_rs/cli.py +9 -11
vectordb_bench/backend/clients/pgvecto_rs/config.py +8 -14
vectordb_bench/backend/clients/pgvecto_rs/pgvecto_rs.py +33 -34
vectordb_bench/backend/clients/pgvector/cli.py +40 -31
vectordb_bench/backend/clients/pgvector/config.py +63 -73
vectordb_bench/backend/clients/pgvector/pgvector.py +97 -98
vectordb_bench/backend/clients/pgvectorscale/cli.py +38 -24
vectordb_bench/backend/clients/pgvectorscale/config.py +14 -15
vectordb_bench/backend/clients/pgvectorscale/pgvectorscale.py +38 -43
vectordb_bench/backend/clients/pinecone/config.py +1 -0
vectordb_bench/backend/clients/pinecone/pinecone.py +14 -21
vectordb_bench/backend/clients/qdrant_cloud/config.py +11 -10
vectordb_bench/backend/clients/qdrant_cloud/qdrant_cloud.py +40 -31
vectordb_bench/backend/clients/redis/cli.py +6 -12
vectordb_bench/backend/clients/redis/config.py +7 -5
vectordb_bench/backend/clients/redis/redis.py +94 -58
vectordb_bench/backend/clients/test/cli.py +1 -2
vectordb_bench/backend/clients/test/config.py +2 -2
vectordb_bench/backend/clients/test/test.py +4 -5
vectordb_bench/backend/clients/weaviate_cloud/cli.py +3 -4
vectordb_bench/backend/clients/weaviate_cloud/config.py +2 -2
vectordb_bench/backend/clients/weaviate_cloud/weaviate_cloud.py +36 -22
vectordb_bench/backend/clients/zilliz_cloud/cli.py +14 -11
vectordb_bench/backend/clients/zilliz_cloud/config.py +2 -4
vectordb_bench/backend/clients/zilliz_cloud/zilliz_cloud.py +1 -1
vectordb_bench/backend/data_source.py +30 -18
vectordb_bench/backend/dataset.py +47 -27
vectordb_bench/backend/result_collector.py +2 -3
vectordb_bench/backend/runner/__init__.py +4 -6
vectordb_bench/backend/runner/mp_runner.py +85 -34
vectordb_bench/backend/runner/rate_runner.py +51 -23
vectordb_bench/backend/runner/read_write_runner.py +140 -46
vectordb_bench/backend/runner/serial_runner.py +99 -50
vectordb_bench/backend/runner/util.py +4 -19
vectordb_bench/backend/task_runner.py +95 -74
vectordb_bench/backend/utils.py +17 -9
vectordb_bench/base.py +0 -1
vectordb_bench/cli/cli.py +65 -60
vectordb_bench/cli/vectordbbench.py +6 -7
vectordb_bench/frontend/components/check_results/charts.py +8 -19
vectordb_bench/frontend/components/check_results/data.py +4 -16
vectordb_bench/frontend/components/check_results/filters.py +8 -16
vectordb_bench/frontend/components/check_results/nav.py +4 -4
vectordb_bench/frontend/components/check_results/priceTable.py +1 -3
vectordb_bench/frontend/components/check_results/stPageConfig.py +2 -1
vectordb_bench/frontend/components/concurrent/charts.py +12 -12
vectordb_bench/frontend/components/custom/displayCustomCase.py +17 -11
vectordb_bench/frontend/components/custom/displaypPrams.py +4 -2
vectordb_bench/frontend/components/custom/getCustomConfig.py +1 -2
vectordb_bench/frontend/components/custom/initStyle.py +1 -1
vectordb_bench/frontend/components/get_results/saveAsImage.py +2 -0
vectordb_bench/frontend/components/run_test/caseSelector.py +3 -9
vectordb_bench/frontend/components/run_test/dbConfigSetting.py +1 -4
vectordb_bench/frontend/components/run_test/dbSelector.py +1 -1
vectordb_bench/frontend/components/run_test/generateTasks.py +8 -8
vectordb_bench/frontend/components/run_test/submitTask.py +14 -18
vectordb_bench/frontend/components/tables/data.py +3 -6
vectordb_bench/frontend/config/dbCaseConfigs.py +108 -83
vectordb_bench/frontend/pages/concurrent.py +3 -5
vectordb_bench/frontend/pages/custom.py +30 -9
vectordb_bench/frontend/pages/quries_per_dollar.py +3 -3
vectordb_bench/frontend/pages/run_test.py +3 -7
vectordb_bench/frontend/utils.py +1 -1
vectordb_bench/frontend/vdb_benchmark.py +4 -6
vectordb_bench/interface.py +56 -26
vectordb_bench/log_util.py +59 -64
vectordb_bench/metric.py +10 -11
vectordb_bench/models.py +26 -43
{vectordb_bench-0.0.18.dist-info → vectordb_bench-0.0.20.dist-info}/METADATA +34 -42
vectordb_bench-0.0.20.dist-info/RECORD +135 -0
{vectordb_bench-0.0.18.dist-info → vectordb_bench-0.0.20.dist-info}/WHEEL +1 -1
vectordb_bench-0.0.18.dist-info/RECORD +0 -131
{vectordb_bench-0.0.18.dist-info → vectordb_bench-0.0.20.dist-info}/LICENSE +0 -0
{vectordb_bench-0.0.18.dist-info → vectordb_bench-0.0.20.dist-info}/entry_points.txt +0 -0
{vectordb_bench-0.0.18.dist-info → vectordb_bench-0.0.20.dist-info}/top_level.txt +0 -0

vectordb_bench/backend/runner/rate_runner.py CHANGED Viewed

@@ -1,35 +1,36 @@
+import concurrent
 import logging
+import multiprocessing as mp
 import time
 from concurrent.futures import ThreadPoolExecutor
-import multiprocessing as mp
+from vectordb_bench import config
 from vectordb_bench.backend.clients import api
 from vectordb_bench.backend.dataset import DataSetIterator
 from vectordb_bench.backend.utils import time_it
-from vectordb_bench import config
-from .util import get_data, is_futures_completed, get_future_exceptions
+from .util import get_data
 log = logging.getLogger(__name__)
 class RatedMultiThreadingInsertRunner:
     def __init__(
         self,
-        rate: int, # numRows per second
+        rate: int,  # numRows per second
         db: api.VectorDB,
         dataset_iter: DataSetIterator,
         normalize: bool = False,
         timeout: float | None = None,
     ):
-        self.timeout = timeout if isinstance(timeout, (int, float)) else None
+        self.timeout = timeout if isinstance(timeout, int | float) else None
         self.dataset = dataset_iter
         self.db = db
         self.normalize = normalize
         self.insert_rate = rate
         self.batch_rate = rate // config.NUM_PER_BATCH
-    def send_insert_task(self, db, emb: list[list[float]], metadata: list[str]):
+    def send_insert_task(self, db: api.VectorDB, emb: list[list[float]], metadata: list[str]):
         db.insert_embeddings(emb, metadata)
     @time_it
@@ -42,7 +43,9 @@ class RatedMultiThreadingInsertRunner:
                 rate = self.batch_rate
                 for data in self.dataset:
                     emb, metadata = get_data(data, self.normalize)
-                    executing_futures.append(executor.submit(self.send_insert_task, self.db, emb, metadata))
+                    executing_futures.append(
+                        executor.submit(self.send_insert_task, self.db, emb, metadata),
+                    )
                     rate -= 1
                     if rate == 0:
@@ -54,26 +57,51 @@ class RatedMultiThreadingInsertRunner:
                     start_time = time.perf_counter()
                     finished, elapsed_time = submit_by_rate()
                     if finished is True:
-                        q.put(None, block=True)
+                        q.put(True, block=True)
                         log.info(f"End of dataset, left unfinished={len(executing_futures)}")
-                        return
+                        break
-                    q.put(True, block=False)
+                    q.put(False, block=False)
                     wait_interval = 1 - elapsed_time if elapsed_time < 1 else 0.001
-                    e, completed = is_futures_completed(executing_futures, wait_interval)
-                    if completed is True:
-                        ex = get_future_exceptions(executing_futures)
-                        if ex is not None:
-                            log.warn(f"task error, terminating, err={ex}")
-                            q.put(None)
-                            executor.shutdown(wait=True, cancel_futures=True)
-                            raise ex
+                    try:
+                        done, not_done = concurrent.futures.wait(
+                            executing_futures,
+                            timeout=wait_interval,
+                            return_when=concurrent.futures.FIRST_EXCEPTION,
+                        )
+                        if len(not_done) > 0:
+                            log.warning(
+                                f"Failed to finish all tasks in 1s, [{len(not_done)}/{len(executing_futures)}] ",
+                                f"tasks are not done, waited={wait_interval:.2f}, trying to wait in the next round",
+                            )
+                            executing_futures = list(not_done)
                         else:
-                            log.debug(f"Finished {len(executing_futures)} insert-{config.NUM_PER_BATCH} task in 1s, wait_interval={wait_interval:.2f}")
-                        executing_futures = []
-                    else:
-                        log.warning(f"Failed to finish tasks in 1s, {e}, waited={wait_interval:.2f}, try to check the next round")
+                            log.debug(
+                                f"Finished {len(executing_futures)} insert-{config.NUM_PER_BATCH} ",
+                                f"task in 1s, wait_interval={wait_interval:.2f}",
+                            )
+                            executing_futures = []
+                    except Exception as e:
+                        log.warning(f"task error, terminating, err={e}")
+                        q.put(None, block=True)
+                        executor.shutdown(wait=True, cancel_futures=True)
+                        raise e from e
                     dur = time.perf_counter() - start_time
                     if dur < 1:
                         time.sleep(1 - dur)
+                # wait for all tasks in executing_futures to complete
+                if len(executing_futures) > 0:
+                    try:
+                        done, _ = concurrent.futures.wait(
+                            executing_futures,
+                            return_when=concurrent.futures.FIRST_EXCEPTION,
+                        )
+                    except Exception as e:
+                        log.warning(f"task error, terminating, err={e}")
+                        q.put(None, block=True)
+                        executor.shutdown(wait=True, cancel_futures=True)
+                        raise e from e

vectordb_bench/backend/runner/read_write_runner.py CHANGED Viewed

@@ -1,16 +1,18 @@
+import concurrent
 import logging
-from typing import Iterable
+import math
 import multiprocessing as mp
-import concurrent
+from collections.abc import Iterable
 import numpy as np
-import math
-from .mp_runner import MultiProcessingSearchRunner
-from .serial_runner import SerialSearchRunner
-from .rate_runner import RatedMultiThreadingInsertRunner
 from vectordb_bench.backend.clients import api
 from vectordb_bench.backend.dataset import DatasetManager
+from .mp_runner import MultiProcessingSearchRunner
+from .rate_runner import RatedMultiThreadingInsertRunner
+from .serial_runner import SerialSearchRunner
 log = logging.getLogger(__name__)
@@ -24,19 +26,28 @@ class ReadWriteRunner(MultiProcessingSearchRunner, RatedMultiThreadingInsertRunn
         k: int = 100,
         filters: dict | None = None,
         concurrencies: Iterable[int] = (1, 15, 50),
-        search_stage: Iterable[float] = (0.5, 0.6, 0.7, 0.8, 0.9, 1.0), # search in any insert portion, 0.0 means search from the start
-        read_dur_after_write: int = 300, # seconds, search duration when insertion is done
+        search_stage: Iterable[float] = (
+            0.5,
+            0.6,
+            0.7,
+            0.8,
+            0.9,
+        ),  # search from insert portion, 0.0 means search from the start
+        read_dur_after_write: int = 300,  # seconds, search duration when insertion is done
         timeout: float | None = None,
     ):
         self.insert_rate = insert_rate
         self.data_volume = dataset.data.size
         for stage in search_stage:
-            assert 0.0 <= stage <= 1.0, "each search stage should be in [0.0, 1.0]"
+            assert 0.0 <= stage < 1.0, "each search stage should be in [0.0, 1.0)"
         self.search_stage = sorted(search_stage)
         self.read_dur_after_write = read_dur_after_write
-        log.info(f"Init runner, concurencys={concurrencies}, search_stage={search_stage}, stage_search_dur={read_dur_after_write}")
+        log.info(
+            f"Init runner, concurencys={concurrencies}, search_stage={search_stage}, ",
+            f"stage_search_dur={read_dur_after_write}",
+        )
         test_emb = np.stack(dataset.test_data["emb"])
         if normalize:
@@ -65,48 +76,131 @@ class ReadWriteRunner(MultiProcessingSearchRunner, RatedMultiThreadingInsertRunn
             k=k,
         )
+    def run_optimize(self):
+        """Optimize needs to run in differenct process for pymilvus schema recursion problem"""
+        with self.db.init():
+            log.info("Search after write - Optimize start")
+            self.db.optimize()
+            log.info("Search after write - Optimize finished")
+    def run_search(self):
+        log.info("Search after write - Serial search start")
+        res, ssearch_dur = self.serial_search_runner.run()
+        recall, ndcg, p99_latency = res
+        log.info(
+            f"Search after write - Serial search - recall={recall}, ndcg={ndcg}, p99={p99_latency}, ",
+            f"dur={ssearch_dur:.4f}",
+        )
+        log.info(
+            f"Search after wirte - Conc search start, dur for each conc={self.read_dur_after_write}",
+        )
+        max_qps = self.run_by_dur(self.read_dur_after_write)
+        log.info(f"Search after wirte - Conc search finished, max_qps={max_qps}")
+        return (max_qps, recall, ndcg, p99_latency)
     def run_read_write(self):
-        futures = []
         with mp.Manager() as m:
             q = m.Queue()
-            with concurrent.futures.ProcessPoolExecutor(mp_context=mp.get_context("spawn"), max_workers=2) as executor:
-                futures.append(executor.submit(self.run_with_rate, q))
-                futures.append(executor.submit(self.run_search_by_sig, q))
-                for future in concurrent.futures.as_completed(futures):
-                    res = future.result()
-                    log.info(f"Result = {res}")
+            with concurrent.futures.ProcessPoolExecutor(
+                mp_context=mp.get_context("spawn"),
+                max_workers=2,
+            ) as executor:
+                read_write_futures = []
+                read_write_futures.append(executor.submit(self.run_with_rate, q))
+                read_write_futures.append(executor.submit(self.run_search_by_sig, q))
+                try:
+                    for f in concurrent.futures.as_completed(read_write_futures):
+                        res = f.result()
+                        log.info(f"Result = {res}")
+                    # Wait for read_write_futures finishing and do optimize and search
+                    op_future = executor.submit(self.run_optimize)
+                    op_future.result()
+                    search_future = executor.submit(self.run_search)
+                    last_res = search_future.result()
+                    log.info(f"Max QPS after optimze and search: {last_res}")
+                except Exception as e:
+                    log.warning(f"Read and write error: {e}")
+                    executor.shutdown(wait=True, cancel_futures=True)
+                    raise e from e
         log.info("Concurrent read write all done")
-    def run_search_by_sig(self, q):
-        res = []
+    def run_search_by_sig(self, q: mp.Queue):
+        """
+        Args:
+            q: multiprocessing queue
+                (None) means abnormal exit
+                (False) means updating progress
+                (True) means normal exit
+        """
+        result, start_batch = [], 0
         total_batch = math.ceil(self.data_volume / self.insert_rate)
-        batch = 0
-        recall = 'x'
+        recall, ndcg, p99_latency = None, None, None
+        def wait_next_target(start: int, target_batch: int) -> bool:
+            """Return False when receive True or None"""
+            while start < target_batch:
+                sig = q.get(block=True)
+                if sig is None or sig is True:
+                    return False
+                start += 1
+            return True
         for idx, stage in enumerate(self.search_stage):
             target_batch = int(total_batch * stage)
-            while q.get(block=True):
-                batch += 1
-                if batch >= target_batch:
-                    perc = int(stage * 100)
-                    log.info(f"Insert {perc}% done, total batch={total_batch}")
-                    log.info(f"[{batch}/{total_batch}] Serial search - {perc}% start")
-                    recall, ndcg, p99 =self.serial_search_runner.run()
-                    if idx < len(self.search_stage) - 1:
-                        stage_search_dur = (self.data_volume  * (self.search_stage[idx + 1] - stage) // self.insert_rate) // len(self.concurrencies)
-                        if stage_search_dur < 30:
-                            log.warning(f"Search duration too short, please reduce concurrency count or insert rate, or increase dataset volume: dur={stage_search_dur}, concurrencies={len(self.concurrencies)}, insert_rate={self.insert_rate}")
-                        log.info(f"[{batch}/{total_batch}] Conc search - {perc}% start, dur for each conc={stage_search_dur}s")
-                    else:
-                        last_search_dur = self.data_volume * (1.0 - stage) // self.insert_rate
-                        stage_search_dur = last_search_dur + self.read_dur_after_write
-                        log.info(f"[{batch}/{total_batch}] Last conc search - {perc}% start, [read_until_write|read_after_write|total] =[{last_search_dur}s|{self.read_dur_after_write}s|{stage_search_dur}s]")
-                    max_qps = self.run_by_dur(stage_search_dur)
-                    res.append((perc, max_qps, recall))
-                    break
-        return res
+            perc = int(stage * 100)
+            got = wait_next_target(start_batch, target_batch)
+            if got is False:
+                log.warning(
+                    f"Abnormal exit, target_batch={target_batch}, start_batch={start_batch}",
+                )
+                return None
+            log.info(f"Insert {perc}% done, total batch={total_batch}")
+            log.info(f"[{target_batch}/{total_batch}] Serial search - {perc}% start")
+            res, ssearch_dur = self.serial_search_runner.run()
+            recall, ndcg, p99_latency = res
+            log.info(
+                f"[{target_batch}/{total_batch}] Serial search - {perc}% done, recall={recall}, ",
+                f"ndcg={ndcg}, p99={p99_latency}, dur={ssearch_dur:.4f}",
+            )
+            # Search duration for non-last search stage is carefully calculated.
+            # If duration for each concurrency is less than 30s, runner will raise error.
+            if idx < len(self.search_stage) - 1:
+                total_dur_between_stages = self.data_volume * (self.search_stage[idx + 1] - stage) // self.insert_rate
+                csearch_dur = total_dur_between_stages - ssearch_dur
+                # Try to leave room for init process executors
+                csearch_dur = csearch_dur - 30 if csearch_dur > 60 else csearch_dur
+                each_conc_search_dur = csearch_dur / len(self.concurrencies)
+                if each_conc_search_dur < 30:
+                    warning_msg = (
+                        f"Results might be inaccurate, duration[{csearch_dur:.4f}] left for conc-search is too short, ",
+                        f"total available dur={total_dur_between_stages}, serial_search_cost={ssearch_dur}.",
+                    )
+                    log.warning(warning_msg)
+            # The last stage
+            else:
+                each_conc_search_dur = 60
+            log.info(
+                f"[{target_batch}/{total_batch}] Concurrent search - {perc}% start, dur={each_conc_search_dur:.4f}",
+            )
+            max_qps = self.run_by_dur(each_conc_search_dur)
+            result.append((perc, max_qps, recall, ndcg, p99_latency))
+            start_batch = target_batch
+        # Drain the queue
+        while q.empty() is False:
+            q.get(block=True)
+        return result

vectordb_bench/backend/runner/serial_runner.py CHANGED Viewed

@@ -1,20 +1,21 @@
-import time
-import logging
-import traceback
 import concurrent
-import multiprocessing as mp
+import logging
 import math
-import psutil
+import multiprocessing as mp
+import time
+import traceback
 import numpy as np
 import pandas as pd
+import psutil
-from ..clients import api
+from vectordb_bench.backend.dataset import DatasetManager
+from ... import config
 from ...metric import calc_ndcg, calc_recall, get_ideal_dcg
 from ...models import LoadTimeoutError, PerformanceTimeoutError
 from .. import utils
-from ... import config
-from vectordb_bench.backend.dataset import DatasetManager
+from ..clients import api
 NUM_PER_BATCH = config.NUM_PER_BATCH
 LOAD_MAX_TRY_COUNT = 10
@@ -22,9 +23,16 @@ WAITTING_TIME = 60
 log = logging.getLogger(__name__)
 class SerialInsertRunner:
-    def __init__(self, db: api.VectorDB, dataset: DatasetManager, normalize: bool, timeout: float | None = None):
-        self.timeout = timeout if isinstance(timeout, (int, float)) else None
+    def __init__(
+        self,
+        db: api.VectorDB,
+        dataset: DatasetManager,
+        normalize: bool,
+        timeout: float | None = None,
+    ):
+        self.timeout = timeout if isinstance(timeout, int | float) else None
         self.dataset = dataset
         self.db = db
         self.normalize = normalize
@@ -32,18 +40,20 @@ class SerialInsertRunner:
     def task(self) -> int:
         count = 0
         with self.db.init():
-            log.info(f"({mp.current_process().name:16}) Start inserting embeddings in batch {config.NUM_PER_BATCH}")
+            log.info(
+                f"({mp.current_process().name:16}) Start inserting embeddings in batch {config.NUM_PER_BATCH}",
+            )
             start = time.perf_counter()
             for data_df in self.dataset:
-                all_metadata = data_df['id'].tolist()
+                all_metadata = data_df["id"].tolist()
-                emb_np = np.stack(data_df['emb'])
+                emb_np = np.stack(data_df["emb"])
                 if self.normalize:
                     log.debug("normalize the 100k train data")
                     all_embeddings = (emb_np / np.linalg.norm(emb_np, axis=1)[:, np.newaxis]).tolist()
                 else:
                     all_embeddings = emb_np.tolist()
-                del(emb_np)
+                del emb_np
                 log.debug(f"batch dataset size: {len(all_embeddings)}, {len(all_metadata)}")
                 insert_count, error = self.db.insert_embeddings(
@@ -56,30 +66,41 @@ class SerialInsertRunner:
                 assert insert_count == len(all_metadata)
                 count += insert_count
                 if count % 100_000 == 0:
-                    log.info(f"({mp.current_process().name:16}) Loaded {count} embeddings into VectorDB")
+                    log.info(
+                        f"({mp.current_process().name:16}) Loaded {count} embeddings into VectorDB",
+                    )
-            log.info(f"({mp.current_process().name:16}) Finish loading all dataset into VectorDB, dur={time.perf_counter()-start}")
+            log.info(
+                f"({mp.current_process().name:16}) Finish loading all dataset into VectorDB, ",
+                f"dur={time.perf_counter()-start}",
+            )
             return count
-    def endless_insert_data(self, all_embeddings, all_metadata, left_id: int = 0) -> int:
+    def endless_insert_data(self, all_embeddings: list, all_metadata: list, left_id: int = 0) -> int:
         with self.db.init():
             # unique id for endlessness insertion
-            all_metadata = [i+left_id for i in all_metadata]
+            all_metadata = [i + left_id for i in all_metadata]
-            NUM_BATCHES = math.ceil(len(all_embeddings)/NUM_PER_BATCH)
-            log.info(f"({mp.current_process().name:16}) Start inserting {len(all_embeddings)} embeddings in batch {NUM_PER_BATCH}")
+            num_batches = math.ceil(len(all_embeddings) / NUM_PER_BATCH)
+            log.info(
+                f"({mp.current_process().name:16}) Start inserting {len(all_embeddings)} ",
+                f"embeddings in batch {NUM_PER_BATCH}",
+            )
             count = 0
-            for batch_id in range(NUM_BATCHES):
+            for batch_id in range(num_batches):
                 retry_count = 0
                 already_insert_count = 0
-                metadata = all_metadata[batch_id*NUM_PER_BATCH : (batch_id+1)*NUM_PER_BATCH]
-                embeddings = all_embeddings[batch_id*NUM_PER_BATCH : (batch_id+1)*NUM_PER_BATCH]
+                metadata = all_metadata[batch_id * NUM_PER_BATCH : (batch_id + 1) * NUM_PER_BATCH]
+                embeddings = all_embeddings[batch_id * NUM_PER_BATCH : (batch_id + 1) * NUM_PER_BATCH]
-                log.debug(f"({mp.current_process().name:16}) batch [{batch_id:3}/{NUM_BATCHES}], Start inserting {len(metadata)} embeddings")
+                log.debug(
+                    f"({mp.current_process().name:16}) batch [{batch_id:3}/{num_batches}], ",
+                    f"Start inserting {len(metadata)} embeddings",
+                )
                 while retry_count < LOAD_MAX_TRY_COUNT:
                     insert_count, error = self.db.insert_embeddings(
-                        embeddings=embeddings[already_insert_count :],
-                        metadata=metadata[already_insert_count :],
+                        embeddings=embeddings[already_insert_count:],
+                        metadata=metadata[already_insert_count:],
                     )
                     already_insert_count += insert_count
                     if error is not None:
@@ -91,17 +112,26 @@ class SerialInsertRunner:
                             raise error
                     else:
                         break
-                log.debug(f"({mp.current_process().name:16}) batch [{batch_id:3}/{NUM_BATCHES}], Finish inserting {len(metadata)} embeddings")
+                log.debug(
+                    f"({mp.current_process().name:16}) batch [{batch_id:3}/{num_batches}], ",
+                    f"Finish inserting {len(metadata)} embeddings",
+                )
                 assert already_insert_count == len(metadata)
                 count += already_insert_count
-            log.info(f"({mp.current_process().name:16}) Finish inserting {len(all_embeddings)} embeddings in batch {NUM_PER_BATCH}")
+            log.info(
+                f"({mp.current_process().name:16}) Finish inserting {len(all_embeddings)} embeddings in ",
+                f"batch {NUM_PER_BATCH}",
+            )
         return count
     @utils.time_it
     def _insert_all_batches(self) -> int:
         """Performance case only"""
-        with concurrent.futures.ProcessPoolExecutor(mp_context=mp.get_context('spawn'), max_workers=1) as executor:
+        with concurrent.futures.ProcessPoolExecutor(
+            mp_context=mp.get_context("spawn"),
+            max_workers=1,
+        ) as executor:
             future = executor.submit(self.task)
             try:
                 count = future.result(timeout=self.timeout)
@@ -121,8 +151,11 @@ class SerialInsertRunner:
         """run forever util DB raises exception or crash"""
         # datasets for load tests are quite small, can fit into memory
         # only 1 file
-        data_df = [data_df for data_df in self.dataset][0]
-        all_embeddings, all_metadata = np.stack(data_df["emb"]).tolist(), data_df['id'].tolist()
+        data_df = next(iter(self.dataset))
+        all_embeddings, all_metadata = (
+            np.stack(data_df["emb"]).tolist(),
+            data_df["id"].tolist(),
+        )
         start_time = time.perf_counter()
         max_load_count, times = 0, 0
@@ -130,18 +163,26 @@ class SerialInsertRunner:
             with self.db.init():
                 self.db.ready_to_load()
             while time.perf_counter() - start_time < self.timeout:
-                count = self.endless_insert_data(all_embeddings, all_metadata, left_id=max_load_count)
+                count = self.endless_insert_data(
+                    all_embeddings,
+                    all_metadata,
+                    left_id=max_load_count,
+                )
                 max_load_count += count
                 times += 1
-                log.info(f"Loaded {times} entire dataset, current max load counts={utils.numerize(max_load_count)}, {max_load_count}")
+                log.info(
+                    f"Loaded {times} entire dataset, current max load counts={utils.numerize(max_load_count)}, ",
+                    f"{max_load_count}",
+                )
         except Exception as e:
-            log.info(f"Capacity case load reach limit, insertion counts={utils.numerize(max_load_count)}, {max_load_count}, err={e}")
+            log.info(
+                f"Capacity case load reach limit, insertion counts={utils.numerize(max_load_count)}, ",
+                f"{max_load_count}, err={e}",
+            )
             traceback.print_exc()
             return max_load_count
         else:
-            msg = f"capacity case load timeout in {self.timeout}s"
-            log.info(msg)
-            raise LoadTimeoutError(msg)
+            raise LoadTimeoutError(self.timeout)
     def run(self) -> int:
         count, dur = self._insert_all_batches()
@@ -167,8 +208,10 @@ class SerialSearchRunner:
             self.test_data = test_data
         self.ground_truth = ground_truth
-    def search(self, args: tuple[list, pd.DataFrame]):
-        log.info(f"{mp.current_process().name:14} start search the entire test_data to get recall and latency")
+    def search(self, args: tuple[list, pd.DataFrame]) -> tuple[float, float, float]:
+        log.info(
+            f"{mp.current_process().name:14} start search the entire test_data to get recall and latency",
+        )
         with self.db.init():
             test_data, ground_truth = args
             ideal_dcg = get_ideal_dcg(self.k)
@@ -193,13 +236,15 @@ class SerialSearchRunner:
                 latencies.append(time.perf_counter() - s)
-                gt = ground_truth['neighbors_id'][idx]
-                recalls.append(calc_recall(self.k, gt[:self.k], results))
-                ndcgs.append(calc_ndcg(gt[:self.k], results, ideal_dcg))
+                gt = ground_truth["neighbors_id"][idx]
+                recalls.append(calc_recall(self.k, gt[: self.k], results))
+                ndcgs.append(calc_ndcg(gt[: self.k], results, ideal_dcg))
                 if len(latencies) % 100 == 0:
-                    log.debug(f"({mp.current_process().name:14}) search_count={len(latencies):3}, latest_latency={latencies[-1]}, latest recall={recalls[-1]}")
+                    log.debug(
+                        f"({mp.current_process().name:14}) search_count={len(latencies):3}, ",
+                        f"latest_latency={latencies[-1]}, latest recall={recalls[-1]}",
+                    )
         avg_latency = round(np.mean(latencies), 4)
         avg_recall = round(np.mean(recalls), 4)
@@ -213,16 +258,20 @@ class SerialSearchRunner:
             f"avg_recall={avg_recall}, "
             f"avg_ndcg={avg_ndcg},"
             f"avg_latency={avg_latency}, "
-            f"p99={p99}"
-         )
+            f"p99={p99}",
+        )
         return (avg_recall, avg_ndcg, p99)
     def _run_in_subprocess(self) -> tuple[float, float]:
         with concurrent.futures.ProcessPoolExecutor(max_workers=1) as executor:
             future = executor.submit(self.search, (self.test_data, self.ground_truth))
-            result = future.result()
-            return result
+            return future.result()
+    @utils.time_it
+    def run(self) -> tuple[float, float, float]:
+        """
+        Returns:
+            tuple[tuple[float, float, float], float]: (avg_recall, avg_ndcg, p99_latency), cost
-    def run(self) -> tuple[float, float]:
+        """
         return self._run_in_subprocess()

vectordb_bench/backend/runner/util.py CHANGED Viewed

@@ -1,32 +1,17 @@
 import logging
-import concurrent
-from typing import Iterable
-from pandas import DataFrame
 import numpy as np
+from pandas import DataFrame
 log = logging.getLogger(__name__)
 def get_data(data_df: DataFrame, normalize: bool) -> tuple[list[list[float]], list[str]]:
-    all_metadata = data_df['id'].tolist()
-    emb_np = np.stack(data_df['emb'])
+    all_metadata = data_df["id"].tolist()
+    emb_np = np.stack(data_df["emb"])
     if normalize:
         log.debug("normalize the 100k train data")
         all_embeddings = (emb_np / np.linalg.norm(emb_np, axis=1)[:, np.newaxis]).tolist()
     else:
         all_embeddings = emb_np.tolist()
     return all_embeddings, all_metadata
-def is_futures_completed(futures: Iterable[concurrent.futures.Future], interval) -> (Exception, bool):
-    try:
-        list(concurrent.futures.as_completed(futures, timeout=interval))
-    except TimeoutError as e:
-        return e, False
-    return None, True
-def get_future_exceptions(futures: Iterable[concurrent.futures.Future]) -> BaseException | None:
-    for f in futures:
-        if f.exception() is not None:
-            return f.exception()
-    return

vectordb-bench 0.0.18__py3-none-any.whl → 0.0.20__py3-none-any.whl

vectordb-bench 0.0.18py3-none-any.whl → 0.0.20py3-none-any.whl