PyPI - orca-sdk - Versions diffs - 0.1.10__py3-none-any.whl → 0.1.12__py3-none-any.whl - Mend

orca-sdk 0.1.10py3-none-any.whl → 0.1.12py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (33) hide show

orca_sdk/__init__.py +3 -3
orca_sdk/_utils/analysis_ui.py +4 -1
orca_sdk/_utils/auth.py +2 -3
orca_sdk/_utils/common.py +24 -1
orca_sdk/_utils/prediction_result_ui.py +4 -1
orca_sdk/_utils/torch_parsing.py +77 -0
orca_sdk/_utils/torch_parsing_test.py +142 -0
orca_sdk/_utils/value_parser.py +44 -17
orca_sdk/_utils/value_parser_test.py +6 -5
orca_sdk/async_client.py +234 -22
orca_sdk/classification_model.py +203 -66
orca_sdk/classification_model_test.py +85 -25
orca_sdk/client.py +234 -20
orca_sdk/conftest.py +97 -16
orca_sdk/credentials_test.py +5 -8
orca_sdk/datasource.py +44 -21
orca_sdk/datasource_test.py +8 -2
orca_sdk/embedding_model.py +15 -33
orca_sdk/embedding_model_test.py +30 -1
orca_sdk/memoryset.py +558 -425
orca_sdk/memoryset_test.py +120 -185
orca_sdk/regression_model.py +186 -65
orca_sdk/regression_model_test.py +62 -3
orca_sdk/telemetry.py +16 -7
{orca_sdk-0.1.10.dist-info → orca_sdk-0.1.12.dist-info}/METADATA +4 -8
orca_sdk-0.1.12.dist-info/RECORD +38 -0
orca_sdk/_shared/__init__.py +0 -10
orca_sdk/_shared/metrics.py +0 -634
orca_sdk/_shared/metrics_test.py +0 -570
orca_sdk/_utils/data_parsing.py +0 -129
orca_sdk/_utils/data_parsing_test.py +0 -244
orca_sdk-0.1.10.dist-info/RECORD +0 -41
{orca_sdk-0.1.10.dist-info → orca_sdk-0.1.12.dist-info}/WHEEL +0 -0

orca_sdk/memoryset_test.py CHANGED Viewed

@@ -5,7 +5,6 @@ import pytest
 from datasets.arrow_dataset import Dataset
 from .classification_model import ClassificationModel
-from .conftest import skip_in_ci, skip_in_prod
 from .datasource import Datasource
 from .embedding_model import PretrainedEmbeddingModel
 from .memoryset import (
@@ -59,7 +58,6 @@ def test_create_empty_labeled_memoryset():
         # inserting should work on an empty memoryset
         memoryset.insert(dict(value="i love soup", label=1, key="k1"))
-        memoryset.refresh()
         assert memoryset.length == 1
         m = memoryset[0]
         assert isinstance(m, LabeledMemory)
@@ -104,7 +102,6 @@ def test_create_empty_scored_memoryset():
         # inserting should work on an empty memoryset
         memoryset.insert(dict(value="i love soup", score=0.25, key="k1", label=0))
-        memoryset.refresh()
         assert memoryset.length == 1
         m = memoryset[0]
         assert isinstance(m, ScoredMemory)
@@ -128,6 +125,33 @@ def test_create_empty_scored_memoryset():
         ScoredMemoryset.drop(name, if_not_exists="ignore")
+def test_create_empty_partitioned_labeled_memoryset():
+    name = f"test_empty_partitioned_labeled_{uuid4()}"
+    label_names = ["negative", "positive"]
+    try:
+        memoryset = LabeledMemoryset.create(
+            name, label_names=label_names, partitioned=True, description="empty partitioned labeled test"
+        )
+        assert memoryset is not None
+        assert memoryset.name == name
+        assert memoryset.length == 0
+        assert memoryset.partitioned is True
+        # inserting with partition_id should work
+        memoryset.insert(dict(value="i love soup", label=1, partition_id="p1"))
+        memoryset.insert(dict(value="cats are cute", label=0, partition_id="p2"))
+        assert memoryset.length == 2
+    finally:
+        LabeledMemoryset.drop(name, if_not_exists="ignore")
+def test_non_partitioned_memoryset_has_partitioned_false(
+    readonly_partitioned_memoryset: LabeledMemoryset, readonly_memoryset: LabeledMemoryset
+):
+    assert readonly_partitioned_memoryset.partitioned is True
+    assert readonly_memoryset.partitioned is False
 def test_create_memoryset_unauthenticated(unauthenticated_client, datasource):
     with unauthenticated_client.use():
         with pytest.raises(ValueError, match="Invalid API key"):
@@ -563,155 +587,6 @@ def test_query_memoryset_with_feedback_metrics_sort(classification_model: Classi
     assert memories[-1].feedback_metrics["positive"]["avg"] == -1.0
-def test_query_memoryset_with_partition_id(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query with partition_id and include_global (default) - includes both p1 and global memories
-    memories = readonly_partitioned_memoryset.query(partition_id="p1")
-    assert len(memories) == 15  # 8 p1 + 7 global = 15
-    # Results should include both p1 and global memories
-    partition_ids = {memory.partition_id for memory in memories}
-    assert "p1" in partition_ids
-    assert None in partition_ids
-def test_query_memoryset_with_partition_id_and_exclude_global(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query with partition_id and exclude_global mode - only returns p1 memories
-    memories = readonly_partitioned_memoryset.query(partition_id="p1", partition_filter_mode="exclude_global")
-    assert len(memories) == 8  # Only 8 p1 memories (no global)
-    # All results should be from partition p1 (no global memories)
-    assert all(memory.partition_id == "p1" for memory in memories)
-def test_query_memoryset_with_partition_id_and_include_global(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query with partition_id and include_global mode (default) - includes both p1 and global
-    memories = readonly_partitioned_memoryset.query(partition_id="p1", partition_filter_mode="include_global")
-    assert len(memories) == 15  # 8 p1 + 7 global = 15
-    # Results should include both p1 and global memories
-    partition_ids = {memory.partition_id for memory in memories}
-    assert "p1" in partition_ids
-    assert None in partition_ids
-def test_query_memoryset_with_partition_filter_mode_exclude_global(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query excluding global memories requires a partition_id
-    # Test with a specific partition_id
-    memories = readonly_partitioned_memoryset.query(partition_id="p1", partition_filter_mode="exclude_global")
-    assert len(memories) == 8  # Only p1 memories
-    # All results should have a partition_id (not global)
-    assert all(memory.partition_id == "p1" for memory in memories)
-def test_query_memoryset_with_partition_filter_mode_only_global(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query only in global memories
-    memories = readonly_partitioned_memoryset.query(partition_filter_mode="only_global")
-    assert len(memories) == 7  # There are 7 global memories in SAMPLE_DATA
-    # All results should be global (partition_id is None)
-    assert all(memory.partition_id is None for memory in memories)
-def test_query_memoryset_with_partition_filter_mode_include_global(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query including global memories - when no partition_id is specified,
-    # include_global seems to only return global memories
-    memories = readonly_partitioned_memoryset.query(partition_filter_mode="include_global")
-    # Based on actual behavior, this returns only global memories
-    assert len(memories) == 7
-    # All results should be global
-    assert all(memory.partition_id is None for memory in memories)
-def test_query_memoryset_with_partition_filter_mode_ignore_partitions(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query ignoring partition filtering entirely - returns all memories
-    memories = readonly_partitioned_memoryset.query(partition_filter_mode="ignore_partitions", limit=100)
-    assert len(memories) == 22  # All 22 memories
-    # Results can come from any partition or global
-    partition_ids = {memory.partition_id for memory in memories}
-    # Should have results from multiple partitions/global
-    assert len(partition_ids) >= 1
-    # Verify we have p1, p2, and global
-    assert "p1" in partition_ids
-    assert "p2" in partition_ids
-    assert None in partition_ids
-def test_query_memoryset_with_filters_and_partition_id(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query with filters and partition_id
-    memories = readonly_partitioned_memoryset.query(filters=[("label", "==", 0)], partition_id="p1")
-    assert len(memories) > 0
-    # All results should match the filter and be from partition p1
-    assert all(memory.label == 0 for memory in memories)
-    assert all(memory.partition_id == "p1" for memory in memories)
-def test_query_memoryset_with_filters_and_partition_filter_mode(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query with filters and partition_filter_mode - exclude_global requires partition_id
-    memories = readonly_partitioned_memoryset.query(
-        filters=[("label", "==", 1)], partition_id="p1", partition_filter_mode="exclude_global"
-    )
-    assert len(memories) > 0
-    # All results should match the filter and be from p1 (not global)
-    assert all(memory.label == 1 for memory in memories)
-    assert all(memory.partition_id == "p1" for memory in memories)
-def test_query_memoryset_with_limit_and_partition_id(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query with limit and partition_id
-    memories = readonly_partitioned_memoryset.query(partition_id="p2", limit=3)
-    assert len(memories) == 3
-    # All results should be from partition p2
-    assert all(memory.partition_id == "p2" for memory in memories)
-def test_query_memoryset_with_offset_and_partition_id(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query with offset and partition_id - use exclude_global to get only p1 memories
-    memories_page1 = readonly_partitioned_memoryset.query(
-        partition_id="p1", partition_filter_mode="exclude_global", limit=5
-    )
-    memories_page2 = readonly_partitioned_memoryset.query(
-        partition_id="p1", partition_filter_mode="exclude_global", offset=5, limit=5
-    )
-    assert len(memories_page1) == 5
-    assert len(memories_page2) == 3  # Only 3 remaining p1 memories (8 total - 5 = 3)
-    # All results should be from partition p1
-    assert all(memory.partition_id == "p1" for memory in memories_page1)
-    assert all(memory.partition_id == "p1" for memory in memories_page2)
-    # Results should be different (pagination works)
-    memory_ids_page1 = {memory.memory_id for memory in memories_page1}
-    memory_ids_page2 = {memory.memory_id for memory in memories_page2}
-    assert memory_ids_page1.isdisjoint(memory_ids_page2)
-def test_query_memoryset_with_partition_id_p2(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query a different partition to verify it works
-    # With include_global (default), it includes both p2 and global memories
-    memories = readonly_partitioned_memoryset.query(partition_id="p2")
-    assert len(memories) == 14  # 7 p2 + 7 global = 14
-    # Results should include both p2 and global memories
-    partition_ids = {memory.partition_id for memory in memories}
-    assert "p2" in partition_ids
-    assert None in partition_ids
-def test_query_memoryset_with_metadata_filter_and_partition_id(readonly_partitioned_memoryset: LabeledMemoryset):
-    # Query with metadata filter and partition_id
-    memories = readonly_partitioned_memoryset.query(filters=[("metadata.key", "==", "g1")], partition_id="p1")
-    assert len(memories) > 0
-    # All results should match the metadata filter and be from partition p1
-    assert all(memory.metadata.get("key") == "g1" for memory in memories)
-    assert all(memory.partition_id == "p1" for memory in memories)
-def test_query_memoryset_with_partition_filter_mode_only_global_and_filters(
-    readonly_partitioned_memoryset: LabeledMemoryset,
-):
-    # Query only global memories with filters
-    memories = readonly_partitioned_memoryset.query(
-        filters=[("metadata.key", "==", "g3")], partition_filter_mode="only_global"
-    )
-    assert len(memories) > 0
-    # All results should match the filter and be global
-    assert all(memory.metadata.get("key") == "g3" for memory in memories)
-    assert all(memory.partition_id is None for memory in memories)
 def test_labeled_memory_predictions_property(classification_model: ClassificationModel):
     """Test that LabeledMemory.predictions() only returns classification predictions."""
     # Given: A classification model with memories
@@ -850,7 +725,6 @@ def test_memory_predictions_expected_label_filter(classification_model: Classifi
 def test_insert_memories(writable_memoryset: LabeledMemoryset):
-    writable_memoryset.refresh()
     prev_length = writable_memoryset.length
     writable_memoryset.insert(
         [
@@ -859,10 +733,8 @@ def test_insert_memories(writable_memoryset: LabeledMemoryset):
         ],
         batch_size=1,
     )
-    writable_memoryset.refresh()
     assert writable_memoryset.length == prev_length + 2
     writable_memoryset.insert(dict(value="tomato soup is my favorite", label=0, key="test", source_id="test"))
-    writable_memoryset.refresh()
     assert writable_memoryset.length == prev_length + 3
     last_memory = writable_memoryset[-1]
     assert last_memory.value == "tomato soup is my favorite"
@@ -872,18 +744,16 @@ def test_insert_memories(writable_memoryset: LabeledMemoryset):
     assert last_memory.source_id == "test"
-@skip_in_prod("Production memorysets do not have session consistency guarantees")
-@skip_in_ci("CI environment may not have session consistency guarantees")
 def test_update_memories(writable_memoryset: LabeledMemoryset, hf_dataset: Dataset):
     # We've combined the update tests into one to avoid multiple expensive requests for a writable_memoryset
     # test updating a single memory
     memory_id = writable_memoryset[0].memory_id
-    updated_memory = writable_memoryset.update(dict(memory_id=memory_id, value="i love soup so much"))
+    updated_count = writable_memoryset.update(dict(memory_id=memory_id, value="i love soup so much"))
+    assert updated_count == 1
+    updated_memory = writable_memoryset.get(memory_id, consistency_level="Strong")
     assert updated_memory.value == "i love soup so much"
     assert updated_memory.label == hf_dataset[0]["label"]
-    writable_memoryset.refresh()  # Refresh to ensure consistency after update
-    assert writable_memoryset.get(memory_id).value == "i love soup so much"
     # test updating a memory instance
     memory = writable_memoryset[0]
@@ -894,15 +764,52 @@ def test_update_memories(writable_memoryset: LabeledMemoryset, hf_dataset: Datas
     # test updating multiple memories
     memory_ids = [memory.memory_id for memory in writable_memoryset[:2]]
-    updated_memories = writable_memoryset.update(
+    updated_count = writable_memoryset.update(
         [
             dict(memory_id=memory_ids[0], value="i love soup so much"),
             dict(memory_id=memory_ids[1], value="cats are so cute"),
         ],
         batch_size=1,
     )
-    assert updated_memories[0].value == "i love soup so much"
-    assert updated_memories[1].value == "cats are so cute"
+    assert updated_count == 2
+    assert writable_memoryset.get(memory_ids[0], consistency_level="Strong").value == "i love soup so much"
+    assert writable_memoryset.get(memory_ids[1], consistency_level="Strong").value == "cats are so cute"
+def test_update_memory_metadata(writable_memoryset: LabeledMemoryset):
+    memory = writable_memoryset[0]
+    assert memory.metadata["key"] == "g1"
+    # Updating label without metadata should preserve existing metadata
+    updated = memory.update(label=1)
+    assert updated.label == 1
+    assert updated.metadata["key"] == "g1", "Metadata should be preserved when not specified"
+    # Updating metadata via top-level keys should update only specified keys
+    updated = memory.update(key="updated", new_key="added")
+    assert updated.metadata["key"] == "updated", "Existing metadata key should be preserved"
+    assert updated.metadata["new_key"] == "added", "New metadata key should be added"
+    # Can explicitly clear metadata by passing metadata={}
+    writable_memoryset.update(dict(memory_id=memory.memory_id, metadata={}))
+    updated = writable_memoryset.get(memory.memory_id, consistency_level="Strong")
+    assert updated.metadata == {}, "Metadata should be cleared when explicitly set to {}"
+def test_update_memories_by_filter(writable_memoryset: LabeledMemoryset):
+    source_ids_to_update = ["s1", "s3"]
+    initial_length = len(writable_memoryset)
+    updated_count = writable_memoryset.update(
+        filters=[("source_id", "in", source_ids_to_update)],
+        patch={"label": 1},
+    )
+    assert updated_count == 2
+    assert len(writable_memoryset) == initial_length
+    updated_memories = writable_memoryset.query(
+        filters=[("source_id", "in", source_ids_to_update)], consistency_level="Strong"
+    )
+    assert len(updated_memories) == 2
+    assert all(memory.label == 1 for memory in updated_memories)
 def test_delete_memories(writable_memoryset: LabeledMemoryset):
@@ -911,17 +818,60 @@ def test_delete_memories(writable_memoryset: LabeledMemoryset):
     # test deleting a single memory
     prev_length = writable_memoryset.length
     memory_id = writable_memoryset[0].memory_id
-    writable_memoryset.delete(memory_id)
+    deleted_count = writable_memoryset.delete(memory_id)
+    assert deleted_count == 1
     with pytest.raises(LookupError):
         writable_memoryset.get(memory_id)
     assert writable_memoryset.length == prev_length - 1
     # test deleting multiple memories
     prev_length = writable_memoryset.length
-    writable_memoryset.delete([writable_memoryset[0].memory_id, writable_memoryset[1].memory_id], batch_size=1)
+    deleted_count = writable_memoryset.delete(
+        [writable_memoryset[0].memory_id, writable_memoryset[1].memory_id], batch_size=1
+    )
+    assert deleted_count == 2
     assert writable_memoryset.length == prev_length - 2
+def test_delete_memories_by_filter(writable_memoryset: LabeledMemoryset):
+    source_ids_to_delete = ["s1", "s3"]
+    initial_length = len(writable_memoryset)
+    memories_before = writable_memoryset.query(filters=[("source_id", "in", source_ids_to_delete)])
+    assert len(memories_before) == 2
+    deleted_count = writable_memoryset.delete(filters=[("source_id", "in", source_ids_to_delete)])
+    assert deleted_count == 2
+    assert len(writable_memoryset) == initial_length - 2
+    memories_after = writable_memoryset.query(filters=[("source_id", "in", source_ids_to_delete)])
+    assert len(memories_after) == 0
+def test_delete_all_memories(writable_memoryset: LabeledMemoryset):
+    initial_count = writable_memoryset.length
+    deleted_count = writable_memoryset.truncate()
+    assert deleted_count == initial_count
+    assert writable_memoryset.length == 0
+def test_delete_all_memories_from_partition(writable_memoryset: LabeledMemoryset):
+    memories_in_partition = len(writable_memoryset.query(filters=[("partition_id", "==", "p1")]))
+    assert memories_in_partition > 0
+    deleted_count = writable_memoryset.truncate(partition_id="p1")
+    assert deleted_count == memories_in_partition
+    memories_in_partition_after = len(writable_memoryset.query(filters=[("partition_id", "==", "p1")]))
+    assert memories_in_partition_after == 0
+    assert writable_memoryset.length > 0
+def test_delete_all_memories_from_global_partition(writable_memoryset: LabeledMemoryset):
+    memories_in_global_partition = len(writable_memoryset.query(filters=[("partition_id", "==", None)]))
+    assert memories_in_global_partition > 0
+    deleted_count = writable_memoryset.truncate(partition_id=None)
+    assert deleted_count == memories_in_global_partition
+    memories_in_global_partition_after = len(writable_memoryset.query(filters=[("partition_id", "==", None)]))
+    assert memories_in_global_partition_after == 0
+    assert writable_memoryset.length > 0
 def test_clone_memoryset(readonly_memoryset: LabeledMemoryset):
     cloned_memoryset = readonly_memoryset.clone(
         "test_cloned_memoryset", embedding_model=PretrainedEmbeddingModel.DISTILBERT
@@ -983,7 +933,6 @@ async def test_group_potential_duplicates(writable_memoryset: LabeledMemoryset):
 def test_get_cascading_edits_suggestions(writable_memoryset: LabeledMemoryset):
-    # Insert a memory to test cascading edits
     SOUP = 0
     CATS = 1
     query_text = "i love soup"  # from SAMPLE_DATA in conftest.py
@@ -993,11 +942,7 @@ def test_get_cascading_edits_suggestions(writable_memoryset: LabeledMemoryset):
             dict(value=mislabeled_soup_text, label=CATS),  # mislabeled soup memory
         ]
     )
-    # Fetch the memory to update
     memory = writable_memoryset.query(filters=[("value", "==", query_text)])[0]
-    # Update the label and get cascading edit suggestions
     suggestions = writable_memoryset.get_cascading_edits_suggestions(
         memory=memory,
         old_label=CATS,
@@ -1005,8 +950,6 @@ def test_get_cascading_edits_suggestions(writable_memoryset: LabeledMemoryset):
         max_neighbors=10,
         max_validation_neighbors=5,
     )
-    # Validate the suggestions
     assert len(suggestions) == 1
     assert suggestions[0]["neighbor"]["value"] == mislabeled_soup_text
@@ -1062,26 +1005,24 @@ def test_scored_memoryset(scored_memoryset: ScoredMemoryset):
     assert lookup[0].score < 0.11
-@skip_in_prod("Production memorysets do not have session consistency guarantees")
 def test_update_scored_memory(scored_memoryset: ScoredMemoryset):
     # we are only updating an inconsequential metadata field so that we don't affect other tests
     memory = scored_memoryset[0]
     assert memory.label == 0
     scored_memoryset.update(dict(memory_id=memory.memory_id, label=3))
-    assert scored_memoryset[0].label == 3
-    memory.update(label=4)
-    assert scored_memoryset[0].label == 4
+    memory = scored_memoryset.get(memory.memory_id, consistency_level="Strong")
+    assert memory.label == 3
+    memory = memory.update(label=4)
+    memory = scored_memoryset.get(memory.memory_id, consistency_level="Strong")
+    assert memory.label == 4
 @pytest.mark.asyncio
 async def test_insert_memories_async_single(writable_memoryset: LabeledMemoryset):
-    """Test async insertion of a single memory"""
-    await writable_memoryset.arefresh()
     prev_length = writable_memoryset.length
     await writable_memoryset.ainsert(dict(value="async tomato soup is my favorite", label=0, key="async_test"))
-    await writable_memoryset.arefresh()
     assert writable_memoryset.length == prev_length + 1
     last_memory = writable_memoryset[-1]
     assert last_memory.value == "async tomato soup is my favorite"
@@ -1091,8 +1032,6 @@ async def test_insert_memories_async_single(writable_memoryset: LabeledMemoryset
 @pytest.mark.asyncio
 async def test_insert_memories_async_batch(writable_memoryset: LabeledMemoryset):
-    """Test async insertion of multiple memories"""
-    await writable_memoryset.arefresh()
     prev_length = writable_memoryset.length
     await writable_memoryset.ainsert(
@@ -1102,7 +1041,6 @@ async def test_insert_memories_async_batch(writable_memoryset: LabeledMemoryset)
         ]
     )
-    await writable_memoryset.arefresh()
     assert writable_memoryset.length == prev_length + 2
     # Check the inserted memories
@@ -1121,8 +1059,6 @@ async def test_insert_memories_async_batch(writable_memoryset: LabeledMemoryset)
 @pytest.mark.asyncio
 async def test_insert_memories_async_with_source_id(writable_memoryset: LabeledMemoryset):
-    """Test async insertion with source_id and metadata"""
-    await writable_memoryset.arefresh()
     prev_length = writable_memoryset.length
     await writable_memoryset.ainsert(
@@ -1131,7 +1067,6 @@ async def test_insert_memories_async_with_source_id(writable_memoryset: LabeledM
         )
     )
-    await writable_memoryset.arefresh()
     assert writable_memoryset.length == prev_length + 1
     last_memory = writable_memoryset[-1]
     assert last_memory.value == "async soup with source id"

orca-sdk 0.1.10__py3-none-any.whl → 0.1.12__py3-none-any.whl

orca-sdk 0.1.10py3-none-any.whl → 0.1.12py3-none-any.whl