PyPI - cognite-neat - Versions diffs - 0.106.0__py3-none-any.whl → 0.108.0__py3-none-any.whl - Mend

cognite-neat 0.106.0py3-none-any.whl → 0.108.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of cognite-neat might be problematic. Click here for more details.

Files changed (67) hide show

cognite/neat/_constants.py +35 -1
cognite/neat/_graph/_shared.py +4 -0
cognite/neat/_graph/extractors/__init__.py +5 -1
cognite/neat/_graph/extractors/_base.py +32 -0
cognite/neat/_graph/extractors/_classic_cdf/_base.py +128 -14
cognite/neat/_graph/extractors/_classic_cdf/_classic.py +156 -12
cognite/neat/_graph/extractors/_classic_cdf/_relationships.py +50 -12
cognite/neat/_graph/extractors/_classic_cdf/_sequences.py +26 -1
cognite/neat/_graph/extractors/_dms.py +196 -47
cognite/neat/_graph/extractors/_dms_graph.py +199 -0
cognite/neat/_graph/extractors/_mock_graph_generator.py +1 -1
cognite/neat/_graph/extractors/_rdf_file.py +33 -5
cognite/neat/_graph/loaders/__init__.py +1 -3
cognite/neat/_graph/loaders/_rdf2dms.py +123 -19
cognite/neat/_graph/queries/_base.py +140 -84
cognite/neat/_graph/queries/_construct.py +2 -2
cognite/neat/_graph/transformers/__init__.py +8 -1
cognite/neat/_graph/transformers/_base.py +9 -1
cognite/neat/_graph/transformers/_classic_cdf.py +90 -3
cognite/neat/_graph/transformers/_rdfpath.py +3 -3
cognite/neat/_graph/transformers/_value_type.py +106 -45
cognite/neat/_issues/errors/_resources.py +1 -1
cognite/neat/_issues/warnings/__init__.py +0 -2
cognite/neat/_issues/warnings/_models.py +1 -1
cognite/neat/_issues/warnings/_properties.py +0 -8
cognite/neat/_rules/analysis/_base.py +1 -1
cognite/neat/_rules/analysis/_information.py +14 -13
cognite/neat/_rules/catalog/__init__.py +1 -0
cognite/neat/_rules/catalog/classic_model.xlsx +0 -0
cognite/neat/_rules/catalog/info-rules-imf.xlsx +0 -0
cognite/neat/_rules/exporters/_rules2instance_template.py +3 -3
cognite/neat/_rules/importers/__init__.py +3 -1
cognite/neat/_rules/importers/_dms2rules.py +7 -5
cognite/neat/_rules/importers/_dtdl2rules/spec.py +1 -2
cognite/neat/_rules/importers/_rdf/__init__.py +2 -2
cognite/neat/_rules/importers/_rdf/_base.py +2 -2
cognite/neat/_rules/importers/_rdf/_inference2rules.py +242 -19
cognite/neat/_rules/models/_base_rules.py +13 -15
cognite/neat/_rules/models/_types.py +5 -0
cognite/neat/_rules/models/dms/_rules.py +51 -10
cognite/neat/_rules/models/dms/_rules_input.py +4 -0
cognite/neat/_rules/models/information/_rules.py +48 -5
cognite/neat/_rules/models/information/_rules_input.py +6 -1
cognite/neat/_rules/models/mapping/_classic2core.py +4 -5
cognite/neat/_rules/transformers/__init__.py +10 -0
cognite/neat/_rules/transformers/_converters.py +300 -62
cognite/neat/_session/_base.py +57 -10
cognite/neat/_session/_drop.py +5 -1
cognite/neat/_session/_inspect.py +3 -2
cognite/neat/_session/_mapping.py +17 -6
cognite/neat/_session/_prepare.py +0 -47
cognite/neat/_session/_read.py +115 -10
cognite/neat/_session/_set.py +27 -0
cognite/neat/_session/_show.py +4 -4
cognite/neat/_session/_state.py +12 -1
cognite/neat/_session/_to.py +43 -2
cognite/neat/_session/_wizard.py +1 -1
cognite/neat/_session/exceptions.py +8 -3
cognite/neat/_store/_graph_store.py +331 -136
cognite/neat/_store/_rules_store.py +130 -1
cognite/neat/_utils/auth.py +3 -1
cognite/neat/_version.py +1 -1
{cognite_neat-0.106.0.dist-info → cognite_neat-0.108.0.dist-info}/METADATA +2 -2
{cognite_neat-0.106.0.dist-info → cognite_neat-0.108.0.dist-info}/RECORD +67 -65
{cognite_neat-0.106.0.dist-info → cognite_neat-0.108.0.dist-info}/WHEEL +1 -1
{cognite_neat-0.106.0.dist-info → cognite_neat-0.108.0.dist-info}/LICENSE +0 -0
{cognite_neat-0.106.0.dist-info → cognite_neat-0.108.0.dist-info}/entry_points.txt +0 -0

cognite/neat/_constants.py CHANGED Viewed

@@ -5,6 +5,7 @@ from typing import TYPE_CHECKING
 from cognite.client import data_modeling as dm
 from cognite.client.data_classes.data_modeling.ids import DataModelId
 from rdflib import DC, DCTERMS, FOAF, OWL, RDF, RDFS, SH, SKOS, XSD, Namespace, URIRef
+from rdflib.namespace import DefinedNamespace
 from cognite import neat
@@ -73,10 +74,22 @@ DEFAULT_NAMESPACE = Namespace("http://purl.org/cognite/neat/")
 CDF_NAMESPACE = Namespace("https://cognitedata.com/")
 DEFAULT_BASE_URI = URIRef(DEFAULT_NAMESPACE)
 CLASSIC_CDF_NAMESPACE = Namespace("http://purl.org/cognite/cdf-classic#")
-UNKNOWN_TYPE = DEFAULT_NAMESPACE.UnknownType
 XML_SCHEMA_NAMESPACE = Namespace("http://www.w3.org/2001/XMLSchema#")
+class NEAT(DefinedNamespace):
+    """
+    NEAT internal data model used for internal purposes of the NEAT library
+    """
+    _fail = True
+    _NS = Namespace("http://thisisneat.io/internal/")
+    type: URIRef  # type property used to express a type of a subject
+    UnknownType: URIRef  # Unknown type used to express that the type of a subject is unknown
 def get_default_prefixes_and_namespaces() -> dict[str, Namespace]:
     return {
         "owl": OWL._NS,
@@ -154,3 +167,24 @@ READONLY_PROPERTIES_BY_CONTAINER: Mapping[dm.ContainerId, frozenset[str]] = {
 def is_readonly_property(container: dm.ContainerId, property_: str) -> bool:
     return container in READONLY_PROPERTIES_BY_CONTAINER and property_ in READONLY_PROPERTIES_BY_CONTAINER[container]
+DMS_RESERVED_PROPERTIES = frozenset(
+    {
+        "createdTime",
+        "deletedTime",
+        "edge_id",
+        "extensions",
+        "externalId",
+        "lastUpdatedTime",
+        "node_id",
+        "project_id",
+        "property_group",
+        "seq",
+        "space",
+        "version",
+        "tg_table_name",
+        "startNode",
+        "endNode",
+    }
+)

cognite/neat/_graph/_shared.py CHANGED Viewed

@@ -7,6 +7,10 @@ MIMETypes: TypeAlias = Literal[
 RDFTypes: TypeAlias = Literal["xml", "rdf", "owl", "n3", "ttl", "turtle", "nt", "nq", "nquads", "trig"]
+def quad_formats() -> list[str]:
+    return ["trig", "nquads", "nq", "nt"]
 def rdflib_to_oxi_type(rdflib_format: str) -> str | None:
     """Convert an RDFlib format to a MIME type.

cognite/neat/_graph/extractors/__init__.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from cognite.neat._session.engine._interface import Extractor as EngineExtractor
-from ._base import BaseExtractor
+from ._base import BaseExtractor, KnowledgeGraphExtractor
 from ._classic_cdf._assets import AssetsExtractor
 from ._classic_cdf._classic import ClassicGraphExtractor
 from ._classic_cdf._data_sets import DataSetExtractor
@@ -12,6 +12,7 @@ from ._classic_cdf._sequences import SequencesExtractor
 from ._classic_cdf._timeseries import TimeSeriesExtractor
 from ._dexpi import DexpiExtractor
 from ._dms import DMSExtractor
+from ._dms_graph import DMSGraphExtractor
 from ._iodd import IODDExtractor
 from ._mock_graph_generator import MockGraphGenerator
 from ._rdf_file import RdfFileExtractor
@@ -21,11 +22,13 @@ __all__ = [
     "BaseExtractor",
     "ClassicGraphExtractor",
     "DMSExtractor",
+    "DMSGraphExtractor",
     "DataSetExtractor",
     "DexpiExtractor",
     "EventsExtractor",
     "FilesExtractor",
     "IODDExtractor",
+    "KnowledgeGraphExtractor",
     "LabelsExtractor",
     "MockGraphGenerator",
     "RdfFileExtractor",
@@ -51,6 +54,7 @@ TripleExtractors = (
     | ClassicGraphExtractor
     | DataSetExtractor
     | EngineExtractor
+    | DMSGraphExtractor
 )

cognite/neat/_graph/extractors/_base.py CHANGED Viewed

@@ -1,9 +1,17 @@
 from abc import abstractmethod
 from collections.abc import Iterable
+from typing import TYPE_CHECKING
+from rdflib import URIRef
+from cognite.neat._constants import DEFAULT_NAMESPACE
+from cognite.neat._rules.models import InformationRules
 from cognite.neat._shared import Triple
 from cognite.neat._utils.auxiliary import class_html_doc
+if TYPE_CHECKING:
+    from cognite.neat._store._provenance import Agent as ProvenanceAgent
 class BaseExtractor:
     """This is the base class for all extractors. It defines the interface that
@@ -24,3 +32,27 @@ class BaseExtractor:
     @classmethod
     def _repr_html_(cls) -> str:
         return class_html_doc(cls)
+class KnowledgeGraphExtractor(BaseExtractor):
+    """A knowledge graph extractor extracts triples with a schema"""
+    @abstractmethod
+    def get_information_rules(self) -> InformationRules:
+        """Returns the information rules that the extractor uses."""
+        raise NotImplementedError()
+    @property
+    def description(self) -> str:
+        return self.__doc__.strip().split("\n")[0] if self.__doc__ else "Missing"
+    @property
+    def source_uri(self) -> URIRef:
+        raise NotImplementedError
+    @property
+    def agent(self) -> "ProvenanceAgent":
+        """Provenance agent for the importer."""
+        from cognite.neat._store._provenance import Agent as ProvenanceAgent
+        return ProvenanceAgent(id_=DEFAULT_NAMESPACE[f"agent/{type(self).__name__}"])

cognite/neat/_graph/extractors/_classic_cdf/_base.py CHANGED Viewed

@@ -1,6 +1,8 @@
 import json
 import re
 import sys
+import typing
+import urllib.parse
 import warnings
 from abc import ABC, abstractmethod
 from collections.abc import Callable, Iterable, Sequence, Set
@@ -16,7 +18,8 @@ from rdflib import RDF, XSD, Literal, Namespace, URIRef
 from cognite.neat._constants import DEFAULT_NAMESPACE
 from cognite.neat._graph.extractors._base import BaseExtractor
-from cognite.neat._issues.warnings import CDFAuthWarning
+from cognite.neat._issues.errors import NeatValueError
+from cognite.neat._issues.warnings import CDFAuthWarning, NeatValueWarning
 from cognite.neat._shared import Triple
 from cognite.neat._utils.auxiliary import string_to_ideal_type
 from cognite.neat._utils.collection_ import iterate_progress_bar_if_above_config_threshold
@@ -72,6 +75,8 @@ class ClassicCDFBaseExtractor(BaseExtractor, ABC, Generic[T_CogniteResource]):
         camel_case (bool, optional): Whether to use camelCase instead of snake_case for property names.
             Defaults to True.
         as_write (bool, optional): Whether to use the write/request format of the items. Defaults to False.
+        prefix (str, optional): A prefix to add to the rdf type. Defaults to None.
+        identifier (Literal["id", "externalId"], optional): The identifier to use. Defaults to "id".
     """
     _default_rdf_type: str
@@ -89,6 +94,8 @@ class ClassicCDFBaseExtractor(BaseExtractor, ABC, Generic[T_CogniteResource]):
         skip_metadata_values: Set[str] | None = DEFAULT_SKIP_METADATA_VALUES,
         camel_case: bool = True,
         as_write: bool = False,
+        prefix: str | None = None,
+        identifier: typing.Literal["id", "externalId"] = "id",
     ):
         self.namespace = namespace or DEFAULT_NAMESPACE
         self.items = items
@@ -99,9 +106,19 @@ class ClassicCDFBaseExtractor(BaseExtractor, ABC, Generic[T_CogniteResource]):
         self.skip_metadata_values = skip_metadata_values
         self.camel_case = camel_case
         self.as_write = as_write
+        self.prefix = prefix
+        self.identifier = identifier
+        # If identifier=externalId, we need to keep track of the external ids
+        # and use them in linking of Files, Sequences, TimeSeries, and Events.
+        self.asset_external_ids_by_id: dict[int, str] = {}
+        self.lookup_dataset_external_id: Callable[[int], str] | None = None
+        # Used by the ClassicGraphExtractor to log URIRefs
+        self._log_urirefs = False
+        self._uriref_by_external_id: dict[str, URIRef] = {}
     def extract(self) -> Iterable[Triple]:
         """Extracts an asset with the given asset_id."""
+        from ._assets import AssetsExtractor
         if self.total is not None and self.total > 0:
             to_iterate = iterate_progress_bar_if_above_config_threshold(
@@ -109,21 +126,40 @@ class ClassicCDFBaseExtractor(BaseExtractor, ABC, Generic[T_CogniteResource]):
             )
         else:
             to_iterate = self.items
+        if self.identifier == "externalId" and isinstance(self, AssetsExtractor):
+            to_iterate = self._store_asset_external_ids(to_iterate)  # type: ignore[attr-defined]
         for no, asset in enumerate(to_iterate):
             yield from self._item2triples(asset)
             if self.limit and no >= self.limit:
                 break
+    def _store_asset_external_ids(self, items: Iterable[T_CogniteResource]) -> Iterable[T_CogniteResource]:
+        for item in items:
+            if hasattr(item, "id") and hasattr(item, "external_id"):
+                self.asset_external_ids_by_id[item.id] = item.external_id
+            yield item
     def _item2triples(self, item: T_CogniteResource) -> list[Triple]:
-        id_value: str | None
-        if hasattr(item, "id"):
-            id_value = str(item.id)
+        if self.identifier == "id":
+            id_value: str | None
+            if hasattr(item, "id"):
+                id_value = str(item.id)
+            else:
+                id_value = self._fallback_id(item)
+            if id_value is None:
+                return []
+            id_suffix = id_value
+        elif self.identifier == "externalId":
+            if not hasattr(item, "external_id"):
+                return []
+            id_suffix = self._external_id_as_uri_suffix(item.external_id)
         else:
-            id_value = self._fallback_id(item)
-        if id_value is None:
-            return []
+            raise NeatValueError(f"Unknown identifier {self.identifier}")
-        id_ = self.namespace[f"{self._instance_id_prefix}{id_value}"]
+        id_ = self.namespace[f"{self._instance_id_prefix}{id_suffix}"]
+        if self._log_urirefs and hasattr(item, "external_id"):
+            self._uriref_by_external_id[item.external_id] = id_
         type_ = self._get_rdf_type(item)
@@ -152,10 +188,25 @@ class ClassicCDFBaseExtractor(BaseExtractor, ABC, Generic[T_CogniteResource]):
         """This can be overridden to handle special cases for the item."""
         return []
+    @classmethod
+    def _external_id_as_uri_suffix(cls, external_id: str | None) -> str:
+        if external_id == "":
+            warnings.warn(NeatValueWarning(f"Empty external id in {cls._default_rdf_type}"), stacklevel=2)
+            return "empty"
+        elif external_id == "\x00":
+            warnings.warn(NeatValueWarning(f"Null external id in {cls._default_rdf_type}"), stacklevel=2)
+            return "null"
+        elif external_id is None:
+            warnings.warn(NeatValueWarning(f"None external id in {cls._default_rdf_type}"), stacklevel=2)
+            return "None"
+        # The external ID needs to pass the ^[^\\x00]{1,256}$ regex for the DMS API.
+        # In addition, neat internals requires the external ID to be a valid URI.
+        return urllib.parse.quote(external_id)
     def _fallback_id(self, item: T_CogniteResource) -> str | None:
         raise AttributeError(
             f"Item of type {type(item)} does not have an id attribute. "
-            f"Please implement the _fallback_id method in the extractor."
+            "Please implement the _fallback_id method in the extractor."
         )
     def _metadata_to_triples(self, id_: URIRef, metadata: dict[str, str]) -> Iterable[Triple]:
@@ -174,13 +225,34 @@ class ClassicCDFBaseExtractor(BaseExtractor, ABC, Generic[T_CogniteResource]):
         type_ = self._default_rdf_type
         if self.to_type:
             type_ = self.to_type(item) or type_
+        if self.prefix:
+            type_ = f"{self.prefix}{type_}"
         return self._SPACE_PATTERN.sub("_", type_)
     def _as_object(self, raw: Any, key: str) -> Literal | URIRef:
+        """Return properly formatted object part of s-p-o triple"""
         if key in {"data_set_id", "dataSetId"}:
-            return self.namespace[f"{InstanceIdPrefix.data_set}{raw}"]
+            if self.identifier == "externalId" and self.lookup_dataset_external_id:
+                try:
+                    data_set_external_id = self.lookup_dataset_external_id(raw)
+                except KeyError:
+                    return Literal("Unknown data set")
+                else:
+                    return self.namespace[
+                        f"{InstanceIdPrefix.data_set}{self._external_id_as_uri_suffix(data_set_external_id)}"
+                    ]
+            else:
+                return self.namespace[f"{InstanceIdPrefix.data_set}{raw}"]
         elif key in {"assetId", "asset_id", "assetIds", "asset_ids", "parentId", "rootId", "parent_id", "root_id"}:
-            return self.namespace[f"{InstanceIdPrefix.asset}{raw}"]
+            if self.identifier == "id":
+                return self.namespace[f"{InstanceIdPrefix.asset}{raw}"]
+            else:
+                try:
+                    asset_external_id = self._external_id_as_uri_suffix(self.asset_external_ids_by_id[raw])
+                except KeyError:
+                    return Literal("Unknown asset", datatype=XSD.string)
+                else:
+                    return self.namespace[f"{InstanceIdPrefix.asset}{asset_external_id}"]
         elif key in {
             "startTime",
             "endTime",
@@ -218,9 +290,23 @@ class ClassicCDFBaseExtractor(BaseExtractor, ABC, Generic[T_CogniteResource]):
         skip_metadata_values: Set[str] | None = DEFAULT_SKIP_METADATA_VALUES,
         camel_case: bool = True,
         as_write: bool = False,
+        prefix: str | None = None,
+        identifier: typing.Literal["id", "externalId"] = "id",
     ):
         total, items = cls._handle_no_access(lambda: cls._from_dataset(client, data_set_external_id))
-        return cls(items, namespace, to_type, total, limit, unpack_metadata, skip_metadata_values, camel_case, as_write)
+        return cls(
+            items,
+            namespace,
+            to_type,
+            total,
+            limit,
+            unpack_metadata,
+            skip_metadata_values,
+            camel_case,
+            as_write,
+            prefix,
+            identifier,
+        )
     @classmethod
     @abstractmethod
@@ -241,9 +327,23 @@ class ClassicCDFBaseExtractor(BaseExtractor, ABC, Generic[T_CogniteResource]):
         skip_metadata_values: Set[str] | None = DEFAULT_SKIP_METADATA_VALUES,
         camel_case: bool = True,
         as_write: bool = False,
+        prefix: str | None = None,
+        identifier: typing.Literal["id", "externalId"] = "id",
     ):
         total, items = cls._handle_no_access(lambda: cls._from_hierarchy(client, root_asset_external_id))
-        return cls(items, namespace, to_type, total, limit, unpack_metadata, skip_metadata_values, camel_case, as_write)
+        return cls(
+            items,
+            namespace,
+            to_type,
+            total,
+            limit,
+            unpack_metadata,
+            skip_metadata_values,
+            camel_case,
+            as_write,
+            prefix,
+            identifier,
+        )
     @classmethod
     @abstractmethod
@@ -263,9 +363,23 @@ class ClassicCDFBaseExtractor(BaseExtractor, ABC, Generic[T_CogniteResource]):
         skip_metadata_values: Set[str] | None = DEFAULT_SKIP_METADATA_VALUES,
         camel_case: bool = True,
         as_write: bool = False,
+        prefix: str | None = None,
+        identifier: typing.Literal["id", "externalId"] = "id",
     ):
         total, items = cls._from_file(file_path)
-        return cls(items, namespace, to_type, total, limit, unpack_metadata, skip_metadata_values, camel_case, as_write)
+        return cls(
+            items,
+            namespace,
+            to_type,
+            total,
+            limit,
+            unpack_metadata,
+            skip_metadata_values,
+            camel_case,
+            as_write,
+            prefix,
+            identifier,
+        )
     @classmethod
     @abstractmethod

cognite/neat/_graph/extractors/_classic_cdf/_classic.py CHANGED Viewed

@@ -1,18 +1,27 @@
+import typing
+import urllib.parse
 import warnings
 from collections import defaultdict
 from collections.abc import Iterable, Sequence
-from typing import ClassVar, NamedTuple
+from typing import ClassVar, NamedTuple, cast
 from cognite.client import CogniteClient
 from cognite.client.exceptions import CogniteAPIError
-from rdflib import Namespace
-from cognite.neat._constants import CLASSIC_CDF_NAMESPACE
-from cognite.neat._graph.extractors._base import BaseExtractor
-from cognite.neat._issues.warnings import CDFAuthWarning
+from rdflib import Namespace, URIRef
+from cognite.neat._constants import CLASSIC_CDF_NAMESPACE, DEFAULT_NAMESPACE, get_default_prefixes_and_namespaces
+from cognite.neat._graph.extractors._base import KnowledgeGraphExtractor
+from cognite.neat._issues.errors import NeatValueError, ResourceNotFoundError
+from cognite.neat._issues.warnings import CDFAuthWarning, NeatValueWarning
+from cognite.neat._rules._shared import ReadRules
+from cognite.neat._rules.catalog import classic_model
+from cognite.neat._rules.models import InformationInputRules, InformationRules
+from cognite.neat._rules.models._rdfpath import Entity as RDFPathEntity
+from cognite.neat._rules.models._rdfpath import RDFPath, SingleProperty
 from cognite.neat._shared import Triple
 from cognite.neat._utils.collection_ import chunker, iterate_progress_bar
 from cognite.neat._utils.rdf_ import remove_namespace_from_uri
+from cognite.neat._utils.text import to_snake
 from ._assets import AssetsExtractor
 from ._base import ClassicCDFBaseExtractor, InstanceIdPrefix
@@ -37,7 +46,7 @@ class _ClassicCoreType(NamedTuple):
     api_name: str
-class ClassicGraphExtractor(BaseExtractor):
+class ClassicGraphExtractor(KnowledgeGraphExtractor):
     """This extractor extracts all classic CDF Resources.
     The Classic Graph consists of the following core resource type.
@@ -93,6 +102,8 @@ class ClassicGraphExtractor(BaseExtractor):
         root_asset_external_id: str | None = None,
         namespace: Namespace | None = None,
         limit_per_type: int | None = None,
+        prefix: str | None = None,
+        identifier: typing.Literal["id", "externalId"] = "id",
     ):
         self._client = client
         if sum([bool(data_set_external_id), bool(root_asset_external_id)]) != 1:
@@ -101,16 +112,29 @@ class ClassicGraphExtractor(BaseExtractor):
         self._data_set_external_id = data_set_external_id
         self._namespace = namespace or CLASSIC_CDF_NAMESPACE
         self._extractor_args = dict(
-            namespace=self._namespace, unpack_metadata=False, as_write=True, camel_case=True, limit=limit_per_type
+            namespace=self._namespace,
+            unpack_metadata=False,
+            as_write=True,
+            camel_case=True,
+            limit=limit_per_type,
+            prefix=prefix,
+            identifier=identifier,
         )
+        self._identifier = identifier
+        self._prefix = prefix
         self._limit_per_type = limit_per_type
+        self._uris_by_external_id_by_type: dict[InstanceIdPrefix, dict[str, URIRef]] = defaultdict(dict)
         self._source_external_ids_by_type: dict[InstanceIdPrefix, set[str]] = defaultdict(set)
         self._target_external_ids_by_type: dict[InstanceIdPrefix, set[str]] = defaultdict(set)
+        self._relationship_subject_predicate_type_external_id: list[tuple[URIRef, URIRef, str, str]] = []
         self._labels: set[str] = set()
         self._data_set_ids: set[int] = set()
+        self._data_set_external_ids: set[str] = set()
         self._extracted_labels = False
         self._extracted_data_sets = False
+        self._asset_external_ids_by_id: dict[int, str] = {}
+        self._dataset_external_ids_by_id: dict[int, str] = {}
     def _get_activity_names(self) -> list[str]:
         activities = [data_access_object.extractor_cls.__name__ for data_access_object in self._classic_node_types] + [
@@ -124,12 +148,17 @@ class ClassicGraphExtractor(BaseExtractor):
     def extract(self) -> Iterable[Triple]:
         """Extracts all classic CDF Resources."""
+        self._validate_exists()
         yield from self._extract_core_start_nodes()
         yield from self._extract_start_node_relationships()
         yield from self._extract_core_end_nodes()
+        if self._identifier == "id":
+            yield from self._extract_relationship_target_triples()
         try:
             yield from self._extract_labels()
         except CogniteAPIError as e:
@@ -144,6 +173,69 @@ class ClassicGraphExtractor(BaseExtractor):
         else:
             self._extracted_data_sets = True
+    def get_information_rules(self) -> InformationRules:
+        # To avoid circular imports
+        from cognite.neat._rules.importers import ExcelImporter
+        unverified = cast(ReadRules[InformationInputRules], ExcelImporter(classic_model).to_rules())
+        if unverified.rules is None:
+            raise NeatValueError(f"Could not read the classic model rules from {classic_model}.")
+        verified = unverified.rules.as_verified_rules()
+        prefixes = get_default_prefixes_and_namespaces()
+        instance_prefix: str | None = next((k for k, v in prefixes.items() if v == self._namespace), None)
+        if instance_prefix is None:
+            # We need to add a new prefix
+            instance_prefix = f"prefix_{len(prefixes) + 1}"
+            prefixes[instance_prefix] = self._namespace
+        verified.prefixes = prefixes
+        is_snake_case = self._extractor_args["camel_case"] is False
+        for prop in verified.properties:
+            prop_id = prop.property_
+            if is_snake_case:
+                prop_id = to_snake(prop_id)
+            prop.instance_source = RDFPath(
+                traversal=SingleProperty(
+                    class_=RDFPathEntity(prefix=instance_prefix, suffix=prop.class_.suffix),
+                    property=RDFPathEntity(prefix=instance_prefix, suffix=prop_id),
+                )
+            )
+        return verified
+    @property
+    def description(self) -> str:
+        if self._data_set_external_id:
+            source = f"data set {self._data_set_external_id}."
+        elif self._root_asset_external_id:
+            source = f"root asset {self._root_asset_external_id}."
+        else:
+            source = "unknown source."
+        return f"Extracting clasic CDF Graph (Assets, TimeSeries, Sequences, Events, Files) from {source}."
+    @property
+    def source_uri(self) -> URIRef:
+        if self._data_set_external_id:
+            resource = "dataset"
+            external_id = self._data_set_external_id
+        elif self._root_asset_external_id:
+            resource = "asset"
+            external_id = self._root_asset_external_id
+        else:
+            resource = "unknown"
+            external_id = "unknown"
+        return DEFAULT_NAMESPACE[f"{self._client.config.project}/{resource}/{urllib.parse.quote(external_id)}"]
+    def _validate_exists(self) -> None:
+        if self._data_set_external_id:
+            if self._client.data_sets.retrieve(external_id=self._data_set_external_id) is None:
+                raise ResourceNotFoundError(self._data_set_external_id, "data set")
+        elif self._root_asset_external_id:
+            if self._client.assets.retrieve(external_id=self._root_asset_external_id) is None:
+                raise ResourceNotFoundError(self._root_asset_external_id, "root asset")
+        else:
+            raise ValueError("Exactly one of data_set_external_id or root_asset_external_id must be set.")
     def _extract_core_start_nodes(self):
         for core_node in self._classic_node_types:
             if self._data_set_external_id:
@@ -157,8 +249,20 @@ class ClassicGraphExtractor(BaseExtractor):
             else:
                 raise ValueError("Exactly one of data_set_external_id or root_asset_external_id must be set.")
+            if self._identifier == "externalId":
+                if isinstance(extractor, AssetsExtractor):
+                    self._asset_external_ids_by_id = extractor.asset_external_ids_by_id
+                else:
+                    extractor.asset_external_ids_by_id = self._asset_external_ids_by_id
+                extractor.lookup_dataset_external_id = self._lookup_dataset
+            elif self._identifier == "id":
+                extractor._log_urirefs = True
             yield from self._extract_with_logging_label_dataset(extractor, core_node.resource_type)
+            if self._identifier == "id":
+                self._uris_by_external_id_by_type[core_node.resource_type].update(extractor._uriref_by_external_id)
     def _extract_start_node_relationships(self):
         for start_resource_type, source_external_ids in self._source_external_ids_by_type.items():
             start_type = start_resource_type.removesuffix("_")
@@ -169,6 +273,8 @@ class ClassicGraphExtractor(BaseExtractor):
                 extractor = RelationshipsExtractor(relationship_iterator, **self._extractor_args)
                 # This is a private attribute, but we need to set it to log the target nodes.
                 extractor._log_target_nodes = True
+                if self._identifier == "id":
+                    extractor._uri_by_external_id_by_by_type = self._uris_by_external_id_by_type
                 yield from extractor.extract()
@@ -187,6 +293,11 @@ class ClassicGraphExtractor(BaseExtractor):
                         ):
                             self._target_external_ids_by_type[end_type].add(external_id)
+                if self._identifier == "id":
+                    # We need to store all future target triples which we will lookup after fetching
+                    # the target nodes.
+                    self._relationship_subject_predicate_type_external_id.extend(extractor._target_triples)
     def _extract_core_end_nodes(self):
         for core_node in self._classic_node_types:
             target_external_ids = self._target_external_ids_by_type[core_node.resource_type]
@@ -197,8 +308,26 @@ class ClassicGraphExtractor(BaseExtractor):
             ):
                 resource_iterator = api.retrieve_multiple(external_ids=list(chunk), ignore_unknown_ids=True)
                 extractor = core_node.extractor_cls(resource_iterator, **self._extractor_args)
+                extractor.asset_external_ids_by_id = self._asset_external_ids_by_id
+                extractor.lookup_dataset_external_id = self._lookup_dataset
+                if self._identifier == "id":
+                    extractor._log_urirefs = True
                 yield from self._extract_with_logging_label_dataset(extractor)
+                if self._identifier == "id":
+                    self._uris_by_external_id_by_type[core_node.resource_type].update(extractor._uriref_by_external_id)
+    def _extract_relationship_target_triples(self):
+        for id_, predicate, type_, external_id in self._relationship_subject_predicate_type_external_id:
+            try:
+                object_uri = self._uris_by_external_id_by_type[InstanceIdPrefix.from_str(type_)][external_id]
+            except KeyError:
+                warnings.warn(NeatValueWarning(f"Missing externalId {external_id} for {type_}"), stacklevel=2)
+            else:
+                yield id_, predicate, object_uri
     def _extract_labels(self):
         for chunk in self._chunk(list(self._labels), description="Extracting labels"):
             label_iterator = self._client.labels.retrieve(external_id=list(chunk), ignore_unknown_ids=True)
@@ -208,6 +337,11 @@ class ClassicGraphExtractor(BaseExtractor):
         for chunk in self._chunk(list(self._data_set_ids), description="Extracting data sets"):
             data_set_iterator = self._client.data_sets.retrieve_multiple(ids=list(chunk), ignore_unknown_ids=True)
             yield from DataSetExtractor(data_set_iterator, **self._extractor_args).extract()
+        for chunk in self._chunk(list(self._data_set_external_ids), description="Extracting data sets"):
+            data_set_iterator = self._client.data_sets.retrieve_multiple(
+                external_ids=list(chunk), ignore_unknown_ids=True
+            )
+            yield from DataSetExtractor(data_set_iterator, **self._extractor_args).extract()
     def _extract_with_logging_label_dataset(
         self, extractor: ClassicCDFBaseExtractor, resource_type: InstanceIdPrefix | None = None
@@ -217,10 +351,12 @@ class ClassicGraphExtractor(BaseExtractor):
                 self._source_external_ids_by_type[resource_type].add(remove_namespace_from_uri(triple[2]))
             elif triple[1] == self._namespace.labels:
                 self._labels.add(remove_namespace_from_uri(triple[2]).removeprefix(InstanceIdPrefix.label))
-            elif triple[1] == self._namespace.datasetId:
-                self._data_set_ids.add(
-                    int(remove_namespace_from_uri(triple[2]).removeprefix(InstanceIdPrefix.data_set))
-                )
+            elif triple[1] == self._namespace.dataSetId:
+                identifier = remove_namespace_from_uri(triple[2]).removeprefix(InstanceIdPrefix.data_set)
+                try:
+                    self._data_set_ids.add(int(identifier))
+                except ValueError:
+                    self._data_set_external_ids.add(identifier)
             yield triple
     @staticmethod
@@ -230,3 +366,11 @@ class ClassicGraphExtractor(BaseExtractor):
             return iterate_progress_bar(to_iterate, (len(items) // 1_000) + 1, description)
         else:
             return to_iterate
+    def _lookup_dataset(self, dataset_id: int) -> str:
+        if dataset_id not in self._dataset_external_ids_by_id:
+            if (dataset := self._client.data_sets.retrieve(id=dataset_id)) and dataset.external_id:
+                self._dataset_external_ids_by_id[dataset_id] = dataset.external_id
+            else:
+                raise KeyError(f"Could not find dataset with id {dataset_id}.")
+        return self._dataset_external_ids_by_id[dataset_id]

cognite-neat 0.106.0__py3-none-any.whl → 0.108.0__py3-none-any.whl

Potentially problematic release.

cognite-neat 0.106.0py3-none-any.whl → 0.108.0py3-none-any.whl