PyPI - pyg-nightly - Versions diffs - 2.6.0.dev20240319__py3-none-any.whl → 2.7.0.dev20250114__py3-none-any.whl - Mend

pyg-nightly 2.6.0.dev20240319py3-none-any.whl → 2.7.0.dev20250114py3-none-any.whl

Files changed (226) hide show

{pyg_nightly-2.6.0.dev20240319.dist-info → pyg_nightly-2.7.0.dev20250114.dist-info}/METADATA +31 -47
{pyg_nightly-2.6.0.dev20240319.dist-info → pyg_nightly-2.7.0.dev20250114.dist-info}/RECORD +226 -199
{pyg_nightly-2.6.0.dev20240319.dist-info → pyg_nightly-2.7.0.dev20250114.dist-info}/WHEEL +1 -1
torch_geometric/__init__.py +28 -1
torch_geometric/_compile.py +8 -1
torch_geometric/_onnx.py +14 -0
torch_geometric/config_mixin.py +113 -0
torch_geometric/config_store.py +28 -19
torch_geometric/data/__init__.py +24 -1
torch_geometric/data/batch.py +2 -2
torch_geometric/data/collate.py +8 -2
torch_geometric/data/data.py +16 -8
torch_geometric/data/database.py +61 -15
torch_geometric/data/dataset.py +14 -6
torch_geometric/data/feature_store.py +25 -42
torch_geometric/data/graph_store.py +1 -5
torch_geometric/data/hetero_data.py +18 -9
torch_geometric/data/in_memory_dataset.py +2 -4
torch_geometric/data/large_graph_indexer.py +677 -0
torch_geometric/data/lightning/datamodule.py +4 -4
torch_geometric/data/separate.py +6 -1
torch_geometric/data/storage.py +17 -7
torch_geometric/data/summary.py +14 -4
torch_geometric/data/temporal.py +1 -2
torch_geometric/datasets/__init__.py +17 -2
torch_geometric/datasets/actor.py +9 -11
torch_geometric/datasets/airfrans.py +15 -18
torch_geometric/datasets/airports.py +10 -12
torch_geometric/datasets/amazon.py +8 -11
torch_geometric/datasets/amazon_book.py +9 -10
torch_geometric/datasets/amazon_products.py +9 -10
torch_geometric/datasets/aminer.py +8 -9
torch_geometric/datasets/aqsol.py +10 -13
torch_geometric/datasets/attributed_graph_dataset.py +10 -12
torch_geometric/datasets/ba_multi_shapes.py +10 -12
torch_geometric/datasets/ba_shapes.py +5 -6
torch_geometric/datasets/bitcoin_otc.py +1 -1
torch_geometric/datasets/brca_tgca.py +1 -1
torch_geometric/datasets/cornell.py +145 -0
torch_geometric/datasets/dblp.py +2 -1
torch_geometric/datasets/dbp15k.py +2 -2
torch_geometric/datasets/fake.py +1 -3
torch_geometric/datasets/flickr.py +2 -1
torch_geometric/datasets/freebase.py +1 -1
torch_geometric/datasets/gdelt_lite.py +3 -2
torch_geometric/datasets/ged_dataset.py +3 -2
torch_geometric/datasets/git_mol_dataset.py +263 -0
torch_geometric/datasets/gnn_benchmark_dataset.py +11 -10
torch_geometric/datasets/hgb_dataset.py +8 -8
torch_geometric/datasets/imdb.py +2 -1
torch_geometric/datasets/karate.py +3 -2
torch_geometric/datasets/last_fm.py +2 -1
torch_geometric/datasets/linkx_dataset.py +4 -3
torch_geometric/datasets/lrgb.py +3 -5
torch_geometric/datasets/malnet_tiny.py +4 -3
torch_geometric/datasets/mnist_superpixels.py +2 -3
torch_geometric/datasets/molecule_gpt_dataset.py +485 -0
torch_geometric/datasets/molecule_net.py +15 -3
torch_geometric/datasets/motif_generator/base.py +0 -1
torch_geometric/datasets/neurograph.py +1 -3
torch_geometric/datasets/ogb_mag.py +1 -1
torch_geometric/datasets/opf.py +239 -0
torch_geometric/datasets/ose_gvcs.py +1 -1
torch_geometric/datasets/pascal.py +11 -9
torch_geometric/datasets/pascal_pf.py +1 -1
torch_geometric/datasets/pcpnet_dataset.py +1 -1
torch_geometric/datasets/pcqm4m.py +10 -3
torch_geometric/datasets/ppi.py +1 -1
torch_geometric/datasets/qm9.py +8 -7
torch_geometric/datasets/rcdd.py +4 -4
torch_geometric/datasets/reddit.py +2 -1
torch_geometric/datasets/reddit2.py +2 -1
torch_geometric/datasets/rel_link_pred_dataset.py +3 -3
torch_geometric/datasets/s3dis.py +5 -3
torch_geometric/datasets/shapenet.py +3 -3
torch_geometric/datasets/shrec2016.py +2 -2
torch_geometric/datasets/snap_dataset.py +7 -1
torch_geometric/datasets/tag_dataset.py +350 -0
torch_geometric/datasets/upfd.py +2 -1
torch_geometric/datasets/web_qsp_dataset.py +246 -0
torch_geometric/datasets/webkb.py +2 -2
torch_geometric/datasets/wikics.py +1 -1
torch_geometric/datasets/wikidata.py +3 -2
torch_geometric/datasets/wikipedia_network.py +2 -2
torch_geometric/datasets/willow_object_class.py +1 -1
torch_geometric/datasets/word_net.py +2 -2
torch_geometric/datasets/yelp.py +2 -1
torch_geometric/datasets/zinc.py +1 -1
torch_geometric/device.py +42 -0
torch_geometric/distributed/local_feature_store.py +3 -2
torch_geometric/distributed/local_graph_store.py +2 -1
torch_geometric/distributed/partition.py +9 -8
torch_geometric/edge_index.py +616 -438
torch_geometric/explain/algorithm/base.py +0 -1
torch_geometric/explain/algorithm/graphmask_explainer.py +1 -2
torch_geometric/explain/algorithm/pg_explainer.py +1 -1
torch_geometric/explain/explanation.py +2 -2
torch_geometric/graphgym/checkpoint.py +2 -1
torch_geometric/graphgym/logger.py +4 -4
torch_geometric/graphgym/loss.py +1 -1
torch_geometric/graphgym/utils/agg_runs.py +6 -6
torch_geometric/index.py +826 -0
torch_geometric/inspector.py +8 -3
torch_geometric/io/fs.py +28 -2
torch_geometric/io/npz.py +2 -1
torch_geometric/io/off.py +2 -2
torch_geometric/io/sdf.py +2 -2
torch_geometric/io/tu.py +4 -5
torch_geometric/loader/__init__.py +4 -0
torch_geometric/loader/cluster.py +10 -4
torch_geometric/loader/graph_saint.py +2 -1
torch_geometric/loader/ibmb_loader.py +12 -4
torch_geometric/loader/mixin.py +1 -1
torch_geometric/loader/neighbor_loader.py +1 -1
torch_geometric/loader/neighbor_sampler.py +2 -2
torch_geometric/loader/prefetch.py +1 -1
torch_geometric/loader/rag_loader.py +107 -0
torch_geometric/loader/utils.py +8 -7
torch_geometric/loader/zip_loader.py +10 -0
torch_geometric/metrics/__init__.py +11 -2
torch_geometric/metrics/link_pred.py +159 -34
torch_geometric/nn/aggr/__init__.py +4 -0
torch_geometric/nn/aggr/attention.py +0 -2
torch_geometric/nn/aggr/base.py +2 -4
torch_geometric/nn/aggr/patch_transformer.py +143 -0
torch_geometric/nn/aggr/set_transformer.py +1 -1
torch_geometric/nn/aggr/variance_preserving.py +33 -0
torch_geometric/nn/attention/__init__.py +5 -1
torch_geometric/nn/attention/qformer.py +71 -0
torch_geometric/nn/conv/collect.jinja +7 -4
torch_geometric/nn/conv/cugraph/base.py +8 -12
torch_geometric/nn/conv/edge_conv.py +3 -2
torch_geometric/nn/conv/fused_gat_conv.py +1 -1
torch_geometric/nn/conv/gat_conv.py +35 -7
torch_geometric/nn/conv/gatv2_conv.py +36 -6
torch_geometric/nn/conv/general_conv.py +1 -1
torch_geometric/nn/conv/graph_conv.py +21 -3
torch_geometric/nn/conv/gravnet_conv.py +3 -2
torch_geometric/nn/conv/hetero_conv.py +3 -3
torch_geometric/nn/conv/hgt_conv.py +1 -1
torch_geometric/nn/conv/message_passing.py +138 -87
torch_geometric/nn/conv/mixhop_conv.py +1 -1
torch_geometric/nn/conv/propagate.jinja +9 -1
torch_geometric/nn/conv/rgcn_conv.py +5 -5
torch_geometric/nn/conv/spline_conv.py +4 -4
torch_geometric/nn/conv/x_conv.py +3 -2
torch_geometric/nn/dense/linear.py +11 -6
torch_geometric/nn/fx.py +3 -3
torch_geometric/nn/model_hub.py +3 -1
torch_geometric/nn/models/__init__.py +10 -2
torch_geometric/nn/models/deep_graph_infomax.py +1 -2
torch_geometric/nn/models/dimenet_utils.py +5 -7
torch_geometric/nn/models/g_retriever.py +230 -0
torch_geometric/nn/models/git_mol.py +336 -0
torch_geometric/nn/models/glem.py +385 -0
torch_geometric/nn/models/gnnff.py +0 -1
torch_geometric/nn/models/graph_unet.py +12 -3
torch_geometric/nn/models/jumping_knowledge.py +63 -4
torch_geometric/nn/models/lightgcn.py +1 -1
torch_geometric/nn/models/metapath2vec.py +5 -5
torch_geometric/nn/models/molecule_gpt.py +222 -0
torch_geometric/nn/models/node2vec.py +2 -3
torch_geometric/nn/models/schnet.py +2 -1
torch_geometric/nn/models/signed_gcn.py +3 -3
torch_geometric/nn/module_dict.py +2 -2
torch_geometric/nn/nlp/__init__.py +9 -0
torch_geometric/nn/nlp/llm.py +322 -0
torch_geometric/nn/nlp/sentence_transformer.py +134 -0
torch_geometric/nn/nlp/vision_transformer.py +33 -0
torch_geometric/nn/norm/batch_norm.py +1 -1
torch_geometric/nn/parameter_dict.py +2 -2
torch_geometric/nn/pool/__init__.py +21 -5
torch_geometric/nn/pool/cluster_pool.py +145 -0
torch_geometric/nn/pool/connect/base.py +0 -1
torch_geometric/nn/pool/edge_pool.py +1 -1
torch_geometric/nn/pool/graclus.py +4 -2
torch_geometric/nn/pool/pool.py +8 -2
torch_geometric/nn/pool/select/base.py +0 -1
torch_geometric/nn/pool/voxel_grid.py +3 -2
torch_geometric/nn/resolver.py +1 -1
torch_geometric/nn/sequential.jinja +10 -23
torch_geometric/nn/sequential.py +204 -78
torch_geometric/nn/summary.py +1 -1
torch_geometric/nn/to_hetero_with_bases_transformer.py +19 -19
torch_geometric/profile/__init__.py +2 -0
torch_geometric/profile/nvtx.py +66 -0
torch_geometric/profile/profiler.py +30 -19
torch_geometric/resolver.py +1 -1
torch_geometric/sampler/base.py +34 -13
torch_geometric/sampler/neighbor_sampler.py +11 -10
torch_geometric/sampler/utils.py +1 -1
torch_geometric/template.py +1 -0
torch_geometric/testing/__init__.py +6 -2
torch_geometric/testing/decorators.py +53 -20
torch_geometric/testing/feature_store.py +1 -1
torch_geometric/transforms/__init__.py +2 -0
torch_geometric/transforms/add_metapaths.py +5 -5
torch_geometric/transforms/add_positional_encoding.py +1 -1
torch_geometric/transforms/delaunay.py +65 -14
torch_geometric/transforms/face_to_edge.py +32 -3
torch_geometric/transforms/gdc.py +7 -6
torch_geometric/transforms/laplacian_lambda_max.py +3 -3
torch_geometric/transforms/mask.py +5 -1
torch_geometric/transforms/node_property_split.py +1 -2
torch_geometric/transforms/pad.py +7 -6
torch_geometric/transforms/random_link_split.py +1 -1
torch_geometric/transforms/remove_self_loops.py +36 -0
torch_geometric/transforms/svd_feature_reduction.py +1 -1
torch_geometric/transforms/to_sparse_tensor.py +1 -1
torch_geometric/transforms/two_hop.py +1 -1
torch_geometric/transforms/virtual_node.py +2 -1
torch_geometric/typing.py +43 -6
torch_geometric/utils/__init__.py +5 -1
torch_geometric/utils/_negative_sampling.py +1 -1
torch_geometric/utils/_normalize_edge_index.py +46 -0
torch_geometric/utils/_scatter.py +38 -12
torch_geometric/utils/_subgraph.py +4 -0
torch_geometric/utils/_tree_decomposition.py +2 -2
torch_geometric/utils/augmentation.py +1 -1
torch_geometric/utils/convert.py +12 -8
torch_geometric/utils/geodesic.py +24 -22
torch_geometric/utils/hetero.py +1 -1
torch_geometric/utils/map.py +8 -2
torch_geometric/utils/smiles.py +65 -27
torch_geometric/utils/sparse.py +39 -25
torch_geometric/visualization/graph.py +3 -4

torch_geometric/data/large_graph_indexer.py ADDED Viewed

@@ -0,0 +1,677 @@
+import os
+import pickle as pkl
+import shutil
+from dataclasses import dataclass
+from itertools import chain
+from typing import (
+    Any,
+    Callable,
+    Dict,
+    Iterable,
+    Iterator,
+    List,
+    Optional,
+    Sequence,
+    Set,
+    Tuple,
+    Union,
+)
+import torch
+from torch import Tensor
+from tqdm import tqdm
+from torch_geometric.data import Data
+from torch_geometric.typing import WITH_PT24
+# Could be any hashable type
+TripletLike = Tuple[str, str, str]
+KnowledgeGraphLike = Iterable[TripletLike]
+def ordered_set(values: Iterable[str]) -> List[str]:
+    return list(dict.fromkeys(values))
+# TODO: Refactor Node and Edge funcs and attrs to be accessible via an Enum?
+NODE_PID = "pid"
+NODE_KEYS = {NODE_PID}
+EDGE_PID = "e_pid"
+EDGE_HEAD = "h"
+EDGE_RELATION = "r"
+EDGE_TAIL = "t"
+EDGE_INDEX = "edge_idx"
+EDGE_KEYS = {EDGE_PID, EDGE_HEAD, EDGE_RELATION, EDGE_TAIL, EDGE_INDEX}
+FeatureValueType = Union[Sequence[Any], Tensor]
+@dataclass
+class MappedFeature:
+    name: str
+    values: FeatureValueType
+    def __eq__(self, value: "MappedFeature") -> bool:
+        eq = self.name == value.name
+        if isinstance(self.values, torch.Tensor):
+            eq &= torch.equal(self.values, value.values)
+        else:
+            eq &= self.values == value.values
+        return eq
+if WITH_PT24:
+    torch.serialization.add_safe_globals([MappedFeature])
+class LargeGraphIndexer:
+    """For a dataset that consists of multiple subgraphs that are assumed to
+    be part of a much larger graph, collate the values into a large graph store
+    to save resources.
+    """
+    def __init__(
+        self,
+        nodes: Iterable[str],
+        edges: KnowledgeGraphLike,
+        node_attr: Optional[Dict[str, List[Any]]] = None,
+        edge_attr: Optional[Dict[str, List[Any]]] = None,
+    ) -> None:
+        r"""Constructs a new index that uniquely catalogs each node and edge
+        by id. Not meant to be used directly.
+        Args:
+            nodes (Iterable[str]): Node ids in the graph.
+            edges (KnowledgeGraphLike): Edge ids in the graph.
+            node_attr (Optional[Dict[str, List[Any]]], optional): Mapping node
+                attribute name and list of their values in order of unique node
+                ids. Defaults to None.
+            edge_attr (Optional[Dict[str, List[Any]]], optional): Mapping edge
+                attribute name and list of their values in order of unique edge
+                ids. Defaults to None.
+        """
+        self._nodes: Dict[str, int] = dict()
+        self._edges: Dict[TripletLike, int] = dict()
+        self._mapped_node_features: Set[str] = set()
+        self._mapped_edge_features: Set[str] = set()
+        if len(nodes) != len(set(nodes)):
+            raise AttributeError("Nodes need to be unique")
+        if len(edges) != len(set(edges)):
+            raise AttributeError("Edges need to be unique")
+        if node_attr is not None:
+            # TODO: Validity checks btw nodes and node_attr
+            self.node_attr = node_attr
+            if NODE_KEYS & set(self.node_attr.keys()) != NODE_KEYS:
+                raise AttributeError(
+                    "Invalid node_attr object. Missing " +
+                    f"{NODE_KEYS - set(self.node_attr.keys())}")
+            elif self.node_attr[NODE_PID] != nodes:
+                raise AttributeError(
+                    "Nodes provided do not match those in node_attr")
+        else:
+            self.node_attr = dict()
+            self.node_attr[NODE_PID] = nodes
+        for i, node in enumerate(self.node_attr[NODE_PID]):
+            self._nodes[node] = i
+        if edge_attr is not None:
+            # TODO: Validity checks btw edges and edge_attr
+            self.edge_attr = edge_attr
+            if EDGE_KEYS & set(self.edge_attr.keys()) != EDGE_KEYS:
+                raise AttributeError(
+                    "Invalid edge_attr object. Missing " +
+                    f"{EDGE_KEYS - set(self.edge_attr.keys())}")
+            elif self.node_attr[EDGE_PID] != edges:
+                raise AttributeError(
+                    "Edges provided do not match those in edge_attr")
+        else:
+            self.edge_attr = dict()
+            for default_key in EDGE_KEYS:
+                self.edge_attr[default_key] = list()
+            self.edge_attr[EDGE_PID] = edges
+            for i, tup in enumerate(edges):
+                h, r, t = tup
+                self.edge_attr[EDGE_HEAD].append(h)
+                self.edge_attr[EDGE_RELATION].append(r)
+                self.edge_attr[EDGE_TAIL].append(t)
+                self.edge_attr[EDGE_INDEX].append(
+                    (self._nodes[h], self._nodes[t]))
+        for i, tup in enumerate(edges):
+            self._edges[tup] = i
+    @classmethod
+    def from_triplets(
+        cls,
+        triplets: KnowledgeGraphLike,
+        pre_transform: Optional[Callable[[TripletLike], TripletLike]] = None,
+    ) -> "LargeGraphIndexer":
+        r"""Generate a new index from a series of triplets that represent edge
+        relations between nodes.
+        Formatted like (source_node, edge, dest_node).
+        Args:
+            triplets (KnowledgeGraphLike): Series of triplets representing
+                knowledge graph relations.
+            pre_transform (Optional[Callable[[TripletLike], TripletLike]]):
+                Optional preprocessing function to apply to triplets.
+                Defaults to None.
+        Returns:
+            LargeGraphIndexer: Index of unique nodes and edges.
+        """
+        # NOTE: Right now assumes that all trips can be loaded into memory
+        nodes = set()
+        edges = set()
+        if pre_transform is not None:
+            def apply_transform(
+                    trips: KnowledgeGraphLike) -> Iterator[TripletLike]:
+                for trip in trips:
+                    yield pre_transform(trip)
+            triplets = apply_transform(triplets)
+        for h, r, t in triplets:
+            for node in (h, t):
+                nodes.add(node)
+            edge_idx = (h, r, t)
+            edges.add(edge_idx)
+        return cls(list(nodes), list(edges))
+    @classmethod
+    def collate(cls,
+                graphs: Iterable["LargeGraphIndexer"]) -> "LargeGraphIndexer":
+        r"""Combines a series of large graph indexes into a single large graph
+        index.
+        Args:
+            graphs (Iterable[LargeGraphIndexer]): Indices to be
+                combined.
+        Returns:
+            LargeGraphIndexer: Singular unique index for all nodes and edges
+                in input indices.
+        """
+        # FIXME Needs to merge node attrs and edge attrs?
+        trips = chain.from_iterable([graph.to_triplets() for graph in graphs])
+        return cls.from_triplets(trips)
+    def get_unique_node_features(self,
+                                 feature_name: str = NODE_PID) -> List[str]:
+        r"""Get all the unique values for a specific node attribute.
+        Args:
+            feature_name (str, optional): Name of feature to get.
+                Defaults to NODE_PID.
+        Returns:
+            List[str]: List of unique values for the specified feature.
+        """
+        try:
+            if feature_name in self._mapped_node_features:
+                raise IndexError(
+                    "Only non-mapped features can be retrieved uniquely.")
+            return ordered_set(self.get_node_features(feature_name))
+        except KeyError:
+            raise AttributeError(
+                f"Nodes do not have a feature called {feature_name}")
+    def add_node_feature(
+        self,
+        new_feature_name: str,
+        new_feature_vals: FeatureValueType,
+        map_from_feature: str = NODE_PID,
+    ) -> None:
+        r"""Adds a new feature that corresponds to each unique node in
+            the graph.
+        Args:
+            new_feature_name (str): Name to call the new feature.
+            new_feature_vals (FeatureValueType): Values to map for that
+                new feature.
+            map_from_feature (str, optional): Key of feature to map from.
+                Size must match the number of feature values.
+                Defaults to NODE_PID.
+        """
+        if new_feature_name in self.node_attr:
+            raise AttributeError("Features cannot be overridden once created")
+        if map_from_feature in self._mapped_node_features:
+            raise AttributeError(
+                f"{map_from_feature} is already a feature mapping.")
+        feature_keys = self.get_unique_node_features(map_from_feature)
+        if len(feature_keys) != len(new_feature_vals):
+            raise AttributeError(
+                "Expected encodings for {len(feature_keys)} unique features," +
+                f" but got {len(new_feature_vals)} encodings.")
+        if map_from_feature == NODE_PID:
+            self.node_attr[new_feature_name] = new_feature_vals
+        else:
+            self.node_attr[new_feature_name] = MappedFeature(
+                name=map_from_feature, values=new_feature_vals)
+            self._mapped_node_features.add(new_feature_name)
+    def get_node_features(
+        self,
+        feature_name: str = NODE_PID,
+        pids: Optional[Iterable[str]] = None,
+    ) -> List[Any]:
+        r"""Get node feature values for a given set of unique node ids.
+            Returned values are not necessarily unique.
+        Args:
+            feature_name (str, optional): Name of feature to fetch. Defaults
+                to NODE_PID.
+            pids (Optional[Iterable[str]], optional): Node ids to fetch
+                for. Defaults to None, which fetches all nodes.
+        Returns:
+            List[Any]: Node features corresponding to the specified ids.
+        """
+        if feature_name in self._mapped_node_features:
+            values = self.node_attr[feature_name].values
+        else:
+            values = self.node_attr[feature_name]
+        # TODO: torch_geometric.utils.select
+        if isinstance(values, torch.Tensor):
+            idxs = list(
+                self.get_node_features_iter(feature_name, pids,
+                                            index_only=True))
+            return values[idxs]
+        return list(self.get_node_features_iter(feature_name, pids))
+    def get_node_features_iter(
+        self,
+        feature_name: str = NODE_PID,
+        pids: Optional[Iterable[str]] = None,
+        index_only: bool = False,
+    ) -> Iterator[Any]:
+        """Iterator version of get_node_features. If index_only is True,
+        yields indices instead of values.
+        """
+        if pids is None:
+            pids = self.node_attr[NODE_PID]
+        if feature_name in self._mapped_node_features:
+            feature_map_info = self.node_attr[feature_name]
+            from_feature_name, to_feature_vals = (
+                feature_map_info.name,
+                feature_map_info.values,
+            )
+            from_feature_vals = self.get_unique_node_features(
+                from_feature_name)
+            feature_mapping = {k: i for i, k in enumerate(from_feature_vals)}
+            for pid in pids:
+                idx = self._nodes[pid]
+                from_feature_val = self.node_attr[from_feature_name][idx]
+                to_feature_idx = feature_mapping[from_feature_val]
+                if index_only:
+                    yield to_feature_idx
+                else:
+                    yield to_feature_vals[to_feature_idx]
+        else:
+            for pid in pids:
+                idx = self._nodes[pid]
+                if index_only:
+                    yield idx
+                else:
+                    yield self.node_attr[feature_name][idx]
+    def get_unique_edge_features(self,
+                                 feature_name: str = EDGE_PID) -> List[str]:
+        r"""Get all the unique values for a specific edge attribute.
+        Args:
+            feature_name (str, optional): Name of feature to get.
+                Defaults to EDGE_PID.
+        Returns:
+            List[str]: List of unique values for the specified feature.
+        """
+        try:
+            if feature_name in self._mapped_edge_features:
+                raise IndexError(
+                    "Only non-mapped features can be retrieved uniquely.")
+            return ordered_set(self.get_edge_features(feature_name))
+        except KeyError:
+            raise AttributeError(
+                f"Edges do not have a feature called {feature_name}")
+    def add_edge_feature(
+        self,
+        new_feature_name: str,
+        new_feature_vals: FeatureValueType,
+        map_from_feature: str = EDGE_PID,
+    ) -> None:
+        r"""Adds a new feature that corresponds to each unique edge in
+        the graph.
+        Args:
+            new_feature_name (str): Name to call the new feature.
+            new_feature_vals (FeatureValueType): Values to map for that new
+                feature.
+            map_from_feature (str, optional): Key of feature to map from.
+                Size must match the number of feature values.
+                Defaults to EDGE_PID.
+        """
+        if new_feature_name in self.edge_attr:
+            raise AttributeError("Features cannot be overridden once created")
+        if map_from_feature in self._mapped_edge_features:
+            raise AttributeError(
+                f"{map_from_feature} is already a feature mapping.")
+        feature_keys = self.get_unique_edge_features(map_from_feature)
+        if len(feature_keys) != len(new_feature_vals):
+            raise AttributeError(
+                f"Expected encodings for {len(feature_keys)} unique features, "
+                + f"but got {len(new_feature_vals)} encodings.")
+        if map_from_feature == EDGE_PID:
+            self.edge_attr[new_feature_name] = new_feature_vals
+        else:
+            self.edge_attr[new_feature_name] = MappedFeature(
+                name=map_from_feature, values=new_feature_vals)
+            self._mapped_edge_features.add(new_feature_name)
+    def get_edge_features(
+        self,
+        feature_name: str = EDGE_PID,
+        pids: Optional[Iterable[str]] = None,
+    ) -> List[Any]:
+        r"""Get edge feature values for a given set of unique edge ids.
+            Returned values are not necessarily unique.
+        Args:
+            feature_name (str, optional): Name of feature to fetch.
+                Defaults to EDGE_PID.
+            pids (Optional[Iterable[str]], optional): Edge ids to fetch
+                for. Defaults to None, which fetches all edges.
+        Returns:
+            List[Any]: Node features corresponding to the specified ids.
+        """
+        if feature_name in self._mapped_edge_features:
+            values = self.edge_attr[feature_name].values
+        else:
+            values = self.edge_attr[feature_name]
+        # TODO: torch_geometric.utils.select
+        if isinstance(values, torch.Tensor):
+            idxs = list(
+                self.get_edge_features_iter(feature_name, pids,
+                                            index_only=True))
+            return values[idxs]
+        return list(self.get_edge_features_iter(feature_name, pids))
+    def get_edge_features_iter(
+        self,
+        feature_name: str = EDGE_PID,
+        pids: Optional[KnowledgeGraphLike] = None,
+        index_only: bool = False,
+    ) -> Iterator[Any]:
+        """Iterator version of get_edge_features. If index_only is True,
+        yields indices instead of values.
+        """
+        if pids is None:
+            pids = self.edge_attr[EDGE_PID]
+        if feature_name in self._mapped_edge_features:
+            feature_map_info = self.edge_attr[feature_name]
+            from_feature_name, to_feature_vals = (
+                feature_map_info.name,
+                feature_map_info.values,
+            )
+            from_feature_vals = self.get_unique_edge_features(
+                from_feature_name)
+            feature_mapping = {k: i for i, k in enumerate(from_feature_vals)}
+            for pid in pids:
+                idx = self._edges[pid]
+                from_feature_val = self.edge_attr[from_feature_name][idx]
+                to_feature_idx = feature_mapping[from_feature_val]
+                if index_only:
+                    yield to_feature_idx
+                else:
+                    yield to_feature_vals[to_feature_idx]
+        else:
+            for pid in pids:
+                idx = self._edges[pid]
+                if index_only:
+                    yield idx
+                else:
+                    yield self.edge_attr[feature_name][idx]
+    def to_triplets(self) -> Iterator[TripletLike]:
+        return iter(self.edge_attr[EDGE_PID])
+    def save(self, path: str) -> None:
+        if os.path.exists(path):
+            shutil.rmtree(path)
+        os.makedirs(path, exist_ok=True)
+        with open(path + "/edges", "wb") as f:
+            pkl.dump(self._edges, f)
+        with open(path + "/nodes", "wb") as f:
+            pkl.dump(self._nodes, f)
+        with open(path + "/mapped_edges", "wb") as f:
+            pkl.dump(self._mapped_edge_features, f)
+        with open(path + "/mapped_nodes", "wb") as f:
+            pkl.dump(self._mapped_node_features, f)
+        node_attr_path = path + "/node_attr"
+        os.makedirs(node_attr_path, exist_ok=True)
+        for attr_name, vals in self.node_attr.items():
+            torch.save(vals, node_attr_path + f"/{attr_name}.pt")
+        edge_attr_path = path + "/edge_attr"
+        os.makedirs(edge_attr_path, exist_ok=True)
+        for attr_name, vals in self.edge_attr.items():
+            torch.save(vals, edge_attr_path + f"/{attr_name}.pt")
+    @classmethod
+    def from_disk(cls, path: str) -> "LargeGraphIndexer":
+        indexer = cls(list(), list())
+        with open(path + "/edges", "rb") as f:
+            indexer._edges = pkl.load(f)
+        with open(path + "/nodes", "rb") as f:
+            indexer._nodes = pkl.load(f)
+        with open(path + "/mapped_edges", "rb") as f:
+            indexer._mapped_edge_features = pkl.load(f)
+        with open(path + "/mapped_nodes", "rb") as f:
+            indexer._mapped_node_features = pkl.load(f)
+        node_attr_path = path + "/node_attr"
+        for fname in os.listdir(node_attr_path):
+            full_fname = f"{node_attr_path}/{fname}"
+            key = fname.split(".")[0]
+            indexer.node_attr[key] = torch.load(full_fname)
+        edge_attr_path = path + "/edge_attr"
+        for fname in os.listdir(edge_attr_path):
+            full_fname = f"{edge_attr_path}/{fname}"
+            key = fname.split(".")[0]
+            indexer.edge_attr[key] = torch.load(full_fname)
+        return indexer
+    def to_data(self, node_feature_name: str,
+                edge_feature_name: Optional[str] = None) -> Data:
+        """Return a Data object containing all the specified node and
+            edge features and the graph.
+        Args:
+            node_feature_name (str): Feature to use for nodes
+            edge_feature_name (Optional[str], optional): Feature to use for
+                edges. Defaults to None.
+        Returns:
+            Data: Data object containing the specified node and
+                edge features and the graph.
+        """
+        x = torch.Tensor(self.get_node_features(node_feature_name))
+        node_id = torch.LongTensor(range(len(x)))
+        edge_index = torch.t(
+            torch.LongTensor(self.get_edge_features(EDGE_INDEX)))
+        edge_attr = (self.get_edge_features(edge_feature_name)
+                     if edge_feature_name is not None else None)
+        edge_id = torch.LongTensor(range(len(edge_attr)))
+        return Data(x=x, edge_index=edge_index, edge_attr=edge_attr,
+                    edge_id=edge_id, node_id=node_id)
+    def __eq__(self, value: "LargeGraphIndexer") -> bool:
+        eq = True
+        eq &= self._nodes == value._nodes
+        eq &= self._edges == value._edges
+        eq &= self.node_attr.keys() == value.node_attr.keys()
+        eq &= self.edge_attr.keys() == value.edge_attr.keys()
+        eq &= self._mapped_node_features == value._mapped_node_features
+        eq &= self._mapped_edge_features == value._mapped_edge_features
+        for k in self.node_attr:
+            eq &= isinstance(self.node_attr[k], type(value.node_attr[k]))
+            if isinstance(self.node_attr[k], torch.Tensor):
+                eq &= torch.equal(self.node_attr[k], value.node_attr[k])
+            else:
+                eq &= self.node_attr[k] == value.node_attr[k]
+        for k in self.edge_attr:
+            eq &= isinstance(self.edge_attr[k], type(value.edge_attr[k]))
+            if isinstance(self.edge_attr[k], torch.Tensor):
+                eq &= torch.equal(self.edge_attr[k], value.edge_attr[k])
+            else:
+                eq &= self.edge_attr[k] == value.edge_attr[k]
+        return eq
+def get_features_for_triplets_groups(
+    indexer: LargeGraphIndexer,
+    triplet_groups: Iterable[KnowledgeGraphLike],
+    node_feature_name: str = "x",
+    edge_feature_name: str = "edge_attr",
+    pre_transform: Optional[Callable[[TripletLike], TripletLike]] = None,
+    verbose: bool = False,
+) -> Iterator[Data]:
+    """Given an indexer and a series of triplet groups (like a dataset),
+    retrieve the specified node and edge features for each triplet from the
+    index.
+    Args:
+        indexer (LargeGraphIndexer): Indexer containing desired features
+        triplet_groups (Iterable[KnowledgeGraphLike]): List of lists of
+            triplets to fetch features for
+        node_feature_name (str, optional): Node feature to fetch.
+            Defaults to "x".
+        edge_feature_name (str, optional): edge feature to fetch.
+            Defaults to "edge_attr".
+        pre_transform (Optional[Callable[[TripletLike], TripletLike]]):
+            Optional preprocessing to perform on triplets.
+            Defaults to None.
+        verbose (bool, optional): Whether to print progress. Defaults to False.
+    Yields:
+        Iterator[Data]: For each triplet group, yield a data object containing
+            the unique graph and features from the index.
+    """
+    if pre_transform is not None:
+        def apply_transform(trips):
+            for trip in trips:
+                yield pre_transform(tuple(trip))
+        # TODO: Make this safe for large amounts of triplets?
+        triplet_groups = (list(apply_transform(triplets))
+                          for triplets in triplet_groups)
+    node_keys = []
+    edge_keys = []
+    edge_index = []
+    for triplets in tqdm(triplet_groups, disable=not verbose):
+        small_graph_indexer = LargeGraphIndexer.from_triplets(
+            triplets, pre_transform=pre_transform)
+        node_keys.append(small_graph_indexer.get_node_features())
+        edge_keys.append(small_graph_indexer.get_edge_features(pids=triplets))
+        edge_index.append(
+            small_graph_indexer.get_edge_features(EDGE_INDEX, triplets))
+    node_feats = indexer.get_node_features(feature_name=node_feature_name,
+                                           pids=chain.from_iterable(node_keys))
+    edge_feats = indexer.get_edge_features(feature_name=edge_feature_name,
+                                           pids=chain.from_iterable(edge_keys))
+    last_node_idx, last_edge_idx = 0, 0
+    for (nkeys, ekeys, eidx) in zip(node_keys, edge_keys, edge_index):
+        nlen, elen = len(nkeys), len(ekeys)
+        x = torch.Tensor(node_feats[last_node_idx:last_node_idx + nlen])
+        last_node_idx += len(nkeys)
+        edge_attr = torch.Tensor(edge_feats[last_edge_idx:last_edge_idx +
+                                            elen])
+        last_edge_idx += len(ekeys)
+        edge_idx = torch.LongTensor(eidx).T
+        data_obj = Data(x=x, edge_attr=edge_attr, edge_index=edge_idx)
+        data_obj[NODE_PID] = node_keys
+        data_obj[EDGE_PID] = edge_keys
+        data_obj["node_idx"] = [indexer._nodes[k] for k in nkeys]
+        data_obj["edge_idx"] = [indexer._edges[e] for e in ekeys]
+        yield data_obj
+def get_features_for_triplets(
+    indexer: LargeGraphIndexer,
+    triplets: KnowledgeGraphLike,
+    node_feature_name: str = "x",
+    edge_feature_name: str = "edge_attr",
+    pre_transform: Optional[Callable[[TripletLike], TripletLike]] = None,
+    verbose: bool = False,
+) -> Data:
+    """For a given set of triplets retrieve a Data object containing the
+        unique graph and features from the index.
+    Args:
+        indexer (LargeGraphIndexer): Indexer containing desired features
+        triplets (KnowledgeGraphLike): Triplets to fetch features for
+        node_feature_name (str, optional): Feature to use for node features.
+            Defaults to "x".
+        edge_feature_name (str, optional): Feature to use for edge features.
+            Defaults to "edge_attr".
+        pre_transform (Optional[Callable[[TripletLike], TripletLike]]):
+            Optional preprocessing function for triplets. Defaults to None.
+        verbose (bool, optional): Whether to print progress. Defaults to False.
+    Returns:
+        Data: Data object containing the unique graph and features from the
+            index for the given triplets.
+    """
+    gen = get_features_for_triplets_groups(indexer, [triplets],
+                                           node_feature_name,
+                                           edge_feature_name, pre_transform,
+                                           verbose)
+    return next(gen)

pyg-nightly 2.6.0.dev20240319__py3-none-any.whl → 2.7.0.dev20250114__py3-none-any.whl

pyg-nightly 2.6.0.dev20240319py3-none-any.whl → 2.7.0.dev20250114py3-none-any.whl