PyPI - pyg-nightly - Versions diffs - 2.6.0.dev20240319__py3-none-any.whl → 2.7.0.dev20250114__py3-none-any.whl - Mend

pyg-nightly 2.6.0.dev20240319py3-none-any.whl → 2.7.0.dev20250114py3-none-any.whl

Files changed (226) hide show

{pyg_nightly-2.6.0.dev20240319.dist-info → pyg_nightly-2.7.0.dev20250114.dist-info}/METADATA +31 -47
{pyg_nightly-2.6.0.dev20240319.dist-info → pyg_nightly-2.7.0.dev20250114.dist-info}/RECORD +226 -199
{pyg_nightly-2.6.0.dev20240319.dist-info → pyg_nightly-2.7.0.dev20250114.dist-info}/WHEEL +1 -1
torch_geometric/__init__.py +28 -1
torch_geometric/_compile.py +8 -1
torch_geometric/_onnx.py +14 -0
torch_geometric/config_mixin.py +113 -0
torch_geometric/config_store.py +28 -19
torch_geometric/data/__init__.py +24 -1
torch_geometric/data/batch.py +2 -2
torch_geometric/data/collate.py +8 -2
torch_geometric/data/data.py +16 -8
torch_geometric/data/database.py +61 -15
torch_geometric/data/dataset.py +14 -6
torch_geometric/data/feature_store.py +25 -42
torch_geometric/data/graph_store.py +1 -5
torch_geometric/data/hetero_data.py +18 -9
torch_geometric/data/in_memory_dataset.py +2 -4
torch_geometric/data/large_graph_indexer.py +677 -0
torch_geometric/data/lightning/datamodule.py +4 -4
torch_geometric/data/separate.py +6 -1
torch_geometric/data/storage.py +17 -7
torch_geometric/data/summary.py +14 -4
torch_geometric/data/temporal.py +1 -2
torch_geometric/datasets/__init__.py +17 -2
torch_geometric/datasets/actor.py +9 -11
torch_geometric/datasets/airfrans.py +15 -18
torch_geometric/datasets/airports.py +10 -12
torch_geometric/datasets/amazon.py +8 -11
torch_geometric/datasets/amazon_book.py +9 -10
torch_geometric/datasets/amazon_products.py +9 -10
torch_geometric/datasets/aminer.py +8 -9
torch_geometric/datasets/aqsol.py +10 -13
torch_geometric/datasets/attributed_graph_dataset.py +10 -12
torch_geometric/datasets/ba_multi_shapes.py +10 -12
torch_geometric/datasets/ba_shapes.py +5 -6
torch_geometric/datasets/bitcoin_otc.py +1 -1
torch_geometric/datasets/brca_tgca.py +1 -1
torch_geometric/datasets/cornell.py +145 -0
torch_geometric/datasets/dblp.py +2 -1
torch_geometric/datasets/dbp15k.py +2 -2
torch_geometric/datasets/fake.py +1 -3
torch_geometric/datasets/flickr.py +2 -1
torch_geometric/datasets/freebase.py +1 -1
torch_geometric/datasets/gdelt_lite.py +3 -2
torch_geometric/datasets/ged_dataset.py +3 -2
torch_geometric/datasets/git_mol_dataset.py +263 -0
torch_geometric/datasets/gnn_benchmark_dataset.py +11 -10
torch_geometric/datasets/hgb_dataset.py +8 -8
torch_geometric/datasets/imdb.py +2 -1
torch_geometric/datasets/karate.py +3 -2
torch_geometric/datasets/last_fm.py +2 -1
torch_geometric/datasets/linkx_dataset.py +4 -3
torch_geometric/datasets/lrgb.py +3 -5
torch_geometric/datasets/malnet_tiny.py +4 -3
torch_geometric/datasets/mnist_superpixels.py +2 -3
torch_geometric/datasets/molecule_gpt_dataset.py +485 -0
torch_geometric/datasets/molecule_net.py +15 -3
torch_geometric/datasets/motif_generator/base.py +0 -1
torch_geometric/datasets/neurograph.py +1 -3
torch_geometric/datasets/ogb_mag.py +1 -1
torch_geometric/datasets/opf.py +239 -0
torch_geometric/datasets/ose_gvcs.py +1 -1
torch_geometric/datasets/pascal.py +11 -9
torch_geometric/datasets/pascal_pf.py +1 -1
torch_geometric/datasets/pcpnet_dataset.py +1 -1
torch_geometric/datasets/pcqm4m.py +10 -3
torch_geometric/datasets/ppi.py +1 -1
torch_geometric/datasets/qm9.py +8 -7
torch_geometric/datasets/rcdd.py +4 -4
torch_geometric/datasets/reddit.py +2 -1
torch_geometric/datasets/reddit2.py +2 -1
torch_geometric/datasets/rel_link_pred_dataset.py +3 -3
torch_geometric/datasets/s3dis.py +5 -3
torch_geometric/datasets/shapenet.py +3 -3
torch_geometric/datasets/shrec2016.py +2 -2
torch_geometric/datasets/snap_dataset.py +7 -1
torch_geometric/datasets/tag_dataset.py +350 -0
torch_geometric/datasets/upfd.py +2 -1
torch_geometric/datasets/web_qsp_dataset.py +246 -0
torch_geometric/datasets/webkb.py +2 -2
torch_geometric/datasets/wikics.py +1 -1
torch_geometric/datasets/wikidata.py +3 -2
torch_geometric/datasets/wikipedia_network.py +2 -2
torch_geometric/datasets/willow_object_class.py +1 -1
torch_geometric/datasets/word_net.py +2 -2
torch_geometric/datasets/yelp.py +2 -1
torch_geometric/datasets/zinc.py +1 -1
torch_geometric/device.py +42 -0
torch_geometric/distributed/local_feature_store.py +3 -2
torch_geometric/distributed/local_graph_store.py +2 -1
torch_geometric/distributed/partition.py +9 -8
torch_geometric/edge_index.py +616 -438
torch_geometric/explain/algorithm/base.py +0 -1
torch_geometric/explain/algorithm/graphmask_explainer.py +1 -2
torch_geometric/explain/algorithm/pg_explainer.py +1 -1
torch_geometric/explain/explanation.py +2 -2
torch_geometric/graphgym/checkpoint.py +2 -1
torch_geometric/graphgym/logger.py +4 -4
torch_geometric/graphgym/loss.py +1 -1
torch_geometric/graphgym/utils/agg_runs.py +6 -6
torch_geometric/index.py +826 -0
torch_geometric/inspector.py +8 -3
torch_geometric/io/fs.py +28 -2
torch_geometric/io/npz.py +2 -1
torch_geometric/io/off.py +2 -2
torch_geometric/io/sdf.py +2 -2
torch_geometric/io/tu.py +4 -5
torch_geometric/loader/__init__.py +4 -0
torch_geometric/loader/cluster.py +10 -4
torch_geometric/loader/graph_saint.py +2 -1
torch_geometric/loader/ibmb_loader.py +12 -4
torch_geometric/loader/mixin.py +1 -1
torch_geometric/loader/neighbor_loader.py +1 -1
torch_geometric/loader/neighbor_sampler.py +2 -2
torch_geometric/loader/prefetch.py +1 -1
torch_geometric/loader/rag_loader.py +107 -0
torch_geometric/loader/utils.py +8 -7
torch_geometric/loader/zip_loader.py +10 -0
torch_geometric/metrics/__init__.py +11 -2
torch_geometric/metrics/link_pred.py +159 -34
torch_geometric/nn/aggr/__init__.py +4 -0
torch_geometric/nn/aggr/attention.py +0 -2
torch_geometric/nn/aggr/base.py +2 -4
torch_geometric/nn/aggr/patch_transformer.py +143 -0
torch_geometric/nn/aggr/set_transformer.py +1 -1
torch_geometric/nn/aggr/variance_preserving.py +33 -0
torch_geometric/nn/attention/__init__.py +5 -1
torch_geometric/nn/attention/qformer.py +71 -0
torch_geometric/nn/conv/collect.jinja +7 -4
torch_geometric/nn/conv/cugraph/base.py +8 -12
torch_geometric/nn/conv/edge_conv.py +3 -2
torch_geometric/nn/conv/fused_gat_conv.py +1 -1
torch_geometric/nn/conv/gat_conv.py +35 -7
torch_geometric/nn/conv/gatv2_conv.py +36 -6
torch_geometric/nn/conv/general_conv.py +1 -1
torch_geometric/nn/conv/graph_conv.py +21 -3
torch_geometric/nn/conv/gravnet_conv.py +3 -2
torch_geometric/nn/conv/hetero_conv.py +3 -3
torch_geometric/nn/conv/hgt_conv.py +1 -1
torch_geometric/nn/conv/message_passing.py +138 -87
torch_geometric/nn/conv/mixhop_conv.py +1 -1
torch_geometric/nn/conv/propagate.jinja +9 -1
torch_geometric/nn/conv/rgcn_conv.py +5 -5
torch_geometric/nn/conv/spline_conv.py +4 -4
torch_geometric/nn/conv/x_conv.py +3 -2
torch_geometric/nn/dense/linear.py +11 -6
torch_geometric/nn/fx.py +3 -3
torch_geometric/nn/model_hub.py +3 -1
torch_geometric/nn/models/__init__.py +10 -2
torch_geometric/nn/models/deep_graph_infomax.py +1 -2
torch_geometric/nn/models/dimenet_utils.py +5 -7
torch_geometric/nn/models/g_retriever.py +230 -0
torch_geometric/nn/models/git_mol.py +336 -0
torch_geometric/nn/models/glem.py +385 -0
torch_geometric/nn/models/gnnff.py +0 -1
torch_geometric/nn/models/graph_unet.py +12 -3
torch_geometric/nn/models/jumping_knowledge.py +63 -4
torch_geometric/nn/models/lightgcn.py +1 -1
torch_geometric/nn/models/metapath2vec.py +5 -5
torch_geometric/nn/models/molecule_gpt.py +222 -0
torch_geometric/nn/models/node2vec.py +2 -3
torch_geometric/nn/models/schnet.py +2 -1
torch_geometric/nn/models/signed_gcn.py +3 -3
torch_geometric/nn/module_dict.py +2 -2
torch_geometric/nn/nlp/__init__.py +9 -0
torch_geometric/nn/nlp/llm.py +322 -0
torch_geometric/nn/nlp/sentence_transformer.py +134 -0
torch_geometric/nn/nlp/vision_transformer.py +33 -0
torch_geometric/nn/norm/batch_norm.py +1 -1
torch_geometric/nn/parameter_dict.py +2 -2
torch_geometric/nn/pool/__init__.py +21 -5
torch_geometric/nn/pool/cluster_pool.py +145 -0
torch_geometric/nn/pool/connect/base.py +0 -1
torch_geometric/nn/pool/edge_pool.py +1 -1
torch_geometric/nn/pool/graclus.py +4 -2
torch_geometric/nn/pool/pool.py +8 -2
torch_geometric/nn/pool/select/base.py +0 -1
torch_geometric/nn/pool/voxel_grid.py +3 -2
torch_geometric/nn/resolver.py +1 -1
torch_geometric/nn/sequential.jinja +10 -23
torch_geometric/nn/sequential.py +204 -78
torch_geometric/nn/summary.py +1 -1
torch_geometric/nn/to_hetero_with_bases_transformer.py +19 -19
torch_geometric/profile/__init__.py +2 -0
torch_geometric/profile/nvtx.py +66 -0
torch_geometric/profile/profiler.py +30 -19
torch_geometric/resolver.py +1 -1
torch_geometric/sampler/base.py +34 -13
torch_geometric/sampler/neighbor_sampler.py +11 -10
torch_geometric/sampler/utils.py +1 -1
torch_geometric/template.py +1 -0
torch_geometric/testing/__init__.py +6 -2
torch_geometric/testing/decorators.py +53 -20
torch_geometric/testing/feature_store.py +1 -1
torch_geometric/transforms/__init__.py +2 -0
torch_geometric/transforms/add_metapaths.py +5 -5
torch_geometric/transforms/add_positional_encoding.py +1 -1
torch_geometric/transforms/delaunay.py +65 -14
torch_geometric/transforms/face_to_edge.py +32 -3
torch_geometric/transforms/gdc.py +7 -6
torch_geometric/transforms/laplacian_lambda_max.py +3 -3
torch_geometric/transforms/mask.py +5 -1
torch_geometric/transforms/node_property_split.py +1 -2
torch_geometric/transforms/pad.py +7 -6
torch_geometric/transforms/random_link_split.py +1 -1
torch_geometric/transforms/remove_self_loops.py +36 -0
torch_geometric/transforms/svd_feature_reduction.py +1 -1
torch_geometric/transforms/to_sparse_tensor.py +1 -1
torch_geometric/transforms/two_hop.py +1 -1
torch_geometric/transforms/virtual_node.py +2 -1
torch_geometric/typing.py +43 -6
torch_geometric/utils/__init__.py +5 -1
torch_geometric/utils/_negative_sampling.py +1 -1
torch_geometric/utils/_normalize_edge_index.py +46 -0
torch_geometric/utils/_scatter.py +38 -12
torch_geometric/utils/_subgraph.py +4 -0
torch_geometric/utils/_tree_decomposition.py +2 -2
torch_geometric/utils/augmentation.py +1 -1
torch_geometric/utils/convert.py +12 -8
torch_geometric/utils/geodesic.py +24 -22
torch_geometric/utils/hetero.py +1 -1
torch_geometric/utils/map.py +8 -2
torch_geometric/utils/smiles.py +65 -27
torch_geometric/utils/sparse.py +39 -25
torch_geometric/visualization/graph.py +3 -4

torch_geometric/datasets/ba_shapes.py CHANGED Viewed

@@ -30,15 +30,14 @@ class BAShapes(InMemoryDataset):
         :class:`torch_geometric.datasets.graph_generator.BAGraph` instead.
     Args:
-        connection_distribution (str, optional): Specifies how the houses
-            and the BA graph get connected. Valid inputs are :obj:`"random"`
+        connection_distribution: Specifies how the houses and the BA graph get
+            connected. Valid inputs are :obj:`"random"`
             (random BA graph nodes are selected for connection to the houses),
             and :obj:`"uniform"` (uniformly distributed BA graph nodes are
-            selected for connection to the houses). (default: :obj:`"random"`)
-        transform (callable, optional): A function/transform that takes in an
-            :obj:`torch_geometric.data.Data` object and returns a transformed
+            selected for connection to the houses).
+        transform: A function/transform that takes in a
+            :class:`torch_geometric.data.Data` object and returns a transformed
             version. The data object will be transformed before every access.
-            (default: :obj:`None`)
     """
     def __init__(
         self,

torch_geometric/datasets/bitcoin_otc.py CHANGED Viewed

@@ -87,7 +87,7 @@ class BitcoinOTC(InMemoryDataset):
         os.unlink(path)
     def process(self) -> None:
-        with open(self.raw_paths[0], 'r') as f:
+        with open(self.raw_paths[0]) as f:
             lines = [[x for x in line.split(',')]
                      for line in f.read().split('\n')[:-1]]

torch_geometric/datasets/brca_tgca.py CHANGED Viewed

@@ -94,7 +94,7 @@ class BrcaTcga(InMemoryDataset):
         graph_feat = torch.from_numpy(graph_feat).to(torch.float)
         graph_labels = np.loadtxt(self.raw_paths[1], delimiter=',')
         graph_label = torch.from_numpy(graph_labels).to(torch.float)
-        edge_index = torch.load(self.raw_paths[2])
+        edge_index = fs.torch_load(self.raw_paths[2])
         data_list = []
         for x, y in zip(graph_feat, graph_label):

torch_geometric/datasets/cornell.py ADDED Viewed

@@ -0,0 +1,145 @@
+import os.path as osp
+from typing import Callable, List, Optional
+import torch
+from torch_geometric.data import InMemoryDataset, download_url
+from torch_geometric.data.hypergraph_data import HyperGraphData
+class CornellTemporalHyperGraphDataset(InMemoryDataset):
+    r"""A collection of temporal higher-order network datasets from the
+    `"Simplicial Closure and higher-order link prediction"
+    <https://arxiv.org/abs/1802.06916>`_ paper.
+    Each of the datasets is a timestamped sequence of simplices, where a
+    simplex is a set of :math:`k` nodes.
+    See the original `datasets page
+    <https://www.cs.cornell.edu/~arb/data/>`_ for more details about
+    individual datasets.
+    Args:
+        root (str): Root directory where the dataset should be saved.
+        name (str): The name of the dataset.
+        split (str, optional): If :obj:`"train"`, loads the training dataset.
+            If :obj:`"val"`, loads the validation dataset.
+            If :obj:`"test"`, loads the test dataset.
+            (default: :obj:`"train"`)
+        setting (str, optional): If :obj:`"transductive"`, loads the dataset
+            for transductive training.
+            If :obj:`"inductive"`, loads the dataset for inductive training.
+            (default: :obj:`"transductive"`)
+        transform (callable, optional): A function/transform that takes in an
+            :obj:`torch_geometric.data.Data` object and returns a transformed
+            version. The data object will be transformed before every access.
+            (default: :obj:`None`)
+        pre_transform (callable, optional): A function/transform that takes in
+            an :obj:`torch_geometric.data.Data` object and returns a
+            transformed version. The data object will be transformed before
+            being saved to disk. (default: :obj:`None`)
+        pre_filter (callable, optional): A function that takes in an
+            :obj:`torch_geometric.data.Data` object and returns a boolean
+            value, indicating whether the data object should be included in the
+            final dataset. (default: :obj:`None`)
+        force_reload (bool, optional): Whether to re-process the dataset.
+            (default: :obj:`False`)
+    """
+    names = [
+        'email-Eu',
+        'email-Enron',
+        'NDC-classes',
+        'tags-math-sx',
+        'email-Eu-25',
+        'NDC-substances',
+        'congress-bills',
+        'tags-ask-ubuntu',
+        'email-Enron-25',
+        'NDC-classes-25',
+        'threads-ask-ubuntu',
+        'contact-high-school',
+        'NDC-substances-25',
+        'congress-bills-25',
+        'contact-primary-school',
+    ]
+    url = ('https://huggingface.co/datasets/SauravMaheshkar/{}/raw/main/'
+           'processed/{}/{}')
+    def __init__(
+        self,
+        root: str,
+        name: str,
+        split: str = 'train',
+        setting: str = 'transductive',
+        transform: Optional[Callable] = None,
+        pre_transform: Optional[Callable] = None,
+        pre_filter: Optional[Callable] = None,
+        force_reload: bool = False,
+    ) -> None:
+        assert name in self.names
+        assert setting in ['transductive', 'inductive']
+        self.name = name
+        self.setting = setting
+        super().__init__(root, transform, pre_transform, pre_filter,
+                         force_reload)
+        if split == 'train':
+            path = self.processed_paths[0]
+        elif split == 'val':
+            path = self.processed_paths[1]
+        elif split == 'test':
+            path = self.processed_paths[2]
+        else:
+            raise ValueError(f"Split '{split}' not found")
+        self.load(path)
+    @property
+    def raw_dir(self) -> str:
+        return osp.join(self.root, self.name, self.setting, 'raw')
+    @property
+    def raw_file_names(self) -> List[str]:
+        return ['train_df.csv', 'val_df.csv', 'test_df.csv']
+    @property
+    def processed_dir(self) -> str:
+        return osp.join(self.root, self.name, self.setting, 'processed')
+    @property
+    def processed_file_names(self) -> List[str]:
+        return ['train_data.pt', 'val_data.pt', 'test_data.pt']
+    def download(self) -> None:
+        for filename in self.raw_file_names:
+            url = self.url.format(self.name, self.setting, filename)
+            download_url(url, self.raw_dir)
+    def process(self) -> None:
+        import pandas as pd
+        for raw_path, path in zip(self.raw_paths, self.processed_paths):
+            df = pd.read_csv(raw_path)
+            data_list = []
+            for i, row in df.iterrows():
+                edge_indices: List[List[int]] = [[], []]
+                for node in eval(row['nodes']):  # str(list) -> list:
+                    edge_indices[0].append(node)
+                    edge_indices[1].append(i)  # Use `i` as hyper-edge index.
+                x = torch.tensor([[row['timestamp']]], dtype=torch.float)
+                edge_index = torch.tensor(edge_indices)
+                data = HyperGraphData(x=x, edge_index=edge_index)
+                if self.pre_filter is not None and not self.pre_filter(data):
+                    continue
+                if self.pre_transform is not None:
+                    data = self.pre_transform(data)
+                data_list.append(data)
+            self.save(data_list, path)

torch_geometric/datasets/dblp.py CHANGED Viewed

@@ -4,7 +4,6 @@ from itertools import product
 from typing import Callable, List, Optional
 import numpy as np
-import scipy.sparse as sp
 import torch
 from torch_geometric.data import (
@@ -110,6 +109,8 @@ class DBLP(InMemoryDataset):
         os.remove(path)
     def process(self) -> None:
+        import scipy.sparse as sp
         data = HeteroData()
         node_types = ['author', 'paper', 'term', 'conference']

torch_geometric/datasets/dbp15k.py CHANGED Viewed

@@ -72,7 +72,7 @@ class DBP15K(InMemoryDataset):
     def process(self) -> None:
         embs = {}
-        with open(osp.join(self.raw_dir, 'sub.glove.300d'), 'r') as f:
+        with open(osp.join(self.raw_dir, 'sub.glove.300d')) as f:
             for i, line in enumerate(f):
                 info = line.strip().split(' ')
                 if len(info) > 300:
@@ -112,7 +112,7 @@ class DBP15K(InMemoryDataset):
         subj, rel, obj = g1.t()
         x_dict = {}
-        with open(feature_path, 'r') as f:
+        with open(feature_path) as f:
             for line in f:
                 info = line.strip().split('\t')
                 info = info if len(info) == 2 else info + ['**UNK**']

torch_geometric/datasets/fake.py CHANGED Viewed

@@ -170,7 +170,7 @@ class FakeHeteroDataset(InMemoryDataset):
         random.shuffle(edge_types)
         self.edge_types: List[Tuple[str, str, str]] = []
-        count: Dict[Tuple[str, str], int] = defaultdict(lambda: 0)
+        count: Dict[Tuple[str, str], int] = defaultdict(int)
         for edge_type in edge_types[:max(num_edge_types, 1)]:
             rel = f'e{count[edge_type]}'
             count[edge_type] += 1
@@ -222,8 +222,6 @@ class FakeHeteroDataset(InMemoryDataset):
             elif self.edge_dim == 1:
                 store.edge_weight = torch.rand(store.num_edges)
-            pass
         if self._num_classes > 0 and self.task == 'graph':
             data.y = torch.tensor([random.randint(0, self._num_classes - 1)])

torch_geometric/datasets/flickr.py CHANGED Viewed

@@ -3,7 +3,6 @@ import os.path as osp
 from typing import Callable, List, Optional
 import numpy as np
-import scipy.sparse as sp
 import torch
 from torch_geometric.data import Data, InMemoryDataset, download_google_url
@@ -73,6 +72,8 @@ class Flickr(InMemoryDataset):
         download_google_url(self.role_id, self.raw_dir, 'role.json')
     def process(self) -> None:
+        import scipy.sparse as sp
         f = np.load(osp.join(self.raw_dir, 'adj_full.npz'))
         adj = sp.csr_matrix((f['data'], f['indices'], f['indptr']), f['shape'])
         adj = adj.tocoo()

torch_geometric/datasets/freebase.py CHANGED Viewed

@@ -75,7 +75,7 @@ class FB15k_237(InMemoryDataset):
         rel_dict: Dict[str, int] = {}
         for path in self.raw_paths:
-            with open(path, 'r') as f:
+            with open(path) as f:
                 lines = [x.split('\t') for x in f.read().split('\n')[:-1]]
             edge_index = torch.empty((2, len(lines)), dtype=torch.long)

torch_geometric/datasets/gdelt_lite.py CHANGED Viewed

@@ -9,6 +9,7 @@ from torch_geometric.data import (
     download_url,
     extract_zip,
 )
+from torch_geometric.io import fs
 class GDELTLite(InMemoryDataset):
@@ -80,9 +81,9 @@ class GDELTLite(InMemoryDataset):
     def process(self) -> None:
         import pandas as pd
-        x = torch.load(self.raw_paths[0])
+        x = fs.torch_load(self.raw_paths[0])
         df = pd.read_csv(self.raw_paths[1])
-        edge_attr = torch.load(self.raw_paths[2])
+        edge_attr = fs.torch_load(self.raw_paths[2])
         row = torch.from_numpy(df['src'].values)
         col = torch.from_numpy(df['dst'].values)

torch_geometric/datasets/ged_dataset.py CHANGED Viewed

@@ -13,6 +13,7 @@ from torch_geometric.data import (
     extract_tar,
     extract_zip,
 )
+from torch_geometric.io import fs
 from torch_geometric.utils import one_hot, to_undirected
@@ -145,9 +146,9 @@ class GEDDataset(InMemoryDataset):
         path = self.processed_paths[0] if train else self.processed_paths[1]
         self.load(path)
         path = osp.join(self.processed_dir, f'{self.name}_ged.pt')
-        self.ged = torch.load(path)
+        self.ged = fs.torch_load(path)
         path = osp.join(self.processed_dir, f'{self.name}_norm_ged.pt')
-        self.norm_ged = torch.load(path)
+        self.norm_ged = fs.torch_load(path)
     @property
     def raw_file_names(self) -> List[str]:

torch_geometric/datasets/git_mol_dataset.py ADDED Viewed

@@ -0,0 +1,263 @@
+import sys
+from typing import Any, Callable, Dict, List, Optional
+import numpy as np
+import torch
+from tqdm import tqdm
+from torch_geometric.data import (
+    Data,
+    InMemoryDataset,
+    download_google_url,
+    extract_zip,
+)
+from torch_geometric.io import fs
+def safe_index(lst: List[Any], e: int) -> int:
+    return lst.index(e) if e in lst else len(lst) - 1
+class GitMolDataset(InMemoryDataset):
+    r"""The dataset from the `"GIT-Mol: A Multi-modal Large Language Model
+    for Molecular Science with Graph, Image, and Text"
+    <https://arxiv.org/pdf/2308.06911>`_ paper.
+    Args:
+        root (str): Root directory where the dataset should be saved.
+        transform (callable, optional): A function/transform that takes in an
+            :obj:`torch_geometric.data.Data` object and returns a transformed
+            version. The data object will be transformed before every access.
+            (default: :obj:`None`)
+        pre_transform (callable, optional): A function/transform that takes in
+            an :obj:`torch_geometric.data.Data` object and returns a
+            transformed version. The data object will be transformed before
+            being saved to disk. (default: :obj:`None`)
+        pre_filter (callable, optional): A function that takes in an
+            :obj:`torch_geometric.data.Data` object and returns a boolean
+            value, indicating whether the data object should be included in the
+            final dataset. (default: :obj:`None`)
+        force_reload (bool, optional): Whether to re-process the dataset.
+            (default: :obj:`False`)
+        split (int, optional): Datasets split, train/valid/test=0/1/2.
+            (default: :obj:`0`)
+    """
+    raw_url_id = '1loBXabD6ncAFY-vanRsVtRUSFkEtBweg'
+    def __init__(
+        self,
+        root: str,
+        transform: Optional[Callable] = None,
+        pre_transform: Optional[Callable] = None,
+        pre_filter: Optional[Callable] = None,
+        force_reload: bool = False,
+        split: int = 0,
+    ):
+        from torchvision import transforms
+        self.split = split
+        if self.split == 0:
+            self.img_transform = transforms.Compose([
+                transforms.Resize((224, 224)),
+                transforms.RandomRotation(15),
+                transforms.ColorJitter(brightness=0.5, contrast=0.5, hue=0.5),
+                transforms.ToTensor(),
+                transforms.Normalize(mean=[0.485, 0.456, 0.406],
+                                     std=[0.229, 0.224, 0.225])
+            ])
+        else:
+            self.img_transform = transforms.Compose([
+                transforms.Resize((224, 224)),
+                transforms.ToTensor(),
+                transforms.Normalize(mean=[0.485, 0.456, 0.406],
+                                     std=[0.229, 0.224, 0.225])
+            ])
+        super().__init__(root, transform, pre_transform, pre_filter,
+                         force_reload=force_reload)
+        self.load(self.processed_paths[0])
+    @property
+    def raw_file_names(self) -> List[str]:
+        return ['train_3500.pkl', 'valid_450.pkl', 'test_450.pkl']
+    @property
+    def processed_file_names(self) -> str:
+        return ['train.pt', 'valid.pt', 'test.pt'][self.split]
+    def download(self) -> None:
+        file_path = download_google_url(
+            self.raw_url_id,
+            self.raw_dir,
+            'gitmol.zip',
+        )
+        extract_zip(file_path, self.raw_dir)
+    def process(self) -> None:
+        import pandas as pd
+        from PIL import Image
+        try:
+            from rdkit import Chem, RDLogger
+            RDLogger.DisableLog('rdApp.*')  # type: ignore
+            WITH_RDKIT = True
+        except ImportError:
+            WITH_RDKIT = False
+        if not WITH_RDKIT:
+            print(("Using a pre-processed version of the dataset. Please "
+                   "install 'rdkit' to alternatively process the raw data."),
+                  file=sys.stderr)
+            data_list = fs.torch_load(self.raw_paths[0])
+            data_list = [Data(**data_dict) for data_dict in data_list]
+            if self.pre_filter is not None:
+                data_list = [d for d in data_list if self.pre_filter(d)]
+            if self.pre_transform is not None:
+                data_list = [self.pre_transform(d) for d in data_list]
+            self.save(data_list, self.processed_paths[0])
+            return
+        allowable_features: Dict[str, List[Any]] = {
+            'possible_atomic_num_list':
+            list(range(1, 119)) + ['misc'],
+            'possible_formal_charge_list':
+            [-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 'misc'],
+            'possible_chirality_list': [
+                Chem.rdchem.ChiralType.CHI_UNSPECIFIED,
+                Chem.rdchem.ChiralType.CHI_TETRAHEDRAL_CW,
+                Chem.rdchem.ChiralType.CHI_TETRAHEDRAL_CCW,
+                Chem.rdchem.ChiralType.CHI_OTHER
+            ],
+            'possible_hybridization_list': [
+                Chem.rdchem.HybridizationType.SP,
+                Chem.rdchem.HybridizationType.SP2,
+                Chem.rdchem.HybridizationType.SP3,
+                Chem.rdchem.HybridizationType.SP3D,
+                Chem.rdchem.HybridizationType.SP3D2,
+                Chem.rdchem.HybridizationType.UNSPECIFIED, 'misc'
+            ],
+            'possible_numH_list': [0, 1, 2, 3, 4, 5, 6, 7, 8, 'misc'],
+            'possible_implicit_valence_list': [0, 1, 2, 3, 4, 5, 6],
+            'possible_degree_list': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 'misc'],
+            'possible_number_radical_e_list': [0, 1, 2, 3, 4, 'misc'],
+            'possible_is_aromatic_list': [False, True],
+            'possible_is_in_ring_list': [False, True],
+            'possible_bond_type_list': [
+                Chem.rdchem.BondType.SINGLE, Chem.rdchem.BondType.DOUBLE,
+                Chem.rdchem.BondType.TRIPLE, Chem.rdchem.BondType.AROMATIC,
+                Chem.rdchem.BondType.ZERO
+            ],
+            'possible_bond_dirs': [  # only for double bond stereo information
+                Chem.rdchem.BondDir.NONE, Chem.rdchem.BondDir.ENDUPRIGHT,
+                Chem.rdchem.BondDir.ENDDOWNRIGHT
+            ],
+            'possible_bond_stereo_list': [
+                Chem.rdchem.BondStereo.STEREONONE,
+                Chem.rdchem.BondStereo.STEREOZ,
+                Chem.rdchem.BondStereo.STEREOE,
+                Chem.rdchem.BondStereo.STEREOCIS,
+                Chem.rdchem.BondStereo.STEREOTRANS,
+                Chem.rdchem.BondStereo.STEREOANY,
+            ],
+            'possible_is_conjugated_list': [False, True]
+        }
+        data = pd.read_pickle(
+            f'{self.raw_dir}/igcdata_toy/{self.raw_file_names[self.split]}')
+        data_list = []
+        for _, r in tqdm(data.iterrows(), total=data.shape[0]):
+            smiles = r['isosmiles']
+            mol = Chem.MolFromSmiles(smiles.strip('\n'))
+            if mol is not None:
+                # text
+                summary = r['summary']
+                # image
+                cid = r['cid']
+                img_file = f'{self.raw_dir}/igcdata_toy/imgs/CID_{cid}.png'
+                img = Image.open(img_file).convert('RGB')
+                img = self.img_transform(img).unsqueeze(0)
+                # graph
+                atom_features_list = []
+                for atom in mol.GetAtoms():
+                    atom_feature = [
+                        safe_index(
+                            allowable_features['possible_atomic_num_list'],
+                            atom.GetAtomicNum()),
+                        allowable_features['possible_chirality_list'].index(
+                            atom.GetChiralTag()),
+                        safe_index(allowable_features['possible_degree_list'],
+                                   atom.GetTotalDegree()),
+                        safe_index(
+                            allowable_features['possible_formal_charge_list'],
+                            atom.GetFormalCharge()),
+                        safe_index(allowable_features['possible_numH_list'],
+                                   atom.GetTotalNumHs()),
+                        safe_index(
+                            allowable_features[
+                                'possible_number_radical_e_list'],
+                            atom.GetNumRadicalElectrons()),
+                        safe_index(
+                            allowable_features['possible_hybridization_list'],
+                            atom.GetHybridization()),
+                        allowable_features['possible_is_aromatic_list'].index(
+                            atom.GetIsAromatic()),
+                        allowable_features['possible_is_in_ring_list'].index(
+                            atom.IsInRing()),
+                    ]
+                    atom_features_list.append(atom_feature)
+                x = torch.tensor(np.array(atom_features_list),
+                                 dtype=torch.long)
+                edges_list = []
+                edge_features_list = []
+                for bond in mol.GetBonds():
+                    i, j = bond.GetBeginAtomIdx(), bond.GetEndAtomIdx()
+                    edge_feature = [
+                        safe_index(
+                            allowable_features['possible_bond_type_list'],
+                            bond.GetBondType()),
+                        allowable_features['possible_bond_stereo_list'].index(
+                            bond.GetStereo()),
+                        allowable_features['possible_is_conjugated_list'].
+                        index(bond.GetIsConjugated()),
+                    ]
+                    edges_list.append((i, j))
+                    edge_features_list.append(edge_feature)
+                    edges_list.append((j, i))
+                    edge_features_list.append(edge_feature)
+                edge_index = torch.tensor(
+                    np.array(edges_list).T,
+                    dtype=torch.long,
+                )
+                edge_attr = torch.tensor(
+                    np.array(edge_features_list),
+                    dtype=torch.long,
+                )
+                data = Data(
+                    x=x,
+                    edge_index=edge_index,
+                    smiles=smiles,
+                    edge_attr=edge_attr,
+                    image=img,
+                    caption=summary,
+                )
+                if self.pre_filter is not None and not self.pre_filter(data):
+                    continue
+                if self.pre_transform is not None:
+                    data = self.pre_transform(data)
+                data_list.append(data)
+        self.save(data_list, self.processed_paths[0])

torch_geometric/datasets/gnn_benchmark_dataset.py CHANGED Viewed

@@ -12,6 +12,7 @@ from torch_geometric.data import (
     download_url,
     extract_zip,
 )
+from torch_geometric.io import fs
 from torch_geometric.utils import remove_self_loops
@@ -61,31 +62,31 @@ class GNNBenchmarkDataset(InMemoryDataset):
           - #features
           - #classes
         * - PATTERN
-          - 10,000
+          - 14,000
           - ~118.9
           - ~6,098.9
           - 3
           - 2
         * - CLUSTER
-          - 10,000
+          - 12,000
           - ~117.2
           - ~4,303.9
           - 7
           - 6
         * - MNIST
-          - 55,000
+          - 70,000
           - ~70.6
           - ~564.5
           - 3
           - 10
         * - CIFAR10
-          - 45,000
+          - 60,000
           - ~117.6
           - ~941.2
           - 5
           - 10
         * - TSP
-          - 10,000
+          - 12,000
           - ~275.4
           - ~6,885.0
           - 2
@@ -126,9 +127,9 @@ class GNNBenchmarkDataset(InMemoryDataset):
         if self.name == 'CSL' and split != 'train':
             split = 'train'
             logging.warning(
-                ("Dataset 'CSL' does not provide a standardized splitting. "
-                 "Instead, it is recommended to perform 5-fold cross "
-                 "validation with stratifed sampling"))
+                "Dataset 'CSL' does not provide a standardized splitting. "
+                "Instead, it is recommended to perform 5-fold cross "
+                "validation with stratifed sampling")
         super().__init__(root, transform, pre_transform, pre_filter,
                          force_reload=force_reload)
@@ -181,7 +182,7 @@ class GNNBenchmarkDataset(InMemoryDataset):
             data_list = self.process_CSL()
             self.save(data_list, self.processed_paths[0])
         else:
-            inputs = torch.load(self.raw_paths[0])
+            inputs = fs.torch_load(self.raw_paths[0])
             for i in range(len(inputs)):
                 data_list = [Data(**data_dict) for data_dict in inputs[i]]
@@ -197,7 +198,7 @@ class GNNBenchmarkDataset(InMemoryDataset):
         with open(self.raw_paths[0], 'rb') as f:
             adjs = pickle.load(f)
-        ys = torch.load(self.raw_paths[1]).tolist()
+        ys = fs.torch_load(self.raw_paths[1]).tolist()
         data_list = []
         for adj, y in zip(adjs, ys):

pyg-nightly 2.6.0.dev20240319__py3-none-any.whl → 2.7.0.dev20250114__py3-none-any.whl

pyg-nightly 2.6.0.dev20240319py3-none-any.whl → 2.7.0.dev20250114py3-none-any.whl