PyPI - tfds-nightly - Versions diffs - 4.9.9.dev202508210044__py3-none-any.whl → 4.9.9.dev202508230044__py3-none-any.whl - Mend

tfds-nightly 4.9.9.dev202508210044py3-none-any.whl → 4.9.9.dev202508230044py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

tensorflow_datasets/core/dataset_builders/croissant_builder_test.py CHANGED Viewed

@@ -15,6 +15,7 @@
 """Tests for croissant_builder."""
+from typing import Any, Dict, List, Type
 import numpy as np
 import pytest
 from tensorflow_datasets import testing
@@ -146,7 +147,10 @@ def _create_mlc_field(
     ],
 )
 def test_simple_datatype_converter(
-    mlc_field, expected_feature, int_dtype, float_dtype
+    mlc_field: mlc.Field,
+    expected_feature: type[Any],
+    int_dtype: np.dtype | None,
+    float_dtype: np.dtype | None,
 ):
   actual_feature = croissant_builder.datatype_converter(
       mlc_field,
@@ -252,7 +256,11 @@ def test_datatype_converter_bbox_with_invalid_format():
         ),
     ],
 )
-def test_datatype_converter_complex(mlc_field, feature_type, subfield_types):
+def test_datatype_converter_complex(
+    mlc_field: mlc.Field,
+    feature_type: Type[Any],
+    subfield_types: Dict[str, Type[Any]] | None,
+):
   actual_feature = croissant_builder.datatype_converter(mlc_field)
   assert actual_feature.doc.desc == mlc_field.description
   assert isinstance(actual_feature, feature_type)
@@ -411,7 +419,9 @@ def test_version_converter(tmp_path):
 @pytest.fixture(name="crs_builder")
-def mock_croissant_dataset_builder(tmp_path, request):
+def mock_croissant_dataset_builder(
+    tmp_path, request
+) -> croissant_builder.CroissantBuilder:
   dataset_name = request.param["dataset_name"]
   with testing.dummy_croissant_file(
       dataset_name=dataset_name,
@@ -477,7 +487,11 @@ def test_croissant_builder(crs_builder):
     indirect=["crs_builder"],
 )
 @pytest.mark.parametrize("split_name", ["train", "test"])
-def test_download_and_prepare(crs_builder, expected_entries, split_name):
+def test_download_and_prepare(
+    crs_builder: croissant_builder.CroissantBuilder,
+    expected_entries: List[Dict[str, Any]],
+    split_name: str,
+):
   crs_builder.download_and_prepare()
   data_source = crs_builder.as_data_source(split=split_name)
   expected_entries = [

tensorflow_datasets/core/read_only_builder.py CHANGED Viewed

@@ -314,10 +314,11 @@ def builder_from_files(
     DatasetNotFoundError: If the dataset cannot be loaded.
   """
   # Find and load dataset builder.
-  builder_dir = _find_builder_dir(name, **builder_kwargs)
+  copy_builder_kwargs = dict(builder_kwargs)
+  builder_dir = _find_builder_dir(name, **copy_builder_kwargs)
   if builder_dir is None:
     data_dirs = file_utils.list_data_dirs(
-        given_data_dir=builder_kwargs.get('data_dir')
+        given_data_dir=copy_builder_kwargs.get('data_dir')
     )
     raise registered.DatasetNotFoundError(
         f'Could not find dataset files for: {name}. Make sure you have the'
@@ -325,7 +326,7 @@ def builder_from_files(
         f'and that it has been generated in: {data_dirs}. If the dataset has'
         ' configs, you might have to specify the config name.'
     )
-  file_format = builder_kwargs.pop('file_format', None)
+  file_format = copy_builder_kwargs.pop('file_format', None)
   return builder_from_directory(builder_dir, file_format=file_format)

tensorflow_datasets/datasets/multi_news/multi_news_dataset_builder.py CHANGED Viewed

@@ -34,9 +34,16 @@ class Builder(tfds.core.GeneratorBasedBuilder):
   VERSION = tfds.core.Version("2.1.0")
   RELEASE_NOTES = {
       "1.0.0": "Initial release.",
-      "2.0.0": "Update the dataset with valid URLs.",
-      "2.1.0": "Update the dataset with cleaned URLs.",
+      "2.0.0": "[Do not use] Update the dataset with valid URLs.",
+      "2.1.0": (
+          "Update the dataset with the correct URLs. The URLs in this version"
+          " come from HuggingFace's dataset repo, which is curated by the same"
+          " author: https://huggingface.co/datasets/alexfabbri/multi_news."
+      ),
   }
+  BLOCKED_VERSIONS = tfds.core.utils.BlockedVersions(
+      versions={"2.0.0": "The URLs of this version are invalid."}
+  )
   def _info(self) -> tfds.core.DatasetInfo:
     """Returns the dataset metadata."""
@@ -77,9 +84,10 @@ class Builder(tfds.core.GeneratorBasedBuilder):
     ).open() as tgt_f:
       for i, (src_line, tgt_line) in enumerate(zip(src_f, tgt_f)):
         yield i, {
-            # In original file, each line has one example and natural newline
-            # tokens "\n" are being replaced with "NEWLINE_CHAR". Here restore
-            # the natural newline token to avoid special vocab "NEWLINE_CHAR".
+            # In the original file, each line has one example and natural
+            # newline tokens "\n" are being replaced with "NEWLINE_CHAR"
+            # Here, we restore the natural newline token to avoid the special
+            # vocab token "NEWLINE_CHAR".
             _DOCUMENT: src_line.strip().replace("NEWLINE_CHAR", "\n"),
             _SUMMARY: tgt_line.strip().lstrip(),
         }

tensorflow_datasets/scripts/documentation/build_community_catalog.py CHANGED Viewed

@@ -168,7 +168,7 @@ class DatasetDocumentation:
     )
   def to_details_markdown(self) -> str:
-    """ "Markdown to be shown on the details page for the namespace."""
+    """Markdown to be shown on the details page for the namespace."""
     extra_links = self.format_extra_links(prefix='*   ', infix='\n')
     details = self.templates.dataset_details_template.format(
         name=self.name,
@@ -194,9 +194,6 @@ class DatasetDocumentation:
   def documentation(self, keep_short: bool = False) -> str:
     """Returns detailed documentation for all configs of this dataset."""
-    # TODO(weide): if e.g. the description contains markdown chars, then it
-    # messes up the page. Try escaping backticks or using code blocks.
-    # TODO(weide): how to format citation?
     header_template = '## {config_name}'
     template = textwrap.dedent("""
       Use the following command to load this dataset in TFDS:
@@ -207,9 +204,7 @@ class DatasetDocumentation:
       *   **Description**:
-      ```
       {description}
-      ```
       *   **License**: {license}
       *   **Version**: {version}
@@ -364,6 +359,7 @@ class HuggingfaceDatasetDocumentation(GithubDatasetDocumentation):
           )
       )
+    version = None
     if isinstance(config['version'], dict):
       version = config['version']['version_str']
     elif isinstance(config['version'], str):

tensorflow_datasets/scripts/documentation/dataset_markdown_builder.py CHANGED Viewed

@@ -222,9 +222,9 @@ class VersionSection(Section):
     all_versions = set(tfds.core.Version(v) for v in all_versions)
     for v in sorted(all_versions):  # List all available versions
       if v == builder.version:  # Highlight the default version
-        version_name = '**`{}`** (default)'.format(str(v))
+        version_name = f'**`{v}`** (default)'
       else:
-        version_name = '`{}`'.format(str(v))
+        version_name = f'`{v}`'
       if (
           v in curr_versions  # Filter versions only present in RELEASE_NOTES
           and self._nightly_doc_util
@@ -322,14 +322,14 @@ class AutocacheSection(Section):
       autocached_info_parts = []
       if always_cached:
         split_names_str = ', '.join(always_cached)
-        autocached_info_parts.append('Yes ({})'.format(split_names_str))
+        autocached_info_parts.append(f'Yes ({split_names_str})')
       if never_cached:
         split_names_str = ', '.join(never_cached)
-        autocached_info_parts.append('No ({})'.format(split_names_str))
+        autocached_info_parts.append(f'No ({split_names_str})')
       if unshuffle_cached:
         split_names_str = ', '.join(unshuffle_cached)
         autocached_info_parts.append(
-            'Only when `shuffle_files=False` ({})'.format(split_names_str)
+            f'Only when `shuffle_files=False` ({split_names_str})'
         )
       autocached_info = ', '.join(autocached_info_parts)
     return autocached_info
@@ -346,7 +346,7 @@ class SplitInfoSection(Section):
   def _get_num_examples(self, split_info):
     if split_info.num_examples:
-      return '{:,}'.format(split_info.num_examples)
+      return f'{split_info.num_examples:,}'
     return 'Not computed'
   def get_key(self, builder: tfds.core.DatasetBuilder):

{tfds_nightly-4.9.9.dev202508210044.dist-info → tfds_nightly-4.9.9.dev202508230044.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: tfds-nightly
-Version: 4.9.9.dev202508210044
+Version: 4.9.9.dev202508230044
 Summary: tensorflow/datasets is a library of datasets ready to use with TensorFlow.
 Home-page: https://github.com/tensorflow/datasets
 Download-URL: https://github.com/tensorflow/datasets/tags

{tfds_nightly-4.9.9.dev202508210044.dist-info → tfds_nightly-4.9.9.dev202508230044.dist-info}/RECORD RENAMED Viewed

@@ -90,7 +90,7 @@ tensorflow_datasets/core/load.py,sha256=1FQVnKwn8OVS_IgDbs9XN7aIVxQnyfrS0pI2X9dh
 tensorflow_datasets/core/load_test.py,sha256=EEa8GuSIrEbn0RcGrWS3hmmatKBqBA3QOQWpQ1WjVgA,6490
 tensorflow_datasets/core/naming.py,sha256=B_P77QDA4lkG2FUl4PrzZR0U6qqae_fLxruGBw3ZSVc,25614
 tensorflow_datasets/core/naming_test.py,sha256=SwydgLjf2Mouow1yVZlc73sb8rp4522NhkTSEmg31vo,30112
-tensorflow_datasets/core/read_only_builder.py,sha256=R0QIqckUjl74G7oBj1uCRm_g9e0omstDMTbbwC25B88,22146
+tensorflow_datasets/core/read_only_builder.py,sha256=08BmsgEBXhX0ydGo9-9qHLTjBE6pIvAC6VMmc3b9S8U,22206
 tensorflow_datasets/core/read_only_builder_test.py,sha256=Nw2KQCHBdTW7210Um2K3SzfqAOJB1v1r2yJkzdFehWA,24174
 tensorflow_datasets/core/reader.py,sha256=s65FNOUDyAhd4OgHOSvE5lr4rnlUnOILjlVcRS6Qbhw,17345
 tensorflow_datasets/core/reader_test.py,sha256=VcbUIDtvwjTRZs-0beQIiz26TALqLM5FgBsB-Gtw4kw,17882
@@ -142,7 +142,7 @@ tensorflow_datasets/core/dataset_builders/__init__.py,sha256=StTA3euephqDZdpTzJQ
 tensorflow_datasets/core/dataset_builders/adhoc_builder.py,sha256=1a-5hVjf9t24SD9fWzDDuKoOrA-Vmydf5QxvU7ap-sI,9263
 tensorflow_datasets/core/dataset_builders/adhoc_builder_test.py,sha256=yhRwrznK78MvHeWGRggnMTiyx_SlR1z30iD5VU3Gweo,13096
 tensorflow_datasets/core/dataset_builders/croissant_builder.py,sha256=XmnbIKiEN9OnY_RC8P7-83hbUfvtuJhbm24HfNFpiQs,17088
-tensorflow_datasets/core/dataset_builders/croissant_builder_test.py,sha256=42HpBr3pANVKiok4lcx6xqwf0fY7kma6WIGA8WehNSs,15072
+tensorflow_datasets/core/dataset_builders/croissant_builder_test.py,sha256=_8JVvhkv_QRUhN4GEw6V1PEryJXp8-DLzuVKzjkozgo,15370
 tensorflow_datasets/core/dataset_builders/huggingface_dataset_builder.py,sha256=Loq3qeGk1Ias-d2oT_dK47BRNgTA4LKJchNGh7aA4a0,18313
 tensorflow_datasets/core/dataset_builders/huggingface_dataset_builder_test.py,sha256=6N3DLsry9LhDqhpleaoXrrhaGiLJMBgUlwDnAji-1fI,4389
 tensorflow_datasets/core/dataset_builders/view_builder.py,sha256=eaCtjN5Vg4rK8JD3auA4PhF9mjH5HvQ9dslDX8LbwyM,11907
@@ -935,7 +935,7 @@ tensorflow_datasets/datasets/multi_news/README.md,sha256=s0XL9ddJL7oNJ9r7mSG8_Hd
 tensorflow_datasets/datasets/multi_news/TAGS.txt,sha256=OPDe1XqRiLYpvmXuPX2_aMaOKIXYsl562usmTEEqkwg,449
 tensorflow_datasets/datasets/multi_news/__init__.py,sha256=eFqnTjU7s5iubj6XcKoU8lZUSHecOdnebZFm1vTkjbA,612
 tensorflow_datasets/datasets/multi_news/checksums.tsv,sha256=S-8k82snl0zj1rjjO5LW7svXRNnDuWRc72qpIcBu6WA,1031
-tensorflow_datasets/datasets/multi_news/multi_news_dataset_builder.py,sha256=-ZOuQ7BfPN6_DkrUddcE2qm76eUpmlo8nHizd8DsstQ,3046
+tensorflow_datasets/datasets/multi_news/multi_news_dataset_builder.py,sha256=6ZeVdbrtXKIu1sjxURsoGdPLRW0SXmK0BhOnmyrwpk4,3419
 tensorflow_datasets/datasets/multi_news/multi_news_dataset_builder_test.py,sha256=5amBMQ7PKbPLeZ2kiT18tEb_Z-CMS0DasTRT6goTjXQ,1259
 tensorflow_datasets/datasets/natural_instructions/CITATIONS.bib,sha256=tcQG5eEGL_wr_5MEnZ6Q_ce2oZm6InbbRKiFqee9g7I,412
 tensorflow_datasets/datasets/natural_instructions/README.md,sha256=mceGvviI62PO5mh59sYPP_9vuuwKo0g-m7LQilP1mBI,370
@@ -2007,11 +2007,11 @@ tensorflow_datasets/scripts/deployment/export_community_datasets_test.py,sha256=
 tensorflow_datasets/scripts/documentation/__init__.py,sha256=Z8UWkv0wbzS4AzaLgSpYVGApYv5j57RWY0vN5Z553BQ,613
 tensorflow_datasets/scripts/documentation/build_catalog.py,sha256=SYJoNW-VxvL8xx85uYlFBwbr1k64HcmRBfxsj9-sdYA,8680
 tensorflow_datasets/scripts/documentation/build_catalog_test.py,sha256=qjnqK6lhBh-uNrjLQkEs3AbKFBo5uz_sxhhdT4ibOyA,2532
-tensorflow_datasets/scripts/documentation/build_community_catalog.py,sha256=gh84xnKbL_ndR4GGbgBNLJ0nxjFwiAPLuhUvzeKPZAo,19902
+tensorflow_datasets/scripts/documentation/build_community_catalog.py,sha256=58CT0UaHxw0-mZX1a1aoW96NkszgsntDXuxS_OOZtc8,19709
 tensorflow_datasets/scripts/documentation/build_community_catalog_test.py,sha256=KvCmBzIePyztWPSrCqTJ_j_3puNWXxgSWSfvcMgQPgk,6352
 tensorflow_datasets/scripts/documentation/collection_markdown_builder.py,sha256=4Oofl2dQjlvHTir46x2K6Vpa3amwPaB-3dm43f_GcS8,7287
 tensorflow_datasets/scripts/documentation/collection_markdown_builder_test.py,sha256=t8KEbotAk6zH09HFvJhsrHW23uE8H3_UGLOHOFcvFeQ,3909
-tensorflow_datasets/scripts/documentation/dataset_markdown_builder.py,sha256=DWILh5kphLecCt77GSHXHDXrvFZOwi5AuiT3qnUQ7Ng,25556
+tensorflow_datasets/scripts/documentation/dataset_markdown_builder.py,sha256=4W-L77aM2B4xGNQC7i1p5yHvOlIJfC0dONTM-86yeoY,25498
 tensorflow_datasets/scripts/documentation/dataset_markdown_builder_test.py,sha256=WsDbmAO6TYGFpn4VxF49FYvRy3ujNiysk38cWKlFC10,4219
 tensorflow_datasets/scripts/documentation/doc_utils.py,sha256=DKHGhF7I4ZkKcDAJWYC8mxWBBtbWD211Yv6CTqOBSTw,10325
 tensorflow_datasets/scripts/documentation/doc_utils_test.py,sha256=FSncjt0UCgvdN9WcvqzswwEuf7ZGmdUIRL480PzHxNw,5805
@@ -2399,7 +2399,6 @@ tensorflow_datasets/url_checksums/movie_lens.txt,sha256=DmPIlh1aM7PxNzI5sVmOGwC4
 tensorflow_datasets/url_checksums/movie_rationales.txt,sha256=1GweBeFRzD61ISAkTR5MNiWuujW6PQymgp7ISGBgsAU,139
 tensorflow_datasets/url_checksums/movielens.txt,sha256=i6St5kA_ZV6y8_mk_b47eE9RIf9Pc1VH6asv58kNPlo,731
 tensorflow_datasets/url_checksums/moving_mnist.txt,sha256=OtC5WoEUStRKL2I7jAwIEFF6WvZ-z_1vDGPzxpnGxXA,166
-tensorflow_datasets/url_checksums/multi_news.txt,sha256=noajcrnQ_UK7sh-uRR9CJYaeBFenCmj_ZXr_5ih3Gu0,201
 tensorflow_datasets/url_checksums/multi_nli.txt,sha256=LXDz04hlq0b9au9DDHaX_P-KGVi4ZHWV5wEGJcvD8bA,148
 tensorflow_datasets/url_checksums/multi_nli_mismatch.txt,sha256=LXDz04hlq0b9au9DDHaX_P-KGVi4ZHWV5wEGJcvD8bA,148
 tensorflow_datasets/url_checksums/omniglot.txt,sha256=4KFU4nJ5H772d1JmRBmQ2bzoL0rJqCzMdf6XCx1Xa_c,728
@@ -2472,10 +2471,10 @@ tensorflow_datasets/vision_language/wit/wit_test.py,sha256=PXS8DMNW-MDrT2p5oy4Ic
 tensorflow_datasets/vision_language/wit_kaggle/__init__.py,sha256=vGwSGeM8WE4Q-l0-eEE1sBojmk6YT0l1OO60AWa4Q40,719
 tensorflow_datasets/vision_language/wit_kaggle/wit_kaggle.py,sha256=q-vX_FBzIwsFxL4sY9vuyQ3UQD2PLM4yhUR4U6l-qao,16903
 tensorflow_datasets/vision_language/wit_kaggle/wit_kaggle_test.py,sha256=ZymHT1NkmD-pUnh3BmM3_g30c5afsWYnmqDD9dVyDSA,1778
-tfds_nightly-4.9.9.dev202508210044.dist-info/licenses/AUTHORS,sha256=nvBG4WwfgjuOu1oZkuQKw9kg7X6rve679ObS-YDDmXg,309
-tfds_nightly-4.9.9.dev202508210044.dist-info/licenses/LICENSE,sha256=z8d0m5b2O9McPEK1xHG_dWgUBT6EfBDz6wA0F7xSPTA,11358
-tfds_nightly-4.9.9.dev202508210044.dist-info/METADATA,sha256=wYNNz571WHEAExSi_IJGNjB8LPNS6tiseK1QVGIcc3s,11291
-tfds_nightly-4.9.9.dev202508210044.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-tfds_nightly-4.9.9.dev202508210044.dist-info/entry_points.txt,sha256=eHEL7nF5y1uCY2FgkuYIdE062epJXlAQTSdq89px4p4,73
-tfds_nightly-4.9.9.dev202508210044.dist-info/top_level.txt,sha256=bAevmk9209s_oxVZVlN6hSDIVS423qrMQvmcWSvW4do,20
-tfds_nightly-4.9.9.dev202508210044.dist-info/RECORD,,
+tfds_nightly-4.9.9.dev202508230044.dist-info/licenses/AUTHORS,sha256=nvBG4WwfgjuOu1oZkuQKw9kg7X6rve679ObS-YDDmXg,309
+tfds_nightly-4.9.9.dev202508230044.dist-info/licenses/LICENSE,sha256=z8d0m5b2O9McPEK1xHG_dWgUBT6EfBDz6wA0F7xSPTA,11358
+tfds_nightly-4.9.9.dev202508230044.dist-info/METADATA,sha256=5HX3mZXPihfkdO-s-nCCoBocQswqBhL_-dCkKIMRnlU,11291
+tfds_nightly-4.9.9.dev202508230044.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+tfds_nightly-4.9.9.dev202508230044.dist-info/entry_points.txt,sha256=eHEL7nF5y1uCY2FgkuYIdE062epJXlAQTSdq89px4p4,73
+tfds_nightly-4.9.9.dev202508230044.dist-info/top_level.txt,sha256=bAevmk9209s_oxVZVlN6hSDIVS423qrMQvmcWSvW4do,20
+tfds_nightly-4.9.9.dev202508230044.dist-info/RECORD,,

tensorflow_datasets/url_checksums/multi_news.txt DELETED Viewed

	@@ -1 +0,0 @@
1	- https://drive.google.com/uc?export=download&id=1vRY2wM6rlOZrf9exGTm5pXj5ExlVwJ0C 256966232 64ae4d2483b248c9664b50bacfab6821f8a3e93f382c7587686fa4a127f77626 multi-news-original-20190725T164630Z-001.zip

{tfds_nightly-4.9.9.dev202508210044.dist-info → tfds_nightly-4.9.9.dev202508230044.dist-info}/WHEEL RENAMED Viewed

File without changes

{tfds_nightly-4.9.9.dev202508210044.dist-info → tfds_nightly-4.9.9.dev202508230044.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{tfds_nightly-4.9.9.dev202508210044.dist-info → tfds_nightly-4.9.9.dev202508230044.dist-info}/licenses/AUTHORS RENAMED Viewed

File without changes

{tfds_nightly-4.9.9.dev202508210044.dist-info → tfds_nightly-4.9.9.dev202508230044.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{tfds_nightly-4.9.9.dev202508210044.dist-info → tfds_nightly-4.9.9.dev202508230044.dist-info}/top_level.txt RENAMED Viewed

File without changes

tfds-nightly 4.9.9.dev202508210044__py3-none-any.whl → 4.9.9.dev202508230044__py3-none-any.whl

tfds-nightly 4.9.9.dev202508210044py3-none-any.whl → 4.9.9.dev202508230044py3-none-any.whl