PyPI - datamaestro-text - Versions diffs - 2026.1.1__py3-none-any.whl → 2026.2.3__py3-none-any.whl - Mend

datamaestro-text 2026.1.1py3-none-any.whl → 2026.2.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (44) hide show

datamaestro_text/__init__.py +1 -1
datamaestro_text/config/com/github/aagohary/canard.py +27 -24
datamaestro_text/config/com/github/apple/ml-qrecc.py +30 -25
datamaestro_text/config/com/github/ikat.py +76 -62
datamaestro_text/config/com/github/prdwb/orconvqa.py +41 -37
datamaestro_text/config/com/microsoft/msmarco/passage.py +278 -207
datamaestro_text/config/com/oscar-corpus.py +13 -10
datamaestro_text/config/com/sentiment140.py +17 -12
datamaestro_text/config/com/smashwords/bookcorpus.py +13 -10
datamaestro_text/config/edu/stanford/aclimdb.py +14 -9
datamaestro_text/config/edu/stanford/glove.py +66 -32
datamaestro_text/config/edu/upenn/ldc/aquaint.py +35 -17
datamaestro_text/config/fr/granddebat.py +57 -48
datamaestro_text/config/gov/nist/ir/covid.py +62 -52
datamaestro_text/config/gov/nist/trec/adhoc.py +395 -255
datamaestro_text/config/gov/nist/trec/tipster.py +170 -64
datamaestro_text/config/io/github/thunlp/fewrel.py +20 -15
datamaestro_text/config/io/metamind/research/wikitext.py +51 -33
datamaestro_text/config/org/grouplens/movielens.py +28 -37
datamaestro_text/config/org/universaldependencies/french.py +16 -11
datamaestro_text/data/conversation/__init__.py +6 -6
datamaestro_text/data/conversation/base.py +2 -2
datamaestro_text/data/conversation/canard.py +3 -4
datamaestro_text/data/conversation/ikat.py +0 -1
datamaestro_text/data/conversation/orconvqa.py +3 -3
datamaestro_text/data/embeddings.py +1 -0
datamaestro_text/data/ir/__init__.py +1 -1
datamaestro_text/data/ir/base.py +1 -1
datamaestro_text/data/ir/data.py +1 -1
datamaestro_text/data/ir/formats.py +2 -1
datamaestro_text/data/ir/stores.py +1 -1
datamaestro_text/data/text.py +1 -0
datamaestro_text/datasets/__init__.py +1 -0
datamaestro_text/datasets/irds/data.py +1 -6
datamaestro_text/download/tmdb.py +0 -1
datamaestro_text/test/test_documented.py +2 -2
datamaestro_text/transforms/ir/__init__.py +12 -13
datamaestro_text/utils/shuffle.py +1 -1
datamaestro_text/version.py +2 -2
{datamaestro_text-2026.1.1.dist-info → datamaestro_text-2026.2.3.dist-info}/METADATA +2 -8
{datamaestro_text-2026.1.1.dist-info → datamaestro_text-2026.2.3.dist-info}/RECORD +44 -43
{datamaestro_text-2026.1.1.dist-info → datamaestro_text-2026.2.3.dist-info}/WHEEL +0 -0
{datamaestro_text-2026.1.1.dist-info → datamaestro_text-2026.2.3.dist-info}/entry_points.txt +0 -0
{datamaestro_text-2026.1.1.dist-info → datamaestro_text-2026.2.3.dist-info}/licenses/LICENSE +0 -0

datamaestro_text/config/gov/nist/trec/tipster.py CHANGED Viewed

@@ -20,165 +20,271 @@ See also https://trec.nist.gov/data/docs_eng.html and https://trec.nist.gov/data
 from datamaestro_text.data.ir.trec import TipsterCollection
 from datamaestro.download.links import linkfolder
 from datamaestro.definitions import (
+    Dataset,
     dataset,
 )
 from datamaestro.context import DatafolderPath
 # Store meta-information
-TIPSTER = dataset(TipsterCollection, url="https://catalog.ldc.upenn.edu/LDC93T3A")
+TIPSTER = dataset(url="https://catalog.ldc.upenn.edu/LDC93T3A")
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/AP")])
 @TIPSTER
-def ap88(documents):
+class Ap88(Dataset):
     """Associated Press document collection (1988)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/AP")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/AP")])
 @TIPSTER
-def ap89(documents):
+class Ap89(Dataset):
     """Associated Press document collection (1989)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/AP")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk3/AP")])
 @TIPSTER
-def ap90(documents):
+class Ap90(Dataset):
     """Associated Press document collection (1990)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk3/AP")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/DOE")])
 @TIPSTER
-def doe1(documents):
+class Doe1(Dataset):
     """Department of Energy documents"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/DOE")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
 # --- Wall Street Journal (1987-92)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/WSJ/1987")])
 @TIPSTER
-def wsj87(documents):
+class Wsj87(Dataset):
     """Wall Street Journal (1987)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/WSJ/1987")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/WSJ/1988")])
 @TIPSTER
-def wsj88(documents):
+class Wsj88(Dataset):
     """Wall Street Journal (1988)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/WSJ/1988")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/WSJ/1989")])
 @TIPSTER
-def wsj89(documents):
+class Wsj89(Dataset):
     """Wall Street Journal (1989)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/WSJ/1989")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/WSJ/1990")])
 @TIPSTER
-def wsj90(documents):
+class Wsj90(Dataset):
     """Wall Street Journal (1990)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/WSJ/1990")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/WSJ/1991")])
 @TIPSTER
-def wsj91(documents):
+class Wsj91(Dataset):
     """Wall Street Journal (1991)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/WSJ/1991")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/WSJ/1992")])
 @TIPSTER
-def wsj92(documents):
+class Wsj92(Dataset):
     """Wall Street Journal (1992)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/WSJ/1992")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
 # --- Federal Register (1988-89)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/FR")])
 @TIPSTER
-def fr88(documents):
+class Fr88(Dataset):
     """Federal Register (1988)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/FR")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/FR")])
 @TIPSTER
-def fr89(documents):
+class Fr89(Dataset):
     """Federal Register (1989)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/FR")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk4/FR94")])
 @TIPSTER
-def fr94(documents):
+class Fr94(Dataset):
     """Federal Register (1994)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk4/FR94")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
 # # ZIFF (1988-92)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/ZIFF")])
 @TIPSTER
-def ziff1(documents):
+class Ziff1(Dataset):
     """Information from the Computer Select disks (1989-90)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk1/ZIFF")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/ZIFF")])
 @TIPSTER
-def ziff2(documents):
+class Ziff2(Dataset):
     """Information from the Computer Select disks (1989-90)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk2/ZIFF")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk3/ZIFF")])
 @TIPSTER
-def ziff3(documents):
+class Ziff3(Dataset):
     """Information from the Computer Select disks (1990-91)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk3/ZIFF")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk3/SJM")])
 @TIPSTER
-def sjm1(documents):
+class Sjm1(Dataset):
     """San Jose Mercury News (1991)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk3/SJM")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk4/CR")])
 @TIPSTER
-def cr1(documents):
+class Cr1(Dataset):
     """TODO"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk4/CR")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk4/FT")])
 @TIPSTER
-def ft1(documents):
+class Ft1(Dataset):
     """Financial Times"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk4/FT")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk5/FBIS")])
 @TIPSTER
-def fbis1(documents):
+class Fbis1(Dataset):
     """Foreign Broadcast Information Service (1996)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk5/FBIS")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)
-@linkfolder("documents", [DatafolderPath("gov.nist.trec.tipster", "Disk5/LATIMES")])
 @TIPSTER
-def la8990(documents):
+class La8990(Dataset):
     """Los Angeles Times (1989-90)"""
-    return {"path": documents}
+    DOCUMENTS = linkfolder(
+        "documents", [DatafolderPath("gov.nist.trec.tipster", "Disk5/LATIMES")]
+    )
+    def config(self) -> TipsterCollection:
+        return TipsterCollection.C(path=self.DOCUMENTS.path)

datamaestro_text/config/io/github/thunlp/fewrel.py CHANGED Viewed

@@ -2,28 +2,17 @@
 from datamaestro.data import File
 from datamaestro.data.ml import Supervised
-from datamaestro.definitions import datatasks, datatags, dataset
-from datamaestro.download.single import filedownloader
+from datamaestro.definitions import Dataset, datatasks, datatags, dataset
+from datamaestro.download.single import FileDownloader
 from datamaestro.utils import HashCheck
 @datatags("unsupervised")
 @datatasks("information extraction")
-@filedownloader(
-    "train.json",
-    "https://github.com/thunlp/FewRel/raw/master/data/train_wiki.json",
-    checker=HashCheck("5e663e9c3f1bfbdb2de72696e9504fd7"),
-)
-@filedownloader(
-    "validation.json",
-    "https://github.com/thunlp/FewRel/raw/master/data/val_wiki.json",
-    checker=HashCheck("3f25573428c0332cb64b367a275ab0c7"),
-)
 @dataset(
-    Supervised,
     url="https://thunlp.github.io/1/fewrel1.html",
 )
-def v1(train, validation):
+class V1(Dataset):
     """FewRel 1.0 - a Few-shot Relation classification dataset
     FewRel is a Few-shot Relation classification dataset, which features 70, 000 natural
@@ -32,4 +21,20 @@ def v1(train, validation):
     Only the train and validation dataset are available. The test set is hidden
     for the leaderboard.
     """
-    return {"train": File.C(path=train), "validation": File.C(path=validation)}
+    TRAIN = FileDownloader(
+        "train.json",
+        "https://github.com/thunlp/FewRel/raw/master/data/train_wiki.json",
+        checker=HashCheck("5e663e9c3f1bfbdb2de72696e9504fd7"),
+    )
+    VALIDATION = FileDownloader(
+        "validation.json",
+        "https://github.com/thunlp/FewRel/raw/master/data/val_wiki.json",
+        checker=HashCheck("3f25573428c0332cb64b367a275ab0c7"),
+    )
+    def config(self) -> Supervised:
+        return Supervised.C(
+            train=File.C(path=self.TRAIN.path),
+            validation=File.C(path=self.VALIDATION.path),
+        )

datamaestro_text/config/io/metamind/research/wikitext.py CHANGED Viewed

@@ -1,14 +1,24 @@
-from datamaestro.data import Base, File
+from datamaestro.data import File
 from datamaestro.definitions import (
+    Dataset,
     datatasks,
     datatags,
     dataset,
     metadataset,
 )
-from datamaestro.download.archive import zipdownloader
+from datamaestro.download.archive import ZipDownloader
 from datamaestro_text.data.text import TrainingText
+def _wikitext(data, type):
+    """Helper to build a TrainingText from data path and type."""
+    return TrainingText.C(
+        train=File.C(path=data / ("wiki.train.%s" % type)),
+        validation=File.C(path=data / ("wiki.valid.%s" % type)),
+        test=File.C(path=data / ("wiki.test.%s" % type)),
+    )
 @datatags("text")
 @datatasks("language modeling")
 @metadataset(TrainingText)
@@ -29,44 +39,52 @@ def WikiText(data, type):
     https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/
     """
-    return {
-        "train": File.C(path=data / ("wiki.train.%s" % type)),
-        "validation": File.C(path=data / ("wiki.valid.%s" % type)),
-        "test": File.C(path=data / ("wiki.test.%s" % type)),
-    }
+    return _wikitext(data, type)
-@zipdownloader(
-    "data", "https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-v1.zip"
-)
-@dataset(WikiText, id="2.tokens")
-def wikitext_2_words(data):
+@dataset(WikiText, id=".2.tokens")
+class Wikitext2Words(Dataset):
     """The small wikitext corpus, already tokenized"""
-    return WikiText(data, "tokens")
+    DATA = ZipDownloader(
+        "data",
+        "https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-v1.zip",
+    )
-@zipdownloader(
-    "data",
-    "https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-raw-v1.zip",
-)
-@dataset(WikiText, id="2.raw")
-def wikitext_2_raw(data):
+    def config(self) -> TrainingText:
+        return _wikitext(self.DATA.path, "tokens")
+@dataset(WikiText, id=".2.raw")
+class Wikitext2Raw(Dataset):
     """The small wikitext corpus (raw data)"""
-    return WikiText(data, "raw")
+    DATA = ZipDownloader(
+        "data",
+        "https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-raw-v1.zip",
+    )
-@zipdownloader(
-    "data", "https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-v1.zip"
-)
-@dataset(WikiText, id="103.tokens")
-def wikitext_103_words(data):
-    return WikiText(data, "tokens")
+    def config(self) -> TrainingText:
+        return _wikitext(self.DATA.path, "raw")
-@zipdownloader(
-    "data",
-    "https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-raw-v1.zip",
-)
-@dataset(WikiText, id="103.raw")
-def wikitext_103_raw(data):
-    return WikiText(data, "raw")
+@dataset(WikiText, id=".103.tokens")
+class Wikitext103Words(Dataset):
+    DATA = ZipDownloader(
+        "data",
+        "https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-v1.zip",
+    )
+    def config(self) -> TrainingText:
+        return _wikitext(self.DATA.path, "tokens")
+@dataset(WikiText, id=".103.raw")
+class Wikitext103Raw(Dataset):
+    DATA = ZipDownloader(
+        "data",
+        "https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-raw-v1.zip",
+    )
+    def config(self) -> TrainingText:
+        return _wikitext(self.DATA.path, "raw")

datamaestro_text/config/org/grouplens/movielens.py CHANGED Viewed

@@ -1,53 +1,44 @@
-# tasks:
-#   - Recommendation
-#   - Collaborative Filtering
-# download:
-#   handler: /archive:Zip
-#   url: http://files.grouplens.org/datasets/movielens/ml-20m.zip
-#   size: 190M
-#   checksum: cd245b17a1ae2cc31bb14903e1204af3
-# ...
-# ---
-# id: tmdb
-# description: TMDB (The Movie database) download for MovieLens movies
-# download:
-#   handler: tmdb:MovieLens
-from datamaestro.definitions import dataset
-from datamaestro.download.archive import zipdownloader
+from datamaestro.definitions import Dataset, dataset
+from datamaestro.download.archive import ZipDownloader
 import datamaestro.data.csv as csv
 from datamaestro_text.data.recommendation import Movielens
-@zipdownloader(
-    "ds", "http://files.grouplens.org/datasets/movielens/ml-latest-small.zip"
-)
 @dataset(url="https://grouplens.org/datasets/movielens/latest/", timestamp=True)
-def small(ds) -> Movielens:
+class Small(Dataset):
     """MovieLens (small dataset)
     100,000 ratings and 3,600 tag applications applied to 9,000 movies by 600 users (as of 9/2018)
     """
-    return {
-        "ratings": csv.Generic.C(path=ds / "ratings.csv", names_row=0),
-        "links": csv.Generic.C(path=ds / "links.csv", names_row=0),
-        "movies": csv.Generic.C(path=ds / "movies.csv", names_row=0),
-        "tags": csv.Generic.C(path=ds / "tags.csv", names_row=0),
-    }
+    DS = ZipDownloader(
+        "ds", "http://files.grouplens.org/datasets/movielens/ml-latest-small.zip"
+    )
+    def config(self) -> Movielens:
+        return Movielens.C(
+            ratings=csv.Generic.C(path=self.DS.path / "ratings.csv", names_row=0),
+            links=csv.Generic.C(path=self.DS.path / "links.csv", names_row=0),
+            movies=csv.Generic.C(path=self.DS.path / "movies.csv", names_row=0),
+            tags=csv.Generic.C(path=self.DS.path / "tags.csv", names_row=0),
+        )
-@zipdownloader("ds", "http://files.grouplens.org/datasets/movielens/ml-latest.zip")
 @dataset(url="https://grouplens.org/datasets/movielens/latest/", timestamp=True)
-def full(ds) -> Movielens:
+class Full(Dataset):
     """MovieLens (full dataset)
     27,000,000 ratings and 1,100,000 tag applications applied to 58,000 movies by 280,000 users (as of 9/2018)
     """
-    return {
-        "ratings": csv.Generic.C(path=ds / "ratings.csv", names_row=0),
-        "links": csv.Generic.C(path=ds / "links.csv", names_row=0),
-        "movies": csv.Generic.C(path=ds / "movies.csv", names_row=0),
-        "tags": csv.Generic.C(path=ds / "tags.csv", names_row=0),
-    }
+    DS = ZipDownloader(
+        "ds", "http://files.grouplens.org/datasets/movielens/ml-latest.zip"
+    )
+    def config(self) -> Movielens:
+        return Movielens.C(
+            ratings=csv.Generic.C(path=self.DS.path / "ratings.csv", names_row=0),
+            links=csv.Generic.C(path=self.DS.path / "links.csv", names_row=0),
+            movies=csv.Generic.C(path=self.DS.path / "movies.csv", names_row=0),
+            tags=csv.Generic.C(path=self.DS.path / "tags.csv", names_row=0),
+        )

datamaestro_text/config/org/universaldependencies/french.py CHANGED Viewed

@@ -1,7 +1,8 @@
-from datamaestro.definitions import dataset
+from datamaestro.definitions import Dataset, dataset
 from datamaestro.data.ml import Supervised
 from datamaestro_text.data.tagging import CoNLL_U
-from datamaestro.download.archive import zipdownloader
+from datamaestro.download.archive import ZipDownloader
 # --- gsd
@@ -22,22 +23,26 @@ from datamaestro.download.archive import zipdownloader
 #     path: fr_gsd-ud-test.conllu
-@zipdownloader(
-    "ds", "https://codeload.github.com/UniversalDependencies/UD_French-GSD/zip/master"
-)
 @dataset(url="https://github.com/UniversalDependencies/UD_French-GSD")
-def gsd(ds) -> Supervised:
+class Gsd(Dataset):
     """French GSD
     The UD_French-GSD was converted in 2015 from the content head version of the
     universal dependency treebank v2.0 (https://github.com/ryanmcd/uni-dep-tb). It
     is updated since 2015 independently from the previous source.
     """
-    return {
-        "train": CoNLL_U.C(path=ds / "fr_gsd-ud-train.conllu"),
-        "test": CoNLL_U.C(path=ds / "fr_gsd-ud-dev.conllu"),
-        "validation": CoNLL_U.C(path=ds / "fr_gsd-ud-test.conllu"),
-    }
+    DS = ZipDownloader(
+        "ds",
+        "https://codeload.github.com/UniversalDependencies/UD_French-GSD/zip/master",
+    )
+    def config(self) -> Supervised:
+        return Supervised.C(
+            train=CoNLL_U.C(path=self.DS.path / "fr_gsd-ud-train.conllu"),
+            test=CoNLL_U.C(path=self.DS.path / "fr_gsd-ud-dev.conllu"),
+            validation=CoNLL_U.C(path=self.DS.path / "fr_gsd-ud-test.conllu"),
+        )
 # --- partut

datamaestro_text/data/conversation/__init__.py CHANGED Viewed

@@ -1,8 +1,8 @@
 from .base import (
-    AnswerEntry,
-    ConversationDataset,
-    ConversationHistory,
-    ConversationHistoryItem,
-    DecontextualizedItem,
-    EntryType,
+    AnswerEntry as AnswerEntry,
+    ConversationDataset as ConversationDataset,
+    ConversationHistory as ConversationHistory,
+    ConversationHistoryItem as ConversationHistoryItem,
+    DecontextualizedItem as DecontextualizedItem,
+    EntryType as EntryType,
 )

datamaestro_text/data/conversation/base.py CHANGED Viewed

@@ -2,13 +2,13 @@ from abc import ABC, abstractmethod
 from enum import Enum
 from datamaestro_text.data.ir.base import IDItem, SimpleTextItem
 from experimaestro import Param
-from typing import Dict, Generic, Iterator, List, Optional, Sequence, Tuple
+from typing import Dict, Iterator, List, Optional, Sequence, Tuple
 from attr import define
 from datamaestro.record import record_type
 from datamaestro.data import Base
 from datamaestro.record import Record, Item
 from datamaestro_text.data.ir import TopicRecord, Topics
-from datamaestro_text.utils.iter import FactoryIterable, LazyList, RangeView
+from datamaestro_text.utils.iter import FactoryIterable, LazyList
 # ---- Basic types

datamaestro-text 2026.1.1__py3-none-any.whl → 2026.2.3__py3-none-any.whl

datamaestro-text 2026.1.1py3-none-any.whl → 2026.2.3py3-none-any.whl