npm - @huggingface/tasks - Versions diffs - 0.3.0 → 0.3.1 - Mend

@huggingface/tasks 0.3.0 → 0.3.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/dist/index.cjs CHANGED Viewed

@@ -942,7 +942,7 @@ var PIPELINE_DATA = {
   },
   "feature-extraction": {
     name: "Feature Extraction",
-    modality: "multimodal",
+    modality: "nlp",
     color: "red"
   },
   "text-generation": {
@@ -1123,7 +1123,7 @@ var PIPELINE_DATA = {
   },
   "text-to-image": {
     name: "Text-to-Image",
-    modality: "multimodal",
+    modality: "cv",
     color: "yellow"
   },
   "image-to-text": {
@@ -1134,7 +1134,7 @@ var PIPELINE_DATA = {
         name: "Image Captioning"
       }
     ],
-    modality: "multimodal",
+    modality: "cv",
     color: "red"
   },
   "image-to-image": {
@@ -1158,7 +1158,7 @@ var PIPELINE_DATA = {
   },
   "image-to-video": {
     name: "Image-to-Video",
-    modality: "multimodal",
+    modality: "cv",
     color: "indigo"
   },
   "unconditional-image-generation": {
@@ -1293,9 +1293,15 @@ var PIPELINE_DATA = {
   },
   "text-to-video": {
     name: "Text-to-Video",
-    modality: "multimodal",
+    modality: "cv",
     color: "green"
   },
+  "image-text-to-text": {
+    name: "Image + Text to Image (VLLMs)",
+    modality: "multimodal",
+    color: "red",
+    hideInDatasets: true
+  },
   "visual-question-answering": {
     name: "Visual Question Answering",
     subtasks: [
@@ -1326,7 +1332,7 @@ var PIPELINE_DATA = {
   },
   "graph-ml": {
     name: "Graph Machine Learning",
-    modality: "multimodal",
+    modality: "other",
     color: "green"
   },
   "mask-generation": {
@@ -1341,12 +1347,12 @@ var PIPELINE_DATA = {
   },
   "text-to-3d": {
     name: "Text-to-3D",
-    modality: "multimodal",
+    modality: "cv",
     color: "yellow"
   },
   "image-to-3d": {
     name: "Image-to-3D",
-    modality: "multimodal",
+    modality: "cv",
     color: "green"
   },
   other: {
@@ -3908,6 +3914,7 @@ var TASKS_MODEL_LIBRARIES = {
   "graph-ml": ["transformers"],
   "image-classification": ["keras", "timm", "transformers", "transformers.js"],
   "image-segmentation": ["transformers", "transformers.js"],
+  "image-text-to-text": ["transformers"],
   "image-to-image": ["diffusers", "transformers", "transformers.js"],
   "image-to-text": ["transformers", "transformers.js"],
   "image-to-video": ["diffusers"],
@@ -3974,6 +3981,7 @@ var TASKS_DATA = {
   "graph-ml": void 0,
   "image-classification": getData("image-classification", data_default8),
   "image-segmentation": getData("image-segmentation", data_default11),
+  "image-text-to-text": void 0,
   "image-to-image": getData("image-to-image", data_default9),
   "image-to-text": getData("image-to-text", data_default10),
   "image-to-video": void 0,

package/dist/index.d.ts CHANGED Viewed

@@ -115,7 +115,7 @@ declare const PIPELINE_DATA: {
     };
     "feature-extraction": {
         name: string;
-        modality: "multimodal";
+        modality: "nlp";
         color: "red";
     };
     "text-generation": {
@@ -218,7 +218,7 @@ declare const PIPELINE_DATA: {
     };
     "text-to-image": {
         name: string;
-        modality: "multimodal";
+        modality: "cv";
         color: "yellow";
     };
     "image-to-text": {
@@ -227,7 +227,7 @@ declare const PIPELINE_DATA: {
             type: string;
             name: string;
         }[];
-        modality: "multimodal";
+        modality: "cv";
         color: "red";
     };
     "image-to-image": {
@@ -241,7 +241,7 @@ declare const PIPELINE_DATA: {
     };
     "image-to-video": {
         name: string;
-        modality: "multimodal";
+        modality: "cv";
         color: "indigo";
     };
     "unconditional-image-generation": {
@@ -334,9 +334,15 @@ declare const PIPELINE_DATA: {
     };
     "text-to-video": {
         name: string;
-        modality: "multimodal";
+        modality: "cv";
         color: "green";
     };
+    "image-text-to-text": {
+        name: string;
+        modality: "multimodal";
+        color: "red";
+        hideInDatasets: true;
+    };
     "visual-question-answering": {
         name: string;
         subtasks: {
@@ -363,7 +369,7 @@ declare const PIPELINE_DATA: {
     };
     "graph-ml": {
         name: string;
-        modality: "multimodal";
+        modality: "other";
         color: "green";
     };
     "mask-generation": {
@@ -378,12 +384,12 @@ declare const PIPELINE_DATA: {
     };
     "text-to-3d": {
         name: string;
-        modality: "multimodal";
+        modality: "cv";
         color: "yellow";
     };
     "image-to-3d": {
         name: string;
-        modality: "multimodal";
+        modality: "cv";
         color: "green";
     };
     other: {
@@ -395,9 +401,9 @@ declare const PIPELINE_DATA: {
     };
 };
 type PipelineType = keyof typeof PIPELINE_DATA;
-declare const PIPELINE_TYPES: ("other" | "text-classification" | "token-classification" | "table-question-answering" | "question-answering" | "zero-shot-classification" | "translation" | "summarization" | "conversational" | "feature-extraction" | "text-generation" | "text2text-generation" | "fill-mask" | "sentence-similarity" | "text-to-speech" | "text-to-audio" | "automatic-speech-recognition" | "audio-to-audio" | "audio-classification" | "voice-activity-detection" | "depth-estimation" | "image-classification" | "object-detection" | "image-segmentation" | "text-to-image" | "image-to-text" | "image-to-image" | "image-to-video" | "unconditional-image-generation" | "video-classification" | "reinforcement-learning" | "robotics" | "tabular-classification" | "tabular-regression" | "tabular-to-text" | "table-to-text" | "multiple-choice" | "text-retrieval" | "time-series-forecasting" | "text-to-video" | "visual-question-answering" | "document-question-answering" | "zero-shot-image-classification" | "graph-ml" | "mask-generation" | "zero-shot-object-detection" | "text-to-3d" | "image-to-3d")[];
+declare const PIPELINE_TYPES: ("other" | "text-classification" | "token-classification" | "table-question-answering" | "question-answering" | "zero-shot-classification" | "translation" | "summarization" | "conversational" | "feature-extraction" | "text-generation" | "text2text-generation" | "fill-mask" | "sentence-similarity" | "text-to-speech" | "text-to-audio" | "automatic-speech-recognition" | "audio-to-audio" | "audio-classification" | "voice-activity-detection" | "depth-estimation" | "image-classification" | "object-detection" | "image-segmentation" | "text-to-image" | "image-to-text" | "image-to-image" | "image-to-video" | "unconditional-image-generation" | "video-classification" | "reinforcement-learning" | "robotics" | "tabular-classification" | "tabular-regression" | "tabular-to-text" | "table-to-text" | "multiple-choice" | "text-retrieval" | "time-series-forecasting" | "text-to-video" | "image-text-to-text" | "visual-question-answering" | "document-question-answering" | "zero-shot-image-classification" | "graph-ml" | "mask-generation" | "zero-shot-object-detection" | "text-to-3d" | "image-to-3d")[];
 declare const SUBTASK_TYPES: string[];
-declare const PIPELINE_TYPES_SET: Set<"other" | "text-classification" | "token-classification" | "table-question-answering" | "question-answering" | "zero-shot-classification" | "translation" | "summarization" | "conversational" | "feature-extraction" | "text-generation" | "text2text-generation" | "fill-mask" | "sentence-similarity" | "text-to-speech" | "text-to-audio" | "automatic-speech-recognition" | "audio-to-audio" | "audio-classification" | "voice-activity-detection" | "depth-estimation" | "image-classification" | "object-detection" | "image-segmentation" | "text-to-image" | "image-to-text" | "image-to-image" | "image-to-video" | "unconditional-image-generation" | "video-classification" | "reinforcement-learning" | "robotics" | "tabular-classification" | "tabular-regression" | "tabular-to-text" | "table-to-text" | "multiple-choice" | "text-retrieval" | "time-series-forecasting" | "text-to-video" | "visual-question-answering" | "document-question-answering" | "zero-shot-image-classification" | "graph-ml" | "mask-generation" | "zero-shot-object-detection" | "text-to-3d" | "image-to-3d">;
+declare const PIPELINE_TYPES_SET: Set<"other" | "text-classification" | "token-classification" | "table-question-answering" | "question-answering" | "zero-shot-classification" | "translation" | "summarization" | "conversational" | "feature-extraction" | "text-generation" | "text2text-generation" | "fill-mask" | "sentence-similarity" | "text-to-speech" | "text-to-audio" | "automatic-speech-recognition" | "audio-to-audio" | "audio-classification" | "voice-activity-detection" | "depth-estimation" | "image-classification" | "object-detection" | "image-segmentation" | "text-to-image" | "image-to-text" | "image-to-image" | "image-to-video" | "unconditional-image-generation" | "video-classification" | "reinforcement-learning" | "robotics" | "tabular-classification" | "tabular-regression" | "tabular-to-text" | "table-to-text" | "multiple-choice" | "text-retrieval" | "time-series-forecasting" | "text-to-video" | "image-text-to-text" | "visual-question-answering" | "document-question-answering" | "zero-shot-image-classification" | "graph-ml" | "mask-generation" | "zero-shot-object-detection" | "text-to-3d" | "image-to-3d">;
 /**
  * See default-widget-inputs.ts for the default widget inputs, this files only contains the types

package/dist/index.js CHANGED Viewed

@@ -908,7 +908,7 @@ var PIPELINE_DATA = {
   },
   "feature-extraction": {
     name: "Feature Extraction",
-    modality: "multimodal",
+    modality: "nlp",
     color: "red"
   },
   "text-generation": {
@@ -1089,7 +1089,7 @@ var PIPELINE_DATA = {
   },
   "text-to-image": {
     name: "Text-to-Image",
-    modality: "multimodal",
+    modality: "cv",
     color: "yellow"
   },
   "image-to-text": {
@@ -1100,7 +1100,7 @@ var PIPELINE_DATA = {
         name: "Image Captioning"
       }
     ],
-    modality: "multimodal",
+    modality: "cv",
     color: "red"
   },
   "image-to-image": {
@@ -1124,7 +1124,7 @@ var PIPELINE_DATA = {
   },
   "image-to-video": {
     name: "Image-to-Video",
-    modality: "multimodal",
+    modality: "cv",
     color: "indigo"
   },
   "unconditional-image-generation": {
@@ -1259,9 +1259,15 @@ var PIPELINE_DATA = {
   },
   "text-to-video": {
     name: "Text-to-Video",
-    modality: "multimodal",
+    modality: "cv",
     color: "green"
   },
+  "image-text-to-text": {
+    name: "Image + Text to Image (VLLMs)",
+    modality: "multimodal",
+    color: "red",
+    hideInDatasets: true
+  },
   "visual-question-answering": {
     name: "Visual Question Answering",
     subtasks: [
@@ -1292,7 +1298,7 @@ var PIPELINE_DATA = {
   },
   "graph-ml": {
     name: "Graph Machine Learning",
-    modality: "multimodal",
+    modality: "other",
     color: "green"
   },
   "mask-generation": {
@@ -1307,12 +1313,12 @@ var PIPELINE_DATA = {
   },
   "text-to-3d": {
     name: "Text-to-3D",
-    modality: "multimodal",
+    modality: "cv",
     color: "yellow"
   },
   "image-to-3d": {
     name: "Image-to-3D",
-    modality: "multimodal",
+    modality: "cv",
     color: "green"
   },
   other: {
@@ -3874,6 +3880,7 @@ var TASKS_MODEL_LIBRARIES = {
   "graph-ml": ["transformers"],
   "image-classification": ["keras", "timm", "transformers", "transformers.js"],
   "image-segmentation": ["transformers", "transformers.js"],
+  "image-text-to-text": ["transformers"],
   "image-to-image": ["diffusers", "transformers", "transformers.js"],
   "image-to-text": ["transformers", "transformers.js"],
   "image-to-video": ["diffusers"],
@@ -3940,6 +3947,7 @@ var TASKS_DATA = {
   "graph-ml": void 0,
   "image-classification": getData("image-classification", data_default8),
   "image-segmentation": getData("image-segmentation", data_default11),
+  "image-text-to-text": void 0,
   "image-to-image": getData("image-to-image", data_default9),
   "image-to-text": getData("image-to-text", data_default10),
   "image-to-video": void 0,

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "name": "@huggingface/tasks",
   "packageManager": "pnpm@8.10.5",
-  "version": "0.3.0",
+  "version": "0.3.1",
   "description": "List of ML tasks for huggingface.co/tasks",
   "repository": "https://github.com/huggingface/huggingface.js.git",
   "publishConfig": {

package/src/pipelines.ts CHANGED Viewed

@@ -238,7 +238,7 @@ export const PIPELINE_DATA = {
 	},
 	"feature-extraction": {
 		name: "Feature Extraction",
-		modality: "multimodal",
+		modality: "nlp",
 		color: "red",
 	},
 	"text-generation": {
@@ -419,7 +419,7 @@ export const PIPELINE_DATA = {
 	},
 	"text-to-image": {
 		name: "Text-to-Image",
-		modality: "multimodal",
+		modality: "cv",
 		color: "yellow",
 	},
 	"image-to-text": {
@@ -430,7 +430,7 @@ export const PIPELINE_DATA = {
 				name: "Image Captioning",
 			},
 		],
-		modality: "multimodal",
+		modality: "cv",
 		color: "red",
 	},
 	"image-to-image": {
@@ -454,7 +454,7 @@ export const PIPELINE_DATA = {
 	},
 	"image-to-video": {
 		name: "Image-to-Video",
-		modality: "multimodal",
+		modality: "cv",
 		color: "indigo",
 	},
 	"unconditional-image-generation": {
@@ -589,9 +589,15 @@ export const PIPELINE_DATA = {
 	},
 	"text-to-video": {
 		name: "Text-to-Video",
-		modality: "multimodal",
+		modality: "cv",
 		color: "green",
 	},
+	"image-text-to-text": {
+		name: "Image + Text to Image (VLLMs)",
+		modality: "multimodal",
+		color: "red",
+		hideInDatasets: true,
+	},
 	"visual-question-answering": {
 		name: "Visual Question Answering",
 		subtasks: [
@@ -622,7 +628,7 @@ export const PIPELINE_DATA = {
 	},
 	"graph-ml": {
 		name: "Graph Machine Learning",
-		modality: "multimodal",
+		modality: "other",
 		color: "green",
 	},
 	"mask-generation": {
@@ -637,12 +643,12 @@ export const PIPELINE_DATA = {
 	},
 	"text-to-3d": {
 		name: "Text-to-3D",
-		modality: "multimodal",
+		modality: "cv",
 		color: "yellow",
 	},
 	"image-to-3d": {
 		name: "Image-to-3D",
-		modality: "multimodal",
+		modality: "cv",
 		color: "green",
 	},
 	other: {

package/src/tasks/index.ts CHANGED Viewed

@@ -53,6 +53,7 @@ export const TASKS_MODEL_LIBRARIES: Record<PipelineType, ModelLibraryKey[]> = {
 	"graph-ml": ["transformers"],
 	"image-classification": ["keras", "timm", "transformers", "transformers.js"],
 	"image-segmentation": ["transformers", "transformers.js"],
+	"image-text-to-text": ["transformers"],
 	"image-to-image": ["diffusers", "transformers", "transformers.js"],
 	"image-to-text": ["transformers", "transformers.js"],
 	"image-to-video": ["diffusers"],
@@ -130,6 +131,7 @@ export const TASKS_DATA: Record<PipelineType, TaskData | undefined> = {
 	"graph-ml": undefined,
 	"image-classification": getData("image-classification", imageClassification),
 	"image-segmentation": getData("image-segmentation", imageSegmentation),
+	"image-text-to-text": undefined,
 	"image-to-image": getData("image-to-image", imageToImage),
 	"image-to-text": getData("image-to-text", imageToText),
 	"image-to-video": undefined,