npm - @huggingface/tasks - Versions diffs - 0.3.0 → 0.3.2 - Mend

@huggingface/tasks 0.3.0 → 0.3.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

package/dist/index.cjs +141 -186
package/dist/index.d.ts +40 -21
package/dist/index.js +140 -186
package/package.json +1 -1
package/src/default-widget-inputs.ts +2 -2
package/src/index.ts +3 -0
package/src/library-to-tasks.ts +1 -1
package/src/model-data.ts +2 -0
package/src/pipelines.ts +29 -19
package/src/snippets/curl.ts +0 -1
package/src/snippets/inputs.ts +0 -8
package/src/snippets/js.ts +0 -1
package/src/snippets/python.ts +0 -1
package/src/tasks/index.ts +6 -4
package/src/tokenizer-data.ts +24 -0
package/src/tasks/conversational/about.md +0 -50
package/src/tasks/conversational/data.ts +0 -66

package/dist/index.cjs CHANGED Viewed

@@ -31,6 +31,7 @@ __export(src_exports, {
   PIPELINE_DATA: () => PIPELINE_DATA,
   PIPELINE_TYPES: () => PIPELINE_TYPES,
   PIPELINE_TYPES_SET: () => PIPELINE_TYPES_SET,
+  SPECIAL_TOKENS_ATTRIBUTES: () => SPECIAL_TOKENS_ATTRIBUTES,
   SUBTASK_TYPES: () => SUBTASK_TYPES,
   TASKS_DATA: () => TASKS_DATA,
   TASKS_MODEL_LIBRARIES: () => TASKS_MODEL_LIBRARIES,
@@ -58,7 +59,7 @@ var LIBRARY_TASK_MAPPING_EXCLUDING_TRANSFORMERS = {
   keras: ["image-classification"],
   nemo: ["automatic-speech-recognition"],
   open_clip: ["zero-shot-classification", "zero-shot-image-classification"],
-  paddlenlp: ["conversational", "fill-mask", "summarization", "zero-shot-classification"],
+  paddlenlp: ["fill-mask", "summarization", "zero-shot-classification"],
   peft: ["text-generation"],
   "pyannote-audio": ["automatic-speech-recognition"],
   "sentence-transformers": ["feature-extraction", "sentence-similarity"],
@@ -929,20 +930,9 @@ var PIPELINE_DATA = {
     modality: "nlp",
     color: "indigo"
   },
-  conversational: {
-    name: "Conversational",
-    subtasks: [
-      {
-        type: "dialogue-generation",
-        name: "Dialogue Generation"
-      }
-    ],
-    modality: "nlp",
-    color: "green"
-  },
   "feature-extraction": {
     name: "Feature Extraction",
-    modality: "multimodal",
+    modality: "nlp",
     color: "red"
   },
   "text-generation": {
@@ -952,6 +942,14 @@ var PIPELINE_DATA = {
         type: "dialogue-modeling",
         name: "Dialogue Modeling"
       },
+      {
+        type: "dialogue-generation",
+        name: "Dialogue Generation"
+      },
+      {
+        type: "conversational",
+        name: "Conversational"
+      },
       {
         type: "language-modeling",
         name: "Language Modeling"
@@ -1123,7 +1121,7 @@ var PIPELINE_DATA = {
   },
   "text-to-image": {
     name: "Text-to-Image",
-    modality: "multimodal",
+    modality: "cv",
     color: "yellow"
   },
   "image-to-text": {
@@ -1134,7 +1132,7 @@ var PIPELINE_DATA = {
         name: "Image Captioning"
       }
     ],
-    modality: "multimodal",
+    modality: "cv",
     color: "red"
   },
   "image-to-image": {
@@ -1158,7 +1156,7 @@ var PIPELINE_DATA = {
   },
   "image-to-video": {
     name: "Image-to-Video",
-    modality: "multimodal",
+    modality: "cv",
     color: "indigo"
   },
   "unconditional-image-generation": {
@@ -1293,9 +1291,15 @@ var PIPELINE_DATA = {
   },
   "text-to-video": {
     name: "Text-to-Video",
-    modality: "multimodal",
+    modality: "cv",
     color: "green"
   },
+  "image-text-to-text": {
+    name: "Image + Text to Text (VLLMs)",
+    modality: "multimodal",
+    color: "red",
+    hideInDatasets: true
+  },
   "visual-question-answering": {
     name: "Visual Question Answering",
     subtasks: [
@@ -1326,7 +1330,7 @@ var PIPELINE_DATA = {
   },
   "graph-ml": {
     name: "Graph Machine Learning",
-    modality: "multimodal",
+    modality: "other",
     color: "green"
   },
   "mask-generation": {
@@ -1341,14 +1345,19 @@ var PIPELINE_DATA = {
   },
   "text-to-3d": {
     name: "Text-to-3D",
-    modality: "multimodal",
+    modality: "cv",
     color: "yellow"
   },
   "image-to-3d": {
     name: "Image-to-3D",
-    modality: "multimodal",
+    modality: "cv",
     color: "green"
   },
+  "image-feature-extraction": {
+    name: "Image Feature Extraction",
+    modality: "cv",
+    color: "indigo"
+  },
   other: {
     name: "Other",
     modality: "other",
@@ -1574,68 +1583,8 @@ var taskData3 = {
 };
 var data_default3 = taskData3;
-// src/tasks/conversational/data.ts
-var taskData4 = {
-  datasets: [
-    {
-      description: "A dataset of 7k conversations explicitly designed to exhibit multiple conversation modes: displaying personality, having empathy, and demonstrating knowledge.",
-      id: "blended_skill_talk"
-    },
-    {
-      description: "ConvAI is a dataset of human-to-bot conversations labeled for quality. This data can be used to train a metric for evaluating dialogue systems",
-      id: "conv_ai_2"
-    },
-    {
-      description: "EmpatheticDialogues, is a dataset of 25k conversations grounded in emotional situations",
-      id: "empathetic_dialogues"
-    }
-  ],
-  demo: {
-    inputs: [
-      {
-        label: "Input",
-        content: "Hey my name is Julien! How are you?",
-        type: "text"
-      }
-    ],
-    outputs: [
-      {
-        label: "Answer",
-        content: "Hi Julien! My name is Julia! I am well.",
-        type: "text"
-      }
-    ]
-  },
-  metrics: [
-    {
-      description: "BLEU score is calculated by counting the number of shared single or subsequent tokens between the generated sequence and the reference. Subsequent n tokens are called \u201Cn-grams\u201D. Unigram refers to a single token while bi-gram refers to token pairs and n-grams refer to n subsequent tokens. The score ranges from 0 to 1, where 1 means the translation perfectly matched and 0 did not match at all",
-      id: "bleu"
-    }
-  ],
-  models: [
-    {
-      description: "A faster and smaller model than the famous BERT model.",
-      id: "facebook/blenderbot-400M-distill"
-    },
-    {
-      description: "DialoGPT is a large-scale pretrained dialogue response generation model for multiturn conversations.",
-      id: "microsoft/DialoGPT-large"
-    }
-  ],
-  spaces: [
-    {
-      description: "A chatbot based on Blender model.",
-      id: "EXFINITE/BlenderBot-UI"
-    }
-  ],
-  summary: "Conversational response modelling is the task of generating conversational text that is relevant, coherent and knowledgable given a prompt. These models have applications in chatbots, and as a part of voice assistants",
-  widgetModels: ["facebook/blenderbot-400M-distill"],
-  youtubeId: ""
-};
-var data_default4 = taskData4;
 // src/tasks/document-question-answering/data.ts
-var taskData5 = {
+var taskData4 = {
   datasets: [
     {
       // TODO write proper description
@@ -1705,10 +1654,10 @@ var taskData5 = {
   widgetModels: ["impira/layoutlm-document-qa"],
   youtubeId: ""
 };
-var data_default5 = taskData5;
+var data_default4 = taskData4;
 // src/tasks/feature-extraction/data.ts
-var taskData6 = {
+var taskData5 = {
   datasets: [
     {
       description: "Wikipedia dataset containing cleaned articles of all languages. Can be used to train `feature-extraction` models.",
@@ -1751,10 +1700,10 @@ var taskData6 = {
   summary: "Feature extraction refers to the process of transforming raw data into numerical features that can be processed while preserving the information in the original dataset.",
   widgetModels: ["facebook/bart-base"]
 };
-var data_default6 = taskData6;
+var data_default5 = taskData5;
 // src/tasks/fill-mask/data.ts
-var taskData7 = {
+var taskData6 = {
   datasets: [
     {
       description: "A common dataset that is used to train models for many languages.",
@@ -1826,10 +1775,10 @@ var taskData7 = {
   widgetModels: ["distilroberta-base"],
   youtubeId: "mqElG5QJWUg"
 };
-var data_default7 = taskData7;
+var data_default6 = taskData6;
 // src/tasks/image-classification/data.ts
-var taskData8 = {
+var taskData7 = {
   datasets: [
     {
       // TODO write proper description
@@ -1912,10 +1861,10 @@ var taskData8 = {
   widgetModels: ["google/vit-base-patch16-224"],
   youtubeId: "tjAIM7BOYhw"
 };
-var data_default8 = taskData8;
+var data_default7 = taskData7;
 // src/tasks/image-to-image/data.ts
-var taskData9 = {
+var taskData8 = {
   datasets: [
     {
       description: "Synthetic dataset, for image relighting",
@@ -2007,10 +1956,10 @@ var taskData9 = {
   widgetModels: ["lllyasviel/sd-controlnet-canny"],
   youtubeId: ""
 };
-var data_default9 = taskData9;
+var data_default8 = taskData8;
 // src/tasks/image-to-text/data.ts
-var taskData10 = {
+var taskData9 = {
   datasets: [
     {
       // TODO write proper description
@@ -2087,10 +2036,10 @@ var taskData10 = {
   widgetModels: ["Salesforce/blip-image-captioning-base"],
   youtubeId: ""
 };
-var data_default10 = taskData10;
+var data_default9 = taskData9;
 // src/tasks/image-segmentation/data.ts
-var taskData11 = {
+var taskData10 = {
   datasets: [
     {
       description: "Scene segmentation dataset.",
@@ -2182,10 +2131,10 @@ var taskData11 = {
   widgetModels: ["facebook/detr-resnet-50-panoptic"],
   youtubeId: "dKE8SIt9C-w"
 };
-var data_default11 = taskData11;
+var data_default10 = taskData10;
 // src/tasks/mask-generation/data.ts
-var taskData12 = {
+var taskData11 = {
   datasets: [],
   demo: {
     inputs: [
@@ -2234,10 +2183,10 @@ var taskData12 = {
   widgetModels: [],
   youtubeId: ""
 };
-var data_default12 = taskData12;
+var data_default11 = taskData11;
 // src/tasks/object-detection/data.ts
-var taskData13 = {
+var taskData12 = {
   datasets: [
     {
       // TODO write proper description
@@ -2309,10 +2258,10 @@ var taskData13 = {
   widgetModels: ["facebook/detr-resnet-50"],
   youtubeId: "WdAeKSOpxhw"
 };
-var data_default13 = taskData13;
+var data_default12 = taskData12;
 // src/tasks/depth-estimation/data.ts
-var taskData14 = {
+var taskData13 = {
   datasets: [
     {
       description: "NYU Depth V2 Dataset: Video dataset containing both RGB and depth sensor data",
@@ -2366,10 +2315,10 @@ var taskData14 = {
   widgetModels: [""],
   youtubeId: ""
 };
-var data_default14 = taskData14;
+var data_default13 = taskData13;
 // src/tasks/placeholder/data.ts
-var taskData15 = {
+var taskData14 = {
   datasets: [],
   demo: {
     inputs: [],
@@ -2386,10 +2335,10 @@ var taskData15 = {
   /// (eg, text2text-generation is the canonical ID of translation)
   canonicalId: void 0
 };
-var data_default15 = taskData15;
+var data_default14 = taskData14;
 // src/tasks/reinforcement-learning/data.ts
-var taskData16 = {
+var taskData15 = {
   datasets: [
     {
       description: "A curation of widely used datasets for Data Driven Deep Reinforcement Learning (D4RL)",
@@ -2455,10 +2404,10 @@ var taskData16 = {
   widgetModels: [],
   youtubeId: "q0BiUn5LiBc"
 };
-var data_default16 = taskData16;
+var data_default15 = taskData15;
 // src/tasks/question-answering/data.ts
-var taskData17 = {
+var taskData16 = {
   datasets: [
     {
       // TODO write proper description
@@ -2522,10 +2471,10 @@ var taskData17 = {
   widgetModels: ["deepset/roberta-base-squad2"],
   youtubeId: "ajPx5LwJD-I"
 };
-var data_default17 = taskData17;
+var data_default16 = taskData16;
 // src/tasks/sentence-similarity/data.ts
-var taskData18 = {
+var taskData17 = {
   datasets: [
     {
       description: "Bing queries with relevant passages from various web sources.",
@@ -2617,10 +2566,10 @@ var taskData18 = {
   widgetModels: ["sentence-transformers/all-MiniLM-L6-v2"],
   youtubeId: "VCZq5AkbNEU"
 };
-var data_default18 = taskData18;
+var data_default17 = taskData17;
 // src/tasks/summarization/data.ts
-var taskData19 = {
+var taskData18 = {
   canonicalId: "text2text-generation",
   datasets: [
     {
@@ -2686,10 +2635,10 @@ var taskData19 = {
   widgetModels: ["sshleifer/distilbart-cnn-12-6"],
   youtubeId: "yHnr5Dk2zCI"
 };
-var data_default19 = taskData19;
+var data_default18 = taskData18;
 // src/tasks/table-question-answering/data.ts
-var taskData20 = {
+var taskData19 = {
   datasets: [
     {
       description: "The WikiTableQuestions dataset is a large-scale dataset for the task of question answering on semi-structured tables.",
@@ -2740,10 +2689,10 @@ var taskData20 = {
   summary: "Table Question Answering (Table QA) is the answering a question about an information on a given table.",
   widgetModels: ["google/tapas-base-finetuned-wtq"]
 };
-var data_default20 = taskData20;
+var data_default19 = taskData19;
 // src/tasks/tabular-classification/data.ts
-var taskData21 = {
+var taskData20 = {
   datasets: [
     {
       description: "A comprehensive curation of datasets covering all benchmarks.",
@@ -2807,10 +2756,10 @@ var taskData21 = {
   widgetModels: ["scikit-learn/tabular-playground"],
   youtubeId: ""
 };
-var data_default21 = taskData21;
+var data_default20 = taskData20;
 // src/tasks/tabular-regression/data.ts
-var taskData22 = {
+var taskData21 = {
   datasets: [
     {
       description: "A comprehensive curation of datasets covering all benchmarks.",
@@ -2862,10 +2811,10 @@ var taskData22 = {
   widgetModels: ["scikit-learn/Fish-Weight"],
   youtubeId: ""
 };
-var data_default22 = taskData22;
+var data_default21 = taskData21;
 // src/tasks/text-to-image/data.ts
-var taskData23 = {
+var taskData22 = {
   datasets: [
     {
       description: "RedCaps is a large-scale dataset of 12M image-text pairs collected from Reddit.",
@@ -2957,10 +2906,10 @@ var taskData23 = {
   widgetModels: ["CompVis/stable-diffusion-v1-4"],
   youtubeId: ""
 };
-var data_default23 = taskData23;
+var data_default22 = taskData22;
 // src/tasks/text-to-speech/data.ts
-var taskData24 = {
+var taskData23 = {
   canonicalId: "text-to-audio",
   datasets: [
     {
@@ -3025,10 +2974,10 @@ var taskData24 = {
   widgetModels: ["suno/bark"],
   youtubeId: "NW62DpzJ274"
 };
-var data_default24 = taskData24;
+var data_default23 = taskData23;
 // src/tasks/token-classification/data.ts
-var taskData25 = {
+var taskData24 = {
   datasets: [
     {
       description: "A widely used dataset useful to benchmark named entity recognition models.",
@@ -3104,10 +3053,10 @@ var taskData25 = {
   widgetModels: ["dslim/bert-base-NER"],
   youtubeId: "wVHdVlPScxA"
 };
-var data_default25 = taskData25;
+var data_default24 = taskData24;
 // src/tasks/translation/data.ts
-var taskData26 = {
+var taskData25 = {
   canonicalId: "text2text-generation",
   datasets: [
     {
@@ -3169,10 +3118,10 @@ var taskData26 = {
   widgetModels: ["t5-small"],
   youtubeId: "1JvfrvZgi6c"
 };
-var data_default26 = taskData26;
+var data_default25 = taskData25;
 // src/tasks/text-classification/data.ts
-var taskData27 = {
+var taskData26 = {
   datasets: [
     {
       description: "A widely used dataset used to benchmark multiple variants of text classification.",
@@ -3257,10 +3206,10 @@ var taskData27 = {
   widgetModels: ["distilbert-base-uncased-finetuned-sst-2-english"],
   youtubeId: "leNG9fN9FQU"
 };
-var data_default27 = taskData27;
+var data_default26 = taskData26;
 // src/tasks/text-generation/data.ts
-var taskData28 = {
+var taskData27 = {
   datasets: [
     {
       description: "A large multilingual dataset of text crawled from the web.",
@@ -3361,10 +3310,10 @@ var taskData28 = {
   widgetModels: ["HuggingFaceH4/zephyr-7b-beta"],
   youtubeId: "Vpjb1lu0MDk"
 };
-var data_default28 = taskData28;
+var data_default27 = taskData27;
 // src/tasks/text-to-video/data.ts
-var taskData29 = {
+var taskData28 = {
   datasets: [
     {
       description: "Microsoft Research Video to Text is a large-scale dataset for open domain video captioning",
@@ -3456,10 +3405,10 @@ var taskData29 = {
   widgetModels: [],
   youtubeId: void 0
 };
-var data_default29 = taskData29;
+var data_default28 = taskData28;
 // src/tasks/unconditional-image-generation/data.ts
-var taskData30 = {
+var taskData29 = {
   datasets: [
     {
       description: "The CIFAR-100 dataset consists of 60000 32x32 colour images in 100 classes, with 600 images per class.",
@@ -3521,10 +3470,10 @@ var taskData30 = {
   // TODO: Add related video
   youtubeId: ""
 };
-var data_default30 = taskData30;
+var data_default29 = taskData29;
 // src/tasks/video-classification/data.ts
-var taskData31 = {
+var taskData30 = {
   datasets: [
     {
       // TODO write proper description
@@ -3603,10 +3552,10 @@ var taskData31 = {
   widgetModels: [],
   youtubeId: ""
 };
-var data_default31 = taskData31;
+var data_default30 = taskData30;
 // src/tasks/visual-question-answering/data.ts
-var taskData32 = {
+var taskData31 = {
   datasets: [
     {
       description: "A widely used dataset containing questions (with answers) about images.",
@@ -3696,10 +3645,10 @@ var taskData32 = {
   widgetModels: ["dandelin/vilt-b32-finetuned-vqa"],
   youtubeId: ""
 };
-var data_default32 = taskData32;
+var data_default31 = taskData31;
 // src/tasks/zero-shot-classification/data.ts
-var taskData33 = {
+var taskData32 = {
   datasets: [
     {
       description: "A widely used dataset used to benchmark multiple variants of text classification.",
@@ -3758,10 +3707,10 @@ var taskData33 = {
   summary: "Zero-shot text classification is a task in natural language processing where a model is trained on a set of labeled examples but is then able to classify new examples from previously unseen classes.",
   widgetModels: ["facebook/bart-large-mnli"]
 };
-var data_default33 = taskData33;
+var data_default32 = taskData32;
 // src/tasks/zero-shot-image-classification/data.ts
-var taskData34 = {
+var taskData33 = {
   datasets: [
     {
       // TODO write proper description
@@ -3835,10 +3784,10 @@ var taskData34 = {
   widgetModels: ["openai/clip-vit-large-patch14-336"],
   youtubeId: ""
 };
-var data_default34 = taskData34;
+var data_default33 = taskData33;
 // src/tasks/zero-shot-object-detection/data.ts
-var taskData35 = {
+var taskData34 = {
   datasets: [],
   demo: {
     inputs: [
@@ -3893,21 +3842,22 @@ var taskData35 = {
   widgetModels: [],
   youtubeId: ""
 };
-var data_default35 = taskData35;
+var data_default34 = taskData34;
 // src/tasks/index.ts
 var TASKS_MODEL_LIBRARIES = {
   "audio-classification": ["speechbrain", "transformers", "transformers.js"],
   "audio-to-audio": ["asteroid", "speechbrain"],
   "automatic-speech-recognition": ["espnet", "nemo", "speechbrain", "transformers", "transformers.js"],
-  conversational: ["transformers"],
   "depth-estimation": ["transformers", "transformers.js"],
   "document-question-answering": ["transformers", "transformers.js"],
   "feature-extraction": ["sentence-transformers", "transformers", "transformers.js"],
   "fill-mask": ["transformers", "transformers.js"],
   "graph-ml": ["transformers"],
   "image-classification": ["keras", "timm", "transformers", "transformers.js"],
+  "image-feature-extraction": ["timm", "transformers"],
   "image-segmentation": ["transformers", "transformers.js"],
+  "image-text-to-text": ["transformers"],
   "image-to-image": ["diffusers", "transformers", "transformers.js"],
   "image-to-text": ["transformers", "transformers.js"],
   "image-to-video": ["diffusers"],
@@ -3954,7 +3904,7 @@ var TASKS_MODEL_LIBRARIES = {
   "text-to-3d": [],
   "image-to-3d": []
 };
-function getData(type, partialTaskData = data_default15) {
+function getData(type, partialTaskData = data_default14) {
   return {
     ...partialTaskData,
     id: type,
@@ -3966,51 +3916,52 @@ var TASKS_DATA = {
   "audio-classification": getData("audio-classification", data_default),
   "audio-to-audio": getData("audio-to-audio", data_default2),
   "automatic-speech-recognition": getData("automatic-speech-recognition", data_default3),
-  conversational: getData("conversational", data_default4),
-  "depth-estimation": getData("depth-estimation", data_default14),
-  "document-question-answering": getData("document-question-answering", data_default5),
-  "feature-extraction": getData("feature-extraction", data_default6),
-  "fill-mask": getData("fill-mask", data_default7),
+  "depth-estimation": getData("depth-estimation", data_default13),
+  "document-question-answering": getData("document-question-answering", data_default4),
+  "feature-extraction": getData("feature-extraction", data_default5),
+  "fill-mask": getData("fill-mask", data_default6),
   "graph-ml": void 0,
-  "image-classification": getData("image-classification", data_default8),
-  "image-segmentation": getData("image-segmentation", data_default11),
-  "image-to-image": getData("image-to-image", data_default9),
-  "image-to-text": getData("image-to-text", data_default10),
+  "image-classification": getData("image-classification", data_default7),
+  "image-segmentation": getData("image-segmentation", data_default10),
+  "image-text-to-text": void 0,
+  "image-to-image": getData("image-to-image", data_default8),
+  "image-to-text": getData("image-to-text", data_default9),
   "image-to-video": void 0,
-  "mask-generation": getData("mask-generation", data_default12),
+  "mask-generation": getData("mask-generation", data_default11),
   "multiple-choice": void 0,
-  "object-detection": getData("object-detection", data_default13),
-  "video-classification": getData("video-classification", data_default31),
+  "object-detection": getData("object-detection", data_default12),
+  "video-classification": getData("video-classification", data_default30),
   other: void 0,
-  "question-answering": getData("question-answering", data_default17),
-  "reinforcement-learning": getData("reinforcement-learning", data_default16),
+  "question-answering": getData("question-answering", data_default16),
+  "reinforcement-learning": getData("reinforcement-learning", data_default15),
   robotics: void 0,
-  "sentence-similarity": getData("sentence-similarity", data_default18),
-  summarization: getData("summarization", data_default19),
-  "table-question-answering": getData("table-question-answering", data_default20),
+  "sentence-similarity": getData("sentence-similarity", data_default17),
+  summarization: getData("summarization", data_default18),
+  "table-question-answering": getData("table-question-answering", data_default19),
   "table-to-text": void 0,
-  "tabular-classification": getData("tabular-classification", data_default21),
-  "tabular-regression": getData("tabular-regression", data_default22),
+  "tabular-classification": getData("tabular-classification", data_default20),
+  "tabular-regression": getData("tabular-regression", data_default21),
   "tabular-to-text": void 0,
-  "text-classification": getData("text-classification", data_default27),
-  "text-generation": getData("text-generation", data_default28),
+  "text-classification": getData("text-classification", data_default26),
+  "text-generation": getData("text-generation", data_default27),
   "text-retrieval": void 0,
-  "text-to-image": getData("text-to-image", data_default23),
-  "text-to-speech": getData("text-to-speech", data_default24),
+  "text-to-image": getData("text-to-image", data_default22),
+  "text-to-speech": getData("text-to-speech", data_default23),
   "text-to-audio": void 0,
-  "text-to-video": getData("text-to-video", data_default29),
+  "text-to-video": getData("text-to-video", data_default28),
   "text2text-generation": void 0,
   "time-series-forecasting": void 0,
-  "token-classification": getData("token-classification", data_default25),
-  translation: getData("translation", data_default26),
-  "unconditional-image-generation": getData("unconditional-image-generation", data_default30),
-  "visual-question-answering": getData("visual-question-answering", data_default32),
+  "token-classification": getData("token-classification", data_default24),
+  translation: getData("translation", data_default25),
+  "unconditional-image-generation": getData("unconditional-image-generation", data_default29),
+  "visual-question-answering": getData("visual-question-answering", data_default31),
   "voice-activity-detection": void 0,
-  "zero-shot-classification": getData("zero-shot-classification", data_default33),
-  "zero-shot-image-classification": getData("zero-shot-image-classification", data_default34),
-  "zero-shot-object-detection": getData("zero-shot-object-detection", data_default35),
-  "text-to-3d": getData("text-to-3d", data_default15),
-  "image-to-3d": getData("image-to-3d", data_default15)
+  "zero-shot-classification": getData("zero-shot-classification", data_default32),
+  "zero-shot-image-classification": getData("zero-shot-image-classification", data_default33),
+  "zero-shot-object-detection": getData("zero-shot-object-detection", data_default34),
+  "text-to-3d": getData("text-to-3d", data_default14),
+  "image-to-3d": getData("image-to-3d", data_default14),
+  "image-feature-extraction": getData("image-feature-extraction", data_default14)
 };
 // src/model-libraries-snippets.ts
@@ -4816,6 +4767,18 @@ var InferenceDisplayability = /* @__PURE__ */ ((InferenceDisplayability2) => {
   return InferenceDisplayability2;
 })(InferenceDisplayability || {});
+// src/tokenizer-data.ts
+var SPECIAL_TOKENS_ATTRIBUTES = [
+  "bos_token",
+  "eos_token",
+  "unk_token",
+  "sep_token",
+  "pad_token",
+  "cls_token",
+  "mask_token"
+  // additional_special_tokens (TODO)
+];
 // src/snippets/index.ts
 var snippets_exports = {};
 __export(snippets_exports, {
@@ -4833,11 +4796,6 @@ __export(inputs_exports, {
 var inputsZeroShotClassification = () => `"Hi, I recently bought a device from your company but it is not working as advertised and I would like to get reimbursed!"`;
 var inputsTranslation = () => `"\u041C\u0435\u043D\u044F \u0437\u043E\u0432\u0443\u0442 \u0412\u043E\u043B\u044C\u0444\u0433\u0430\u043D\u0433 \u0438 \u044F \u0436\u0438\u0432\u0443 \u0432 \u0411\u0435\u0440\u043B\u0438\u043D\u0435"`;
 var inputsSummarization = () => `"The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building, and the tallest structure in Paris. Its base is square, measuring 125 metres (410 ft) on each side. During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest man-made structure in the world, a title it held for 41 years until the Chrysler Building in New York City was finished in 1930. It was the first structure to reach a height of 300 metres. Due to the addition of a broadcasting aerial at the top of the tower in 1957, it is now taller than the Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the Eiffel Tower is the second tallest free-standing structure in France after the Millau Viaduct."`;
-var inputsConversational = () => `{
-		"past_user_inputs": ["Which movie is the best ?"],
-		"generated_responses": ["It is Die Hard for sure."],
-		"text": "Can you explain why ?"
-	}`;
 var inputsTableQuestionAnswering = () => `{
 		"query": "How many stars does the transformers repository have?",
 		"table": {
@@ -4889,7 +4847,6 @@ var modelInputSnippets = {
   "audio-to-audio": inputsAudioToAudio,
   "audio-classification": inputsAudioClassification,
   "automatic-speech-recognition": inputsAutomaticSpeechRecognition,
-  conversational: inputsConversational,
   "document-question-answering": inputsVisualQuestionAnswering,
   "feature-extraction": inputsFeatureExtraction,
   "fill-mask": inputsFillMask,
@@ -4969,7 +4926,6 @@ var curlSnippets = {
   "zero-shot-classification": snippetZeroShotClassification,
   translation: snippetBasic,
   summarization: snippetBasic,
-  conversational: snippetBasic,
   "feature-extraction": snippetBasic,
   "text-generation": snippetBasic,
   "text2text-generation": snippetBasic,
@@ -5104,7 +5060,6 @@ var pythonSnippets = {
   "zero-shot-classification": snippetZeroShotClassification2,
   translation: snippetBasic2,
   summarization: snippetBasic2,
-  conversational: snippetBasic2,
   "feature-extraction": snippetBasic2,
   "text-generation": snippetBasic2,
   "text2text-generation": snippetBasic2,
@@ -5254,7 +5209,6 @@ var jsSnippets = {
   "zero-shot-classification": snippetZeroShotClassification3,
   translation: snippetBasic3,
   summarization: snippetBasic3,
-  conversational: snippetBasic3,
   "feature-extraction": snippetBasic3,
   "text-generation": snippetBasic3,
   "text2text-generation": snippetBasic3,
@@ -5290,6 +5244,7 @@ function hasJsInferenceSnippet(model) {
   PIPELINE_DATA,
   PIPELINE_TYPES,
   PIPELINE_TYPES_SET,
+  SPECIAL_TOKENS_ATTRIBUTES,
   SUBTASK_TYPES,
   TASKS_DATA,
   TASKS_MODEL_LIBRARIES,