npm - @huggingface/tasks - Versions diffs - 0.2.1 → 0.2.2 - Mend

@huggingface/tasks 0.2.1 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (120) hide show

package/dist/{index.mjs → index.cjs} +280 -133
package/dist/index.d.ts +4 -3
package/dist/index.js +245 -168
package/package.json +13 -8
package/src/library-to-tasks.ts +1 -1
package/src/library-ui-elements.ts +11 -11
package/src/model-data.ts +1 -1
package/src/model-libraries.ts +1 -1
package/src/pipelines.ts +1 -1
package/src/tasks/audio-classification/about.md +1 -1
package/src/tasks/audio-classification/inference.ts +51 -0
package/src/tasks/audio-classification/spec/input.json +34 -0
package/src/tasks/audio-classification/spec/output.json +21 -0
package/src/tasks/audio-to-audio/about.md +1 -1
package/src/tasks/automatic-speech-recognition/about.md +4 -2
package/src/tasks/automatic-speech-recognition/inference.ts +154 -0
package/src/tasks/automatic-speech-recognition/spec/input.json +34 -0
package/src/tasks/automatic-speech-recognition/spec/output.json +36 -0
package/src/tasks/common-definitions.json +109 -0
package/src/tasks/depth-estimation/data.ts +8 -4
package/src/tasks/depth-estimation/inference.ts +35 -0
package/src/tasks/depth-estimation/spec/input.json +30 -0
package/src/tasks/depth-estimation/spec/output.json +10 -0
package/src/tasks/document-question-answering/inference.ts +102 -0
package/src/tasks/document-question-answering/spec/input.json +85 -0
package/src/tasks/document-question-answering/spec/output.json +36 -0
package/src/tasks/feature-extraction/inference.ts +22 -0
package/src/tasks/feature-extraction/spec/input.json +26 -0
package/src/tasks/feature-extraction/spec/output.json +7 -0
package/src/tasks/fill-mask/inference.ts +61 -0
package/src/tasks/fill-mask/spec/input.json +38 -0
package/src/tasks/fill-mask/spec/output.json +29 -0
package/src/tasks/image-classification/inference.ts +51 -0
package/src/tasks/image-classification/spec/input.json +34 -0
package/src/tasks/image-classification/spec/output.json +10 -0
package/src/tasks/image-segmentation/inference.ts +65 -0
package/src/tasks/image-segmentation/spec/input.json +54 -0
package/src/tasks/image-segmentation/spec/output.json +25 -0
package/src/tasks/image-to-image/inference.ts +67 -0
package/src/tasks/image-to-image/spec/input.json +52 -0
package/src/tasks/image-to-image/spec/output.json +12 -0
package/src/tasks/image-to-text/inference.ts +138 -0
package/src/tasks/image-to-text/spec/input.json +34 -0
package/src/tasks/image-to-text/spec/output.json +17 -0
package/src/tasks/index.ts +5 -2
package/src/tasks/mask-generation/about.md +65 -0
package/src/tasks/mask-generation/data.ts +42 -5
package/src/tasks/object-detection/inference.ts +62 -0
package/src/tasks/object-detection/spec/input.json +30 -0
package/src/tasks/object-detection/spec/output.json +46 -0
package/src/tasks/placeholder/data.ts +3 -0
package/src/tasks/placeholder/spec/input.json +35 -0
package/src/tasks/placeholder/spec/output.json +17 -0
package/src/tasks/question-answering/inference.ts +99 -0
package/src/tasks/question-answering/spec/input.json +67 -0
package/src/tasks/question-answering/spec/output.json +29 -0
package/src/tasks/sentence-similarity/about.md +2 -2
package/src/tasks/sentence-similarity/inference.ts +32 -0
package/src/tasks/sentence-similarity/spec/input.json +40 -0
package/src/tasks/sentence-similarity/spec/output.json +12 -0
package/src/tasks/summarization/data.ts +1 -0
package/src/tasks/summarization/inference.ts +58 -0
package/src/tasks/summarization/spec/input.json +7 -0
package/src/tasks/summarization/spec/output.json +7 -0
package/src/tasks/table-question-answering/inference.ts +61 -0
package/src/tasks/table-question-answering/spec/input.json +39 -0
package/src/tasks/table-question-answering/spec/output.json +40 -0
package/src/tasks/tabular-classification/about.md +1 -1
package/src/tasks/tabular-regression/about.md +1 -1
package/src/tasks/text-classification/about.md +1 -0
package/src/tasks/text-classification/inference.ts +51 -0
package/src/tasks/text-classification/spec/input.json +35 -0
package/src/tasks/text-classification/spec/output.json +10 -0
package/src/tasks/text-generation/about.md +24 -13
package/src/tasks/text-generation/data.ts +22 -38
package/src/tasks/text-generation/inference.ts +85 -0
package/src/tasks/text-generation/spec/input.json +74 -0
package/src/tasks/text-generation/spec/output.json +17 -0
package/src/tasks/text-to-audio/inference.ts +138 -0
package/src/tasks/text-to-audio/spec/input.json +31 -0
package/src/tasks/text-to-audio/spec/output.json +20 -0
package/src/tasks/text-to-image/about.md +11 -2
package/src/tasks/text-to-image/data.ts +6 -2
package/src/tasks/text-to-image/inference.ts +73 -0
package/src/tasks/text-to-image/spec/input.json +57 -0
package/src/tasks/text-to-image/spec/output.json +15 -0
package/src/tasks/text-to-speech/about.md +4 -2
package/src/tasks/text-to-speech/data.ts +1 -0
package/src/tasks/text-to-speech/inference.ts +146 -0
package/src/tasks/text-to-speech/spec/input.json +7 -0
package/src/tasks/text-to-speech/spec/output.json +7 -0
package/src/tasks/text2text-generation/inference.ts +53 -0
package/src/tasks/text2text-generation/spec/input.json +55 -0
package/src/tasks/text2text-generation/spec/output.json +17 -0
package/src/tasks/token-classification/inference.ts +82 -0
package/src/tasks/token-classification/spec/input.json +65 -0
package/src/tasks/token-classification/spec/output.json +33 -0
package/src/tasks/translation/data.ts +1 -0
package/src/tasks/translation/inference.ts +58 -0
package/src/tasks/translation/spec/input.json +7 -0
package/src/tasks/translation/spec/output.json +7 -0
package/src/tasks/video-classification/inference.ts +59 -0
package/src/tasks/video-classification/spec/input.json +42 -0
package/src/tasks/video-classification/spec/output.json +10 -0
package/src/tasks/visual-question-answering/inference.ts +63 -0
package/src/tasks/visual-question-answering/spec/input.json +41 -0
package/src/tasks/visual-question-answering/spec/output.json +21 -0
package/src/tasks/zero-shot-classification/inference.ts +67 -0
package/src/tasks/zero-shot-classification/spec/input.json +50 -0
package/src/tasks/zero-shot-classification/spec/output.json +10 -0
package/src/tasks/zero-shot-image-classification/data.ts +8 -5
package/src/tasks/zero-shot-image-classification/inference.ts +61 -0
package/src/tasks/zero-shot-image-classification/spec/input.json +45 -0
package/src/tasks/zero-shot-image-classification/spec/output.json +10 -0
package/src/tasks/zero-shot-object-detection/about.md +6 -0
package/src/tasks/zero-shot-object-detection/data.ts +6 -1
package/src/tasks/zero-shot-object-detection/inference.ts +66 -0
package/src/tasks/zero-shot-object-detection/spec/input.json +40 -0
package/src/tasks/zero-shot-object-detection/spec/output.json +47 -0
package/tsconfig.json +3 -3

package/dist/{index.mjs → index.cjs} RENAMED Viewed

@@ -1,8 +1,42 @@
+"use strict";
 var __defProp = Object.defineProperty;
+var __getOwnPropDesc = Object.getOwnPropertyDescriptor;
+var __getOwnPropNames = Object.getOwnPropertyNames;
+var __hasOwnProp = Object.prototype.hasOwnProperty;
 var __export = (target, all) => {
   for (var name in all)
     __defProp(target, name, { get: all[name], enumerable: true });
 };
+var __copyProps = (to, from, except, desc) => {
+  if (from && typeof from === "object" || typeof from === "function") {
+    for (let key of __getOwnPropNames(from))
+      if (!__hasOwnProp.call(to, key) && key !== except)
+        __defProp(to, key, { get: () => from[key], enumerable: !(desc = __getOwnPropDesc(from, key)) || desc.enumerable });
+  }
+  return to;
+};
+var __toCommonJS = (mod) => __copyProps(__defProp({}, "__esModule", { value: true }), mod);
+// src/index.ts
+var src_exports = {};
+__export(src_exports, {
+  ALL_DISPLAY_MODEL_LIBRARY_KEYS: () => ALL_DISPLAY_MODEL_LIBRARY_KEYS,
+  InferenceDisplayability: () => InferenceDisplayability,
+  LIBRARY_TASK_MAPPING_EXCLUDING_TRANSFORMERS: () => LIBRARY_TASK_MAPPING_EXCLUDING_TRANSFORMERS,
+  MAPPING_DEFAULT_WIDGET: () => MAPPING_DEFAULT_WIDGET,
+  MODALITIES: () => MODALITIES,
+  MODALITY_LABELS: () => MODALITY_LABELS,
+  MODEL_LIBRARIES_UI_ELEMENTS: () => MODEL_LIBRARIES_UI_ELEMENTS,
+  ModelLibrary: () => ModelLibrary,
+  PIPELINE_DATA: () => PIPELINE_DATA,
+  PIPELINE_TYPES: () => PIPELINE_TYPES,
+  PIPELINE_TYPES_SET: () => PIPELINE_TYPES_SET,
+  SUBTASK_TYPES: () => SUBTASK_TYPES,
+  TASKS_DATA: () => TASKS_DATA,
+  TASKS_MODEL_LIBRARIES: () => TASKS_MODEL_LIBRARIES,
+  snippets: () => snippets_exports
+});
+module.exports = __toCommonJS(src_exports);
 // src/library-to-tasks.ts
 var LIBRARY_TASK_MAPPING_EXCLUDING_TRANSFORMERS = {
@@ -49,11 +83,11 @@ function nameWithoutNamespace(modelId) {
   const splitted = modelId.split("/");
   return splitted.length === 1 ? splitted[0] : splitted[1];
 }
-var adapter_transformers = (model) => [
-  `from transformers import ${model.config?.adapter_transformers?.model_class}
+var adapters = (model) => [
+  `from adapters import AutoAdapterModel
-model = ${model.config?.adapter_transformers?.model_class}.from_pretrained("${model.config?.adapter_transformers?.model_name}")
-model.load_adapter("${model.id}", source="hf")`
+model = AutoAdapterModel.from_pretrained("${model.config?.adapter_transformers?.model_name}")
+model.load_adapter("${model.id}", set_active=True)`
 ];
 var allennlpUnknown = (model) => [
   `import allennlp_models
@@ -493,7 +527,7 @@ transcriptions = asr_model.transcribe(["file.wav"])`
   }
 };
 var mlAgents = (model) => [`mlagents-load-from-hf --repo-id="${model.id}" --local-dir="./downloads"`];
-var sentis = (model) => [
+var sentis = () => [
   `string modelName = "[Your model name here].sentis";
 Model model = ModelLoader.Load(Application.streamingAssetsPath + "/" + modelName);
 IWorker engine = WorkerFactory.CreateWorker(BackendType.GPUCompute, model);
@@ -520,11 +554,11 @@ model = AutoModel.load_from_hf_hub("${model.id}")`
 ];
 var MODEL_LIBRARIES_UI_ELEMENTS = {
   "adapter-transformers": {
-    btnLabel: "Adapter Transformers",
-    repoName: "adapter-transformers",
-    repoUrl: "https://github.com/Adapter-Hub/adapter-transformers",
-    docsUrl: "https://huggingface.co/docs/hub/adapter-transformers",
-    snippets: adapter_transformers
+    btnLabel: "Adapters",
+    repoName: "adapters",
+    repoUrl: "https://github.com/Adapter-Hub/adapters",
+    docsUrl: "https://huggingface.co/docs/hub/adapters",
+    snippets: adapters
   },
   allennlp: {
     btnLabel: "AllenNLP",
@@ -2846,8 +2880,60 @@ var taskData11 = {
 };
 var data_default11 = taskData11;
-// src/tasks/object-detection/data.ts
+// src/tasks/mask-generation/data.ts
 var taskData12 = {
+  datasets: [],
+  demo: {
+    inputs: [
+      {
+        filename: "mask-generation-input.png",
+        type: "img"
+      }
+    ],
+    outputs: [
+      {
+        filename: "mask-generation-output.png",
+        type: "img"
+      }
+    ]
+  },
+  metrics: [],
+  models: [
+    {
+      description: "Small yet powerful mask generation model.",
+      id: "Zigeng/SlimSAM-uniform-50"
+    },
+    {
+      description: "Very strong mask generation model.",
+      id: "facebook/sam-vit-huge"
+    }
+  ],
+  spaces: [
+    {
+      description: "An application that combines a mask generation model with an image embedding model for open-vocabulary image segmentation.",
+      id: "SkalskiP/SAM_and_MetaCLIP"
+    },
+    {
+      description: "An application that compares the performance of a large and a small mask generation model.",
+      id: "merve/slimsam"
+    },
+    {
+      description: "An application based on an improved mask generation model.",
+      id: "linfanluntan/Grounded-SAM"
+    },
+    {
+      description: "An application to remove objects from videos using mask generation models.",
+      id: "SkalskiP/SAM_and_ProPainter"
+    }
+  ],
+  summary: "Mask generation is the task of generating masks that identify a specific object or region of interest in a given image. Masks are often used in segmentation tasks, where they provide a precise way to isolate the object of interest for further processing or analysis.",
+  widgetModels: [],
+  youtubeId: ""
+};
+var data_default12 = taskData12;
+// src/tasks/object-detection/data.ts
+var taskData13 = {
   datasets: [
     {
       // TODO write proper description
@@ -2919,10 +3005,10 @@ var taskData12 = {
   widgetModels: ["facebook/detr-resnet-50"],
   youtubeId: "WdAeKSOpxhw"
 };
-var data_default12 = taskData12;
+var data_default13 = taskData13;
 // src/tasks/depth-estimation/data.ts
-var taskData13 = {
+var taskData14 = {
   datasets: [
     {
       description: "NYU Depth V2 Dataset: Video dataset containing both RGB and depth sensor data",
@@ -2950,8 +3036,8 @@ var taskData13 = {
       id: "Intel/dpt-large"
     },
     {
-      description: "Strong Depth Estimation model trained on the KITTI dataset.",
-      id: "facebook/dpt-dinov2-large-kitti"
+      description: "Strong Depth Estimation model trained on a big compilation of datasets.",
+      id: "LiheYoung/depth-anything-large-hf"
     },
     {
       description: "A strong monocular depth estimation model.",
@@ -2964,18 +3050,22 @@ var taskData13 = {
       id: "radames/dpt-depth-estimation-3d-voxels"
     },
     {
-      description: "An application that can estimate the depth in a given image.",
-      id: "keras-io/Monocular-Depth-Estimation"
+      description: "An application to compare the outputs of different depth estimation models.",
+      id: "LiheYoung/Depth-Anything"
+    },
+    {
+      description: "An application to try state-of-the-art depth estimation.",
+      id: "merve/compare_depth_models"
     }
   ],
   summary: "Depth estimation is the task of predicting depth of the objects present in an image.",
   widgetModels: [""],
   youtubeId: ""
 };
-var data_default13 = taskData13;
+var data_default14 = taskData14;
 // src/tasks/placeholder/data.ts
-var taskData14 = {
+var taskData15 = {
   datasets: [],
   demo: {
     inputs: [],
@@ -2987,12 +3077,15 @@ var taskData14 = {
   spaces: [],
   summary: "",
   widgetModels: [],
-  youtubeId: void 0
+  youtubeId: void 0,
+  /// If this is a subtask, link to the most general task ID
+  /// (eg, text2text-generation is the canonical ID of translation)
+  canonicalId: void 0
 };
-var data_default14 = taskData14;
+var data_default15 = taskData15;
 // src/tasks/reinforcement-learning/data.ts
-var taskData15 = {
+var taskData16 = {
   datasets: [
     {
       description: "A curation of widely used datasets for Data Driven Deep Reinforcement Learning (D4RL)",
@@ -3058,10 +3151,10 @@ var taskData15 = {
   widgetModels: [],
   youtubeId: "q0BiUn5LiBc"
 };
-var data_default15 = taskData15;
+var data_default16 = taskData16;
 // src/tasks/question-answering/data.ts
-var taskData16 = {
+var taskData17 = {
   datasets: [
     {
       // TODO write proper description
@@ -3125,10 +3218,10 @@ var taskData16 = {
   widgetModels: ["deepset/roberta-base-squad2"],
   youtubeId: "ajPx5LwJD-I"
 };
-var data_default16 = taskData16;
+var data_default17 = taskData17;
 // src/tasks/sentence-similarity/data.ts
-var taskData17 = {
+var taskData18 = {
   datasets: [
     {
       description: "Bing queries with relevant passages from various web sources.",
@@ -3220,10 +3313,11 @@ var taskData17 = {
   widgetModels: ["sentence-transformers/all-MiniLM-L6-v2"],
   youtubeId: "VCZq5AkbNEU"
 };
-var data_default17 = taskData17;
+var data_default18 = taskData18;
 // src/tasks/summarization/data.ts
-var taskData18 = {
+var taskData19 = {
+  canonicalId: "text2text-generation",
   datasets: [
     {
       description: "News articles in five different languages along with their summaries. Widely used for benchmarking multilingual summarization models.",
@@ -3288,10 +3382,10 @@ var taskData18 = {
   widgetModels: ["sshleifer/distilbart-cnn-12-6"],
   youtubeId: "yHnr5Dk2zCI"
 };
-var data_default18 = taskData18;
+var data_default19 = taskData19;
 // src/tasks/table-question-answering/data.ts
-var taskData19 = {
+var taskData20 = {
   datasets: [
     {
       description: "The WikiTableQuestions dataset is a large-scale dataset for the task of question answering on semi-structured tables.",
@@ -3342,10 +3436,10 @@ var taskData19 = {
   summary: "Table Question Answering (Table QA) is the answering a question about an information on a given table.",
   widgetModels: ["google/tapas-base-finetuned-wtq"]
 };
-var data_default19 = taskData19;
+var data_default20 = taskData20;
 // src/tasks/tabular-classification/data.ts
-var taskData20 = {
+var taskData21 = {
   datasets: [
     {
       description: "A comprehensive curation of datasets covering all benchmarks.",
@@ -3409,10 +3503,10 @@ var taskData20 = {
   widgetModels: ["scikit-learn/tabular-playground"],
   youtubeId: ""
 };
-var data_default20 = taskData20;
+var data_default21 = taskData21;
 // src/tasks/tabular-regression/data.ts
-var taskData21 = {
+var taskData22 = {
   datasets: [
     {
       description: "A comprehensive curation of datasets covering all benchmarks.",
@@ -3464,10 +3558,10 @@ var taskData21 = {
   widgetModels: ["scikit-learn/Fish-Weight"],
   youtubeId: ""
 };
-var data_default21 = taskData21;
+var data_default22 = taskData22;
 // src/tasks/text-to-image/data.ts
-var taskData22 = {
+var taskData23 = {
   datasets: [
     {
       description: "RedCaps is a large-scale dataset of 12M image-text pairs collected from Reddit.",
@@ -3543,22 +3637,27 @@ var taskData22 = {
       id: "latent-consistency/lcm-lora-for-sdxl"
     },
     {
-      description: "A powerful text-to-image application that can generate 3D representations.",
-      id: "hysts/Shap-E"
+      description: "A gallery to explore various text-to-image models.",
+      id: "multimodalart/LoraTheExplorer"
     },
     {
       description: "An application for `text-to-image`, `image-to-image` and image inpainting.",
       id: "ArtGAN/Stable-Diffusion-ControlNet-WebUI"
+    },
+    {
+      description: "An application to generate realistic images given photos of a person and a prompt.",
+      id: "InstantX/InstantID"
     }
   ],
   summary: "Generates images from input text. These models can be used to generate and modify images based on text prompts.",
   widgetModels: ["CompVis/stable-diffusion-v1-4"],
   youtubeId: ""
 };
-var data_default22 = taskData22;
+var data_default23 = taskData23;
 // src/tasks/text-to-speech/data.ts
-var taskData23 = {
+var taskData24 = {
+  canonicalId: "text-to-audio",
   datasets: [
     {
       description: "Thousands of short audio clips of a single speaker.",
@@ -3622,10 +3721,10 @@ var taskData23 = {
   widgetModels: ["suno/bark"],
   youtubeId: "NW62DpzJ274"
 };
-var data_default23 = taskData23;
+var data_default24 = taskData24;
 // src/tasks/token-classification/data.ts
-var taskData24 = {
+var taskData25 = {
   datasets: [
     {
       description: "A widely used dataset useful to benchmark named entity recognition models.",
@@ -3701,10 +3800,11 @@ var taskData24 = {
   widgetModels: ["dslim/bert-base-NER"],
   youtubeId: "wVHdVlPScxA"
 };
-var data_default24 = taskData24;
+var data_default25 = taskData25;
 // src/tasks/translation/data.ts
-var taskData25 = {
+var taskData26 = {
+  canonicalId: "text2text-generation",
   datasets: [
     {
       description: "A dataset of copyright-free books translated into 16 different languages.",
@@ -3765,10 +3865,10 @@ var taskData25 = {
   widgetModels: ["t5-small"],
   youtubeId: "1JvfrvZgi6c"
 };
-var data_default25 = taskData25;
+var data_default26 = taskData26;
 // src/tasks/text-classification/data.ts
-var taskData26 = {
+var taskData27 = {
   datasets: [
     {
       description: "A widely used dataset used to benchmark multiple variants of text classification.",
@@ -3853,10 +3953,10 @@ var taskData26 = {
   widgetModels: ["distilbert-base-uncased-finetuned-sst-2-english"],
   youtubeId: "leNG9fN9FQU"
 };
-var data_default26 = taskData26;
+var data_default27 = taskData27;
 // src/tasks/text-generation/data.ts
-var taskData27 = {
+var taskData28 = {
   datasets: [
     {
       description: "A large multilingual dataset of text crawled from the web.",
@@ -3867,12 +3967,12 @@ var taskData27 = {
       id: "the_pile"
     },
     {
-      description: "A crowd-sourced instruction dataset to develop an AI assistant.",
-      id: "OpenAssistant/oasst1"
+      description: "Truly open-source, curated and cleaned dialogue dataset.",
+      id: "HuggingFaceH4/ultrachat_200k"
     },
     {
-      description: "A crowd-sourced instruction dataset created by Databricks employees.",
-      id: "databricks/databricks-dolly-15k"
+      description: "An instruction dataset with preference ratings on responses.",
+      id: "openbmb/UltraFeedback"
     }
   ],
   demo: {
@@ -3911,72 +4011,56 @@ var taskData27 = {
       id: "bigcode/starcoder"
     },
     {
-      description: "A model trained to follow instructions, uses Pythia-12b as base model.",
-      id: "databricks/dolly-v2-12b"
+      description: "A very powerful text generation model.",
+      id: "mistralai/Mixtral-8x7B-Instruct-v0.1"
     },
     {
-      description: "A model trained to follow instructions curated by community, uses Pythia-12b as base model.",
-      id: "OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5"
+      description: "Small yet powerful text generation model.",
+      id: "microsoft/phi-2"
     },
     {
-      description: "A large language model trained to generate text in English.",
-      id: "stabilityai/stablelm-tuned-alpha-7b"
+      description: "A very powerful model that can chat, do mathematical reasoning and write code.",
+      id: "openchat/openchat-3.5-0106"
     },
     {
-      description: "A model trained to follow instructions, based on mosaicml/mpt-7b.",
-      id: "mosaicml/mpt-7b-instruct"
+      description: "Very strong yet small assistant model.",
+      id: "HuggingFaceH4/zephyr-7b-beta"
     },
     {
-      description: "A large language model trained to generate text in English.",
-      id: "EleutherAI/pythia-12b"
-    },
-    {
-      description: "A large text-to-text model trained to follow instructions.",
-      id: "google/flan-ul2"
-    },
-    {
-      description: "A large and powerful text generation model.",
-      id: "tiiuae/falcon-40b"
-    },
-    {
-      description: "State-of-the-art open-source large language model.",
+      description: "Very strong open-source large language model.",
       id: "meta-llama/Llama-2-70b-hf"
     }
   ],
   spaces: [
     {
-      description: "A robust text generation model that can perform various tasks through natural language prompting.",
-      id: "huggingface/bloom_demo"
+      description: "A leaderboard to compare different open-source text generation models based on various benchmarks.",
+      id: "HuggingFaceH4/open_llm_leaderboard"
     },
     {
-      description: "An text generation based application that can write code for 80+ languages.",
-      id: "bigcode/bigcode-playground"
+      description: "An text generation based application based on a very powerful LLaMA2 model.",
+      id: "ysharma/Explore_llamav2_with_TGI"
     },
     {
-      description: "An text generation based application for conversations.",
-      id: "h2oai/h2ogpt-chatbot"
+      description: "An text generation based application to converse with Zephyr model.",
+      id: "HuggingFaceH4/zephyr-chat"
     },
     {
       description: "An text generation application that combines OpenAI and Hugging Face models.",
       id: "microsoft/HuggingGPT"
     },
     {
-      description: "An text generation application that uses StableLM-tuned-alpha-7b.",
-      id: "stabilityai/stablelm-tuned-alpha-chat"
-    },
-    {
-      description: "An UI that uses StableLM-tuned-alpha-7b.",
-      id: "togethercomputer/OpenChatKit"
+      description: "An chatbot to converse with a very powerful text generation model.",
+      id: "mlabonne/phixtral-chat"
     }
   ],
-  summary: "Generating text is the task of producing new text. These models can, for example, fill in incomplete text or paraphrase.",
+  summary: "Generating text is the task of generating new text given another text. These models can, for example, fill in incomplete text or paraphrase.",
   widgetModels: ["HuggingFaceH4/zephyr-7b-beta"],
   youtubeId: "Vpjb1lu0MDk"
 };
-var data_default27 = taskData27;
+var data_default28 = taskData28;
 // src/tasks/text-to-video/data.ts
-var taskData28 = {
+var taskData29 = {
   datasets: [
     {
       description: "Microsoft Research Video to Text is a large-scale dataset for open domain video captioning",
@@ -4068,10 +4152,10 @@ var taskData28 = {
   widgetModels: [],
   youtubeId: void 0
 };
-var data_default28 = taskData28;
+var data_default29 = taskData29;
 // src/tasks/unconditional-image-generation/data.ts
-var taskData29 = {
+var taskData30 = {
   datasets: [
     {
       description: "The CIFAR-100 dataset consists of 60000 32x32 colour images in 100 classes, with 600 images per class.",
@@ -4133,10 +4217,10 @@ var taskData29 = {
   // TODO: Add related video
   youtubeId: ""
 };
-var data_default29 = taskData29;
+var data_default30 = taskData30;
 // src/tasks/video-classification/data.ts
-var taskData30 = {
+var taskData31 = {
   datasets: [
     {
       // TODO write proper description
@@ -4215,10 +4299,10 @@ var taskData30 = {
   widgetModels: [],
   youtubeId: ""
 };
-var data_default30 = taskData30;
+var data_default31 = taskData31;
 // src/tasks/visual-question-answering/data.ts
-var taskData31 = {
+var taskData32 = {
   datasets: [
     {
       description: "A widely used dataset containing questions (with answers) about images.",
@@ -4308,10 +4392,10 @@ var taskData31 = {
   widgetModels: ["dandelin/vilt-b32-finetuned-vqa"],
   youtubeId: ""
 };
-var data_default31 = taskData31;
+var data_default32 = taskData32;
 // src/tasks/zero-shot-classification/data.ts
-var taskData32 = {
+var taskData33 = {
   datasets: [
     {
       description: "A widely used dataset used to benchmark multiple variants of text classification.",
@@ -4370,10 +4454,10 @@ var taskData32 = {
   summary: "Zero-shot text classification is a task in natural language processing where a model is trained on a set of labeled examples but is then able to classify new examples from previously unseen classes.",
   widgetModels: ["facebook/bart-large-mnli"]
 };
-var data_default32 = taskData32;
+var data_default33 = taskData33;
 // src/tasks/zero-shot-image-classification/data.ts
-var taskData33 = {
+var taskData34 = {
   datasets: [
     {
       // TODO write proper description
@@ -4425,8 +4509,8 @@ var taskData33 = {
       id: "openai/clip-vit-base-patch16"
     },
     {
-      description: "Robust image classification model trained on publicly available image-caption data trained on additional high pixel data for better performance.",
-      id: "openai/clip-vit-large-patch14-336"
+      description: "Strong zero-shot image classification model.",
+      id: "google/siglip-base-patch16-224"
     },
     {
       description: "Strong image classification model for biomedical domain.",
@@ -4435,15 +4519,77 @@ var taskData33 = {
   ],
   spaces: [
     {
-      description: "An application that leverages zero shot image classification to find best captions to generate an image. ",
+      description: "An application that leverages zero-shot image classification to find best captions to generate an image. ",
       id: "pharma/CLIP-Interrogator"
+    },
+    {
+      description: "An application to compare different zero-shot image classification models. ",
+      id: "merve/compare_clip_siglip"
     }
   ],
-  summary: "Zero shot image classification is the task of classifying previously unseen classes during training of a model.",
+  summary: "Zero-shot image classification is the task of classifying previously unseen classes during training of a model.",
   widgetModels: ["openai/clip-vit-large-patch14-336"],
   youtubeId: ""
 };
-var data_default33 = taskData33;
+var data_default34 = taskData34;
+// src/tasks/zero-shot-object-detection/data.ts
+var taskData35 = {
+  datasets: [],
+  demo: {
+    inputs: [
+      {
+        filename: "zero-shot-object-detection-input.jpg",
+        type: "img"
+      },
+      {
+        label: "Classes",
+        content: "cat, dog, bird",
+        type: "text"
+      }
+    ],
+    outputs: [
+      {
+        filename: "zero-shot-object-detection-output.jpg",
+        type: "img"
+      }
+    ]
+  },
+  metrics: [
+    {
+      description: "The Average Precision (AP) metric is the Area Under the PR Curve (AUC-PR). It is calculated for each class separately",
+      id: "Average Precision"
+    },
+    {
+      description: "The Mean Average Precision (mAP) metric is the overall average of the AP values",
+      id: "Mean Average Precision"
+    },
+    {
+      description: "The AP\u03B1 metric is the Average Precision at the IoU threshold of a \u03B1 value, for example, AP50 and AP75",
+      id: "AP\u03B1"
+    }
+  ],
+  models: [
+    {
+      description: "Solid zero-shot object detection model that uses CLIP as backbone.",
+      id: "google/owlvit-base-patch32"
+    },
+    {
+      description: "The improved version of the owlvit model.",
+      id: "google/owlv2-base-patch16-ensemble"
+    }
+  ],
+  spaces: [
+    {
+      description: "A demo to try the state-of-the-art zero-shot object detection model, OWLv2.",
+      id: "merve/owlv2"
+    }
+  ],
+  summary: "Zero-shot object detection is a computer vision task to detect objects and their classes in images, without any prior training or knowledge of the classes. Zero-shot object detection models receive an image as input, as well as a list of candidate classes, and output the bounding boxes and labels where the objects have been detected.",
+  widgetModels: [],
+  youtubeId: ""
+};
+var data_default35 = taskData35;
 // src/tasks/index.ts
 var TASKS_MODEL_LIBRARIES = {
@@ -4504,7 +4650,7 @@ var TASKS_MODEL_LIBRARIES = {
   "text-to-3d": [],
   "image-to-3d": []
 };
-function getData(type, partialTaskData = data_default14) {
+function getData(type, partialTaskData = data_default15) {
   return {
     ...partialTaskData,
     id: type,
@@ -4517,7 +4663,7 @@ var TASKS_DATA = {
   "audio-to-audio": getData("audio-to-audio", data_default2),
   "automatic-speech-recognition": getData("automatic-speech-recognition", data_default3),
   conversational: getData("conversational", data_default4),
-  "depth-estimation": getData("depth-estimation", data_default13),
+  "depth-estimation": getData("depth-estimation", data_default14),
   "document-question-answering": getData("document-question-answering", data_default5),
   "feature-extraction": getData("feature-extraction", data_default6),
   "fill-mask": getData("fill-mask", data_default7),
@@ -4527,45 +4673,45 @@ var TASKS_DATA = {
   "image-to-image": getData("image-to-image", data_default9),
   "image-to-text": getData("image-to-text", data_default10),
   "image-to-video": void 0,
-  "mask-generation": getData("mask-generation", data_default14),
+  "mask-generation": getData("mask-generation", data_default12),
   "multiple-choice": void 0,
-  "object-detection": getData("object-detection", data_default12),
-  "video-classification": getData("video-classification", data_default30),
+  "object-detection": getData("object-detection", data_default13),
+  "video-classification": getData("video-classification", data_default31),
   other: void 0,
-  "question-answering": getData("question-answering", data_default16),
-  "reinforcement-learning": getData("reinforcement-learning", data_default15),
+  "question-answering": getData("question-answering", data_default17),
+  "reinforcement-learning": getData("reinforcement-learning", data_default16),
   robotics: void 0,
-  "sentence-similarity": getData("sentence-similarity", data_default17),
-  summarization: getData("summarization", data_default18),
-  "table-question-answering": getData("table-question-answering", data_default19),
+  "sentence-similarity": getData("sentence-similarity", data_default18),
+  summarization: getData("summarization", data_default19),
+  "table-question-answering": getData("table-question-answering", data_default20),
   "table-to-text": void 0,
-  "tabular-classification": getData("tabular-classification", data_default20),
-  "tabular-regression": getData("tabular-regression", data_default21),
+  "tabular-classification": getData("tabular-classification", data_default21),
+  "tabular-regression": getData("tabular-regression", data_default22),
   "tabular-to-text": void 0,
-  "text-classification": getData("text-classification", data_default26),
-  "text-generation": getData("text-generation", data_default27),
+  "text-classification": getData("text-classification", data_default27),
+  "text-generation": getData("text-generation", data_default28),
   "text-retrieval": void 0,
-  "text-to-image": getData("text-to-image", data_default22),
-  "text-to-speech": getData("text-to-speech", data_default23),
+  "text-to-image": getData("text-to-image", data_default23),
+  "text-to-speech": getData("text-to-speech", data_default24),
   "text-to-audio": void 0,
-  "text-to-video": getData("text-to-video", data_default28),
+  "text-to-video": getData("text-to-video", data_default29),
   "text2text-generation": void 0,
   "time-series-forecasting": void 0,
-  "token-classification": getData("token-classification", data_default24),
-  translation: getData("translation", data_default25),
-  "unconditional-image-generation": getData("unconditional-image-generation", data_default29),
-  "visual-question-answering": getData("visual-question-answering", data_default31),
+  "token-classification": getData("token-classification", data_default25),
+  translation: getData("translation", data_default26),
+  "unconditional-image-generation": getData("unconditional-image-generation", data_default30),
+  "visual-question-answering": getData("visual-question-answering", data_default32),
   "voice-activity-detection": void 0,
-  "zero-shot-classification": getData("zero-shot-classification", data_default32),
-  "zero-shot-image-classification": getData("zero-shot-image-classification", data_default33),
-  "zero-shot-object-detection": getData("zero-shot-object-detection", data_default14),
-  "text-to-3d": getData("text-to-3d", data_default14),
-  "image-to-3d": getData("image-to-3d", data_default14)
+  "zero-shot-classification": getData("zero-shot-classification", data_default33),
+  "zero-shot-image-classification": getData("zero-shot-image-classification", data_default34),
+  "zero-shot-object-detection": getData("zero-shot-object-detection", data_default35),
+  "text-to-3d": getData("text-to-3d", data_default15),
+  "image-to-3d": getData("image-to-3d", data_default15)
 };
 // src/model-libraries.ts
 var ModelLibrary = /* @__PURE__ */ ((ModelLibrary2) => {
-  ModelLibrary2["adapter-transformers"] = "Adapter Transformers";
+  ModelLibrary2["adapter-transformers"] = "Adapters";
   ModelLibrary2["allennlp"] = "allenNLP";
   ModelLibrary2["asteroid"] = "Asteroid";
   ModelLibrary2["bertopic"] = "BERTopic";
@@ -5080,7 +5226,8 @@ function getJsInferenceSnippet(model, accessToken) {
 function hasJsInferenceSnippet(model) {
   return !!model.pipeline_tag && model.pipeline_tag in jsSnippets;
 }
-export {
+// Annotate the CommonJS export names for ESM import in node:
+0 && (module.exports = {
   ALL_DISPLAY_MODEL_LIBRARY_KEYS,
   InferenceDisplayability,
   LIBRARY_TASK_MAPPING_EXCLUDING_TRANSFORMERS,
@@ -5095,5 +5242,5 @@ export {
   SUBTASK_TYPES,
   TASKS_DATA,
   TASKS_MODEL_LIBRARIES,
-  snippets_exports as snippets
-};
+  snippets
+});