npm - @huggingface/tasks - Versions diffs - 0.10.15 → 0.10.16 - Mend

@huggingface/tasks 0.10.15 → 0.10.16

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

package/dist/index.cjs +188 -78
package/dist/index.js +188 -78
package/dist/src/model-libraries-snippets.d.ts +1 -0
package/dist/src/model-libraries-snippets.d.ts.map +1 -1
package/dist/src/model-libraries.d.ts +24 -2
package/dist/src/model-libraries.d.ts.map +1 -1
package/dist/src/tasks/image-text-to-text/data.d.ts +4 -0
package/dist/src/tasks/image-text-to-text/data.d.ts.map +1 -0
package/dist/src/tasks/index.d.ts.map +1 -1
package/package.json +1 -1
package/src/model-libraries-snippets.ts +6 -0
package/src/model-libraries.ts +18 -0
package/src/tasks/image-text-to-text/about.md +74 -0
package/src/tasks/image-text-to-text/data.ts +90 -0
package/src/tasks/image-to-text/about.md +2 -19
package/src/tasks/index.ts +2 -1
package/src/tasks/text-generation/about.md +7 -7

package/dist/index.cjs CHANGED Viewed

@@ -2118,8 +2118,95 @@ var taskData10 = {
 };
 var data_default10 = taskData10;
-// src/tasks/image-segmentation/data.ts
+// src/tasks/image-text-to-text/data.ts
 var taskData11 = {
+  datasets: [
+    {
+      description: "Instructions composed of image and text.",
+      id: "liuhaotian/LLaVA-Instruct-150K"
+    },
+    {
+      description: "Conversation turns where questions involve image and text.",
+      id: "liuhaotian/LLaVA-Pretrain"
+    },
+    {
+      description: "A collection of datasets made for model fine-tuning.",
+      id: "HuggingFaceM4/the_cauldron"
+    },
+    {
+      description: "Screenshots of websites with their HTML/CSS codes.",
+      id: "HuggingFaceM4/WebSight"
+    }
+  ],
+  demo: {
+    inputs: [
+      {
+        filename: "mask-generation-input.png",
+        type: "img"
+      },
+      {
+        label: "Text Prompt",
+        content: "Describe the position of the bee in detail.",
+        type: "text"
+      }
+    ],
+    outputs: [
+      {
+        label: "Answer",
+        content: "The bee is sitting on a pink flower, surrounded by other flowers. The bee is positioned in the center of the flower, with its head and front legs sticking out.",
+        type: "text"
+      }
+    ]
+  },
+  metrics: [],
+  models: [
+    {
+      description: "Cutting-edge vision language model that can also localize texts in images.",
+      id: "liuhaotian/llava-v1.6-34b"
+    },
+    {
+      description: "Cutting-edge conversational vision language model that can take multiple image inputs.",
+      id: "HuggingFaceM4/idefics2-8b-chatty"
+    },
+    {
+      description: "Small yet powerful model.",
+      id: "vikhyatk/moondream2"
+    },
+    {
+      description: "Strong image-text-to-text model made to understand documents.",
+      id: "mPLUG/DocOwl1.5"
+    }
+  ],
+  spaces: [
+    {
+      description: "Leaderboard to evaluate vision language models.",
+      id: "opencompass/open_vlm_leaderboard"
+    },
+    {
+      description: "Vision language models arena, where models are ranked by votes of users.",
+      id: "WildVision/vision-arena"
+    },
+    {
+      description: "Powerful vision-language model assistant.",
+      id: "liuhaotian/LLaVA-1.6"
+    },
+    {
+      description: "An application to compare outputs of different vision language models.",
+      id: "merve/compare_VLMs"
+    },
+    {
+      description: "An application for document vision language tasks.",
+      id: "mPLUG/DocOwl"
+    }
+  ],
+  summary: "Image-text-to-text models take in an image and text prompt and output text. These models are also called vision-language models, or VLMs. The difference from image-to-text models is that these models take an additional text input, not restricting the model to certain use cases like image captioning, and may also be trained to accept a conversation as input.",
+  widgetModels: ["microsoft/kosmos-2-patch14-224"],
+  youtubeId: ""
+};
+var data_default11 = taskData11;
+// src/tasks/image-segmentation/data.ts
+var taskData12 = {
   datasets: [
     {
       description: "Scene segmentation dataset.",
@@ -2211,10 +2298,10 @@ var taskData11 = {
   widgetModels: ["facebook/detr-resnet-50-panoptic"],
   youtubeId: "dKE8SIt9C-w"
 };
-var data_default11 = taskData11;
+var data_default12 = taskData12;
 // src/tasks/mask-generation/data.ts
-var taskData12 = {
+var taskData13 = {
   datasets: [],
   demo: {
     inputs: [
@@ -2263,10 +2350,10 @@ var taskData12 = {
   widgetModels: [],
   youtubeId: ""
 };
-var data_default12 = taskData12;
+var data_default13 = taskData13;
 // src/tasks/object-detection/data.ts
-var taskData13 = {
+var taskData14 = {
   datasets: [
     {
       // TODO write proper description
@@ -2338,10 +2425,10 @@ var taskData13 = {
   widgetModels: ["facebook/detr-resnet-50"],
   youtubeId: "WdAeKSOpxhw"
 };
-var data_default13 = taskData13;
+var data_default14 = taskData14;
 // src/tasks/depth-estimation/data.ts
-var taskData14 = {
+var taskData15 = {
   datasets: [
     {
       description: "NYU Depth V2 Dataset: Video dataset containing both RGB and depth sensor data",
@@ -2395,10 +2482,10 @@ var taskData14 = {
   widgetModels: [""],
   youtubeId: ""
 };
-var data_default14 = taskData14;
+var data_default15 = taskData15;
 // src/tasks/placeholder/data.ts
-var taskData15 = {
+var taskData16 = {
   datasets: [],
   demo: {
     inputs: [],
@@ -2415,10 +2502,10 @@ var taskData15 = {
   /// (eg, text2text-generation is the canonical ID of translation)
   canonicalId: void 0
 };
-var data_default15 = taskData15;
+var data_default16 = taskData16;
 // src/tasks/reinforcement-learning/data.ts
-var taskData16 = {
+var taskData17 = {
   datasets: [
     {
       description: "A curation of widely used datasets for Data Driven Deep Reinforcement Learning (D4RL)",
@@ -2484,10 +2571,10 @@ var taskData16 = {
   widgetModels: [],
   youtubeId: "q0BiUn5LiBc"
 };
-var data_default16 = taskData16;
+var data_default17 = taskData17;
 // src/tasks/question-answering/data.ts
-var taskData17 = {
+var taskData18 = {
   datasets: [
     {
       // TODO write proper description
@@ -2551,10 +2638,10 @@ var taskData17 = {
   widgetModels: ["deepset/roberta-base-squad2"],
   youtubeId: "ajPx5LwJD-I"
 };
-var data_default17 = taskData17;
+var data_default18 = taskData18;
 // src/tasks/sentence-similarity/data.ts
-var taskData18 = {
+var taskData19 = {
   datasets: [
     {
       description: "Bing queries with relevant passages from various web sources.",
@@ -2646,10 +2733,10 @@ var taskData18 = {
   widgetModels: ["sentence-transformers/all-MiniLM-L6-v2"],
   youtubeId: "VCZq5AkbNEU"
 };
-var data_default18 = taskData18;
+var data_default19 = taskData19;
 // src/tasks/summarization/data.ts
-var taskData19 = {
+var taskData20 = {
   canonicalId: "text2text-generation",
   datasets: [
     {
@@ -2715,10 +2802,10 @@ var taskData19 = {
   widgetModels: ["sshleifer/distilbart-cnn-12-6"],
   youtubeId: "yHnr5Dk2zCI"
 };
-var data_default19 = taskData19;
+var data_default20 = taskData20;
 // src/tasks/table-question-answering/data.ts
-var taskData20 = {
+var taskData21 = {
   datasets: [
     {
       description: "The WikiTableQuestions dataset is a large-scale dataset for the task of question answering on semi-structured tables.",
@@ -2769,10 +2856,10 @@ var taskData20 = {
   summary: "Table Question Answering (Table QA) is the answering a question about an information on a given table.",
   widgetModels: ["google/tapas-base-finetuned-wtq"]
 };
-var data_default20 = taskData20;
+var data_default21 = taskData21;
 // src/tasks/tabular-classification/data.ts
-var taskData21 = {
+var taskData22 = {
   datasets: [
     {
       description: "A comprehensive curation of datasets covering all benchmarks.",
@@ -2836,10 +2923,10 @@ var taskData21 = {
   widgetModels: ["scikit-learn/tabular-playground"],
   youtubeId: ""
 };
-var data_default21 = taskData21;
+var data_default22 = taskData22;
 // src/tasks/tabular-regression/data.ts
-var taskData22 = {
+var taskData23 = {
   datasets: [
     {
       description: "A comprehensive curation of datasets covering all benchmarks.",
@@ -2891,10 +2978,10 @@ var taskData22 = {
   widgetModels: ["scikit-learn/Fish-Weight"],
   youtubeId: ""
 };
-var data_default22 = taskData22;
+var data_default23 = taskData23;
 // src/tasks/text-to-image/data.ts
-var taskData23 = {
+var taskData24 = {
   datasets: [
     {
       description: "RedCaps is a large-scale dataset of 12M image-text pairs collected from Reddit.",
@@ -2986,10 +3073,10 @@ var taskData23 = {
   widgetModels: ["CompVis/stable-diffusion-v1-4"],
   youtubeId: ""
 };
-var data_default23 = taskData23;
+var data_default24 = taskData24;
 // src/tasks/text-to-speech/data.ts
-var taskData24 = {
+var taskData25 = {
   canonicalId: "text-to-audio",
   datasets: [
     {
@@ -3054,10 +3141,10 @@ var taskData24 = {
   widgetModels: ["suno/bark"],
   youtubeId: "NW62DpzJ274"
 };
-var data_default24 = taskData24;
+var data_default25 = taskData25;
 // src/tasks/token-classification/data.ts
-var taskData25 = {
+var taskData26 = {
   datasets: [
     {
       description: "A widely used dataset useful to benchmark named entity recognition models.",
@@ -3133,10 +3220,10 @@ var taskData25 = {
   widgetModels: ["dslim/bert-base-NER"],
   youtubeId: "wVHdVlPScxA"
 };
-var data_default25 = taskData25;
+var data_default26 = taskData26;
 // src/tasks/translation/data.ts
-var taskData26 = {
+var taskData27 = {
   canonicalId: "text2text-generation",
   datasets: [
     {
@@ -3198,10 +3285,10 @@ var taskData26 = {
   widgetModels: ["t5-small"],
   youtubeId: "1JvfrvZgi6c"
 };
-var data_default26 = taskData26;
+var data_default27 = taskData27;
 // src/tasks/text-classification/data.ts
-var taskData27 = {
+var taskData28 = {
   datasets: [
     {
       description: "A widely used dataset used to benchmark multiple variants of text classification.",
@@ -3286,10 +3373,10 @@ var taskData27 = {
   widgetModels: ["distilbert-base-uncased-finetuned-sst-2-english"],
   youtubeId: "leNG9fN9FQU"
 };
-var data_default27 = taskData27;
+var data_default28 = taskData28;
 // src/tasks/text-generation/data.ts
-var taskData28 = {
+var taskData29 = {
   datasets: [
     {
       description: "A large multilingual dataset of text crawled from the web.",
@@ -3390,10 +3477,10 @@ var taskData28 = {
   widgetModels: ["HuggingFaceH4/zephyr-7b-beta"],
   youtubeId: "Vpjb1lu0MDk"
 };
-var data_default28 = taskData28;
+var data_default29 = taskData29;
 // src/tasks/text-to-video/data.ts
-var taskData29 = {
+var taskData30 = {
   datasets: [
     {
       description: "Microsoft Research Video to Text is a large-scale dataset for open domain video captioning",
@@ -3485,10 +3572,10 @@ var taskData29 = {
   widgetModels: [],
   youtubeId: void 0
 };
-var data_default29 = taskData29;
+var data_default30 = taskData30;
 // src/tasks/unconditional-image-generation/data.ts
-var taskData30 = {
+var taskData31 = {
   datasets: [
     {
       description: "The CIFAR-100 dataset consists of 60000 32x32 colour images in 100 classes, with 600 images per class.",
@@ -3550,10 +3637,10 @@ var taskData30 = {
   // TODO: Add related video
   youtubeId: ""
 };
-var data_default30 = taskData30;
+var data_default31 = taskData31;
 // src/tasks/video-classification/data.ts
-var taskData31 = {
+var taskData32 = {
   datasets: [
     {
       // TODO write proper description
@@ -3632,10 +3719,10 @@ var taskData31 = {
   widgetModels: [],
   youtubeId: ""
 };
-var data_default31 = taskData31;
+var data_default32 = taskData32;
 // src/tasks/visual-question-answering/data.ts
-var taskData32 = {
+var taskData33 = {
   datasets: [
     {
       description: "A widely used dataset containing questions (with answers) about images.",
@@ -3725,10 +3812,10 @@ var taskData32 = {
   widgetModels: ["dandelin/vilt-b32-finetuned-vqa"],
   youtubeId: ""
 };
-var data_default32 = taskData32;
+var data_default33 = taskData33;
 // src/tasks/zero-shot-classification/data.ts
-var taskData33 = {
+var taskData34 = {
   datasets: [
     {
       description: "A widely used dataset used to benchmark multiple variants of text classification.",
@@ -3787,10 +3874,10 @@ var taskData33 = {
   summary: "Zero-shot text classification is a task in natural language processing where a model is trained on a set of labeled examples but is then able to classify new examples from previously unseen classes.",
   widgetModels: ["facebook/bart-large-mnli"]
 };
-var data_default33 = taskData33;
+var data_default34 = taskData34;
 // src/tasks/zero-shot-image-classification/data.ts
-var taskData34 = {
+var taskData35 = {
   datasets: [
     {
       // TODO write proper description
@@ -3864,10 +3951,10 @@ var taskData34 = {
   widgetModels: ["openai/clip-vit-large-patch14-336"],
   youtubeId: ""
 };
-var data_default34 = taskData34;
+var data_default35 = taskData35;
 // src/tasks/zero-shot-object-detection/data.ts
-var taskData35 = {
+var taskData36 = {
   datasets: [],
   demo: {
     inputs: [
@@ -3922,7 +4009,7 @@ var taskData35 = {
   widgetModels: [],
   youtubeId: ""
 };
-var data_default35 = taskData35;
+var data_default36 = taskData36;
 // src/tasks/index.ts
 var TASKS_MODEL_LIBRARIES = {
@@ -3984,7 +4071,7 @@ var TASKS_MODEL_LIBRARIES = {
   "text-to-3d": [],
   "image-to-3d": []
 };
-function getData(type, partialTaskData = data_default15) {
+function getData(type, partialTaskData = data_default16) {
   return {
     ...partialTaskData,
     id: type,
@@ -3996,52 +4083,52 @@ var TASKS_DATA = {
   "audio-classification": getData("audio-classification", data_default),
   "audio-to-audio": getData("audio-to-audio", data_default2),
   "automatic-speech-recognition": getData("automatic-speech-recognition", data_default3),
-  "depth-estimation": getData("depth-estimation", data_default14),
+  "depth-estimation": getData("depth-estimation", data_default15),
   "document-question-answering": getData("document-question-answering", data_default4),
   "feature-extraction": getData("feature-extraction", data_default5),
   "fill-mask": getData("fill-mask", data_default6),
   "graph-ml": void 0,
   "image-classification": getData("image-classification", data_default7),
   "image-feature-extraction": getData("image-feature-extraction", data_default8),
-  "image-segmentation": getData("image-segmentation", data_default11),
-  "image-text-to-text": void 0,
+  "image-segmentation": getData("image-segmentation", data_default12),
   "image-to-image": getData("image-to-image", data_default9),
+  "image-text-to-text": getData("image-text-to-text", data_default11),
   "image-to-text": getData("image-to-text", data_default10),
   "image-to-video": void 0,
-  "mask-generation": getData("mask-generation", data_default12),
+  "mask-generation": getData("mask-generation", data_default13),
   "multiple-choice": void 0,
-  "object-detection": getData("object-detection", data_default13),
-  "video-classification": getData("video-classification", data_default31),
+  "object-detection": getData("object-detection", data_default14),
+  "video-classification": getData("video-classification", data_default32),
   other: void 0,
-  "question-answering": getData("question-answering", data_default17),
-  "reinforcement-learning": getData("reinforcement-learning", data_default16),
+  "question-answering": getData("question-answering", data_default18),
+  "reinforcement-learning": getData("reinforcement-learning", data_default17),
   robotics: void 0,
-  "sentence-similarity": getData("sentence-similarity", data_default18),
-  summarization: getData("summarization", data_default19),
-  "table-question-answering": getData("table-question-answering", data_default20),
+  "sentence-similarity": getData("sentence-similarity", data_default19),
+  summarization: getData("summarization", data_default20),
+  "table-question-answering": getData("table-question-answering", data_default21),
   "table-to-text": void 0,
-  "tabular-classification": getData("tabular-classification", data_default21),
-  "tabular-regression": getData("tabular-regression", data_default22),
+  "tabular-classification": getData("tabular-classification", data_default22),
+  "tabular-regression": getData("tabular-regression", data_default23),
   "tabular-to-text": void 0,
-  "text-classification": getData("text-classification", data_default27),
-  "text-generation": getData("text-generation", data_default28),
+  "text-classification": getData("text-classification", data_default28),
+  "text-generation": getData("text-generation", data_default29),
   "text-retrieval": void 0,
-  "text-to-image": getData("text-to-image", data_default23),
-  "text-to-speech": getData("text-to-speech", data_default24),
+  "text-to-image": getData("text-to-image", data_default24),
+  "text-to-speech": getData("text-to-speech", data_default25),
   "text-to-audio": void 0,
-  "text-to-video": getData("text-to-video", data_default29),
+  "text-to-video": getData("text-to-video", data_default30),
   "text2text-generation": void 0,
   "time-series-forecasting": void 0,
-  "token-classification": getData("token-classification", data_default25),
-  translation: getData("translation", data_default26),
-  "unconditional-image-generation": getData("unconditional-image-generation", data_default30),
-  "visual-question-answering": getData("visual-question-answering", data_default32),
+  "token-classification": getData("token-classification", data_default26),
+  translation: getData("translation", data_default27),
+  "unconditional-image-generation": getData("unconditional-image-generation", data_default31),
+  "visual-question-answering": getData("visual-question-answering", data_default33),
   "voice-activity-detection": void 0,
-  "zero-shot-classification": getData("zero-shot-classification", data_default33),
-  "zero-shot-image-classification": getData("zero-shot-image-classification", data_default34),
-  "zero-shot-object-detection": getData("zero-shot-object-detection", data_default35),
-  "text-to-3d": getData("text-to-3d", data_default15),
-  "image-to-3d": getData("image-to-3d", data_default15)
+  "zero-shot-classification": getData("zero-shot-classification", data_default34),
+  "zero-shot-image-classification": getData("zero-shot-image-classification", data_default35),
+  "zero-shot-object-detection": getData("zero-shot-object-detection", data_default36),
+  "text-to-3d": getData("text-to-3d", data_default16),
+  "image-to-3d": getData("image-to-3d", data_default16)
 };
 // src/model-libraries-snippets.ts
@@ -4089,6 +4176,11 @@ var bertopic = (model) => [
 model = BERTopic.load("${model.id}")`
 ];
+var bm25s = (model) => [
+  `from bm25s.hf import BM25HF
+retriever = BM25HF.load_from_hub("${model.id}")`
+];
 var diffusers_default = (model) => [
   `from diffusers import DiffusionPipeline
@@ -4705,6 +4797,16 @@ var MODEL_LIBRARIES_UI_ELEMENTS = {
       wildcard: { path: "*.npz" }
     }
   },
+  bm25s: {
+    prettyLabel: "BM25S",
+    repoName: "bm25s",
+    repoUrl: "https://github.com/xhluca/bm25s",
+    snippets: bm25s,
+    filter: false,
+    countDownloads: {
+      term: { path: "params.index.json" }
+    }
+  },
   chat_tts: {
     prettyLabel: "ChatTTS",
     repoName: "ChatTTS",
@@ -4817,6 +4919,14 @@ var MODEL_LIBRARIES_UI_ELEMENTS = {
       terms: { path: ["ckpt/tensor00000_000", "ckpt-0/tensor00000_000"] }
     }
   },
+  "hunyuan-dit": {
+    prettyLabel: "HunyuanDiT",
+    repoName: "HunyuanDiT",
+    repoUrl: "https://github.com/Tencent/HunyuanDiT",
+    countDownloads: {
+      terms: { path: ["pytorch_model_ema.pt", "pytorch_model_distill.pt"] }
+    }
+  },
   keras: {
     prettyLabel: "Keras",
     repoName: "Keras",