PyPI - langfun - Versions diffs - 0.1.2.dev202502110804__py3-none-any.whl → 0.1.2.dev202502120804__py3-none-any.whl - Mend

langfun 0.1.2.dev202502110804py3-none-any.whl → 0.1.2.dev202502120804py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (27) hide show

langfun/core/__init__.py +6 -2
langfun/core/language_model.py +365 -22
langfun/core/language_model_test.py +123 -35
langfun/core/llms/__init__.py +50 -57
langfun/core/llms/anthropic.py +434 -163
langfun/core/llms/anthropic_test.py +20 -1
langfun/core/llms/deepseek.py +90 -51
langfun/core/llms/deepseek_test.py +15 -16
langfun/core/llms/fake.py +6 -0
langfun/core/llms/gemini.py +480 -390
langfun/core/llms/gemini_test.py +27 -7
langfun/core/llms/google_genai.py +80 -50
langfun/core/llms/google_genai_test.py +11 -4
langfun/core/llms/groq.py +268 -167
langfun/core/llms/groq_test.py +9 -3
langfun/core/llms/openai.py +839 -328
langfun/core/llms/openai_compatible.py +3 -18
langfun/core/llms/openai_compatible_test.py +20 -5
langfun/core/llms/openai_test.py +14 -4
langfun/core/llms/rest.py +11 -6
langfun/core/llms/vertexai.py +238 -240
langfun/core/llms/vertexai_test.py +35 -8
{langfun-0.1.2.dev202502110804.dist-info → langfun-0.1.2.dev202502120804.dist-info}/METADATA +1 -1
{langfun-0.1.2.dev202502110804.dist-info → langfun-0.1.2.dev202502120804.dist-info}/RECORD +27 -27
{langfun-0.1.2.dev202502110804.dist-info → langfun-0.1.2.dev202502120804.dist-info}/LICENSE +0 -0
{langfun-0.1.2.dev202502110804.dist-info → langfun-0.1.2.dev202502120804.dist-info}/WHEEL +0 -0
{langfun-0.1.2.dev202502110804.dist-info → langfun-0.1.2.dev202502120804.dist-info}/top_level.txt +0 -0

langfun/core/llms/openai.py CHANGED Viewed

@@ -13,302 +13,878 @@
 # limitations under the License.
 """Language models from OpenAI."""
+import datetime
+import functools
 import os
-from typing import Annotated, Any
+from typing import Annotated, Any, Final
 import langfun.core as lf
 from langfun.core.llms import openai_compatible
 import pyglove as pg
-# From https://platform.openai.com/settings/organization/limits
-_DEFAULT_TPM = 250000
-_DEFAULT_RPM = 3000
+class OpenAIModelInfo(lf.ModelInfo):
+  """OpenAI model info."""
-SUPPORTED_MODELS_AND_SETTINGS = {
-    # Models from https://platform.openai.com/docs/models
-    # RPM is from https://platform.openai.com/docs/guides/rate-limits
-    # o1 (preview) models.
-    # Pricing in US dollars, from https://openai.com/api/pricing/
-    # as of 2024-10-10.
-    'o3-mini-2025-01-31': pg.Dict(
+  # Constants for supported MIME types.
+  INPUT_IMAGE_TYPES = [
+      'image/png',
+      'image/jpeg',
+      'image/gif',
+      'image/webp',
+  ]
+  LINKS = dict(
+      models='https://platform.openai.com/docs/models',
+      pricing='https://openai.com/api/pricing/',
+      rate_limits='https://platform.openai.com/docs/guides/rate-limits',
+      error_codes='https://platform.openai.com/docs/guides/error-codes',
+  )
+  provider: Final[str] = 'OpenAI'  # pylint: disable=invalid-name
+#
+# !!! Please sort models by model family and model_id (time descending).
+#
+SUPPORTED_MODELS = [
+    # o3-mini models.
+    OpenAIModelInfo(
+        model_id='o3-mini',
+        alias_for='o3-mini-2025-01-31',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.0011,
-        cost_per_1k_output_tokens=0.0044,
+        model_type='thinking',
+        description='GPT O3-mini model (latest).',
+        url='https://platform.openai.com/docs/models#o3-mini',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=200_000,
+            max_output_tokens=100_000,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=0.55,
+            cost_per_1m_input_tokens=1.1,
+            cost_per_1m_output_tokens=4.4,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'o3-mini': pg.Dict(
+    OpenAIModelInfo(
+        model_id='o3-mini-2025-01-31',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.0011,
-        cost_per_1k_output_tokens=0.0044,
+        model_type='thinking',
+        description='GPT O3-mini model (01/31/2025).',
+        url='https://platform.openai.com/docs/models#o3-mini',
+        release_date=datetime.datetime(2025, 1, 31),
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=200_000,
+            max_output_tokens=100_000,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=0.55,
+            cost_per_1m_input_tokens=1.1,
+            cost_per_1m_output_tokens=4.4,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'o1': pg.Dict(
+    # o1-mini models.
+    OpenAIModelInfo(
+        model_id='o1-mini',
+        alias_for='o1-mini-2024-09-12',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.015,
-        cost_per_1k_output_tokens=0.06,
+        model_type='thinking',
+        description='GPT O1-mini model (latest).',
+        url='https://platform.openai.com/docs/models#o1',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=65_536,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=0.55,
+            cost_per_1m_input_tokens=1.1,
+            cost_per_1m_output_tokens=4.4,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'o1-preview': pg.Dict(
+    OpenAIModelInfo(
+        model_id='o1-mini-2024-09-12',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.015,
-        cost_per_1k_output_tokens=0.06,
+        model_type='thinking',
+        description='GPT O1-mini model (09/12/2024).',
+        url='https://platform.openai.com/docs/models#o1',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=65_536,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=0.55,
+            cost_per_1m_input_tokens=1.1,
+            cost_per_1m_output_tokens=4.4,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'o1-preview-2024-09-12': pg.Dict(
+    OpenAIModelInfo(
+        model_id='o1-preview',
+        alias_for='o1-preview-2024-09-12',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.015,
-        cost_per_1k_output_tokens=0.06,
+        model_type='thinking',
+        description='GPT O1-preview model (latest).',
+        url='https://platform.openai.com/docs/models#o1',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=32_768,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=7.5,
+            cost_per_1m_input_tokens=15.0,
+            cost_per_1m_output_tokens=60.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'o1-mini': pg.Dict(
+    OpenAIModelInfo(
+        model_id='o1-preview-2024-09-12',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.003,
-        cost_per_1k_output_tokens=0.012,
+        model_type='thinking',
+        description='GPT O1-preview model (09/12/2024).',
+        url='https://platform.openai.com/docs/models#o1',
+        release_date=datetime.datetime(2024, 9, 12),
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=32_768,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=7.5,
+            cost_per_1m_input_tokens=15.0,
+            cost_per_1m_output_tokens=60.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=2_000_000,
+        ),
     ),
-    'o1-mini-2024-09-12': pg.Dict(
+    # o1 models.
+    OpenAIModelInfo(
+        model_id='o1',
+        alias_for='o1-2024-12-17',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.003,
-        cost_per_1k_output_tokens=0.012,
+        model_type='thinking',
+        description='GPT O1 model (latest).',
+        url='https://platform.openai.com/docs/models#o1',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=200_000,
+            max_output_tokens=100_000,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=7.5,
+            cost_per_1m_input_tokens=15.0,
+            cost_per_1m_output_tokens=60.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=2_000_000,
+        ),
     ),
-    # GPT-4o models
-    'gpt-4o-mini': pg.Dict(
+    OpenAIModelInfo(
+        model_id='o1-2024-12-17',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.00015,
-        cost_per_1k_output_tokens=0.0006,
+        model_type='thinking',
+        description='GPT O1 model (12/17/2024).',
+        url='https://platform.openai.com/docs/models#o1',
+        release_date=datetime.datetime(2024, 12, 17),
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=200_000,
+            max_output_tokens=100_000,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=7.5,
+            cost_per_1m_input_tokens=15.0,
+            cost_per_1m_output_tokens=60.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=2_000_000,
+        ),
     ),
-    'gpt-4o-mini-2024-07-18': pg.Dict(
+    # GPT-4o-mini models
+    OpenAIModelInfo(
+        model_id='gpt-4o-mini',
+        alias_for='gpt-4o-mini-2024-07-18',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.00015,
-        cost_per_1k_output_tokens=0.0006,
+        model_type='instruction-tuned',
+        description='GPT 4o mini model (latest).',
+        url='https://platform.openai.com/docs/models#gpt-4o-mini',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=16_384,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=0.075,
+            cost_per_1m_input_tokens=0.15,
+            cost_per_1m_output_tokens=0.6,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'gpt-4o': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4o-mini-2024-07-18',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.0025,
-        cost_per_1k_output_tokens=0.01,
+        model_type='instruction-tuned',
+        description='GPT 4o mini model (07/18/2024).',
+        url='https://platform.openai.com/docs/models#gpt-4o-mini',
+        release_date=datetime.datetime(2024, 7, 18),
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=16_384,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=0.075,
+            cost_per_1m_input_tokens=0.15,
+            cost_per_1m_output_tokens=0.6,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'gpt-4o-2024-11-20': pg.Dict(
+    # GPT-4o models
+    OpenAIModelInfo(
+        model_id='gpt-4o',
+        alias_for='gpt-4o-2024-08-06',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.0025,
-        cost_per_1k_output_tokens=0.01,
+        model_type='instruction-tuned',
+        description='GPT 4o model (latest stable).',
+        url='https://platform.openai.com/docs/models#gpt-4o',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=16_384,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=1.25,
+            cost_per_1m_input_tokens=2.5,
+            cost_per_1m_output_tokens=10.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=2_000_000,
+        ),
     ),
-    'gpt-4o-2024-08-06': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4o-2024-11-20',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.0025,
-        cost_per_1k_output_tokens=0.01,
+        model_type='instruction-tuned',
+        description='GPT 4o model (11/20/2024).',
+        url='https://platform.openai.com/docs/models#gpt-4o',
+        release_date=datetime.datetime(2024, 11, 20),
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=16_384,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=1.25,
+            cost_per_1m_input_tokens=2.5,
+            cost_per_1m_output_tokens=10.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=2_000_000,
+        ),
     ),
-    'gpt-4o-2024-05-13': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4o-2024-08-06',
         in_service=True,
-        rpm=10000,
-        tpm=5000000,
-        cost_per_1k_input_tokens=0.005,
-        cost_per_1k_output_tokens=0.015,
+        model_type='instruction-tuned',
+        description='GPT 4o model (08/06/2024).',
+        url='https://platform.openai.com/docs/models#gpt-4o',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=16_384,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=1.25,
+            cost_per_1m_input_tokens=2.5,
+            cost_per_1m_output_tokens=10.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=2_000_000,
+        ),
     ),
-    # GPT-4-Turbo models
-    'gpt-4-turbo': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4o-2024-05-13',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.01,
-        cost_per_1k_output_tokens=0.03,
+        model_type='instruction-tuned',
+        description='GPT 4o model (05/13/2024).',
+        url='https://platform.opedsnai.com/docs/models#gpt-4o',
+        release_date=datetime.datetime(2024, 5, 13),
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=16_384,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=5.0,
+            cost_per_1m_output_tokens=15.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=2_000_000,
+        ),
     ),
-    'gpt-4-turbo-2024-04-09': pg.Dict(
+    OpenAIModelInfo(
+        model_id='chatgpt-4o-latest',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.01,
-        cost_per_1k_output_tokens=0.03,
+        model_type='instruction-tuned',
+        description='GPT 4o model ChatGPT version (latest).',
+        url='https://platform.openai.com/docs/models#gpt-4o',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=16_384,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=5.0,
+            cost_per_1m_output_tokens=15.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=2_000_000,
+        ),
     ),
-    'gpt-4-turbo-preview': pg.Dict(
+    # GPT-4 Turbo models.
+    OpenAIModelInfo(
+        model_id='gpt-4-turbo',
+        alias_for='gpt-4-turbo-2024-04-09',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.01,
-        cost_per_1k_output_tokens=0.03,
+        model_type='instruction-tuned',
+        description='GPT 4 Turbo model (latest).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=10.0,
+            cost_per_1m_output_tokens=30.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=800_000,
+        ),
     ),
-    'gpt-4-0125-preview': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4-turbo-2024-04-09',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.01,
-        cost_per_1k_output_tokens=0.03,
+        model_type='instruction-tuned',
+        description='GPT 4 Turbo model (04/09/2024).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        release_date=datetime.datetime(2024, 4, 9),
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=10.0,
+            cost_per_1m_output_tokens=30.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=800_000,
+        ),
     ),
-    'gpt-4-1106-preview': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4-turbo-preview',
+        alias_for='gpt-4-0125-preview',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.01,
-        cost_per_1k_output_tokens=0.03,
+        model_type='instruction-tuned',
+        description='GPT 4 Turbo preview model (latest).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=10.0,
+            cost_per_1m_output_tokens=30.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=800_000,
+        ),
     ),
-    'gpt-4-vision-preview': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4-0125-preview',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.01,
-        cost_per_1k_output_tokens=0.03,
+        model_type='instruction-tuned',
+        description='GPT 4 Turbo preview model (01/25/2024).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        release_date=datetime.datetime(2024, 1, 25),
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=10.0,
+            cost_per_1m_output_tokens=30.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=800_000,
+        ),
     ),
-    'gpt-4-1106-vision-preview': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4-1106-preview',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.01,
-        cost_per_1k_output_tokens=0.03,
+        model_type='instruction-tuned',
+        description='GPT 4 Turbo preview model (11/06/2024).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        release_date=datetime.datetime(2024, 11, 6),
+        input_modalities=OpenAIModelInfo.INPUT_IMAGE_TYPES,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=128_000,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=10.0,
+            cost_per_1m_output_tokens=30.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=800_000,
+        ),
     ),
-    # GPT-4 models
-    'gpt-4': pg.Dict(
+    # GPT-4 models.
+    OpenAIModelInfo(
+        model_id='gpt-4',
+        alias_for='gpt-4-0613',
         in_service=True,
-        rpm=10000,
-        tpm=300000,
-        cost_per_1k_input_tokens=0.03,
-        cost_per_1k_output_tokens=0.06,
-    ),
-    'gpt-4-0613': pg.Dict(
-        in_service=False,
-        rpm=10000,
-        tpm=300000,
-        cost_per_1k_input_tokens=0.03,
-        cost_per_1k_output_tokens=0.06,
-    ),
-    'gpt-4-0314': pg.Dict(
-        in_service=False,
-        rpm=10000,
-        tpm=300000,
-        cost_per_1k_input_tokens=0.03,
-        cost_per_1k_output_tokens=0.06,
+        model_type='instruction-tuned',
+        description='GPT 4 model (latest).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=8_192,
+            max_output_tokens=8_192,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=30.0,
+            cost_per_1m_output_tokens=60.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=300_000,
+        ),
     ),
-    'gpt-4-32k': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4-0613',
         in_service=True,
-        rpm=10000,
-        tpm=300000,
-        cost_per_1k_input_tokens=0.06,
-        cost_per_1k_output_tokens=0.12,
+        model_type='instruction-tuned',
+        description='GPT 4 model (06/13/2023).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        release_date=datetime.datetime(2023, 6, 13),
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=8_192,
+            max_output_tokens=8_192,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=30.0,
+            cost_per_1m_output_tokens=60.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=300_000,
+        ),
     ),
-    'gpt-4-32k-0613': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-4-0314',
         in_service=False,
-        rpm=10000,
-        tpm=300000,
-        cost_per_1k_input_tokens=0.06,
-        cost_per_1k_output_tokens=0.12,
+        model_type='instruction-tuned',
+        description='GPT 4 model (03/14/2023).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        release_date=datetime.datetime(2023, 3, 14),
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=8_192,
+            max_output_tokens=8_192,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=30.0,
+            cost_per_1m_output_tokens=60.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=300_000,
+        ),
     ),
-    'gpt-4-32k-0314': pg.Dict(
+    # GPT-4 32K models.
+    OpenAIModelInfo(
+        model_id='gpt-4-32k',
+        alias_for='gpt-4-32k-0613',
         in_service=False,
-        rpm=10000,
-        tpm=300000,
-        cost_per_1k_input_tokens=0.06,
-        cost_per_1k_output_tokens=0.12,
+        model_type='instruction-tuned',
+        description='GPT 4 32K model (latest).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=32_768,
+            max_output_tokens=8_192,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=60.0,
+            cost_per_1m_output_tokens=120.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=300_000,
+        ),
     ),
-    # GPT-3.5-Turbo models
-    'gpt-3.5-turbo': pg.Dict(
-        in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.0005,
-        cost_per_1k_output_tokens=0.0015,
+    OpenAIModelInfo(
+        model_id='gpt-4-32k-0613',
+        in_service=False,
+        model_type='instruction-tuned',
+        description='GPT 4 32K model (06/13/2023).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        release_date=datetime.datetime(2023, 6, 13),
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=32_768,
+            max_output_tokens=8_192,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=60.0,
+            cost_per_1m_output_tokens=120.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=300_000,
+        ),
     ),
-    'gpt-3.5-turbo-0125': pg.Dict(
-        in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.0005,
-        cost_per_1k_output_tokens=0.0015,
+    OpenAIModelInfo(
+        model_id='gpt-4-32k-0314',
+        in_service=False,
+        model_type='instruction-tuned',
+        description='GPT 4 32K model (03/14/2023).',
+        url='https://platform.openai.com/docs/models#gpt-4-turbo-and-gpt-4',
+        release_date=datetime.datetime(2023, 3, 14),
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=32_768,
+            max_output_tokens=8_192,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=60.0,
+            cost_per_1m_output_tokens=120.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=300_000,
+        ),
     ),
-    'gpt-3.5-turbo-1106': pg.Dict(
+    # GPT 3.5 Turbo models.
+    OpenAIModelInfo(
+        model_id='gpt-3.5-turbo',
+        alias_for='gpt-3.5-turbo-0125',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.001,
-        cost_per_1k_output_tokens=0.002,
+        model_type='instruction-tuned',
+        description='GPT 3.5 Turbo model (latest).',
+        url='https://platform.openai.com/docs/models#gpt-3-5-turbo',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_384,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=0.5,
+            cost_per_1m_output_tokens=1.5,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'gpt-3.5-turbo-0613': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-3.5-turbo-0125',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.0015,
-        cost_per_1k_output_tokens=0.002,
+        release_date=datetime.datetime(2024, 1, 25),
+        model_type='instruction-tuned',
+        description='GPT 3.5 Turbo model (01/25/2024).',
+        url='https://platform.openai.com/docs/models#gpt-3-5-turbo',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_384,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=0.5,
+            cost_per_1m_output_tokens=1.5,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'gpt-3.5-turbo-0301': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-3.5-turbo-1106',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.0015,
-        cost_per_1k_output_tokens=0.002,
+        release_date=datetime.datetime(2023, 11, 6),
+        model_type='instruction-tuned',
+        description='GPT 3.5 Turbo model (11/06/2023).',
+        url='https://platform.openai.com/docs/models#gpt-3-5-turbo',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_384,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=1.0,
+            cost_per_1m_output_tokens=2.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'gpt-3.5-turbo-16k': pg.Dict(
-        in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.003,
-        cost_per_1k_output_tokens=0.004,
+    OpenAIModelInfo(
+        model_id='gpt-3.5-turbo-0613',
+        in_service=False,
+        release_date=datetime.datetime(2023, 6, 13),
+        model_type='instruction-tuned',
+        description='GPT 3.5 Turbo model (06/13/2023).',
+        url='https://platform.openai.com/docs/models#gpt-3-5-turbo',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_384,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=1.5,
+            cost_per_1m_output_tokens=2.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'gpt-3.5-turbo-16k-0613': pg.Dict(
+    # GPT 3.5 Turbo 16K models.
+    OpenAIModelInfo(
+        model_id='gpt-3.5-turbo-16k',
+        alias_for='gpt-3.5-turbo-16k-0613',
         in_service=True,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.003,
-        cost_per_1k_output_tokens=0.004,
+        model_type='instruction-tuned',
+        description='GPT 3.5 Turbo 16K model (latest).',
+        url='https://platform.openai.com/docs/models#gpt-3-5-turbo',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_385,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=3.0,
+            cost_per_1m_output_tokens=4.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'gpt-3.5-turbo-16k-0301': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-3.5-turbo-16k-0613',
         in_service=False,
-        rpm=10000,
-        tpm=2000000,
-        cost_per_1k_input_tokens=0.003,
-        cost_per_1k_output_tokens=0.004,
-    ),
-    # GPT-3.5 models
-    'text-davinci-003': pg.Dict(
-        in_service=False, rpm=_DEFAULT_RPM, tpm=_DEFAULT_TPM
+        model_type='instruction-tuned',
+        description='GPT 3.5 Turbo 16K model (06/13/2023).',
+        url='https://platform.openai.com/docs/models#gpt-3-5-turbo',
+        release_date=datetime.datetime(2023, 6, 13),
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_385,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=3.0,
+            cost_per_1m_output_tokens=4.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'text-davinci-002': pg.Dict(
-        in_service=False, rpm=_DEFAULT_RPM, tpm=_DEFAULT_TPM
-    ),
-    'code-davinci-002': pg.Dict(
-        in_service=False, rpm=_DEFAULT_RPM, tpm=_DEFAULT_TPM
-    ),
-    # GPT-3 instruction-tuned models (Deprecated)
-    'text-curie-001': pg.Dict(
-        in_service=False, rpm=_DEFAULT_RPM, tpm=_DEFAULT_TPM
-    ),
-    'text-babbage-001': pg.Dict(
+    OpenAIModelInfo(
+        model_id='gpt-3.5-turbo-16k-0301',
         in_service=False,
-        rpm=_DEFAULT_RPM,
-        tpm=_DEFAULT_TPM,
+        model_type='instruction-tuned',
+        description='GPT 3.5 Turbo 16K model (03/01/2023).',
+        url='https://platform.openai.com/docs/models#gpt-3-5-turbo',
+        release_date=datetime.datetime(2023, 3, 1),
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_385,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=3.0,
+            cost_per_1m_output_tokens=4.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=10_000,
+            max_tokens_per_minute=10_000_000,
+        ),
     ),
-    'text-ada-001': pg.Dict(
+    # GPT 3.5 models.
+    OpenAIModelInfo(
+        model_id='text-davinci-003',
         in_service=False,
-        rpm=_DEFAULT_RPM,
-        tpm=_DEFAULT_TPM,
+        model_type='instruction-tuned',
+        description='ChatGPT 3.5 model.',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_384,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=3.0,
+            cost_per_1m_output_tokens=3.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=None,
+            max_tokens_per_minute=None,
+        ),
     ),
-    'davinci': pg.Dict(
-        in_service=False,
-        rpm=_DEFAULT_RPM,
-        tpm=_DEFAULT_TPM,
+    # GPT 3 models.
+    OpenAIModelInfo(
+        model_id='babbage-002',
+        in_service=True,
+        model_type='pretrained',
+        description='GPT3 base model babagge-002',
+        url='https://platform.openai.com/docs/models#gpt-base',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_384,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=2.0,
+            cost_per_1m_output_tokens=2.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=3_000,
+            max_tokens_per_minute=250_000,
+        ),
+    ),
+    OpenAIModelInfo(
+        model_id='davinci-002',
+        in_service=True,
+        model_type='pretrained',
+        description='GPT3 base model Davinci-002 ',
+        url='https://platform.openai.com/docs/models#gpt-base',
+        input_modalities=lf.ModelInfo.TEXT_INPUT_ONLY,
+        context_length=lf.ModelInfo.ContextLength(
+            max_input_tokens=16_384,
+            max_output_tokens=4_096,
+        ),
+        pricing=lf.ModelInfo.Pricing(
+            cost_per_1m_cached_input_tokens=None,
+            cost_per_1m_input_tokens=2.0,
+            cost_per_1m_output_tokens=2.0,
+        ),
+        # Tier 5 rate limits.
+        rate_limits=lf.ModelInfo.RateLimits(
+            max_requests_per_minute=3_000,
+            max_tokens_per_minute=250_000,
+        ),
     ),
-    'curie': pg.Dict(in_service=False, rpm=_DEFAULT_RPM, tpm=_DEFAULT_TPM),
-    'babbage': pg.Dict(in_service=False, rpm=_DEFAULT_RPM, tpm=_DEFAULT_TPM),
-    'ada': pg.Dict(in_service=False, rpm=_DEFAULT_RPM, tpm=_DEFAULT_TPM),
-    # GPT-3 base models that are still in service.
-    'babbage-002': pg.Dict(in_service=True, rpm=_DEFAULT_RPM, tpm=_DEFAULT_TPM),
-    'davinci-002': pg.Dict(in_service=True, rpm=_DEFAULT_RPM, tpm=_DEFAULT_TPM),
-}
+]
+_SUPPORTED_MODELS_BY_MODEL_ID = {m.model_id: m for m in SUPPORTED_MODELS}
 @lf.use_init_args(['model'])
@@ -317,7 +893,7 @@ class OpenAI(openai_compatible.OpenAICompatible):
   model: pg.typing.Annotated[
       pg.typing.Enum(
-          pg.MISSING_VALUE, list(SUPPORTED_MODELS_AND_SETTINGS.keys())
+          pg.MISSING_VALUE, list(s.model_id for s in SUPPORTED_MODELS)
       ),
       'The name of the model to use.',
   ]
@@ -355,6 +931,7 @@ class OpenAI(openai_compatible.OpenAICompatible):
     self._api_key = None
     self._organization = None
     self._project = None
+    self.__dict__.pop('model_info', None)
   def _initialize(self):
     api_key = self.api_key or os.environ.get('OPENAI_API_KEY', None)
@@ -380,41 +957,13 @@ class OpenAI(openai_compatible.OpenAICompatible):
       headers['OpenAI-Project'] = self._project
     return headers
-  @property
-  def model_id(self) -> str:
-    """Returns a string to identify the model."""
-    return f'OpenAI({self.model})'
-  @property
-  def max_concurrency(self) -> int:
-    rpm = SUPPORTED_MODELS_AND_SETTINGS[self.model].get('rpm', 0)
-    tpm = SUPPORTED_MODELS_AND_SETTINGS[self.model].get('tpm', 0)
-    return self.rate_to_max_concurrency(
-        requests_per_min=rpm, tokens_per_min=tpm
-    )
-  def estimate_cost(
-      self,
-      num_input_tokens: int,
-      num_output_tokens: int
-  ) -> float | None:
-    """Estimate the cost based on usage."""
-    cost_per_1k_input_tokens = SUPPORTED_MODELS_AND_SETTINGS[self.model].get(
-        'cost_per_1k_input_tokens', None
-    )
-    cost_per_1k_output_tokens = SUPPORTED_MODELS_AND_SETTINGS[self.model].get(
-        'cost_per_1k_output_tokens', None
-    )
-    if cost_per_1k_output_tokens is None or cost_per_1k_input_tokens is None:
-      return None
-    return (
-        cost_per_1k_input_tokens * num_input_tokens
-        + cost_per_1k_output_tokens * num_output_tokens
-    ) / 1000
+  @functools.cached_property
+  def model_info(self) -> OpenAIModelInfo:
+    return _SUPPORTED_MODELS_BY_MODEL_ID[self.model]
   @classmethod
   def dir(cls):
-    return [k for k, v in SUPPORTED_MODELS_AND_SETTINGS.items() if v.in_service]
+    return [s.model_id for s in SUPPORTED_MODELS if s.in_service]
   def _request_args(
       self, options: lf.LMSamplingOptions) -> dict[str, Any]:
@@ -426,17 +975,13 @@ class OpenAI(openai_compatible.OpenAICompatible):
 class GptO3Mini(OpenAI):
   """GPT-O3-mini."""
   model = 'o3-mini'
-  multimodal = True
   timeout = None
 class GptO1(OpenAI):
   """GPT-O1."""
   model = 'o1'
-  multimodal = True
   timeout = None
@@ -464,6 +1009,36 @@ class GptO1Mini_20240912(OpenAI):   # pylint: disable=invalid-name
   timeout = None
+class Gpt4oMini(OpenAI):
+  """GPT-4o Mini."""
+  model = 'gpt-4o-mini'
+class Gpt4oMini_20240718(OpenAI):  # pylint:disable=invalid-name
+  """GPT-4o Mini."""
+  model = 'gpt-4o-mini-2024-07-18'
+class Gpt4o(OpenAI):
+  """GPT-4o."""
+  model = 'gpt-4o'
+class Gpt4o_20241120(OpenAI):     # pylint:disable=invalid-name
+  """GPT-4o version 2024-11-20."""
+  model = 'gpt-4o-2024-11-20'
+class Gpt4o_20240806(OpenAI):     # pylint:disable=invalid-name
+  """GPT-4o version 2024-08-06."""
+  model = 'gpt-4o-2024-08-06'
+class Gpt4o_20240513(OpenAI):     # pylint:disable=invalid-name
+  """GPT-4o version 2024-05-13."""
+  model = 'gpt-4o-2024-05-13'
 class Gpt4(OpenAI):
   """GPT-4."""
   model = 'gpt-4'
@@ -472,13 +1047,11 @@ class Gpt4(OpenAI):
 class Gpt4Turbo(Gpt4):
   """GPT-4 Turbo with 128K context window. Knowledge up to Dec. 2023."""
   model = 'gpt-4-turbo'
-  multimodal = True
 class Gpt4Turbo_20240409(Gpt4Turbo):  # pylint:disable=invalid-name
   """GPT-4 Turbo with 128K context window. Knowledge up to Dec. 2023."""
   model = 'gpt-4-turbo-2024-04-09'
-  multimodal = True
 class Gpt4TurboPreview(Gpt4):
@@ -496,17 +1069,6 @@ class Gpt4TurboPreview_20231106(Gpt4TurboPreview):  # pylint: disable=invalid-na
   model = 'gpt-4-1106-preview'
-class Gpt4VisionPreview(Gpt4):
-  """GPT-4 Turbo vision preview. 128k context window. Knowledge to Apr. 2023."""
-  model = 'gpt-4-vision-preview'
-  multimodal = True
-class Gpt4VisionPreview_20231106(Gpt4):  # pylint: disable=invalid-name
-  """GPT-4 Turbo vision preview. 128k context window. Knowledge to Apr. 2023."""
-  model = 'gpt-4-1106-vision-preview'
 class Gpt4_20230613(Gpt4):    # pylint:disable=invalid-name
   """GPT-4 @20230613. 8K context window. Knowledge up to 9-2021."""
   model = 'gpt-4-0613'
@@ -522,42 +1084,6 @@ class Gpt4_32K_20230613(Gpt4_32K):    # pylint:disable=invalid-name
   model = 'gpt-4-32k-0613'
-class Gpt4oMini(OpenAI):
-  """GPT-4o Mini."""
-  model = 'gpt-4o-mini'
-  multimodal = True
-class Gpt4oMini_20240718(OpenAI):  # pylint:disable=invalid-name
-  """GPT-4o Mini."""
-  model = 'gpt-4o-mini-2024-07-18'
-  multimodal = True
-class Gpt4o(OpenAI):
-  """GPT-4o."""
-  model = 'gpt-4o'
-  multimodal = True
-class Gpt4o_20241120(OpenAI):     # pylint:disable=invalid-name
-  """GPT-4o version 2024-11-20."""
-  model = 'gpt-4o-2024-11-20'
-  multimodal = True
-class Gpt4o_20240806(OpenAI):     # pylint:disable=invalid-name
-  """GPT-4o version 2024-08-06."""
-  model = 'gpt-4o-2024-08-06'
-  multimodal = True
-class Gpt4o_20240513(OpenAI):     # pylint:disable=invalid-name
-  """GPT-4o version 2024-05-13."""
-  model = 'gpt-4o-2024-05-13'
-  multimodal = True
 class Gpt35(OpenAI):
   """GPT-3.5. 4K max tokens, trained up on data up to Sep, 2021."""
   model = 'text-davinci-003'
@@ -593,24 +1119,9 @@ class Gpt35Turbo16K_20230613(Gpt35Turbo):   # pylint:disable=invalid-name
   model = 'gpt-3.5-turbo-16k-0613'
-class Gpt3(OpenAI):
-  """Most capable GPT-3 model (Davinci) 2K context window size.
-  All GPT3 models have 2K max tokens and trained on data up to Oct 2019.
-  """
-  model = 'davinci'
-class Gpt3Curie(Gpt3):
-  """Very capable, but faster and lower cost than Davici."""
-  model = 'curie'
-class Gpt3Babbage(Gpt3):
-  """Capable of straightforward tasks, very fast and low cost."""
-  model = 'babbage'
+def _register_openai_models():
+  """Registers OpenAI models."""
+  for m in SUPPORTED_MODELS:
+    lf.LanguageModel.register(m.model_id, OpenAI)
-class Gpt3Ada(Gpt3):
-  """Capable of very simple tasks, the fastest/lowest cost among GPT3 models."""
-  model = 'ada'
+_register_openai_models()

langfun 0.1.2.dev202502110804__py3-none-any.whl → 0.1.2.dev202502120804__py3-none-any.whl

langfun 0.1.2.dev202502110804py3-none-any.whl → 0.1.2.dev202502120804py3-none-any.whl