PyPI - effgen - Versions diffs - 0.2.2__tar.gz → 0.2.3__tar.gz - Mend

effgen 0.2.2tar.gz → 0.2.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (258) hide show

{effgen-0.2.2/effgen.egg-info → effgen-0.2.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: effgen
-Version: 0.2.2
+Version: 0.2.3
 Summary: A comprehensive framework for building agents with Small Language Models
 Home-page: https://github.com/ctrl-gaurav/effGen
 Author: Gaurav Srivastava
@@ -108,6 +108,16 @@ Provides-Extra: gguf
 Requires-Dist: llama-cpp-python>=0.2.0; extra == "gguf"
 Provides-Extra: cerebras
 Requires-Dist: cerebras-cloud-sdk>=1.0; extra == "cerebras"
+Provides-Extra: groq
+Requires-Dist: groq>=0.15; extra == "groq"
+Provides-Extra: together
+Requires-Dist: together>=1.3; extra == "together"
+Provides-Extra: fireworks
+Requires-Dist: fireworks-ai>=0.15; extra == "fireworks"
+Provides-Extra: replicate
+Requires-Dist: replicate>=1.0; extra == "replicate"
+Provides-Extra: hf
+Requires-Dist: huggingface_hub>=0.26; extra == "hf"
 Provides-Extra: flash-attn
 Requires-Dist: flash-attn>=2.3.0; extra == "flash-attn"
 Provides-Extra: vector-db
@@ -148,6 +158,11 @@ Requires-Dist: rouge-score>=0.1.2; extra == "all"
 Requires-Dist: nltk>=3.8.0; extra == "all"
 Requires-Dist: llama-cpp-python>=0.2.0; extra == "all"
 Requires-Dist: cerebras-cloud-sdk>=1.0; extra == "all"
+Requires-Dist: groq>=0.15; extra == "all"
+Requires-Dist: together>=1.3; extra == "all"
+Requires-Dist: fireworks-ai>=0.15; extra == "all"
+Requires-Dist: replicate>=1.0; extra == "all"
+Requires-Dist: huggingface_hub>=0.26; extra == "all"
 Requires-Dist: bitsandbytes>=0.46.1; extra == "all"
 Requires-Dist: datasets>=2.14.0; extra == "all"
 Dynamic: author

{effgen-0.2.2 → effgen-0.2.3}/README.md RENAMED Viewed

@@ -36,6 +36,7 @@
 | | Date | Update |
 |:---:|:---|:---|
+| 🚀 | **4 May 2026** | **v0.2.3 Released**: 5 new cloud backends (Groq, Together AI, Fireworks, Replicate, HuggingFace Inference) — 9 providers total. Unified ProviderRegistry, `effgen doctor` auth check, backend parity matrix. [See changelog](CHANGELOG.md#023---2026-05-04) |
 | 🚀 | **28 Apr 2026** | **v0.2.2 Released**: Gemini 3.x/2.5/2.0 registry, `thinking_budget`, Google Search grounding, Files API, Gemini native tools (GoogleSearch, UrlContext, CodeExecution). Anthropic Claude 4.7 registry, extended thinking, prompt caching (`cache_control`), streaming polish, experimental native tools. [See changelog](CHANGELOG.md#022---2026-04-28) |
 | 🚀 | **25 Apr 2026** | **v0.2.1 Released**: Cerebras backend (4 free-tier models, streaming, native tool-calling, rate-limit coordinator, cost tracking) + OpenAI gpt-5/gpt-5.4-nano/o-series with `reasoning_effort`, prompt caching, structured outputs v2, and OpenAI native tools (web_search, code_interpreter, file_search). [See changelog](CHANGELOG.md#021---2026-04-25) |
 | 🚀 | **9 Apr 2026** | **v0.2.0 Released**: Major release — native tool calling, guardrails, multi-agent orchestration, RAG pipeline, 31 tools, eval framework, production API server, MLX Apple Silicon support, Python & TypeScript SDKs. [See changelog](CHANGELOG.md#020---2026-04-09) |
@@ -270,10 +271,30 @@ Production API<br/>
 ---
-## 🆕 What's New in v0.2.2
+## 🆕 What's New in v0.2.3
 <details open>
-<summary><b>Top 5 features in v0.2.2</b></summary>
+<summary><b>Top 5 features in v0.2.3</b></summary>
+1. **5 new cloud backends** — `GroqAdapter`, `TogetherAdapter`, `FireworksAdapter`, `ReplicateAdapter`, `HFInferenceAdapter` — each with streaming, native tools, rate-limit coordination, and cost tracking. 9 providers total.
+   ```python
+   model = load_model("llama-3.1-8b-instant", provider="groq")
+   model = load_model("Qwen/Qwen2.5-72B-Instruct", provider="hf")
+   ```
+2. **Unified ProviderRegistry** — `list_providers()`, `list_models(provider)`, `lookup(model_id)` consolidated across all 9 adapters. `AmbiguousModelError` on bare IDs shared across providers.
+3. **`effgen doctor`** — new CLI command showing which providers have API keys configured.
+4. **Backend parity matrix** — canonical agentic task ("(17 × 23) + sqrt(144) = 403") runs identically across all providers; streaming and error surfaces verified uniform. See `docs/providers/parity.md`.
+5. **HuggingFace Router support** — `HFInferenceAdapter` with 124-model dynamic catalog, `refresh_models()` + `check_drift()`, `ModelUnavailableError` with `suggest_alternatives()`, and custom Inference Endpoint URL.
+</details>
+<details>
+<summary><b>Top 5 features from v0.2.2</b></summary>
 1. **Gemini 3.x/2.5/2.0 + Gemma families** — full model registry with correct context windows, output limits, and feature flags; SDK migrated to `google-genai>=1.0.0`.
@@ -586,15 +607,47 @@ result = agent.run("What does the documentation say about configuration?")
 ## 🤖 Multi-Model Support
-effGen supports **7 inference backends** and is tested across 11+ model families:
+effGen supports **9 cloud inference providers** + 4 local backends, tested across 11+ model families:
+| Backend | Platform | Install | Best For |
+|---------|----------|---------|----------|
+| **MLX** | Apple Silicon (M1/M2/M3/M4) | `effgen[mlx]` | Native Metal GPU, unified memory, 4/8-bit quantization |
+| **MLX-VLM** | Apple Silicon | `effgen[mlx-vlm]` | Vision-Language models (Qwen2-VL, LLaVA, Phi-3 Vision, 30+ architectures) |
+| **vLLM** | NVIDIA GPU | `effgen[vllm]` | High-throughput batch inference |
+| **Transformers** | Any (CPU/GPU) | *(bundled)* | Universal compatibility, local models |
+| **OpenAI** | Cloud API | *(bundled)* | gpt-5/gpt-5.4/o-series, reasoning_effort, structured outputs, native tools |
+| **Anthropic** | Cloud API | *(bundled)* | Claude 4.7/4.x, extended thinking, prompt caching, native tools |
+| **Google Gemini** | Cloud API | *(bundled)* | Gemini 3.x/2.5/2.0, thinking_budget, grounding, Files API, native tools |
+| **Cerebras** | Cloud API | `effgen[cerebras]` | 4 free-tier models (llama3.1-8b, qwen-3-235b), ultra-low latency |
+| **Groq** | Cloud API | `effgen[groq]` | 16 models (llama-3.3-70b, mixtral, qwen3-32b), ultra-fast free-tier inference |
+| **Together AI** | Cloud API | `effgen[together]` | 163-model catalog (llama, deepseek, qwen, mistral), per-model pricing |
+| **Fireworks** | Cloud API | `effgen[fireworks]` | 80 chat models (54 tool-capable), serverless + dedicated |
+| **Replicate** | Cloud API | `effgen[replicate]` | 38 models, async run-poll, SSE streaming, compute-second billing |
+| **HuggingFace** | Cloud API | `effgen[hf]` | 124-model HF Router catalog, custom Inference Endpoints, free serverless tier |
+### Provider Auth Check
+```bash
+# See which API keys are configured
+effgen doctor
+```
+### Quick Cloud Start
-| Backend | Platform | Best For |
-|---------|----------|----------|
-| **MLX** | Apple Silicon (M1/M2/M3/M4) | Native Metal GPU, unified memory, 4/8-bit quantization |
-| **MLX-VLM** | Apple Silicon | Vision-Language models (Qwen2-VL, LLaVA, Phi-3 Vision, 30+ architectures) |
-| **vLLM** | NVIDIA GPU | High-throughput batch inference |
-| **Transformers** | Any (CPU/GPU) | Universal compatibility |
-| **API** | Cloud | OpenAI (gpt-5/gpt-5.4/o-series + reasoning_effort), Anthropic (Claude 4.7/4.x + thinking + caching), Google Gemini (3.x/2.5/2.0 + thinking_budget + grounding + Files API + native tools), Cerebras (4 free-tier models, streaming + native tools) |
+```python
+from effgen import load_model, Agent
+from effgen.core.agent import AgentConfig
+from effgen.tools.builtin import Calculator
+# Any of the 9 cloud providers
+model = load_model("llama-3.1-8b-instant", provider="groq")          # Groq
+# model = load_model("meta-llama/Llama-3.3-70B-Instruct-Turbo", provider="together")
+# model = load_model("Qwen/Qwen2.5-72B-Instruct", provider="hf")
+agent = Agent(config=AgentConfig(name="agent", model=model, tools=[Calculator()]))
+result = agent.run("What is (17 * 23) + sqrt(144)?")
+print(result.output)  # → 403
+```
 ### Top Recommended Models

{effgen-0.2.2 → effgen-0.2.3}/effgen/__init__.py RENAMED Viewed

@@ -9,7 +9,7 @@ This framework enables SLMs to function as powerful agentic systems through:
 - Comprehensive configuration management
 """
-__version__ = "0.2.2"
+__version__ = "0.2.3"
 __author__ = "effGen Team"
 __license__ = "Apache-2.0"
@@ -74,30 +74,75 @@ from effgen.models import (
     AnthropicAdapter,
     BaseModel,
     CerebrasAdapter,
+    FireworksAdapter,
     GeminiAdapter,
     GenerationConfig,
     GenerationResult,
+    GroqAdapter,
+    HFInferenceAdapter,
     ModelLoader,
     OpenAIAdapter,
+    ReplicateAdapter,
     StreamChunk,
+    TogetherAdapter,
     TransformersEngine,
     VLLMEngine,
     load_model,
 )
 from effgen.models._rate_limit import RateLimitCoordinator, RateLimitExceeded  # noqa: I001
+from effgen.models.auth import check_keys
 from effgen.models.cerebras_models import available_models as cerebras_available_models
 from effgen.models.cerebras_models import free_tier_models as cerebras_free_tier_models
 from effgen.models.cerebras_models import model_info as cerebras_model_info
-from effgen.models.errors import ModelRefusalError, ToolIncompatibleError
+from effgen.models.errors import (
+    AmbiguousModelError,
+    ModelAuthError,
+    ModelNotFoundError,
+    ModelRefusalError,
+    ModelTimeoutError,
+    ModelUnavailableError,
+    ToolIncompatibleError,
+)
+from effgen.models.fireworks_models import available_models as fireworks_available_models
+from effgen.models.fireworks_models import chat_models as fireworks_chat_models
+from effgen.models.fireworks_models import pricing_table as fireworks_pricing_table
+from effgen.models.fireworks_models import refresh_models as fireworks_refresh_models
+from effgen.models.fireworks_models import tool_capable_models as fireworks_tool_capable_models
 from effgen.models.gemini_models import available_models as gemini_available_models
 from effgen.models.gemini_models import free_tier_models as gemini_free_tier_models
 from effgen.models.gemini_models import model_info as gemini_model_info
 from effgen.models.gemini_models import recommended_models as gemini_recommended_models
+from effgen.models.groq_models import available_models as groq_available_models
+from effgen.models.groq_models import chat_models as groq_chat_models
+from effgen.models.groq_models import tool_capable_models as groq_tool_capable_models
+from effgen.models.hf_inference_models import available_models as hf_available_models
+from effgen.models.hf_inference_models import catalog_summary as hf_catalog_summary
+from effgen.models.hf_inference_models import chat_models as hf_chat_models
+from effgen.models.hf_inference_models import cheapest_provider as hf_cheapest_provider
+from effgen.models.hf_inference_models import check_drift as hf_check_drift
+from effgen.models.hf_inference_models import get_model_info as hf_get_model_info
+from effgen.models.hf_inference_models import list_providers_for as hf_list_providers_for
+from effgen.models.hf_inference_models import refresh_models as hf_refresh_models
+from effgen.models.hf_inference_models import serverless_models as hf_serverless_models
+from effgen.models.hf_inference_models import suggest_alternatives as hf_suggest_alternatives
+from effgen.models.hf_inference_models import tool_capable_models as hf_tool_capable_models
 from effgen.models.openai_models import available_models as openai_available_models
 from effgen.models.openai_models import chat_models as openai_chat_models
 from effgen.models.openai_models import model_info as openai_model_info
 from effgen.models.openai_models import reasoning_models as openai_reasoning_models  # noqa: I001
 from effgen.models.openai_schema import to_openai_schema
+from effgen.models.registry import ProviderRegistry, list_models, list_providers, lookup
+from effgen.models.replicate_models import available_models as replicate_available_models
+from effgen.models.replicate_models import get_model_info as replicate_get_model_info
+from effgen.models.replicate_models import refresh_models as replicate_refresh_models
+from effgen.models.replicate_models import streaming_models as replicate_streaming_models
+from effgen.models.replicate_models import tool_capable_models as replicate_tool_capable_models
+from effgen.models.together_models import available_models as together_available_models
+from effgen.models.together_models import chat_models as together_chat_models
+from effgen.models.together_models import pricing_table as together_pricing_table
+from effgen.models.together_models import refresh_models as together_refresh_models
+from effgen.models.together_models import serverless_models as together_serverless_models
+from effgen.models.together_models import tool_capable_models as together_tool_capable_models
 # Preset imports
 from effgen.presets import create_agent, list_presets
@@ -204,17 +249,38 @@ __all__ = [
     "StreamChunk",
     "GeminiAdapter",
     "CerebrasAdapter",
+    "GroqAdapter",
+    "TogetherAdapter",
+    "FireworksAdapter",
+    "ReplicateAdapter",
+    "HFInferenceAdapter",
     "ModelLoader",
     "GenerationConfig",
     "GenerationResult",
     "RateLimitCoordinator",
     "RateLimitExceeded",
     "ModelRefusalError",
+    "ModelAuthError",
+    "ModelTimeoutError",
+    "ModelUnavailableError",
+    "ModelNotFoundError",
+    "AmbiguousModelError",
+    "ToolIncompatibleError",
     "to_openai_schema",
+    # Provider registry + auth
+    "ProviderRegistry",
+    "list_providers",
+    "list_models",
+    "lookup",
+    "check_keys",
     # Cerebras helpers
     "cerebras_available_models",
     "cerebras_free_tier_models",
     "cerebras_model_info",
+    # Groq helpers
+    "groq_available_models",
+    "groq_chat_models",
+    "groq_tool_capable_models",
     # OpenAI helpers
     "openai_available_models",
     "openai_chat_models",
@@ -225,6 +291,37 @@ __all__ = [
     "gemini_free_tier_models",
     "gemini_model_info",
     "gemini_recommended_models",
+    # Together helpers
+    "together_available_models",
+    "together_chat_models",
+    "together_tool_capable_models",
+    "together_pricing_table",
+    "together_refresh_models",
+    "together_serverless_models",
+    # Fireworks helpers
+    "fireworks_available_models",
+    "fireworks_chat_models",
+    "fireworks_tool_capable_models",
+    "fireworks_pricing_table",
+    "fireworks_refresh_models",
+    # Replicate helpers
+    "replicate_available_models",
+    "replicate_streaming_models",
+    "replicate_tool_capable_models",
+    "replicate_refresh_models",
+    "replicate_get_model_info",
+    # HF Inference helpers
+    "hf_available_models",
+    "hf_chat_models",
+    "hf_tool_capable_models",
+    "hf_serverless_models",
+    "hf_suggest_alternatives",
+    "hf_get_model_info",
+    "hf_refresh_models",
+    "hf_check_drift",
+    "hf_catalog_summary",
+    "hf_list_providers_for",
+    "hf_cheapest_provider",
     # Tools
     "BaseTool",

{effgen-0.2.2 → effgen-0.2.3}/effgen/cli.py RENAMED Viewed

@@ -1832,6 +1832,13 @@ Examples:
     # Health check command
     subparsers.add_parser('health', help='Check effGen infrastructure health')
+    # Doctor command — API key availability check
+    doctor_parser = subparsers.add_parser('doctor', help='Check provider API key availability')
+    doctor_parser.add_argument('--json', dest='output_json', action='store_true',
+                               help='Output as JSON')
+    doctor_parser.add_argument('--provider', dest='doctor_provider',
+                               help='Check a specific provider only')
     # Plugin commands
     plugin_parser = subparsers.add_parser('create-plugin', help='Generate a plugin project scaffold')
     plugin_parser.add_argument('plugin_name', help='Plugin name (e.g. my_tools)')
@@ -2007,6 +2014,101 @@ dependencies = ["effgen"]
     return 0
+def _handle_doctor_command(args) -> int:
+    """Handle the 'effgen doctor' subcommand — check API key availability."""
+    import json as _json
+    # Load .env from standard locations before checking keys (all, non-overriding)
+    try:
+        from dotenv import load_dotenv
+        for _env_path in [
+            Path.home() / ".effgen" / ".env",
+            Path(".env"),
+            Path(__file__).parent.parent / ".env",
+        ]:
+            if _env_path.exists():
+                load_dotenv(_env_path, override=False)
+    except ImportError:
+        pass
+    from effgen.models.auth import check_keys
+    from effgen.models.registry import ProviderRegistry
+    # Ensure all adapters are imported so they self-register
+    try:
+        import effgen.models.anthropic_adapter  # noqa: F401
+        import effgen.models.cerebras_adapter  # noqa: F401
+        import effgen.models.fireworks_adapter  # noqa: F401
+        import effgen.models.gemini_adapter  # noqa: F401
+        import effgen.models.groq_adapter  # noqa: F401
+        import effgen.models.hf_inference_adapter  # noqa: F401
+        import effgen.models.openai_adapter  # noqa: F401
+        import effgen.models.replicate_adapter  # noqa: F401
+        import effgen.models.together_adapter  # noqa: F401
+    except Exception:
+        pass
+    provider_filter = getattr(args, 'doctor_provider', None)
+    providers_to_check = [provider_filter] if provider_filter else None
+    results = check_keys(providers_to_check)
+    if getattr(args, 'output_json', False):
+        print(_json.dumps(results, indent=2))
+        return 0
+    # Pretty-print
+    if RICH_AVAILABLE:
+        console = Console()
+        table = Table(title="effgen doctor — Provider API Key Status")
+        table.add_column("Provider", style="cyan", no_wrap=True)
+        table.add_column("Status", style="white")
+        table.add_column("Env Key Found", style="dim")
+        table.add_column("Models", style="dim", justify="right")
+        for prov in sorted(results):
+            info = results[prov]
+            available = info.get("available", False)
+            env_key = info.get("env_key") or "—"
+            status = "[green]READY[/green]" if available else "[red]MISSING KEY[/red]"
+            try:
+                n_models = str(len(ProviderRegistry.list_models(prov)))
+            except Exception:
+                n_models = "?"
+            table.add_row(prov, status, env_key, n_models)
+        console.print(table)
+        # Print hints for missing keys
+        missing = [p for p, i in results.items() if not i.get("available")]
+        if missing:
+            console.print("\n[yellow]Missing keys — set in ~/.effgen/.env or export:[/yellow]")
+            for prov in missing:
+                keys = results[prov].get("env_keys_checked", [])
+                key_str = " or ".join(keys) if keys else f"{prov.upper()}_API_KEY"
+                console.print(f"  export {key_str}=<your-key>")
+        else:
+            console.print("\n[green]All providers ready![/green]")
+    else:
+        print("effgen doctor — Provider API Key Status")
+        print("-" * 50)
+        for prov in sorted(results):
+            info = results[prov]
+            available = info.get("available", False)
+            env_key = info.get("env_key") or "not set"
+            status = "READY" if available else "MISSING KEY"
+            print(f"  {prov:15s} {status:12s}  (key: {env_key})")
+        missing = [p for p, i in results.items() if not i.get("available")]
+        if missing:
+            print("\nMissing keys — set in ~/.effgen/.env or export:")
+            for prov in missing:
+                keys = results[prov].get("env_keys_checked", [])
+                key_str = " or ".join(keys) if keys else f"{prov.upper()}_API_KEY"
+                print(f"  export {key_str}=<your-key>")
+    return 0
 def _handle_workflow_command(args, cli) -> int:
     """Handle the 'workflow' CLI subcommand."""
     from effgen.core.workflow import WorkflowDAG
@@ -2100,7 +2202,7 @@ def _handle_batch_command(args, cli) -> int:
             config = AgentConfig(name="batch-agent", model=model, max_iterations=5)
             agent = Agent(config)
-        config = BatchConfig(
+        batch_config = BatchConfig(
             max_concurrency=args.concurrency,
             batch_size=args.batch_size,
             retry_failed=args.retries,
@@ -2109,7 +2211,7 @@ def _handle_batch_command(args, cli) -> int:
         runner = BatchRunner(agent)
         cli.print(f"Loading queries from {input_path}...")
-        result = runner.run_from_file(input_path, config=config, query_field=query_field)
+        result = runner.run_from_file(input_path, config=batch_config, query_field=query_field)
         cli.print(
             f"\nBatch complete: {result.succeeded}/{result.total} succeeded "
@@ -2405,6 +2507,8 @@ def main():
             checker = HealthChecker()
             all_passed = checker.print_results()
             exit_code = 0 if all_passed else 1
+        elif args.command == 'doctor':
+            exit_code = _handle_doctor_command(args)
         elif args.command == 'resume':
             exit_code = _handle_resume_command(args, cli)
         elif args.command == 'sessions':

{effgen-0.2.2 → effgen-0.2.3}/effgen/models/__init__.py RENAMED Viewed

@@ -33,6 +33,7 @@ from effgen.models.anthropic_cache import (
 )
 from effgen.models.anthropic_models import ANTHROPIC_MODELS
 from effgen.models.anthropic_models import get_model_info as get_anthropic_model_info
+from effgen.models.auth import check_keys
 from effgen.models.base import (
     BaseModel,
     BatchModel,
@@ -52,14 +53,30 @@ from effgen.models.capabilities import (
     register_model_capability,
 )
 from effgen.models.cerebras_adapter import CerebrasAdapter
-from effgen.models.errors import ModelRefusalError
+from effgen.models.errors import (
+    AmbiguousModelError,
+    ModelAuthError,
+    ModelNotFoundError,
+    ModelRefusalError,
+    ModelTimeoutError,
+    ModelUnavailableError,
+)
+from effgen.models.fireworks_adapter import FireworksAdapter
+from effgen.models.fireworks_models import FIREWORKS_MODELS
 from effgen.models.gemini_adapter import GeminiAdapter
 from effgen.models.gemini_files import FileRef, upload_file
+from effgen.models.groq_adapter import GroqAdapter
+from effgen.models.groq_models import GROQ_MODELS
+from effgen.models.hf_inference_adapter import HFInferenceAdapter
+from effgen.models.hf_inference_models import HF_MODELS
 from effgen.models.lazy import LazyModel
 from effgen.models.model_loader import ModelLoader, load_model
 from effgen.models.openai_adapter import OpenAIAdapter
 from effgen.models.openai_schema import to_openai_schema
 from effgen.models.pool import ModelPool, PoolConfig
+from effgen.models.registry import ProviderRegistry, list_models, list_providers, lookup
+from effgen.models.replicate_adapter import ReplicateAdapter
+from effgen.models.replicate_models import REPLICATE_MODELS
 from effgen.models.router import (
     ComplexityEstimate,
     ComplexityLevel,
@@ -68,6 +85,8 @@ from effgen.models.router import (
     RoutingDecision,
     estimate_complexity,
 )
+from effgen.models.together_adapter import TogetherAdapter
+from effgen.models.together_models import TOGETHER_MODELS
 from effgen.models.transformers_engine import TransformersEngine
 from effgen.models.vllm_engine import VLLMEngine
@@ -105,6 +124,18 @@ __all__ = [
     "AnthropicAdapter",
     "GeminiAdapter",
     "CerebrasAdapter",
+    "GroqAdapter",
+    "TogetherAdapter",
+    "FireworksAdapter",
+    "ReplicateAdapter",
+    "HFInferenceAdapter",
+    # Model registries
+    "GROQ_MODELS",
+    "TOGETHER_MODELS",
+    "FIREWORKS_MODELS",
+    "REPLICATE_MODELS",
+    "HF_MODELS",
     # Anthropic streaming
     "StreamChunk",
@@ -138,6 +169,18 @@ __all__ = [
     # Errors
     "ModelRefusalError",
+    "ModelAuthError",
+    "ModelTimeoutError",
+    "ModelUnavailableError",
+    "ModelNotFoundError",
+    "AmbiguousModelError",
+    # Provider registry + auth
+    "ProviderRegistry",
+    "list_providers",
+    "list_models",
+    "lookup",
+    "check_keys",
     # Schema helpers
     "to_openai_schema",

{effgen-0.2.2 → effgen-0.2.3}/effgen/models/_cost.py RENAMED Viewed

@@ -63,11 +63,99 @@ _RATES: dict[str, dict[str, tuple[float, float]]] = {
         "gemini-1.5-pro": (3.50, 10.50),
         "*": (1.00, 3.00),
     },
+    "groq": {
+        # OFFICIAL: Groq free tier = $0 for all models (2026-04-28)
+        "*": (0.0, 0.0),
+    },
+    "together": {
+        # OFFICIAL rates from Together AI pricing page (2026-04-28).
+        # Per million tokens: (input, output)
+        "meta-llama/Llama-3.3-70B-Instruct-Turbo": (0.88, 0.88),
+        "meta-llama/Meta-Llama-3-8B-Instruct-Lite": (0.10, 0.10),
+        "meta-llama/Meta-Llama-3-8B-Instruct": (0.20, 0.20),
+        "meta-llama/Llama-4-Scout-17B-16E-Instruct": (0.18, 0.59),
+        "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8": (0.27, 0.85),
+        "meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo": (0.18, 0.18),
+        "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo": (0.88, 0.88),
+        "meta-llama/Meta-Llama-3-70B-Instruct-Turbo": (0.88, 0.88),
+        "meta-llama/Meta-Llama-3.1-405B-Instruct": (3.50, 3.50),
+        "meta-llama/Llama-3.2-1B-Instruct": (0.06, 0.06),
+        "meta-llama/Llama-3-8b-chat-hf": (0.20, 0.20),
+        "Qwen/Qwen2.5-7B-Instruct-Turbo": (0.30, 0.30),
+        "Qwen/Qwen2.5-72B-Instruct-Turbo": (1.20, 1.20),
+        "Qwen/Qwen2.5-72B-Instruct": (1.20, 1.20),
+        "Qwen/Qwen2.5-14B-Instruct": (0.80, 0.80),
+        "Qwen/Qwen2.5-Coder-32B-Instruct": (0.80, 0.80),
+        "Qwen/QwQ-32B": (1.20, 1.20),
+        "Qwen/Qwen3.5-9B": (0.10, 0.15),
+        "Qwen/Qwen3.5-397B-A17B": (0.60, 3.60),
+        "Qwen/Qwen3-235B-A22B-Instruct-2507-tput": (0.20, 0.60),
+        "Qwen/Qwen3-Coder-Next-FP8": (0.50, 1.20),
+        "Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8": (2.00, 2.00),
+        "Qwen/Qwen3-235B-A22B-Thinking-2507": (0.65, 3.00),
+        "Qwen/Qwen3-Next-80B-A3B-Instruct": (0.15, 1.50),
+        "Qwen/Qwen3-Next-80B-A3B-Thinking": (0.15, 1.50),
+        "Qwen/Qwen3-VL-8B-Instruct": (0.18, 0.68),
+        "Qwen/Qwen3-VL-32B-Instruct": (0.50, 1.50),
+        "Qwen/Qwen2-VL-72B-Instruct": (1.20, 1.20),
+        "Qwen/Qwen2.5-VL-72B-Instruct": (1.95, 8.00),
+        "deepseek-ai/DeepSeek-V3.1": (0.60, 1.70),
+        "deepseek-ai/DeepSeek-V3-0324": (1.25, 1.25),
+        "deepseek-ai/DeepSeek-V4-Pro": (2.10, 4.40),
+        "deepseek-ai/DeepSeek-R1": (3.00, 7.00),
+        "deepseek-ai/DeepSeek-R1-0528": (3.00, 7.00),
+        "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": (0.18, 0.18),
+        "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": (0.00, 0.00),
+        "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B": (1.60, 1.60),
+        "deepseek-ai/DeepSeek-R1-Distill-Llama-70B": (2.00, 2.00),
+        "mistralai/Mixtral-8x7B-Instruct-v0.1": (0.60, 0.60),
+        "mistralai/Mistral-7B-Instruct-v0.3": (0.20, 0.20),
+        "mistralai/Mistral-7B-Instruct-v0.1": (0.20, 0.20),
+        "mistralai/Mistral-Small-24B-Instruct-2501": (0.10, 0.30),
+        "mistralai/Ministral-3-14B-Instruct-2512": (0.20, 0.20),
+        "openai/gpt-oss-20b": (0.05, 0.20),
+        "openai/gpt-oss-120b": (0.15, 0.60),
+        "nvidia/Llama-3.1-Nemotron-70B-Instruct-HF": (0.88, 0.88),
+        "nvidia/NVIDIA-Nemotron-Nano-9B-v2": (0.06, 0.25),
+        "moonshotai/Kimi-K2.5": (0.50, 2.80),
+        "moonshotai/Kimi-K2.6": (1.20, 4.50),
+        "moonshotai/Kimi-K2-Thinking": (1.20, 4.00),
+        "MiniMaxAI/MiniMax-M2.5": (0.30, 1.20),
+        "MiniMaxAI/MiniMax-M2.7": (0.30, 1.20),
+        "MiniMaxAI/MiniMax-M2": (0.00, 0.00),
+        "zai-org/GLM-4.5-Air-FP8": (0.20, 1.10),
+        "zai-org/GLM-4.6": (0.60, 2.20),
+        "zai-org/GLM-4.7": (0.45, 2.00),
+        "zai-org/GLM-5": (1.00, 3.20),
+        "zai-org/GLM-5.1": (1.40, 4.40),
+        "google/gemma-4-31B-it": (0.20, 0.50),
+        "google/gemma-3n-E4B-it": (0.06, 0.12),
+        "LiquidAI/LFM2-24B-A2B": (0.03, 0.12),
+        "arize-ai/qwen-2-1.5b-instruct": (0.10, 0.10),
+        "essentialai/rnj-1-instruct": (0.15, 0.15),
+        "deepcogito/cogito-v2-1-671b": (1.25, 1.25),
+        "Qwen/Qwen2-1.5B-Instruct": (0.02, 0.02),
+        # Free / dedicated-endpoint models → $0 in tracker
+        "*": (0.0, 0.0),
+    },
 }
 def _rate(provider: str, model: str) -> tuple[float, float]:
     """Lookup (input_per_M, output_per_M) rate for provider/model."""
+    if provider.lower() == "fireworks":
+        try:
+            from effgen.models.fireworks_models import FIREWORKS_MODELS
+            info = FIREWORKS_MODELS.get(model)
+            if info is not None:
+                return (
+                    float(info.get("pricing_per_1m_input", 0.0)),
+                    float(info.get("pricing_per_1m_output", 0.0)),
+                )
+        except Exception:
+            pass
+        return (0.0, 0.0)
     provider_rates = _RATES.get(provider.lower(), {})
     # Exact match first, then prefix match, then wildcard
     if model in provider_rates:

{effgen-0.2.2 → effgen-0.2.3}/effgen/models/anthropic_adapter.py RENAMED Viewed

@@ -33,6 +33,7 @@ from effgen.models.base import (
     ModelType,
     TokenCount,
 )
+from effgen.models.errors import ModelAuthError, ModelNotFoundError
 logger = logging.getLogger(__name__)
@@ -391,8 +392,15 @@ class AnthropicAdapter(FunctionCallingModel):
                 metadata=metadata,
             )
+        except (ModelAuthError, ModelNotFoundError):
+            raise
         except Exception as e:
             logger.error(f"Anthropic API call failed: {e}")
+            msg = str(e)
+            if "401" in msg or "authentication_error" in msg.lower() or "invalid x-api-key" in msg.lower():
+                raise ModelAuthError("anthropic", self.model_name, msg) from e
+            if "404" in msg or "not_found_error" in msg.lower():
+                raise ModelNotFoundError("anthropic", self.model_name, msg) from e
             raise RuntimeError(f"Generation failed: {e}") from e
     # ── Generate stream ───────────────────────────────────────────────────
@@ -802,3 +810,23 @@ class AnthropicAdapter(FunctionCallingModel):
         self.total_cost = 0.0
         self.total_tokens = 0
         logger.info("Usage statistics reset")
+# ---------------------------------------------------------------------------
+# Self-register with the ProviderRegistry on first import (idempotent)
+# ---------------------------------------------------------------------------
+def _register() -> None:
+    try:
+        from effgen.models.anthropic_models import ANTHROPIC_MODELS
+        from effgen.models.registry import ProviderRegistry
+        ProviderRegistry.register(
+            "anthropic",
+            AnthropicAdapter,
+            ANTHROPIC_MODELS,
+            env_keys=["ANTHROPIC_API_KEY"],
+        )
+    except Exception:
+        pass
+_register()

effgen 0.2.2__tar.gz → 0.2.3__tar.gz

effgen 0.2.2tar.gz → 0.2.3tar.gz