RubyGems - lex-llm-vllm - Versions diffs - 0.2.0 → 0.2.6 - Mend

lex-llm-vllm 0.2.0 → 0.2.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

checksums.yaml +4 -4
data/.github/workflows/ci.yml +13 -1
data/CHANGELOG.md +37 -0
data/Gemfile +2 -0
data/README.md +36 -7
data/lex-llm-vllm.gemspec +2 -1
data/lib/legion/extensions/llm/vllm/actors/fleet_worker.rb +43 -0
data/lib/legion/extensions/llm/vllm/provider.rb +42 -3
data/lib/legion/extensions/llm/vllm/runners/fleet_worker.rb +30 -0
data/lib/legion/extensions/llm/vllm/version.rb +1 -1
data/lib/legion/extensions/llm/vllm.rb +32 -16
metadata +19 -3

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 261a83f8a4243c795e10e759e5f7f0681cd02d91b91041ff6f11f50d498d1f2a
-  data.tar.gz: c136080255383ca0d3417937d3e4988701075fef4df4c33de3e85fbd9f6ae04b
+  metadata.gz: 14dc7ee5334135f8eece7622a27cb57bad3c9c885cb6203de56006b5d2a1b353
+  data.tar.gz: 59ea84f7c50a9407da2af50c51f77ad26894d45b7f06d9c0223198a73a7e22a8
 SHA512:
-  metadata.gz: a521587328074e46f4403783b85d001f6a9a4cab77e31556ea565432dea12535ed9d0c656b8f8212b20d37f196d8c08f86be25955ff25813ca908e03b5fa8e60
-  data.tar.gz: 3b74fa8c6ecfd4c71fb027a5eb13d3d41b7acf1c42cebcbfeea0e4143ec5ef9ad2693020c284eb3377a8f77fe6cd492c85ed9b9af8f515ad32918f152df224a8
+  metadata.gz: 05c8fa912c908ec88943277dfd2e2b82f84bbd4ff6880d4e1f288f1397baf2cc1f72c2d20e894684be14be9f5f213e381ea5f524bfed3162e116de0271009f93
+  data.tar.gz: 14fffc18eff78d0c8751fbb96c9db6cbdd2773af66c46359b5934fad09d9a8fa37183a4f123f7cb75008e44cf821a21d97756d47633e44a50ab935f3f5743f0d

data/.github/workflows/ci.yml CHANGED Viewed

@@ -8,8 +8,20 @@ jobs:
   ci:
     uses: LegionIO/.github/.github/workflows/ci.yml@main
+  excluded-files:
+    uses: LegionIO/.github/.github/workflows/excluded-files.yml@main
+  security:
+    uses: LegionIO/.github/.github/workflows/security-scan.yml@main
+  version-changelog:
+    uses: LegionIO/.github/.github/workflows/version-changelog.yml@main
+  dependency-review:
+    uses: LegionIO/.github/.github/workflows/dependency-review.yml@main
   release:
-    needs: ci
+    needs: [ci, excluded-files, security]
     if: github.event_name == 'push' && github.ref == 'refs/heads/main'
     uses: LegionIO/.github/.github/workflows/release.yml@main
     secrets:

data/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,42 @@
 # Changelog
+## 0.2.6 - 2026-05-06
+- Load provider-owned fleet actors through the LegionIO subscription base and the canonical vLLM provider root.
+- Keep fleet runners anchored on the provider root namespace so provider constants and instance discovery are always loaded.
+- Normalize configured `endpoint` and `api_base` aliases to `vllm_api_base`.
+- Preserve configured transport and tier metadata when vLLM builds routing offerings.
+- Gate release publishing on the shared security workflow.
+## 0.2.5 - 2026-05-06
+- Mark handled vLLM offering-discovery failures as handled when logging through `Legion::Logging::Helper`.
+- Refresh README dependency, defaults, and local verification guidance for the `lex-llm >= 0.4.3` fleet responder contract.
+## 0.2.4 - 2026-05-06
+- Use the shared `lex-llm` fleet provider responder helper for provider-owned fleet workers.
+- Remove the runtime `legion-llm` dependency and require `lex-llm >= 0.4.3` for responder-side fleet execution.
+## 0.2.3 - 2026-05-06
+- Remove require-time provider self-registration; `legion-llm` now owns adapter creation and registry writes from loaded provider discovery metadata.
+- Bump dependency floors to `lex-llm >= 0.4.1` and `legion-llm >= 0.9.1`.
+## 0.2.2 - 2026-05-06
+- Enforce the shared keyword-only `lex-llm` provider contract and accept `health(live:)`.
+- Move vLLM defaults back to `Legion::Extensions::Llm.provider_settings` with instance-level fleet responder settings.
+- Read vLLM thinking defaults from the nested provider instance settings shape.
+- Serve non-live vLLM offering reads from cached live model discovery instead of probing the configured endpoint.
+- Add provider-owned fleet responder actor and runner backed by `legion-llm` fleet policy execution.
+- Bump the transport dependency floor to `legion-transport >= 1.4.14`.
+## 0.2.1 - 2026-05-03
+- Normalize configured `base_url` instance settings to `vllm_api_base` so LegionIO local settings are honored during provider registration.
+- Strip a trailing `/v1` from configured vLLM API roots because OpenAI-compatible endpoints append their own `/v1/...` paths.
 ## 0.2.0 - 2026-05-01
 - Add auto-discovery via CredentialSources and AutoRegistration from lex-llm 0.3.0

data/Gemfile CHANGED Viewed

@@ -4,6 +4,8 @@ source 'https://rubygems.org'
 group :test do
   llm_base_path = ENV.fetch('LEX_LLM_PATH', File.expand_path('../lex-llm', __dir__))
+  transport_path = ENV.fetch('LEGION_TRANSPORT_PATH', File.expand_path('../../legion-transport', __dir__))
+  gem 'legion-transport', path: transport_path if File.directory?(transport_path)
   gem 'lex-llm', path: llm_base_path if File.directory?(llm_base_path)
 end

data/README.md CHANGED Viewed

@@ -2,7 +2,7 @@
 LegionIO LLM provider extension for [vLLM](https://docs.vllm.ai/).
-This gem lives under `Legion::Extensions::Llm::Vllm` and depends on `lex-llm` for shared provider-neutral routing, fleet, and schema primitives.
+This gem lives under `Legion::Extensions::Llm::Vllm` and depends on `lex-llm >= 0.4.3` for shared provider-neutral routing, response normalization, fleet envelopes, responder-side fleet execution, and schema primitives.
 Load it with `require 'legion/extensions/llm/vllm'`.
@@ -19,7 +19,7 @@ Load it with `require 'legion/extensions/llm/vllm'`.
 - vLLM management helpers: `/health`, `/version`, `/reset_prefix_cache`, `/reset_mm_cache`, `/sleep`, `/wake_up`
 - Normalized OpenAI-compatible capability and modality metadata for discovered models
 - Shared fleet/default settings via `Legion::Extensions::Llm.provider_settings`
-- Full `Legion::Logging::Helper` integration with structured `handle_exception` across all classes
+- Structured `Legion::Logging::Helper` handling for provider discovery and fallback paths
 ## Defaults
@@ -30,10 +30,20 @@ Legion::Extensions::Llm::Vllm.default_settings
 #   instances: {
 #     default: {
 #       endpoint: "http://localhost:8000",
-#       tier: :private,
+#       tier: :direct,
 #       transport: :http,
-#       usage: { inference: true, embedding: true },
-#       limits: { concurrency: 8 }
+#       credentials: { api_key: nil },
+#       enable_thinking: true,
+#       usage: { inference: true, embedding: true, image: true },
+#       limits: { concurrency: 1 },
+#       fleet: {
+#         enabled: false,
+#         respond_to_requests: false,
+#         capabilities: [:chat, :stream_chat, :embed],
+#         lanes: [],
+#         concurrency: 1,
+#         queue_suffix: nil
+#       }
 #     }
 #   }
 # }
@@ -50,6 +60,25 @@ Legion::Extensions::Llm.configure do |config|
 end
 ```
+## Fleet Responder
+Provider instances can opt in to consuming Legion LLM fleet requests. The provider-owned fleet actor only starts when at least one configured instance enables `respond_to_requests`, and request execution delegates to `Legion::Extensions::Llm::Fleet::ProviderResponder`.
+```yaml
+extensions:
+  llm:
+    vllm:
+      instances:
+        local:
+          fleet:
+            enabled: true
+            respond_to_requests: true
+            capabilities:
+              - chat
+              - stream_chat
+              - embed
+```
 ### Thinking Mode
 Enable vLLM thinking mode globally via settings:
@@ -87,8 +116,8 @@ Publishing is async (background threads) and never blocks the caller. All failur
 ```bash
 bundle install
-bundle exec rspec
-bundle exec rubocop
+bundle exec rspec --format json --out tmp/rspec_results.json --format progress --out tmp/rspec_progress.txt
+bundle exec rubocop -A
 ```
 ## License

data/lex-llm-vllm.gemspec CHANGED Viewed

@@ -26,5 +26,6 @@ Gem::Specification.new do |spec|
   spec.add_dependency 'legion-json', '>= 1.2.1'
   spec.add_dependency 'legion-logging', '>= 1.3.2'
   spec.add_dependency 'legion-settings', '>= 1.3.14'
-  spec.add_dependency 'lex-llm', '>= 0.3.0'
+  spec.add_dependency 'legion-transport', '>= 1.4.14'
+  spec.add_dependency 'lex-llm', '>= 0.4.3'
 end

data/lib/legion/extensions/llm/vllm/actors/fleet_worker.rb ADDED Viewed

@@ -0,0 +1,43 @@
+# frozen_string_literal: true
+begin
+  require 'legion/extensions/actors/subscription'
+rescue LoadError => e
+  warn(e.message) if $VERBOSE
+end
+unless defined?(Legion::Extensions::Actors::Subscription)
+  raise LoadError, 'LegionIO actor runtime is required for vLLM fleet worker'
+end
+require 'legion/extensions/llm/vllm'
+require 'legion/extensions/llm/fleet/provider_responder'
+module Legion
+  module Extensions
+    module Llm
+      module Vllm
+        module Actor
+          # Subscription actor for vLLM fleet request consumption.
+          class FleetWorker < Legion::Extensions::Actors::Subscription
+            def runner_class
+              'Legion::Extensions::Llm::Vllm::Runners::FleetWorker'
+            end
+            def runner_function
+              'handle_fleet_request'
+            end
+            def use_runner?
+              false
+            end
+            def enabled?
+              Legion::Extensions::Llm::Fleet::ProviderResponder.enabled_for?(Vllm.discover_instances)
+            end
+          end
+        end
+      end
+    end
+  end
+end

data/lib/legion/extensions/llm/vllm/provider.rb CHANGED Viewed

@@ -68,8 +68,8 @@ module Legion
           def sleep_url = '/sleep'
           def wake_up_url = '/wake_up'
-          def health
-            log.info { "checking health at #{api_base}#{health_url}" }
+          def health(live: false)
+            log.info { "checking health live=#{live} at #{api_base}#{health_url}" }
             connection.get(health_url).body
           end
@@ -88,6 +88,18 @@ module Legion
             end
           end
+          def discover_offerings(live: false, **)
+            models = if live
+                       @cached_models = list_models
+                     else
+                       Array(@cached_models)
+                     end
+            models.map { |model_info| offering_from_model(model_info) }
+          rescue StandardError => e
+            handle_exception(e, level: :warn, handled: true, operation: 'vllm.discover_offerings')
+            []
+          end
           def version
             log.info { "fetching version from #{api_base}#{version_url}" }
             connection.get(version_url).body
@@ -112,6 +124,28 @@ module Legion
           private
+          def offering_from_model(model_info)
+            Legion::Extensions::Llm::Routing::ModelOffering.new(
+              provider_family: :vllm,
+              instance_id: config.respond_to?(:instance_id) ? config.instance_id : :default,
+              transport: offering_transport,
+              tier: offering_tier,
+              model: model_info.id,
+              usage_type: model_info.embedding? ? :embedding : :inference,
+              capabilities: model_info.capabilities.map(&:to_s),
+              limits: { context_window: model_info.context_length }.compact,
+              metadata: { context_length: model_info.context_length }
+            )
+          end
+          def offering_transport
+            config.respond_to?(:transport) ? config.transport : :http
+          end
+          def offering_tier
+            config.respond_to?(:tier) ? config.tier : :direct
+          end
           def render_payload(messages, tools:, temperature:, model:, stream:, schema:, thinking:, tool_prefs:) # rubocop:disable Metrics/ParameterLists
             payload = super
             payload.delete(:reasoning_effort)
@@ -131,7 +165,12 @@ module Legion
             return false unless defined?(Legion::Settings)
             vllm = Legion::Settings.dig(:llm, :providers, :vllm)
-            vllm.is_a?(Hash) && (vllm[:enable_thinking] == true || vllm['enable_thinking'] == true)
+            return false unless vllm.is_a?(Hash)
+            vllm[:enable_thinking] == true ||
+              vllm['enable_thinking'] == true ||
+              vllm.dig(:instances, :default, :enable_thinking) == true ||
+              vllm.dig('instances', 'default', 'enable_thinking') == true
           rescue StandardError => e
             handle_exception(e, level: :debug, handled: true, operation: 'vllm.thinking_setting')
             false

data/lib/legion/extensions/llm/vllm/runners/fleet_worker.rb ADDED Viewed

@@ -0,0 +1,30 @@
+# frozen_string_literal: true
+require 'legion/extensions/llm/fleet/provider_responder'
+require 'legion/extensions/llm/vllm'
+module Legion
+  module Extensions
+    module Llm
+      module Vllm
+        module Runners
+          # Runner entrypoint for vLLM fleet request execution.
+          module FleetWorker
+            module_function
+            def handle_fleet_request(payload, delivery: nil, properties: nil)
+              Legion::Extensions::Llm::Fleet::ProviderResponder.call(
+                payload: payload,
+                provider_family: Vllm::PROVIDER_FAMILY,
+                provider_class: Vllm::Provider,
+                provider_instances: -> { Vllm.discover_instances },
+                delivery: delivery,
+                properties: properties
+              )
+            end
+          end
+        end
+      end
+    end
+  end
+end

data/lib/legion/extensions/llm/vllm/version.rb CHANGED Viewed

@@ -4,7 +4,7 @@ module Legion
   module Extensions
     module Llm
       module Vllm
-        VERSION = '0.2.0'
+        VERSION = '0.2.6'
       end
     end
   end

data/lib/legion/extensions/llm/vllm.rb CHANGED Viewed

@@ -16,17 +16,26 @@ module Legion
         PROVIDER_FAMILY = :vllm
         def self.default_settings
-          {
-            enabled: false,
-            base_url: 'localhost:8000/v1',
-            default_model: nil,
-            enable_thinking: true,
-            model_whitelist: [],
-            model_blacklist: [],
-            model_cache_ttl: 300,
-            tls: { enabled: false, verify: :peer },
-            instances: {}
-          }
+          ::Legion::Extensions::Llm.provider_settings(
+            family: PROVIDER_FAMILY,
+            instance: {
+              endpoint: 'http://localhost:8000',
+              tier: :direct,
+              transport: :http,
+              credentials: { api_key: nil },
+              enable_thinking: true,
+              usage: { inference: true, embedding: true, image: true },
+              limits: { concurrency: 1 },
+              fleet: {
+                enabled: false,
+                respond_to_requests: false,
+                capabilities: %i[chat stream_chat embed],
+                lanes: [],
+                concurrency: 1,
+                queue_suffix: nil
+              }
+            }
+          )
         end
         def self.provider_class
@@ -51,19 +60,26 @@ module Legion
           configured = CredentialSources.setting(:extensions, :llm, :vllm, :instances)
           if configured.is_a?(Hash)
             configured.each do |name, config|
-              instances[name.to_sym] = config.merge(tier: :direct)
+              instances[name.to_sym] = normalize_instance_config(config).merge(tier: :direct)
             end
           end
           instances
         end
-        if Legion::Extensions::Llm::Configuration.respond_to?(:register_provider_options)
-          Legion::Extensions::Llm::Configuration.register_provider_options(Provider.configuration_options)
+        def self.normalize_instance_config(config)
+          normalized = config.to_h.transform_keys(&:to_sym)
+          normalized[:vllm_api_base] ||= normalized.delete(:base_url)
+          normalized[:vllm_api_base] ||= normalized.delete(:api_base)
+          normalized[:vllm_api_base] ||= normalized.delete(:endpoint)
+          normalized[:vllm_api_base] = normalize_api_base(normalized[:vllm_api_base]) if normalized[:vllm_api_base]
+          normalized
+        end
+        def self.normalize_api_base(url)
+          url.to_s.sub(%r{/v1/?\z}, '')
         end
       end
     end
   end
 end
-Legion::Extensions::Llm::Vllm.register_discovered_instances

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: lex-llm-vllm
 version: !ruby/object:Gem::Version
-  version: 0.2.0
+  version: 0.2.6
 platform: ruby
 authors:
 - LegionIO
@@ -51,20 +51,34 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: 1.3.14
+- !ruby/object:Gem::Dependency
+  name: legion-transport
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.4.14
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.4.14
 - !ruby/object:Gem::Dependency
   name: lex-llm
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: 0.3.0
+        version: 0.4.3
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: 0.3.0
+        version: 0.4.3
 description: vLLM provider integration for the LegionIO LLM routing framework.
 email:
 - matthewdiverson@gmail.com
@@ -83,7 +97,9 @@ files:
 - README.md
 - lex-llm-vllm.gemspec
 - lib/legion/extensions/llm/vllm.rb
+- lib/legion/extensions/llm/vllm/actors/fleet_worker.rb
 - lib/legion/extensions/llm/vllm/provider.rb
+- lib/legion/extensions/llm/vllm/runners/fleet_worker.rb
 - lib/legion/extensions/llm/vllm/version.rb
 homepage: https://github.com/LegionIO/lex-llm-vllm
 licenses: