npm - ltcai - Versions diffs - 0.4.0 → 0.5.0 - Mend

ltcai 0.4.0 → 0.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

package/docs/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,27 @@
 # Changelog
+## [0.5.0] - 2026-05-31
+> MLX 샘플링 API 호환성 버그 수정 + 릴리스 워크플로 build-only 전환.
+### Fixed
+- **MLX `temp` kwarg 제거 대응** — `llm_router.py`의 로컬 MLX 추론 경로(텍스트/
+  비전, 동기/스트리밍, 문서 생성 4계열·총 8개 호출부)가 `mlx_lm.generate` /
+  `mlx_vlm.generate`에 `temp=temperature`를 직접 넘기다가
+  `generate_step() got an unexpected keyword argument 'temp'`로 실패하던 문제
+  수정. mlx_lm ≥ 0.20 / mlx_vlm는 `temp` 키워드를 제거하고 `sampler` 콜러블을
+  받도록 API가 바뀌었으므로, `make_sampler(temp=...)`로 만든 sampler를
+  `sampler=`로 전달하도록 `_mlx_sampler()` 헬퍼를 도입.
+### Changed
+- **릴리스 워크플로 build-only 전환** — `.github/workflows/release.yml`이 v* 태그
+  push 시 단위 테스트와 빌드 산출물 생성(`python -m build`, `twine check`,
+  `npm pack`, `vsce package`)까지만 수행. `publish-pypi`/`publish-npm`/
+  `publish-vscode`/`publish-ovsx` job과 GitHub Secrets 의존(`if: secrets.*`)을
+  제거. 배포는 로컬에서 수동 인증 후 진행.
 ## [0.4.0] - 2026-05-31
 > Knowledge Graph v2 read/write cutover — legacy/v2 동등성 보장, dual-write

package/llm_router.py CHANGED Viewed

@@ -227,6 +227,18 @@ def ensure_mlx_runtime() -> None:
     except Exception as e:
         raise RuntimeError(f"MLX runtime is not available after install: {e}") from e
+def _mlx_sampler(temperature: float):
+    """Build an MLX sampler callable for the given temperature.
+    mlx_lm >= 0.20 removed the ``temp`` keyword from generate_step in favour of a
+    ``sampler`` callable, and mlx_vlm follows the same convention. Passing
+    ``temp=`` to generate/stream_generate now raises
+    ``generate_step() got an unexpected keyword argument 'temp'``. Both libraries
+    accept ``sampler=`` and share make_sampler from mlx_lm.sample_utils.
+    """
+    from mlx_lm.sample_utils import make_sampler
+    return make_sampler(temp=temperature)
 class LLMRouter:
     def __init__(self):
         self._cache: Dict[str, Tuple] = {}
@@ -514,10 +526,10 @@ class LLMRouter:
             is_gemma4 = "gemma-4" in self._current.lower() or "gemma4" in self._current.lower()
             if is_gemma4 and VLM_AVAILABLE:
                 from mlx_vlm import generate as vlm_gen
-                return vlm_gen(model, tokenizer, prompt=prompt, image=self._prep_image(image_data), max_tokens=max_tokens, temp=temperature, draft_model=draft_model, draft_kind="mtp")
+                return vlm_gen(model, tokenizer, prompt=prompt, image=self._prep_image(image_data), max_tokens=max_tokens, sampler=_mlx_sampler(temperature), draft_model=draft_model, draft_kind="mtp")
             else:
                 from mlx_lm import generate as lm_gen
-                return lm_gen(model, tokenizer, prompt=prompt, max_tokens=max_tokens, temp=temperature, draft_model=draft_model)
+                return lm_gen(model, tokenizer, prompt=prompt, max_tokens=max_tokens, sampler=_mlx_sampler(temperature), draft_model=draft_model)
         result = await loop.run_in_executor(executor, _gen)
         # mlx-vlm might return a GenerationResult object; extract the text
         if hasattr(result, "text"):
@@ -571,10 +583,10 @@ class LLMRouter:
                 is_gemma4 = "gemma-4" in self._current.lower() or "gemma4" in self._current.lower()
                 if is_gemma4 and VLM_AVAILABLE:
                     from mlx_vlm import stream_generate as vlm_stream
-                    gen = vlm_stream(model, tokenizer, prompt=prompt, image=self._prep_image(image_data), max_tokens=max_tokens, temp=temperature, draft_model=draft_model, draft_kind="mtp")
+                    gen = vlm_stream(model, tokenizer, prompt=prompt, image=self._prep_image(image_data), max_tokens=max_tokens, sampler=_mlx_sampler(temperature), draft_model=draft_model, draft_kind="mtp")
                 else:
                     from mlx_lm import stream_generate as lm_stream
-                    gen = lm_stream(model, tokenizer, prompt=prompt, max_tokens=max_tokens, temp=temperature, draft_model=draft_model)
+                    gen = lm_stream(model, tokenizer, prompt=prompt, max_tokens=max_tokens, sampler=_mlx_sampler(temperature), draft_model=draft_model)
                 for chunk in gen:
                     text = chunk.text if hasattr(chunk, "text") else (chunk[0] if isinstance(chunk, tuple) else str(chunk))
@@ -666,10 +678,10 @@ class LLMRouter:
             is_gemma4 = "gemma-4" in self._current.lower() or "gemma4" in self._current.lower()
             if is_gemma4 and VLM_AVAILABLE:
                 from mlx_vlm import generate as vlm_gen
-                return vlm_gen(model, tokenizer, prompt=prompt, image=None, max_tokens=max_tokens, temp=temperature, draft_model=draft_model, draft_kind="mtp")
+                return vlm_gen(model, tokenizer, prompt=prompt, image=None, max_tokens=max_tokens, sampler=_mlx_sampler(temperature), draft_model=draft_model, draft_kind="mtp")
             else:
                 from mlx_lm import generate as lm_gen
-                return lm_gen(model, tokenizer, prompt=prompt, max_tokens=max_tokens, temp=temperature, draft_model=draft_model)
+                return lm_gen(model, tokenizer, prompt=prompt, max_tokens=max_tokens, sampler=_mlx_sampler(temperature), draft_model=draft_model)
         result = await loop.run_in_executor(executor, _gen)
         if hasattr(result, "text"):
             return normalize_branding(result.text)
@@ -733,10 +745,10 @@ class LLMRouter:
                 is_gemma4 = "gemma-4" in self._current.lower() or "gemma4" in self._current.lower()
                 if is_gemma4 and VLM_AVAILABLE:
                     from mlx_vlm import stream_generate as vlm_stream
-                    gen = vlm_stream(model, tokenizer, prompt=prompt, image=None, max_tokens=max_tokens, temp=temperature, draft_model=draft_model, draft_kind="mtp")
+                    gen = vlm_stream(model, tokenizer, prompt=prompt, image=None, max_tokens=max_tokens, sampler=_mlx_sampler(temperature), draft_model=draft_model, draft_kind="mtp")
                 else:
                     from mlx_lm import stream_generate as lm_stream
-                    gen = lm_stream(model, tokenizer, prompt=prompt, max_tokens=max_tokens, temp=temperature, draft_model=draft_model)
+                    gen = lm_stream(model, tokenizer, prompt=prompt, max_tokens=max_tokens, sampler=_mlx_sampler(temperature), draft_model=draft_model)
                 for chunk in gen:
                     text = chunk.text if hasattr(chunk, "text") else (chunk[0] if isinstance(chunk, tuple) else str(chunk))
                     loop.call_soon_threadsafe(queue.put_nowait, text)

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "ltcai",
-  "version": "0.4.0",
+  "version": "0.5.0",
   "description": "Lattice AI local MLX/cloud LLM workspace server",
   "homepage": "https://github.com/TaeSooPark-PTS/LatticeAI#readme",
   "repository": {

package/server.py CHANGED Viewed

@@ -1121,7 +1121,7 @@ async def lifespan(app: FastAPI):
             except Exception:
                 pass
-app = FastAPI(title=f"Lattice AI Server ({APP_MODE})", version="0.4.0", lifespan=lifespan)
+app = FastAPI(title=f"Lattice AI Server ({APP_MODE})", version="0.5.0", lifespan=lifespan)
 CORS_ALLOWED_ORIGINS = [
     f"http://localhost:{DEFAULT_PORT}",
@@ -3466,7 +3466,7 @@ async def verify_cloud_models(force: bool = False, provider_filter: Optional[str
 @app.get("/health")
 async def health(request: Request):
-    base = {"status": "ok", "version": "0.4.0", "mode": APP_MODE}
+    base = {"status": "ok", "version": "0.5.0", "mode": APP_MODE}
     if not get_current_user(request) and REQUIRE_AUTH:
         return base
     engines = await asyncio.to_thread(engine_status)