PyPI - lemonade-sdk - Versions diffs - 8.1.0__py3-none-any.whl → 8.1.1__py3-none-any.whl - Mend

lemonade-sdk 8.1.0py3-none-any.whl → 8.1.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of lemonade-sdk might be problematic. Click here for more details.

Files changed (22) hide show

lemonade/common/inference_engines.py +62 -77
lemonade/common/system_info.py +61 -44
lemonade/tools/llamacpp/load.py +13 -4
lemonade/tools/llamacpp/utils.py +222 -54
lemonade/tools/oga/load.py +3 -3
lemonade/tools/server/llamacpp.py +30 -53
lemonade/tools/server/serve.py +54 -104
lemonade/tools/server/static/styles.css +203 -0
lemonade/tools/server/static/webapp.html +507 -71
lemonade/tools/server/tray.py +4 -2
lemonade/tools/server/utils/thread.py +2 -4
lemonade/version.py +1 -1
lemonade_install/install.py +25 -2
{lemonade_sdk-8.1.0.dist-info → lemonade_sdk-8.1.1.dist-info}/METADATA +45 -6
{lemonade_sdk-8.1.0.dist-info → lemonade_sdk-8.1.1.dist-info}/RECORD +22 -22
lemonade_server/cli.py +79 -26
lemonade_server/server_models.json +26 -1
{lemonade_sdk-8.1.0.dist-info → lemonade_sdk-8.1.1.dist-info}/WHEEL +0 -0
{lemonade_sdk-8.1.0.dist-info → lemonade_sdk-8.1.1.dist-info}/entry_points.txt +0 -0
{lemonade_sdk-8.1.0.dist-info → lemonade_sdk-8.1.1.dist-info}/licenses/LICENSE +0 -0
{lemonade_sdk-8.1.0.dist-info → lemonade_sdk-8.1.1.dist-info}/licenses/NOTICE.md +0 -0
{lemonade_sdk-8.1.0.dist-info → lemonade_sdk-8.1.1.dist-info}/top_level.txt +0 -0

lemonade/tools/server/serve.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import sys
-import argparse
 import asyncio
 import statistics
 import time
@@ -48,6 +47,11 @@ from openai.types.responses import (
 )
 import lemonade.api as lemonade_api
+import lemonade.tools.server.llamacpp as llamacpp
+from lemonade.tools.server.tool_calls import extract_tool_calls, get_tool_call_pattern
+from lemonade.tools.server.webapp import get_webapp_html
+from lemonade.tools.server.utils.port import lifespan
 from lemonade_server.model_manager import ModelManager
 from lemonade_server.pydantic_models import (
     DEFAULT_MAX_NEW_TOKENS,
@@ -60,18 +64,17 @@ from lemonade_server.pydantic_models import (
     PullConfig,
     DeleteConfig,
 )
-from lemonade.tools.management_tools import ManagementTool
-import lemonade.tools.server.llamacpp as llamacpp
-from lemonade.tools.server.tool_calls import extract_tool_calls, get_tool_call_pattern
-from lemonade.tools.server.webapp import get_webapp_html
-from lemonade.tools.server.utils.port import lifespan
 # Only import tray on Windows
 if platform.system() == "Windows":
+    # pylint: disable=ungrouped-imports
     from lemonade.tools.server.tray import LemonadeTray, OutputDuplicator
 DEFAULT_PORT = 8000
 DEFAULT_LOG_LEVEL = "info"
+DEFAULT_LLAMACPP_BACKEND = "vulkan"
+DEFAULT_CTX_SIZE = 4096
 class ServerModel(Model):
@@ -126,7 +129,7 @@ class StopOnEvent:
         return self.stop_event.is_set()
-class Server(ManagementTool):
+class Server:
     """
     Open a web server that apps can use to communicate with the LLM.
@@ -144,11 +147,25 @@ class Server(ManagementTool):
     - /api/v1/models: list all available models.
     """
-    unique_name = "serve"
-    def __init__(self):
+    def __init__(
+        self,
+        port: int = DEFAULT_PORT,
+        log_level: str = DEFAULT_LOG_LEVEL,
+        ctx_size: int = DEFAULT_CTX_SIZE,
+        tray: bool = False,
+        log_file: str = None,
+        llamacpp_backend: str = DEFAULT_LLAMACPP_BACKEND,
+    ):
         super().__init__()
+        # Save args as members
+        self.port = port
+        self.log_level = log_level
+        self.ctx_size = ctx_size
+        self.tray = tray
+        self.log_file = log_file
+        self.llamacpp_backend = llamacpp_backend
         # Initialize FastAPI app
         self.app = FastAPI(lifespan=lifespan)
@@ -186,9 +203,6 @@ class Server(ManagementTool):
         self.output_tokens = None
         self.decode_token_times = None
-        # Input truncation settings
-        self.truncate_inputs = False
         # Store debug logging state
         self.debug_logging_enabled = logging.getLogger().isEnabledFor(logging.DEBUG)
@@ -241,66 +255,18 @@ class Server(ManagementTool):
             self.app.post(f"{prefix}/reranking")(self.reranking)
             self.app.post(f"{prefix}/rerank")(self.reranking)
-    @staticmethod
-    def parser(add_help: bool = True) -> argparse.ArgumentParser:
-        parser = __class__.helpful_parser(
-            short_description="Launch an industry-standard LLM server",
-            add_help=add_help,
-        )
-        # Only add the tray option on Windows
-        if platform.system() == "Windows":
-            parser.add_argument(
-                "--tray",
-                action="store_true",
-                help="Run the server in system tray mode",
-            )
-        parser.add_argument(
-            "--port",
-            required=False,
-            type=int,
-            default=DEFAULT_PORT,
-            help=f"Port number to run the server on (default: {DEFAULT_PORT})",
-        )
-        parser.add_argument(
-            "--log-level",
-            required=False,
-            type=str,
-            default=DEFAULT_LOG_LEVEL,
-            choices=["critical", "error", "warning", "info", "debug", "trace"],
-            help=f"Logging level (default: {DEFAULT_LOG_LEVEL})",
-        )
-        parser.add_argument(
-            "--log-file",
-            required=False,
-            type=str,
-            help="Path to the log file",
-        )
-        return parser
     def _setup_server_common(
         self,
-        port: int,
-        truncate_inputs: Optional[int] = None,
-        log_level: str = DEFAULT_LOG_LEVEL,
         tray: bool = False,
-        log_file: str = None,
         threaded_mode: bool = False,
     ):
         """
         Common setup logic shared between run() and run_in_thread().
         Args:
-            port: Port number for the server
-            truncate_inputs: Truncate messages to this length
-            log_level: Logging level to configure
+            tray: Whether to run the server in tray mode
             threaded_mode: Whether this is being set up for threaded execution
         """
-        # Store truncation settings
-        self.truncate_inputs = truncate_inputs
         # Define TRACE level
         logging.TRACE = 9  # Lower than DEBUG which is 10
@@ -318,18 +284,20 @@ class Server(ManagementTool):
             logging.getLogger("uvicorn.error").setLevel(logging.WARNING)
         else:
             # Configure logging to match uvicorn's format
-            logging_level = getattr(logging, log_level.upper())
+            logging_level = getattr(logging, self.log_level.upper())
             # Set up file handler for logging to lemonade.log
             uvicorn_formatter = uvicorn.logging.DefaultFormatter(
                 fmt="%(levelprefix)s %(message)s",
                 use_colors=True,
             )
-            if not log_file:
-                log_file = tempfile.NamedTemporaryFile(
+            if not self.log_file:
+                self.log_file = tempfile.NamedTemporaryFile(
                     prefix="lemonade_", suffix=".log", delete=False
                 ).name
-            file_handler = logging.FileHandler(log_file, mode="a", encoding="utf-8")
+            file_handler = logging.FileHandler(
+                self.log_file, mode="a", encoding="utf-8"
+            )
             file_handler.setLevel(logging_level)
             file_handler.setFormatter(uvicorn_formatter)
@@ -349,12 +317,12 @@ class Server(ManagementTool):
         self.debug_logging_enabled = logging.getLogger().isEnabledFor(logging.DEBUG)
         if tray:
             # Save original stdout/stderr
-            sys.stdout = OutputDuplicator(log_file, sys.stdout)
-            sys.stderr = OutputDuplicator(log_file, sys.stderr)
+            sys.stdout = OutputDuplicator(self.log_file, sys.stdout)
+            sys.stderr = OutputDuplicator(self.log_file, sys.stderr)
             # Open lemonade server in tray mode
             # lambda function used for deferred instantiation and thread safety
-            LemonadeTray(log_file, port, lambda: Server()).run()
+            LemonadeTray(self.log_file, self.port, lambda: self).run()
             sys.exit(0)
         if self.debug_logging_enabled:
@@ -363,47 +331,26 @@ class Server(ManagementTool):
         # Let the app know what port it's running on, so
         # that the lifespan can access it
-        self.app.port = port
+        self.app.port = self.port
-    def run(
-        self,
-        # ManagementTool has a required cache_dir arg, but
-        # we always use the default cache directory
-        _=None,
-        port: int = DEFAULT_PORT,
-        log_level: str = DEFAULT_LOG_LEVEL,
-        truncate_inputs: Optional[int] = None,
-        tray: bool = False,
-        log_file: str = None,
-    ):
+    def run(self):
         # Common setup
         self._setup_server_common(
-            port=port,
-            truncate_inputs=truncate_inputs,
-            log_level=log_level,
             threaded_mode=False,
-            tray=tray,
-            log_file=log_file,
+            tray=self.tray,
         )
-        uvicorn.run(self.app, host="localhost", port=port, log_level=log_level)
+        uvicorn.run(
+            self.app, host="localhost", port=self.port, log_level=self.log_level
+        )
-    def run_in_thread(
-        self,
-        port: int = DEFAULT_PORT,
-        host: str = "localhost",
-        log_level: str = "warning",
-        truncate_inputs: Optional[int] = None,
-    ):
+    def run_in_thread(self, host: str = "localhost"):
         """
         Set up the server for running in a thread.
         Returns a uvicorn server instance that can be controlled externally.
         """
         # Common setup
         self._setup_server_common(
-            port=port,
-            truncate_inputs=truncate_inputs,
-            log_level=log_level,
             threaded_mode=True,
             tray=False,
         )
@@ -418,8 +365,8 @@ class Server(ManagementTool):
         config = Config(
             app=self.app,
             host=host,
-            port=port,
-            log_level=log_level,
+            port=self.port,
+            log_level=self.log_level,
             log_config=None,
         )
@@ -1099,18 +1046,19 @@ class Server(ManagementTool):
             )
             self.input_tokens = len(input_ids[0])
-        if self.truncate_inputs and self.truncate_inputs > self.input_tokens:
+        # For non-llamacpp recipes, truncate inputs to ctx_size if needed
+        if self.llm_loaded.recipe != "llamacpp" and self.input_tokens > self.ctx_size:
             # Truncate input ids
-            truncate_amount = self.input_tokens - self.truncate_inputs
-            input_ids = input_ids[: self.truncate_inputs]
+            truncate_amount = self.input_tokens - self.ctx_size
+            input_ids = input_ids[: self.ctx_size]
             # Update token count
             self.input_tokens = len(input_ids)
             # Show warning message
             truncation_message = (
-                f"Input exceeded {self.truncate_inputs} tokens. "
-                f"Truncated {truncate_amount} tokens."
+                f"Input exceeded {self.ctx_size} tokens. "
+                f"Truncated {truncate_amount} tokens from the beginning."
             )
             logging.warning(truncation_message)
@@ -1429,6 +1377,8 @@ class Server(ManagementTool):
                     self.llama_server_process = llamacpp.server_load(
                         model_config=config_to_use,
                         telemetry=self.llama_telemetry,
+                        backend=self.llamacpp_backend,
+                        ctx_size=self.ctx_size,
                     )
                 else:

lemonade/tools/server/static/styles.css CHANGED Viewed

@@ -416,6 +416,37 @@ body::before {
   color: #222;
 }
+.input-with-indicator {
+  flex: 1;
+  position: relative;
+  display: flex;
+  align-items: center;
+}
+.input-with-indicator input[type='text'] {
+  flex: 1;
+  padding: 0.5em;
+  border: 1px solid #ddd;
+  border-radius: 4px;
+  background: #fff;
+  color: #222;
+  margin: 0;
+}
+#attachment-indicator {
+  position: absolute;
+  right: 8px;
+  top: 50%;
+  transform: translateY(-50%);
+  font-size: 14px;
+  color: #666;
+  pointer-events: none;
+  background: rgba(255, 255, 255, 0.9);
+  padding: 2px 4px;
+  border-radius: 3px;
+  border: 1px solid #ddd;
+}
 .chat-input-row button {
   padding: 0.5em 1.2em;
   background: #e6b800;
@@ -427,6 +458,29 @@ body::before {
   font-weight: 600;
 }
+#attachment-btn {
+    padding: 0.5em 0.8em;
+    background: #f0f0f0;
+    color: #222;
+    border: 1px solid #ddd;
+}
+#attachment-btn:hover {
+    background: #e0e0e0;
+}
+#clear-attachments-btn {
+    padding: 0.5em 0.6em;
+    background: #ff6b6b;
+    color: white;
+    border: 1px solid #ff5252;
+    margin-left: 0.2em;
+}
+#clear-attachments-btn:hover {
+    background: #ff5252;
+}
 .chat-input-row button:hover {
   background: #d4a500;
 }
@@ -437,6 +491,121 @@ body::before {
   cursor: not-allowed;
 }
+/* Image attachment preview styles */
+.attachments-preview-container {
+  padding: 0.5em 1em 0 1em;
+  background: #f9f9f9;
+  border-top: 1px solid #e0e0e0;
+  display: none;
+}
+.attachments-preview-container.has-attachments {
+  display: block;
+}
+.attachments-preview-row {
+  display: flex;
+  gap: 8px;
+  align-items: center;
+  flex-wrap: wrap;
+}
+.attachment-preview {
+  display: flex;
+  align-items: center;
+  gap: 6px;
+  padding: 4px 8px;
+  background: #fff;
+  border: 1px solid #ddd;
+  border-radius: 4px;
+  box-shadow: 0 1px 2px rgba(0,0,0,0.05);
+  transition: all 0.2s ease;
+  font-size: 0.85em;
+  position: relative;
+}
+.attachment-preview:hover {
+  box-shadow: 0 2px 4px rgba(0,0,0,0.1);
+  background: #fafafa;
+}
+.attachment-thumbnail {
+  width: 20px;
+  height: 20px;
+  border-radius: 2px;
+  object-fit: cover;
+  background: #f8f8f8;
+  border: 1px solid #e0e0e0;
+  flex-shrink: 0;
+}
+.attachment-filename {
+  color: #666;
+  max-width: 120px;
+  overflow: hidden;
+  text-overflow: ellipsis;
+  white-space: nowrap;
+  font-size: 0.9em;
+  line-height: 1;
+}
+.attachment-remove-btn {
+  background: none;
+  border: none;
+  color: #999;
+  cursor: pointer;
+  font-size: 14px;
+  padding: 0 2px;
+  margin-left: 4px;
+  transition: color 0.2s ease;
+  flex-shrink: 0;
+}
+.attachment-remove-btn:hover {
+  color: #ff6b6b;
+}
+.attachment-remove-btn:active {
+  transform: scale(0.9);
+}
+/* Fallback for non-image files or broken images */
+.attachment-preview.no-preview .attachment-thumbnail {
+  display: flex;
+  align-items: center;
+  justify-content: center;
+  background: linear-gradient(135deg, #f8f9fa 0%, #e9ecef 100%);
+  border: 1px dashed #dee2e6;
+  color: #6c757d;
+  font-size: 12px;
+}
+/* Mobile responsive adjustments */
+@media (max-width: 600px) {
+  .attachments-preview-row {
+    gap: 6px;
+  }
+  .attachment-preview {
+    padding: 3px 6px;
+    gap: 4px;
+  }
+  .attachment-thumbnail {
+    width: 18px;
+    height: 18px;
+  }
+  .attachment-filename {
+    max-width: 100px;
+    font-size: 0.8em;
+  }
+  .attachment-remove-btn {
+    font-size: 12px;
+  }
+}
 /* Model Management */
 .model-mgmt-container {
   display: flex;
@@ -1377,3 +1546,37 @@ body::before {
   from { opacity: 0; transform: translateY(-5px); }
   to { opacity: 1; transform: translateY(0); }
 }
+/* Error banner styles */
+.error-banner {
+  position: fixed;
+  top: 10px;
+  left: 50%;
+  transform: translateX(-50%);
+  background-color: #dc3545;
+  color: #fff;
+  padding: 0.6em 1.2em;
+  border-radius: 6px;
+  box-shadow: 0 2px 8px rgba(0,0,0,0.2);
+  z-index: 10000;
+  font-weight: 600;
+  white-space: pre-line;
+  display: none;
+  animation: fadeIn 0.2s ease;
+  align-items: center;
+}
+.error-banner .close-btn {
+  background: none;
+  border: none;
+  color: #fff;
+  font-size: 1.2em;
+  margin-left: 0.8em;
+  cursor: pointer;
+  padding: 0;
+  line-height: 1;
+}
+.error-banner .close-btn:hover {
+  opacity: 0.8;
+}

lemonade-sdk 8.1.0__py3-none-any.whl → 8.1.1__py3-none-any.whl

Potentially problematic release.

lemonade-sdk 8.1.0py3-none-any.whl → 8.1.1py3-none-any.whl