PyPI - dwani - Versions diffs - 0.1.7__py3-none-any.whl → 0.1.9__py3-none-any.whl - Mend

dwani 0.1.7py3-none-any.whl → 0.1.9py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

dwani/__init__.py +30 -28
dwani/chat.py +18 -13
dwani/client.py +27 -25
dwani/docs.py +183 -104
dwani/translate.py +13 -4
dwani/vision.py +9 -4
{dwani-0.1.7.dist-info → dwani-0.1.9.dist-info}/METADATA +31 -18
dwani-0.1.9.dist-info/RECORD +14 -0
{dwani-0.1.7.dist-info → dwani-0.1.9.dist-info}/WHEEL +1 -1
dwani-0.1.7.dist-info/RECORD +0 -14
{dwani-0.1.7.dist-info → dwani-0.1.9.dist-info}/licenses/LICENSE +0 -0
{dwani-0.1.7.dist-info → dwani-0.1.9.dist-info}/top_level.txt +0 -0

dwani/__init__.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from .client import DhwaniClient
+from .client import DwaniClient
 from .chat import Chat
 from .audio import Audio
 from .vision import Vision
@@ -7,59 +7,61 @@ from .translate import Translate
 from .exceptions import DhwaniAPIError
 from .docs import Documents
-__all__ = ["DhwaniClient", "Chat", "Audio", "Vision", "ASR", "DhwaniAPIError", "Translate", "Documents"]
+__all__ = ["DwaniClient", "Chat", "Audio", "Vision", "ASR", "DhwaniAPIError", "Translate", "Documents"]
 # Optionally, instantiate a default client for convenience
 api_key = None
-api_base = "http://localhost:7860"
+api_base = "http://0.0.0.0:8000"
 def _get_client():
     global _client
     if "_client" not in globals() or _client is None:
-        from .client import DhwaniClient
-        globals()["_client"] = DhwaniClient(api_key=api_key, api_base=api_base)
-    return globals()["_client"]
+        from .client import DwaniClient
+        globals()["_client"] = DwaniClient(api_key=api_key, api_base=api_base)
+    return _client
 class chat:
     @staticmethod
-    def create(prompt, **kwargs):
-        return _get_client().chat(prompt, **kwargs)
+    def create(prompt, src_lang, tgt_lang, model="gemma3"):
+        return _get_client().chat(prompt, src_lang, tgt_lang, model)
 class audio:
     @staticmethod
-    def speech(*args, **kwargs):
-        return _get_client().speech(*args, **kwargs)
+    def speech(input, response_format="wav"):
+        return _get_client().speech(input, response_format)
 class vision:
     @staticmethod
-    def caption(*args, **kwargs):
-        return _get_client().caption(*args, **kwargs)
+    def caption(file_path, query="describe the image", src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+        return _get_client().caption(file_path, query, src_lang, tgt_lang, model)
 class asr:
     @staticmethod
-    def transcribe(*args, **kwargs):
-        return _get_client().transcribe(*args, **kwargs)
+    def transcribe(file_path, language="kannada"):
+        return _get_client().transcribe(file_path, language)
 class translate:
     @staticmethod
-    def run_translate(*args, **kwargs):
-        return _get_client().translate(*args, **kwargs)
+    def run_translate(sentences, src_lang="kan_Knda", tgt_lang="eng_Latn"):
+        return _get_client().translate(sentences, src_lang, tgt_lang)
 class document:
     @staticmethod
-    def run_ocr(*args, **kwargs):
-        return _get_client().ocr(*args, **kwargs)
+    def run_ocr(file_path, language="eng_Latn", model="gemma3"):
+        return _get_client().document_ocr(file_path, language, model)
     @staticmethod
-    def run_summarize(*args, **kwargs):
-        return _get_client().summarize(*args, **kwargs)
+    def run_summarize(file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+        return _get_client().document_summarize(file_path, page_number, src_lang, tgt_lang, model)
     @staticmethod
-    def run_extract(*args, **kwargs):
-        return _get_client().extract(*args, **kwargs)
+    def run_extract(file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+        return _get_client().extract(file_path, page_number, src_lang, tgt_lang, model)
     @staticmethod
-    def run_doc_query(*args, **kwargs):
-        return _get_client().doc_query(*args, **kwargs)
+    def run_doc_query(file_path, page_number=1, prompt="list the key points", src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+        return _get_client().doc_query(file_path, page_number, prompt, src_lang, tgt_lang, model)
     @staticmethod
-    def run_doc_query_kannada(*args, **kwargs):
-        return _get_client().doc_query_kannada(*args, **kwargs)
+    def run_doc_query_kannada(file_path, page_number=1, prompt="list key points", src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+        return _get_client().doc_query_kannada(file_path, page_number, prompt, src_lang, tgt_lang, model)

dwani/chat.py CHANGED Viewed

@@ -7,14 +7,14 @@ language_options = [
     ("Kannada", "kan_Knda"),
     ("Hindi", "hin_Deva"),
     ("Assamese", "asm_Beng"),
-    ("Bengali","ben_Beng"),
-    ("Gujarati","guj_Gujr"),
-    ("Malayalam","mal_Mlym"),
-    ("Marathi","mar_Deva"),
-    ("Odia","ory_Orya"),
-    ("Punjabi","pan_Guru"),
-    ("Tamil","tam_Taml"),
-    ("Telugu","tel_Telu")
+    ("Bengali", "ben_Beng"),
+    ("Gujarati", "guj_Gujr"),
+    ("Malayalam", "mal_Mlym"),
+    ("Marathi", "mar_Deva"),
+    ("Odia", "ory_Orya"),
+    ("Punjabi", "pan_Guru"),
+    ("Tamil", "tam_Taml"),
+    ("Telugu", "tel_Telu")
 ]
 # Create a dictionary for language name to code mapping
@@ -35,7 +35,12 @@ def normalize_language(lang):
     supported_langs = list(lang_name_to_code.keys()) + list(lang_code_to_code.keys())
     raise ValueError(f"Unsupported language: {lang}. Supported languages: {supported_langs}")
-def chat_create(client, prompt, src_lang, tgt_lang, **kwargs):
+def chat_create(client, prompt, src_lang, tgt_lang, model="gemma3"):
+    # Validate model
+    valid_models = ["gemma3", "qwen3", "deepseek-r1"]
+    if model not in valid_models:
+        raise ValueError(f"Unsupported model: {model}. Supported models: {valid_models}")
     # Normalize source and target languages
     src_lang_code = normalize_language(src_lang)
     tgt_lang_code = normalize_language(tgt_lang)
@@ -44,9 +49,9 @@ def chat_create(client, prompt, src_lang, tgt_lang, **kwargs):
     payload = {
         "prompt": prompt,
         "src_lang": src_lang_code,
-        "tgt_lang": tgt_lang_code
+        "tgt_lang": tgt_lang_code,
+        "model": model
     }
-    payload.update(kwargs)
     resp = requests.post(
         url,
         headers={**client._headers(), "Content-Type": "application/json"},
@@ -58,6 +63,6 @@ def chat_create(client, prompt, src_lang, tgt_lang, **kwargs):
 class Chat:
     @staticmethod
-    def create(prompt, src_lang, tgt_lang, **kwargs):
+    def create(prompt, src_lang, tgt_lang, model="gemma3"):
         from . import _get_client
-        return _get_client().chat(prompt, src_lang, tgt_lang, **kwargs)
+        return _get_client().chat(prompt, src_lang, tgt_lang, model)

dwani/client.py CHANGED Viewed

@@ -2,53 +2,55 @@ import os
 import requests
 from .exceptions import DhwaniAPIError
-class DhwaniClient:
+class DwaniClient:
     def __init__(self, api_key=None, api_base=None):
         self.api_key = api_key or os.getenv("DWANI_API_KEY")
-        self.api_base = api_base or os.getenv("DWANI_API_BASE_URL", "http://localhost:8000")
+        self.api_base = api_base or os.getenv("DWANI_API_BASE_URL", "http://0.0.0.0:8000")
         if not self.api_key:
-            raise ValueError("DHWANI_API_KEY not set")
+            raise ValueError("DWANI_API_KEY not set")
     def _headers(self):
-        return {"X-API-Key": self.api_key}
+        return {
+            "X-API-Key": self.api_key,
+            "Accept": "application/json"
+        }
-    def translate(self, sentences, src_lang, tgt_lang, **kwargs):
+    def translate(self, sentences, src_lang, tgt_lang):
         from .translate import run_translate
-        return run_translate(self, sentences=sentences, src_lang=src_lang, tgt_lang=tgt_lang, **kwargs)
+        return run_translate(self, sentences=sentences, src_lang=src_lang, tgt_lang=tgt_lang)
-    def chat(self, prompt, src_lang, tgt_lang, **kwargs):
+    def chat(self, prompt, src_lang, tgt_lang, model="gemma3"):
         from .chat import chat_create
-        return chat_create(self, prompt=prompt, src_lang=src_lang, tgt_lang=tgt_lang, **kwargs)
+        return chat_create(self, prompt=prompt, src_lang=src_lang, tgt_lang=tgt_lang, model=model)
-    def speech(self, input, response_format="mp3", **kwargs):
+    def speech(self, input, response_format="mp3"):
         from .audio import audio_speech
-        return audio_speech(self, input=input, response_format=response_format, **kwargs)
+        return audio_speech(self, input=input, response_format=response_format)
-    def caption(self, file_path, query="describe the image", src_lang="eng_Latn", tgt_lang="kan_Knda", **kwargs):
+    def caption(self, file_path, query="describe the image", src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
         from .vision import vision_caption
-        return vision_caption(self, file_path=file_path, query=query, src_lang=src_lang, tgt_lang=tgt_lang, **kwargs)
+        return vision_caption(self, file_path=file_path, query=query, src_lang=src_lang, tgt_lang=tgt_lang, model=model)
-    def transcribe(self, file_path, language=None, **kwargs):
+    def transcribe(self, file_path, language=None):
         from .asr import asr_transcribe
-        return asr_transcribe(self, file_path=file_path, language=language, **kwargs)
+        return asr_transcribe(self, file_path=file_path, language=language)
-    def document_ocr(self, file_path, language=None, **kwargs):
+    def document_ocr(self, file_path, language=None, model="gemma3"):
         from .docs import document_ocr
-        return document_ocr(self, file_path=file_path, language=language, **kwargs)
+        return document_ocr(self, file_path=file_path, language=language, model=model)
-    def document_summarize(self, file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", **kwargs):
+    def document_summarize(self, file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
         from .docs import document_summarize
-        return document_summarize(self, file_path, page_number, src_lang, tgt_lang, **kwargs)
+        return document_summarize(self, file_path, page_number, src_lang, tgt_lang, model)
-    def extract(self, file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", **kwargs):
+    def extract(self, file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
         from .docs import extract
-        return extract(self, file_path=file_path, page_number=page_number, src_lang=src_lang,tgt_lang=tgt_lang, **kwargs)
+        return extract(self, file_path=file_path, page_number=page_number, src_lang=src_lang, tgt_lang=tgt_lang, model=model)
-    def doc_query( self, file_path, page_number=1, prompt="list the key points", src_lang="eng_Latn", tgt_lang="kan_Knda" , **kwargs ):
+    def doc_query(self, file_path, page_number=1, prompt="list the key points", src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
         from .docs import doc_query
-        return doc_query( self, file_path, page_number=page_number, prompt=prompt, src_lang=src_lang, tgt_lang=tgt_lang , **kwargs )
+        return doc_query(self, file_path, page_number=page_number, prompt=prompt, src_lang=src_lang, tgt_lang=tgt_lang, model=model)
-    def doc_query_kannada(self, file_path, page_number=1, prompt="list key points", src_lang="eng_Latn", language=None, **kwargs):
+    def doc_query_kannada(self, file_path, page_number=1, prompt="list key points", src_lang="eng_Latn", language="kan_Knda", model="gemma3"):
         from .docs import doc_query_kannada
-        return doc_query_kannada(self, file_path=file_path, page_number=page_number, prompt=prompt, src_lang=src_lang, language=language, **kwargs)
+        return doc_query_kannada(self, file_path=file_path, page_number=page_number, prompt=prompt, src_lang=src_lang, language=language, model=model)

dwani/docs.py CHANGED Viewed

@@ -1,62 +1,81 @@
 import requests
 from .exceptions import DhwaniAPIError
+import logging
-# Language options mapping
+# Set up logging
+logger = logging.getLogger(__name__)
+# Language options mapping (aligned with server’s SUPPORTED_LANGUAGES)
 language_options = [
     ("English", "eng_Latn"),
     ("Kannada", "kan_Knda"),
-    ("Hindi", "hin_Deva"),
-    ("Assamese", "asm_Beng"),
-    ("Bengali", "ben_Beng"),
-    ("Gujarati", "guj_Gujr"),
-    ("Malayalam", "mal_Mlym"),
-    ("Marathi", "mar_Deva"),
-    ("Odia", "ory_Orya"),
-    ("Punjabi", "pan_Guru"),
+    ("Hindi", "hin_Deva"),
     ("Tamil", "tam_Taml"),
-    ("Telugu", "tel_Telu")
+    ("Telugu", "tel_Telu")
 ]
 # Create dictionaries for language name to code and code to code mapping
 lang_name_to_code = {name.lower(): code for name, code in language_options}
 lang_code_to_code = {code: code for _, code in language_options}
+# Supported models (aligned with server)
+VALID_MODELS = ["gemma3", "moondream", "qwen2.5vl", "qwen3", "sarvam-m", "deepseek-r1"]
 def normalize_language(lang):
     """Convert language input (name or code) to language code."""
     lang = lang.strip()
-    # Check if input is a language name (case-insensitive)
     lang_lower = lang.lower()
     if lang_lower in lang_name_to_code:
         return lang_name_to_code[lang_lower]
-    # Check if input is a language code
     if lang in lang_code_to_code:
         return lang_code_to_code[lang]
-    # Raise error if language is not supported
     supported_langs = list(lang_name_to_code.keys()) + list(lang_code_to_code.keys())
     raise ValueError(f"Unsupported language: {lang}. Supported languages: {supported_langs}")
-def document_ocr(client, file_path, language=None):
+def validate_model(model):
+    """Validate the model against supported models."""
+    if model not in VALID_MODELS:
+        raise ValueError(f"Unsupported model: {model}. Supported models: {VALID_MODELS}")
+    return model
+def document_ocr(client, file_path, language=None, model="gemma3"):
     """OCR a document (image/PDF) and return extracted text."""
-    data = {}
+    logger.debug(f"Calling document_ocr: file_path={file_path}, language={language}, model={model}")
+    validate_model(model)
+    data = {"model": model}
     if language:
-        # Normalize the language input
         data["language"] = normalize_language(language)
     with open(file_path, "rb") as f:
-        files = {"file": f}
-        resp = requests.post(
-            f"{client.api_base}/v1/document/ocr",
-            headers=client._headers(),
-            files=files,
-            data=data
-        )
-    if resp.status_code != 200:
-        raise DhwaniAPIError(resp)
+        mime_type = "application/pdf" if file_path.lower().endswith('.pdf') else "image/png"
+        files = {"file": (file_path, f, mime_type)}
+        try:
+            resp = requests.post(
+                f"{client.api_base}/v1/document/ocr",
+                headers=client._headers(),
+                files=files,
+                data=data,
+                timeout=60
+            )
+            resp.raise_for_status()
+        except requests.RequestException as e:
+            logger.error(f"OCR request failed: {str(e)}")
+            raise DhwaniAPIError(resp) if 'resp' in locals() else DhwaniAPIError.from_exception(e)
+    logger.debug(f"OCR response: {resp.status_code}")
     return resp.json()
-def document_summarize(client, file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda"):
+def document_summarize(client, file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
     """Summarize a PDF document with language and page number options."""
-    # Normalize source and target languages
+    logger.debug(f"Calling document_summarize: file_path={file_path}, page_number={page_number}, src_lang={src_lang}, tgt_lang={tgt_lang}, model={model}")
+    validate_model(model)
+    if not file_path.lower().endswith('.pdf'):
+        raise ValueError("File must be a PDF")
+    if page_number < 1:
+        raise ValueError("Page number must be at least 1")
     src_lang_code = normalize_language(src_lang)
     tgt_lang_code = normalize_language(tgt_lang)
@@ -67,41 +86,62 @@ def document_summarize(client, file_path, page_number=1, src_lang="eng_Latn", tg
         data = {
             "page_number": str(page_number),
             "src_lang": src_lang_code,
-            "tgt_lang": tgt_lang_code
+            "tgt_lang": tgt_lang_code,
+            "model": model
         }
-        resp = requests.post(
-            url,
-            headers=headers,
-            files=files,
-            data=data
-        )
-    if resp.status_code != 200:
-        raise DhwaniAPIError(resp)
+        try:
+            resp = requests.post(
+                url,
+                headers=headers,
+                files=files,
+                data=data,
+                timeout=60
+            )
+            resp.raise_for_status()
+        except requests.RequestException as e:
+            logger.error(f"Summarize request failed: {str(e)}")
+            raise DhwaniAPIError(resp) if 'resp' in locals() else DhwaniAPIError.from_exception(e)
+    logger.debug(f"Summarize response: {resp.status_code}")
     return resp.json()
-def extract(client, file_path, page_number, src_lang, tgt_lang):
-    """
-    Extract and translate text from a document (image/PDF) using query parameters.
-    """
-    # Normalize source and target languages
+def extract(client, file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+    """Extract and translate text from a PDF document using form data."""
+    logger.debug(f"Calling extract: file_path={file_path}, page_number={page_number}, src_lang={src_lang}, tgt_lang={tgt_lang}, model={model}")
+    validate_model(model)
+    if not file_path.lower().endswith('.pdf'):
+        raise ValueError("File must be a PDF")
+    if page_number < 1:
+        raise ValueError("Page number must be at least 1")
     src_lang_code = normalize_language(src_lang)
     tgt_lang_code = normalize_language(tgt_lang)
-    # Build the URL with query parameters
-    url = (
-        f"{client.api_base}/v1/indic-extract-text/"
-        f"?page_number={page_number}&src_lang={src_lang_code}&tgt_lang={tgt_lang_code}"
-    )
+    url = f"{client.api_base}/v1/indic-extract-text/"
     headers = client._headers()
     with open(file_path, "rb") as f:
         files = {"file": (file_path, f, "application/pdf")}
-        resp = requests.post(
-            url,
-            headers=headers,
-            files=files
-        )
-    if resp.status_code != 200:
-        raise DhwaniAPIError(resp)
+        data = {
+            "page_number": str(page_number),
+            "src_lang": src_lang_code,
+            "tgt_lang": tgt_lang_code,
+            "model": model
+        }
+        try:
+            resp = requests.post(
+                url,
+                headers=headers,
+                files=files,
+                data=data,
+                timeout=60
+            )
+            resp.raise_for_status()
+        except requests.RequestException as e:
+            logger.error(f"Extract request failed: {str(e)}")
+            raise DhwaniAPIError(resp) if 'resp' in locals() else DhwaniAPIError.from_exception(e)
+    logger.debug(f"Extract response: {resp.status_code}")
     return resp.json()
 def doc_query(
@@ -110,10 +150,20 @@ def doc_query(
     page_number=1,
     prompt="list the key points",
     src_lang="eng_Latn",
-    tgt_lang="kan_Knda"
+    tgt_lang="kan_Knda",
+    model="gemma3"
 ):
     """Query a document with a custom prompt and language options."""
-    # Normalize source and target languages
+    logger.debug(f"Calling doc_query: file_path={file_path}, page_number={page_number}, prompt={prompt}, src_lang={src_lang}, tgt_lang={tgt_lang}, model={model}")
+    validate_model(model)
+    if not file_path.lower().endswith('.pdf'):
+        raise ValueError("File must be a PDF")
+    if page_number < 1:
+        raise ValueError("Page number must be at least 1")
+    if not prompt.strip():
+        raise ValueError("Prompt cannot be empty")
     src_lang_code = normalize_language(src_lang)
     tgt_lang_code = normalize_language(tgt_lang)
@@ -124,74 +174,103 @@ def doc_query(
         data = {
             "page_number": str(page_number),
             "prompt": prompt,
-            "source_language": src_lang_code,
-            "target_language": tgt_lang_code
+            "src_lang": src_lang_code,
+            "tgt_lang": tgt_lang_code,
+            "model": model
         }
-        resp = requests.post(
-            url,
-            headers=headers,
-            files=files,
-            data=data
-        )
-    if resp.status_code != 200:
-        raise DhwaniAPIError(resp)
+        try:
+            resp = requests.post(
+                url,
+                headers=headers,
+                files=files,
+                data=data,
+                timeout=60
+            )
+            resp.raise_for_status()
+        except requests.RequestException as e:
+            logger.error(f"Doc query request failed: {str(e)}")
+            raise DhwaniAPIError(resp) if 'resp' in locals() else DhwaniAPIError.from_exception(e)
+    logger.debug(f"Doc query response: {resp.status_code}")
     return resp.json()
 def doc_query_kannada(
-    client,
-    file_path,
-    page_number=1,
-    prompt="list key points",
+    client,
+    file_path,
+    page_number=1,
+    prompt="list key points",
     src_lang="eng_Latn",
-    language=None
+    tgt_lang="kan_Knda",
+    model="gemma3"
 ):
-    """Summarize a document (image/PDF/text) with custom prompt and language."""
-    # Normalize source language and optional language parameter
+    """Query a document with a custom prompt, outputting in Kannada."""
+    logger.debug(f"Calling doc_query_kannada: file_path={file_path}, page_number={page_number}, prompt={prompt}, src_lang={src_lang}, tgt_lang={tgt_lang}, model={model}")
+    validate_model(model)
+    if not file_path.lower().endswith('.pdf'):
+        raise ValueError("File must be a PDF")
+    if page_number < 1:
+        raise ValueError("Page number must be at least 1")
+    if not prompt.strip():
+        raise ValueError("Prompt cannot be empty")
     src_lang_code = normalize_language(src_lang)
-    data = {
-        "page_number": str(page_number),
-        "prompt": prompt,
-        "src_lang": src_lang_code,
-    }
-    if language:
-        data["language"] = normalize_language(language)
+    tgt_lang_code = normalize_language(tgt_lang) if tgt_lang else "kan_Knda"
-    url = f"{client.api_base}/v1/indic-custom-prompt-kannada-pdf"
+    url = f"{client.api_base}/v1/indic-custom-prompt-pdf"
     headers = client._headers()
     with open(file_path, "rb") as f:
         files = {"file": (file_path, f, "application/pdf")}
-        resp = requests.post(
-            url,
-            headers=headers,
-            files=files,
-            data=data
-        )
-    if resp.status_code != 200:
-        raise DhwaniAPIError(resp)
+        data = {
+            "page_number": str(page_number),
+            "prompt": prompt,
+            "src_lang": src_lang_code,
+            "tgt_lang": tgt_lang_code,
+            "model": model
+        }
+        try:
+            resp = requests.post(
+                url,
+                headers=headers,
+                files=files,
+                data=data,
+                timeout=60
+            )
+            resp.raise_for_status()
+        except requests.RequestException as e:
+            logger.error(f"Doc query Kannada request failed: {str(e)}")
+            raise DhwaniAPIError(resp) if 'resp' in locals() else DhwaniAPIError.from_exception(e)
+    logger.debug(f"Doc query Kannada response: {resp.status_code}")
     return resp.json()
 class Documents:
     @staticmethod
-    def ocr(file_path, language=None):
-        from . import _get_client
-        return _get_client().document_ocr(file_path, language)
+    def ocr(file_path, language=None, model="gemma3"):
+        from .client import DwaniClient
+        client = DwaniClient()
+        return document_ocr(client, file_path, language, model)
     @staticmethod
-    def summarize(*args, **kwargs):
-        from . import _get_client
-        return _get_client().document_summarize(*args, **kwargs)
+    def summarize(file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+        from .client import DwaniClient
+        client = DwaniClient()
+        return document_summarize(client, file_path, page_number, src_lang, tgt_lang, model)
     @staticmethod
-    def run_extract(*args, **kwargs):
-        from . import _get_client
-        return _get_client().extract(*args, **kwargs)
+    def run_extract(file_path, page_number=1, src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+        from .client import DwaniClient
+        client = DwaniClient()
+        return extract(client, file_path, page_number, src_lang, tgt_lang, model)
     @staticmethod
-    def run_doc_query(*args, **kwargs):
-        from . import _get_client
-        return _get_client().doc_query(*args, **kwargs)
+    def run_doc_query(file_path, page_number=1, prompt="list the key points", src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+        from .client import DwaniClient
+        client = DwaniClient()
+        return doc_query(client, file_path, page_number, prompt, src_lang, tgt_lang, model)
     @staticmethod
-    def run_doc_query_kannada(*args, **kwargs):
-        from . import _get_client
-        return _get_client().doc_query_kannada(*args, **kwargs)
+    def run_doc_query_kannada(file_path, page_number=1, prompt="list key points", src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+        from .client import DwaniClient
+        client = DwaniClient()
+        return doc_query_kannada(client, file_path, page_number, prompt, src_lang, tgt_lang, model)

dwani/translate.py CHANGED Viewed

@@ -35,7 +35,17 @@ def normalize_language(lang):
     supported_langs = list(lang_name_to_code.keys()) + list(lang_code_to_code.keys())
     raise ValueError(f"Unsupported language: {lang}. Supported languages: {supported_langs}")
-def run_translate(client, sentences, src_lang, tgt_lang, **kwargs):
+def run_translate(client, sentences, src_lang, tgt_lang):
+    # Convert single string to list if necessary
+    if isinstance(sentences, str):
+        sentences = [sentences]
+    elif not isinstance(sentences, list):
+        raise ValueError("sentences must be a string or a list of strings")
+    # Validate that all elements in the list are strings
+    if not all(isinstance(s, str) for s in sentences):
+        raise ValueError("All sentences must be strings")
     # Normalize source and target languages
     src_lang_code = normalize_language(src_lang)
     tgt_lang_code = normalize_language(tgt_lang)
@@ -46,7 +56,6 @@ def run_translate(client, sentences, src_lang, tgt_lang, **kwargs):
         "src_lang": src_lang_code,
         "tgt_lang": tgt_lang_code
     }
-    payload.update(kwargs)
     resp = requests.post(
         url,
         headers={**client._headers(), "Content-Type": "application/json", "accept": "application/json"},
@@ -58,6 +67,6 @@ def run_translate(client, sentences, src_lang, tgt_lang, **kwargs):
 class Translate:
     @staticmethod
-    def run_translate(sentences, src_lang, tgt_lang, **kwargs):
+    def run_translate(sentences, src_lang, tgt_lang):
         from . import _get_client
-        return _get_client().translate(sentences, src_lang, tgt_lang, **kwargs)
+        return _get_client().translate(sentences, src_lang, tgt_lang)

dwani/vision.py CHANGED Viewed

@@ -35,7 +35,12 @@ def normalize_language(lang):
     supported_langs = list(lang_name_to_code.keys()) + list(lang_code_to_code.keys())
     raise ValueError(f"Unsupported language: {lang}. Supported languages: {supported_langs}")
-def vision_caption(client, file_path, query="describe the image", src_lang="eng_Latn", tgt_lang="kan_Knda"):
+def vision_caption(client, file_path, query="describe the image", src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
+    # Validate model
+    valid_models = ["gemma3", "qwen2.5vl", "moondream"]
+    if model not in valid_models:
+        raise ValueError(f"Unsupported model: {model}. Supported models: {valid_models}")
     # Normalize source and target languages
     src_lang_code = normalize_language(src_lang)
     tgt_lang_code = normalize_language(tgt_lang)
@@ -43,7 +48,7 @@ def vision_caption(client, file_path, query="describe the image", src_lang="eng_
     # Build the endpoint using the client's api_base
     url = (
         f"{client.api_base}/v1/indic_visual_query"
-        f"?src_lang={src_lang_code}&tgt_lang={tgt_lang_code}"
+        f"?src_lang={src_lang_code}&tgt_lang={tgt_lang_code}&model={model}"
     )
     headers = {
         **client._headers(),
@@ -64,6 +69,6 @@ def vision_caption(client, file_path, query="describe the image", src_lang="eng_
 class Vision:
     @staticmethod
-    def caption(*args, **kwargs):
+    def caption(file_path, query="describe the image", src_lang="eng_Latn", tgt_lang="kan_Knda", model="gemma3"):
         from . import _get_client
-        return _get_client().caption(*args, **kwargs)
+        return _get_client().caption(file_path, query, src_lang, tgt_lang, model)

{dwani-0.1.7.dist-info → dwani-0.1.9.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dwani
-Version: 0.1.7
+Version: 0.1.9
 Summary: Multimodal API for Indian languages (Chat, Vision, TTS, ASR, Translate, Docs)
 Author-email: sachin <python@dwani.ai>
 License: MIT License
@@ -39,7 +39,7 @@ Dynamic: license-file
 ### Install the library
 ```bash
-pip install dwani
+pip install --upgrade dwani
 ```
 ### Languages supported
@@ -55,33 +55,44 @@ dwani.api_key = os.getenv("DWANI_API_KEY")
 dwani.api_base = os.getenv("DWANI_API_BASE_URL")
 ```
-### Examples
-#### Text Query
+### Text Query
+---
+- With model selection
+  - Supported models : gemma3 (default), qwen3
+---
+- gemma3
 ```python
-resp = dwani.Chat.create(prompt="Hello!", src_lang="eng_Latn", tgt_lang="kan_Knda")
+resp = dwani.Chat.create(prompt="Hello!", src_lang="english", tgt_lang="kannada", model="gemma3")
 print(resp)
 ```
 ```json
 {'response': 'ನಮಸ್ತೆ! ಭಾರತ ಮತ್ತು ಕರ್ನಾಟಕವನ್ನು ಗಮನದಲ್ಲಿಟ್ಟುಕೊಂಡು ಇಂದು ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳಿಗೆ ನಾನು ನಿಮಗೆ ಹೇಗೆ ಸಹಾಯ ಮಾಡಲಿ?'}
 ```
+---
+### Vision Query
+---
+- With model selection
+  - Supported models : gemma3 (default), moondream
+- gemma3
-#### Vision Query
 ```python
 result = dwani.Vision.caption(
     file_path="image.png",
     query="Describe this logo",
-    src_lang="eng_Latn",
-    tgt_lang="kan_Knda"
+    src_lang="english",
+    tgt_lang="kannada",
+    model="gemma3"
 )
 print(result)
 ```
 ```json
 {'answer': 'ಒಂದು ವಾಕ್ಯದಲ್ಲಿ ಚಿತ್ರದ ಸಾರಾಂಶವನ್ನು ಇಲ್ಲಿ ನೀಡಲಾಗಿದೆಃ ಪ್ರಕಟಣೆಯ ಅವಲೋಕನವು ಪ್ರಸ್ತುತ ಅರವತ್ತನಾಲ್ಕು ದೇಶಗಳು/ಪ್ರದೇಶಗಳನ್ನು ಸೇರಿಸಲಾಗಿದೆ ಮತ್ತು ಇನ್ನೂ ಹದಿನಾರು ಪ್ರದೇಶಗಳನ್ನು ಸೇರಿಸಬೇಕಾಗಿದೆ. ಒದಗಿಸಲಾದ ಚಿತ್ರದಲ್ಲಿ ಲಾಂಛನವು ಕಾಣಿಸುವುದಿಲ್ಲ.'}
 ```
-#### Speech to Text -  Automatic Speech Recognition (ASR)
+---
+### Speech to Text -  Automatic Speech Recognition (ASR)
+---
 ```python
 result = dwani.ASR.transcribe(file_path="kannada_sample.wav", language="kannada")
 print(result)
@@ -89,26 +100,28 @@ print(result)
 ```json
 {'text': 'ಕರ್ನಾಟಕ ದ ರಾಜಧಾನಿ ಯಾವುದು'}
 ```
+---
 ### Translate
+---
 ```python
-resp = dwani.Translate.run_translate(sentences=["hi"], src_lang="eng_Latn", tgt_lang="kan_Knda")
+resp = dwani.Translate.run_translate(sentences="hi, i am gaganyatri", src_lang="english", tgt_lang="kannada")
 print(resp)
 ```
 ```json
 {'translations': ['ಹಾಯ್']}
 ```
-#### Text to Speech -  Speech Synthesis
+---
+### Text to Speech -  Speech Synthesis
+---
 ```python
-response = dwani.Audio.speech(input="ಕರ್ನಾಟಕ ದ ರಾಜಧಾನಿ ಯಾವುದು", response_format="mp3")
-with open("output.mp3", "wb") as f:
+response = dwani.Audio.speech(input="ಕರ್ನಾಟಕ ದ ರಾಜಧಾನಿ ಯಾವುದು", response_format="wav")
+with open("output.wav", "wb") as f:
     f.write(response)
 ```
 #### Document - Extract Text
 ```python
-result = dwani.Documents.run_extract(file_path = "dwani-workshop.pdf", page_number=1, src_lang="eng_Latn",tgt_lang="kan_Knda" )
+result = dwani.Documents.run_extract(file_path = "dwani-workshop.pdf", page_number=1, src_lang="english",tgt_lang="kannada" )
 print(result)
 ```
 ```json

dwani-0.1.9.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,14 @@
+dwani/__init__.py,sha256=JcbP7N6J-is-r5g5aDM8OluuCD1V5HxT3TgMtLwcH8s,2665
+dwani/asr.py,sha256=3LYrLOaMhc5eXKFSoi63C8KAvwZI2NcuO25pwTfSVe0,1692
+dwani/audio.py,sha256=Q9vw4uBxGy1vQzmiZjZGrY8hkAEQNkGhjz5OcnpFEQQ,888
+dwani/chat.py,sha256=a6Bd0Skx9Fi4UVCj_-FfUR0wt3y8ep1AV7Q7kEqvpzA,2315
+dwani/client.py,sha256=sDSA1F1Ixh08uaSf4tuzsOm72oEAUi9w3dUiP3fyvUk,2905
+dwani/docs.py,sha256=PBCUHyulcV1AYX7WcX_uKLkYjUQ48zAZ9PK9Rrvhy6s,10571
+dwani/exceptions.py,sha256=qEN5ukqlnN7v-kHNEnISWFMpPMt6uTft9mPsTXJ4LVA,227
+dwani/translate.py,sha256=nYqKX7TDz6hds2Ih-CWXWkS8Bd_4KXVY_NG7erhtS_8,2542
+dwani/vision.py,sha256=rfmcLFPdZC1MLdYAG3aRdCW22-gkXfjqm6WYZJ1Ac2k,2674
+dwani-0.1.9.dist-info/licenses/LICENSE,sha256=IAD8tbwWZbPWHXgYjabHoMv0aaUzZUYzYiEbfhTCisY,1070
+dwani-0.1.9.dist-info/METADATA,sha256=hjS9WvvbnDJ3IZQkkg7PV4sRnbyBJmrxD0kz5Q4TFuc,5045
+dwani-0.1.9.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+dwani-0.1.9.dist-info/top_level.txt,sha256=AM5EhkyuO_EXQFR9JIxEV6tAYMCCyc-a1dLifpCGBUk,6
+dwani-0.1.9.dist-info/RECORD,,

{dwani-0.1.7.dist-info → dwani-0.1.9.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (80.7.1)
+Generator: setuptools (80.9.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

dwani-0.1.7.dist-info/RECORD DELETED Viewed

@@ -1,14 +0,0 @@
-dwani/__init__.py,sha256=ldO5OND7DvJlbxaQ0R57Cc73jJTnCSslDDt4I4r-Op8,1895
-dwani/asr.py,sha256=3LYrLOaMhc5eXKFSoi63C8KAvwZI2NcuO25pwTfSVe0,1692
-dwani/audio.py,sha256=Q9vw4uBxGy1vQzmiZjZGrY8hkAEQNkGhjz5OcnpFEQQ,888
-dwani/chat.py,sha256=dQCl8lLQczwnAsvYlTZowd471ktRVZcW3w8gZ5Wpzms,2097
-dwani/client.py,sha256=OrnwqxBQMfEZ1iQEleFigNujiZve3ox53yv5aSmB3iQ,2849
-dwani/docs.py,sha256=EO41opJwfDFsNmH6nQl-HOsyWravCnj1f5ZDgxSZECI,6323
-dwani/exceptions.py,sha256=qEN5ukqlnN7v-kHNEnISWFMpPMt6uTft9mPsTXJ4LVA,227
-dwani/translate.py,sha256=IJiKrYIfwdJKc_PjlZKVRAwzpQDst_2MF_B_huxid_E,2185
-dwani/vision.py,sha256=wN7WkMRVmLrZnBJxnam7vihTXWGlWJ4JqXgyrp-tbrg,2330
-dwani-0.1.7.dist-info/licenses/LICENSE,sha256=IAD8tbwWZbPWHXgYjabHoMv0aaUzZUYzYiEbfhTCisY,1070
-dwani-0.1.7.dist-info/METADATA,sha256=ggOY4wss1nwN6PzhB0BZG5332emrP6C76qwjaK2mzSs,4810
-dwani-0.1.7.dist-info/WHEEL,sha256=Nw36Djuh_5VDukK0H78QzOX-_FQEo6V37m3nkm96gtU,91
-dwani-0.1.7.dist-info/top_level.txt,sha256=AM5EhkyuO_EXQFR9JIxEV6tAYMCCyc-a1dLifpCGBUk,6
-dwani-0.1.7.dist-info/RECORD,,

{dwani-0.1.7.dist-info → dwani-0.1.9.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{dwani-0.1.7.dist-info → dwani-0.1.9.dist-info}/top_level.txt RENAMED Viewed

File without changes

dwani 0.1.7__py3-none-any.whl → 0.1.9__py3-none-any.whl

dwani 0.1.7py3-none-any.whl → 0.1.9py3-none-any.whl