PyPI - chatterer - Versions diffs - 0.1.24__py3-none-any.whl → 0.1.26__py3-none-any.whl - Mend

chatterer 0.1.24py3-none-any.whl → 0.1.26py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (44) hide show

chatterer/__init__.py +87 -93
chatterer/common_types/__init__.py +21 -21
chatterer/common_types/io.py +19 -19
chatterer/examples/__main__.py +75 -75
chatterer/examples/any2md.py +85 -85
chatterer/examples/pdf2md.py +338 -338
chatterer/examples/pdf2txt.py +54 -54
chatterer/examples/ppt.py +486 -486
chatterer/examples/pw.py +143 -137
chatterer/examples/snippet.py +56 -55
chatterer/examples/transcribe.py +192 -112
chatterer/examples/upstage.py +89 -89
chatterer/examples/web2md.py +80 -66
chatterer/interactive.py +354 -354
chatterer/language_model.py +536 -536
chatterer/messages.py +21 -21
chatterer/tools/__init__.py +46 -46
chatterer/tools/caption_markdown_images.py +384 -384
chatterer/tools/citation_chunking/__init__.py +3 -3
chatterer/tools/citation_chunking/chunks.py +53 -53
chatterer/tools/citation_chunking/citation_chunker.py +118 -118
chatterer/tools/citation_chunking/citations.py +285 -285
chatterer/tools/citation_chunking/prompt.py +157 -157
chatterer/tools/citation_chunking/reference.py +26 -26
chatterer/tools/citation_chunking/utils.py +138 -138
chatterer/tools/convert_pdf_to_markdown.py +645 -625
chatterer/tools/convert_to_text.py +446 -446
chatterer/tools/upstage_document_parser.py +705 -705
chatterer/tools/webpage_to_markdown.py +739 -739
chatterer/tools/youtube.py +146 -146
chatterer/utils/__init__.py +15 -15
chatterer/utils/base64_image.py +350 -285
chatterer/utils/bytesio.py +59 -59
chatterer/utils/code_agent.py +237 -237
chatterer/utils/imghdr.py +145 -148
{chatterer-0.1.24.dist-info → chatterer-0.1.26.dist-info}/METADATA +390 -389
chatterer-0.1.26.dist-info/RECORD +42 -0
chatterer/strategies/__init__.py +0 -13
chatterer/strategies/atom_of_thoughts.py +0 -975
chatterer/strategies/base.py +0 -14
chatterer-0.1.24.dist-info/RECORD +0 -45
{chatterer-0.1.24.dist-info → chatterer-0.1.26.dist-info}/WHEEL +0 -0
{chatterer-0.1.24.dist-info → chatterer-0.1.26.dist-info}/entry_points.txt +0 -0
{chatterer-0.1.24.dist-info → chatterer-0.1.26.dist-info}/top_level.txt +0 -0

chatterer/__init__.py CHANGED Viewed

@@ -1,93 +1,87 @@
-from .interactive import interactive_shell
-from .language_model import Chatterer
-from .messages import (
-    AIMessage,
-    BaseMessage,
-    BaseMessageChunk,
-    FunctionMessage,
-    HumanMessage,
-    LanguageModelInput,
-    SystemMessage,
-    UsageMetadata,
-)
-from .strategies import (
-    AoTPipeline,
-    AoTPrompter,
-    AoTStrategy,
-    BaseStrategy,
-)
-from .tools import (
-    CodeSnippets,
-    MarkdownLink,
-    PdfToMarkdown,
-    PlayWrightBot,
-    PlaywrightLaunchOptions,
-    PlaywrightOptions,
-    PlaywrightPersistencyOptions,
-    UpstageDocumentParseParser,
-    acaption_markdown_images,
-    anything_to_markdown,
-    caption_markdown_images,
-    citation_chunker,
-    extract_text_from_pdf,
-    get_default_html_to_markdown_options,
-    get_default_playwright_launch_options,
-    get_youtube_video_details,
-    get_youtube_video_subtitle,
-    html_to_markdown,
-    open_pdf,
-    pdf_to_text,
-    pyscripts_to_snippets,
-    render_pdf_as_image,
-)
-from .utils import (
-    Base64Image,
-    CodeExecutionResult,
-    FunctionSignature,
-    get_default_repl_tool,
-    insert_callables_into_global,
-)
-__all__ = [
-    "BaseStrategy",
-    "Chatterer",
-    "AoTStrategy",
-    "AoTPipeline",
-    "AoTPrompter",
-    "html_to_markdown",
-    "anything_to_markdown",
-    "pdf_to_text",
-    "get_default_html_to_markdown_options",
-    "pyscripts_to_snippets",
-    "citation_chunker",
-    "BaseMessage",
-    "HumanMessage",
-    "SystemMessage",
-    "AIMessage",
-    "FunctionMessage",
-    "Base64Image",
-    "FunctionSignature",
-    "CodeExecutionResult",
-    "get_default_repl_tool",
-    "insert_callables_into_global",
-    "get_youtube_video_subtitle",
-    "get_youtube_video_details",
-    "interactive_shell",
-    "UpstageDocumentParseParser",
-    "BaseMessageChunk",
-    "CodeSnippets",
-    "LanguageModelInput",
-    "UsageMetadata",
-    "PlayWrightBot",
-    "PlaywrightLaunchOptions",
-    "PlaywrightOptions",
-    "PlaywrightPersistencyOptions",
-    "get_default_playwright_launch_options",
-    "acaption_markdown_images",
-    "caption_markdown_images",
-    "MarkdownLink",
-    "PdfToMarkdown",
-    "extract_text_from_pdf",
-    "open_pdf",
-    "render_pdf_as_image",
-]
+from dotenv import load_dotenv
+from .interactive import interactive_shell
+from .language_model import Chatterer
+from .messages import (
+    AIMessage,
+    BaseMessage,
+    BaseMessageChunk,
+    FunctionMessage,
+    HumanMessage,
+    LanguageModelInput,
+    SystemMessage,
+    UsageMetadata,
+)
+from .tools import (
+    CodeSnippets,
+    MarkdownLink,
+    PdfToMarkdown,
+    PlayWrightBot,
+    PlaywrightLaunchOptions,
+    PlaywrightOptions,
+    PlaywrightPersistencyOptions,
+    UpstageDocumentParseParser,
+    acaption_markdown_images,
+    anything_to_markdown,
+    caption_markdown_images,
+    citation_chunker,
+    extract_text_from_pdf,
+    get_default_html_to_markdown_options,
+    get_default_playwright_launch_options,
+    get_youtube_video_details,
+    get_youtube_video_subtitle,
+    html_to_markdown,
+    open_pdf,
+    pdf_to_text,
+    pyscripts_to_snippets,
+    render_pdf_as_image,
+)
+from .utils import (
+    Base64Image,
+    CodeExecutionResult,
+    FunctionSignature,
+    get_default_repl_tool,
+    insert_callables_into_global,
+)
+load_dotenv()
+__all__ = [
+    "Chatterer",
+    "html_to_markdown",
+    "anything_to_markdown",
+    "pdf_to_text",
+    "get_default_html_to_markdown_options",
+    "pyscripts_to_snippets",
+    "citation_chunker",
+    "BaseMessage",
+    "HumanMessage",
+    "SystemMessage",
+    "AIMessage",
+    "FunctionMessage",
+    "Base64Image",
+    "FunctionSignature",
+    "CodeExecutionResult",
+    "get_default_repl_tool",
+    "insert_callables_into_global",
+    "get_youtube_video_subtitle",
+    "get_youtube_video_details",
+    "interactive_shell",
+    "UpstageDocumentParseParser",
+    "BaseMessageChunk",
+    "CodeSnippets",
+    "LanguageModelInput",
+    "UsageMetadata",
+    "PlayWrightBot",
+    "PlaywrightLaunchOptions",
+    "PlaywrightOptions",
+    "PlaywrightPersistencyOptions",
+    "get_default_playwright_launch_options",
+    "acaption_markdown_images",
+    "caption_markdown_images",
+    "MarkdownLink",
+    "PdfToMarkdown",
+    "extract_text_from_pdf",
+    "open_pdf",
+    "render_pdf_as_image",
+]

chatterer/common_types/__init__.py CHANGED Viewed

@@ -1,21 +1,21 @@
-from .io import (
-    BytesReadable,
-    BytesWritable,
-    FileDescriptorOrPath,
-    PathOrReadable,
-    Readable,
-    StringReadable,
-    StringWritable,
-    Writable,
-)
-__all__ = [
-    "BytesReadable",
-    "BytesWritable",
-    "FileDescriptorOrPath",
-    "PathOrReadable",
-    "Readable",
-    "StringReadable",
-    "StringWritable",
-    "Writable",
-]
+from .io import (
+    BytesReadable,
+    BytesWritable,
+    FileDescriptorOrPath,
+    PathOrReadable,
+    Readable,
+    StringReadable,
+    StringWritable,
+    Writable,
+)
+__all__ = [
+    "BytesReadable",
+    "BytesWritable",
+    "FileDescriptorOrPath",
+    "PathOrReadable",
+    "Readable",
+    "StringReadable",
+    "StringWritable",
+    "Writable",
+]

chatterer/common_types/io.py CHANGED Viewed

@@ -1,19 +1,19 @@
-import os
-from io import BufferedReader, BufferedWriter, BytesIO, StringIO, TextIOWrapper
-from typing import TypeAlias
-# Type aliases for callback functions and file descriptors
-FileDescriptorOrPath: TypeAlias = int | str | bytes | os.PathLike[str] | os.PathLike[bytes]
-# Type aliases for different types of IO objects
-BytesReadable: TypeAlias = BytesIO | BufferedReader
-BytesWritable: TypeAlias = BytesIO | BufferedWriter
-StringReadable: TypeAlias = StringIO | TextIOWrapper
-StringWritable: TypeAlias = StringIO | TextIOWrapper
-# Combined type aliases for readable and writable objects
-Readable: TypeAlias = BytesReadable | StringReadable
-Writable: TypeAlias = BytesWritable | StringWritable
-# Type alias for path or readable object
-PathOrReadable: TypeAlias = FileDescriptorOrPath | Readable
+import os
+from io import BufferedReader, BufferedWriter, BytesIO, StringIO, TextIOWrapper
+from typing import TypeAlias
+# Type aliases for callback functions and file descriptors
+FileDescriptorOrPath: TypeAlias = int | str | bytes | os.PathLike[str] | os.PathLike[bytes]
+# Type aliases for different types of IO objects
+BytesReadable: TypeAlias = BytesIO | BufferedReader
+BytesWritable: TypeAlias = BytesIO | BufferedWriter
+StringReadable: TypeAlias = StringIO | TextIOWrapper
+StringWritable: TypeAlias = StringIO | TextIOWrapper
+# Combined type aliases for readable and writable objects
+Readable: TypeAlias = BytesReadable | StringReadable
+Writable: TypeAlias = BytesWritable | StringWritable
+# Type alias for path or readable object
+PathOrReadable: TypeAlias = FileDescriptorOrPath | Readable

chatterer/examples/__main__.py CHANGED Viewed

@@ -1,75 +1,75 @@
-from spargear import SubcommandArguments, SubcommandSpec
-def any2md():
-    from .any2md import Arguments
-    return Arguments
-def pdf2md():
-    from .pdf2md import Arguments
-    return Arguments
-def pdf2txt():
-    from .pdf2txt import Arguments
-    return Arguments
-def ppt():
-    from .ppt import Arguments
-    return Arguments
-def pw():
-    from .pw import Arguments
-    return Arguments
-def snippet():
-    from .snippet import Arguments
-    return Arguments
-def transcribe():
-    from .transcribe import Arguments
-    return Arguments
-def upstage():
-    from .upstage import Arguments
-    return Arguments
-def web2md():
-    from .web2md import Arguments
-    return Arguments
-class Arguments(SubcommandArguments):
-    any2md = SubcommandSpec(name="any2md", argument_class_factory=any2md)
-    pdf2md = SubcommandSpec(name="pdf2md", argument_class_factory=pdf2md)
-    pdf2txt = SubcommandSpec(name="pdf2txt", argument_class_factory=pdf2txt)
-    ppt = SubcommandSpec(name="ppt", argument_class_factory=ppt)
-    pw = SubcommandSpec(name="pw", argument_class_factory=pw)
-    snippet = SubcommandSpec(name="snippet", argument_class_factory=snippet)
-    transcribe = SubcommandSpec(name="transcribe", argument_class_factory=transcribe)
-    upstage = SubcommandSpec(name="upstage", argument_class_factory=upstage)
-    web2md = SubcommandSpec(name="web2md", argument_class_factory=web2md)
-def main():
-    Arguments().execute()
-if __name__ == "__main__":
-    main()
+from spargear import SubcommandArguments, SubcommandSpec
+def any2md():
+    from .any2md import Arguments
+    return Arguments
+def pdf2md():
+    from .pdf2md import Arguments
+    return Arguments
+def pdf2txt():
+    from .pdf2txt import Arguments
+    return Arguments
+def ppt():
+    from .ppt import Arguments
+    return Arguments
+def pw():
+    from .pw import Arguments
+    return Arguments
+def snippet():
+    from .snippet import Arguments
+    return Arguments
+def transcribe():
+    from .transcribe import Arguments
+    return Arguments
+def upstage():
+    from .upstage import Arguments
+    return Arguments
+def web2md():
+    from .web2md import Arguments
+    return Arguments
+class Arguments(SubcommandArguments):
+    any2md = SubcommandSpec(name="any2md", argument_class_factory=any2md)
+    pdf2md = SubcommandSpec(name="pdf2md", argument_class_factory=pdf2md)
+    pdf2txt = SubcommandSpec(name="pdf2txt", argument_class_factory=pdf2txt)
+    ppt = SubcommandSpec(name="ppt", argument_class_factory=ppt)
+    pw = SubcommandSpec(name="pw", argument_class_factory=pw)
+    snippet = SubcommandSpec(name="snippet", argument_class_factory=snippet)
+    transcribe = SubcommandSpec(name="transcribe", argument_class_factory=transcribe)
+    upstage = SubcommandSpec(name="upstage", argument_class_factory=upstage)
+    web2md = SubcommandSpec(name="web2md", argument_class_factory=web2md)
+def main():
+    Arguments().execute()
+if __name__ == "__main__":
+    main()

chatterer/examples/any2md.py CHANGED Viewed

@@ -1,85 +1,85 @@
-import logging
-from pathlib import Path
-from typing import Optional, TypedDict
-import openai
-from spargear import RunnableArguments
-from chatterer import anything_to_markdown
-logger = logging.getLogger(__name__)
-class AnythingToMarkdownReturns(TypedDict):
-    input: str
-    output: Optional[str]
-    out_text: str
-class Arguments(RunnableArguments[AnythingToMarkdownReturns]):
-    """Command line arguments for converting various file types to markdown."""
-    SOURCE: str
-    """Input file to convert to markdown. Can be a file path or a URL."""
-    output: Optional[str] = None
-    """Output path for the converted markdown file. If not provided, the input file's suffix is replaced with .md"""
-    model: Optional[str] = None
-    """OpenAI Model to use for conversion"""
-    api_key: Optional[str] = None
-    """API key for OpenAI API"""
-    base_url: Optional[str] = None
-    """Base URL for OpenAI API"""
-    style_map: Optional[str] = None
-    """Output style map"""
-    exiftool_path: Optional[str] = None
-    """"Path to exiftool for metadata extraction"""
-    docintel_endpoint: Optional[str] = None
-    "Document Intelligence API endpoint"
-    prevent_save_file: bool = False
-    """Prevent saving the converted file to disk."""
-    encoding: str = "utf-8"
-    """Encoding for the output file."""
-    def run(self) -> AnythingToMarkdownReturns:
-        if not self.prevent_save_file:
-            if not self.output:
-                output = Path(self.SOURCE).with_suffix(".md")
-            else:
-                output = Path(self.output)
-        else:
-            output = None
-        if self.model:
-            llm_client = openai.OpenAI(api_key=self.api_key, base_url=self.base_url)
-            llm_model = self.model
-        else:
-            llm_client = None
-            llm_model = None
-        text: str = anything_to_markdown(
-            self.SOURCE,
-            llm_client=llm_client,
-            llm_model=llm_model,
-            style_map=self.style_map,
-            exiftool_path=self.exiftool_path,
-            docintel_endpoint=self.docintel_endpoint,
-        )
-        if output:
-            output.parent.mkdir(parents=True, exist_ok=True)
-            output.write_text(text, encoding=self.encoding)
-            logger.info(f"Converted `{self.SOURCE}` to markdown and saved to `{output}`.")
-        else:
-            logger.info(f"Converted `{self.SOURCE}` to markdown.")
-        return {
-            "input": self.SOURCE,
-            "output": str(output) if output is not None else None,
-            "out_text": text,
-        }
-def main() -> None:
-    Arguments().run()
-if __name__ == "__main__":
-    main()
+import logging
+from pathlib import Path
+from typing import Optional, TypedDict
+import openai
+from spargear import RunnableArguments
+from chatterer import anything_to_markdown
+logger = logging.getLogger(__name__)
+class AnythingToMarkdownReturns(TypedDict):
+    input: str
+    output: Optional[str]
+    out_text: str
+class Arguments(RunnableArguments[AnythingToMarkdownReturns]):
+    """Command line arguments for converting various file types to markdown."""
+    SOURCE: str
+    """Input file to convert to markdown. Can be a file path or a URL."""
+    output: Optional[str] = None
+    """Output path for the converted markdown file. If not provided, the input file's suffix is replaced with .md"""
+    model: Optional[str] = None
+    """OpenAI Model to use for conversion"""
+    api_key: Optional[str] = None
+    """API key for OpenAI API"""
+    base_url: Optional[str] = None
+    """Base URL for OpenAI API"""
+    style_map: Optional[str] = None
+    """Output style map"""
+    exiftool_path: Optional[str] = None
+    """"Path to exiftool for metadata extraction"""
+    docintel_endpoint: Optional[str] = None
+    "Document Intelligence API endpoint"
+    prevent_save_file: bool = False
+    """Prevent saving the converted file to disk."""
+    encoding: str = "utf-8"
+    """Encoding for the output file."""
+    def run(self) -> AnythingToMarkdownReturns:
+        if not self.prevent_save_file:
+            if not self.output:
+                output = Path(self.SOURCE).with_suffix(".md")
+            else:
+                output = Path(self.output)
+        else:
+            output = None
+        if self.model:
+            llm_client = openai.OpenAI(api_key=self.api_key, base_url=self.base_url)
+            llm_model = self.model
+        else:
+            llm_client = None
+            llm_model = None
+        text: str = anything_to_markdown(
+            self.SOURCE,
+            llm_client=llm_client,
+            llm_model=llm_model,
+            style_map=self.style_map,
+            exiftool_path=self.exiftool_path,
+            docintel_endpoint=self.docintel_endpoint,
+        )
+        if output:
+            output.parent.mkdir(parents=True, exist_ok=True)
+            output.write_text(text, encoding=self.encoding)
+            logger.info(f"Converted `{self.SOURCE}` to markdown and saved to `{output}`.")
+        else:
+            logger.info(f"Converted `{self.SOURCE}` to markdown.")
+        return {
+            "input": self.SOURCE,
+            "output": str(output) if output is not None else None,
+            "out_text": text,
+        }
+def main() -> None:
+    Arguments().run()
+if __name__ == "__main__":
+    main()

chatterer 0.1.24__py3-none-any.whl → 0.1.26__py3-none-any.whl

chatterer 0.1.24py3-none-any.whl → 0.1.26py3-none-any.whl