PyPI - trustgraph-base - Versions diffs - 0.11.11__tar.gz - Mend

trustgraph-base 0.11.11__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (40) hide show

trustgraph-base-0.11.11/PKG-INFO ADDED Viewed

@@ -0,0 +1,17 @@
+Metadata-Version: 2.1
+Name: trustgraph-base
+Version: 0.11.11
+Summary: TrustGraph provides a means to run a pipeline of flexible AI processing components in a flexible means to achieve a processing pipeline.
+Home-page: https://github.com/trustgraph-ai/trustgraph
+Download-URL: https://github.com/trustgraph-ai/trustgraph/archive/refs/tags/v0.11.11.tar.gz
+Author: trustgraph.ai
+Author-email: security@trustgraph.ai
+Classifier: Programming Language :: Python :: 3
+Classifier: License :: OSI Approved :: GNU General Public License v3 or later (GPLv3+)
+Classifier: Operating System :: OS Independent
+Requires-Python: >=3.8
+Description-Content-Type: text/markdown
+Requires-Dist: pulsar-client
+Requires-Dist: prometheus-client
+See https://trustgraph.ai/

trustgraph-base-0.11.11/README.md ADDED Viewed

	@@ -0,0 +1 @@
1	+ See https://trustgraph.ai/

trustgraph-base-0.11.11/setup.cfg ADDED Viewed

@@ -0,0 +1,4 @@
+[egg_info]
+tag_build =
+tag_date = 0

trustgraph-base-0.11.11/setup.py ADDED Viewed

@@ -0,0 +1,42 @@
+import setuptools
+import os
+import importlib
+with open("README.md", "r") as fh:
+    long_description = fh.read()
+# Load a version number module
+spec = importlib.util.spec_from_file_location(
+    'version', 'trustgraph/base_version.py'
+)
+version_module = importlib.util.module_from_spec(spec)
+spec.loader.exec_module(version_module)
+version = version_module.__version__
+setuptools.setup(
+    name="trustgraph-base",
+    version=version,
+    author="trustgraph.ai",
+    author_email="security@trustgraph.ai",
+    description="TrustGraph provides a means to run a pipeline of flexible AI processing components in a flexible means to achieve a processing pipeline.",
+    long_description=long_description,
+    long_description_content_type="text/markdown",
+    url="https://github.com/trustgraph-ai/trustgraph",
+    packages=setuptools.find_namespace_packages(
+        where='./',
+    ),
+    classifiers=[
+        "Programming Language :: Python :: 3",
+        "License :: OSI Approved :: GNU General Public License v3 or later (GPLv3+)",
+        "Operating System :: OS Independent",
+    ],
+    python_requires='>=3.8',
+    download_url = "https://github.com/trustgraph-ai/trustgraph/archive/refs/tags/v" + version + ".tar.gz",
+    install_requires=[
+        "pulsar-client",
+        "prometheus-client",
+    ],
+    scripts=[
+    ]
+)

trustgraph-base-0.11.11/trustgraph/base/__init__.py ADDED Viewed

@@ -0,0 +1,6 @@
+from . base_processor import BaseProcessor
+from . consumer import Consumer
+from . producer import Producer
+from . consumer_producer import ConsumerProducer

trustgraph-base-0.11.11/trustgraph/base/base_processor.py ADDED Viewed

@@ -0,0 +1,119 @@
+import os
+import argparse
+import pulsar
+import _pulsar
+import time
+from prometheus_client import start_http_server, Info
+from .. log_level import LogLevel
+class BaseProcessor:
+    default_pulsar_host = os.getenv("PULSAR_HOST", 'pulsar://pulsar:6650')
+    def __init__(self, **params):
+        self.client = None
+        if not hasattr(__class__, "params_metric"):
+            __class__.params_metric = Info(
+                'params', 'Parameters configuration'
+            )
+        # FIXME: Maybe outputs information it should not
+        __class__.params_metric.info({
+            k: str(params[k])
+            for k in params
+        })
+        pulsar_host = params.get("pulsar_host", self.default_pulsar_host)
+        log_level = params.get("log_level", LogLevel.INFO)
+        self.pulsar_host = pulsar_host
+        self.client = pulsar.Client(
+            pulsar_host,
+            logger=pulsar.ConsoleLogger(log_level.to_pulsar())
+        )
+    def __del__(self):
+        if self.client:
+            self.client.close()
+    @staticmethod
+    def add_args(parser):
+        parser.add_argument(
+            '-p', '--pulsar-host',
+            default=__class__.default_pulsar_host,
+            help=f'Pulsar host (default: {__class__.default_pulsar_host})',
+        )
+        parser.add_argument(
+            '-l', '--log-level',
+            type=LogLevel,
+            default=LogLevel.INFO,
+            choices=list(LogLevel),
+            help=f'Output queue (default: info)'
+        )
+        parser.add_argument(
+            '--metrics',
+            action=argparse.BooleanOptionalAction,
+            default=True,
+            help=f'Metrics enabled (default: true)',
+        )
+        parser.add_argument(
+            '-P', '--metrics-port',
+            type=int,
+            default=8000,
+            help=f'Pulsar host (default: 8000)',
+        )
+    def run(self):
+        raise RuntimeError("Something should have implemented the run method")
+    @classmethod
+    def start(cls, prog, doc):
+        parser = argparse.ArgumentParser(
+            prog=prog,
+            description=doc
+        )
+        cls.add_args(parser)
+        args = parser.parse_args()
+        args = vars(args)
+        print(args)
+        if args["metrics"]:
+            start_http_server(args["metrics_port"])
+        while True:
+            try:
+                p = cls(**args)
+                p.run()
+            except KeyboardInterrupt:
+                print("Keyboard interrupt.")
+                return
+            except _pulsar.Interrupted:
+                print("Pulsar Interrupted.")
+                return
+            except Exception as e:
+                print(type(e))
+                print("Exception:", e, flush=True)
+                print("Will retry...", flush=True)
+                time.sleep(4)

trustgraph-base-0.11.11/trustgraph/base/consumer.py ADDED Viewed

@@ -0,0 +1,107 @@
+from pulsar.schema import JsonSchema
+from prometheus_client import Histogram, Info, Counter, Enum
+import time
+from . base_processor import BaseProcessor
+from .. exceptions import TooManyRequests
+class Consumer(BaseProcessor):
+    def __init__(self, **params):
+        if not hasattr(__class__, "state_metric"):
+            __class__.state_metric = Enum(
+                'processor_state', 'Processor state',
+                states=['starting', 'running', 'stopped']
+            )
+            __class__.state_metric.state('starting')
+        __class__.state_metric.state('starting')
+        super(Consumer, self).__init__(**params)
+        input_queue = params.get("input_queue")
+        subscriber = params.get("subscriber")
+        input_schema = params.get("input_schema")
+        if input_schema == None:
+            raise RuntimeError("input_schema must be specified")
+        if not hasattr(__class__, "request_metric"):
+            __class__.request_metric = Histogram(
+                'request_latency', 'Request latency (seconds)'
+            )
+        if not hasattr(__class__, "pubsub_metric"):
+            __class__.pubsub_metric = Info(
+                'pubsub', 'Pub/sub configuration'
+            )
+        if not hasattr(__class__, "processing_metric"):
+            __class__.processing_metric = Counter(
+                'processing_count', 'Processing count', ["status"]
+            )
+        __class__.pubsub_metric.info({
+            "input_queue": input_queue,
+            "subscriber": subscriber,
+            "input_schema": input_schema.__name__,
+        })
+        self.consumer = self.client.subscribe(
+            input_queue, subscriber,
+            schema=JsonSchema(input_schema),
+        )
+    def run(self):
+        __class__.state_metric.state('running')
+        while True:
+            msg = self.consumer.receive()
+            try:
+                with __class__.request_metric.time():
+                    self.handle(msg)
+                # Acknowledge successful processing of the message
+                self.consumer.acknowledge(msg)
+                __class__.processing_metric.labels(status="success").inc()
+            except TooManyRequests:
+                self.consumer.negative_acknowledge(msg)
+                print("TooManyRequests: will retry")
+                __class__.processing_metric.labels(status="rate-limit").inc()
+                time.sleep(5)
+                continue
+            except Exception as e:
+                print("Exception:", e, flush=True)
+                # Message failed to be processed
+                self.consumer.negative_acknowledge(msg)
+                __class__.processing_metric.labels(status="error").inc()
+    @staticmethod
+    def add_args(parser, default_input_queue, default_subscriber):
+        BaseProcessor.add_args(parser)
+        parser.add_argument(
+            '-i', '--input-queue',
+            default=default_input_queue,
+            help=f'Input queue (default: {default_input_queue})'
+        )
+        parser.add_argument(
+            '-s', '--subscriber',
+            default=default_subscriber,
+            help=f'Queue subscriber name (default: {default_subscriber})'
+        )

trustgraph-base-0.11.11/trustgraph/base/consumer_producer.py ADDED Viewed

@@ -0,0 +1,139 @@
+from pulsar.schema import JsonSchema
+from prometheus_client import Histogram, Info, Counter, Enum
+import time
+from . base_processor import BaseProcessor
+from .. exceptions import TooManyRequests
+# FIXME: Derive from consumer?  And producer?
+class ConsumerProducer(BaseProcessor):
+    def __init__(self, **params):
+        if not hasattr(__class__, "state_metric"):
+            __class__.state_metric = Enum(
+                'processor_state', 'Processor state',
+                states=['starting', 'running', 'stopped']
+            )
+            __class__.state_metric.state('starting')
+        __class__.state_metric.state('starting')
+        input_queue = params.get("input_queue")
+        output_queue = params.get("output_queue")
+        subscriber = params.get("subscriber")
+        input_schema = params.get("input_schema")
+        output_schema = params.get("output_schema")
+        if not hasattr(__class__, "request_metric"):
+            __class__.request_metric = Histogram(
+                'request_latency', 'Request latency (seconds)'
+            )
+        if not hasattr(__class__, "output_metric"):
+            __class__.output_metric = Counter(
+                'output_count', 'Output items created'
+            )
+        if not hasattr(__class__, "pubsub_metric"):
+            __class__.pubsub_metric = Info(
+                'pubsub', 'Pub/sub configuration'
+            )
+        if not hasattr(__class__, "processing_metric"):
+            __class__.processing_metric = Counter(
+                'processing_count', 'Processing count', ["status"]
+            )
+        __class__.pubsub_metric.info({
+            "input_queue": input_queue,
+            "output_queue": output_queue,
+            "subscriber": subscriber,
+            "input_schema": input_schema.__name__,
+            "output_schema": output_schema.__name__,
+        })
+        super(ConsumerProducer, self).__init__(**params)
+        if input_schema == None:
+            raise RuntimeError("input_schema must be specified")
+        if output_schema == None:
+            raise RuntimeError("output_schema must be specified")
+        self.producer = self.client.create_producer(
+            topic=output_queue,
+            schema=JsonSchema(output_schema),
+        )
+        self.consumer = self.client.subscribe(
+            input_queue, subscriber,
+            schema=JsonSchema(input_schema),
+        )
+    def run(self):
+        __class__.state_metric.state('running')
+        while True:
+            msg = self.consumer.receive()
+            try:
+                with __class__.request_metric.time():
+                    resp = self.handle(msg)
+                # Acknowledge successful processing of the message
+                self.consumer.acknowledge(msg)
+                __class__.processing_metric.labels(status="success").inc()
+            except TooManyRequests:
+                self.consumer.negative_acknowledge(msg)
+                print("TooManyRequests: will retry")
+                __class__.processing_metric.labels(status="rate-limit").inc()
+                time.sleep(5)
+                continue
+            except Exception as e:
+                print("Exception:", e, flush=True)
+                # Message failed to be processed
+                self.consumer.negative_acknowledge(msg)
+                __class__.processing_metric.labels(status="error").inc()
+    def send(self, msg, properties={}):
+        self.producer.send(msg, properties)
+        __class__.output_metric.inc()
+    @staticmethod
+    def add_args(
+            parser, default_input_queue, default_subscriber,
+            default_output_queue,
+    ):
+        BaseProcessor.add_args(parser)
+        parser.add_argument(
+            '-i', '--input-queue',
+            default=default_input_queue,
+            help=f'Input queue (default: {default_input_queue})'
+        )
+        parser.add_argument(
+            '-s', '--subscriber',
+            default=default_subscriber,
+            help=f'Queue subscriber name (default: {default_subscriber})'
+        )
+        parser.add_argument(
+            '-o', '--output-queue',
+            default=default_output_queue,
+            help=f'Output queue (default: {default_output_queue})'
+        )

trustgraph-base-0.11.11/trustgraph/base/producer.py ADDED Viewed

@@ -0,0 +1,55 @@
+from pulsar.schema import JsonSchema
+from prometheus_client import Info, Counter
+from . base_processor import BaseProcessor
+class Producer(BaseProcessor):
+    def __init__(self, **params):
+        output_queue = params.get("output_queue")
+        output_schema = params.get("output_schema")
+        if not hasattr(__class__, "output_metric"):
+            __class__.output_metric = Counter(
+                'output_count', 'Output items created'
+            )
+        if not hasattr(__class__, "pubsub_metric"):
+            __class__.pubsub_metric = Info(
+                'pubsub', 'Pub/sub configuration'
+            )
+        __class__.pubsub_metric.info({
+            "output_queue": output_queue,
+            "output_schema": output_schema.__name__,
+        })
+        super(Producer, self).__init__(**params)
+        if output_schema == None:
+            raise RuntimeError("output_schema must be specified")
+        self.producer = self.client.create_producer(
+            topic=output_queue,
+            schema=JsonSchema(output_schema),
+        )
+    def send(self, msg, properties={}):
+        self.producer.send(msg, properties)
+        __class__.output_metric.inc()
+    @staticmethod
+    def add_args(
+            parser, default_input_queue, default_subscriber,
+            default_output_queue,
+    ):
+        BaseProcessor.add_args(parser)
+        parser.add_argument(
+            '-o', '--output-queue',
+            default=default_output_queue,
+            help=f'Output queue (default: {default_output_queue})'
+        )

trustgraph-base-0.11.11/trustgraph/base_version.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "0.11.11"

trustgraph-base-0.11.11/trustgraph/clients/__init__.py ADDED Viewed

File without changes

trustgraph-base-0.11.11/trustgraph/clients/base.py ADDED Viewed

@@ -0,0 +1,125 @@
+import pulsar
+import _pulsar
+import hashlib
+import uuid
+import time
+from pulsar.schema import JsonSchema
+from .. exceptions import *
+# Default timeout for a request/response.  In seconds.
+DEFAULT_TIMEOUT=300
+# Ugly
+ERROR=_pulsar.LoggerLevel.Error
+WARN=_pulsar.LoggerLevel.Warn
+INFO=_pulsar.LoggerLevel.Info
+DEBUG=_pulsar.LoggerLevel.Debug
+class BaseClient:
+    def __init__(
+            self, log_level=ERROR,
+            subscriber=None,
+            input_queue=None,
+            output_queue=None,
+            input_schema=None,
+            output_schema=None,
+            pulsar_host="pulsar://pulsar:6650",
+    ):
+        if input_queue == None: raise RuntimeError("Need input_queue")
+        if output_queue == None: raise RuntimeError("Need output_queue")
+        if input_schema == None: raise RuntimeError("Need input_schema")
+        if output_schema == None: raise RuntimeError("Need output_schema")
+        if subscriber == None:
+            subscriber = str(uuid.uuid4())
+        self.client = pulsar.Client(
+            pulsar_host,
+            logger=pulsar.ConsoleLogger(log_level),
+        )
+        self.producer = self.client.create_producer(
+            topic=input_queue,
+            schema=JsonSchema(input_schema),
+            chunking_enabled=True,
+        )
+        self.consumer = self.client.subscribe(
+            output_queue, subscriber,
+            schema=JsonSchema(output_schema),
+        )
+        self.input_schema = input_schema
+        self.output_schema = output_schema
+    def call(self, **args):
+        timeout = args.get("timeout", DEFAULT_TIMEOUT)
+        if "timeout" in args:
+            del args["timeout"]
+        id = str(uuid.uuid4())
+        r = self.input_schema(**args)
+        end_time = time.time() + timeout
+        self.producer.send(r, properties={ "id": id })
+        while time.time() < end_time:
+            try:
+                msg = self.consumer.receive(timeout_millis=2500)
+            except pulsar.exceptions.Timeout:
+                continue
+            mid = msg.properties()["id"]
+            if mid == id:
+                value = msg.value()
+                if value.error:
+                    self.consumer.acknowledge(msg)
+                    if value.error.type == "llm-error":
+                        raise LlmError(value.error.message)
+                    elif value.error.type == "too-many-requests":
+                        raise TooManyRequests(value.error.message)
+                    elif value.error.type == "ParseError":
+                        raise ParseError(value.error.message)
+                    else:
+                        raise RuntimeError(
+                            f"{value.error.type}: {value.error.message}"
+                        )
+                resp = msg.value()
+                self.consumer.acknowledge(msg)
+                return resp
+            # Ignore messages with wrong ID
+            self.consumer.acknowledge(msg)
+        raise TimeoutError("Timed out waiting for response")
+    def __del__(self):
+        if hasattr(self, "consumer"):
+            self.consumer.close()
+        if hasattr(self, "producer"):
+            self.producer.flush()
+            self.producer.close()
+        self.client.close()

trustgraph-base-0.11.11/trustgraph/clients/document_embeddings_client.py ADDED Viewed

@@ -0,0 +1,45 @@
+import _pulsar
+from .. schema import DocumentEmbeddingsRequest, DocumentEmbeddingsResponse
+from .. schema import document_embeddings_request_queue
+from .. schema import document_embeddings_response_queue
+from . base import BaseClient
+# Ugly
+ERROR=_pulsar.LoggerLevel.Error
+WARN=_pulsar.LoggerLevel.Warn
+INFO=_pulsar.LoggerLevel.Info
+DEBUG=_pulsar.LoggerLevel.Debug
+class DocumentEmbeddingsClient(BaseClient):
+    def __init__(
+            self, log_level=ERROR,
+            subscriber=None,
+            input_queue=None,
+            output_queue=None,
+            pulsar_host="pulsar://pulsar:6650",
+    ):
+        if input_queue == None:
+            input_queue = document_embeddings_request_queue
+        if output_queue == None:
+            output_queue = document_embeddings_response_queue
+        super(DocumentEmbeddingsClient, self).__init__(
+            log_level=log_level,
+            subscriber=subscriber,
+            input_queue=input_queue,
+            output_queue=output_queue,
+            pulsar_host=pulsar_host,
+            input_schema=DocumentEmbeddingsRequest,
+            output_schema=DocumentEmbeddingsResponse,
+        )
+    def request(self, vectors, limit=10, timeout=300):
+        return self.call(
+            vectors=vectors, limit=limit, timeout=timeout
+        ).documents