PyPI - trustgraph - Versions diffs - 0.3.0__tar.gz → 0.4.1__tar.gz - Mend

trustgraph 0.3.0tar.gz → 0.4.1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of trustgraph might be problematic. Click here for more details.

Files changed (97) hide show

{trustgraph-0.3.0 → trustgraph-0.4.1}/PKG-INFO RENAMED Viewed

@@ -1,9 +1,9 @@
 Metadata-Version: 2.1
 Name: trustgraph
-Version: 0.3.0
+Version: 0.4.1
 Summary: TrustGraph provides a means to run a pipeline of flexible AI processing components in a flexible means to achieve a processing pipeline.
 Home-page: https://github.com/trustgraph-ai/trustgraph
-Download-URL: https://github.com/trustgraph-ai/trustgraph/archive/refs/tags/v0.3.0.tar.gz
+Download-URL: https://github.com/trustgraph-ai/trustgraph/archive/refs/tags/v0.4.1.tar.gz
 Author: trustgraph.ai
 Author-email: security@trustgraph.ai
 Classifier: Programming Language :: Python :: 3
@@ -31,6 +31,7 @@ Requires-Dist: pypdf
 Requires-Dist: anthropic
 Requires-Dist: google-cloud-aiplatform
 Requires-Dist: pyyaml
+Requires-Dist: prometheus-client
 # TrustGraph

{trustgraph-0.3.0 → trustgraph-0.4.1}/setup.py RENAMED Viewed

@@ -4,7 +4,7 @@ import os
 with open("README.md", "r") as fh:
     long_description = fh.read()
-version = "0.3.0"
+version = "0.4.1"
 setuptools.setup(
     name="trustgraph",
@@ -43,6 +43,7 @@ setuptools.setup(
         "anthropic",
         "google-cloud-aiplatform",
         "pyyaml",
+        "prometheus-client",
     ],
     scripts=[
         "scripts/chunker-recursive",

trustgraph-0.4.1/trustgraph/base/processor.py ADDED Viewed

@@ -0,0 +1,360 @@
+import os
+import argparse
+import pulsar
+import _pulsar
+import time
+from pulsar.schema import JsonSchema
+from prometheus_client import start_http_server, Histogram, Info, Counter
+from .. log_level import LogLevel
+class BaseProcessor:
+    default_pulsar_host = os.getenv("PULSAR_HOST", 'pulsar://pulsar:6650')
+    def __init__(self, **params):
+        self.client = None
+        if not hasattr(__class__, "params_metric"):
+            __class__.params_metric = Info(
+                'params', 'Parameters configuration'
+            )
+        # FIXME: Maybe outputs information it should not
+        __class__.params_metric.info({
+            k: str(params[k])
+            for k in params
+        })
+        pulsar_host = params.get("pulsar_host", self.default_pulsar_host)
+        log_level = params.get("log_level", LogLevel.INFO)
+        self.pulsar_host = pulsar_host
+        self.client = pulsar.Client(
+            pulsar_host,
+            logger=pulsar.ConsoleLogger(log_level.to_pulsar())
+        )
+    def __del__(self):
+        if self.client:
+            self.client.close()
+    @staticmethod
+    def add_args(parser):
+        parser.add_argument(
+            '-p', '--pulsar-host',
+            default=__class__.default_pulsar_host,
+            help=f'Pulsar host (default: {__class__.default_pulsar_host})',
+        )
+        parser.add_argument(
+            '-l', '--log-level',
+            type=LogLevel,
+            default=LogLevel.INFO,
+            choices=list(LogLevel),
+            help=f'Output queue (default: info)'
+        )
+        parser.add_argument(
+            '-M', '--metrics-enabled',
+            type=bool,
+            default=True,
+            help=f'Pulsar host (default: true)',
+        )
+        parser.add_argument(
+            '-P', '--metrics-port',
+            type=int,
+            default=8000,
+            help=f'Pulsar host (default: 8000)',
+        )
+    def run(self):
+        raise RuntimeError("Something should have implemented the run method")
+    @classmethod
+    def start(cls, prog, doc):
+        while True:
+            parser = argparse.ArgumentParser(
+                prog=prog,
+                description=doc
+            )
+            cls.add_args(parser)
+            args = parser.parse_args()
+            args = vars(args)
+            if args["metrics_enabled"]:
+                start_http_server(args["metrics_port"])
+            try:
+                p = cls(**args)
+                p.run()
+            except KeyboardInterrupt:
+                print("Keyboard interrupt.")
+                return
+            except _pulsar.Interrupted:
+                print("Pulsar Interrupted.")
+                return
+            except Exception as e:
+                print(type(e))
+                print("Exception:", e, flush=True)
+                print("Will retry...", flush=True)
+                time.sleep(10)
+class Consumer(BaseProcessor):
+    def __init__(self, **params):
+        super(Consumer, self).__init__(**params)
+        input_queue = params.get("input_queue")
+        subscriber = params.get("subscriber")
+        input_schema = params.get("input_schema")
+        if input_schema == None:
+            raise RuntimeError("input_schema must be specified")
+        if not hasattr(__class__, "request_metric"):
+            __class__.request_metric = Histogram(
+                'request_latency', 'Request latency (seconds)'
+            )
+        if not hasattr(__class__, "pubsub_metric"):
+            __class__.pubsub_metric = Info(
+                'pubsub', 'Pub/sub configuration'
+            )
+        if not hasattr(__class__, "processing_metric"):
+            __class__.processing_metric = Counter(
+                'processing_count', 'Processing count', ["status"]
+            )
+        __class__.pubsub_metric.info({
+            "input_queue": input_queue,
+            "subscriber": subscriber,
+            "input_schema": input_schema.__name__,
+        })
+        self.consumer = self.client.subscribe(
+            input_queue, subscriber,
+            schema=JsonSchema(input_schema),
+        )
+    def run(self):
+        while True:
+            msg = self.consumer.receive()
+            try:
+                with __class__.request_metric.time():
+                    self.handle(msg)
+                # Acknowledge successful processing of the message
+                self.consumer.acknowledge(msg)
+                __class__.processing_metric.labels(status="success").inc()
+            except Exception as e:
+                print("Exception:", e, flush=True)
+                # Message failed to be processed
+                self.consumer.negative_acknowledge(msg)
+                __class__.processing_metric.labels(status="error").inc()
+    @staticmethod
+    def add_args(parser, default_input_queue, default_subscriber):
+        BaseProcessor.add_args(parser)
+        parser.add_argument(
+            '-i', '--input-queue',
+            default=default_input_queue,
+            help=f'Input queue (default: {default_input_queue})'
+        )
+        parser.add_argument(
+            '-s', '--subscriber',
+            default=default_subscriber,
+            help=f'Queue subscriber name (default: {default_subscriber})'
+        )
+class ConsumerProducer(BaseProcessor):
+    def __init__(self, **params):
+        input_queue = params.get("input_queue")
+        output_queue = params.get("output_queue")
+        subscriber = params.get("subscriber")
+        input_schema = params.get("input_schema")
+        output_schema = params.get("output_schema")
+        if not hasattr(__class__, "request_metric"):
+            __class__.request_metric = Histogram(
+                'request_latency', 'Request latency (seconds)'
+            )
+        if not hasattr(__class__, "output_metric"):
+            __class__.output_metric = Counter(
+                'output_count', 'Output items created'
+            )
+        if not hasattr(__class__, "pubsub_metric"):
+            __class__.pubsub_metric = Info(
+                'pubsub', 'Pub/sub configuration'
+            )
+        if not hasattr(__class__, "processing_metric"):
+            __class__.processing_metric = Counter(
+                'processing_count', 'Processing count', ["status"]
+            )
+        __class__.pubsub_metric.info({
+            "input_queue": input_queue,
+            "output_queue": output_queue,
+            "subscriber": subscriber,
+            "input_schema": input_schema.__name__,
+            "output_schema": output_schema.__name__,
+        })
+        super(ConsumerProducer, self).__init__(**params)
+        if input_schema == None:
+            raise RuntimeError("input_schema must be specified")
+        if output_schema == None:
+            raise RuntimeError("output_schema must be specified")
+        self.consumer = self.client.subscribe(
+            input_queue, subscriber,
+            schema=JsonSchema(input_schema),
+        )
+        self.producer = self.client.create_producer(
+            topic=output_queue,
+            schema=JsonSchema(output_schema),
+        )
+    def run(self):
+        while True:
+            msg = self.consumer.receive()
+            try:
+                with __class__.request_metric.time():
+                    resp = self.handle(msg)
+                # Acknowledge successful processing of the message
+                self.consumer.acknowledge(msg)
+                __class__.processing_metric.labels(status="success").inc()
+            except Exception as e:
+                print("Exception:", e, flush=True)
+                # Message failed to be processed
+                self.consumer.negative_acknowledge(msg)
+                __class__.processing_metric.labels(status="error").inc()
+    def send(self, msg, properties={}):
+        self.producer.send(msg, properties)
+        __class__.output_metric.inc()
+    @staticmethod
+    def add_args(
+            parser, default_input_queue, default_subscriber,
+            default_output_queue,
+    ):
+        BaseProcessor.add_args(parser)
+        parser.add_argument(
+            '-i', '--input-queue',
+            default=default_input_queue,
+            help=f'Input queue (default: {default_input_queue})'
+        )
+        parser.add_argument(
+            '-s', '--subscriber',
+            default=default_subscriber,
+            help=f'Queue subscriber name (default: {default_subscriber})'
+        )
+        parser.add_argument(
+            '-o', '--output-queue',
+            default=default_output_queue,
+            help=f'Output queue (default: {default_output_queue})'
+        )
+class Producer(BaseProcessor):
+    def __init__(self, **params):
+        output_queue = params.get("output_queue")
+        output_schema = params.get("output_schema")
+        if not hasattr(__class__, "output_metric"):
+            __class__.output_metric = Counter(
+                'output_count', 'Output items created'
+            )
+        if not hasattr(__class__, "pubsub_metric"):
+            __class__.pubsub_metric = Info(
+                'pubsub', 'Pub/sub configuration'
+            )
+        __class__.pubsub_metric.info({
+            "output_queue": output_queue,
+            "output_schema": output_schema.__name__,
+        })
+        super(Producer, self).__init__(**params)
+        if output_schema == None:
+            raise RuntimeError("output_schema must be specified")
+        self.producer = self.client.create_producer(
+            topic=output_queue,
+            schema=JsonSchema(output_schema),
+        )
+    def send(self, msg, properties={}):
+        self.producer.send(msg, properties)
+        __class__.output_metric.inc()
+    @staticmethod
+    def add_args(
+            parser, default_input_queue, default_subscriber,
+            default_output_queue,
+    ):
+        BaseProcessor.add_args(parser)
+        parser.add_argument(
+            '-o', '--output-queue',
+            default=default_output_queue,
+            help=f'Output queue (default: {default_output_queue})'
+        )

{trustgraph-0.3.0 → trustgraph-0.4.1}/trustgraph/chunker/recursive/chunker.py RENAMED Viewed

@@ -17,25 +17,22 @@ default_subscriber = 'chunker-recursive'
 class Processor(ConsumerProducer):
-    def __init__(
-            self,
-            pulsar_host=None,
-            input_queue=default_input_queue,
-            output_queue=default_output_queue,
-            subscriber=default_subscriber,
-            log_level=LogLevel.INFO,
-            chunk_size=2000,
-            chunk_overlap=100,
-    ):
+    def __init__(self, **params):
+        input_queue = params.get("input_queue", default_input_queue)
+        output_queue = params.get("output_queue", default_output_queue)
+        subscriber = params.get("subscriber", default_subscriber)
+        chunk_size = params.get("chunk_size", 2000)
+        chunk_overlap = params.get("chunk_overlap", 100)
         super(Processor, self).__init__(
-            pulsar_host=pulsar_host,
-            log_level=log_level,
-            input_queue=input_queue,
-            output_queue=output_queue,
-            subscriber=subscriber,
-            input_schema=TextDocument,
-            output_schema=Chunk,
+            **params | {
+                "input_queue": input_queue,
+                "output_queue": output_queue,
+                "subscriber": subscriber,
+                "input_schema": TextDocument,
+                "output_schema": Chunk,
+            }
         )
         self.text_splitter = RecursiveCharacterTextSplitter(

{trustgraph-0.3.0 → trustgraph-0.4.1}/trustgraph/decoder/pdf/pdf_decoder.py RENAMED Viewed

@@ -18,23 +18,20 @@ default_subscriber = 'pdf-decoder'
 class Processor(ConsumerProducer):
-    def __init__(
-            self,
-            pulsar_host=None,
-            input_queue=default_input_queue,
-            output_queue=default_output_queue,
-            subscriber=default_subscriber,
-            log_level=LogLevel.INFO,
-    ):
+    def __init__(self, **params):
+        input_queue = params.get("input_queue", default_input_queue)
+        output_queue = params.get("output_queue", default_output_queue)
+        subscriber = params.get("subscriber", default_subscriber)
         super(Processor, self).__init__(
-            pulsar_host=pulsar_host,
-            log_level=log_level,
-            input_queue=input_queue,
-            output_queue=output_queue,
-            subscriber=subscriber,
-            input_schema=Document,
-            output_schema=TextDocument,
+            **params | {
+                "input_queue": input_queue,
+                "output_queue": output_queue,
+                "subscriber": subscriber,
+                "input_schema": Document,
+                "output_schema": TextDocument,
+            }
         )
         print("PDF inited")

{trustgraph-0.3.0 → trustgraph-0.4.1}/trustgraph/embeddings/hf/hf.py RENAMED Viewed

@@ -17,24 +17,21 @@ default_model="all-MiniLM-L6-v2"
 class Processor(ConsumerProducer):
-    def __init__(
-            self,
-            pulsar_host=None,
-            input_queue=default_input_queue,
-            output_queue=default_output_queue,
-            subscriber=default_subscriber,
-            log_level=LogLevel.INFO,
-            model=default_model,
-    ):
+    def __init__(self, **params):
+        input_queue = params.get("input_queue", default_input_queue)
+        output_queue = params.get("output_queue", default_output_queue)
+        subscriber = params.get("subscriber", default_subscriber)
+        model = params.get("model", default_model)
         super(Processor, self).__init__(
-            pulsar_host=pulsar_host,
-            log_level=log_level,
-            input_queue=input_queue,
-            output_queue=output_queue,
-            subscriber=subscriber,
-            input_schema=EmbeddingsRequest,
-            output_schema=EmbeddingsResponse,
+            **params | {
+                "input_queue": input_queue,
+                "output_queue": output_queue,
+                "subscriber": subscriber,
+                "input_schema": EmbeddingsRequest,
+                "output_schema": EmbeddingsResponse,
+            }
         )
         self.embeddings = HuggingFaceEmbeddings(model_name=model)

{trustgraph-0.3.0 → trustgraph-0.4.1}/trustgraph/embeddings/ollama/processor.py RENAMED Viewed

@@ -17,25 +17,20 @@ default_ollama = 'http://localhost:11434'
 class Processor(ConsumerProducer):
-    def __init__(
-            self,
-            pulsar_host=None,
-            input_queue=default_input_queue,
-            output_queue=default_output_queue,
-            subscriber=default_subscriber,
-            log_level=LogLevel.INFO,
-            model=default_model,
-            ollama=default_ollama,
-    ):
+    def __init__(self, **params):
+        input_queue = params.get("input_queue", default_input_queue)
+        output_queue = params.get("output_queue", default_output_queue)
+        subscriber = params.get("subscriber", default_subscriber)
         super(Processor, self).__init__(
-            pulsar_host=pulsar_host,
-            log_level=log_level,
-            input_queue=input_queue,
-            output_queue=output_queue,
-            subscriber=subscriber,
-            input_schema=EmbeddingsRequest,
-            output_schema=EmbeddingsResponse,
+            **params | {
+                "input_queue": input_queue,
+                "output_queue": output_queue,
+                "subscriber": subscriber,
+                "input_schema": EmbeddingsRequest,
+                "output_schema": EmbeddingsResponse,
+            }
         )
         self.embeddings = OllamaEmbeddings(base_url=ollama, model=model)

{trustgraph-0.3.0 → trustgraph-0.4.1}/trustgraph/embeddings/vectorize/vectorize.py RENAMED Viewed

@@ -15,26 +15,23 @@ default_subscriber = 'embeddings-vectorizer'
 class Processor(ConsumerProducer):
-    def __init__(
-            self,
-            pulsar_host=None,
-            input_queue=default_input_queue,
-            output_queue=default_output_queue,
-            subscriber=default_subscriber,
-            log_level=LogLevel.INFO,
-    ):
+    def __init__(self, **params):
+        input_queue = params.get("input_queue", default_input_queue)
+        output_queue = params.get("output_queue", default_output_queue)
+        subscriber = params.get("subscriber", default_subscriber)
         super(Processor, self).__init__(
-            pulsar_host=pulsar_host,
-            log_level=log_level,
-            input_queue=input_queue,
-            output_queue=output_queue,
-            subscriber=subscriber,
-            input_schema=Chunk,
-            output_schema=VectorsChunk,
+            **params | {
+                "input_queue": input_queue,
+                "output_queue": output_queue,
+                "subscriber": subscriber,
+                "input_schema": Chunk,
+                "output_schema": VectorsChunk,
+            }
         )
-        self.embeddings = EmbeddingsClient(pulsar_host=pulsar_host)
+        self.embeddings = EmbeddingsClient(pulsar_host=self.pulsar_host)
     def emit(self, source, chunk, vectors):

{trustgraph-0.3.0 → trustgraph-0.4.1}/trustgraph/graph/cassandra_write/write.py RENAMED Viewed

@@ -20,27 +20,22 @@ default_graph_host='localhost'
 class Processor(Consumer):
-    def __init__(
-            self,
-            pulsar_host=None,
-            input_queue=default_input_queue,
-            subscriber=default_subscriber,
-            graph_host=default_graph_host,
-            log_level=LogLevel.INFO,
-    ):
+    def __init__(self, **params):
+        input_queue = params.get("input_queue", default_input_queue)
+        subscriber = params.get("subscriber", default_subscriber)
+        graph_host = params.get("graph_host", default_graph_host)
         super(Processor, self).__init__(
-            pulsar_host=pulsar_host,
-            log_level=log_level,
-            input_queue=input_queue,
-            subscriber=subscriber,
-            input_schema=Triple,
+            **params | {
+                "input_queue": input_queue,
+                "subscriber": subscriber,
+                "input_schema": Triple,
+            }
         )
         self.tg = TrustGraph([graph_host])
-        self.count = 0
     def handle(self, msg):
         v = msg.value()
@@ -51,11 +46,6 @@ class Processor(Consumer):
             v.o.value
         )
-        self.count += 1
-        if (self.count % 1000) == 0:
-            print(self.count, "...", flush=True)
     @staticmethod
     def add_args(parser):

{trustgraph-0.3.0 → trustgraph-0.4.1}/trustgraph/graph_rag.py RENAMED Viewed

@@ -18,7 +18,7 @@ class GraphRag:
             verbose=False,
             entity_limit=50,
             triple_limit=30,
-            max_sg_size=3000,
+            max_subgraph_size=3000,
     ):
         self.verbose=verbose
@@ -37,7 +37,7 @@ class GraphRag:
         self.entity_limit=entity_limit
         self.query_limit=triple_limit
-        self.max_sg_size=max_sg_size
+        self.max_subgraph_size=max_subgraph_size
         self.label_cache = {}
@@ -149,7 +149,7 @@ class GraphRag:
         subgraph = list(subgraph)
-        subgraph = subgraph[0:self.max_sg_size]
+        subgraph = subgraph[0:self.max_subgraph_size]
         if self.verbose:
             print("Subgraph:", flush=True)

trustgraph 0.3.0__tar.gz → 0.4.1__tar.gz

Potentially problematic release.

trustgraph 0.3.0tar.gz → 0.4.1tar.gz