PyPI - pytrilogy - Versions diffs - 0.3.148__cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl - Mend

pytrilogy 0.3.148__cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (206) hide show

LICENSE.md +19 -0
_preql_import_resolver/__init__.py +5 -0
_preql_import_resolver/_preql_import_resolver.cpython-312-aarch64-linux-gnu.so +0 -0
pytrilogy-0.3.148.dist-info/METADATA +555 -0
pytrilogy-0.3.148.dist-info/RECORD +206 -0
pytrilogy-0.3.148.dist-info/WHEEL +5 -0
pytrilogy-0.3.148.dist-info/entry_points.txt +2 -0
pytrilogy-0.3.148.dist-info/licenses/LICENSE.md +19 -0
trilogy/__init__.py +27 -0
trilogy/ai/README.md +10 -0
trilogy/ai/__init__.py +19 -0
trilogy/ai/constants.py +92 -0
trilogy/ai/conversation.py +107 -0
trilogy/ai/enums.py +7 -0
trilogy/ai/execute.py +50 -0
trilogy/ai/models.py +34 -0
trilogy/ai/prompts.py +100 -0
trilogy/ai/providers/__init__.py +0 -0
trilogy/ai/providers/anthropic.py +106 -0
trilogy/ai/providers/base.py +24 -0
trilogy/ai/providers/google.py +146 -0
trilogy/ai/providers/openai.py +89 -0
trilogy/ai/providers/utils.py +68 -0
trilogy/authoring/README.md +3 -0
trilogy/authoring/__init__.py +148 -0
trilogy/constants.py +119 -0
trilogy/core/README.md +52 -0
trilogy/core/__init__.py +0 -0
trilogy/core/constants.py +6 -0
trilogy/core/enums.py +454 -0
trilogy/core/env_processor.py +239 -0
trilogy/core/environment_helpers.py +320 -0
trilogy/core/ergonomics.py +193 -0
trilogy/core/exceptions.py +123 -0
trilogy/core/functions.py +1240 -0
trilogy/core/graph_models.py +142 -0
trilogy/core/internal.py +85 -0
trilogy/core/models/__init__.py +0 -0
trilogy/core/models/author.py +2662 -0
trilogy/core/models/build.py +2603 -0
trilogy/core/models/build_environment.py +165 -0
trilogy/core/models/core.py +506 -0
trilogy/core/models/datasource.py +434 -0
trilogy/core/models/environment.py +756 -0
trilogy/core/models/execute.py +1213 -0
trilogy/core/optimization.py +251 -0
trilogy/core/optimizations/__init__.py +12 -0
trilogy/core/optimizations/base_optimization.py +17 -0
trilogy/core/optimizations/hide_unused_concept.py +47 -0
trilogy/core/optimizations/inline_datasource.py +102 -0
trilogy/core/optimizations/predicate_pushdown.py +245 -0
trilogy/core/processing/README.md +94 -0
trilogy/core/processing/READMEv2.md +121 -0
trilogy/core/processing/VIRTUAL_UNNEST.md +30 -0
trilogy/core/processing/__init__.py +0 -0
trilogy/core/processing/concept_strategies_v3.py +508 -0
trilogy/core/processing/constants.py +15 -0
trilogy/core/processing/discovery_node_factory.py +451 -0
trilogy/core/processing/discovery_utility.py +548 -0
trilogy/core/processing/discovery_validation.py +167 -0
trilogy/core/processing/graph_utils.py +43 -0
trilogy/core/processing/node_generators/README.md +9 -0
trilogy/core/processing/node_generators/__init__.py +31 -0
trilogy/core/processing/node_generators/basic_node.py +160 -0
trilogy/core/processing/node_generators/common.py +270 -0
trilogy/core/processing/node_generators/constant_node.py +38 -0
trilogy/core/processing/node_generators/filter_node.py +315 -0
trilogy/core/processing/node_generators/group_node.py +213 -0
trilogy/core/processing/node_generators/group_to_node.py +117 -0
trilogy/core/processing/node_generators/multiselect_node.py +207 -0
trilogy/core/processing/node_generators/node_merge_node.py +695 -0
trilogy/core/processing/node_generators/recursive_node.py +88 -0
trilogy/core/processing/node_generators/rowset_node.py +165 -0
trilogy/core/processing/node_generators/select_helpers/__init__.py +0 -0
trilogy/core/processing/node_generators/select_helpers/datasource_injection.py +261 -0
trilogy/core/processing/node_generators/select_merge_node.py +786 -0
trilogy/core/processing/node_generators/select_node.py +95 -0
trilogy/core/processing/node_generators/synonym_node.py +98 -0
trilogy/core/processing/node_generators/union_node.py +91 -0
trilogy/core/processing/node_generators/unnest_node.py +182 -0
trilogy/core/processing/node_generators/window_node.py +201 -0
trilogy/core/processing/nodes/README.md +28 -0
trilogy/core/processing/nodes/__init__.py +179 -0
trilogy/core/processing/nodes/base_node.py +522 -0
trilogy/core/processing/nodes/filter_node.py +75 -0
trilogy/core/processing/nodes/group_node.py +194 -0
trilogy/core/processing/nodes/merge_node.py +420 -0
trilogy/core/processing/nodes/recursive_node.py +46 -0
trilogy/core/processing/nodes/select_node_v2.py +242 -0
trilogy/core/processing/nodes/union_node.py +53 -0
trilogy/core/processing/nodes/unnest_node.py +62 -0
trilogy/core/processing/nodes/window_node.py +56 -0
trilogy/core/processing/utility.py +823 -0
trilogy/core/query_processor.py +604 -0
trilogy/core/statements/README.md +35 -0
trilogy/core/statements/__init__.py +0 -0
trilogy/core/statements/author.py +536 -0
trilogy/core/statements/build.py +0 -0
trilogy/core/statements/common.py +20 -0
trilogy/core/statements/execute.py +155 -0
trilogy/core/table_processor.py +66 -0
trilogy/core/utility.py +8 -0
trilogy/core/validation/README.md +46 -0
trilogy/core/validation/__init__.py +0 -0
trilogy/core/validation/common.py +161 -0
trilogy/core/validation/concept.py +146 -0
trilogy/core/validation/datasource.py +227 -0
trilogy/core/validation/environment.py +73 -0
trilogy/core/validation/fix.py +256 -0
trilogy/dialect/__init__.py +32 -0
trilogy/dialect/base.py +1431 -0
trilogy/dialect/bigquery.py +314 -0
trilogy/dialect/common.py +147 -0
trilogy/dialect/config.py +159 -0
trilogy/dialect/dataframe.py +50 -0
trilogy/dialect/duckdb.py +376 -0
trilogy/dialect/enums.py +149 -0
trilogy/dialect/metadata.py +173 -0
trilogy/dialect/mock.py +190 -0
trilogy/dialect/postgres.py +117 -0
trilogy/dialect/presto.py +110 -0
trilogy/dialect/results.py +89 -0
trilogy/dialect/snowflake.py +129 -0
trilogy/dialect/sql_server.py +137 -0
trilogy/engine.py +48 -0
trilogy/execution/__init__.py +17 -0
trilogy/execution/config.py +119 -0
trilogy/execution/state/__init__.py +0 -0
trilogy/execution/state/file_state_store.py +0 -0
trilogy/execution/state/sqllite_state_store.py +0 -0
trilogy/execution/state/state_store.py +301 -0
trilogy/executor.py +656 -0
trilogy/hooks/__init__.py +4 -0
trilogy/hooks/base_hook.py +40 -0
trilogy/hooks/graph_hook.py +135 -0
trilogy/hooks/query_debugger.py +166 -0
trilogy/metadata/__init__.py +0 -0
trilogy/parser.py +10 -0
trilogy/parsing/README.md +21 -0
trilogy/parsing/__init__.py +0 -0
trilogy/parsing/common.py +1069 -0
trilogy/parsing/config.py +5 -0
trilogy/parsing/exceptions.py +8 -0
trilogy/parsing/helpers.py +1 -0
trilogy/parsing/parse_engine.py +2863 -0
trilogy/parsing/render.py +773 -0
trilogy/parsing/trilogy.lark +544 -0
trilogy/py.typed +0 -0
trilogy/render.py +45 -0
trilogy/scripts/README.md +9 -0
trilogy/scripts/__init__.py +0 -0
trilogy/scripts/agent.py +41 -0
trilogy/scripts/agent_info.py +306 -0
trilogy/scripts/common.py +430 -0
trilogy/scripts/dependency/Cargo.lock +617 -0
trilogy/scripts/dependency/Cargo.toml +39 -0
trilogy/scripts/dependency/README.md +131 -0
trilogy/scripts/dependency/build.sh +25 -0
trilogy/scripts/dependency/src/directory_resolver.rs +387 -0
trilogy/scripts/dependency/src/lib.rs +16 -0
trilogy/scripts/dependency/src/main.rs +770 -0
trilogy/scripts/dependency/src/parser.rs +435 -0
trilogy/scripts/dependency/src/preql.pest +208 -0
trilogy/scripts/dependency/src/python_bindings.rs +311 -0
trilogy/scripts/dependency/src/resolver.rs +716 -0
trilogy/scripts/dependency/tests/base.preql +3 -0
trilogy/scripts/dependency/tests/cli_integration.rs +377 -0
trilogy/scripts/dependency/tests/customer.preql +6 -0
trilogy/scripts/dependency/tests/main.preql +9 -0
trilogy/scripts/dependency/tests/orders.preql +7 -0
trilogy/scripts/dependency/tests/test_data/base.preql +9 -0
trilogy/scripts/dependency/tests/test_data/consumer.preql +1 -0
trilogy/scripts/dependency.py +323 -0
trilogy/scripts/display.py +555 -0
trilogy/scripts/environment.py +59 -0
trilogy/scripts/fmt.py +32 -0
trilogy/scripts/ingest.py +472 -0
trilogy/scripts/ingest_helpers/__init__.py +1 -0
trilogy/scripts/ingest_helpers/foreign_keys.py +123 -0
trilogy/scripts/ingest_helpers/formatting.py +93 -0
trilogy/scripts/ingest_helpers/typing.py +161 -0
trilogy/scripts/init.py +105 -0
trilogy/scripts/parallel_execution.py +748 -0
trilogy/scripts/plan.py +189 -0
trilogy/scripts/refresh.py +106 -0
trilogy/scripts/run.py +79 -0
trilogy/scripts/serve.py +202 -0
trilogy/scripts/serve_helpers/__init__.py +41 -0
trilogy/scripts/serve_helpers/file_discovery.py +142 -0
trilogy/scripts/serve_helpers/index_generation.py +206 -0
trilogy/scripts/serve_helpers/models.py +38 -0
trilogy/scripts/single_execution.py +131 -0
trilogy/scripts/testing.py +129 -0
trilogy/scripts/trilogy.py +75 -0
trilogy/std/__init__.py +0 -0
trilogy/std/color.preql +3 -0
trilogy/std/date.preql +13 -0
trilogy/std/display.preql +18 -0
trilogy/std/geography.preql +22 -0
trilogy/std/metric.preql +15 -0
trilogy/std/money.preql +67 -0
trilogy/std/net.preql +14 -0
trilogy/std/ranking.preql +7 -0
trilogy/std/report.preql +5 -0
trilogy/std/semantic.preql +6 -0
trilogy/utility.py +34 -0

trilogy/dialect/mock.py ADDED Viewed

@@ -0,0 +1,190 @@
+import random
+from datetime import date, datetime
+from typing import TYPE_CHECKING, Any, Iterable
+from trilogy.core.enums import Purpose
+from trilogy.core.models.author import Concept, ConceptRef
+from trilogy.core.models.core import CONCRETE_TYPES, ArrayType, DataType, TraitDataType
+from trilogy.core.models.datasource import Address, Datasource
+from trilogy.core.models.environment import Environment
+from trilogy.core.statements.execute import ProcessedMockStatement
+from trilogy.dialect.results import MockResult
+if TYPE_CHECKING:
+    from pyarrow import Table
+DEFAULT_SCALE_FACTOR = 100
+def safe_name(name: str) -> str:
+    return "".join(c if c.isalnum() or c == "_" else "_" for c in name)
+def mock_email(scale_factor: int, is_key: bool = False) -> list[str]:
+    providers = ["example.com", "test.com", "mock.com", "sample.org"]
+    if is_key:
+        return [
+            f"user{i}@{providers[i % len(providers)]}"
+            for i in range(1, scale_factor + 1)
+        ]
+    return [
+        f"user{random.randint(1, 999999)}@{random.choice(providers)}"
+        for _ in range(scale_factor)
+    ]
+def mock_hex_code(scale_factor: int, is_key: bool = False) -> list[str]:
+    if is_key:
+        return [f"#{i:06x}" for i in range(1, scale_factor + 1)]
+    return [f"#{random.randint(0, 0xFFFFFF):06x}" for _ in range(scale_factor)]
+def mock_datatype(
+    full_type: Any, datatype: CONCRETE_TYPES, scale_factor: int, is_key: bool = False
+) -> list[Any]:
+    if isinstance(full_type, TraitDataType):
+        if full_type.type == DataType.STRING:
+            # TODO: get stdlib inventory some other way?
+            if full_type.traits == ["email_address"]:
+                # email mock function
+                return mock_email(scale_factor, is_key)
+            elif full_type.traits == ["hex"]:
+                return mock_hex_code(scale_factor, is_key)
+        return mock_datatype(full_type.type, full_type.type, scale_factor, is_key)
+    elif datatype == DataType.INTEGER:
+        if is_key:
+            # unique integers for keys
+            return list(range(1, scale_factor + 1))
+        return [random.randint(0, 999_999) for _ in range(scale_factor)]
+    elif datatype == DataType.STRING:
+        if is_key:
+            # unique strings for keys
+            return [f"key_{i}" for i in range(1, scale_factor + 1)]
+        return [
+            f"mock_string_{random.randint(0, 999_999)}" for _ in range(scale_factor)
+        ]
+    elif datatype == DataType.FLOAT:
+        if is_key:
+            # unique floats for keys
+            return [float(i) for i in range(1, scale_factor + 1)]
+        return [random.uniform(0, 999_999) for _ in range(scale_factor)]
+    elif datatype == DataType.NUMERIC:
+        if is_key:
+            # unique numerics for keys
+            return [float(i) for i in range(1, scale_factor + 1)]
+        return [round(random.uniform(0, 999_999), 2) for _ in range(scale_factor)]
+    elif datatype == DataType.BOOL:
+        # booleans can only have 2 unique values, so keys don't make sense here
+        return [random.choice([True, False]) for _ in range(scale_factor)]
+    elif datatype == DataType.DATE:
+        if is_key:
+            # unique dates for keys - spread across multiple months/years if needed
+            base_date = date(2023, 1, 1)
+            return [
+                date.fromordinal(base_date.toordinal() + i) for i in range(scale_factor)
+            ]
+        return [date(2023, 1, random.randint(1, 28)) for _ in range(scale_factor)]
+    elif datatype in (DataType.DATETIME, DataType.TIMESTAMP):
+        if is_key:
+            # unique datetimes for keys - increment by seconds
+            base_dt = datetime(2023, 1, 1, 0, 0, 0)
+            return [
+                datetime.fromtimestamp(base_dt.timestamp() + i)
+                for i in range(scale_factor)
+            ]
+        return [
+            datetime(
+                2023,
+                1,
+                1,
+                random.randint(0, 23),
+                random.randint(0, 59),
+                random.randint(0, 59),
+            )
+            for _ in range(scale_factor)
+        ]
+    elif isinstance(datatype, ArrayType):
+        # arrays as keys don't typically make sense, but generate unique if requested
+        if is_key:
+            return [
+                [mock_datatype(datatype.type, datatype.value_data_type, 5, False)[0], i]
+                for i in range(scale_factor)
+            ]
+        return [
+            [mock_datatype(datatype.type, datatype.value_data_type, 5, False)]
+            for _ in range(scale_factor)
+        ]
+    raise NotImplementedError(f"Mocking not implemented for datatype {datatype}")
+class MockManager:
+    def __init__(
+        self, environment: Environment, scale_factor: int = DEFAULT_SCALE_FACTOR
+    ):
+        self.environment = environment
+        self.concept_mocks: dict[str, Any] = {}
+        self.scale_factor = scale_factor
+    def mock_concept(self, concept: Concept | ConceptRef):
+        if concept.address in self.concept_mocks:
+            return False
+        concrete = self.environment.concepts[concept.address]
+        self.concept_mocks[concept.address] = mock_datatype(
+            concept.datatype,
+            concept.output_datatype,
+            self.scale_factor,
+            True if concrete.purpose == Purpose.KEY else False,
+        )
+        return True
+    def create_mock_table(
+        self, concepts: Iterable[Concept | ConceptRef], headers: list[str]
+    ) -> "Table":
+        from pyarrow import table
+        data = {h: self.concept_mocks[c.address] for h, c in zip(headers, concepts)}
+        return table(data)
+def handle_processed_mock_statement(
+    query: ProcessedMockStatement, environment: Environment, executor
+) -> MockResult:
+    """Handle processed mock statements."""
+    # For mock statements, we can simulate some output based on targets
+    mock_manager = MockManager(environment)
+    output = []
+    for target in query.targets:
+        datasource = environment.datasources.get(target)
+        if not datasource:
+            raise ValueError(f"Datasource {target} not found in environment")
+        mock_datasource(datasource, mock_manager, executor)
+        output.append(
+            {
+                "target": target,
+                "status": "mocked",
+            }
+        )
+    return MockResult(output, ["target", "status"])
+def mock_datasource(datasource: Datasource, manager: MockManager, executor):
+    concrete: list[ConceptRef] = []
+    headers: list[str] = []
+    for k, col in datasource.concrete_columns.items():
+        manager.mock_concept(col.concept)
+        concrete.append(col.concept)
+        headers.append(k)
+    table = manager.create_mock_table(concrete, headers)
+    # duckdb load the pyarrow table
+    executor.execute_raw_sql(
+        "register(:name, :tbl)", {"name": "mock_tbl", "tbl": table}
+    )
+    address = safe_name(datasource.safe_address)
+    executor.execute_raw_sql(
+        f"""CREATE OR REPLACE TABLE {address} AS SELECT * FROM mock_tbl"""
+    )
+    # overwrite the address since we've mangled the name
+    datasource.address = Address(location=address)

trilogy/dialect/postgres.py ADDED Viewed

@@ -0,0 +1,117 @@
+from typing import Any, Callable, Mapping
+from jinja2 import Template
+from trilogy.core.enums import DatePart, FunctionType, WindowType
+from trilogy.dialect.base import BaseDialect
+def date_diff(first: str, second: str, grain: DatePart) -> str:
+    grain = DatePart(grain)
+    if grain == DatePart.YEAR:
+        return f"date_part('year', {second}) - date_part('year', {first})"
+    elif grain == DatePart.MONTH:
+        return f"12 * {date_diff(first, second, DatePart.YEAR)} + date_part('month', {second}) - date_part('month', {first})"
+    elif grain == DatePart.DAY:
+        return f"date_part('day', {second} - {first})"
+    elif grain == DatePart.HOUR:
+        return f"{date_diff(first, second, DatePart.DAY)} *24 + date_part('hour', {second} - {first})"
+    elif grain == DatePart.MINUTE:
+        return f"{date_diff(first, second, DatePart.HOUR)} *60 + date_part('minute', {second} - {first})"
+    elif grain == DatePart.SECOND:
+        return f"{date_diff(first, second, DatePart.MINUTE)} *60 + date_part('second', {second} - {first})"
+    else:
+        raise NotImplementedError(f"Date diff not implemented for grain {grain}")
+WINDOW_FUNCTION_MAP: Mapping[WindowType, Callable[[Any, Any, Any], str]] = {}
+FUNCTION_MAP = {
+    FunctionType.SPLIT: lambda x, types: f"string_to_array({x[0]}, {x[1]})",
+    FunctionType.DATE_TRUNCATE: lambda x, types: f"date_trunc('{x[1]}', {x[0]})",
+    FunctionType.DATE_ADD: lambda x, types: f"({x[0]} + INTERVAL '{x[2]} {x[1]}')",
+    FunctionType.DATE_PART: lambda x, types: f"date_part('{x[1]}', {x[0]})",
+    FunctionType.DATE_DIFF: lambda x, types: date_diff(x[0], x[1], x[2]),
+    FunctionType.IS_NULL: lambda x, types: f"{x[0]} IS NULL",
+}
+FUNCTION_GRAIN_MATCH_MAP = {
+    **FUNCTION_MAP,
+    FunctionType.COUNT_DISTINCT: lambda args, types: f"CASE WHEN{args[0]} IS NOT NULL THEN 1 ELSE 0 END",
+    FunctionType.COUNT: lambda args, types: f"CASE WHEN {args[0]} IS NOT NULL THEN 1 ELSE 0 END",
+    FunctionType.SUM: lambda args, types: f"{args[0]}",
+    FunctionType.AVG: lambda args, types: f"{args[0]}",
+}
+PG_SQL_TEMPLATE = Template(
+    """{%- if output %}
+DROP TABLE IF EXISTS {{ output.address.location }};
+CREATE TABLE {{ output.address.location }} AS
+{% endif %}{%- if ctes %}
+WITH {% for cte in ctes %}
+{{cte.name}} as ({{cte.statement}}){% if not loop.last %},{% endif %}{% endfor %}{% endif %}
+{%- if full_select -%}
+{{full_select}}
+{%- else -%}
+SELECT
+{%- for select in select_columns %}
+    {{ select }}{% if not loop.last %},{% endif %}{% endfor %}
+{% if base %}FROM
+    {{ base }}{% endif %}{% if joins %}
+{% for join in joins %}
+{{ join }}
+{% endfor %}{% endif %}
+{% if where %}WHERE
+    {{ where }}
+{% endif %}
+{%- if group_by %}GROUP BY {% for group in group_by %}
+    {{group}}{% if not loop.last %},{% endif %}{% endfor %}{% endif %}{% if having %}
+HAVING
+\t{{ having }}{% endif %}
+{%- if order_by %}
+ORDER BY {% for order in order_by %}
+    {{ order }}{% if not loop.last %},{% endif %}
+{% endfor %}{% endif %}
+{%- if limit is not none %}
+LIMIT {{ limit }}{% endif %}{% endif %}
+"""
+)
+MAX_IDENTIFIER_LENGTH = 50
+class PostgresDialect(BaseDialect):
+    WINDOW_FUNCTION_MAP = {**BaseDialect.WINDOW_FUNCTION_MAP, **WINDOW_FUNCTION_MAP}
+    FUNCTION_MAP = {**BaseDialect.FUNCTION_MAP, **FUNCTION_MAP}
+    FUNCTION_GRAIN_MATCH_MAP = {
+        **BaseDialect.FUNCTION_GRAIN_MATCH_MAP,
+        **FUNCTION_GRAIN_MATCH_MAP,
+    }
+    QUOTE_CHARACTER = '"'
+    SQL_TEMPLATE = PG_SQL_TEMPLATE
+    def get_table_primary_keys(
+        self, executor, table_name: str, schema: str | None = None
+    ) -> list[str]:
+        """Uses pg_catalog for more reliable constraint information than information_schema."""
+        if schema:
+            pk_query = f"""
+            SELECT a.attname
+            FROM pg_index i
+            JOIN pg_attribute a ON a.attrelid = i.indrelid AND a.attnum = ANY(i.indkey)
+            WHERE i.indrelid = '{schema}.{table_name}'::regclass
+            AND i.indisprimary
+            ORDER BY a.attnum
+            """
+        else:
+            pk_query = f"""
+            SELECT a.attname
+            FROM pg_index i
+            JOIN pg_attribute a ON a.attrelid = i.indrelid AND a.attnum = ANY(i.indkey)
+            WHERE i.indrelid = '{table_name}'::regclass
+            AND i.indisprimary
+            ORDER BY a.attnum
+            """
+        rows = executor.execute_raw_sql(pk_query).fetchall()
+        return [row[0] for row in rows]

trilogy/dialect/presto.py ADDED Viewed

@@ -0,0 +1,110 @@
+from typing import Any, Callable, Mapping
+from jinja2 import Template
+from trilogy.core.enums import FunctionType, GroupMode, UnnestMode, WindowType
+from trilogy.core.models.core import DataType
+from trilogy.dialect.base import BaseDialect
+WINDOW_FUNCTION_MAP: Mapping[WindowType, Callable[[Any, Any, Any], str]] = {}
+FUNCTION_MAP = {
+    FunctionType.COUNT: lambda x, types: f"count({x[0]})",
+    FunctionType.SUM: lambda x, types: f"sum({x[0]})",
+    FunctionType.LENGTH: lambda x, types: f"length({x[0]})",
+    FunctionType.AVG: lambda x, types: f"avg({x[0]})",
+    FunctionType.INDEX_ACCESS: lambda x, types: f"element_at({x[0]},{x[1]})",
+    FunctionType.MAP_ACCESS: lambda x, types: f"{x[0]}[{x[1]}]",
+    FunctionType.LIKE: lambda x, types: (
+        f" CASE WHEN {x[0]} like {x[1]} THEN True ELSE False END"
+    ),
+    FunctionType.MINUTE: lambda x, types: f"EXTRACT(MINUTE from {x[0]})",
+    FunctionType.SECOND: lambda x, types: f"EXTRACT(SECOND from {x[0]})",
+    FunctionType.HOUR: lambda x, types: f"EXTRACT(HOUR from {x[0]})",
+    FunctionType.DAY_OF_WEEK: lambda x, types: f"EXTRACT(DAYOFWEEK from {x[0]})",
+    FunctionType.DAY: lambda x, types: f"EXTRACT(DAY from {x[0]})",
+    FunctionType.YEAR: lambda x, types: f"EXTRACT(YEAR from {x[0]})",
+    FunctionType.MONTH: lambda x, types: f"EXTRACT(MONTH from {x[0]})",
+    FunctionType.WEEK: lambda x, types: f"EXTRACT(WEEK from {x[0]})",
+    FunctionType.QUARTER: lambda x, types: f"EXTRACT(QUARTER from {x[0]})",
+    # math
+    FunctionType.DIVIDE: lambda x, types: f"{x[0]}/{x[1]}",
+    FunctionType.DATE_ADD: lambda x, types: f"DATE_ADD('{x[1]}', {x[2]}, {x[0]})",
+    FunctionType.CURRENT_DATE: lambda x, types: "CURRENT_DATE",
+    FunctionType.CURRENT_DATETIME: lambda x, types: "CURRENT_TIMESTAMP",
+    FunctionType.ARRAY: lambda x, types: f"ARRAY[{', '.join(x)}]",
+    # regex
+    FunctionType.REGEXP_CONTAINS: lambda x, types: f"REGEXP_LIKE({x[0]}, {x[1]})",
+}
+FUNCTION_GRAIN_MATCH_MAP = {
+    **FUNCTION_MAP,
+    FunctionType.COUNT_DISTINCT: lambda args, types: f"CASE WHEN{args[0]} IS NOT NULL THEN 1 ELSE 0 END",
+    FunctionType.COUNT: lambda args, types: f"CASE WHEN {args[0]} IS NOT NULL THEN 1 ELSE 0 END",
+    FunctionType.SUM: lambda args, types: f"{args[0]}",
+    FunctionType.AVG: lambda args, types: f"{args[0]}",
+}
+SQL_TEMPLATE = Template(
+    """{%- if output %}
+{{output}}
+{% endif %}{%- if ctes %}
+WITH {% for cte in ctes %}
+{{cte.name}} as ({{cte.statement}}){% if not loop.last %},{% endif %}{% endfor %}{% endif %}
+{%- if full_select -%}
+{{full_select}}
+{%- else -%}
+SELECT
+{%- for select in select_columns %}
+    {{ select }}{% if not loop.last %},{% endif %}{% endfor %}
+{% if base %}FROM
+    {{ base }}{% endif %}{% if joins %}
+{% for join in joins %}
+{{ join }}
+{% endfor %}{% endif %}
+{% if where %}WHERE
+    {{ where }}
+{% endif %}
+{%- if group_by %}GROUP BY {% for group in group_by %}
+    {{group}}{% if not loop.last %},{% endif %}{% endfor %}{% endif %}{% if having %}
+HAVING
+\t{{ having }}{% endif %}
+{%- if order_by %}
+ORDER BY {% for order in order_by %}
+    {{ order }}{% if not loop.last %},{% endif %}{% endfor %}{% endif %}
+{%- if limit is not none %}
+LIMIT {{ limit }}{% endif %}{% endif %}
+"""
+)
+MAX_IDENTIFIER_LENGTH = 50
+class PrestoDialect(BaseDialect):
+    WINDOW_FUNCTION_MAP = {**BaseDialect.WINDOW_FUNCTION_MAP, **WINDOW_FUNCTION_MAP}
+    FUNCTION_MAP = {**BaseDialect.FUNCTION_MAP, **FUNCTION_MAP}
+    FUNCTION_GRAIN_MATCH_MAP = {
+        **BaseDialect.FUNCTION_GRAIN_MATCH_MAP,
+        **FUNCTION_GRAIN_MATCH_MAP,
+    }
+    QUOTE_CHARACTER = '"'
+    SQL_TEMPLATE = SQL_TEMPLATE
+    DATATYPE_MAP = {
+        **BaseDialect.DATATYPE_MAP,
+        DataType.NUMERIC: "DECIMAL",
+        DataType.STRING: "VARCHAR",
+    }
+    UNNEST_MODE = UnnestMode.PRESTO
+    GROUP_MODE = GroupMode.BY_INDEX
+    ALIAS_ORDER_REFERENCING_ALLOWED = (
+        False  # some complex presto functions don't support aliasing
+    )
+    def get_table_primary_keys(
+        self, executor, table_name: str, schema: str | None = None
+    ) -> list[str]:
+        """Presto/Trino don't enforce PKs; rely on data-driven grain detection."""
+        return []
+class TrinoDialect(PrestoDialect):
+    pass

trilogy/dialect/results.py ADDED Viewed

@@ -0,0 +1,89 @@
+from dataclasses import dataclass
+from typing import Any, List
+from trilogy.core.models.author import ConceptRef
+from trilogy.engine import ResultProtocol
+@dataclass
+class MockResult(ResultProtocol):
+    values: list["MockResultRow"]
+    columns: list[str]
+    def __init__(self, values: list[Any], columns: list[str]):
+        processed: list[MockResultRow] = []
+        for x in values:
+            if isinstance(x, dict):
+                processed.append(MockResultRow(x))
+            elif isinstance(x, MockResultRow):
+                processed.append(x)
+            else:
+                raise ValueError(
+                    f"Cannot process value of type {type(x)} in MockResult"
+                )
+        self.columns = columns
+        self.values = processed
+    def __iter__(self):
+        while self.values:
+            yield self.values.pop(0)
+    def fetchall(self):
+        return self.values
+    def fetchone(self):
+        if self.values:
+            return self.values.pop(0)
+        return None
+    def fetchmany(self, size: int):
+        rval = self.values[:size]
+        self.values = self.values[size:]
+        return rval
+    def keys(self):
+        return self.columns
+    def as_dict(self):
+        return [x.as_dict() if isinstance(x, MockResultRow) else x for x in self.values]
+@dataclass
+class MockResultRow:
+    _values: dict[str, Any]
+    def as_dict(self):
+        return self._values
+    def __str__(self) -> str:
+        return str(self._values)
+    def __repr__(self) -> str:
+        return repr(self._values)
+    def __getattr__(self, name: str) -> Any:
+        if name in self._values:
+            return self._values[name]
+        return super().__getattribute__(name)
+    def __getitem__(self, key: str) -> Any:
+        return self._values[key]
+    def __iter__(self):
+        return iter(self._values.values())
+    def values(self):
+        return self._values.values()
+    def keys(self):
+        return self._values.keys()
+def generate_result_set(
+    columns: List[ConceptRef], output_data: list[Any]
+) -> MockResult:
+    """Generate a mock result set from columns and output data."""
+    names = [x.address.replace(".", "_") for x in columns]
+    return MockResult(
+        values=[dict(zip(names, [row])) for row in output_data], columns=names
+    )

trilogy/dialect/snowflake.py ADDED Viewed

@@ -0,0 +1,129 @@
+from typing import Any, Callable, Mapping
+from jinja2 import Template
+from trilogy.core.enums import FunctionType, UnnestMode, WindowType
+from trilogy.dialect.base import BaseDialect
+ENV_SNOWFLAKE_PW = "PREQL_SNOWFLAKE_PW"
+ENV_SNOWFLAKE_USER = "PREQL_SNOWFLAKE_USER"
+ENV_SNOWFLAKE_ACCOUNT = "PREQL_SNOWFLAKE_ACCOUNT"
+WINDOW_FUNCTION_MAP: Mapping[WindowType, Callable[[Any, Any, Any], str]] = {}
+FUNCTION_MAP = {
+    FunctionType.COUNT: lambda x, types: f"count({x[0]})",
+    FunctionType.SUM: lambda x, types: f"sum({x[0]})",
+    FunctionType.LENGTH: lambda x, types: f"length({x[0]})",
+    FunctionType.AVG: lambda x, types: f"avg({x[0]})",
+    FunctionType.LIKE: lambda x, types: (
+        f" CASE WHEN {x[0]} like {x[1]} THEN True ELSE False END"
+    ),
+    FunctionType.MINUTE: lambda x, types: f"EXTRACT(MINUTE from {x[0]})",
+    FunctionType.SECOND: lambda x, types: f"EXTRACT(SECOND from {x[0]})",
+    FunctionType.HOUR: lambda x, types: f"EXTRACT(HOUR from {x[0]})",
+    FunctionType.DAY_OF_WEEK: lambda x, types: f"EXTRACT(DAYOFWEEK from {x[0]})",
+    FunctionType.DAY: lambda x, types: f"EXTRACT(DAY from {x[0]})",
+    FunctionType.YEAR: lambda x, types: f"EXTRACT(YEAR from {x[0]})",
+    FunctionType.MONTH: lambda x, types: f"EXTRACT(MONTH from {x[0]})",
+    FunctionType.WEEK: lambda x, types: f"EXTRACT(WEEK from {x[0]})",
+    FunctionType.QUARTER: lambda x, types: f"EXTRACT(QUARTER from {x[0]})",
+    # math
+    FunctionType.POWER: lambda x, types: f"POWER({x[0]}, {x[1]})",
+    FunctionType.DIVIDE: lambda x, types: f"DIV0({x[0]},{x[1]})",
+    FunctionType.UNNEST: lambda x, types: f"table(flatten({x[0]}))",
+    FunctionType.ARRAY: lambda x, types: f"ARRAY_CONSTRUCT({', '.join(x)})",
+}
+FUNCTION_GRAIN_MATCH_MAP = {
+    **FUNCTION_MAP,
+    FunctionType.COUNT_DISTINCT: lambda args, types: f"CASE WHEN{args[0]} IS NOT NULL THEN 1 ELSE 0 END",
+    FunctionType.COUNT: lambda args, types: f"CASE WHEN {args[0]} IS NOT NULL THEN 1 ELSE 0 END",
+    FunctionType.SUM: lambda args, types: f"{args[0]}",
+    FunctionType.AVG: lambda args, types: f"{args[0]}",
+}
+SNOWFLAKE_SQL_TEMPLATE = Template(
+    """{%- if output %}
+{{output}}
+{% endif %}{%- if ctes %}
+WITH {% if recursive%}RECURSIVE{% endif %}{% for cte in ctes %}
+"{{cte.name}}" as ({{cte.statement}}){% if not loop.last %},{% endif %}{% else %}
+{% endfor %}{% endif %}
+{%- if full_select -%}
+{{full_select}}
+{%- else -%}
+SELECT
+{%- for select in select_columns %}
+    {{ select }}{% if not loop.last %},{% endif %}{% endfor %}
+{% if base %}FROM
+    {{ base }}{% endif %}{% if joins %}{% for join in joins %}
+    {{ join }}{% endfor %}{% endif %}
+{% if where %}WHERE
+    {{ where }}
+{% endif %}
+{%- if group_by %}GROUP BY {% for group in group_by %}
+    {{group}}{% if not loop.last %},{% endif %}{% endfor %}{% endif %}{% if having %}
+HAVING
+\t{{ having }}{% endif %}
+{%- if order_by %}
+ORDER BY {% for order in order_by %}
+    {{ order }}{% if not loop.last %},{% endif %}{% endfor %}{% endif %}
+{%- if limit is not none %}
+LIMIT {{ limit }}{% endif %}{% endif %}
+"""
+)
+MAX_IDENTIFIER_LENGTH = 50
+class SnowflakeDialect(BaseDialect):
+    WINDOW_FUNCTION_MAP = {**BaseDialect.WINDOW_FUNCTION_MAP, **WINDOW_FUNCTION_MAP}
+    FUNCTION_MAP = {**BaseDialect.FUNCTION_MAP, **FUNCTION_MAP}
+    FUNCTION_GRAIN_MATCH_MAP = {
+        **BaseDialect.FUNCTION_GRAIN_MATCH_MAP,
+        **FUNCTION_GRAIN_MATCH_MAP,
+    }
+    QUOTE_CHARACTER = '"'
+    SQL_TEMPLATE = SNOWFLAKE_SQL_TEMPLATE
+    UNNEST_MODE = UnnestMode.SNOWFLAKE
+    def get_table_schema(
+        self, executor, table_name: str, schema: str | None = None
+    ) -> list[tuple]:
+        """Snowflake requires uppercase identifiers unless quoted."""
+        table_name_upper = table_name.upper()
+        column_query = f"""
+        SELECT
+            column_name,
+            data_type,
+            is_nullable,
+            comment as column_comment
+        FROM information_schema.columns
+        WHERE table_name = '{table_name_upper}'
+        """
+        if schema:
+            schema_upper = schema.upper()
+            column_query += f" AND table_schema = '{schema_upper}'"
+        column_query += " ORDER BY ordinal_position"
+        rows = executor.execute_raw_sql(column_query).fetchall()
+        return rows
+    def get_table_primary_keys(
+        self, executor, table_name: str, schema: str | None = None
+    ) -> list[str]:
+        """Uses SHOW PRIMARY KEYS; note Snowflake PKs are not enforced."""
+        table_name_upper = table_name.upper()
+        # Use SHOW PRIMARY KEYS command (column_name is at index 4)
+        if schema:
+            schema_upper = schema.upper()
+            pk_query = f"SHOW PRIMARY KEYS IN {schema_upper}.{table_name_upper}"
+        else:
+            pk_query = f"SHOW PRIMARY KEYS IN {table_name_upper}"
+        rows = executor.execute_raw_sql(pk_query).fetchall()
+        return [row[4] for row in rows] if rows else []