PyPI - sqlframe - Versions diffs - 2.4.0__py3-none-any.whl → 3.0.0__py3-none-any.whl - Mend

sqlframe 2.4.0py3-none-any.whl → 3.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

sqlframe/__init__.py +83 -0
sqlframe/_version.py +2 -2
sqlframe/base/dataframe.py +11 -1
sqlframe/base/session.py +4 -0
sqlframe/bigquery/__init__.py +11 -2
sqlframe/bigquery/session.py +1 -2
sqlframe/duckdb/__init__.py +12 -3
sqlframe/duckdb/column.py +1 -1
sqlframe/duckdb/dataframe.py +11 -5
sqlframe/duckdb/session.py +1 -2
sqlframe/postgres/__init__.py +11 -2
sqlframe/postgres/session.py +1 -2
sqlframe/redshift/__init__.py +11 -2
sqlframe/redshift/session.py +1 -2
sqlframe/snowflake/__init__.py +7 -1
sqlframe/snowflake/session.py +1 -2
sqlframe/spark/__init__.py +11 -2
sqlframe/spark/session.py +1 -2
sqlframe/standalone/__init__.py +7 -1
sqlframe/standalone/session.py +1 -2
{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/METADATA +58 -29
{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/RECORD +25 -25
{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/LICENSE +0 -0
{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/WHEEL +0 -0
{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/top_level.txt +0 -0

sqlframe/__init__.py CHANGED Viewed

@@ -0,0 +1,83 @@
+from __future__ import annotations
+import importlib
+import sys
+import typing as t
+from unittest.mock import MagicMock
+if t.TYPE_CHECKING:
+    from sqlframe.base.session import CONN
+ENGINE_TO_PREFIX = {
+    "bigquery": "BigQuery",
+    "duckdb": "DuckDB",
+    "postgres": "Postgres",
+    "redshift": "Redshift",
+    "snowflake": "Snowflake",
+    "spark": "Spark",
+    "standalone": "Standalone",
+}
+NAME_TO_FILE_OVERRIDE = {
+    "DataFrameNaFunctions": "dataframe",
+    "DataFrameStatFunctions": "dataframe",
+    "DataFrameReader": "readwriter",
+    "DataFrameWriter": "readwriter",
+    "GroupedData": "group",
+    "SparkSession": "session",
+    "WindowSpec": "window",
+    "UDFRegistration": "udf",
+}
+ACTIVATE_CONFIG = {}
+def activate(
+    engine: t.Optional[str] = None,
+    conn: t.Optional[CONN] = None,
+    config: t.Optional[t.Dict[str, t.Any]] = None,
+) -> None:
+    import sqlframe
+    from sqlframe import testing
+    pyspark_mock = MagicMock()
+    pyspark_mock.__file__ = "pyspark"
+    sys.modules["pyspark"] = pyspark_mock
+    pyspark_mock.testing = testing
+    sys.modules["pyspark.testing"] = testing
+    if conn:
+        ACTIVATE_CONFIG["sqlframe.conn"] = conn
+    for key, value in (config or {}).items():
+        ACTIVATE_CONFIG[key] = value
+    if not engine:
+        return
+    engine = engine.lower()
+    if engine not in ENGINE_TO_PREFIX:
+        raise ValueError(
+            f"Unsupported engine {engine}. Supported engines are {', '.join(ENGINE_TO_PREFIX)}"
+        )
+    prefix = ENGINE_TO_PREFIX[engine]
+    engine_module = importlib.import_module(f"sqlframe.{engine}")
+    sys.modules["pyspark.sql"] = engine_module
+    pyspark_mock.sql = engine_module
+    types = engine_module.__dict__.copy()
+    resolved_files = set()
+    for name, obj in types.items():
+        if name.startswith(prefix) or name in [
+            "Column",
+            "Window",
+            "WindowSpec",
+            "functions",
+            "types",
+        ]:
+            name_without_prefix = name.replace(prefix, "")
+            if name_without_prefix == "Session":
+                name_without_prefix = "SparkSession"
+            setattr(engine_module, name_without_prefix, obj)
+            file = NAME_TO_FILE_OVERRIDE.get(name_without_prefix, name_without_prefix).lower()
+            engine_file = importlib.import_module(f"sqlframe.{engine}.{file}")
+            if engine_file not in resolved_files:
+                sys.modules[f"pyspark.sql.{file}"] = engine_file
+                resolved_files.add(engine_file)
+            setattr(engine_file, name_without_prefix, obj)

sqlframe/_version.py CHANGED Viewed

@@ -12,5 +12,5 @@ __version__: str
 __version_tuple__: VERSION_TUPLE
 version_tuple: VERSION_TUPLE
-__version__ = version = '2.4.0'
-__version_tuple__ = version_tuple = (2, 4, 0)
+__version__ = version = '3.0.0'
+__version_tuple__ = version_tuple = (3, 0, 0)

sqlframe/base/dataframe.py CHANGED Viewed

@@ -42,6 +42,7 @@ else:
 if t.TYPE_CHECKING:
     import pandas as pd
+    from pyarrow import RecordBatchReader
     from pyarrow import Table as ArrowTable
     from sqlglot.dialects.dialect import DialectType
@@ -1815,5 +1816,14 @@ class _BaseDataFrame(t.Generic[SESSION, WRITER, NA, STAT, GROUP_DATA]):
         return self.select(covar_samp(col_func(col1), col_func(col2))).collect()[0][0]
-    def toArrow(self) -> ArrowTable:
+    @t.overload
+    def toArrow(self) -> ArrowTable: ...
+    @t.overload
+    def toArrow(self, batch_size: int) -> RecordBatchReader: ...
+    def toArrow(self, batch_size: t.Optional[int] = None) -> t.Union[ArrowTable, RecordBatchReader]:
+        """
+        `batch_size` and `RecordBatchReader` are not part of the PySpark API
+        """
         raise NotImplementedError("Arrow conversion is not supported by this engine")

sqlframe/base/session.py CHANGED Viewed

@@ -605,6 +605,10 @@ class _BaseSession(t.Generic[CATALOG, READER, WRITER, DF, CONN, UDF_REGISTRATION
             return _BaseSession(**self._session_kwargs)
         def getOrCreate(self) -> _BaseSession:
+            from sqlframe import ACTIVATE_CONFIG
+            for k, v in ACTIVATE_CONFIG.items():
+                self._set_config(k, v)
             self._set_session_properties()
             return self.session

sqlframe/bigquery/__init__.py CHANGED Viewed

@@ -1,23 +1,32 @@
 from sqlframe.bigquery.catalog import BigQueryCatalog
 from sqlframe.bigquery.column import Column
-from sqlframe.bigquery.dataframe import BigQueryDataFrame, BigQueryDataFrameNaFunctions
+from sqlframe.bigquery.dataframe import (
+    BigQueryDataFrame,
+    BigQueryDataFrameNaFunctions,
+    BigQueryDataFrameStatFunctions,
+)
 from sqlframe.bigquery.group import BigQueryGroupedData
 from sqlframe.bigquery.readwriter import (
     BigQueryDataFrameReader,
     BigQueryDataFrameWriter,
 )
 from sqlframe.bigquery.session import BigQuerySession
+from sqlframe.bigquery.types import Row
+from sqlframe.bigquery.udf import BigQueryUDFRegistration
 from sqlframe.bigquery.window import Window, WindowSpec
 __all__ = [
     "BigQueryCatalog",
-    "Column",
     "BigQueryDataFrame",
     "BigQueryDataFrameNaFunctions",
     "BigQueryGroupedData",
     "BigQueryDataFrameReader",
     "BigQueryDataFrameWriter",
     "BigQuerySession",
+    "BigQueryDataFrameStatFunctions",
+    "BigQueryUDFRegistration",
+    "Column",
+    "Row",
     "Window",
     "WindowSpec",
 ]

sqlframe/bigquery/session.py CHANGED Viewed

@@ -84,7 +84,6 @@ class BigQuerySession(
             return BigQuerySession(**self._session_kwargs)
         def getOrCreate(self) -> BigQuerySession:
-            self._set_session_properties()
-            return self.session
+            return super().getOrCreate()  # type: ignore
     builder = Builder()

sqlframe/duckdb/__init__.py CHANGED Viewed

@@ -1,20 +1,29 @@
 from sqlframe.duckdb.catalog import DuckDBCatalog
-from sqlframe.duckdb.column import DuckDBColumn
-from sqlframe.duckdb.dataframe import DuckDBDataFrame, DuckDBDataFrameNaFunctions
+from sqlframe.duckdb.column import Column
+from sqlframe.duckdb.dataframe import (
+    DuckDBDataFrame,
+    DuckDBDataFrameNaFunctions,
+    DuckDBDataFrameStatFunctions,
+)
 from sqlframe.duckdb.group import DuckDBGroupedData
 from sqlframe.duckdb.readwriter import DuckDBDataFrameReader, DuckDBDataFrameWriter
 from sqlframe.duckdb.session import DuckDBSession
+from sqlframe.duckdb.types import Row
+from sqlframe.duckdb.udf import DuckDBUDFRegistration
 from sqlframe.duckdb.window import Window, WindowSpec
 __all__ = [
+    "Column",
     "DuckDBCatalog",
-    "DuckDBColumn",
     "DuckDBDataFrame",
     "DuckDBDataFrameNaFunctions",
     "DuckDBGroupedData",
     "DuckDBDataFrameReader",
     "DuckDBDataFrameWriter",
     "DuckDBSession",
+    "DuckDBDataFrameStatFunctions",
+    "DuckDBUDFRegistration",
+    "Row",
     "Window",
     "WindowSpec",
 ]

sqlframe/duckdb/column.py CHANGED Viewed

	@@ -1 +1 @@
1	- from sqlframe.base.column import Column ~~as DuckDBColumn~~
1	+ from sqlframe.base.column import Column

sqlframe/duckdb/dataframe.py CHANGED Viewed

@@ -1,7 +1,6 @@
 from __future__ import annotations
 import logging
-import sys
 import typing as t
 from sqlframe.base.dataframe import (
@@ -19,8 +18,7 @@ if t.TYPE_CHECKING:
     from sqlframe.duckdb.session import DuckDBSession  # noqa
     from sqlframe.duckdb.readwriter import DuckDBDataFrameWriter  # noqa
     from sqlframe.duckdb.group import DuckDBGroupedData  # noqa
-    from pyarrow import Table as ArrowTable
+    from pyarrow import Table as ArrowTable, RecordBatchReader
 logger = logging.getLogger(__name__)
@@ -48,6 +46,14 @@ class DuckDBDataFrame(
     _stat = DuckDBDataFrameStatFunctions
     _group_data = DuckDBGroupedData
-    def toArrow(self) -> ArrowTable:
+    @t.overload
+    def toArrow(self) -> ArrowTable: ...
+    @t.overload
+    def toArrow(self, batch_size: int) -> RecordBatchReader: ...
+    def toArrow(self, batch_size: t.Optional[int] = None) -> t.Union[ArrowTable, RecordBatchReader]:
         self._collect(skip_rows=True)
-        return self.session._last_result.arrow()
+        if not batch_size:
+            return self.session._last_result.arrow()
+        return self.session._last_result.fetch_record_batch(batch_size)

sqlframe/duckdb/session.py CHANGED Viewed

@@ -69,7 +69,6 @@ class DuckDBSession(
             return DuckDBSession(**self._session_kwargs)
         def getOrCreate(self) -> DuckDBSession:
-            self._set_session_properties()
-            return self.session
+            return super().getOrCreate()  # type: ignore
     builder = Builder()

sqlframe/postgres/__init__.py CHANGED Viewed

@@ -1,23 +1,32 @@
 from sqlframe.postgres.catalog import PostgresCatalog
 from sqlframe.postgres.column import Column
-from sqlframe.postgres.dataframe import PostgresDataFrame, PostgresDataFrameNaFunctions
+from sqlframe.postgres.dataframe import (
+    PostgresDataFrame,
+    PostgresDataFrameNaFunctions,
+    PostgresDataFrameStatFunctions,
+)
 from sqlframe.postgres.group import PostgresGroupedData
 from sqlframe.postgres.readwriter import (
     PostgresDataFrameReader,
     PostgresDataFrameWriter,
 )
 from sqlframe.postgres.session import PostgresSession
+from sqlframe.postgres.types import Row
+from sqlframe.postgres.udf import PostgresUDFRegistration
 from sqlframe.postgres.window import Window, WindowSpec
 __all__ = [
-    "PostgresCatalog",
     "Column",
+    "PostgresCatalog",
     "PostgresDataFrame",
     "PostgresDataFrameNaFunctions",
     "PostgresGroupedData",
     "PostgresDataFrameReader",
     "PostgresDataFrameWriter",
     "PostgresSession",
+    "PostgresDataFrameStatFunctions",
+    "PostgresUDFRegistration",
+    "Row",
     "Window",
     "WindowSpec",
 ]

sqlframe/postgres/session.py CHANGED Viewed

@@ -79,7 +79,6 @@ $$ LANGUAGE plpgsql;""")
             return PostgresSession(**self._session_kwargs)
         def getOrCreate(self) -> PostgresSession:
-            self._set_session_properties()
-            return self.session
+            return super().getOrCreate()  # type: ignore
     builder = Builder()

sqlframe/redshift/__init__.py CHANGED Viewed

@@ -1,23 +1,32 @@
 from sqlframe.redshift.catalog import RedshiftCatalog
 from sqlframe.redshift.column import Column
-from sqlframe.redshift.dataframe import RedshiftDataFrame, RedshiftDataFrameNaFunctions
+from sqlframe.redshift.dataframe import (
+    RedshiftDataFrame,
+    RedshiftDataFrameNaFunctions,
+    RedshiftDataFrameStatFunctions,
+)
 from sqlframe.redshift.group import RedshiftGroupedData
 from sqlframe.redshift.readwriter import (
     RedshiftDataFrameReader,
     RedshiftDataFrameWriter,
 )
 from sqlframe.redshift.session import RedshiftSession
+from sqlframe.redshift.types import Row
+from sqlframe.redshift.udf import RedshiftUDFRegistration
 from sqlframe.redshift.window import Window, WindowSpec
 __all__ = [
-    "RedshiftCatalog",
     "Column",
+    "RedshiftCatalog",
     "RedshiftDataFrame",
     "RedshiftDataFrameNaFunctions",
     "RedshiftGroupedData",
     "RedshiftDataFrameReader",
     "RedshiftDataFrameWriter",
     "RedshiftSession",
+    "RedshiftDataFrameStatFunctions",
+    "RedshiftUDFRegistration",
+    "Row",
     "Window",
     "WindowSpec",
 ]

sqlframe/redshift/session.py CHANGED Viewed

@@ -49,7 +49,6 @@ class RedshiftSession(
             return RedshiftSession(**self._session_kwargs)
         def getOrCreate(self) -> RedshiftSession:
-            self._set_session_properties()
-            return self.session
+            return super().getOrCreate()  # type: ignore
     builder = Builder()

sqlframe/snowflake/__init__.py CHANGED Viewed

@@ -3,6 +3,7 @@ from sqlframe.snowflake.column import Column
 from sqlframe.snowflake.dataframe import (
     SnowflakeDataFrame,
     SnowflakeDataFrameNaFunctions,
+    SnowflakeDataFrameStatFunctions,
 )
 from sqlframe.snowflake.group import SnowflakeGroupedData
 from sqlframe.snowflake.readwriter import (
@@ -10,17 +11,22 @@ from sqlframe.snowflake.readwriter import (
     SnowflakeDataFrameWriter,
 )
 from sqlframe.snowflake.session import SnowflakeSession
+from sqlframe.snowflake.types import Row
+from sqlframe.snowflake.udf import SnowflakeUDFRegistration
 from sqlframe.snowflake.window import Window, WindowSpec
 __all__ = [
-    "SnowflakeCatalog",
     "Column",
+    "Row",
+    "SnowflakeCatalog",
     "SnowflakeDataFrame",
     "SnowflakeDataFrameNaFunctions",
     "SnowflakeGroupedData",
     "SnowflakeDataFrameReader",
     "SnowflakeDataFrameWriter",
     "SnowflakeSession",
+    "SnowflakeDataFrameStatFunctions",
+    "SnowflakeUDFRegistration",
     "Window",
     "WindowSpec",
 ]

sqlframe/snowflake/session.py CHANGED Viewed

@@ -86,7 +86,6 @@ class SnowflakeSession(
             return SnowflakeSession(**self._session_kwargs)
         def getOrCreate(self) -> SnowflakeSession:
-            self._set_session_properties()
-            return self.session
+            return super().getOrCreate()  # type: ignore
     builder = Builder()

sqlframe/spark/__init__.py CHANGED Viewed

@@ -1,23 +1,32 @@
 from sqlframe.spark.catalog import SparkCatalog
 from sqlframe.spark.column import Column
-from sqlframe.spark.dataframe import SparkDataFrame, SparkDataFrameNaFunctions
+from sqlframe.spark.dataframe import (
+    SparkDataFrame,
+    SparkDataFrameNaFunctions,
+    SparkDataFrameStatFunctions,
+)
 from sqlframe.spark.group import SparkGroupedData
 from sqlframe.spark.readwriter import (
     SparkDataFrameReader,
     SparkDataFrameWriter,
 )
 from sqlframe.spark.session import SparkSession
+from sqlframe.spark.types import Row
+from sqlframe.spark.udf import SparkUDFRegistration
 from sqlframe.spark.window import Window, WindowSpec
 __all__ = [
-    "SparkCatalog",
     "Column",
+    "Row",
+    "SparkCatalog",
     "SparkDataFrame",
     "SparkDataFrameNaFunctions",
     "SparkGroupedData",
     "SparkDataFrameReader",
     "SparkDataFrameWriter",
     "SparkSession",
+    "SparkDataFrameStatFunctions",
+    "SparkUDFRegistration",
     "Window",
     "WindowSpec",
 ]

sqlframe/spark/session.py CHANGED Viewed

@@ -162,5 +162,4 @@ class SparkSession(
             return SparkSession(**self._session_kwargs)
         def getOrCreate(self) -> SparkSession:
-            self._set_session_properties()
-            return self.session
+            return super().getOrCreate()  # type: ignore

sqlframe/standalone/__init__.py CHANGED Viewed

@@ -3,6 +3,7 @@ from sqlframe.standalone.column import Column
 from sqlframe.standalone.dataframe import (
     StandaloneDataFrame,
     StandaloneDataFrameNaFunctions,
+    StandaloneDataFrameStatFunctions,
 )
 from sqlframe.standalone.group import StandaloneGroupedData
 from sqlframe.standalone.readwriter import (
@@ -10,17 +11,22 @@ from sqlframe.standalone.readwriter import (
     StandaloneDataFrameWriter,
 )
 from sqlframe.standalone.session import StandaloneSession
+from sqlframe.standalone.types import Row
+from sqlframe.standalone.udf import StandaloneUDFRegistration
 from sqlframe.standalone.window import Window, WindowSpec
 __all__ = [
-    "StandaloneCatalog",
     "Column",
+    "Row",
+    "StandaloneCatalog",
     "StandaloneDataFrame",
     "StandaloneDataFrameNaFunctions",
     "StandaloneGroupedData",
     "StandaloneDataFrameReader",
     "StandaloneDataFrameWriter",
     "StandaloneSession",
+    "StandaloneDataFrameStatFunctions",
+    "StandaloneUDFRegistration",
     "Window",
     "WindowSpec",
 ]

sqlframe/standalone/session.py CHANGED Viewed

@@ -37,7 +37,6 @@ class StandaloneSession(
             return StandaloneSession()
         def getOrCreate(self) -> StandaloneSession:
-            self._set_session_properties()
-            return self.session
+            return super().getOrCreate()  # type: ignore
     builder = Builder()

{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: sqlframe
-Version: 2.4.0
+Version: 3.0.0
 Summary: Turning PySpark Into a Universal DataFrame API
 Home-page: https://github.com/eakmanrq/sqlframe
 Author: Ryan Eakman
@@ -25,6 +25,7 @@ Requires-Dist: google-cloud-bigquery-storage (<3,>=2) ; extra == 'bigquery'
 Requires-Dist: google-cloud-bigquery[pandas] (<4,>=3) ; extra == 'bigquery'
 Provides-Extra: dev
 Requires-Dist: duckdb (<1.1,>=0.9) ; extra == 'dev'
+Requires-Dist: findspark (<3,>=2) ; extra == 'dev'
 Requires-Dist: mypy (<1.12,>=1.10.0) ; extra == 'dev'
 Requires-Dist: openai (<1.43,>=1.30) ; extra == 'dev'
 Requires-Dist: pandas-stubs (<3,>=2) ; extra == 'dev'
@@ -81,10 +82,10 @@ SQLFrame also has a "Standalone" session that be used to generate SQL without an
 SQLFrame is great for:
-* Users who want to run PySpark DataFrame code without having to use a Spark cluster
+* Users who want a DataFrame API that leverages the full power of their engine to do the processing
+* Users who want to run PySpark code quickly locally without the overhead of starting a Spark session
 * Users who want a SQL representation of their DataFrame code for debugging or sharing with others
-    * See [Spark Engine](https://sqlframe.readthedocs.io/en/stable/spark/) for more details
-* Users who want a DataFrame API that leverages the full power of their engine to do the processing
+* Users who want to run PySpark DataFrame code without the complexity of using Spark for processing
 ## Installation
@@ -108,44 +109,72 @@ See specific engine documentation for additional setup instructions.
 ## Configuration
 SQLFrame generates consistently accurate yet complex SQL for engine execution.
-However, when using df.sql(), it produces more human-readable SQL.
+However, when using df.sql(optimize=True), it produces more human-readable SQL.
 For details on how to configure this output and leverage OpenAI to enhance the SQL, see [Generated SQL Configuration](https://sqlframe.readthedocs.io/en/stable/configuration/#generated-sql).
 SQLFrame by default uses the Spark dialect for input and output.
 This can be changed to make SQLFrame feel more like a native DataFrame API for the engine you are using.
 See [Input and Output Dialect Configuration](https://sqlframe.readthedocs.io/en/stable/configuration/#input-and-output-dialect).
+## Activating SQLFrame
+SQLFrame can either replace pyspark imports or be used alongside them.
+To replace pyspark imports, use the [activate function](https://sqlframe.readthedocs.io/en/stable/configuration/#activating-sqlframe) to set the engine to use.
+```python
+from sqlframe import activate
+# Activate SQLFrame to run directly on DuckDB
+activate(engine="duckdb")
+from pyspark.sql import SparkSession
+session = SparkSession.builder.getOrCreate()
+```
+SQLFrame can also be directly imported which both maintains pyspark imports but also allows for a more engine-native DataFrame API:
+```python
+from sqlframe.duckdb import DuckDBSession
+session = DuckDBSession.builder.getOrCreate()
+```
 ## Example Usage
 ```python
-from sqlframe.bigquery import BigQuerySession
-from sqlframe.bigquery import functions as F
-from sqlframe.bigquery import Window
+from sqlframe import activate
+# Activate SQLFrame to run directly on BigQuery
+activate(engine="bigquery")
+from pyspark.sql import SparkSession
+from pyspark.sql import functions as F
+from pyspark.sql import Window
-session = BigQuerySession()
+session = SparkSession.builder.getOrCreate()
 table_path = '"bigquery-public-data".samples.natality'
 # Top 5 years with the greatest year-over-year % change in new families with single child
 df = (
-    session.table(table_path)
-    .where(F.col("ever_born") == 1)
-    .groupBy("year")
-    .agg(F.count("*").alias("num_single_child_families"))
-    .withColumn(
-        "last_year_num_single_child_families",
-        F.lag(F.col("num_single_child_families"), 1).over(Window.orderBy("year"))
-    )
-    .withColumn(
-        "percent_change",
-        (F.col("num_single_child_families") - F.col("last_year_num_single_child_families"))
-        / F.col("last_year_num_single_child_families")
-    )
-    .orderBy(F.abs(F.col("percent_change")).desc())
-    .select(
-        F.col("year").alias("year"),
-        F.format_number("num_single_child_families", 0).alias("new families single child"),
-        F.format_number(F.col("percent_change") * 100, 2).alias("percent change"),
-    )
-    .limit(5)
+  session.table(table_path)
+  .where(F.col("ever_born") == 1)
+  .groupBy("year")
+  .agg(F.count("*").alias("num_single_child_families"))
+  .withColumn(
+    "last_year_num_single_child_families",
+    F.lag(F.col("num_single_child_families"), 1).over(Window.orderBy("year"))
+  )
+  .withColumn(
+    "percent_change",
+    (F.col("num_single_child_families") - F.col("last_year_num_single_child_families"))
+    / F.col("last_year_num_single_child_families")
+  )
+  .orderBy(F.abs(F.col("percent_change")).desc())
+  .select(
+    F.col("year").alias("year"),
+    F.format_number("num_single_child_families", 0).alias("new families single child"),
+    F.format_number(F.col("percent_change") * 100, 2).alias("percent change"),
+  )
+  .limit(5)
 )
 ```
 ```python

{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/RECORD RENAMED Viewed

@@ -1,10 +1,10 @@
-sqlframe/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-sqlframe/_version.py,sha256=NXpAHvzuYHxlLDJV0489874frLu4dA2joFw1iHLLrOg,411
+sqlframe/__init__.py,sha256=vpa_uyTR93861-mffYN9cJbjAXhQIr6pmfDPlaZKF6M,2583
+sqlframe/_version.py,sha256=E9sjrmgE4U1biRnH7SOU6xOu4ABa14HHotRIgXR086E,411
 sqlframe/base/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 sqlframe/base/_typing.py,sha256=b2clI5HI1zEZKB_3Msx3FeAJQyft44ubUifJwQRVXyQ,1298
 sqlframe/base/catalog.py,sha256=SzFQalTWdhWzxUY-4ut1f9TfOECp_JmJEgNPfrRKCe0,38457
 sqlframe/base/column.py,sha256=C2xj6OHMsJbEgjbI-m5HuIvqHYt2DbbUtCjssKpplNk,17748
-sqlframe/base/dataframe.py,sha256=CHoSK7g9ceuX_4c8yL3nbq1nb15dGt2g_W0UBlBA-Nc,71132
+sqlframe/base/dataframe.py,sha256=wIYKaV9xzILPVmAcujvRmbH-6dbKPx6hVNHNWCEuayM,71479
 sqlframe/base/decorators.py,sha256=Jy4bf8MhZ-AJ6CWTj59bBJRqamtLbPC0USUMFrY6g0w,449
 sqlframe/base/exceptions.py,sha256=9Uwvqn2eAkDpqm4BrRgbL61qM-GMCbJEMAW8otxO46s,370
 sqlframe/base/function_alternatives.py,sha256=IxNBqplehkAEkpzA625Dif-9Xyi4Hrho81A9U262rV0,50714
@@ -13,7 +13,7 @@ sqlframe/base/group.py,sha256=TES9CleVmH3x-0X-tqmuUKfCKSWjH5vg1aU3R6dDmFc,4059
 sqlframe/base/normalize.py,sha256=nXAJ5CwxVf4DV0GsH-q1w0p8gmjSMlv96k_ez1eVul8,3880
 sqlframe/base/operations.py,sha256=-AhNuEzcV7ZExoP1oY3blaKip-joQyJeQVvfBTs_2g4,3456
 sqlframe/base/readerwriter.py,sha256=FkImnUR_qNASmXktk0JDsFeOzfh799hd09vI2uznNH8,25350
-sqlframe/base/session.py,sha256=YGlrc5nB2TOtrAzzgHynrkdRyl39DqczurnxyoqcfTg,25024
+sqlframe/base/session.py,sha256=DgkzSKFc3LdzXiqB9ofsh47Ygivq2-Or6J2XbDLzxVs,25162
 sqlframe/base/transforms.py,sha256=y0j3SGDz3XCmNGrvassk1S-owllUWfkHyMgZlY6SFO4,467
 sqlframe/base/types.py,sha256=iBNk9bpFtb2NBIogYS8i7OlQZMRvpR6XxqzBebsjQDU,12280
 sqlframe/base/udf.py,sha256=O6hMhBUy9NVv-mhJRtfFhXTIa_-Z8Y_FkmmuOHu0l90,1117
@@ -23,7 +23,7 @@ sqlframe/base/mixins/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hS
 sqlframe/base/mixins/catalog_mixins.py,sha256=9tn0mK8oPoqIIjNItystD5tdBMdK9YpkxTG7G9KQl8k,18619
 sqlframe/base/mixins/dataframe_mixins.py,sha256=3MMQu2hdHG_qtDQ6jDHo0Iy5KtLj4lHePfovCVxTqbo,1411
 sqlframe/base/mixins/readwriter_mixins.py,sha256=QnxGVL8ftZfYlBNG0Bl24N_bnA2YioSxUsTSgKIbuvQ,4723
-sqlframe/bigquery/__init__.py,sha256=i2NsMbiXOj2xphCtPuNk6cVw4iYeq5_B1I9dVI9aGAk,712
+sqlframe/bigquery/__init__.py,sha256=kbaomhYAANPdxeDQhajv8IHfMg_ENKivtYK-rPwaV08,939
 sqlframe/bigquery/catalog.py,sha256=8d36IzT5GPWd1FdxJ9vEljOdbIDepHnFOBjwP0bX6FE,11625
 sqlframe/bigquery/column.py,sha256=E1tUa62Y5HajkhgFuebU9zohrGyieudcHzTT8gfalio,40
 sqlframe/bigquery/dataframe.py,sha256=Y2uy4FEYw0KxIHgnaA9uMwdIzxJzTlD_NSzIe7P7kxA,2405
@@ -31,23 +31,23 @@ sqlframe/bigquery/functions.py,sha256=CxXiBzSLRf9h-9lAM8xSz1CFcVk2tVXU1eFPJ4d_L0
 sqlframe/bigquery/functions.pyi,sha256=BCYqHpZzv4KWVtTuiC9wCSzXdxeHsz9gwkEvKzwHnoY,13583
 sqlframe/bigquery/group.py,sha256=UVBNBRTo8OqS-_cS5YwvTeJYgYxeG-d6R3kfyHmlFqw,391
 sqlframe/bigquery/readwriter.py,sha256=WAD3ZMwkkjOpvPPoZXfaLLNM6tRTeUvdEj-hQZAzXeo,870
-sqlframe/bigquery/session.py,sha256=-ySvZGbV-EeUJ6Z1SEFT8Es_80Lu3Db0WF333ktxoIQ,2762
+sqlframe/bigquery/session.py,sha256=uSiEWWiDEryq3gIJJUmsu1DIalRGomNiymVulxt439c,2744
 sqlframe/bigquery/types.py,sha256=KwNyuXIo-2xVVd4bZED3YrQOobKCtemlxGrJL7DrTC8,34
 sqlframe/bigquery/udf.py,sha256=ZZ1-P1zWZhQqmhBqwAxfNeKl31nDkkZgkuz7Dn28P_0,264
 sqlframe/bigquery/window.py,sha256=6GKPzuxeSapJakBaKBeT9VpED1ACdjggDv9JRILDyV0,35
-sqlframe/duckdb/__init__.py,sha256=t85TA3ufZtL1weQNFmEs8itCSwbJFtw03-p0GT4XGf8,669
+sqlframe/duckdb/__init__.py,sha256=KAw_uZEhFMwi3D9Wj6AgHAKqLNk-EAx2uDIYu56oL44,872
 sqlframe/duckdb/catalog.py,sha256=YYYVmetLUaJOdObKw4AJ7L0P-msshkta4xHlcZQ9zEA,4795
-sqlframe/duckdb/column.py,sha256=wkEPcp3xVsH5nC3kpacXqNkRv9htPtBgt-0uFRxIRNs,56
-sqlframe/duckdb/dataframe.py,sha256=QYFFj6a2uYpJUGB-s0MEX2z7HgjfPbL6ZKI4BFjVI6o,1394
+sqlframe/duckdb/column.py,sha256=E1tUa62Y5HajkhgFuebU9zohrGyieudcHzTT8gfalio,40
+sqlframe/duckdb/dataframe.py,sha256=HZg_uMAz4RsubZJT4-MslUQS_0-InF0_P5Yq5HyJ3wE,1708
 sqlframe/duckdb/functions.py,sha256=Ee8o6YFtRdEiq0jNLXxgu5lcbc7Tsg0-lK6oRyxdcjo,1920
 sqlframe/duckdb/functions.pyi,sha256=Qn6j4zwwuBsh6q9341dR3Z5kpeRsgvM4u6Bb6FekKrI,5827
 sqlframe/duckdb/group.py,sha256=IkhbW42Ng1U5YT3FkIdiB4zBqRkW4QyTb-1detY1e_4,383
 sqlframe/duckdb/readwriter.py,sha256=0qZcARQoWYlx9P2m0uS2vuMj_tG_ka4NhHzg7qdaR3I,4597
-sqlframe/duckdb/session.py,sha256=dj8kOTklBHKTyFGc3UwbgFlloPnfIDUf1Sh4uaO1hSg,2340
+sqlframe/duckdb/session.py,sha256=Pho9H74_0xNQPP_oBdFa4aflBAsrxvpXPMQGSKyq1-4,2322
 sqlframe/duckdb/types.py,sha256=KwNyuXIo-2xVVd4bZED3YrQOobKCtemlxGrJL7DrTC8,34
 sqlframe/duckdb/udf.py,sha256=Du9LnOtT1lJvB90D4HSR2tB7MXy179jZngDR-EjVjQk,656
 sqlframe/duckdb/window.py,sha256=6GKPzuxeSapJakBaKBeT9VpED1ACdjggDv9JRILDyV0,35
-sqlframe/postgres/__init__.py,sha256=Sz_MtgV_oh_QhfZTC7iKM07ICUmNcJEDV0kEkSW9ZKU,712
+sqlframe/postgres/__init__.py,sha256=NN9WI0-GehvpPdJmTB2VSDVpA5PAtxa3ZkF4BRcTEy4,939
 sqlframe/postgres/catalog.py,sha256=9XVXXDW04mY_KmeB52NsCny8n0evqdDCBxhGH1Xce6s,8956
 sqlframe/postgres/column.py,sha256=E1tUa62Y5HajkhgFuebU9zohrGyieudcHzTT8gfalio,40
 sqlframe/postgres/dataframe.py,sha256=f-w6UHxZtmeZ5oMbaqJaZ8FrYeOhzyveNlZOK57ke0k,1289
@@ -55,22 +55,22 @@ sqlframe/postgres/functions.py,sha256=iujyPmI6frOCD7pymgBby89DezPHm8dmt75sebhzRa
 sqlframe/postgres/functions.pyi,sha256=9s7W5QPZXPKqxY6XpkxLCHmC5sp1PkJg1LywgpWTz-k,5550
 sqlframe/postgres/group.py,sha256=KUXeSFKWTSH9yCRJAhW85OvjZaG6Zr4In9LR_ie3yGU,391
 sqlframe/postgres/readwriter.py,sha256=L1e3yKXzFVNR_W5s1DHaWol7G8x7l4jcZ5sLGualyMk,870
-sqlframe/postgres/session.py,sha256=LkM35-ADkIh2OSNT6HRVfJ8jLOoFlrdgkSSVhFGMYRc,2495
+sqlframe/postgres/session.py,sha256=v030gVL6DEZb1utcqexupCC-8ouEumeLhvqRyvQfRew,2477
 sqlframe/postgres/types.py,sha256=KwNyuXIo-2xVVd4bZED3YrQOobKCtemlxGrJL7DrTC8,34
 sqlframe/postgres/udf.py,sha256=TylVxrmPzycAqnpTiueGvvetiMCfCX31QatgQMIgpME,264
 sqlframe/postgres/window.py,sha256=6GKPzuxeSapJakBaKBeT9VpED1ACdjggDv9JRILDyV0,35
-sqlframe/redshift/__init__.py,sha256=jamKYQtQaKjjXnQ01QGPHvatbrZSw9sWno_VOUGSz6I,712
+sqlframe/redshift/__init__.py,sha256=F43uqhCJYQk5wK8Ydvmn5KGrvt__IYaDVS0DJ_-izhc,939
 sqlframe/redshift/catalog.py,sha256=x-sfVwoOS_0MeLICCqu7YUiFRgBam7vV1sHfaAKZGjE,5410
 sqlframe/redshift/column.py,sha256=E1tUa62Y5HajkhgFuebU9zohrGyieudcHzTT8gfalio,40
 sqlframe/redshift/dataframe.py,sha256=aTC0DOPDFwWH1_b9T0Pif80cYSGudIp0D-cmkR7Ci_M,1104
 sqlframe/redshift/functions.py,sha256=DR5kodYAcKatUqopwrEQtxryI4ZSqaH47_y3WLht4Wg,455
 sqlframe/redshift/group.py,sha256=5MGZYJfHpzoRSQ0N_pn4KUk4Mk2gocQwU3K1-jAbvGg,391
 sqlframe/redshift/readwriter.py,sha256=g3FYKSsJKqcSnElprzzz29ZctoXq9tRB0Mj9Bm1HycI,870
-sqlframe/redshift/session.py,sha256=nqqFxplCcIa_mN59xq3yHclMQ_dKchwuodx31xog55o,1593
+sqlframe/redshift/session.py,sha256=FKzypkZjuwU4A2DMe9vJTVJYdXGyl63jV72bToz6c4o,1575
 sqlframe/redshift/types.py,sha256=KwNyuXIo-2xVVd4bZED3YrQOobKCtemlxGrJL7DrTC8,34
 sqlframe/redshift/udf.py,sha256=xOi7vtO56MyYprC3ys3FCSVJ5EVjEq2l_KqEVgKJrkw,264
 sqlframe/redshift/window.py,sha256=6GKPzuxeSapJakBaKBeT9VpED1ACdjggDv9JRILDyV0,35
-sqlframe/snowflake/__init__.py,sha256=nuQ3cuHjDpW4ELZfbd2qOYmtXmcYl7MtsrdOrRdozo0,746
+sqlframe/snowflake/__init__.py,sha256=msYAxOnPyjuBSTbpb5s9P5o0pr2N82UUGPxUtv0TNNw,966
 sqlframe/snowflake/catalog.py,sha256=Tp_B9oMTInnqLTiZNsT0UNc-a-aKXu3zFThlCwLeKCA,6507
 sqlframe/snowflake/column.py,sha256=E1tUa62Y5HajkhgFuebU9zohrGyieudcHzTT8gfalio,40
 sqlframe/snowflake/dataframe.py,sha256=ANDZ5Dpxz-WTlTtmKNcv-nJlzTeTsAOK0X0gR2euPqQ,2144
@@ -78,11 +78,11 @@ sqlframe/snowflake/functions.py,sha256=iX67xU8Czy5k3HiNjNbN-x-via6yqGNaMPw1maV9H
 sqlframe/snowflake/functions.pyi,sha256=wqUPXuZxjRY0rPY2BRAb7XXkWYP1DyuDzvlriRySdSw,6185
 sqlframe/snowflake/group.py,sha256=pPP1l2RRo_LgkXrji8a87n2PKo-63ZRPT-WUtvVcBME,395
 sqlframe/snowflake/readwriter.py,sha256=yhRc2HcMq6PwV3ghZWC-q-qaE7LE4aEjZEXCip4OOlQ,884
-sqlframe/snowflake/session.py,sha256=pCTb39olI5fzj7mrnuWupJs5EenDVDSH9goxueTXwiU,3338
+sqlframe/snowflake/session.py,sha256=fnFYrJ9JxoOf4ZKTrQcSKjwr6wNp6A85cMqKczOi3vA,3320
 sqlframe/snowflake/types.py,sha256=KwNyuXIo-2xVVd4bZED3YrQOobKCtemlxGrJL7DrTC8,34
 sqlframe/snowflake/udf.py,sha256=yzMmky-n5BXFbdldgfzLP8hCrVm0DgruSUCUUy1_3sk,268
 sqlframe/snowflake/window.py,sha256=6GKPzuxeSapJakBaKBeT9VpED1ACdjggDv9JRILDyV0,35
-sqlframe/spark/__init__.py,sha256=WhYQAZMJN1EMNAVGUH7BEinxNdYtXOrrr-6HUniJOyI,649
+sqlframe/spark/__init__.py,sha256=QV0eNmY5fL4ulLvAJVVVx2OYFfQXN2KYV3R5cij7HTg,858
 sqlframe/spark/catalog.py,sha256=3T4aivgQmAhPTmlVk53jk3VvFBJlp1pKvWKNmTHz1W8,39741
 sqlframe/spark/column.py,sha256=E1tUa62Y5HajkhgFuebU9zohrGyieudcHzTT8gfalio,40
 sqlframe/spark/dataframe.py,sha256=_TD-h7oz0-i80r90v17UoLDoIzcGNchU2SL13ujOOic,1779
@@ -90,25 +90,25 @@ sqlframe/spark/functions.py,sha256=AQfqfvaojJzCuo9DyDklz0JYZPhn_3dzWvztsklBO0o,5
 sqlframe/spark/functions.pyi,sha256=bjz6s8E6OB0c4KfTTsls7rhb_R9mIYvkaeaXefMziqM,11617
 sqlframe/spark/group.py,sha256=MrvV_v-YkBc6T1zz882WrEqtWjlooWIyHBCmTQg3fCA,379
 sqlframe/spark/readwriter.py,sha256=w68EImTcGJv64X7pc1tk5tDjDxb1nAnn-MiIaaN9Dc8,812
-sqlframe/spark/session.py,sha256=eYwEANEMkP6djzUlm-p1WPkB6QZ4cdW_P4sx1K1wOwQ,5283
+sqlframe/spark/session.py,sha256=cjsRQZz1kW67aajvXQyAJkv9Uh-zmmk3C3O9QSBbEQQ,5265
 sqlframe/spark/types.py,sha256=KwNyuXIo-2xVVd4bZED3YrQOobKCtemlxGrJL7DrTC8,34
 sqlframe/spark/udf.py,sha256=owB8NDaGVkUQ0WGm7SZt2t9zfvLFCfi0W48QiPfgjck,1153
 sqlframe/spark/window.py,sha256=6GKPzuxeSapJakBaKBeT9VpED1ACdjggDv9JRILDyV0,35
-sqlframe/standalone/__init__.py,sha256=yu4A97HwhyDwllDEzG7io4ScyWipWSAH2tqUKS545OA,767
+sqlframe/standalone/__init__.py,sha256=u-BbP0mkWWRgMz46pylFlnD3EsEBvjtMnQ6kVCAejww,993
 sqlframe/standalone/catalog.py,sha256=oJAPxrXtra_YP_JBZCJY2qsr0TRhWG7FFSq0RHDszcU,389
 sqlframe/standalone/column.py,sha256=E1tUa62Y5HajkhgFuebU9zohrGyieudcHzTT8gfalio,40
 sqlframe/standalone/dataframe.py,sha256=o6weWJvDX1w351p_14PQ52qopbPozVG9OFmhaqVvivU,967
 sqlframe/standalone/functions.py,sha256=NW-k7NP_Y9DzQq6fjX5-CL8oOUGAiaMo4SBuDd8-JUA,38
 sqlframe/standalone/group.py,sha256=oGEbAQMSm6AlkwnBxNI8r9enZWRwsRxc8zpzoz3rArk,399
 sqlframe/standalone/readwriter.py,sha256=EZNyDJ4ID6sGNog3uP4-e9RvchX4biJJDNtc5hkKkrY,633
-sqlframe/standalone/session.py,sha256=h8EpjZOt4GiDBkqEC5dFdkv5PtCDF9TkD9spqp4olSE,1338
+sqlframe/standalone/session.py,sha256=ELrDkb2wW5FhpeKJEFCQvVREmPs7ulSfMj0ipRxPUCk,1320
 sqlframe/standalone/types.py,sha256=KwNyuXIo-2xVVd4bZED3YrQOobKCtemlxGrJL7DrTC8,34
 sqlframe/standalone/udf.py,sha256=azmgtUjHNIPs0WMVNId05SHwiYn41MKVBhKXsQJ5dmY,272
 sqlframe/standalone/window.py,sha256=6GKPzuxeSapJakBaKBeT9VpED1ACdjggDv9JRILDyV0,35
 sqlframe/testing/__init__.py,sha256=VVCosQhitU74A3NnE52O4mNtGZONapuEXcc20QmSlnQ,132
 sqlframe/testing/utils.py,sha256=9DDYVuocO7tygee3RaajuJNZ24sJwf_LY556kKg7kTw,13011
-sqlframe-2.4.0.dist-info/LICENSE,sha256=VZu79YgW780qxaFJMr0t5ZgbOYEh04xWoxaWOaqIGWk,1068
-sqlframe-2.4.0.dist-info/METADATA,sha256=dfjbBh14A6aUdyiaO4H-rqMVNyChQ7TgncCAwPjjcrQ,7812
-sqlframe-2.4.0.dist-info/WHEEL,sha256=G16H4A3IeoQmnOrYV4ueZGKSjhipXx8zc8nu9FGlvMA,92
-sqlframe-2.4.0.dist-info/top_level.txt,sha256=T0_RpoygaZSF6heeWwIDQgaP0varUdSK1pzjeJZRjM8,9
-sqlframe-2.4.0.dist-info/RECORD,,
+sqlframe-3.0.0.dist-info/LICENSE,sha256=VZu79YgW780qxaFJMr0t5ZgbOYEh04xWoxaWOaqIGWk,1068
+sqlframe-3.0.0.dist-info/METADATA,sha256=HOOsdc0G7ea0HCIO_sY-gtr4RlXULTGFAAzxaGVMzEc,8639
+sqlframe-3.0.0.dist-info/WHEEL,sha256=G16H4A3IeoQmnOrYV4ueZGKSjhipXx8zc8nu9FGlvMA,92
+sqlframe-3.0.0.dist-info/top_level.txt,sha256=T0_RpoygaZSF6heeWwIDQgaP0varUdSK1pzjeJZRjM8,9
+sqlframe-3.0.0.dist-info/RECORD,,

{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/LICENSE RENAMED Viewed

File without changes

{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{sqlframe-2.4.0.dist-info → sqlframe-3.0.0.dist-info}/top_level.txt RENAMED Viewed

File without changes

sqlframe 2.4.0__py3-none-any.whl → 3.0.0__py3-none-any.whl

sqlframe 2.4.0py3-none-any.whl → 3.0.0py3-none-any.whl