PyPI - sqlframe - Versions diffs - 3.20.0__py3-none-any.whl → 3.21.1__py3-none-any.whl - Mend

sqlframe 3.20.0py3-none-any.whl → 3.21.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

sqlframe/_version.py +2 -2
sqlframe/base/dataframe.py +131 -14
sqlframe/base/function_alternatives.py +0 -4
sqlframe/base/functions.py +22 -4
sqlframe/base/util.py +1 -5
{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/METADATA +1 -1
{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/RECORD +10 -10
{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/LICENSE +0 -0
{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/WHEEL +0 -0
{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/top_level.txt +0 -0

sqlframe/_version.py CHANGED Viewed

@@ -12,5 +12,5 @@ __version__: str
 __version_tuple__: VERSION_TUPLE
 version_tuple: VERSION_TUPLE
-__version__ = version = '3.20.0'
-__version_tuple__ = version_tuple = (3, 20, 0)
+__version__ = version = '3.21.1'
+__version_tuple__ = version_tuple = (3, 21, 1)

sqlframe/base/dataframe.py CHANGED Viewed

@@ -296,6 +296,12 @@ class BaseDataFrame(t.Generic[SESSION, WRITER, NA, STAT, GROUP_DATA]):
     @property
     def columns(self) -> t.List[str]:
+        expression_display_names = self.expression.copy()
+        self._set_display_names(expression_display_names)
+        return expression_display_names.named_selects
+    @property
+    def _columns(self) -> t.List[str]:
         return self.expression.named_selects
     @property
@@ -611,6 +617,18 @@ class BaseDataFrame(t.Generic[SESSION, WRITER, NA, STAT, GROUP_DATA]):
         }
         self.display_name_mapping.update(zipped)
+    def _set_display_names(self, select_expression: exp.Select) -> None:
+        for index, column in enumerate(select_expression.expressions):
+            column_name = quote_preserving_alias_or_name(column)
+            if column_name in self.display_name_mapping:
+                display_name_identifier = exp.to_identifier(
+                    self.display_name_mapping[column_name], quoted=True
+                )
+                display_name_identifier._meta = {"case_sensitive": True, **(column._meta or {})}
+                select_expression.expressions[index] = exp.alias_(
+                    column.unalias(), display_name_identifier, quoted=True
+                )
     def _get_expressions(
         self,
         optimize: bool = True,
@@ -631,16 +649,7 @@ class BaseDataFrame(t.Generic[SESSION, WRITER, NA, STAT, GROUP_DATA]):
             select_expression = select_expression.transform(
                 replace_id_value, replacement_mapping
             ).assert_is(exp.Select)
-            for index, column in enumerate(select_expression.expressions):
-                column_name = quote_preserving_alias_or_name(column)
-                if column_name in self.display_name_mapping:
-                    display_name_identifier = exp.to_identifier(
-                        self.display_name_mapping[column_name], quoted=True
-                    )
-                    display_name_identifier._meta = {"case_sensitive": True, **(column._meta or {})}
-                    select_expression.expressions[index] = exp.alias_(
-                        column.unalias(), display_name_identifier, quoted=True
-                    )
+            self._set_display_names(select_expression)
             if optimize:
                 select_expression = t.cast(
                     exp.Select,
@@ -1158,8 +1167,8 @@ class BaseDataFrame(t.Generic[SESSION, WRITER, NA, STAT, GROUP_DATA]):
     @operation(Operation.FROM)
     def unionByName(self, other: Self, allowMissingColumns: bool = False) -> Self:
-        l_columns = self.columns
-        r_columns = other.columns
+        l_columns = self._columns
+        r_columns = other._columns
         if not allowMissingColumns:
             l_expressions = l_columns
             r_expressions = l_columns
@@ -1619,9 +1628,9 @@ class BaseDataFrame(t.Generic[SESSION, WRITER, NA, STAT, GROUP_DATA]):
         | 16|  Bob|
         +---+-----+
         """
-        if len(cols) != len(self.columns):
+        if len(cols) != len(self._columns):
             raise ValueError(
-                f"Number of column names does not match number of columns: {len(cols)} != {len(self.columns)}"
+                f"Number of column names does not match number of columns: {len(cols)} != {len(self._columns)}"
             )
         expression = self.expression.copy()
         expression = expression.select(
@@ -1718,6 +1727,114 @@ class BaseDataFrame(t.Generic[SESSION, WRITER, NA, STAT, GROUP_DATA]):
             grouping_columns.extend([list(x) for x in itertools.combinations(columns, i)])
         return self._group_data(self, grouping_columns, self.last_op)
+    @operation(Operation.SELECT)
+    def unpivot(
+        self,
+        ids: t.Union[ColumnOrName, t.List[ColumnOrName], t.Tuple[ColumnOrName, ...]],
+        values: t.Optional[t.Union[ColumnOrName, t.List[ColumnOrName], t.Tuple[ColumnOrName, ...]]],
+        variableColumnName: str,
+        valueColumnName: str,
+    ) -> Self:
+        """
+        Unpivot a DataFrame from wide format to long format, optionally leaving
+        identifier columns set. This is the reverse to `groupBy(...).pivot(...).agg(...)`,
+        except for the aggregation, which cannot be reversed.
+        This function is useful to massage a DataFrame into a format where some
+        columns are identifier columns ("ids"), while all other columns ("values")
+        are "unpivoted" to the rows, leaving just two non-id columns, named as given
+        by `variableColumnName` and `valueColumnName`.
+        When no "id" columns are given, the unpivoted DataFrame consists of only the
+        "variable" and "value" columns.
+        The `values` columns must not be empty so at least one value must be given to be unpivoted.
+        When `values` is `None`, all non-id columns will be unpivoted.
+        All "value" columns must share a least common data type. Unless they are the same data type,
+        all "value" columns are cast to the nearest common data type. For instance, types
+        `IntegerType` and `LongType` are cast to `LongType`, while `IntegerType` and `StringType`
+        do not have a common data type and `unpivot` fails.
+        .. versionadded:: 3.4.0
+        Parameters
+        ----------
+        ids : str, Column, tuple, list
+            Column(s) to use as identifiers. Can be a single column or column name,
+            or a list or tuple for multiple columns.
+        values : str, Column, tuple, list, optional
+            Column(s) to unpivot. Can be a single column or column name, or a list or tuple
+            for multiple columns. If specified, must not be empty. If not specified, uses all
+            columns that are not set as `ids`.
+        variableColumnName : str
+            Name of the variable column.
+        valueColumnName : str
+            Name of the value column.
+        Returns
+        -------
+        :class:`DataFrame`
+            Unpivoted DataFrame.
+        Notes
+        -----
+        Supports Spark Connect.
+        Examples
+        --------
+        >>> df = spark.createDataFrame(
+        ...     [(1, 11, 1.1), (2, 12, 1.2)],
+        ...     ["id", "int", "double"],
+        ... )
+        >>> df.show()
+        +---+---+------+
+        | id|int|double|
+        +---+---+------+
+        |  1| 11|   1.1|
+        |  2| 12|   1.2|
+        +---+---+------+
+        >>> df.unpivot("id", ["int", "double"], "var", "val").show()
+        +---+------+----+
+        | id|   var| val|
+        +---+------+----+
+        |  1|   int|11.0|
+        |  1|double| 1.1|
+        |  2|   int|12.0|
+        |  2|double| 1.2|
+        +---+------+----+
+        See Also
+        --------
+        DataFrame.melt
+        """
+        from sqlframe.base import functions as F
+        id_columns = self._ensure_and_normalize_cols(ids)
+        if not values:
+            outer_selects = self._get_outer_select_columns(self.expression)
+            values = [
+                column
+                for column in outer_selects
+                if column.alias_or_name not in {x.alias_or_name for x in id_columns}
+            ]
+        value_columns = self._ensure_and_normalize_cols(values)
+        df = self._convert_leaf_to_cte()
+        selects = []
+        for value in value_columns:
+            selects.append(
+                exp.select(
+                    *[x.column_expression for x in id_columns],
+                    F.lit(value.alias_or_name).alias(variableColumnName).expression,
+                    value.alias(valueColumnName).expression,
+                ).from_(df.expression.ctes[-1].alias_or_name)
+            )
+        unioned_expression = functools.reduce(lambda x, y: x.union(y, distinct=False), selects)  # type: ignore
+        final_expression = self._add_ctes_to_expression(unioned_expression, df.expression.ctes)
+        return self.copy(expression=final_expression)._convert_leaf_to_cte()
     def collect(self) -> t.List[Row]:
         return self._collect()

sqlframe/base/function_alternatives.py CHANGED Viewed

@@ -193,10 +193,6 @@ def factorial_ensure_int(col: ColumnOrName) -> Column:
     return Column.invoke_anonymous_function(col_func(col).cast("integer"), "FACTORIAL")
-def skewness_from_skew(col: ColumnOrName) -> Column:
-    return Column.invoke_anonymous_function(col, "SKEW")
 def isnan_using_equal(col: ColumnOrName) -> Column:
     lit = get_func_from_session("lit")
     return Column(

sqlframe/base/functions.py CHANGED Viewed

@@ -486,14 +486,32 @@ def var_pop(col: ColumnOrName) -> Column:
 @meta(unsupported_engines=["bigquery", "postgres"])
 def skewness(col: ColumnOrName) -> Column:
-    from sqlframe.base.function_alternatives import skewness_from_skew
     session = _get_session()
+    func_name = "SKEWNESS"
     if session._is_snowflake:
-        return skewness_from_skew(col)
+        func_name = "SKEW"
+    if session._is_duckdb or session._is_snowflake:
+        when_func = get_func_from_session("when")
+        count_func = get_func_from_session("count")
+        count_star = count_func("*")
+        lit_func = get_func_from_session("lit")
+        sqrt_func = get_func_from_session("sqrt")
+        col = Column.ensure_col(col)
+        return (
+            when_func(count_star == lit_func(0), lit_func(None))
+            .when(count_star == lit_func(1), lit_func(float("nan")))
+            .when(count_star == lit_func(2), lit_func(0.0))
+            .otherwise(
+                Column.invoke_anonymous_function(col, func_name)
+                * (count_star - lit_func(2))
+                / (sqrt_func(count_star * (count_star - lit_func(1))))
+            )
+        )
-    return Column.invoke_anonymous_function(col, "SKEWNESS")
+    return Column.invoke_anonymous_function(col, func_name)
 @meta(unsupported_engines=["bigquery", "postgres"])

sqlframe/base/util.py CHANGED Viewed

@@ -97,12 +97,8 @@ def get_column_mapping_from_schema_input(
     else:
         value = {x.strip(): None for x in schema}
     return {
-        exp.to_column(k).sql(dialect=dialect): exp.DataType.build(v, dialect=dialect)
-        if v is not None
-        else v
-        for k, v in value.items()
+        k: exp.DataType.build(v, dialect=dialect) if v is not None else v for k, v in value.items()
     }
-    # return {x.strip(): None for x in schema}  # type: ignore
 def get_tables_from_expression_with_join(expression: exp.Select) -> t.List[exp.Table]:

{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: sqlframe
-Version: 3.20.0
+Version: 3.21.1
 Summary: Turning PySpark Into a Universal DataFrame API
 Home-page: https://github.com/eakmanrq/sqlframe
 Author: Ryan Eakman

{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/RECORD RENAMED Viewed

@@ -1,14 +1,14 @@
 sqlframe/__init__.py,sha256=wfqm98eLoLid9oV_FzzpG5loKC6LxOhj2lXpfN7SARo,3138
-sqlframe/_version.py,sha256=nzt1OjXbH5tyyHQvLpmIr9I_E9sBcud1ZUXFSGz-12c,413
+sqlframe/_version.py,sha256=fmhKf9XPZdwZdKpQ-ESJ_LGssm7Q8K_NJEGVKwXLGQM,413
 sqlframe/base/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 sqlframe/base/_typing.py,sha256=b2clI5HI1zEZKB_3Msx3FeAJQyft44ubUifJwQRVXyQ,1298
 sqlframe/base/catalog.py,sha256=SzFQalTWdhWzxUY-4ut1f9TfOECp_JmJEgNPfrRKCe0,38457
 sqlframe/base/column.py,sha256=oHVwkSWABO3ZlAbgBShsxSSlgbI06BOup5XJrRhgqJI,18097
-sqlframe/base/dataframe.py,sha256=mKXbIKYiKH5mh6qj0Dg7L_znmCL85q9kHlmHtCW4kJ4,79352
+sqlframe/base/dataframe.py,sha256=FOgLdCpscLsBntkRvutcgSVqXqMgXo9DYa892mXu00E,83907
 sqlframe/base/decorators.py,sha256=ms-CvDOIW3T8IVB9VqDmLwAiaEsqXLYRXEqVQaxktiM,1890
 sqlframe/base/exceptions.py,sha256=9Uwvqn2eAkDpqm4BrRgbL61qM-GMCbJEMAW8otxO46s,370
-sqlframe/base/function_alternatives.py,sha256=NV31IaEhVYmfUSWetAEFISAvLzs2DxQ7bp-iMNgj0hQ,53786
-sqlframe/base/functions.py,sha256=nfDf2oKoBq2hrutTfuVHKmGvkm_X_ZvhfnFPv1rn0oU,222350
+sqlframe/base/function_alternatives.py,sha256=KFkEm0aIHzajvQmiPZnzTLh-Ud9wjeg4lJ4Rk0vk-YU,53674
+sqlframe/base/functions.py,sha256=jfLgboldiTB9CPkoZMtKUAwx6XSvFnEOIpCZQfoEJJU,223060
 sqlframe/base/group.py,sha256=fsyG5990_Pd7gFPjTFrH9IEoAquL_wEkVpIlBAIkZJU,4091
 sqlframe/base/normalize.py,sha256=nXAJ5CwxVf4DV0GsH-q1w0p8gmjSMlv96k_ez1eVul8,3880
 sqlframe/base/operations.py,sha256=xSPw74e59wYvNd6U1AlwziNCTG6Aftrbl4SybN9u9VE,3450
@@ -18,7 +18,7 @@ sqlframe/base/table.py,sha256=rCeh1W5SWbtEVfkLAUiexzrZwNgmZeptLEmLcM1ABkE,6961
 sqlframe/base/transforms.py,sha256=y0j3SGDz3XCmNGrvassk1S-owllUWfkHyMgZlY6SFO4,467
 sqlframe/base/types.py,sha256=iBNk9bpFtb2NBIogYS8i7OlQZMRvpR6XxqzBebsjQDU,12280
 sqlframe/base/udf.py,sha256=O6hMhBUy9NVv-mhJRtfFhXTIa_-Z8Y_FkmmuOHu0l90,1117
-sqlframe/base/util.py,sha256=rdnH3Kg6gZVT3DehU_ZHjfum79vc-I5W_Il6OiCtWF4,15284
+sqlframe/base/util.py,sha256=_s2M-qHzTLgyGu1v8laRHJorUpUO6-fr3kk7CsvcuXw,15161
 sqlframe/base/window.py,sha256=8hOv-ignPPIsZA9FzvYzcLE9J_glalVaYjIAUdRUX3o,4943
 sqlframe/base/mixins/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 sqlframe/base/mixins/catalog_mixins.py,sha256=9tn0mK8oPoqIIjNItystD5tdBMdK9YpkxTG7G9KQl8k,18619
@@ -129,8 +129,8 @@ sqlframe/standalone/udf.py,sha256=azmgtUjHNIPs0WMVNId05SHwiYn41MKVBhKXsQJ5dmY,27
 sqlframe/standalone/window.py,sha256=6GKPzuxeSapJakBaKBeT9VpED1ACdjggDv9JRILDyV0,35
 sqlframe/testing/__init__.py,sha256=VVCosQhitU74A3NnE52O4mNtGZONapuEXcc20QmSlnQ,132
 sqlframe/testing/utils.py,sha256=PFsGZpwNUE_4-g_f43_vstTqsK0AQ2lBneb5Eb6NkFo,13008
-sqlframe-3.20.0.dist-info/LICENSE,sha256=VZu79YgW780qxaFJMr0t5ZgbOYEh04xWoxaWOaqIGWk,1068
-sqlframe-3.20.0.dist-info/METADATA,sha256=vEauG8vJY6ak5FN5oJpsaGRKgzD7uaodpdlFFu3uN04,8970
-sqlframe-3.20.0.dist-info/WHEEL,sha256=oiQVh_5PnQM0E3gPdiz09WCNmwiHDMaGer_elqB3coM,92
-sqlframe-3.20.0.dist-info/top_level.txt,sha256=T0_RpoygaZSF6heeWwIDQgaP0varUdSK1pzjeJZRjM8,9
-sqlframe-3.20.0.dist-info/RECORD,,
+sqlframe-3.21.1.dist-info/LICENSE,sha256=VZu79YgW780qxaFJMr0t5ZgbOYEh04xWoxaWOaqIGWk,1068
+sqlframe-3.21.1.dist-info/METADATA,sha256=AauznGD-zSbh2cqT63w2MIrg_-0SlewyyRMNElL5O2I,8970
+sqlframe-3.21.1.dist-info/WHEEL,sha256=oiQVh_5PnQM0E3gPdiz09WCNmwiHDMaGer_elqB3coM,92
+sqlframe-3.21.1.dist-info/top_level.txt,sha256=T0_RpoygaZSF6heeWwIDQgaP0varUdSK1pzjeJZRjM8,9
+sqlframe-3.21.1.dist-info/RECORD,,

{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/LICENSE RENAMED Viewed

File without changes

{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/WHEEL RENAMED Viewed

File without changes

{sqlframe-3.20.0.dist-info → sqlframe-3.21.1.dist-info}/top_level.txt RENAMED Viewed

File without changes

sqlframe 3.20.0__py3-none-any.whl → 3.21.1__py3-none-any.whl

sqlframe 3.20.0py3-none-any.whl → 3.21.1py3-none-any.whl