PyPI - semantic-link-labs - Versions diffs - 0.12.8__py3-none-any.whl - Mend

semantic-link-labs 0.12.8__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (243) hide show

semantic_link_labs-0.12.8.dist-info/METADATA +354 -0
semantic_link_labs-0.12.8.dist-info/RECORD +243 -0
semantic_link_labs-0.12.8.dist-info/WHEEL +5 -0
semantic_link_labs-0.12.8.dist-info/licenses/LICENSE +21 -0
semantic_link_labs-0.12.8.dist-info/top_level.txt +1 -0
sempy_labs/__init__.py +606 -0
sempy_labs/_a_lib_info.py +2 -0
sempy_labs/_ai.py +437 -0
sempy_labs/_authentication.py +264 -0
sempy_labs/_bpa_translation/_model/_translations_am-ET.po +869 -0
sempy_labs/_bpa_translation/_model/_translations_ar-AE.po +908 -0
sempy_labs/_bpa_translation/_model/_translations_bg-BG.po +968 -0
sempy_labs/_bpa_translation/_model/_translations_ca-ES.po +963 -0
sempy_labs/_bpa_translation/_model/_translations_cs-CZ.po +943 -0
sempy_labs/_bpa_translation/_model/_translations_da-DK.po +945 -0
sempy_labs/_bpa_translation/_model/_translations_de-DE.po +988 -0
sempy_labs/_bpa_translation/_model/_translations_el-GR.po +993 -0
sempy_labs/_bpa_translation/_model/_translations_es-ES.po +971 -0
sempy_labs/_bpa_translation/_model/_translations_fa-IR.po +933 -0
sempy_labs/_bpa_translation/_model/_translations_fi-FI.po +942 -0
sempy_labs/_bpa_translation/_model/_translations_fr-FR.po +994 -0
sempy_labs/_bpa_translation/_model/_translations_ga-IE.po +967 -0
sempy_labs/_bpa_translation/_model/_translations_he-IL.po +902 -0
sempy_labs/_bpa_translation/_model/_translations_hi-IN.po +944 -0
sempy_labs/_bpa_translation/_model/_translations_hu-HU.po +963 -0
sempy_labs/_bpa_translation/_model/_translations_id-ID.po +946 -0
sempy_labs/_bpa_translation/_model/_translations_is-IS.po +939 -0
sempy_labs/_bpa_translation/_model/_translations_it-IT.po +986 -0
sempy_labs/_bpa_translation/_model/_translations_ja-JP.po +846 -0
sempy_labs/_bpa_translation/_model/_translations_ko-KR.po +839 -0
sempy_labs/_bpa_translation/_model/_translations_mt-MT.po +967 -0
sempy_labs/_bpa_translation/_model/_translations_nl-NL.po +978 -0
sempy_labs/_bpa_translation/_model/_translations_pl-PL.po +962 -0
sempy_labs/_bpa_translation/_model/_translations_pt-BR.po +962 -0
sempy_labs/_bpa_translation/_model/_translations_pt-PT.po +957 -0
sempy_labs/_bpa_translation/_model/_translations_ro-RO.po +968 -0
sempy_labs/_bpa_translation/_model/_translations_ru-RU.po +964 -0
sempy_labs/_bpa_translation/_model/_translations_sk-SK.po +952 -0
sempy_labs/_bpa_translation/_model/_translations_sl-SL.po +950 -0
sempy_labs/_bpa_translation/_model/_translations_sv-SE.po +942 -0
sempy_labs/_bpa_translation/_model/_translations_ta-IN.po +976 -0
sempy_labs/_bpa_translation/_model/_translations_te-IN.po +947 -0
sempy_labs/_bpa_translation/_model/_translations_th-TH.po +924 -0
sempy_labs/_bpa_translation/_model/_translations_tr-TR.po +953 -0
sempy_labs/_bpa_translation/_model/_translations_uk-UA.po +961 -0
sempy_labs/_bpa_translation/_model/_translations_zh-CN.po +804 -0
sempy_labs/_bpa_translation/_model/_translations_zu-ZA.po +969 -0
sempy_labs/_capacities.py +1198 -0
sempy_labs/_capacity_migration.py +660 -0
sempy_labs/_clear_cache.py +351 -0
sempy_labs/_connections.py +610 -0
sempy_labs/_dashboards.py +69 -0
sempy_labs/_data_access_security.py +98 -0
sempy_labs/_data_pipelines.py +162 -0
sempy_labs/_dataflows.py +668 -0
sempy_labs/_dax.py +501 -0
sempy_labs/_daxformatter.py +80 -0
sempy_labs/_delta_analyzer.py +467 -0
sempy_labs/_delta_analyzer_history.py +301 -0
sempy_labs/_dictionary_diffs.py +221 -0
sempy_labs/_documentation.py +147 -0
sempy_labs/_domains.py +51 -0
sempy_labs/_eventhouses.py +182 -0
sempy_labs/_external_data_shares.py +230 -0
sempy_labs/_gateways.py +521 -0
sempy_labs/_generate_semantic_model.py +521 -0
sempy_labs/_get_connection_string.py +84 -0
sempy_labs/_git.py +543 -0
sempy_labs/_graphQL.py +90 -0
sempy_labs/_helper_functions.py +2833 -0
sempy_labs/_icons.py +149 -0
sempy_labs/_job_scheduler.py +609 -0
sempy_labs/_kql_databases.py +149 -0
sempy_labs/_kql_querysets.py +124 -0
sempy_labs/_kusto.py +137 -0
sempy_labs/_labels.py +124 -0
sempy_labs/_list_functions.py +1720 -0
sempy_labs/_managed_private_endpoints.py +253 -0
sempy_labs/_mirrored_databases.py +416 -0
sempy_labs/_mirrored_warehouses.py +60 -0
sempy_labs/_ml_experiments.py +113 -0
sempy_labs/_model_auto_build.py +140 -0
sempy_labs/_model_bpa.py +557 -0
sempy_labs/_model_bpa_bulk.py +378 -0
sempy_labs/_model_bpa_rules.py +859 -0
sempy_labs/_model_dependencies.py +343 -0
sempy_labs/_mounted_data_factories.py +123 -0
sempy_labs/_notebooks.py +441 -0
sempy_labs/_one_lake_integration.py +151 -0
sempy_labs/_onelake.py +131 -0
sempy_labs/_query_scale_out.py +433 -0
sempy_labs/_refresh_semantic_model.py +435 -0
sempy_labs/_semantic_models.py +468 -0
sempy_labs/_spark.py +455 -0
sempy_labs/_sql.py +241 -0
sempy_labs/_sql_audit_settings.py +207 -0
sempy_labs/_sql_endpoints.py +214 -0
sempy_labs/_tags.py +201 -0
sempy_labs/_translations.py +43 -0
sempy_labs/_user_delegation_key.py +44 -0
sempy_labs/_utils.py +79 -0
sempy_labs/_vertipaq.py +1021 -0
sempy_labs/_vpax.py +388 -0
sempy_labs/_warehouses.py +234 -0
sempy_labs/_workloads.py +140 -0
sempy_labs/_workspace_identity.py +72 -0
sempy_labs/_workspaces.py +595 -0
sempy_labs/admin/__init__.py +170 -0
sempy_labs/admin/_activities.py +167 -0
sempy_labs/admin/_apps.py +145 -0
sempy_labs/admin/_artifacts.py +65 -0
sempy_labs/admin/_basic_functions.py +463 -0
sempy_labs/admin/_capacities.py +508 -0
sempy_labs/admin/_dataflows.py +45 -0
sempy_labs/admin/_datasets.py +186 -0
sempy_labs/admin/_domains.py +522 -0
sempy_labs/admin/_external_data_share.py +100 -0
sempy_labs/admin/_git.py +72 -0
sempy_labs/admin/_items.py +265 -0
sempy_labs/admin/_labels.py +211 -0
sempy_labs/admin/_reports.py +241 -0
sempy_labs/admin/_scanner.py +118 -0
sempy_labs/admin/_shared.py +82 -0
sempy_labs/admin/_sharing_links.py +110 -0
sempy_labs/admin/_tags.py +131 -0
sempy_labs/admin/_tenant.py +503 -0
sempy_labs/admin/_tenant_keys.py +89 -0
sempy_labs/admin/_users.py +140 -0
sempy_labs/admin/_workspaces.py +236 -0
sempy_labs/deployment_pipeline/__init__.py +23 -0
sempy_labs/deployment_pipeline/_items.py +580 -0
sempy_labs/directlake/__init__.py +57 -0
sempy_labs/directlake/_autosync.py +58 -0
sempy_labs/directlake/_directlake_schema_compare.py +120 -0
sempy_labs/directlake/_directlake_schema_sync.py +161 -0
sempy_labs/directlake/_dl_helper.py +274 -0
sempy_labs/directlake/_generate_shared_expression.py +94 -0
sempy_labs/directlake/_get_directlake_lakehouse.py +62 -0
sempy_labs/directlake/_get_shared_expression.py +34 -0
sempy_labs/directlake/_guardrails.py +96 -0
sempy_labs/directlake/_list_directlake_model_calc_tables.py +70 -0
sempy_labs/directlake/_show_unsupported_directlake_objects.py +90 -0
sempy_labs/directlake/_update_directlake_model_lakehouse_connection.py +239 -0
sempy_labs/directlake/_update_directlake_partition_entity.py +259 -0
sempy_labs/directlake/_warm_cache.py +236 -0
sempy_labs/dotnet_lib/dotnet.runtime.config.json +10 -0
sempy_labs/environment/__init__.py +23 -0
sempy_labs/environment/_items.py +212 -0
sempy_labs/environment/_pubstage.py +223 -0
sempy_labs/eventstream/__init__.py +37 -0
sempy_labs/eventstream/_items.py +263 -0
sempy_labs/eventstream/_topology.py +652 -0
sempy_labs/graph/__init__.py +59 -0
sempy_labs/graph/_groups.py +651 -0
sempy_labs/graph/_sensitivity_labels.py +120 -0
sempy_labs/graph/_teams.py +125 -0
sempy_labs/graph/_user_licenses.py +96 -0
sempy_labs/graph/_users.py +516 -0
sempy_labs/graph_model/__init__.py +15 -0
sempy_labs/graph_model/_background_jobs.py +63 -0
sempy_labs/graph_model/_items.py +149 -0
sempy_labs/lakehouse/__init__.py +67 -0
sempy_labs/lakehouse/_blobs.py +247 -0
sempy_labs/lakehouse/_get_lakehouse_columns.py +102 -0
sempy_labs/lakehouse/_get_lakehouse_tables.py +274 -0
sempy_labs/lakehouse/_helper.py +250 -0
sempy_labs/lakehouse/_lakehouse.py +351 -0
sempy_labs/lakehouse/_livy_sessions.py +143 -0
sempy_labs/lakehouse/_materialized_lake_views.py +157 -0
sempy_labs/lakehouse/_partitioning.py +165 -0
sempy_labs/lakehouse/_schemas.py +217 -0
sempy_labs/lakehouse/_shortcuts.py +440 -0
sempy_labs/migration/__init__.py +35 -0
sempy_labs/migration/_create_pqt_file.py +238 -0
sempy_labs/migration/_direct_lake_to_import.py +105 -0
sempy_labs/migration/_migrate_calctables_to_lakehouse.py +398 -0
sempy_labs/migration/_migrate_calctables_to_semantic_model.py +148 -0
sempy_labs/migration/_migrate_model_objects_to_semantic_model.py +533 -0
sempy_labs/migration/_migrate_tables_columns_to_semantic_model.py +172 -0
sempy_labs/migration/_migration_validation.py +71 -0
sempy_labs/migration/_refresh_calc_tables.py +131 -0
sempy_labs/mirrored_azure_databricks_catalog/__init__.py +15 -0
sempy_labs/mirrored_azure_databricks_catalog/_discover.py +213 -0
sempy_labs/mirrored_azure_databricks_catalog/_refresh_catalog_metadata.py +45 -0
sempy_labs/ml_model/__init__.py +23 -0
sempy_labs/ml_model/_functions.py +427 -0
sempy_labs/report/_BPAReportTemplate.json +232 -0
sempy_labs/report/__init__.py +55 -0
sempy_labs/report/_bpareporttemplate/.pbi/localSettings.json +9 -0
sempy_labs/report/_bpareporttemplate/.platform +11 -0
sempy_labs/report/_bpareporttemplate/StaticResources/SharedResources/BaseThemes/CY24SU06.json +710 -0
sempy_labs/report/_bpareporttemplate/definition/pages/01d72098bda5055bd500/page.json +11 -0
sempy_labs/report/_bpareporttemplate/definition/pages/01d72098bda5055bd500/visuals/1b08bce3bebabb0a27a8/visual.json +191 -0
sempy_labs/report/_bpareporttemplate/definition/pages/01d72098bda5055bd500/visuals/2f22ddb70c301693c165/visual.json +438 -0
sempy_labs/report/_bpareporttemplate/definition/pages/01d72098bda5055bd500/visuals/3b1182230aa6c600b43a/visual.json +127 -0
sempy_labs/report/_bpareporttemplate/definition/pages/01d72098bda5055bd500/visuals/58577ba6380c69891500/visual.json +576 -0
sempy_labs/report/_bpareporttemplate/definition/pages/01d72098bda5055bd500/visuals/a2a8fa5028b3b776c96c/visual.json +207 -0
sempy_labs/report/_bpareporttemplate/definition/pages/01d72098bda5055bd500/visuals/adfd47ef30652707b987/visual.json +506 -0
sempy_labs/report/_bpareporttemplate/definition/pages/01d72098bda5055bd500/visuals/b6a80ee459e716e170b1/visual.json +127 -0
sempy_labs/report/_bpareporttemplate/definition/pages/01d72098bda5055bd500/visuals/ce3130a721c020cc3d81/visual.json +513 -0
sempy_labs/report/_bpareporttemplate/definition/pages/92735ae19b31712208ad/page.json +8 -0
sempy_labs/report/_bpareporttemplate/definition/pages/92735ae19b31712208ad/visuals/66e60dfb526437cd78d1/visual.json +112 -0
sempy_labs/report/_bpareporttemplate/definition/pages/c597da16dc7e63222a82/page.json +11 -0
sempy_labs/report/_bpareporttemplate/definition/pages/c597da16dc7e63222a82/visuals/07deb8bce824e1be37d7/visual.json +513 -0
sempy_labs/report/_bpareporttemplate/definition/pages/c597da16dc7e63222a82/visuals/0b1c68838818b32ad03b/visual.json +352 -0
sempy_labs/report/_bpareporttemplate/definition/pages/c597da16dc7e63222a82/visuals/0c171de9d2683d10b930/visual.json +37 -0
sempy_labs/report/_bpareporttemplate/definition/pages/c597da16dc7e63222a82/visuals/0efa01be0510e40a645e/visual.json +542 -0
sempy_labs/report/_bpareporttemplate/definition/pages/c597da16dc7e63222a82/visuals/6bf2f0eb830ab53cc668/visual.json +221 -0
sempy_labs/report/_bpareporttemplate/definition/pages/c597da16dc7e63222a82/visuals/88d8141cb8500b60030c/visual.json +127 -0
sempy_labs/report/_bpareporttemplate/definition/pages/c597da16dc7e63222a82/visuals/a753273590beed656a03/visual.json +576 -0
sempy_labs/report/_bpareporttemplate/definition/pages/c597da16dc7e63222a82/visuals/b8fdc82cddd61ac447bc/visual.json +127 -0
sempy_labs/report/_bpareporttemplate/definition/pages/d37dce724a0ccc30044b/page.json +9 -0
sempy_labs/report/_bpareporttemplate/definition/pages/d37dce724a0ccc30044b/visuals/ce8532a7e25020271077/visual.json +38 -0
sempy_labs/report/_bpareporttemplate/definition/pages/pages.json +10 -0
sempy_labs/report/_bpareporttemplate/definition/report.json +176 -0
sempy_labs/report/_bpareporttemplate/definition/version.json +4 -0
sempy_labs/report/_bpareporttemplate/definition.pbir +14 -0
sempy_labs/report/_download_report.py +76 -0
sempy_labs/report/_export_report.py +257 -0
sempy_labs/report/_generate_report.py +427 -0
sempy_labs/report/_paginated.py +76 -0
sempy_labs/report/_report_bpa.py +354 -0
sempy_labs/report/_report_bpa_rules.py +115 -0
sempy_labs/report/_report_functions.py +581 -0
sempy_labs/report/_report_helper.py +227 -0
sempy_labs/report/_report_list_functions.py +110 -0
sempy_labs/report/_report_rebind.py +149 -0
sempy_labs/report/_reportwrapper.py +3100 -0
sempy_labs/report/_save_report.py +147 -0
sempy_labs/snowflake_database/__init__.py +10 -0
sempy_labs/snowflake_database/_items.py +105 -0
sempy_labs/sql_database/__init__.py +21 -0
sempy_labs/sql_database/_items.py +201 -0
sempy_labs/sql_database/_mirroring.py +79 -0
sempy_labs/theme/__init__.py +12 -0
sempy_labs/theme/_org_themes.py +129 -0
sempy_labs/tom/__init__.py +3 -0
sempy_labs/tom/_model.py +5977 -0
sempy_labs/variable_library/__init__.py +19 -0
sempy_labs/variable_library/_functions.py +403 -0
sempy_labs/warehouse/__init__.py +28 -0
sempy_labs/warehouse/_items.py +234 -0
sempy_labs/warehouse/_restore_points.py +309 -0

sempy_labs/_delta_analyzer_history.py ADDED Viewed

@@ -0,0 +1,301 @@
+import pandas as pd
+from typing import Optional
+import pyarrow.parquet as pq
+from sempy_labs._helper_functions import (
+    create_abfss_path,
+    resolve_workspace_id,
+    resolve_lakehouse_id,
+    _mount,
+)
+from sempy._utils._log import log
+from tqdm.auto import tqdm
+from uuid import UUID
+from datetime import datetime
+@log
+def delta_analyzer_history(
+    table_name: str,
+    schema: Optional[str] = None,
+    lakehouse: Optional[str | UUID] = None,
+    workspace: Optional[str | UUID] = None,
+) -> pd.DataFrame:
+    """
+    Analyzes the transaction log for a specified delta table and shows the results in dataframe.  One row per data modification operation.
+    Keeps track on the number of Parquet files, rowgroups, file size and #rows impacted by each change.
+    Incremental Framing effect: 100% = highly effective, 0% = no benefit at all
+    Parameters
+    ----------
+    table_name : str
+        The delta table name.
+    schema : str, default=None
+        The schema name of the delta table.
+    lakehouse : str | uuid.UUID, default=None
+        The Fabric lakehouse name or ID.
+        Defaults to None which resolves to the lakehouse attached to the notebook.
+    workspace : str | uuid.UUID, default=None
+        The Fabric workspace name or ID used by the lakehouse.
+        Defaults to None which resolves to the workspace of the attached lakehouse
+        or if no lakehouse attached, resolves to the workspace of the notebook.
+    Returns
+    -------
+    pandas.DataFrame
+        Displays a gantt visual showing a timeline for individual parquet files.
+    """
+    import notebookutils
+    from IPython.display import display, HTML
+    workspace_id = resolve_workspace_id(workspace=workspace)
+    lakehouse_id = resolve_lakehouse_id(lakehouse=lakehouse, workspace=workspace)
+    table_path = create_abfss_path(lakehouse_id, workspace_id, table_name, schema)
+    local_path = _mount(lakehouse=lakehouse, workspace=workspace)
+    if schema:  # use schema if specified
+        table_path_local = f"{local_path}/Tables/{schema}/{table_name}"
+    else:
+        table_path_local = f"{local_path}/Tables/{table_name}"
+    delta_table_path = f"{table_path}/_delta_log"
+    files = notebookutils.fs.ls(delta_table_path)
+    json_files = [file.name for file in files if file.name.endswith(".json")]
+    element_version = total_size = total_rows = total_files = total_rowgroups = 0
+    changes_array = []
+    parquet_files = []
+    my_date_time_format = "%Y-%m-%d %H:%M:%S.%f"
+    now_to_epoch = datetime.now().strftime(my_date_time_format)
+    num_latest_files = len(json_files)
+    for idx, file in enumerate(bar := tqdm(json_files), start=1):
+        bar.set_description(
+            f"Analyzing the '{file}' parquet file ({idx}/{num_latest_files})..."
+        )
+        change_timestamp = datetime.strptime(
+            "2001-01-01 12:00:00.000", my_date_time_format
+        )
+        df = pd.read_json(f"{delta_table_path}/{file}", lines=True)
+        rows_added = size_added = rows_deleted = size_deleted = files_added = (
+            files_removed
+        ) = row_groups_added = row_groups_removed = 0
+        total_files_before_change = total_files
+        total_row_groups_before_change = total_rowgroups
+        operation = predicate = tags = ""
+        for _, row in df.iterrows():
+            add_row = row.get("add")
+            remove_row = row.get("remove")
+            commit_row = row.get("commitInfo")
+            if isinstance(add_row, dict):
+                file_name = add_row["path"]
+                fs_filename = f"{table_path}/{file_name}"
+                size_added += add_row["size"]
+                files_added += 1
+                filerows_added = 0
+                if notebookutils.fs.exists(fs_filename):
+                    parquet_file = pq.ParquetFile(table_path_local + f"/{file_name}")
+                    for i in range(parquet_file.num_row_groups):
+                        row_group = parquet_file.metadata.row_group(i)
+                        num_rows = row_group.num_rows
+                        filerows_added += num_rows
+                        rows_added += num_rows
+                    row_groups_added += parquet_file.num_row_groups
+                    start = str(
+                        datetime.fromtimestamp(add_row["modificationTime"] / 1000.0)
+                    )
+                    parquet_files.append(
+                        {
+                            "file": file_name,
+                            "start": start,
+                            "end": now_to_epoch,
+                            "rows": filerows_added,
+                            "isCurrent": 1,
+                        }
+                    )
+            if isinstance(remove_row, dict):
+                file_name = remove_row["path"]
+                fs_filename = f"{table_path}/{file_name}"
+                if notebookutils.fs.exists(fs_filename):
+                    parquet_file = pq.ParquetFile(table_path_local + f"/{file_name}")
+                    for i in range(parquet_file.num_row_groups):
+                        row_group = parquet_file.metadata.row_group(i)
+                        num_rows = row_group.num_rows
+                        rows_deleted += num_rows
+                    files_removed += 1
+                    size_deleted += remove_row.get("size", 0)
+                    row_groups_removed += parquet_file.num_row_groups
+                    result = next(
+                        (row for row in parquet_files if row["file"] == file_name), None
+                    )
+                    if result:
+                        result.update(
+                            {
+                                "isCurrent": 0,
+                                "end": str(
+                                    datetime.fromtimestamp(
+                                        remove_row["deletionTimestamp"] / 1000.0
+                                    )
+                                ),
+                            }
+                        )
+            if isinstance(commit_row, dict):
+                operation = commit_row.get("operation")
+                tags = commit_row.get("tags")
+                predicate = commit_row.get("operationParameters", {}).get("predicate")
+                if operation == "VACUUM START":
+                    operation_metrics = commit_row.get("operationMetrics", {})
+                    total_files -= int(operation_metrics.get("numFilesToDelete", 0))
+                    total_size -= int(operation_metrics.get("sizeOfDataToDelete", 0))
+                change_timestamp = datetime.fromtimestamp(
+                    commit_row["timestamp"] / 1000.0
+                )
+        total_size += size_added - size_deleted
+        total_rows += rows_added - rows_deleted
+        total_files += files_added - files_removed
+        total_rowgroups += row_groups_added - row_groups_removed
+        incremental_framing_effect = 1
+        if size_deleted != 0:
+            incremental_framing_effect = (
+                int((total_size - size_added * 1.0) / total_size * 100000) / 1000
+            )
+            # incrementalFramingEffect = round(
+            #     (totalSize - sizeAdded * 1.0) / totalSize, 4
+            # )
+        changes_array.append(
+            [
+                element_version,
+                operation,
+                predicate,
+                change_timestamp,
+                incremental_framing_effect,
+                files_added,
+                files_removed,
+                total_files_before_change - files_removed,
+                total_files,
+                size_added,
+                size_deleted,
+                total_size,
+                row_groups_added,
+                row_groups_removed,
+                total_row_groups_before_change - row_groups_removed,
+                total_rowgroups,
+                rows_added,
+                rows_deleted,
+                rows_added - rows_deleted,
+                total_rows,
+                tags,
+            ]
+        )
+        element_version += 1
+    #  /********************************************************************************************************************
+    #      Display Gantt Chart of files
+    #  ********************************************************************************************************************/
+    spec: str = (
+        """{
+    "$$schema": 'https://vega.github.io/schema/vega-lite/v2.json',
+    "description": "A simple bar chart with ranged data (aka Gantt Chart).",
+    "width" : 1024 ,
+    "data": {
+        "values": %s
+    },
+    "layer":[
+        {"mark": "bar"},
+        {"mark": {
+        "type": "text",
+        "align": "center",
+        "baseline": "middle",
+        "dx": 40
+        },
+        "encoding": {
+        "text": {"field": "rows", "type": "quantitative", "format":","},
+        "color":{
+        "condition": {"test": "datum['isCurrent'] == 1", "value": "black"},
+        "value": "black"
+            }
+        }
+        }],
+    "encoding": {
+        "y": {"field": "file", "type": "ordinal","sort": "isCurrent","title":null,"axis":{"labelPadding":15,"labelLimit":360}},
+        "x": {"field": "start", "type": "temporal","title":null},
+        "x2": {"field": "end", "type": "temporal","title":null},
+            "color": {
+            "field": "isCurrent",
+            "scale": {"range": ["silver", "#ca8861"]}
+            }
+    }
+    }"""
+        % (parquet_files)
+    )
+    display(
+        HTML(
+            """
+        <!DOCTYPE html>
+        <html>
+            <head>
+                <script src="https://cdn.jsdelivr.net/npm/vega@5"></script>
+                <script src="https://cdn.jsdelivr.net/npm/vega-lite@5"></script>
+                <script src="https://cdn.jsdelivr.net/npm/vega-embed@6"></script>
+            </head>
+            <body>
+                <div id="vis"></div>
+                <script type="text/javascript">
+                    var spec = """
+            + spec
+            + """;
+                    var opt = {"renderer": "canvas", "actions": false};
+                    vegaEmbed("#vis", spec, opt);
+                </script>
+            </body>
+        </html>"""
+        )
+    )
+    return pd.DataFrame(
+        changes_array,
+        columns=[
+            "Change Number",
+            "Change Type",
+            "Predicate",
+            "Modification Time",
+            "Incremental Effect",
+            "Files Added",
+            "Files Removed",
+            "Files Preserved",
+            "Files After Change",
+            "Size Added",
+            "Sized Removed",
+            "Size After Change",
+            "Rowgroups Added",
+            "Rowgroups Removed",
+            "Rowgroups Preserved",
+            "Rowgroups After Change",
+            "Rows Added",
+            "Rows Removed",
+            "Rows Delta",
+            "Rows After Change",
+            "Tags",
+        ],
+    )

sempy_labs/_dictionary_diffs.py ADDED Viewed

@@ -0,0 +1,221 @@
+import re
+import json
+import difflib
+from collections import defaultdict
+def color_text(text, color_code):
+    return f"\033[{color_code}m{text}\033[0m"
+def stringify(payload):
+    try:
+        if isinstance(payload, list):
+            return (
+                "[\n" + ",\n".join(f"  {json.dumps(item)}" for item in payload) + "\n]"
+            )
+        return json.dumps(payload, indent=2, sort_keys=True)
+    except Exception:
+        return str(payload)
+def extract_top_level_group(path):
+    # For something like: resourcePackages[1].items[1].name → resourcePackages[1].items[1]
+    segments = re.split(r"\.(?![^[]*\])", path)  # split on dots not in brackets
+    return ".".join(segments[:-1]) if len(segments) > 1 else segments[0]
+def get_by_path(obj, path):
+    """Navigate into nested dict/list based on a dot/bracket path like: a.b[1].c"""
+    tokens = re.findall(r"\w+|\[\d+\]", path)
+    for token in tokens:
+        if token.startswith("["):
+            index = int(token[1:-1])
+            obj = obj[index]
+        else:
+            obj = obj.get(token)
+    return obj
+def deep_diff(d1, d2, path=""):
+    diffs = []
+    if isinstance(d1, dict) and isinstance(d2, dict):
+        keys = set(d1) | set(d2)
+        for key in sorted(keys):
+            new_path = f"{path}.{key}" if path else key
+            if key not in d1:
+                diffs.append(("+", new_path, None, d2[key]))
+            elif key not in d2:
+                diffs.append(("-", new_path, d1[key], None))
+            else:
+                diffs.extend(deep_diff(d1[key], d2[key], new_path))
+    elif isinstance(d1, list) and isinstance(d2, list):
+        min_len = min(len(d1), len(d2))
+        list_changed = False
+        for i in range(min_len):
+            if d1[i] != d2[i]:
+                list_changed = True
+                break
+        if list_changed or len(d1) != len(d2):
+            diffs.append(("~", path, d1, d2))
+    elif d1 != d2:
+        diffs.append(("~", path, d1, d2))
+    return diffs
+def diff_parts(d1, d2):
+    def build_path_map(parts):
+        return {part["path"]: part["payload"] for part in parts}
+    try:
+        paths1 = build_path_map(d1)
+    except Exception:
+        paths1 = d1
+    try:
+        paths2 = build_path_map(d2)
+    except Exception:
+        paths2 = d2
+    all_paths = set(paths1) | set(paths2)
+    for part_path in sorted(all_paths):
+        p1 = paths1.get(part_path)
+        p2 = paths2.get(part_path)
+        if p1 is None:
+            print(color_text(f"+ {part_path}", "32"))  # Green
+            continue
+        elif p2 is None:
+            print(color_text(f"- {part_path}", "31"))  # Red
+            continue
+        elif p1 == p2:
+            continue
+        if p1 is None or p2 is None:
+            print(
+                color_text(f"+ {part_path}", "32")
+                if p2 and not p1
+                else color_text(f"- {part_path}", "31")
+            )
+            continue
+        # Header for the changed part
+        print(color_text(f"~ {part_path}", "33"))
+        # Collect diffs
+        diffs = deep_diff(p1, p2)
+        # If the diff is only a change of a whole list (like appending to a list), group it under its key
+        merged_list_diffs = []
+        for change_type, full_path, old_val, new_val in diffs:
+            if (
+                change_type == "~"
+                and isinstance(old_val, list)
+                and isinstance(new_val, list)
+            ):
+                merged_list_diffs.append((change_type, full_path, old_val, new_val))
+        # Replace individual item diffs with unified list diff
+        if merged_list_diffs:
+            diffs = merged_list_diffs
+        # Group diffs by common parent path (e.g. items[1])
+        grouped = defaultdict(list)
+        for change_type, full_path, old_val, new_val in diffs:
+            group_path = extract_top_level_group(full_path)
+            grouped[group_path].append((change_type, full_path, old_val, new_val))
+        # Print each group once with unified diff for the full substructure
+        for group_path in sorted(grouped):
+            print("  " + color_text(f"~ {group_path}", "33"))
+            try:
+                old_group = get_by_path(p1, group_path)
+                new_group = get_by_path(p2, group_path)
+            except Exception:
+                old_group = new_group = None
+            # Skip showing diffs for empty/null groups
+            if isinstance(old_group, dict) and isinstance(new_group, dict):
+                old_keys = set(old_group.keys())
+                new_keys = set(new_group.keys())
+                for key in sorted(old_keys - new_keys):
+                    print(
+                        "  "
+                        + color_text(f"- {key}: {json.dumps(old_group[key])}", "31")
+                    )
+                for key in sorted(new_keys - old_keys):
+                    print(
+                        "  "
+                        + color_text(f"+ {key}: {json.dumps(new_group[key])}", "32")
+                    )
+                for key in sorted(old_keys & new_keys):
+                    if old_group[key] != new_group[key]:
+                        print("  " + color_text(f"~ {key}:", "33"))
+                        old_val_str = stringify(old_group[key]).splitlines()
+                        new_val_str = stringify(new_group[key]).splitlines()
+                        for line in difflib.unified_diff(
+                            old_val_str,
+                            new_val_str,
+                            fromfile="old",
+                            tofile="new",
+                            lineterm="",
+                        ):
+                            if line.startswith("@@"):
+                                print("    " + color_text(line, "36"))
+                            elif line.startswith("-") and not line.startswith("---"):
+                                print("    " + color_text(line, "31"))
+                            elif line.startswith("+") and not line.startswith("+++"):
+                                print("    " + color_text(line, "32"))
+            elif old_group is None and new_group is not None:
+                if isinstance(new_group, dict):
+                    # print all added keys
+                    for key, val in new_group.items():
+                        print("  " + color_text(f"+ {key}: {json.dumps(val)}", "32"))
+                elif isinstance(new_group, list):
+                    old_str = []
+                    new_str = stringify(new_group).splitlines()
+                    for line in difflib.unified_diff(
+                        old_str, new_str, fromfile="old", tofile="new", lineterm=""
+                    ):
+                        if line.startswith("@@"):
+                            print("  " + color_text(line, "36"))
+                        elif line.startswith("-") and not line.startswith("---"):
+                            print("  " + color_text(line, "31"))
+                        elif line.startswith("+") and not line.startswith("+++"):
+                            print("  " + color_text(line, "32"))
+                else:
+                    print("  " + color_text(f"+ {json.dumps(new_group)}", "32"))
+            elif new_group is None and old_group is not None:
+                if isinstance(old_group, dict):
+                    # print all removed keys
+                    for key, val in old_group.items():
+                        print("  " + color_text(f"- {key}: {json.dumps(val)}", "31"))
+                elif isinstance(old_group, list):
+                    old_str = stringify(old_group).splitlines()
+                    new_str = []
+                    for line in difflib.unified_diff(
+                        old_str, new_str, fromfile="old", tofile="new", lineterm=""
+                    ):
+                        if line.startswith("@@"):
+                            print("  " + color_text(line, "36"))
+                        elif line.startswith("-") and not line.startswith("---"):
+                            print("  " + color_text(line, "31"))
+                        elif line.startswith("+") and not line.startswith("+++"):
+                            print("  " + color_text(line, "32"))
+                else:
+                    print("  " + color_text(f"- {json.dumps(old_group)}", "31"))
+            else:
+                old_str = stringify(old_group).splitlines()
+                new_str = stringify(new_group).splitlines()
+                for line in difflib.unified_diff(
+                    old_str, new_str, fromfile="old", tofile="new", lineterm=""
+                ):
+                    if line.startswith("@@"):
+                        print("  " + color_text(line, "36"))
+                    elif line.startswith("-") and not line.startswith("---"):
+                        print("  " + color_text(line, "31"))
+                    elif line.startswith("+") and not line.startswith("+++"):
+                        print("  " + color_text(line, "32"))

sempy_labs/_documentation.py ADDED Viewed

@@ -0,0 +1,147 @@
+import sempy
+import sempy.fabric as fabric
+import pandas as pd
+from typing import List, Optional
+from sempy._utils._log import log
+@log
+def list_all_items(workspaces: Optional[str | List[str]] = None):
+    df = pd.DataFrame(
+        columns=[
+            "Workspace Name",
+            "Workspace Id",
+            "Item Name",
+            "Item Type",
+            "Description",
+        ]
+    )
+    if isinstance(workspaces, str):
+        workspaces = [workspaces]
+    dfW = fabric.list_workspaces()
+    if workspaces is not None:
+        dfW = dfW[dfW["Name"].isin(workspaces)]
+    for _, r in dfW.iterrows():
+        workspace_name = r["Name"]
+        workspace_id = r["Id"]
+        dfI = fabric.list_items(workspace=workspace_name)
+        for _, r2 in dfI.iterrows():
+            new_data = {
+                "Workspace Name": workspace_name,
+                "Workspace Id": workspace_id,
+                "Item Name": r2["Name"],
+                "Item Type": r2["Type"],
+                "Description": r2["Description"],
+            }
+            df = pd.concat([df, pd.DataFrame(new_data, index=[0])], ignore_index=True)
+    return df
+@log
+def data_dictionary(dataset: str, workspace: Optional[str | None] = None):
+    from sempy_labs.tom import connect_semantic_model
+    sempy.fabric._client._utils._init_analysis_services()
+    import Microsoft.AnalysisServices.Tabular as TOM
+    df = pd.DataFrame(
+        columns=[
+            "Workspace Name",
+            "Model Name",
+            "Table Name",
+            "Object Type",
+            "Object Name",
+            "Hidden Flag",
+            "Description",
+            "Display Folder",
+            "Measure Formula",
+        ]
+    )
+    with connect_semantic_model(
+        dataset=dataset, readonly=True, workspace=workspace
+    ) as tom:
+        for t in tom.model.Tables:
+            expr = None
+            if tom.is_calculated_table(table_name=t.Name):
+                pName = next(p.Name for p in t.Partitions)
+                expr = t.Partitions[pName].Source.Expression
+            new_data = {
+                "Workspace Name": workspace,
+                "Model Name": dataset,
+                "Table Name": t.Name,
+                "Object Type": t.ObjectType,
+                "Object Name": t.Name,
+                "Hidden Flag": t.IsHidden,
+                "Description": t.Description,
+                "Display Folder": None,
+                "Measure Formula": expr,
+            }
+            df = pd.concat([df, pd.DataFrame(new_data, index=[0])], ignore_index=True)
+            cols = [c for c in t.Columns if c.Type != TOM.ColumnType.RowNumber]
+            for c in cols:
+                def get_calc_column_expression(table_name, column_name):
+                    expr = None
+                    if tom.is_calculated_column(
+                        table_name=table_name, column_name=column_name
+                    ):
+                        expr = c.Expression
+                    return expr
+                new_data = {
+                    "Workspace Name": workspace,
+                    "Model Name": dataset,
+                    "Table Name": t.Name,
+                    "Object Type": c.ObjectType,
+                    "Object Name": c.Name,
+                    "Hidden Flag": c.IsHidden,
+                    "Description": c.Description,
+                    "Display Folder": c.DisplayFolder,
+                    "Measure Formula": get_calc_column_expression(t.Name, c.Name),
+                }
+                df = pd.concat(
+                    [df, pd.DataFrame(new_data, index=[0])], ignore_index=True
+                )
+            for m in t.Measures:
+                new_data = {
+                    "Workspace Name": workspace,
+                    "Model Name": dataset,
+                    "Table Name": t.Name,
+                    "Object Type": m.ObjectType,
+                    "Object Name": m.Name,
+                    "Hidden Flag": m.IsHidden,
+                    "Description": m.Description,
+                    "Display Folder": m.DisplayFolder,
+                    "Measure Formula": m.Expression,
+                }
+                df = pd.concat(
+                    [df, pd.DataFrame(new_data, index=[0])], ignore_index=True
+                )
+            if t.CalculationGroup is not None:
+                for ci in t.CalculationGroup.CalculationItems:
+                    new_data = {
+                        "Workspace Name": workspace,
+                        "Model Name": dataset,
+                        "Table Name": t.Name,
+                        "Object Type": "Calculation Item",
+                        "Object Name": ci.Name,
+                        "Hidden Flag": t.IsHidden,
+                        "Description": ci.Description,
+                        "Display Folder": None,
+                        "Measure Formula": ci.Expression,
+                    }
+                    df = pd.concat(
+                        [df, pd.DataFrame(new_data, index=[0])], ignore_index=True
+                    )
+    return df