PyPI - ukam-os-builder - Versions diffs - 0.1.0.dev4__tar.gz → 0.1.0.dev6__tar.gz - Mend

ukam-os-builder 0.1.0.dev4tar.gz → 0.1.0.dev6tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (54) hide show

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: ukam-os-builder
-Version: 0.1.0.dev4
+Version: 0.1.0.dev6
 Summary: Download, process and transform OS address data (NGD or ABP) for UK address matching
 Project-URL: Homepage, https://github.com/moj-analytical-services/prepare_ngd_for_address_matching
 Project-URL: Repository, https://github.com/moj-analytical-services/prepare_ngd_for_address_matching
@@ -221,13 +221,10 @@ Each file contains:
 | `filename` | VARCHAR | Source file name (for example `add_gb_builtaddress.parquet`) |
 | `classificationcode` | VARCHAR | Property classification code (for example RD06 for residential) |
 | `parentuprn` | BIGINT | Parent UPRN for hierarchical addresses |
-| `rootuprn` | BIGINT | Root UPRN at the top of the hierarchy |
-| `hierarchylevel` | INTEGER | Level in the address hierarchy (1 = root) |
+| `lowertierlocalauthoritygsscode` | VARCHAR | Lower-tier local authority GSS code |
 | `floorlevel` | VARCHAR | Floor level identifier |
-| `lowestfloorlevel` | DOUBLE | Lowest floor number |
-| `highestfloorlevel` | DOUBLE | Highest floor number |
-Metadata columns (`classificationcode`, `parentuprn`, `rootuprn`, `hierarchylevel`, `floorlevel`, `lowestfloorlevel`, `highestfloorlevel`) are enriched via UPRN lookup from core address files. This means Royal Mail addresses and alternate address records receive metadata from their corresponding Built, Historic, or Pre-Build records.
+Metadata used in output (`classificationcode`, `parentuprn`, `lowertierlocalauthoritygsscode`, `floorlevel`) is enriched via UPRN lookup from core address files. This means Royal Mail addresses and alternate address records receive metadata from their corresponding Built, Historic, or Pre-Build records. `lowertierlocalauthoritygsscode` is always sourced from Built Address via UPRN lookup.
 </details>

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/README.md RENAMED Viewed

@@ -195,13 +195,10 @@ Each file contains:
 | `filename` | VARCHAR | Source file name (for example `add_gb_builtaddress.parquet`) |
 | `classificationcode` | VARCHAR | Property classification code (for example RD06 for residential) |
 | `parentuprn` | BIGINT | Parent UPRN for hierarchical addresses |
-| `rootuprn` | BIGINT | Root UPRN at the top of the hierarchy |
-| `hierarchylevel` | INTEGER | Level in the address hierarchy (1 = root) |
+| `lowertierlocalauthoritygsscode` | VARCHAR | Lower-tier local authority GSS code |
 | `floorlevel` | VARCHAR | Floor level identifier |
-| `lowestfloorlevel` | DOUBLE | Lowest floor number |
-| `highestfloorlevel` | DOUBLE | Highest floor number |
-Metadata columns (`classificationcode`, `parentuprn`, `rootuprn`, `hierarchylevel`, `floorlevel`, `lowestfloorlevel`, `highestfloorlevel`) are enriched via UPRN lookup from core address files. This means Royal Mail addresses and alternate address records receive metadata from their corresponding Built, Historic, or Pre-Build records.
+Metadata used in output (`classificationcode`, `parentuprn`, `lowertierlocalauthoritygsscode`, `floorlevel`) is enriched via UPRN lookup from core address files. This means Royal Mail addresses and alternate address records receive metadata from their corresponding Built, Historic, or Pre-Build records. `lowertierlocalauthoritygsscode` is always sourced from Built Address via UPRN lookup.
 </details>

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "ukam-os-builder"
-version = "0.1.0.dev4"
+version = "0.1.0.dev6"
 description = "Download, process and transform OS address data (NGD or ABP) for UK address matching"
 readme = "README.md"
 requires-python = ">=3.10"

ukam_os_builder-0.1.0.dev6/tests/test_extract_source_filtering.py ADDED Viewed

@@ -0,0 +1,49 @@
+from __future__ import annotations
+from pathlib import Path
+from ukam_os_builder.os_builder.extract import (
+    _filter_zips_for_source,
+    _should_convert_csv_to_parquet,
+)
+def test_filter_zips_for_source_prefers_ngd_named_zips() -> None:
+    zip_files = [
+        Path("add_gb_builtaddress.zip"),
+        Path("AddressBasePremium_FULL_2025-12-15_002.zip"),
+    ]
+    filtered = _filter_zips_for_source(zip_files, "ngd")
+    assert filtered == [Path("add_gb_builtaddress.zip")]
+def test_should_convert_csv_to_parquet_skips_non_ngd_for_ngd_source() -> None:
+    ngd_csv = Path("add_gb_builtaddress.csv")
+    abp_csv = Path("AddressBasePremium_FULL_2025-12-15_002.csv")
+    assert _should_convert_csv_to_parquet(ngd_csv, "ngd") is True
+    assert _should_convert_csv_to_parquet(abp_csv, "ngd") is False
+def test_filter_zips_for_source_excludes_ngd_historicaddress() -> None:
+    zip_files = [
+        Path("add_gb_builtaddress.zip"),
+        Path("add_gb_historicaddress.zip"),
+        Path("add_gb_historicaddress_altadd.zip"),
+        Path("add_gb_prebuildaddress.zip"),
+    ]
+    filtered = _filter_zips_for_source(zip_files, "ngd")
+    assert Path("add_gb_builtaddress.zip") in filtered
+    assert Path("add_gb_prebuildaddress.zip") in filtered
+    assert Path("add_gb_historicaddress.zip") not in filtered
+    assert Path("add_gb_historicaddress_altadd.zip") not in filtered
+def test_should_convert_csv_to_parquet_skips_ngd_historicaddress() -> None:
+    assert _should_convert_csv_to_parquet(Path("add_gb_builtaddress.csv"), "ngd") is True
+    assert _should_convert_csv_to_parquet(Path("add_gb_historicaddress.csv"), "ngd") is False
+    assert _should_convert_csv_to_parquet(Path("add_gb_historicaddress_altadd.csv"), "ngd") is False

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/tests/test_inspect_results.py RENAMED Viewed

@@ -26,7 +26,7 @@ def test_inspect_flatfile_variants_uses_config_defaults(tmp_path: Path) -> None:
                     (1001::BIGINT, 'A'::VARCHAR),
                     (1001::BIGINT, 'B'::VARCHAR),
                     (1002::BIGINT, 'C'::VARCHAR)
-            ) AS t(uprn, address_concat)
+            ) AS t(unique_id, address_concat)
         ) TO '{parquet_path.as_posix()}' (FORMAT PARQUET)
         """
     )
@@ -61,7 +61,7 @@ def test_inspect_flatfile_variants_supports_abp_pattern(tmp_path: Path) -> None:
                     (2001::BIGINT, 'A'::VARCHAR),
                     (2002::BIGINT, 'B'::VARCHAR),
                     (2002::BIGINT, 'C'::VARCHAR)
-            ) AS t(uprn, address_concat)
+            ) AS t(unique_id, address_concat)
         ) TO '{parquet_path.as_posix()}' (FORMAT PARQUET)
         """
     )

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/tests/test_public_api_integration.py RENAMED Viewed

@@ -71,7 +71,7 @@ def test_package_root_inspect_flatfile_variants(tmp_path: Path) -> None:
                     (4001::BIGINT, 'A'::VARCHAR),
                     (4001::BIGINT, 'B'::VARCHAR),
                     (4002::BIGINT, 'C'::VARCHAR)
-            ) AS t(uprn, address_concat)
+            ) AS t(unique_id, address_concat)
         ) TO '{parquet_path.as_posix()}' (FORMAT PARQUET)
         """
     )

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/tests/test_smoke.py RENAMED Viewed

@@ -121,7 +121,6 @@ def _prepare_test_parquet(settings: Settings) -> None:
         "add_gb_builtaddress_altadd.csv",
         "add_gb_royalmailaddress.csv",
         "add_gb_prebuildaddress.csv",
-        "add_gb_historicaddress.csv",
     ]
     for csv_name in sample_files:
@@ -173,17 +172,14 @@ def test_flatfile_single_chunk(temp_settings: Settings) -> None:
     column_names = [row[0] for row in schema]
     expected_columns = [
-        "uprn",
+        "unique_id",
         "address_concat",
         "postcode",
         "filename",
         "classificationcode",
         "parentuprn",
-        "rootuprn",
-        "hierarchylevel",
+        "lowertierlocalauthoritygsscode",
         "floorlevel",
-        "lowestfloorlevel",
-        "highestfloorlevel",
     ]
     for col in expected_columns:
         assert col in column_names, f"Column {col} should exist in output"
@@ -232,9 +228,9 @@ def test_deduplication(temp_settings: Settings) -> None:
     # Verify no exact duplicates
     con = duckdb.connect()
     result = con.execute(f"""
-        SELECT uprn, address_concat, COUNT(*) as cnt
+        SELECT unique_id, address_concat, COUNT(*) as cnt
         FROM read_parquet('{output_files[0].as_posix()}')
-        GROUP BY uprn, address_concat
+        GROUP BY unique_id, address_concat
         HAVING COUNT(*) > 1
     """).fetchall()

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/__init__.py RENAMED Viewed

@@ -8,7 +8,7 @@ from ukam_os_builder.os_builder.inspect_results import (
     inspect_flatfile_variants,
 )
-__version__ = "0.1.0.dev4"
+__version__ = "0.1.0.dev6"
 __all__ = [
     "create_config_and_env",

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/api/api.py RENAMED Viewed

@@ -8,7 +8,7 @@ from typing import Any, Literal
 import yaml
 from ukam_os_builder.api.settings import Settings, SettingsError, load_settings
-from ukam_os_builder.os_builder.os_hub import get_package_version
+from ukam_os_builder.os_builder.os_hub import _get_manifest_path, get_package_version
 from ukam_os_builder.pipeline import run as run_pipeline
 from ukam_os_builder.pipeline import supported_steps_for_source
@@ -333,11 +333,6 @@ def run_from_config(
         parquet_compression_level=parquet_compression_level,
     )
     logger.info("Resolved work_dir: %s", settings.paths.work_dir)
-    logger.info("Resolved downloads_dir: %s", settings.paths.downloads_dir)
-    logger.info("Resolved extracted_dir: %s", settings.paths.extracted_dir)
-    logger.info("Resolved parquet_dir: %s", settings.paths.parquet_dir)
-    logger.info("Resolved output_dir: %s", settings.paths.output_dir)
     source_type = settings.source.type
     if step != "all":
         supported_steps = supported_steps_for_source(source_type)
@@ -353,4 +348,18 @@ def run_from_config(
     overwrite_effective = overwrite if overwrite is not None else bool(force)
     run_pipeline(step=step, settings=settings, force=overwrite_effective, list_only=list_only)
+    logger.info(
+        "✅ Pipeline run completed\n\n"
+        "Where you need to look:\n"
+        "  • downloads_dir (raw OS Hub extracts): %s%s\n"
+        "  • output_dir (final files for address matcher): %s%s\n",
+        str(settings.paths.downloads_dir),
+        "",
+        str(settings.paths.output_dir),
+        "",
+    )
+    _get_manifest_path(settings)
     return settings

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/cli.py RENAMED Viewed

@@ -145,7 +145,6 @@ def main(argv: list[str] | None = None) -> int:
             parquet_compression=args.parquet_compression,
             parquet_compression_level=args.parquet_compression_level,
         )
-        logger.info("Pipeline run completed")
         console.print("[bold green]Build completed successfully[/bold green]")
         return 0
     except (SettingsError, ValueError) as exc:

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/data_sources/abp/transform/runner.py RENAMED Viewed

@@ -170,7 +170,7 @@ def _transform_to_flatfile_chunk(
     logger.debug("Combination and deduplication in %.2f seconds", perf_counter() - t0)
     # Get chunk metrics
-    chunk_metrics = con.execute("SELECT COUNT(DISTINCT uprn), COUNT(*) FROM result").fetchone()
+    chunk_metrics = con.execute("SELECT COUNT(DISTINCT unique_id), COUNT(*) FROM result").fetchone()
     chunk_uprns = chunk_metrics[0]
     chunk_rows = chunk_metrics[1]
@@ -244,7 +244,7 @@ def transform_to_flatfile(
         con = create_duckdb_connection(settings)
         output_path = output_paths[0]
         stats = con.execute(f"""
-            SELECT COUNT(DISTINCT uprn), COUNT(*)
+            SELECT COUNT(DISTINCT unique_id), COUNT(*)
             FROM read_parquet('{output_path.as_posix()}')
         """).fetchone()
         total_uprns = stats[0]

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/data_sources/abp/transform/stages/combine.py RENAMED Viewed

@@ -33,7 +33,7 @@ def combine_and_dedupe(con: duckdb.DuckDBPyConnection) -> duckdb.DuckDBPyRelatio
         ),
         ranked AS (
             SELECT *,
-                CASE logical_status WHEN 1 THEN 0 WHEN 3 THEN 1 WHEN 6 THEN 2 WHEN 8 THEN 3 ELSE 9 END AS status_rank,
+                CASE logical_status WHEN 1 THEN 0 WHEN 3 THEN 1 WHEN 6 THEN 2 ELSE 9 END AS status_rank,
                 CASE source WHEN 'LPI' THEN 0 WHEN 'ORGANISATION' THEN 1 WHEN 'DELIVERY_POINT' THEN 2 WHEN 'CUSTOM_LEVEL' THEN 3 ELSE 4 END AS source_rank
             FROM normalized
         ),
@@ -62,7 +62,7 @@ def combine_and_dedupe(con: duckdb.DuckDBPyConnection) -> duckdb.DuckDBPyRelatio
             FROM deduped_filtered
         )
         SELECT
-            sr.uprn,
+            sr.uprn AS unique_id,
             sr.postcode,
             sr.address_concat,
             cb.classification_code,

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/data_sources/abp/transform/stages/lpi.py RENAMED Viewed

@@ -70,15 +70,15 @@ matching messy user input. We output variants based on **Logical Status**:
     locally known as "Rose Cottage").
 3.  **Provisional (6):** The address assigned during planning/construction, which
     might change before the house is built.
-4.  **Historic (8):** An old address. If "10 High St" is renumbered to "12 High St",
-    the old address is kept as Historic. This helps match old datasets.
+Historic addresses (logical_status=8) are excluded from output.
 ------------------------------------------------------------------------------
 Key Columns Explained
 ------------------------------------------------------------------------------
 *   `uprn`: The "Golden Key". Use this to link this address to other data.
 *   `base_address`: The constructed full address string.
-*   `logical_status`: 1=Current, 6=Provisional, 8=Historic.
+*   `logical_status`: 1=Current, 6=Provisional.
 *   `official_flag`: 'Y' indicates this is the "official" version, 'N' suggests
     it might be an unofficial alias.
 *   `language`: 'ENG' (English) or 'CYM' (Welsh). Streets in Wales often have
@@ -183,7 +183,6 @@ def prepare_lpi_base(con: duckdb.DuckDBPyConnection) -> None:
                 WHEN 1 THEN 0
                 WHEN 3 THEN 1
                 WHEN 6 THEN 2
-                WHEN 8 THEN 3
                 ELSE 9
             END AS status_rank
         FROM lpi l
@@ -192,7 +191,7 @@ def prepare_lpi_base(con: duckdb.DuckDBPyConnection) -> None:
         LEFT JOIN _sd_best_by_lang sd_lang ON sd_lang.usrn = l.usrn AND sd_lang.language = l.language
         LEFT JOIN _sd_best_any sd_any ON sd_any.usrn = l.usrn
         WHERE (b.addressbase_postal != 'N' OR b.addressbase_postal IS NULL)
-          AND l.logical_status IN (1, 3, 6, 8)
+          AND l.logical_status IN (1, 3, 6)
     """)
     # Deduplicated distinct addresses
@@ -266,7 +265,6 @@ def render_variants(con: duckdb.DuckDBPyConnection) -> None:
                 WHEN 1 THEN 'APPROVED'
                 WHEN 3 THEN 'ALTERNATIVE'
                 WHEN 6 THEN 'PROVISIONAL'
-                WHEN 8 THEN 'HISTORICAL'
             END AS variant_label,
             (logical_status = 1) AS is_primary
         FROM lpi_base_distinct

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/data_sources/ngd/to_flatfile.py RENAMED Viewed

@@ -2,7 +2,7 @@
 Transforms the extracted parquet files into a single flatfile suitable for
 UK address matching. This includes:
-- Processing core feature types (Built Address, Historic Address, etc.)
+- Processing core feature types (Built Address, Pre-Build Address, etc.)
 - Processing alternate address records
 - Processing Royal Mail addresses
 - Handling Welsh language variants
@@ -27,8 +27,6 @@ logger = logging.getLogger(__name__)
 FEATURE_TYPE_BY_STEM = {
     "add_gb_builtaddress": "Built Address",
     "add_gb_builtaddress_altadd": "Built Address",
-    "add_gb_historicaddress": "Historic Address",
-    "add_gb_historicaddress_altadd": "Historic Address",
     "add_gb_nonaddressableobject": "Non-Addressable Object",
     "add_gb_nonaddressableobject_altadd": "Non-Addressable Object",
     "add_gb_prebuildaddress": "Pre-Build Address",
@@ -39,7 +37,6 @@ FEATURE_TYPE_BY_STEM = {
 # Core feature stems (contain fulladdress and classification fields)
 CORE_FEATURE_STEMS = {
     "add_gb_builtaddress",
-    "add_gb_historicaddress",
     "add_gb_nonaddressableobject",
     "add_gb_prebuildaddress",
 }
@@ -47,7 +44,6 @@ CORE_FEATURE_STEMS = {
 # Alternate address stems (no classification fields)
 ALTADD_STEMS = {
     "add_gb_builtaddress_altadd",
-    "add_gb_historicaddress_altadd",
     "add_gb_nonaddressableobject_altadd",
     "add_gb_prebuildaddress_altadd",
 }
@@ -57,7 +53,6 @@ CORE_FEATURE_PRIORITY = {
     "add_gb_builtaddress": 1,
     "add_gb_prebuildaddress": 2,
     "add_gb_nonaddressableobject": 3,
-    "add_gb_historicaddress": 4,
 }
@@ -71,7 +66,7 @@ def _create_metadata_lookup_view(
     This view is used to enrich Royal Mail and alternate address records
     with metadata (classificationcode, parentuprn, etc.) by UPRN lookup.
-    Uses priority ranking (Built > Pre-Build > Non-Addressable > Historic)
+    Uses priority ranking (Built > Pre-Build > Non-Addressable)
     to dedupe when a UPRN exists in multiple core files.
     Args:
@@ -102,7 +97,6 @@ def _create_metadata_lookup_view(
             """)
     if not union_parts:
-        # No core files found - create empty lookup
         logger.warning("No core feature files found. Metadata lookup will be empty.")
         con.execute("""
             CREATE OR REPLACE TEMP VIEW uprn_metadata_lookup AS
@@ -117,37 +111,48 @@ def _create_metadata_lookup_view(
                 CAST(NULL AS DOUBLE) AS highestfloorlevel
             WHERE 1=0
         """)
-        return
-    union_sql = "\nUNION ALL\n".join(union_parts)
+    else:
+        union_sql = "\nUNION ALL\n".join(union_parts)
-    sql = f"""
-        CREATE OR REPLACE TEMP VIEW uprn_metadata_lookup AS
-        WITH core_data AS (
-            {union_sql}
-        ),
-        ranked AS (
+        sql = f"""
+            CREATE OR REPLACE TEMP VIEW uprn_metadata_lookup AS
+            WITH core_data AS (
+                {union_sql}
+            ),
+            ranked AS (
+                SELECT
+                    *,
+                    ROW_NUMBER() OVER (
+                        PARTITION BY uprn
+                        ORDER BY source_priority
+                    ) AS rn
+                FROM core_data
+            )
             SELECT
-                *,
-                ROW_NUMBER() OVER (
-                    PARTITION BY uprn
-                    ORDER BY source_priority
-                ) AS rn
-            FROM core_data
-        )
+                uprn,
+                classificationcode,
+                parentuprn,
+                rootuprn,
+                hierarchylevel,
+                floorlevel,
+                lowestfloorlevel,
+                highestfloorlevel
+            FROM ranked
+            WHERE rn = 1;
+        """
+        con.execute(sql)
+    built_path = parquet_dir / "add_gb_builtaddress.parquet"
+    built_sql = f"""
+        CREATE OR REPLACE TEMP VIEW builtaddress_ltla_lookup AS
         SELECT
-            uprn,
-            classificationcode,
-            parentuprn,
-            rootuprn,
-            hierarchylevel,
-            floorlevel,
-            lowestfloorlevel,
-            highestfloorlevel
-        FROM ranked
-        WHERE rn = 1;
+            CAST(uprn AS BIGINT) AS uprn,
+            MAX(CAST(lowertierlocalauthoritygsscode AS VARCHAR)) AS lowertierlocalauthoritygsscode
+        FROM read_parquet('{built_path.as_posix()}')
+        {where_clause}
+        GROUP BY CAST(uprn AS BIGINT)
     """
-    con.execute(sql)
+    con.execute(built_sql)
 def _create_core_feature_view(
@@ -156,7 +161,7 @@ def _create_core_feature_view(
     parquet_path: Path,
     uprn_predicate: str | None = None,
 ) -> None:
-    """Create view for core feature types (Built, Historic, Pre-Build, Non-Addressable).
+    """Create view for core feature types (Built, Pre-Build, Non-Addressable).
     These tables have fulladdress, classification fields, and Welsh language columns.
     Produces both English and Welsh (where available) address records.
@@ -188,6 +193,7 @@ def _create_core_feature_view(
             CAST(floorlevel AS VARCHAR) AS floorlevel,
             CAST(lowestfloorlevel AS DOUBLE) AS lowestfloorlevel,
             CAST(highestfloorlevel AS DOUBLE) AS highestfloorlevel,
+            CAST(NULL AS VARCHAR) AS lowertierlocalauthoritygsscode,
             -- Internal columns for deduplication (not in final output)
             CAST(description AS VARCHAR) AS feature_type,
             CAST(addressstatus AS VARCHAR) AS address_status,
@@ -227,6 +233,7 @@ def _create_core_feature_view(
             CAST(floorlevel AS VARCHAR) AS floorlevel,
             CAST(lowestfloorlevel AS DOUBLE) AS lowestfloorlevel,
             CAST(highestfloorlevel AS DOUBLE) AS highestfloorlevel,
+            CAST(NULL AS VARCHAR) AS lowertierlocalauthoritygsscode,
             -- Internal columns for deduplication (not in final output)
             CAST(description AS VARCHAR) AS feature_type,
             CAST(addressstatus AS VARCHAR) AS address_status,
@@ -282,6 +289,7 @@ def _create_altadd_view(
             CAST(floorlevel AS VARCHAR) AS floorlevel,
             CAST(lowestfloorlevel AS DOUBLE) AS lowestfloorlevel,
             CAST(highestfloorlevel AS DOUBLE) AS highestfloorlevel,
+            CAST(NULL AS VARCHAR) AS lowertierlocalauthoritygsscode,
             -- Internal columns for deduplication (not in final output)
             '{feature_type}' AS feature_type,
             CAST(addressstatus AS VARCHAR) AS address_status,
@@ -338,6 +346,7 @@ def _create_royal_mail_view(
             CAST(NULL AS VARCHAR) AS floorlevel,
             CAST(NULL AS DOUBLE) AS lowestfloorlevel,
             CAST(NULL AS DOUBLE) AS highestfloorlevel,
+            CAST(NULL AS VARCHAR) AS lowertierlocalauthoritygsscode,
             -- Internal columns for deduplication (not in final output)
             'Royal Mail Address' AS feature_type,
             CAST(NULL AS VARCHAR) AS address_status,
@@ -368,6 +377,7 @@ def _create_royal_mail_view(
             CAST(NULL AS VARCHAR) AS floorlevel,
             CAST(NULL AS DOUBLE) AS lowestfloorlevel,
             CAST(NULL AS DOUBLE) AS highestfloorlevel,
+            CAST(NULL AS VARCHAR) AS lowertierlocalauthoritygsscode,
             -- Internal columns for deduplication (not in final output)
             'Royal Mail Address' AS feature_type,
             CAST(NULL AS VARCHAR) AS address_status,
@@ -403,12 +413,97 @@ def _enrich_with_metadata(con: duckdb.DuckDBPyConnection) -> None:
             COALESCE(a.floorlevel, m.floorlevel) AS floorlevel,
             COALESCE(a.lowestfloorlevel, m.lowestfloorlevel) AS lowestfloorlevel,
             COALESCE(a.highestfloorlevel, m.highestfloorlevel) AS highestfloorlevel,
+            b.lowertierlocalauthoritygsscode AS lowertierlocalauthoritygsscode,
             -- Internal columns for deduplication
             a.feature_type,
             a.address_status,
             a.build_status
         FROM all_full_addresses a
-        LEFT JOIN uprn_metadata_lookup m ON a.uprn = m.uprn;
+        LEFT JOIN uprn_metadata_lookup m ON a.uprn = m.uprn
+        LEFT JOIN builtaddress_ltla_lookup b ON a.uprn = b.uprn;
+    """
+    con.execute(sql)
+def _create_custom_level_rows(con: duckdb.DuckDBPyConnection) -> None:
+    """Generate custom level-based address variants and insert into enriched table.
+    Parses the ``floorlevel`` column (VARCHAR) from the enriched address table,
+    maps integer floor levels to words (-1=BASEMENT … 6=SIXTH), and prepends the
+    word to the existing ``address_concat`` to create additional address variants.
+    These rows use ``feature_type='Custom Level'`` so they receive the lowest
+    dedup priority and never override official address data.
+    """
+    sql = """
+        INSERT INTO all_full_addresses_enriched (
+            uprn,
+            address_concat,
+            postcode,
+            filename,
+            classificationcode,
+            parentuprn,
+            rootuprn,
+            hierarchylevel,
+            floorlevel,
+            lowestfloorlevel,
+            highestfloorlevel,
+            lowertierlocalauthoritygsscode,
+            feature_type,
+            address_status,
+            build_status
+        )
+        WITH level_parsed AS (
+            SELECT
+                uprn, address_concat, postcode, filename,
+                classificationcode, parentuprn, rootuprn,
+                lowertierlocalauthoritygsscode,
+                hierarchylevel, floorlevel, lowestfloorlevel, highestfloorlevel,
+                address_status, build_status,
+                CASE
+                    WHEN split_part(floorlevel, ',', 1) ~ '^-?[0-9]+$'
+                        THEN CAST(split_part(floorlevel, ',', 1) AS INTEGER)
+                    ELSE NULL
+                END AS level_int
+            FROM all_full_addresses_enriched
+            WHERE floorlevel IS NOT NULL
+              AND address_concat IS NOT NULL
+              AND address_concat <> ''
+        ),
+        level_words AS (
+            SELECT
+                *,
+                CASE level_int
+                    WHEN -1 THEN 'BASEMENT'
+                    WHEN 0 THEN 'GROUND'
+                    WHEN 1 THEN 'FIRST'
+                    WHEN 2 THEN 'SECOND'
+                    WHEN 3 THEN 'THIRD'
+                    WHEN 4 THEN 'FOURTH'
+                    WHEN 5 THEN 'FIFTH'
+                    WHEN 6 THEN 'SIXTH'
+                END AS level_word
+            FROM level_parsed
+            WHERE level_int BETWEEN -1 AND 6
+        )
+        SELECT
+            uprn,
+            TRIM(concat(level_word, ' ', address_concat)) AS address_concat,
+            postcode,
+            'CUSTOM_LEVEL' AS filename,
+            classificationcode,
+            parentuprn,
+            rootuprn,
+            hierarchylevel,
+            floorlevel,
+            lowestfloorlevel,
+            highestfloorlevel,
+            lowertierlocalauthoritygsscode,
+            'Custom Level' AS feature_type,
+            address_status,
+            build_status
+        FROM level_words
+        WHERE level_word IS NOT NULL;
     """
     con.execute(sql)
@@ -417,7 +512,7 @@ def _create_dedup_view(con: duckdb.DuckDBPyConnection) -> None:
     """Create deduplicated view of all addresses.
     Priority rules for deduplication:
-    - Feature type: Built Address -> Pre-Build -> Royal Mail -> Historic -> Non-Addressable
+    - Feature type: Built Address -> Pre-Build -> Royal Mail -> Non-Addressable
     - Address status: Approved -> Provisional -> Alternative -> Historical
     - Build status: Built Complete -> Under Construction -> Prebuild -> Historic -> Demolished
@@ -433,8 +528,8 @@ def _create_dedup_view(con: duckdb.DuckDBPyConnection) -> None:
               WHEN 'Built Address' THEN 1
               WHEN 'Pre-Build Address' THEN 2
               WHEN 'Royal Mail Address' THEN 3
-              WHEN 'Historic Address' THEN 4
               WHEN 'Non-Addressable Object' THEN 5
+              WHEN 'Custom Level' THEN 6
               ELSE 9
             END AS feature_type_rank,
             CASE
@@ -460,20 +555,17 @@ def _create_dedup_view(con: duckdb.DuckDBPyConnection) -> None:
                 build_status_rank
             ) AS rn
           FROM all_full_addresses_enriched
-          WHERE feature_type != 'Non-Addressable Object'
+          WHERE feature_type NOT IN ('Non-Addressable Object')
         )
         SELECT
-          uprn,
+          uprn AS unique_id,
           address_concat,
           postcode,
           filename,
           classificationcode,
           parentuprn,
-          rootuprn,
-          hierarchylevel,
-          floorlevel,
-          lowestfloorlevel,
-          highestfloorlevel
+          lowertierlocalauthoritygsscode,
+                    floorlevel
         FROM ranked
         WHERE rn = 1;
     """
@@ -641,6 +733,10 @@ def run_flatfile_step(settings: Settings, force: bool = False) -> list[Path]:
         logger.info("Enriching addresses with metadata from core files...")
         _enrich_with_metadata(con)
+        # Generate custom level variants
+        logger.info("Generating custom level address variants...")
+        _create_custom_level_rows(con)
         # Create deduplicated view
         logger.info("Creating deduplicated view...")
         _create_dedup_view(con)

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/os_builder/extract.py RENAMED Viewed

@@ -11,6 +11,9 @@ from ukam_os_builder.api.settings import Settings
 logger = logging.getLogger(__name__)
+# NGD file stems to exclude (historic addresses are not used in output)
+_NGD_EXCLUDED_STEMS = {"historicaddress"}
 def find_downloaded_zips(downloads_dir: Path) -> list[Path]:
     """Find all downloaded zip files in a directory."""
@@ -22,11 +25,20 @@ def find_downloaded_zips(downloads_dir: Path) -> list[Path]:
     return zip_files
+def _is_excluded_ngd_file(name: str) -> bool:
+    """Return True if *name* matches an excluded NGD stem (e.g. historicaddress)."""
+    name_lower = name.lower()
+    return any(stem in name_lower for stem in _NGD_EXCLUDED_STEMS)
 def _filter_zips_for_source(zip_files: list[Path], source: str) -> list[Path]:
     source_lower = source.lower()
     if source_lower == "ngd":
         ngd_zips = [
-            zip_path for zip_path in zip_files if zip_path.name.lower().startswith("add_gb_")
+            zip_path
+            for zip_path in zip_files
+            if zip_path.name.lower().startswith("add_gb_")
+            and not _is_excluded_ngd_file(zip_path.name)
         ]
         return ngd_zips or zip_files
     if source_lower == "abp":
@@ -39,7 +51,8 @@ def _filter_zips_for_source(zip_files: list[Path], source: str) -> list[Path]:
 def _should_convert_csv_to_parquet(csv_path: Path, source: str) -> bool:
     if source.lower() == "ngd":
-        return csv_path.name.lower().startswith("add_gb_")
+        name_lower = csv_path.name.lower()
+        return name_lower.startswith("add_gb_") and not _is_excluded_ngd_file(name_lower)
     return True

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/os_builder/inspect_results.py RENAMED Viewed

@@ -12,7 +12,7 @@ SourceType = Literal["ngd", "abp"]
 logger = logging.getLogger(__name__)
 _DEFAULT_SELECT_COLUMNS = [
-    "uprn",
+    "unique_id",
     "address_concat",
     "postcode",
     "source",
@@ -128,9 +128,9 @@ def get_variant_statistics(
     stats = con.sql(f"""
         WITH variant_counts AS (
-            SELECT uprn, COUNT(*) AS variant_count
+            SELECT unique_id, COUNT(*) AS variant_count
             FROM read_parquet('{files_sql}')
-            GROUP BY uprn
+            GROUP BY unique_id
         )
         SELECT
             COUNT(*) AS total_uprns,
@@ -179,7 +179,7 @@ def get_random_uprn(
     select_columns = _choose_select_columns(con, files_sql, columns)
     random_uprn = con.sql(f"""
-        SELECT DISTINCT uprn
+        SELECT DISTINCT unique_id
         FROM read_parquet('{files_sql}')
         ORDER BY RANDOM()
         LIMIT 1
@@ -192,7 +192,7 @@ def get_random_uprn(
         SELECT
             {select_columns}
         FROM read_parquet('{files_sql}')
-        WHERE uprn = {int(random_uprn[0])}
+        WHERE unique_id = {int(random_uprn[0])}
         ORDER BY is_primary DESC NULLS LAST, source NULLS LAST, variant_label NULLS LAST
     """)
@@ -220,14 +220,14 @@ def get_random_large_uprn(
     selected = con.sql(f"""
         WITH variant_counts AS (
-            SELECT uprn, COUNT(*) AS variant_count
+            SELECT unique_id, COUNT(*) AS variant_count
             FROM read_parquet('{files_sql}')
             {where_filter}
-            GROUP BY uprn
-            ORDER BY variant_count DESC, uprn ASC
+            GROUP BY unique_id
+            ORDER BY variant_count DESC, unique_id ASC
             LIMIT {int(top_n)}
         )
-        SELECT uprn
+        SELECT unique_id
         FROM variant_counts
         ORDER BY RANDOM()
         LIMIT 1
@@ -240,7 +240,7 @@ def get_random_large_uprn(
         SELECT
             {select_columns}
         FROM read_parquet('{files_sql}')
-        WHERE uprn = {int(selected[0])}
+        WHERE unique_id = {int(selected[0])}
         {and_filter}
         ORDER BY is_primary DESC NULLS LAST, source NULLS LAST, variant_label NULLS LAST
     """)
@@ -269,7 +269,7 @@ def get_uprn_variants(
         SELECT
             {select_columns}
         FROM read_parquet('{files_sql}')
-        WHERE uprn = {int(uprn)}
+        WHERE unique_id = {int(uprn)}
         {and_filter}
         ORDER BY is_primary DESC NULLS LAST, source NULLS LAST, variant_label NULLS LAST
     """)
@@ -317,10 +317,10 @@ def inspect_flatfile_variants(
             WITH data AS (
                 SELECT * FROM read_parquet('{files_sql}')
             )
-            SELECT uprn, COUNT(*) AS variant_count
+            SELECT unique_id, COUNT(*) AS variant_count
             FROM data
-            GROUP BY uprn
-            ORDER BY variant_count DESC, uprn ASC
+            GROUP BY unique_id
+            ORDER BY variant_count DESC, unique_id ASC
             LIMIT 1 OFFSET {top_offset}
             """
         ).fetchone()
@@ -333,7 +333,7 @@ def inspect_flatfile_variants(
             f"""
             SELECT COUNT(*)
             FROM read_parquet('{files_sql}')
-            WHERE uprn = ?
+            WHERE unique_id = ?
             """,
             [target_uprn],
         ).fetchone()
@@ -343,7 +343,7 @@ def inspect_flatfile_variants(
         f"""
         SELECT *
         FROM read_parquet('{files_sql}')
-        WHERE uprn = ?
+        WHERE unique_id = ?
         ORDER BY 1
         """,
         [target_uprn],
@@ -358,7 +358,7 @@ def inspect_flatfile_variants(
             max_width=10_000
         )
         logger.info("Selected UPRN rows:")
-        con.sql(f"SELECT * FROM read_parquet('{files_sql}') WHERE uprn = {target_uprn}").show(
+        con.sql(f"SELECT * FROM read_parquet('{files_sql}') WHERE unique_id = {target_uprn}").show(
             max_width=10_000
         )

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/ukam_os_builder/os_builder/os_hub.py RENAMED Viewed

@@ -9,9 +9,25 @@ from urllib.parse import parse_qsl, urlencode, urlparse, urlunparse
 import requests
+from ukam_os_builder.api.settings import Settings
 logger = logging.getLogger(__name__)
 API_BASE_URL = "https://api.os.uk/downloads/v1"
+# NGD file stems to exclude (historic addresses are not used in output)
+_NGD_EXCLUDED_STEMS = {"historicaddress"}
+def _should_skip_ngd_download(filename: str, settings: object) -> bool:
+    """Return True if *filename* is an NGD historic-address archive."""
+    source_type = getattr(getattr(settings, "source", None), "type", "")
+    if source_type != "ngd":
+        return False
+    name_lower = filename.lower()
+    return any(stem in name_lower for stem in _NGD_EXCLUDED_STEMS)
 DEFAULT_CHUNK_SIZE = 1024 * 1024 * 20  # 20 MiB
 DEFAULT_CONNECT_TIMEOUT_SECONDS = 30
 DEFAULT_READ_TIMEOUT_SECONDS = 300
@@ -293,6 +309,11 @@ def run_download_step(
                 logger.warning("No URL for %s, skipping", item.filename)
                 continue
+            # Skip NGD historic address files — they are excluded from output
+            if _should_skip_ngd_download(item.filename, settings):
+                logger.info("Skipping historic address file: %s", item.filename)
+                continue
             dest_path = downloads_dir / item.filename
             was_downloaded = download_file(
                 url=item.url,
@@ -312,3 +333,54 @@ def run_download_step(
     logger.info("Download complete: %d file(s)", len(downloaded))
     return downloaded
+def _get_manifest_path(settings: Settings) -> Path | None:
+    downloads_dir = settings.paths.downloads_dir.resolve()
+    source_type = settings.source.type  # "abp" | "ngd"
+    if source_type == "abp":
+        candidates = list(downloads_dir.glob("*-Order_Details.txt"))
+        if not candidates:
+            logger.info("➡️ Manifest (ABP order details) not found. Check: %s", downloads_dir)
+            return None
+        manifest = max(candidates, key=lambda p: p.stat().st_mtime).resolve()
+        if len(candidates) > 1:
+            logger.warning(
+                "Multiple ABP manifests found in %s. Using newest: %s",
+                downloads_dir,
+                manifest,
+            )
+        logger.info("➡️ Manifest (ABP order details): %s", manifest)
+        return manifest
+    elif source_type == "ngd":
+        candidates = list(
+            downloads_dir.glob("*_orderSummary.json")
+        )  # adjust if it's "*.orderSummary.json"
+        if not candidates:
+            logger.info("➡️ Manifests (NGD order summaries) not found. Check: %s", downloads_dir)
+            return None
+        built_candidates = list(downloads_dir.glob("*builtaddress*_orderSummary.json"))
+        built_manifest = (
+            max(built_candidates, key=lambda p: p.stat().st_mtime).resolve()
+            if built_candidates
+            else None
+        )
+        logger.info(
+            "➡️ Manifests (NGD order summaries): %s (%d files)\n"
+            "    ↳ Built address order summary: %s",
+            downloads_dir,
+            len(candidates),
+            built_manifest if built_manifest else "(not found)",
+        )
+        return downloads_dir
+    logger.warning("Unknown source type %r. No manifest lookup performed.", source_type)
+    return None

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev6}/uv.lock RENAMED Viewed

@@ -1421,7 +1421,7 @@ wheels = [
 [[package]]
 name = "ukam-os-builder"
-version = "0.1.0.dev4"
+version = "0.1.0.dev6"
 source = { editable = "." }
 dependencies = [
     { name = "duckdb" },

ukam_os_builder-0.1.0.dev4/tests/test_extract_source_filtering.py DELETED Viewed

@@ -1,27 +0,0 @@
-from __future__ import annotations
-from pathlib import Path
-from ukam_os_builder.os_builder.extract import (
-    _filter_zips_for_source,
-    _should_convert_csv_to_parquet,
-)
-def test_filter_zips_for_source_prefers_ngd_named_zips() -> None:
-    zip_files = [
-        Path("add_gb_builtaddress.zip"),
-        Path("AddressBasePremium_FULL_2025-12-15_002.zip"),
-    ]
-    filtered = _filter_zips_for_source(zip_files, "ngd")
-    assert filtered == [Path("add_gb_builtaddress.zip")]
-def test_should_convert_csv_to_parquet_skips_non_ngd_for_ngd_source() -> None:
-    ngd_csv = Path("add_gb_builtaddress.csv")
-    abp_csv = Path("AddressBasePremium_FULL_2025-12-15_002.csv")
-    assert _should_convert_csv_to_parquet(ngd_csv, "ngd") is True
-    assert _should_convert_csv_to_parquet(abp_csv, "ngd") is False