PyPI - ukam-os-builder - Versions diffs - 0.1.0.dev4__tar.gz → 0.1.0.dev5__tar.gz - Mend

ukam-os-builder 0.1.0.dev4tar.gz → 0.1.0.dev5tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (54) hide show

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: ukam-os-builder
-Version: 0.1.0.dev4
+Version: 0.1.0.dev5
 Summary: Download, process and transform OS address data (NGD or ABP) for UK address matching
 Project-URL: Homepage, https://github.com/moj-analytical-services/prepare_ngd_for_address_matching
 Project-URL: Repository, https://github.com/moj-analytical-services/prepare_ngd_for_address_matching

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "ukam-os-builder"
-version = "0.1.0.dev4"
+version = "0.1.0.dev5"
 description = "Download, process and transform OS address data (NGD or ABP) for UK address matching"
 readme = "README.md"
 requires-python = ">=3.10"

ukam_os_builder-0.1.0.dev5/tests/test_extract_source_filtering.py ADDED Viewed

@@ -0,0 +1,49 @@
+from __future__ import annotations
+from pathlib import Path
+from ukam_os_builder.os_builder.extract import (
+    _filter_zips_for_source,
+    _should_convert_csv_to_parquet,
+)
+def test_filter_zips_for_source_prefers_ngd_named_zips() -> None:
+    zip_files = [
+        Path("add_gb_builtaddress.zip"),
+        Path("AddressBasePremium_FULL_2025-12-15_002.zip"),
+    ]
+    filtered = _filter_zips_for_source(zip_files, "ngd")
+    assert filtered == [Path("add_gb_builtaddress.zip")]
+def test_should_convert_csv_to_parquet_skips_non_ngd_for_ngd_source() -> None:
+    ngd_csv = Path("add_gb_builtaddress.csv")
+    abp_csv = Path("AddressBasePremium_FULL_2025-12-15_002.csv")
+    assert _should_convert_csv_to_parquet(ngd_csv, "ngd") is True
+    assert _should_convert_csv_to_parquet(abp_csv, "ngd") is False
+def test_filter_zips_for_source_excludes_ngd_historicaddress() -> None:
+    zip_files = [
+        Path("add_gb_builtaddress.zip"),
+        Path("add_gb_historicaddress.zip"),
+        Path("add_gb_historicaddress_altadd.zip"),
+        Path("add_gb_prebuildaddress.zip"),
+    ]
+    filtered = _filter_zips_for_source(zip_files, "ngd")
+    assert Path("add_gb_builtaddress.zip") in filtered
+    assert Path("add_gb_prebuildaddress.zip") in filtered
+    assert Path("add_gb_historicaddress.zip") not in filtered
+    assert Path("add_gb_historicaddress_altadd.zip") not in filtered
+def test_should_convert_csv_to_parquet_skips_ngd_historicaddress() -> None:
+    assert _should_convert_csv_to_parquet(Path("add_gb_builtaddress.csv"), "ngd") is True
+    assert _should_convert_csv_to_parquet(Path("add_gb_historicaddress.csv"), "ngd") is False
+    assert _should_convert_csv_to_parquet(Path("add_gb_historicaddress_altadd.csv"), "ngd") is False

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/tests/test_smoke.py RENAMED Viewed

@@ -121,7 +121,6 @@ def _prepare_test_parquet(settings: Settings) -> None:
         "add_gb_builtaddress_altadd.csv",
         "add_gb_royalmailaddress.csv",
         "add_gb_prebuildaddress.csv",
-        "add_gb_historicaddress.csv",
     ]
     for csv_name in sample_files:

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/ukam_os_builder/__init__.py RENAMED Viewed

@@ -8,7 +8,7 @@ from ukam_os_builder.os_builder.inspect_results import (
     inspect_flatfile_variants,
 )
-__version__ = "0.1.0.dev4"
+__version__ = "0.1.0.dev5"
 __all__ = [
     "create_config_and_env",

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/ukam_os_builder/api/api.py RENAMED Viewed

@@ -8,7 +8,7 @@ from typing import Any, Literal
 import yaml
 from ukam_os_builder.api.settings import Settings, SettingsError, load_settings
-from ukam_os_builder.os_builder.os_hub import get_package_version
+from ukam_os_builder.os_builder.os_hub import _get_manifest_path, get_package_version
 from ukam_os_builder.pipeline import run as run_pipeline
 from ukam_os_builder.pipeline import supported_steps_for_source
@@ -333,11 +333,6 @@ def run_from_config(
         parquet_compression_level=parquet_compression_level,
     )
     logger.info("Resolved work_dir: %s", settings.paths.work_dir)
-    logger.info("Resolved downloads_dir: %s", settings.paths.downloads_dir)
-    logger.info("Resolved extracted_dir: %s", settings.paths.extracted_dir)
-    logger.info("Resolved parquet_dir: %s", settings.paths.parquet_dir)
-    logger.info("Resolved output_dir: %s", settings.paths.output_dir)
     source_type = settings.source.type
     if step != "all":
         supported_steps = supported_steps_for_source(source_type)
@@ -353,4 +348,18 @@ def run_from_config(
     overwrite_effective = overwrite if overwrite is not None else bool(force)
     run_pipeline(step=step, settings=settings, force=overwrite_effective, list_only=list_only)
+    logger.info(
+        "✅ Pipeline run completed\n\n"
+        "Where you need to look:\n"
+        "  • downloads_dir (raw OS Hub extracts): %s%s\n"
+        "  • output_dir (final files for address matcher): %s%s\n",
+        str(settings.paths.downloads_dir),
+        "",
+        str(settings.paths.output_dir),
+        "",
+    )
+    _get_manifest_path(settings)
     return settings

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/ukam_os_builder/cli.py RENAMED Viewed

@@ -145,7 +145,6 @@ def main(argv: list[str] | None = None) -> int:
             parquet_compression=args.parquet_compression,
             parquet_compression_level=args.parquet_compression_level,
         )
-        logger.info("Pipeline run completed")
         console.print("[bold green]Build completed successfully[/bold green]")
         return 0
     except (SettingsError, ValueError) as exc:

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/ukam_os_builder/data_sources/abp/transform/stages/combine.py RENAMED Viewed

@@ -33,7 +33,7 @@ def combine_and_dedupe(con: duckdb.DuckDBPyConnection) -> duckdb.DuckDBPyRelatio
         ),
         ranked AS (
             SELECT *,
-                CASE logical_status WHEN 1 THEN 0 WHEN 3 THEN 1 WHEN 6 THEN 2 WHEN 8 THEN 3 ELSE 9 END AS status_rank,
+                CASE logical_status WHEN 1 THEN 0 WHEN 3 THEN 1 WHEN 6 THEN 2 ELSE 9 END AS status_rank,
                 CASE source WHEN 'LPI' THEN 0 WHEN 'ORGANISATION' THEN 1 WHEN 'DELIVERY_POINT' THEN 2 WHEN 'CUSTOM_LEVEL' THEN 3 ELSE 4 END AS source_rank
             FROM normalized
         ),

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/ukam_os_builder/data_sources/abp/transform/stages/lpi.py RENAMED Viewed

@@ -70,15 +70,15 @@ matching messy user input. We output variants based on **Logical Status**:
     locally known as "Rose Cottage").
 3.  **Provisional (6):** The address assigned during planning/construction, which
     might change before the house is built.
-4.  **Historic (8):** An old address. If "10 High St" is renumbered to "12 High St",
-    the old address is kept as Historic. This helps match old datasets.
+Historic addresses (logical_status=8) are excluded from output.
 ------------------------------------------------------------------------------
 Key Columns Explained
 ------------------------------------------------------------------------------
 *   `uprn`: The "Golden Key". Use this to link this address to other data.
 *   `base_address`: The constructed full address string.
-*   `logical_status`: 1=Current, 6=Provisional, 8=Historic.
+*   `logical_status`: 1=Current, 6=Provisional.
 *   `official_flag`: 'Y' indicates this is the "official" version, 'N' suggests
     it might be an unofficial alias.
 *   `language`: 'ENG' (English) or 'CYM' (Welsh). Streets in Wales often have
@@ -183,7 +183,6 @@ def prepare_lpi_base(con: duckdb.DuckDBPyConnection) -> None:
                 WHEN 1 THEN 0
                 WHEN 3 THEN 1
                 WHEN 6 THEN 2
-                WHEN 8 THEN 3
                 ELSE 9
             END AS status_rank
         FROM lpi l
@@ -192,7 +191,7 @@ def prepare_lpi_base(con: duckdb.DuckDBPyConnection) -> None:
         LEFT JOIN _sd_best_by_lang sd_lang ON sd_lang.usrn = l.usrn AND sd_lang.language = l.language
         LEFT JOIN _sd_best_any sd_any ON sd_any.usrn = l.usrn
         WHERE (b.addressbase_postal != 'N' OR b.addressbase_postal IS NULL)
-          AND l.logical_status IN (1, 3, 6, 8)
+          AND l.logical_status IN (1, 3, 6)
     """)
     # Deduplicated distinct addresses
@@ -266,7 +265,6 @@ def render_variants(con: duckdb.DuckDBPyConnection) -> None:
                 WHEN 1 THEN 'APPROVED'
                 WHEN 3 THEN 'ALTERNATIVE'
                 WHEN 6 THEN 'PROVISIONAL'
-                WHEN 8 THEN 'HISTORICAL'
             END AS variant_label,
             (logical_status = 1) AS is_primary
         FROM lpi_base_distinct

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/ukam_os_builder/data_sources/ngd/to_flatfile.py RENAMED Viewed

@@ -2,7 +2,7 @@
 Transforms the extracted parquet files into a single flatfile suitable for
 UK address matching. This includes:
-- Processing core feature types (Built Address, Historic Address, etc.)
+- Processing core feature types (Built Address, Pre-Build Address, etc.)
 - Processing alternate address records
 - Processing Royal Mail addresses
 - Handling Welsh language variants
@@ -27,8 +27,6 @@ logger = logging.getLogger(__name__)
 FEATURE_TYPE_BY_STEM = {
     "add_gb_builtaddress": "Built Address",
     "add_gb_builtaddress_altadd": "Built Address",
-    "add_gb_historicaddress": "Historic Address",
-    "add_gb_historicaddress_altadd": "Historic Address",
     "add_gb_nonaddressableobject": "Non-Addressable Object",
     "add_gb_nonaddressableobject_altadd": "Non-Addressable Object",
     "add_gb_prebuildaddress": "Pre-Build Address",
@@ -39,7 +37,6 @@ FEATURE_TYPE_BY_STEM = {
 # Core feature stems (contain fulladdress and classification fields)
 CORE_FEATURE_STEMS = {
     "add_gb_builtaddress",
-    "add_gb_historicaddress",
     "add_gb_nonaddressableobject",
     "add_gb_prebuildaddress",
 }
@@ -47,7 +44,6 @@ CORE_FEATURE_STEMS = {
 # Alternate address stems (no classification fields)
 ALTADD_STEMS = {
     "add_gb_builtaddress_altadd",
-    "add_gb_historicaddress_altadd",
     "add_gb_nonaddressableobject_altadd",
     "add_gb_prebuildaddress_altadd",
 }
@@ -57,7 +53,6 @@ CORE_FEATURE_PRIORITY = {
     "add_gb_builtaddress": 1,
     "add_gb_prebuildaddress": 2,
     "add_gb_nonaddressableobject": 3,
-    "add_gb_historicaddress": 4,
 }
@@ -71,7 +66,7 @@ def _create_metadata_lookup_view(
     This view is used to enrich Royal Mail and alternate address records
     with metadata (classificationcode, parentuprn, etc.) by UPRN lookup.
-    Uses priority ranking (Built > Pre-Build > Non-Addressable > Historic)
+    Uses priority ranking (Built > Pre-Build > Non-Addressable)
     to dedupe when a UPRN exists in multiple core files.
     Args:
@@ -156,7 +151,7 @@ def _create_core_feature_view(
     parquet_path: Path,
     uprn_predicate: str | None = None,
 ) -> None:
-    """Create view for core feature types (Built, Historic, Pre-Build, Non-Addressable).
+    """Create view for core feature types (Built, Pre-Build, Non-Addressable).
     These tables have fulladdress, classification fields, and Welsh language columns.
     Produces both English and Welsh (where available) address records.
@@ -413,11 +408,76 @@ def _enrich_with_metadata(con: duckdb.DuckDBPyConnection) -> None:
     con.execute(sql)
+def _create_custom_level_rows(con: duckdb.DuckDBPyConnection) -> None:
+    """Generate custom level-based address variants and insert into enriched table.
+    Parses the ``floorlevel`` column (VARCHAR) from the enriched address table,
+    maps integer floor levels to words (-1=BASEMENT … 6=SIXTH), and prepends the
+    word to the existing ``address_concat`` to create additional address variants.
+    These rows use ``feature_type='Custom Level'`` so they receive the lowest
+    dedup priority and never override official address data.
+    """
+    sql = """
+        INSERT INTO all_full_addresses_enriched
+        WITH level_parsed AS (
+            SELECT
+                uprn, address_concat, postcode, filename,
+                classificationcode, parentuprn, rootuprn,
+                hierarchylevel, floorlevel, lowestfloorlevel, highestfloorlevel,
+                address_status, build_status,
+                CASE
+                    WHEN split_part(floorlevel, ',', 1) ~ '^-?[0-9]+$'
+                        THEN CAST(split_part(floorlevel, ',', 1) AS INTEGER)
+                    ELSE NULL
+                END AS level_int
+            FROM all_full_addresses_enriched
+            WHERE floorlevel IS NOT NULL
+              AND address_concat IS NOT NULL
+              AND address_concat <> ''
+        ),
+        level_words AS (
+            SELECT
+                *,
+                CASE level_int
+                    WHEN -1 THEN 'BASEMENT'
+                    WHEN 0 THEN 'GROUND'
+                    WHEN 1 THEN 'FIRST'
+                    WHEN 2 THEN 'SECOND'
+                    WHEN 3 THEN 'THIRD'
+                    WHEN 4 THEN 'FOURTH'
+                    WHEN 5 THEN 'FIFTH'
+                    WHEN 6 THEN 'SIXTH'
+                END AS level_word
+            FROM level_parsed
+            WHERE level_int BETWEEN -1 AND 6
+        )
+        SELECT
+            uprn,
+            TRIM(concat(level_word, ' ', address_concat)) AS address_concat,
+            postcode,
+            'CUSTOM_LEVEL' AS filename,
+            classificationcode,
+            parentuprn,
+            rootuprn,
+            hierarchylevel,
+            floorlevel,
+            lowestfloorlevel,
+            highestfloorlevel,
+            'Custom Level' AS feature_type,
+            address_status,
+            build_status
+        FROM level_words
+        WHERE level_word IS NOT NULL;
+    """
+    con.execute(sql)
 def _create_dedup_view(con: duckdb.DuckDBPyConnection) -> None:
     """Create deduplicated view of all addresses.
     Priority rules for deduplication:
-    - Feature type: Built Address -> Pre-Build -> Royal Mail -> Historic -> Non-Addressable
+    - Feature type: Built Address -> Pre-Build -> Royal Mail -> Non-Addressable
     - Address status: Approved -> Provisional -> Alternative -> Historical
     - Build status: Built Complete -> Under Construction -> Prebuild -> Historic -> Demolished
@@ -433,8 +493,8 @@ def _create_dedup_view(con: duckdb.DuckDBPyConnection) -> None:
               WHEN 'Built Address' THEN 1
               WHEN 'Pre-Build Address' THEN 2
               WHEN 'Royal Mail Address' THEN 3
-              WHEN 'Historic Address' THEN 4
               WHEN 'Non-Addressable Object' THEN 5
+              WHEN 'Custom Level' THEN 6
               ELSE 9
             END AS feature_type_rank,
             CASE
@@ -460,7 +520,7 @@ def _create_dedup_view(con: duckdb.DuckDBPyConnection) -> None:
                 build_status_rank
             ) AS rn
           FROM all_full_addresses_enriched
-          WHERE feature_type != 'Non-Addressable Object'
+          WHERE feature_type NOT IN ('Non-Addressable Object')
         )
         SELECT
           uprn,
@@ -641,6 +701,10 @@ def run_flatfile_step(settings: Settings, force: bool = False) -> list[Path]:
         logger.info("Enriching addresses with metadata from core files...")
         _enrich_with_metadata(con)
+        # Generate custom level variants
+        logger.info("Generating custom level address variants...")
+        _create_custom_level_rows(con)
         # Create deduplicated view
         logger.info("Creating deduplicated view...")
         _create_dedup_view(con)

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/ukam_os_builder/os_builder/extract.py RENAMED Viewed

@@ -11,6 +11,9 @@ from ukam_os_builder.api.settings import Settings
 logger = logging.getLogger(__name__)
+# NGD file stems to exclude (historic addresses are not used in output)
+_NGD_EXCLUDED_STEMS = {"historicaddress"}
 def find_downloaded_zips(downloads_dir: Path) -> list[Path]:
     """Find all downloaded zip files in a directory."""
@@ -22,11 +25,20 @@ def find_downloaded_zips(downloads_dir: Path) -> list[Path]:
     return zip_files
+def _is_excluded_ngd_file(name: str) -> bool:
+    """Return True if *name* matches an excluded NGD stem (e.g. historicaddress)."""
+    name_lower = name.lower()
+    return any(stem in name_lower for stem in _NGD_EXCLUDED_STEMS)
 def _filter_zips_for_source(zip_files: list[Path], source: str) -> list[Path]:
     source_lower = source.lower()
     if source_lower == "ngd":
         ngd_zips = [
-            zip_path for zip_path in zip_files if zip_path.name.lower().startswith("add_gb_")
+            zip_path
+            for zip_path in zip_files
+            if zip_path.name.lower().startswith("add_gb_")
+            and not _is_excluded_ngd_file(zip_path.name)
         ]
         return ngd_zips or zip_files
     if source_lower == "abp":
@@ -39,7 +51,8 @@ def _filter_zips_for_source(zip_files: list[Path], source: str) -> list[Path]:
 def _should_convert_csv_to_parquet(csv_path: Path, source: str) -> bool:
     if source.lower() == "ngd":
-        return csv_path.name.lower().startswith("add_gb_")
+        name_lower = csv_path.name.lower()
+        return name_lower.startswith("add_gb_") and not _is_excluded_ngd_file(name_lower)
     return True

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/ukam_os_builder/os_builder/os_hub.py RENAMED Viewed

@@ -9,9 +9,25 @@ from urllib.parse import parse_qsl, urlencode, urlparse, urlunparse
 import requests
+from ukam_os_builder.api.settings import Settings
 logger = logging.getLogger(__name__)
 API_BASE_URL = "https://api.os.uk/downloads/v1"
+# NGD file stems to exclude (historic addresses are not used in output)
+_NGD_EXCLUDED_STEMS = {"historicaddress"}
+def _should_skip_ngd_download(filename: str, settings: object) -> bool:
+    """Return True if *filename* is an NGD historic-address archive."""
+    source_type = getattr(getattr(settings, "source", None), "type", "")
+    if source_type != "ngd":
+        return False
+    name_lower = filename.lower()
+    return any(stem in name_lower for stem in _NGD_EXCLUDED_STEMS)
 DEFAULT_CHUNK_SIZE = 1024 * 1024 * 20  # 20 MiB
 DEFAULT_CONNECT_TIMEOUT_SECONDS = 30
 DEFAULT_READ_TIMEOUT_SECONDS = 300
@@ -293,6 +309,11 @@ def run_download_step(
                 logger.warning("No URL for %s, skipping", item.filename)
                 continue
+            # Skip NGD historic address files — they are excluded from output
+            if _should_skip_ngd_download(item.filename, settings):
+                logger.info("Skipping historic address file: %s", item.filename)
+                continue
             dest_path = downloads_dir / item.filename
             was_downloaded = download_file(
                 url=item.url,
@@ -312,3 +333,54 @@ def run_download_step(
     logger.info("Download complete: %d file(s)", len(downloaded))
     return downloaded
+def _get_manifest_path(settings: Settings) -> Path | None:
+    downloads_dir = settings.paths.downloads_dir.resolve()
+    source_type = settings.source.type  # "abp" | "ngd"
+    if source_type == "abp":
+        candidates = list(downloads_dir.glob("*-Order_Details.txt"))
+        if not candidates:
+            logger.info("➡️ Manifest (ABP order details) not found. Check: %s", downloads_dir)
+            return None
+        manifest = max(candidates, key=lambda p: p.stat().st_mtime).resolve()
+        if len(candidates) > 1:
+            logger.warning(
+                "Multiple ABP manifests found in %s. Using newest: %s",
+                downloads_dir,
+                manifest,
+            )
+        logger.info("➡️ Manifest (ABP order details): %s", manifest)
+        return manifest
+    elif source_type == "ngd":
+        candidates = list(
+            downloads_dir.glob("*_orderSummary.json")
+        )  # adjust if it's "*.orderSummary.json"
+        if not candidates:
+            logger.info("➡️ Manifests (NGD order summaries) not found. Check: %s", downloads_dir)
+            return None
+        built_candidates = list(downloads_dir.glob("*builtaddress*_orderSummary.json"))
+        built_manifest = (
+            max(built_candidates, key=lambda p: p.stat().st_mtime).resolve()
+            if built_candidates
+            else None
+        )
+        logger.info(
+            "➡️ Manifests (NGD order summaries): %s (%d files)\n"
+            "    ↳ Built address order summary: %s",
+            downloads_dir,
+            len(candidates),
+            built_manifest if built_manifest else "(not found)",
+        )
+        return downloads_dir
+    logger.warning("Unknown source type %r. No manifest lookup performed.", source_type)
+    return None

{ukam_os_builder-0.1.0.dev4 → ukam_os_builder-0.1.0.dev5}/uv.lock RENAMED Viewed

@@ -1421,7 +1421,7 @@ wheels = [
 [[package]]
 name = "ukam-os-builder"
-version = "0.1.0.dev4"
+version = "0.1.0.dev5"
 source = { editable = "." }
 dependencies = [
     { name = "duckdb" },

ukam_os_builder-0.1.0.dev4/tests/test_extract_source_filtering.py DELETED Viewed

@@ -1,27 +0,0 @@
-from __future__ import annotations
-from pathlib import Path
-from ukam_os_builder.os_builder.extract import (
-    _filter_zips_for_source,
-    _should_convert_csv_to_parquet,
-)
-def test_filter_zips_for_source_prefers_ngd_named_zips() -> None:
-    zip_files = [
-        Path("add_gb_builtaddress.zip"),
-        Path("AddressBasePremium_FULL_2025-12-15_002.zip"),
-    ]
-    filtered = _filter_zips_for_source(zip_files, "ngd")
-    assert filtered == [Path("add_gb_builtaddress.zip")]
-def test_should_convert_csv_to_parquet_skips_non_ngd_for_ngd_source() -> None:
-    ngd_csv = Path("add_gb_builtaddress.csv")
-    abp_csv = Path("AddressBasePremium_FULL_2025-12-15_002.csv")
-    assert _should_convert_csv_to_parquet(ngd_csv, "ngd") is True
-    assert _should_convert_csv_to_parquet(abp_csv, "ngd") is False