PyPI - csrlite - Versions diffs - 0.1.0__py3-none-any.whl → 0.2.0__py3-none-any.whl - Mend

csrlite 0.1.0py3-none-any.whl → 0.2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (16) hide show

csrlite/__init__.py +16 -8
csrlite/ae/ae_listing.py +2 -0
csrlite/ae/ae_specific.py +10 -5
csrlite/ae/ae_summary.py +4 -2
csrlite/ae/ae_utils.py +0 -70
csrlite/common/config.py +34 -0
csrlite/common/count.py +174 -80
csrlite/common/plan.py +79 -67
csrlite/common/rtf.py +85 -0
csrlite/common/utils.py +4 -4
csrlite/disposition/disposition.py +126 -95
{csrlite-0.1.0.dist-info → csrlite-0.2.0.dist-info}/METADATA +7 -7
csrlite-0.2.0.dist-info/RECORD +19 -0
csrlite-0.1.0.dist-info/RECORD +0 -17
{csrlite-0.1.0.dist-info → csrlite-0.2.0.dist-info}/WHEEL +0 -0
{csrlite-0.1.0.dist-info → csrlite-0.2.0.dist-info}/top_level.txt +0 -0

csrlite/disposition/disposition.py CHANGED Viewed

@@ -15,10 +15,10 @@ from pathlib import Path
 import polars as pl
 from rtflite import RTFDocument
-from ..ae.ae_utils import create_ae_rtf_table
-from ..common.count import count_subject_with_observation
+from ..common.count import count_subject, count_subject_with_observation
 from ..common.parse import StudyPlanParser
 from ..common.plan import StudyPlan
+from ..common.rtf import create_rtf_table_n_pct
 from ..common.utils import apply_common_filters
@@ -26,18 +26,21 @@ def study_plan_to_disposition_summary(
     study_plan: StudyPlan,
 ) -> list[str]:
     """
-    Generate Disposition Table 1.1 RTF outputs for all analyses defined in StudyPlan.
+    Generate Disposition Summary Table outputs for all analyses defined in StudyPlan.
     """
     # Meta data
     analysis_type = "disposition_summary"
     output_dir = study_plan.output_dir
+    title = "Disposition of Participants"
     footnote = ["Percentages are based on the number of enrolled participants."]
     source = None
     population_df_name = "adsl"
-    observation_df_name = "ds"  # As per plan_ds_xyz123.yaml
     id = ("USUBJID", "Subject ID")
+    ds_term = ("EOSSTT", "Disposition Status")
+    dist_reason_term = ("DCREASCD", "Discontinued Reason")
     total = True
     missing_group = "error"
@@ -57,32 +60,14 @@ def study_plan_to_disposition_summary(
     for row in disp_plans.iter_rows(named=True):
         population = row["population"]
-        observation = row.get("observation")
-        parameter = row["parameter"]
         group = row.get("group")
-        title_text = row.get(
-            "title", "Disposition of Participants"
-        )  # Allow title override from plan if we supported it in parser, else default
+        title_text = title
         # Get datasets
-        population_df, observation_df = parser.get_datasets(population_df_name, observation_df_name)
+        (population_df,) = parser.get_datasets(population_df_name)
         # Get filters
         population_filter = parser.get_population_filter(population)
-        obs_filter = parser.get_observation_filter(observation)
-        # Get parameters with indent levels
-        param_names, param_filters, param_labels, param_indents = parser.get_parameter_info(
-            parameter
-        )
-        # Apply indentation to labels
-        indented_labels = []
-        for label, indent_level in zip(param_labels, param_indents):
-            indent_str = "    " * indent_level  # 4 spaces per indent level
-            indented_labels.append(f"{indent_str}{label}")
-        variables_list = list(zip(param_filters, indented_labels))
         # Get group info (optional)
         if group is not None:
@@ -106,12 +91,11 @@ def study_plan_to_disposition_summary(
         rtf_path = disposition(
             population=population_df,
-            observation=observation_df,
             population_filter=population_filter,
-            observation_filter=obs_filter,
             id=id,
             group=group_tuple,
-            variables=variables_list,
+            ds_term=ds_term,
+            dist_reason_term=dist_reason_term,
             title=title_parts,
             footnote=footnote,
             source=source,
@@ -126,12 +110,11 @@ def study_plan_to_disposition_summary(
 def disposition(
     population: pl.DataFrame,
-    observation: pl.DataFrame,
     population_filter: str | None,
-    observation_filter: str | None,
     id: tuple[str, str],
     group: tuple[str, str] | None,
-    variables: list[tuple[str, str]],
+    ds_term: tuple[str, str],
+    dist_reason_term: tuple[str, str],
     title: list[str],
     footnote: list[str] | None,
     source: list[str] | None,
@@ -141,17 +124,16 @@ def disposition(
     missing_group: str = "error",
 ) -> str:
     """
-    Complete Disposition Table 1.1 pipeline wrapper.
+    Complete Disposition Summary Table pipeline wrapper.
     """
     # Step 1: Generate ARD
     ard = disposition_ard(
         population=population,
-        observation=observation,
         population_filter=population_filter,
-        observation_filter=observation_filter,
         id=id,
         group=group,
-        variables=variables,
+        ds_term=ds_term,
+        dist_reason_term=dist_reason_term,
         total=total,
         missing_group=missing_group,
     )
@@ -172,87 +154,135 @@ def disposition(
     return output_file
+def _validate_disposition_data(df: pl.DataFrame, ds_var: str, reason_var: str) -> None:
+    """
+    Validate disposition data integrity.
+    Rules:
+    1. ds_var must be {Completed, Ongoing, Discontinued} and non-null.
+    2. If ds_var is Completed/Ongoing, reason_var must be the same as ds_var or null.
+    3. If ds_var is Discontinued, reason_var must be non-null and not Completed/Ongoing.
+    """
+    # Rule 1: Valid Statuses
+    valid_statuses = ["Completed", "Ongoing", "Discontinued"]
+    if df[ds_var].is_null().any():
+        raise ValueError(f"Found null values in disposition status column '{ds_var}'")
+    invalid_status = df.filter(~pl.col(ds_var).is_in(valid_statuses))
+    if not invalid_status.is_empty():
+        bad_values = invalid_status[ds_var].unique().to_list()
+        raise ValueError(
+            f"Invalid disposition statuses found: {bad_values}. Must be one of {valid_statuses}"
+        )
+    # Rule 2: Completed/Ongoing implies Reason is Null OR equal to Status
+    inconsistent_completed = df.filter(
+        (pl.col(ds_var).is_in(["Completed", "Ongoing"]))
+        & (~pl.col(reason_var).is_null())
+        & (pl.col(reason_var) != pl.col(ds_var))
+    )
+    if not inconsistent_completed.is_empty():
+        raise ValueError(
+            f"Found subjects with status 'Completed' or 'Ongoing' with mismatched "
+            f"discontinuation reason in '{reason_var}'. Reason must be Null or match Status."
+        )
+    # Rule 3: Discontinued implies Reason is NOT Null AND NOT {Completed, Ongoing}
+    invalid_discontinued = df.filter(
+        (pl.col(ds_var) == "Discontinued")
+        & ((pl.col(reason_var).is_null()) | (pl.col(reason_var).is_in(["Completed", "Ongoing"])))
+    )
+    if not invalid_discontinued.is_empty():
+        raise ValueError(
+            f"Found subjects with status 'Discontinued' but missing or invalid "
+            f"discontinuation reason in '{reason_var}'"
+        )
 def disposition_ard(
     population: pl.DataFrame,
-    observation: pl.DataFrame,
     population_filter: str | None,
-    observation_filter: str | None,
     id: tuple[str, str],
     group: tuple[str, str] | None,
-    variables: list[tuple[str, str]],
+    ds_term: tuple[str, str],
+    dist_reason_term: tuple[str, str],
     total: bool,
     missing_group: str,
+    pop_var_name: str = "Enrolled",
 ) -> pl.DataFrame:
     """
-    Generate ARD for Disposition Table 1.1.
+    Generate ARD for Summary Table.
     """
+    # Unpack variables
+    ds_var_name, _ = ds_term
+    dist_reason_var_name, _ = dist_reason_term
     id_var_name, _ = id
-    # Handle optional group
-    if group is not None:
-        group_var_name, _ = group
-    else:
-        # Create a dummy group column for overall counts
-        group_var_name = "__all__"
-        population = population.with_columns(pl.lit("All Subjects").alias(group_var_name))
-        observation = observation.with_columns(pl.lit("All Subjects").alias(group_var_name))
-        total = False  # No need for total column when there's only one group
+    # Validate Data
+    _validate_disposition_data(population, ds_var_name, dist_reason_var_name)
     # Apply common filters
-    population_filtered, observation_to_filter = apply_common_filters(
+    population_filtered, _ = apply_common_filters(
         population=population,
-        observation=observation,
+        observation=None,
         population_filter=population_filter,
-        observation_filter=observation_filter,
+        observation_filter=None,
     )
-    # For each parameter, we create an "observation" dataset and use
-    # count_subject_with_observation. This approach works for both ADSL-based
-    # filters (e.g., "Enrolled") and DS-based filters (e.g., "Discontinued")
-    results = []
-    for var_filter, var_label in variables:
-        # Try to apply the filter to population first, then observation
-        # This handles both ADSL-based and DS-based parameter filters
-        try:
-            target_obs = population_filtered.filter(pl.sql_expr(var_filter))
-        except Exception:
-            target_obs = observation_to_filter.filter(pl.sql_expr(var_filter))
-        # Add the parameter label as a variable for counting
-        target_obs = target_obs.with_columns(pl.lit(var_label).alias("__index__"))
-        # Use count_subject_with_observation to get n (%) for each group
-        counts = count_subject_with_observation(
-            population=population_filtered,
-            observation=target_obs,
-            id=id_var_name,
-            group=group_var_name,
-            variable="__index__",
-            total=total,
-            missing_group=missing_group,
+    if group:
+        group_var_name, _ = group
+    else:
+        # Create dummy group for overall analysis
+        group_var_name = "Overall"
+        total = False
+        population_filtered = population_filtered.with_columns(
+            pl.lit("Overall").alias(group_var_name)
         )
-        results.append(
-            counts.select(
-                pl.col("__index__"),
-                pl.col(group_var_name).alias("__group__"),
-                pl.col("n_pct_subj_fmt").alias("__value__"),
-            )
-        )
+    # Enrolled Subjects
+    n_pop_counts = count_subject(
+        population=population_filtered,
+        id=id_var_name,
+        group=group_var_name,
+        total=total,
+        missing_group=missing_group,
+    )
+    n_pop = n_pop_counts.select(
+        pl.lit(pop_var_name).alias("__index__"),
+        pl.col(group_var_name).cast(pl.String).alias("__group__"),
+        pl.col("n_subj_pop").cast(pl.String).alias("__value__"),
+    )
+    # Hierarchical Counts for Status and Reason
+    # Level 1: Status (Completed, Ongoing, Discontinued)
+    # Level 2: Status + Reason (Only relevant for Discontinued)
+    n_dict = count_subject_with_observation(
+        population=population_filtered,
+        observation=population_filtered,
+        id=id_var_name,
+        group=group_var_name,
+        variable=[ds_var_name, dist_reason_var_name],
+        total=total,
+        missing_group=missing_group,
+    )
+    # Filter and format
+    # Identify rows:
+    # 1. Status rows: Where reason is "__all__"
+    # 2. Reason rows: Where reason is specific value (indented)
+    n_dict = n_dict.unique([group_var_name, ds_var_name, dist_reason_var_name, "__id__"])
-    # Combine all results
-    ard = pl.concat(results)
+    # Filter out redundant nested rows (e.g., "Completed" under "Completed")
+    n_dict = n_dict.filter(pl.col(dist_reason_var_name) != pl.col(ds_var_name))
-    # Sort by the order of variables in the list
-    # Create an Enum for __index__
-    var_labels = [label for _, label in variables]
-    ard = ard.with_columns(pl.col("__index__").cast(pl.Enum(var_labels))).sort(
-        "__index__", "__group__"
+    n_final = n_dict.sort("__id__").select(
+        pl.col("__variable__").alias("__index__"),
+        pl.col(group_var_name).cast(pl.String).alias("__group__"),
+        pl.col("n_pct_subj_fmt").cast(pl.String).alias("__value__"),
     )
-    return ard
+    return pl.concat([n_pop, n_final])
 def disposition_df(ard: pl.DataFrame) -> pl.DataFrame:
@@ -260,10 +290,11 @@ def disposition_df(ard: pl.DataFrame) -> pl.DataFrame:
     Transform ARD to display format.
     """
     # Pivot
+    # Pivot from long to wide format
     df_wide = ard.pivot(index="__index__", on="__group__", values="__value__")
-    # Rename index
-    df_wide = df_wide.rename({"__index__": "Disposition Status"})
+    # Rename __index__ to display column name
+    df_wide = df_wide.rename({"__index__": "Term"}).select(pl.col("Term"), pl.exclude("Term"))
     return df_wide
@@ -282,7 +313,7 @@ def disposition_rtf(
     # Columns: Disposition Status, Group 1, Group 2, ... Total
     n_cols = len(df.columns)
-    col_header_1 = list(df.columns)
+    col_header_1 = [""] + list(df.columns[1:])
     col_header_2 = [""] + ["n (%)"] * (n_cols - 1)
     if col_rel_width is None:
@@ -290,7 +321,7 @@ def disposition_rtf(
     else:
         col_widths = col_rel_width
-    return create_ae_rtf_table(
+    return create_rtf_table_n_pct(
         df=df,
         col_header_1=col_header_1,
         col_header_2=col_header_2,

{csrlite-0.1.0.dist-info → csrlite-0.2.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: csrlite
-Version: 0.1.0
+Version: 0.2.0
 Summary: A hierarchical YAML-based framework for generating Tables, Listings, and Figures in clinical trials
 Author-email: Clinical Biostatistics Team <biostat@example.com>
 License: MIT
@@ -28,17 +28,17 @@ Provides-Extra: plotting
 Requires-Dist: matplotlib>=3.5.0; extra == "plotting"
 Requires-Dist: plotly>=5.0.0; extra == "plotting"
 Provides-Extra: dev
-Requires-Dist: pytest>=7.0.0; extra == "dev"
 Requires-Dist: pytest-cov>=4.0.0; extra == "dev"
-Requires-Dist: black>=22.0.0; extra == "dev"
-Requires-Dist: isort>=5.0.0; extra == "dev"
-Requires-Dist: mypy>=1.0.0; extra == "dev"
 Requires-Dist: pytest>=9.0.1; extra == "dev"
+Requires-Dist: black>=22.0.0; extra == "dev"
+Requires-Dist: isort>=7.0.0; extra == "dev"
+Requires-Dist: ruff>=0.14.8; extra == "dev"
+Requires-Dist: mypy>=1.19.0; extra == "dev"
+Requires-Dist: quarto>=0.1.0; extra == "dev"
+Requires-Dist: pyre-check>=0.9.18; extra == "dev"
 Requires-Dist: jupyter>=1.1.1; extra == "dev"
 Requires-Dist: jupyter-cache>=1.0.1; extra == "dev"
 Requires-Dist: nbformat>=5.10.4; extra == "dev"
-Requires-Dist: ruff>=0.1.0; extra == "dev"
-Requires-Dist: pyre-check>=0.9.18; extra == "dev"
 Provides-Extra: all
 Requires-Dist: rtflite; extra == "all"
 Requires-Dist: matplotlib>=3.5.0; extra == "all"

csrlite-0.2.0.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,19 @@
+csrlite/__init__.py,sha256=w18H3dEZE_HZFdsr0Qqo0xmJPksx764BFAg8XPo9tGI,1417
+csrlite/ae/__init__.py,sha256=gZHPLATRF9f8QBwwQtEjQRtXMsqOJsUK2sbUMLjiE5U,14
+csrlite/ae/ae_listing.py,sha256=R4g8JnJRCx4u60xRC2IEu8EPzEIgxj8VgDhBaaQ5eZE,18389
+csrlite/ae/ae_specific.py,sha256=_CDAgF4vMmjpqFTppL2LgmExVsEhA57z4jYj4Y1zLfY,17022
+csrlite/ae/ae_summary.py,sha256=46IyuqHGdn0dLOrz7XffKNcNjscA0Y8OZFiZ6akisB4,13692
+csrlite/ae/ae_utils.py,sha256=ew5Mm_zNdflc_MRYvYSChXhRhGQ1oZcz7H_TZPVvFBk,2011
+csrlite/common/config.py,sha256=FUnUL1BtQO52U0ag1U_d2K3UP5L_vA_KifonANHLv_c,878
+csrlite/common/count.py,sha256=k1W-LdQv63s-B-Oeq2SvYsXctrT1YMVWs93CtIaGpVw,8785
+csrlite/common/parse.py,sha256=Vz9C7ljkDygT2qkP6TlY3T3p71D6BD5GtIwRKv6p8ps,9319
+csrlite/common/plan.py,sha256=XXUGpzNxC6oS66c7NYnDPmE0CwXMhIQzlJCga1nDktw,12928
+csrlite/common/rtf.py,sha256=gah-M-WdvMk52R-AEacM79P18jc2OFnCH7-I0B91Fhk,2825
+csrlite/common/utils.py,sha256=It0aHqPfXDmCte2uVAO2Lkb3U_jDLrjNihAL8gziTQk,1110
+csrlite/common/yaml_loader.py,sha256=_v9pkbAUVshTqVoMLqMiEn17awL2K0kFR4pdDArMSOM,3071
+csrlite/disposition/__init__.py,sha256=KMtGoBjN4aKNYvXHmZ0GX-f4RnmQ3coYbUrkFeU8Es0,85
+csrlite/disposition/disposition.py,sha256=r0R53ozVFYNXI0JBzR14sghQayLVUvXJBiS0wNLAtB0,10348
+csrlite-0.2.0.dist-info/METADATA,sha256=SzOst7_7EmNn6FB29KO-oFZpGZ93yZCQ9lGBhG-p9bE,2801
+csrlite-0.2.0.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+csrlite-0.2.0.dist-info/top_level.txt,sha256=59zJTvGH5zx2FY4vCl4kgnH8awT0cZrg21Mace7IFlU,8
+csrlite-0.2.0.dist-info/RECORD,,

csrlite-0.1.0.dist-info/RECORD DELETED Viewed

@@ -1,17 +0,0 @@
-csrlite/__init__.py,sha256=o7HOFA9KKbyfq8l_26dqNHBDz2jqDJm8lQBvXYfBYdQ,1164
-csrlite/ae/__init__.py,sha256=gZHPLATRF9f8QBwwQtEjQRtXMsqOJsUK2sbUMLjiE5U,14
-csrlite/ae/ae_listing.py,sha256=EwmU5CTmqmkuiOsA7FedEF83S9MJ1YPlmf5AMsksUCU,18343
-csrlite/ae/ae_specific.py,sha256=s-Zj6WQhKKHARMt5LkoSw74iThPVd-_92l8eYhUGiPc,16898
-csrlite/ae/ae_summary.py,sha256=NlqbuW0N0aiJ6i3fLCDJJPxPuqk1mv6i5svPsIT1xD0,13637
-csrlite/ae/ae_utils.py,sha256=6UhUrTkyOgpxpl5YFoNjteLBgkf0Gtw5lgQApCkwf3c,4121
-csrlite/common/count.py,sha256=gdTSlA-nr5B6e3fuP9pelASf_FdaeRKYzujpE0bbzvA,6925
-csrlite/common/parse.py,sha256=Vz9C7ljkDygT2qkP6TlY3T3p71D6BD5GtIwRKv6p8ps,9319
-csrlite/common/plan.py,sha256=QhsBD7b-AU_mc-JScLHM1Oiw7FJ4AKN1iHWX80-ukuw,11988
-csrlite/common/utils.py,sha256=SAqEnwDtE32LuQqnMVQr_1Xfdp-z54wIrwbwwPBE9lU,1022
-csrlite/common/yaml_loader.py,sha256=_v9pkbAUVshTqVoMLqMiEn17awL2K0kFR4pdDArMSOM,3071
-csrlite/disposition/__init__.py,sha256=KMtGoBjN4aKNYvXHmZ0GX-f4RnmQ3coYbUrkFeU8Es0,85
-csrlite/disposition/disposition.py,sha256=UMm4Z1fFQ6VJ-KSqSaMP7qEzLoSa399kRSZx-oPKEqM,9274
-csrlite-0.1.0.dist-info/METADATA,sha256=HNbQnMH5LqJ2Vq_KMky8u9_ofP0YOe40AynZM9384FI,2799
-csrlite-0.1.0.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-csrlite-0.1.0.dist-info/top_level.txt,sha256=59zJTvGH5zx2FY4vCl4kgnH8awT0cZrg21Mace7IFlU,8
-csrlite-0.1.0.dist-info/RECORD,,

{csrlite-0.1.0.dist-info → csrlite-0.2.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{csrlite-0.1.0.dist-info → csrlite-0.2.0.dist-info}/top_level.txt RENAMED Viewed

File without changes

csrlite 0.1.0__py3-none-any.whl → 0.2.0__py3-none-any.whl

csrlite 0.1.0py3-none-any.whl → 0.2.0py3-none-any.whl