PyPI - metameq - Versions diffs - 2026.2.1__py3-none-any.whl → 2026.2.3__py3-none-any.whl - Mend

metameq 2026.2.1py3-none-any.whl → 2026.2.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

metameq/__init__.py +3 -2
metameq/_version.py +3 -3
metameq/src/metadata_configurator.py +53 -6
metameq/src/metadata_extender.py +16 -38
metameq/src/util.py +7 -0
metameq/tests/test_metadata_configurator.py +184 -1
metameq/tests/test_metadata_extender.py +306 -117
metameq/tests/test_metadata_validator.py +2 -2
{metameq-2026.2.1.dist-info → metameq-2026.2.3.dist-info}/METADATA +2 -1
{metameq-2026.2.1.dist-info → metameq-2026.2.3.dist-info}/RECORD +13 -13
{metameq-2026.2.1.dist-info → metameq-2026.2.3.dist-info}/WHEEL +0 -0
{metameq-2026.2.1.dist-info → metameq-2026.2.3.dist-info}/entry_points.txt +0 -0
{metameq-2026.2.1.dist-info → metameq-2026.2.3.dist-info}/top_level.txt +0 -0

metameq/tests/test_metadata_extender.py CHANGED Viewed

@@ -475,7 +475,7 @@ class TestMetadataExtender(TestCase):
             # Verify metadata file contents - includes failed row when remove_internals=False
             result_df = pandas.read_csv(
-                metadata_files[0], sep="\t", keep_default_na=False)
+                metadata_files[0], sep="\t", dtype=str, keep_default_na=False)
             assert_frame_equal(metadata_df, result_df)
             # Find the validation errors file (uses comma separator)
@@ -484,7 +484,7 @@ class TestMetadataExtender(TestCase):
             self.assertEqual(1, len(validation_files))
             # Verify validation errors file contents
-            result_validation_df = pandas.read_csv(validation_files[0], sep=",")
+            result_validation_df = pandas.read_csv(validation_files[0], sep=",", dtype=str, keep_default_na=False)
             assert_frame_equal(validation_msgs_df, result_validation_df)
             # No fails file should be created when remove_internals=False
@@ -513,7 +513,7 @@ class TestMetadataExtender(TestCase):
             self.assertEqual(1, len(metadata_files))
             # Verify metadata has internal cols removed and no failures
-            result_df = pandas.read_csv(metadata_files[0], sep="\t")
+            result_df = pandas.read_csv(metadata_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample3"],
                 "field_a": ["a1", "a3"]
@@ -526,7 +526,7 @@ class TestMetadataExtender(TestCase):
             self.assertEqual(1, len(fails_files))
             # Verify fails file contains the failed row
-            fails_df = pandas.read_csv(fails_files[0], sep=",")
+            fails_df = pandas.read_csv(fails_files[0], sep=",", dtype=str, keep_default_na=False)
             expected_fails_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample2"],
                 "field_a": ["a2"],
@@ -593,7 +593,7 @@ class TestMetadataExtender(TestCase):
             self.assertEqual(1, len(metadata_files))
             # Verify custom internal cols are removed
-            result_df = pandas.read_csv(metadata_files[0], sep="\t")
+            result_df = pandas.read_csv(metadata_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample2"],
                 "field_a": ["a1", "a2"]
@@ -748,16 +748,15 @@ class TestMetadataExtender(TestCase):
     # Tests for _fill_na_if_default
-    def test__fill_na_if_default_specific_overrides_settings(self):
+    def test__fill_na_if_default_has_default_in_settings(self):
         """Test that specific_dict default takes precedence over settings_dict."""
         input_df = pandas.DataFrame({
             "field1": ["value1", np.nan, "value3"],
             "field2": [np.nan, "value2", np.nan]
         })
-        specific_dict = {DEFAULT_KEY: "filled"}
-        settings_dict = {DEFAULT_KEY: "unused"}
+        settings_dict = {DEFAULT_KEY: "filled"}
-        result = _fill_na_if_default(input_df, specific_dict, settings_dict)
+        result = _fill_na_if_default(input_df, settings_dict)
         expected = pandas.DataFrame({
             "field1": ["value1", "filled", "value3"],
@@ -765,18 +764,19 @@ class TestMetadataExtender(TestCase):
         })
         assert_frame_equal(expected, result)
-    def test__fill_na_if_default_uses_settings_when_specific_missing(self):
-        """Test that settings_dict default is used when specific_dict has no default."""
+    def test__fill_na_if_default_no_default_in_settings(self):
+        """Test that NaN values are unchanged when no default is in settings."""
         input_df = pandas.DataFrame({
-            "field1": [np.nan]
+            "field1": ["value1", np.nan, "value3"],
+            "field2": [np.nan, "value2", np.nan]
         })
-        specific_dict = {}
-        settings_dict = {DEFAULT_KEY: "settings_default"}
+        settings_dict = {}
-        result = _fill_na_if_default(input_df, specific_dict, settings_dict)
+        result = _fill_na_if_default(input_df, settings_dict)
         expected = pandas.DataFrame({
-            "field1": ["settings_default"]
+            "field1": ["value1", np.nan, "value3"],
+            "field2": [np.nan, "value2", np.nan]
         })
         assert_frame_equal(expected, result)
@@ -1273,14 +1273,13 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["stool", "stool"],
             QC_NOTE_KEY: ["", ""]
         })
-        global_plus_host_settings_dict = {
-            OVERWRITE_NON_NANS_KEY: False,
-            LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "not provided"
-        }
         # Config is pre-resolved: sample type's metadata_fields already includes
         # host fields merged in, plus sample_type and qiita_sample_type
         host_type_config_dict = {
+            OVERWRITE_NON_NANS_KEY: False,
+            LEAVE_REQUIREDS_BLANK_KEY: False,
+            DEFAULT_KEY: "not provided",
             METADATA_FIELDS_KEY: {
                 "host_field": {
                     DEFAULT_KEY: "host_default",
@@ -1314,7 +1313,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_sample_type_in_a_host_type(
-            input_df, "stool", global_plus_host_settings_dict, host_type_config_dict)
+            input_df, "stool", host_type_config_dict)
         expected_df = pandas.DataFrame({
             SAMPLE_NAME_KEY: ["sample1", "sample2"],
@@ -1337,12 +1336,11 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["unknown_type"],
             QC_NOTE_KEY: [""]
         })
-        global_plus_host_settings_dict = {
+        host_type_config_dict = {
             OVERWRITE_NON_NANS_KEY: False,
             LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "not provided"
-        }
-        host_type_config_dict = {
+            DEFAULT_KEY: "not provided",
             METADATA_FIELDS_KEY: {},
             SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                 "stool": {
@@ -1352,7 +1350,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_sample_type_in_a_host_type(
-            input_df, "unknown_type", global_plus_host_settings_dict, host_type_config_dict)
+            input_df, "unknown_type", host_type_config_dict)
         expected_df = pandas.DataFrame({
             SAMPLE_NAME_KEY: ["sample1"],
@@ -1371,12 +1369,11 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["stool", "blood", "stool"],
             QC_NOTE_KEY: ["", "", ""]
         })
-        global_plus_host_settings_dict = {
+        host_type_config_dict = {
             OVERWRITE_NON_NANS_KEY: False,
             LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "not provided"
-        }
-        host_type_config_dict = {
+            DEFAULT_KEY: "not provided",
             METADATA_FIELDS_KEY: {},
             SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                 "stool": {
@@ -1394,7 +1391,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_sample_type_in_a_host_type(
-            input_df, "stool", global_plus_host_settings_dict, host_type_config_dict)
+            input_df, "stool", host_type_config_dict)
         # Should only have the two stool samples
         self.assertEqual(2, len(result_df))
@@ -1409,12 +1406,11 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["stool"],
             QC_NOTE_KEY: [""]
         })
-        global_plus_host_settings_dict = {
+        host_type_config_dict = {
             OVERWRITE_NON_NANS_KEY: False,
             LEAVE_REQUIREDS_BLANK_KEY: True,
-            DEFAULT_KEY: "not provided"
-        }
-        host_type_config_dict = {
+            DEFAULT_KEY: "not provided",
             METADATA_FIELDS_KEY: {},
             SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                 "stool": {
@@ -1429,7 +1425,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_sample_type_in_a_host_type(
-            input_df, "stool", global_plus_host_settings_dict, host_type_config_dict)
+            input_df, "stool", host_type_config_dict)
         self.assertEqual(LEAVE_BLANK_VAL, result_df["required_field"].iloc[0])
@@ -1441,12 +1437,11 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["stool"],
             QC_NOTE_KEY: [""]
         })
-        global_plus_host_settings_dict = {
+        host_type_config_dict = {
             OVERWRITE_NON_NANS_KEY: False,
             LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "global_default"
-        }
-        host_type_config_dict = {
+            DEFAULT_KEY: "global_default",
             METADATA_FIELDS_KEY: {},
             SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                 "stool": {
@@ -1461,7 +1456,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_sample_type_in_a_host_type(
-            input_df, "stool", global_plus_host_settings_dict, host_type_config_dict)
+            input_df, "stool", host_type_config_dict)
         # When leave_requireds_blank is False, NaN values get filled with global default
         self.assertEqual("global_default", result_df["required_field"].iloc[0])
@@ -1475,12 +1470,11 @@ class TestMetadataExtender(TestCase):
             QC_NOTE_KEY: [""],
             "existing_field": ["original_value"]
         })
-        global_plus_host_settings_dict = {
+        host_type_config_dict = {
             OVERWRITE_NON_NANS_KEY: True,
             LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "not provided"
-        }
-        host_type_config_dict = {
+            DEFAULT_KEY: "not provided",
             METADATA_FIELDS_KEY: {},
             SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                 "stool": {
@@ -1495,7 +1489,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_sample_type_in_a_host_type(
-            input_df, "stool", global_plus_host_settings_dict, host_type_config_dict)
+            input_df, "stool", host_type_config_dict)
         self.assertEqual("new_value", result_df["existing_field"].iloc[0])
@@ -1508,12 +1502,11 @@ class TestMetadataExtender(TestCase):
             QC_NOTE_KEY: [""],
             "existing_field": ["original_value"]
         })
-        global_plus_host_settings_dict = {
+        host_type_config_dict = {
             OVERWRITE_NON_NANS_KEY: False,
             LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "not provided"
-        }
-        host_type_config_dict = {
+            DEFAULT_KEY: "not provided",
             METADATA_FIELDS_KEY: {},
             SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                 "stool": {
@@ -1528,7 +1521,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_sample_type_in_a_host_type(
-            input_df, "stool", global_plus_host_settings_dict, host_type_config_dict)
+            input_df, "stool", host_type_config_dict)
         self.assertEqual("original_value", result_df["existing_field"].iloc[0])
@@ -1540,14 +1533,13 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["feces"],
             QC_NOTE_KEY: [""]
         })
-        global_plus_host_settings_dict = {
-            OVERWRITE_NON_NANS_KEY: False,
-            LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "not provided"
-        }
         # Config is pre-resolved: alias "feces" has its own metadata_fields
         # that is a copy of "stool"'s resolved fields with sample_type="stool"
         host_type_config_dict = {
+            OVERWRITE_NON_NANS_KEY: False,
+            LEAVE_REQUIREDS_BLANK_KEY: False,
+            DEFAULT_KEY: "not provided",
             METADATA_FIELDS_KEY: {},
             SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                 "feces": {
@@ -1590,7 +1582,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_sample_type_in_a_host_type(
-            input_df, "feces", global_plus_host_settings_dict, host_type_config_dict)
+            input_df, "feces", host_type_config_dict)
         self.assertEqual("stool_value", result_df["stool_field"].iloc[0])
         # sample_type should be set to the resolved type "stool"
@@ -1606,17 +1598,15 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["stool", "stool"],
             QC_NOTE_KEY: ["", ""]
         })
-        settings_dict = {
-            OVERWRITE_NON_NANS_KEY: False,
-            LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "global_default"
-        }
         # Config is pre-resolved: sample type's metadata_fields includes
         # host fields merged in, plus sample_type and qiita_sample_type
         full_flat_config_dict = {
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
                     DEFAULT_KEY: "human_default",
+                    OVERWRITE_NON_NANS_KEY: False,
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
                     METADATA_FIELDS_KEY: {
                         "host_field": {
                             DEFAULT_KEY: "host_value",
@@ -1652,7 +1642,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_host_type(
-            input_df, "human", settings_dict, full_flat_config_dict)
+            input_df, "human", full_flat_config_dict)
         expected_df = pandas.DataFrame({
             SAMPLE_NAME_KEY: ["sample1", "sample2"],
@@ -1675,14 +1665,13 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["stool"],
             QC_NOTE_KEY: [""]
         })
-        settings_dict = {
-            OVERWRITE_NON_NANS_KEY: False,
-            LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "global_default"
-        }
         full_flat_config_dict = {
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    OVERWRITE_NON_NANS_KEY: False,
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    DEFAULT_KEY: "global_default",
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {}
                 }
@@ -1690,7 +1679,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_host_type(
-            input_df, "unknown_host", settings_dict, full_flat_config_dict)
+            input_df, "unknown_host", full_flat_config_dict)
         expected_df = pandas.DataFrame({
             SAMPLE_NAME_KEY: ["sample1"],
@@ -1709,14 +1698,13 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["unknown_sample"],
             QC_NOTE_KEY: [""]
         })
-        settings_dict = {
-            OVERWRITE_NON_NANS_KEY: False,
-            LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "global_default"
-        }
         full_flat_config_dict = {
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    OVERWRITE_NON_NANS_KEY: False,
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    DEFAULT_KEY: "global_default",
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                         "stool": {
@@ -1728,7 +1716,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_host_type(
-            input_df, "human", settings_dict, full_flat_config_dict)
+            input_df, "human", full_flat_config_dict)
         expected_df = pandas.DataFrame({
             SAMPLE_NAME_KEY: ["sample1"],
@@ -1747,16 +1735,15 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["stool", "stool", "stool"],
             QC_NOTE_KEY: ["", "", ""]
         })
-        settings_dict = {
-            OVERWRITE_NON_NANS_KEY: False,
-            LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "global_default"
-        }
         # Config is pre-resolved: sample type's metadata_fields includes
         # host fields merged in, plus sample_type and qiita_sample_type
         full_flat_config_dict = {
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    OVERWRITE_NON_NANS_KEY: False,
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    DEFAULT_KEY: "global_default",
                     METADATA_FIELDS_KEY: {
                         "human_field": {
                             DEFAULT_KEY: "human_value",
@@ -1785,6 +1772,9 @@ class TestMetadataExtender(TestCase):
                     }
                 },
                 "mouse": {
+                    OVERWRITE_NON_NANS_KEY: False,
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    DEFAULT_KEY: "global_default",
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {}
                 }
@@ -1792,7 +1782,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_host_type(
-            input_df, "human", settings_dict, full_flat_config_dict)
+            input_df, "human", full_flat_config_dict)
         expected_df = pandas.DataFrame({
             SAMPLE_NAME_KEY: ["sample1", "sample3"],
@@ -1813,17 +1803,15 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["stool"],
             QC_NOTE_KEY: [""]
         })
-        settings_dict = {
-            OVERWRITE_NON_NANS_KEY: False,
-            LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "global_default"
-        }
         # Config is pre-resolved: sample type's metadata_fields includes
         # host fields merged in, plus sample_type and qiita_sample_type
         full_flat_config_dict = {
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
                     DEFAULT_KEY: "human_specific_default",
+                    OVERWRITE_NON_NANS_KEY: False,
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                         "stool": {
@@ -1850,7 +1838,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_host_type(
-            input_df, "human", settings_dict, full_flat_config_dict)
+            input_df, "human", full_flat_config_dict)
         expected_df = pandas.DataFrame({
             SAMPLE_NAME_KEY: ["sample1"],
@@ -1871,17 +1859,14 @@ class TestMetadataExtender(TestCase):
             SAMPLETYPE_SHORTHAND_KEY: ["stool"],
             QC_NOTE_KEY: [""]
         })
-        settings_dict = {
-            OVERWRITE_NON_NANS_KEY: False,
-            LEAVE_REQUIREDS_BLANK_KEY: False,
-            DEFAULT_KEY: "global_default"
-        }
         # Config is pre-resolved: sample type's metadata_fields includes
         # host fields merged in, plus sample_type and qiita_sample_type
         full_flat_config_dict = {
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
-                    # No DEFAULT_KEY here
+                    OVERWRITE_NON_NANS_KEY: False,
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    DEFAULT_KEY: "global_default",
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                         "stool": {
@@ -1908,7 +1893,7 @@ class TestMetadataExtender(TestCase):
         }
         result_df, validation_msgs = _generate_metadata_for_a_host_type(
-            input_df, "human", settings_dict, full_flat_config_dict)
+            input_df, "human", full_flat_config_dict)
         expected_df = pandas.DataFrame({
             SAMPLE_NAME_KEY: ["sample1"],
@@ -1939,6 +1924,9 @@ class TestMetadataExtender(TestCase):
             OVERWRITE_NON_NANS_KEY: False,
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    DEFAULT_KEY: "global_default",
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {
                         "host_field": {
                             DEFAULT_KEY: "host_value",
@@ -2005,6 +1993,9 @@ class TestMetadataExtender(TestCase):
             OVERWRITE_NON_NANS_KEY: False,
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    DEFAULT_KEY: "global_default",
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {
                         "human_field": {
                             DEFAULT_KEY: "human_value",
@@ -2051,6 +2042,9 @@ class TestMetadataExtender(TestCase):
                     }
                 },
                 "mouse": {
+                    DEFAULT_KEY: "global_default",
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {
                         "mouse_field": {
                             DEFAULT_KEY: "mouse_value",
@@ -2182,6 +2176,9 @@ class TestMetadataExtender(TestCase):
             OVERWRITE_NON_NANS_KEY: False,
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    DEFAULT_KEY: "global_default",
+                    LEAVE_REQUIREDS_BLANK_KEY: True,  # This causes required fields to get LEAVE_BLANK_VAL
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                         "stool": {
@@ -2506,6 +2503,9 @@ class TestMetadataExtender(TestCase):
             OVERWRITE_NON_NANS_KEY: False,
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    DEFAULT_KEY: "not provided",
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {
                         "host_field": {
                             DEFAULT_KEY: "host_value",
@@ -2580,6 +2580,9 @@ class TestMetadataExtender(TestCase):
             },
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    DEFAULT_KEY: "not provided",
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                         "stool": {
@@ -2639,6 +2642,9 @@ class TestMetadataExtender(TestCase):
             },
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    DEFAULT_KEY: "not provided",
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                         "stool": {
@@ -2687,6 +2693,9 @@ class TestMetadataExtender(TestCase):
             OVERWRITE_NON_NANS_KEY: False,
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    DEFAULT_KEY: "not provided",
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {}
                 }
@@ -2721,6 +2730,9 @@ class TestMetadataExtender(TestCase):
             OVERWRITE_NON_NANS_KEY: False,
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    DEFAULT_KEY: "not provided",
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                         "stool": {
@@ -2781,6 +2793,9 @@ class TestMetadataExtender(TestCase):
             },
             HOST_TYPE_SPECIFIC_METADATA_KEY: {
                 "human": {
+                    DEFAULT_KEY: "not provided",
+                    LEAVE_REQUIREDS_BLANK_KEY: False,
+                    OVERWRITE_NON_NANS_KEY: False,
                     METADATA_FIELDS_KEY: {},
                     SAMPLE_TYPE_SPECIFIC_METADATA_KEY: {
                         "stool": {
@@ -3319,7 +3334,7 @@ class TestMetadataExtender(TestCase):
             self.assertEqual(1, len(output_files))
             # Read and verify contents (keep_default_na=False preserves empty strings)
-            result_df = pandas.read_csv(output_files[0], sep="\t", keep_default_na=False)
+            result_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_df = input_df
             assert_frame_equal(expected_df, result_df)
@@ -3343,7 +3358,7 @@ class TestMetadataExtender(TestCase):
             self.assertEqual(1, len(output_files))
             # Verify main output has internal cols removed and no failures
-            result_df = pandas.read_csv(output_files[0], sep="\t")
+            result_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample3"],
                 "field_a": ["a1", "a3"]
@@ -3355,7 +3370,7 @@ class TestMetadataExtender(TestCase):
             self.assertEqual(1, len(fails_files))
             # Verify fails file contains the failed row
-            fails_df = pandas.read_csv(fails_files[0], sep=",")
+            fails_df = pandas.read_csv(fails_files[0], sep=",", dtype=str, keep_default_na=False)
             expected_fails_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample2"],
                 "field_a": ["a2"],
@@ -3432,7 +3447,7 @@ class TestMetadataExtender(TestCase):
             self.assertEqual(1, len(output_files))
             # Read and verify contents (keep_default_na=False preserves empty strings)
-            result_df = pandas.read_csv(output_files[0], sep=",", keep_default_na=False)
+            result_df = pandas.read_csv(output_files[0], sep=",", dtype=str, keep_default_na=False)
             expected_df = input_df
             assert_frame_equal(expected_df, result_df)
@@ -3454,14 +3469,14 @@ class TestMetadataExtender(TestCase):
             # Main output file should have only headers (empty data)
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
             self.assertEqual(1, len(output_files))
-            result_df = pandas.read_csv(output_files[0], sep="\t")
+            result_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             self.assertTrue(result_df.empty)
             self.assertEqual([SAMPLE_NAME_KEY, "field_a"], list(result_df.columns))
             # Fails file should have both rows
             fails_files = glob.glob(os.path.join(tmpdir, "*_test_output_fails.csv"))
             self.assertEqual(1, len(fails_files))
-            fails_df = pandas.read_csv(fails_files[0], sep=",")
+            fails_df = pandas.read_csv(fails_files[0], sep=",", dtype=str, keep_default_na=False)
             self.assertEqual(2, len(fails_df))
     # Tests for get_extended_metadata_from_df_and_yaml
@@ -3606,7 +3621,7 @@ class TestMetadataExtender(TestCase):
             # Verify main output file was created (internal cols removed by default)
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
             self.assertEqual(1, len(output_files))
-            output_df = pandas.read_csv(output_files[0], sep="\t")
+            output_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_output_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample2"],
                 "body_product": ["UBERON:feces", "UBERON:feces"],
@@ -3679,7 +3694,7 @@ class TestMetadataExtender(TestCase):
             # Verify main output file excludes failure rows
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
             self.assertEqual(1, len(output_files))
-            output_df = pandas.read_csv(output_files[0], sep="\t")
+            output_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_output_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample3"],
                 "body_product": ["UBERON:feces", "UBERON:feces"],
@@ -3694,7 +3709,7 @@ class TestMetadataExtender(TestCase):
             # Verify fails file contains the failed row
             fails_files = glob.glob(os.path.join(tmpdir, "*_test_output_fails.csv"))
             self.assertEqual(1, len(fails_files))
-            fails_df = pandas.read_csv(fails_files[0], sep=",")
+            fails_df = pandas.read_csv(fails_files[0], sep=",", dtype=str, keep_default_na=False)
             expected_fails_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample2"],
                 "body_product": ["not provided"],
@@ -3765,7 +3780,7 @@ class TestMetadataExtender(TestCase):
             validation_files = glob.glob(
                 os.path.join(tmpdir, "*_test_output_validation_errors.csv"))
             self.assertEqual(1, len(validation_files))
-            validation_df = pandas.read_csv(validation_files[0], sep=",")
+            validation_df = pandas.read_csv(validation_files[0], sep=",", dtype=str, keep_default_na=False)
             expected_validation_df = pandas.DataFrame({
                 "sample_name": ["sample1"],
                 "field_name": ["restricted_field"],
@@ -3806,7 +3821,7 @@ class TestMetadataExtender(TestCase):
             # Verify main output file includes internal columns
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
             self.assertEqual(1, len(output_files))
-            output_df = pandas.read_csv(output_files[0], sep="\t", keep_default_na=False)
+            output_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_output_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1"],
                 "body_product": ["UBERON:feces"],
@@ -3829,6 +3844,7 @@ class TestMetadataExtender(TestCase):
     TEST_METADATA_CSV_FP = path.join(TEST_DIR, "data/test_metadata.csv")
     TEST_METADATA_TXT_FP = path.join(TEST_DIR, "data/test_metadata.txt")
+    TEST_METADATA_XLSX_FP = path.join(TEST_DIR, "data/test_metadata.xlsx")
     TEST_METADATA_WITH_ERRORS_FP = path.join(
         TEST_DIR, "data/test_metadata_with_errors.csv")
     TEST_STUDY_CONFIG_WITH_VALIDATION_FP = path.join(
@@ -3847,6 +3863,7 @@ class TestMetadataExtender(TestCase):
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -3861,12 +3878,13 @@ class TestMetadataExtender(TestCase):
             # Verify main output file was created (internal cols removed by default)
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
             self.assertEqual(1, len(output_files))
-            output_df = pandas.read_csv(output_files[0], sep="\t")
+            output_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_output_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample2"],
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -3899,6 +3917,7 @@ class TestMetadataExtender(TestCase):
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -3913,12 +3932,13 @@ class TestMetadataExtender(TestCase):
             # Verify main output file was created
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
             self.assertEqual(1, len(output_files))
-            output_df = pandas.read_csv(output_files[0], sep="\t")
+            output_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_output_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample2"],
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -3927,6 +3947,60 @@ class TestMetadataExtender(TestCase):
             })
             assert_frame_equal(expected_output_df, output_df)
+    def test_write_extended_metadata_xlsx_input(self):
+        """Test writing extended metadata from an Excel XLSX input file."""
+        with tempfile.TemporaryDirectory() as tmpdir:
+            result_df = write_extended_metadata(
+                self.TEST_METADATA_XLSX_FP, self.TEST_STUDY_CONFIG_FP,
+                tmpdir, "test_output", stds_fp=self.TEST_STDS_FP)
+            # Verify returned DataFrame
+            expected_result_df = pandas.DataFrame({
+                SAMPLE_NAME_KEY: ["sample1", "sample2"],
+                "body_product": ["UBERON:feces", "UBERON:feces"],
+                "body_site": ["gut", "gut"],
+                "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
+                "host_common_name": ["human", "human"],
+                QIITA_SAMPLE_TYPE: ["stool", "stool"],
+                SAMPLE_TYPE_KEY: ["stool", "stool"],
+                "study_custom_field": ["custom_value", "custom_value"],
+                "study_stool_field": ["stool_custom", "stool_custom"],
+                HOSTTYPE_SHORTHAND_KEY: ["human", "human"],
+                SAMPLETYPE_SHORTHAND_KEY: ["stool", "stool"],
+                QC_NOTE_KEY: ["", ""]
+            })
+            assert_frame_equal(expected_result_df, result_df)
+            # Verify main output file was created
+            output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
+            self.assertEqual(1, len(output_files))
+            output_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
+            expected_output_df = pandas.DataFrame({
+                SAMPLE_NAME_KEY: ["sample1", "sample2"],
+                "body_product": ["UBERON:feces", "UBERON:feces"],
+                "body_site": ["gut", "gut"],
+                "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
+                "host_common_name": ["human", "human"],
+                QIITA_SAMPLE_TYPE: ["stool", "stool"],
+                SAMPLE_TYPE_KEY: ["stool", "stool"],
+                "study_custom_field": ["custom_value", "custom_value"],
+                "study_stool_field": ["stool_custom", "stool_custom"]
+            })
+            assert_frame_equal(expected_output_df, output_df)
+            # Verify empty fails file was created
+            fails_files = glob.glob(os.path.join(tmpdir, "*_test_output_fails.csv"))
+            self.assertEqual(1, len(fails_files))
+            self.assertEqual(0, os.path.getsize(fails_files[0]))
+            # Verify empty validation errors file was created
+            validation_files = glob.glob(
+                os.path.join(tmpdir, "*_test_output_validation_errors.csv"))
+            self.assertEqual(1, len(validation_files))
+            self.assertEqual(0, os.path.getsize(validation_files[0]))
     def test_write_extended_metadata_with_validation_errors(self):
         """Test writing extended metadata when validation errors occur."""
         with tempfile.TemporaryDirectory() as tmpdir:
@@ -3941,6 +4015,7 @@ class TestMetadataExtender(TestCase):
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 "restricted_field": ["invalid_value", "allowed_value"],
@@ -3954,12 +4029,13 @@ class TestMetadataExtender(TestCase):
             # Verify main output file was created
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
             self.assertEqual(1, len(output_files))
-            output_df = pandas.read_csv(output_files[0], sep="\t")
+            output_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_output_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample2"],
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 "restricted_field": ["invalid_value", "allowed_value"],
@@ -3971,7 +4047,7 @@ class TestMetadataExtender(TestCase):
             validation_files = glob.glob(
                 os.path.join(tmpdir, "*_test_output_validation_errors.csv"))
             self.assertEqual(1, len(validation_files))
-            validation_df = pandas.read_csv(validation_files[0], sep=",")
+            validation_df = pandas.read_csv(validation_files[0], sep=",", dtype=str, keep_default_na=False)
             expected_validation_df = pandas.DataFrame({
                 "sample_name": ["sample1"],
                 "field_name": ["restricted_field"],
@@ -4006,6 +4082,7 @@ class TestMetadataExtender(TestCase):
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -4020,12 +4097,13 @@ class TestMetadataExtender(TestCase):
             # Verify output file has .csv extension
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.csv"))
             self.assertEqual(1, len(output_files))
-            output_df = pandas.read_csv(output_files[0], sep=",")
+            output_df = pandas.read_csv(output_files[0], sep=",", dtype=str, keep_default_na=False)
             expected_output_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample2"],
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -4048,6 +4126,7 @@ class TestMetadataExtender(TestCase):
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -4062,12 +4141,13 @@ class TestMetadataExtender(TestCase):
             # Verify main output file includes internal columns
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
             self.assertEqual(1, len(output_files))
-            output_df = pandas.read_csv(output_files[0], sep="\t", keep_default_na=False)
+            output_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_output_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample2"],
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -4097,6 +4177,7 @@ class TestMetadataExtender(TestCase):
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -4111,12 +4192,13 @@ class TestMetadataExtender(TestCase):
             # Verify main output file was created
             output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
             self.assertEqual(1, len(output_files))
-            output_df = pandas.read_csv(output_files[0], sep="\t")
+            output_df = pandas.read_csv(output_files[0], sep="\t", dtype=str, keep_default_na=False)
             expected_output_df = pandas.DataFrame({
                 SAMPLE_NAME_KEY: ["sample1", "sample2"],
                 "body_product": ["UBERON:feces", "UBERON:feces"],
                 "body_site": ["gut", "gut"],
                 "description": ["human sample", "human sample"],
+                "dna_extracted": ["TRUE", "FALSE"],
                 "host_common_name": ["human", "human"],
                 QIITA_SAMPLE_TYPE: ["stool", "stool"],
                 SAMPLE_TYPE_KEY: ["stool", "stool"],
@@ -4134,6 +4216,64 @@ class TestMetadataExtender(TestCase):
                 os.path.join(tmpdir, "*_test_output_validation_errors.csv"))
             self.assertEqual(0, len(validation_files))
+    def test_write_extended_metadata_preserves_string_booleans(self):
+        """Test that TRUE/FALSE string values are not converted to booleans.
+        This tests for a bug where loading a CSV without dtype=str causes
+        pandas to convert 'TRUE'/'FALSE' strings to boolean True/False,
+        which then fail validation against allowed string values.
+        """
+        with tempfile.TemporaryDirectory() as tmpdir:
+            # Create a CSV file with TRUE/FALSE string values
+            csv_content = (
+                "sample_name,hosttype_shorthand,sampletype_shorthand,dna_extracted\n"
+                "sample1,human,stool,TRUE\n"
+                "sample2,human,stool,FALSE\n"
+            )
+            csv_fp = path.join(tmpdir, "test_bool_strings.csv")
+            with open(csv_fp, "w") as f:
+                f.write(csv_content)
+            # Create a config that defines TRUE/FALSE as allowed string values
+            config_content = """
+default: "not provided"
+leave_requireds_blank: false
+overwrite_non_nans: false
+study_specific_metadata:
+  host_type_specific_metadata:
+    human:
+      default: "not provided"
+      leave_requireds_blank: false
+      overwrite_non_nans: false
+      sample_type_specific_metadata:
+        stool:
+          metadata_fields:
+            dna_extracted:
+              type: string
+              allowed:
+                - "TRUE"
+                - "FALSE"
+"""
+            config_fp = path.join(tmpdir, "test_bool_config.yml")
+            with open(config_fp, "w") as f:
+                f.write(config_content)
+            # Call write_extended_metadata
+            result_df = write_extended_metadata(
+                csv_fp, config_fp, tmpdir, "test_output",
+                stds_fp=self.TEST_STDS_FP)
+            # Verify the dna_extracted values are preserved as strings
+            self.assertEqual("TRUE", result_df.loc[0, "dna_extracted"])
+            self.assertEqual("FALSE", result_df.loc[1, "dna_extracted"])
+            # Verify no validation errors occurred
+            validation_files = glob.glob(
+                os.path.join(tmpdir, "*_test_output_validation_errors.csv"))
+            self.assertEqual(1, len(validation_files))
+            # The validation errors file should be empty (0 bytes)
+            self.assertEqual(0, os.path.getsize(validation_files[0]))
     # Integration tests
     TEST_PROJECT1_METADATA_FP = path.join(TEST_DIR, "data/test_project1_input_metadata.csv")
@@ -4142,6 +4282,7 @@ class TestMetadataExtender(TestCase):
         TEST_DIR, "data/test_project1_output_metadata.txt")
     TEST_PROJECT1_EXPECTED_FAILS_FP = path.join(
         TEST_DIR, "data/test_project1_output_fails.csv")
     def test_write_extended_metadata_from_df_project1_integration(self):
         """Integration test using project1 test data files."""
@@ -4153,12 +4294,8 @@ class TestMetadataExtender(TestCase):
             with open(path.join(debug_dir, f"UNMATCHED_2_{file_name}"), 'w') as debug_actual_file:
                 debug_actual_file.write(actual_content)
         # Load input metadata CSV
         input_df = pandas.read_csv(self.TEST_PROJECT1_METADATA_FP, dtype=str)
-        # for the columns "plating_notes" and "notes", fill NaN with empty string
-        input_df["plating_notes"] = input_df["plating_notes"].fillna("")
-        input_df["notes"] = input_df["notes"].fillna("")
         # Load study config
         study_config = _get_study_specific_config(self.TEST_PROJECT1_CONFIG_FP)
@@ -4204,6 +4341,58 @@ class TestMetadataExtender(TestCase):
             self.assertEqual(1, len(validation_files))
             self.assertEqual(0, os.path.getsize(validation_files[0]))
+    def test_write_extended_metadata_project1_integration(self):
+        """Integration test for write_extended_metadata using project1 test data files."""
+        def write_mismatched_debug_files(expected_content, actual_content, file_name):
+            """Write debug files to Desktop for unmatched content."""
+            debug_dir = path.join(path.expanduser("~"), "Desktop")
+            with open(path.join(debug_dir, f"UNMATCHED_1_{file_name}"), 'w') as debug_expected_file:
+                debug_expected_file.write(expected_content)
+            with open(path.join(debug_dir, f"UNMATCHED_2_{file_name}"), 'w') as debug_actual_file:
+                debug_actual_file.write(actual_content)
+        with tempfile.TemporaryDirectory() as tmpdir:
+            write_extended_metadata(
+                self.TEST_PROJECT1_METADATA_FP, self.TEST_PROJECT1_CONFIG_FP,
+                tmpdir, "test_output", remove_internals=True)
+            # Compare main output file directly to expected file
+            output_files = glob.glob(os.path.join(tmpdir, "*_test_output.txt"))
+            self.assertEqual(1, len(output_files))
+            with open(output_files[0], 'r') as actual_file:
+                actual_content = actual_file.read()
+            with open(self.TEST_PROJECT1_EXPECTED_OUTPUT_FP, 'r') as expected_file:
+                expected_content = expected_file.read()
+            try:
+                self.assertEqual(expected_content, actual_content)
+            except AssertionError:
+                write_mismatched_debug_files(
+                    expected_content, actual_content,
+                    "project1_output.txt")
+                raise
+            # Compare fails file directly to expected file
+            fails_files = glob.glob(os.path.join(tmpdir, "*_test_output_fails.csv"))
+            self.assertEqual(1, len(fails_files))
+            with open(fails_files[0], 'r') as actual_file:
+                actual_fails_content = actual_file.read()
+            with open(self.TEST_PROJECT1_EXPECTED_FAILS_FP, 'r') as expected_file:
+                expected_fails_content = expected_file.read()
+            try:
+                self.assertEqual(expected_fails_content, actual_fails_content)
+            except AssertionError:
+                write_mismatched_debug_files(
+                    expected_fails_content, actual_fails_content,
+                    "project1_fails.csv")
+                raise
+            # Verify validation errors file is empty
+            validation_files = glob.glob(
+                os.path.join(tmpdir, "*_test_output_validation_errors.csv"))
+            self.assertEqual(1, len(validation_files))
+            self.assertEqual(0, os.path.getsize(validation_files[0]))
     # Tests for _get_specified_column_name
     def test__get_specified_column_name_finds_column(self):

metameq 2026.2.1__py3-none-any.whl → 2026.2.3__py3-none-any.whl

metameq 2026.2.1py3-none-any.whl → 2026.2.3py3-none-any.whl