npm - @teselagen/bio-parsers - Versions diffs - 0.3.10 → 0.4.1 - Mend

@teselagen/bio-parsers 0.3.10 → 0.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

package/index.js +106 -40
package/index.mjs +106 -40
package/index.umd.js +106 -40
package/package.json +2 -2
package/src/utils/validateSequence.js +15 -11

package/index.js CHANGED Viewed

@@ -6170,7 +6170,9 @@ lodash.exports;
 })(lodash, lodash.exports);
 var lodashExports = lodash.exports;
 const _ = /* @__PURE__ */ getDefaultExportFromCjs(lodashExports);
+const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
 const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
+const ambiguous_rna_letters = "GAUCRYWSMKHBVDN";
 const aminoAcidToDegenerateDnaMap = {
   "-": "---",
   ".": "...",
@@ -11273,20 +11275,91 @@ const annotationTypes = [
   "primers",
   "guides"
 ];
-function filterSequenceString(sequenceString, additionalValidChars = "", charOverrides) {
-  if (sequenceString) {
-    return sequenceString.replace(
-      new RegExp(
-        `[^${charOverrides || `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`}]`,
-        "gi"
-      ),
-      ""
+function filterSequenceString(sequenceString, {
+  additionalValidChars = "",
+  isOligo,
+  name,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+  includeStopCodon
+} = {}) {
+  const acceptedChars = getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  });
+  const replaceChars = getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  let sanitizedVal = "";
+  const invalidChars = [];
+  const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+  const warnings = [];
+  const replaceCount = {};
+  sequenceString.split("").forEach((letter) => {
+    const lowerLetter = letter.toLowerCase();
+    if (replaceChars && replaceChars[lowerLetter]) {
+      if (!replaceCount[lowerLetter]) {
+        replaceCount[lowerLetter] = 0;
+      }
+      replaceCount[lowerLetter]++;
+      const isUpper = lowerLetter !== letter;
+      sanitizedVal += isUpper ? replaceChars[lowerLetter].toUpperCase() : replaceChars[lowerLetter];
+    } else if (chars.includes(lowerLetter)) {
+      sanitizedVal += letter;
+    } else {
+      invalidChars.push(letter);
+    }
+  });
+  Object.keys(replaceCount).forEach((letter) => {
+    warnings.push(
+      `Replaced "${letter}" with "${replaceChars[letter]}"${replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""}`
+    );
+  });
+  if (sequenceString.length !== sanitizedVal.length) {
+    warnings.push(
+      `${name ? `Sequence ${name}: ` : ""}Invalid character(s) detected and removed: ${invalidChars.slice(0, 100).join(", ")} `
     );
-  } else {
-    return sequenceString;
   }
+  if (typeof window !== "undefined" && window.toastr && warnings.length) {
+    warnings.forEach((warning) => {
+      window.toastr.warning(warning);
+    });
+  }
+  return [sanitizedVal, warnings];
 }
 __name(filterSequenceString, "filterSequenceString");
+function getAcceptedChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+  includeStopCodon
+} = {}) {
+  return isProtein ? `${protein_letters_withUandX.toLowerCase()}${includeStopCodon ? "*." : ""}}` : isOligo ? ambiguous_rna_letters.toLowerCase() + "t" : isRna ? ambiguous_rna_letters.toLowerCase() + "t" : isMixedRnaAndDna ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase() : (
+    //just plain old dna
+    ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+  );
+}
+__name(getAcceptedChars, "getAcceptedChars");
+function getReplaceChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein ? {} : isOligo ? {} : isRna ? { t: "u" } : isMixedRnaAndDna ? {} : (
+    //just plain old dna
+    {}
+  );
+}
+__name(getReplaceChars, "getReplaceChars");
 function tidyUpAnnotation(_annotation, {
   sequenceData = {},
   convertAnnotationsFromAAIndices,
@@ -11415,14 +11488,6 @@ function coerceLocation({
   }
 }
 __name(coerceLocation, "coerceLocation");
-function filterAminoAcidSequenceString(sequenceString, options) {
-  options = options || {};
-  if (options.includeStopCodon) {
-    return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-  }
-  return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-}
-__name(filterAminoAcidSequenceString, "filterAminoAcidSequenceString");
 function getDegenerateDnaStringFromAAString(aaString) {
   return aaString.split("").map((char) => aminoAcidToDegenerateDnaMap[char.toLowerCase()] || "nnn").join("");
 }
@@ -11434,11 +11499,10 @@ function tidyUpSequenceData(pSeqData, options = {}) {
     removeUnwantedChars,
     additionalValidChars,
     noTranslationData,
-    charOverrides,
     doNotProvideIdsForAnnotations,
-    proteinFilterOptions,
     noCdsTranslations,
-    convertAnnotationsFromAAIndices
+    convertAnnotationsFromAAIndices,
+    topLevelSeqData
   } = options;
   let seqData = lodashExports.cloneDeep(pSeqData);
   const response = {
@@ -11468,16 +11532,15 @@ function tidyUpSequenceData(pSeqData, options = {}) {
   }
   if (removeUnwantedChars) {
     if (seqData.isProtein) {
-      seqData.proteinSequence = filterAminoAcidSequenceString(
-        seqData.proteinSequence,
-        __spreadValues({ includeStopCodon: true }, proteinFilterOptions)
-      );
+      const [newSeq] = filterSequenceString(seqData.proteinSequence, __spreadValues({
+        includeStopCodon: true
+      }, topLevelSeqData || seqData));
+      seqData.proteinSequence = newSeq;
     } else {
-      seqData.sequence = filterSequenceString(
-        seqData.sequence,
-        `${additionalValidChars || ""}${seqData.isRna || seqData.isMixedRnaAndDna ? "u" : ""}`,
-        charOverrides
-      );
+      const [newSeq] = filterSequenceString(seqData.sequence, __spreadValues({
+        additionalValidChars
+      }, topLevelSeqData || seqData));
+      seqData.sequence = newSeq;
     }
   }
   if (seqData.isProtein) {
@@ -19312,7 +19375,8 @@ function validateSequence(sequence, options = {}) {
     inclusive1BasedEnd,
     additionalValidChars,
     allowOverflowAnnotations,
-    coerceFeatureTypes
+    coerceFeatureTypes,
+    includeStopCodon
   } = options;
   [
     "isDNA",
@@ -19362,7 +19426,6 @@ function validateSequence(sequence, options = {}) {
     response.messages.push("No sequence detected");
     sequence.sequence = "";
   }
-  let validChars;
   if (sequence.isProtein === void 0 && guessIfProtein) {
     sequence.isProtein = !guessIfSequenceIsDnaAndNotProtein(
       sequence.sequence,
@@ -19370,12 +19433,15 @@ function validateSequence(sequence, options = {}) {
     );
   }
   if (sequence.isProtein) {
-    validChars = filterAminoAcidSequenceString(sequence.sequence);
+    const [validChars, warnings] = filterSequenceString(sequence.sequence, {
+      name: sequence.name,
+      isProtein: true,
+      additionalValidChars,
+      includeStopCodon
+    });
     if (validChars !== sequence.sequence) {
       sequence.sequence = validChars;
-      response.messages.push(
-        "Import Error: Illegal character(s) detected and removed from amino acid sequence. Allowed characters are: xtgalmfwkqespvicyhrndu"
-      );
+      response.messages.push(...warnings);
     }
     sequence.type = "PROTEIN";
     sequence.isProtein = true;
@@ -19397,12 +19463,12 @@ function validateSequence(sequence, options = {}) {
     } else {
       sequence.type = "DNA";
     }
-    validChars = filterSequenceString(sequence.sequence, additionalValidChars);
+    const [validChars, warnings] = filterSequenceString(sequence.sequence, __spreadValues({
+      additionalValidChars
+    }, sequence));
     if (validChars !== sequence.sequence) {
       sequence.sequence = validChars;
-      response.messages.push(
-        "Import Error: Illegal character(s) detected and removed from sequence. Allowed characters are: atgcyrswkmbvdhn"
-      );
+      response.messages.push(...warnings);
     }
   }
   if (!sequence.size) {

package/index.mjs CHANGED Viewed

@@ -6168,7 +6168,9 @@ lodash.exports;
 })(lodash, lodash.exports);
 var lodashExports = lodash.exports;
 const _ = /* @__PURE__ */ getDefaultExportFromCjs(lodashExports);
+const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
 const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
+const ambiguous_rna_letters = "GAUCRYWSMKHBVDN";
 const aminoAcidToDegenerateDnaMap = {
   "-": "---",
   ".": "...",
@@ -11271,20 +11273,91 @@ const annotationTypes = [
   "primers",
   "guides"
 ];
-function filterSequenceString(sequenceString, additionalValidChars = "", charOverrides) {
-  if (sequenceString) {
-    return sequenceString.replace(
-      new RegExp(
-        `[^${charOverrides || `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`}]`,
-        "gi"
-      ),
-      ""
+function filterSequenceString(sequenceString, {
+  additionalValidChars = "",
+  isOligo,
+  name,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+  includeStopCodon
+} = {}) {
+  const acceptedChars = getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  });
+  const replaceChars = getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  let sanitizedVal = "";
+  const invalidChars = [];
+  const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+  const warnings = [];
+  const replaceCount = {};
+  sequenceString.split("").forEach((letter) => {
+    const lowerLetter = letter.toLowerCase();
+    if (replaceChars && replaceChars[lowerLetter]) {
+      if (!replaceCount[lowerLetter]) {
+        replaceCount[lowerLetter] = 0;
+      }
+      replaceCount[lowerLetter]++;
+      const isUpper = lowerLetter !== letter;
+      sanitizedVal += isUpper ? replaceChars[lowerLetter].toUpperCase() : replaceChars[lowerLetter];
+    } else if (chars.includes(lowerLetter)) {
+      sanitizedVal += letter;
+    } else {
+      invalidChars.push(letter);
+    }
+  });
+  Object.keys(replaceCount).forEach((letter) => {
+    warnings.push(
+      `Replaced "${letter}" with "${replaceChars[letter]}"${replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""}`
+    );
+  });
+  if (sequenceString.length !== sanitizedVal.length) {
+    warnings.push(
+      `${name ? `Sequence ${name}: ` : ""}Invalid character(s) detected and removed: ${invalidChars.slice(0, 100).join(", ")} `
     );
-  } else {
-    return sequenceString;
   }
+  if (typeof window !== "undefined" && window.toastr && warnings.length) {
+    warnings.forEach((warning) => {
+      window.toastr.warning(warning);
+    });
+  }
+  return [sanitizedVal, warnings];
 }
 __name(filterSequenceString, "filterSequenceString");
+function getAcceptedChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+  includeStopCodon
+} = {}) {
+  return isProtein ? `${protein_letters_withUandX.toLowerCase()}${includeStopCodon ? "*." : ""}}` : isOligo ? ambiguous_rna_letters.toLowerCase() + "t" : isRna ? ambiguous_rna_letters.toLowerCase() + "t" : isMixedRnaAndDna ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase() : (
+    //just plain old dna
+    ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+  );
+}
+__name(getAcceptedChars, "getAcceptedChars");
+function getReplaceChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein ? {} : isOligo ? {} : isRna ? { t: "u" } : isMixedRnaAndDna ? {} : (
+    //just plain old dna
+    {}
+  );
+}
+__name(getReplaceChars, "getReplaceChars");
 function tidyUpAnnotation(_annotation, {
   sequenceData = {},
   convertAnnotationsFromAAIndices,
@@ -11413,14 +11486,6 @@ function coerceLocation({
   }
 }
 __name(coerceLocation, "coerceLocation");
-function filterAminoAcidSequenceString(sequenceString, options) {
-  options = options || {};
-  if (options.includeStopCodon) {
-    return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-  }
-  return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-}
-__name(filterAminoAcidSequenceString, "filterAminoAcidSequenceString");
 function getDegenerateDnaStringFromAAString(aaString) {
   return aaString.split("").map((char) => aminoAcidToDegenerateDnaMap[char.toLowerCase()] || "nnn").join("");
 }
@@ -11432,11 +11497,10 @@ function tidyUpSequenceData(pSeqData, options = {}) {
     removeUnwantedChars,
     additionalValidChars,
     noTranslationData,
-    charOverrides,
     doNotProvideIdsForAnnotations,
-    proteinFilterOptions,
     noCdsTranslations,
-    convertAnnotationsFromAAIndices
+    convertAnnotationsFromAAIndices,
+    topLevelSeqData
   } = options;
   let seqData = lodashExports.cloneDeep(pSeqData);
   const response = {
@@ -11466,16 +11530,15 @@ function tidyUpSequenceData(pSeqData, options = {}) {
   }
   if (removeUnwantedChars) {
     if (seqData.isProtein) {
-      seqData.proteinSequence = filterAminoAcidSequenceString(
-        seqData.proteinSequence,
-        __spreadValues({ includeStopCodon: true }, proteinFilterOptions)
-      );
+      const [newSeq] = filterSequenceString(seqData.proteinSequence, __spreadValues({
+        includeStopCodon: true
+      }, topLevelSeqData || seqData));
+      seqData.proteinSequence = newSeq;
     } else {
-      seqData.sequence = filterSequenceString(
-        seqData.sequence,
-        `${additionalValidChars || ""}${seqData.isRna || seqData.isMixedRnaAndDna ? "u" : ""}`,
-        charOverrides
-      );
+      const [newSeq] = filterSequenceString(seqData.sequence, __spreadValues({
+        additionalValidChars
+      }, topLevelSeqData || seqData));
+      seqData.sequence = newSeq;
     }
   }
   if (seqData.isProtein) {
@@ -19310,7 +19373,8 @@ function validateSequence(sequence, options = {}) {
     inclusive1BasedEnd,
     additionalValidChars,
     allowOverflowAnnotations,
-    coerceFeatureTypes
+    coerceFeatureTypes,
+    includeStopCodon
   } = options;
   [
     "isDNA",
@@ -19360,7 +19424,6 @@ function validateSequence(sequence, options = {}) {
     response.messages.push("No sequence detected");
     sequence.sequence = "";
   }
-  let validChars;
   if (sequence.isProtein === void 0 && guessIfProtein) {
     sequence.isProtein = !guessIfSequenceIsDnaAndNotProtein(
       sequence.sequence,
@@ -19368,12 +19431,15 @@ function validateSequence(sequence, options = {}) {
     );
   }
   if (sequence.isProtein) {
-    validChars = filterAminoAcidSequenceString(sequence.sequence);
+    const [validChars, warnings] = filterSequenceString(sequence.sequence, {
+      name: sequence.name,
+      isProtein: true,
+      additionalValidChars,
+      includeStopCodon
+    });
     if (validChars !== sequence.sequence) {
       sequence.sequence = validChars;
-      response.messages.push(
-        "Import Error: Illegal character(s) detected and removed from amino acid sequence. Allowed characters are: xtgalmfwkqespvicyhrndu"
-      );
+      response.messages.push(...warnings);
     }
     sequence.type = "PROTEIN";
     sequence.isProtein = true;
@@ -19395,12 +19461,12 @@ function validateSequence(sequence, options = {}) {
     } else {
       sequence.type = "DNA";
     }
-    validChars = filterSequenceString(sequence.sequence, additionalValidChars);
+    const [validChars, warnings] = filterSequenceString(sequence.sequence, __spreadValues({
+      additionalValidChars
+    }, sequence));
     if (validChars !== sequence.sequence) {
       sequence.sequence = validChars;
-      response.messages.push(
-        "Import Error: Illegal character(s) detected and removed from sequence. Allowed characters are: atgcyrswkmbvdhn"
-      );
+      response.messages.push(...warnings);
     }
   }
   if (!sequence.size) {

package/index.umd.js CHANGED Viewed

@@ -6172,7 +6172,9 @@ var __async = (__this, __arguments, generator) => {
   })(lodash, lodash.exports);
   var lodashExports = lodash.exports;
   const _ = /* @__PURE__ */ getDefaultExportFromCjs(lodashExports);
+  const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
   const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
+  const ambiguous_rna_letters = "GAUCRYWSMKHBVDN";
   const aminoAcidToDegenerateDnaMap = {
     "-": "---",
     ".": "...",
@@ -11275,20 +11277,91 @@ var __async = (__this, __arguments, generator) => {
     "primers",
     "guides"
   ];
-  function filterSequenceString(sequenceString, additionalValidChars = "", charOverrides) {
-    if (sequenceString) {
-      return sequenceString.replace(
-        new RegExp(
-          `[^${charOverrides || `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`}]`,
-          "gi"
-        ),
-        ""
+  function filterSequenceString(sequenceString, {
+    additionalValidChars = "",
+    isOligo,
+    name: name2,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  } = {}) {
+    const acceptedChars = getAcceptedChars({
+      isOligo,
+      isProtein,
+      isRna,
+      isMixedRnaAndDna,
+      includeStopCodon
+    });
+    const replaceChars = getReplaceChars({
+      isOligo,
+      isProtein,
+      isRna,
+      isMixedRnaAndDna
+    });
+    let sanitizedVal = "";
+    const invalidChars = [];
+    const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+    const warnings = [];
+    const replaceCount = {};
+    sequenceString.split("").forEach((letter) => {
+      const lowerLetter = letter.toLowerCase();
+      if (replaceChars && replaceChars[lowerLetter]) {
+        if (!replaceCount[lowerLetter]) {
+          replaceCount[lowerLetter] = 0;
+        }
+        replaceCount[lowerLetter]++;
+        const isUpper = lowerLetter !== letter;
+        sanitizedVal += isUpper ? replaceChars[lowerLetter].toUpperCase() : replaceChars[lowerLetter];
+      } else if (chars.includes(lowerLetter)) {
+        sanitizedVal += letter;
+      } else {
+        invalidChars.push(letter);
+      }
+    });
+    Object.keys(replaceCount).forEach((letter) => {
+      warnings.push(
+        `Replaced "${letter}" with "${replaceChars[letter]}"${replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""}`
+      );
+    });
+    if (sequenceString.length !== sanitizedVal.length) {
+      warnings.push(
+        `${name2 ? `Sequence ${name2}: ` : ""}Invalid character(s) detected and removed: ${invalidChars.slice(0, 100).join(", ")} `
       );
-    } else {
-      return sequenceString;
     }
+    if (typeof window !== "undefined" && window.toastr && warnings.length) {
+      warnings.forEach((warning) => {
+        window.toastr.warning(warning);
+      });
+    }
+    return [sanitizedVal, warnings];
   }
   __name(filterSequenceString, "filterSequenceString");
+  function getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  } = {}) {
+    return isProtein ? `${protein_letters_withUandX.toLowerCase()}${includeStopCodon ? "*." : ""}}` : isOligo ? ambiguous_rna_letters.toLowerCase() + "t" : isRna ? ambiguous_rna_letters.toLowerCase() + "t" : isMixedRnaAndDna ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase() : (
+      //just plain old dna
+      ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+    );
+  }
+  __name(getAcceptedChars, "getAcceptedChars");
+  function getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  } = {}) {
+    return isProtein ? {} : isOligo ? {} : isRna ? { t: "u" } : isMixedRnaAndDna ? {} : (
+      //just plain old dna
+      {}
+    );
+  }
+  __name(getReplaceChars, "getReplaceChars");
   function tidyUpAnnotation(_annotation, {
     sequenceData = {},
     convertAnnotationsFromAAIndices,
@@ -11417,14 +11490,6 @@ var __async = (__this, __arguments, generator) => {
     }
   }
   __name(coerceLocation, "coerceLocation");
-  function filterAminoAcidSequenceString(sequenceString, options) {
-    options = options || {};
-    if (options.includeStopCodon) {
-      return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-    }
-    return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-  }
-  __name(filterAminoAcidSequenceString, "filterAminoAcidSequenceString");
   function getDegenerateDnaStringFromAAString(aaString) {
     return aaString.split("").map((char) => aminoAcidToDegenerateDnaMap[char.toLowerCase()] || "nnn").join("");
   }
@@ -11436,11 +11501,10 @@ var __async = (__this, __arguments, generator) => {
       removeUnwantedChars,
       additionalValidChars,
       noTranslationData,
-      charOverrides,
       doNotProvideIdsForAnnotations,
-      proteinFilterOptions,
       noCdsTranslations,
-      convertAnnotationsFromAAIndices
+      convertAnnotationsFromAAIndices,
+      topLevelSeqData
     } = options;
     let seqData = lodashExports.cloneDeep(pSeqData);
     const response = {
@@ -11470,16 +11534,15 @@ var __async = (__this, __arguments, generator) => {
     }
     if (removeUnwantedChars) {
       if (seqData.isProtein) {
-        seqData.proteinSequence = filterAminoAcidSequenceString(
-          seqData.proteinSequence,
-          __spreadValues({ includeStopCodon: true }, proteinFilterOptions)
-        );
+        const [newSeq] = filterSequenceString(seqData.proteinSequence, __spreadValues({
+          includeStopCodon: true
+        }, topLevelSeqData || seqData));
+        seqData.proteinSequence = newSeq;
       } else {
-        seqData.sequence = filterSequenceString(
-          seqData.sequence,
-          `${additionalValidChars || ""}${seqData.isRna || seqData.isMixedRnaAndDna ? "u" : ""}`,
-          charOverrides
-        );
+        const [newSeq] = filterSequenceString(seqData.sequence, __spreadValues({
+          additionalValidChars
+        }, topLevelSeqData || seqData));
+        seqData.sequence = newSeq;
       }
     }
     if (seqData.isProtein) {
@@ -19314,7 +19377,8 @@ var __async = (__this, __arguments, generator) => {
       inclusive1BasedEnd,
       additionalValidChars,
       allowOverflowAnnotations,
-      coerceFeatureTypes
+      coerceFeatureTypes,
+      includeStopCodon
     } = options;
     [
       "isDNA",
@@ -19364,7 +19428,6 @@ var __async = (__this, __arguments, generator) => {
       response.messages.push("No sequence detected");
       sequence.sequence = "";
     }
-    let validChars;
     if (sequence.isProtein === void 0 && guessIfProtein) {
       sequence.isProtein = !guessIfSequenceIsDnaAndNotProtein(
         sequence.sequence,
@@ -19372,12 +19435,15 @@ var __async = (__this, __arguments, generator) => {
       );
     }
     if (sequence.isProtein) {
-      validChars = filterAminoAcidSequenceString(sequence.sequence);
+      const [validChars, warnings] = filterSequenceString(sequence.sequence, {
+        name: sequence.name,
+        isProtein: true,
+        additionalValidChars,
+        includeStopCodon
+      });
       if (validChars !== sequence.sequence) {
         sequence.sequence = validChars;
-        response.messages.push(
-          "Import Error: Illegal character(s) detected and removed from amino acid sequence. Allowed characters are: xtgalmfwkqespvicyhrndu"
-        );
+        response.messages.push(...warnings);
       }
       sequence.type = "PROTEIN";
       sequence.isProtein = true;
@@ -19399,12 +19465,12 @@ var __async = (__this, __arguments, generator) => {
       } else {
         sequence.type = "DNA";
       }
-      validChars = filterSequenceString(sequence.sequence, additionalValidChars);
+      const [validChars, warnings] = filterSequenceString(sequence.sequence, __spreadValues({
+        additionalValidChars
+      }, sequence));
       if (validChars !== sequence.sequence) {
         sequence.sequence = validChars;
-        response.messages.push(
-          "Import Error: Illegal character(s) detected and removed from sequence. Allowed characters are: atgcyrswkmbvdhn"
-        );
+        response.messages.push(...warnings);
       }
     }
     if (!sequence.size) {

package/package.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "name": "@teselagen/bio-parsers",
-  "version": "0.3.10",
+  "version": "0.4.1",
   "dependencies": {
-    "@teselagen/sequence-utils": "0.3.8",
+    "@teselagen/sequence-utils": "0.3.9",
     "@teselagen/range-utils": "0.3.7",
     "@gmod/gff": "^1.2.1",
     "buffer": "^6.0.3",

package/src/utils/validateSequence.js CHANGED Viewed

@@ -1,7 +1,6 @@
 import areNonNegativeIntegers from "validate.io-nonnegative-integer-array";
 import { getFeatureTypes } from "@teselagen/sequence-utils";
 import {
-  filterAminoAcidSequenceString,
   filterSequenceString,
   guessIfSequenceIsDnaAndNotProtein
 } from "@teselagen/sequence-utils";
@@ -30,7 +29,8 @@ export default function validateSequence(sequence, options = {}) {
     inclusive1BasedEnd,
     additionalValidChars,
     allowOverflowAnnotations,
-    coerceFeatureTypes
+    coerceFeatureTypes,
+    includeStopCodon
   } = options;
   [
     "isDNA",
@@ -84,7 +84,7 @@ export default function validateSequence(sequence, options = {}) {
     response.messages.push("No sequence detected");
     sequence.sequence = "";
   }
-  let validChars;
   if (sequence.isProtein === undefined && guessIfProtein) {
     sequence.isProtein = !guessIfSequenceIsDnaAndNotProtein(
       sequence.sequence,
@@ -93,12 +93,15 @@ export default function validateSequence(sequence, options = {}) {
   }
   if (sequence.isProtein) {
     //tnr: add code to strip invalid protein data..
-    validChars = filterAminoAcidSequenceString(sequence.sequence);
+    const [validChars, warnings] = filterSequenceString(sequence.sequence, {
+      name: sequence.name,
+      isProtein: true,
+      additionalValidChars,
+      includeStopCodon
+    });
     if (validChars !== sequence.sequence) {
       sequence.sequence = validChars;
-      response.messages.push(
-        "Import Error: Illegal character(s) detected and removed from amino acid sequence. Allowed characters are: xtgalmfwkqespvicyhrndu"
-      );
+      response.messages.push(...warnings);
     }
     sequence.type = "PROTEIN";
     sequence.isProtein = true;
@@ -126,12 +129,13 @@ export default function validateSequence(sequence, options = {}) {
       sequence.type = "DNA";
     }
-    validChars = filterSequenceString(sequence.sequence, additionalValidChars);
+    const [validChars, warnings] = filterSequenceString(sequence.sequence, {
+      additionalValidChars,
+      ...sequence
+    });
     if (validChars !== sequence.sequence) {
       sequence.sequence = validChars;
-      response.messages.push(
-        "Import Error: Illegal character(s) detected and removed from sequence. Allowed characters are: atgcyrswkmbvdhn"
-      );
+      response.messages.push(...warnings);
     }
   }