npm - @teselagen/sequence-utils - Versions diffs - 0.3.8 → 0.3.9 - Mend

@teselagen/sequence-utils 0.3.8 → 0.3.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

package/bioData.d.ts +1 -0
package/filterSequenceString.d.ts +26 -1
package/index.d.ts +0 -1
package/index.js +93 -31
package/index.mjs +93 -31
package/index.umd.js +93 -31
package/package.json +1 -1
package/src/bioData.js +1 -1
package/src/filterSequenceString.js +110 -17
package/src/filterSequenceString.test.js +62 -3
package/src/index.js +0 -1
package/src/proteinAlphabet.js +2 -5
package/src/tidyUpSequenceData.js +12 -15
package/filterAminoAcidSequenceString.d.ts +0 -1
package/filterAminoAcidSequenceString.test.d.ts +0 -1
package/src/filterAminoAcidSequenceString.js +0 -10
package/src/filterAminoAcidSequenceString.test.js +0 -24

package/bioData.d.ts CHANGED Viewed

@@ -1,4 +1,5 @@
 export const protein_letters: "ACDEFGHIKLMNPQRSTVWY";
+export const protein_letters_withUandX: "ACDEFGHIKLMNPQRSTVWYUX";
 export const extended_protein_letters: "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
 export const ambiguous_dna_letters: "GATCRYWSMKHBVDN";
 export const unambiguous_dna_letters: "GATC";

package/filterSequenceString.d.ts CHANGED Viewed

@@ -1 +1,26 @@
-export default function filterSequenceString(sequenceString: any, additionalValidChars: string | undefined, charOverrides: any): any;
+export default function filterSequenceString(sequenceString: any, { additionalValidChars, isOligo, name, isProtein, isRna, isMixedRnaAndDna, includeStopCodon }?: {
+    additionalValidChars?: string | undefined;
+    isOligo: any;
+    name: any;
+    isProtein: any;
+    isRna: any;
+    isMixedRnaAndDna: any;
+    includeStopCodon: any;
+}): (string | string[])[];
+export function getAcceptedChars({ isOligo, isProtein, isRna, isMixedRnaAndDna, includeStopCodon }?: {
+    isOligo: any;
+    isProtein: any;
+    isRna: any;
+    isMixedRnaAndDna: any;
+    includeStopCodon: any;
+}): string;
+export function getReplaceChars({ isOligo, isProtein, isRna, isMixedRnaAndDna }?: {
+    isOligo: any;
+    isProtein: any;
+    isRna: any;
+    isMixedRnaAndDna: any;
+}): {
+    t?: undefined;
+} | {
+    t: string;
+};

package/index.d.ts CHANGED Viewed

@@ -20,7 +20,6 @@ export { default as aliasedEnzymesByName } from "./aliasedEnzymesByName";
 export { default as defaultEnzymesByName } from "./defaultEnzymesByName";
 export { default as generateSequenceData } from "./generateSequenceData";
 export { default as generateAnnotations } from "./generateAnnotations";
-export { default as filterAminoAcidSequenceString } from "./filterAminoAcidSequenceString";
 export { default as filterSequenceString } from "./filterSequenceString";
 export { default as findNearestRangeOfSequenceOverlapToPosition } from "./findNearestRangeOfSequenceOverlapToPosition";
 export { default as findOrfsInPlasmid } from "./findOrfsInPlasmid";

package/index.js CHANGED Viewed

@@ -5999,6 +5999,7 @@ lodash.exports;
 })(lodash, lodash.exports);
 var lodashExports = lodash.exports;
 const protein_letters = "ACDEFGHIKLMNPQRSTVWY";
+const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
 const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
 const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
 const unambiguous_dna_letters = "GATC";
@@ -6067,6 +6068,7 @@ const bioData = /* @__PURE__ */ Object.freeze(/* @__PURE__ */ Object.definePrope
   extended_protein_letters,
   extended_protein_values,
   protein_letters,
+  protein_letters_withUandX,
   unambiguous_dna_letters,
   unambiguous_rna_letters
 }, Symbol.toStringTag, { value: "Module" }));
@@ -12321,20 +12323,91 @@ const modifiableTypes = [
   "primers",
   "guides"
 ];
-function filterSequenceString(sequenceString, additionalValidChars = "", charOverrides) {
-  if (sequenceString) {
-    return sequenceString.replace(
-      new RegExp(
-        `[^${charOverrides || `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`}]`,
-        "gi"
-      ),
-      ""
+function filterSequenceString(sequenceString, {
+  additionalValidChars = "",
+  isOligo,
+  name,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+  includeStopCodon
+} = {}) {
+  const acceptedChars = getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  });
+  const replaceChars = getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  let sanitizedVal = "";
+  const invalidChars = [];
+  const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+  const warnings = [];
+  const replaceCount = {};
+  sequenceString.split("").forEach((letter) => {
+    const lowerLetter = letter.toLowerCase();
+    if (replaceChars && replaceChars[lowerLetter]) {
+      if (!replaceCount[lowerLetter]) {
+        replaceCount[lowerLetter] = 0;
+      }
+      replaceCount[lowerLetter]++;
+      const isUpper = lowerLetter !== letter;
+      sanitizedVal += isUpper ? replaceChars[lowerLetter].toUpperCase() : replaceChars[lowerLetter];
+    } else if (chars.includes(lowerLetter)) {
+      sanitizedVal += letter;
+    } else {
+      invalidChars.push(letter);
+    }
+  });
+  Object.keys(replaceCount).forEach((letter) => {
+    warnings.push(
+      `Replaced "${letter}" with "${replaceChars[letter]}"${replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""}`
     );
-  } else {
-    return sequenceString;
+  });
+  if (sequenceString.length !== sanitizedVal.length) {
+    warnings.push(
+      `${name ? `Sequence ${name}: ` : ""}Invalid character(s) detected and removed: ${invalidChars.slice(0, 100).join(", ")} `
+    );
+  }
+  if (typeof window !== "undefined" && window.toastr && warnings.length) {
+    warnings.forEach((warning) => {
+      window.toastr.warning(warning);
+    });
   }
+  return [sanitizedVal, warnings];
 }
 __name(filterSequenceString, "filterSequenceString");
+function getAcceptedChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+  includeStopCodon
+} = {}) {
+  return isProtein ? `${protein_letters_withUandX.toLowerCase()}${includeStopCodon ? "*." : ""}}` : isOligo ? ambiguous_rna_letters.toLowerCase() + "t" : isRna ? ambiguous_rna_letters.toLowerCase() + "t" : isMixedRnaAndDna ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase() : (
+    //just plain old dna
+    ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+  );
+}
+__name(getAcceptedChars, "getAcceptedChars");
+function getReplaceChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein ? {} : isOligo ? {} : isRna ? { t: "u" } : isMixedRnaAndDna ? {} : (
+    //just plain old dna
+    {}
+  );
+}
+__name(getReplaceChars, "getReplaceChars");
 function tidyUpAnnotation(_annotation, {
   sequenceData = {},
   convertAnnotationsFromAAIndices,
@@ -12463,14 +12536,6 @@ function coerceLocation({
   }
 }
 __name(coerceLocation, "coerceLocation");
-function filterAminoAcidSequenceString(sequenceString, options) {
-  options = options || {};
-  if (options.includeStopCodon) {
-    return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-  }
-  return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-}
-__name(filterAminoAcidSequenceString, "filterAminoAcidSequenceString");
 function getDegenerateDnaStringFromAAString(aaString) {
   return aaString.split("").map((char) => aminoAcidToDegenerateDnaMap[char.toLowerCase()] || "nnn").join("");
 }
@@ -12482,11 +12547,10 @@ function tidyUpSequenceData(pSeqData, options = {}) {
     removeUnwantedChars,
     additionalValidChars,
     noTranslationData,
-    charOverrides,
     doNotProvideIdsForAnnotations,
-    proteinFilterOptions,
     noCdsTranslations,
-    convertAnnotationsFromAAIndices
+    convertAnnotationsFromAAIndices,
+    topLevelSeqData
   } = options;
   let seqData = lodashExports.cloneDeep(pSeqData);
   const response = {
@@ -12516,16 +12580,15 @@ function tidyUpSequenceData(pSeqData, options = {}) {
   }
   if (removeUnwantedChars) {
     if (seqData.isProtein) {
-      seqData.proteinSequence = filterAminoAcidSequenceString(
-        seqData.proteinSequence,
-        __spreadValues({ includeStopCodon: true }, proteinFilterOptions)
-      );
+      const [newSeq] = filterSequenceString(seqData.proteinSequence, __spreadValues({
+        includeStopCodon: true
+      }, topLevelSeqData || seqData));
+      seqData.proteinSequence = newSeq;
     } else {
-      seqData.sequence = filterSequenceString(
-        seqData.sequence,
-        `${additionalValidChars || ""}${seqData.isRna || seqData.isMixedRnaAndDna ? "u" : ""}`,
-        charOverrides
-      );
+      const [newSeq] = filterSequenceString(seqData.sequence, __spreadValues({
+        additionalValidChars
+      }, topLevelSeqData || seqData));
+      seqData.sequence = newSeq;
     }
   }
   if (seqData.isProtein) {
@@ -22665,7 +22728,6 @@ exports.degenerateRnaToAminoAcidMap = degenerateRnaToAminoAcidMap;
 exports.deleteSequenceDataAtRange = deleteSequenceDataAtRange;
 exports.doesEnzymeChopOutsideOfRecognitionSite = doesEnzymeChopOutsideOfRecognitionSite;
 exports.featureColors = featureColors;
-exports.filterAminoAcidSequenceString = filterAminoAcidSequenceString;
 exports.filterSequenceString = filterSequenceString;
 exports.findNearestRangeOfSequenceOverlapToPosition = findNearestRangeOfSequenceOverlapToPosition;
 exports.findOrfsInPlasmid = findOrfsInPlasmid;

package/index.mjs CHANGED Viewed

@@ -5997,6 +5997,7 @@ lodash.exports;
 })(lodash, lodash.exports);
 var lodashExports = lodash.exports;
 const protein_letters = "ACDEFGHIKLMNPQRSTVWY";
+const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
 const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
 const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
 const unambiguous_dna_letters = "GATC";
@@ -6065,6 +6066,7 @@ const bioData = /* @__PURE__ */ Object.freeze(/* @__PURE__ */ Object.definePrope
   extended_protein_letters,
   extended_protein_values,
   protein_letters,
+  protein_letters_withUandX,
   unambiguous_dna_letters,
   unambiguous_rna_letters
 }, Symbol.toStringTag, { value: "Module" }));
@@ -12319,20 +12321,91 @@ const modifiableTypes = [
   "primers",
   "guides"
 ];
-function filterSequenceString(sequenceString, additionalValidChars = "", charOverrides) {
-  if (sequenceString) {
-    return sequenceString.replace(
-      new RegExp(
-        `[^${charOverrides || `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`}]`,
-        "gi"
-      ),
-      ""
+function filterSequenceString(sequenceString, {
+  additionalValidChars = "",
+  isOligo,
+  name,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+  includeStopCodon
+} = {}) {
+  const acceptedChars = getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  });
+  const replaceChars = getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  let sanitizedVal = "";
+  const invalidChars = [];
+  const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+  const warnings = [];
+  const replaceCount = {};
+  sequenceString.split("").forEach((letter) => {
+    const lowerLetter = letter.toLowerCase();
+    if (replaceChars && replaceChars[lowerLetter]) {
+      if (!replaceCount[lowerLetter]) {
+        replaceCount[lowerLetter] = 0;
+      }
+      replaceCount[lowerLetter]++;
+      const isUpper = lowerLetter !== letter;
+      sanitizedVal += isUpper ? replaceChars[lowerLetter].toUpperCase() : replaceChars[lowerLetter];
+    } else if (chars.includes(lowerLetter)) {
+      sanitizedVal += letter;
+    } else {
+      invalidChars.push(letter);
+    }
+  });
+  Object.keys(replaceCount).forEach((letter) => {
+    warnings.push(
+      `Replaced "${letter}" with "${replaceChars[letter]}"${replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""}`
     );
-  } else {
-    return sequenceString;
+  });
+  if (sequenceString.length !== sanitizedVal.length) {
+    warnings.push(
+      `${name ? `Sequence ${name}: ` : ""}Invalid character(s) detected and removed: ${invalidChars.slice(0, 100).join(", ")} `
+    );
+  }
+  if (typeof window !== "undefined" && window.toastr && warnings.length) {
+    warnings.forEach((warning) => {
+      window.toastr.warning(warning);
+    });
   }
+  return [sanitizedVal, warnings];
 }
 __name(filterSequenceString, "filterSequenceString");
+function getAcceptedChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+  includeStopCodon
+} = {}) {
+  return isProtein ? `${protein_letters_withUandX.toLowerCase()}${includeStopCodon ? "*." : ""}}` : isOligo ? ambiguous_rna_letters.toLowerCase() + "t" : isRna ? ambiguous_rna_letters.toLowerCase() + "t" : isMixedRnaAndDna ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase() : (
+    //just plain old dna
+    ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+  );
+}
+__name(getAcceptedChars, "getAcceptedChars");
+function getReplaceChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein ? {} : isOligo ? {} : isRna ? { t: "u" } : isMixedRnaAndDna ? {} : (
+    //just plain old dna
+    {}
+  );
+}
+__name(getReplaceChars, "getReplaceChars");
 function tidyUpAnnotation(_annotation, {
   sequenceData = {},
   convertAnnotationsFromAAIndices,
@@ -12461,14 +12534,6 @@ function coerceLocation({
   }
 }
 __name(coerceLocation, "coerceLocation");
-function filterAminoAcidSequenceString(sequenceString, options) {
-  options = options || {};
-  if (options.includeStopCodon) {
-    return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-  }
-  return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-}
-__name(filterAminoAcidSequenceString, "filterAminoAcidSequenceString");
 function getDegenerateDnaStringFromAAString(aaString) {
   return aaString.split("").map((char) => aminoAcidToDegenerateDnaMap[char.toLowerCase()] || "nnn").join("");
 }
@@ -12480,11 +12545,10 @@ function tidyUpSequenceData(pSeqData, options = {}) {
     removeUnwantedChars,
     additionalValidChars,
     noTranslationData,
-    charOverrides,
     doNotProvideIdsForAnnotations,
-    proteinFilterOptions,
     noCdsTranslations,
-    convertAnnotationsFromAAIndices
+    convertAnnotationsFromAAIndices,
+    topLevelSeqData
   } = options;
   let seqData = lodashExports.cloneDeep(pSeqData);
   const response = {
@@ -12514,16 +12578,15 @@ function tidyUpSequenceData(pSeqData, options = {}) {
   }
   if (removeUnwantedChars) {
     if (seqData.isProtein) {
-      seqData.proteinSequence = filterAminoAcidSequenceString(
-        seqData.proteinSequence,
-        __spreadValues({ includeStopCodon: true }, proteinFilterOptions)
-      );
+      const [newSeq] = filterSequenceString(seqData.proteinSequence, __spreadValues({
+        includeStopCodon: true
+      }, topLevelSeqData || seqData));
+      seqData.proteinSequence = newSeq;
     } else {
-      seqData.sequence = filterSequenceString(
-        seqData.sequence,
-        `${additionalValidChars || ""}${seqData.isRna || seqData.isMixedRnaAndDna ? "u" : ""}`,
-        charOverrides
-      );
+      const [newSeq] = filterSequenceString(seqData.sequence, __spreadValues({
+        additionalValidChars
+      }, topLevelSeqData || seqData));
+      seqData.sequence = newSeq;
     }
   }
   if (seqData.isProtein) {
@@ -22664,7 +22727,6 @@ export {
   deleteSequenceDataAtRange,
   doesEnzymeChopOutsideOfRecognitionSite,
   featureColors,
-  filterAminoAcidSequenceString,
   filterSequenceString,
   findNearestRangeOfSequenceOverlapToPosition,
   findOrfsInPlasmid,

package/index.umd.js CHANGED Viewed

@@ -6001,6 +6001,7 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
   })(lodash, lodash.exports);
   var lodashExports = lodash.exports;
   const protein_letters = "ACDEFGHIKLMNPQRSTVWY";
+  const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
   const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
   const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
   const unambiguous_dna_letters = "GATC";
@@ -6069,6 +6070,7 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
     extended_protein_letters,
     extended_protein_values,
     protein_letters,
+    protein_letters_withUandX,
     unambiguous_dna_letters,
     unambiguous_rna_letters
   }, Symbol.toStringTag, { value: "Module" }));
@@ -12323,20 +12325,91 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
     "primers",
     "guides"
   ];
-  function filterSequenceString(sequenceString, additionalValidChars = "", charOverrides) {
-    if (sequenceString) {
-      return sequenceString.replace(
-        new RegExp(
-          `[^${charOverrides || `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`}]`,
-          "gi"
-        ),
-        ""
+  function filterSequenceString(sequenceString, {
+    additionalValidChars = "",
+    isOligo,
+    name,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  } = {}) {
+    const acceptedChars = getAcceptedChars({
+      isOligo,
+      isProtein,
+      isRna,
+      isMixedRnaAndDna,
+      includeStopCodon
+    });
+    const replaceChars = getReplaceChars({
+      isOligo,
+      isProtein,
+      isRna,
+      isMixedRnaAndDna
+    });
+    let sanitizedVal = "";
+    const invalidChars = [];
+    const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+    const warnings = [];
+    const replaceCount = {};
+    sequenceString.split("").forEach((letter) => {
+      const lowerLetter = letter.toLowerCase();
+      if (replaceChars && replaceChars[lowerLetter]) {
+        if (!replaceCount[lowerLetter]) {
+          replaceCount[lowerLetter] = 0;
+        }
+        replaceCount[lowerLetter]++;
+        const isUpper = lowerLetter !== letter;
+        sanitizedVal += isUpper ? replaceChars[lowerLetter].toUpperCase() : replaceChars[lowerLetter];
+      } else if (chars.includes(lowerLetter)) {
+        sanitizedVal += letter;
+      } else {
+        invalidChars.push(letter);
+      }
+    });
+    Object.keys(replaceCount).forEach((letter) => {
+      warnings.push(
+        `Replaced "${letter}" with "${replaceChars[letter]}"${replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""}`
       );
-    } else {
-      return sequenceString;
+    });
+    if (sequenceString.length !== sanitizedVal.length) {
+      warnings.push(
+        `${name ? `Sequence ${name}: ` : ""}Invalid character(s) detected and removed: ${invalidChars.slice(0, 100).join(", ")} `
+      );
+    }
+    if (typeof window !== "undefined" && window.toastr && warnings.length) {
+      warnings.forEach((warning) => {
+        window.toastr.warning(warning);
+      });
     }
+    return [sanitizedVal, warnings];
   }
   __name(filterSequenceString, "filterSequenceString");
+  function getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  } = {}) {
+    return isProtein ? `${protein_letters_withUandX.toLowerCase()}${includeStopCodon ? "*." : ""}}` : isOligo ? ambiguous_rna_letters.toLowerCase() + "t" : isRna ? ambiguous_rna_letters.toLowerCase() + "t" : isMixedRnaAndDna ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase() : (
+      //just plain old dna
+      ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+    );
+  }
+  __name(getAcceptedChars, "getAcceptedChars");
+  function getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  } = {}) {
+    return isProtein ? {} : isOligo ? {} : isRna ? { t: "u" } : isMixedRnaAndDna ? {} : (
+      //just plain old dna
+      {}
+    );
+  }
+  __name(getReplaceChars, "getReplaceChars");
   function tidyUpAnnotation(_annotation, {
     sequenceData = {},
     convertAnnotationsFromAAIndices,
@@ -12465,14 +12538,6 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
     }
   }
   __name(coerceLocation, "coerceLocation");
-  function filterAminoAcidSequenceString(sequenceString, options) {
-    options = options || {};
-    if (options.includeStopCodon) {
-      return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-    }
-    return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-  }
-  __name(filterAminoAcidSequenceString, "filterAminoAcidSequenceString");
   function getDegenerateDnaStringFromAAString(aaString) {
     return aaString.split("").map((char) => aminoAcidToDegenerateDnaMap[char.toLowerCase()] || "nnn").join("");
   }
@@ -12484,11 +12549,10 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
       removeUnwantedChars,
       additionalValidChars,
       noTranslationData,
-      charOverrides,
       doNotProvideIdsForAnnotations,
-      proteinFilterOptions,
       noCdsTranslations,
-      convertAnnotationsFromAAIndices
+      convertAnnotationsFromAAIndices,
+      topLevelSeqData
     } = options;
     let seqData = lodashExports.cloneDeep(pSeqData);
     const response = {
@@ -12518,16 +12582,15 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
     }
     if (removeUnwantedChars) {
       if (seqData.isProtein) {
-        seqData.proteinSequence = filterAminoAcidSequenceString(
-          seqData.proteinSequence,
-          __spreadValues({ includeStopCodon: true }, proteinFilterOptions)
-        );
+        const [newSeq] = filterSequenceString(seqData.proteinSequence, __spreadValues({
+          includeStopCodon: true
+        }, topLevelSeqData || seqData));
+        seqData.proteinSequence = newSeq;
       } else {
-        seqData.sequence = filterSequenceString(
-          seqData.sequence,
-          `${additionalValidChars || ""}${seqData.isRna || seqData.isMixedRnaAndDna ? "u" : ""}`,
-          charOverrides
-        );
+        const [newSeq] = filterSequenceString(seqData.sequence, __spreadValues({
+          additionalValidChars
+        }, topLevelSeqData || seqData));
+        seqData.sequence = newSeq;
       }
     }
     if (seqData.isProtein) {
@@ -22667,7 +22730,6 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
   exports2.deleteSequenceDataAtRange = deleteSequenceDataAtRange;
   exports2.doesEnzymeChopOutsideOfRecognitionSite = doesEnzymeChopOutsideOfRecognitionSite;
   exports2.featureColors = featureColors;
-  exports2.filterAminoAcidSequenceString = filterAminoAcidSequenceString;
   exports2.filterSequenceString = filterSequenceString;
   exports2.findNearestRangeOfSequenceOverlapToPosition = findNearestRangeOfSequenceOverlapToPosition;
   exports2.findOrfsInPlasmid = findOrfsInPlasmid;

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@teselagen/sequence-utils",
-  "version": "0.3.8",
+  "version": "0.3.9",
   "dependencies": {
     "@teselagen/range-utils": "0.3.7",
     "bson-objectid": "^2.0.4",

package/src/bioData.js CHANGED Viewed

@@ -1,6 +1,7 @@
 //Adapted from biopython. Check the BIOPYTHON_LICENSE for licensing info
 export const protein_letters = "ACDEFGHIKLMNPQRSTVWY";
+export const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
 export const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
 export const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
@@ -29,7 +30,6 @@ export const ambiguous_dna_values = {
   N: "GATC"
 };
 export const extended_protein_values = {
   A: "A",
   B: "ND",

package/src/filterSequenceString.js CHANGED Viewed

@@ -1,24 +1,117 @@
-// this is throwing a weird eslint error
+import {
+  ambiguous_dna_letters,
+  ambiguous_rna_letters,
+  protein_letters_withUandX
+} from "./bioData";
-//
 export default function filterSequenceString(
   sequenceString,
-  additionalValidChars = "",
-  charOverrides
+  {
+    additionalValidChars = "",
+    isOligo,
+    name,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  } = {}
 ) {
-  // ac.throw(ac.string,sequenceString);
-  if (sequenceString) {
-    return sequenceString.replace(
-      new RegExp(
-        `[^${
-          charOverrides ||
-          `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`
-        }]`,
-        "gi"
-      ),
-      ""
+  const acceptedChars = getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+    includeStopCodon
+  });
+  const replaceChars = getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  let sanitizedVal = "";
+  const invalidChars = [];
+  const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+  const warnings = [];
+  const replaceCount = {};
+  sequenceString.split("").forEach(letter => {
+    const lowerLetter = letter.toLowerCase();
+    if (replaceChars && replaceChars[lowerLetter]) {
+      if (!replaceCount[lowerLetter]) {
+        replaceCount[lowerLetter] = 0;
+      }
+      replaceCount[lowerLetter]++;
+      const isUpper = lowerLetter !== letter;
+      sanitizedVal += isUpper
+        ? replaceChars[lowerLetter].toUpperCase()
+        : replaceChars[lowerLetter];
+    } else if (chars.includes(lowerLetter)) {
+      sanitizedVal += letter;
+    } else {
+      invalidChars.push(letter);
+    }
+  });
+  //add replace count warnings
+  Object.keys(replaceCount).forEach(letter => {
+    warnings.push(
+      `Replaced "${letter}" with "${replaceChars[letter]}"${
+        replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""
+      }`
+    );
+  });
+  if (sequenceString.length !== sanitizedVal.length) {
+    warnings.push(
+      `${
+        name ? `Sequence ${name}: ` : ""
+      }Invalid character(s) detected and removed: ${invalidChars
+        .slice(0, 100)
+        .join(", ")} `
     );
-  } else {
-    return sequenceString;
   }
+  if (typeof window !== "undefined" && window.toastr && warnings.length) {
+    warnings.forEach(warning => {
+      window.toastr.warning(warning);
+    });
+  }
+  return [sanitizedVal, warnings];
+}
+export function getAcceptedChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+  includeStopCodon
+} = {}) {
+  return isProtein
+    ? `${protein_letters_withUandX.toLowerCase()}${
+        includeStopCodon ? "*." : ""
+      }}`
+    : isOligo
+    ? ambiguous_rna_letters.toLowerCase() + "t"
+    : isRna
+    ? ambiguous_rna_letters.toLowerCase() + "t"
+    : isMixedRnaAndDna
+    ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+    : //just plain old dna
+      ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase();
+}
+export function getReplaceChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein
+    ? {}
+    : isOligo
+    ? {}
+    : isRna
+    ? { t: "u" }
+    : isMixedRnaAndDna
+    ? {}
+    : //just plain old dna
+      {};
 }

package/src/filterSequenceString.test.js CHANGED Viewed

@@ -1,13 +1,72 @@
 import filterSequenceString from "./filterSequenceString";
+import { expect } from "vitest";
 describe("filterSequenceString", () => {
+  it("should not filter u's and should convert t's to u's from isOligo=true seqs", () => {
+    const [str, warnings] = filterSequenceString("tatuuag--a", {
+      isOligo: true
+    });
+    expect(str).toBe("tatuuaga");
+    // expect(warnings[0]).toBe('Replaced "t" with "u" 2 times');
+    expect(warnings[0]).toBe(
+      "Invalid character(s) detected and removed: -, - "
+    );
+  });
+  it("should not convert u's to t's for isDna (default isDna=true) seqs", () => {
+    const [str, warnings] = filterSequenceString("tatuuag--a", {});
+    // expect(warnings[0]).toBe('Replaced "u" with "t" 2 times');
+    expect(warnings[0]).toBe(
+      "Invalid character(s) detected and removed: -, - "
+    );
+    expect(str).toBe("tatuuaga");
+  });
   it("should filter out unwanted chars", () => {
-    expect(filterSequenceString("tatag--a")).toBe("tataga");
+    const [str, warnings] = filterSequenceString("tatag--a");
+    expect(warnings[0]).toBe(
+      "Invalid character(s) detected and removed: -, - "
+    );
+    expect(str).toBe("tataga");
   });
   it("should handle additional chars option", () => {
-    expect(filterSequenceString("tatag--a", "-")).toBe("tatag--a");
+    const [str, warnings] = filterSequenceString("tatag--a", {
+      additionalValidChars: "-"
+    });
+    expect(warnings.length).toBe(0);
+    expect(str).toBe("tatag--a");
   });
   it("should handle additional chars option", () => {
-    expect(filterSequenceString("tatag--a", "f-q")).toBe("tatag--a");
+    const [str, warnings] = filterSequenceString("tatag--a", {
+      additionalValidChars: "f-q"
+    });
+    expect(warnings.length).toBe(0);
+    expect(str).toBe("tatag--a");
+  });
+  it("when isProtein: true, should filter only valid amino acids by default", () => {
+    const [str, warnings] = filterSequenceString(
+      'bbb342"""xtgalmfwkqespvicyhrnd,,../',
+      {
+        isProtein: true
+      }
+    );
+    expect(warnings[0]).toBe(
+      'Invalid character(s) detected and removed: b, b, b, 3, 4, 2, ", ", ", ,, ,, ., ., / '
+    );
+    expect(str).toBe("xtgalmfwkqespvicyhrnd");
+  });
+  it("when isProtein: true, should handle upper case letters", () => {
+    const [str, warnings] = filterSequenceString("xtgalmfWKQEspvicyhrnd", {
+      isProtein: true
+    });
+    expect(warnings.length).toBe(0);
+    expect(str).toBe("xtgalmfWKQEspvicyhrnd");
+  });
+  it("when isProtein: true, should handle the option to includeStopCodon by allowing periods", () => {
+    const [str] = filterSequenceString('bbb342"""xtgalmfwkqespvicyhrnd,,../', {
+      isProtein: true,
+      includeStopCodon: true
+    });
+    expect(str).toBe("xtgalmfwkqespvicyhrnd..");
   });
 });

package/src/index.js CHANGED Viewed

@@ -51,7 +51,6 @@ export { default as aliasedEnzymesByName } from "./aliasedEnzymesByName";
 export { default as defaultEnzymesByName } from "./defaultEnzymesByName";
 export { default as generateSequenceData } from "./generateSequenceData";
 export { default as generateAnnotations } from "./generateAnnotations";
-export { default as filterAminoAcidSequenceString } from "./filterAminoAcidSequenceString";
 export { default as filterSequenceString } from "./filterSequenceString";
 export { default as findNearestRangeOfSequenceOverlapToPosition } from "./findNearestRangeOfSequenceOverlapToPosition";
 export { default as findOrfsInPlasmid } from "./findOrfsInPlasmid";

package/src/proteinAlphabet.js CHANGED Viewed

@@ -1,4 +1,3 @@
 const proteinAlphabet = {
   A: {
     value: "A",
@@ -18,7 +17,7 @@ const proteinAlphabet = {
     color: "hsl(258.1, 100%, 69%)",
     mass: 156.18568
   },
   N: {
     value: "N",
     name: "Asparagine",
@@ -46,7 +45,7 @@ const proteinAlphabet = {
     color: "hsl(335.1, 100%, 69%)",
     mass: 103.1429
   },
   E: {
     value: "E",
     name: "Glutamic acid",
@@ -75,7 +74,6 @@ const proteinAlphabet = {
     mass: 57.05132
   },
   H: {
     value: "H",
     name: "Histidine",
@@ -114,7 +112,6 @@ const proteinAlphabet = {
     mass: 128.17228
   },
   M: {
     value: "M",
     name: "Methionine",

package/src/tidyUpSequenceData.js CHANGED Viewed

@@ -6,7 +6,6 @@ import { cloneDeep, flatMap } from "lodash";
 import { annotationTypes } from "./annotationTypes";
 import filterSequenceString from "./filterSequenceString";
 import tidyUpAnnotation from "./tidyUpAnnotation";
-import filterAminoAcidSequenceString from "./filterAminoAcidSequenceString";
 import getDegenerateDnaStringFromAaString from "./getDegenerateDnaStringFromAAString";
 import { getFeatureTypes } from "./featureTypesAndColors";
@@ -17,11 +16,10 @@ export default function tidyUpSequenceData(pSeqData, options = {}) {
     removeUnwantedChars,
     additionalValidChars,
     noTranslationData,
-    charOverrides,
     doNotProvideIdsForAnnotations,
-    proteinFilterOptions,
     noCdsTranslations,
-    convertAnnotationsFromAAIndices
+    convertAnnotationsFromAAIndices,
+    topLevelSeqData
   } = options;
   let seqData = cloneDeep(pSeqData); //sequence is usually immutable, so we clone it and return it
   const response = {
@@ -56,18 +54,17 @@ export default function tidyUpSequenceData(pSeqData, options = {}) {
   }
   if (removeUnwantedChars) {
     if (seqData.isProtein) {
-      seqData.proteinSequence = filterAminoAcidSequenceString(
-        seqData.proteinSequence,
-        { includeStopCodon: true, ...proteinFilterOptions }
-      );
+      const [newSeq] = filterSequenceString(seqData.proteinSequence, {
+        includeStopCodon: true,
+        ...(topLevelSeqData || seqData)
+      });
+      seqData.proteinSequence = newSeq;
     } else {
-      seqData.sequence = filterSequenceString(
-        seqData.sequence,
-        `${additionalValidChars || ""}${
-          seqData.isRna || seqData.isMixedRnaAndDna ? "u" : "" //if it is rna or mixed, allow u's
-        }`,
-        charOverrides
-      );
+      const [newSeq] = filterSequenceString(seqData.sequence, {
+        additionalValidChars,
+        ...(topLevelSeqData || seqData)
+      });
+      seqData.sequence = newSeq;
     }
   }
   if (seqData.isProtein) {

package/filterAminoAcidSequenceString.d.ts DELETED Viewed

	@@ -1 +0,0 @@
1	- export default function filterAminoAcidSequenceString(sequenceString: any, options: any): any;

package/filterAminoAcidSequenceString.test.d.ts DELETED Viewed

	@@ -1 +0,0 @@
1	- export {};

package/src/filterAminoAcidSequenceString.js DELETED Viewed

@@ -1,10 +0,0 @@
-//
-export default function filterAminoAcidSequenceString(sequenceString, options) {
-  options = options || {};
-  if (options.includeStopCodon) {
-    //tnrtodo this maybe needs the stop codon char in it?
-    return sequenceString?.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-  }
-  // ac.throw(ac.string, sequenceString);
-  return sequenceString?.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-}

package/src/filterAminoAcidSequenceString.test.js DELETED Viewed

@@ -1,24 +0,0 @@
-import assert from "assert";
-import filterAminoAcidSequenceString from "./filterAminoAcidSequenceString";
-describe("filterAminoAcidSequenceString", () => {
-  it("should filter only valid amino acids by default", () => {
-    const filteredString = filterAminoAcidSequenceString(
-      'bbb342"""xtgalmfwkqespvicyhrnd,,../'
-    );
-    assert.equal(filteredString, "xtgalmfwkqespvicyhrnd");
-  });
-  it("should handle upper case letters", () => {
-    const filteredString = filterAminoAcidSequenceString(
-      "xtgalmfWKQEspvicyhrnd"
-    );
-    assert.equal(filteredString, "xtgalmfWKQEspvicyhrnd");
-  });
-  it("should handle the option to includeStopCodon by allowing periods", () => {
-    const options = { includeStopCodon: true };
-    const filteredString = filterAminoAcidSequenceString(
-      'bbb342"""xtgalmfwkqespvicyhrnd,,../',
-      options
-    );
-    assert.equal(filteredString, "xtgalmfwkqespvicyhrnd..");
-  });
-});