npm - @teselagen/sequence-utils - Versions diffs - 0.3.8 → 0.3.10 - Mend

@teselagen/sequence-utils 0.3.8 → 0.3.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

package/bioData.d.ts +2 -1
package/filterSequenceString.d.ts +24 -1
package/index.d.ts +0 -1
package/index.js +91 -34
package/index.mjs +91 -34
package/index.umd.js +91 -34
package/package.json +1 -1
package/src/bioData.js +2 -3
package/src/filterSequenceString.js +106 -17
package/src/filterSequenceString.test.js +60 -3
package/src/index.js +0 -1
package/src/proteinAlphabet.js +2 -5
package/src/tidyUpSequenceData.js +13 -17
package/src/tidyUpSequenceData.test.js +12 -66
package/filterAminoAcidSequenceString.d.ts +0 -1
package/filterAminoAcidSequenceString.test.d.ts +0 -1
package/src/filterAminoAcidSequenceString.js +0 -10
package/src/filterAminoAcidSequenceString.test.js +0 -24

package/bioData.d.ts CHANGED Viewed

@@ -1,5 +1,6 @@
 export const protein_letters: "ACDEFGHIKLMNPQRSTVWY";
-export const extended_protein_letters: "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
+export const protein_letters_withUandX: "ACDEFGHIKLMNPQRSTVWYUX";
+export const extended_protein_letters: "ACDEFGHIKLMNPQRSTVWYBXZJUO*";
 export const ambiguous_dna_letters: "GATCRYWSMKHBVDN";
 export const unambiguous_dna_letters: "GATC";
 export const ambiguous_rna_letters: "GAUCRYWSMKHBVDN";

package/filterSequenceString.d.ts CHANGED Viewed

@@ -1 +1,24 @@
-export default function filterSequenceString(sequenceString: any, additionalValidChars: string | undefined, charOverrides: any): any;
+export default function filterSequenceString(sequenceString: any, { additionalValidChars, isOligo, name, isProtein, isRna, isMixedRnaAndDna, }?: {
+    additionalValidChars?: string | undefined;
+    isOligo: any;
+    name: any;
+    isProtein: any;
+    isRna: any;
+    isMixedRnaAndDna: any;
+}): (string | string[])[];
+export function getAcceptedChars({ isOligo, isProtein, isRna, isMixedRnaAndDna, }?: {
+    isOligo: any;
+    isProtein: any;
+    isRna: any;
+    isMixedRnaAndDna: any;
+}): string;
+export function getReplaceChars({ isOligo, isProtein, isRna, isMixedRnaAndDna }?: {
+    isOligo: any;
+    isProtein: any;
+    isRna: any;
+    isMixedRnaAndDna: any;
+}): {
+    t?: undefined;
+} | {
+    t: string;
+};

package/index.d.ts CHANGED Viewed

@@ -20,7 +20,6 @@ export { default as aliasedEnzymesByName } from "./aliasedEnzymesByName";
 export { default as defaultEnzymesByName } from "./defaultEnzymesByName";
 export { default as generateSequenceData } from "./generateSequenceData";
 export { default as generateAnnotations } from "./generateAnnotations";
-export { default as filterAminoAcidSequenceString } from "./filterAminoAcidSequenceString";
 export { default as filterSequenceString } from "./filterSequenceString";
 export { default as findNearestRangeOfSequenceOverlapToPosition } from "./findNearestRangeOfSequenceOverlapToPosition";
 export { default as findOrfsInPlasmid } from "./findOrfsInPlasmid";

package/index.js CHANGED Viewed

@@ -5999,7 +5999,8 @@ lodash.exports;
 })(lodash, lodash.exports);
 var lodashExports = lodash.exports;
 const protein_letters = "ACDEFGHIKLMNPQRSTVWY";
-const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
+const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
+const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO*";
 const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
 const unambiguous_dna_letters = "GATC";
 const ambiguous_rna_letters = "GAUCRYWSMKHBVDN";
@@ -6067,6 +6068,7 @@ const bioData = /* @__PURE__ */ Object.freeze(/* @__PURE__ */ Object.definePrope
   extended_protein_letters,
   extended_protein_values,
   protein_letters,
+  protein_letters_withUandX,
   unambiguous_dna_letters,
   unambiguous_rna_letters
 }, Symbol.toStringTag, { value: "Module" }));
@@ -12321,20 +12323,88 @@ const modifiableTypes = [
   "primers",
   "guides"
 ];
-function filterSequenceString(sequenceString, additionalValidChars = "", charOverrides) {
-  if (sequenceString) {
-    return sequenceString.replace(
-      new RegExp(
-        `[^${charOverrides || `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`}]`,
-        "gi"
-      ),
-      ""
+function filterSequenceString(sequenceString, {
+  additionalValidChars = "",
+  isOligo,
+  name,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  const acceptedChars = getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  const replaceChars = getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  let sanitizedVal = "";
+  const invalidChars = [];
+  const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+  const warnings = [];
+  const replaceCount = {};
+  sequenceString.split("").forEach((letter) => {
+    const lowerLetter = letter.toLowerCase();
+    if (replaceChars && replaceChars[lowerLetter]) {
+      if (!replaceCount[lowerLetter]) {
+        replaceCount[lowerLetter] = 0;
+      }
+      replaceCount[lowerLetter]++;
+      const isUpper = lowerLetter !== letter;
+      sanitizedVal += isUpper ? replaceChars[lowerLetter].toUpperCase() : replaceChars[lowerLetter];
+    } else if (chars.includes(lowerLetter)) {
+      sanitizedVal += letter;
+    } else {
+      invalidChars.push(letter);
+    }
+  });
+  Object.keys(replaceCount).forEach((letter) => {
+    warnings.push(
+      `Replaced "${letter}" with "${replaceChars[letter]}"${replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""}`
     );
-  } else {
-    return sequenceString;
+  });
+  if (sequenceString.length !== sanitizedVal.length) {
+    warnings.push(
+      `${name ? `Sequence ${name}: ` : ""}Invalid character(s) detected and removed: ${invalidChars.slice(0, 100).join(", ")} `
+    );
+  }
+  if (typeof window !== "undefined" && window.toastr && warnings.length) {
+    warnings.forEach((warning) => {
+      window.toastr.warning(warning);
+    });
   }
+  return [sanitizedVal, warnings];
 }
 __name(filterSequenceString, "filterSequenceString");
+function getAcceptedChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein ? `${extended_protein_letters.toLowerCase()}}` : isOligo ? ambiguous_rna_letters.toLowerCase() + "t" : isRna ? ambiguous_rna_letters.toLowerCase() + "t" : isMixedRnaAndDna ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase() : (
+    //just plain old dna
+    ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+  );
+}
+__name(getAcceptedChars, "getAcceptedChars");
+function getReplaceChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein ? {} : isOligo ? {} : isRna ? { t: "u" } : isMixedRnaAndDna ? {} : (
+    //just plain old dna
+    {}
+  );
+}
+__name(getReplaceChars, "getReplaceChars");
 function tidyUpAnnotation(_annotation, {
   sequenceData = {},
   convertAnnotationsFromAAIndices,
@@ -12463,14 +12533,6 @@ function coerceLocation({
   }
 }
 __name(coerceLocation, "coerceLocation");
-function filterAminoAcidSequenceString(sequenceString, options) {
-  options = options || {};
-  if (options.includeStopCodon) {
-    return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-  }
-  return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-}
-__name(filterAminoAcidSequenceString, "filterAminoAcidSequenceString");
 function getDegenerateDnaStringFromAAString(aaString) {
   return aaString.split("").map((char) => aminoAcidToDegenerateDnaMap[char.toLowerCase()] || "nnn").join("");
 }
@@ -12479,14 +12541,13 @@ function tidyUpSequenceData(pSeqData, options = {}) {
   const {
     annotationsAsObjects,
     logMessages,
-    removeUnwantedChars,
+    doNotRemoveInvalidChars,
     additionalValidChars,
     noTranslationData,
-    charOverrides,
     doNotProvideIdsForAnnotations,
-    proteinFilterOptions,
     noCdsTranslations,
-    convertAnnotationsFromAAIndices
+    convertAnnotationsFromAAIndices,
+    topLevelSeqData
   } = options;
   let seqData = lodashExports.cloneDeep(pSeqData);
   const response = {
@@ -12514,18 +12575,15 @@ function tidyUpSequenceData(pSeqData, options = {}) {
   if (seqData.isRna) {
     seqData.sequence = seqData.sequence.replace(/t/gi, "u");
   }
-  if (removeUnwantedChars) {
+  if (!doNotRemoveInvalidChars) {
     if (seqData.isProtein) {
-      seqData.proteinSequence = filterAminoAcidSequenceString(
-        seqData.proteinSequence,
-        __spreadValues({ includeStopCodon: true }, proteinFilterOptions)
-      );
+      const [newSeq] = filterSequenceString(seqData.proteinSequence, __spreadValues({}, topLevelSeqData || seqData));
+      seqData.proteinSequence = newSeq;
     } else {
-      seqData.sequence = filterSequenceString(
-        seqData.sequence,
-        `${additionalValidChars || ""}${seqData.isRna || seqData.isMixedRnaAndDna ? "u" : ""}`,
-        charOverrides
-      );
+      const [newSeq] = filterSequenceString(seqData.sequence, __spreadValues({
+        additionalValidChars
+      }, topLevelSeqData || seqData));
+      seqData.sequence = newSeq;
     }
   }
   if (seqData.isProtein) {
@@ -22665,7 +22723,6 @@ exports.degenerateRnaToAminoAcidMap = degenerateRnaToAminoAcidMap;
 exports.deleteSequenceDataAtRange = deleteSequenceDataAtRange;
 exports.doesEnzymeChopOutsideOfRecognitionSite = doesEnzymeChopOutsideOfRecognitionSite;
 exports.featureColors = featureColors;
-exports.filterAminoAcidSequenceString = filterAminoAcidSequenceString;
 exports.filterSequenceString = filterSequenceString;
 exports.findNearestRangeOfSequenceOverlapToPosition = findNearestRangeOfSequenceOverlapToPosition;
 exports.findOrfsInPlasmid = findOrfsInPlasmid;

package/index.mjs CHANGED Viewed

@@ -5997,7 +5997,8 @@ lodash.exports;
 })(lodash, lodash.exports);
 var lodashExports = lodash.exports;
 const protein_letters = "ACDEFGHIKLMNPQRSTVWY";
-const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
+const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
+const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO*";
 const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
 const unambiguous_dna_letters = "GATC";
 const ambiguous_rna_letters = "GAUCRYWSMKHBVDN";
@@ -6065,6 +6066,7 @@ const bioData = /* @__PURE__ */ Object.freeze(/* @__PURE__ */ Object.definePrope
   extended_protein_letters,
   extended_protein_values,
   protein_letters,
+  protein_letters_withUandX,
   unambiguous_dna_letters,
   unambiguous_rna_letters
 }, Symbol.toStringTag, { value: "Module" }));
@@ -12319,20 +12321,88 @@ const modifiableTypes = [
   "primers",
   "guides"
 ];
-function filterSequenceString(sequenceString, additionalValidChars = "", charOverrides) {
-  if (sequenceString) {
-    return sequenceString.replace(
-      new RegExp(
-        `[^${charOverrides || `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`}]`,
-        "gi"
-      ),
-      ""
+function filterSequenceString(sequenceString, {
+  additionalValidChars = "",
+  isOligo,
+  name,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  const acceptedChars = getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  const replaceChars = getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  let sanitizedVal = "";
+  const invalidChars = [];
+  const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+  const warnings = [];
+  const replaceCount = {};
+  sequenceString.split("").forEach((letter) => {
+    const lowerLetter = letter.toLowerCase();
+    if (replaceChars && replaceChars[lowerLetter]) {
+      if (!replaceCount[lowerLetter]) {
+        replaceCount[lowerLetter] = 0;
+      }
+      replaceCount[lowerLetter]++;
+      const isUpper = lowerLetter !== letter;
+      sanitizedVal += isUpper ? replaceChars[lowerLetter].toUpperCase() : replaceChars[lowerLetter];
+    } else if (chars.includes(lowerLetter)) {
+      sanitizedVal += letter;
+    } else {
+      invalidChars.push(letter);
+    }
+  });
+  Object.keys(replaceCount).forEach((letter) => {
+    warnings.push(
+      `Replaced "${letter}" with "${replaceChars[letter]}"${replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""}`
     );
-  } else {
-    return sequenceString;
+  });
+  if (sequenceString.length !== sanitizedVal.length) {
+    warnings.push(
+      `${name ? `Sequence ${name}: ` : ""}Invalid character(s) detected and removed: ${invalidChars.slice(0, 100).join(", ")} `
+    );
+  }
+  if (typeof window !== "undefined" && window.toastr && warnings.length) {
+    warnings.forEach((warning) => {
+      window.toastr.warning(warning);
+    });
   }
+  return [sanitizedVal, warnings];
 }
 __name(filterSequenceString, "filterSequenceString");
+function getAcceptedChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein ? `${extended_protein_letters.toLowerCase()}}` : isOligo ? ambiguous_rna_letters.toLowerCase() + "t" : isRna ? ambiguous_rna_letters.toLowerCase() + "t" : isMixedRnaAndDna ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase() : (
+    //just plain old dna
+    ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+  );
+}
+__name(getAcceptedChars, "getAcceptedChars");
+function getReplaceChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein ? {} : isOligo ? {} : isRna ? { t: "u" } : isMixedRnaAndDna ? {} : (
+    //just plain old dna
+    {}
+  );
+}
+__name(getReplaceChars, "getReplaceChars");
 function tidyUpAnnotation(_annotation, {
   sequenceData = {},
   convertAnnotationsFromAAIndices,
@@ -12461,14 +12531,6 @@ function coerceLocation({
   }
 }
 __name(coerceLocation, "coerceLocation");
-function filterAminoAcidSequenceString(sequenceString, options) {
-  options = options || {};
-  if (options.includeStopCodon) {
-    return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-  }
-  return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-}
-__name(filterAminoAcidSequenceString, "filterAminoAcidSequenceString");
 function getDegenerateDnaStringFromAAString(aaString) {
   return aaString.split("").map((char) => aminoAcidToDegenerateDnaMap[char.toLowerCase()] || "nnn").join("");
 }
@@ -12477,14 +12539,13 @@ function tidyUpSequenceData(pSeqData, options = {}) {
   const {
     annotationsAsObjects,
     logMessages,
-    removeUnwantedChars,
+    doNotRemoveInvalidChars,
     additionalValidChars,
     noTranslationData,
-    charOverrides,
     doNotProvideIdsForAnnotations,
-    proteinFilterOptions,
     noCdsTranslations,
-    convertAnnotationsFromAAIndices
+    convertAnnotationsFromAAIndices,
+    topLevelSeqData
   } = options;
   let seqData = lodashExports.cloneDeep(pSeqData);
   const response = {
@@ -12512,18 +12573,15 @@ function tidyUpSequenceData(pSeqData, options = {}) {
   if (seqData.isRna) {
     seqData.sequence = seqData.sequence.replace(/t/gi, "u");
   }
-  if (removeUnwantedChars) {
+  if (!doNotRemoveInvalidChars) {
     if (seqData.isProtein) {
-      seqData.proteinSequence = filterAminoAcidSequenceString(
-        seqData.proteinSequence,
-        __spreadValues({ includeStopCodon: true }, proteinFilterOptions)
-      );
+      const [newSeq] = filterSequenceString(seqData.proteinSequence, __spreadValues({}, topLevelSeqData || seqData));
+      seqData.proteinSequence = newSeq;
     } else {
-      seqData.sequence = filterSequenceString(
-        seqData.sequence,
-        `${additionalValidChars || ""}${seqData.isRna || seqData.isMixedRnaAndDna ? "u" : ""}`,
-        charOverrides
-      );
+      const [newSeq] = filterSequenceString(seqData.sequence, __spreadValues({
+        additionalValidChars
+      }, topLevelSeqData || seqData));
+      seqData.sequence = newSeq;
     }
   }
   if (seqData.isProtein) {
@@ -22664,7 +22722,6 @@ export {
   deleteSequenceDataAtRange,
   doesEnzymeChopOutsideOfRecognitionSite,
   featureColors,
-  filterAminoAcidSequenceString,
   filterSequenceString,
   findNearestRangeOfSequenceOverlapToPosition,
   findOrfsInPlasmid,

package/index.umd.js CHANGED Viewed

@@ -6001,7 +6001,8 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
   })(lodash, lodash.exports);
   var lodashExports = lodash.exports;
   const protein_letters = "ACDEFGHIKLMNPQRSTVWY";
-  const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
+  const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
+  const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO*";
   const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
   const unambiguous_dna_letters = "GATC";
   const ambiguous_rna_letters = "GAUCRYWSMKHBVDN";
@@ -6069,6 +6070,7 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
     extended_protein_letters,
     extended_protein_values,
     protein_letters,
+    protein_letters_withUandX,
     unambiguous_dna_letters,
     unambiguous_rna_letters
   }, Symbol.toStringTag, { value: "Module" }));
@@ -12323,20 +12325,88 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
     "primers",
     "guides"
   ];
-  function filterSequenceString(sequenceString, additionalValidChars = "", charOverrides) {
-    if (sequenceString) {
-      return sequenceString.replace(
-        new RegExp(
-          `[^${charOverrides || `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`}]`,
-          "gi"
-        ),
-        ""
+  function filterSequenceString(sequenceString, {
+    additionalValidChars = "",
+    isOligo,
+    name,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  } = {}) {
+    const acceptedChars = getAcceptedChars({
+      isOligo,
+      isProtein,
+      isRna,
+      isMixedRnaAndDna
+    });
+    const replaceChars = getReplaceChars({
+      isOligo,
+      isProtein,
+      isRna,
+      isMixedRnaAndDna
+    });
+    let sanitizedVal = "";
+    const invalidChars = [];
+    const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+    const warnings = [];
+    const replaceCount = {};
+    sequenceString.split("").forEach((letter) => {
+      const lowerLetter = letter.toLowerCase();
+      if (replaceChars && replaceChars[lowerLetter]) {
+        if (!replaceCount[lowerLetter]) {
+          replaceCount[lowerLetter] = 0;
+        }
+        replaceCount[lowerLetter]++;
+        const isUpper = lowerLetter !== letter;
+        sanitizedVal += isUpper ? replaceChars[lowerLetter].toUpperCase() : replaceChars[lowerLetter];
+      } else if (chars.includes(lowerLetter)) {
+        sanitizedVal += letter;
+      } else {
+        invalidChars.push(letter);
+      }
+    });
+    Object.keys(replaceCount).forEach((letter) => {
+      warnings.push(
+        `Replaced "${letter}" with "${replaceChars[letter]}"${replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""}`
       );
-    } else {
-      return sequenceString;
+    });
+    if (sequenceString.length !== sanitizedVal.length) {
+      warnings.push(
+        `${name ? `Sequence ${name}: ` : ""}Invalid character(s) detected and removed: ${invalidChars.slice(0, 100).join(", ")} `
+      );
+    }
+    if (typeof window !== "undefined" && window.toastr && warnings.length) {
+      warnings.forEach((warning) => {
+        window.toastr.warning(warning);
+      });
     }
+    return [sanitizedVal, warnings];
   }
   __name(filterSequenceString, "filterSequenceString");
+  function getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  } = {}) {
+    return isProtein ? `${extended_protein_letters.toLowerCase()}}` : isOligo ? ambiguous_rna_letters.toLowerCase() + "t" : isRna ? ambiguous_rna_letters.toLowerCase() + "t" : isMixedRnaAndDna ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase() : (
+      //just plain old dna
+      ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+    );
+  }
+  __name(getAcceptedChars, "getAcceptedChars");
+  function getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  } = {}) {
+    return isProtein ? {} : isOligo ? {} : isRna ? { t: "u" } : isMixedRnaAndDna ? {} : (
+      //just plain old dna
+      {}
+    );
+  }
+  __name(getReplaceChars, "getReplaceChars");
   function tidyUpAnnotation(_annotation, {
     sequenceData = {},
     convertAnnotationsFromAAIndices,
@@ -12465,14 +12535,6 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
     }
   }
   __name(coerceLocation, "coerceLocation");
-  function filterAminoAcidSequenceString(sequenceString, options) {
-    options = options || {};
-    if (options.includeStopCodon) {
-      return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-    }
-    return sequenceString == null ? void 0 : sequenceString.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-  }
-  __name(filterAminoAcidSequenceString, "filterAminoAcidSequenceString");
   function getDegenerateDnaStringFromAAString(aaString) {
     return aaString.split("").map((char) => aminoAcidToDegenerateDnaMap[char.toLowerCase()] || "nnn").join("");
   }
@@ -12481,14 +12543,13 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
     const {
       annotationsAsObjects,
       logMessages,
-      removeUnwantedChars,
+      doNotRemoveInvalidChars,
       additionalValidChars,
       noTranslationData,
-      charOverrides,
       doNotProvideIdsForAnnotations,
-      proteinFilterOptions,
       noCdsTranslations,
-      convertAnnotationsFromAAIndices
+      convertAnnotationsFromAAIndices,
+      topLevelSeqData
     } = options;
     let seqData = lodashExports.cloneDeep(pSeqData);
     const response = {
@@ -12516,18 +12577,15 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
     if (seqData.isRna) {
       seqData.sequence = seqData.sequence.replace(/t/gi, "u");
     }
-    if (removeUnwantedChars) {
+    if (!doNotRemoveInvalidChars) {
       if (seqData.isProtein) {
-        seqData.proteinSequence = filterAminoAcidSequenceString(
-          seqData.proteinSequence,
-          __spreadValues({ includeStopCodon: true }, proteinFilterOptions)
-        );
+        const [newSeq] = filterSequenceString(seqData.proteinSequence, __spreadValues({}, topLevelSeqData || seqData));
+        seqData.proteinSequence = newSeq;
       } else {
-        seqData.sequence = filterSequenceString(
-          seqData.sequence,
-          `${additionalValidChars || ""}${seqData.isRna || seqData.isMixedRnaAndDna ? "u" : ""}`,
-          charOverrides
-        );
+        const [newSeq] = filterSequenceString(seqData.sequence, __spreadValues({
+          additionalValidChars
+        }, topLevelSeqData || seqData));
+        seqData.sequence = newSeq;
       }
     }
     if (seqData.isProtein) {
@@ -22667,7 +22725,6 @@ var __name = (target, value) => __defProp(target, "name", { value, configurable:
   exports2.deleteSequenceDataAtRange = deleteSequenceDataAtRange;
   exports2.doesEnzymeChopOutsideOfRecognitionSite = doesEnzymeChopOutsideOfRecognitionSite;
   exports2.featureColors = featureColors;
-  exports2.filterAminoAcidSequenceString = filterAminoAcidSequenceString;
   exports2.filterSequenceString = filterSequenceString;
   exports2.findNearestRangeOfSequenceOverlapToPosition = findNearestRangeOfSequenceOverlapToPosition;
   exports2.findOrfsInPlasmid = findOrfsInPlasmid;

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@teselagen/sequence-utils",
-  "version": "0.3.8",
+  "version": "0.3.10",
   "dependencies": {
     "@teselagen/range-utils": "0.3.7",
     "bson-objectid": "^2.0.4",

package/src/bioData.js CHANGED Viewed

@@ -1,8 +1,8 @@
 //Adapted from biopython. Check the BIOPYTHON_LICENSE for licensing info
 export const protein_letters = "ACDEFGHIKLMNPQRSTVWY";
-export const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO.*-";
+export const protein_letters_withUandX = "ACDEFGHIKLMNPQRSTVWYUX";
+export const extended_protein_letters = "ACDEFGHIKLMNPQRSTVWYBXZJUO*";
 export const ambiguous_dna_letters = "GATCRYWSMKHBVDN";
 export const unambiguous_dna_letters = "GATC";
 export const ambiguous_rna_letters = "GAUCRYWSMKHBVDN";
@@ -29,7 +29,6 @@ export const ambiguous_dna_values = {
   N: "GATC"
 };
 export const extended_protein_values = {
   A: "A",
   B: "ND",

package/src/filterSequenceString.js CHANGED Viewed

@@ -1,24 +1,113 @@
-// this is throwing a weird eslint error
+import {
+  ambiguous_dna_letters,
+  ambiguous_rna_letters,
+  extended_protein_letters,
+} from "./bioData";
-//
 export default function filterSequenceString(
   sequenceString,
-  additionalValidChars = "",
-  charOverrides
+  {
+    additionalValidChars = "",
+    isOligo,
+    name,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+  } = {}
 ) {
-  // ac.throw(ac.string,sequenceString);
-  if (sequenceString) {
-    return sequenceString.replace(
-      new RegExp(
-        `[^${
-          charOverrides ||
-          `atgcyrswkmbvdhnu${additionalValidChars.split("").join("\\")}`
-        }]`,
-        "gi"
-      ),
-      ""
+  const acceptedChars = getAcceptedChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna,
+  });
+  const replaceChars = getReplaceChars({
+    isOligo,
+    isProtein,
+    isRna,
+    isMixedRnaAndDna
+  });
+  let sanitizedVal = "";
+  const invalidChars = [];
+  const chars = `${acceptedChars}${additionalValidChars.split("").join("\\")}`;
+  const warnings = [];
+  const replaceCount = {};
+  sequenceString.split("").forEach(letter => {
+    const lowerLetter = letter.toLowerCase();
+    if (replaceChars && replaceChars[lowerLetter]) {
+      if (!replaceCount[lowerLetter]) {
+        replaceCount[lowerLetter] = 0;
+      }
+      replaceCount[lowerLetter]++;
+      const isUpper = lowerLetter !== letter;
+      sanitizedVal += isUpper
+        ? replaceChars[lowerLetter].toUpperCase()
+        : replaceChars[lowerLetter];
+    } else if (chars.includes(lowerLetter)) {
+      sanitizedVal += letter;
+    } else {
+      invalidChars.push(letter);
+    }
+  });
+  //add replace count warnings
+  Object.keys(replaceCount).forEach(letter => {
+    warnings.push(
+      `Replaced "${letter}" with "${replaceChars[letter]}"${
+        replaceCount[letter] > 1 ? ` ${replaceCount[letter]} times` : ""
+      }`
+    );
+  });
+  if (sequenceString.length !== sanitizedVal.length) {
+    warnings.push(
+      `${
+        name ? `Sequence ${name}: ` : ""
+      }Invalid character(s) detected and removed: ${invalidChars
+        .slice(0, 100)
+        .join(", ")} `
     );
-  } else {
-    return sequenceString;
   }
+  if (typeof window !== "undefined" && window.toastr && warnings.length) {
+    warnings.forEach(warning => {
+      window.toastr.warning(warning);
+    });
+  }
+  return [sanitizedVal, warnings];
+}
+export function getAcceptedChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna,
+} = {}) {
+  return isProtein
+    ? `${extended_protein_letters.toLowerCase()}}`
+    : isOligo
+    ? ambiguous_rna_letters.toLowerCase() + "t"
+    : isRna
+    ? ambiguous_rna_letters.toLowerCase() + "t"
+    : isMixedRnaAndDna
+    ? ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase()
+    : //just plain old dna
+      ambiguous_rna_letters.toLowerCase() + ambiguous_dna_letters.toLowerCase();
+}
+export function getReplaceChars({
+  isOligo,
+  isProtein,
+  isRna,
+  isMixedRnaAndDna
+} = {}) {
+  return isProtein
+    ? {}
+    // {".": "*"}
+    : isOligo
+    ? {}
+    : isRna
+    ? { t: "u" }
+    : isMixedRnaAndDna
+    ? {}
+    : //just plain old dna
+      {};
 }

package/src/filterSequenceString.test.js CHANGED Viewed

@@ -1,13 +1,70 @@
 import filterSequenceString from "./filterSequenceString";
+import { expect } from "vitest";
 describe("filterSequenceString", () => {
+  it("should not filter u's and should convert t's to u's from isOligo=true seqs", () => {
+    const [str, warnings] = filterSequenceString("tatuuag--a", {
+      isOligo: true
+    });
+    expect(str).toBe("tatuuaga");
+    // expect(warnings[0]).toBe('Replaced "t" with "u" 2 times');
+    expect(warnings[0]).toBe(
+      "Invalid character(s) detected and removed: -, - "
+    );
+  });
+  it("should not convert u's to t's for isDna (default isDna=true) seqs", () => {
+    const [str, warnings] = filterSequenceString("tatuuag--a", {});
+    // expect(warnings[0]).toBe('Replaced "u" with "t" 2 times');
+    expect(warnings[0]).toBe(
+      "Invalid character(s) detected and removed: -, - "
+    );
+    expect(str).toBe("tatuuaga");
+  });
   it("should filter out unwanted chars", () => {
-    expect(filterSequenceString("tatag--a")).toBe("tataga");
+    const [str, warnings] = filterSequenceString("tatag--a");
+    expect(warnings[0]).toBe(
+      "Invalid character(s) detected and removed: -, - "
+    );
+    expect(str).toBe("tataga");
   });
   it("should handle additional chars option", () => {
-    expect(filterSequenceString("tatag--a", "-")).toBe("tatag--a");
+    const [str, warnings] = filterSequenceString("tatag--a", {
+      additionalValidChars: "-"
+    });
+    expect(warnings.length).toBe(0);
+    expect(str).toBe("tatag--a");
   });
   it("should handle additional chars option", () => {
-    expect(filterSequenceString("tatag--a", "f-q")).toBe("tatag--a");
+    const [str, warnings] = filterSequenceString("tatag--a", {
+      additionalValidChars: "f-q"
+    });
+    expect(warnings.length).toBe(0);
+    expect(str).toBe("tatag--a");
+  });
+  it("when isProtein: true, should filter only valid amino acids by default", () => {
+    const [str, warnings] = filterSequenceString(
+      'bbb342"""xtgalmfwkqespvicyhrnd,,../',
+      {
+        isProtein: true
+      }
+    );
+    // expect(warnings[0]).toBe(`Replaced "." with "*" 2 times`);
+    expect(warnings[0]).toBe(      'Invalid character(s) detected and removed: 3, 4, 2, ", ", ", ,, ,, ., ., / ');
+    expect(str).toBe("bbbxtgalmfwkqespvicyhrnd");
+  });
+  it("when isProtein: true, should handle upper case letters", () => {
+    const [str, warnings] = filterSequenceString("xtgalmfWKQEspvicyhrnd", {
+      isProtein: true
+    });
+    expect(warnings.length).toBe(0);
+    expect(str).toBe("xtgalmfWKQEspvicyhrnd");
+  });
+  it("when isProtein: true, it should convert . to *", () => {
+    const [str] = filterSequenceString('BXZJUO*bbb342"""xtgalbmfwkqespvicyhrnd,,../', {
+      isProtein: true,
+    });
+    expect(str).toBe("BXZJUO*bbbxtgalbmfwkqespvicyhrnd");
   });
 });

package/src/index.js CHANGED Viewed

@@ -51,7 +51,6 @@ export { default as aliasedEnzymesByName } from "./aliasedEnzymesByName";
 export { default as defaultEnzymesByName } from "./defaultEnzymesByName";
 export { default as generateSequenceData } from "./generateSequenceData";
 export { default as generateAnnotations } from "./generateAnnotations";
-export { default as filterAminoAcidSequenceString } from "./filterAminoAcidSequenceString";
 export { default as filterSequenceString } from "./filterSequenceString";
 export { default as findNearestRangeOfSequenceOverlapToPosition } from "./findNearestRangeOfSequenceOverlapToPosition";
 export { default as findOrfsInPlasmid } from "./findOrfsInPlasmid";

package/src/proteinAlphabet.js CHANGED Viewed

@@ -1,4 +1,3 @@
 const proteinAlphabet = {
   A: {
     value: "A",
@@ -18,7 +17,7 @@ const proteinAlphabet = {
     color: "hsl(258.1, 100%, 69%)",
     mass: 156.18568
   },
   N: {
     value: "N",
     name: "Asparagine",
@@ -46,7 +45,7 @@ const proteinAlphabet = {
     color: "hsl(335.1, 100%, 69%)",
     mass: 103.1429
   },
   E: {
     value: "E",
     name: "Glutamic acid",
@@ -75,7 +74,6 @@ const proteinAlphabet = {
     mass: 57.05132
   },
   H: {
     value: "H",
     name: "Histidine",
@@ -114,7 +112,6 @@ const proteinAlphabet = {
     mass: 128.17228
   },
   M: {
     value: "M",
     name: "Methionine",

package/src/tidyUpSequenceData.js CHANGED Viewed

@@ -6,7 +6,6 @@ import { cloneDeep, flatMap } from "lodash";
 import { annotationTypes } from "./annotationTypes";
 import filterSequenceString from "./filterSequenceString";
 import tidyUpAnnotation from "./tidyUpAnnotation";
-import filterAminoAcidSequenceString from "./filterAminoAcidSequenceString";
 import getDegenerateDnaStringFromAaString from "./getDegenerateDnaStringFromAAString";
 import { getFeatureTypes } from "./featureTypesAndColors";
@@ -14,14 +13,13 @@ export default function tidyUpSequenceData(pSeqData, options = {}) {
   const {
     annotationsAsObjects,
     logMessages,
-    removeUnwantedChars,
+    doNotRemoveInvalidChars,
     additionalValidChars,
     noTranslationData,
-    charOverrides,
     doNotProvideIdsForAnnotations,
-    proteinFilterOptions,
     noCdsTranslations,
-    convertAnnotationsFromAAIndices
+    convertAnnotationsFromAAIndices,
+    topLevelSeqData
   } = options;
   let seqData = cloneDeep(pSeqData); //sequence is usually immutable, so we clone it and return it
   const response = {
@@ -54,20 +52,18 @@ export default function tidyUpSequenceData(pSeqData, options = {}) {
     //flip all t's to u's
     seqData.sequence = seqData.sequence.replace(/t/gi, "u");
   }
-  if (removeUnwantedChars) {
+  if (!doNotRemoveInvalidChars) {
     if (seqData.isProtein) {
-      seqData.proteinSequence = filterAminoAcidSequenceString(
-        seqData.proteinSequence,
-        { includeStopCodon: true, ...proteinFilterOptions }
-      );
+      const [newSeq] = filterSequenceString(seqData.proteinSequence, {
+        ...(topLevelSeqData || seqData)
+      });
+      seqData.proteinSequence = newSeq;
     } else {
-      seqData.sequence = filterSequenceString(
-        seqData.sequence,
-        `${additionalValidChars || ""}${
-          seqData.isRna || seqData.isMixedRnaAndDna ? "u" : "" //if it is rna or mixed, allow u's
-        }`,
-        charOverrides
-      );
+      const [newSeq] = filterSequenceString(seqData.sequence, {
+        additionalValidChars,
+        ...(topLevelSeqData || seqData)
+      });
+      seqData.sequence = newSeq;
     }
   }
   if (seqData.isProtein) {

package/src/tidyUpSequenceData.test.js CHANGED Viewed

@@ -5,7 +5,7 @@ import chaiSubset from "chai-subset";
 chai.use(chaiSubset);
 chai.should();
 describe("tidyUpSequenceData", () => {
-  it("should remove unwanted chars if passed that option, while handling annotation start,end (and location start,end) truncation correctly", () => {
+  it("should remove invalid chars by default, while handling annotation start,end (and location start,end) truncation correctly", () => {
     const res = tidyUpSequenceData(
       {
         sequence: "http://localhost:3344/Standalone",
@@ -26,7 +26,7 @@ describe("tidyUpSequenceData", () => {
           }
         ]
       },
-      { removeUnwantedChars: true }
     );
     res.should.containSubset({
       sequence: "httcahstStandan",
@@ -49,15 +49,6 @@ describe("tidyUpSequenceData", () => {
       ]
     });
   });
-  // const res = tidyUpSequenceData(
-  //   {
-  //     isProtein: true,
-  //     circular: true,
-  //     proteinSequence: "gagiuhwgagalasjglj*.",
-  //     features: [{ start: 3, end: 10 }, { start: 10, end: 20 }]
-  //   },
-  //   { convertAnnotationsFromAAIndices: true, removeUnwantedChars: true }
-  // );
   it("should handle a protein sequence being passed in with isProtein set to true", () => {
     const res = tidyUpSequenceData(
@@ -71,69 +62,24 @@ describe("tidyUpSequenceData", () => {
           { name: "iDon'tFit", start: 25, end: 35 }
         ]
       },
-      { convertAnnotationsFromAAIndices: true, removeUnwantedChars: true }
+      { convertAnnotationsFromAAIndices: true }
     );
     res.should.containSubset({
-      aminoAcidDataForEachBaseOfDNA: [
-        {
-          aminoAcid: {
-            value: ".",
-            name: "Gap",
-            threeLettersName: "Gap"
-          },
-          positionInCodon: 0,
-          aminoAcidIndex: 17,
-          sequenceIndex: 51,
-          codonRange: {
-            start: 51,
-            end: 53
-          },
-          fullCodon: true
-        },
-        {
-          aminoAcid: {
-            value: ".",
-            name: "Gap",
-            threeLettersName: "Gap"
-          },
-          positionInCodon: 1,
-          aminoAcidIndex: 17,
-          sequenceIndex: 52,
-          codonRange: {
-            start: 51,
-            end: 53
-          },
-          fullCodon: true
-        },
-        {
-          aminoAcid: {
-            value: ".",
-            name: "Gap",
-            threeLettersName: "Gap"
-          },
-          positionInCodon: 2,
-          aminoAcidIndex: 17,
-          sequenceIndex: 53,
-          codonRange: {
-            start: 51,
-            end: 53
-          },
-          fullCodon: true
-        }
-      ],
+      aminoAcidDataForEachBaseOfDNA: [],
       isProtein: true,
-      size: 54, //size should refer to the DNA length
-      proteinSize: 18, //proteinSize should refer to the amino acid length
-      sequence: "ggngcnggnathtgacaytggggngcnggngcnytngcnwsnggnytntrr...", //degenerate sequence
-      proteinSequence: "gagiuhwgagalasgl*.",
+      size: 57, //size should refer to the DNA length
+      proteinSize: 19, //proteinSize should refer to the amino acid length
+      sequence: "ggngcnggnathtgacaytggggngcnggngcnytngcnwsnhtnggnytnhtntrr", //degenerate sequence
+      proteinSequence: "gagiuhwgagalasjglj*",
       circular: false,
       features: [
         { start: 9, end: 32, forward: true },
-        { start: 30, end: 53, forward: true },
+        { start: 30, end: 56, forward: true },
         {
           name: "iDon'tFit",
-          start: 51,
-          end: 53,
+          start: 54,
+          end: 56,
           forward: true
         }
       ]

package/filterAminoAcidSequenceString.d.ts DELETED Viewed

	@@ -1 +0,0 @@
1	- export default function filterAminoAcidSequenceString(sequenceString: any, options: any): any;

package/filterAminoAcidSequenceString.test.d.ts DELETED Viewed

	@@ -1 +0,0 @@
1	- export {};

package/src/filterAminoAcidSequenceString.js DELETED Viewed

@@ -1,10 +0,0 @@
-//
-export default function filterAminoAcidSequenceString(sequenceString, options) {
-  options = options || {};
-  if (options.includeStopCodon) {
-    //tnrtodo this maybe needs the stop codon char in it?
-    return sequenceString?.replace(/[^xtgalmfwkqespvicyhrndu.*]/gi, "");
-  }
-  // ac.throw(ac.string, sequenceString);
-  return sequenceString?.replace(/[^xtgalmfwkqespvicyhrndu]/gi, "");
-}

package/src/filterAminoAcidSequenceString.test.js DELETED Viewed

@@ -1,24 +0,0 @@
-import assert from "assert";
-import filterAminoAcidSequenceString from "./filterAminoAcidSequenceString";
-describe("filterAminoAcidSequenceString", () => {
-  it("should filter only valid amino acids by default", () => {
-    const filteredString = filterAminoAcidSequenceString(
-      'bbb342"""xtgalmfwkqespvicyhrnd,,../'
-    );
-    assert.equal(filteredString, "xtgalmfwkqespvicyhrnd");
-  });
-  it("should handle upper case letters", () => {
-    const filteredString = filterAminoAcidSequenceString(
-      "xtgalmfWKQEspvicyhrnd"
-    );
-    assert.equal(filteredString, "xtgalmfWKQEspvicyhrnd");
-  });
-  it("should handle the option to includeStopCodon by allowing periods", () => {
-    const options = { includeStopCodon: true };
-    const filteredString = filterAminoAcidSequenceString(
-      'bbb342"""xtgalmfwkqespvicyhrnd,,../',
-      options
-    );
-    assert.equal(filteredString, "xtgalmfwkqespvicyhrnd..");
-  });
-});