npm - @datagrok/bio - Versions diffs - 2.4.19 → 2.4.24 - Mend

@datagrok/bio 2.4.19 → 2.4.24

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (23) hide show

package/.eslintrc.json +2 -8
package/dist/package-test.js +1 -1
package/dist/package-test.js.map +1 -1
package/dist/package.js +1 -1
package/dist/package.js.map +1 -1
package/files/data/sample_FASTA_PT_activity.csv +100 -0
package/files/tests/to-atomic-level-dna-fasta-input.csv +11 -0
package/files/tests/to-atomic-level-dna-output.csv +15299 -0
package/files/tests/to-atomic-level-msa-output.csv +3594 -0
package/files/tests/to-atomic-level-msa-separator-input.csv +12 -0
package/files/tests/to-atomic-level-peptides-fasta-input.csv +65 -0
package/files/tests/to-atomic-level-peptides-output.csv +34901 -0
package/package.json +3 -3
package/src/demo/bio01-similarity-diversity.ts +7 -3
package/src/demo/bio01a-hierarchical-clustering-and-sequence-space.ts +10 -4
package/src/demo/bio01b-hierarchical-clustering-and-activity-cliffs.ts +7 -8
package/src/demo/bio05-helm-msa-sequence-space.ts +3 -3
package/src/demo/utils.ts +0 -12
package/src/package-test.ts +1 -0
package/src/package.ts +23 -8
package/src/tests/converters-test.ts +24 -24
package/src/tests/to-atomic-level-tests.ts +187 -0
package/src/utils/multiple-sequence-alignment-ui.ts +18 -5

package/package.json CHANGED Viewed

@@ -5,7 +5,7 @@
     "name": "Leonid Stolbov",
     "email": "lstolbov@datagrok.ai"
   },
-  "version": "2.4.19",
+  "version": "2.4.24",
   "description": "Bioinformatics support (import/export of sequences, conversion, visualization, analysis). [See more](https://github.com/datagrok-ai/public/blob/master/packages/Bio/README.md) for details.",
   "repository": {
     "type": "git",
@@ -14,10 +14,10 @@
   },
   "dependencies": {
     "@biowasm/aioli": "^3.1.0",
-    "@datagrok-libraries/bio": "^5.29.3",
+    "@datagrok-libraries/bio": "^5.30.0",
     "@datagrok-libraries/chem-meta": "^1.0.1",
     "@datagrok-libraries/ml": "^6.3.23",
-    "@datagrok-libraries/tutorials": "^1.3.1",
+    "@datagrok-libraries/tutorials": "^1.3.2",
     "@datagrok-libraries/utils": "^2.1.3",
     "cash-dom": "^8.0.0",
     "css-loader": "^6.7.3",

package/src/demo/bio01-similarity-diversity.ts CHANGED Viewed

@@ -9,7 +9,7 @@ import {handleError} from './utils';
 import {SequenceDiversityViewer} from '../analysis/sequence-diversity-viewer';
 import {SequenceSimilarityViewer} from '../analysis/sequence-similarity-viewer';
-const dataFn: string = 'data/sample_FASTA_DNA.csv';
+const dataFn: string = 'data/sample_FASTA_PT_activity.csv';
 export async function demoBio01UI() {
   let view: DG.TableView;
@@ -27,8 +27,12 @@ export async function demoBio01UI() {
         df = await _package.files.readCsv(dataFn);
         view = grok.shell.addTableView(df);
-        view.grid.columns.byName('id')!.width = 0;
-        view.grid.columns.byName('sequence')!.width = 500;
+        view.grid.columns.byName('cluster')!.visible = false;
+        view.grid.columns.byName('sequence_id')!.visible = false;
+        view.grid.columns.byName('sequence')!.width = 300;
+        view.grid.columns.byName('activity')!.visible = false;
+        view.grid.columns.byName('is_cliff')!.visible = false;
         // TODO: Fix column width
       }, {
         description: `Load dataset with macromolecules of 'fasta' notation, 'DNA' alphabet.`,

package/src/demo/bio01a-hierarchical-clustering-and-sequence-space.ts CHANGED Viewed

@@ -11,7 +11,7 @@ import {getDendrogramService, IDendrogramService} from '@datagrok-libraries/bio/
 import {demoSequenceSpace, handleError} from './utils';
 import {DemoScript} from '@datagrok-libraries/tutorials/src/demo-script';
-const dataFn = 'data/sample_FASTA_DNA.csv';
+const dataFn = 'data/sample_FASTA_PT_activity.csv';
 const seqColName = 'sequence';
 export async function demoBio01aUI() {
@@ -21,7 +21,7 @@ export async function demoBio01aUI() {
   let df: DG.DataFrame;
   let spViewer: DG.ScatterPlotViewer;
-  const method: string = 'UMAP';
+  const dimRedMethod: string = 'UMAP';
   const idRows: { [id: number]: number } = {};
   const embedCols: { [colName: string]: DG.Column<number> } = {};
@@ -38,6 +38,9 @@ export async function demoBio01aUI() {
         ]);
         view = grok.shell.addTableView(df);
         view.grid.props.rowHeight = 22;
+        view.grid.columns.byName('cluster')!.visible = false;
+        view.grid.columns.byName('sequence')!.width = 200;
+        view.grid.columns.byName('is_cliff')!.visible = false;
         grok.shell.windows.showContextPanel = false;
         grok.shell.windows.showProperties = false;
@@ -46,7 +49,7 @@ export async function demoBio01aUI() {
         delay: 2000,
       })
       .step('Build sequence space', async () => {
-        spViewer = await demoSequenceSpace(view, df, seqColName, method);
+        spViewer = await demoSequenceSpace(view, df, seqColName, dimRedMethod);
       }, {
         description: `Reduce sequence space dimensionality to display on 2D representation.`,
         delay: 2000
@@ -71,7 +74,10 @@ export async function demoBio01aUI() {
         delay: 2000,
       })
       .step('Select a bunch of sequences', async () => {
-        df.selection.init((idx: number) => [21, 9, 58].includes(idx));
+        const seqIdCol: DG.Column<string> = df.getCol('sequence_id');
+        df.selection.init((rowI: number) => {
+          return ['c0_seq120', 'c0_seq105', 'c0_seq121', 'c0_seq93'].includes(seqIdCol.get(rowI)!);
+        });
         df.currentRowIdx = 27;
       }, {
         description: 'Selecting a group of rows from a data frame to show their similarity and proximity to each other on a viewer..',

package/src/demo/bio01b-hierarchical-clustering-and-activity-cliffs.ts CHANGED Viewed

@@ -13,7 +13,7 @@ import {getDendrogramService, IDendrogramService} from '@datagrok-libraries/bio/
 import {handleError} from './utils';
 import {DemoScript} from '@datagrok-libraries/tutorials/src/demo-script';
-const dataFn: string = 'samples/sample_FASTA.csv';
+const dataFn: string = 'data/sample_FASTA_PT_activity.csv';
 export async function demoBio01bUI() {
   let treeHelper: ITreeHelper;
@@ -23,7 +23,7 @@ export async function demoBio01bUI() {
   let view: DG.TableView;
   let activityCliffsViewer: DG.ScatterPlotViewer;
-  const method: string = 'UMAP';
+  const dimRedMethod: string = 'UMAP';
   const idRows: { [id: number]: number } = {};
   try {
@@ -43,10 +43,9 @@ export async function demoBio01bUI() {
         view = grok.shell.addTableView(df);
         view.grid.props.rowHeight = 22;
-        const uniProtKbGCol = view.grid.columns.byName('UniProtKB')!;
-        uniProtKbGCol.width = 75;
-        const lengthGCol = view.grid.columns.byName('Length')!;
-        lengthGCol.width = 0;
+        view.grid.columns.byName('cluster')!.visible = false;
+        view.grid.columns.byName('sequence')!.width = 300;
+        view.grid.columns.byName('is_cliff')!.visible = false;
       }, {
         description: 'Load dataset with macromolecules of \'fasta\' notation, \'DNA\' alphabet.',
         delay: 2000,
@@ -54,7 +53,7 @@ export async function demoBio01bUI() {
       .step('Find activity cliffs', async () => {
         activityCliffsViewer = (await activityCliffs(
           df, df.getCol('Sequence'), df.getCol('Activity'),
-          80, method)) as DG.ScatterPlotViewer;
+          80, dimRedMethod)) as DG.ScatterPlotViewer;
         view.dockManager.dock(activityCliffsViewer, DG.DOCK_TYPE.RIGHT, null, 'Activity Cliffs', 0.35);
         // Show grid viewer with the cliffs
@@ -86,7 +85,7 @@ export async function demoBio01bUI() {
         //cliffsDfGrid.dataFrame.currentRowIdx = -1; // reset
         const cliffsDfGrid: DG.Grid = activityCliffsViewer.dataFrame.temp[acTEMPS.cliffsDfGrid];
         //cliffsDfGrid.dataFrame.selection.init((i) => i == currentCliffIdx);
-        cliffsDfGrid.dataFrame.currentRowIdx = 0;
+        if (cliffsDfGrid.dataFrame.rowCount > 0) cliffsDfGrid.dataFrame.currentRowIdx = 0;
         //cliffsDfGrid.dataFrame.selection.set(currentCliffIdx, true, true);
         // /* workaround to select rows of the cliff */

package/src/demo/bio05-helm-msa-sequence-space.ts CHANGED Viewed

@@ -22,6 +22,7 @@ export async function demoBio05UI(): Promise<void> {
   const helmColName: string = 'HELM';
   const msaHelmColName: string = 'msa(HELM)';
+  const dimRedMethod: string = 'UMAP';
   try {
     const demoScript = new DemoScript(
@@ -37,7 +38,7 @@ export async function demoBio05UI(): Promise<void> {
         description: 'Load dataset with macromolecules of \'Helm\' notation.',
         delay: 2000,
       })
-      .step('Align paptides with non-natural aminoacids with PepSeA', async () => {
+      .step('Align peptides with non-natural aminoacids with PepSeA', async () => {
         helmCol = df.getCol(helmColName);
         const method: string = pepseaMethods[0];
         const gapOpen: number = 1.53;
@@ -50,9 +51,8 @@ export async function demoBio05UI(): Promise<void> {
         delay: 2000,
       })
       .step('Build sequence space', async () => {
-        const method: string = 'UMAP';
         ssViewer = (await sequenceSpaceTopMenu(df, msaHelmCol,
-          'UMAP', StringMetricsNames.Levenshtein, true)) as DG.ScatterPlotViewer;
+          dimRedMethod, StringMetricsNames.Levenshtein, true)) as DG.ScatterPlotViewer;
         view.dockManager.dock(ssViewer, DG.DOCK_TYPE.RIGHT, null, 'Sequence Space', 0.35);
       }, {
         description: 'Reduce sequence space dimensionality to display on 2D representation.',

package/src/demo/utils.ts CHANGED Viewed

@@ -52,18 +52,6 @@ export async function demoSequenceSpace(
         embedCol.init((rowI) => { return embedColData[rowI]; });
       }
-      const rowCount: number = df.rowCount;
-      const idCol: DG.Column = df.getCol('id');
-      for (let idRowI = 0; idRowI < rowCount; idRowI++) {
-        const id = idCol.get(idRowI);
-        //idRows[id] = idRowI;
-      }
-      for (const embedColName of Object.values(EMBED_COL_NAMES)) {
-        const embedCol: DG.Column<number> = df.getCol(embedColName);
-        //embedCols[embedColName] = embedCol;
-      }
       const t3: number = Date.now();
       _package.logger.debug('MLB: MlbVrSpaceBrowser.buildView(), postprocess reduceDimensionality ' +
         `ET: ${((t3 - t2) / 1000)} s`);

package/src/package-test.ts CHANGED Viewed

@@ -22,6 +22,7 @@ import './tests/substructure-filters-tests';
 import './tests/pepsea-tests';
 import './tests/viewers';
 import './tests/units-handler-tests';
+import './tests/to-atomic-level-tests';
 import './tests/mm-distance-tests';
 // Tests hanging github CI

package/src/package.ts CHANGED Viewed

@@ -9,7 +9,7 @@ import {
 } from './utils/cell-renderer';
 import {VdRegionsViewer} from './viewers/vd-regions-viewer';
 import {SequenceAlignment} from './seq_align';
-import {getEmbeddingColsNames, sequenceSpaceByFingerprints} from './analysis/sequence-space';
+import {getEmbeddingColsNames, sequenceSpaceByFingerprints, getSequenceSpace} from './analysis/sequence-space';
 import {getActivityCliffs} from '@datagrok-libraries/ml/src/viewers/activity-cliffs';
 import {
   createLinesGrid,
@@ -290,19 +290,23 @@ export async function activityCliffs(df: DG.DataFrame, macroMolecule: DG.Column,
     'separator': macroMolecule.getTag(bioTAGS.separator),
     'alphabet': macroMolecule.getTag(bioTAGS.alphabet),
   };
+  const uh = new UnitsHandler(macroMolecule);
+  let columnDistanceMetric = 'Tanimoto';
+  if (uh.isFasta())
+    columnDistanceMetric = uh.getDistanceFunctionName();
   const sp = await getActivityCliffs(
     df,
     macroMolecule,
     null,
     axesNames,
-    'Activity cliffs',
+    'Activity cliffs', //scatterTitle
     activities,
     similarity,
-    'Tanimoto',
+    columnDistanceMetric, //similarityMetric
     methodName,
     DG.SEMTYPE.MACROMOLECULE,
     tags,
-    sequenceSpaceByFingerprints,
+    getSequenceSpace,
     getChemSimilaritiesMatrix,
     createTooltipElement,
     createPropPanelElement,
@@ -353,7 +357,7 @@ export async function sequenceSpaceTopMenu(table: DG.DataFrame, macroMolecule: D
     embedAxesNames: embedColsNames,
     options: options
   };
-  const sequenceSpaceRes = await sequenceSpaceByFingerprints(chemSpaceParams);
+  const sequenceSpaceRes = await getSequenceSpace(chemSpaceParams);
   const embeddings = sequenceSpaceRes.coordinates;
   for (const col of embeddings) {
     const listValues = col.toList();
@@ -407,9 +411,15 @@ export async function toAtomicLevel(df: DG.DataFrame, macroMolecule: DG.Column):
   }
   if (!checkInputColumnUI(macroMolecule, 'To Atomic Level'))
     return;
-  const monomersLibFile = await _package.files.readAsText(HELM_CORE_LIB_FILENAME);
-  const monomersLibObject: any[] = JSON.parse(monomersLibFile);
-  await _toAtomicLevel(df, macroMolecule, monomersLibObject);
+  const monomerLib: IMonomerLib = (await getMonomerLibHelper()).getBioLib();
+  const atomicLevelRes = await _toAtomicLevel(df, macroMolecule, monomerLib);
+  if (atomicLevelRes.col !== null) {
+    df.columns.add(atomicLevelRes.col, true);
+    await grok.data.detectSemanticTypes(df);
+  }
+  if (atomicLevelRes.warnings && atomicLevelRes.warnings.length > 0)
+    grok.shell.warning(ui.list(atomicLevelRes.warnings));
 }
 //top-menu: Bio | Alignment | MSA...
@@ -673,6 +683,7 @@ export function bioSubstructureFilter(): BioSubstructureFilter {
 //meta.demoPath: Bioinformatics | Similarity, Diversity
 //description: Sequence similarity tracking and evaluation dataset diversity
 //meta.path: /apps/Tutorials/Demo/Bioinformatics/Similarity,%20Diversity
+//meta.isDemoScript: True
 export async function demoBioSimilarityDiversity(): Promise<void> {
   await demoBio01UI();
 }
@@ -682,6 +693,7 @@ export async function demoBioSimilarityDiversity(): Promise<void> {
 //meta.demoPath: Bioinformatics | Sequence Space
 //description: Exploring sequence space of Macromolecules, comparison with hierarchical clustering results
 //meta.path: /apps/Tutorials/Demo/Bioinformatics/Sequence%20Space
+//meta.isDemoScript: True
 export async function demoBioSequenceSpace(): Promise<void> {
   await demoBio01aUI();
 }
@@ -691,6 +703,7 @@ export async function demoBioSequenceSpace(): Promise<void> {
 //meta.demoPath: Bioinformatics | Activity Cliffs
 //description: Activity Cliffs analysis on Macromolecules data
 //meta.path: /apps/Tutorials/Demo/Bioinformatics/Activity%20Cliffs
+//meta.isDemoScript: True
 export async function demoBioActivityCliffs(): Promise<void> {
   await demoBio01bUI();
 }
@@ -700,6 +713,7 @@ export async function demoBioActivityCliffs(): Promise<void> {
 //meta.demoPath: Bioinformatics | Atomic Level
 //description: Atomic level structure of Macromolecules
 //meta.path: /apps/Tutorials/Demo/Bioinformatics/Atomic%20Level
+//meta.isDemoScript: True
 export async function demoBioAtomicLevel(): Promise<void> {
   await demoBio03UI();
 }
@@ -709,6 +723,7 @@ export async function demoBioAtomicLevel(): Promise<void> {
 //meta.demoPath: Bioinformatics | Helm, MSA, Sequence Space
 //description: MSA and composition analysis on Helm data
 //meta.path: /apps/Tutorials/Demo/Bioinformatics/Helm,%20MSA,%20Sequence%20Space
+//meta.isDemoScript: True
 export async function demoBioHelmMsaSequenceSpace(): Promise<void> {
   await demoBio05UI();
 }

package/src/tests/converters-test.ts CHANGED Viewed

@@ -53,9 +53,9 @@ Y-N-R-Q-W-Y-V
 M-K-P-S-E-Y-V
 `,
     helmPt: `seq
-PEPTIDE1{F.W.P.H.E.Y}$$$
-PEPTIDE1{Y.N.R.Q.W.Y.V}$$$
-PEPTIDE1{M.K.P.S.E.Y.V}$$$
+PEPTIDE1{F.W.P.H.E.Y}$$$$
+PEPTIDE1{Y.N.R.Q.W.Y.V}$$$$
+PEPTIDE1{M.K.P.S.E.Y.V}$$$$
 `,
     fastaDna: `seq
 ACGTC
@@ -68,9 +68,9 @@ C/A/G/T/G/T
 T/T/C/A/A/C
 `,
     helmDna: `seq
-DNA1{D(A)P.D(C)P.D(G)P.D(T)P.D(C)P}$$$
-DNA1{D(C)P.D(A)P.D(G)P.D(T)P.D(G)P.D(T)P}$$$
-DNA1{D(T)P.D(T)P.D(C)P.D(A)P.D(A)P.D(C)P}$$$
+DNA1{D(A)P.D(C)P.D(G)P.D(T)P.D(C)P}$$$$
+DNA1{D(C)P.D(A)P.D(G)P.D(T)P.D(G)P.D(T)P}$$$$
+DNA1{D(T)P.D(T)P.D(C)P.D(A)P.D(A)P.D(C)P}$$$$
 `,
     fastaRna: `seq
 ACGUC
@@ -83,9 +83,9 @@ C*A*G*U*G*U
 U*U*C*A*A*C
 `,
     helmRna: `seq
-RNA1{R(A)P.R(C)P.R(G)P.R(U)P.R(C)P}$$$
-RNA1{R(C)P.R(A)P.R(G)P.R(U)P.R(G)P.R(U)P}$$$
-RNA1{R(U)P.R(U)P.R(C)P.R(A)P.R(A)P.R(C)P}$$$
+RNA1{R(A)P.R(C)P.R(G)P.R(U)P.R(C)P}$$$$
+RNA1{R(C)P.R(A)P.R(G)P.R(U)P.R(G)P.R(U)P}$$$$
+RNA1{R(U)P.R(U)P.R(C)P.R(A)P.R(A)P.R(C)P}$$$$
 `,
     fastaGaps: `seq
 FW-PH-EYY
@@ -98,9 +98,9 @@ F/Y/N/R/Q/W/Y/V/
 F/K/P//Q//S/E/Y/V
 `,
     helmGaps: `seq
-PEPTIDE1{F.W.*.P.H.*.E.Y.Y}$$$
-PEPTIDE1{F.Y.N.R.Q.W.Y.V.*}$$$
-PEPTIDE1{F.K.P.*.Q.*.S.E.Y.V}$$$
+PEPTIDE1{F.W.*.P.H.*.E.Y.Y}$$$$
+PEPTIDE1{F.Y.N.R.Q.W.Y.V.*}$$$$
+PEPTIDE1{F.K.P.*.Q.*.S.E.Y.V}$$$$
 `,
     fastaUn: `seq
@@ -114,24 +114,24 @@ meI-hHis-Aca-Cys_SEt-T-dK-Thr_PO3H2-Aca-Tyr_PO3H2
 Lys_Boc-hHis-Aca-Cys_SEt-T-dK-Thr_PO3H2-Aca-Tyr_PO3H2
 `,
     helmUn: `seq
-PEPTIDE1{meI.hHis.Aca.N.T.dE.Thr_PO3H2.Aca.D}$$$
-PEPTIDE1{meI.hHis.Aca.Cys_SEt.T.dK.Thr_PO3H2.Aca.Tyr_PO3H2}$$$
-PEPTIDE1{Lys_Boc.hHis.Aca.Cys_SEt.T.dK.Thr_PO3H2.Aca.Tyr_PO3H2}$$$
+PEPTIDE1{meI.hHis.Aca.N.T.dE.Thr_PO3H2.Aca.D}$$$$
+PEPTIDE1{meI.hHis.Aca.Cys_SEt.T.dK.Thr_PO3H2.Aca.Tyr_PO3H2}$$$$
+PEPTIDE1{Lys_Boc.hHis.Aca.Cys_SEt.T.dK.Thr_PO3H2.Aca.Tyr_PO3H2}$$$$
 `,
     helmLoneDeoxyribose: `seq
-DNA1{D(A).D(C).D(G).D(T).D(C)}$$$
-DNA1{D(C).D(A).D(G).D(T).D(G).D(T)P}$$$
-DNA1{D(T).D(T).D(C).D(A).D(A).D(C)P}$$$
+DNA1{D(A).D(C).D(G).D(T).D(C)}$$$$
+DNA1{D(C).D(A).D(G).D(T).D(G).D(T)P}$$$$
+DNA1{D(T).D(T).D(C).D(A).D(A).D(C)P}$$$$
 `,
     helmLoneRibose: `seq
-RNA1{R(A).R(C).R(G).R(U).R(C)}$$$
-RNA1{R(C).R(A).R(G).R(U).R(G).R(U)P}$$$
-RNA1{R(U).R(U).R(C).R(A).R(A).R(C)P}$$$
+RNA1{R(A).R(C).R(G).R(U).R(C)}$$$$
+RNA1{R(C).R(A).R(G).R(U).R(G).R(U)P}$$$$
+RNA1{R(U).R(U).R(C).R(A).R(A).R(C)P}$$$$
 `,
     helmLonePhosphorus: `seq
-RNA1{P.P.R(A)P.R(C)P.R(G)P.R(U)P.R(C)P}$$$
-RNA1{P.P.R(C)P.R(A)P.P.R(G)P.R(U)P.R(G)P.R(U)P}$$$
-RNA1{P.R(U)P.R(U)P.R(C)P.R(A)P.R(A)P.R(C)P.P.P}$$$
+RNA1{P.P.R(A)P.R(C)P.R(G)P.R(U)P.R(C)P}$$$$
+RNA1{P.P.R(C)P.R(A)P.P.R(G)P.R(U)P.R(G)P.R(U)P}$$$$
+RNA1{P.R(U)P.R(U)P.R(C)P.R(A)P.R(A)P.R(C)P.P.P}$$$$
 `,
   };

package/src/tests/to-atomic-level-tests.ts ADDED Viewed

@@ -0,0 +1,187 @@
+/* Do not change these import lines to match external modules in webpack configuration */
+import * as grok from 'datagrok-api/grok';
+import * as ui from 'datagrok-api/ui';
+import * as DG from 'datagrok-api/dg';
+import {before, after, category, test, expectArray} from '@datagrok-libraries/utils/src/test';
+import {getMonomerLibHelper, toAtomicLevel} from '../package';
+import {_toAtomicLevel} from '@datagrok-libraries/bio/src/monomer-works/to-atomic-level';
+import {IMonomerLib} from '@datagrok-libraries/bio/src/types/index';
+import {IMonomerLibHelper} from '@datagrok-libraries/bio/src/monomer-works/monomer-utils';
+import {LIB_STORAGE_NAME} from '../utils/monomer-lib';
+const appPath = 'System:AppData/Bio';
+const fileSource = new DG.FileSource(appPath);
+const testNames: { [k: string]: string } = {
+  PT: 'peptides fasta',
+  DNA: 'dna fasta',
+  MSA: 'msa separator',
+};
+const inputPath: { [k: string]: string } = {
+  PT: 'tests/to-atomic-level-peptides-fasta-input.csv',
+  DNA: 'tests/to-atomic-level-dna-fasta-input.csv',
+  MSA: 'tests/to-atomic-level-msa-separator-input.csv',
+};
+const outputPath: { [k: string]: string } = {
+  PT: 'tests/to-atomic-level-peptides-output.csv',
+  DNA: 'tests/to-atomic-level-dna-output.csv',
+  MSA: 'tests/to-atomic-level-msa-output.csv',
+};
+const inputColName = 'sequence';
+const outputColName = 'molfile(sequence)';
+category('toAtomicLevel', async () => {
+  const sourceDf: { [key: string]: DG.DataFrame } = {};
+  const targetDf: { [key: string]: DG.DataFrame } = {};
+  let monomerLibHelper: IMonomerLibHelper;
+  /** Backup actual user's monomer libraries settings */
+  let userLibrariesSettings: any = null;
+  before(async () => {
+    monomerLibHelper = await getMonomerLibHelper();
+    userLibrariesSettings = await grok.dapi.userDataStorage.get(LIB_STORAGE_NAME, true);
+    // Clear settings to test default
+    await grok.dapi.userDataStorage.put(LIB_STORAGE_NAME, {}, true);
+    await monomerLibHelper.loadLibraries(true);
+    for (const key in testNames) {
+      sourceDf[key] = await fileSource.readCsv(inputPath[key]);
+      await grok.data.detectSemanticTypes(sourceDf[key]);
+      targetDf[key] = await fileSource.readCsv(outputPath[key]);
+    }
+  });
+  after(async () => {
+    await grok.dapi.userDataStorage.put(LIB_STORAGE_NAME, userLibrariesSettings, true);
+    await monomerLibHelper.loadLibraries(true);
+  });
+  async function getTestResult(source: DG.DataFrame, target: DG.DataFrame): Promise<void> {
+    const inputCol = source.getCol(inputColName);
+    await toAtomicLevel(source, inputCol);
+    const obtainedCol = source.getCol(outputColName);
+    const expectedCol = target.getCol(outputColName);
+    const obtainedArray = [...obtainedCol.values()];
+    const expectedArray = [...expectedCol.values()];
+    expectArray(obtainedArray, expectedArray);
+  }
+  for (const key in testNames) {
+    test(`${testNames[key]}`, async () => {
+      await getTestResult(sourceDf[key], targetDf[key]);
+    }, {skipReason: 'GROK-13100'});
+  }
+  enum csvTests {
+    fastaDna = 'fastaDna',
+    fastaRna = 'fastaRna',
+    fastaPt = 'fastaPt',
+    separatorDna = 'separatorDna',
+    separatorRna = 'separatorRna',
+    separatorPt = 'separatorPt',
+    separatorUn = 'separatorUn',
+    helm = 'helm',
+  }
+  const csvData: { [key in csvTests]: string } = {
+    [csvTests.fastaDna]: `seq
+ACGTC
+CAGTGT
+TTCAAC
+`,
+    [csvTests.fastaRna]: `seq
+ACGUC
+CAGUGU
+UUCAAC
+`,
+    [csvTests.fastaPt]: `seq
+FWPHEY
+YNRQWYV
+MKPSEYV
+`,
+    [csvTests.separatorDna]: `seq
+A/C/G/T/C
+C/A/G/T/G/T
+T/T/C/A/A/C
+`,
+    [csvTests.separatorRna]: `seq
+A*C*G*U*C
+C*A*G*U*G*U
+U*U*C*A*A*C
+`,
+    [csvTests.separatorPt]: `seq
+F-W-P-H-E-Y
+Y-N-R-Q-W-Y-V
+M-K-P-S-E-Y-V
+`,
+    [csvTests.separatorUn]: `seq
+meI-hHis-Aca-N-T-dE-Thr_PO3H2-Aca-D
+meI-hHis-Aca-Cys_SEt-T-dK-Thr_PO3H2-Aca-Tyr_PO3H2
+Lys_Boc-hHis-Aca-Cys_SEt-T-dK-Thr_PO3H2-Aca-Tyr_PO3H2
+`,
+    [csvTests.helm]: `seq
+PEPTIDE1{meI.D-gGlu.Aca.N.T.dE.Thr_PO3H2.Aca.D}$$$
+PEPTIDE1{meI.hHis.Aca.Cys_SEt.T.dK.Thr_PO3H2.Aca.Tyr_PO3H2}$$$
+PEPTIDE1{Lys_Boc.hHis.Aca.Cys_SEt.T.dK.Thr_PO3H2.Aca.Tyr_PO3H2}$$$
+`,
+  };
+  /** Also detects semantic types
+   * @param {string} key
+   * @return {Promise<DG.DataFrame>}
+   */
+  async function readCsv(key: csvTests): Promise<DG.DataFrame> {
+    // Always recreate test data frame from CSV for reproducible detector behavior in tests.
+    const csv: string = csvData[key];
+    const df: DG.DataFrame = DG.DataFrame.fromCsv(csv);
+    await grok.data.detectSemanticTypes(df);
+    return df;
+  }
+  test('fastaDna', async () => {
+    await _testToAtomicLevel(await readCsv(csvTests.fastaDna), 'seq', monomerLibHelper);
+  });
+  test('fastaRna', async () => {
+    await _testToAtomicLevel(await readCsv(csvTests.fastaRna), 'seq', monomerLibHelper);
+  });
+  test('fastaPt', async () => {
+    await _testToAtomicLevel(await readCsv(csvTests.fastaPt), 'seq', monomerLibHelper);
+  });
+  test('separatorDna', async () => {
+    await _testToAtomicLevel(await readCsv(csvTests.separatorDna), 'seq', monomerLibHelper);
+  });
+  test('separatorDna', async () => {
+    await _testToAtomicLevel(await readCsv(csvTests.separatorRna), 'seq', monomerLibHelper);
+  });
+  test('separatorPt', async () => {
+    await _testToAtomicLevel(await readCsv(csvTests.separatorPt), 'seq', monomerLibHelper);
+  });
+  test('separatorUn', async () => {
+    await _testToAtomicLevel(await readCsv(csvTests.separatorUn), 'seq', monomerLibHelper);
+  });
+  test('helm', async () => {
+    await _testToAtomicLevel(await readCsv(csvTests.helm), 'seq', monomerLibHelper);
+  });
+});
+async function _testToAtomicLevel(df: DG.DataFrame, seqColName: string = 'seq', monomerLibHelper: IMonomerLibHelper) {
+  const seqCol: DG.Column<string> = df.getCol(seqColName);
+  const monomerLib: IMonomerLib = monomerLibHelper.getBioLib();
+  const resCol = await _toAtomicLevel(df, seqCol, monomerLib);
+}

package/src/utils/multiple-sequence-alignment-ui.ts CHANGED Viewed

@@ -44,8 +44,8 @@ export async function multipleSequenceAlignmentUI(options: multipleSequenceAlgin
     let performAlignment: (() => Promise<DG.Column<string>>) | undefined;
     // TODO: allow only macromolecule colums to be chosen
-    const colInput = ui.columnInput('Sequence', table, seqCol, () => {
-      performAlignment = onColInputChange(
+    const colInput = ui.columnInput('Sequence', table, seqCol, async () => {
+      performAlignment = await onColInputChange(
         colInput.value, table, inputRootStyles, methodInput, clustersColInput, gapOpenInput, gapExtendInput);
     }
     ) as DG.InputBase<DG.Column<string>>;
@@ -55,7 +55,7 @@ export async function multipleSequenceAlignmentUI(options: multipleSequenceAlgin
     colInput.fireChanged();
     //if column is specified (from tests), run alignment and resolve with the result
     if (options.col) {
-      performAlignment = onColInputChange(
+      performAlignment = await onColInputChange(
         options.col, table, inputRootStyles, methodInput, clustersColInput, gapOpenInput, gapExtendInput);
       await onDialogOk(colInput, table, performAlignment, resolve, reject);
@@ -105,7 +105,7 @@ async function onDialogOk(
 }
-function onColInputChange(
+async function onColInputChange(
   col: DG.Column<string>,
   table: DG.DataFrame,
   inputRootStyles: CSSStyleDeclaration[],
@@ -113,7 +113,7 @@ function onColInputChange(
   clustersColInput: DG.InputBase<DG.Column<any> | null>,
   gapOpenInput: DG.InputBase<number | null>,
   gapExtendInput: DG.InputBase<number | null>
-): (() => Promise<DG.Column<string>>) | undefined {
+): Promise<(() => Promise<DG.Column<string>>) | undefined> {
   try {
     if (col.semType !== DG.SEMTYPE.MACROMOLECULE)
       return;
@@ -136,6 +136,19 @@ function onColInputChange(
       return async () => await runPepsea(col, unusedName, methodInput.value!,
           gapOpenInput.value!, gapExtendInput.value!, clustersColInput.value);
+        } else if (checkInputColumnUI(col, col.name, [NOTATION.SEPARATOR], [ALPHABET.UN], false)) {
+          //if the column is separator with unknown alphabet, it might be helm. check if it can be converted to helm
+          const potentialColNC = new NotationConverter(col);
+          if (!await potentialColNC.checkHelmCompatibility())
+            return;
+          const helmCol = potentialColNC.convert(NOTATION.HELM);
+          for (const inputRootStyle of inputRootStyles)
+            inputRootStyle.removeProperty('display');
+          console.log(helmCol.toList());
+          // convert to helm and assign alignment function to PepSea
+          return async () => await runPepsea(helmCol, unusedName, methodInput.value!,
+            gapOpenInput.value!, gapExtendInput.value!, clustersColInput.value);
     } else {
       for (const inputRootStyle of inputRootStyles)
         inputRootStyle.display = 'none';