npm - @datagrok/bio - Versions diffs - 1.5.3 → 1.5.4 - Mend

@datagrok/bio 1.5.3 → 1.5.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

package/dist/package-test.js +202 -79
package/dist/package.js +183 -62
package/files/samples/sample_HELM.csv +540 -540
package/files/samples/sample_MSA.csv +540 -540
package/files/samples/sar-small.csv +201 -0
package/package.json +1 -1
package/src/const.ts +0 -1
package/src/package.ts +14 -12
package/src/tests/convert-test.ts +31 -0
package/src/tests/detectors-test.ts +19 -14
package/src/utils/convert.ts +15 -3
package/src/utils/multiple-sequence-alignment.ts +13 -8
package/src/utils/notation-converter.ts +131 -0
package/src/utils/sequence-space.ts +4 -4
package/src/utils/split-to-monomers.ts +8 -0

package/files/samples/sar-small.csv ADDED Viewed

@@ -0,0 +1,201 @@
+smiles
+O=C1CN=C(c2ccccc2N1)C3CCCCC3
+CN1C(=O)CN=C(c2ccccc12)C3CCCCC3
+CCCCN1C(=O)CN=C(c2ccccc12)C3CCCCC3
+CC(C)CCN1C(=O)CN=C(c2ccccc12)C3CCCCC3
+O=C1CN=C(c2ccccc2N1CC3CCCCC3)C4CCCCC4
+O=C1CN=C(c2cc(Cl)ccc2N1)C3CCCCC3
+CN1C(=O)CN=C(c2cc(Cl)ccc12)C3CCCCC3
+CCCCN1C(=O)CN=C(c2cc(Cl)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)CN=C(c2cc(Cl)ccc12)C3CCCCC3
+O=C1CN=C(c2cc(Cl)ccc2N1CC3CCCCC3)C4CCCCC4
+N#Cc1ccc2NC(=O)CN=C(c2c1)C3CCCCC3
+CN1C(=O)CN=C(c2cc(C#N)ccc12)C3CCCCC3
+CCCCN1C(=O)CN=C(c2cc(C#N)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)CN=C(c2cc(C#N)ccc12)C3CCCCC3
+N#Cc1ccc2c(c1)C(=NCC(=O)N2CC3CCCCC3)C4CCCCC4
+CN(C)c1ccc2NC(=O)CN=C(c2c1)C3CCCCC3
+CN(C)c1ccc2c(c1)C(=NCC(=O)N2C)C3CCCCC3
+CCCCN1C(=O)CN=C(c2cc(ccc12)N(C)C)C3CCCCC3
+CC(C)CCN1C(=O)CN=C(c2cc(ccc12)N(C)C)C3CCCCC3
+CN(C)c1ccc2c(c1)C(=NCC(=O)N2CC3CCCCC3)C4CCCCC4
+O=C1CN=C(c2cc(F)ccc2N1)C3CCCCC3
+CN1C(=O)CN=C(c2cc(F)ccc12)C3CCCCC3
+CCCCN1C(=O)CN=C(c2cc(F)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)CN=C(c2cc(F)ccc12)C3CCCCC3
+O=C1CN=C(c2cc(F)ccc2N1CC3CCCCC3)C4CCCCC4
+O=C1CN=C(c2cc(Br)ccc2N1)C3CCCCC3
+CN1C(=O)CN=C(c2cc(Br)ccc12)C3CCCCC3
+CCCCN1C(=O)CN=C(c2cc(Br)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)CN=C(c2cc(Br)ccc12)C3CCCCC3
+O=C1CN=C(c2cc(Br)ccc2N1CC3CCCCC3)C4CCCCC4
+O=C1CN=C(c2cc(I)ccc2N1)C3CCCCC3
+CN1C(=O)CN=C(c2cc(I)ccc12)C3CCCCC3
+CCCCN1C(=O)CN=C(c2cc(I)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)CN=C(c2cc(I)ccc12)C3CCCCC3
+O=C1CN=C(c2cc(I)ccc2N1CC3CCCCC3)C4CCCCC4
+NC(=O)c1ccc2NC(=O)CN=C(c2c1)C3CCCCC3
+CN1C(=O)CN=C(c2cc(ccc12)C(N)=O)C3CCCCC3
+CCCCN1C(=O)CN=C(c2cc(ccc12)C(N)=O)C3CCCCC3
+CC(C)CCN1C(=O)CN=C(c2cc(ccc12)C(N)=O)C3CCCCC3
+NC(=O)c1ccc2c(c1)C(=NCC(=O)N2CC3CCCCC3)C4CCCCC4
+O=C1CN=C(c2cc(ccc2N1)[N+](=O)[O-])C3CCCCC3
+CN1C(=O)CN=C(c2cc(ccc12)[N+](=O)[O-])C3CCCCC3
+CCCCN1C(=O)CN=C(c2cc(ccc12)[N+](=O)[O-])C3CCCCC3
+CC(C)CCN1C(=O)CN=C(c2cc(ccc12)[N+](=O)[O-])C3CCCCC3
+O=C1CN=C(c2cc(ccc2N1CC3CCCCC3)[N+](=O)[O-])C4CCCCC4
+O=C1CN=C(c2ccccc2)c3ccccc3N1
+CN1C(=O)CN=C(c2ccccc2)c3ccccc13
+CCCCN1C(=O)CN=C(c2ccccc2)c3ccccc13
+CC(C)CCN1C(=O)CN=C(c2ccccc2)c3ccccc13
+O=C1CN=C(c2ccccc2)c3ccccc3N1CC4CCCCC4
+O=C1CN=C(c2ccccc2)c3cc(Cl)ccc3N1
+CN1C(=O)CN=C(c2ccccc2)c3cc(Cl)ccc13
+CCCCN1C(=O)CN=C(c2ccccc2)c3cc(Cl)ccc13
+CC(C)CCN1C(=O)CN=C(c2ccccc2)c3cc(Cl)ccc13
+O=C1CN=C(c2ccccc2)c3cc(Cl)ccc3N1CC4CCCCC4
+N#Cc1ccc2NC(=O)CN=C(c3ccccc3)c2c1
+CN1C(=O)CN=C(c2ccccc2)c3cc(C#N)ccc13
+CCCCN1C(=O)CN=C(c2ccccc2)c3cc(C#N)ccc13
+CC(C)CCN1C(=O)CN=C(c2ccccc2)c3cc(C#N)ccc13
+N#Cc1ccc2c(c1)C(=NCC(=O)N2CC3CCCCC3)c4ccccc4
+CN(C)c1ccc2NC(=O)CN=C(c3ccccc3)c2c1
+CN(C)c1ccc2c(c1)C(=NCC(=O)N2C)c3ccccc3
+CCCCN1C(=O)CN=C(c2ccccc2)c3cc(ccc13)N(C)C
+CC(C)CCN1C(=O)CN=C(c2ccccc2)c3cc(ccc13)N(C)C
+CN(C)c1ccc2c(c1)C(=NCC(=O)N2CC3CCCCC3)c4ccccc4
+O=C1CN=C(c2ccccc2)c3cc(F)ccc3N1
+CN1C(=O)CN=C(c2ccccc2)c3cc(F)ccc13
+CCCCN1C(=O)CN=C(c2ccccc2)c3cc(F)ccc13
+CC(C)CCN1C(=O)CN=C(c2ccccc2)c3cc(F)ccc13
+O=C1CN=C(c2ccccc2)c3cc(F)ccc3N1CC4CCCCC4
+O=C1CN=C(c2ccccc2)c3cc(Br)ccc3N1
+CN1C(=O)CN=C(c2ccccc2)c3cc(Br)ccc13
+CCCCN1C(=O)CN=C(c2ccccc2)c3cc(Br)ccc13
+CC(C)CCN1C(=O)CN=C(c2ccccc2)c3cc(Br)ccc13
+O=C1CN=C(c2ccccc2)c3cc(Br)ccc3N1CC4CCCCC4
+O=C1CN=C(c2ccccc2)c3cc(I)ccc3N1
+CN1C(=O)CN=C(c2ccccc2)c3cc(I)ccc13
+CCCCN1C(=O)CN=C(c2ccccc2)c3cc(I)ccc13
+CC(C)CCN1C(=O)CN=C(c2ccccc2)c3cc(I)ccc13
+O=C1CN=C(c2ccccc2)c3cc(I)ccc3N1CC4CCCCC4
+NC(=O)c1ccc2NC(=O)CN=C(c3ccccc3)c2c1
+CN1C(=O)CN=C(c2ccccc2)c3cc(ccc13)C(N)=O
+CCCCN1C(=O)CN=C(c2ccccc2)c3cc(ccc13)C(N)=O
+CC(C)CCN1C(=O)CN=C(c2ccccc2)c3cc(ccc13)C(N)=O
+NC(=O)c1ccc2c(c1)C(=NCC(=O)N2CC3CCCCC3)c4ccccc4
+O=C1CN=C(c2ccccc2)c3cc(ccc3N1)[N+](=O)[O-]
+CN1C(=O)CN=C(c2ccccc2)c3cc(ccc13)[N+](=O)[O-]
+CCCCN1C(=O)CN=C(c2ccccc2)c3cc(ccc13)[N+](=O)[O-]
+CC(C)CCN1C(=O)CN=C(c2ccccc2)c3cc(ccc13)[N+](=O)[O-]
+O=C1CN=C(c2ccccc2)c3cc(ccc3N1CC4CCCCC4)[N+](=O)[O-]
+COc1ccc(cc1)C2=NCC(=O)Nc3ccccc23
+COc1ccc(cc1)C2=NCC(=O)N(C)c3ccccc23
+CCCCN1C(=O)CN=C(c2ccc(cc2)OC)c3ccccc13
+COc1ccc(cc1)C2=NCC(=O)N(CCC(C)C)c3ccccc23
+COc1ccc(cc1)C2=NCC(=O)N(CC3CCCCC3)c4ccccc24
+COc1ccc(cc1)C2=NCC(=O)Nc3ccc(Cl)cc23
+COc1ccc(cc1)C2=NCC(=O)N(C)c3ccc(Cl)cc23
+CCCCN1C(=O)CN=C(c2ccc(cc2)OC)c3cc(Cl)ccc13
+COc1ccc(cc1)C2=NCC(=O)N(CCC(C)C)c3ccc(Cl)cc23
+COc1ccc(cc1)C2=NCC(=O)N(CC3CCCCC3)c4ccc(Cl)cc24
+COc1ccc(cc1)C2=NCC(=O)Nc3ccc(C#N)cc23
+COc1ccc(cc1)C2=NCC(=O)N(C)c3ccc(C#N)cc23
+CCCCN1C(=O)CN=C(c2ccc(cc2)OC)c3cc(C#N)ccc13
+COc1ccc(cc1)C2=NCC(=O)N(CCC(C)C)c3ccc(C#N)cc23
+COc1ccc(cc1)C2=NCC(=O)N(CC3CCCCC3)c4ccc(C#N)cc24
+COc1ccc(cc1)C2=NCC(=O)Nc3ccc(cc23)N(C)C
+COc1ccc(cc1)C2=NCC(=O)N(C)c3ccc(cc23)N(C)C
+CCCCN1C(=O)CN=C(c2ccc(cc2)OC)c3cc(ccc13)N(C)C
+COc1ccc(cc1)C2=NCC(=O)N(CCC(C)C)c3ccc(cc23)N(C)C
+COc1ccc(cc1)C2=NCC(=O)N(CC3CCCCC3)c4ccc(cc24)N(C)C
+COc1ccc(cc1)C2=NCC(=O)Nc3ccc(F)cc23
+COc1ccc(cc1)C2=NCC(=O)N(C)c3ccc(F)cc23
+CCCCN1C(=O)CN=C(c2ccc(cc2)OC)c3cc(F)ccc13
+COc1ccc(cc1)C2=NCC(=O)N(CCC(C)C)c3ccc(F)cc23
+COc1ccc(cc1)C2=NCC(=O)N(CC3CCCCC3)c4ccc(F)cc24
+COc1ccc(cc1)C2=NCC(=O)Nc3ccc(Br)cc23
+COc1ccc(cc1)C2=NCC(=O)N(C)c3ccc(Br)cc23
+CCCCN1C(=O)CN=C(c2ccc(cc2)OC)c3cc(Br)ccc13
+COc1ccc(cc1)C2=NCC(=O)N(CCC(C)C)c3ccc(Br)cc23
+COc1ccc(cc1)C2=NCC(=O)N(CC3CCCCC3)c4ccc(Br)cc24
+COc1ccc(cc1)C2=NCC(=O)Nc3ccc(I)cc23
+COc1ccc(cc1)C2=NCC(=O)N(C)c3ccc(I)cc23
+CCCCN1C(=O)CN=C(c2ccc(cc2)OC)c3cc(I)ccc13
+COc1ccc(cc1)C2=NCC(=O)N(CCC(C)C)c3ccc(I)cc23
+COc1ccc(cc1)C2=NCC(=O)N(CC3CCCCC3)c4ccc(I)cc24
+COc1ccc(cc1)C2=NCC(=O)Nc3ccc(cc23)C(N)=O
+COc1ccc(cc1)C2=NCC(=O)N(C)c3ccc(cc23)C(N)=O
+CCCCN1C(=O)CN=C(c2ccc(cc2)OC)c3cc(ccc13)C(N)=O
+COc1ccc(cc1)C2=NCC(=O)N(CCC(C)C)c3ccc(cc23)C(N)=O
+COc1ccc(cc1)C2=NCC(=O)N(CC3CCCCC3)c4ccc(cc24)C(N)=O
+COc1ccc(cc1)C2=NCC(=O)Nc3ccc(cc23)[N+](=O)[O-]
+COc1ccc(cc1)C2=NCC(=O)N(C)c3ccc(cc23)[N+](=O)[O-]
+CCCCN1C(=O)CN=C(c2ccc(cc2)OC)c3cc(ccc13)[N+](=O)[O-]
+COc1ccc(cc1)C2=NCC(=O)N(CCC(C)C)c3ccc(cc23)[N+](=O)[O-]
+COc1ccc(cc1)C2=NCC(=O)N(CC3CCCCC3)c4ccc(cc24)[N+](=O)[O-]
+CC1N=C(c2ccccc2NC1=O)C3CCCCC3
+CC1N=C(c2ccccc2N(C)C1=O)C3CCCCC3
+CCCCN1C(=O)C(C)N=C(c2ccccc12)C3CCCCC3
+CC(C)CCN1C(=O)C(C)N=C(c2ccccc12)C3CCCCC3
+CC1N=C(c2ccccc2N(CC3CCCCC3)C1=O)C4CCCCC4
+CC1N=C(c2cc(Cl)ccc2NC1=O)C3CCCCC3
+CC1N=C(c2cc(Cl)ccc2N(C)C1=O)C3CCCCC3
+CCCCN1C(=O)C(C)N=C(c2cc(Cl)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)C(C)N=C(c2cc(Cl)ccc12)C3CCCCC3
+CC1N=C(c2cc(Cl)ccc2N(CC3CCCCC3)C1=O)C4CCCCC4
+CC1N=C(c2cc(C#N)ccc2NC1=O)C3CCCCC3
+CC1N=C(c2cc(C#N)ccc2N(C)C1=O)C3CCCCC3
+CCCCN1C(=O)C(C)N=C(c2cc(C#N)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)C(C)N=C(c2cc(C#N)ccc12)C3CCCCC3
+CC1N=C(c2cc(C#N)ccc2N(CC3CCCCC3)C1=O)C4CCCCC4
+CC1N=C(c2cc(ccc2NC1=O)N(C)C)C3CCCCC3
+CC1N=C(c2cc(ccc2N(C)C1=O)N(C)C)C3CCCCC3
+CCCCN1C(=O)C(C)N=C(c2cc(ccc12)N(C)C)C3CCCCC3
+CC(C)CCN1C(=O)C(C)N=C(c2cc(ccc12)N(C)C)C3CCCCC3
+CC1N=C(c2cc(ccc2N(CC3CCCCC3)C1=O)N(C)C)C4CCCCC4
+CC1N=C(c2cc(F)ccc2NC1=O)C3CCCCC3
+CC1N=C(c2cc(F)ccc2N(C)C1=O)C3CCCCC3
+CCCCN1C(=O)C(C)N=C(c2cc(F)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)C(C)N=C(c2cc(F)ccc12)C3CCCCC3
+CC1N=C(c2cc(F)ccc2N(CC3CCCCC3)C1=O)C4CCCCC4
+CC1N=C(c2cc(Br)ccc2NC1=O)C3CCCCC3
+CC1N=C(c2cc(Br)ccc2N(C)C1=O)C3CCCCC3
+CCCCN1C(=O)C(C)N=C(c2cc(Br)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)C(C)N=C(c2cc(Br)ccc12)C3CCCCC3
+CC1N=C(c2cc(Br)ccc2N(CC3CCCCC3)C1=O)C4CCCCC4
+CC1N=C(c2cc(I)ccc2NC1=O)C3CCCCC3
+CC1N=C(c2cc(I)ccc2N(C)C1=O)C3CCCCC3
+CCCCN1C(=O)C(C)N=C(c2cc(I)ccc12)C3CCCCC3
+CC(C)CCN1C(=O)C(C)N=C(c2cc(I)ccc12)C3CCCCC3
+CC1N=C(c2cc(I)ccc2N(CC3CCCCC3)C1=O)C4CCCCC4
+CC1N=C(c2cc(ccc2NC1=O)C(N)=O)C3CCCCC3
+CC1N=C(c2cc(ccc2N(C)C1=O)C(N)=O)C3CCCCC3
+CCCCN1C(=O)C(C)N=C(c2cc(ccc12)C(N)=O)C3CCCCC3
+CC(C)CCN1C(=O)C(C)N=C(c2cc(ccc12)C(N)=O)C3CCCCC3
+CC1N=C(c2cc(ccc2N(CC3CCCCC3)C1=O)C(N)=O)C4CCCCC4
+CC1N=C(c2cc(ccc2NC1=O)[N+](=O)[O-])C3CCCCC3
+CC1N=C(c2cc(ccc2N(C)C1=O)[N+](=O)[O-])C3CCCCC3
+CCCCN1C(=O)C(C)N=C(c2cc(ccc12)[N+](=O)[O-])C3CCCCC3
+CC(C)CCN1C(=O)C(C)N=C(c2cc(ccc12)[N+](=O)[O-])C3CCCCC3
+CC1N=C(c2cc(ccc2N(CC3CCCCC3)C1=O)[N+](=O)[O-])C4CCCCC4
+CC1N=C(c2ccccc2)c3ccccc3NC1=O
+CC1N=C(c2ccccc2)c3ccccc3N(C)C1=O
+CCCCN1C(=O)C(C)N=C(c2ccccc2)c3ccccc13
+CC(C)CCN1C(=O)C(C)N=C(c2ccccc2)c3ccccc13
+CC1N=C(c2ccccc2)c3ccccc3N(CC4CCCCC4)C1=O
+CC1N=C(c2ccccc2)c3cc(Cl)ccc3NC1=O
+CC1N=C(c2ccccc2)c3cc(Cl)ccc3N(C)C1=O
+CCCCN1C(=O)C(C)N=C(c2ccccc2)c3cc(Cl)ccc13
+CC(C)CCN1C(=O)C(C)N=C(c2ccccc2)c3cc(Cl)ccc13
+CC1N=C(c2ccccc2)c3cc(Cl)ccc3N(CC4CCCCC4)C1=O
+CC1N=C(c2ccccc2)c3cc(C#N)ccc3NC1=O
+CC1N=C(c2ccccc2)c3cc(C#N)ccc3N(C)C1=O
+CCCCN1C(=O)C(C)N=C(c2ccccc2)c3cc(C#N)ccc13
+CC(C)CCN1C(=O)C(C)N=C(c2ccccc2)c3cc(C#N)ccc13
+CC1N=C(c2ccccc2)c3cc(C#N)ccc3N(CC4CCCCC4)C1=O
+CC1N=C(c2ccccc2)c3cc(ccc3NC1=O)N(C)C
+CC1N=C(c2ccccc2)c3cc(ccc3N(C)C1=O)N(C)C
+CCCCN1C(=O)C(C)N=C(c2ccccc2)c3cc(ccc13)N(C)C
+CC(C)CCN1C(=O)C(C)N=C(c2ccccc2)c3cc(ccc13)N(C)C
+CC1N=C(c2ccccc2)c3cc(ccc3N(CC4CCCCC4)C1=O)N(C)C

package/package.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "name": "@datagrok/bio",
   "beta": false,
   "friendlyName": "Bio",
-  "version": "1.5.3",
+  "version": "1.5.4",
   "description": "Bio is a [package](https://datagrok.ai/help/develop/develop#packages) for the [Datagrok](https://datagrok.ai) platform",
   "repository": {
     "type": "git",

package/src/const.ts CHANGED Viewed

@@ -2,4 +2,3 @@ import * as ui from 'datagrok-api/ui';
 import * as grok from 'datagrok-api/grok';
 import * as DG from 'datagrok-api/dg';
-export const mmSemType = 'Macromolecule';

package/src/package.ts CHANGED Viewed

@@ -5,7 +5,6 @@ import * as DG from 'datagrok-api/dg';
 export const _package = new DG.Package();
-import {mmSemType} from './const';
 import {WebLogo, SeqColStats} from '@datagrok-libraries/bio/src/viewers/web-logo';
 import {VdRegionsViewer} from './viewers/vd-regions-viewer';
 import {runKalign, testMSAEnoughMemory} from './utils/multiple-sequence-alignment';
@@ -120,20 +119,23 @@ export async function multipleSequenceAlignmentAny(table: DG.DataFrame, col: DG.
 //top-menu: Bio | Composition Analysis
 //output: viewer result
 export async function compositionAnalysis(): Promise<void> {
-  const col = grok.shell.t.columns.bySemType('Macromolecule');//DG.SEMTYPE.MACROMOLECULE);
-  if (col === null) {
+  // Higher priority for columns with MSA data to show with WebLogo.
+  const tv = grok.shell.tv;
+  const df = tv.dataFrame;
+  const semTypeColList = df.columns.bySemTypeAll(DG.SEMTYPE.MACROMOLECULE);
+  let col: DG.Column | undefined = semTypeColList.find((col) => {
+    const units = col.getTag(DG.TAGS.UNITS);
+    return units ? units.indexOf('MSA') !== -1 : false;
+  });
+  if (!col)
+    col = semTypeColList[0];
+  if (!col) {
     grok.shell.error('Current table does not contain sequences');
     return;
   }
-  const wl = await col.dataFrame.plot.fromType('WebLogo', {});
-  for (const v of grok.shell.views) {
-    if (v instanceof DG.TableView && (v as DG.TableView).dataFrame.name === col.dataFrame.name) {
-      (v as DG.TableView).dockManager.dock(wl.root, 'down');
-      break;
-    }
-  }
+  tv.addViewer('WebLogo', {sequenceColumnName: col.name});
 }
 // helper function for importFasta
@@ -182,7 +184,7 @@ export function importFasta(fileContent: string): DG.DataFrame [] {
     (c) => WebLogo.getAlphabetSimilarity(stats.freq, c[1]));
   const maxCos = Math.max(...alphabetCandidatesSim);
   const alphabet = maxCos > 0.65 ? alphabetCandidates[alphabetCandidatesSim.indexOf(maxCos)][0] : 'UN';
-  sequenceCol.semType = mmSemType;
+  sequenceCol.semType = DG.SEMTYPE.MACROMOLECULE;
   const units: string = `fasta:${seqType}:${alphabet}`;
   sequenceCol.setTag(DG.TAGS.UNITS, units);

package/src/tests/convert-test.ts ADDED Viewed

@@ -0,0 +1,31 @@
+import {after, before, category, test, expect, expectObject} from '@datagrok-libraries/utils/src/test';
+import * as grok from 'datagrok-api/grok';
+import * as ui from 'datagrok-api/ui';
+import * as DG from 'datagrok-api/dg';
+// import {mmSemType} from '../const';
+// import {importFasta} from '../package';
+category('converters', () => {
+//   test('a', async () => {await _a();});
+//   test('b', async () => {await _b();});
+  test('testFastaToSeparator', async () => { await _testFastaToSeparator(); });
+  test('testSeparatorToFasta', async () => { await _testSeparatorToFasta(); });
+});
+// export async function _a() {
+//   expect(1, 1);
+// }
+//
+// export async function _b() {
+//   expect(1, 2);
+// }
+export async function _testFastaToSeparator() {
+  expect(1, 1);
+}
+export async function _testSeparatorToFasta() {
+  expect(1, 2);
+}

package/src/tests/detectors-test.ts CHANGED Viewed

@@ -4,7 +4,6 @@ import * as grok from 'datagrok-api/grok';
 import * as ui from 'datagrok-api/ui';
 import * as DG from 'datagrok-api/dg';
-import {mmSemType} from '../const';
 import {importFasta} from '../package';
 type DfReaderFunc = () => Promise<DG.DataFrame>;
@@ -94,6 +93,7 @@ MWRSWY-CKHP
     fastaCsv = 'FastaCsv',
     msaComplex = 'MsaComplex',
     idCsv = 'IdCsv',
+    sarSmallCsv = 'SarSmallCsv',
   }
   const samples: { [key: string]: string } = {
@@ -101,6 +101,7 @@ MWRSWY-CKHP
     'FastaCsv': 'System:AppData/Bio/samples/sample_FASTA.csv',
     'MsaComplex': 'System:AppData/Bio/samples/sample_MSA.csv',
     'IdCsv': 'System:AppData/Bio/samples/id.csv',
+    'SarSmallCsv': 'System:AppData/Bio/samples/sar-small.csv',
   };
   const _samplesDfs: { [key: string]: Promise<DG.DataFrame> } = {};
@@ -189,20 +190,24 @@ MWRSWY-CKHP
   test('samplesIdCsvNegativeID', async () => {
     await _testNeg(readSamplesCsv(Samples.idCsv), 'ID');
   });
+  test('samplesSarSmallCsvNegativeSmiles', async () => {
+    await _testNeg(readSamplesCsv(Samples.sarSmallCsv), 'smiles');
+  });
 });
 export async function _testNeg(readDf: DfReaderFunc, colName: string) {
   const df: DG.DataFrame = await readDf();
   const col: DG.Column = df.col(colName)!;
-  expect(col.semType === mmSemType, false);
+  expect(col.semType === DG.SEMTYPE.MACROMOLECULE, false);
 }
 export async function _testPos(readDf: DfReaderFunc, colName: string, units: string, separator: string) {
   const df: DG.DataFrame = await readDf();
   const col: DG.Column = df.col(colName)!;
-  expect(col.semType === mmSemType, true);
+  expect(col.semType === DG.SEMTYPE.MACROMOLECULE, true);
   expect(col.getTag(DG.TAGS.UNITS), units);
   if (separator)
     expect(col.getTag('separator'), separator);
@@ -213,7 +218,7 @@ export async function _testN1(csvDfN1: string) {
   await grok.data.detectSemanticTypes(dfN1);
   const col: DG.Column = dfN1.col('seq')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'fasta:SEQ:NT');
 }
@@ -222,7 +227,7 @@ export async function _testAA1(csvDfAA1: string) {
   await grok.data.detectSemanticTypes(dfAA1);
   const col: DG.Column = dfAA1.col('seq')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'fasta:SEQ:PT');
 }
@@ -231,7 +236,7 @@ export async function _testMsaN1(csvDfMsaN1: string) {
   await grok.data.detectSemanticTypes(dfMsaN1);
   const col: DG.Column = dfMsaN1.col('seq')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'fasta:SEQ.MSA:NT');
 }
@@ -240,7 +245,7 @@ export async function _testMsaAA1(csvDfMsaAA1: string) {
   await grok.data.detectSemanticTypes(dfMsaAA1);
   const col: DG.Column = dfMsaAA1.col('seq')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'fasta:SEQ.MSA:PT');
 }
@@ -249,7 +254,7 @@ export async function _testSepNt(csv: string, separator: string) {
   await grok.data.detectSemanticTypes(df);
   const col: DG.Column = df.col('seq')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'separator:SEQ:NT');
   expect(col.getTag('separator'), separator);
 }
@@ -259,7 +264,7 @@ export async function _testSepPt(csv: string, separator: string) {
   await grok.data.detectSemanticTypes(df);
   const col: DG.Column = df.col('seq')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'separator:SEQ:PT');
   expect(col.getTag('separator'), separator);
 }
@@ -269,7 +274,7 @@ export async function _testSepUn(csv: string, separator: string) {
   await grok.data.detectSemanticTypes(df);
   const col: DG.Column = df.col('seq')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'separator:SEQ:UN');
   expect(col.getTag('separator'), separator);
 }
@@ -279,7 +284,7 @@ export async function _testSepMsaN1(csvDfSepMsaN1: string) {
   await grok.data.detectSemanticTypes(dfSepMsaN1);
   const col: DG.Column = dfSepMsaN1.col('seq')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'separator:SEQ.MSA:NT');
 }
@@ -289,7 +294,7 @@ export async function _testSamplesFastaCsvPt() {
   await grok.data.detectSemanticTypes(df);
   const col: DG.Column = df.col('sequence')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'fasta:SEQ:PT');
   expect(col.getTag('separator'), null);
 }
@@ -299,7 +304,7 @@ export async function _testSamplesFastaFastaPt() {
   const df: DG.DataFrame = importFasta(fasta)[0];
   const col: DG.Column = df.col('sequence')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'fasta:SEQ:PT');
   expect(col.getTag('separator'), null);
 }
@@ -310,7 +315,7 @@ export async function _testSamplesPeptidesComplexUn() {
   await grok.data.detectSemanticTypes(df);
   const col: DG.Column = df.col('AlignedSequence')!;
-  expect(col.semType, mmSemType);
+  expect(col.semType, DG.SEMTYPE.MACROMOLECULE);
   expect(col.getTag(DG.TAGS.UNITS), 'separator:SEQ.MSA:UN');
   expect(col.getTag('separator'), '-');
 }

package/src/utils/convert.ts CHANGED Viewed

@@ -1,11 +1,21 @@
 import * as DG from 'datagrok-api/dg';
 import * as ui from 'datagrok-api/ui';
+import {NotationConverter} from './notation-converter';
+/**
+ * Converts notations of a Macromolecule column
+ *
+ * @param {DG.column} col Column with 'Macromolecule' semantic type
+ */
 export function convert(col: DG.Column): void {
   const current = col.tags[DG.TAGS.UNITS];
   //TODO: read all notations
-  const notations = ['fasta:SEQ:NT', 'fasta:SEQ:PT', 'fasta:SEQ.MSA:NT', 'fasta:SEQ.MSA:PT', 'HELM'];
-  const choices = ui.choiceInput('convert to', '', notations.filter((e) => e !== current));
+  const units = [
+    'fasta',
+    'separator',
+    'HELM'
+  ];
+  const choices = ui.choiceInput('convert to', '', units.filter((e) => e !== current));
   ui.dialog('Convert sequence')
     .add(
@@ -17,7 +27,9 @@ export function convert(col: DG.Column): void {
     )
     .onOK(() => {
       //TODO: create new converted column
-      //col.dataFrame.columns.add();
+      const converter = new NotationConverter(col, choices.value!);
+      const newColumn = converter.convert();
+      col.dataFrame.columns.add(newColumn);
     })
     .show();
 }

package/src/utils/multiple-sequence-alignment.ts CHANGED Viewed

@@ -29,12 +29,12 @@ function _fastaToStrings(fasta: string): string[] {
 /**
  * Runs Aioli environment with kalign tool.
  *
- * @param {DG.Column} col Column with sequences.
+ * @param {DG.Column} srcCol Column with sequences.
  * @param {boolean} isAligned Whether the column is aligned.
  * @return {Promise<DG.Column>} Aligned sequences.
  */
-export async function runKalign(col: DG.Column, isAligned = false) : Promise<DG.Column> {
-  let sequences = col.toList();
+export async function runKalign(srcCol: DG.Column, isAligned = false): Promise<DG.Column> {
+  let sequences = srcCol.toList();
   if (isAligned)
     sequences = sequences.map((v: string, _) => AlignedSequenceEncoder.clean(v).replace(/\-/g, ''));
@@ -55,15 +55,20 @@ export async function runKalign(col: DG.Column, isAligned = false) : Promise<DG.
   console.warn(output);
   const aligned = _fastaToStrings(buf).slice(0, sequences.length);
-  const alignedCol = DG.Column.fromStrings(`msa(${col.name})`, aligned);
-  alignedCol.setTag(DG.TAGS.UNITS, '');
-  alignedCol.semType = C.SEM_TYPES.Macro_Molecule;
-  return alignedCol;
+  const tgtCol = DG.Column.fromStrings(`msa(${srcCol.name})`, aligned);
+  // units
+  const srcUnits = srcCol.getTag(DG.TAGS.UNITS);
+  const tgtUnits = srcUnits.split(':').map((p, i) => i == 1 ? p + '.MSA' : p).join(':');
+  tgtCol.setTag(DG.TAGS.UNITS, tgtUnits);
+  tgtCol.semType = C.SEM_TYPES.Macro_Molecule;
+  return tgtCol;
 }
 export async function testMSAEnoughMemory(col: DG.Column): Promise<void> {
   const sequencesCount = col.length;
-  const delta = sequencesCount/100;
+  const delta = sequencesCount / 100;
   for (let i = delta; i < sequencesCount; i += delta) {
     try {

package/src/utils/notation-converter.ts ADDED Viewed

@@ -0,0 +1,131 @@
+import * as DG from 'datagrok-api/dg';
+// export const enum NOTATION {
+//   // these values can be changed to "user-friendly" ones later on
+//   FASTA = 'fasta',
+//   SEPARATOR = 'separator',
+//   HELM = 'helm'
+// }
+export class NotationConverter {
+  private _sourceColumn: DG.Column; // the column to be converted
+  private _currentUnits: string; // units of the form fasta:SEQ:NT, etc.
+  private _sourceNotation: string; // current notation (without :SEQ:NT, etc.)
+  private _targetNotation: string;
+  private get sourceColumn(): DG.Column { return this._sourceColumn; }
+  private get currentUnits(): string { return this._currentUnits; }
+  private get sourceNotation(): string { return this._sourceNotation; }
+  private get targetNotation(): string { return this._targetNotation; }
+  // these values can be changed to "user-friendly" ones later on
+  private _fasta = 'fasta';
+  private _separator = 'separator';
+  private _helm = 'helm';
+  public isFasta(): boolean { return this.sourceNotation == this._fasta; }
+  public isSeparator(): boolean { return this.sourceNotation == this._separator; }
+  public isHelm(): boolean { return this.sourceNotation == this._helm; }
+  private determineSourceNotation() : string {
+    if (this.currentUnits.toLowerCase().startsWith('fasta'))
+      return 'fasta';
+    else if (this.currentUnits.toLowerCase().startsWith('separator'))
+      return 'separator';
+    else
+      // TODO: handle possible exceptions
+      return 'HELM';
+  }
+  private convertFastaToSeparator(): DG.Column {
+    // TODO: implementation
+    const len = this.sourceColumn.length;
+    const newColName = 'converted';
+    const newColumn = DG.Column.fromList('string', newColName, new Array(len).fill('fasta2sep'));
+    newColumn.semType = 'Macromolecule';
+    return newColumn;
+  }
+  private convertFastaToHelm(): DG.Column {
+    // TODO: implementation
+    const len = this.sourceColumn.length;
+    const newColName = 'converted';
+    const newColumn = DG.Column.fromList('string', newColName, new Array(len).fill('fasta2helm'));
+    newColumn.semType = 'Macromolecule';
+    return newColumn;
+  }
+  private convertSeparatorToFasta(): DG.Column {
+    // TODO: implementation
+    const len = this.sourceColumn.length;
+    const newColName = 'converted';
+    const newColumn = DG.Column.fromList('string', newColName, new Array(len).fill('sep2fasta'));
+    newColumn.semType = 'Macromolecule';
+    return newColumn;
+  }
+  private convertSeparatorToHelm(): DG.Column {
+    // TODO: implementation
+    const len = this.sourceColumn.length;
+    const newColName = 'converted';
+    const newColumn = DG.Column.fromList('string', newColName, new Array(len).fill('sep2helm'));
+    newColumn.semType = 'Macromolecule';
+    return newColumn;
+  }
+  private convertHelmToFasta(): DG.Column {
+    // TODO: implementation
+    const len = this.sourceColumn.length;
+    const newColName = 'converted';
+    const newColumn = DG.Column.fromList('string', newColName, new Array(len).fill('helm2fasta'));
+    newColumn.semType = 'Macromolecule';
+    return newColumn;
+  }
+  private convertHelmToSeparator(): DG.Column {
+    // TODO: implementation
+    const len = this.sourceColumn.length;
+    const newColName = 'converted';
+    const newColumn = DG.Column.fromList('string', newColName, new Array(len).fill('helm2sep'));
+    newColumn.semType = 'Macromolecule';
+    return newColumn;
+  }
+  // TODO: write the bodies of converter methods
+  public convert() : DG.Column {
+    if (
+      this.sourceNotation == this._fasta &&
+      this.targetNotation == this._separator
+    )
+      return this.convertFastaToSeparator();
+    else if (
+      this.sourceNotation == this._fasta &&
+      this.targetNotation == this._helm
+    )
+      return this.convertFastaToHelm();
+    else if (
+      this.sourceNotation == this._separator &&
+      this.targetNotation == this._fasta
+    )
+      return this.convertSeparatorToFasta();
+    else if (
+      this.sourceNotation == this._separator &&
+      this.targetNotation == this._helm
+    )
+      return this.convertSeparatorToHelm();
+    else if (
+      this.sourceNotation == this._helm &&
+      this.targetNotation == this._fasta
+    )
+      return this.convertHelmToFasta();
+    else
+      return this.convertHelmToSeparator();
+  }
+  public constructor(col: DG.Column, target: string) {
+    this._sourceColumn = col;
+    this._currentUnits = this._sourceColumn.tags[DG.TAGS.UNITS];
+    this._sourceNotation = this.determineSourceNotation();
+    this._targetNotation = target;
+  }
+}

package/src/utils/sequence-space.ts CHANGED Viewed

@@ -18,9 +18,9 @@ export async function sequenceSpace(spaceParams: ISequenceSpaceParams): Promise<
     const sepFinal = sep ? sep === '.' ? '\\\.' : sep : '-';
     const regex = new RegExp(sepFinal, 'g');
     if (Object.keys(AvailableMetrics['String']).includes(spaceParams.similarityMetric))
-      preparedData = spaceParams.seqCol.toList().map((v) => v.replace(regex, '')) as string[];
+      preparedData = spaceParams.seqCol.toList().map((v: string) => v.replace(regex, '')) as string[];
     else
-      preparedData = spaceParams.seqCol.toList().map((v) => v.replace(regex, '')) as string[];
+      preparedData = spaceParams.seqCol.toList().map((v: string) => v.replace(regex, '')) as string[];
   } else {
     preparedData = spaceParams.seqCol.toList();
   }
@@ -31,13 +31,13 @@ export async function sequenceSpace(spaceParams: ISequenceSpaceParams): Promise<
     spaceParams.similarityMetric as StringMetrics | BitArrayMetrics,
     spaceParams.options);
   const cols: DG.Column[] = spaceParams.embedAxesNames.map(
-    (name, index) => DG.Column.fromFloat32Array(name, sequenceSpaceResult.embedding[index]));
+    (name: string, index: number) => DG.Column.fromFloat32Array(name, sequenceSpaceResult.embedding[index]));
   return {distance: sequenceSpaceResult.distance, coordinates: new DG.ColumnList(cols)};
 }
 export function getEmbeddingColsNames(df: DG.DataFrame) {
   const axes = ['Embed_X', 'Embed_Y'];
-  const colNameInd = df.columns.names().filter((it) => it.includes(axes[0])).length + 1;
+  const colNameInd = df.columns.names().filter((it: string) => it.includes(axes[0])).length + 1;
   return axes.map((it) => `${it}_${colNameInd}`);
 }