npm - node-es-transformer - Versions diffs - 1.0.0-alpha9 → 1.0.0-beta2 - Mend

node-es-transformer 1.0.0-alpha9 → 1.0.0-beta2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

package/README.md +20 -4
package/dist/node-es-transformer.cjs.js +241 -102
package/dist/node-es-transformer.esm.js +241 -102
package/package.json +27 -6

package/README.md CHANGED Viewed

@@ -1,6 +1,8 @@
 [![npm](https://img.shields.io/npm/v/node-es-transformer.svg?maxAge=2592000)](https://www.npmjs.com/package/node-es-transformer)
 [![npm](https://img.shields.io/npm/l/node-es-transformer.svg?maxAge=2592000)](https://www.npmjs.com/package/node-es-transformer)
 [![npm](https://img.shields.io/npm/dt/node-es-transformer.svg?maxAge=2592000)](https://www.npmjs.com/package/node-es-transformer)
+[![Commitizen friendly](https://img.shields.io/badge/commitizen-friendly-brightgreen.svg)](http://commitizen.github.io/cz-cli/)
+[![CI](https://github.com/walterra/node-es-transformer/actions/workflows/ci.yml/badge.svg)](https://github.com/walterra/node-es-transformer/actions)
 # node-es-transformer
@@ -10,7 +12,7 @@ A nodejs based library to (re)index and transform data from/to Elasticsearch.
 If you're looking for a nodejs based tool which allows you to ingest large CSV/JSON files in the GigaBytes you've come to the right place. Everything else I've tried with larger files runs out of JS heap, hammers ES with too many single requests, times out or tries to do everything with a single bulk request.
-While I'd generally recommend using [Logstash](https://www.elastic.co/products/logstash), [filebeat](https://www.elastic.co/products/beats/filebeat) or [Ingest Nodes](https://www.elastic.co/guide/en/elasticsearch/reference/master/ingest.html) for established use cases, this tool may be of help especially if you feel more at home in the JavaScript/nodejs universe and have use cases with customized ingestion and data transformation needs.
+While I'd generally recommend using [Logstash](https://www.elastic.co/products/logstash), [filebeat](https://www.elastic.co/products/beats/filebeat), [Ingest Nodes](https://www.elastic.co/guide/en/elasticsearch/reference/master/ingest.html), [Elastic Agent](https://www.elastic.co/guide/en/fleet/current/fleet-overview.html) or [Elasticsearch Transforms](https://www.elastic.co/guide/en/elasticsearch/reference/current/transforms.html) for established use cases, this tool may be of help especially if you feel more at home in the JavaScript/nodejs universe and have use cases with customized ingestion and data transformation needs.
 **This is experimental code, use at your own risk. Nonetheless, I encourage you to give it a try so I can gather some feedback.**
@@ -26,7 +28,7 @@ Now that we've talked about the caveats, let's have a look what you actually get
 ## Features
-- Buffering/Streaming for both reading and indexing. Files are read using streaming and Elasticsearch ingestion is done using buffered bulk indexing. This is tailored towards ingestion of large files. Successfully tested so far with JSON and CSV files in the range of 20-30 GBytes. On a single machine running both `node-es-transformer` and Elasticsearch ingestion rates up to 20k documents/second were achieved (2,9 GHz Intel Core i7, 16GByte RAM, SSD).
+- Buffering/Streaming for both reading and indexing. Files are read using streaming and Elasticsearch ingestion is done using buffered bulk indexing. This is tailored towards ingestion of large files. Successfully tested so far with JSON and CSV files in the range of 20-30 GBytes. On a single machine running both `node-es-transformer` and Elasticsearch ingestion rates up to 20k documents/second were achieved (2,9 GHz Intel Core i7, 16GByte RAM, SSD), depending on document size.
 - Supports wildcards to ingest/transform a range of files in one go.
 - Supports fetching documents from existing indices using search/scroll. This allows you to reindex with custom data transformations just using JavaScript in the `transform` callback.
 - The `transform` callback gives you each source document, but you can split it up in multiple ones and return an array of documents. An example use case for this: Each source document is a Tweet and you want to transform that into an entity centric index based on Hashtags.
@@ -113,7 +115,11 @@ transformer({
 - `splitRegex`: Custom line split regex, defaults to `/\n/`.
 - `sourceIndexName`: The source Elasticsearch index to reindex from. If this is set, `fileName` is not allowed.
 - `targetIndexName`: The target Elasticsearch index where documents will be indexed.
-- `mappings`: Elasticsearch document mapping.
+- `mappings`: Optional Elasticsearch document mappings. If not set and you're reindexing from another index, the mappings from the existing index will be used.
+- `mappingsOverride`: If you're reindexing and this is set to `true`, `mappings` will be applied on top of the source index's mappings. Defaults to `false`.
+- `indexMappingTotalFieldsLimit`: Optional field limit for the target index to be created that will be passed on as the `index.mapping.total_fields.limit` setting.
+- `populatedFields`: If `true`, fetches a set of random documents to identify which fields are actually used by documents. Can be useful for indices with lots of field mappings to increase query/reindex performance. Defaults to `false`.
+- `query`: Optional Elasticsearch [DSL query](https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl.html) to filter documents from the source index.
 - `skipHeader`: If true, skips the first line of the source file. Defaults to `false`.
 - `transform(line)`: A callback function which allows the transformation of a source line into one or several documents.
 - `verbose`: Logging verbosity, defaults to `true`
@@ -137,7 +143,17 @@ yarn
 `yarn dev` builds the library, then keeps rebuilding it whenever the source files change using [rollup-watch](https://github.com/rollup/rollup-watch).
-`yarn test` builds the library, then tests it.
+`yarn test` runs the tests. The tests expect that you have an Elasticsearch instance running without security at `http://localhost:9200`. Using docker, you can set this up with:
+```bash
+# Download the docker image
+docker pull docker.elastic.co/elasticsearch/elasticsearch:8.10.4
+# Run the container
+docker run --name es01 --net elastic -p 9200:9200 -it -m 1GB -e "discovery.type=single-node" -e "xpack.security.enabled=false" docker.elastic.co/elasticsearch/elasticsearch:8.10.4
+```
+To commit, use `cz`. To prepare a release, use e.g. `yarn release -- --release-as 1.0.0-beta2`.
 ## License

package/dist/node-es-transformer.cjs.js CHANGED Viewed

@@ -8,20 +8,26 @@ var glob = _interopDefault(require('glob'));
 var cliProgress = _interopDefault(require('cli-progress'));
 var elasticsearch = _interopDefault(require('@elastic/elasticsearch'));
+var DEFAULT_BUFFER_SIZE = 1000;
 function createMappingFactory(ref) {
   var sourceClient = ref.sourceClient;
   var sourceIndexName = ref.sourceIndexName;
   var targetClient = ref.targetClient;
   var targetIndexName = ref.targetIndexName;
   var mappings = ref.mappings;
+  var mappingsOverride = ref.mappingsOverride;
+  var indexMappingTotalFieldsLimit = ref.indexMappingTotalFieldsLimit;
   var verbose = ref.verbose;
   return async function () {
-    var targetMappings = mappings;
+    var targetMappings = mappingsOverride ? undefined : mappings;
     if (sourceClient && sourceIndexName && typeof targetMappings === 'undefined') {
       try {
-        var mapping = await sourceClient.indices.getMapping({ index: sourceIndexName });
+        var mapping = await sourceClient.indices.getMapping({
+          index: sourceIndexName,
+        });
         targetMappings = mapping[sourceIndexName].mappings;
       } catch (err) {
         console.log('Error reading source mapping', err);
@@ -30,13 +36,24 @@ function createMappingFactory(ref) {
     }
     if (typeof targetMappings === 'object' && targetMappings !== null) {
+      if (mappingsOverride) {
+        targetMappings = Object.assign({}, targetMappings,
+          {properties: Object.assign({}, targetMappings.properties,
+            mappings)});
+      }
       try {
-        var resp = await targetClient.indices.create(
-          {
-            index: targetIndexName,
-            body: { mappings: targetMappings },
-          }
-        );
+        var resp = await targetClient.indices.create({
+          index: targetIndexName,
+          body: Object.assign({}, {mappings: targetMappings},
+            (indexMappingTotalFieldsLimit !== undefined
+              ? {
+                  settings: {
+                    'index.mapping.total_fields.limit': indexMappingTotalFieldsLimit,
+                  },
+                }
+              : {})),
+        });
         if (verbose) { console.log('Created target mapping', resp); }
       } catch (err) {
         console.log('Error creating target mapping', err);
@@ -45,45 +62,78 @@ function createMappingFactory(ref) {
   };
 }
+var MAX_QUEUE_SIZE = 15;
 function fileReaderFactory(indexer, fileName, transform, splitRegex, verbose) {
   function startIndex(files) {
+    var ingestQueueSize = 0;
+    var finished = false;
     var file = files.shift();
-    var s = fs.createReadStream(file)
+    var s = fs
+      .createReadStream(file)
       .pipe(es.split(splitRegex))
-      .pipe(es.mapSync(function (line) {
-        s.pause();
-        try {
-          var doc = (typeof transform === 'function') ? transform(line) : line;
-          // if doc is undefined we'll skip indexing it
-          if (typeof doc === 'undefined') {
-            s.resume();
-            return;
-          }
+      .pipe(
+        es
+          .mapSync(function (line) {
+            try {
+              // skip empty lines
+              if (line === '') {
+                return;
+              }
+              var doc =
+                typeof transform === 'function'
+                  ? JSON.stringify(transform(JSON.parse(line)))
+                  : line;
+              // if doc is undefined we'll skip indexing it
+              if (typeof doc === 'undefined') {
+                s.resume();
+                return;
+              }
+              // the transform callback may return an array of docs so we can emit
+              // multiple docs from a single line
+              if (Array.isArray(doc)) {
+                doc.forEach(function (d) { return indexer.add(d); });
+                return;
+              }
+              indexer.add(doc);
+            } catch (e) {
+              console.log('error', e);
+            }
+          })
+          .on('error', function (err) {
+            console.log('Error while reading file.', err);
+          })
+          .on('end', function () {
+            if (verbose) { console.log('Read entire file: ', file); }
+            if (files.length > 0) {
+              startIndex(files);
+              return;
+            }
+            indexer.finish();
+            finished = true;
+          })
+      );
-          // the transform callback may return an array of docs so we can emit
-          // multiple docs from a single line
-          if (Array.isArray(doc)) {
-            doc.forEach(function (d) { return indexer.add(d); });
-            return;
-          }
+    indexer.queueEmitter.on('queue-size', async function (size) {
+      if (finished) { return; }
+      ingestQueueSize = size;
-          indexer.add(doc);
-        } catch (e) {
-          console.log('error', e);
-        }
-      })
-        .on('error', function (err) {
-          console.log('Error while reading file.', err);
-        })
-        .on('end', function () {
-          if (verbose) { console.log('Read entire file: ', file); }
-          indexer.finish();
-          if (files.length > 0) {
-            startIndex(files);
-          }
-        }));
+      if (ingestQueueSize < MAX_QUEUE_SIZE) {
+        s.resume();
+      } else {
+        s.pause();
+      }
+    });
     indexer.queueEmitter.on('resume', function () {
+      if (finished) { return; }
+      ingestQueueSize = 0;
       s.resume();
     });
   }
@@ -99,110 +149,202 @@ var EventEmitter = require('events');
 var queueEmitter = new EventEmitter();
+var parallelCalls = 1;
 // a simple helper queue to bulk index documents
 function indexQueueFactory(ref) {
   var client = ref.targetClient;
   var targetIndexName = ref.targetIndexName;
-  var bufferSize = ref.bufferSize; if ( bufferSize === void 0 ) bufferSize = 1000;
+  var bufferSize = ref.bufferSize; if ( bufferSize === void 0 ) bufferSize = DEFAULT_BUFFER_SIZE;
   var skipHeader = ref.skipHeader; if ( skipHeader === void 0 ) skipHeader = false;
   var verbose = ref.verbose; if ( verbose === void 0 ) verbose = true;
   var buffer = [];
   var queue = [];
-  var ingesting = false;
+  var ingesting = 0;
+  var ingestTimes = [];
+  var finished = false;
-  var ingest = async function (b) {
+  var ingest = function (b) {
     if (typeof b !== 'undefined') {
       queue.push(b);
       queueEmitter.emit('queue-size', queue.length);
     }
-    if (ingesting === false) {
+    if (ingestTimes.length > 5) { ingestTimes = ingestTimes.slice(-5); }
+    if (ingesting < parallelCalls) {
       var docs = queue.shift();
-      queueEmitter.emit('queue-size', queue.length);
-      ingesting = true;
-      if (verbose) { console.log(("bulk ingest docs: " + (docs.length / 2) + ", queue length: " + (queue.length))); }
-      try {
-        await client.bulk({ body: docs });
-        ingesting = false;
-        if (queue.length > 0) {
-          ingest();
-        }
-      } catch (err) {
-        console.log('bulk index error', err);
+      queueEmitter.emit('queue-size', queue.length);
+      if (queue.length <= 5) {
+        queueEmitter.emit('resume');
       }
-    }
-    // console.log(`ingest: queue.length ${queue.length}`);
-    if (queue.length === 0) {
-      queueEmitter.emit('queue-size', 0);
-      queueEmitter.emit('resume');
+      ingesting += 1;
+      if (verbose)
+        { console.log(("bulk ingest docs: " + (docs.length / 2) + ", queue length: " + (queue.length))); }
+      var start = Date.now();
+      client
+        .bulk({ body: docs })
+        .then(function () {
+          var end = Date.now();
+          var delta = end - start;
+          ingestTimes.push(delta);
+          ingesting -= 1;
+          var ingestTimesMovingAverage =
+            ingestTimes.length > 0
+              ? ingestTimes.reduce(function (p, c) { return p + c; }, 0) / ingestTimes.length
+              : 0;
+          var ingestTimesMovingAverageSeconds = Math.floor(ingestTimesMovingAverage / 1000);
+          if (
+            ingestTimes.length > 0 &&
+            ingestTimesMovingAverageSeconds < 30 &&
+            parallelCalls < 10
+          ) {
+            parallelCalls += 1;
+          } else if (
+            ingestTimes.length > 0 &&
+            ingestTimesMovingAverageSeconds >= 30 &&
+            parallelCalls > 1
+          ) {
+            parallelCalls -= 1;
+          }
+          if (queue.length > 0) {
+            ingest();
+          } else if (queue.length === 0 && finished) {
+            queueEmitter.emit('finish');
+          }
+        })
+        .catch(function (error) {
+          console.error(error);
+          ingesting -= 1;
+          parallelCalls = 1;
+          if (queue.length > 0) {
+            ingest();
+          }
+        });
     }
   };
   return {
     add: function (doc) {
+      if (finished) {
+        throw new Error('Unexpected doc added after indexer should finish.');
+      }
       if (!skipHeader) {
         var header = { index: { _index: targetIndexName } };
         buffer.push(header);
       }
       buffer.push(doc);
-      // console.log(`add: queue.length ${queue.length}`);
       if (queue.length === 0) {
         queueEmitter.emit('resume');
       }
-      if (buffer.length >= (bufferSize * 2)) {
+      if (buffer.length >= bufferSize * 2) {
         ingest(buffer);
         buffer = [];
       }
     },
-    finish: async function () {
-      await ingest(buffer);
-      buffer = [];
-      queueEmitter.emit('finish');
+    finish: function () {
+      finished = true;
+      if (buffer.length > 0) {
+        ingest(buffer);
+        buffer = [];
+      } else if (queue.length === 0 && ingesting === 0) {
+        queueEmitter.emit('finish');
+      }
     },
     queueEmitter: queueEmitter,
   };
 }
-var MAX_QUEUE_SIZE = 5;
+var MAX_QUEUE_SIZE$1 = 15;
 // create a new progress bar instance and use shades_classic theme
 var progressBar = new cliProgress.SingleBar({}, cliProgress.Presets.shades_classic);
-function indexReaderFactory(indexer, sourceIndexName, transform, client) {
+function indexReaderFactory(
+  indexer,
+  sourceIndexName,
+  transform,
+  client,
+  query,
+  bufferSize,
+  populatedFields
+) {
+  if ( bufferSize === void 0 ) bufferSize = DEFAULT_BUFFER_SIZE;
+  if ( populatedFields === void 0 ) populatedFields = false;
   return async function indexReader() {
     var responseQueue = [];
     var docsNum = 0;
-    function search() {
-      return client.search({
-        index: sourceIndexName,
-        scroll: '30s',
-        size: 10000,
-      });
+    async function fetchPopulatedFields() {
+      try {
+        var response = await client.search({
+          index: sourceIndexName,
+          size: bufferSize,
+          query: {
+            function_score: {
+              query: query,
+              random_score: {},
+            },
+          },
+        });
+        // Get all field names for each returned doc and flatten it
+        // to a list of unique field names used across all docs.
+        return new Set(response.hits.hits.map(function (d) { return Object.keys(d._source); }).flat(1));
+      } catch (e) {
+        console.log('error', e);
+      }
+    }
+    function search(fields) {
+      return client.search(Object.assign({}, {index: sourceIndexName,
+        scroll: '600s',
+        size: bufferSize,
+        query: query},
+        (fields ? { _source: fields } : {})));
     }
     function scroll(id) {
       return client.scroll({
         scroll_id: id,
-        scroll: '30s',
+        scroll: '600s',
       });
     }
+    var fieldsWithData;
+    // identify populated fields
+    if (populatedFields) {
+      fieldsWithData = await fetchPopulatedFields();
+      console.log('fieldsWithData', fieldsWithData);
+    }
     // start things off by searching, setting a scroll timeout, and pushing
     // our first response into the queue to be processed
-    var se = await search();
+    var se = await search(fieldsWithData);
     responseQueue.push(se);
     progressBar.start(se.hits.total.value, 0);
+    console.log('se', se.hits.hits[0]);
     function processHit(hit) {
       docsNum += 1;
       try {
-        var doc = (typeof transform === 'function') ? transform(hit._source) : hit._source; // eslint-disable-line no-underscore-dangle
+        var doc = typeof transform === 'function' ? transform(hit._source) : hit._source; // eslint-disable-line no-underscore-dangle
+        // console.log('doc', doc);
         // if doc is undefined we'll skip indexing it
         if (typeof doc === 'undefined') {
           return;
@@ -236,15 +378,13 @@ function indexReaderFactory(indexer, sourceIndexName, transform, client) {
         progressBar.update(docsNum);
         // check to see if we have collected all of the docs
-        // console.log('check count', response.hits.total.value, docsNum);
         if (response.hits.total.value === docsNum) {
           indexer.finish();
-          progressBar.stop();
           break;
         }
-        if (ingestQueueSize < MAX_QUEUE_SIZE) {
-        // get the next response if there are more docs to fetch
+        if (ingestQueueSize < MAX_QUEUE_SIZE$1) {
+          // get the next response if there are more docs to fetch
           var sc = await scroll(response._scroll_id); // eslint-disable-line no-await-in-loop,no-underscore-dangle,max-len
           scrollId = sc._scroll_id; // eslint-disable-line no-underscore-dangle
           responseQueue.push(sc);
@@ -257,8 +397,8 @@ function indexReaderFactory(indexer, sourceIndexName, transform, client) {
     indexer.queueEmitter.on('queue-size', async function (size) {
       ingestQueueSize = size;
-      if (!readActive && ingestQueueSize < MAX_QUEUE_SIZE) {
-      // get the next response if there are more docs to fetch
+      if (!readActive && ingestQueueSize < MAX_QUEUE_SIZE$1) {
+        // get the next response if there are more docs to fetch
         var sc = await scroll(scrollId); // eslint-disable-line no-await-in-loop,no-underscore-dangle,max-len
         scrollId = sc._scroll_id; // eslint-disable-line no-underscore-dangle
         responseQueue.push(sc);
@@ -280,6 +420,10 @@ function indexReaderFactory(indexer, sourceIndexName, transform, client) {
       processResponseQueue();
     });
+    indexer.queueEmitter.on('finish', function () {
+      progressBar.stop();
+    });
     processResponseQueue();
   };
 }
@@ -288,12 +432,16 @@ async function transformer(ref) {
   var deleteIndex = ref.deleteIndex; if ( deleteIndex === void 0 ) deleteIndex = false;
   var sourceClientConfig = ref.sourceClientConfig;
   var targetClientConfig = ref.targetClientConfig;
-  var bufferSize = ref.bufferSize; if ( bufferSize === void 0 ) bufferSize = 1000;
+  var bufferSize = ref.bufferSize; if ( bufferSize === void 0 ) bufferSize = DEFAULT_BUFFER_SIZE;
   var fileName = ref.fileName;
   var splitRegex = ref.splitRegex; if ( splitRegex === void 0 ) splitRegex = /\n/;
   var sourceIndexName = ref.sourceIndexName;
   var targetIndexName = ref.targetIndexName;
   var mappings = ref.mappings;
+  var mappingsOverride = ref.mappingsOverride; if ( mappingsOverride === void 0 ) mappingsOverride = false;
+  var indexMappingTotalFieldsLimit = ref.indexMappingTotalFieldsLimit;
+  var populatedFields = ref.populatedFields; if ( populatedFields === void 0 ) populatedFields = false;
+  var query = ref.query;
   var skipHeader = ref.skipHeader; if ( skipHeader === void 0 ) skipHeader = false;
   var transform = ref.transform;
   var verbose = ref.verbose; if ( verbose === void 0 ) verbose = true;
@@ -317,6 +465,8 @@ async function transformer(ref) {
     targetClient: targetClient,
     targetIndexName: targetIndexName,
     mappings: mappings,
+    mappingsOverride: mappingsOverride,
+    indexMappingTotalFieldsLimit: indexMappingTotalFieldsLimit,
     verbose: verbose,
   });
   var indexer = indexQueueFactory({
@@ -328,30 +478,16 @@ async function transformer(ref) {
   });
   function getReader() {
-    if (
-      typeof fileName !== 'undefined'
-      && typeof sourceIndexName !== 'undefined'
-    ) {
-      throw Error(
-        'Only either one of fileName or sourceIndexName can be specified.'
-      );
+    if (typeof fileName !== 'undefined' && typeof sourceIndexName !== 'undefined') {
+      throw Error('Only either one of fileName or sourceIndexName can be specified.');
     }
-    if (
-      typeof fileName === 'undefined'
-      && typeof sourceIndexName === 'undefined'
-    ) {
+    if (typeof fileName === 'undefined' && typeof sourceIndexName === 'undefined') {
       throw Error('Either fileName or sourceIndexName must be specified.');
     }
     if (typeof fileName !== 'undefined') {
-      return fileReaderFactory(
-        indexer,
-        fileName,
-        transform,
-        splitRegex,
-        verbose
-      );
+      return fileReaderFactory(indexer, fileName, transform, splitRegex, verbose);
     }
     if (typeof sourceIndexName !== 'undefined') {
@@ -359,7 +495,10 @@ async function transformer(ref) {
         indexer,
         sourceIndexName,
         transform,
-        sourceClient
+        sourceClient,
+        query,
+        bufferSize,
+        populatedFields
       );
     }

package/dist/node-es-transformer.esm.js CHANGED Viewed

@@ -4,20 +4,26 @@ import glob from 'glob';
 import cliProgress from 'cli-progress';
 import elasticsearch from '@elastic/elasticsearch';
+var DEFAULT_BUFFER_SIZE = 1000;
 function createMappingFactory(ref) {
   var sourceClient = ref.sourceClient;
   var sourceIndexName = ref.sourceIndexName;
   var targetClient = ref.targetClient;
   var targetIndexName = ref.targetIndexName;
   var mappings = ref.mappings;
+  var mappingsOverride = ref.mappingsOverride;
+  var indexMappingTotalFieldsLimit = ref.indexMappingTotalFieldsLimit;
   var verbose = ref.verbose;
   return async function () {
-    var targetMappings = mappings;
+    var targetMappings = mappingsOverride ? undefined : mappings;
     if (sourceClient && sourceIndexName && typeof targetMappings === 'undefined') {
       try {
-        var mapping = await sourceClient.indices.getMapping({ index: sourceIndexName });
+        var mapping = await sourceClient.indices.getMapping({
+          index: sourceIndexName,
+        });
         targetMappings = mapping[sourceIndexName].mappings;
       } catch (err) {
         console.log('Error reading source mapping', err);
@@ -26,13 +32,24 @@ function createMappingFactory(ref) {
     }
     if (typeof targetMappings === 'object' && targetMappings !== null) {
+      if (mappingsOverride) {
+        targetMappings = Object.assign({}, targetMappings,
+          {properties: Object.assign({}, targetMappings.properties,
+            mappings)});
+      }
       try {
-        var resp = await targetClient.indices.create(
-          {
-            index: targetIndexName,
-            body: { mappings: targetMappings },
-          }
-        );
+        var resp = await targetClient.indices.create({
+          index: targetIndexName,
+          body: Object.assign({}, {mappings: targetMappings},
+            (indexMappingTotalFieldsLimit !== undefined
+              ? {
+                  settings: {
+                    'index.mapping.total_fields.limit': indexMappingTotalFieldsLimit,
+                  },
+                }
+              : {})),
+        });
         if (verbose) { console.log('Created target mapping', resp); }
       } catch (err) {
         console.log('Error creating target mapping', err);
@@ -41,45 +58,78 @@ function createMappingFactory(ref) {
   };
 }
+var MAX_QUEUE_SIZE = 15;
 function fileReaderFactory(indexer, fileName, transform, splitRegex, verbose) {
   function startIndex(files) {
+    var ingestQueueSize = 0;
+    var finished = false;
     var file = files.shift();
-    var s = fs.createReadStream(file)
+    var s = fs
+      .createReadStream(file)
       .pipe(es.split(splitRegex))
-      .pipe(es.mapSync(function (line) {
-        s.pause();
-        try {
-          var doc = (typeof transform === 'function') ? transform(line) : line;
-          // if doc is undefined we'll skip indexing it
-          if (typeof doc === 'undefined') {
-            s.resume();
-            return;
-          }
+      .pipe(
+        es
+          .mapSync(function (line) {
+            try {
+              // skip empty lines
+              if (line === '') {
+                return;
+              }
+              var doc =
+                typeof transform === 'function'
+                  ? JSON.stringify(transform(JSON.parse(line)))
+                  : line;
+              // if doc is undefined we'll skip indexing it
+              if (typeof doc === 'undefined') {
+                s.resume();
+                return;
+              }
+              // the transform callback may return an array of docs so we can emit
+              // multiple docs from a single line
+              if (Array.isArray(doc)) {
+                doc.forEach(function (d) { return indexer.add(d); });
+                return;
+              }
+              indexer.add(doc);
+            } catch (e) {
+              console.log('error', e);
+            }
+          })
+          .on('error', function (err) {
+            console.log('Error while reading file.', err);
+          })
+          .on('end', function () {
+            if (verbose) { console.log('Read entire file: ', file); }
+            if (files.length > 0) {
+              startIndex(files);
+              return;
+            }
+            indexer.finish();
+            finished = true;
+          })
+      );
-          // the transform callback may return an array of docs so we can emit
-          // multiple docs from a single line
-          if (Array.isArray(doc)) {
-            doc.forEach(function (d) { return indexer.add(d); });
-            return;
-          }
+    indexer.queueEmitter.on('queue-size', async function (size) {
+      if (finished) { return; }
+      ingestQueueSize = size;
-          indexer.add(doc);
-        } catch (e) {
-          console.log('error', e);
-        }
-      })
-        .on('error', function (err) {
-          console.log('Error while reading file.', err);
-        })
-        .on('end', function () {
-          if (verbose) { console.log('Read entire file: ', file); }
-          indexer.finish();
-          if (files.length > 0) {
-            startIndex(files);
-          }
-        }));
+      if (ingestQueueSize < MAX_QUEUE_SIZE) {
+        s.resume();
+      } else {
+        s.pause();
+      }
+    });
     indexer.queueEmitter.on('resume', function () {
+      if (finished) { return; }
+      ingestQueueSize = 0;
       s.resume();
     });
   }
@@ -95,110 +145,202 @@ var EventEmitter = require('events');
 var queueEmitter = new EventEmitter();
+var parallelCalls = 1;
 // a simple helper queue to bulk index documents
 function indexQueueFactory(ref) {
   var client = ref.targetClient;
   var targetIndexName = ref.targetIndexName;
-  var bufferSize = ref.bufferSize; if ( bufferSize === void 0 ) bufferSize = 1000;
+  var bufferSize = ref.bufferSize; if ( bufferSize === void 0 ) bufferSize = DEFAULT_BUFFER_SIZE;
   var skipHeader = ref.skipHeader; if ( skipHeader === void 0 ) skipHeader = false;
   var verbose = ref.verbose; if ( verbose === void 0 ) verbose = true;
   var buffer = [];
   var queue = [];
-  var ingesting = false;
+  var ingesting = 0;
+  var ingestTimes = [];
+  var finished = false;
-  var ingest = async function (b) {
+  var ingest = function (b) {
     if (typeof b !== 'undefined') {
       queue.push(b);
       queueEmitter.emit('queue-size', queue.length);
     }
-    if (ingesting === false) {
+    if (ingestTimes.length > 5) { ingestTimes = ingestTimes.slice(-5); }
+    if (ingesting < parallelCalls) {
       var docs = queue.shift();
-      queueEmitter.emit('queue-size', queue.length);
-      ingesting = true;
-      if (verbose) { console.log(("bulk ingest docs: " + (docs.length / 2) + ", queue length: " + (queue.length))); }
-      try {
-        await client.bulk({ body: docs });
-        ingesting = false;
-        if (queue.length > 0) {
-          ingest();
-        }
-      } catch (err) {
-        console.log('bulk index error', err);
+      queueEmitter.emit('queue-size', queue.length);
+      if (queue.length <= 5) {
+        queueEmitter.emit('resume');
       }
-    }
-    // console.log(`ingest: queue.length ${queue.length}`);
-    if (queue.length === 0) {
-      queueEmitter.emit('queue-size', 0);
-      queueEmitter.emit('resume');
+      ingesting += 1;
+      if (verbose)
+        { console.log(("bulk ingest docs: " + (docs.length / 2) + ", queue length: " + (queue.length))); }
+      var start = Date.now();
+      client
+        .bulk({ body: docs })
+        .then(function () {
+          var end = Date.now();
+          var delta = end - start;
+          ingestTimes.push(delta);
+          ingesting -= 1;
+          var ingestTimesMovingAverage =
+            ingestTimes.length > 0
+              ? ingestTimes.reduce(function (p, c) { return p + c; }, 0) / ingestTimes.length
+              : 0;
+          var ingestTimesMovingAverageSeconds = Math.floor(ingestTimesMovingAverage / 1000);
+          if (
+            ingestTimes.length > 0 &&
+            ingestTimesMovingAverageSeconds < 30 &&
+            parallelCalls < 10
+          ) {
+            parallelCalls += 1;
+          } else if (
+            ingestTimes.length > 0 &&
+            ingestTimesMovingAverageSeconds >= 30 &&
+            parallelCalls > 1
+          ) {
+            parallelCalls -= 1;
+          }
+          if (queue.length > 0) {
+            ingest();
+          } else if (queue.length === 0 && finished) {
+            queueEmitter.emit('finish');
+          }
+        })
+        .catch(function (error) {
+          console.error(error);
+          ingesting -= 1;
+          parallelCalls = 1;
+          if (queue.length > 0) {
+            ingest();
+          }
+        });
     }
   };
   return {
     add: function (doc) {
+      if (finished) {
+        throw new Error('Unexpected doc added after indexer should finish.');
+      }
       if (!skipHeader) {
         var header = { index: { _index: targetIndexName } };
         buffer.push(header);
       }
       buffer.push(doc);
-      // console.log(`add: queue.length ${queue.length}`);
       if (queue.length === 0) {
         queueEmitter.emit('resume');
       }
-      if (buffer.length >= (bufferSize * 2)) {
+      if (buffer.length >= bufferSize * 2) {
         ingest(buffer);
         buffer = [];
       }
     },
-    finish: async function () {
-      await ingest(buffer);
-      buffer = [];
-      queueEmitter.emit('finish');
+    finish: function () {
+      finished = true;
+      if (buffer.length > 0) {
+        ingest(buffer);
+        buffer = [];
+      } else if (queue.length === 0 && ingesting === 0) {
+        queueEmitter.emit('finish');
+      }
     },
     queueEmitter: queueEmitter,
   };
 }
-var MAX_QUEUE_SIZE = 5;
+var MAX_QUEUE_SIZE$1 = 15;
 // create a new progress bar instance and use shades_classic theme
 var progressBar = new cliProgress.SingleBar({}, cliProgress.Presets.shades_classic);
-function indexReaderFactory(indexer, sourceIndexName, transform, client) {
+function indexReaderFactory(
+  indexer,
+  sourceIndexName,
+  transform,
+  client,
+  query,
+  bufferSize,
+  populatedFields
+) {
+  if ( bufferSize === void 0 ) bufferSize = DEFAULT_BUFFER_SIZE;
+  if ( populatedFields === void 0 ) populatedFields = false;
   return async function indexReader() {
     var responseQueue = [];
     var docsNum = 0;
-    function search() {
-      return client.search({
-        index: sourceIndexName,
-        scroll: '30s',
-        size: 10000,
-      });
+    async function fetchPopulatedFields() {
+      try {
+        var response = await client.search({
+          index: sourceIndexName,
+          size: bufferSize,
+          query: {
+            function_score: {
+              query: query,
+              random_score: {},
+            },
+          },
+        });
+        // Get all field names for each returned doc and flatten it
+        // to a list of unique field names used across all docs.
+        return new Set(response.hits.hits.map(function (d) { return Object.keys(d._source); }).flat(1));
+      } catch (e) {
+        console.log('error', e);
+      }
+    }
+    function search(fields) {
+      return client.search(Object.assign({}, {index: sourceIndexName,
+        scroll: '600s',
+        size: bufferSize,
+        query: query},
+        (fields ? { _source: fields } : {})));
     }
     function scroll(id) {
       return client.scroll({
         scroll_id: id,
-        scroll: '30s',
+        scroll: '600s',
       });
     }
+    var fieldsWithData;
+    // identify populated fields
+    if (populatedFields) {
+      fieldsWithData = await fetchPopulatedFields();
+      console.log('fieldsWithData', fieldsWithData);
+    }
     // start things off by searching, setting a scroll timeout, and pushing
     // our first response into the queue to be processed
-    var se = await search();
+    var se = await search(fieldsWithData);
     responseQueue.push(se);
     progressBar.start(se.hits.total.value, 0);
+    console.log('se', se.hits.hits[0]);
     function processHit(hit) {
       docsNum += 1;
       try {
-        var doc = (typeof transform === 'function') ? transform(hit._source) : hit._source; // eslint-disable-line no-underscore-dangle
+        var doc = typeof transform === 'function' ? transform(hit._source) : hit._source; // eslint-disable-line no-underscore-dangle
+        // console.log('doc', doc);
         // if doc is undefined we'll skip indexing it
         if (typeof doc === 'undefined') {
           return;
@@ -232,15 +374,13 @@ function indexReaderFactory(indexer, sourceIndexName, transform, client) {
         progressBar.update(docsNum);
         // check to see if we have collected all of the docs
-        // console.log('check count', response.hits.total.value, docsNum);
         if (response.hits.total.value === docsNum) {
           indexer.finish();
-          progressBar.stop();
           break;
         }
-        if (ingestQueueSize < MAX_QUEUE_SIZE) {
-        // get the next response if there are more docs to fetch
+        if (ingestQueueSize < MAX_QUEUE_SIZE$1) {
+          // get the next response if there are more docs to fetch
           var sc = await scroll(response._scroll_id); // eslint-disable-line no-await-in-loop,no-underscore-dangle,max-len
           scrollId = sc._scroll_id; // eslint-disable-line no-underscore-dangle
           responseQueue.push(sc);
@@ -253,8 +393,8 @@ function indexReaderFactory(indexer, sourceIndexName, transform, client) {
     indexer.queueEmitter.on('queue-size', async function (size) {
       ingestQueueSize = size;
-      if (!readActive && ingestQueueSize < MAX_QUEUE_SIZE) {
-      // get the next response if there are more docs to fetch
+      if (!readActive && ingestQueueSize < MAX_QUEUE_SIZE$1) {
+        // get the next response if there are more docs to fetch
         var sc = await scroll(scrollId); // eslint-disable-line no-await-in-loop,no-underscore-dangle,max-len
         scrollId = sc._scroll_id; // eslint-disable-line no-underscore-dangle
         responseQueue.push(sc);
@@ -276,6 +416,10 @@ function indexReaderFactory(indexer, sourceIndexName, transform, client) {
       processResponseQueue();
     });
+    indexer.queueEmitter.on('finish', function () {
+      progressBar.stop();
+    });
     processResponseQueue();
   };
 }
@@ -284,12 +428,16 @@ async function transformer(ref) {
   var deleteIndex = ref.deleteIndex; if ( deleteIndex === void 0 ) deleteIndex = false;
   var sourceClientConfig = ref.sourceClientConfig;
   var targetClientConfig = ref.targetClientConfig;
-  var bufferSize = ref.bufferSize; if ( bufferSize === void 0 ) bufferSize = 1000;
+  var bufferSize = ref.bufferSize; if ( bufferSize === void 0 ) bufferSize = DEFAULT_BUFFER_SIZE;
   var fileName = ref.fileName;
   var splitRegex = ref.splitRegex; if ( splitRegex === void 0 ) splitRegex = /\n/;
   var sourceIndexName = ref.sourceIndexName;
   var targetIndexName = ref.targetIndexName;
   var mappings = ref.mappings;
+  var mappingsOverride = ref.mappingsOverride; if ( mappingsOverride === void 0 ) mappingsOverride = false;
+  var indexMappingTotalFieldsLimit = ref.indexMappingTotalFieldsLimit;
+  var populatedFields = ref.populatedFields; if ( populatedFields === void 0 ) populatedFields = false;
+  var query = ref.query;
   var skipHeader = ref.skipHeader; if ( skipHeader === void 0 ) skipHeader = false;
   var transform = ref.transform;
   var verbose = ref.verbose; if ( verbose === void 0 ) verbose = true;
@@ -313,6 +461,8 @@ async function transformer(ref) {
     targetClient: targetClient,
     targetIndexName: targetIndexName,
     mappings: mappings,
+    mappingsOverride: mappingsOverride,
+    indexMappingTotalFieldsLimit: indexMappingTotalFieldsLimit,
     verbose: verbose,
   });
   var indexer = indexQueueFactory({
@@ -324,30 +474,16 @@ async function transformer(ref) {
   });
   function getReader() {
-    if (
-      typeof fileName !== 'undefined'
-      && typeof sourceIndexName !== 'undefined'
-    ) {
-      throw Error(
-        'Only either one of fileName or sourceIndexName can be specified.'
-      );
+    if (typeof fileName !== 'undefined' && typeof sourceIndexName !== 'undefined') {
+      throw Error('Only either one of fileName or sourceIndexName can be specified.');
     }
-    if (
-      typeof fileName === 'undefined'
-      && typeof sourceIndexName === 'undefined'
-    ) {
+    if (typeof fileName === 'undefined' && typeof sourceIndexName === 'undefined') {
       throw Error('Either fileName or sourceIndexName must be specified.');
     }
     if (typeof fileName !== 'undefined') {
-      return fileReaderFactory(
-        indexer,
-        fileName,
-        transform,
-        splitRegex,
-        verbose
-      );
+      return fileReaderFactory(indexer, fileName, transform, splitRegex, verbose);
     }
     if (typeof sourceIndexName !== 'undefined') {
@@ -355,7 +491,10 @@ async function transformer(ref) {
         indexer,
         sourceIndexName,
         transform,
-        sourceClient
+        sourceClient,
+        query,
+        bufferSize,
+        populatedFields
       );
     }

package/package.json CHANGED Viewed

@@ -14,22 +14,30 @@
   "license": "Apache-2.0",
   "author": "Walter Rafelsberger <walter@rafelsberger.at>",
   "contributors": [],
-  "version": "1.0.0-alpha9",
+  "version": "1.0.0-beta2",
   "main": "dist/node-es-transformer.cjs.js",
   "module": "dist/node-es-transformer.esm.js",
   "dependencies": {
-    "@elastic/elasticsearch": "^8.8.1",
+    "@elastic/elasticsearch": "^8.10.0",
     "cli-progress": "^3.12.0",
     "event-stream": "3.3.4",
     "glob": "7.1.2"
   },
   "devDependencies": {
     "acorn": "^6.4.2",
-    "eslint": "8.2.0",
+    "async-retry": "^1.3.3",
+    "commit-and-tag-version": "^11.3.0",
+    "cz-conventional-changelog": "^3.3.0",
+    "eslint": "^8.51.0",
     "eslint-config-airbnb": "19.0.4",
+    "eslint-config-prettier": "^9.0.0",
     "eslint-plugin-import": "2.27.5",
+    "eslint-plugin-jest": "^27.4.2",
     "eslint-plugin-jsx-a11y": "6.7.1",
+    "eslint-plugin-prettier": "^3.3.1",
     "eslint-plugin-react": "7.32.2",
+    "jest": "^29.7.0",
+    "prettier": "^2.2.1",
     "rollup": "0.66.6",
     "rollup-plugin-buble": "0.19.6",
     "rollup-plugin-commonjs": "8.0.2",
@@ -38,10 +46,23 @@
   "scripts": {
     "build": "rollup -c",
     "dev": "rollup -c -w",
-    "test": "node test/test.js",
-    "pretest": "npm run build"
+    "test": "jest --runInBand --detectOpenHandles --forceExit",
+    "pretest": "npm run build",
+    "release": "commit-and-tag-version",
+    "create-sample-data-10000": "node scripts/create_sample_data_10000",
+    "create-sample-data-100": "node scripts/create_sample_data_100"
   },
   "files": [
     "dist"
-  ]
+  ],
+  "config": {
+    "commitizen": {
+      "path": "./node_modules/cz-conventional-changelog"
+    }
+  },
+  "jest": {
+    "testMatch": [
+      "**/__tests__/**/*.test.js"
+    ]
+  }
 }