npm - tokenfill - Versions diffs - 0.0.1 - Mend

tokenfill 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (63) hide show

package/dist/bin.d.ts +2 -0
package/dist/bin.js +6 -0
package/dist/cli.d.ts +9 -0
package/dist/cli.js +65 -0
package/dist/corpus/001-archaeoastronomy.md +479 -0
package/dist/corpus/002-magnetohydrodynamics.md +475 -0
package/dist/corpus/003-biosemiotics.md +483 -0
package/dist/corpus/004-cryopedology.md +483 -0
package/dist/corpus/005-geomicrobiology.md +479 -0
package/dist/corpus/006-aeronomy.md +487 -0
package/dist/corpus/007-paleoclimatology.md +479 -0
package/dist/corpus/008-hydrogeophysics.md +479 -0
package/dist/corpus/009-magnetostratigraphy.md +475 -0
package/dist/corpus/010-isotope-hydrology.md +481 -0
package/dist/corpus/011-speleothem-geochemistry.md +474 -0
package/dist/corpus/012-astrobiogeochemistry.md +475 -0
package/dist/corpus/013-neuroethology.md +483 -0
package/dist/corpus/014-chronophysiology.md +483 -0
package/dist/corpus/015-limnogeochemistry.md +475 -0
package/dist/corpus/016-palynology.md +483 -0
package/dist/corpus/017-volcanotectonics.md +473 -0
package/dist/corpus/018-seismotectonics.md +473 -0
package/dist/corpus/019-biogeomorphology.md +475 -0
package/dist/corpus/020-geobiophysics.md +479 -0
package/dist/corpus/021-phytolith-analysis.md +481 -0
package/dist/corpus/022-archaeometallurgy.md +479 -0
package/dist/corpus/023-paleomagnetism.md +479 -0
package/dist/corpus/024-biocalorimetry.md +475 -0
package/dist/corpus/025-atmospheric-chemiluminescence.md +473 -0
package/dist/corpus/026-cryoseismology.md +479 -0
package/dist/corpus/027-extremophile-radiobiology.md +475 -0
package/dist/corpus/028-heliophysics.md +479 -0
package/dist/corpus/029-astroparticle-geophysics.md +474 -0
package/dist/corpus/030-glaciohydrology.md +479 -0
package/dist/corpus/031-permafrost-microbiology.md +477 -0
package/dist/corpus/032-ecoacoustics.md +479 -0
package/dist/corpus/033-dendroclimatology.md +473 -0
package/dist/corpus/034-ionospheric-tomography.md +477 -0
package/dist/corpus/035-marine-geodesy.md +481 -0
package/dist/corpus/036-sedimentary-ancient-dna.md +481 -0
package/dist/corpus/037-myrmecochory-dynamics.md +474 -0
package/dist/corpus/038-chemosensory-ecology.md +477 -0
package/dist/corpus/039-spintronics-materials.md +479 -0
package/dist/corpus/040-nanotoxicology.md +483 -0
package/dist/corpus/041-cosmochemistry.md +483 -0
package/dist/corpus/042-quaternary-geochronology.md +471 -0
package/dist/corpus/043-biophotonics.md +479 -0
package/dist/corpus/044-evolutionary-morphometrics.md +481 -0
package/dist/corpus/045-cryovolcanology.md +475 -0
package/dist/corpus/046-exoplanet-atmospheric-dynamics.md +479 -0
package/dist/corpus/047-microbial-electrosynthesis.md +477 -0
package/dist/corpus/048-paleoseismology.md +479 -0
package/dist/corpus/049-actinide-geochemistry.md +477 -0
package/dist/corpus/050-quantum-biology.md +489 -0
package/dist/corpus.d.ts +2 -0
package/dist/corpus.js +19 -0
package/dist/index.d.ts +4 -0
package/dist/index.js +2 -0
package/dist/tokenfill.d.ts +9 -0
package/dist/tokenfill.js +34 -0
package/dist/tokenizer.d.ts +14 -0
package/dist/tokenizer.js +31 -0
package/package.json +27 -0

package/dist/corpus.d.ts ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ export declare const CORPUS_ARTICLE_SEPARATOR = "\n\n";
2	+ export declare const BUILT_IN_CORPUS_ARTICLES: string[];

package/dist/corpus.js ADDED Viewed

@@ -0,0 +1,19 @@
+import { readdirSync, readFileSync } from "node:fs";
+import { dirname, join } from "node:path";
+import { fileURLToPath } from "node:url";
+export const CORPUS_ARTICLE_SEPARATOR = "\n\n";
+const corpusDirectoryPath = join(dirname(fileURLToPath(import.meta.url)), "corpus");
+function getCorpusFileNames() {
+    return readdirSync(corpusDirectoryPath, { withFileTypes: true })
+        .filter(entry => entry.isFile() && entry.name.endsWith(".md"))
+        .map(entry => entry.name)
+        .sort((left, right) => left.localeCompare(right));
+}
+function loadBuiltInCorpusArticles() {
+    const corpusFileNames = getCorpusFileNames();
+    if (corpusFileNames.length === 0) {
+        throw new Error(`No built-in corpus markdown files found in ${corpusDirectoryPath}`);
+    }
+    return corpusFileNames.map(fileName => readFileSync(join(corpusDirectoryPath, fileName), "utf8").trim());
+}
+export const BUILT_IN_CORPUS_ARTICLES = loadBuiltInCorpusArticles();

package/dist/index.d.ts ADDED Viewed

@@ -0,0 +1,4 @@
+export { createTokenizer, DEFAULT_ENCODING } from "./tokenizer.js";
+export type { Tokenizer, TokenizerOptions } from "./tokenizer.js";
+export { tokenfill } from "./tokenfill.js";
+export type { TokenfillOptions, TokenfillResult } from "./tokenfill.js";

package/dist/index.js ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ export { createTokenizer, DEFAULT_ENCODING } from "./tokenizer.js";
2	+ export { tokenfill } from "./tokenfill.js";

package/dist/tokenfill.d.ts ADDED Viewed

@@ -0,0 +1,9 @@
+import type { TiktokenEncoding } from "tiktoken";
+export interface TokenfillOptions {
+    encoding?: TiktokenEncoding;
+}
+export interface TokenfillResult {
+    text: string;
+    actualTokens: number;
+}
+export declare function tokenfill(tokenCount: number, options?: TokenfillOptions): TokenfillResult;

package/dist/tokenfill.js ADDED Viewed

@@ -0,0 +1,34 @@
+import { BUILT_IN_CORPUS_ARTICLES, CORPUS_ARTICLE_SEPARATOR } from "./corpus.js";
+import { createTokenizer } from "./tokenizer.js";
+const builtInCorpusText = BUILT_IN_CORPUS_ARTICLES.join(CORPUS_ARTICLE_SEPARATOR);
+const corpusTokensByEncoding = new Map();
+function getCorpusTokens(encoding, encode) {
+    const cachedTokens = corpusTokensByEncoding.get(encoding);
+    if (cachedTokens) {
+        return cachedTokens;
+    }
+    const encodedCorpus = encode(builtInCorpusText);
+    corpusTokensByEncoding.set(encoding, encodedCorpus);
+    return encodedCorpus;
+}
+export function tokenfill(tokenCount, options = {}) {
+    if (!Number.isInteger(tokenCount) || tokenCount < 0) {
+        throw new TypeError(`tokenCount must be a non-negative integer, received ${tokenCount}`);
+    }
+    const tokenizer = createTokenizer({ encoding: options.encoding });
+    try {
+        const corpusTokens = getCorpusTokens(tokenizer.encoding, tokenizer.encode);
+        const maxCorpusTokens = corpusTokens.length;
+        if (tokenCount > maxCorpusTokens) {
+            throw new Error(`Requested token count ${tokenCount} exceeds built-in corpus size ${maxCorpusTokens} for encoding ${tokenizer.encoding}`);
+        }
+        const text = tokenizer.decode(corpusTokens.slice(0, tokenCount));
+        return {
+            text,
+            actualTokens: tokenCount
+        };
+    }
+    finally {
+        tokenizer.free();
+    }
+}

package/dist/tokenizer.d.ts ADDED Viewed

@@ -0,0 +1,14 @@
+import { type TiktokenEncoding } from "tiktoken";
+export declare const DEFAULT_ENCODING: TiktokenEncoding;
+export interface TokenizerOptions {
+    encoding?: TiktokenEncoding;
+}
+export interface Tokenizer {
+    readonly encoding: TiktokenEncoding;
+    encode(text: string): Uint32Array;
+    decode(tokens: Uint32Array | number[]): string;
+    count(text: string): number;
+    truncate(text: string, tokenCount: number): string;
+    free(): void;
+}
+export declare function createTokenizer(options?: TokenizerOptions): Tokenizer;

package/dist/tokenizer.js ADDED Viewed

@@ -0,0 +1,31 @@
+import { get_encoding } from "tiktoken";
+export const DEFAULT_ENCODING = "cl100k_base";
+export function createTokenizer(options = {}) {
+    const encoding = options.encoding ?? DEFAULT_ENCODING;
+    const tokenizer = get_encoding(encoding);
+    const utf8Decoder = new TextDecoder();
+    const encode = (text) => tokenizer.encode(text);
+    const decode = (tokens) => {
+        const tokenArray = tokens instanceof Uint32Array ? tokens : Uint32Array.from(tokens);
+        return utf8Decoder.decode(tokenizer.decode(tokenArray));
+    };
+    const count = (text) => encode(text).length;
+    const truncate = (text, tokenCount) => {
+        if (tokenCount <= 0) {
+            return "";
+        }
+        const tokens = encode(text);
+        if (tokens.length <= tokenCount) {
+            return text;
+        }
+        return decode(tokens.slice(0, tokenCount));
+    };
+    return {
+        encoding,
+        encode,
+        decode,
+        count,
+        truncate,
+        free: () => tokenizer.free()
+    };
+}

package/package.json ADDED Viewed

@@ -0,0 +1,27 @@
+{
+  "name": "tokenfill",
+  "version": "0.0.1",
+  "private": false,
+  "type": "module",
+  "main": "dist/index.js",
+  "types": "dist/index.d.ts",
+  "bin": {
+    "tokenfill": "dist/bin.js"
+  },
+  "exports": {
+    ".": {
+      "types": "./dist/index.d.ts",
+      "import": "./dist/index.js"
+    }
+  },
+  "scripts": {
+    "build": "tsc && node ./scripts/copy-corpus.mjs"
+  },
+  "files": [
+    "dist"
+  ],
+  "dependencies": {
+    "commander": "^14.0.3",
+    "tiktoken": "^1.0.22"
+  }
+}