npm - @remotion/whisper-web - Versions diffs - 4.0.364 → 4.0.366 - Mend

@remotion/whisper-web 4.0.364 → 4.0.366

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

package/package.json +3 -3
package/.turbo/turbo-formatting.log +0 -4
package/.turbo/turbo-lint.log +0 -25
package/.turbo/turbo-make.log +0 -3
package/build-wasm.ts +0 -90
package/bundle.ts +0 -15
package/emscripten.cpp +0 -303
package/eslint.config.mjs +0 -5
package/src/can-use-whisper-web.ts +0 -103
package/src/constants.ts +0 -232
package/src/db/delete-object.ts +0 -16
package/src/db/get-object-from-db.ts +0 -43
package/src/db/open-db.ts +0 -62
package/src/db/put-object.ts +0 -27
package/src/delete-model.ts +0 -8
package/src/download-model.ts +0 -52
package/src/download-whisper-model.ts +0 -86
package/src/get-available-models.ts +0 -17
package/src/get-loaded-models.ts +0 -22
package/src/get-model-url.ts +0 -13
package/src/index.module.ts +0 -12
package/src/index.ts +0 -93
package/src/load-mod/load-mod.ts +0 -19
package/src/log.ts +0 -41
package/src/mod.ts +0 -13
package/src/print-handler.ts +0 -39
package/src/resample-to-16khz.ts +0 -105
package/src/result.ts +0 -59
package/src/simulate-progress.ts +0 -74
package/src/to-captions.ts +0 -37
package/src/transcribe.ts +0 -173
package/src/transcription-speed.ts +0 -21
package/tsconfig.json +0 -10
package/tsconfig.tsbuildinfo +0 -1

package/src/load-mod/load-mod.ts DELETED Viewed

@@ -1,19 +0,0 @@
-// ⚠️⚠️⚠️⚠️⚠️!! Intentionally putting this in a subdirectory, so it is 2 directories deep
-// That way it can be imported when the output is dist/esm/index.js
-import type {printHandler} from '../print-handler.js';
-export const loadMod = async ({
-	handler,
-}: {
-	handler: ReturnType<typeof printHandler>;
-}) => {
-	const createModule = await import('../../main.js').then((mod) => mod.default);
-	const Module = await createModule({
-		print: handler,
-		printErr: handler,
-	});
-	return Module;
-};

package/src/log.ts DELETED Viewed

@@ -1,41 +0,0 @@
-/* eslint-disable no-console */
-export const logLevels = ['trace', 'verbose', 'info', 'warn', 'error'] as const;
-export type LogLevel = (typeof logLevels)[number];
-const getNumberForLogLevel = (level: LogLevel) => {
-	return logLevels.indexOf(level);
-};
-export const isEqualOrBelowLogLevel = (
-	currentLevel: LogLevel,
-	level: LogLevel,
-) => {
-	return getNumberForLogLevel(currentLevel) <= getNumberForLogLevel(level);
-};
-export const Log = {
-	trace: (logLevel: LogLevel, ...args: Parameters<typeof console.log>) => {
-		if (isEqualOrBelowLogLevel(logLevel, 'trace')) {
-			return console.log(...args);
-		}
-	},
-	verbose: (logLevel: LogLevel, ...args: Parameters<typeof console.log>) => {
-		if (isEqualOrBelowLogLevel(logLevel, 'verbose')) {
-			return console.log(...args);
-		}
-	},
-	info: (logLevel: LogLevel, ...args: Parameters<typeof console.log>) => {
-		if (isEqualOrBelowLogLevel(logLevel, 'info')) {
-			return console.log(...args);
-		}
-	},
-	warn: (logLevel: LogLevel, ...args: Parameters<typeof console.log>) => {
-		if (isEqualOrBelowLogLevel(logLevel, 'warn')) {
-			return console.warn(...args);
-		}
-	},
-	error: (...args: Parameters<typeof console.log>) => {
-		return console.error(...args);
-	},
-};

package/src/mod.ts DELETED Viewed

@@ -1,13 +0,0 @@
-import type {TranscriptionJson} from './result';
-export type ModelState = {
-	transcriptionProgressPlayback: null | ((progress: number) => void);
-	transcriptionChunkPlayback:
-		| null
-		| ((
-				timestampStart: string,
-				timestampEnd: string,
-				textOnly: string,
-		  ) => void);
-	resolver: null | ((transcript: TranscriptionJson) => void);
-};

package/src/print-handler.ts DELETED Viewed

@@ -1,39 +0,0 @@
-import type {LogLevel} from './log';
-import {Log} from './log';
-import type {TranscriptionJson} from './result';
-const RESULT_TOKEN = 'remotion_final:';
-const PROGRESS_TOKEN = 'remotion_progress:';
-const UPDATE_TOKEN = 'remotion_update:';
-const BUSY_TOKEN = 'remotion_busy:';
-export const printHandler = ({
-	onProgress,
-	onDone,
-	onBusy,
-	onUpdate,
-	logLevel,
-}: {
-	onProgress: (value: number) => void;
-	onBusy: () => void;
-	onDone: (value: TranscriptionJson) => void;
-	onUpdate: (value: TranscriptionJson) => void;
-	logLevel: LogLevel;
-}) => {
-	return (text: string) => {
-		Log.verbose(logLevel, text);
-		if (text.startsWith(PROGRESS_TOKEN)) {
-			const value = parseInt(text.slice(PROGRESS_TOKEN.length), 10);
-			onProgress(value);
-		} else if (text.startsWith(RESULT_TOKEN)) {
-			const json = JSON.parse(text.slice(RESULT_TOKEN.length));
-			onDone(json);
-		} else if (text.startsWith(UPDATE_TOKEN)) {
-			const json = JSON.parse(text.slice(UPDATE_TOKEN.length));
-			onUpdate(json);
-		} else if (text.startsWith(BUSY_TOKEN)) {
-			onBusy();
-		}
-	};
-};

package/src/resample-to-16khz.ts DELETED Viewed

@@ -1,105 +0,0 @@
-import type {LogLevel} from './log';
-import {Log} from './log';
-// this is a requirement of whisper.cpp
-export const EXPECTED_SAMPLE_RATE = 16000;
-let context: AudioContext | undefined;
-const getAudioContext = () => {
-	if (!context) {
-		context = new AudioContext({
-			sampleRate: EXPECTED_SAMPLE_RATE,
-		});
-	}
-	return context;
-};
-const audioDecoder = async (
-	audioBuffer: AudioBuffer,
-): Promise<Float32Array> => {
-	const offlineContext = new OfflineAudioContext(
-		audioBuffer.numberOfChannels,
-		audioBuffer.length,
-		audioBuffer.sampleRate,
-	);
-	const source = offlineContext.createBufferSource();
-	source.buffer = audioBuffer;
-	source.connect(offlineContext.destination);
-	source.start(0);
-	const renderedBuffer = await offlineContext.startRendering();
-	return renderedBuffer.getChannelData(0);
-};
-export type ResampleTo16KhzParams = {
-	file: Blob;
-	onProgress?: (p: number) => void;
-	logLevel?: LogLevel;
-};
-export const resampleTo16Khz = async ({
-	file,
-	onProgress,
-	logLevel = 'info',
-}: ResampleTo16KhzParams): Promise<Float32Array> => {
-	Log.info(logLevel, `Starting resampling for file, size: ${file.size}`);
-	onProgress?.(0);
-	if (typeof window === 'undefined') {
-		Log.error(
-			logLevel,
-			'Window object not found. Resampling can only be done in a browser environment.',
-		);
-		throw new Error(
-			'Window object not found. Resampling requires a browser environment.',
-		);
-	}
-	if (!file) {
-		Log.error(logLevel, 'File is empty.');
-		throw new Error('File is empty');
-	}
-	const innerContext = getAudioContext();
-	const reader = new FileReader();
-	return new Promise<Float32Array>((resolve, reject) => {
-		reader.onprogress = (event) => {
-			if (event.lengthComputable) {
-				const percentage = (event.loaded / event.total) * 0.5; // File reading up to 50%
-				onProgress?.(Math.min(0.5, percentage));
-			}
-		};
-		reader.onload = async () => {
-			try {
-				Log.info(logLevel, 'File reading complete. Decoding audio data...');
-				onProgress?.(0.5);
-				const buffer = new Uint8Array(reader.result as ArrayBuffer);
-				const audioBuffer = await innerContext.decodeAudioData(
-					buffer.buffer as ArrayBuffer,
-				);
-				Log.info(logLevel, 'Audio decoding complete. Starting rendering...');
-				onProgress?.(0.75);
-				const processedAudio = await audioDecoder(audioBuffer);
-				Log.info(logLevel, 'Audio resampling and processing complete.');
-				onProgress?.(1);
-				resolve(processedAudio);
-			} catch (error) {
-				Log.error(logLevel, 'Error during audio processing:', error);
-				reject(error);
-			}
-		};
-		reader.onerror = () => {
-			Log.error(logLevel, 'File reading failed.');
-			reject(new Error('File reading failed'));
-		};
-		reader.readAsArrayBuffer(file);
-	});
-};

package/src/result.ts DELETED Viewed

@@ -1,59 +0,0 @@
-type Result = {
-	language: string;
-};
-type Model = {
-	type: string;
-	multilingual: boolean;
-	vocab: number;
-	audio: {
-		ctx: number;
-		state: number;
-		head: number;
-		layer: number;
-	};
-	text: {
-		ctx: number;
-		state: number;
-		head: number;
-		layer: number;
-	};
-	mels: number;
-	ftype: number;
-};
-type Timestamps = {
-	from: string;
-	to: string;
-};
-type Offsets = {
-	from: number;
-	to: number;
-};
-type TranscriptionItem = {
-	timestamps: Timestamps;
-	offsets: Offsets;
-	text: string;
-};
-export type WordLevelToken = {
-	t_dtw: number;
-	text: string;
-	timestamps: Timestamps;
-	offsets: Offsets;
-	id: number;
-	p: number;
-};
-export type TranscriptionItemWithTimestamp = TranscriptionItem & {
-	tokens: WordLevelToken[];
-};
-export type TranscriptionJson = {
-	systeminfo: string;
-	model: Model;
-	result: Result;
-	transcription: TranscriptionItemWithTimestamp[];
-};

package/src/simulate-progress.ts DELETED Viewed

@@ -1,74 +0,0 @@
-import {
-	getActualTranscriptionSpeedInMilliseconds,
-	NEW_PROGRESS_EVENT_EVERY_N_SECONDS,
-	storeActualTranscriptionSpeed,
-} from './transcription-speed';
-export const simulateProgress = ({
-	audioDurationInSeconds,
-	onProgress,
-}: {
-	audioDurationInSeconds: number;
-	onProgress: (num: number) => void;
-}) => {
-	let progress = 0;
-	const progressSteps =
-		audioDurationInSeconds / NEW_PROGRESS_EVENT_EVERY_N_SECONDS;
-	let progressStepsReceived = 0;
-	let timer: NodeJS.Timer | null = null;
-	let lastTimerStart: number | null = null;
-	const start = () => {
-		const speed = getActualTranscriptionSpeedInMilliseconds();
-		let iterations = 0;
-		lastTimerStart = Date.now();
-		timer = setInterval(() => {
-			progress += 1 / NEW_PROGRESS_EVENT_EVERY_N_SECONDS / (progressSteps + 1);
-			progress = Math.min(progress, 0.99);
-			onProgress(progress);
-			iterations += 1;
-			if (iterations > NEW_PROGRESS_EVENT_EVERY_N_SECONDS - 1 && timer) {
-				clearInterval(timer);
-				timer = null;
-			}
-		}, speed / NEW_PROGRESS_EVENT_EVERY_N_SECONDS);
-	};
-	return {
-		start,
-		progressStepReceived: () => {
-			progressStepsReceived += 1;
-			progress = progressStepsReceived / progressSteps;
-			if (timer) {
-				clearInterval(timer);
-				timer = null;
-			}
-			if (lastTimerStart) {
-				const timeToProcessChunk = Date.now() - (lastTimerStart ?? Date.now());
-				storeActualTranscriptionSpeed(timeToProcessChunk);
-			}
-			start();
-		},
-		onDone: () => {
-			if (timer) {
-				clearInterval(timer);
-				timer = null;
-			}
-			progress = 1;
-			onProgress(1);
-		},
-		abort: () => {
-			if (timer) {
-				clearInterval(timer);
-				timer = null;
-			}
-		},
-	};
-};

package/src/to-captions.ts DELETED Viewed

@@ -1,37 +0,0 @@
-import type {Caption} from '@remotion/captions';
-import type {TranscriptionItemWithTimestamp, TranscriptionJson} from './result';
-type ToCaptionsInput = {
-	whisperWebOutput: TranscriptionJson | TranscriptionItemWithTimestamp[];
-};
-type ToCaptionsOutput = {
-	captions: Caption[];
-};
-export const toCaptions = (input: ToCaptionsInput): ToCaptionsOutput => {
-	const transcription =
-		'transcription' in input.whisperWebOutput
-			? input.whisperWebOutput.transcription
-			: input.whisperWebOutput;
-	const captions: Caption[] = [];
-	for (const item of transcription) {
-		if (item.text === '') {
-			continue;
-		}
-		for (const token of item.tokens) {
-			captions.push({
-				text: captions.length === 0 ? token.text.trimStart() : token.text,
-				startMs: token.offsets.from,
-				endMs: token.offsets.to,
-				timestampMs: token.t_dtw === -1 ? null : token.t_dtw * 10,
-				confidence: token.p,
-			});
-		}
-	}
-	return {captions};
-};

package/src/transcribe.ts DELETED Viewed

@@ -1,173 +0,0 @@
-/* eslint-disable new-cap */
-import type {MainModule} from '../main';
-import type {WhisperWebLanguage, WhisperWebModel} from './constants';
-import {getObject} from './db/get-object-from-db';
-import {getModelUrl} from './get-model-url';
-import {loadMod} from './load-mod/load-mod';
-import type {LogLevel} from './log';
-import {Log} from './log';
-import {printHandler} from './print-handler';
-import {EXPECTED_SAMPLE_RATE} from './resample-to-16khz';
-import type {TranscriptionItemWithTimestamp, TranscriptionJson} from './result';
-import {simulateProgress} from './simulate-progress';
-const MAX_THREADS_ALLOWED = 16;
-const DEFAULT_THREADS = 4;
-declare global {
-	interface Window {
-		remotion_wasm_moduleOverrides?: Record<string, (...args: any[]) => void>;
-	}
-}
-interface WithResolvers<T> {
-	promise: Promise<T>;
-	resolve: (value: T | PromiseLike<T>) => void;
-	// eslint-disable-next-line @typescript-eslint/no-explicit-any
-	reject: (reason?: any) => void;
-}
-const withResolvers = function <T>() {
-	let resolve: WithResolvers<T>['resolve'];
-	let reject: WithResolvers<T>['reject'];
-	const promise = new Promise<T>((res, rej) => {
-		resolve = res;
-		reject = rej;
-	});
-	return {promise, resolve: resolve!, reject: reject!};
-};
-export type TranscribeParams = {
-	channelWaveform: Float32Array;
-	model: WhisperWebModel;
-	language?: WhisperWebLanguage;
-	onProgress?: (p: number) => void;
-	onTranscriptionChunk?: (
-		transcription: TranscriptionItemWithTimestamp[],
-	) => void;
-	threads?: number;
-	logLevel?: LogLevel;
-};
-const storeFS = (mod: MainModule, fname: string, buf: any) => {
-	try {
-		mod.FS_unlink(fname);
-	} catch {
-		// ignore
-	}
-	mod.FS_createDataFile('/', fname, buf, true, true, undefined);
-};
-export const transcribe = async ({
-	channelWaveform,
-	model,
-	language = 'auto',
-	onProgress,
-	threads,
-	onTranscriptionChunk,
-	logLevel = 'info',
-}: TranscribeParams): Promise<TranscriptionJson> => {
-	if (!channelWaveform || channelWaveform.length === 0) {
-		Log.error(logLevel, 'No audio data provided or audio data is empty.');
-		throw new Error('No audio data provided or audio data is empty.');
-	}
-	Log.info(
-		logLevel,
-		`Starting transcription with model: ${model}, language: ${language}, threads: ${
-			threads ?? DEFAULT_THREADS
-		}`,
-	);
-	if ((threads ?? DEFAULT_THREADS) > MAX_THREADS_ALLOWED) {
-		Log.warn(
-			logLevel,
-			`Thread limit exceeded: Used ${
-				threads ?? DEFAULT_THREADS
-			}, max ${MAX_THREADS_ALLOWED} allowed.`,
-		);
-		return Promise.reject(
-			new Error(`Thread limit exceeded: max ${MAX_THREADS_ALLOWED} allowed.`),
-		);
-	}
-	const audioDurationInSeconds = channelWaveform.length / EXPECTED_SAMPLE_RATE;
-	const {
-		abort: abortProgress,
-		onDone: onProgressDone,
-		progressStepReceived,
-		start: startProgress,
-	} = simulateProgress({
-		audioDurationInSeconds,
-		onProgress: (p) => {
-			onProgress?.(p);
-		},
-	});
-	const {
-		promise,
-		resolve: _resolve,
-		reject: _reject,
-	} = withResolvers<TranscriptionJson>();
-	const resolve = (value: TranscriptionJson) => {
-		_resolve(value);
-		abortProgress();
-		Log.info(logLevel, 'Transcription completed successfully.');
-	};
-	const reject = (reason: Error) => {
-		_reject(reason);
-		abortProgress();
-		Log.error('Transcription failed:', reason);
-	};
-	const handler = printHandler({
-		logLevel,
-		onProgress: (p: number) => {
-			if (p === 0) {
-				startProgress();
-			} else if (p === 100) {
-				onProgressDone();
-			} else {
-				progressStepReceived();
-			}
-		},
-		onDone: resolve,
-		onBusy: () => {
-			reject(new Error('Another transcription is already in progress'));
-		},
-		onUpdate: (json: TranscriptionJson) => {
-			onTranscriptionChunk?.(json.transcription);
-		},
-	});
-	const Mod = await loadMod({handler});
-	const url = getModelUrl(model);
-	const result = await getObject({key: url});
-	if (!result) {
-		throw new Error(
-			`Model ${model} is not loaded. Call downloadWhisperModel() first.`,
-		);
-	}
-	Log.info(logLevel, `Model ${model} loaded successfully.`);
-	const fileName = `${model}.bin`;
-	storeFS(Mod, fileName, result);
-	Log.info(logLevel, 'Starting main transcription process...');
-	Mod.full_default(
-		fileName,
-		channelWaveform,
-		model,
-		language,
-		threads ?? DEFAULT_THREADS,
-		false,
-	);
-	return promise;
-};

package/src/transcription-speed.ts DELETED Viewed

@@ -1,21 +0,0 @@
-export const storeActualTranscriptionSpeed = (speed: number) => {
-	window.localStorage.setItem(
-		'remotion-whisper-web-transcription-speed',
-		speed.toString(),
-	);
-};
-// conservative estimate that 30 seconds of audio takes 30 second to process
-const DEFAULT_ASSUMED_SPEED = 1;
-export const NEW_PROGRESS_EVENT_EVERY_N_SECONDS = 30;
-export const getActualTranscriptionSpeedInMilliseconds = () => {
-	const speed = window.localStorage.getItem(
-		'remotion-whisper-web-transcription-speed',
-	);
-	if (!speed) {
-		return DEFAULT_ASSUMED_SPEED * NEW_PROGRESS_EVENT_EVERY_N_SECONDS * 1000;
-	}
-	return parseFloat(speed);
-};

package/tsconfig.json DELETED Viewed

@@ -1,10 +0,0 @@
-{
-	"extends": "../tsconfig.settings.json",
-	"compilerOptions": {
-		"rootDir": "src",
-		"outDir": "dist"
-	},
-	"include": ["src", "main.d.ts"],
-	"exclude": ["src/index.module.ts"],
-	"references": [{"path": "../captions"}]
-}