npm - @clazic/kordoc - Versions diffs - 2.4.17 → 2.4.19 - Mend

@clazic/kordoc 2.4.17 → 2.4.19

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (35) hide show

package/dist/{auto-detect-2YGFYQCN.js → auto-detect-CBYICI6B.js} +4 -4
package/dist/{chunk-WM3XI23V.js → chunk-463YQ2WL.js} +38 -25
package/dist/chunk-463YQ2WL.js.map +1 -0
package/dist/{chunk-7NOZFYH6.js → chunk-CLK4PNZ7.js} +7 -8
package/dist/chunk-CLK4PNZ7.js.map +1 -0
package/dist/{chunk-W2KDIKDF.js → chunk-MZN7PLTZ.js} +2 -2
package/dist/{chunk-34WIGIQC.js → chunk-Y4WFKJ5P.js} +1 -1
package/dist/chunk-Y4WFKJ5P.js.map +1 -0
package/dist/cli.js +9 -13
package/dist/cli.js.map +1 -1
package/dist/index.cjs +49 -191
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +5 -6
package/dist/index.d.ts +5 -6
package/dist/index.js +49 -190
package/dist/index.js.map +1 -1
package/dist/mcp.js +5 -6
package/dist/mcp.js.map +1 -1
package/dist/{resolve-673XFZQ6.js → resolve-XWYJYKKH.js} +15 -36
package/dist/resolve-XWYJYKKH.js.map +1 -0
package/dist/{utils-DHOODYKU.js → utils-YUAT7LFD.js} +2 -2
package/dist/{watch-RM4VNOL4.js → watch-WEOFVVDO.js} +5 -6
package/dist/{watch-RM4VNOL4.js.map → watch-WEOFVVDO.js.map} +1 -1
package/package.json +1 -2
package/dist/chunk-34WIGIQC.js.map +0 -1
package/dist/chunk-7FMKAV4P.js +0 -56
package/dist/chunk-7FMKAV4P.js.map +0 -1
package/dist/chunk-7NOZFYH6.js.map +0 -1
package/dist/chunk-WM3XI23V.js.map +0 -1
package/dist/resolve-673XFZQ6.js.map +0 -1
package/dist/tesseract-provider-MNMZPSGF.js +0 -11
package/dist/utils-DHOODYKU.js.map +0 -1
/package/dist/{auto-detect-2YGFYQCN.js.map → auto-detect-CBYICI6B.js.map} +0 -0
/package/dist/{chunk-W2KDIKDF.js.map → chunk-MZN7PLTZ.js.map} +0 -0
/package/dist/{tesseract-provider-MNMZPSGF.js.map → utils-YUAT7LFD.js.map} +0 -0

package/dist/index.d.cts CHANGED Viewed

@@ -106,17 +106,16 @@ interface ParseOptions {
     ocr?: OcrProvider;
     /**
      * OCR 모드 (CLI 자동 탐색용).
-     * - "auto": 설치된 CLI 자동 탐색 (gemini→claude→codex→ollama→tesseract)
-     * - "gemini"|"claude"|"codex"|"ollama"|"tesseract": 특정 도구 강제 지정
+     * - "auto": 설치된 CLI 자동 탐색 (codex→gemini→claude→ollama)
+     * - "gemini"|"claude"|"codex"|"ollama": 특정 도구 강제 지정
      * - "off": OCR 비활성화 (이미지 기반 PDF면 에러)
      * - undefined: 라이브러리 API 기존 동작 유지 (자동 탐색 안 함)
      */
     ocrMode?: OcrMode;
     /**
      * OCR 병렬 처리 수.
-     * - tesseract: 기본값은 CPU 코어 수 (병렬 처리로 속도 향상)
-     * - CLI 제공 프로바이더(gemini/claude/codex): 기본 1 (rate limit 보호)
-     * - 1: 순차 처리 (기존 동작)
+     * - CLI 제공 프로바이더(gemini/claude/codex): 기본 4 (배치 병렬 실행)
+     * - 1: 순차 처리
      */
     ocrConcurrency?: number;
     /** 진행률 콜백 — current: 현재 페이지/섹션, total: 전체 수 */
@@ -241,7 +240,7 @@ interface StructuredOcrResult {
     markdown: string;
 }
 /** OCR 모드 — CLI --ocr 옵션 허용값 */
-type OcrMode = "auto" | "gemini" | "claude" | "codex" | "ollama" | "tesseract" | "off";
+type OcrMode = "auto" | "gemini" | "claude" | "codex" | "ollama" | "off";
 /** 사용자 제공 OCR 함수 — 페이지 이미지를 받아 텍스트 또는 구조화된 결과 반환 */
 type OcrProvider = (pageImage: Uint8Array, pageNumber: number, mimeType: "image/png") => Promise<string | StructuredOcrResult>;
 interface WatchOptions {

package/dist/index.d.ts CHANGED Viewed

@@ -106,17 +106,16 @@ interface ParseOptions {
     ocr?: OcrProvider;
     /**
      * OCR 모드 (CLI 자동 탐색용).
-     * - "auto": 설치된 CLI 자동 탐색 (gemini→claude→codex→ollama→tesseract)
-     * - "gemini"|"claude"|"codex"|"ollama"|"tesseract": 특정 도구 강제 지정
+     * - "auto": 설치된 CLI 자동 탐색 (codex→gemini→claude→ollama)
+     * - "gemini"|"claude"|"codex"|"ollama": 특정 도구 강제 지정
      * - "off": OCR 비활성화 (이미지 기반 PDF면 에러)
      * - undefined: 라이브러리 API 기존 동작 유지 (자동 탐색 안 함)
      */
     ocrMode?: OcrMode;
     /**
      * OCR 병렬 처리 수.
-     * - tesseract: 기본값은 CPU 코어 수 (병렬 처리로 속도 향상)
-     * - CLI 제공 프로바이더(gemini/claude/codex): 기본 1 (rate limit 보호)
-     * - 1: 순차 처리 (기존 동작)
+     * - CLI 제공 프로바이더(gemini/claude/codex): 기본 4 (배치 병렬 실행)
+     * - 1: 순차 처리
      */
     ocrConcurrency?: number;
     /** 진행률 콜백 — current: 현재 페이지/섹션, total: 전체 수 */
@@ -241,7 +240,7 @@ interface StructuredOcrResult {
     markdown: string;
 }
 /** OCR 모드 — CLI --ocr 옵션 허용값 */
-type OcrMode = "auto" | "gemini" | "claude" | "codex" | "ollama" | "tesseract" | "off";
+type OcrMode = "auto" | "gemini" | "claude" | "codex" | "ollama" | "off";
 /** 사용자 제공 OCR 함수 — 페이지 이미지를 받아 텍스트 또는 구조화된 결과 반환 */
 type OcrProvider = (pageImage: Uint8Array, pageNumber: number, mimeType: "image/png") => Promise<string | StructuredOcrResult>;
 interface WatchOptions {

package/dist/index.js CHANGED Viewed

@@ -2183,7 +2183,7 @@ var auto_detect_exports = {};
 __export(auto_detect_exports, {
   detectAvailableOcr: () => detectAvailableOcr,
   getAutoFallbackChain: () => getAutoFallbackChain,
-  getTesseractFallbackMessage: () => getTesseractFallbackMessage,
+  getNoCliMessage: () => getNoCliMessage,
   validateOcrMode: () => validateOcrMode
 });
 import { execSync } from "child_process";
@@ -2191,7 +2191,7 @@ function detectAvailableOcr() {
   for (const cli of CLI_PRIORITY) {
     if (isCliInstalled(cli)) return cli;
   }
-  return "tesseract";
+  return null;
 }
 function isCliInstalled(name) {
   try {
@@ -2207,11 +2207,10 @@ function getAutoFallbackChain() {
   for (const cli of CLI_PRIORITY) {
     if (isCliInstalled(cli)) chain.push(cli);
   }
-  chain.push("tesseract");
   return chain;
 }
 function validateOcrMode(mode) {
-  if (mode === "auto" || mode === "off" || mode === "tesseract") return;
+  if (mode === "auto" || mode === "off") return;
   if (!isCliInstalled(mode)) {
     throw new Error(`'${mode}' CLI\uAC00 \uC124\uCE58\uB418\uC9C0 \uC54A\uC558\uC2B5\uB2C8\uB2E4.
 ${getInstallGuide(mode)}`);
@@ -2226,10 +2225,10 @@ function getInstallGuide(mode) {
   };
   return guides[mode] || `'${mode}'\uC744(\uB97C) \uC124\uCE58\uD574\uC8FC\uC138\uC694.`;
 }
-function getTesseractFallbackMessage() {
+function getNoCliMessage() {
   return [
-    "\uC124\uCE58\uB41C AI CLI\uAC00 \uC5C6\uC5B4 \uB0B4\uC7A5 tesseract.js\uB85C OCR\uC744 \uC218\uD589\uD569\uB2C8\uB2E4.",
-    "\uB354 \uB098\uC740 \uD488\uC9C8(\uD14C\uC774\uBE14/\uD5E4\uB529 \uAD6C\uC870 \uBCF4\uC874)\uC744 \uC704\uD574 AI CLI \uC124\uCE58\uB97C \uAD8C\uC7A5\uD569\uB2C8\uB2E4:",
+    "\uC124\uCE58\uB41C AI CLI\uAC00 \uC5C6\uC5B4 OCR\uC744 \uC218\uD589\uD560 \uC218 \uC5C6\uC2B5\uB2C8\uB2E4.",
+    "\uC774\uBBF8\uC9C0 \uAE30\uBC18 PDF \uCC98\uB9AC\uB97C \uC704\uD574 AI CLI \uC124\uCE58\uB97C \uAD8C\uC7A5\uD569\uB2C8\uB2E4:",
     "",
     "  [\uAD8C\uC7A5] Codex CLI:   npm install -g @openai/codex",
     "         Gemini CLI:  https://ai.google.dev/gemini-api/docs/cli",
@@ -2412,65 +2411,6 @@ var init_cli_provider = __esm({
   }
 });
-// src/ocr/tesseract-provider.ts
-var tesseract_provider_exports = {};
-__export(tesseract_provider_exports, {
-  createTesseractPoolProvider: () => createTesseractPoolProvider,
-  createTesseractProvider: () => createTesseractProvider
-});
-import { createWorker } from "tesseract.js";
-async function createTesseractProvider() {
-  const worker = await createWorker("kor+eng");
-  let terminated = false;
-  const provider = async (pageImage, _pageNumber, _mimeType) => {
-    const { data } = await worker.recognize(pageImage);
-    return data.text;
-  };
-  provider.terminate = async () => {
-    if (!terminated) {
-      await worker.terminate();
-      terminated = true;
-    }
-  };
-  return provider;
-}
-async function createTesseractPoolProvider(concurrency) {
-  const workers = await Promise.all(
-    Array.from({ length: concurrency }, () => createWorker("kor+eng"))
-  );
-  const idle = [...workers];
-  const waitQueue = [];
-  function acquire() {
-    if (idle.length > 0) return Promise.resolve(idle.pop());
-    return new Promise((resolve4) => waitQueue.push(resolve4));
-  }
-  function release(w) {
-    if (waitQueue.length > 0) {
-      waitQueue.shift()(w);
-    } else {
-      idle.push(w);
-    }
-  }
-  const provider = async (pageImage, _pageNumber, _mimeType) => {
-    const w = await acquire();
-    try {
-      const { data } = await w.recognize(pageImage);
-      return data.text;
-    } finally {
-      release(w);
-    }
-  };
-  provider.terminate = async () => {
-    await Promise.all(workers.map((w) => w.terminate()));
-  };
-  return provider;
-}
-var init_tesseract_provider = __esm({
-  "src/ocr/tesseract-provider.ts"() {
-    "use strict";
-  }
-});
 // src/ocr/batch-provider.ts
 var batch_provider_exports = {};
 __export(batch_provider_exports, {
@@ -2679,15 +2619,6 @@ async function resolveOcrProvider(mode, warnings, concurrency, batchSize) {
   }
   if (mode !== "auto") {
     validateOcrMode(mode);
-    if (mode === "tesseract") {
-      const { createTesseractProvider: createTesseractProvider2, createTesseractPoolProvider: createTesseractPoolProvider2 } = await Promise.resolve().then(() => (init_tesseract_provider(), tesseract_provider_exports));
-      if (concurrency && concurrency > 1) {
-        logger.log({ level: "info", event: "done", message: "Tesseract pool provider \uC120\uD0DD", meta: { concurrency } });
-        return createTesseractPoolProvider2(concurrency);
-      }
-      logger.log({ level: "info", event: "done", message: "Tesseract single provider \uC120\uD0DD" });
-      return createTesseractProvider2();
-    }
     if (mode === "gemini" || mode === "claude" || mode === "codex") {
       const { createBatchCliProvider: createBatchCliProvider2, DEFAULT_BATCH_SIZES: DEFAULT_BATCH_SIZES2 } = await Promise.resolve().then(() => (init_batch_provider(), batch_provider_exports));
       const effectiveBatch = batchSize ?? DEFAULT_BATCH_SIZES2[mode];
@@ -2703,27 +2634,16 @@ async function resolveOcrProvider(mode, warnings, concurrency, batchSize) {
   }
   const detected = detectAvailableOcr();
   logger.log({ level: "info", event: "progress", message: "OCR auto \uAC10\uC9C0 \uACB0\uACFC", meta: { detected } });
-  if (detected !== "codex") {
-    if (detected === "tesseract") {
-      warnings?.push({
-        message: getTesseractFallbackMessage(),
-        code: "OCR_CLI_FALLBACK"
-      });
-    } else {
-      warnings?.push({
-        message: `OCR: '${detected}' \uC0AC\uC6A9 \uC911 (codex CLI\uAC00 \uC5C6\uC5B4 fallback). \uB354 \uB098\uC740 \uD488\uC9C8\uC744 \uC704\uD574 codex CLI \uC124\uCE58\uB97C \uAD8C\uC7A5\uD569\uB2C8\uB2E4.`,
-        code: "OCR_CLI_FALLBACK"
-      });
-    }
+  if (!detected) {
+    throw new Error(
+      "\uC0AC\uC6A9 \uAC00\uB2A5\uD55C OCR CLI\uAC00 \uC5C6\uC2B5\uB2C8\uB2E4. \uB2E4\uC74C \uC911 \uD558\uB098\uB97C \uC124\uCE58\uD558\uC138\uC694:\n  Codex CLI:  npm install -g @openai/codex\n  Claude CLI: npm install -g @anthropic-ai/claude-code\n  Gemini CLI: https://ai.google.dev/gemini-api/docs/cli"
+    );
   }
-  if (detected === "tesseract") {
-    const { createTesseractProvider: createTesseractProvider2, createTesseractPoolProvider: createTesseractPoolProvider2 } = await Promise.resolve().then(() => (init_tesseract_provider(), tesseract_provider_exports));
-    if (concurrency && concurrency > 1) {
-      logger.log({ level: "info", event: "done", message: "AUTO: Tesseract pool provider \uC120\uD0DD", meta: { concurrency } });
-      return createTesseractPoolProvider2(concurrency);
-    }
-    logger.log({ level: "info", event: "done", message: "AUTO: Tesseract single provider \uC120\uD0DD" });
-    return createTesseractProvider2();
+  if (detected !== "codex") {
+    warnings?.push({
+      message: `OCR: '${detected}' \uC0AC\uC6A9 \uC911 (codex CLI\uAC00 \uC5C6\uC5B4 fallback). \uB354 \uB098\uC740 \uD488\uC9C8\uC744 \uC704\uD574 codex CLI \uC124\uCE58\uB97C \uAD8C\uC7A5\uD569\uB2C8\uB2E4.`,
+      code: "OCR_CLI_FALLBACK"
+    });
   }
   if (detected === "gemini" || detected === "codex" || detected === "claude") {
     const { createBatchCliProvider: createBatchCliProvider2, DEFAULT_BATCH_SIZES: DEFAULT_BATCH_SIZES2 } = await Promise.resolve().then(() => (init_batch_provider(), batch_provider_exports));
@@ -3115,7 +3035,7 @@ import JSZip2 from "jszip";
 import { DOMParser } from "@xmldom/xmldom";
 // src/utils.ts
-var VERSION = true ? "2.4.17" : "0.0.0-dev";
+var VERSION = true ? "2.4.19" : "0.0.0-dev";
 function toArrayBuffer(buf) {
   if (buf.byteOffset === 0 && buf.byteLength === buf.buffer.byteLength) {
     return buf.buffer;
@@ -8711,7 +8631,6 @@ async function parseDocxDocument(buffer, options, existingZip) {
 // src/index.ts
 init_cli_provider();
-init_tesseract_provider();
 init_markdown_to_blocks();
 init_logger();
@@ -11346,17 +11265,39 @@ var DEFAULT_STAGE_WEIGHTS = {
   render: 20,
   probe: 5,
   ocr: 45,
-  proofread: 10,
+  proofread: 0,
   merge: 5
 };
-var OCR_PROMPT2 = "Extract all text and tables from this image exactly as-is into Markdown. Do not summarize, infer, or alter the content in any way.";
-var PROOFREAD_PROMPT = [
-  "Perform non-destructive proofreading only on the Markdown below.",
-  "Rules:",
-  "- Do not add, remove, or infer any facts",
-  "- Do not change numbers, units, or proper nouns",
-  "- Correct only typos, spacing, line breaks, and Markdown structure",
-  "- Output the corrected Markdown body only"
+var OCR_PROMPT2 = [
+  "\uC774 PDF \uD398\uC774\uC9C0 \uC774\uBBF8\uC9C0\uC5D0\uC11C \uD14D\uC2A4\uD2B8\uC640 \uD45C\uB97C \uCD94\uCD9C\uD558\uC5EC Markdown\uC73C\uB85C \uBCC0\uD658\uD558\uACE0, OCR \uC624\uC778\uC2DD \uC624\uB958\uB97C \uC989\uC2DC \uAD50\uC815\uD558\uC5EC \uCD5C\uC885 \uACB0\uACFC\uBB3C\uC744 \uCD9C\uB825\uD558\uC138\uC694.",
+  "",
+  "\uCD94\uCD9C \uADDC\uCE59:",
+  "- \uD14D\uC2A4\uD2B8, \uD45C, \uC81C\uBAA9, \uB9AC\uC2A4\uD2B8\uB97C \uC6D0\uBB38 \uAD6C\uC870 \uADF8\uB300\uB85C Markdown\uC73C\uB85C \uBCC0\uD658",
+  "- \uD45C\uB294 Markdown \uD14C\uC774\uBE14 \uBB38\uBC95 \uC0AC\uC6A9 (| \uAD6C\uBD84, |---|---| \uD5E4\uB354 \uAD6C\uBD84\uC120 \uD3EC\uD568)",
+  "- \uD5E4\uB529\uC740 \uC2DC\uAC01\uC801 \uD06C\uAE30\uC5D0 \uB530\uB77C # ~ ###### \uC0AC\uC6A9",
+  "- \uB9AC\uC2A4\uD2B8\uB294 - \uB610\uB294 1. \uC0AC\uC6A9",
+  "- \uC774\uBBF8\uC9C0, \uB3C4\uD615 \uB4F1 \uBE44\uD14D\uC2A4\uD2B8 \uC694\uC18C\uB294 \uBB34\uC2DC",
+  "- \uC6D0\uBB38\uC758 \uC77D\uAE30 \uC21C\uC11C\uC640 \uAD6C\uC870\uB97C \uC720\uC9C0",
+  "",
+  "\uC808\uB300 \uAE08\uC9C0 \uC0AC\uD56D:",
+  "- \uBB38\uC7A5\xB7\uB2E8\uB77D\xB7\uD56D\uBAA9\uC744 \uCD94\uAC00\uD558\uAC70\uB098 \uC0AD\uC81C\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uC22B\uC790, \uD37C\uC13C\uD2B8, \uB0A0\uC9DC, \uB2E8\uC704, \uAE08\uC561\uC744 \uC808\uB300 \uBCC0\uACBD\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uACE0\uC720\uBA85\uC0AC, \uAE30\uAD00\uBA85, \uBC95\uB839\uBA85, \uC9C0\uBA85\uC744 \uBCC0\uACBD\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uD45C\uC758 \uC81C\uBAA9\uC744 \uBCC0\uACBD \uB610\uB294 \uC0AD\uC81C\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uD45C\uC758 \uD589\xB7\uC5F4 \uC218, \uC140 \uB0B4\uC6A9, \uD5E4\uB354\uB97C \uBCC0\uACBD\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uC81C\uBAA9 \uC218\uC900(#, ##, ### \uB4F1)\uC744 \uC784\uC758\uB85C \uBC14\uAFB8\uC9C0 \uB9D0 \uAC83",
+  "- \uC6D0\uBB38\uC5D0 \uC5C6\uB294 \uB0B4\uC6A9\uC744 \uC694\uC57D\xB7\uBCF4\uC644\xB7\uCD94\uB860\uD558\uC9C0 \uB9D0 \uAC83",
+  "- ` ``` `\uB85C \uAC10\uC2F8\uAC70\uB098 \uC124\uBA85 \uD14D\uC2A4\uD2B8\uB97C \uCD94\uAC00\uD558\uC9C0 \uB9D0 \uAC83",
+  "",
+  "\uD5C8\uC6A9\uB418\uB294 \uAD50\uC815 \uBC94\uC704 (OCR \uC624\uC778\uC2DD \uC218\uC815):",
+  "- \uBA85\uBC31\uD55C \uAE00\uC790 \uC624\uC778\uC2DD \uC218\uC815 (\uC608: '0' \u2192 'O', 'l' \u2192 '1' \uB4F1 \uB9E5\uB77D\uC0C1 \uBA85\uD655\uD55C \uACBD\uC6B0\uB9CC)",
+  "- \uB2E8\uC5B4 \uC911\uAC04\uC5D0 \uC798\uBABB \uC0BD\uC785\uB41C \uACF5\uBC31 \uC81C\uAC70",
+  "- \uC904\uBC14\uAFC8 \uC624\uB958\uB85C \uBD84\uB9AC\uB41C \uBB38\uC7A5 \uBCD1\uD569 (\uC758\uBBF8 \uB2E8\uC704 \uAE30\uC900)",
+  "- Markdown \uBB38\uBC95 \uC624\uB958 \uC218\uC815 (\uD45C \uAD6C\uBD84\uC120 \uB204\uB77D, \uB9AC\uC2A4\uD2B8 \uB4E4\uC5EC\uC4F0\uAE30 \uB4F1)",
+  "",
+  "\uCD9C\uB825 \uADDC\uCE59:",
+  "- \uBCC0\uD658\uB41C Markdown \uBCF8\uBB38\uB9CC \uCD9C\uB825\uD560 \uAC83 (\uC124\uBA85, \uC8FC\uC11D, \uBA54\uD0C0 \uD14D\uC2A4\uD2B8 \uC5C6\uC774)",
+  "- \uD655\uC2E4\uD558\uC9C0 \uC54A\uC73C\uBA74 \uC6D0\uBB38\uC744 \uADF8\uB300\uB85C \uC720\uC9C0\uD560 \uAC83"
 ].join("\n");
 function elapsedMs(startAt) {
   return Math.round(performance.now() - startAt);
@@ -11367,7 +11308,6 @@ async function runUnifiedOcrPipeline(inputPath, options = {}) {
   const workspaceDir = resolve3(options.workspaceDir ?? join4(dirname3(absInput), `${stem}_ocr_workspace`));
   const imagesDir = join4(workspaceDir, "images");
   const rawDir = join4(workspaceDir, "ocr", "raw");
-  const proofDir = join4(workspaceDir, "ocr", "proofread");
   const diffDir = join4(workspaceDir, "ocr", "diff");
   const outputPath = resolve3(options.outputPath ?? join4(dirname3(absInput), `${stem}.md`));
   const reportPath = join4(workspaceDir, "run-report.json");
@@ -11387,7 +11327,6 @@ async function runUnifiedOcrPipeline(inputPath, options = {}) {
   const logger = (options.logger ?? createLoggerFromEnv()).withRun(runId).child({ component: "pipeline/unified-ocr.ts" });
   await mkdir(imagesDir, { recursive: true });
   await mkdir(rawDir, { recursive: true });
-  await mkdir(proofDir, { recursive: true });
   await mkdir(diffDir, { recursive: true });
   const timingsMs = {};
   const markStageStart = (stage, message) => emitProgress(options.onEvent, stage, 0, stageWeights, { message, type: "stage_start" });
@@ -11502,50 +11441,11 @@ async function runUnifiedOcrPipeline(inputPath, options = {}) {
     timingsMs.ocr = elapsedMs(ocrStart);
     markStageDone("ocr", "OCR \uC644\uB8CC");
     logStage("info", "ocr", "done", "\uD398\uC774\uC9C0 OCR \uC644\uB8CC", { elapsedMs: timingsMs.ocr });
-    const proofStart = performance.now();
-    currentStage = "proofread";
-    markStageStart("proofread", "\uBE44\uD30C\uAD34 \uAD50\uC815 \uC9C4\uD589 \uC911");
-    logStage("info", "proofread", "start", "\uBE44\uD30C\uAD34 \uAD50\uC815 \uC2DC\uC791", { pages: rawPagePaths.length });
-    const proofedPaths = [];
-    for (let i = 0; i < rawPagePaths.length; i++) {
-      const rawMd = await readFile(rawPagePaths[i], "utf-8");
-      const prompt = `${PROOFREAD_PROMPT}
----
-${rawMd}
----`;
-      const corrected = await ocrImageViaNim({
-        textOnlyPrompt: prompt,
-        model: selectedModel,
-        maxTokens: modelMaxTokens[selectedModel] ?? 8192,
-        baseUrl,
-        keyPool,
-        timeoutMs,
-        maxRetries: maxRetriesPerPage,
-        logger,
-        stage: "proofread"
-      });
-      const safeCorrected = preserveNumericIntegrity(rawMd, corrected);
-      const taggedCorrected = addUncertainTag(rawMd, safeCorrected);
-      const pagePath = join4(proofDir, `page_${String(i + 1).padStart(4, "0")}.md`);
-      await writeFile(pagePath, taggedCorrected, "utf-8");
-      await writeFile(
-        join4(diffDir, `page_${String(i + 1).padStart(4, "0")}.json`),
-        JSON.stringify(buildDiffSummary(rawMd, taggedCorrected), null, 2),
-        "utf-8"
-      );
-      proofedPaths.push(pagePath);
-      markStageProgress("proofread", Math.round((i + 1) / rawPagePaths.length * 100), i + 1, rawPagePaths.length, `\uAD50\uC815 ${i + 1}/${rawPagePaths.length}`);
-      logStage("debug", "proofread", "progress", "\uD398\uC774\uC9C0 \uAD50\uC815 \uC644\uB8CC", { page: i + 1, total: rawPagePaths.length });
-    }
-    timingsMs.proofread = elapsedMs(proofStart);
-    markStageDone("proofread", "\uAD50\uC815 \uC644\uB8CC");
-    logStage("info", "proofread", "done", "\uBE44\uD30C\uAD34 \uAD50\uC815 \uC644\uB8CC", { elapsedMs: timingsMs.proofread });
     const mergeStart = performance.now();
     currentStage = "merge";
     markStageStart("merge", "\uCD5C\uC885 Markdown \uBCD1\uD569 \uC911");
-    logStage("info", "merge", "start", "\uCD5C\uC885 \uBCD1\uD569 \uC2DC\uC791", { pages: proofedPaths.length });
-    const merged = await mergeMarkdownPages(proofedPaths);
+    logStage("info", "merge", "start", "\uCD5C\uC885 \uBCD1\uD569 \uC2DC\uC791", { pages: rawPagePaths.length });
+    const merged = await mergeMarkdownPages(rawPagePaths);
     await writeFile(outputPath, merged, "utf-8");
     timingsMs.merge = elapsedMs(mergeStart);
     markStageDone("merge", "\uBCD1\uD569 \uC644\uB8CC");
@@ -12004,40 +11904,6 @@ function ensureSupportedInput(path) {
     throw new UnifiedOcrError("UNSUPPORTED_INPUT", "convert", `\uC9C0\uC6D0\uD558\uC9C0 \uC54A\uB294 \uC785\uB825 \uD3EC\uB9F7: ${ext}`);
   }
 }
-function extractNumericTokens(text) {
-  return text.match(/\d[\d,./-]*/g) ?? [];
-}
-function preserveNumericIntegrity(rawText, correctedText) {
-  const rawTokens = extractNumericTokens(rawText);
-  const correctedTokens = extractNumericTokens(correctedText);
-  if (rawTokens.length !== correctedTokens.length) return rawText;
-  for (let i = 0; i < rawTokens.length; i++) {
-    if (rawTokens[i] !== correctedTokens[i]) return rawText;
-  }
-  return correctedText;
-}
-function addUncertainTag(rawText, correctedText) {
-  if (correctedText.includes("[\uD655\uC778\uD544\uC694:")) return correctedText;
-  const rawLen = rawText.trim().length;
-  const corrLen = correctedText.trim().length;
-  if (rawLen === 0 || corrLen === 0) return correctedText;
-  const rawLines = rawText.split("\n").filter(Boolean).length;
-  const corrLines = correctedText.split("\n").filter(Boolean).length;
-  const rawTableLines = rawText.split("\n").filter((l) => l.includes("|")).length;
-  const corrTableLines = correctedText.split("\n").filter((l) => l.includes("|")).length;
-  const suspicious = corrLen < rawLen * 0.75 || corrLines < Math.max(1, Math.floor(rawLines * 0.8)) || rawTableLines >= 2 && corrTableLines < Math.floor(rawTableLines * 0.7);
-  if (!suspicious) return correctedText;
-  return `${correctedText}
-[\uD655\uC778\uD544\uC694: \uAD50\uC815 \uACB0\uACFC\uAC00 \uCD95\uC57D\uB418\uC5C8\uC744 \uC218 \uC788\uC5B4 \uC6D0\uBB38\uACFC \uB300\uC870\uAC00 \uD544\uC694\uD569\uB2C8\uB2E4.]`;
-}
-function buildDiffSummary(before, after) {
-  return {
-    changed: before !== after,
-    beforeLength: before.length,
-    afterLength: after.length
-  };
-}
 function normalizePipelineError(err, stage) {
   if (err instanceof UnifiedOcrError) return err;
   const message = err instanceof Error ? err.message : String(err);
@@ -12123,9 +11989,6 @@ async function parseImage(buffer, options) {
     if (ocrMode === "gemini" || ocrMode === "claude" || ocrMode === "codex" || ocrMode === "ollama") {
       ocrProvider = createCliOcrProvider(ocrMode);
       actualOcrMode = ocrMode;
-    } else if (ocrMode === "tesseract") {
-      ocrProvider = await createTesseractProvider();
-      actualOcrMode = ocrMode;
     } else if (ocrMode === "auto") {
       const modesToTry = ["gemini", "claude", "codex", "ollama"];
       for (const mode of modesToTry) {
@@ -12137,10 +12000,6 @@ async function parseImage(buffer, options) {
           console.warn(`[kordoc] OCR auto-detection: ${mode} CLI not available or failed. Trying next.`, e);
         }
       }
-      if (!ocrProvider) {
-        ocrProvider = await createTesseractProvider();
-        actualOcrMode = "tesseract";
-      }
     }
     if (!ocrProvider) {
       return { success: false, fileType: "image", error: "\uC0AC\uC6A9 \uAC00\uB2A5\uD55C OCR \uD504\uB85C\uBC14\uC774\uB354\uB97C \uCC3E\uC744 \uC218 \uC5C6\uC2B5\uB2C8\uB2E4.", code: "PARSE_ERROR" };