npm - @clazic/kordoc - Versions diffs - 2.4.17 → 2.4.18 - Mend

@clazic/kordoc 2.4.17 → 2.4.18

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

package/dist/{chunk-WM3XI23V.js → chunk-T7EBS5XP.js} +31 -8
package/dist/{chunk-WM3XI23V.js.map → chunk-T7EBS5XP.js.map} +1 -1
package/dist/cli.js +2 -2
package/dist/index.cjs +33 -86
package/dist/index.cjs.map +1 -1
package/dist/index.js +33 -86
package/dist/index.js.map +1 -1
package/dist/mcp.js +1 -1
package/dist/{watch-RM4VNOL4.js → watch-YGIU7RN7.js} +2 -2
package/package.json +1 -1
/package/dist/{watch-RM4VNOL4.js.map → watch-YGIU7RN7.js.map} +0 -0

package/dist/index.js CHANGED Viewed

@@ -11346,17 +11346,39 @@ var DEFAULT_STAGE_WEIGHTS = {
   render: 20,
   probe: 5,
   ocr: 45,
-  proofread: 10,
+  proofread: 0,
   merge: 5
 };
-var OCR_PROMPT2 = "Extract all text and tables from this image exactly as-is into Markdown. Do not summarize, infer, or alter the content in any way.";
-var PROOFREAD_PROMPT = [
-  "Perform non-destructive proofreading only on the Markdown below.",
-  "Rules:",
-  "- Do not add, remove, or infer any facts",
-  "- Do not change numbers, units, or proper nouns",
-  "- Correct only typos, spacing, line breaks, and Markdown structure",
-  "- Output the corrected Markdown body only"
+var OCR_PROMPT2 = [
+  "\uC774 PDF \uD398\uC774\uC9C0 \uC774\uBBF8\uC9C0\uC5D0\uC11C \uD14D\uC2A4\uD2B8\uC640 \uD45C\uB97C \uCD94\uCD9C\uD558\uC5EC Markdown\uC73C\uB85C \uBCC0\uD658\uD558\uACE0, OCR \uC624\uC778\uC2DD \uC624\uB958\uB97C \uC989\uC2DC \uAD50\uC815\uD558\uC5EC \uCD5C\uC885 \uACB0\uACFC\uBB3C\uC744 \uCD9C\uB825\uD558\uC138\uC694.",
+  "",
+  "\uCD94\uCD9C \uADDC\uCE59:",
+  "- \uD14D\uC2A4\uD2B8, \uD45C, \uC81C\uBAA9, \uB9AC\uC2A4\uD2B8\uB97C \uC6D0\uBB38 \uAD6C\uC870 \uADF8\uB300\uB85C Markdown\uC73C\uB85C \uBCC0\uD658",
+  "- \uD45C\uB294 Markdown \uD14C\uC774\uBE14 \uBB38\uBC95 \uC0AC\uC6A9 (| \uAD6C\uBD84, |---|---| \uD5E4\uB354 \uAD6C\uBD84\uC120 \uD3EC\uD568)",
+  "- \uD5E4\uB529\uC740 \uC2DC\uAC01\uC801 \uD06C\uAE30\uC5D0 \uB530\uB77C # ~ ###### \uC0AC\uC6A9",
+  "- \uB9AC\uC2A4\uD2B8\uB294 - \uB610\uB294 1. \uC0AC\uC6A9",
+  "- \uC774\uBBF8\uC9C0, \uB3C4\uD615 \uB4F1 \uBE44\uD14D\uC2A4\uD2B8 \uC694\uC18C\uB294 \uBB34\uC2DC",
+  "- \uC6D0\uBB38\uC758 \uC77D\uAE30 \uC21C\uC11C\uC640 \uAD6C\uC870\uB97C \uC720\uC9C0",
+  "",
+  "\uC808\uB300 \uAE08\uC9C0 \uC0AC\uD56D:",
+  "- \uBB38\uC7A5\xB7\uB2E8\uB77D\xB7\uD56D\uBAA9\uC744 \uCD94\uAC00\uD558\uAC70\uB098 \uC0AD\uC81C\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uC22B\uC790, \uD37C\uC13C\uD2B8, \uB0A0\uC9DC, \uB2E8\uC704, \uAE08\uC561\uC744 \uC808\uB300 \uBCC0\uACBD\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uACE0\uC720\uBA85\uC0AC, \uAE30\uAD00\uBA85, \uBC95\uB839\uBA85, \uC9C0\uBA85\uC744 \uBCC0\uACBD\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uD45C\uC758 \uC81C\uBAA9\uC744 \uBCC0\uACBD \uB610\uB294 \uC0AD\uC81C\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uD45C\uC758 \uD589\xB7\uC5F4 \uC218, \uC140 \uB0B4\uC6A9, \uD5E4\uB354\uB97C \uBCC0\uACBD\uD558\uC9C0 \uB9D0 \uAC83",
+  "- \uC81C\uBAA9 \uC218\uC900(#, ##, ### \uB4F1)\uC744 \uC784\uC758\uB85C \uBC14\uAFB8\uC9C0 \uB9D0 \uAC83",
+  "- \uC6D0\uBB38\uC5D0 \uC5C6\uB294 \uB0B4\uC6A9\uC744 \uC694\uC57D\xB7\uBCF4\uC644\xB7\uCD94\uB860\uD558\uC9C0 \uB9D0 \uAC83",
+  "- ` ``` `\uB85C \uAC10\uC2F8\uAC70\uB098 \uC124\uBA85 \uD14D\uC2A4\uD2B8\uB97C \uCD94\uAC00\uD558\uC9C0 \uB9D0 \uAC83",
+  "",
+  "\uD5C8\uC6A9\uB418\uB294 \uAD50\uC815 \uBC94\uC704 (OCR \uC624\uC778\uC2DD \uC218\uC815):",
+  "- \uBA85\uBC31\uD55C \uAE00\uC790 \uC624\uC778\uC2DD \uC218\uC815 (\uC608: '0' \u2192 'O', 'l' \u2192 '1' \uB4F1 \uB9E5\uB77D\uC0C1 \uBA85\uD655\uD55C \uACBD\uC6B0\uB9CC)",
+  "- \uB2E8\uC5B4 \uC911\uAC04\uC5D0 \uC798\uBABB \uC0BD\uC785\uB41C \uACF5\uBC31 \uC81C\uAC70",
+  "- \uC904\uBC14\uAFC8 \uC624\uB958\uB85C \uBD84\uB9AC\uB41C \uBB38\uC7A5 \uBCD1\uD569 (\uC758\uBBF8 \uB2E8\uC704 \uAE30\uC900)",
+  "- Markdown \uBB38\uBC95 \uC624\uB958 \uC218\uC815 (\uD45C \uAD6C\uBD84\uC120 \uB204\uB77D, \uB9AC\uC2A4\uD2B8 \uB4E4\uC5EC\uC4F0\uAE30 \uB4F1)",
+  "",
+  "\uCD9C\uB825 \uADDC\uCE59:",
+  "- \uBCC0\uD658\uB41C Markdown \uBCF8\uBB38\uB9CC \uCD9C\uB825\uD560 \uAC83 (\uC124\uBA85, \uC8FC\uC11D, \uBA54\uD0C0 \uD14D\uC2A4\uD2B8 \uC5C6\uC774)",
+  "- \uD655\uC2E4\uD558\uC9C0 \uC54A\uC73C\uBA74 \uC6D0\uBB38\uC744 \uADF8\uB300\uB85C \uC720\uC9C0\uD560 \uAC83"
 ].join("\n");
 function elapsedMs(startAt) {
   return Math.round(performance.now() - startAt);
@@ -11367,7 +11389,6 @@ async function runUnifiedOcrPipeline(inputPath, options = {}) {
   const workspaceDir = resolve3(options.workspaceDir ?? join4(dirname3(absInput), `${stem}_ocr_workspace`));
   const imagesDir = join4(workspaceDir, "images");
   const rawDir = join4(workspaceDir, "ocr", "raw");
-  const proofDir = join4(workspaceDir, "ocr", "proofread");
   const diffDir = join4(workspaceDir, "ocr", "diff");
   const outputPath = resolve3(options.outputPath ?? join4(dirname3(absInput), `${stem}.md`));
   const reportPath = join4(workspaceDir, "run-report.json");
@@ -11387,7 +11408,6 @@ async function runUnifiedOcrPipeline(inputPath, options = {}) {
   const logger = (options.logger ?? createLoggerFromEnv()).withRun(runId).child({ component: "pipeline/unified-ocr.ts" });
   await mkdir(imagesDir, { recursive: true });
   await mkdir(rawDir, { recursive: true });
-  await mkdir(proofDir, { recursive: true });
   await mkdir(diffDir, { recursive: true });
   const timingsMs = {};
   const markStageStart = (stage, message) => emitProgress(options.onEvent, stage, 0, stageWeights, { message, type: "stage_start" });
@@ -11502,50 +11522,11 @@ async function runUnifiedOcrPipeline(inputPath, options = {}) {
     timingsMs.ocr = elapsedMs(ocrStart);
     markStageDone("ocr", "OCR \uC644\uB8CC");
     logStage("info", "ocr", "done", "\uD398\uC774\uC9C0 OCR \uC644\uB8CC", { elapsedMs: timingsMs.ocr });
-    const proofStart = performance.now();
-    currentStage = "proofread";
-    markStageStart("proofread", "\uBE44\uD30C\uAD34 \uAD50\uC815 \uC9C4\uD589 \uC911");
-    logStage("info", "proofread", "start", "\uBE44\uD30C\uAD34 \uAD50\uC815 \uC2DC\uC791", { pages: rawPagePaths.length });
-    const proofedPaths = [];
-    for (let i = 0; i < rawPagePaths.length; i++) {
-      const rawMd = await readFile(rawPagePaths[i], "utf-8");
-      const prompt = `${PROOFREAD_PROMPT}
----
-${rawMd}
----`;
-      const corrected = await ocrImageViaNim({
-        textOnlyPrompt: prompt,
-        model: selectedModel,
-        maxTokens: modelMaxTokens[selectedModel] ?? 8192,
-        baseUrl,
-        keyPool,
-        timeoutMs,
-        maxRetries: maxRetriesPerPage,
-        logger,
-        stage: "proofread"
-      });
-      const safeCorrected = preserveNumericIntegrity(rawMd, corrected);
-      const taggedCorrected = addUncertainTag(rawMd, safeCorrected);
-      const pagePath = join4(proofDir, `page_${String(i + 1).padStart(4, "0")}.md`);
-      await writeFile(pagePath, taggedCorrected, "utf-8");
-      await writeFile(
-        join4(diffDir, `page_${String(i + 1).padStart(4, "0")}.json`),
-        JSON.stringify(buildDiffSummary(rawMd, taggedCorrected), null, 2),
-        "utf-8"
-      );
-      proofedPaths.push(pagePath);
-      markStageProgress("proofread", Math.round((i + 1) / rawPagePaths.length * 100), i + 1, rawPagePaths.length, `\uAD50\uC815 ${i + 1}/${rawPagePaths.length}`);
-      logStage("debug", "proofread", "progress", "\uD398\uC774\uC9C0 \uAD50\uC815 \uC644\uB8CC", { page: i + 1, total: rawPagePaths.length });
-    }
-    timingsMs.proofread = elapsedMs(proofStart);
-    markStageDone("proofread", "\uAD50\uC815 \uC644\uB8CC");
-    logStage("info", "proofread", "done", "\uBE44\uD30C\uAD34 \uAD50\uC815 \uC644\uB8CC", { elapsedMs: timingsMs.proofread });
     const mergeStart = performance.now();
     currentStage = "merge";
     markStageStart("merge", "\uCD5C\uC885 Markdown \uBCD1\uD569 \uC911");
-    logStage("info", "merge", "start", "\uCD5C\uC885 \uBCD1\uD569 \uC2DC\uC791", { pages: proofedPaths.length });
-    const merged = await mergeMarkdownPages(proofedPaths);
+    logStage("info", "merge", "start", "\uCD5C\uC885 \uBCD1\uD569 \uC2DC\uC791", { pages: rawPagePaths.length });
+    const merged = await mergeMarkdownPages(rawPagePaths);
     await writeFile(outputPath, merged, "utf-8");
     timingsMs.merge = elapsedMs(mergeStart);
     markStageDone("merge", "\uBCD1\uD569 \uC644\uB8CC");
@@ -12004,40 +11985,6 @@ function ensureSupportedInput(path) {
     throw new UnifiedOcrError("UNSUPPORTED_INPUT", "convert", `\uC9C0\uC6D0\uD558\uC9C0 \uC54A\uB294 \uC785\uB825 \uD3EC\uB9F7: ${ext}`);
   }
 }
-function extractNumericTokens(text) {
-  return text.match(/\d[\d,./-]*/g) ?? [];
-}
-function preserveNumericIntegrity(rawText, correctedText) {
-  const rawTokens = extractNumericTokens(rawText);
-  const correctedTokens = extractNumericTokens(correctedText);
-  if (rawTokens.length !== correctedTokens.length) return rawText;
-  for (let i = 0; i < rawTokens.length; i++) {
-    if (rawTokens[i] !== correctedTokens[i]) return rawText;
-  }
-  return correctedText;
-}
-function addUncertainTag(rawText, correctedText) {
-  if (correctedText.includes("[\uD655\uC778\uD544\uC694:")) return correctedText;
-  const rawLen = rawText.trim().length;
-  const corrLen = correctedText.trim().length;
-  if (rawLen === 0 || corrLen === 0) return correctedText;
-  const rawLines = rawText.split("\n").filter(Boolean).length;
-  const corrLines = correctedText.split("\n").filter(Boolean).length;
-  const rawTableLines = rawText.split("\n").filter((l) => l.includes("|")).length;
-  const corrTableLines = correctedText.split("\n").filter((l) => l.includes("|")).length;
-  const suspicious = corrLen < rawLen * 0.75 || corrLines < Math.max(1, Math.floor(rawLines * 0.8)) || rawTableLines >= 2 && corrTableLines < Math.floor(rawTableLines * 0.7);
-  if (!suspicious) return correctedText;
-  return `${correctedText}
-[\uD655\uC778\uD544\uC694: \uAD50\uC815 \uACB0\uACFC\uAC00 \uCD95\uC57D\uB418\uC5C8\uC744 \uC218 \uC788\uC5B4 \uC6D0\uBB38\uACFC \uB300\uC870\uAC00 \uD544\uC694\uD569\uB2C8\uB2E4.]`;
-}
-function buildDiffSummary(before, after) {
-  return {
-    changed: before !== after,
-    beforeLength: before.length,
-    afterLength: after.length
-  };
-}
 function normalizePipelineError(err, stage) {
   if (err instanceof UnifiedOcrError) return err;
   const message = err instanceof Error ? err.message : String(err);