npm - @heripo/model - Versions diffs - 0.1.7 → 0.1.9 - Mend

@heripo/model 0.1.7 → 0.1.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

package/README.ko.md CHANGED Viewed

@@ -3,7 +3,7 @@
 > 문서 모델 및 타입 정의
 [![npm version](https://img.shields.io/npm/v/@heripo/model.svg)](https://www.npmjs.com/package/@heripo/model)
-[![Node.js](https://img.shields.io/badge/Node.js-%3E%3D22-339933?logo=node.js&logoColor=white)](https://nodejs.org/)
+[![Node.js](https://img.shields.io/badge/Node.js-%3E%3D24-339933?logo=node.js&logoColor=white)](https://nodejs.org/)
 [![License](https://img.shields.io/badge/License-Apache%202.0-blue.svg)](../../LICENSE)
 [English](./README.md) | **한국어**

package/README.md CHANGED Viewed

@@ -3,7 +3,7 @@
 > Document models and type definitions
 [![npm version](https://img.shields.io/npm/v/@heripo/model.svg)](https://www.npmjs.com/package/@heripo/model)
-[![Node.js](https://img.shields.io/badge/Node.js-%3E%3D22-339933?logo=node.js&logoColor=white)](https://nodejs.org/)
+[![Node.js](https://img.shields.io/badge/Node.js-%3E%3D24-339933?logo=node.js&logoColor=white)](https://nodejs.org/)
 [![License](https://img.shields.io/badge/License-Apache%202.0-blue.svg)](../../LICENSE)
 **English** | [한국어](./README.ko.md)

package/dist/index.cjs CHANGED Viewed

@@ -3,6 +3,10 @@ var __defProp = Object.defineProperty;
 var __getOwnPropDesc = Object.getOwnPropertyDescriptor;
 var __getOwnPropNames = Object.getOwnPropertyNames;
 var __hasOwnProp = Object.prototype.hasOwnProperty;
+var __export = (target, all) => {
+  for (var name in all)
+    __defProp(target, name, { get: all[name], enumerable: true });
+};
 var __copyProps = (to, from, except, desc) => {
   if (from && typeof from === "object" || typeof from === "function") {
     for (let key of __getOwnPropNames(from))
@@ -15,5 +19,190 @@ var __toCommonJS = (mod) => __copyProps(__defProp({}, "__esModule", { value: tru
 // src/index.ts
 var index_exports = {};
+__export(index_exports, {
+  BCP47_LANGUAGE_TAGS: () => BCP47_LANGUAGE_TAGS,
+  BCP47_LANGUAGE_TAG_SET: () => BCP47_LANGUAGE_TAG_SET,
+  isValidBcp47Tag: () => isValidBcp47Tag,
+  normalizeToBcp47: () => normalizeToBcp47
+});
 module.exports = __toCommonJS(index_exports);
+// src/bcp47-language-tag.ts
+var BCP47_LANGUAGE_TAGS = [
+  "af-ZA",
+  "am-ET",
+  "ar-SA",
+  "as-IN",
+  "az-AZ",
+  "be-BY",
+  "bg-BG",
+  "bn-IN",
+  "bs-BA",
+  "ca-ES",
+  "cs-CZ",
+  "cy-GB",
+  "da-DK",
+  "de-DE",
+  "el-GR",
+  "en-US",
+  "es-ES",
+  "et-EE",
+  "eu-ES",
+  "fa-IR",
+  "fi-FI",
+  "fr-FR",
+  "ga-IE",
+  "gl-ES",
+  "gu-IN",
+  "he-IL",
+  "hi-IN",
+  "hr-HR",
+  "hu-HU",
+  "hy-AM",
+  "id-ID",
+  "is-IS",
+  "it-IT",
+  "ja-JP",
+  "ka-GE",
+  "kk-KZ",
+  "km-KH",
+  "kn-IN",
+  "ko-KR",
+  "lo-LA",
+  "lt-LT",
+  "lv-LV",
+  "mk-MK",
+  "ml-IN",
+  "mn-MN",
+  "mr-IN",
+  "ms-MY",
+  "my-MM",
+  "ne-NP",
+  "nl-NL",
+  "no-NO",
+  "or-IN",
+  "pa-IN",
+  "pl-PL",
+  "pt-BR",
+  "pt-PT",
+  "ro-RO",
+  "ru-RU",
+  "si-LK",
+  "sk-SK",
+  "sl-SI",
+  "sq-AL",
+  "sr-RS",
+  "sv-SE",
+  "sw-KE",
+  "ta-IN",
+  "te-IN",
+  "th-TH",
+  "tr-TR",
+  "uk-UA",
+  "ur-PK",
+  "uz-UZ",
+  "vi-VN",
+  "zh-CN",
+  "zh-Hant",
+  "zh-TW"
+];
+var BCP47_LANGUAGE_TAG_SET = new Set(
+  BCP47_LANGUAGE_TAGS
+);
+function isValidBcp47Tag(tag) {
+  return BCP47_LANGUAGE_TAG_SET.has(tag);
+}
+var DEFAULT_REGION_MAP = {
+  af: "af-ZA",
+  am: "am-ET",
+  ar: "ar-SA",
+  as: "as-IN",
+  az: "az-AZ",
+  be: "be-BY",
+  bg: "bg-BG",
+  bn: "bn-IN",
+  bs: "bs-BA",
+  ca: "ca-ES",
+  cs: "cs-CZ",
+  cy: "cy-GB",
+  da: "da-DK",
+  de: "de-DE",
+  el: "el-GR",
+  en: "en-US",
+  es: "es-ES",
+  et: "et-EE",
+  eu: "eu-ES",
+  fa: "fa-IR",
+  fi: "fi-FI",
+  fr: "fr-FR",
+  ga: "ga-IE",
+  gl: "gl-ES",
+  gu: "gu-IN",
+  he: "he-IL",
+  hi: "hi-IN",
+  hr: "hr-HR",
+  hu: "hu-HU",
+  hy: "hy-AM",
+  id: "id-ID",
+  is: "is-IS",
+  it: "it-IT",
+  ja: "ja-JP",
+  ka: "ka-GE",
+  kk: "kk-KZ",
+  km: "km-KH",
+  kn: "kn-IN",
+  ko: "ko-KR",
+  lo: "lo-LA",
+  lt: "lt-LT",
+  lv: "lv-LV",
+  mk: "mk-MK",
+  ml: "ml-IN",
+  mn: "mn-MN",
+  mr: "mr-IN",
+  ms: "ms-MY",
+  my: "my-MM",
+  ne: "ne-NP",
+  nl: "nl-NL",
+  no: "no-NO",
+  or: "or-IN",
+  pa: "pa-IN",
+  pl: "pl-PL",
+  pt: "pt-BR",
+  ro: "ro-RO",
+  ru: "ru-RU",
+  si: "si-LK",
+  sk: "sk-SK",
+  sl: "sl-SI",
+  sq: "sq-AL",
+  sr: "sr-RS",
+  sv: "sv-SE",
+  sw: "sw-KE",
+  ta: "ta-IN",
+  te: "te-IN",
+  th: "th-TH",
+  tr: "tr-TR",
+  uk: "uk-UA",
+  ur: "ur-PK",
+  uz: "uz-UZ",
+  vi: "vi-VN",
+  zh: "zh-CN"
+};
+function normalizeToBcp47(tag) {
+  if (isValidBcp47Tag(tag)) {
+    return tag;
+  }
+  const lower = tag.toLowerCase();
+  const mapped = DEFAULT_REGION_MAP[lower];
+  if (mapped) {
+    return mapped;
+  }
+  return null;
+}
+// Annotate the CommonJS export names for ESM import in node:
+0 && (module.exports = {
+  BCP47_LANGUAGE_TAGS,
+  BCP47_LANGUAGE_TAG_SET,
+  isValidBcp47Tag,
+  normalizeToBcp47
+});
 //# sourceMappingURL=index.cjs.map

package/dist/index.cjs.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"sources":["../src/index.ts"],"sourcesContent":["export type * from './~~docling~~-~~document~~';\nexport type * from './~~hanja~~-~~assessment~~';\nexport type * from './processed-document';\nexport type * from './token-usage-report';\nexport type * from './document-process-result';\n"],"mappings":"~~;;;;;;;;;;;;;;;;~~AAAA;AAAA;","names":[]}
1	+ {"version":3,"sources":["../src/index.ts","../src/bcp47-language-tag.ts"],"sourcesContent":["export type * from './bcp47-language-tag';\nexport {\n BCP47_LANGUAGE_TAGS,\n BCP47_LANGUAGE_TAG_SET,\n isValidBcp47Tag,\n normalizeToBcp47,\n} from './bcp47-language-tag';\nexport type * from './docling-document';\nexport type * from './processed-document';\nexport type * from './token-usage-report';\nexport type * from './document-process-result';\nexport type * from './ocr-strategy';\n","/*\n BCP 47 language tags supported by Docling OCR engines.\n * Covers major languages encountered in archaeological report processing.\n /\nexport const BCP47_LANGUAGE_TAGS = [\n 'af-ZA',\n 'am-ET',\n 'ar-SA',\n 'as-IN',\n 'az-AZ',\n 'be-BY',\n 'bg-BG',\n 'bn-IN',\n 'bs-BA',\n 'ca-ES',\n 'cs-CZ',\n 'cy-GB',\n 'da-DK',\n 'de-DE',\n 'el-GR',\n 'en-US',\n 'es-ES',\n 'et-EE',\n 'eu-ES',\n 'fa-IR',\n 'fi-FI',\n 'fr-FR',\n 'ga-IE',\n 'gl-ES',\n 'gu-IN',\n 'he-IL',\n 'hi-IN',\n 'hr-HR',\n 'hu-HU',\n 'hy-AM',\n 'id-ID',\n 'is-IS',\n 'it-IT',\n 'ja-JP',\n 'ka-GE',\n 'kk-KZ',\n 'km-KH',\n 'kn-IN',\n 'ko-KR',\n 'lo-LA',\n 'lt-LT',\n 'lv-LV',\n 'mk-MK',\n 'ml-IN',\n 'mn-MN',\n 'mr-IN',\n 'ms-MY',\n 'my-MM',\n 'ne-NP',\n 'nl-NL',\n 'no-NO',\n 'or-IN',\n 'pa-IN',\n 'pl-PL',\n 'pt-BR',\n 'pt-PT',\n 'ro-RO',\n 'ru-RU',\n 'si-LK',\n 'sk-SK',\n 'sl-SI',\n 'sq-AL',\n 'sr-RS',\n 'sv-SE',\n 'sw-KE',\n 'ta-IN',\n 'te-IN',\n 'th-TH',\n 'tr-TR',\n 'uk-UA',\n 'ur-PK',\n 'uz-UZ',\n 'vi-VN',\n 'zh-CN',\n 'zh-Hant',\n 'zh-TW',\n] as const;\n\n/* Union type of all supported BCP 47 language tags /\nexport type Bcp47LanguageTag = (typeof BCP47_LANGUAGE_TAGS)[number];\n\n/* Set for O(1) lookup of valid BCP 47 tags /\nexport const BCP47_LANGUAGE_TAG_SET: ReadonlySet<string> = new Set(\n BCP47_LANGUAGE_TAGS,\n);\n\n/* Check whether a string is a valid BCP 47 language tag /\nexport function isValidBcp47Tag(tag: string): tag is Bcp47LanguageTag {\n return BCP47_LANGUAGE_TAG_SET.has(tag);\n}\n\n/\n Maps bare language codes to their default BCP 47 tag.\n * Used when VLM returns only a language code without a region subtag.\n /\nconst DEFAULT_REGION_MAP: Record<string, Bcp47LanguageTag> = {\n af: 'af-ZA',\n am: 'am-ET',\n ar: 'ar-SA',\n as: 'as-IN',\n az: 'az-AZ',\n be: 'be-BY',\n bg: 'bg-BG',\n bn: 'bn-IN',\n bs: 'bs-BA',\n ca: 'ca-ES',\n cs: 'cs-CZ',\n cy: 'cy-GB',\n da: 'da-DK',\n de: 'de-DE',\n el: 'el-GR',\n en: 'en-US',\n es: 'es-ES',\n et: 'et-EE',\n eu: 'eu-ES',\n fa: 'fa-IR',\n fi: 'fi-FI',\n fr: 'fr-FR',\n ga: 'ga-IE',\n gl: 'gl-ES',\n gu: 'gu-IN',\n he: 'he-IL',\n hi: 'hi-IN',\n hr: 'hr-HR',\n hu: 'hu-HU',\n hy: 'hy-AM',\n id: 'id-ID',\n is: 'is-IS',\n it: 'it-IT',\n ja: 'ja-JP',\n ka: 'ka-GE',\n kk: 'kk-KZ',\n km: 'km-KH',\n kn: 'kn-IN',\n ko: 'ko-KR',\n lo: 'lo-LA',\n lt: 'lt-LT',\n lv: 'lv-LV',\n mk: 'mk-MK',\n ml: 'ml-IN',\n mn: 'mn-MN',\n mr: 'mr-IN',\n ms: 'ms-MY',\n my: 'my-MM',\n ne: 'ne-NP',\n nl: 'nl-NL',\n no: 'no-NO',\n or: 'or-IN',\n pa: 'pa-IN',\n pl: 'pl-PL',\n pt: 'pt-BR',\n ro: 'ro-RO',\n ru: 'ru-RU',\n si: 'si-LK',\n sk: 'sk-SK',\n sl: 'sl-SI',\n sq: 'sq-AL',\n sr: 'sr-RS',\n sv: 'sv-SE',\n sw: 'sw-KE',\n ta: 'ta-IN',\n te: 'te-IN',\n th: 'th-TH',\n tr: 'tr-TR',\n uk: 'uk-UA',\n ur: 'ur-PK',\n uz: 'uz-UZ',\n vi: 'vi-VN',\n zh: 'zh-CN',\n};\n\n/\n Normalize a language string to a valid BCP 47 tag.\n \n - If the input is already a valid full tag (e.g. \"en-US\"), return it as-is.\n * - If it is a bare language code (e.g. \"en\", \"ko\"), map it to the default region.\n * - Otherwise return null (e.g. \"und\", \"unknown\", empty string).\n */\nexport function normalizeToBcp47(tag: string): Bcp47LanguageTag \| null {\n if (isValidBcp47Tag(tag)) {\n return tag;\n }\n\n const lower = tag.toLowerCase();\n const mapped = DEFAULT_REGION_MAP[lower];\n if (mapped) {\n return mapped;\n }\n\n return null;\n}\n"],"mappings":";;;;;;;;;;;;;;;;;;;;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;;;ACIO,IAAM,sBAAsB;AAAA,EACjC;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AACF;AAMO,IAAM,yBAA8C,IAAI;AAAA,EAC7D;AACF;AAGO,SAAS,gBAAgB,KAAsC;AACpE,SAAO,uBAAuB,IAAI,GAAG;AACvC;AAMA,IAAM,qBAAuD;AAAA,EAC3D,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AACN;AASO,SAAS,iBAAiB,KAAsC;AACrE,MAAI,gBAAgB,GAAG,GAAG;AACxB,WAAO;AAAA,EACT;AAEA,QAAM,QAAQ,IAAI,YAAY;AAC9B,QAAM,SAAS,mBAAmB,KAAK;AACvC,MAAI,QAAQ;AACV,WAAO;AAAA,EACT;AAEA,SAAO;AACT;","names":[]}

package/dist/index.d.cts CHANGED Viewed

@@ -1,3 +1,23 @@
+/**
+ * BCP 47 language tags supported by Docling OCR engines.
+ * Covers major languages encountered in archaeological report processing.
+ */
+declare const BCP47_LANGUAGE_TAGS: readonly ["af-ZA", "am-ET", "ar-SA", "as-IN", "az-AZ", "be-BY", "bg-BG", "bn-IN", "bs-BA", "ca-ES", "cs-CZ", "cy-GB", "da-DK", "de-DE", "el-GR", "en-US", "es-ES", "et-EE", "eu-ES", "fa-IR", "fi-FI", "fr-FR", "ga-IE", "gl-ES", "gu-IN", "he-IL", "hi-IN", "hr-HR", "hu-HU", "hy-AM", "id-ID", "is-IS", "it-IT", "ja-JP", "ka-GE", "kk-KZ", "km-KH", "kn-IN", "ko-KR", "lo-LA", "lt-LT", "lv-LV", "mk-MK", "ml-IN", "mn-MN", "mr-IN", "ms-MY", "my-MM", "ne-NP", "nl-NL", "no-NO", "or-IN", "pa-IN", "pl-PL", "pt-BR", "pt-PT", "ro-RO", "ru-RU", "si-LK", "sk-SK", "sl-SI", "sq-AL", "sr-RS", "sv-SE", "sw-KE", "ta-IN", "te-IN", "th-TH", "tr-TR", "uk-UA", "ur-PK", "uz-UZ", "vi-VN", "zh-CN", "zh-Hant", "zh-TW"];
+/** Union type of all supported BCP 47 language tags */
+type Bcp47LanguageTag = (typeof BCP47_LANGUAGE_TAGS)[number];
+/** Set for O(1) lookup of valid BCP 47 tags */
+declare const BCP47_LANGUAGE_TAG_SET: ReadonlySet<string>;
+/** Check whether a string is a valid BCP 47 language tag */
+declare function isValidBcp47Tag(tag: string): tag is Bcp47LanguageTag;
+/**
+ * Normalize a language string to a valid BCP 47 tag.
+ *
+ * - If the input is already a valid full tag (e.g. "en-US"), return it as-is.
+ * - If it is a bare language code (e.g. "en", "ko"), map it to the default region.
+ * - Otherwise return null (e.g. "und", "unknown", empty string).
+ */
+declare function normalizeToBcp47(tag: string): Bcp47LanguageTag | null;
 interface DoclingReference {
     $ref: string;
 }
@@ -109,43 +129,6 @@ interface DoclingDocument {
     pages: Record<string, DoclingPage>;
 }
-/**
- * Result of Hanja (KCJ) quality assessment
- *
- * Evaluates OCR quality of Korean-Chinese-Japanese (KCJ/KCJ) characters
- * in the document by sampling pages and comparing with Vision LLM.
- */
-interface HanjaAssessment {
-    /**
-     * Whether the document should be re-parsed using VLM pipeline
-     * due to significant KCJ character corruption
-     */
-    needsVlmReparse: boolean;
-    /**
-     * Severity of KCJ character corruption
-     * - 'none': No KCJ characters found or no corruption detected
-     * - 'minor': Some corruption but still usable
-     * - 'severe': Significant corruption requiring VLM re-parse
-     */
-    severity: 'none' | 'minor' | 'severe';
-    /**
-     * Total number of text pages considered as candidates for assessment
-     */
-    kcjPageCount: number;
-    /**
-     * Number of pages actually sampled for quality assessment
-     */
-    sampledPageCount: number;
-    /**
-     * Ratio of corrupted characters (0.0 ~ 1.0)
-     */
-    corruptedRatio: number;
-    /**
-     * Human-readable reason for the assessment result
-     */
-    reason: string;
-}
 /**
  * Caption information
  *
@@ -734,4 +717,26 @@ interface DocumentProcessResult {
     usage: TokenUsageReport;
 }
-export type { Caption, Chapter, ComponentUsageReport, DoclingBBox, DoclingBaseNode, DoclingBody, DoclingDocument, DoclingGroupItem, DoclingOrigin, DoclingPage, DoclingPageImage, DoclingPictureItem, DoclingProv, DoclingReference, DoclingTableCell, DoclingTableData, DoclingTableItem, DoclingTextItem, DocumentProcessResult, HanjaAssessment, ModelUsageDetail, PageRange, PhaseUsageReport, ProcessedDocument, ProcessedFootnote, ProcessedImage, ProcessedTable, ProcessedTableCell, TextBlock, TokenUsageReport, TokenUsageSummary };
+/**
+ * Result of the OCR strategy sampling phase.
+ * Determines whether to use ocrmac (standard Docling pipeline)
+ * or VLM (direct vision language model processing) for a given document.
+ */
+interface OcrStrategy {
+    /** Selected OCR method */
+    method: 'ocrmac' | 'vlm';
+    /** OCR language weights for ocrmac (e.g., ['ko-KR', 'en-US'] or ['zh-Hant', 'ko-KR']) */
+    ocrLanguages?: string[];
+    /** BCP 47 language tags detected during sampling, ordered by frequency (e.g., ['ko-KR', 'en-US']) */
+    detectedLanguages?: Bcp47LanguageTag[];
+    /** Human-readable explanation of the decision */
+    reason: string;
+    /** Number of pages that were sampled for the decision */
+    sampledPages: number;
+    /** Total number of pages in the document */
+    totalPages: number;
+    /** 1-based page numbers where Korean-Hanja mixed script was detected in text layer */
+    koreanHanjaMixPages?: number[];
+}
+export { BCP47_LANGUAGE_TAGS, BCP47_LANGUAGE_TAG_SET, type Bcp47LanguageTag, type Caption, type Chapter, type ComponentUsageReport, type DoclingBBox, type DoclingBaseNode, type DoclingBody, type DoclingDocument, type DoclingGroupItem, type DoclingOrigin, type DoclingPage, type DoclingPageImage, type DoclingPictureItem, type DoclingProv, type DoclingReference, type DoclingTableCell, type DoclingTableData, type DoclingTableItem, type DoclingTextItem, type DocumentProcessResult, type ModelUsageDetail, type OcrStrategy, type PageRange, type PhaseUsageReport, type ProcessedDocument, type ProcessedFootnote, type ProcessedImage, type ProcessedTable, type ProcessedTableCell, type TextBlock, type TokenUsageReport, type TokenUsageSummary, isValidBcp47Tag, normalizeToBcp47 };

package/dist/index.d.ts CHANGED Viewed

@@ -1,3 +1,23 @@
+/**
+ * BCP 47 language tags supported by Docling OCR engines.
+ * Covers major languages encountered in archaeological report processing.
+ */
+declare const BCP47_LANGUAGE_TAGS: readonly ["af-ZA", "am-ET", "ar-SA", "as-IN", "az-AZ", "be-BY", "bg-BG", "bn-IN", "bs-BA", "ca-ES", "cs-CZ", "cy-GB", "da-DK", "de-DE", "el-GR", "en-US", "es-ES", "et-EE", "eu-ES", "fa-IR", "fi-FI", "fr-FR", "ga-IE", "gl-ES", "gu-IN", "he-IL", "hi-IN", "hr-HR", "hu-HU", "hy-AM", "id-ID", "is-IS", "it-IT", "ja-JP", "ka-GE", "kk-KZ", "km-KH", "kn-IN", "ko-KR", "lo-LA", "lt-LT", "lv-LV", "mk-MK", "ml-IN", "mn-MN", "mr-IN", "ms-MY", "my-MM", "ne-NP", "nl-NL", "no-NO", "or-IN", "pa-IN", "pl-PL", "pt-BR", "pt-PT", "ro-RO", "ru-RU", "si-LK", "sk-SK", "sl-SI", "sq-AL", "sr-RS", "sv-SE", "sw-KE", "ta-IN", "te-IN", "th-TH", "tr-TR", "uk-UA", "ur-PK", "uz-UZ", "vi-VN", "zh-CN", "zh-Hant", "zh-TW"];
+/** Union type of all supported BCP 47 language tags */
+type Bcp47LanguageTag = (typeof BCP47_LANGUAGE_TAGS)[number];
+/** Set for O(1) lookup of valid BCP 47 tags */
+declare const BCP47_LANGUAGE_TAG_SET: ReadonlySet<string>;
+/** Check whether a string is a valid BCP 47 language tag */
+declare function isValidBcp47Tag(tag: string): tag is Bcp47LanguageTag;
+/**
+ * Normalize a language string to a valid BCP 47 tag.
+ *
+ * - If the input is already a valid full tag (e.g. "en-US"), return it as-is.
+ * - If it is a bare language code (e.g. "en", "ko"), map it to the default region.
+ * - Otherwise return null (e.g. "und", "unknown", empty string).
+ */
+declare function normalizeToBcp47(tag: string): Bcp47LanguageTag | null;
 interface DoclingReference {
     $ref: string;
 }
@@ -109,43 +129,6 @@ interface DoclingDocument {
     pages: Record<string, DoclingPage>;
 }
-/**
- * Result of Hanja (KCJ) quality assessment
- *
- * Evaluates OCR quality of Korean-Chinese-Japanese (KCJ/KCJ) characters
- * in the document by sampling pages and comparing with Vision LLM.
- */
-interface HanjaAssessment {
-    /**
-     * Whether the document should be re-parsed using VLM pipeline
-     * due to significant KCJ character corruption
-     */
-    needsVlmReparse: boolean;
-    /**
-     * Severity of KCJ character corruption
-     * - 'none': No KCJ characters found or no corruption detected
-     * - 'minor': Some corruption but still usable
-     * - 'severe': Significant corruption requiring VLM re-parse
-     */
-    severity: 'none' | 'minor' | 'severe';
-    /**
-     * Total number of text pages considered as candidates for assessment
-     */
-    kcjPageCount: number;
-    /**
-     * Number of pages actually sampled for quality assessment
-     */
-    sampledPageCount: number;
-    /**
-     * Ratio of corrupted characters (0.0 ~ 1.0)
-     */
-    corruptedRatio: number;
-    /**
-     * Human-readable reason for the assessment result
-     */
-    reason: string;
-}
 /**
  * Caption information
  *
@@ -734,4 +717,26 @@ interface DocumentProcessResult {
     usage: TokenUsageReport;
 }
-export type { Caption, Chapter, ComponentUsageReport, DoclingBBox, DoclingBaseNode, DoclingBody, DoclingDocument, DoclingGroupItem, DoclingOrigin, DoclingPage, DoclingPageImage, DoclingPictureItem, DoclingProv, DoclingReference, DoclingTableCell, DoclingTableData, DoclingTableItem, DoclingTextItem, DocumentProcessResult, HanjaAssessment, ModelUsageDetail, PageRange, PhaseUsageReport, ProcessedDocument, ProcessedFootnote, ProcessedImage, ProcessedTable, ProcessedTableCell, TextBlock, TokenUsageReport, TokenUsageSummary };
+/**
+ * Result of the OCR strategy sampling phase.
+ * Determines whether to use ocrmac (standard Docling pipeline)
+ * or VLM (direct vision language model processing) for a given document.
+ */
+interface OcrStrategy {
+    /** Selected OCR method */
+    method: 'ocrmac' | 'vlm';
+    /** OCR language weights for ocrmac (e.g., ['ko-KR', 'en-US'] or ['zh-Hant', 'ko-KR']) */
+    ocrLanguages?: string[];
+    /** BCP 47 language tags detected during sampling, ordered by frequency (e.g., ['ko-KR', 'en-US']) */
+    detectedLanguages?: Bcp47LanguageTag[];
+    /** Human-readable explanation of the decision */
+    reason: string;
+    /** Number of pages that were sampled for the decision */
+    sampledPages: number;
+    /** Total number of pages in the document */
+    totalPages: number;
+    /** 1-based page numbers where Korean-Hanja mixed script was detected in text layer */
+    koreanHanjaMixPages?: number[];
+}
+export { BCP47_LANGUAGE_TAGS, BCP47_LANGUAGE_TAG_SET, type Bcp47LanguageTag, type Caption, type Chapter, type ComponentUsageReport, type DoclingBBox, type DoclingBaseNode, type DoclingBody, type DoclingDocument, type DoclingGroupItem, type DoclingOrigin, type DoclingPage, type DoclingPageImage, type DoclingPictureItem, type DoclingProv, type DoclingReference, type DoclingTableCell, type DoclingTableData, type DoclingTableItem, type DoclingTextItem, type DocumentProcessResult, type ModelUsageDetail, type OcrStrategy, type PageRange, type PhaseUsageReport, type ProcessedDocument, type ProcessedFootnote, type ProcessedImage, type ProcessedTable, type ProcessedTableCell, type TextBlock, type TokenUsageReport, type TokenUsageSummary, isValidBcp47Tag, normalizeToBcp47 };

package/dist/index.js CHANGED Viewed

@@ -1 +1,178 @@
+// src/bcp47-language-tag.ts
+var BCP47_LANGUAGE_TAGS = [
+  "af-ZA",
+  "am-ET",
+  "ar-SA",
+  "as-IN",
+  "az-AZ",
+  "be-BY",
+  "bg-BG",
+  "bn-IN",
+  "bs-BA",
+  "ca-ES",
+  "cs-CZ",
+  "cy-GB",
+  "da-DK",
+  "de-DE",
+  "el-GR",
+  "en-US",
+  "es-ES",
+  "et-EE",
+  "eu-ES",
+  "fa-IR",
+  "fi-FI",
+  "fr-FR",
+  "ga-IE",
+  "gl-ES",
+  "gu-IN",
+  "he-IL",
+  "hi-IN",
+  "hr-HR",
+  "hu-HU",
+  "hy-AM",
+  "id-ID",
+  "is-IS",
+  "it-IT",
+  "ja-JP",
+  "ka-GE",
+  "kk-KZ",
+  "km-KH",
+  "kn-IN",
+  "ko-KR",
+  "lo-LA",
+  "lt-LT",
+  "lv-LV",
+  "mk-MK",
+  "ml-IN",
+  "mn-MN",
+  "mr-IN",
+  "ms-MY",
+  "my-MM",
+  "ne-NP",
+  "nl-NL",
+  "no-NO",
+  "or-IN",
+  "pa-IN",
+  "pl-PL",
+  "pt-BR",
+  "pt-PT",
+  "ro-RO",
+  "ru-RU",
+  "si-LK",
+  "sk-SK",
+  "sl-SI",
+  "sq-AL",
+  "sr-RS",
+  "sv-SE",
+  "sw-KE",
+  "ta-IN",
+  "te-IN",
+  "th-TH",
+  "tr-TR",
+  "uk-UA",
+  "ur-PK",
+  "uz-UZ",
+  "vi-VN",
+  "zh-CN",
+  "zh-Hant",
+  "zh-TW"
+];
+var BCP47_LANGUAGE_TAG_SET = new Set(
+  BCP47_LANGUAGE_TAGS
+);
+function isValidBcp47Tag(tag) {
+  return BCP47_LANGUAGE_TAG_SET.has(tag);
+}
+var DEFAULT_REGION_MAP = {
+  af: "af-ZA",
+  am: "am-ET",
+  ar: "ar-SA",
+  as: "as-IN",
+  az: "az-AZ",
+  be: "be-BY",
+  bg: "bg-BG",
+  bn: "bn-IN",
+  bs: "bs-BA",
+  ca: "ca-ES",
+  cs: "cs-CZ",
+  cy: "cy-GB",
+  da: "da-DK",
+  de: "de-DE",
+  el: "el-GR",
+  en: "en-US",
+  es: "es-ES",
+  et: "et-EE",
+  eu: "eu-ES",
+  fa: "fa-IR",
+  fi: "fi-FI",
+  fr: "fr-FR",
+  ga: "ga-IE",
+  gl: "gl-ES",
+  gu: "gu-IN",
+  he: "he-IL",
+  hi: "hi-IN",
+  hr: "hr-HR",
+  hu: "hu-HU",
+  hy: "hy-AM",
+  id: "id-ID",
+  is: "is-IS",
+  it: "it-IT",
+  ja: "ja-JP",
+  ka: "ka-GE",
+  kk: "kk-KZ",
+  km: "km-KH",
+  kn: "kn-IN",
+  ko: "ko-KR",
+  lo: "lo-LA",
+  lt: "lt-LT",
+  lv: "lv-LV",
+  mk: "mk-MK",
+  ml: "ml-IN",
+  mn: "mn-MN",
+  mr: "mr-IN",
+  ms: "ms-MY",
+  my: "my-MM",
+  ne: "ne-NP",
+  nl: "nl-NL",
+  no: "no-NO",
+  or: "or-IN",
+  pa: "pa-IN",
+  pl: "pl-PL",
+  pt: "pt-BR",
+  ro: "ro-RO",
+  ru: "ru-RU",
+  si: "si-LK",
+  sk: "sk-SK",
+  sl: "sl-SI",
+  sq: "sq-AL",
+  sr: "sr-RS",
+  sv: "sv-SE",
+  sw: "sw-KE",
+  ta: "ta-IN",
+  te: "te-IN",
+  th: "th-TH",
+  tr: "tr-TR",
+  uk: "uk-UA",
+  ur: "ur-PK",
+  uz: "uz-UZ",
+  vi: "vi-VN",
+  zh: "zh-CN"
+};
+function normalizeToBcp47(tag) {
+  if (isValidBcp47Tag(tag)) {
+    return tag;
+  }
+  const lower = tag.toLowerCase();
+  const mapped = DEFAULT_REGION_MAP[lower];
+  if (mapped) {
+    return mapped;
+  }
+  return null;
+}
+export {
+  BCP47_LANGUAGE_TAGS,
+  BCP47_LANGUAGE_TAG_SET,
+  isValidBcp47Tag,
+  normalizeToBcp47
+};
 //# sourceMappingURL=index.js.map

package/dist/index.js.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"sources":[],"sourcesContent":[],"mappings":"","names":[]}
1	+ {"version":3,"sources":["../src/bcp47-language-tag.ts"],"sourcesContent":["/*\n BCP 47 language tags supported by Docling OCR engines.\n * Covers major languages encountered in archaeological report processing.\n /\nexport const BCP47_LANGUAGE_TAGS = [\n 'af-ZA',\n 'am-ET',\n 'ar-SA',\n 'as-IN',\n 'az-AZ',\n 'be-BY',\n 'bg-BG',\n 'bn-IN',\n 'bs-BA',\n 'ca-ES',\n 'cs-CZ',\n 'cy-GB',\n 'da-DK',\n 'de-DE',\n 'el-GR',\n 'en-US',\n 'es-ES',\n 'et-EE',\n 'eu-ES',\n 'fa-IR',\n 'fi-FI',\n 'fr-FR',\n 'ga-IE',\n 'gl-ES',\n 'gu-IN',\n 'he-IL',\n 'hi-IN',\n 'hr-HR',\n 'hu-HU',\n 'hy-AM',\n 'id-ID',\n 'is-IS',\n 'it-IT',\n 'ja-JP',\n 'ka-GE',\n 'kk-KZ',\n 'km-KH',\n 'kn-IN',\n 'ko-KR',\n 'lo-LA',\n 'lt-LT',\n 'lv-LV',\n 'mk-MK',\n 'ml-IN',\n 'mn-MN',\n 'mr-IN',\n 'ms-MY',\n 'my-MM',\n 'ne-NP',\n 'nl-NL',\n 'no-NO',\n 'or-IN',\n 'pa-IN',\n 'pl-PL',\n 'pt-BR',\n 'pt-PT',\n 'ro-RO',\n 'ru-RU',\n 'si-LK',\n 'sk-SK',\n 'sl-SI',\n 'sq-AL',\n 'sr-RS',\n 'sv-SE',\n 'sw-KE',\n 'ta-IN',\n 'te-IN',\n 'th-TH',\n 'tr-TR',\n 'uk-UA',\n 'ur-PK',\n 'uz-UZ',\n 'vi-VN',\n 'zh-CN',\n 'zh-Hant',\n 'zh-TW',\n] as const;\n\n/* Union type of all supported BCP 47 language tags /\nexport type Bcp47LanguageTag = (typeof BCP47_LANGUAGE_TAGS)[number];\n\n/* Set for O(1) lookup of valid BCP 47 tags /\nexport const BCP47_LANGUAGE_TAG_SET: ReadonlySet<string> = new Set(\n BCP47_LANGUAGE_TAGS,\n);\n\n/* Check whether a string is a valid BCP 47 language tag /\nexport function isValidBcp47Tag(tag: string): tag is Bcp47LanguageTag {\n return BCP47_LANGUAGE_TAG_SET.has(tag);\n}\n\n/\n Maps bare language codes to their default BCP 47 tag.\n * Used when VLM returns only a language code without a region subtag.\n /\nconst DEFAULT_REGION_MAP: Record<string, Bcp47LanguageTag> = {\n af: 'af-ZA',\n am: 'am-ET',\n ar: 'ar-SA',\n as: 'as-IN',\n az: 'az-AZ',\n be: 'be-BY',\n bg: 'bg-BG',\n bn: 'bn-IN',\n bs: 'bs-BA',\n ca: 'ca-ES',\n cs: 'cs-CZ',\n cy: 'cy-GB',\n da: 'da-DK',\n de: 'de-DE',\n el: 'el-GR',\n en: 'en-US',\n es: 'es-ES',\n et: 'et-EE',\n eu: 'eu-ES',\n fa: 'fa-IR',\n fi: 'fi-FI',\n fr: 'fr-FR',\n ga: 'ga-IE',\n gl: 'gl-ES',\n gu: 'gu-IN',\n he: 'he-IL',\n hi: 'hi-IN',\n hr: 'hr-HR',\n hu: 'hu-HU',\n hy: 'hy-AM',\n id: 'id-ID',\n is: 'is-IS',\n it: 'it-IT',\n ja: 'ja-JP',\n ka: 'ka-GE',\n kk: 'kk-KZ',\n km: 'km-KH',\n kn: 'kn-IN',\n ko: 'ko-KR',\n lo: 'lo-LA',\n lt: 'lt-LT',\n lv: 'lv-LV',\n mk: 'mk-MK',\n ml: 'ml-IN',\n mn: 'mn-MN',\n mr: 'mr-IN',\n ms: 'ms-MY',\n my: 'my-MM',\n ne: 'ne-NP',\n nl: 'nl-NL',\n no: 'no-NO',\n or: 'or-IN',\n pa: 'pa-IN',\n pl: 'pl-PL',\n pt: 'pt-BR',\n ro: 'ro-RO',\n ru: 'ru-RU',\n si: 'si-LK',\n sk: 'sk-SK',\n sl: 'sl-SI',\n sq: 'sq-AL',\n sr: 'sr-RS',\n sv: 'sv-SE',\n sw: 'sw-KE',\n ta: 'ta-IN',\n te: 'te-IN',\n th: 'th-TH',\n tr: 'tr-TR',\n uk: 'uk-UA',\n ur: 'ur-PK',\n uz: 'uz-UZ',\n vi: 'vi-VN',\n zh: 'zh-CN',\n};\n\n/\n Normalize a language string to a valid BCP 47 tag.\n \n - If the input is already a valid full tag (e.g. \"en-US\"), return it as-is.\n * - If it is a bare language code (e.g. \"en\", \"ko\"), map it to the default region.\n * - Otherwise return null (e.g. \"und\", \"unknown\", empty string).\n */\nexport function normalizeToBcp47(tag: string): Bcp47LanguageTag \| null {\n if (isValidBcp47Tag(tag)) {\n return tag;\n }\n\n const lower = tag.toLowerCase();\n const mapped = DEFAULT_REGION_MAP[lower];\n if (mapped) {\n return mapped;\n }\n\n return null;\n}\n"],"mappings":";AAIO,IAAM,sBAAsB;AAAA,EACjC;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,EACA;AACF;AAMO,IAAM,yBAA8C,IAAI;AAAA,EAC7D;AACF;AAGO,SAAS,gBAAgB,KAAsC;AACpE,SAAO,uBAAuB,IAAI,GAAG;AACvC;AAMA,IAAM,qBAAuD;AAAA,EAC3D,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AAAA,EACJ,IAAI;AACN;AASO,SAAS,iBAAiB,KAAsC;AACrE,MAAI,gBAAgB,GAAG,GAAG;AACxB,WAAO;AAAA,EACT;AAEA,QAAM,QAAQ,IAAI,YAAY;AAC9B,QAAM,SAAS,mBAAmB,KAAK;AACvC,MAAI,QAAQ;AACV,WAAO;AAAA,EACT;AAEA,SAAO;AACT;","names":[]}

package/package.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "name": "@heripo/model",
   "private": false,
   "type": "module",
-  "version": "0.1.7",
+  "version": "0.1.9",
   "description": "Document models and type definitions for heripo engine",
   "main": "dist/index.cjs",
   "module": "dist/index.js",