npm - @pranavraut033/ats-checker - Versions diffs - 1.2.0 → 1.3.2 - Mend

@pranavraut033/ats-checker 1.2.0 → 1.3.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (32) hide show

package/README.md +105 -11
package/dist/chunk-ZJ5E4H7Z.mjs +446 -0
package/dist/chunk-ZJ5E4H7Z.mjs.map +1 -0
package/dist/{index.js → index.cjs} +594 -94
package/dist/index.cjs.map +1 -0
package/dist/index.d.mts +4 -259
package/dist/index.d.ts +4 -259
package/dist/index.mjs +360 -301
package/dist/index.mjs.map +1 -1
package/dist/lang/de/index.cjs +70 -0
package/dist/lang/de/index.cjs.map +1 -0
package/dist/lang/de/index.d.mts +16 -0
package/dist/lang/de/index.d.ts +16 -0
package/dist/lang/de/index.mjs +65 -0
package/dist/lang/de/index.mjs.map +1 -0
package/dist/lang/en/index.cjs +212 -0
package/dist/lang/en/index.cjs.map +1 -0
package/dist/lang/en/index.d.mts +5 -0
package/dist/lang/en/index.d.ts +5 -0
package/dist/lang/en/index.mjs +9 -0
package/dist/lang/en/index.mjs.map +1 -0
package/dist/pdf/{index.js → index.cjs} +13 -4
package/dist/pdf/index.cjs.map +1 -0
package/dist/pdf/index.d.mts +15 -2
package/dist/pdf/index.d.ts +15 -2
package/dist/pdf/index.mjs +11 -2
package/dist/pdf/index.mjs.map +1 -1
package/dist/scoring-BCShrnki.d.mts +319 -0
package/dist/scoring-BCShrnki.d.ts +319 -0
package/package.json +13 -1
package/dist/index.js.map +0 -1
package/dist/pdf/index.js.map +0 -1

package/dist/pdf/index.d.mts CHANGED Viewed

@@ -1,3 +1,15 @@
+/**
+ * Caller-supplied OCR implementation, invoked only when the PDF's text layer
+ * comes back too short to be useful (scanned/image PDFs). The caller owns
+ * the actual OCR engine and dependency — this library never bundles one.
+ */
+type OCRClient = (data: Uint8Array) => Promise<string>;
+interface ExtractTextOptions {
+    /** Called with the raw PDF bytes when text-layer extraction is too short. */
+    ocrFallback?: OCRClient;
+    /** Threshold (trimmed char count) below which ocrFallback is tried. Default 100, matching resume.parser.ts's scanned-PDF warning. */
+    minTextLength?: number;
+}
 /**
  * Extract plain text from a PDF buffer.
  *
@@ -5,8 +17,9 @@
  *   npm install pdfjs-dist
  *
  * @param data - Raw PDF bytes as Uint8Array or ArrayBuffer
+ * @param options - Optional OCR fallback for scanned/image PDFs
  * @returns Extracted text, ready to pass as `resumeText` to analyzeResume
  */
-declare function extractTextFromPDF(data: Uint8Array | ArrayBuffer): Promise<string>;
+declare function extractTextFromPDF(data: Uint8Array | ArrayBuffer, options?: ExtractTextOptions): Promise<string>;
-export { extractTextFromPDF };
+export { type ExtractTextOptions, type OCRClient, extractTextFromPDF };

package/dist/pdf/index.d.ts CHANGED Viewed

@@ -1,3 +1,15 @@
+/**
+ * Caller-supplied OCR implementation, invoked only when the PDF's text layer
+ * comes back too short to be useful (scanned/image PDFs). The caller owns
+ * the actual OCR engine and dependency — this library never bundles one.
+ */
+type OCRClient = (data: Uint8Array) => Promise<string>;
+interface ExtractTextOptions {
+    /** Called with the raw PDF bytes when text-layer extraction is too short. */
+    ocrFallback?: OCRClient;
+    /** Threshold (trimmed char count) below which ocrFallback is tried. Default 100, matching resume.parser.ts's scanned-PDF warning. */
+    minTextLength?: number;
+}
 /**
  * Extract plain text from a PDF buffer.
  *
@@ -5,8 +17,9 @@
  *   npm install pdfjs-dist
  *
  * @param data - Raw PDF bytes as Uint8Array or ArrayBuffer
+ * @param options - Optional OCR fallback for scanned/image PDFs
  * @returns Extracted text, ready to pass as `resumeText` to analyzeResume
  */
-declare function extractTextFromPDF(data: Uint8Array | ArrayBuffer): Promise<string>;
+declare function extractTextFromPDF(data: Uint8Array | ArrayBuffer, options?: ExtractTextOptions): Promise<string>;
-export { extractTextFromPDF };
+export { type ExtractTextOptions, type OCRClient, extractTextFromPDF };

package/dist/pdf/index.mjs CHANGED Viewed

@@ -1,5 +1,5 @@
 // src/pdf/index.ts
-async function extractTextFromPDF(data) {
+async function extractTextFromPDF(data, options) {
   let pdfjsLib;
   try {
     pdfjsLib = await import('pdfjs-dist');
@@ -47,7 +47,16 @@ async function extractTextFromPDF(data) {
     const columnTexts = columns.map((col) => renderColumn(col));
     pages.push(columnTexts.filter(Boolean).join("\n"));
   }
-  return pages.join("\n");
+  const text = pages.join("\n");
+  const minTextLength = options?.minTextLength ?? 100;
+  if (options?.ocrFallback && text.trim().length < minTextLength) {
+    try {
+      const ocrText = await options.ocrFallback(bytes);
+      if (ocrText.trim().length > text.trim().length) return ocrText;
+    } catch {
+    }
+  }
+  return text;
 }
 function renderColumn(items) {
   const Y_TOLERANCE = 2;

package/dist/pdf/index.mjs.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"sources":["../../src/pdf/index.ts"],"names":[],"mappings":";~~AASA~~,eAAsB,~~mBACpB~~,~~IAAA~~,EACiB;AAEjB,EAAA,IAAI,QAAA;AACJ,EAAA,IAAI;AACF,IAAA,QAAA,GAAW,MAAM,OAAO,YAAY,CAAA;AAAA,EACtC,CAAA,CAAA,MAAQ;AACN,IAAA,MAAM,IAAI,KAAA;AAAA,MACR;AAAA,KACF;AAAA,EACF;AAEA,EAAA,MAAM,QACJ,IAAA,YAAgB,WAAA,GAAc,IAAI,UAAA,CAAW,IAAI,CAAA,GAAI,IAAA;AAEvD,EAAA,MAAM,GAAA,GAAM,MAAM,QAAA,CAAS,WAAA,CAAY,EAAE,IAAA,EAAM,KAAA,EAAO,CAAA,CAAE,OAAA;AACxD,EAAA,MAAM,QAAkB,EAAC;AAEzB,EAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,IAAK,GAAA,CAAI,UAAU,CAAA,EAAA,EAAK;AACtC,IAAA,MAAM,IAAA,GAAO,MAAM,GAAA,CAAI,OAAA,CAAQ,CAAC,CAAA;AAChC,IAAA,MAAM,OAAA,GAAU,MAAM,IAAA,CAAK,cAAA,EAAe;AAG1C,IAAA,MAAM,QAAmB,EAAC;AAE1B,IAAA,KAAA,MAAW,IAAA,IAAQ,QAAQ,KAAA,EAAO;AAChC,MAAA,IAAI,EAAE,KAAA,IAAS,IAAA,CAAA,IAAS,CAAC,IAAA,CAAK,GAAA,CAAI,MAAK,EAAG;AAC1C,MAAA,MAAM,YAAkC,KAAA,CAAM,OAAA;AAAA,QAC3C,IAAA,CAAkC;AAAA,OACrC,GACK,KAAiC,SAAA,GAClC,MAAA;AAEJ,MAAA,IAAI,CAAC,SAAA,EAAW;AAEd,QAAA,KAAA,CAAM,IAAA,CAAK,EAAE,CAAA,EAAG,CAAA,EAAG,GAAG,CAAA,EAAG,GAAA,EAAK,IAAA,CAAK,GAAA,EAAK,CAAA;AAAA,MAC1C,CAAA,MAAO;AACL,QAAA,KAAA,CAAM,IAAA,CAAK,EAAE,CAAA,EAAG,SAAA,CAAU,CAAC,CAAA,EAAG,CAAA,EAAG,SAAA,CAAU,CAAC,CAAA,EAAG,GAAA,EAAK,IAAA,CAAK,KAAK,CAAA;AAAA,MAChE;AAAA,IACF;AAWA,IAAA,MAAM,oBAAA,GAAuB,EAAA;AAC7B,IAAA,MAAM,aAAa,CAAC,GAAG,IAAI,GAAA,CAAI,MAAM,GAAA,CAAI,CAAC,EAAA,KAAO,IAAA,CAAK,MAAM,EAAA,CAAG,CAAC,CAAC,CAAC,CAAC,CAAA,CAAE,IAAA;AAAA,MACnE,CAAC,CAAA,EAAG,CAAA,KAAM,CAAA,GAAI;AAAA,KAChB;AAEA,IAAA,IAAI,cAAA,GAAgC,IAAA;AACpC,IAAA,IAAI,MAAA,GAAS,CAAA;AACb,IAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,GAAI,UAAA,CAAW,QAAQ,CAAA,EAAA,EAAK;AAC1C,MAAA,MAAM,MAAM,UAAA,CAAW,CAAC,CAAA,GAAI,UAAA,CAAW,IAAI,CAAC,CAAA;AAC5C,MAAA,IAAI,MAAM,MAAA,EAAQ;AAChB,QAAA,MAAA,GAAS,GAAA;AACT,QAAA,cAAA,GAAA,CAAkB,WAAW,CAAA,GAAI,CAAC,CAAA,GAAI,UAAA,CAAW,CAAC,CAAA,IAAK,CAAA;AAAA,MACzD;AAAA,IACF;AACA,IAAA,IAAI,MAAA,GAAS,sBAAsB,cAAA,GAAiB,IAAA;AAEpD,IAAA,MAAM,OAAA,GACJ,mBAAmB,IAAA,GACf;AAAA,MACE,MAAM,MAAA,CAAO,CAAC,EAAA,KAAO,EAAA,CAAG,IAAI,cAAe,CAAA;AAAA,MAC3C,MAAM,MAAA,CAAO,CAAC,EAAA,KAAO,EAAA,CAAG,KAAK,cAAe;AAAA,KAC9C,GACA,CAAC,KAAK,CAAA;AAEZ,IAAA,MAAM,cAAc,OAAA,CAAQ,GAAA,CAAI,CAAC,GAAA,KAAQ,YAAA,CAAa,GAAG,CAAC,CAAA;AAC1D,IAAA,KAAA,CAAM,KAAK,WAAA,CAAY,MAAA,CAAO,OAAO,CAAA,CAAE,IAAA,CAAK,IAAI,CAAC,CAAA;AAAA,EACnD;AAEA,EAAA,~~OAAO~~,KAAA,CAAM,KAAK,IAAI,CAAA;~~AACxB~~;AAEA,SAAS,aAAa,KAAA,EAA6D;AACjF,EAAA,MAAM,WAAA,GAAc,CAAA;AACpB,EAAA,MAAM,OAAA,uBAA8D,GAAA,EAAI;AACxE,EAAA,MAAM,YAAsB,EAAC;AAE7B,EAAA,KAAA,MAAW,EAAE,CAAA,EAAG,CAAA,EAAG,GAAA,MAAS,KAAA,EAAO;AACjC,IAAA,IAAI,SAAA;AACJ,IAAA,KAAA,MAAW,OAAO,SAAA,EAAW;AAC3B,MAAA,IAAI,IAAA,CAAK,GAAA,CAAI,GAAA,GAAM,CAAC,KAAK,WAAA,EAAa;AACpC,QAAA,SAAA,GAAY,GAAA;AACZ,QAAA;AAAA,MACF;AAAA,IACF;AACA,IAAA,IAAI,cAAc,MAAA,EAAW;AAC3B,MAAA,SAAA,GAAY,CAAA;AACZ,MAAA,SAAA,CAAU,KAAK,CAAC,CAAA;AAChB,MAAA,OAAA,CAAQ,GAAA,CAAI,CAAA,EAAG,EAAE,CAAA;AAAA,IACnB;AACA,IAAA,OAAA,CAAQ,IAAI,SAAS,CAAA,CAAG,KAAK,EAAE,CAAA,EAAG,KAAK,CAAA;AAAA,EACzC;AAGA,EAAA,SAAA,CAAU,IAAA,CAAK,CAAC,CAAA,EAAG,CAAA,KAAM,IAAI,CAAC,CAAA;AAE9B,EAAA,OAAO,SAAA,CACJ,GAAA;AAAA,IAAI,CAAC,GAAA,KAAA,CACH,OAAA,CAAQ,GAAA,CAAI,GAAG,CAAA,IAAK,EAAC,EACnB,IAAA,CAAK,CAAC,CAAA,EAAG,CAAA,KAAM,EAAE,CAAA,GAAI,CAAA,CAAE,CAAC,CAAA,CACxB,GAAA,CAAI,CAAC,EAAA,KAAO,EAAA,CAAG,GAAG,CAAA,CAClB,IAAA,CAAK,GAAG,CAAA,CACR,OAAA,CAAQ,WAAA,EAAa,GAAG,EACxB,IAAA;AAAK,GACV,CACC,MAAA,CAAO,OAAO,CAAA,CACd,KAAK,IAAI,CAAA;AACd","file":"index.mjs","sourcesContent":["/*\n Extract plain text from a PDF buffer.\n \n Requires `pdfjs-dist` to be installed (optional peerDependency):\n * npm install pdfjs-dist\n \n @param data - Raw PDF bytes as Uint8Array or ArrayBuffer\n * @returns Extracted text, ready to pass as `resumeText` to analyzeResume\n */\nexport async function extractTextFromPDF(\n data: Uint8Array \| ArrayBuffer\n): Promise<string> {\n // ponytail: lazy import keeps core zero-dep; missing peer throws with clear message\n let pdfjsLib: typeof import(\"pdfjs-dist\");\n try {\n pdfjsLib = await import(\"pdfjs-dist\");\n } catch {\n throw new Error(\n \"pdfjs-dist is required for PDF extraction. Install it: npm install pdfjs-dist\"\n );\n }\n\n const bytes =\n data instanceof ArrayBuffer ? new Uint8Array(data) : data;\n\n const doc = await pdfjsLib.getDocument({ data: bytes }).promise;\n const pages: string[] = [];\n\n for (let i = 1; i <= doc.numPages; i++) {\n const page = await doc.getPage(i);\n const content = await page.getTextContent();\n\n type RawItem = { x: number; y: number; str: string };\n const items: RawItem[] = [];\n\n for (const item of content.items) {\n if (!(\"str\" in item) \|\| !item.str.trim()) continue;\n const transform: number[] \| undefined = Array.isArray(\n (item as { transform?: number[] }).transform\n )\n ? (item as { transform: number[] }).transform\n : undefined;\n\n if (!transform) {\n // No positional info (unit-test mocks) — treat as single-column item\n items.push({ x: 0, y: 0, str: item.str });\n } else {\n items.push({ x: transform[4], y: transform[5], str: item.str });\n }\n }\n\n // Detect column boundary: find the largest x-gap among item start positions.\n // If it exceeds COLUMN_GAP_THRESHOLD, split into left / right columns and\n // process each independently so headers in different columns don't merge.\n // ponytail: single largest-gap heuristic handles the common 2-column resume;\n // n-column needs k-means on x-distribution — upgrade if this proves insufficient.\n // Column boundary heuristic: the largest gap in item x-positions.\n // Real PDF column gutters show as a gap >>80px; normal word spacing is <50px.\n // ponytail: magic number calibrated to PranavRaut2026.pdf (104px gap); raise\n // if single-column PDFs with wide indentation start getting falsely split.\n const COLUMN_GAP_THRESHOLD = 80;\n const xPositions = [...new Set(items.map((it) => Math.round(it.x)))].sort(\n (a, b) => a - b\n );\n\n let columnBoundary: number \| null = null;\n let maxGap = 0;\n for (let j = 1; j < xPositions.length; j++) {\n const gap = xPositions[j] - xPositions[j - 1];\n if (gap > maxGap) {\n maxGap = gap;\n columnBoundary = (xPositions[j - 1] + xPositions[j]) / 2;\n }\n }\n if (maxGap < COLUMN_GAP_THRESHOLD) columnBoundary = null;\n\n const columns =\n columnBoundary !== null\n ? [\n items.filter((it) => it.x < columnBoundary!),\n items.filter((it) => it.x >= columnBoundary!),\n ]\n : [items];\n\n const columnTexts = columns.map((col) => renderColumn(col));\n pages.push(columnTexts.filter(Boolean).join(\"\\n\"));\n }\n\n ~~return~~ pages.join(\"\\n\");\n}\n\nfunction renderColumn(items: Array<{ x: number; y: number; str: string }>): string {\n const Y_TOLERANCE = 2;\n const lineMap: Map<number, Array<{ x: number; str: string }>> = new Map();\n const lineOrder: number[] = [];\n\n for (const { x, y, str } of items) {\n let bucketKey: number \| undefined;\n for (const key of lineOrder) {\n if (Math.abs(key - y) <= Y_TOLERANCE) {\n bucketKey = key;\n break;\n }\n }\n if (bucketKey === undefined) {\n bucketKey = y;\n lineOrder.push(y);\n lineMap.set(y, []);\n }\n lineMap.get(bucketKey)!.push({ x, str });\n }\n\n // pdfjs y=0 is bottom of page — sort descending so top comes first\n lineOrder.sort((a, b) => b - a);\n\n return lineOrder\n .map((key) =>\n (lineMap.get(key) ?? [])\n .sort((a, b) => a.x - b.x)\n .map((it) => it.str)\n .join(\" \")\n .replace(/[^\\S\\n]+/g, \" \")\n .trim()\n )\n .filter(Boolean)\n .join(\"\\n\");\n}\n"]}
1	+ {"version":3,"sources":["../../src/pdf/index.ts"],"names":[],"mappings":";AAwBA,eAAsB,kBAAA,CACpB,MACA,OAAA,EACiB;AAEjB,EAAA,IAAI,QAAA;AACJ,EAAA,IAAI;AACF,IAAA,QAAA,GAAW,MAAM,OAAO,YAAY,CAAA;AAAA,EACtC,CAAA,CAAA,MAAQ;AACN,IAAA,MAAM,IAAI,KAAA;AAAA,MACR;AAAA,KACF;AAAA,EACF;AAEA,EAAA,MAAM,QACJ,IAAA,YAAgB,WAAA,GAAc,IAAI,UAAA,CAAW,IAAI,CAAA,GAAI,IAAA;AAEvD,EAAA,MAAM,GAAA,GAAM,MAAM,QAAA,CAAS,WAAA,CAAY,EAAE,IAAA,EAAM,KAAA,EAAO,CAAA,CAAE,OAAA;AACxD,EAAA,MAAM,QAAkB,EAAC;AAEzB,EAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,IAAK,GAAA,CAAI,UAAU,CAAA,EAAA,EAAK;AACtC,IAAA,MAAM,IAAA,GAAO,MAAM,GAAA,CAAI,OAAA,CAAQ,CAAC,CAAA;AAChC,IAAA,MAAM,OAAA,GAAU,MAAM,IAAA,CAAK,cAAA,EAAe;AAG1C,IAAA,MAAM,QAAmB,EAAC;AAE1B,IAAA,KAAA,MAAW,IAAA,IAAQ,QAAQ,KAAA,EAAO;AAChC,MAAA,IAAI,EAAE,KAAA,IAAS,IAAA,CAAA,IAAS,CAAC,IAAA,CAAK,GAAA,CAAI,MAAK,EAAG;AAC1C,MAAA,MAAM,YAAkC,KAAA,CAAM,OAAA;AAAA,QAC3C,IAAA,CAAkC;AAAA,OACrC,GACK,KAAiC,SAAA,GAClC,MAAA;AAEJ,MAAA,IAAI,CAAC,SAAA,EAAW;AAEd,QAAA,KAAA,CAAM,IAAA,CAAK,EAAE,CAAA,EAAG,CAAA,EAAG,GAAG,CAAA,EAAG,GAAA,EAAK,IAAA,CAAK,GAAA,EAAK,CAAA;AAAA,MAC1C,CAAA,MAAO;AACL,QAAA,KAAA,CAAM,IAAA,CAAK,EAAE,CAAA,EAAG,SAAA,CAAU,CAAC,CAAA,EAAG,CAAA,EAAG,SAAA,CAAU,CAAC,CAAA,EAAG,GAAA,EAAK,IAAA,CAAK,KAAK,CAAA;AAAA,MAChE;AAAA,IACF;AAWA,IAAA,MAAM,oBAAA,GAAuB,EAAA;AAC7B,IAAA,MAAM,aAAa,CAAC,GAAG,IAAI,GAAA,CAAI,MAAM,GAAA,CAAI,CAAC,EAAA,KAAO,IAAA,CAAK,MAAM,EAAA,CAAG,CAAC,CAAC,CAAC,CAAC,CAAA,CAAE,IAAA;AAAA,MACnE,CAAC,CAAA,EAAG,CAAA,KAAM,CAAA,GAAI;AAAA,KAChB;AAEA,IAAA,IAAI,cAAA,GAAgC,IAAA;AACpC,IAAA,IAAI,MAAA,GAAS,CAAA;AACb,IAAA,KAAA,IAAS,CAAA,GAAI,CAAA,EAAG,CAAA,GAAI,UAAA,CAAW,QAAQ,CAAA,EAAA,EAAK;AAC1C,MAAA,MAAM,MAAM,UAAA,CAAW,CAAC,CAAA,GAAI,UAAA,CAAW,IAAI,CAAC,CAAA;AAC5C,MAAA,IAAI,MAAM,MAAA,EAAQ;AAChB,QAAA,MAAA,GAAS,GAAA;AACT,QAAA,cAAA,GAAA,CAAkB,WAAW,CAAA,GAAI,CAAC,CAAA,GAAI,UAAA,CAAW,CAAC,CAAA,IAAK,CAAA;AAAA,MACzD;AAAA,IACF;AACA,IAAA,IAAI,MAAA,GAAS,sBAAsB,cAAA,GAAiB,IAAA;AAEpD,IAAA,MAAM,OAAA,GACJ,mBAAmB,IAAA,GACf;AAAA,MACE,MAAM,MAAA,CAAO,CAAC,EAAA,KAAO,EAAA,CAAG,IAAI,cAAe,CAAA;AAAA,MAC3C,MAAM,MAAA,CAAO,CAAC,EAAA,KAAO,EAAA,CAAG,KAAK,cAAe;AAAA,KAC9C,GACA,CAAC,KAAK,CAAA;AAEZ,IAAA,MAAM,cAAc,OAAA,CAAQ,GAAA,CAAI,CAAC,GAAA,KAAQ,YAAA,CAAa,GAAG,CAAC,CAAA;AAC1D,IAAA,KAAA,CAAM,KAAK,WAAA,CAAY,MAAA,CAAO,OAAO,CAAA,CAAE,IAAA,CAAK,IAAI,CAAC,CAAA;AAAA,EACnD;AAEA,EAAA,MAAM,IAAA,GAAO,KAAA,CAAM,IAAA,CAAK,IAAI,CAAA;AAI5B,EAAA,MAAM,aAAA,GAAgB,SAAS,aAAA,IAAiB,GAAA;AAChD,EAAA,IAAI,SAAS,WAAA,IAAe,IAAA,CAAK,IAAA,EAAK,CAAE,SAAS,aAAA,EAAe;AAC9D,IAAA,IAAI;AACF,MAAA,MAAM,OAAA,GAAU,MAAM,OAAA,CAAQ,WAAA,CAAY,KAAK,CAAA;AAC/C,MAAA,IAAI,OAAA,CAAQ,MAAK,CAAE,MAAA,GAAS,KAAK,IAAA,EAAK,CAAE,QAAQ,OAAO,OAAA;AAAA,IACzD,CAAA,CAAA,MAAQ;AAAA,IAER;AAAA,EACF;AAEA,EAAA,OAAO,IAAA;AACT;AAEA,SAAS,aAAa,KAAA,EAA6D;AACjF,EAAA,MAAM,WAAA,GAAc,CAAA;AACpB,EAAA,MAAM,OAAA,uBAA8D,GAAA,EAAI;AACxE,EAAA,MAAM,YAAsB,EAAC;AAE7B,EAAA,KAAA,MAAW,EAAE,CAAA,EAAG,CAAA,EAAG,GAAA,MAAS,KAAA,EAAO;AACjC,IAAA,IAAI,SAAA;AACJ,IAAA,KAAA,MAAW,OAAO,SAAA,EAAW;AAC3B,MAAA,IAAI,IAAA,CAAK,GAAA,CAAI,GAAA,GAAM,CAAC,KAAK,WAAA,EAAa;AACpC,QAAA,SAAA,GAAY,GAAA;AACZ,QAAA;AAAA,MACF;AAAA,IACF;AACA,IAAA,IAAI,cAAc,MAAA,EAAW;AAC3B,MAAA,SAAA,GAAY,CAAA;AACZ,MAAA,SAAA,CAAU,KAAK,CAAC,CAAA;AAChB,MAAA,OAAA,CAAQ,GAAA,CAAI,CAAA,EAAG,EAAE,CAAA;AAAA,IACnB;AACA,IAAA,OAAA,CAAQ,IAAI,SAAS,CAAA,CAAG,KAAK,EAAE,CAAA,EAAG,KAAK,CAAA;AAAA,EACzC;AAGA,EAAA,SAAA,CAAU,IAAA,CAAK,CAAC,CAAA,EAAG,CAAA,KAAM,IAAI,CAAC,CAAA;AAE9B,EAAA,OAAO,SAAA,CACJ,GAAA;AAAA,IAAI,CAAC,GAAA,KAAA,CACH,OAAA,CAAQ,GAAA,CAAI,GAAG,CAAA,IAAK,EAAC,EACnB,IAAA,CAAK,CAAC,CAAA,EAAG,CAAA,KAAM,EAAE,CAAA,GAAI,CAAA,CAAE,CAAC,CAAA,CACxB,GAAA,CAAI,CAAC,EAAA,KAAO,EAAA,CAAG,GAAG,CAAA,CAClB,IAAA,CAAK,GAAG,CAAA,CACR,OAAA,CAAQ,WAAA,EAAa,GAAG,EACxB,IAAA;AAAK,GACV,CACC,MAAA,CAAO,OAAO,CAAA,CACd,KAAK,IAAI,CAAA;AACd","file":"index.mjs","sourcesContent":["/*\n Caller-supplied OCR implementation, invoked only when the PDF's text layer\n * comes back too short to be useful (scanned/image PDFs). The caller owns\n * the actual OCR engine and dependency — this library never bundles one.\n /\nexport type OCRClient = (data: Uint8Array) => Promise<string>;\n\nexport interface ExtractTextOptions {\n /* Called with the raw PDF bytes when text-layer extraction is too short. /\n ocrFallback?: OCRClient;\n /* Threshold (trimmed char count) below which ocrFallback is tried. Default 100, matching resume.parser.ts's scanned-PDF warning. /\n minTextLength?: number;\n}\n\n/\n Extract plain text from a PDF buffer.\n \n Requires `pdfjs-dist` to be installed (optional peerDependency):\n * npm install pdfjs-dist\n \n @param data - Raw PDF bytes as Uint8Array or ArrayBuffer\n * @param options - Optional OCR fallback for scanned/image PDFs\n * @returns Extracted text, ready to pass as `resumeText` to analyzeResume\n /\nexport async function extractTextFromPDF(\n data: Uint8Array \| ArrayBuffer,\n options?: ExtractTextOptions\n): Promise<string> {\n // ponytail: lazy import keeps core zero-dep; missing peer throws with clear message\n let pdfjsLib: typeof import(\"pdfjs-dist\");\n try {\n pdfjsLib = await import(\"pdfjs-dist\");\n } catch {\n throw new Error(\n \"pdfjs-dist is required for PDF extraction. Install it: npm install pdfjs-dist\"\n );\n }\n\n const bytes =\n data instanceof ArrayBuffer ? new Uint8Array(data) : data;\n\n const doc = await pdfjsLib.getDocument({ data: bytes }).promise;\n const pages: string[] = [];\n\n for (let i = 1; i <= doc.numPages; i++) {\n const page = await doc.getPage(i);\n const content = await page.getTextContent();\n\n type RawItem = { x: number; y: number; str: string };\n const items: RawItem[] = [];\n\n for (const item of content.items) {\n if (!(\"str\" in item) \|\| !item.str.trim()) continue;\n const transform: number[] \| undefined = Array.isArray(\n (item as { transform?: number[] }).transform\n )\n ? (item as { transform: number[] }).transform\n : undefined;\n\n if (!transform) {\n // No positional info (unit-test mocks) — treat as single-column item\n items.push({ x: 0, y: 0, str: item.str });\n } else {\n items.push({ x: transform[4], y: transform[5], str: item.str });\n }\n }\n\n // Detect column boundary: find the largest x-gap among item start positions.\n // If it exceeds COLUMN_GAP_THRESHOLD, split into left / right columns and\n // process each independently so headers in different columns don't merge.\n // ponytail: single largest-gap heuristic handles the common 2-column resume;\n // n-column needs k-means on x-distribution — upgrade if this proves insufficient.\n // Column boundary heuristic: the largest gap in item x-positions.\n // Real PDF column gutters show as a gap >>80px; normal word spacing is <50px.\n // ponytail: magic number calibrated to PranavRaut2026.pdf (104px gap); raise\n // if single-column PDFs with wide indentation start getting falsely split.\n const COLUMN_GAP_THRESHOLD = 80;\n const xPositions = [...new Set(items.map((it) => Math.round(it.x)))].sort(\n (a, b) => a - b\n );\n\n let columnBoundary: number \| null = null;\n let maxGap = 0;\n for (let j = 1; j < xPositions.length; j++) {\n const gap = xPositions[j] - xPositions[j - 1];\n if (gap > maxGap) {\n maxGap = gap;\n columnBoundary = (xPositions[j - 1] + xPositions[j]) / 2;\n }\n }\n if (maxGap < COLUMN_GAP_THRESHOLD) columnBoundary = null;\n\n const columns =\n columnBoundary !== null\n ? [\n items.filter((it) => it.x < columnBoundary!),\n items.filter((it) => it.x >= columnBoundary!),\n ]\n : [items];\n\n const columnTexts = columns.map((col) => renderColumn(col));\n pages.push(columnTexts.filter(Boolean).join(\"\\n\"));\n }\n\n const text = pages.join(\"\\n\");\n\n // ponytail: OCR is the caller's engine/dependency — we only decide when*\n // to ask for it (text layer too short) and pick the better of the two results.\n const minTextLength = options?.minTextLength ?? 100;\n if (options?.ocrFallback && text.trim().length < minTextLength) {\n try {\n const ocrText = await options.ocrFallback(bytes);\n if (ocrText.trim().length > text.trim().length) return ocrText;\n } catch {\n // OCR failure falls back to the text-layer result, never throws.\n }\n }\n\n return text;\n}\n\nfunction renderColumn(items: Array<{ x: number; y: number; str: string }>): string {\n const Y_TOLERANCE = 2;\n const lineMap: Map<number, Array<{ x: number; str: string }>> = new Map();\n const lineOrder: number[] = [];\n\n for (const { x, y, str } of items) {\n let bucketKey: number \| undefined;\n for (const key of lineOrder) {\n if (Math.abs(key - y) <= Y_TOLERANCE) {\n bucketKey = key;\n break;\n }\n }\n if (bucketKey === undefined) {\n bucketKey = y;\n lineOrder.push(y);\n lineMap.set(y, []);\n }\n lineMap.get(bucketKey)!.push({ x, str });\n }\n\n // pdfjs y=0 is bottom of page — sort descending so top comes first\n lineOrder.sort((a, b) => b - a);\n\n return lineOrder\n .map((key) =>\n (lineMap.get(key) ?? [])\n .sort((a, b) => a.x - b.x)\n .map((it) => it.str)\n .join(\" \")\n .replace(/[^\\S\\n]+/g, \" \")\n .trim()\n )\n .filter(Boolean)\n .join(\"\\n\");\n}\n"]}

package/dist/scoring-BCShrnki.d.mts ADDED Viewed

@@ -0,0 +1,319 @@
+type ResumeSection = "summary" | "experience" | "skills" | "education" | "projects" | "certifications";
+interface ParsedDateRange {
+    raw?: string;
+    start?: string;
+    end?: string;
+    durationInMonths?: number;
+    /** Numeric year/month of the start and end, for overlap-aware summing. */
+    startYear?: number;
+    startMonth?: number;
+    endYear?: number;
+    endMonth?: number;
+}
+interface ParsedExperienceEntry {
+    title?: string;
+    company?: string;
+    location?: string;
+    dates?: ParsedDateRange;
+    description?: string;
+}
+interface ParsedAchievement {
+    text: string;
+    strength: "strong" | "weak";
+    reason: string;
+}
+interface ParsedLanguage {
+    /** Canonical lowercase language name, e.g. "german". */
+    name: string;
+    /** Raw level as written/normalized, e.g. "c1", "fluent", "native". */
+    level?: string;
+    /** CEFR-aligned rank 1 (A1/basic) – 6 (C2/native), for comparing proficiency. */
+    levelRank?: number;
+}
+interface ParsedResume {
+    raw: string;
+    normalizedText: string;
+    detectedSections: ResumeSection[];
+    sectionContent: Partial<Record<ResumeSection, string>>;
+    skills: string[];
+    jobTitles: string[];
+    actionVerbs: string[];
+    /** Weak verbs (helped, worked, performed, ...) found in the resume text. */
+    weakVerbs: string[];
+    /** Experience bullets classified as strong/weak achievement statements. */
+    achievements: ParsedAchievement[];
+    educationEntries: string[];
+    experience: ParsedExperienceEntry[];
+    totalExperienceYears: number;
+    keywords: string[];
+    languages: ParsedLanguage[];
+    warnings: string[];
+}
+interface ParsedJobDescription {
+    raw: string;
+    normalizedText: string;
+    requiredSkills: string[];
+    preferredSkills: string[];
+    roleKeywords: string[];
+    keywords: string[];
+    minExperienceYears?: number;
+    educationRequirements: string[];
+    /** canonical keyword -> the surface form (original casing/spelling) the JD used. */
+    keywordSurfaceForms: Record<string, string>;
+    requiredLanguages: ParsedLanguage[];
+}
+interface ATSWeights {
+    skills: number;
+    experience: number;
+    keywords: number;
+    education: number;
+}
+type SkillAliases = Record<string, string[]>;
+type KeywordCategory = "technical" | "tool" | "concept" | "soft" | "marketing" | "domain";
+interface KeywordEntry {
+    canonical: string;
+    aliases: string[];
+    category: KeywordCategory;
+}
+type KeywordRegistry = KeywordEntry[];
+interface ATSProfile {
+    name: string;
+    mandatorySkills: string[];
+    optionalSkills: string[];
+    minExperience?: number;
+}
+interface KeywordDensityConfig {
+    /** Minimum density before a keyword is considered underused (informational only). */
+    min: number;
+    /** Maximum density before a keyword is considered stuffed. */
+    max: number;
+    /** Penalty applied when density exceeds max. */
+    overusePenalty: number;
+}
+interface SectionPenaltyConfig {
+    missingSummary?: number;
+    missingExperience?: number;
+    missingSkills?: number;
+    missingEducation?: number;
+}
+interface ATSRule {
+    id: string;
+    description?: string;
+    penalty: number;
+    warning?: string;
+    condition: (context: RuleContext) => boolean;
+}
+interface ATSConfig {
+    weights?: Partial<ATSWeights>;
+    skillAliases?: SkillAliases;
+    /** Categorized keyword/alias entries (technical, tool, concept, soft, marketing, domain). Merges over the default registry by canonical term. */
+    keywordRegistry?: KeywordRegistry;
+    profile?: ATSProfile;
+    rules?: ATSRule[];
+    keywordDensity?: KeywordDensityConfig;
+    sectionPenalties?: SectionPenaltyConfig;
+    allowPartialMatches?: boolean;
+    /**
+     * ISO date string (e.g. "2024-06-01") used as the "today" reference when
+     * computing duration for open-ended date ranges ("Present"/"Current"/"Now").
+     * Omit to use the actual current date (live/production behaviour).
+     * Set to a fixed value in tests or batch processing to guarantee determinism.
+     */
+    referenceDate?: string;
+}
+interface NormalizedWeights extends ATSWeights {
+    /** Weights normalized so they sum to 1. */
+    normalizedTotal: number;
+}
+interface ResolvedATSConfig {
+    weights: NormalizedWeights;
+    skillAliases: SkillAliases;
+    keywordRegistry: KeywordRegistry;
+    /** canonical term -> category, derived once from keywordRegistry. */
+    categoryIndex: Map<string, KeywordCategory>;
+    profile?: ATSProfile;
+    rules: ATSRule[];
+    keywordDensity: KeywordDensityConfig;
+    sectionPenalties: Required<SectionPenaltyConfig>;
+    allowPartialMatches: boolean;
+    /** Resolved reference date for "Present" duration calculations. */
+    referenceDate?: Date;
+}
+interface RuleContext {
+    resume: ParsedResume;
+    job: ParsedJobDescription;
+    weights: NormalizedWeights;
+    keywordDensity: KeywordDensityConfig;
+    breakdown?: ATSBreakdown;
+    matchedKeywords?: string[];
+    overusedKeywords?: string[];
+}
+/**
+ * LLM v2 Support Types - Optional, Backward Compatible
+ */
+/**
+ * JSON Schema for response validation
+ */
+interface JSONSchema {
+    type: string;
+    properties?: Record<string, unknown>;
+    required?: string[];
+    items?: unknown;
+    [key: string]: unknown;
+}
+/**
+ * LLM Client abstraction - user provides their own implementation
+ * This allows flexibility with different LLM providers without direct dependencies
+ */
+interface LLMClient {
+    /**
+     * Create a structured completion from the LLM
+     * Must validate and return only valid JSON matching the schema
+     */
+    createCompletion(input: {
+        model: string;
+        messages: {
+            role: "system" | "user";
+            content: string;
+        }[];
+        max_tokens: number;
+        response_format: JSONSchema;
+    }): Promise<{
+        content: unknown;
+        usage?: {
+            prompt_tokens?: number;
+            completion_tokens?: number;
+            total_tokens?: number;
+        };
+    }>;
+}
+/**
+ * LLM budget configuration - prevents runaway spending
+ */
+interface LLMBudget {
+    maxCalls: number;
+    maxTokensPerCall: number;
+    maxTotalTokens: number;
+}
+/**
+ * Feature toggles for LLM capabilities
+ */
+interface LLMFeatures {
+    skillNormalization?: boolean;
+    sectionClassification?: boolean;
+    suggestions?: boolean;
+}
+/**
+ * Complete LLM configuration
+ */
+interface LLMConfig {
+    /** User-provided LLM client (e.g., OpenAI wrapper) */
+    client: LLMClient;
+    /** Model identifiers */
+    models?: {
+        /** Default model for fast, structured output (e.g., "gpt-4o-mini") */
+        default: string;
+        /** Optional thinking model for complex reasoning (e.g., "o4-mini") */
+        thinking?: string;
+    };
+    /** Budget constraints */
+    limits: LLMBudget;
+    /** Which LLM features to enable */
+    enable?: LLMFeatures;
+    /** Request timeout in milliseconds */
+    timeoutMs?: number;
+}
+/**
+ * Updated AnalyzeResumeInput with optional LLM support
+ */
+interface AnalyzeResumeInputV2 {
+    resumeText: string;
+    jobDescription: string;
+    config?: ATSConfig;
+    llm?: LLMConfig;
+}
+/**
+ * LLM usage tracking for debugging
+ */
+interface LLMUsageStats {
+    totalCalls: number;
+    totalTokensUsed: number;
+    callsRemaining: number;
+    tokensRemaining: number;
+    features: Partial<Record<keyof LLMFeatures, boolean>>;
+}
+/**
+ * Result of an LLM operation (with fallback info)
+ */
+interface LLMResult<T> {
+    success: boolean;
+    data?: T;
+    fallback: boolean;
+    error?: string;
+    tokensUsed?: number;
+}
+interface ATSBreakdown {
+    skills: number;
+    experience: number;
+    keywords: number;
+    education: number;
+}
+interface AnalyzeResumeInput {
+    resumeText: string;
+    jobDescription: string;
+    config?: ATSConfig;
+    llm?: LLMConfig;
+}
+interface KeywordWeight {
+    term: string;
+    category: KeywordCategory;
+    /** Importance of this term in the job description (location + frequency based). */
+    jdWeight: number;
+    /** How often this term appears in the resume. */
+    resumeWeight: number;
+    /** Alias of jdWeight — how much this term matters for the role. */
+    importance: number;
+}
+interface ATSAnalysisResult {
+    score: number;
+    breakdown: ATSBreakdown;
+    /** Skills found in the resume that satisfy JD + profile requirements. */
+    matchedSkills: string[];
+    /** Required skills absent from the resume. */
+    missingSkills: string[];
+    matchedKeywords: string[];
+    missingKeywords: string[];
+    overusedKeywords: string[];
+    /** Matched/missing keywords grouped by category (technical, tool, concept, soft, marketing, domain). */
+    keywordsByCategory: Record<KeywordCategory, {
+        matched: string[];
+        missing: string[];
+    }>;
+    /** Per-keyword JD importance and resume usage, for callers who want the raw numbers. */
+    keywordWeights: KeywordWeight[];
+    /** Count of resume achievement bullets classified as strong vs weak. */
+    achievementStrength: {
+        strong: number;
+        weak: number;
+    };
+    /** JD-required languages the resume meets or exceeds in proficiency. */
+    matchedLanguages: ParsedLanguage[];
+    /** JD-required languages absent from the resume, or below the required proficiency. */
+    missingLanguages: ParsedLanguage[];
+    suggestions: string[];
+    warnings: string[];
+    /** Years below the JD's minimum experience requirement; 0 when the requirement is met. */
+    experienceGap: number;
+    /** Resume sections the parser successfully detected (e.g. "summary", "skills"). */
+    detectedSections: string[];
+    /** Total years of experience parsed from the resume's date ranges. */
+    parsedExperienceYears: number;
+    /** Parsed experience entries from the resume, with titles and date ranges. */
+    experienceEntries: ParsedExperienceEntry[];
+}
+export type { ATSProfile as A, JSONSchema as J, KeywordRegistry as K, LLMConfig as L, NormalizedWeights as N, ParsedDateRange as P, ResolvedATSConfig as R, SkillAliases as S, LLMResult as a, LLMBudget as b, AnalyzeResumeInput as c, ATSAnalysisResult as d, ATSWeights as e, KeywordCategory as f, KeywordEntry as g, KeywordDensityConfig as h, SectionPenaltyConfig as i, ATSRule as j, ATSConfig as k, RuleContext as l, ResumeSection as m, ParsedExperienceEntry as n, ParsedAchievement as o, ParsedLanguage as p, ParsedResume as q, ParsedJobDescription as r, ATSBreakdown as s, KeywordWeight as t, LLMClient as u, LLMFeatures as v, AnalyzeResumeInputV2 as w, LLMUsageStats as x };