npm - yukichant - Versions diffs - 3.1.0 → 4.1.0 - Mend

yukichant 3.1.0 → 4.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (38) hide show

package/package.json +12 -2
package/src/browser.js +3 -3
package/src/cli.js +2 -2
package/src/index.js +0 -3
package/src/logger.js +1 -3
package/src/typo-correction.js +57 -31
package/.cursor/rules +0 -58
package/.husky/commit-msg +0 -2
package/.releaserc.json +0 -25
package/AGENTS.md +0 -505
package/CHANGELOG.md +0 -23
package/__tests__/cli.js +0 -20
package/__tests__/data.js +0 -41
package/__tests__/fuzzy-kanji-match.js +0 -33
package/__tests__/index.js +0 -42
package/__tests__/machine-encrypt.js +0 -49
package/__tests__/typo-correction.js +0 -56
package/benchmark/CHATGPT_BENCHMARK.md +0 -90
package/benchmark/README.md +0 -99
package/benchmark/magi_ocr_data/README.md +0 -53
package/benchmark/magi_ocr_data/dataset.tsv +0 -836
package/benchmark/results/.gitkeep +0 -0
package/benchmark/results/summary/latest_comparison.tsv +0 -9
package/benchmark/scripts/compare-algorithms.js +0 -54
package/benchmark/scripts/compare-and-report.js +0 -35
package/benchmark/scripts/generate-report.js +0 -324
package/benchmark/scripts/prompt-template.txt +0 -118
package/benchmark/scripts/run-accuracy-test.js +0 -155
package/benchmark/scripts/run-chatgpt-test.js +0 -284
package/commitlint.config.js +0 -20
package/doc/develop.md +0 -108
package/doc/typo-correction-algorithm.md +0 -79
package/jest.config.cjs +0 -185
package/raw_data/json_generator +0 -49
package/raw_data/meisi_json_generator +0 -53
package/raw_data/spell.txt +0 -1011
package/raw_data/spell_NG_word.txt +0 -4
package/test_data/help_message.js +0 -19

package/package.json CHANGED Viewed

@@ -1,9 +1,12 @@
 {
   "name": "yukichant",
-  "version": "3.1.0",
+  "version": "4.1.0",
   "description": "",
   "license": "Apache-2.0",
-  "repository": "amanoese/yukichant",
+  "repository": {
+    "type": "git",
+    "url": "git+https://github.com/amanoese/yukichant.git"
+  },
   "author": "Seito Taka",
   "main": "src/node.js",
   "exports": {
@@ -45,6 +48,7 @@
   },
   "dependencies": {
     "commander": "^8.3.0",
+    "diff": "^8.0.3",
     "fastest-levenshtein": "^1.0.16",
     "get-stdin": "^9.0.0",
     "kuromoji": "^0.1.2",
@@ -53,6 +57,12 @@
     "picocolors": "^1.0.0",
     "yukidic": "git+https://github.com/amanoese/yukidic.git"
   },
+  "files": [
+    "src/",
+    "data/",
+    "README.md",
+    "LICENSE"
+  ],
   "keywords": [
     "cli",
     "terminal",

package/src/browser.js CHANGED Viewed

@@ -33,7 +33,7 @@ const KANJIVG_RADICAL_REPO = 'yagays/kanjivg-radical'
  * @param {string} [version] - yukichantのリリースタグ（省略時はパッケージバージョン）
  * @returns {Object} 各データのURL
  */
-function getDefaultUrls(version = pkg.version) {
+function getDefaultUrls(version = `v${pkg.version}`) {
   return {
     dataBaseUrl: `${GITHUB_RAW_BASE}/${YUKICHANT_REPO}/${version}/data`,
     dicPath: `${GITHUB_RAW_BASE}/${YUKIDIC_REPO}/master/dic/`,
@@ -91,8 +91,8 @@ export async function initBrowser({
   ])
   if (!TfIdf) {
-    const natural = await import('natural')
-    TfIdf = natural.default.TfIdf
+    const tfidfModule = await import('natural/lib/natural/tfidf/index.js')
+    TfIdf = tfidfModule.TfIdf
   }
   initFuzzyKanjiMatch({ meisi, dousi, kanji2element, TfIdf })

package/src/cli.js CHANGED Viewed

@@ -14,8 +14,8 @@ program
 .version(version)
 .argument('[text]','input text','')
 .option('-d','decode flag')
-.option('-s','strict decode mode flag')
-.option('--no-tfidf','disable tfidf mode flag when strict decode mode flag is enabled')
+.option('-s','disable typo correction (strict decode mode)')
+.option('--no-tfidf','disable tfidf mode for typo correction')
 .option('--levenshtein','use Levenshtein distance algorithm instead of Jaro-Winkler')
 .option('-v','verbose mode flag')
 .option('-vv','more verbose') // なぜかVv

package/src/index.js CHANGED Viewed

@@ -1,6 +1,4 @@
 import simpleEnigma from './machine-encrypt.js'
-import log from './logger.js'
 export let default_encoder = (uint8text,{ meisi, dousi }) => {
   //機械式暗号（ロータ型）の仕組みを利用したスクランブラーを配置
@@ -71,7 +69,6 @@ export let default_decoder = (typoCorrection) => async (encodeText,option = {} ,
     cleanEncodeText = typoCorrection.exec(cleanEncodeText,option)
   }
-  log.debug('修正後のテキスト:', cleanEncodeText)
   // デコード用の正規表現に変換。
   // ex: /さざ波|その者|ほうき星よ/g
   let decodeRegExp = new RegExp(Object.keys(decodeHash).join('|'),'g')

package/src/logger.js CHANGED Viewed

@@ -6,9 +6,7 @@ log.setLevel('warn');
 // CLIオプションからログレベルを設定する関数
 export function setLogLevel(option) {
   if (option.Vv) {
-    log.setLevel('trace'); // 最も詳細
-  } else if (option.v) {
-    log.setLevel('debug'); // デバッグ情報
+    log.setLevel('debug'); // アルゴリズム詳細を表示
   } else {
     log.setLevel('warn');  // 通常は警告とエラーのみ
   }

package/src/typo-correction.js CHANGED Viewed

@@ -1,9 +1,28 @@
 import { distance, closest } from 'fastest-levenshtein';
+import { diffChars } from 'diff';
 import { JaroWinklerDistance } from './jaro-winkler.js';
 import log from './logger.js';
+import pc from 'picocolors';
 const jaroWinkler = new JaroWinklerDistance();
+function colorDiffLines(oldStr, newStr) {
+  const parts = diffChars(oldStr, newStr);
+  let origLine = '';
+  let fixLine = '';
+  for (const part of parts) {
+    if (part.added) {
+      fixLine += pc.green(pc.bold(part.value));
+    } else if (part.removed) {
+      origLine += pc.red(pc.strikethrough(part.value));
+    } else {
+      origLine += pc.dim(part.value);
+      fixLine += pc.dim(part.value);
+    }
+  }
+  return { origLine, fixLine };
+}
 let tokenizer = null;
 let fkm = null;
@@ -183,11 +202,11 @@ const exec = (text, option = { is_tfidf: false, v: false, Vv: false, Levenshtein
     return text;
   }
-  log.trace('☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆');
-  log.trace('ntokens', ntokens.filter((token) => token.pos !== '記号'));
-  log.trace('☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆');
-  log.trace('ptokens', ptokens);
-  log.trace('☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆');
+  log.debug('----------------------------------');
+  log.debug('ntokens', ntokens.filter((token) => token.pos !== '記号'));
+  log.debug('----------------------------------');
+  log.debug('ptokens', ptokens);
+  log.debug('----------------------------------');
   let fixTokens = organizeUnknownTokens(ntokens, option);
   let fixedTokens = fixTokens
@@ -196,38 +215,45 @@ const exec = (text, option = { is_tfidf: false, v: false, Vv: false, Levenshtein
     .map((token) => {
       // 。で終わる文は、。を削除して修正する
       let fixText = token.v.replace(/。$/, '');
+      const originalText = fixText;
       if (option.is_tfidf === true) {
         fixText = nearTokenMatch(fixText, option);
-        log.debug('fixText', fixText);
       } else {
         fixText = findClosestWord(fixText, fkm.allWord, option.Levenshtein, option);
       }
+      if (originalText !== fixText) {
+        const { origLine, fixLine } = colorDiffLines(originalText, fixText);
+        log.debug('----------------------------------');
+        log.debug(origLine);
+        log.debug(fixLine);
+        log.debug('----------------------------------');
+      }
       return { ...token, v: fixText };
     });
   let fixedTextTokens = [...ptokens, ...fixedTokens].sort((a, b) => a.i - b.i);
-  if (option.v) {
-    // デバッグオプションで修正前後の文字列を表示する
-    let originalText = '';
-    let fixedText = '';
-      fixedTextTokens
-        .forEach((token) => {
-          const textWidth = Math.max((token.old||"").length, token.v.length);
-          if (token.old) {
-            originalText += token.old.padEnd(textWidth, '　')
-            fixedText += token.v.padEnd(textWidth, '　')
-          } else {
-            originalText += token.v.padEnd(textWidth, '　')
-            fixedText += token.v.padEnd(textWidth, ' 　')
-          }
-        });
-    console.error(originalText);
-    console.error(fixedText);
-    // 正規化された文字列をもとの文字列
-    console.error()
+  const hasChanges = fixedTextTokens.some((token) => token.old && token.old !== token.v);
+  if (hasChanges) {
+    const diffs = fixedTextTokens.map((token) => ({
+      old: token.old || token.v,
+      fixed: token.v,
+      changed: !!(token.old && token.old !== token.v),
+    }));
+    if (typeof option.onDiff === 'function') {
+      option.onDiff(diffs);
+    }
+    if (option.v) {
+      const oldText = diffs.map(d => d.old).join('');
+      const fixedText = diffs.map(d => d.fixed).join('');
+      const { origLine, fixLine } = colorDiffLines(oldText, fixedText);
+      console.error(origLine);
+      console.error(fixLine);
+    }
+  } else if (typeof option.onDiff === 'function') {
+    option.onDiff(null);
   }
   let fixedText = fixedTextTokens.map((token) => token.v).join('');
@@ -235,7 +261,7 @@ const exec = (text, option = { is_tfidf: false, v: false, Vv: false, Levenshtein
 };
 const nearTokenMatch = (tokenStr, option = { isJaroWinklerDistance: false, v: false, Vv: false, Levenshtein: false }) => {
-  log.trace('tokenStr', tokenStr);
+  log.debug('tokenStr', tokenStr);
   let tokens = [...tokenStr];
   let bestMatch = null;
@@ -248,7 +274,7 @@ const nearTokenMatch = (tokenStr, option = { isJaroWinklerDistance: false, v: fa
   for (let i = 0; i < tokens.length; i++) {
     let kanji = tokens[i];
     if (fkm.han.test(kanji)) {
-      log.trace('kanji', fkm.maxTfidfSocres(kanji));
+      log.debug('kanji', fkm.maxTfidfSocres(kanji));
       let bestKanji = kanji;
       let bestLocalDistance = Infinity;
@@ -265,7 +291,7 @@ const nearTokenMatch = (tokenStr, option = { isJaroWinklerDistance: false, v: fa
         // 置き換えた後の文字列と最適なマッチの距離を計算
         let d = calculateSimilarity(testText, bestMatchLocal, option.Levenshtein);
-        log.trace({
+        log.debug({
           'd'          : d,
           'bestLocalDistance': bestLocalDistance,
           'testText'   : testText,
@@ -318,7 +344,7 @@ const organizeUnknownTokens = (ntokens, option = { v: false, Vv: false }) => {
       adverb = true;
     }
-    log.trace(
+    log.debug(
       token.surface_form,
       token.pos,
       token.pos_detail_1,

package/.cursor/rules DELETED Viewed

@@ -1,58 +0,0 @@
-# yukichant プロジェクトルール
-## 言語設定
-**このプロジェクトでは、すべてのコミュニケーションを日本語で行ってください。**
-- すべての説明・応答は日本語で記述する
-- コミットメッセージは日本語で記述する
-- コードコメントは日本語で記述する
-- レビューコメントは日本語で記述する
-- エラーメッセージの説明は日本語で記述する
-## コミットメッセージフォーマット
-コミットメッセージは以下のフォーマットで記述してください：
-```
-[種別] 簡潔な説明
-```
-### 種別の例
-- `[feat]`: 新機能追加
-- `[fix]`: バグ修正
-- `[perf]`: パフォーマンス改善
-- `[refactor]`: コード整理
-- `[test]`: テスト追加/修正
-- `[docs]`: ドキュメント更新
-- `[deps]`: 依存関係の更新
-- `[chore]`: その他の変更
-### 例
-```
-[feat] Levenshtein距離アルゴリズムを追加
-[fix] デコード時の形態素解析エラーを修正
-[docs] 誤字修正アルゴリズムの使い方を追加
-[refactor] 類似度計算処理を関数化
-[test] typo-correctionのテストケースを追加
-```
-## コーディング規約
-- ES Modules（`import`/`export`）を使用
-- 非同期処理は`async`/`await`を使用
-- 関数型プログラミングスタイル（`map`, `filter`, `reduce`を活用）
-- Unicode正規表現（`\p{scx=Han}`など）を積極的に使用
-## プロジェクト概要
-yukichantは、テキストを日本語の詠唱呪文に変換し、元に戻すことができるNode.js製CLIツールです。
-### 主要コンポーネント
-- `src/index.js`: エンコード/デコードのコアロジック
-- `src/typo-correction.js`: 誤字修正機能（Jaro-Winkler / Levenshtein）
-- `src/machine-encrypt.js`: ローター型暗号実装
-- `data/meisi.json`, `data/dousi.json`: 名詞・動詞辞書
-詳細は `AGENTS.md` を参照してください。

package/.husky/commit-msg DELETED Viewed

	@@ -1,2 +0,0 @@
1	- [ "$CI" = "true" ] && exit 0
2	- npx --no -- commitlint --edit $1

package/.releaserc.json DELETED Viewed

@@ -1,25 +0,0 @@
-{
-  "branches": ["master"],
-  "plugins": [
-    ["@semantic-release/commit-analyzer", {
-      "preset": "conventionalcommits",
-      "releaseRules": [
-        { "type": "feat", "release": "minor" },
-        { "type": "fix", "release": "patch" },
-        { "type": "perf", "release": "patch" },
-        { "type": "refactor", "release": "patch" },
-        { "type": "revert", "release": "patch" }
-      ]
-    }],
-    ["@semantic-release/release-notes-generator", {
-      "preset": "conventionalcommits"
-    }],
-    "@semantic-release/changelog",
-    "@semantic-release/npm",
-    ["@semantic-release/git", {
-      "assets": ["package.json", "CHANGELOG.md"],
-      "message": "[release] ${nextRelease.version}"
-    }],
-    "@semantic-release/github"
-  ]
-}