npm - gs-tokenizer - Versions diffs - 0.1.0 - Mend

gs-tokenizer 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

package/README.cn.md ADDED Viewed

@@ -0,0 +1,262 @@
+  # gs-tokenizer - 多语言分词器
+一个功能强大且轻量级的多语言分词器库，为英语、中文、日语和韩语等多种语言提供自然语言处理能力。
+## 文档
+- [English README](README.md)
+- [中文 README](README.cn.md)
+- [日本語 README](README.ja.md)
+- [한국어 README](README.ko.md)
+## 特性
+- **语言支持**：英语、中文、日语、韩语
+- **智能分词**：
+  - 英语：基于词边界的分词
+  - CJK（中文、日语、韩语）：使用浏览器的Intl.Segmenter进行自然分词
+  - 日期：对日期模式的特殊处理
+- **自定义词典**：支持添加带优先级和名称的自定义词语
+- **自动语言检测**：自动检测输入文本的语言
+- **多种输出格式**：获取详细的分词信息或仅获取词语列表
+- **轻量级**：最小依赖，专为浏览器环境设计
+- **快速使用API**：便捷的静态方法，易于集成
+## 安装
+```bash
+yarn add gs-tokenizer
+```
+### 其他安装方式
+```bash
+npm install gs-tokenizer
+```
+## 使用
+### 基本用法
+```javascript
+import { MultilingualTokenizer, createTokenizer } from 'gs-tokenizer';
+// 创建分词器实例
+const tokenizer = new MultilingualTokenizer();
+// 或使用工厂函数
+// const tokenizer = createTokenizer();
+// 分词文本
+const text = 'Hello world! 我爱北京天安门。';
+const tokens = tokenizer.tokenize(text);
+console.log(tokens);
+// 仅获取词语
+const words = tokenizer.tokenizeToText(text);
+console.log(words);
+```
+### 快速使用（推荐）
+quick模块提供了便捷的静态方法，方便快速集成：
+```javascript
+import { tokenize, tokenizeToText, addCustomDictionary } from 'gs-tokenizer';
+// 直接分词，无需创建实例
+const text = 'Hello world! 我爱北京天安门。';
+const tokens = tokenize(text);
+const words = tokenizeToText(text);
+console.log(words);
+// 添加自定义词典
+addCustomDictionary(['人工智能', '技术'], 'zh', 10, 'tech');
+```
+### 高级用法
+#### 使用快速模块加载自定义词典
+```javascript
+import { tokenize, addCustomDictionary } from 'gs-multilingual-tokenizer';
+// 为不同语言加载多个自定义词典
+addCustomDictionary(['人工智能', '机器学习'], 'zh', 10, 'tech');
+addCustomDictionary(['Web3', 'Blockchain'], 'en', 10, 'crypto');
+addCustomDictionary(['アーティフィシャル・インテリジェンス'], 'ja', 10, 'tech-ja');
+// 应用自定义词典进行分词
+const text = '人工智能和Web3是未来的重要技术。アーティフィシャル・インテリジェンスも重要です。';
+const tokens = tokenize(text);
+console.log(tokens.filter(token => token.src === 'tech'));
+```
+#### 不使用内置词库
+```javascript
+import { MultilingualTokenizer } from 'gs-tokenizer';
+// 创建不使用内置词库的分词器
+const tokenizer = new MultilingualTokenizer({
+  customDictionaries: {
+    'zh': [{ priority: 10, data: new Set(['自定义词']), name: 'custom', lang: 'zh' }]
+  }
+});
+// 仅使用自定义词典进行分词
+const text = '这是一个自定义词的示例。';
+const tokens = tokenizer.tokenize(text, 'zh');
+console.log(tokens);
+```
+### 自定义词典
+```javascript
+const tokenizer = new MultilingualTokenizer();
+// 添加带语言、优先级和名称的自定义词语
+tokenizer.addCustomDictionary(['人工智能', '技术'], 'zh', 10, 'tech');
+tokenizer.addCustomDictionary(['Python', 'JavaScript'], 'en', 5, 'programming');
+const text = '我爱人工智能技术和Python编程';
+const tokens = tokenizer.tokenize(text);
+const words = tokenizer.tokenizeToText(text);
+console.log(words); // 应该包含 '人工智能', 'Python'
+// 删除自定义词语
+tokenizer.removeCustomWord('Python', 'en', 'programming');
+```
+### 高级选项
+```javascript
+const tokenizer = createTokenizer({
+  defaultLanguage: 'en',
+  customDictionaries: {
+    'zh': [{
+      priority: 10,
+      data: new Set(['自定义词']),
+      name: 'custom',
+      lang: 'zh'
+    }]
+  }
+});
+// 使用指定语言分词
+const text = '我爱北京天安门';
+const tokens = tokenizer.tokenize(text, 'zh');
+```
+## API 参考
+### `MultilingualTokenizer`
+处理多语言文本处理的主要分词器类。
+#### 构造函数
+```typescript
+import { MultilingualTokenizer, TokenizerOptions } from 'gs-tokenizer';
+new MultilingualTokenizer(options?: TokenizerOptions)
+```
+**选项**：
+- `customDictionaries`: Record<string, LexiconEntry[]> - 每种语言的自定义词典
+- `defaultLanguage`: string - 默认语言代码（默认：'en'）
+#### 方法
+| 方法 | 描述 |
+|------|------|
+| `tokenize(text: string, language?: string): Token[]` | 对输入文本进行分词并返回详细的分词信息 |
+| `tokenizeToText(text: string, language?: string): string[]` | 对输入文本进行分词并仅返回词语列表 |
+| `addCustomDictionary(words: string[], language: string, priority: number, name: string): void` | 向分词器添加自定义词语 |
+| `removeCustomWord(word: string, language?: string, lexiconName?: string): void` | 从分词器中删除自定义词语 |
+### `createTokenizer(options?: TokenizerOptions): MultilingualTokenizer`
+创建一个新的MultilingualTokenizer实例的工厂函数，带有可选配置。
+### 快速使用API
+quick模块提供了便捷的静态方法：
+```typescript
+import { Token } from 'gs-tokenizer';
+// 分词文本
+function tokenize(text: string, language?: string): Token[];
+// 仅分词为文本
+function tokenizeToText(text: string, language?: string): string[];
+// 添加自定义词典
+function addCustomDictionary(words: string[], language: string, priority: number, name: string): void;
+// 删除自定义词语
+function removeCustomWord(word: string, language?: string, lexiconName?: string): void;
+// 设置词典加载的默认语言
+function setDefaultLanguages(languages: string[]): void;
+// 设置词典加载的默认类型
+function setDefaultTypes(types: string[]): void;
+```
+### 类型
+#### `Token` 接口
+```typescript
+interface Token {
+  txt: string;              // 分词文本内容
+  type: 'word' | 'punctuation' | 'space' | 'other' | 'emoji' | 'date';
+  lang?: string;            // 语言代码
+  src?: string;             // 来源（例如：自定义词典名称）
+}
+```
+#### `TokenizerOptions` 接口
+```typescript
+import { LexiconEntry } from 'gs-tokenizer';
+interface TokenizerOptions {
+  customDictionaries?: Record<string, LexiconEntry[]>;
+  granularity?: 'word' | 'grapheme' | 'sentence';
+  defaultLanguage?: string;
+}
+```
+## 浏览器兼容性
+- Chrome/Edge: 87+
+- Firefox: 86+
+- Safari: 14.1+
+注意：对CJK语言使用`Intl.Segmenter`，需要现代浏览器支持。
+## 开发
+### 构建
+```bash
+npm run build
+```
+### 运行测试
+```bash
+npm run test          # 运行所有测试
+npm run test:base     # 运行基础测试
+npm run test:english  # 运行英语特定测试
+npm run test:cjk      # 运行CJK特定测试
+npm run test:mixed    # 运行混合语言测试
+```
+## 许可证
+MIT
+[GitHub 仓库](https://github.com/grain-sand/gs-tokenizer)

package/README.ja.md ADDED Viewed

@@ -0,0 +1,262 @@
+# gs-tokenizer
+英語、中国語、日本語、韓国語など複数の言語に対応した強力で軽量な多言語トークナイザーライブラリです。
+## ドキュメント
+- [English README](README.md)
+- [中文 README](README.cn.md)
+- [日本語 README](README.ja.md)
+- [한국어 README](README.ko.md)
+## 特徴
+- **言語サポート**: 英語、中国語、日本語、韓国語
+- **インテリジェントなトークン化**:
+  - 英語: 単語境界に基づくトークン化
+  - CJK（中国語、日本語、韓国語）: ブラウザのIntl.Segmenterを使用した自然な単語分割
+  - 日付: 日付パターンの特殊処理
+- **カスタム辞書**: 優先度と名前を持つカスタム単語の追加をサポート
+- **自動言語検出**: 入力テキストの言語を自動的に検出
+- **複数の出力形式**: 詳細なトークン情報または単語リストのみを取得
+- **軽量**: 最小限の依存関係で、ブラウザ環境向けに設計
+- **クイック使用API**: 簡単に統合できる便利な静的メソッド
+## インストール
+```bash
+yarn add gs-tokenizer
+```
+### 代替インストール方法
+```bash
+npm install gs-tokenizer
+```
+## 使用方法
+### 基本的な使用方法
+```javascript
+import { MultilingualTokenizer, createTokenizer } from 'gs-tokenizer';
+// トークナイザーインスタンスを作成
+const tokenizer = new MultilingualTokenizer();
+// またはファクトリー関数を使用
+// const tokenizer = createTokenizer();
+// テキストをトークン化
+const text = 'Hello world! 私は北京の天安門が好きです。';
+const tokens = tokenizer.tokenize(text);
+console.log(tokens);
+// 単語トークンのみを取得
+const words = tokenizer.tokenizeToText(text);
+console.log(words);
+```
+### クイック使用（推奨）
+クイックモジュールは、簡単に統合できる便利な静的メソッドを提供します：
+```javascript
+import { tokenize, tokenizeToText, addCustomDictionary } from 'gs-tokenizer';
+// インスタンスを作成せずに直接トークン化
+const text = 'Hello world! 私は北京の天安門が好きです。';
+const tokens = tokenize(text);
+const words = tokenizeToText(text);
+console.log(words);
+// カスタム辞書を追加
+addCustomDictionary(['人工知能', '技術'], 'zh', 10, 'tech');
+```
+### 高度な使用方法
+#### クイックモジュールでカスタム辞書をロード
+```javascript
+import { tokenize, addCustomDictionary } from 'gs-tokenizer';
+// 異なる言語用に複数のカスタム辞書をロード
+addCustomDictionary(['人工知能', '機械学習'], 'zh', 10, 'tech');
+addCustomDictionary(['Web3', 'Blockchain'], 'en', 10, 'crypto');
+addCustomDictionary(['アーティフィシャル・インテリジェンス'], 'ja', 10, 'tech-ja');
+// カスタム辞書を適用してトークン化
+const text = '人工知能とWeb3は未来の重要な技術です。アーティフィシャル・インテリジェンスも重要です。';
+const tokens = tokenize(text);
+console.log(tokens.filter(token => token.src === 'tech'));
+```
+#### 組み込み辞書を使用しない
+```javascript
+import { MultilingualTokenizer } from 'gs-tokenizer';
+// 組み込み辞書を使用しないトークナイザーを作成
+const tokenizer = new MultilingualTokenizer({
+  customDictionaries: {
+    'ja': [{ priority: 10, data: new Set(['カスタム単語']), name: 'custom', lang: 'ja' }]
+  }
+});
+// カスタム辞書のみを使用してトークン化
+const text = 'これはカスタム単語の例です。';
+const tokens = tokenizer.tokenize(text, 'ja');
+console.log(tokens);
+```
+### カスタム辞書
+```javascript
+const tokenizer = new MultilingualTokenizer();
+// 言語、優先度、名前を指定してカスタム単語を追加
+okenizer.addCustomDictionary(['人工知能', '技術'], 'zh', 10, 'tech');
+okenizer.addCustomDictionary(['Python', 'JavaScript'], 'en', 5, 'programming');
+const text = '私は人工知能技術とPythonプログラミングが好きです';
+const tokens = tokenizer.tokenize(text);
+const words = tokenizer.tokenizeToText(text);
+console.log(words); // '人工知能', 'Python' が含まれるはず
+// カスタム単語を削除
+okenizer.removeCustomWord('Python', 'en', 'programming');
+```
+### 高度なオプション
+```javascript
+const tokenizer = createTokenizer({
+  defaultLanguage: 'ja',
+  customDictionaries: {
+    'ja': [{
+      priority: 10,
+      data: new Set(['カスタム単語']),
+      name: 'custom',
+      lang: 'ja'
+    }]
+  }
+});
+// 指定した言語でトークン化
+const text = '私は北京の天安門が好きです';
+const tokens = tokenizer.tokenize(text, 'zh');
+```
+## API リファレンス
+### `MultilingualTokenizer`
+多言語テキスト処理を処理する主要なトークナイザークラスです。
+#### コンストラクタ
+```typescript
+import { MultilingualTokenizer, TokenizerOptions } from 'gs-tokenizer';
+new MultilingualTokenizer(options?: TokenizerOptions)
+```
+**オプション**:
+- `customDictionaries`: Record<string, LexiconEntry[]> - 各言語のカスタム辞書
+- `defaultLanguage`: string - デフォルトの言語コード（デフォルト: 'en'）
+#### メソッド
+| メソッド | 説明 |
+|------|------|
+| `tokenize(text: string, language?: string): Token[]` | 入力テキストをトークン化し、詳細なトークン情報を返します |
+| `tokenizeToText(text: string, language?: string): string[]` | 入力テキストをトークン化し、単語リストのみを返します |
+| `addCustomDictionary(words: string[], language: string, priority: number, name: string): void` | トークナイザーにカスタム単語を追加します |
+| `removeCustomWord(word: string, language?: string, lexiconName?: string): void` | トークナイザーからカスタム単語を削除します |
+### `createTokenizer(options?: TokenizerOptions): MultilingualTokenizer`
+オプションの設定で新しいMultilingualTokenizerインスタンスを作成するファクトリー関数です。
+### クイック使用API
+クイックモジュールは便利な静的メソッドを提供します：
+```typescript
+import { Token } from 'gs-tokenizer';
+// テキストをトークン化
+function tokenize(text: string, language?: string): Token[];
+// テキストのみをトークン化
+function tokenizeToText(text: string, language?: string): string[];
+// カスタム辞書を追加
+function addCustomDictionary(words: string[], language: string, priority: number, name: string): void;
+// カスタム単語を削除
+function removeCustomWord(word: string, language?: string, lexiconName?: string): void;
+// 辞書ロードのデフォルト言語を設定
+function setDefaultLanguages(languages: string[]): void;
+// 辞書ロードのデフォルトタイプを設定
+function setDefaultTypes(types: string[]): void;
+```
+### 型
+#### `Token` インターフェース
+```typescript
+interface Token {
+  txt: string;              // トークンテキスト内容
+  type: 'word' | 'punctuation' | 'space' | 'other' | 'emoji' | 'date';
+  lang?: string;            // 言語コード
+  src?: string;             // ソース（例：カスタム辞書名）
+}
+```
+#### `TokenizerOptions` インターフェース
+```typescript
+import { LexiconEntry } from 'gs-tokenizer';
+interface TokenizerOptions {
+  customDictionaries?: Record<string, LexiconEntry[]>;
+  granularity?: 'word' | 'grapheme' | 'sentence';
+  defaultLanguage?: string;
+}
+```
+## ブラウザ互換性
+- Chrome/Edge: 87+
+- Firefox: 86+
+- Safari: 14.1+
+注：CJK言語には`Intl.Segmenter`を使用しているため、現代のブラウザーのサポートが必要です。
+## 開発
+### ビルド
+```bash
+npm run build
+```
+### テストの実行
+```bash
+npm run test          # すべてのテストを実行
+npm run test:base     # 基本テストを実行
+npm run test:english  # 英語固有のテストを実行
+npm run test:cjk      # CJK固有のテストを実行
+npm run test:mixed    # 混合言語のテストを実行
+```
+## ライセンス
+MIT
+[GitHub Repository](https://github.com/grain-sand/gs-tokenizer)