RubyGems - llm_translate - Versions diffs - 0.1.0 → 0.2.0 - Mend

llm_translate 0.1.0 → 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

checksums.yaml +4 -4
data/README.md +0 -5
data/README.zh.md +148 -61
data/content/llm_translate.yml +1 -6
data/lib/llm_translate/ai_client.rb +3 -3
data/lib/llm_translate/config.rb +0 -13
data/lib/llm_translate/translator_engine.rb +1 -140
data/lib/llm_translate/version.rb +1 -1
data/llm_translate.yml +1 -6
data/test_llm_translate.yml +1 -5
data/test_new_config.yml +1 -6
metadata +1 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 584007a41c9b59041a1ecd9e42c96231c66fdc606edb19567c58fd342d838a15
-  data.tar.gz: 1b9afce81578be82bcfd4f81a7fa6050073d9eef8848a7ee43ef9110b38ead94
+  metadata.gz: c1231cf03fe5984a00c4bccf9596b2255dd83c4852bac5bd554068e3853f1fad
+  data.tar.gz: 208488f548d281ae103eb10ad3790201c41a62cff8acb0b24c36e786181da3ed
 SHA512:
-  metadata.gz: a959c5dfcf20bfc2bc94f787cf8c3e49ee75417a5be461a0b2650d023ce964670dd566e118e764b3152c3afdc2a22d2ac33605fdfca7909e55848e0761b0515c
-  data.tar.gz: d56df324476f82d6deb7e4b28bba026349661e4b5c389e1068e09dae36ecae7c38a8d38cee8cbfa861c686db3f063f3715cc0c18430e462d86f4ebf69079ce72
+  metadata.gz: bc4713b2292f56da626f79beafda11144a45f8fc84ed660f4f333afa2cf93b592285bb74b5746cb2610cf5bf41c81006ffb8ad648c6784365692404e4ff56495
+  data.tar.gz: 0f618ca45a6b97cf3fed6410d2dcf73bd80fd17abc0e91c443110021da5da0b484945b45f9813ef46aa671714c821ad1aa73f51530165cc9eceea437b32ed3e3

data/README.md CHANGED Viewed

@@ -177,11 +177,6 @@ translation:
   default_prompt: "Your custom prompt with {content} placeholder"
   preserve_formatting: true
   translate_code_comments: false
-  preserve_patterns:
-    - "```[\\s\\S]*?```"    # Code blocks
-    - "`[^`]+`"              # Inline code
-    - "\\[.*?\\]\\(.*?\\)"   # Links
-    - "!\\[.*?\\]\\(.*?\\)"  # Images
 # File Processing
 files:

data/README.zh.md CHANGED Viewed

@@ -1,21 +1,21 @@
 # LlmTranslate
-一个由AI驱动的Markdown翻译器，能够在翻译内容时保持格式不变，同时使用各种AI提供者。
+AI 驱动的 Markdown 翻译工具，可在使用各种 AI 提供商翻译内容时保留格式。
-## 特性
+## 功能特性
-- 🤖 **AI驱动的翻译**：支持OpenAI、Anthropic和Ollama
-- 📝 **Markdown格式保留**：保持代码块、链接、图像和格式不变
-- 🔧 **灵活配置**：基于YAML的配置，支持环境变量
+- 🤖 **AI 驱动翻译**：支持 OpenAI、Anthropic 和 Ollama
+- 📝 **Markdown 格式保留**：保持代码块、链接、图片和格式完整
+- 🔧 **灵活配置**：基于 YAML 的配置，支持环境变量
 - 📁 **批量处理**：递归处理整个目录结构
-- 🚀 **CLI接口**：易于使用的命令行接口，使用Thor
-- 📊 **进度跟踪**：内置日志记录和报告
-- ⚡ **错误处理**：强大的错误处理机制，带有重试机制
+- 🚀 **CLI 界面**：使用 Thor 的易用命令行界面
+- 📊 **进度跟踪**：内置日志记录和报告功能
+- ⚡ **错误处理**：带有重试机制的强大错误处理
 - 🎯 **可定制**：自定义提示、文件模式和输出策略
 ## 安装
-将此行添加到您应用程序的Gemfile中：
+将以下行添加到您应用程序的 Gemfile 中：
 ```ruby
 gem 'llm_translate'
@@ -27,15 +27,15 @@ gem 'llm_translate'
 bundle install
 ```
-或者您也可以自己安装：
+或者自行安装：
 ```bash
 gem install llm_translate
 ```
-## 依赖
+## 依赖项
-该gem需要`rubyllm` gem进行AI集成：
+该 gem 需要 `rubyllm` gem 进行 AI 集成：
 ```bash
 gem install rubyllm
@@ -48,22 +48,22 @@ gem install rubyllm
    llm_translate init
    ```
-2. **设置您的API密钥**：
+2. **设置您的 API 密钥**：
    ```bash
    export LLM_TRANSLATE_API_KEY="your-api-key-here"
    ```
-3. **翻译您的markdown文件**：
+3. **翻译您的 markdown 文件**：
    ```bash
-   llm_translate translate --config ./translator.yml
+   llm_translate translate --config ./llm_translate.yml
    ```
 ## 配置
-翻译器使用YAML配置文件。以下是一个最小示例：
+翻译器使用 YAML 配置文件。这是一个最小示例：
 ```yaml
-# translator.yml
+# llm_translate.yml
 ai:
   api_key: ${LLM_TRANSLATE_API_KEY}
   provider: "openai"
@@ -91,7 +91,7 @@ logging:
   output: "console"
 ```
-### AI提供者
+### AI 提供商
 #### OpenAI
 ```yaml
@@ -109,101 +109,188 @@ ai:
   model: "claude-3-sonnet-20240229"
 ```
-#### Ollama（本地）
-```bash
-bundle install
-```0
+#### Ollama (本地)
+```yaml
+ai:
+  provider: "ollama"
+  model: "llama2"
+  # 如果不使用默认设置，请设置 OLLAMA_HOST 环境变量
+```
-## 使用
+## 使用方法
 ### 基本翻译
 #### 目录模式（默认）
 ```bash
-bundle install
-```1
+llm_translate translate --config ./llm_translate.yml
+```
 #### 单文件模式
-要翻译单个文件，请在配置中设置`input_file```bash
-   llm_translate init
-   ```7output_file`：
+要翻译单个文件，请在配置中设置 `input_file` 和 `output_file`：
-```bash
-bundle install
-```2
+```yaml
+files:
+  # 单文件模式
+  input_file: "./README.md"
+  output_file: "./README.zh.md"
+```
-当同时指定`input_file```bash
-   llm_translate init
-   ```7output_file`时，翻译器将以单文件模式运行，忽略与目录相关的设置。
+当同时指定 `input_file` 和 `output_file` 时，翻译器将以单文件模式运行，忽略与目录相关的设置。
 ### 命令行选项
 ```bash
-bundle install
-```3
+llm_translate translate [OPTIONS]
+Options:
+  -c, --config PATH      配置文件路径（默认：./llm_translate.yml）
+  -i, --input PATH       输入目录（覆盖配置）
+  -o, --output PATH      输出目录（覆盖配置）
+  -p, --prompt TEXT      自定义翻译提示（覆盖配置）
+  -v, --verbose          启用详细输出
+  -d, --dry-run          执行试运行，不进行实际翻译
+Other Commands:
+  llm_translate init        初始化新的配置文件
+  llm_translate version     显示版本信息
+```
 ### 配置文件结构
-```bash
-bundle install
-```4[\s\S]*?```bash
-bundle install
-```5
+```yaml
+# AI 配置
+ai:
+  api_key: ${LLM_TRANSLATE_API_KEY}
+  provider: "openai"  # openai, anthropic, ollama
+  model: "gpt-4"
+  temperature: 0.3
+  max_tokens: 4000
+  retry_attempts: 3
+  retry_delay: 2
+  timeout: 60
+# 翻译设置
+translation:
+  target_language: "zh-CN"
+  source_language: "auto"
+  default_prompt: "您的自定义提示，包含 {content} 占位符"
+  preserve_formatting: true
+  translate_code_comments: false
+# 文件处理
+files:
+  input_directory: "./docs"
+  output_directory: "./docs-translated"
+  filename_strategy: "suffix"  # suffix, replace, directory
+  filename_suffix: ".zh"
+  include_patterns:
+    - "**/*.md"
+    - "**/*.markdown"
+  exclude_patterns:
+    - "**/node_modules/**"
+    - "**/.*"
+  preserve_directory_structure: true
+  overwrite_policy: "ask"  # ask, overwrite, skip, backup
+  backup_directory: "./backups"
+# 日志记录
+logging:
+  level: "info"  # debug, info, warn, error
+  output: "console"  # console, file, both
+  file_path: "./logs/translator.log"
+  verbose_translation: false
+  error_log_path: "./logs/errors.log"
+# 错误处理
+error_handling:
+  on_error: "log_and_continue"  # stop, log_and_continue, skip_file
+  max_consecutive_errors: 5
+  retry_on_failure: 2
+  generate_error_report: true
+  error_report_path: "./logs/error_report.md"
+# 性能
+performance:
+  concurrent_files: 3
+  batch_size: 5
+  request_interval: 1  # 请求之间的秒数
+  max_memory_mb: 500
+# 输出
+output:
+  show_progress: true
+  show_statistics: true
+  generate_report: true
+  report_path: "./reports/translation_report.md"
+  format: "markdown"
+  include_metadata: true
+```
 ## 示例
 ### 翻译文档
 ```bash
-bundle install
-```6
+# 将 ./docs 中的所有 markdown 文件翻译为中文
+llm_translate translate --input ./docs --output ./docs-zh
+# 使用自定义提示
+llm_translate translate --prompt "翻译以下内容为中文，保持技术术语不变: {content}"
+# 试运行以查看将要翻译的内容
+llm_translate translate --dry-run --verbose
+```
 ### 批量翻译
 ```bash
-bundle install
-```7
+# 翻译多种语言版本
+for lang in zh-CN ja-JP ko-KR; do
+  llm_translate translate --config "./configs/llm_translate-${lang}.yml"
+done
+```
 ## 开发
-克隆代码库后，运行：
+检出仓库后，运行：
 ```bash
 bundle install
 ```
-要运行测试：
+运行测试：
 ```bash
-bundle install
-```9
+bundle exec rspec
+```
-要运行代码检查：
+运行代码检查：
 ```bash
-gem install llm_translate
-```0
+bundle exec rubocop
+```
-要将此gem安装到您的本地机器上：
+将此 gem 安装到您的本地机器：
 ```bash
-gem install llm_translate
-```1
+bundle exec rake install
+```
 ## 贡献
-欢迎在GitHub上提交错误报告和拉取请求，地址为 https://github.com/translator/translator。
+欢迎在 GitHub 上提交错误报告和拉取请求：https://github.com/llm_translate/llm_translate。
 ## 许可证
-该gem在[MIT许可证](https://opensource.org/licenses/MIT)条款下作为开源软件提供。
+该 gem 根据 [MIT 许可证](https://opensource.org/licenses/MIT) 的条款作为开源软件提供。
 ## 更新日志
 ### v0.1.0
-- 初始发布
-- 支持OpenAI、Anthropic和Ollama提供者
-- Markdown格式保留
+- 初始版本
+- 支持 OpenAI、Anthropic 和 Ollama 提供商
+- Markdown 格式保留
 - 可配置的翻译提示
 - 批量文件处理
-- 综合的错误处理和日志记录
+- 全面的错误处理和日志记录

data/content/llm_translate.yml CHANGED Viewed

@@ -50,12 +50,7 @@ translation:
   # 是否翻译代码注释
   translate_code_comments: false
-  # 需要保留不翻译的内容模式
-  preserve_patterns:
-    - "```[\\s\\S]*?```"  # 代码块
-    - "`[^`]+`"            # 行内代码
-    - "\\[.*?\\]\\(.*?\\)" # 链接
-    - "!\\[.*?\\]\\(.*?\\)" # 图片
 # 文件处理配置
 files:

data/lib/llm_translate/ai_client.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 require 'ruby_llm'
+# require 'pry'
 module LlmTranslate
   class AiClient
     attr_reader :config, :logger
@@ -56,16 +58,14 @@ module LlmTranslate
     def configure_ruby_llm
       RubyLLM.configure do |config_obj|
-        # For aihubmix.com or any custom host, use OpenAI-compatible API
         config_obj.openai_api_key = config.api_key
         config_obj.openai_api_base = config.ai_host
-        config_obj.default_model = config.ai_model
       end
     end
     def make_request(prompt)
       chat = RubyLLM.chat
-                    .with_model(config.ai_model)
+                    .with_model(config.ai_model, assume_exists: true, provider: config.ai_provider)
                     .with_temperature(config.temperature)
       response = chat.ask(prompt)

data/lib/llm_translate/config.rb CHANGED Viewed

@@ -75,10 +75,6 @@ module LlmTranslate
       data.dig('translation', 'translate_code_comments') == true
     end
-    def preserve_patterns
-      data.dig('translation', 'preserve_patterns') || default_preserve_patterns
-    end
     # File Configuration
     def input_directory
       cli_options[:input] || data.dig('files', 'input_directory') || './docs'
@@ -266,14 +262,5 @@ module LlmTranslate
         {content}
       PROMPT
     end
-    def default_preserve_patterns
-      [
-        '```[\\s\\S]*?```',      # Code blocks
-        '`[^`]+`',               # Inline code
-        '\\[.*?\\]\\(.*?\\)',    # Links
-        '!\\[.*?\\]\\(.*?\\)'    # Images
-      ]
-    end
   end
 end

data/lib/llm_translate/translator_engine.rb CHANGED Viewed

@@ -87,147 +87,8 @@ module LlmTranslate
     end
     def translate_with_format_preservation(content)
-      # Extract and preserve special markdown elements
-      preserved_elements = extract_preserved_elements(content)
-      # Replace preserved elements with placeholders
-      content_with_placeholders = replace_with_placeholders(content, preserved_elements)
       # Translate the content with placeholders
-      translated_content = ai_client.translate(content_with_placeholders)
-      # Restore preserved elements
-      restore_preserved_elements(translated_content, preserved_elements)
-    end
-    def extract_preserved_elements(content)
-      preserved = {}
-      pattern_index = 0
-      config.preserve_patterns.each do |pattern|
-        regex = Regexp.new(pattern, Regexp::MULTILINE)
-        content.scan(regex) do |match|
-          # Handle both single match and capture groups
-          match_text = match.is_a?(Array) ? match[0] : match
-          placeholder = "PRESERVED_ELEMENT_#{pattern_index}"
-          preserved[placeholder] = match_text
-          pattern_index += 1
-        end
-      end
-      preserved
-    end
-    def replace_with_placeholders(content, preserved_elements)
-      result = content.dup
-      preserved_elements.each do |placeholder, original_text|
-        # Escape special regex characters in the original text
-        escaped_text = Regexp.escape(original_text)
-        result = result.gsub(Regexp.new(escaped_text), placeholder)
-      end
-      result
-    end
-    def restore_preserved_elements(translated_content, preserved_elements)
-      result = translated_content.dup
-      preserved_elements.each do |placeholder, original_text|
-        result = result.gsub(placeholder, original_text)
-      end
-      result
-    end
-    # Additional helper methods for handling special cases
-    def split_large_content(content, max_size = 3000)
-      # Split content into chunks if it's too large for the AI model
-      return [content] if content.length <= max_size
-      chunks = []
-      lines = content.split("\n")
-      current_chunk = ''
-      lines.each do |line|
-        # If adding this line would exceed the limit, start a new chunk
-        if "#{current_chunk}#{line}\n".length > max_size && !current_chunk.empty?
-          chunks << current_chunk.strip
-          current_chunk = "#{line}\n"
-        else
-          current_chunk += "#{line}\n"
-        end
-      end
-      # Add the last chunk if it's not empty
-      chunks << current_chunk.strip unless current_chunk.strip.empty?
-      chunks
-    end
-    def translate_large_content(content)
-      chunks = split_large_content(content)
-      return ai_client.translate(content) if chunks.length == 1
-      logger.info "Splitting large content into #{chunks.length} chunks"
-      translated_chunks = chunks.map.with_index do |chunk, index|
-        logger.debug "Translating chunk #{index + 1}/#{chunks.length}"
-        translated = ai_client.translate(chunk)
-        # Add delay between chunks to avoid rate limiting
-        sleep(config.request_interval) if config.request_interval.positive? && index < chunks.length - 1
-        translated
-      end
-      translated_chunks.join("\n\n")
-    end
-    def detect_language(content)
-      # Simple language detection based on content
-      # This is a basic implementation - could be enhanced with a proper language detection library
-      # Check for common English words
-      english_indicators = %w[the and or but with from this that these those]
-      chinese_indicators = %w[的 在 是 和 或者 但是 这 那]
-      english_score = english_indicators.count { |word| content.downcase.include?(word) }
-      chinese_score = chinese_indicators.count { |word| content.include?(word) }
-      if chinese_score > english_score
-        'zh'
-      elsif english_score.positive?
-        'en'
-      else
-        config.source_language
-      end
-    end
-    def should_translate_content?(content)
-      # Skip translation if content is mostly code or already in target language
-      # Skip if content is mostly code blocks
-      code_block_pattern = /```[\s\S]*?```/m
-      code_blocks = content.scan(code_block_pattern)
-      code_length = code_blocks.join.length
-      if code_length > content.length * 0.8
-        logger.debug 'Skipping translation: content is mostly code blocks'
-        return false
-      end
-      # Skip if content is very short
-      if content.strip.length < 10
-        logger.debug 'Skipping translation: content too short'
-        return false
-      end
-      true
+      ai_client.translate(content)
     end
   end
 end

data/lib/llm_translate/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module LlmTranslate
-  VERSION = '0.1.0'
+  VERSION = '0.2.0'
 end

data/llm_translate.yml CHANGED Viewed

@@ -50,12 +50,7 @@ translation:
   # 是否翻译代码注释
   translate_code_comments: false
-  # 需要保留不翻译的内容模式
-  preserve_patterns:
-    - "```[\\s\\S]*?```"  # 代码块
-    - "`[^`]+`"            # 行内代码
-    - "\\[.*?\\]\\(.*?\\)" # 链接
-    - "!\\[.*?\\]\\(.*?\\)" # 图片
 # 文件处理配置
 files:

data/test_llm_translate.yml CHANGED Viewed

@@ -48,11 +48,7 @@ translation:
   translate_code_comments: false
   # 需要保留不翻译的内容模式
-  preserve_patterns:
-    - "```[\\s\\S]*?```"  # 代码块
-    - "`[^`]+`"            # 行内代码
-    - "\\[.*?\\]\\(.*?\\)" # 链接
-    - "!\\[.*?\\]\\(.*?\\)" # 图片
 # 文件处理配置
 files:

data/test_new_config.yml CHANGED Viewed

@@ -50,12 +50,7 @@ translation:
   # 是否翻译代码注释
   translate_code_comments: false
-  # 需要保留不翻译的内容模式
-  preserve_patterns:
-    - "```[\\s\\S]*?```"  # 代码块
-    - "`[^`]+`"            # 行内代码
-    - "\\[.*?\\]\\(.*?\\)" # 链接
-    - "!\\[.*?\\]\\(.*?\\)" # 图片
 # 文件处理配置
 files:

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: llm_translate
 version: !ruby/object:Gem::Version
-  version: 0.1.0
+  version: 0.2.0
 platform: ruby
 authors:
 - LlmTranslate Team