vivlio-starter-pdf 1.0.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- checksums.yaml +7 -0
- data/CHANGELOG.md +71 -0
- data/LICENSE +661 -0
- data/README.md +120 -0
- data/RELEASE_NOTE.md +133 -0
- data/Rakefile +12 -0
- data/exe/vivlio-starter-pdf +52 -0
- data/lib/vivlio/starter/cli/pdf/enhanced_provider.rb +120 -0
- data/lib/vivlio/starter/cli/pdf/log_helper.rb +40 -0
- data/lib/vivlio/starter/cli/pdf/outline_writer.rb +118 -0
- data/lib/vivlio/starter/cli/pdf/utilities.rb +45 -0
- data/lib/vivlio/starter/pdf/reader.rb +1255 -0
- data/lib/vivlio/starter/pdf/utilities.rb +11 -0
- data/lib/vivlio/starter/pdf/version.rb +11 -0
- data/lib/vivlio/starter/pdf.rb +15 -0
- data/vivlio-starter-pdf.gemspec +49 -0
- metadata +136 -0
checksums.yaml
ADDED
|
@@ -0,0 +1,7 @@
|
|
|
1
|
+
---
|
|
2
|
+
SHA256:
|
|
3
|
+
metadata.gz: 65b529f996ccbfdab12d4a410404206e4580126c6e75dcbc1b45fb88c6044241
|
|
4
|
+
data.tar.gz: 6b8b71dbf5f5f622cca5dc4328016a71b0c29b3fa72dacb83914daae5abd4ac8
|
|
5
|
+
SHA512:
|
|
6
|
+
metadata.gz: 01cd3cebf924395a018536bfff12940f6990c1051c2a782c48ff56bfb397c3c363d26c33c2b6e6abfdead321e884e0a9ec2da4189f4cbc656271d25c95c3d309
|
|
7
|
+
data.tar.gz: 4dc1e2d408d87ebd5738fc697338de5c55d7f8f62d6f38224774e263c392fb4a70e67ebb2f9354c3d76a747229f204c151173c1852f7a481d0d4149713f3e550
|
data/CHANGELOG.md
ADDED
|
@@ -0,0 +1,71 @@
|
|
|
1
|
+
# Changelog
|
|
2
|
+
|
|
3
|
+
All notable changes to this project will be documented in this file.
|
|
4
|
+
|
|
5
|
+
The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.0.0/),
|
|
6
|
+
and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0.html).
|
|
7
|
+
|
|
8
|
+
## [1.0.1] - 2026-03-21
|
|
9
|
+
|
|
10
|
+
### Added
|
|
11
|
+
- CLI 実装 (exe/vivlio-starter-pdf)
|
|
12
|
+
- --version/-v オプションでバージョン表示
|
|
13
|
+
- --help/-h オプションで使用方法と説明を表示
|
|
14
|
+
- エラーハンドリングと不明オプションの処理
|
|
15
|
+
|
|
16
|
+
### Improved
|
|
17
|
+
- ユーザー体験の向上(インストール後の動作確認可能)
|
|
18
|
+
- 標準的な CLI インターフェース準拠
|
|
19
|
+
|
|
20
|
+
## [1.0.0] - 2026-03-21
|
|
21
|
+
|
|
22
|
+
### 🎉 最初のメジャーリリース
|
|
23
|
+
|
|
24
|
+
vivlio-starter-pdf 1.0.0 としてリリース!HexaPDF を活用した高度な PDF 解析・後処理機能を提供する AGPL 拡張プラグインが完成しました。
|
|
25
|
+
|
|
26
|
+
### ✅ 実績と品質保証
|
|
27
|
+
- **vivlio-starter** Enhanced Mode での実稼働実績
|
|
28
|
+
- **高度な PDF 処理**: HexaPDF ベースの精密なテキスト・画像抽出
|
|
29
|
+
- **日本語 OCR 完全対応**: Tesseract 連携と誤読修正機能
|
|
30
|
+
- **画像位置合わせ**: テキスト行と画像の精密な座標マッピング
|
|
31
|
+
|
|
32
|
+
### 🚀 主要機能
|
|
33
|
+
- **PDF → Markdown 変換**: HexaPDF で高精度にテキスト・画像を抽出
|
|
34
|
+
- **OCR 連携**: スキャン PDF を自動検出し、日本語 OCR を実行
|
|
35
|
+
- **画像抽出**: PDF 内の XObject を解析し、WebP 形式で書き出し
|
|
36
|
+
- **OCR テキスト補正**: 日本語空白圧縮、括弧正規化、prh 辞書による誤読修正
|
|
37
|
+
- **隠しノンブル**: 入稿用 PDF の塗り足し領域にページ番号をオーバーレイ
|
|
38
|
+
- **PDF アウトライン**: HTML 見出しを解析し、PDF のブックマークツリーを構築
|
|
39
|
+
|
|
40
|
+
### 🔧 技術的特徴
|
|
41
|
+
- **Ruby 4.0+** モダン開発標準準拠
|
|
42
|
+
- **Data.define** を活用した型安全なデータ構造
|
|
43
|
+
- **HexaPDF** による高精度 PDF 解析
|
|
44
|
+
- **ruby-vips** による高速画像処理
|
|
45
|
+
- **AGPL-3.0** ライセンス(HexaPDF に準拠)
|
|
46
|
+
|
|
47
|
+
### 📚 ドキュメント整備
|
|
48
|
+
- 詳細な README と機能一覧
|
|
49
|
+
- 外部ツールの自動案内機能
|
|
50
|
+
- 設定例と API 使用例の充実
|
|
51
|
+
|
|
52
|
+
### 🔌 vivlio-starter 連携
|
|
53
|
+
- プラグイン専用設計でシームレスな統合
|
|
54
|
+
- Standard Mode から Enhanced Mode への自動切り替え
|
|
55
|
+
- 設定ファイルによる柔軟な制御
|
|
56
|
+
|
|
57
|
+
### 🌏 日本語特化機能
|
|
58
|
+
- Tesseract 日本語 OCR エンジン対応
|
|
59
|
+
- 日本語テキストの空白圧縮処理
|
|
60
|
+
- 括弧の正規化と誤読修正
|
|
61
|
+
- 出版向けの文字処理最適化
|
|
62
|
+
|
|
63
|
+
---
|
|
64
|
+
|
|
65
|
+
## [Unreleased]
|
|
66
|
+
|
|
67
|
+
### Planned
|
|
68
|
+
- パフォーマンス最適化(大規模 PDF 対応)
|
|
69
|
+
- 追加 OCR エンジン対応
|
|
70
|
+
- クラウド OCR サービス連携
|
|
71
|
+
- PDF 暗号化対応
|