neologdn 0.5.2__tar.gz → 0.5.3__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.


This version of neologdn might be problematic. Click here for more details.

@@ -1,6 +1,11 @@
1
1
  CHANGES
2
2
  ========
3
3
 
4
+ 0.5.3 (2024-05-03)
5
+ ----------------------------
6
+
7
+ - Support Python 3.12
8
+
4
9
  0.5.2 (2023-08-03)
5
10
  ----------------------------
6
11
 
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.1
2
2
  Name: neologdn
3
- Version: 0.5.2
3
+ Version: 0.5.3
4
4
  Summary: Japanese text normalizer for mecab-neologd
5
5
  Home-page: http://github.com/ikegami-yukino/neologdn
6
6
  Author: Yukino Ikegami
@@ -14,18 +14,18 @@ Classifier: License :: OSI Approved :: Apache Software License
14
14
  Classifier: Programming Language :: Cython
15
15
  Classifier: Programming Language :: Python
16
16
  Classifier: Programming Language :: Python :: 3
17
- Classifier: Programming Language :: Python :: 3.6
18
17
  Classifier: Programming Language :: Python :: 3.7
19
18
  Classifier: Programming Language :: Python :: 3.8
20
19
  Classifier: Programming Language :: Python :: 3.9
21
20
  Classifier: Programming Language :: Python :: 3.10
22
21
  Classifier: Programming Language :: Python :: 3.11
22
+ Classifier: Programming Language :: Python :: 3.12
23
23
  Classifier: Topic :: Text Processing :: Linguistic
24
24
  Description-Content-Type: text/x-rst
25
25
  License-File: LICENSE
26
26
 
27
27
  neologdn
28
- ===========
28
+ #########
29
29
 
30
30
  |downloads| |pyversion| |version| |license|
31
31
 
@@ -40,14 +40,14 @@ Contributions are welcome!
40
40
  NOTE: Installing this module requires C++11 compiler.
41
41
 
42
42
  Installation
43
- ------------
43
+ *************
44
44
 
45
45
  ::
46
46
 
47
47
  $ pip install neologdn
48
48
 
49
49
  Usage
50
- -----
50
+ ******
51
51
 
52
52
  .. code:: python
53
53
 
@@ -85,7 +85,7 @@ Usage
85
85
 
86
86
 
87
87
  Benchmark
88
- ----------
88
+ **********
89
89
 
90
90
  .. code:: python
91
91
 
@@ -109,16 +109,48 @@ https://github.com/ikegami-yukino/neologdn/blob/master/benchmark/benchmark.ipynb
109
109
 
110
110
 
111
111
  License
112
- -------
112
+ *********
113
113
 
114
114
  Apache Software License.
115
115
 
116
116
 
117
117
  Contribution
118
- ------------
118
+ *************
119
119
 
120
120
  Contributions are welcome! See: https://github.com/ikegami-yukino/neologdn/blob/master/.github/CONTRIBUTING.md
121
121
 
122
+ Cited by
123
+ **********
124
+ Book
125
+ ========
126
+ 山本 和英. テキスト処理の要素技術. 近代科学者. P.41. 2021.
127
+
128
+ Blog
129
+ ========
130
+ - 【ライブラリ紹介】テキスト正規化ライブラリ neologdn: https://diatonic.codes/blog/neologdn/
131
+ - 日本語テキストの前処理:neologdn、大文字小文字、Unicode正規化 - tuttieee’s blog: https://tuttieee.hatenablog.com/entry/ja-nlp-preprocess
132
+ - ▲本日の関数==neologdn.normalize()== - TPTブログ: https://ds-blog.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%AC%E6%97%A5%E3%81%AE%E9%96%A2%E6%95%B0%3D%3Dneologdn_normalize%28%29%3D%3D
133
+ - NLPについて学ぶ: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
134
+ - テキスト正規化用PythonライブラリをMATLABからコール #Python - Qiita: https://qiita.com/aoimidori/items/ab5a4383b5a7bb307bad
135
+ - 自然言語処理の前処理手順をPythonコード付きでご紹介 | AI活用・AI導入事例の紹介 | AI活用・AI導入事例の紹介: https://www.matrixflow.net/case-study/75/
136
+ - pythonによる日本語前処理備忘録 | DATUM STUDIO株式会社: https://datumstudio.jp/blog/python%E3%81%AB%E3%82%88%E3%82%8B%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%89%8D%E5%87%A6%E7%90%86%E5%82%99%E5%BF%98%E9%8C%B2/
137
+ - 前処理、前処理、そして、前処理 (自然言語処理:日本語編)|narudesu: https://note.com/narudesu/n/na35de30a583a
138
+ - ショートカットキーでneologd.normalize: https://scrapbox.io/nishio/%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%88%E3%82%AB%E3%83%83%E3%83%88%E3%82%AD%E3%83%BC%E3%81%A7neologd.normalize
139
+ - Pythonで自然言語処理を行うための環境構築 #Python - Qiita: https://qiita.com/lawyer_alpaca/items/86b0deda984170203467
140
+ - Python normalize Examples: https://python.hotexamples.com/examples/neologdn/-/normalize/python-normalize-function-examples.html
141
+ - 株式会社ししまろ (ch-4) 潜在的ディリクレ配分(LDA)によるchABSAデータセットの分析: https://shishimaro.co.jp/blog/ai/538
142
+ - 形態素解析前の日本語文書の前処理 (Python) - け日記: https://ohke.hateblo.jp/entry/2019/02/09/141500
143
+ - 人工知能に言語を理解させる!?自然言語処理に重要なデータの前処理をPythonで徹底解説 | AI研究所: https://ai-kenkyujo.com/programming/make-ai-understand-the-language/
144
+ - 最新wikipediaを反映したMeCabユーザー辞書を作る - NEologd拡張 | ぷらこめ: https://purakome.net/mecab/addwiki/
145
+ - 【自然言語処理入門】文に対してストップワードと正規化から処理を施す | マイナビエンジニアブログ: https://engineerblog.mynavi.jp/technology/nlp_stopword/
146
+ - 表記統一 [自然言語処理の餅屋]: https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%E8%A1%A8%E8%A8%98%E7%B5%B1%E4%B8%80
147
+ - Pytorchを使ってテキスト生成モデルのT5を構築 〜Transformersでの転移学習による手軽な実践〜 - 見習いデータサイエンティストの隠れ家: https://www.dskomei.com/entry/2021/09/28/110016
148
+ - 象と散歩: Goolge Colabでお手軽テキストマイニング(日本語前処理): https://walking-elephant.blogspot.com/2023/07/text-mining-normalized.html
149
+ - 【Pythonで自然言語処理(NLP)を実装してみよう!】学ぶべき知識についても徹底解説! - ベトナムオフショア開発の最前線 by Mattock inc.: https://mattock.jp/blog/artificial-intelligence/nlp/lets-implement-nlp-in-python/
150
+ - tools [Digital Humanities Japan: Resource Wiki]: https://dhjapan.org/wiki/doku.php?id=tools
151
+ - Pythonで現代の季語を調べてみた | Aidemy | 10秒で始めるAIプログラミング学習サービスAidemy[アイデミー]: https://aidemy.net/magazine/703/
152
+
153
+
122
154
  .. |downloads| image:: https://static.pepy.tech/personalized-badge/neologdn?period=total&units=international_system&left_color=black&right_color=orange&left_text=Downloads
123
155
  :target: https://pepy.tech/project/neologdn
124
156
 
@@ -137,6 +169,11 @@ Contributions are welcome! See: https://github.com/ikegami-yukino/neologdn/blob/
137
169
  CHANGES
138
170
  ========
139
171
 
172
+ 0.5.3 (2024-05-03)
173
+ ----------------------------
174
+
175
+ - Support Python 3.12
176
+
140
177
  0.5.2 (2023-08-03)
141
178
  ----------------------------
142
179
 
@@ -0,0 +1,140 @@
1
+ neologdn
2
+ #########
3
+
4
+ |downloads| |pyversion| |version| |license|
5
+
6
+ neologdn is a Japanese text normalizer for `mecab-neologd <https://github.com/neologd/mecab-ipadic-neologd>`_.
7
+
8
+ The normalization is based on the neologd's rules:
9
+ https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja
10
+
11
+
12
+ Contributions are welcome!
13
+
14
+ NOTE: Installing this module requires C++11 compiler.
15
+
16
+ Installation
17
+ *************
18
+
19
+ ::
20
+
21
+ $ pip install neologdn
22
+
23
+ Usage
24
+ ******
25
+
26
+ .. code:: python
27
+
28
+ import neologdn
29
+ neologdn.normalize("ハンカクカナ")
30
+ # => 'ハンカクカナ'
31
+ neologdn.normalize("全角記号!?@#")
32
+ # => '全角記号!?@#'
33
+ neologdn.normalize("全角記号例外「・」")
34
+ # => '全角記号例外「・」'
35
+ neologdn.normalize("長音短縮ウェーーーーイ")
36
+ # => '長音短縮ウェーイ'
37
+ neologdn.normalize("チルダ削除ウェ~∼∾〜〰~イ")
38
+ # => 'チルダ削除ウェイ'
39
+ neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")
40
+ # => 'いろんなハイフン-'
41
+ neologdn.normalize("   PRML  副 読 本   ")
42
+ # => 'PRML副読本'
43
+ neologdn.normalize(" Natural Language Processing ")
44
+ # => 'Natural Language Processing'
45
+ neologdn.normalize("かわいいいいいいいいい", repeat=6)
46
+ # => 'かわいいいいいい'
47
+ neologdn.normalize("無駄無駄無駄無駄ァ", repeat=1)
48
+ # => '無駄ァ'
49
+ neologdn.normalize("1995〜2001年", tilde="normalize")
50
+ # => '1995~2001年'
51
+ neologdn.normalize("1995~2001年", tilde="normalize_zenkaku")
52
+ # => '1995〜2001年'
53
+ neologdn.normalize("1995〜2001年", tilde="ignore") # Don't convert tilde
54
+ # => '1995〜2001年'
55
+ neologdn.normalize("1995〜2001年", tilde="remove")
56
+ # => '19952001年'
57
+ neologdn.normalize("1995〜2001年") # Default parameter
58
+ # => '19952001年'
59
+
60
+
61
+ Benchmark
62
+ **********
63
+
64
+ .. code:: python
65
+
66
+ # Sample code from
67
+ # https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
68
+ import normalize_neologd
69
+
70
+ %timeit normalize(normalize_neologd.normalize_neologd)
71
+ # => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
72
+
73
+
74
+ import neologdn
75
+ %timeit normalize(neologdn.normalize)
76
+ # => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
77
+
78
+
79
+ neologdn is about x1.43 faster than sample code.
80
+
81
+ details are described as the below notebook:
82
+ https://github.com/ikegami-yukino/neologdn/blob/master/benchmark/benchmark.ipynb
83
+
84
+
85
+ License
86
+ *********
87
+
88
+ Apache Software License.
89
+
90
+
91
+ Contribution
92
+ *************
93
+
94
+ Contributions are welcome! See: https://github.com/ikegami-yukino/neologdn/blob/master/.github/CONTRIBUTING.md
95
+
96
+ Cited by
97
+ **********
98
+ Book
99
+ ========
100
+ 山本 和英. テキスト処理の要素技術. 近代科学者. P.41. 2021.
101
+
102
+ Blog
103
+ ========
104
+ - 【ライブラリ紹介】テキスト正規化ライブラリ neologdn: https://diatonic.codes/blog/neologdn/
105
+ - 日本語テキストの前処理:neologdn、大文字小文字、Unicode正規化 - tuttieee’s blog: https://tuttieee.hatenablog.com/entry/ja-nlp-preprocess
106
+ - ▲本日の関数==neologdn.normalize()== - TPTブログ: https://ds-blog.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%AC%E6%97%A5%E3%81%AE%E9%96%A2%E6%95%B0%3D%3Dneologdn_normalize%28%29%3D%3D
107
+ - NLPについて学ぶ: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
108
+ - テキスト正規化用PythonライブラリをMATLABからコール #Python - Qiita: https://qiita.com/aoimidori/items/ab5a4383b5a7bb307bad
109
+ - 自然言語処理の前処理手順をPythonコード付きでご紹介 | AI活用・AI導入事例の紹介 | AI活用・AI導入事例の紹介: https://www.matrixflow.net/case-study/75/
110
+ - pythonによる日本語前処理備忘録 | DATUM STUDIO株式会社: https://datumstudio.jp/blog/python%E3%81%AB%E3%82%88%E3%82%8B%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%89%8D%E5%87%A6%E7%90%86%E5%82%99%E5%BF%98%E9%8C%B2/
111
+ - 前処理、前処理、そして、前処理 (自然言語処理:日本語編)|narudesu: https://note.com/narudesu/n/na35de30a583a
112
+ - ショートカットキーでneologd.normalize: https://scrapbox.io/nishio/%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%88%E3%82%AB%E3%83%83%E3%83%88%E3%82%AD%E3%83%BC%E3%81%A7neologd.normalize
113
+ - Pythonで自然言語処理を行うための環境構築 #Python - Qiita: https://qiita.com/lawyer_alpaca/items/86b0deda984170203467
114
+ - Python normalize Examples: https://python.hotexamples.com/examples/neologdn/-/normalize/python-normalize-function-examples.html
115
+ - 株式会社ししまろ (ch-4) 潜在的ディリクレ配分(LDA)によるchABSAデータセットの分析: https://shishimaro.co.jp/blog/ai/538
116
+ - 形態素解析前の日本語文書の前処理 (Python) - け日記: https://ohke.hateblo.jp/entry/2019/02/09/141500
117
+ - 人工知能に言語を理解させる!?自然言語処理に重要なデータの前処理をPythonで徹底解説 | AI研究所: https://ai-kenkyujo.com/programming/make-ai-understand-the-language/
118
+ - 最新wikipediaを反映したMeCabユーザー辞書を作る - NEologd拡張 | ぷらこめ: https://purakome.net/mecab/addwiki/
119
+ - 【自然言語処理入門】文に対してストップワードと正規化から処理を施す | マイナビエンジニアブログ: https://engineerblog.mynavi.jp/technology/nlp_stopword/
120
+ - 表記統一 [自然言語処理の餅屋]: https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%E8%A1%A8%E8%A8%98%E7%B5%B1%E4%B8%80
121
+ - Pytorchを使ってテキスト生成モデルのT5を構築 〜Transformersでの転移学習による手軽な実践〜 - 見習いデータサイエンティストの隠れ家: https://www.dskomei.com/entry/2021/09/28/110016
122
+ - 象と散歩: Goolge Colabでお手軽テキストマイニング(日本語前処理): https://walking-elephant.blogspot.com/2023/07/text-mining-normalized.html
123
+ - 【Pythonで自然言語処理(NLP)を実装してみよう!】学ぶべき知識についても徹底解説! - ベトナムオフショア開発の最前線 by Mattock inc.: https://mattock.jp/blog/artificial-intelligence/nlp/lets-implement-nlp-in-python/
124
+ - tools [Digital Humanities Japan: Resource Wiki]: https://dhjapan.org/wiki/doku.php?id=tools
125
+ - Pythonで現代の季語を調べてみた | Aidemy | 10秒で始めるAIプログラミング学習サービスAidemy[アイデミー]: https://aidemy.net/magazine/703/
126
+
127
+
128
+ .. |downloads| image:: https://static.pepy.tech/personalized-badge/neologdn?period=total&units=international_system&left_color=black&right_color=orange&left_text=Downloads
129
+ :target: https://pepy.tech/project/neologdn
130
+
131
+ .. |version| image:: https://img.shields.io/pypi/v/neologdn.svg
132
+ :target: http://pypi.python.org/pypi/neologdn/
133
+ :alt: latest version
134
+
135
+ .. |pyversion| image:: https://img.shields.io/pypi/pyversions/neologdn.svg
136
+
137
+ .. |license| image:: https://img.shields.io/pypi/l/neologdn.svg
138
+ :target: http://pypi.python.org/pypi/neologdn/
139
+ :alt: license
140
+