twitter-korean-text-ruby 0.9.1 → 0.9.2
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +4 -4
- data/README.md +25 -17
- data/lib/twitter_korean/processor.rb +2 -2
- data/lib/twitter_korean/version.rb +1 -1
- metadata +2 -2
checksums.yaml
CHANGED
@@ -1,7 +1,7 @@
|
|
1
1
|
---
|
2
2
|
SHA1:
|
3
|
-
metadata.gz:
|
4
|
-
data.tar.gz:
|
3
|
+
metadata.gz: 21817e92682779015dab9f559002da59bacdc547
|
4
|
+
data.tar.gz: ea723db4b56070c6083ebad21072536e57e081d4
|
5
5
|
SHA512:
|
6
|
-
metadata.gz:
|
7
|
-
data.tar.gz:
|
6
|
+
metadata.gz: 0b16f1356c028266460cf92e8943a1787d3f28d38a1c1697e5a0685994ee2a65377493015254a8054c37ed6d41529838bb84372f6af1c8919fd0a65e1bd8e788
|
7
|
+
data.tar.gz: e41d60fea88751d76c96aab12a230c6e4aebf53fd2f2fa253c6fa9d89d8ed84e6d7b2db3353a9723f164f66afebfa408b9404f9b7df6c34b3b66461323bb32cb
|
data/README.md
CHANGED
@@ -1,12 +1,15 @@
|
|
1
1
|
## twitter-korean-text-ruby
|
2
2
|
[![Build Status](https://travis-ci.org/keepcosmos/twitter-korean-text-ruby.svg?branch=master)](https://travis-ci.org/keepcosmos/twitter-korean-text-ruby)
|
3
3
|
[![Code Climate](https://codeclimate.com/repos/56d562f8e4ecf4707f00309b/badges/7673319c6a92ab7ace9f/gpa.svg)](https://codeclimate.com/repos/56d562f8e4ecf4707f00309b/feed)
|
4
|
+
[![Gem Version](https://badge.fury.io/rb/twitter-korean-text-ruby.svg)](https://badge.fury.io/rb/twitter-korean-text-ruby)
|
4
5
|
|
5
6
|
Ruby interface to [twitter-korean-text](https://github.com/twitter/twitter-korean-text) by Twitter
|
6
7
|
|
7
8
|
트위터에서 제공하는 한글 형태소 분석기인 [twitter-korean-text](https://github.com/twitter/twitter-korean-text)(Scala)를 Ruby에서 사용가능하도록 Wrapping 하였습니다.
|
8
9
|
|
9
|
-
|
10
|
+
[twitter-korean-text 4.4](https://github.com/twitter/twitter-korean-text/releases/tag/korean-text-4.4) 버젼을 바탕으로 만들어졌습니다.
|
11
|
+
|
12
|
+
### Install
|
10
13
|
```{ruby}
|
11
14
|
$ gem install twitter-korean-text-ruby
|
12
15
|
```
|
@@ -17,39 +20,43 @@ gem 'twitter-korean-text-ruby'
|
|
17
20
|
```
|
18
21
|
|
19
22
|
### Useage
|
23
|
+
#### Basic
|
20
24
|
```ruby
|
21
25
|
require 'twitter-korean-text-ruby'
|
22
26
|
|
23
27
|
processor = TwitterKorean::Processor.new
|
24
28
|
# OR with JVM arguments
|
25
|
-
processor = TwitterKorean::Processor.new('-Xms126M', '-
|
29
|
+
processor = TwitterKorean::Processor.new('-Xms126M', '-Xmx512M', ...)
|
26
30
|
|
27
31
|
# Normalize
|
28
32
|
processor.normalize("형태소 분석을 합니닼ㅋㅋㅋㅋㅋㅋ")
|
29
33
|
# => "형태소 분석을 합니다ㅋㅋㅋㅋㅋㅋ"
|
30
34
|
|
31
35
|
# Tokenize
|
32
|
-
|
33
|
-
puts tokens
|
36
|
+
proccessor.tokenize("한국어를 처리하는 예시입니다 ㅋㅋ")
|
34
37
|
# => ["한국어", "를", " ", "처리", "하는", " ", "예시", "입니", "다", " ", "ㅋㅋ"]
|
35
38
|
|
36
|
-
# metadata of token, 토큰에 대한 정보
|
37
|
-
metadata = tokens.first.metadata
|
38
|
-
matadata #=> "noun, 0, 3"
|
39
|
-
metadata.pos #=> :noun
|
40
|
-
metadata.offset #=> 0
|
41
|
-
metadata.length #=> 3
|
42
|
-
|
43
39
|
# Stemming
|
44
|
-
|
45
|
-
puts tokens
|
40
|
+
proccessor.stem("한국어를 처리하는 예시입니다 ㅋㅋ")
|
46
41
|
# => ["한국어", "를", " ", "처리", "하다", " ", "예시", "이다", " ", "ㅋㅋ"]
|
47
42
|
|
48
43
|
# extract phrases
|
49
|
-
|
50
|
-
puts tokens
|
44
|
+
proccessor.stem("한국어를 처리하는 예시입니다 ㅋㅋ")
|
51
45
|
# => ["한국어", "처리", "처리하는 예시", "예시"]
|
46
|
+
```
|
47
|
+
#### Token Information
|
48
|
+
토큰 클래스(`TwitterKorean::KoreanToken`)는 String을 상속받아 만들었습니다. 토큰에 대한 메타정보는 `metadata` attribute를 사용합니다.
|
49
|
+
|
50
|
+
```{ruby}
|
51
|
+
tokens = proccessor.tokenize("한국어를 처리하는 예시입니다 ㅋㅋ")
|
52
|
+
token = tokens.first
|
52
53
|
|
54
|
+
token #=> 한국어
|
55
|
+
metadata = token.metadata
|
56
|
+
matadata #=> "noun, 0, 3"
|
57
|
+
metadata.pos #=> :noun
|
58
|
+
metadata.offset #=> 0
|
59
|
+
metadata.length #=> 3
|
53
60
|
```
|
54
61
|
|
55
62
|
### Test
|
@@ -58,11 +65,12 @@ rake test
|
|
58
65
|
```
|
59
66
|
|
60
67
|
### Issue
|
61
|
-
|
68
|
+
JAVA_HOME Path를 찾지 못했을 경우,
|
62
69
|
```{bash}
|
63
70
|
export JAVA_HOME=$(java_home_path)
|
71
|
+
```
|
64
72
|
|
65
73
|
### Contribute
|
66
74
|
이 프로젝트는 [twitter-korean-text](https://github.com/twitter/twitter-korean-text) 프로젝트의 Scala 코드를 Ruby로 Wrapping하는 프로젝트입니다.
|
67
75
|
관련된 범주에 대한 Issue와 Pull Request(테스트 코드가 포함된)는 언제나 환영입니다.
|
68
|
-
|
76
|
+
|
@@ -32,7 +32,7 @@ module TwitterKorean
|
|
32
32
|
def extract_phrases(text, options = {})
|
33
33
|
return unless text
|
34
34
|
filter_spam = options[:filter_spam] || false
|
35
|
-
including_hashtags = options[:including_hashtags] || true
|
35
|
+
including_hashtags = options[:including_hashtags] || true
|
36
36
|
converto_to_korean_tokens do
|
37
37
|
jvm_processor.extractPhrases(jvm_processor.tokenize(text), filter_spam, including_hashtags)
|
38
38
|
end
|
@@ -49,7 +49,7 @@ module TwitterKorean
|
|
49
49
|
end
|
50
50
|
|
51
51
|
def scala_list_to_array(result)
|
52
|
-
result.scan(/(?<=List\(|\,\s)(.*?\(
|
52
|
+
result.scan(/(?<=List\(|\,\s)(.*?\(\w+\:\s[0-9]+,\s[0-9]+\))/).to_a
|
53
53
|
end
|
54
54
|
end
|
55
55
|
end
|
metadata
CHANGED
@@ -1,14 +1,14 @@
|
|
1
1
|
--- !ruby/object:Gem::Specification
|
2
2
|
name: twitter-korean-text-ruby
|
3
3
|
version: !ruby/object:Gem::Version
|
4
|
-
version: 0.9.
|
4
|
+
version: 0.9.2
|
5
5
|
platform: ruby
|
6
6
|
authors:
|
7
7
|
- Jaehyun Shin
|
8
8
|
autorequire:
|
9
9
|
bindir: bin
|
10
10
|
cert_chain: []
|
11
|
-
date: 2016-03-
|
11
|
+
date: 2016-03-04 00:00:00.000000000 Z
|
12
12
|
dependencies:
|
13
13
|
- !ruby/object:Gem::Dependency
|
14
14
|
name: rjb
|