RubyGems - rabbit-slide-komainu8-postgresql-conference-japan-2021 - Versions diffs - 1.0.0 - Mend

rabbit-slide-komainu8-postgresql-conference-japan-2021 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

checksums.yaml +7 -0
data/.rabbit +1 -0
data/README.rd +42 -0
data/Rakefile +17 -0
data/config.yaml +31 -0
data/images/normalizer.png +0 -0
data/images/precision-expression.png +0 -0
data/images/precision-hight-recall-low.png +0 -0
data/images/precision-low-recall-hight.png +0 -0
data/images/precision-recall-1.png +0 -0
data/images/recall-expression.png +0 -0
data/images/search-result-01.png +0 -0
data/images/self-introduction.png +0 -0
data/images/tokenizer-tokenmecab.png +0 -0
data/images/tokenizer.png +0 -0
data/improve-search-result-with-pgroonga-overview.rab +520 -0
data/improve-search-result-with-pgroonga.rab +797 -0
data/pdf/postgresql-conference-japan-2021-improve-search-result-with-pgroonga.pdf +0 -0
data/theme.rb +5 -0
metadata +86 -0

checksums.yaml ADDED Viewed

@@ -0,0 +1,7 @@
+---
+SHA256:
+  metadata.gz: c70ecfa7c7eba2672af560d513cd242a2dbcf99d1705a25276c6dde7a46bd689
+  data.tar.gz: 9e126bdb80ea9514826a2df952da77885659f39b093dae75eb90780ac924be39
+SHA512:
+  metadata.gz: 5f36961f4d290ab89fe04eadbe7cd8abc03bc0c29b5340ede122ffb465261bf63e53b671be11757a9dda8b5b32a6cf84dd3ef156f0cd495dd5a3310595b1f4bc
+  data.tar.gz: b3c6839c4421c6bdf559e2ebeb46bd0de10a878f6a5bb3aed0478e9029703d6234fdb27b77587aea1501d85fbe0ebc53ad1ae74e22746519c9acf9bfccb2f783

data/.rabbit ADDED Viewed

	@@ -0,0 +1 @@
1	+ improve-search-result-with-pgroonga.rab

data/README.rd ADDED Viewed

@@ -0,0 +1,42 @@
+= PGroongaを使って全文検索結果をより良くする方法
+PostgreSQL で使用できる全文検索の拡張に PGroonga という高速に全文検索できる拡張があります。
+PGroongaはバックエンドに本格的な全文検索エンジンGroongaを使っており、高速な全文検索以外にも、
+より良い検索結果を出すための機能(検索結果の適合率や再現率の向上や、より良い結果順にするためのスコアリング)
+が盛り込まれています。
+PGroongaはPostgreSQLの拡張なので、SQLベースでこれらの機能を使うことができ、
+SQLを使い慣れている人であれば、比較的スムーズにこれらの機能を使えます。
+本発表では、全文検索結果をより良くするPGroongaの機能について、どのような機能があり、
+それらをどう使うのかについて網羅的に紹介します。
+== ライセンス
+=== スライド
+CC BY-SA 4.0
+原著作者：堀本泰弘
+== 作者向け
+=== 表示
+  rake
+=== 公開
+  rake publish
+== 閲覧者向け
+=== インストール
+  gem install rabbit-slide--postgresql-conference-japan-2021
+=== 表示
+  rabbit rabbit-slide--postgresql-conference-japan-2021.gem

data/Rakefile ADDED Viewed

@@ -0,0 +1,17 @@
+require "rabbit/task/slide"
+# Edit ./config.yaml to customize meta data
+spec = nil
+Rabbit::Task::Slide.new do |task|
+  spec = task.spec
+  # spec.files += Dir.glob("doc/**/*.*")
+  # spec.files -= Dir.glob("private/**/*.*")
+  # spec.add_runtime_dependency("rabbit-theme-YOUR-THEME")
+end
+desc "Tag #{spec.version}"
+task :tag do
+  sh("git", "tag", "-a", spec.version.to_s, "-m", "Publish #{spec.version}")
+  sh("git", "push", "--tags")
+end

data/config.yaml ADDED Viewed

@@ -0,0 +1,31 @@
+---
+id: postgresql-conference-japan-2021
+base_name: improve-search-result-with-pgroonga
+tags: [
+  rabbit,
+  postgresql,
+  pgcon21j,
+  fts,
+  search,
+  pgroonga,
+  groonga
+]
+presentation_date: 2021-11-12
+presentation_start_time: 2021-11-12T16:10:00+09:00
+presentation_end_time: 2021-11-12T17:00:00+09:00
+version: 1.0.0
+licenses: [
+  CC-BY-SA-4.0
+]
+slideshare_id:
+speaker_deck_id:
+ustream_id:
+vimeo_id:
+youtube_id:
+author:
+  markup_language: :rd
+  name: Horimoto Yasuhiro
+  email: horimoto@clear-code.com
+  rubygems_user: komainu8
+  slideshare_user:
+  speaker_deck_user:

data/images/normalizer.png ADDED Viewed

Binary file

data/images/precision-expression.png ADDED Viewed

Binary file

data/images/precision-hight-recall-low.png ADDED Viewed

Binary file

data/images/precision-low-recall-hight.png ADDED Viewed

Binary file

data/images/precision-recall-1.png ADDED Viewed

Binary file

data/images/recall-expression.png ADDED Viewed

Binary file

data/images/search-result-01.png ADDED Viewed

Binary file

data/images/self-introduction.png ADDED Viewed

Binary file

data/images/tokenizer-tokenmecab.png ADDED Viewed

Binary file

data/images/tokenizer.png ADDED Viewed

Binary file

data/improve-search-result-with-pgroonga-overview.rab ADDED Viewed

@@ -0,0 +1,520 @@
+= PGroongaを使って\n全文検索結果を\nより良くする方法
+ : author
+    堀本 泰弘
+ : institution
+    株式会社クリアコード
+ : content-source
+    PostgreSQL Conference Japan 2021
+ : date
+    2021-11-12
+ : allotted-time
+    45m
+ : start-time
+    2021-11-12T16:10:00+09:00
+ : end-time
+    2021-11-12T16:55:00+09:00
+ : theme
+    .
+= 本日の資料
+* 本日のスライド
+  * ((<URL:https://slide.rabbit-shocker.org/authors/komainu8/improve-search-result-with-pgroonga.rab>))
+= 自己紹介
+  # image
+  # src = images/self-introduction.png
+  # relative_height = 107
+= 目次
+(1) 検索の評価指標
+(2) PGroongaで検索結果の改善
+(3) 参考資料
+= 検索の評価指標
+よく検索結果が\n
+((*いまいち*))だ...\n
+という話を\n聞きます
+= 検索の評価指標
+  # image
+  # src = images/search-result-01.png
+  # relative_height = 100
+= 検索の評価指標
+* 😞検索漏れ
+* 😞ノイズが多い
+* 😞有用な情報を探し出せない
+= 検索の評価指標
+(1) 効率性\n低コストで検索できるかどうか
+(2) ((*有効性*))\n検索結果の全体 or 一部が\n((*欲しい情報*))だったかどうか
+= 検索の評価指標
+今日は有効性に\nついてのお話です
+= 有効性の指標
+(1) 適合率
+(2) 再現率
+(3) ランキング
+= 適合率と再現率
+  # image
+  # src = images/precision-recall-1.png
+  # relative_height = 82
+= 適合率と再現率
+  # image
+  # src = images/precision-hight-recall-low.png
+  # relative_height = 90
+= 適合率と再現率
+  # image
+  # src = images/precision-low-recall-hight.png
+  # relative_height = 90
+= ランキング
+欲しい情報が\nランキング((*上位*))にあるか
+= ランキング
+ユーザーは\n((*上位数件*))\nしか見ない
+= PGroongaで検索結果の改善
+* PGroongaで適合率/再現率改善
+  * ノーマライザーを使う
+  * トークナイザーを使う
+  * ステミングを使う
+  * fuzzy検索を使う
+  * 同義語展開を使う
+= PGroongaで検索結果の改善
+* PGroongaでランキング改善
+  * スコアラーを使う
+= PGroongaのノーマライザー\n(デフォルト)
+  # coderay sql
+    CREATE DATABASE pgroonga_test;
+    CREATE EXTENSION pgroonga;
+    CREATE TABLE normalizer_test (
+      id integer,
+      content text
+    );
+    CREATE INDEX pgroonga_content_index ON normalizer_test USING pgroonga (content);
+    INSERT INTO normalizer_test VALUES (1, 'キログラム');
+    INSERT INTO normalizer_test VALUES (2, 'きろぐらむ');
+    INSERT INTO normalizer_test VALUES (3, '㌕');
+    INSERT INTO normalizer_test VALUES (4, 'ｷﾛｸﾞﾗﾑ');
+    INSERT INTO normalizer_test VALUES (5, 'kiroguramu');
+    INSERT INTO normalizer_test VALUES (6, 'ｋｉｒｏｇｕｒａｍｕ');
+    SELECT * FROM normalizer_test WHERE content &@ 'キログラム';
+= PGroongaのノーマライザー\n(デフォルト)
+  # RT
+  delimiter = [|]
+  id | content
+  1 | キログラム
+  3 | ㌕
+  4 | ｷﾛｸﾞﾗﾑ
+= PGroongaのノーマライザー\n(デフォルト)
+* 半角/全角を同一視
+* ㌕とキログラムを同一視
+= PGroongaのノーマライザー\n(デフォルト)
+PGroongaのデフォルトはNFKCを使った正規化\n
+※対象のテキストのエンコードがUTF-8の時
+= ノーマライザーの変更
+再現率を上げたい
+= PGroongaのノーマライザー\n(NormalizerNFKC130)
+  # coderay sql
+    DROP INDEX pgroonga_content_index;
+  CREATE INDEX pgroonga_content_index
+            ON normalizer_test
+         USING pgroonga (content)
+          WITH (normalizers='NormalizerNFKC130("unify_to_romaji", true)');
+  SELECT * FROM normalizer_test WHERE content &@ 'キログラム';
+= PGroongaのノーマライザー\n(NormalizerNFKC130)
+  # RT
+  delimiter = [|]
+  id | content
+  1 | キログラム
+  2 | きろぐらむ
+  3 | ㌕
+  4 | ｷﾛｸﾞﾗﾑ
+= PGroongaのノーマライザー\n(NormalizerNFKC130)
+  # RT
+  delimiter = [|]
+  id | content
+  5 | kiroguramu
+  6 | ｋｉｒｏｇｕｒａｍｕ
+= PGroongaのノーマライザー\n(NormalizerNFKC130)
+* Unify_to_romaji
+  * ローマ字に正規化\nローマ字で読んだときに同じ語は同一視する
+  * (e.g. 「kiroguramu」と「きろぐらむ」を同一視。ローマ字読みが同じだから)
+= オプションの指定方法
+* 'NormalizerNFKC130\n("オプション名", true)');
+= 指定可能オプション一覧
+* NormalizerNFKC130の\nオプション一覧
+  * ((<URL:https://groonga.org/ja/docs/reference/normalizers/normalizer_nfkc130.html#syntax>))
+= PGroongaのトークナイザー\n(デフォルト)
+  # coderay sql
+    CREATE TABLE tokenizer_test (
+      title text
+    );
+    CREATE INDEX pgroonga_content_index ON tokenizer_test USING pgroonga (title);
+    INSERT INTO tokenizer_test VALUES ('京都府 1日目 金閣寺');
+    INSERT INTO tokenizer_test VALUES ('京都府 2日目 嵐山');
+    INSERT INTO tokenizer_test VALUES ('京都府 3日目 天橋立');
+    INSERT INTO tokenizer_test VALUES ('東京都 1日目 スカイツリー');
+    INSERT INTO tokenizer_test VALUES ('東京都 2日目 浅草寺');
+    INSERT INTO tokenizer_test VALUES ('北海道 1日目 函館');
+    INSERT INTO tokenizer_test VALUES ('北海道 2日目 トマム');
+    INSERT INTO tokenizer_test VALUES ('北海道 3日目 富良野');
+    INSERT INTO tokenizer_test VALUES ('北海道 4日目 美瑛');
+    INSERT INTO tokenizer_test VALUES ('北海道 5日目 旭川');
+    SELECT * FROM tokenizer_test WHERE title &@ '京都';
+= PGroongaのトークナイザー\n(デフォルト)
+  # RT
+  delimiter = [|]
+  title
+  京都府 1日目 金閣寺
+  京都府 2日目 嵐山
+  京都府 3日目 天橋立
+  東京都 1日目 スカイツリー
+  東京都 2日目 浅草寺
+= トークナイザーの変更
+適合率を上げたい
+= PGroongaのトークナイザー\n(TokenMecab)
+  # coderay sql
+    DROP INDEX pgroonga_content_index;
+  CREATE INDEX pgroonga_content_index
+            ON tokenizer_test
+         USING pgroonga (title)
+          WITH (tokenizer='TokenMecab');
+  SELECT * FROM tokenizer_test WHERE title &@ '京都';
+= PGroongaのトークナイザー\n(TokenMecab)
+  # RT
+  delimiter = [|]
+  title
+  京都府 1日目 金閣寺
+  京都府 2日目 嵐山
+  京都府 3日目 天橋立
+= トークナイザーの指定方法
+* tokenizer='トークナイザー名'
+= 指定可能トークナイザー一覧
+* 使用可能なトークナイザー
+  * ((<URL:https://groonga.org/ja/docs/reference/tokenizers.html>))
+= ステミング(語幹処理)
+語形変化\n意味は同じだが\n語の形が変わる
+= ステミング(語幹処理)
+例えば
+* develop(原形)
+* developped(過去形)
+* developing(進行形)
+意味は同じだが語形は異なる
+= ステミング(語幹処理)
+語幹：単語の変化しない部分
+= ステミング(語幹処理)
+(('tag:left'))
+((*develop*))\n
+((*develop*))ped\n
+((*develop*))ing
+= ステミング(語幹処理)
+語幹で検索\n
+->語形変化後の語も検索できる
+= PGroongaのステミング\n(未使用)
+  # coderay sql
+    CREATE TABLE steming_test (
+      title text
+    );
+    CREATE INDEX pgroonga_content_index ON steming_test USING pgroonga (title);
+    INSERT INTO tokenizer_test VALUES ('I develop Groonga');
+    INSERT INTO tokenizer_test VALUES ('I am developing Groonga');
+    INSERT INTO tokenizer_test VALUES ('I developed Groonga');
+    SELECT * FROM tokenizer_test WHERE title &@ 'develop';
+= PGroongaのステミング\n(未使用)
+  # RT
+  delimiter = [|]
+  title
+  I develop Groonga
+= PGroongaのステミング
+  # coderay sql
+    CREATE INDEX pgroonga_content_index
+              ON steming_test
+           USING pgroonga (title)
+            WITH (plugins='token_filters/stem',
+                  token_filters='TokenFilterStem');
+= PGroongaのステミング
+  # RT
+  delimiter = [|]
+  title
+  I develop Groonga
+  I am developing Groonga
+  I developed Groonga
+= 同義語
+同義語：同じ意味を持つ別の語
+= 同義語
+例えば\n
+「ミルク」と\n「牛乳」
+= 同義語
+意味が同じものはヒットしてほしい
+= 同義語展開
+ミルク -> \n
+ミルク OR 牛乳
+= PGroongaの同義語展開
+  # coderay sql
+    CREATE TABLE synonyms (
+      term text PRIMARY KEY,
+      synonyms text[]
+    );
+    CREATE INDEX synonyms_search ON synonyms USING pgroonga (term pgroonga.text_term_search_ops_v2);
+    INSERT INTO synonyms (term, synonyms) VALUES ('ミルク', ARRAY['ミルク', '牛乳']);
+    INSERT INTO synonyms (term, synonyms) VALUES ('牛乳', ARRAY['牛乳', 'ミルク']);
+    CREATE TABLE memos (
+      id integer,
+      content text
+    );
+    INSERT INTO memos VALUES (1, '牛乳石鹸');
+    INSERT INTO memos VALUES (2, 'ミルクジャム');
+    INSERT INTO memos VALUES (3, 'ストロベリー');
+    CREATE INDEX pgroonga_content_index ON memos USING pgroonga (content);
+    SELECT * FROM memos
+      WHERE
+        content &@~
+          pgroonga_query_expand('synonyms', 'term', 'synonyms', '牛乳');
+= 同義語展開
+  # RT
+  delimiter = [|]
+  id | content
+  1 | 牛乳石鹸
+  2 | ミルクジャム
+= 曖昧検索
+typo対策
+= 曖昧検索
+* 似たような語ならヒットする
+(完全一致じゃなくてもヒットする)
+= 曖昧検索
+「テノクロジー」で\n
+「テクノロジー」がヒット
+= PGroongaのfuzzy検索
+  # coderay sql
+    CREATE TABLE tags (
+      name text
+    );
+    CREATE INDEX tags_search ON tags USING pgroonga(name) WITH (tokenizer='');
+    INSERT INTO tags VALUES ('テクノロジー');
+    INSERT INTO tags VALUES ('テクニカル');
+    SELECT name FROM tags
+      WHERE
+        name &`
+          ('fuzzy_search(name, ' || pgroonga_escape('テノクロジー') || ',
+                         {"with_transposition": true,
+                          "max_distance": 1})');
+= 曖昧検索
+  # RT
+  delimiter = [|]
+  name
+  テクノロジー
+= PGroongaでランキング改善
+何を基準に\nランキングを\n決めるのか
+= PGroongaのスコアリング
+* TF(PGroongaのデフォルト)
+* TF-IDF
+= PGroongaのスコアリング\nTF(デフォルト)
+単語の((*出現数*))\nが大事
+= PGroongaのスコアリング\nTF(デフォルト)
+* 検索キーワードが文書内に多く含まれる文書のスコアーが高くなる
+= PGroongaのスコアリング\nTF-IDF
+単語の((*レア度*))\nが大事
+= PGroongaのスコアリング\nTF-IDF
+* 文書に出てくる頻度が高い\n(レア度低い)
+* 文書に出てくる頻度が低い\n(レア度高い)
+= PGroongaのスコアリング\nTF-IDF
+  # coderay sql
+    CREATE TABLE memos (
+      title text,
+      content text
+    );
+    CREATE INDEX pgroonga_memos_index
+        ON memos
+     USING pgroonga (content);
+    INSERT INTO memos VALUES ('PostgreSQL', 'PostgreSQLはリレーショナル・データベース管理システムです。');
+    INSERT INTO memos VALUES ('Groonga', 'Groongaは日本語対応の高速な全文検索エンジンです。');
+    INSERT INTO memos VALUES ('PGroonga', 'PGroongaはインデックスとしてGroongaを使うためのPostgreSQLの拡張機能です。');
+    INSERT INTO memos VALUES ('コマンドライン', 'groongaコマンドがあります。');
+    SELECT *, pgroonga_score(tableoid, ctid) AS score
+      FROM memos
+     WHERE content &@~
+       ('PostgreSQL OR 検索',
+        ARRAY[1],
+        ARRAY['scorer_tf_idf($index)'],
+        'pgroonga_memos_index')::pgroonga_full_text_search_condition_with_scorers
+     ORDER BY score DESC;
+= PGroongaのスコアリング\nTF-IDF
+  # RT
+  delimiter = [|]
+  title | score
+  Groonga    | 1.3862943649291992
+  PostgreSQL | 1
+  PGroonga   | 1
+= 参考資料
+* PGroonga自体の解説
+  * ((<URL:https://www.slideshare.net/kou/postgresql-conference-japan-2017>))