RubyGems - rabbit-slide-komainu8-postgresql-conference-japan-2021 - Versions diffs - 1.0.0 - Mend

rabbit-slide-komainu8-postgresql-conference-japan-2021 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

checksums.yaml +7 -0
data/.rabbit +1 -0
data/README.rd +42 -0
data/Rakefile +17 -0
data/config.yaml +31 -0
data/images/normalizer.png +0 -0
data/images/precision-expression.png +0 -0
data/images/precision-hight-recall-low.png +0 -0
data/images/precision-low-recall-hight.png +0 -0
data/images/precision-recall-1.png +0 -0
data/images/recall-expression.png +0 -0
data/images/search-result-01.png +0 -0
data/images/self-introduction.png +0 -0
data/images/tokenizer-tokenmecab.png +0 -0
data/images/tokenizer.png +0 -0
data/improve-search-result-with-pgroonga-overview.rab +520 -0
data/improve-search-result-with-pgroonga.rab +797 -0
data/pdf/postgresql-conference-japan-2021-improve-search-result-with-pgroonga.pdf +0 -0
data/theme.rb +5 -0
metadata +86 -0

data/improve-search-result-with-pgroonga.rab ADDED Viewed

@@ -0,0 +1,797 @@
+= PGroongaを使って\n全文検索結果を\nより良くする方法
+ : author
+    堀本 泰弘
+ : institution
+    株式会社クリアコード
+ : content-source
+    PostgreSQL Conference Japan 2021
+ : date
+    2021-11-12
+ : allotted-time
+    45m
+ : start-time
+    2021-11-12T16:10:00+09:00
+ : end-time
+    2021-11-12T16:55:00+09:00
+ : theme
+    .
+= 自己紹介
+  # image
+  # src = images/self-introduction.png
+  # relative_height = 107
+= 今日のテーマ
+検索結果の改善
+= 目次
+(1) 検索結果の評価指標
+(2) PGrooongaで検索結果の改善
+= 検索結果の評価指標
+よく検索結果が\n
+((*いまいち*))だ...\n
+という話を\n聞きます
+= 検索結果の評価指標
+  # image
+  # src = images/search-result-01.png
+  # relative_height = 100
+= いまいちな検索結果
+* 😞検索漏れ
+* 😞ノイズが多い
+* 😞有用な情報を探し出せない
+= 検索結果の評価指標
+(1) 適合率
+(2) 再現率
+(3) ランキング
+= 適合率
+  # image
+  # src = images/precision-expression.png
+  # relative_height = 55
+= 再現率
+  # image
+  # src = images/recall-expression.png
+  # relative_height = 60
+= 適合率と再現率
+具体例
+= 適合率と再現率
+Wikipediaで\n"キログラムの\n定義"を調べる
+= 適合率と再現率
+  # coderay sql
+  SELECT title FROM wikipedia where text &@~ 'キログラム 定義';
+                           title
+  --------------------------------------------------------
+   水
+   力
+   国際単位系
+    .
+    .
+    .
+  キログラム
+    .
+    .
+    .
+  (229 rows)
+= 適合率と再現率
+適合率\n
+2/229=0.87%
+= 適合率と再現率
+*ヒットしなかったけど\n欲しかった記事
+  * SI基本単位の再定義
+  * 国際キログラム原器
+= 適合率と再現率
+再現率\n
+2/4=50.0%
+= 適合率と再現率の重要度
+Web検索\n
+適合率 > 再現率
+= 適合率と再現率の重要度
+特許検索\n
+適合率 < 再現率
+= ランキング
+検索結果の順序
+= ランキング
+ユーザーは\n((*上位数件*))\nしか見ない
+= PGroongaで検索結果の改善
+* PGroongaで適合率/再現率改善
+  * ノーマライザーを使う
+  * トークナイザーを使う
+  * ステミングを使う
+  * fuzzy検索を使う
+  * 同義語展開を使う
+= PGroongaで検索結果の改善
+* PGroongaでランキング改善
+  * スコアラーを使う
+= ノーマライズ
+ノーマライズ\n(正規化)とは？
+= ノーマライズ
+  # image
+  # src = images/normalizer.png
+  # relative_height = 90
+= ノーマライズ
+例) カタカナをひらがなに正規化
+* きろぐらむ -> きろぐらむ
+* キログラム -> きろぐらむ
+= PGroongaのノーマライザー\n(デフォルト)
+  # coderay sql
+  CREATE TABLE normalizer_test (
+    id integer,
+    content text
+  );
+  CREATE INDEX pgroonga_content_index ON normalizer_test USING pgroonga (content);
+  INSERT INTO normalizer_test VALUES (1, 'キログラム');
+  INSERT INTO normalizer_test VALUES (2, 'きろぐらむ');
+  INSERT INTO normalizer_test VALUES (3, '㌕');
+  INSERT INTO normalizer_test VALUES (4, 'ｷﾛｸﾞﾗﾑ');
+  INSERT INTO normalizer_test VALUES (5, 'kiroguramu');
+  INSERT INTO normalizer_test VALUES (6, 'ｋｉｒｏｇｕｒａｍｕ');
+  SELECT * FROM normalizer_test WHERE content &@ 'kiroguramu';
+= PGroongaのノーマライザー\n(デフォルト)
+  # coderay sql
+  SELECT * FROM normalizer_test WHERE content &@ 'kiroguramu';
+   id |       content
+  ----+----------------------
+    5 | kiroguramu
+    6 | ｋｉｒｏｇｕｒａｍｕ
+  (2 rows)
+= PGroongaのノーマライザー\n(デフォルト)
+* ｋｉｒｏｇｕｒａｍｕ
+↓
+* kiroguramu
+= PGroongaのノーマライザー\n(デフォルト)
+* NFKCを使った正規化
+  * テキストエンコードがUTF-8の場合
+= PostgreSQLのノーマライザー\n(デフォルト)
+  # coderay sql
+  SELECT * FROM normalizer_test
+    WHERE content = (SELECT normalize('ｋｉｒｏｇｕｒａｍｕ', NFKC));
+   id |  content
+  ----+------------
+    5 | kiroguramu
+  (1 row)
+= ノーマライザーの変更
+適合率/再現率を上げたい
+= PGroongaのノーマライザー\n(NormalizerNFKC130)
+  # coderay sql
+  DROP INDEX pgroonga_content_index;
+  CREATE INDEX pgroonga_content_index
+            ON normalizer_test
+         USING pgroonga (content)
+          WITH (normalizers='NormalizerNFKC130("unify_to_romaji", true)');
+  SELECT * FROM normalizer_test WHERE content &@ 'kiroguramu';
+= PGroongaのノーマライザー\n(NormalizerNFKC130)
+  # coderay sql
+  SELECT * FROM normalizer_test WHERE content &@ 'kiroguramu';
+   id |       content
+  ----+----------------------
+    1 | キログラム
+    2 | きろぐらむ
+    3 | ㌕
+    4 | ｷﾛｸﾞﾗﾑ
+    5 | kiroguramu
+    6 | ｋｉｒｏｇｕｒａｍｕ
+  (6 rows)
+= PGroongaのノーマライザー\n(NormalizerNFKC130)
+* unify_to_romaji
+  * ローマ字に正規化\nローマ字で読んだときに同じ語は同一視する
+  * (e.g. 「kiroguramu」と「きろぐらむ」を同一視。ローマ字読みが同じだから)
+= オプションの指定方法
+  # coderay sql
+  CREATE INDEX pgroonga_content_index
+            ON normalizer_test
+         USING pgroonga (content)
+          WITH (normalizers='NormalizerNFKC130("unify_to_romaji", true)');
+= 複数オプションの指定方法
+  # coderay sql
+  CREATE INDEX pgroonga_content_index
+            ON normalizer_test
+         USING pgroonga (content)
+          WITH (normalizers='NormalizerNFKC130("unify_to_romaji", true,
+                                               "unify_hyphen", true)');
+= 指定可能オプション一覧
+* NormalizerNFKC130の\nオプション一覧
+  * ((<URL:https://groonga.org/ja/docs/reference/normalizers/normalizer_nfkc130.html#syntax>))
+= トークナイズ
+  # image
+  # src = images/tokenizer.png
+  # relative_height = 80
+= PGroongaのトークナイザー\n(デフォルト)
+  # coderay sql
+  CREATE TABLE tokenizer_test (
+    title text
+  );
+  CREATE INDEX pgroonga_content_index ON tokenizer_test USING pgroonga (title);
+  INSERT INTO tokenizer_test VALUES ('京都府 1日目 金閣寺');
+  INSERT INTO tokenizer_test VALUES ('京都府 2日目 嵐山');
+  INSERT INTO tokenizer_test VALUES ('京都府 3日目 天橋立');
+  INSERT INTO tokenizer_test VALUES ('東京都 1日目 スカイツリー');
+  INSERT INTO tokenizer_test VALUES ('東京都 2日目 浅草寺');
+  INSERT INTO tokenizer_test VALUES ('北海道 1日目 函館');
+  INSERT INTO tokenizer_test VALUES ('北海道 2日目 トマム');
+  INSERT INTO tokenizer_test VALUES ('北海道 3日目 富良野');
+  INSERT INTO tokenizer_test VALUES ('北海道 4日目 美瑛');
+  INSERT INTO tokenizer_test VALUES ('北海道 5日目 旭川');
+  SELECT * FROM tokenizer_test WHERE title &@~ '京都';
+= PGroongaのトークナイザー\n(デフォルト)
+  # coderay sql
+  SELECT * FROM tokenizer_test WHERE title &@~ '京都';
+                  title
+  --------------------------------------
+   京都府 1日目 金閣寺
+   京都府 2日目 嵐山
+   京都府 3日目 天橋立
+   東京都 1日目 スカイツリー
+   東京都 2日目 浅草寺
+  (5 rows)
+= トークナイザーの変更
+適合率を上げたい
+= PGroongaのトークナイザー\n(TokenMecab)
+  # coderay sql
+  CREATE INDEX pgroonga_content_index
+            ON tokenizer_test
+         USING pgroonga (title)
+          WITH (tokenizer='TokenMecab');
+  SELECT * FROM tokenizer_test WHERE title &@~ '京都';
+= PGroongaのトークナイザー\n(TokenMecab)
+  # coderay sql
+  SELECT * FROM tokenizer_test WHERE title &@~ '京都';
+                  title
+  --------------------------------------
+   京都府 1日目 金閣寺
+   京都府 2日目 嵐山
+   京都府 3日目 天橋立
+  (3 rows)
+= PGroongaのトークナイザー\n(TokenMecab)
+  # image
+  # src = images/tokenizer-tokenmecab.png
+  # relative_height = 80
+= トークナイザーの指定方法
+  # coderay sql
+  CREATE INDEX pgroonga_content_index
+            ON tokenizer_test
+         USING pgroonga (title)
+          WITH (tokenizer='TokenMecab');
+= 指定可能トークナイザー一覧
+* 使用可能なトークナイザー
+  * ((<URL:https://groonga.org/ja/docs/reference/tokenizers.html>))
+= ステミング(語幹処理)
+意味は同じだが\n語の形が変わる\n(語形変化)
+= ステミング(語幹処理)
+例えば
+* develop(原形)
+* developed(過去形)
+* developing(進行形)
+意味は同じだが語形は異なる
+= ステミング(語幹処理)
+語幹：単語の変化しない部分
+= ステミング(語幹処理)
+(('tag:left'))
+((*develop*))\n
+((*develop*))ed\n
+((*develop*))ing
+= ステミング(語幹処理)
+語幹で検索\n
+->語形変化後の語も検索できる
+= PGroongaのステミング\n(未使用)
+  # coderay sql
+  CREATE TABLE steming_test (
+    title text
+  );
+  CREATE INDEX pgroonga_content_index ON steming_test USING pgroonga (title);
+  INSERT INTO steming_test VALUES ('I develop Groonga');
+  INSERT INTO steming_test VALUES ('I am developing Groonga');
+  INSERT INTO steming_test VALUES ('I developed Groonga');
+  SELECT * FROM steming_test WHERE title &@~ 'develop';
+= PGroongaのステミング\n(未使用)
+  # coderay sql
+  SELECT * FROM steming_test WHERE title &@~ 'develop';
+         title
+  -------------------
+   I develop Groonga
+  (1 row)
+= PGroongaのステミング
+  # coderay sql
+  CREATE TABLE steming_test (
+    title text
+  );
+  CREATE INDEX pgroonga_content_index
+            ON steming_test
+         USING pgroonga (title)
+          WITH (plugins='token_filters/stem',
+                token_filters='TokenFilterStem');
+  INSERT INTO steming_test VALUES ('I develop Groonga');
+  INSERT INTO steming_test VALUES ('I am developing Groonga');
+  INSERT INTO steming_test VALUES ('I developed Groonga');
+  SELECT * FROM steming_test WHERE title &@~ 'develop';
+= PGroongaのステミング
+  # coderay sql
+  SELECT * FROM steming_test WHERE title &@~ 'develop';
+            title
+  -------------------------
+   I develop Groonga
+   I am developing Groonga
+   I developed Groonga
+  (3 rows)
+= 高度な話題
+処理順序
+(1) ノーマライズ
+(2) トークナイズ
+(3) トークンフィルター
+= 高度な話題
+処理順序が問題になることがある
+= 高度な話題
+TokenMecab と unify_kana
+= 高度な話題
+* 「ワールドカップ」->\n「わーるどかっぷ」
+= 高度な話題
+* 「ワールドカップ」 ->\n「ワールドカップ」
+* 「わーるどかっぷ」 ->\n「わ/ー/る/ど/かっぷ」
+= 高度な話題
+処理順序
+(1) ノーマライズ
+(2) トークナイズ
+(3) ((*トークンフィルター*))
+= 高度な話題
+TokenFilterNFKC100を使う
+= 高度な話題
+* TokenFilterNFKC100
+  * 働きは、NormalizerNFKC100と同じ
+  * トークナイズ後にノーマライズしたいときに使う
+= 同義語
+同義語：同じ意味を持つ別の語
+= 同義語
+例えば\n
+「ミルク」と\n「牛乳」
+= 同義語
+意味が同じものはヒットしてほしい
+= 同義語展開
+ミルク -> \n
+ミルク OR 牛乳
+= PGroongaの同義語展開
+  # coderay sql
+  CREATE TABLE synonyms (
+    term text PRIMARY KEY,
+    synonyms text[]
+  );
+  CREATE INDEX synonyms_search ON synonyms USING pgroonga (term pgroonga.text_term_search_ops_v2);
+  INSERT INTO synonyms (term, synonyms) VALUES ('ミルク', ARRAY['ミルク', '牛乳']);
+  INSERT INTO synonyms (term, synonyms) VALUES ('牛乳', ARRAY['牛乳', 'ミルク']);
+  CREATE TABLE memos (
+    id integer,
+    content text
+  );
+  INSERT INTO memos VALUES (1, '牛乳石鹸');
+  INSERT INTO memos VALUES (2, 'ミルクジャム');
+  INSERT INTO memos VALUES (3, 'ストロベリー');
+  CREATE INDEX pgroonga_content_index ON memos USING pgroonga (content);
+  SELECT * FROM memos
+    WHERE
+      content &@~
+        pgroonga_query_expand('synonyms', 'term', 'synonyms', '牛乳');
+= 同義語展開
+  # coderay sql
+  SELECT * FROM memos
+    WHERE
+      content &@~
+        pgroonga_query_expand('synonyms', 'term', 'synonyms', '牛乳');
+   id |      content
+  ----+--------------------
+    1 | 牛乳石鹸
+    2 | ミルクジャム
+  (2 rows)
+= fuzzy検索
+typo対策
+= fuzzy検索
+* 似たような語ならヒットする
+(完全一致じゃなくてもヒットする)
+= fuzzy検索
+「テノクロジー」で\n
+「テクノロジー」がヒット
+= fuzzy検索\n編集距離
+* Aを何回操作するとBになるか
+* 操作とは？
+  * 文字の挿入・削除・置換・隣接文字交換
+* 操作回数を距離とする
+= fuzzy検索\n編集距離
+* A：テ((*ノク*))ロジー
+* 隣接文字交換：((*ク*))⇔((*ノ*))
+* B：テ((*クノ*))ロジー
+(('tag:center'))
+(('tag:x-large'))
+編集距離：1
+= PGroongaのfuzzy検索
+  # coderay sql
+  CREATE TABLE tags (
+    name text
+  );
+  CREATE INDEX tags_search ON tags USING pgroonga(name) WITH (tokenizer='');
+  INSERT INTO tags VALUES ('テクノロジー');
+  INSERT INTO tags VALUES ('テクニカル');
+  SELECT name FROM tags
+    WHERE
+      name &`
+        ('fuzzy_search(name, ' || pgroonga_escape('テノクロジー') || ',
+                       {"with_transposition": true,
+                        "max_distance": 1})');
+= fuzzy検索
+  # coderay sql
+  SELECT name FROM tags
+    WHERE
+      name &`
+        ('fuzzy_search(name, ' || pgroonga_escape('テノクロジー') || ',
+                       {"with_transposition": true,
+                        "max_distance": 1})');
+          name
+  --------------------
+   テクノロジー
+  (1 row)
+= PGroongaでランキング改善
+何を基準に\nランキングを\n決めるのか
+= PGroongaのスコアリング
+* TF(デフォルト)
+* TF-IDF
+* TF at Most
+= PGroongaのスコアリング\nTF(デフォルト)
+単語の((*出現数*))\nが大事
+= PGroongaのスコアリング\nTF(デフォルト)
+* 検索キーワードが文書内に多く含まれる文書のスコアーが高くなる
+= PGroongaのスコアリング\nTF(デフォルト)
+  # coderay sql
+  CREATE TABLE memos (
+    title text,
+    content text
+  );
+  CREATE INDEX pgroonga_memos_index
+      ON memos
+   USING pgroonga (content);
+  INSERT INTO memos VALUES ('PostgreSQL', 'PostgreSQLはリレーショナル・データベース管理システムです。');
+  INSERT INTO memos VALUES ('Groonga', 'Groongaは日本語対応の高速な全文検索エンジンです。');
+  INSERT INTO memos VALUES ('PGroonga', 'PGroongaはインデックスとしてGroongaを使うためのPostgreSQLの拡張機能です。');
+  INSERT INTO memos VALUES ('PGroonga1', 'PGroongaは全文検索エンジンGroongaを使っています。');
+  INSERT INTO memos VALUES ('PGroonga2', 'Groonga、Groonga、Groonga、Groonga、Groonga');
+= PGroongaのスコアリング\nTF(デフォルト)
+  # coderay sql
+  SELECT *, pgroonga_score(tableoid, ctid) AS score
+    FROM memos
+   WHERE content &@~ 'Groonga'
+   ORDER BY score DESC;
+     title   |                                  content                                  | score
+  -----------+---------------------------------------------------------------------------+-------
+   PGroonga2 | Groonga、Groonga、Groonga、Groonga、Groonga                               |     5
+   Groonga   | Groongaは日本語対応の高速な全文検索エンジンです。                         |     1
+   PGroonga  | PGroongaはインデックスとしてGroongaを使うためのPostgreSQLの拡張機能です。 |     1
+   PGroonga1 | PGroongaは全文検索エンジンGroongaを使っています。                         |     1
+  (4 rows)
+= PGroongaのスコアリング\nTF-IDF
+単語の((*レア度*))\nが大事
+= PGroongaのスコアリング\nTF-IDF
+* 文書に出てくる頻度が高い\n(レア度低い)
+* 文書に出てくる頻度が低い\n(レア度高い)
+= PGroongaのスコアリング\nTF-IDF
+  # coderay sql
+  SELECT *, pgroonga_score(tableoid, ctid) AS score
+    FROM memos
+   WHERE content &@~
+     ('Groonga OR 全文検索',
+      ARRAY[1],
+      ARRAY['scorer_tf_idf($index)'],
+      'pgroonga_memos_index')::pgroonga_full_text_search_condition_with_scorers
+   ORDER BY score DESC;
+     title   |                                  content                                  | score
+  -----------+---------------------------------------------------------------------------+-------
+   Groonga   | Groongaは日本語対応の高速な全文検索エンジンです。                         |     2
+   PGroonga1 | PGroongaは全文検索エンジンGroongaを使っています。                         |     2
+   PGroonga  | PGroongaはインデックスとしてGroongaを使うためのPostgreSQLの拡張機能です。 |     1
+   PGroonga2 | Groonga、Groonga、Groonga、Groonga、Groonga                               |     1
+  (4 rows)
+= PGroongaのスコアリング\nTF at Most
+スコアーの\n((*最大値*))を制限
+= PGroongaのスコアリング\nTF at Most
+  # coderay sql
+  SELECT *, pgroonga_score(tableoid, ctid) AS score
+    FROM memos
+  WHERE content &@~ 'Groonga OR PostgreSQL'
+  ORDER BY score DESC;
+     title    |                                  content                                  | score
+  ------------+---------------------------------------------------------------------------+-------
+   PGroonga2  | Groonga、Groonga、Groonga、Groonga、Groonga                               |     5
+   PGroonga   | PGroongaはインデックスとしてGroongaを使うためのPostgreSQLの拡張機能です。 |     2
+   Groonga    | Groongaは日本語対応の高速な全文検索エンジンです。                         |     1
+   PGroonga1  | PGroongaは全文検索エンジンGroongaを使っています。                         |     1
+   PostgreSQL | PostgreSQLはリレーショナル・データベース管理システムです。                |     1
+  (5 rows)
+= PGroongaのスコアリング\nTF at Most
+  # coderay sql
+  SELECT *, pgroonga_score(tableoid, ctid) AS score
+    FROM memos
+   WHERE content &@~
+     ('Groonga OR 全文検索',
+      ARRAY[1],
+      ARRAY['scorer_tf_at_most($index, 1)'],
+      'pgroonga_memos_index')::pgroonga_full_text_search_condition_with_scorers
+   ORDER BY score DESC;
+     title   |                                  content                                  | score
+  -----------+---------------------------------------------------------------------------+-------
+   Groonga   | Groongaは日本語対応の高速な全文検索エンジンです。                         |     2
+   PGroonga1 | PGroongaは全文検索エンジンGroongaを使っています。                         |     2
+   PGroonga  | PGroongaはインデックスとしてGroongaを使うためのPostgreSQLの拡張機能です。 |     1
+   PGroonga2 | Groonga、Groonga、Groonga、Groonga、Groonga                               |     1
+  (4 rows)
+= 参考資料
+* PGroonga自体の解説
+  * ((<URL:https://www.slideshare.net/kou/postgresql-conference-japan-2017>))
+= 参考資料
+* ノーマライザーのオプション一覧
+  * ((<URL:https://groonga.org/ja/docs/reference/normalizers/normalizer_nfkc130.html#parameters>))
+= 参考資料
+* 使用可能なトークナイザー一覧
+  * ((<URL:https://groonga.org/ja/docs/reference/tokenizers.html>))
+= 参考資料
+* ステミングの使用方法
+  * ((<URL:https://pgroonga.github.io/ja/reference/create-index-using-pgroonga.html>))
+= 参考資料
+* 同義語検索の方法
+  * ((<URL:https://pgroonga.github.io/ja/how-to/synonyms.html>))
+= 参考資料
+* 使用可能なスコアラー一覧
+  * ((<URL:https://groonga.org/ja/docs/reference/scorer.html#built-in-scorers>))
+= 参考資料
+* スコアラーの設定方法
+  * ((<URL:https://pgroonga.github.io/ja/reference/operators/query-v2.html>))