PyPI - elaws-parser - Versions diffs - 0.1.0__tar.gz - Mend

elaws-parser 0.1.0__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (16) hide show

elaws_parser-0.1.0/PKG-INFO +149 -0
elaws_parser-0.1.0/README.md +119 -0
elaws_parser-0.1.0/pyproject.toml +49 -0
elaws_parser-0.1.0/setup.cfg +4 -0
elaws_parser-0.1.0/src/elaws_parser/__init__.py +19 -0
elaws_parser-0.1.0/src/elaws_parser/hourei_apiv2.py +128 -0
elaws_parser-0.1.0/src/elaws_parser/law_extraction.py +484 -0
elaws_parser-0.1.0/src/elaws_parser/law_extraction_v2.py +739 -0
elaws_parser-0.1.0/src/elaws_parser/text_converter.py +407 -0
elaws_parser-0.1.0/src/elaws_parser/yaml_converter.py +727 -0
elaws_parser-0.1.0/src/elaws_parser.egg-info/PKG-INFO +149 -0
elaws_parser-0.1.0/src/elaws_parser.egg-info/SOURCES.txt +14 -0
elaws_parser-0.1.0/src/elaws_parser.egg-info/dependency_links.txt +1 -0
elaws_parser-0.1.0/src/elaws_parser.egg-info/requires.txt +16 -0
elaws_parser-0.1.0/src/elaws_parser.egg-info/top_level.txt +1 -0
elaws_parser-0.1.0/tests/test_placeholder.py +2 -0

elaws_parser-0.1.0/PKG-INFO ADDED Viewed

@@ -0,0 +1,149 @@
+Metadata-Version: 2.4
+Name: elaws-parser
+Version: 0.1.0
+Summary: e-Gov法令検索の法令API v2を利用して法令データを取得し、テキスト形式およびYAML形式に変換するためのPythonツール群です。
+Author-email: ToAmano <amanotomohito040@gmail.com>
+License: MIT
+Project-URL: Homepage, https://github.com/ToAmano/elaws-parser
+Project-URL: Bug Tracker, https://github.com/ToAmano/elaws-parser/issues
+Classifier: Programming Language :: Python :: 3
+Classifier: License :: OSI Approved :: MIT License
+Classifier: Operating System :: OS Independent
+Classifier: Topic :: Text Processing :: Markup :: XML
+Classifier: Topic :: Software Development :: Libraries :: Python Modules
+Requires-Python: >=3.9
+Description-Content-Type: text/markdown
+Requires-Dist: requests
+Provides-Extra: llm
+Requires-Dist: langchain>=0.1; extra == "llm"
+Requires-Dist: langchain-openai>=0.1; extra == "llm"
+Requires-Dist: langgraph>=0.0.30; extra == "llm"
+Requires-Dist: pydantic>=2.0; extra == "llm"
+Requires-Dist: pyyaml>=6.0; extra == "llm"
+Provides-Extra: dev
+Requires-Dist: pytest; extra == "dev"
+Requires-Dist: pre-commit; extra == "dev"
+Requires-Dist: black; extra == "dev"
+Requires-Dist: isort; extra == "dev"
+Requires-Dist: mypy; extra == "dev"
+Requires-Dist: flake8; extra == "dev"
+# e-Gov法令API v2 ラッパー & 構造化コンバーター (`elaws-parser`)
+このリポジトリは、[e-Gov法令検索](https://elaws.e-gov.go.jp/)の[法令API v2](https://developer.e-gov.go.jp/contents/law_api_v2_2)を利用して法令データを取得し、人間や機械が扱いやすいテキスト形式およびYAML形式に変換・抽出するためのPythonパッケージです。
+---
+## 主な機能
+- **法令データの取得**: 法令タイトルをキーに、e-Gov法令API v2から法令のXMLデータを直接取得します。
+- **XMLからテキストへの変換**: 取得した法令XMLを、読みやすいプレーンテキスト形式に構造を保ったまま変換します。
+- **XMLからYAMLへの変換**: 法令XMLを、構造が分かりやすいYAML形式に変換します。プログラムでのパースや分析が容易になります。
+- **LLM/LangGraphによる条文抽出**: LangGraphと大規模言語モデル（LLM）を活用して、特定の法令や施行規則から関連する条項を抽出し、要約・比較分析を行います。
+---
+## ディレクトリ構成
+```
+.
+├── pyproject.toml          # パッケージのビルド・設定ファイル (setuptools)
+├── requirements.txt        # 基本依存ライブラリ
+├── src/
+│   └── elaws_parser/         # パッケージソース
+│       ├── __init__.py     # パッケージエントリーポイント（公開API定義）
+│       ├── hourei_apiv2.py # e-Gov法令API v2 クライアント
+│       ├── text_converter.py # XMLからTextへの変換ロジック
+│       ├── yaml_converter.py # XMLからYAMLへの変換ロジック
+│       ├── law_extraction.py # LLMを用いた法令抽出（基本機能）
+│       └── law_extraction_v2.py # LLMを用いた法令抽出（YAML構造・LangGraph版）
+├── notebooks/
+│   └── examples/           # パッケージの動作確認・検証用 Jupyter Notebook群
+└── data/                   # 検証用に取得・生成された法令データ（xml, yaml, txt 等）
+```
+---
+## セットアップ
+### 1. リポジトリのクローン
+```bash
+git clone <repository_url>
+cd <repository_name>
+```
+### 2. パッケージのインストール
+本パッケージは、用途に合わせてインストールオプションを選択できます。
+#### 基本機能（API取得・Text/YAML変換）のみを使用する場合:
+```bash
+pip install -e .
+```
+#### LLM/LangGraphを用いた抽出・要約機能も使用する場合:
+```bash
+pip install -e .[llm]
+```
+---
+## 使用方法
+### 1. 法令データの取得と変換（基本機能）
+法令名（例：「電気事業法」）を指定して、XMLデータを取得し、テキスト形式とYAML形式で保存する基本的な例です。
+```python
+from elaws_parser import (
+    get_lawid_from_lawtitle,
+    get_lawdata_from_law_id,
+    get_lawdata_from_lawname,
+    save_xml_string_to_file,
+    convert_xml_to_text,
+    convert_xml_to_yaml,
+)
+# 1. 法令名から直接法令のXMLデータを取得
+law_title = "電気事業法"
+xml_string = get_lawdata_from_lawname(law_title)
+# 2. XMLをファイルに保存
+save_xml_string_to_file(xml_string, f"data/{law_title}.xml")
+# 3. Text形式に変換して保存
+text_content = convert_xml_to_text(xml_string)
+with open(f"data/{law_title}.txt", "w", encoding="utf-8") as f:
+    f.write(text_content)
+# 4. YAML形式に変換して保存
+yaml_content = convert_xml_to_yaml(xml_string)
+with open(f"data/{law_title}.yaml", "w", encoding="utf-8") as f:
+    f.write(yaml_content)
+```
+### 2. LLMを用いた関連条文の抽出・要約
+LLMおよびLangGraphを用いた高度な抽出機能のサンプルです（要 `pip install -e .[llm]`）。
+```python
+from langchain_openai import ChatOpenAI
+from elaws_parser import LegalExtractionConfig, create_legal_extraction_system
+# LLMと設定の初期化
+llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.1)
+config = LegalExtractionConfig(llm=llm, prompts_dir="prompts")
+system = create_legal_extraction_system(config)
+# ※具体的な実行方法は notebooks/examples/ のノートブックを参照してください。
+```
+### 3. Jupyter Notebookによる実例
+より具体的な使用方法や動作テストの例については、`notebooks/examples/` ディレクトリ配下にある各種ノートブックを参照してください。
+- **[examples01_hourei_xml_converter.ipynb](notebooks/examples/examples01_hourei_xml_converter.ipynb)**: 基本的な変換機能の実例
+- **[test_houreiapiv2.ipynb](notebooks/examples/test_houreiapiv2.ipynb)**: APIラッパーのテスト
+- **[test_law_extraction_v2.ipynb](notebooks/examples/test_law_extraction_v2.ipynb)**: LangGraphを用いた条文抽出機能の実例
+---
+## 参考文献
+- [e-Gov法令検索 法令API v2 仕様書 (Swagger UI)](https://laws.e-gov.go.jp/api/2/swagger-ui)

elaws_parser-0.1.0/README.md ADDED Viewed

@@ -0,0 +1,119 @@
+# e-Gov法令API v2 ラッパー & 構造化コンバーター (`elaws-parser`)
+このリポジトリは、[e-Gov法令検索](https://elaws.e-gov.go.jp/)の[法令API v2](https://developer.e-gov.go.jp/contents/law_api_v2_2)を利用して法令データを取得し、人間や機械が扱いやすいテキスト形式およびYAML形式に変換・抽出するためのPythonパッケージです。
+---
+## 主な機能
+- **法令データの取得**: 法令タイトルをキーに、e-Gov法令API v2から法令のXMLデータを直接取得します。
+- **XMLからテキストへの変換**: 取得した法令XMLを、読みやすいプレーンテキスト形式に構造を保ったまま変換します。
+- **XMLからYAMLへの変換**: 法令XMLを、構造が分かりやすいYAML形式に変換します。プログラムでのパースや分析が容易になります。
+- **LLM/LangGraphによる条文抽出**: LangGraphと大規模言語モデル（LLM）を活用して、特定の法令や施行規則から関連する条項を抽出し、要約・比較分析を行います。
+---
+## ディレクトリ構成
+```
+.
+├── pyproject.toml          # パッケージのビルド・設定ファイル (setuptools)
+├── requirements.txt        # 基本依存ライブラリ
+├── src/
+│   └── elaws_parser/         # パッケージソース
+│       ├── __init__.py     # パッケージエントリーポイント（公開API定義）
+│       ├── hourei_apiv2.py # e-Gov法令API v2 クライアント
+│       ├── text_converter.py # XMLからTextへの変換ロジック
+│       ├── yaml_converter.py # XMLからYAMLへの変換ロジック
+│       ├── law_extraction.py # LLMを用いた法令抽出（基本機能）
+│       └── law_extraction_v2.py # LLMを用いた法令抽出（YAML構造・LangGraph版）
+├── notebooks/
+│   └── examples/           # パッケージの動作確認・検証用 Jupyter Notebook群
+└── data/                   # 検証用に取得・生成された法令データ（xml, yaml, txt 等）
+```
+---
+## セットアップ
+### 1. リポジトリのクローン
+```bash
+git clone <repository_url>
+cd <repository_name>
+```
+### 2. パッケージのインストール
+本パッケージは、用途に合わせてインストールオプションを選択できます。
+#### 基本機能（API取得・Text/YAML変換）のみを使用する場合:
+```bash
+pip install -e .
+```
+#### LLM/LangGraphを用いた抽出・要約機能も使用する場合:
+```bash
+pip install -e .[llm]
+```
+---
+## 使用方法
+### 1. 法令データの取得と変換（基本機能）
+法令名（例：「電気事業法」）を指定して、XMLデータを取得し、テキスト形式とYAML形式で保存する基本的な例です。
+```python
+from elaws_parser import (
+    get_lawid_from_lawtitle,
+    get_lawdata_from_law_id,
+    get_lawdata_from_lawname,
+    save_xml_string_to_file,
+    convert_xml_to_text,
+    convert_xml_to_yaml,
+)
+# 1. 法令名から直接法令のXMLデータを取得
+law_title = "電気事業法"
+xml_string = get_lawdata_from_lawname(law_title)
+# 2. XMLをファイルに保存
+save_xml_string_to_file(xml_string, f"data/{law_title}.xml")
+# 3. Text形式に変換して保存
+text_content = convert_xml_to_text(xml_string)
+with open(f"data/{law_title}.txt", "w", encoding="utf-8") as f:
+    f.write(text_content)
+# 4. YAML形式に変換して保存
+yaml_content = convert_xml_to_yaml(xml_string)
+with open(f"data/{law_title}.yaml", "w", encoding="utf-8") as f:
+    f.write(yaml_content)
+```
+### 2. LLMを用いた関連条文の抽出・要約
+LLMおよびLangGraphを用いた高度な抽出機能のサンプルです（要 `pip install -e .[llm]`）。
+```python
+from langchain_openai import ChatOpenAI
+from elaws_parser import LegalExtractionConfig, create_legal_extraction_system
+# LLMと設定の初期化
+llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.1)
+config = LegalExtractionConfig(llm=llm, prompts_dir="prompts")
+system = create_legal_extraction_system(config)
+# ※具体的な実行方法は notebooks/examples/ のノートブックを参照してください。
+```
+### 3. Jupyter Notebookによる実例
+より具体的な使用方法や動作テストの例については、`notebooks/examples/` ディレクトリ配下にある各種ノートブックを参照してください。
+- **[examples01_hourei_xml_converter.ipynb](notebooks/examples/examples01_hourei_xml_converter.ipynb)**: 基本的な変換機能の実例
+- **[test_houreiapiv2.ipynb](notebooks/examples/test_houreiapiv2.ipynb)**: APIラッパーのテスト
+- **[test_law_extraction_v2.ipynb](notebooks/examples/test_law_extraction_v2.ipynb)**: LangGraphを用いた条文抽出機能の実例
+---
+## 参考文献
+- [e-Gov法令検索 法令API v2 仕様書 (Swagger UI)](https://laws.e-gov.go.jp/api/2/swagger-ui)

elaws_parser-0.1.0/pyproject.toml ADDED Viewed

@@ -0,0 +1,49 @@
+[build-system]
+requires = ["setuptools>=61.0"]
+build-backend = "setuptools.build_meta"
+[project]
+name = "elaws-parser"
+version = "0.1.0"
+description = "e-Gov法令検索の法令API v2を利用して法令データを取得し、テキスト形式およびYAML形式に変換するためのPythonツール群です。"
+readme = "README.md"
+requires-python = ">=3.9"
+license = { text = "MIT" }
+authors = [
+  { name = "ToAmano", email = "amanotomohito040@gmail.com" },
+]
+classifiers = [
+    "Programming Language :: Python :: 3",
+    "License :: OSI Approved :: MIT License",
+    "Operating System :: OS Independent",
+    "Topic :: Text Processing :: Markup :: XML",
+    "Topic :: Software Development :: Libraries :: Python Modules",
+]
+dependencies = [
+    "requests",
+]
+[project.optional-dependencies]
+llm = [
+    "langchain>=0.1",
+    "langchain-openai>=0.1",
+    "langgraph>=0.0.30",
+    "pydantic>=2.0",
+    "pyyaml>=6.0",
+]
+dev = [
+    "pytest",
+    "pre-commit",
+    "black",
+    "isort",
+    "mypy",
+    "flake8",
+]
+[project.urls]
+"Homepage" = "https://github.com/ToAmano/elaws-parser"
+"Bug Tracker" = "https://github.com/ToAmano/elaws-parser/issues"
+[tool.setuptools.packages.find]
+where = ["src"]

elaws_parser-0.1.0/setup.cfg ADDED Viewed

@@ -0,0 +1,4 @@
+[egg_info]
+tag_build =
+tag_date = 0

elaws_parser-0.1.0/src/elaws_parser/__init__.py ADDED Viewed

@@ -0,0 +1,19 @@
+from .hourei_apiv2 import (
+    get_lawid_from_lawtitle,
+    get_lawdata_from_law_id,
+    get_lawdata_from_lawname,
+    save_xml_string_to_file,
+    extract_sections_from_xml,
+)
+from .text_converter import convert_xml_to_text, LawXmlParser
+from .yaml_converter import convert_xml_to_yaml, LawToYamlConverter
+# LLM/LangGraph機能はオプショナル依存関係のため、インストールされていない場合は無視する
+try:
+    from .law_extraction_v2 import (
+        LegalExtractionConfig,
+        create_legal_extraction_system,
+        YamlArticleExtractor,
+    )
+except ImportError:
+    pass

elaws_parser-0.1.0/src/elaws_parser/hourei_apiv2.py ADDED Viewed

@@ -0,0 +1,128 @@
+"""
+eGovのAPI v2を利用して，法令を取得するコード
+取得した法令のxml構造を解析して，必要な情報を返す．
+"""
+# TODO :: パーサーは，textのパーサーとyamlのパーサー
+from __future__ import annotations
+from functools import lru_cache
+from typing import Dict, Literal
+from xml.etree import ElementTree
+import requests
+@lru_cache
+def get_lawid_from_lawtitle(
+    law_title: str, *, if_exact: bool = True
+) -> str | Dict[str, str]:
+    """APIから法令タイトルでヒットする法令IDを取得(完全一致のみ)"""
+    url = "https://laws.e-gov.go.jp/api/2/laws"
+    r = requests.get(url, params={"response_format": "xml", "law_title": law_title})
+    # XMLデータの解析
+    root = ElementTree.fromstring(r.content.decode(encoding="utf-8"))
+    laws_elem = root.find("laws")
+    if laws_elem is None:
+        print("Error: 'laws' element not found in response.")
+        return {}
+    counter = 0
+    law_dict = {}  # 辞書{名称: 法令番号}の作成
+    for law in laws_elem.findall("law"):  # loop over <law> elements
+        counter += 1
+        law_info = law.find("law_info")
+        revision_info = law.find("revision_info")
+        if law_info is None or revision_info is None:
+            continue  # skip incomplete entries
+        law_id: str = law_info.findtext("law_id", default="(no id)")
+        law_num: str = law_info.findtext("law_num", default="(no number)")
+        lawtitle: str = revision_info.findtext("law_title", default="(no title)")
+        print(f"ID: {law_id}, Num: {law_num}, Title: {lawtitle}")
+        law_dict[lawtitle] = law_id
+    print(f"Number of laws: {counter}")
+    if if_exact:
+        return law_dict[law_title]  # allow exact match
+    return law_dict  # return all matches
+def get_lawdata_from_law_id(law_id: str, output_type: Literal["xml", "list"]):
+    """法令IDから法令データを取得"""
+    url = f"https://laws.e-gov.go.jp/api/2/law_data/{law_id}"
+    r = requests.get(url, params={"response_format": "xml"})
+    if r.status_code != 200:
+        print(f"Error fetching law data for ID {law_id}: {r.status_code}")
+        return None
+    if output_type == "xml":
+        return r.content.decode(encoding="utf-8")
+    if output_type == "list":
+        # XMLデータの解析
+        root = ElementTree.fromstring(r.content.decode(encoding="utf-8"))
+        contents = [e.text.strip() for e in root.iter() if e.text]
+        return [t for t in contents if t]
+    raise ValueError(f"Supported output type is xml or list. Got {output_type}")
+def get_lawdata_from_lawname(law_name: str) -> str:
+    """法令名から法令データを取得(完全一致のみ)"""
+    law_id: str = get_lawid_from_lawtitle(law_name, if_exact=True)
+    law_text: str = get_lawdata_from_law_id(law_id, "xml")
+    return law_text
+def save_xml_string_to_file(xml_string: str, filename: str):
+    """save xml string to a file"""
+    with open(filename, "w", encoding="utf-8") as f:
+        f.write(xml_string)
+def extract_sections_from_xml(xml_string: str) -> Dict[str, str | None | list[str]]:
+    """TOC, MainProvision,SupplProvisionの3つを取得"""
+    root = ElementTree.fromstring(xml_string)
+    # law_infoタグを取得
+    law_full_text = root.find("law_full_text")
+    if law_full_text is None:
+        raise ValueError("law_full_textタグが見つかりません")
+    # <Law> の中にある <LawBody> を探す
+    law = law_full_text.find("Law")
+    if law is None:
+        raise ValueError("<Law> タグが <law_full_text> 内に見つかりません")
+    law_body = law.find("LawBody")
+    if law_body is None:
+        raise ValueError("<LawBody> タグが <Law> 内に見つかりません")
+    # 対象の3つのタグを取得
+    toc = law_body.find("TOC")
+    main_prov = law_body.find("MainProvision")
+    suppl_provs = law_body.findall("SupplProvision")
+    return {
+        "TOC": (
+            ElementTree.tostring(toc, encoding="unicode") if toc is not None else None
+        ),
+        "MainProvision": (
+            ElementTree.tostring(main_prov, encoding="unicode")
+            if main_prov is not None
+            else None
+        ),
+        # "SupplProvision": (
+        #     ElementTree.tostring(suppl_prov, encoding="unicode")
+        #     if suppl_prov is not None
+        #     else None
+        # ),
+        "SupplProvision": (
+            [ElementTree.tostring(s, encoding="unicode") for s in suppl_provs]
+            if suppl_provs
+            else None
+        ),
+    }