PyPI - sdg-hub - Versions diffs - 0.3.1__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

sdg-hub 0.3.1py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (40) hide show

sdg_hub/flows/qa_generation/document_grounded_qa/enhanced_multi_summary_qa/key_facts/flow.yaml CHANGED Viewed

@@ -17,7 +17,6 @@ metadata:
   - qa-pairs
   - key-facts
   license: Apache-2.0
-  min_sdg_hub_version: 0.2.0
   dataset_requirements:
     required_columns:
     - document
@@ -50,10 +49,16 @@ blocks:
     temperature: 0.7
     n: 1
     async_mode: true
+- block_type: LLMParserBlock
+  block_config:
+    block_name: extract_atomic_facts
+    input_cols: raw_summary
+    extract_content: true
+    expand_lists: true
 - block_type: TextParserBlock
   block_config:
     block_name: parse_atomic_facts
-    input_cols: raw_summary
+    input_cols: extract_atomic_facts_content
     output_cols: atomic_facts
     start_tags:
     - '### Key Facts With Context'
@@ -89,10 +94,16 @@ blocks:
     temperature: 0.7
     n: 1
     async_mode: true
+- block_type: LLMParserBlock
+  block_config:
+    block_name: extract_key_fact_qa
+    input_cols: raw_key_fact_qa
+    extract_content: true
+    expand_lists: true
 - block_type: TextParserBlock
   block_config:
     block_name: parse_key_fact_qa
-    input_cols: raw_key_fact_qa
+    input_cols: extract_key_fact_qa_content
     output_cols:
     - question
     - response

sdg_hub/flows/qa_generation/document_grounded_qa/multi_summary_qa/instructlab/flow.yaml CHANGED Viewed

@@ -18,8 +18,7 @@ metadata:
     - "educational"
   license: "Apache-2.0"
-  min_sdg_hub_version: "0.2.0"
   dataset_requirements:
     required_columns:
       - "document"
@@ -54,11 +53,19 @@ blocks:
       output_cols: raw_summary_detailed
       max_tokens: 2048
       async_mode: true
+      n: 2
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: detailed_summary
+      input_cols: raw_summary_detailed
+      extract_content: true
+      extract_reasoning_content: true
   - block_type: TextParserBlock
     block_config:
       block_name: parse_detailed_summary
-      input_cols: raw_summary_detailed
+      input_cols: detailed_summary_content
       output_cols: summary_detailed
       start_tags: [""]
       end_tags: [""]
@@ -78,10 +85,16 @@ blocks:
       max_tokens: 2048
       async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: atomic_facts
+      input_cols: raw_atomic_facts
+      extract_content: true
   - block_type: TextParserBlock
     block_config:
       block_name: parse_atomic_facts
-      input_cols: raw_atomic_facts
+      input_cols: atomic_facts_content
       output_cols: summary_atomic_facts
       start_tags: [""]
       end_tags: [""]
@@ -101,10 +114,16 @@ blocks:
       max_tokens: 2048
       async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extractive_summary
+      input_cols: raw_summary_extractive
+      extract_content: true
   - block_type: TextParserBlock
     block_config:
       block_name: parse_extractive_summary
-      input_cols: raw_summary_extractive
+      input_cols: extractive_summary_content
       output_cols: summary_extractive
       start_tags: [""]
       end_tags: [""]
@@ -136,50 +155,150 @@ blocks:
       max_tokens: 2048
       async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: get_knowledge_generation
+      input_cols: raw_knowledge_generation
+      extract_content: true
   - block_type: TextParserBlock
     block_config:
       block_name: parse_knowledge_generation
-      input_cols: raw_knowledge_generation
+      input_cols: get_knowledge_generation_content
       output_cols: [question, response]
       parsing_pattern: "\\[(?:Question|QUESTION)\\]\\s*(.*?)\\s*\\[(?:Answer|ANSWER)\\]\\s*(.*?)\\s*(?=\\[(?:Question|QUESTION)\\]|$)"
       parser_cleanup_tags: ["[END]"]
-  - block_type: EvaluateFaithfulnessBlock
+  - block_type: PromptBuilderBlock
     block_config:
-      block_name: eval_faithfulness
+      block_name: eval_faithful_prompt
       input_cols: [document, response]
-      output_cols: [faithfulness_explanation, faithfulness_judgment]
+      output_cols: eval_faithful_prompt
       prompt_config_path: evaluate_faithfulness.yaml
+      format_as_messages: true
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: eval_faithful_llm_chat
+      input_cols: eval_faithful_prompt
+      output_cols: eval_faithful_response_dict
+      max_tokens: 2048
+      n: 1
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_eval_faithful
+      input_cols: eval_faithful_response_dict
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_eval_faithful
+      input_cols: extract_eval_faithful_content
+      output_cols:
+      - faithfulness_explanation
+      - faithfulness_judgment
+      start_tags:
+      - '[Start of Explanation]'
+      - '[Start of Answer]'
+      end_tags:
+      - '[End of Explanation]'
+      - '[End of Answer]'
+  - block_type: ColumnValueFilterBlock
+    block_config:
+      block_name: eval_faithful_filter
+      input_cols:
+        - faithfulness_judgment
       filter_value: "YES"
       operation: eq
-      async_mode: true
-      start_tags: ["[Start of Explanation]", "[Start of Answer]"]
-      end_tags: ["[End of Explanation]", "[End of Answer]"]
-  - block_type: EvaluateRelevancyBlock
+  - block_type: PromptBuilderBlock
     block_config:
-      block_name: eval_relevancy
-      input_cols: [question, response]
-      output_cols: [relevancy_explanation, relevancy_score]
+      block_name: eval_relevancy_prompt
+      input_cols:
+      - question
+      - response
+      output_cols: eval_relevancy_prompt
       prompt_config_path: evaluate_relevancy.yaml
+      format_as_messages: true
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: eval_relevancy_llm_chat
+      input_cols: eval_relevancy_prompt
+      output_cols: eval_relevancy_response_dict
+      max_tokens: 2048
+      n: 1
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_eval_relevancy
+      input_cols: eval_relevancy_response_dict
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_eval_relevancy
+      input_cols: extract_eval_relevancy_content
+      output_cols:
+      - relevancy_explanation
+      - relevancy_score
+      start_tags:
+      - '[Start of Feedback]'
+      - '[Start of Score]'
+      end_tags:
+      - '[End of Feedback]'
+      - '[End of Score]'
+  - block_type: ColumnValueFilterBlock
+    block_config:
+      block_name: eval_relevancy_filter
+      input_cols:
+        - relevancy_score
       filter_value: 2.0
       operation: eq
       convert_dtype: float
-      max_tokens: 2048
-      async_mode: true
-      start_tags: ["[Start of Feedback]", "[Start of Score]"]
-      end_tags: ["[End of Feedback]", "[End of Score]"]
-  - block_type: VerifyQuestionBlock
+  - block_type: PromptBuilderBlock
     block_config:
-      block_name: verify_question
-      input_cols: [question]
-      output_cols: [verification_explanation, verification_rating]
+      block_name: verify_question_prompt
+      input_cols:
+      - question
+      output_cols: verify_question_prompt
       prompt_config_path: evaluate_question.yaml
+      format_as_messages: true
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: verify_question_llm_chat
+      input_cols: verify_question_prompt
+      output_cols: verify_question_response_dict
+      max_tokens: 2048
+      n: 1
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_verify_question
+      input_cols: verify_question_response_dict
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_verify_question
+      input_cols: extract_verify_question_content
+      output_cols:
+      - verification_explanation
+      - verification_rating
+      start_tags:
+      - '[Start of Explanation]'
+      - '[Start of Rating]'
+      end_tags:
+      - '[End of Explanation]'
+      - '[End of Rating]'
+  - block_type: ColumnValueFilterBlock
+    block_config:
+      block_name: verify_question_filter
+      input_cols:
+        - verification_rating
       filter_value: 1.0
       operation: ge
       convert_dtype: float
-      max_tokens: 2048
-      async_mode: true
-      start_tags: ["[Start of Explanation]", "[Start of Rating]"]
-      end_tags: ["[End of Explanation]", "[End of Rating]"]

sdg_hub/flows/qa_generation/document_grounded_qa/multi_summary_qa/multilingual/japanese/README.md ADDED Viewed

File without changes

sdg_hub/flows/qa_generation/document_grounded_qa/multi_summary_qa/multilingual/japanese/__init__.py ADDED Viewed

File without changes

sdg_hub/flows/qa_generation/document_grounded_qa/multi_summary_qa/multilingual/japanese/atomic_facts_ja.yaml ADDED Viewed

@@ -0,0 +1,41 @@
+- role: system
+  content: You are an AI assistant knowledgeable about {{domain}} domain. Be accurate but concise in response.
+- role: user
+  content: |
+    Please break down the following snippet from an article about {{domain}} into atomic facts.
+    1. Make sure each fact is grounded in the given text.
+    2. Include any necessary information needed to explain the fact or concept
+    3. The atomic facts should be as simple as possible, if it's compound sentence, break down one more time
+    4. For clarity, avoid using pronouns like 'it', 'he', 'she', 'this', 'that' etc., and instead use the full names or titles.
+    5. Focus only on key concepts and facts. Skip any question or problems mentioned in the passage.
+    6. Output the response in Japanese.
+    To help you understand the task, here is an example:
+    [Passage]
+    The tournament was contested by ten national teams, maintaining the same format used in 2019. After six weeks of round-robin matches, India, South Africa, Australia, and New Zealand finished as the top four and qualified for the knockout stage. In the knockout stage, India and Australia beat New Zealand and South Africa, respectively, to advance to the final, played on 19 November at the Narendra Modi Stadium in Ahmedabad. Australia won the final by six wickets, winning their sixth Cricket World Cup title.
+    [Facts]
+    1. The tournament was contested by ten national teams.
+    2. The tournament maintained the same format used in 2019.
+    3. The round-robin matches lasted for six weeks.
+    4. India finished as one of the top four teams.
+    5. South Africa finished as one of the top four teams.
+    6. Australia finished as one of the top four teams.
+    7. New Zealand finished as one of the top four teams.
+    8. India, South Africa, Australia, and New Zealand qualified for the knockout stage.
+    9. In the knockout stage, India beat New Zealand.
+    10. In the knockout stage, Australia beat South Africa.
+    11. India advanced to the final.
+    12. Australia advanced to the final.
+    13. The final was played on 19 November.
+    14. The final was held at the Narendra Modi Stadium in Ahmedabad.
+    15. Australia won the final by six wickets.
+    16. Australia won their sixth Cricket World Cup title.
+    [End]
+    Now it's your turn breakdown following snippet from article about {{domain}} into atomic facts following similar style as above examples
+    [Passage]
+    {{document_outline}}
+    {{document}}
+    [Facts]

sdg_hub/flows/qa_generation/document_grounded_qa/multi_summary_qa/multilingual/japanese/detailed_summary_ja.yaml ADDED Viewed

@@ -0,0 +1,14 @@
+- role: system
+  content: You are an AI assistant that is expert at summarizing text.
+- role: user
+  content: |
+    Give me detailed summary for below document, making sure all key points are covered.
+    Do not add any new information.
+    Do not miss any key points from the provided document.
+    Output the response in Japanese.
+    Document:
+    {{document_outline}}
+    {{document}}

sdg_hub/flows/qa_generation/document_grounded_qa/multi_summary_qa/multilingual/japanese/extractive_summary_ja.yaml ADDED Viewed

@@ -0,0 +1,14 @@
+- role: system
+  content: You are an AI assistant that is expert at summarizing text.
+- role: user
+  content: |
+    Give me detailed extractive summary for below document, making sure all key points are covered.
+    Do not add any new information.
+    Do not miss any key points from the provided document.
+    Output the response in Japanese.
+    Document:
+    {{document_outline}}
+    {{document}}

sdg_hub/flows/qa_generation/document_grounded_qa/multi_summary_qa/multilingual/japanese/flow.yaml ADDED Viewed

@@ -0,0 +1,303 @@
+metadata:
+  id: clean-shadow-397
+  name: "Advanced Japanese Document Grounded Question-Answer Generation Flow for Knowledge Tuning"
+  description: "A comprehensive flow that generates high-quality question-answer pairs from Japanese input documents using multiple LLM blocks for question generation, answer synthesis, and quality evaluation."
+  version: "1.0.0"
+  author: "SDG Hub Contributors"
+  recommended_models:
+    default: "microsoft/phi-4"
+    compatible: ["meta-llama/Llama-3.3-70B-Instruct", "mistralai/Mixtral-8x7B-Instruct-v0.1"]
+    experimental: []
+  tags:
+    - "question-generation"
+    - "knowledge-extraction"
+    - "qa-pairs"
+    - "document-processing"
+    - "educational"
+    - "japanese"
+  license: "Apache-2.0"
+  dataset_requirements:
+    required_columns:
+      - "document"
+      - "document_outline"
+      - "domain"
+      - "icl_document"
+      - "icl_query_1"
+      - "icl_response_1"
+      - "icl_query_2"
+      - "icl_response_2"
+      - "icl_query_3"
+      - "icl_response_3"
+    description: "Input dataset should contain documents with Japanese text content and domain classification. Each document should be substantial enough for meaningful question generation (minimum 100 words recommended)."
+blocks:
+  - block_type: DuplicateColumnsBlock
+    block_config:
+      block_name: duplicate_document_col
+      input_cols: {document: base_document}
+  - block_type: PromptBuilderBlock
+    block_config:
+      block_name: detailed_summary_prompt
+      input_cols: [document, document_outline]
+      output_cols: summary_prompt
+      prompt_config_path: detailed_summary_ja.yaml
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: gen_detailed_summary
+      input_cols: summary_prompt
+      output_cols: raw_summary_detailed
+      max_tokens: 2048
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_detailed_summary
+      input_cols: raw_summary_detailed
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_detailed_summary
+      input_cols: extract_detailed_summary_content
+      output_cols: summary_detailed
+      start_tags: [""]
+      end_tags: [""]
+  - block_type: PromptBuilderBlock
+    block_config:
+      block_name: atomic_facts_prompt
+      input_cols: [document, document_outline, domain]
+      output_cols: atomic_facts_prompt
+      prompt_config_path: atomic_facts_ja.yaml
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: gen_atomic_facts
+      input_cols: atomic_facts_prompt
+      output_cols: raw_atomic_facts
+      max_tokens: 2048
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_atomic_facts
+      input_cols: raw_atomic_facts
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_atomic_facts
+      input_cols: extract_atomic_facts_content
+      output_cols: summary_atomic_facts
+      start_tags: [""]
+      end_tags: [""]
+  - block_type: PromptBuilderBlock
+    block_config:
+      block_name: extractive_summary_prompt
+      input_cols: [document, document_outline]
+      output_cols: extractive_summary_prompt
+      prompt_config_path: extractive_summary_ja.yaml
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: gen_extractive_summary
+      input_cols: extractive_summary_prompt
+      output_cols: raw_summary_extractive
+      max_tokens: 2048
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_extractive_summary
+      input_cols: raw_summary_extractive
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_extractive_summary
+      input_cols: extract_extractive_summary_content
+      output_cols: summary_extractive
+      start_tags: [""]
+      end_tags: [""]
+  - block_type: MeltColumnsBlock
+    block_config:
+      block_name: melt_summary_columns
+      input_cols: [summary_detailed, summary_extractive, summary_atomic_facts, base_document]
+      output_cols: [summary, dataset_type]
+  - block_type: RenameColumnsBlock
+    block_config:
+      block_name: rename_to_document_column
+      input_cols: {document: raw_document, summary: document}
+  - block_type: PromptBuilderBlock
+    block_config:
+      block_name: knowledge_generation_prompt
+      input_cols: [domain, document, document_outline, icl_document, icl_query_1, icl_response_1, icl_query_2, icl_response_2, icl_query_3, icl_response_3]
+      output_cols: knowledge_generation_prompt
+      prompt_config_path: generate_questions_responses_ja.yaml
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: knowledge_generation
+      input_cols: knowledge_generation_prompt
+      output_cols: raw_knowledge_generation
+      temperature: 0.0
+      max_tokens: 2048
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_knowledge_generation
+      input_cols: raw_knowledge_generation
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_knowledge_generation
+      input_cols: extract_knowledge_generation_content
+      output_cols: [question, response]
+      parsing_pattern: "\\[(?:Question|QUESTION)\\]\\s*(.*?)\\s*\\[(?:Answer|ANSWER)\\]\\s*(.*?)\\s*(?=\\[(?:Question|QUESTION)\\]|$)"
+      parser_cleanup_tags: ["[END]"]
+  - block_type: PromptBuilderBlock
+    block_config:
+      block_name: eval_faithful_prompt
+      input_cols: [document, response]
+      output_cols: eval_faithful_prompt
+      prompt_config_path: ../../instructlab/evaluate_faithfulness.yaml
+      format_as_messages: true
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: eval_faithful_llm_chat
+      input_cols: eval_faithful_prompt
+      output_cols: eval_faithful_response_dict
+      max_tokens: 2048
+      n: 1
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_eval_faithful
+      input_cols: eval_faithful_response_dict
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_eval_faithful
+      input_cols: extract_eval_faithful_content
+      output_cols:
+      - faithfulness_explanation
+      - faithfulness_judgment
+      start_tags:
+      - '[Start of Explanation]'
+      - '[Start of Answer]'
+      end_tags:
+      - '[End of Explanation]'
+      - '[End of Answer]'
+  - block_type: ColumnValueFilterBlock
+    block_config:
+      block_name: eval_faithful_filter
+      input_cols:
+        - faithfulness_judgment
+      filter_value: "YES"
+      operation: eq
+  - block_type: PromptBuilderBlock
+    block_config:
+      block_name: eval_relevancy_prompt
+      input_cols:
+      - question
+      - response
+      output_cols: eval_relevancy_prompt
+      prompt_config_path: ../../instructlab/evaluate_relevancy.yaml
+      format_as_messages: true
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: eval_relevancy_llm_chat
+      input_cols: eval_relevancy_prompt
+      output_cols: eval_relevancy_response_dict
+      max_tokens: 2048
+      n: 1
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_eval_relevancy
+      input_cols: eval_relevancy_response_dict
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_eval_relevancy
+      input_cols: extract_eval_relevancy_content
+      output_cols:
+      - relevancy_explanation
+      - relevancy_score
+      start_tags:
+      - '[Start of Feedback]'
+      - '[Start of Score]'
+      end_tags:
+      - '[End of Feedback]'
+      - '[End of Score]'
+  - block_type: ColumnValueFilterBlock
+    block_config:
+      block_name: eval_relevancy_filter
+      input_cols:
+        - relevancy_score
+      filter_value: 2.0
+      operation: eq
+      convert_dtype: float
+  - block_type: PromptBuilderBlock
+    block_config:
+      block_name: verify_question_prompt
+      input_cols:
+      - question
+      output_cols: verify_question_prompt
+      prompt_config_path: ../../instructlab/evaluate_question.yaml
+      format_as_messages: true
+  - block_type: LLMChatBlock
+    block_config:
+      block_name: verify_question_llm_chat
+      input_cols: verify_question_prompt
+      output_cols: verify_question_response_dict
+      max_tokens: 2048
+      n: 1
+      async_mode: true
+  - block_type: LLMParserBlock
+    block_config:
+      block_name: extract_verify_question
+      input_cols: verify_question_response_dict
+      extract_content: true
+  - block_type: TextParserBlock
+    block_config:
+      block_name: parse_verify_question
+      input_cols: extract_verify_question_content
+      output_cols:
+      - verification_explanation
+      - verification_rating
+      start_tags:
+      - '[Start of Explanation]'
+      - '[Start of Rating]'
+      end_tags:
+      - '[End of Explanation]'
+      - '[End of Rating]'
+  - block_type: ColumnValueFilterBlock
+    block_config:
+      block_name: verify_question_filter
+      input_cols:
+        - verification_rating
+      filter_value: 1.0
+      operation: ge
+      convert_dtype: float

sdg-hub 0.3.1__py3-none-any.whl → 0.4.1__py3-none-any.whl

sdg-hub 0.3.1py3-none-any.whl → 0.4.1py3-none-any.whl