PyPI - glitchlings - Versions diffs - 1.0.0__cp313-cp313-win_amd64.whl - Mend

glitchlings 1.0.0__cp313-cp313-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (86) hide show

glitchlings/__init__.py +101 -0
glitchlings/__main__.py +8 -0
glitchlings/_corruption_engine/__init__.py +12 -0
glitchlings/_corruption_engine.cp313-win_amd64.pyd +0 -0
glitchlings/assets/__init__.py +180 -0
glitchlings/assets/apostrofae_pairs.json +32 -0
glitchlings/assets/ekkokin_homophones.json +2014 -0
glitchlings/assets/hokey_assets.json +193 -0
glitchlings/assets/lexemes/academic.json +1049 -0
glitchlings/assets/lexemes/colors.json +1333 -0
glitchlings/assets/lexemes/corporate.json +716 -0
glitchlings/assets/lexemes/cyberpunk.json +22 -0
glitchlings/assets/lexemes/lovecraftian.json +23 -0
glitchlings/assets/lexemes/synonyms.json +3354 -0
glitchlings/assets/mim1c_homoglyphs.json.gz.b64 +1064 -0
glitchlings/assets/ocr_confusions.tsv +30 -0
glitchlings/assets/pipeline_assets.json +29 -0
glitchlings/attack/__init__.py +184 -0
glitchlings/attack/analysis.py +1321 -0
glitchlings/attack/core.py +819 -0
glitchlings/attack/core_execution.py +378 -0
glitchlings/attack/core_planning.py +612 -0
glitchlings/attack/encode.py +114 -0
glitchlings/attack/metrics.py +211 -0
glitchlings/attack/metrics_dispatch.py +70 -0
glitchlings/attack/tokenization.py +338 -0
glitchlings/attack/tokenizer_metrics.py +373 -0
glitchlings/auggie.py +285 -0
glitchlings/compat/__init__.py +9 -0
glitchlings/compat/loaders.py +355 -0
glitchlings/compat/types.py +41 -0
glitchlings/conf/__init__.py +39 -0
glitchlings/conf/loaders.py +331 -0
glitchlings/conf/schema.py +156 -0
glitchlings/conf/types.py +72 -0
glitchlings/config.toml +2 -0
glitchlings/constants.py +139 -0
glitchlings/dev/__init__.py +3 -0
glitchlings/dev/docs.py +45 -0
glitchlings/dlc/__init__.py +21 -0
glitchlings/dlc/_shared.py +300 -0
glitchlings/dlc/gutenberg.py +400 -0
glitchlings/dlc/huggingface.py +68 -0
glitchlings/dlc/langchain.py +147 -0
glitchlings/dlc/nemo.py +283 -0
glitchlings/dlc/prime.py +215 -0
glitchlings/dlc/pytorch.py +98 -0
glitchlings/dlc/pytorch_lightning.py +173 -0
glitchlings/internal/__init__.py +16 -0
glitchlings/internal/rust.py +159 -0
glitchlings/internal/rust_ffi.py +599 -0
glitchlings/main.py +426 -0
glitchlings/protocols.py +91 -0
glitchlings/runtime_config.py +24 -0
glitchlings/util/__init__.py +41 -0
glitchlings/util/adapters.py +65 -0
glitchlings/util/keyboards.py +508 -0
glitchlings/util/transcripts.py +108 -0
glitchlings/zoo/__init__.py +161 -0
glitchlings/zoo/assets/__init__.py +29 -0
glitchlings/zoo/core.py +852 -0
glitchlings/zoo/core_execution.py +154 -0
glitchlings/zoo/core_planning.py +451 -0
glitchlings/zoo/corrupt_dispatch.py +291 -0
glitchlings/zoo/hokey.py +139 -0
glitchlings/zoo/jargoyle.py +301 -0
glitchlings/zoo/mim1c.py +269 -0
glitchlings/zoo/pedant/__init__.py +109 -0
glitchlings/zoo/pedant/core.py +99 -0
glitchlings/zoo/pedant/forms.py +50 -0
glitchlings/zoo/pedant/stones.py +83 -0
glitchlings/zoo/redactyl.py +94 -0
glitchlings/zoo/rng.py +280 -0
glitchlings/zoo/rushmore.py +416 -0
glitchlings/zoo/scannequin.py +370 -0
glitchlings/zoo/transforms.py +331 -0
glitchlings/zoo/typogre.py +194 -0
glitchlings/zoo/validation.py +643 -0
glitchlings/zoo/wherewolf.py +120 -0
glitchlings/zoo/zeedub.py +165 -0
glitchlings-1.0.0.dist-info/METADATA +404 -0
glitchlings-1.0.0.dist-info/RECORD +86 -0
glitchlings-1.0.0.dist-info/WHEEL +5 -0
glitchlings-1.0.0.dist-info/entry_points.txt +3 -0
glitchlings-1.0.0.dist-info/licenses/LICENSE +201 -0
glitchlings-1.0.0.dist-info/top_level.txt +1 -0

glitchlings/assets/ocr_confusions.tsv ADDED Viewed

@@ -0,0 +1,30 @@
+# Source  Replacements (space-separated)
+li h
+h li
+rn m
+m rn
+cl d
+d cl
+I l
+l I 1
+1 l I
+0 O
+O 0
+B 8
+8 B
+S 5
+5 S
+Z 2
+2 Z
+G 6
+6 G
+“ "
+” "
+‘ '
+’ '
+— -
+– -
+vv w
+w vv
+ri n
+n ri

glitchlings/assets/pipeline_assets.json ADDED Viewed

@@ -0,0 +1,29 @@
+{
+  "pipeline_assets": [
+    {
+      "name": "apostrofae_pairs.json",
+      "kind": "copy"
+    },
+    {
+      "name": "ekkokin_homophones.json",
+      "kind": "copy"
+    },
+    {
+      "name": "hokey_assets.json",
+      "kind": "copy"
+    },
+    {
+      "name": "lexemes",
+      "kind": "copy"
+    },
+    {
+      "name": "ocr_confusions.tsv",
+      "kind": "copy"
+    },
+    {
+      "name": "mim1c_homoglyphs.json.gz.b64",
+      "kind": "compressed",
+      "output": "mim1c_homoglyphs.json"
+    }
+  ]
+}

glitchlings/attack/__init__.py ADDED Viewed

@@ -0,0 +1,184 @@
+"""Attack submodule for comparing text before and after corruption.
+This module follows the functional purity architecture:
+**Pure Planning** (core_planning.py):
+- Input analysis and type guards
+- Attack plan construction
+- Result assembly helpers
+**Impure Execution** (core_execution.py):
+- Glitchling resolution
+- Tokenization execution
+- Metric computation
+**Boundary Layer** (core.py):
+- Input validation
+- Orchestration via Attack class
+**Analysis Tools** (analysis.py):
+- SeedSweep, GridSearch, TokenizerComparison
+See AGENTS.md "Functional Purity Architecture" for full details.
+"""
+from .analysis import (
+    GlitchlingComparisonEntry,
+    GlitchlingComparisonResult,
+    GridSearch,
+    GridSearchPoint,
+    GridSearchResult,
+    SeedSweep,
+    SeedSweepResult,
+    TokenizerComparison,
+    TokenizerComparisonEntry,
+    TokenizerComparisonResult,
+    compare_glitchlings,
+    compare_tokenizers,
+    compute_aggregate_stats,
+    extract_scalar_metrics,
+    format_stats_summary,
+    generate_param_combinations,
+    rank_grid_points,
+)
+from .core import Attack, AttackResult, StreamingAttackResult, StreamingTokens, TokenWindow
+from .core_execution import (
+    execute_attack,
+    execute_corruption,
+    execute_metrics,
+    execute_tokenization,
+    get_default_metrics,
+    resolve_glitchlings,
+)
+from .core_planning import (
+    AttackPlan,
+    BatchAdapter,
+    EncodedData,
+    ResultPlan,
+    assemble_batch_result_fields,
+    assemble_empty_result_fields,
+    assemble_result_fields,
+    assemble_single_result_fields,
+    compute_token_counts,
+    extract_transcript_contents,
+    format_token_count_delta,
+    is_string_batch,
+    is_transcript_like,
+    plan_attack,
+    plan_result,
+)
+from .encode import describe_tokenizer, encode_batch, encode_single
+from .metrics import (
+    MetricName,
+    entropy_delta,
+    jensen_shannon_divergence,
+    merge_split_index,
+    normalized_edit_distance,
+    subsequence_retention,
+)
+from .metrics_dispatch import TokenBatch, TokenSequence, is_batch, validate_batch_consistency
+from .tokenization import (
+    Tokenizer,
+    clear_tokenizer_cache,
+    get_tokenizer_cache_info,
+    list_available_tokenizers,
+)
+from .tokenizer_metrics import (
+    DEFAULT_UNKNOWN_MARKERS,
+    analyze_tokenizer,
+    batch_characters_per_token,
+    batch_compression_ratio,
+    batch_token_entropy,
+    batch_unknown_token_rate,
+    batch_vocabulary_utilization,
+    characters_per_token,
+    compression_ratio,
+    token_entropy,
+    unknown_token_rate,
+    vocabulary_utilization,
+)
+__all__ = [
+    # Core orchestration
+    "Attack",
+    "AttackResult",
+    "StreamingAttackResult",
+    "StreamingTokens",
+    "TokenWindow",
+    "Tokenizer",
+    "clear_tokenizer_cache",
+    "get_tokenizer_cache_info",
+    "list_available_tokenizers",
+    # Metrics
+    "MetricName",
+    "jensen_shannon_divergence",
+    "normalized_edit_distance",
+    "subsequence_retention",
+    "entropy_delta",
+    "merge_split_index",
+    # Analysis tools (impure orchestrators)
+    "SeedSweep",
+    "SeedSweepResult",
+    "GridSearch",
+    "GridSearchResult",
+    "GridSearchPoint",
+    "TokenizerComparison",
+    "TokenizerComparisonResult",
+    "TokenizerComparisonEntry",
+    # Comparison functions
+    "compare_glitchlings",
+    "compare_tokenizers",
+    "GlitchlingComparisonEntry",
+    "GlitchlingComparisonResult",
+    # Analysis pure helpers
+    "compute_aggregate_stats",
+    "format_stats_summary",
+    "extract_scalar_metrics",
+    "generate_param_combinations",
+    "rank_grid_points",
+    # Core planning (pure)
+    "AttackPlan",
+    "BatchAdapter",
+    "ResultPlan",
+    "EncodedData",
+    "plan_attack",
+    "plan_result",
+    "is_string_batch",
+    "is_transcript_like",
+    "assemble_result_fields",
+    "assemble_single_result_fields",
+    "assemble_batch_result_fields",
+    "assemble_empty_result_fields",
+    "compute_token_counts",
+    "extract_transcript_contents",
+    "format_token_count_delta",
+    # Core execution (impure)
+    "get_default_metrics",
+    "resolve_glitchlings",
+    "execute_corruption",
+    "execute_tokenization",
+    "execute_metrics",
+    "execute_attack",
+    # Encode (pure)
+    "describe_tokenizer",
+    "encode_batch",
+    "encode_single",
+    # Metrics dispatch (pure)
+    "TokenBatch",
+    "TokenSequence",
+    "is_batch",
+    "validate_batch_consistency",
+    # Tokenizer metrics (pure)
+    "compression_ratio",
+    "batch_compression_ratio",
+    "characters_per_token",
+    "batch_characters_per_token",
+    "token_entropy",
+    "batch_token_entropy",
+    "vocabulary_utilization",
+    "batch_vocabulary_utilization",
+    "unknown_token_rate",
+    "batch_unknown_token_rate",
+    "analyze_tokenizer",
+    "DEFAULT_UNKNOWN_MARKERS",
+]