PyPI - sae-lens - Versions diffs - 6.5.3__tar.gz → 6.6.1__tar.gz - Mend

sae-lens 6.5.3tar.gz → 6.6.1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (39) hide show

{sae_lens-6.5.3 → sae_lens-6.6.1}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: sae-lens
-Version: 6.5.3
+Version: 6.6.1
 Summary: Training and Analyzing Sparse Autoencoders (SAEs)
 License: MIT
 Keywords: deep-learning,sparse-autoencoders,mechanistic-interpretability,PyTorch
@@ -16,24 +16,19 @@ Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
 Provides-Extra: mamba
 Requires-Dist: automated-interpretability (>=0.0.5,<1.0.0)
 Requires-Dist: babe (>=0.0.7,<0.0.8)
-Requires-Dist: datasets (>=3.1.0,<4.0.0)
+Requires-Dist: datasets (>=3.1.0)
 Requires-Dist: mamba-lens (>=0.0.4,<0.0.5) ; extra == "mamba"
-Requires-Dist: matplotlib (>=3.8.3,<4.0.0)
-Requires-Dist: matplotlib-inline (>=0.1.6,<0.2.0)
 Requires-Dist: nltk (>=3.8.1,<4.0.0)
-Requires-Dist: plotly (>=5.19.0,<6.0.0)
-Requires-Dist: plotly-express (>=0.4.1,<0.5.0)
-Requires-Dist: pytest-profiling (>=1.7.0,<2.0.0)
-Requires-Dist: python-dotenv (>=1.0.1,<2.0.0)
+Requires-Dist: plotly (>=5.19.0)
+Requires-Dist: plotly-express (>=0.4.1)
+Requires-Dist: python-dotenv (>=1.0.1)
 Requires-Dist: pyyaml (>=6.0.1,<7.0.0)
-Requires-Dist: pyzmq (==26.0.0)
-Requires-Dist: safetensors (>=0.4.2,<0.5.0)
+Requires-Dist: safetensors (>=0.4.2,<1.0.0)
 Requires-Dist: simple-parsing (>=0.1.6,<0.2.0)
-Requires-Dist: transformer-lens (>=2.0.0,<3.0.0)
+Requires-Dist: tenacity (>=9.0.0)
+Requires-Dist: transformer-lens (>=2.16.1,<3.0.0)
 Requires-Dist: transformers (>=4.38.1,<5.0.0)
-Requires-Dist: typer (>=0.12.3,<0.13.0)
 Requires-Dist: typing-extensions (>=4.10.0,<5.0.0)
-Requires-Dist: zstandard (>=0.22.0,<0.23.0)
 Project-URL: Homepage, https://jbloomaus.github.io/SAELens
 Project-URL: Repository, https://github.com/jbloomAus/SAELens
 Description-Content-Type: text/markdown

{sae_lens-6.5.3 → sae_lens-6.6.1}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "sae-lens"
-version = "6.5.3"
+version = "6.6.1"
 description = "Training and Analyzing Sparse Autoencoders (SAEs)"
 authors = ["Joseph Bloom"]
 readme = "README.md"
@@ -19,26 +19,21 @@ classifiers = ["Topic :: Scientific/Engineering :: Artificial Intelligence"]
 [tool.poetry.dependencies]
 python = "^3.10"
-transformer-lens = "^2.0.0"
+transformer-lens = "^2.16.1"
 transformers = "^4.38.1"
-plotly = "^5.19.0"
-plotly-express = "^0.4.1"
-matplotlib = "^3.8.3"
-matplotlib-inline = "^0.1.6"
-datasets = "^3.1.0"
+plotly = ">=5.19.0"
+plotly-express = ">=0.4.1"
+datasets = ">=3.1.0"
 babe = "^0.0.7"
 nltk = "^3.8.1"
-safetensors = "^0.4.2"
-typer = "^0.12.3"
+safetensors = ">=0.4.2,<1.0.0"
 mamba-lens = { version = "^0.0.4", optional = true }
-pyzmq = "26.0.0"
 automated-interpretability = ">=0.0.5,<1.0.0"
-python-dotenv = "^1.0.1"
+python-dotenv = ">=1.0.1"
 pyyaml = "^6.0.1"
-pytest-profiling = "^1.7.0"
-zstandard = "^0.22.0"
 typing-extensions = "^4.10.0"
 simple-parsing = "^0.1.6"
+tenacity = ">=9.0.0"
 [tool.poetry.group.dev.dependencies]
 pytest = "^8.0.2"

{sae_lens-6.5.3 → sae_lens-6.6.1}/sae_lens/__init__.py RENAMED Viewed

@@ -1,5 +1,5 @@
 # ruff: noqa: E402
-__version__ = "6.5.3"
+__version__ = "6.6.1"
 import logging

{sae_lens-6.5.3 → sae_lens-6.6.1}/sae_lens/analysis/hooked_sae_transformer.py RENAMED Viewed

@@ -5,6 +5,7 @@ from typing import Any, Callable
 import torch
 from jaxtyping import Float
 from transformer_lens.ActivationCache import ActivationCache
+from transformer_lens.components.mlps.can_be_used_as_mlp import CanBeUsedAsMLP
 from transformer_lens.hook_points import HookPoint  # Hooking utilities
 from transformer_lens.HookedTransformer import HookedTransformer
@@ -50,6 +51,13 @@ def set_deep_attr(obj: Any, path: str, value: Any):
     setattr(obj, parts[-1], value)
+def add_hook_in_to_mlp(mlp: CanBeUsedAsMLP):
+    # Temporary hack to add a `mlp.hook_in` hook to mimic what's in circuit-tracer
+    mlp.hook_in = HookPoint()
+    original_forward = mlp.forward
+    mlp.forward = lambda x: original_forward(mlp.hook_in(x))  # type: ignore
 class HookedSAETransformer(HookedTransformer):
     def __init__(
         self,
@@ -66,6 +74,11 @@ class HookedSAETransformer(HookedTransformer):
             **model_kwargs: Keyword arguments for HookedTransformer initialization
         """
         super().__init__(*model_args, **model_kwargs)
+        for block in self.blocks:
+            add_hook_in_to_mlp(block.mlp)  # type: ignore
+        self.setup()
         self.acts_to_saes: dict[str, SAE] = {}  # type: ignore
     def add_sae(self, sae: SAE[Any], use_error_term: bool | None = None):

{sae_lens-6.5.3 → sae_lens-6.6.1}/sae_lens/cache_activations_runner.py RENAMED Viewed

@@ -82,7 +82,7 @@ class CacheActivationsRunner:
             )
             for hook_name in [self.cfg.hook_name]
         }
-        features_dict["token_ids"] = Sequence(
+        features_dict["token_ids"] = Sequence(  # type: ignore
             Value(dtype="int32"), length=self.context_size
         )
         self.features = Features(features_dict)

{sae_lens-6.5.3 → sae_lens-6.6.1}/sae_lens/evals.py RENAMED Viewed

@@ -459,14 +459,16 @@ def get_sparsity_and_variance_metrics(
             original_act = cache[hook_name]
         # normalise if necessary (necessary in training only, otherwise we should fold the scaling in)
-        original_act = activation_scaler.scale(original_act)
+        original_act_scaled = activation_scaler.scale(original_act)
         # send the (maybe normalised) activations into the SAE
-        sae_feature_activations = sae.encode(original_act.to(sae.device))
-        sae_out = sae.decode(sae_feature_activations).to(original_act.device)
+        sae_feature_activations = sae.encode(original_act_scaled.to(sae.device))
+        sae_out_scaled = sae.decode(sae_feature_activations).to(
+            original_act_scaled.device
+        )
         del cache
-        sae_out = activation_scaler.unscale(sae_out)
+        sae_out = activation_scaler.unscale(sae_out_scaled)
         flattened_sae_input = einops.rearrange(original_act, "b ctx d -> (b ctx) d")
         flattened_sae_feature_acts = einops.rearrange(

{sae_lens-6.5.3 → sae_lens-6.6.1}/sae_lens/loading/pretrained_sae_loaders.py RENAMED Viewed

@@ -5,6 +5,7 @@ from typing import Any, Protocol
 import numpy as np
 import torch
+import yaml
 from huggingface_hub import hf_hub_download
 from huggingface_hub.utils import EntryNotFoundError
 from packaging.version import Version
@@ -1232,6 +1233,82 @@ def gemma_2_transcoder_huggingface_loader(
     return cfg_dict, state_dict, None
+def get_mwhanna_transcoder_config_from_hf(
+    repo_id: str,
+    folder_name: str,
+    device: str | None = None,
+    force_download: bool = False,  # noqa: ARG001
+    cfg_overrides: dict[str, Any] | None = None,
+) -> dict[str, Any]:
+    """Get config for mwhanna transcoders"""
+    # Extract layer from folder name
+    layer = int(folder_name.replace(".safetensors", "").split("_")[-1])
+    wandb_config_path = hf_hub_download(
+        repo_id, "wanb-config.yaml", force_download=force_download
+    )
+    base_config_path = hf_hub_download(
+        repo_id, "config.yaml", force_download=force_download
+    )
+    with open(base_config_path) as f:
+        base_cfg_info: dict[str, Any] = yaml.safe_load(f)
+    with open(wandb_config_path) as f:
+        wandb_cfg_info: dict[str, Any] = yaml.safe_load(f)
+    return {
+        "architecture": "transcoder",
+        "d_in": wandb_cfg_info["d_model"]["value"],
+        "d_out": wandb_cfg_info["d_model"]["value"],
+        "d_sae": wandb_cfg_info["d_feature"]["value"],
+        "dtype": "float32",
+        "device": device if device is not None else "cpu",
+        "activation_fn": "relu",
+        "normalize_activations": "none",
+        "model_name": base_cfg_info["model_name"],
+        "hook_name": f"blocks.{layer}.mlp.hook_in",
+        "hook_name_out": f"blocks.{layer}.hook_mlp_out",
+        "dataset_path": "monology/pile-uncopyrighted",
+        "context_size": wandb_cfg_info["batch_size"]["value"],
+        "apply_b_dec_to_input": False,
+        "model_from_pretrained_kwargs": {"fold_ln": False},
+        **(cfg_overrides or {}),
+    }
+def mwhanna_transcoder_huggingface_loader(
+    repo_id: str,
+    folder_name: str,
+    device: str = "cpu",
+    force_download: bool = False,
+    cfg_overrides: dict[str, Any] | None = None,
+) -> tuple[dict[str, Any], dict[str, torch.Tensor], torch.Tensor | None]:
+    """Load mwhanna transcoders from HuggingFace"""
+    cfg_dict = get_mwhanna_transcoder_config_from_hf(
+        repo_id,
+        folder_name,
+        device,
+        force_download,
+        cfg_overrides,
+    )
+    # Download the safetensors file
+    revision = cfg_overrides.get("revision", None) if cfg_overrides else None
+    file_path = hf_hub_download(
+        repo_id=repo_id,
+        filename=folder_name,
+        force_download=force_download,
+        revision=revision,
+    )
+    # Load weights from safetensors
+    state_dict = load_file(file_path, device=device)
+    state_dict["W_enc"] = state_dict["W_enc"].T
+    return cfg_dict, state_dict, None
 NAMED_PRETRAINED_SAE_LOADERS: dict[str, PretrainedSaeHuggingfaceLoader] = {
     "sae_lens": sae_lens_huggingface_loader,
     "connor_rob_hook_z": connor_rob_hook_z_huggingface_loader,
@@ -1242,6 +1319,7 @@ NAMED_PRETRAINED_SAE_LOADERS: dict[str, PretrainedSaeHuggingfaceLoader] = {
     "deepseek_r1": deepseek_r1_sae_huggingface_loader,
     "sparsify": sparsify_huggingface_loader,
     "gemma_2_transcoder": gemma_2_transcoder_huggingface_loader,
+    "mwhanna_transcoder": mwhanna_transcoder_huggingface_loader,
 }
@@ -1255,4 +1333,5 @@ NAMED_PRETRAINED_SAE_CONFIG_GETTERS: dict[str, PretrainedSaeConfigHuggingfaceLoa
     "deepseek_r1": get_deepseek_r1_config_from_hf,
     "sparsify": get_sparsify_config_from_hf,
     "gemma_2_transcoder": get_gemma_2_transcoder_config_from_hf,
+    "mwhanna_transcoder": get_mwhanna_transcoder_config_from_hf,
 }

{sae_lens-6.5.3 → sae_lens-6.6.1}/sae_lens/pretrained_saes.yaml RENAMED Viewed

@@ -14083,4 +14083,665 @@ gemma-scope-2b-pt-transcoders:
   - id: layer_25/width_16k/average_l0_41
     neuronpedia: gemma-2-2b/25-gemmascope-transcoder-16k
     l0: 41
-    path: layer_25/width_16k/average_l0_41
+    path: layer_25/width_16k/average_l0_41
+mwhanna-qwen3-4b-transcoders:
+  conversion_func: mwhanna_transcoder
+  model: qwen3-4b
+  repo_id: mwhanna/qwen3-4b-transcoders
+  saes:
+  - id: layer_0
+    path: layer_0.safetensors
+    neuronpedia: qwen3-4b/0-transcoder-hp
+  - id: layer_1
+    path: layer_1.safetensors
+    neuronpedia: qwen3-4b/1-transcoder-hp
+  - id: layer_2
+    path: layer_2.safetensors
+    neuronpedia: qwen3-4b/2-transcoder-hp
+  - id: layer_3
+    path: layer_3.safetensors
+    neuronpedia: qwen3-4b/3-transcoder-hp
+  - id: layer_4
+    path: layer_4.safetensors
+    neuronpedia: qwen3-4b/4-transcoder-hp
+  - id: layer_5
+    path: layer_5.safetensors
+    neuronpedia: qwen3-4b/5-transcoder-hp
+  - id: layer_6
+    path: layer_6.safetensors
+    neuronpedia: qwen3-4b/6-transcoder-hp
+  - id: layer_7
+    path: layer_7.safetensors
+    neuronpedia: qwen3-4b/7-transcoder-hp
+  - id: layer_8
+    path: layer_8.safetensors
+    neuronpedia: qwen3-4b/8-transcoder-hp
+  - id: layer_9
+    path: layer_9.safetensors
+    neuronpedia: qwen3-4b/9-transcoder-hp
+  - id: layer_10
+    path: layer_10.safetensors
+    neuronpedia: qwen3-4b/10-transcoder-hp
+  - id: layer_11
+    path: layer_11.safetensors
+    neuronpedia: qwen3-4b/11-transcoder-hp
+  - id: layer_12
+    path: layer_12.safetensors
+    neuronpedia: qwen3-4b/12-transcoder-hp
+  - id: layer_13
+    path: layer_13.safetensors
+    neuronpedia: qwen3-4b/13-transcoder-hp
+  - id: layer_14
+    path: layer_14.safetensors
+    neuronpedia: qwen3-4b/14-transcoder-hp
+  - id: layer_15
+    path: layer_15.safetensors
+    neuronpedia: qwen3-4b/15-transcoder-hp
+  - id: layer_16
+    path: layer_16.safetensors
+    neuronpedia: qwen3-4b/16-transcoder-hp
+  - id: layer_17
+    path: layer_17.safetensors
+    neuronpedia: qwen3-4b/17-transcoder-hp
+  - id: layer_18
+    path: layer_18.safetensors
+    neuronpedia: qwen3-4b/18-transcoder-hp
+  - id: layer_19
+    path: layer_19.safetensors
+    neuronpedia: qwen3-4b/19-transcoder-hp
+  - id: layer_20
+    path: layer_20.safetensors
+    neuronpedia: qwen3-4b/20-transcoder-hp
+  - id: layer_21
+    path: layer_21.safetensors
+    neuronpedia: qwen3-4b/21-transcoder-hp
+  - id: layer_22
+    path: layer_22.safetensors
+    neuronpedia: qwen3-4b/22-transcoder-hp
+  - id: layer_23
+    path: layer_23.safetensors
+    neuronpedia: qwen3-4b/23-transcoder-hp
+  - id: layer_24
+    path: layer_24.safetensors
+    neuronpedia: qwen3-4b/24-transcoder-hp
+  - id: layer_25
+    path: layer_25.safetensors
+    neuronpedia: qwen3-4b/25-transcoder-hp
+  - id: layer_26
+    path: layer_26.safetensors
+    neuronpedia: qwen3-4b/26-transcoder-hp
+  - id: layer_27
+    path: layer_27.safetensors
+    neuronpedia: qwen3-4b/27-transcoder-hp
+  - id: layer_28
+    path: layer_28.safetensors
+    neuronpedia: qwen3-4b/28-transcoder-hp
+  - id: layer_29
+    path: layer_29.safetensors
+    neuronpedia: qwen3-4b/29-transcoder-hp
+  - id: layer_30
+    path: layer_30.safetensors
+    neuronpedia: qwen3-4b/30-transcoder-hp
+  - id: layer_31
+    path: layer_31.safetensors
+    neuronpedia: qwen3-4b/31-transcoder-hp
+  - id: layer_32
+    path: layer_32.safetensors
+    neuronpedia: qwen3-4b/32-transcoder-hp
+  - id: layer_33
+    path: layer_33.safetensors
+    neuronpedia: qwen3-4b/33-transcoder-hp
+  - id: layer_34
+    path: layer_34.safetensors
+    neuronpedia: qwen3-4b/34-transcoder-hp
+  - id: layer_35
+    path: layer_35.safetensors
+    neuronpedia: qwen3-4b/35-transcoder-hp
+mwhanna-qwen3-8b-transcoders:
+  conversion_func: mwhanna_transcoder
+  model: qwen3-8b
+  repo_id: mwhanna/qwen3-8b-transcoders
+  saes:
+  - id: layer_0
+    path: layer_0.safetensors
+    neuronpedia: qwen3-8b/0-transcoder-hp
+  - id: layer_1
+    path: layer_1.safetensors
+    neuronpedia: qwen3-8b/1-transcoder-hp
+  - id: layer_2
+    path: layer_2.safetensors
+    neuronpedia: qwen3-8b/2-transcoder-hp
+  - id: layer_3
+    path: layer_3.safetensors
+    neuronpedia: qwen3-8b/3-transcoder-hp
+  - id: layer_4
+    path: layer_4.safetensors
+    neuronpedia: qwen3-8b/4-transcoder-hp
+  - id: layer_5
+    path: layer_5.safetensors
+    neuronpedia: qwen3-8b/5-transcoder-hp
+  - id: layer_6
+    path: layer_6.safetensors
+    neuronpedia: qwen3-8b/6-transcoder-hp
+  - id: layer_7
+    path: layer_7.safetensors
+    neuronpedia: qwen3-8b/7-transcoder-hp
+  - id: layer_8
+    path: layer_8.safetensors
+    neuronpedia: qwen3-8b/8-transcoder-hp
+  - id: layer_9
+    path: layer_9.safetensors
+    neuronpedia: qwen3-8b/9-transcoder-hp
+  - id: layer_10
+    path: layer_10.safetensors
+    neuronpedia: qwen3-8b/10-transcoder-hp
+  - id: layer_11
+    path: layer_11.safetensors
+    neuronpedia: qwen3-8b/11-transcoder-hp
+  - id: layer_12
+    path: layer_12.safetensors
+    neuronpedia: qwen3-8b/12-transcoder-hp
+  - id: layer_13
+    path: layer_13.safetensors
+    neuronpedia: qwen3-8b/13-transcoder-hp
+  - id: layer_14
+    path: layer_14.safetensors
+    neuronpedia: qwen3-8b/14-transcoder-hp
+  - id: layer_15
+    path: layer_15.safetensors
+    neuronpedia: qwen3-8b/15-transcoder-hp
+  - id: layer_16
+    path: layer_16.safetensors
+    neuronpedia: qwen3-8b/16-transcoder-hp
+  - id: layer_17
+    path: layer_17.safetensors
+    neuronpedia: qwen3-8b/17-transcoder-hp
+  - id: layer_18
+    path: layer_18.safetensors
+    neuronpedia: qwen3-8b/18-transcoder-hp
+  - id: layer_19
+    path: layer_19.safetensors
+    neuronpedia: qwen3-8b/19-transcoder-hp
+  - id: layer_20
+    path: layer_20.safetensors
+    neuronpedia: qwen3-8b/20-transcoder-hp
+  - id: layer_21
+    path: layer_21.safetensors
+    neuronpedia: qwen3-8b/21-transcoder-hp
+  - id: layer_22
+    path: layer_22.safetensors
+    neuronpedia: qwen3-8b/22-transcoder-hp
+  - id: layer_23
+    path: layer_23.safetensors
+    neuronpedia: qwen3-8b/23-transcoder-hp
+  - id: layer_24
+    path: layer_24.safetensors
+    neuronpedia: qwen3-8b/24-transcoder-hp
+  - id: layer_25
+    path: layer_25.safetensors
+    neuronpedia: qwen3-8b/25-transcoder-hp
+  - id: layer_26
+    path: layer_26.safetensors
+    neuronpedia: qwen3-8b/26-transcoder-hp
+  - id: layer_27
+    path: layer_27.safetensors
+    neuronpedia: qwen3-8b/27-transcoder-hp
+  - id: layer_28
+    path: layer_28.safetensors
+    neuronpedia: qwen3-8b/28-transcoder-hp
+  - id: layer_29
+    path: layer_29.safetensors
+    neuronpedia: qwen3-8b/29-transcoder-hp
+  - id: layer_30
+    path: layer_30.safetensors
+    neuronpedia: qwen3-8b/30-transcoder-hp
+  - id: layer_31
+    path: layer_31.safetensors
+    neuronpedia: qwen3-8b/31-transcoder-hp
+  - id: layer_32
+    path: layer_32.safetensors
+    neuronpedia: qwen3-8b/32-transcoder-hp
+  - id: layer_33
+    path: layer_33.safetensors
+    neuronpedia: qwen3-8b/33-transcoder-hp
+  - id: layer_34
+    path: layer_34.safetensors
+    neuronpedia: qwen3-8b/34-transcoder-hp
+  - id: layer_35
+    path: layer_35.safetensors
+    neuronpedia: qwen3-8b/35-transcoder-hp
+mwhanna-qwen3-14b-transcoders:
+  conversion_func: mwhanna_transcoder
+  model: qwen3-14b
+  repo_id: mwhanna/qwen3-14b-transcoders
+  saes:
+  - id: layer_0
+    path: layer_0.safetensors
+    neuronpedia: qwen3-14b/0-transcoder-hp
+  - id: layer_1
+    path: layer_1.safetensors
+    neuronpedia: qwen3-14b/1-transcoder-hp
+  - id: layer_2
+    path: layer_2.safetensors
+    neuronpedia: qwen3-14b/2-transcoder-hp
+  - id: layer_3
+    path: layer_3.safetensors
+    neuronpedia: qwen3-14b/3-transcoder-hp
+  - id: layer_4
+    path: layer_4.safetensors
+    neuronpedia: qwen3-14b/4-transcoder-hp
+  - id: layer_5
+    path: layer_5.safetensors
+    neuronpedia: qwen3-14b/5-transcoder-hp
+  - id: layer_6
+    path: layer_6.safetensors
+    neuronpedia: qwen3-14b/6-transcoder-hp
+  - id: layer_7
+    path: layer_7.safetensors
+    neuronpedia: qwen3-14b/7-transcoder-hp
+  - id: layer_8
+    path: layer_8.safetensors
+    neuronpedia: qwen3-14b/8-transcoder-hp
+  - id: layer_9
+    path: layer_9.safetensors
+    neuronpedia: qwen3-14b/9-transcoder-hp
+  - id: layer_10
+    path: layer_10.safetensors
+    neuronpedia: qwen3-14b/10-transcoder-hp
+  - id: layer_11
+    path: layer_11.safetensors
+    neuronpedia: qwen3-14b/11-transcoder-hp
+  - id: layer_12
+    path: layer_12.safetensors
+    neuronpedia: qwen3-14b/12-transcoder-hp
+  - id: layer_13
+    path: layer_13.safetensors
+    neuronpedia: qwen3-14b/13-transcoder-hp
+  - id: layer_14
+    path: layer_14.safetensors
+    neuronpedia: qwen3-14b/14-transcoder-hp
+  - id: layer_15
+    path: layer_15.safetensors
+    neuronpedia: qwen3-14b/15-transcoder-hp
+  - id: layer_16
+    path: layer_16.safetensors
+    neuronpedia: qwen3-14b/16-transcoder-hp
+  - id: layer_17
+    path: layer_17.safetensors
+    neuronpedia: qwen3-14b/17-transcoder-hp
+  - id: layer_18
+    path: layer_18.safetensors
+    neuronpedia: qwen3-14b/18-transcoder-hp
+  - id: layer_19
+    path: layer_19.safetensors
+    neuronpedia: qwen3-14b/19-transcoder-hp
+  - id: layer_20
+    path: layer_20.safetensors
+    neuronpedia: qwen3-14b/20-transcoder-hp
+  - id: layer_21
+    path: layer_21.safetensors
+    neuronpedia: qwen3-14b/21-transcoder-hp
+  - id: layer_22
+    path: layer_22.safetensors
+    neuronpedia: qwen3-14b/22-transcoder-hp
+  - id: layer_23
+    path: layer_23.safetensors
+    neuronpedia: qwen3-14b/23-transcoder-hp
+  - id: layer_24
+    path: layer_24.safetensors
+    neuronpedia: qwen3-14b/24-transcoder-hp
+  - id: layer_25
+    path: layer_25.safetensors
+    neuronpedia: qwen3-14b/25-transcoder-hp
+  - id: layer_26
+    path: layer_26.safetensors
+    neuronpedia: qwen3-14b/26-transcoder-hp
+  - id: layer_27
+    path: layer_27.safetensors
+    neuronpedia: qwen3-14b/27-transcoder-hp
+  - id: layer_28
+    path: layer_28.safetensors
+    neuronpedia: qwen3-14b/28-transcoder-hp
+  - id: layer_29
+    path: layer_29.safetensors
+    neuronpedia: qwen3-14b/29-transcoder-hp
+  - id: layer_30
+    path: layer_30.safetensors
+    neuronpedia: qwen3-14b/30-transcoder-hp
+  - id: layer_31
+    path: layer_31.safetensors
+    neuronpedia: qwen3-14b/31-transcoder-hp
+  - id: layer_32
+    path: layer_32.safetensors
+    neuronpedia: qwen3-14b/32-transcoder-hp
+  - id: layer_33
+    path: layer_33.safetensors
+    neuronpedia: qwen3-14b/33-transcoder-hp
+  - id: layer_34
+    path: layer_34.safetensors
+    neuronpedia: qwen3-14b/34-transcoder-hp
+  - id: layer_35
+    path: layer_35.safetensors
+    neuronpedia: qwen3-14b/35-transcoder-hp
+  - id: layer_36
+    path: layer_36.safetensors
+    neuronpedia: qwen3-14b/36-transcoder-hp
+  - id: layer_37
+    path: layer_37.safetensors
+    neuronpedia: qwen3-14b/37-transcoder-hp
+  - id: layer_38
+    path: layer_38.safetensors
+    neuronpedia: qwen3-14b/38-transcoder-hp
+  - id: layer_39
+    path: layer_39.safetensors
+    neuronpedia: qwen3-14b/39-transcoder-hp
+mwhanna-qwen3-14b-transcoders-lowl0:
+  conversion_func: mwhanna_transcoder
+  model: qwen3-14b
+  repo_id: mwhanna/qwen3-14b-transcoders-lowl0
+  saes:
+  - id: layer_0
+    path: layer_0.safetensors
+    neuronpedia: qwen3-14b/0-transcoder-hp-lowl0
+  - id: layer_1
+    path: layer_1.safetensors
+    neuronpedia: qwen3-14b/1-transcoder-hp-lowl0
+  - id: layer_2
+    path: layer_2.safetensors
+    neuronpedia: qwen3-14b/2-transcoder-hp-lowl0
+  - id: layer_3
+    path: layer_3.safetensors
+    neuronpedia: qwen3-14b/3-transcoder-hp-lowl0
+  - id: layer_4
+    path: layer_4.safetensors
+    neuronpedia: qwen3-14b/4-transcoder-hp-lowl0
+  - id: layer_5
+    path: layer_5.safetensors
+    neuronpedia: qwen3-14b/5-transcoder-hp-lowl0
+  - id: layer_6
+    path: layer_6.safetensors
+    neuronpedia: qwen3-14b/6-transcoder-hp-lowl0
+  - id: layer_7
+    path: layer_7.safetensors
+    neuronpedia: qwen3-14b/7-transcoder-hp-lowl0
+  - id: layer_8
+    path: layer_8.safetensors
+    neuronpedia: qwen3-14b/8-transcoder-hp-lowl0
+  - id: layer_9
+    path: layer_9.safetensors
+    neuronpedia: qwen3-14b/9-transcoder-hp-lowl0
+  - id: layer_10
+    path: layer_10.safetensors
+    neuronpedia: qwen3-14b/10-transcoder-hp-lowl0
+  - id: layer_11
+    path: layer_11.safetensors
+    neuronpedia: qwen3-14b/11-transcoder-hp-lowl0
+  - id: layer_12
+    path: layer_12.safetensors
+    neuronpedia: qwen3-14b/12-transcoder-hp-lowl0
+  - id: layer_13
+    path: layer_13.safetensors
+    neuronpedia: qwen3-14b/13-transcoder-hp-lowl0
+  - id: layer_14
+    path: layer_14.safetensors
+    neuronpedia: qwen3-14b/14-transcoder-hp-lowl0
+  - id: layer_15
+    path: layer_15.safetensors
+    neuronpedia: qwen3-14b/15-transcoder-hp-lowl0
+  - id: layer_16
+    path: layer_16.safetensors
+    neuronpedia: qwen3-14b/16-transcoder-hp-lowl0
+  - id: layer_17
+    path: layer_17.safetensors
+    neuronpedia: qwen3-14b/17-transcoder-hp-lowl0
+  - id: layer_18
+    path: layer_18.safetensors
+    neuronpedia: qwen3-14b/18-transcoder-hp-lowl0
+  - id: layer_19
+    path: layer_19.safetensors
+    neuronpedia: qwen3-14b/19-transcoder-hp-lowl0
+  - id: layer_20
+    path: layer_20.safetensors
+    neuronpedia: qwen3-14b/20-transcoder-hp-lowl0
+  - id: layer_21
+    path: layer_21.safetensors
+    neuronpedia: qwen3-14b/21-transcoder-hp-lowl0
+  - id: layer_22
+    path: layer_22.safetensors
+    neuronpedia: qwen3-14b/22-transcoder-hp-lowl0
+  - id: layer_23
+    path: layer_23.safetensors
+    neuronpedia: qwen3-14b/23-transcoder-hp-lowl0
+  - id: layer_24
+    path: layer_24.safetensors
+    neuronpedia: qwen3-14b/24-transcoder-hp-lowl0
+  - id: layer_25
+    path: layer_25.safetensors
+    neuronpedia: qwen3-14b/25-transcoder-hp-lowl0
+  - id: layer_26
+    path: layer_26.safetensors
+    neuronpedia: qwen3-14b/26-transcoder-hp-lowl0
+  - id: layer_27
+    path: layer_27.safetensors
+    neuronpedia: qwen3-14b/27-transcoder-hp-lowl0
+  - id: layer_28
+    path: layer_28.safetensors
+    neuronpedia: qwen3-14b/28-transcoder-hp-lowl0
+  - id: layer_29
+    path: layer_29.safetensors
+    neuronpedia: qwen3-14b/29-transcoder-hp-lowl0
+  - id: layer_30
+    path: layer_30.safetensors
+    neuronpedia: qwen3-14b/30-transcoder-hp-lowl0
+  - id: layer_31
+    path: layer_31.safetensors
+    neuronpedia: qwen3-14b/31-transcoder-hp-lowl0
+  - id: layer_32
+    path: layer_32.safetensors
+    neuronpedia: qwen3-14b/32-transcoder-hp-lowl0
+  - id: layer_33
+    path: layer_33.safetensors
+    neuronpedia: qwen3-14b/33-transcoder-hp-lowl0
+  - id: layer_34
+    path: layer_34.safetensors
+    neuronpedia: qwen3-14b/34-transcoder-hp-lowl0
+  - id: layer_35
+    path: layer_35.safetensors
+    neuronpedia: qwen3-14b/35-transcoder-hp-lowl0
+  - id: layer_36
+    path: layer_36.safetensors
+    neuronpedia: qwen3-14b/36-transcoder-hp-lowl0
+  - id: layer_37
+    path: layer_37.safetensors
+    neuronpedia: qwen3-14b/37-transcoder-hp-lowl0
+  - id: layer_38
+    path: layer_38.safetensors
+    neuronpedia: qwen3-14b/38-transcoder-hp-lowl0
+  - id: layer_39
+    path: layer_39.safetensors
+    neuronpedia: qwen3-14b/39-transcoder-hp-lowl0
+mwhanna-qwen3-1.7b-transcoders-lowl0:
+  conversion_func: mwhanna_transcoder
+  model: qwen3-1.7b
+  repo_id: mwhanna/qwen3-1.7b-transcoders-lowl0
+  saes:
+  - id: layer_0
+    path: layer_0.safetensors
+    neuronpedia: qwen3-1.7b/0-transcoder-hp-lowl0
+  - id: layer_1
+    path: layer_1.safetensors
+    neuronpedia: qwen3-1.7b/1-transcoder-hp-lowl0
+  - id: layer_2
+    path: layer_2.safetensors
+    neuronpedia: qwen3-1.7b/2-transcoder-hp-lowl0
+  - id: layer_3
+    path: layer_3.safetensors
+    neuronpedia: qwen3-1.7b/3-transcoder-hp-lowl0
+  - id: layer_4
+    path: layer_4.safetensors
+    neuronpedia: qwen3-1.7b/4-transcoder-hp-lowl0
+  - id: layer_5
+    path: layer_5.safetensors
+    neuronpedia: qwen3-1.7b/5-transcoder-hp-lowl0
+  - id: layer_6
+    path: layer_6.safetensors
+    neuronpedia: qwen3-1.7b/6-transcoder-hp-lowl0
+  - id: layer_7
+    path: layer_7.safetensors
+    neuronpedia: qwen3-1.7b/7-transcoder-hp-lowl0
+  - id: layer_8
+    path: layer_8.safetensors
+    neuronpedia: qwen3-1.7b/8-transcoder-hp-lowl0
+  - id: layer_9
+    path: layer_9.safetensors
+    neuronpedia: qwen3-1.7b/9-transcoder-hp-lowl0
+  - id: layer_10
+    path: layer_10.safetensors
+    neuronpedia: qwen3-1.7b/10-transcoder-hp-lowl0
+  - id: layer_11
+    path: layer_11.safetensors
+    neuronpedia: qwen3-1.7b/11-transcoder-hp-lowl0
+  - id: layer_12
+    path: layer_12.safetensors
+    neuronpedia: qwen3-1.7b/12-transcoder-hp-lowl0
+  - id: layer_13
+    path: layer_13.safetensors
+    neuronpedia: qwen3-1.7b/13-transcoder-hp-lowl0
+  - id: layer_14
+    path: layer_14.safetensors
+    neuronpedia: qwen3-1.7b/14-transcoder-hp-lowl0
+  - id: layer_15
+    path: layer_15.safetensors
+    neuronpedia: qwen3-1.7b/15-transcoder-hp-lowl0
+  - id: layer_16
+    path: layer_16.safetensors
+    neuronpedia: qwen3-1.7b/16-transcoder-hp-lowl0
+  - id: layer_17
+    path: layer_17.safetensors
+    neuronpedia: qwen3-1.7b/17-transcoder-hp-lowl0
+  - id: layer_18
+    path: layer_18.safetensors
+    neuronpedia: qwen3-1.7b/18-transcoder-hp-lowl0
+  - id: layer_19
+    path: layer_19.safetensors
+    neuronpedia: qwen3-1.7b/19-transcoder-hp-lowl0
+  - id: layer_20
+    path: layer_20.safetensors
+    neuronpedia: qwen3-1.7b/20-transcoder-hp-lowl0
+  - id: layer_21
+    path: layer_21.safetensors
+    neuronpedia: qwen3-1.7b/21-transcoder-hp-lowl0
+  - id: layer_22
+    path: layer_22.safetensors
+    neuronpedia: qwen3-1.7b/22-transcoder-hp-lowl0
+  - id: layer_23
+    path: layer_23.safetensors
+    neuronpedia: qwen3-1.7b/23-transcoder-hp-lowl0
+  - id: layer_24
+    path: layer_24.safetensors
+    neuronpedia: qwen3-1.7b/24-transcoder-hp-lowl0
+  - id: layer_25
+    path: layer_25.safetensors
+    neuronpedia: qwen3-1.7b/25-transcoder-hp-lowl0
+  - id: layer_26
+    path: layer_26.safetensors
+    neuronpedia: qwen3-1.7b/26-transcoder-hp-lowl0
+  - id: layer_27
+    path: layer_27.safetensors
+    neuronpedia: qwen3-1.7b/27-transcoder-hp-lowl0
+mwhanna-qwen3-0.6b-transcoders-lowl0:
+  conversion_func: mwhanna_transcoder
+  model: qwen3-0.6b
+  repo_id: mwhanna/qwen3-0.6b-transcoders-lowl0
+  saes:
+  - id: layer_0
+    path: layer_0.safetensors
+    neuronpedia: qwen3-0.6b/0-transcoder-hp-lowl0
+  - id: layer_1
+    path: layer_1.safetensors
+    neuronpedia: qwen3-0.6b/1-transcoder-hp-lowl0
+  - id: layer_2
+    path: layer_2.safetensors
+    neuronpedia: qwen3-0.6b/2-transcoder-hp-lowl0
+  - id: layer_3
+    path: layer_3.safetensors
+    neuronpedia: qwen3-0.6b/3-transcoder-hp-lowl0
+  - id: layer_4
+    path: layer_4.safetensors
+    neuronpedia: qwen3-0.6b/4-transcoder-hp-lowl0
+  - id: layer_5
+    path: layer_5.safetensors
+    neuronpedia: qwen3-0.6b/5-transcoder-hp-lowl0
+  - id: layer_6
+    path: layer_6.safetensors
+    neuronpedia: qwen3-0.6b/6-transcoder-hp-lowl0
+  - id: layer_7
+    path: layer_7.safetensors
+    neuronpedia: qwen3-0.6b/7-transcoder-hp-lowl0
+  - id: layer_8
+    path: layer_8.safetensors
+    neuronpedia: qwen3-0.6b/8-transcoder-hp-lowl0
+  - id: layer_9
+    path: layer_9.safetensors
+    neuronpedia: qwen3-0.6b/9-transcoder-hp-lowl0
+  - id: layer_10
+    path: layer_10.safetensors
+    neuronpedia: qwen3-0.6b/10-transcoder-hp-lowl0
+  - id: layer_11
+    path: layer_11.safetensors
+    neuronpedia: qwen3-0.6b/11-transcoder-hp-lowl0
+  - id: layer_12
+    path: layer_12.safetensors
+    neuronpedia: qwen3-0.6b/12-transcoder-hp-lowl0
+  - id: layer_13
+    path: layer_13.safetensors
+    neuronpedia: qwen3-0.6b/13-transcoder-hp-lowl0
+  - id: layer_14
+    path: layer_14.safetensors
+    neuronpedia: qwen3-0.6b/14-transcoder-hp-lowl0
+  - id: layer_15
+    path: layer_15.safetensors
+    neuronpedia: qwen3-0.6b/15-transcoder-hp-lowl0
+  - id: layer_16
+    path: layer_16.safetensors
+    neuronpedia: qwen3-0.6b/16-transcoder-hp-lowl0
+  - id: layer_17
+    path: layer_17.safetensors
+    neuronpedia: qwen3-0.6b/17-transcoder-hp-lowl0
+  - id: layer_18
+    path: layer_18.safetensors
+    neuronpedia: qwen3-0.6b/18-transcoder-hp-lowl0
+  - id: layer_19
+    path: layer_19.safetensors
+    neuronpedia: qwen3-0.6b/19-transcoder-hp-lowl0
+  - id: layer_20
+    path: layer_20.safetensors
+    neuronpedia: qwen3-0.6b/20-transcoder-hp-lowl0
+  - id: layer_21
+    path: layer_21.safetensors
+    neuronpedia: qwen3-0.6b/21-transcoder-hp-lowl0
+  - id: layer_22
+    path: layer_22.safetensors
+    neuronpedia: qwen3-0.6b/22-transcoder-hp-lowl0
+  - id: layer_23
+    path: layer_23.safetensors
+    neuronpedia: qwen3-0.6b/23-transcoder-hp-lowl0
+  - id: layer_24
+    path: layer_24.safetensors
+    neuronpedia: qwen3-0.6b/24-transcoder-hp-lowl0
+  - id: layer_25
+    path: layer_25.safetensors
+    neuronpedia: qwen3-0.6b/25-transcoder-hp-lowl0
+  - id: layer_26
+    path: layer_26.safetensors
+    neuronpedia: qwen3-0.6b/26-transcoder-hp-lowl0
+  - id: layer_27
+    path: layer_27.safetensors
+    neuronpedia: qwen3-0.6b/27-transcoder-hp-lowl0

{sae_lens-6.5.3 → sae_lens-6.6.1}/sae_lens/training/activations_store.py RENAMED Viewed

@@ -289,7 +289,7 @@ class ActivationsStore:
                 "Dataset must have a 'tokens', 'input_ids', 'text', or 'problem' column."
             )
         if self.is_dataset_tokenized:
-            ds_context_size = len(dataset_sample[self.tokens_column])
+            ds_context_size = len(dataset_sample[self.tokens_column])  # type: ignore
             if ds_context_size < self.context_size:
                 raise ValueError(
                     f"""pretokenized dataset has context_size {ds_context_size}, but the provided context_size is {self.context_size}.