PyPI - project-llm-trainer - Versions diffs - 0.4.10__py3-none-any.whl → 0.4.11__py3-none-any.whl - Mend

project-llm-trainer 0.4.10py3-none-any.whl → 0.4.11py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of project-llm-trainer might be problematic. Click here for more details.

Files changed (13) hide show

llm_trainer/dpo_trainer.py CHANGED Viewed

@@ -250,13 +250,17 @@ class DPOTrainer(Trainer):
                         if gradient_accumulation_steps > 1:
                             loss = loss / gradient_accumulation_steps
-                        loss_accumulation += loss.detach()
+                        loss_accumulation += loss.detach().item()
                         self._backward_loss(loss)
                         if need_update_grad:
+                            loss_tensor = torch.tensor(loss_accumulation, device=TrainerTools().parallel.device)
                             # todo check all_reduce??
                             if TrainerTools().parallel.parallel_train:
-                                dist.all_reduce(loss_accumulation, dist.ReduceOp.AVG)
+                                dist.all_reduce(loss_tensor, dist.ReduceOp.AVG)
+                            final_log_loss = loss_tensor.item()
                             # ds模式已经集成gradient_clipping
                             if not isinstance(TrainerTools().parallel, DsParallel) and self.lr_scheduler.can_clip_grad():
@@ -270,7 +274,7 @@ class DPOTrainer(Trainer):
                                 epoch_tag=f'epoch: {epoch}',
                                 file_tag=f'file: {file_idx + 1}/{file_count}',
                                 batch_tag=f'batch: {batch}/{batch_count_per_file}',
-                                loss=loss_accumulation.item()
+                                loss=final_log_loss
                             )
                             # reset to default
                             loss_accumulation = 0.0

llm_trainer/train_configs.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from typing import Optional, Union, Set, Type, Callable, List, Mapping, Any
+from dataclasses import dataclass, field
 import torch
 from torch import nn
@@ -6,202 +7,84 @@ from llm_model import ModelConfig, VLMConfig
 from .tools import FileDataset
+@dataclass(kw_only=True)
 class DsOffloadConfig:
-    def __init__(
-            self,
-            *,
-            device: str = 'cpu',
-            pin_memory: bool = True
-    ):
-        self.device = device
-        self.pin_memory = pin_memory
+    device: str = 'cpu'
+    pin_memory: bool = True
+@dataclass(kw_only=True)
 class DsActivationCheckpointingConfig:
-    def __init__(
-            self,
-            *,
-            partition_activations: bool = True,
-            cpu_checkpointing: bool = False,
-            contiguous_memory_optimization: bool = True,
-            number_checkpoints: Optional[int] = None,
-            synchronize_checkpoint_boundary: bool = False,
-            profile: bool = False
-    ):
-        self.partition_activations =partition_activations
-        self.cpu_checkpointing = cpu_checkpointing
-        self.contiguous_memory_optimization = contiguous_memory_optimization
-        self.number_checkpoints = number_checkpoints
-        self.synchronize_checkpoint_boundary = synchronize_checkpoint_boundary
-        self.profile = profile
+    partition_activations: bool = True
+    cpu_checkpointing: bool = False
+    contiguous_memory_optimization: bool = True
+    number_checkpoints: Optional[int] = None
+    synchronize_checkpoint_boundary: bool = False
+    profile: bool = False
+@dataclass(kw_only=True)
 class DsZeROConfig:
-    def __init__(
-            self,
-            *,
-            stage: int,
-            allgather_partitions: Optional[bool] = True,
-            allgather_bucket_size: Optional[int] = 5e8,
-            overlap_comm: Optional[bool] = True,
-            reduce_scatter: Optional[bool] = True,
-            reduce_bucket_size: Optional[Union[str, int]] = 5e8,
-            contiguous_gradients: Optional[bool] = True
-    ):
-        self.stage = stage
-        self.allgather_partitions = allgather_partitions
-        self.allgather_bucket_size = allgather_bucket_size
-        self.overlap_comm = overlap_comm
-        self.reduce_scatter = reduce_scatter
-        self.reduce_bucket_size = reduce_bucket_size
-        self.contiguous_gradients = contiguous_gradients
+    stage: int
+    allgather_partitions: Optional[bool] = True
+    allgather_bucket_size: Optional[int] = 5e8
+    overlap_comm: Optional[bool] = True
+    reduce_scatter: Optional[bool] = True
+    reduce_bucket_size: Optional[Union[str, int]] = 5e8
+    contiguous_gradients: Optional[bool] = True
+@dataclass(kw_only=True)
 class DsZero1Config(DsZeROConfig):
-    def __init__(
-            self,
-            *,
-            allgather_partitions: Optional[bool] = True,
-            allgather_bucket_size: Optional[int] = 5e8,
-            overlap_comm: Optional[bool] = True,
-            reduce_scatter: Optional[bool] = True,
-            reduce_bucket_size: Optional[Union[str, int]] = 5e8,
-            contiguous_gradients: Optional[bool] = True
-    ):
-        super().__init__(
-            stage=1,
-            allgather_partitions=allgather_partitions,
-            allgather_bucket_size=allgather_bucket_size,
-            overlap_comm=overlap_comm,
-            reduce_scatter=reduce_scatter,
-            reduce_bucket_size=reduce_bucket_size,
-            contiguous_gradients=contiguous_gradients
-        )
+    stage: int = field(default=1, init=False)
+@dataclass(kw_only=True)
 class DsZero2Config(DsZeROConfig):
-    def __init__(
-            self,
-            *,
-            allgather_partitions: Optional[bool] = True,
-            allgather_bucket_size: Optional[int] = 5e8,
-            overlap_comm: Optional[bool] = True,
-            reduce_scatter: Optional[bool] = True,
-            reduce_bucket_size: Optional[Union[str, int]] = 5e8,
-            contiguous_gradients: Optional[bool] = True,
-            offload_optimizer: Optional[DsOffloadConfig] = None,
-            offload_param: Optional[DsOffloadConfig] = None,
-    ):
-        super().__init__(
-            stage=2,
-            allgather_partitions=allgather_partitions,
-            allgather_bucket_size=allgather_bucket_size,
-            overlap_comm=overlap_comm,
-            reduce_scatter=reduce_scatter,
-            reduce_bucket_size=reduce_bucket_size,
-            contiguous_gradients=contiguous_gradients
-        )
-        self.offload_optimizer = offload_optimizer
-        self.offload_param = offload_param
+    stage: int = field(default=2, init=False)
+    offload_optimizer: Optional[DsOffloadConfig] = None
+    offload_param: Optional[DsOffloadConfig] = None
+@dataclass(kw_only=True)
 class DsZero3Config(DsZeROConfig):
-    def __init__(
-            self,
-            *,
-            allgather_partitions: Optional[bool] = None,
-            allgather_bucket_size: Optional[bool] = None,
-            overlap_comm: Optional[bool] = True,
-            reduce_scatter: Optional[bool] = None,
-            reduce_bucket_size: Optional[Union[str, int]] = 'auto',
-            contiguous_gradients: Optional[bool] = True,
-            sub_group_size: Optional[int] = 1e9,
-            stage3_prefetch_bucket_size: Optional[Union[str, int]] = 'auto',
-            stage3_param_persistence_threshold: Optional[Union[str, int]] = 'auto',
-            stage3_max_live_parameters: Optional[int] = 1e9,
-            stage3_max_reuse_distance: Optional[int] = 1e9,
-            stage3_gather_16bit_weights_on_model_save: Optional[bool] = True,
-            offload_optimizer: Optional[DsOffloadConfig] = None,
-            offload_param: Optional[DsOffloadConfig] = None,
-    ):
-        super().__init__(
-            stage=3,
-            allgather_partitions=allgather_partitions,
-            allgather_bucket_size=allgather_bucket_size,
-            overlap_comm=overlap_comm,
-            reduce_scatter=reduce_scatter,
-            reduce_bucket_size=reduce_bucket_size,
-            contiguous_gradients=contiguous_gradients
-        )
-        self.sub_group_size = sub_group_size
-        self.stage3_prefetch_bucket_size = stage3_prefetch_bucket_size
-        self.stage3_param_persistence_threshold = stage3_param_persistence_threshold
-        self.stage3_max_live_parameters = stage3_max_live_parameters
-        self.stage3_max_reuse_distance = stage3_max_reuse_distance
-        self.stage3_gather_16bit_weights_on_model_save = stage3_gather_16bit_weights_on_model_save
-        self.offload_optimizer = offload_optimizer
-        self.offload_param = offload_param
+    stage: int = field(default=3, init=False)
+    sub_group_size: Optional[int] = 1e9
+    stage3_prefetch_bucket_size: Optional[Union[str, int]] = 'auto'
+    stage3_param_persistence_threshold: Optional[Union[str, int]] = 'auto'
+    stage3_max_live_parameters: Optional[int] = 1e9
+    stage3_max_reuse_distance: Optional[int] = 1e9
+    stage3_gather_16bit_weights_on_model_save: Optional[bool] = True
+    offload_optimizer: Optional[DsOffloadConfig] = None
+    offload_param: Optional[DsOffloadConfig] = None
+@dataclass(kw_only=True)
 class DsFp16Config:
-    """
-        DeepSpeed fp16配置项
-        参数说明：https://deepspeed.org.cn/docs/config-json/
-    """
-    def __init__(
-            self,
-            *,
-            enabled: Union[str, bool] = 'auto',
-            loss_scale: int = 0,
-            loss_scale_window: int = 1000,
-            initial_scale_power: int = 16,
-            hysteresis: int = 2,
-            min_loss_scale: int = 1,
-            fp16_opt_level: Optional[str] = '02'
-    ):
-        self.enabled = enabled
-        self.loss_scale = loss_scale
-        self.loss_scale_window = loss_scale_window
-        self.initial_scale_power = initial_scale_power
-        self.hysteresis = hysteresis
-        self.min_loss_scale = min_loss_scale
-        self.fp16_opt_level = fp16_opt_level
+    enabled: Union[str, bool] = 'auto'
+    loss_scale: int = 0
+    loss_scale_window: int = 1000
+    initial_scale_power: int = 16
+    hysteresis: int = 2
+    min_loss_scale: int = 1
+    fp16_opt_level: Optional[str] = '02'
+@dataclass(kw_only=True)
 class DsBf16Config:
-    def __init__(
-            self,
-            *,
-            enabled: bool = True
-    ):
-        self.enabled = enabled
+    enabled: bool = True
+@dataclass(kw_only=True)
 class DsConfig:
-    """
-        DeepSpeed训练模式配置
-    """
-    def __init__(
-            self,
-            *,
-            zero_config: Optional[DsZeROConfig] = DsZero3Config(),
-            fp16_config: Optional[DsFp16Config] = DsFp16Config(),
-            bf16_config: Optional[DsBf16Config] = DsBf16Config(),
-            gradient_clipping: Optional[float] = 1.0,
-            activation_checkpointing: Optional[DsActivationCheckpointingConfig] = None
-    ):
-        self.zero_config = zero_config
-        self.fp16_config = fp16_config
-        self.bf16_config = bf16_config
-        self.gradient_clipping = gradient_clipping
-        self.activation_checkpointing = activation_checkpointing
+    zero_config: Optional[DsZeROConfig] = DsZero3Config()
+    fp16_config: Optional[DsFp16Config] = DsFp16Config()
+    bf16_config: Optional[DsBf16Config] = DsBf16Config()
+    gradient_clipping: Optional[float] = 1.0
+    activation_checkpointing: Optional[DsActivationCheckpointingConfig] = None
+@dataclass(kw_only=True)
 class FsdpConfig:
     """
         fsdp训练模式配置项
@@ -214,22 +97,14 @@ class FsdpConfig:
                 是否使用cpu卸载
             offload_params (`bool`, default is False):
                 是否卸载参数，在cpu_offload为True时生效
-        """
-    def __init__(
-            self,
-            *,
-            transformer_layer_cls: Optional[Set[Type[nn.Module]]] = None,
-            wrap_policy_num_params: int = -1,
-            cpu_offload: bool = False,
-            offload_params: bool = False,
-    ):
-        self.transformer_layer_cls = transformer_layer_cls
-        self.wrap_policy_num_params = wrap_policy_num_params
-        self.cpu_offload = cpu_offload
-        self.offload_params = offload_params
+    """
+    transformer_layer_cls: Optional[Set[Type[nn.Module]]] = None
+    wrap_policy_num_params: int = -1
+    cpu_offload: bool = False
+    offload_params: bool = False
+@dataclass(kw_only=True)
 class DataLoaderConfig:
     """
         data loader配置项
@@ -242,98 +117,54 @@ class DataLoaderConfig:
                 是否需要shuffle数据
             data_loader_drop_last (`bool`, default is False):
                 最后一个batch不满足batch_size时，是否丢弃
-        """
-    def __init__(
-            self,
-            *,
-            data_loader_pin_memory: bool = False,
-            data_loader_num_workers: int = 0,
-            data_loader_shuffle: bool = False,
-            data_loader_drop_last: bool = True,
-    ):
-        self.data_loader_pin_memory = data_loader_pin_memory
-        self.data_loader_num_workers = data_loader_num_workers
-        self.data_loader_shuffle = data_loader_shuffle
-        self.data_loader_drop_last = data_loader_drop_last
+    """
+    data_loader_pin_memory: bool = False
+    data_loader_num_workers: int = 0
+    data_loader_shuffle: bool = False
+    data_loader_drop_last: bool = True
+@dataclass(kw_only=True)
 class LrConfig:
-    def __init__(
-            self,
-            *,
-            enable_lr_scheduler: bool = False,
-            initial_lr: Optional[float] = None,
-            weight_decay: float = 0.1,
-            max_lr: Optional[float] = None,
-            min_lr: Optional[float] = None,
-            period: Optional[int] = None,
-            period_mul: Optional[int] = None,
-            warmup_iters: Optional[int] = None
-    ):
-        self.enable_lr_scheduler = enable_lr_scheduler
-        self.initial_lr = initial_lr
-        self.weight_decay = weight_decay
-        self.max_lr = max_lr
-        self.min_lr = min_lr
-        self.period = period
-        self.period_mul = period_mul
-        self.warmup_iters = warmup_iters
+    enable_lr_scheduler: bool = False
+    initial_lr: Optional[float] = None
+    weight_decay: float = 0.1
+    max_lr: Optional[float] = None
+    min_lr: Optional[float] = None
+    period: Optional[int] = None
+    period_mul: Optional[int] = None
+    warmup_iters: Optional[int] = None
+@dataclass(kw_only=True)
 class LossConfig:
-    def __init__(
-            self,
-            *,
-            critical_tokens: Optional[List[int]] = None,
-            critical_alpha: float = 1.0,
-            aux_loss_coef: Optional[float] = 1.0
-    ):
-        super().__init__()
-        self.critical_tokens = critical_tokens
-        self.critical_alpha = critical_alpha
-        self.aux_loss_coef = aux_loss_coef
+    critical_tokens: Optional[List[int]] = None
+    critical_alpha: float = 1.0
+    aux_loss_coef: Optional[float] = 1.0
+@dataclass(kw_only=True)
 class DPOConfig:
-    def __init__(
-            self,
-            loss_beta: float,
-            loss_label_smoothing: float = 0.0,
-            loss_ipo: bool = False,
-            nll_loss_coef: Optional[float] = None
-    ):
-        super().__init__()
-        self.loss_beta = loss_beta
-        self.loss_label_smoothing = loss_label_smoothing
-        self.loss_ipo = loss_ipo
-        self.nll_loss_coef = nll_loss_coef
+    loss_beta: float
+    loss_label_smoothing: float = 0.0
+    loss_ipo: bool = False
+    nll_loss_coef: Optional[float] = None
+@dataclass(kw_only=True)
 class GRPOConfig:
-    def __init__(
-            self,
-            grpo_steps: int = 1,
-            clip_eps: float = 0.2,
-            kl_weight: float = 0.01,
-            group_size: int = 12,
-            gen_max_new_tokens: Optional[int] = None,
-            gen_temperature: Optional[float] = None,
-            gen_k: Optional[int] = None,
-            gen_p: Optional[float] = None,
-            gen_suppress_tokens: Optional[list[int]] = None,
-    ):
-        self.grpo_steps = grpo_steps
-        self.clip_eps = clip_eps
-        self.kl_weight = kl_weight
-        self.group_size = group_size
-        self.gen_max_new_tokens = gen_max_new_tokens
-        self.gen_temperature = gen_temperature
-        self.gen_k = gen_k
-        self.gen_p = gen_p
-        self.gen_suppress_tokens = gen_suppress_tokens
+    grpo_steps: int = 1
+    clip_eps: float = 0.2
+    kl_weight: float = 0.01
+    group_size: int = 12
+    gen_max_new_tokens: Optional[int] = None
+    gen_temperature: Optional[float] = None
+    gen_k: Optional[int] = None
+    gen_p: Optional[float] = None
+    gen_suppress_tokens: Optional[list[int]] = None
+@dataclass(kw_only=True)
 class KDConfig:
     """
         知识蒸馏模式配置项
@@ -343,32 +174,20 @@ class KDConfig:
                 知识蒸馏教师模型logits的提供者
             kd_coef (`float`, *optional*, default is 0.4):
                 蒸馏loss的占比，loss = kd_coef * kd_loss + (1 - kd_coef) * lm_loss
-        """
-    def __init__(
-            self,
-            *,
-            teacher_logits_provider: Callable[[torch.Tensor, torch.Tensor], torch.Tensor],
-            kd_coef: float = 0.4
-    ):
-        self.teacher_logits_provider = teacher_logits_provider
-        self.kd_coef = kd_coef
+    """
+    teacher_logits_provider: Callable[[torch.Tensor, torch.Tensor], torch.Tensor]
+    kd_coef: float = 0.4
+@dataclass(kw_only=True)
 class EvalConfig:
-    def __init__(
-            self,
-            max_new_tokens: int = 512,
-            temperature: float = 1.0,
-            top_p: float = 0.95,
-            top_k: Optional[float] = None
-    ):
-        self.max_new_tokens = max_new_tokens
-        self.temperature = temperature
-        self.top_p = top_p
-        self.top_k = top_k
+    max_new_tokens: int = 512
+    temperature: float = 1.0
+    top_p: float = 0.95
+    top_k: Optional[float] = None
+@dataclass(kw_only=True)
 class TrainConfig:
     """
         训练参数配置项
@@ -399,51 +218,31 @@ class TrainConfig:
                 知识蒸馏配置项，为None时不使用知识蒸馏
             pixel_values_provider: (`Callable[[list[str]], torch.Tensor]`, *Optional*, default is None):
                 训练vlm时根据image_tag提供pixel_values信息
-        """
-    def __init__(
-            self,
-            n_epochs: int,
-            batch_size: int,
-            *,
-            model_config: Union[ModelConfig, VLMConfig],
-            file_dataset: FileDataset,
-            image_tags_file_dataset: Optional[FileDataset] = None,
-            mask_prompt: bool = True,
-            gradient_accumulation_steps: int = 0,
-            eval_batch_interval: int = 100,
-            loss_config: LossConfig = LossConfig(),
-            dpo_config: Optional[DPOConfig] = None,
-            grpo_config: Optional[GRPOConfig] = None,
-            lr_config: LrConfig = LrConfig(),
-            ds_config: DsConfig = DsConfig(),
-            fsdp_config: FsdpConfig = FsdpConfig(),
-            data_loader_config: DataLoaderConfig = DataLoaderConfig(),
-            kd_config: Optional[KDConfig] = None,
-            pixel_values_provider: Optional[Callable[[list[str]], torch.Tensor]] = None,
-            init_state_dict: Optional[Mapping[str, Any]] = None,
-            eval_config: EvalConfig = EvalConfig(),
-            freeze_llm_model: bool = False
-    ):
-        self.n_epochs = n_epochs
-        self.batch_size = batch_size
-        self.model_config = model_config
-        self.file_dataset = file_dataset
-        self.image_tags_file_dataset = image_tags_file_dataset
-        self.mask_prompt = mask_prompt
-        self.gradient_accumulation_steps = gradient_accumulation_steps
-        self.eval_batch_interval = eval_batch_interval
-        self.loss_config = loss_config
-        self.dpo_config = dpo_config
-        self.grpo_config = grpo_config
-        self.lr_config = lr_config
-        self.ds_config = ds_config
-        self.fsdp_config = fsdp_config
-        self.data_loader_config = data_loader_config
-        self.kd_config = kd_config
-        self.pixel_values_provider = pixel_values_provider
-        self.init_state_dict = init_state_dict
-        self.eval_config = eval_config
-        self.freeze_llm_model = freeze_llm_model
+    """
+    n_epochs: int
+    batch_size: int
+    model_config: Union[ModelConfig, VLMConfig]
+    file_dataset: FileDataset
+    data_loader_config: DataLoaderConfig = DataLoaderConfig()
+    image_tags_file_dataset: Optional[FileDataset] = None
+    loss_config: LossConfig = LossConfig()
+    lr_config: LrConfig = LrConfig()
+    ds_config: DsConfig = DsConfig()
+    fsdp_config: FsdpConfig = FsdpConfig()
+    kd_config: Optional[KDConfig] = None
+    dpo_config: Optional[DPOConfig] = None
+    grpo_config: Optional[GRPOConfig] = None
+    mask_prompt: bool = True
+    gradient_accumulation_steps: int = 0
+    eval_batch_interval: int = 100
+    eval_config: EvalConfig = EvalConfig()
+    pixel_values_provider: Optional[Callable[[list[str]], torch.Tensor]] = None
+    init_state_dict: Optional[Mapping[str, Any]] = None
+    freeze_llm_model: bool = False

{project_llm_trainer-0.4.10.dist-info → project_llm_trainer-0.4.11.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: project_llm_trainer
-Version: 0.4.10
+Version: 0.4.11
 Summary: LLM and VLM trainer
 Author: qibin
 Author-email: qibin0506@gmail.com

{project_llm_trainer-0.4.10.dist-info → project_llm_trainer-0.4.11.dist-info}/RECORD RENAMED Viewed

@@ -2,7 +2,7 @@ llm_trainer/__init__.py,sha256=HWgtTEVeQSnZmEyYQm2K6eFEG4X2QAoigMlB5Z2tcXE,260
 llm_trainer/checkpoint.py,sha256=yZcExxneN2yzvWxRiK-pstMWs35LV7GiOfqcLq-S6vc,5745
 llm_trainer/dataset.py,sha256=4QlOo0SFB5816BUYegQjgobUqTUMQvdmZMM_OEAMSjE,4347
 llm_trainer/dcp.py,sha256=PkD97DyrOtoTKn4FJsfL3VqAy4dxufgjdzJEz8-Cnoc,3635
-llm_trainer/dpo_trainer.py,sha256=rC_I5ipesSlP3gFK_SG2GB8NbgJAMu4K7KLxkAS-aRY,13406
+llm_trainer/dpo_trainer.py,sha256=34E2b-t0GZYutaw6bESgARe9C12PUMWcY4aGZ34eAZU,13576
 llm_trainer/ds_checkpoint.py,sha256=x_tjgJR47P8gVwV4qAnTUCGwx7eVq2Epw0vOVV7fkYo,4925
 llm_trainer/eval.py,sha256=NDm8PbXLch7xT81xPYPRCNrcrB_Xj5GDJSCxyVwUOp4,1524
 llm_trainer/fsdp_checkpoint.py,sha256=lqZFzHyWyfzuCq_81kQNtJd2qaiMeY1N5BCEMnrJTBw,3192
@@ -19,17 +19,17 @@ llm_trainer/scheduler.py,sha256=Xz8HhwoRMjRe41sf_NHhpZfkTlEs0I2MYusvMY6hCVw,3531
 llm_trainer/sft_trainer.py,sha256=gxQA7T1o1QGUsHp2CX1Qb_fO5LppBJuNbc0H4ixCYUA,1783
 llm_trainer/tokenizer.py,sha256=A7TYYUbtPf75kjCvWP7yBui4xZBObMk2aPem62YpwpY,6776
 llm_trainer/tools.py,sha256=O45-20wRmh-nyTfU-U-XtjbKAoe7boEIsUvWT_NaKx4,3041
-llm_trainer/train_configs.py,sha256=gzTXMLUuQexRvqyKIZQ1U6ESa0DELD7hPpYZdrDcyxg,15974
+llm_trainer/train_configs.py,sha256=4sM96SOgwcn6jBGtbG5-qDZbJjiHVB6l7FWqdq7hbj0,7979
 llm_trainer/trainer.py,sha256=pUtJVRosn54j1hn76CFAptJcAsrDo59H6p8NMkg2zt4,25521
 llm_trainer/utils.py,sha256=-ivhMF0d999va13S1wt2uBvtVw8Nvr3uBzhaUFKL04Q,6826
-project_llm_trainer-0.4.10.data/scripts/calc_intermediate_size,sha256=AggpgNHokJiJMbEtVdOnolqr_4bH3i1UYuZNEAzC2Gc,460
-project_llm_trainer-0.4.10.data/scripts/ddp_train,sha256=x81AasaN2-9TwARFFF1l7iV1LmfMQ0bLw0i_CGbOwSw,299
-project_llm_trainer-0.4.10.data/scripts/ds_train,sha256=qL3qc3TcedBCw98UZUjW07ONcErRawLE1HymW2AmscA,265
-project_llm_trainer-0.4.10.data/scripts/plot_loss,sha256=MzFcdJESlVr1srj4Td6-AxPGUKkfB_QEcJwm0Bd-5fU,910
-project_llm_trainer-0.4.10.data/scripts/plot_lr,sha256=w_7XR_x3KYYyboeOVAeu_I4fveLFI-C0wBmRrNlmWUI,894
-project_llm_trainer-0.4.10.data/scripts/py_train,sha256=tOp9TquORQeU8XN5H7OVIk5O0Ypwi34p_GENxTwgwdk,265
-project_llm_trainer-0.4.10.data/scripts/smart_train,sha256=Pmt4Q0to4Hoz82iB9uFPZuz7uahNUbfE7FR1940EBy8,716
-project_llm_trainer-0.4.10.dist-info/METADATA,sha256=zrHUkQPm7Zox2CSeYN5HBqedZebXuZAQgZVj0O24U6I,196
-project_llm_trainer-0.4.10.dist-info/WHEEL,sha256=Nw36Djuh_5VDukK0H78QzOX-_FQEo6V37m3nkm96gtU,91
-project_llm_trainer-0.4.10.dist-info/top_level.txt,sha256=LtRFg28i0QIG7iBCD2t095oSco99LCtkijibS9cMGik,12
-project_llm_trainer-0.4.10.dist-info/RECORD,,
+project_llm_trainer-0.4.11.data/scripts/calc_intermediate_size,sha256=AggpgNHokJiJMbEtVdOnolqr_4bH3i1UYuZNEAzC2Gc,460
+project_llm_trainer-0.4.11.data/scripts/ddp_train,sha256=x81AasaN2-9TwARFFF1l7iV1LmfMQ0bLw0i_CGbOwSw,299
+project_llm_trainer-0.4.11.data/scripts/ds_train,sha256=qL3qc3TcedBCw98UZUjW07ONcErRawLE1HymW2AmscA,265
+project_llm_trainer-0.4.11.data/scripts/plot_loss,sha256=MzFcdJESlVr1srj4Td6-AxPGUKkfB_QEcJwm0Bd-5fU,910
+project_llm_trainer-0.4.11.data/scripts/plot_lr,sha256=w_7XR_x3KYYyboeOVAeu_I4fveLFI-C0wBmRrNlmWUI,894
+project_llm_trainer-0.4.11.data/scripts/py_train,sha256=tOp9TquORQeU8XN5H7OVIk5O0Ypwi34p_GENxTwgwdk,265
+project_llm_trainer-0.4.11.data/scripts/smart_train,sha256=Pmt4Q0to4Hoz82iB9uFPZuz7uahNUbfE7FR1940EBy8,716
+project_llm_trainer-0.4.11.dist-info/METADATA,sha256=JEZo2-np0t_K-J6yapyAXsArpvYTmrSNGDsdy32kWas,196
+project_llm_trainer-0.4.11.dist-info/WHEEL,sha256=Nw36Djuh_5VDukK0H78QzOX-_FQEo6V37m3nkm96gtU,91
+project_llm_trainer-0.4.11.dist-info/top_level.txt,sha256=LtRFg28i0QIG7iBCD2t095oSco99LCtkijibS9cMGik,12
+project_llm_trainer-0.4.11.dist-info/RECORD,,