records/120424_ValueEmbed/19bb65fb-f903-4a41-803b-fbd57562f653.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 02:07:01 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             111W / 700W |     29MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             118W / 700W |     41MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   38C    P0              77W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   38C    P0             100W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31958ms step_avg:nanms
step:2/1530 train_loss:10.0719 train_time:32069ms step_avg:nanms
step:3/1530 train_loss:8.3862 train_time:32230ms step_avg:nanms
step:4/1530 train_loss:7.6004 train_time:32391ms step_avg:nanms
step:5/1530 train_loss:7.4522 train_time:32552ms step_avg:nanms
step:6/1530 train_loss:6.9553 train_time:32713ms step_avg:nanms
step:7/1530 train_loss:7.2008 train_time:32873ms step_avg:nanms
step:8/1530 train_loss:6.7183 train_time:33033ms step_avg:nanms
step:9/1530 train_loss:6.6113 train_time:33194ms step_avg:nanms
step:10/1530 train_loss:6.5029 train_time:33355ms step_avg:nanms
step:11/1530 train_loss:6.4825 train_time:114ms step_avg:nanms
step:12/1530 train_loss:6.3382 train_time:275ms step_avg:nanms
step:13/1530 train_loss:6.2724 train_time:436ms step_avg:145.29ms
step:14/1530 train_loss:6.2197 train_time:596ms step_avg:149.12ms
step:15/1530 train_loss:6.1726 train_time:757ms step_avg:151.32ms
step:16/1530 train_loss:6.1025 train_time:917ms step_avg:152.77ms
step:17/1530 train_loss:6.1666 train_time:1077ms step_avg:153.86ms
step:18/1530 train_loss:5.9483 train_time:1238ms step_avg:154.74ms
step:19/1530 train_loss:5.9986 train_time:1398ms step_avg:155.36ms
step:20/1530 train_loss:5.6808 train_time:1557ms step_avg:155.75ms
step:21/1530 train_loss:5.9601 train_time:1718ms step_avg:156.18ms
step:22/1530 train_loss:6.2090 train_time:1879ms step_avg:156.55ms
step:23/1530 train_loss:5.8614 train_time:2038ms step_avg:156.77ms
step:24/1530 train_loss:6.0173 train_time:2199ms step_avg:157.09ms
step:25/1530 train_loss:5.6922 train_time:2360ms step_avg:157.35ms
step:26/1530 train_loss:5.5961 train_time:2519ms step_avg:157.44ms
step:27/1530 train_loss:5.8057 train_time:2680ms step_avg:157.63ms
step:28/1530 train_loss:5.4050 train_time:2840ms step_avg:157.76ms
step:29/1530 train_loss:5.6725 train_time:3000ms step_avg:157.91ms
step:30/1530 train_loss:5.4720 train_time:3160ms step_avg:157.98ms
step:31/1530 train_loss:5.4452 train_time:3320ms step_avg:158.12ms
step:32/1530 train_loss:5.2744 train_time:3480ms step_avg:158.19ms
step:33/1530 train_loss:5.5767 train_time:3639ms step_avg:158.23ms
step:34/1530 train_loss:5.5153 train_time:3800ms step_avg:158.33ms
step:35/1530 train_loss:5.6403 train_time:3960ms step_avg:158.39ms
step:36/1530 train_loss:5.5432 train_time:4120ms step_avg:158.46ms
step:37/1530 train_loss:5.4560 train_time:4280ms step_avg:158.50ms
step:38/1530 train_loss:5.3083 train_time:4440ms step_avg:158.57ms
step:39/1530 train_loss:5.3344 train_time:4600ms step_avg:158.63ms
step:40/1530 train_loss:5.2415 train_time:4760ms step_avg:158.66ms
step:41/1530 train_loss:5.2357 train_time:4922ms step_avg:158.77ms
step:42/1530 train_loss:5.1750 train_time:5082ms step_avg:158.83ms
step:43/1530 train_loss:5.2674 train_time:5243ms step_avg:158.87ms
step:44/1530 train_loss:5.2206 train_time:5403ms step_avg:158.92ms
step:45/1530 train_loss:5.3807 train_time:5564ms step_avg:158.97ms
step:46/1530 train_loss:5.1643 train_time:5725ms step_avg:159.03ms
step:47/1530 train_loss:5.0613 train_time:5886ms step_avg:159.09ms
step:48/1530 train_loss:5.2034 train_time:6047ms step_avg:159.13ms
step:49/1530 train_loss:5.1453 train_time:6207ms step_avg:159.16ms
step:50/1530 train_loss:5.2443 train_time:6367ms step_avg:159.16ms
step:51/1530 train_loss:5.1388 train_time:6528ms step_avg:159.22ms
step:52/1530 train_loss:5.0167 train_time:6688ms step_avg:159.24ms
step:53/1530 train_loss:5.1654 train_time:6848ms step_avg:159.27ms
step:54/1530 train_loss:5.0108 train_time:7009ms step_avg:159.30ms
step:55/1530 train_loss:5.4072 train_time:7169ms step_avg:159.30ms
step:56/1530 train_loss:5.0101 train_time:7330ms step_avg:159.35ms
step:57/1530 train_loss:4.8682 train_time:7490ms step_avg:159.36ms
step:58/1530 train_loss:5.0317 train_time:7650ms step_avg:159.38ms
step:59/1530 train_loss:5.0253 train_time:7812ms step_avg:159.43ms
step:60/1530 train_loss:5.1312 train_time:7972ms step_avg:159.44ms
step:61/1530 train_loss:4.8548 train_time:8132ms step_avg:159.46ms
step:62/1530 train_loss:5.0032 train_time:8293ms step_avg:159.48ms
step:63/1530 train_loss:5.0139 train_time:8453ms step_avg:159.50ms
step:64/1530 train_loss:4.9369 train_time:8614ms step_avg:159.52ms
step:65/1530 train_loss:4.7871 train_time:8775ms step_avg:159.54ms
step:66/1530 train_loss:4.9278 train_time:8935ms step_avg:159.56ms
step:67/1530 train_loss:4.8092 train_time:9096ms step_avg:159.58ms
step:68/1530 train_loss:5.0825 train_time:9258ms step_avg:159.61ms
step:69/1530 train_loss:4.7126 train_time:9418ms step_avg:159.63ms
step:70/1530 train_loss:4.8402 train_time:9578ms step_avg:159.63ms
step:71/1530 train_loss:4.9522 train_time:9737ms step_avg:159.63ms
step:72/1530 train_loss:4.8736 train_time:9899ms step_avg:159.67ms
step:73/1530 train_loss:4.7416 train_time:10061ms step_avg:159.69ms
step:74/1530 train_loss:4.9203 train_time:10221ms step_avg:159.71ms
step:75/1530 train_loss:4.8673 train_time:10382ms step_avg:159.72ms
step:76/1530 train_loss:4.7859 train_time:10542ms step_avg:159.73ms
step:77/1530 train_loss:4.9104 train_time:10703ms step_avg:159.74ms
step:78/1530 train_loss:5.1344 train_time:10862ms step_avg:159.73ms
step:79/1530 train_loss:4.8105 train_time:11023ms step_avg:159.76ms
step:80/1530 train_loss:4.8464 train_time:11185ms step_avg:159.79ms
step:81/1530 train_loss:4.6487 train_time:11346ms step_avg:159.80ms
step:82/1530 train_loss:4.8121 train_time:11506ms step_avg:159.81ms
step:83/1530 train_loss:4.7615 train_time:11666ms step_avg:159.81ms
step:84/1530 train_loss:4.7646 train_time:11827ms step_avg:159.83ms
step:85/1530 train_loss:4.6268 train_time:11988ms step_avg:159.84ms
step:86/1530 train_loss:4.8232 train_time:12148ms step_avg:159.84ms
step:87/1530 train_loss:4.7274 train_time:12308ms step_avg:159.85ms
step:88/1530 train_loss:4.7353 train_time:12468ms step_avg:159.84ms
step:89/1530 train_loss:4.6920 train_time:12629ms step_avg:159.86ms
step:90/1530 train_loss:4.6202 train_time:12790ms step_avg:159.88ms
step:91/1530 train_loss:4.6209 train_time:12951ms step_avg:159.89ms
step:92/1530 train_loss:4.7902 train_time:13112ms step_avg:159.90ms
step:93/1530 train_loss:4.5984 train_time:13272ms step_avg:159.90ms
step:94/1530 train_loss:4.6135 train_time:13432ms step_avg:159.90ms
step:95/1530 train_loss:4.6607 train_time:13592ms step_avg:159.91ms
step:96/1530 train_loss:4.5724 train_time:13754ms step_avg:159.93ms
step:97/1530 train_loss:4.6263 train_time:13915ms step_avg:159.94ms
step:98/1530 train_loss:4.5657 train_time:14074ms step_avg:159.93ms
step:99/1530 train_loss:4.6346 train_time:14235ms step_avg:159.94ms
step:100/1530 train_loss:4.6644 train_time:14397ms step_avg:159.97ms
step:101/1530 train_loss:4.5358 train_time:14557ms step_avg:159.97ms
step:102/1530 train_loss:4.6902 train_time:14719ms step_avg:159.99ms
step:103/1530 train_loss:4.5639 train_time:14879ms step_avg:159.99ms
step:104/1530 train_loss:4.5146 train_time:15040ms step_avg:159.99ms
step:105/1530 train_loss:4.5357 train_time:15198ms step_avg:159.98ms
step:106/1530 train_loss:4.5827 train_time:15359ms step_avg:159.99ms
step:107/1530 train_loss:4.4813 train_time:15520ms step_avg:160.00ms
step:108/1530 train_loss:4.3379 train_time:15680ms step_avg:160.00ms
step:109/1530 train_loss:4.4633 train_time:15840ms step_avg:160.00ms
step:110/1530 train_loss:4.4678 train_time:16000ms step_avg:160.00ms
step:111/1530 train_loss:4.4122 train_time:16160ms step_avg:160.00ms
step:112/1530 train_loss:4.5739 train_time:16320ms step_avg:160.00ms
step:113/1530 train_loss:4.4803 train_time:16481ms step_avg:160.01ms
step:114/1530 train_loss:4.3518 train_time:16641ms step_avg:160.01ms
step:115/1530 train_loss:4.5032 train_time:16803ms step_avg:160.03ms
step:116/1530 train_loss:4.4616 train_time:16967ms step_avg:160.07ms
step:117/1530 train_loss:4.3593 train_time:17131ms step_avg:160.10ms
step:118/1530 train_loss:4.5906 train_time:17294ms step_avg:160.13ms
step:119/1530 train_loss:4.4486 train_time:17459ms step_avg:160.17ms
step:120/1530 train_loss:4.3073 train_time:17624ms step_avg:160.21ms
step:121/1530 train_loss:4.2997 train_time:17787ms step_avg:160.24ms
step:122/1530 train_loss:4.4566 train_time:17951ms step_avg:160.28ms
step:123/1530 train_loss:4.2762 train_time:18115ms step_avg:160.31ms
step:124/1530 train_loss:4.5665 train_time:18278ms step_avg:160.34ms
step:125/1530 train_loss:4.4379 train_time:18443ms step_avg:160.38ms
step:125/1530 val_loss:4.3947 train_time:18490ms step_avg:160.78ms
step:126/1530 train_loss:4.4132 train_time:18607ms step_avg:160.41ms
step:127/1530 train_loss:4.4084 train_time:18774ms step_avg:160.46ms
step:128/1530 train_loss:4.3609 train_time:18937ms step_avg:160.48ms
step:129/1530 train_loss:4.6691 train_time:19102ms step_avg:160.52ms
step:130/1530 train_loss:4.3470 train_time:19266ms step_avg:160.55ms
step:131/1530 train_loss:4.3798 train_time:19430ms step_avg:160.58ms
step:132/1530 train_loss:4.3384 train_time:19595ms step_avg:160.62ms
step:133/1530 train_loss:4.4399 train_time:19759ms step_avg:160.64ms
step:134/1530 train_loss:4.2564 train_time:19922ms step_avg:160.66ms
step:135/1530 train_loss:4.4341 train_time:20089ms step_avg:160.71ms
step:136/1530 train_loss:4.2091 train_time:20254ms step_avg:160.74ms
step:137/1530 train_loss:4.3644 train_time:20418ms step_avg:160.77ms
step:138/1530 train_loss:4.2768 train_time:20582ms step_avg:160.80ms
step:139/1530 train_loss:4.3738 train_time:20746ms step_avg:160.82ms
step:140/1530 train_loss:4.4678 train_time:20910ms step_avg:160.84ms
step:141/1530 train_loss:4.3044 train_time:21074ms step_avg:160.87ms
step:142/1530 train_loss:4.2952 train_time:21237ms step_avg:160.88ms
step:143/1530 train_loss:4.2565 train_time:21401ms step_avg:160.91ms
step:144/1530 train_loss:4.3476 train_time:21564ms step_avg:160.93ms
step:145/1530 train_loss:4.3008 train_time:21728ms step_avg:160.95ms
step:146/1530 train_loss:4.1643 train_time:21892ms step_avg:160.97ms
step:147/1530 train_loss:4.3167 train_time:22056ms step_avg:160.99ms
step:148/1530 train_loss:4.3465 train_time:22220ms step_avg:161.01ms
step:149/1530 train_loss:4.2930 train_time:22385ms step_avg:161.04ms
step:150/1530 train_loss:4.4350 train_time:22549ms step_avg:161.06ms
step:151/1530 train_loss:4.2592 train_time:22712ms step_avg:161.08ms
step:152/1530 train_loss:4.2688 train_time:22876ms step_avg:161.10ms
step:153/1530 train_loss:4.3603 train_time:23039ms step_avg:161.11ms
step:154/1530 train_loss:4.3767 train_time:23203ms step_avg:161.13ms
step:155/1530 train_loss:4.2744 train_time:23369ms step_avg:161.17ms
step:156/1530 train_loss:4.3418 train_time:23532ms step_avg:161.18ms
step:157/1530 train_loss:4.3944 train_time:23695ms step_avg:161.19ms
step:158/1530 train_loss:4.2445 train_time:23859ms step_avg:161.21ms
step:159/1530 train_loss:4.3041 train_time:24024ms step_avg:161.23ms
step:160/1530 train_loss:4.1281 train_time:24188ms step_avg:161.25ms
step:161/1530 train_loss:4.3485 train_time:24352ms step_avg:161.27ms
step:162/1530 train_loss:4.3600 train_time:24517ms step_avg:161.29ms
step:163/1530 train_loss:4.3413 train_time:24681ms step_avg:161.31ms
step:164/1530 train_loss:4.1821 train_time:24844ms step_avg:161.32ms
step:165/1530 train_loss:4.2751 train_time:25007ms step_avg:161.34ms
step:166/1530 train_loss:4.3140 train_time:25172ms step_avg:161.36ms
step:167/1530 train_loss:4.1992 train_time:25335ms step_avg:161.37ms
step:168/1530 train_loss:4.2923 train_time:25500ms step_avg:161.39ms
step:169/1530 train_loss:4.1512 train_time:25663ms step_avg:161.40ms
step:170/1530 train_loss:4.0127 train_time:25827ms step_avg:161.42ms
step:171/1530 train_loss:4.2005 train_time:25991ms step_avg:161.43ms
step:172/1530 train_loss:4.1925 train_time:26154ms step_avg:161.44ms
step:173/1530 train_loss:4.2693 train_time:26317ms step_avg:161.46ms
step:174/1530 train_loss:4.4146 train_time:26481ms step_avg:161.47ms
step:175/1530 train_loss:4.2368 train_time:26644ms step_avg:161.48ms
step:176/1530 train_loss:4.0758 train_time:26807ms step_avg:161.49ms
step:177/1530 train_loss:4.0559 train_time:26971ms step_avg:161.50ms
step:178/1530 train_loss:4.1788 train_time:27133ms step_avg:161.51ms
step:179/1530 train_loss:4.1233 train_time:27296ms step_avg:161.51ms
step:180/1530 train_loss:4.1036 train_time:27459ms step_avg:161.52ms
step:181/1530 train_loss:4.2804 train_time:27621ms step_avg:161.53ms
step:182/1530 train_loss:4.1478 train_time:27786ms step_avg:161.54ms
step:183/1530 train_loss:4.1266 train_time:27949ms step_avg:161.55ms
step:184/1530 train_loss:4.1265 train_time:28111ms step_avg:161.56ms
step:185/1530 train_loss:4.2060 train_time:28274ms step_avg:161.57ms
step:186/1530 train_loss:4.1709 train_time:28437ms step_avg:161.57ms
step:187/1530 train_loss:4.2264 train_time:28600ms step_avg:161.58ms
step:188/1530 train_loss:4.1721 train_time:28901ms step_avg:162.37ms
step:189/1530 train_loss:4.1035 train_time:29240ms step_avg:163.35ms
step:190/1530 train_loss:4.2002 train_time:29402ms step_avg:163.35ms
step:191/1530 train_loss:4.0778 train_time:29566ms step_avg:163.35ms
step:192/1530 train_loss:4.0225 train_time:29730ms step_avg:163.35ms
step:193/1530 train_loss:4.2484 train_time:29893ms step_avg:163.35ms
step:194/1530 train_loss:4.1718 train_time:30056ms step_avg:163.35ms
step:195/1530 train_loss:4.3566 train_time:30218ms step_avg:163.34ms
step:196/1530 train_loss:4.1695 train_time:30382ms step_avg:163.34ms
step:197/1530 train_loss:4.0386 train_time:30545ms step_avg:163.34ms
step:198/1530 train_loss:4.1775 train_time:30708ms step_avg:163.34ms
step:199/1530 train_loss:4.0328 train_time:30871ms step_avg:163.34ms
step:200/1530 train_loss:4.1033 train_time:31034ms step_avg:163.34ms
step:201/1530 train_loss:4.0108 train_time:31196ms step_avg:163.33ms
step:202/1530 train_loss:4.2525 train_time:31359ms step_avg:163.33ms
step:203/1530 train_loss:4.0558 train_time:31522ms step_avg:163.33ms
step:204/1530 train_loss:4.1834 train_time:31687ms step_avg:163.33ms
step:205/1530 train_loss:4.2495 train_time:31850ms step_avg:163.33ms
step:206/1530 train_loss:3.9420 train_time:32012ms step_avg:163.33ms
step:207/1530 train_loss:4.0708 train_time:32175ms step_avg:163.32ms
step:208/1530 train_loss:4.0949 train_time:32336ms step_avg:163.31ms
step:209/1530 train_loss:4.2354 train_time:32499ms step_avg:163.31ms
step:210/1530 train_loss:4.1682 train_time:32662ms step_avg:163.31ms
step:211/1530 train_loss:4.0554 train_time:32825ms step_avg:163.31ms
step:212/1530 train_loss:4.1120 train_time:32990ms step_avg:163.31ms
step:213/1530 train_loss:4.0427 train_time:33151ms step_avg:163.31ms
step:214/1530 train_loss:4.1128 train_time:33315ms step_avg:163.31ms
step:215/1530 train_loss:3.9651 train_time:33479ms step_avg:163.31ms
step:216/1530 train_loss:4.0031 train_time:33641ms step_avg:163.31ms
step:217/1530 train_loss:4.0246 train_time:33804ms step_avg:163.31ms
step:218/1530 train_loss:4.0878 train_time:33968ms step_avg:163.31ms
step:219/1530 train_loss:4.0655 train_time:34130ms step_avg:163.30ms
step:220/1530 train_loss:4.0784 train_time:34294ms step_avg:163.30ms
step:221/1530 train_loss:4.0886 train_time:34457ms step_avg:163.30ms
step:222/1530 train_loss:4.0013 train_time:34620ms step_avg:163.30ms
step:223/1530 train_loss:3.9789 train_time:34784ms step_avg:163.30ms
step:224/1530 train_loss:4.2944 train_time:34947ms step_avg:163.30ms
step:225/1530 train_loss:3.9191 train_time:35109ms step_avg:163.30ms
step:226/1530 train_loss:3.9887 train_time:35273ms step_avg:163.30ms
step:227/1530 train_loss:3.9668 train_time:35436ms step_avg:163.30ms
step:228/1530 train_loss:4.1385 train_time:35600ms step_avg:163.30ms
step:229/1530 train_loss:3.9209 train_time:35768ms step_avg:163.32ms
step:230/1530 train_loss:4.0321 train_time:35934ms step_avg:163.33ms
step:231/1530 train_loss:3.8989 train_time:36099ms step_avg:163.34ms
step:232/1530 train_loss:3.9710 train_time:36265ms step_avg:163.35ms
step:233/1530 train_loss:4.0848 train_time:36432ms step_avg:163.37ms
step:234/1530 train_loss:4.0295 train_time:36598ms step_avg:163.38ms
step:235/1530 train_loss:3.8875 train_time:36764ms step_avg:163.40ms
step:236/1530 train_loss:4.0730 train_time:36930ms step_avg:163.41ms
step:237/1530 train_loss:4.0729 train_time:37096ms step_avg:163.42ms
step:238/1530 train_loss:3.9353 train_time:37262ms step_avg:163.43ms
step:239/1530 train_loss:4.0735 train_time:37426ms step_avg:163.43ms
step:240/1530 train_loss:4.1086 train_time:37596ms step_avg:163.46ms
step:241/1530 train_loss:3.9590 train_time:37761ms step_avg:163.47ms
step:242/1530 train_loss:4.1383 train_time:37929ms step_avg:163.49ms
step:243/1530 train_loss:4.0082 train_time:38095ms step_avg:163.50ms
step:244/1530 train_loss:4.0717 train_time:38260ms step_avg:163.51ms
step:245/1530 train_loss:4.1371 train_time:38426ms step_avg:163.52ms
step:246/1530 train_loss:4.0484 train_time:38593ms step_avg:163.53ms
step:247/1530 train_loss:3.9953 train_time:38759ms step_avg:163.54ms
step:248/1530 train_loss:4.0835 train_time:38926ms step_avg:163.55ms
step:249/1530 train_loss:3.9178 train_time:39092ms step_avg:163.57ms
step:250/1530 train_loss:3.9655 train_time:39257ms step_avg:163.57ms
step:250/1530 val_loss:3.9955 train_time:39305ms step_avg:163.77ms
step:251/1530 train_loss:4.0666 train_time:39428ms step_avg:163.60ms
step:252/1530 train_loss:4.1487 train_time:39594ms step_avg:163.61ms
step:253/1530 train_loss:3.9319 train_time:39760ms step_avg:163.62ms
step:254/1530 train_loss:3.8862 train_time:39928ms step_avg:163.64ms
step:255/1530 train_loss:4.0786 train_time:40094ms step_avg:163.65ms
step:256/1530 train_loss:3.9826 train_time:40259ms step_avg:163.66ms
step:257/1530 train_loss:3.9917 train_time:40428ms step_avg:163.67ms
step:258/1530 train_loss:3.9936 train_time:40593ms step_avg:163.68ms
step:259/1530 train_loss:4.0290 train_time:40759ms step_avg:163.69ms
step:260/1530 train_loss:4.0507 train_time:40928ms step_avg:163.71ms
step:261/1530 train_loss:4.0222 train_time:41093ms step_avg:163.72ms
step:262/1530 train_loss:3.9845 train_time:41259ms step_avg:163.73ms
step:263/1530 train_loss:3.8881 train_time:41426ms step_avg:163.74ms
step:264/1530 train_loss:3.9829 train_time:41591ms step_avg:163.75ms
step:265/1530 train_loss:3.8640 train_time:41758ms step_avg:163.76ms
step:266/1530 train_loss:3.9194 train_time:41926ms step_avg:163.77ms
step:267/1530 train_loss:3.9225 train_time:42091ms step_avg:163.78ms
step:268/1530 train_loss:3.9564 train_time:42256ms step_avg:163.78ms
step:269/1530 train_loss:3.8506 train_time:42423ms step_avg:163.79ms
step:270/1530 train_loss:4.0985 train_time:42588ms step_avg:163.80ms
step:271/1530 train_loss:3.9691 train_time:42754ms step_avg:163.81ms
step:272/1530 train_loss:3.9232 train_time:42921ms step_avg:163.82ms
step:273/1530 train_loss:3.9394 train_time:43088ms step_avg:163.83ms
step:274/1530 train_loss:4.0318 train_time:43254ms step_avg:163.84ms
step:275/1530 train_loss:4.0622 train_time:43420ms step_avg:163.85ms
step:276/1530 train_loss:4.2305 train_time:43586ms step_avg:163.86ms
step:277/1530 train_loss:4.0432 train_time:43752ms step_avg:163.86ms
step:278/1530 train_loss:4.0804 train_time:43918ms step_avg:163.87ms
step:279/1530 train_loss:3.9944 train_time:44084ms step_avg:163.88ms
step:280/1530 train_loss:4.1732 train_time:44251ms step_avg:163.89ms
step:281/1530 train_loss:3.9644 train_time:44418ms step_avg:163.90ms
step:282/1530 train_loss:3.9389 train_time:44586ms step_avg:163.92ms
step:283/1530 train_loss:3.9067 train_time:44751ms step_avg:163.92ms
step:284/1530 train_loss:4.0450 train_time:44917ms step_avg:163.93ms
step:285/1530 train_loss:4.0624 train_time:45083ms step_avg:163.94ms
step:286/1530 train_loss:4.0893 train_time:45249ms step_avg:163.95ms
step:287/1530 train_loss:3.9007 train_time:45415ms step_avg:163.95ms
step:288/1530 train_loss:4.0029 train_time:45579ms step_avg:163.95ms
step:289/1530 train_loss:3.8672 train_time:45745ms step_avg:163.96ms
step:290/1530 train_loss:3.8510 train_time:45910ms step_avg:163.96ms
step:291/1530 train_loss:3.9057 train_time:46075ms step_avg:163.97ms
step:292/1530 train_loss:3.8609 train_time:46243ms step_avg:163.98ms
step:293/1530 train_loss:3.8996 train_time:46408ms step_avg:163.99ms
step:294/1530 train_loss:3.9367 train_time:46573ms step_avg:163.99ms
step:295/1530 train_loss:3.8368 train_time:46737ms step_avg:163.99ms
step:296/1530 train_loss:3.8549 train_time:46905ms step_avg:164.00ms
step:297/1530 train_loss:3.8573 train_time:47071ms step_avg:164.01ms
step:298/1530 train_loss:3.9629 train_time:47236ms step_avg:164.02ms
step:299/1530 train_loss:3.8135 train_time:47402ms step_avg:164.02ms
step:300/1530 train_loss:3.9683 train_time:47568ms step_avg:164.03ms
step:301/1530 train_loss:3.9600 train_time:47733ms step_avg:164.03ms
step:302/1530 train_loss:3.9301 train_time:47898ms step_avg:164.03ms
step:303/1530 train_loss:3.9787 train_time:48063ms step_avg:164.04ms
step:304/1530 train_loss:3.9678 train_time:48229ms step_avg:164.05ms
step:305/1530 train_loss:4.4479 train_time:48394ms step_avg:164.05ms
step:306/1530 train_loss:3.9300 train_time:48559ms step_avg:164.05ms
step:307/1530 train_loss:3.8296 train_time:48726ms step_avg:164.06ms
step:308/1530 train_loss:3.9696 train_time:48889ms step_avg:164.06ms
step:309/1530 train_loss:3.8738 train_time:49055ms step_avg:164.06ms
step:310/1530 train_loss:4.0799 train_time:49220ms step_avg:164.07ms
step:311/1530 train_loss:3.9268 train_time:49386ms step_avg:164.07ms
step:312/1530 train_loss:3.8562 train_time:49550ms step_avg:164.07ms
step:313/1530 train_loss:3.9326 train_time:49716ms step_avg:164.08ms
step:314/1530 train_loss:4.0538 train_time:49882ms step_avg:164.09ms
step:315/1530 train_loss:3.9374 train_time:50048ms step_avg:164.09ms
step:316/1530 train_loss:3.7894 train_time:50213ms step_avg:164.09ms
step:317/1530 train_loss:3.8668 train_time:50378ms step_avg:164.10ms
step:318/1530 train_loss:3.9210 train_time:50547ms step_avg:164.11ms
step:319/1530 train_loss:3.8894 train_time:50713ms step_avg:164.12ms
step:320/1530 train_loss:4.0038 train_time:50877ms step_avg:164.12ms
step:321/1530 train_loss:3.9554 train_time:51044ms step_avg:164.13ms
step:322/1530 train_loss:3.9292 train_time:51209ms step_avg:164.13ms
step:323/1530 train_loss:4.0017 train_time:51374ms step_avg:164.13ms
step:324/1530 train_loss:3.9387 train_time:51540ms step_avg:164.14ms
step:325/1530 train_loss:4.0122 train_time:51706ms step_avg:164.15ms
step:326/1530 train_loss:3.8888 train_time:51871ms step_avg:164.15ms
step:327/1530 train_loss:4.3926 train_time:52036ms step_avg:164.15ms
step:328/1530 train_loss:4.0737 train_time:52201ms step_avg:164.15ms
step:329/1530 train_loss:3.7944 train_time:52367ms step_avg:164.16ms
step:330/1530 train_loss:3.7484 train_time:52533ms step_avg:164.16ms
step:331/1530 train_loss:3.9718 train_time:52698ms step_avg:164.17ms
step:332/1530 train_loss:3.9093 train_time:52864ms step_avg:164.17ms
step:333/1530 train_loss:3.8810 train_time:53029ms step_avg:164.18ms
step:334/1530 train_loss:3.8439 train_time:53193ms step_avg:164.18ms
step:335/1530 train_loss:4.0092 train_time:53358ms step_avg:164.18ms
step:336/1530 train_loss:3.9613 train_time:53525ms step_avg:164.19ms
step:337/1530 train_loss:4.4189 train_time:53690ms step_avg:164.19ms
step:338/1530 train_loss:3.9318 train_time:53855ms step_avg:164.19ms
step:339/1530 train_loss:3.8578 train_time:54020ms step_avg:164.20ms
step:340/1530 train_loss:3.9305 train_time:54186ms step_avg:164.20ms
step:341/1530 train_loss:3.8557 train_time:54353ms step_avg:164.21ms
step:342/1530 train_loss:3.8000 train_time:54521ms step_avg:164.22ms
step:343/1530 train_loss:3.8330 train_time:54689ms step_avg:164.23ms
step:344/1530 train_loss:3.9954 train_time:54856ms step_avg:164.24ms
step:345/1530 train_loss:3.8148 train_time:55026ms step_avg:164.26ms
step:346/1530 train_loss:3.7610 train_time:55194ms step_avg:164.27ms
step:347/1530 train_loss:3.7911 train_time:55363ms step_avg:164.28ms
step:348/1530 train_loss:3.8563 train_time:55531ms step_avg:164.29ms
step:349/1530 train_loss:3.8288 train_time:55697ms step_avg:164.30ms
step:350/1530 train_loss:3.5689 train_time:55867ms step_avg:164.32ms
step:351/1530 train_loss:3.8232 train_time:56035ms step_avg:164.33ms
step:352/1530 train_loss:4.1759 train_time:56203ms step_avg:164.34ms
step:353/1530 train_loss:3.6531 train_time:56371ms step_avg:164.35ms
step:354/1530 train_loss:3.9222 train_time:56538ms step_avg:164.35ms
step:355/1530 train_loss:3.7824 train_time:56709ms step_avg:164.37ms
step:356/1530 train_loss:3.8763 train_time:56878ms step_avg:164.39ms
step:357/1530 train_loss:3.7592 train_time:57047ms step_avg:164.40ms
step:358/1530 train_loss:3.8645 train_time:57215ms step_avg:164.41ms
step:359/1530 train_loss:3.7710 train_time:57383ms step_avg:164.42ms
step:360/1530 train_loss:3.4282 train_time:57553ms step_avg:164.44ms
step:361/1530 train_loss:4.0128 train_time:57722ms step_avg:164.45ms
step:362/1530 train_loss:3.9172 train_time:57890ms step_avg:164.46ms
step:363/1530 train_loss:3.8377 train_time:58059ms step_avg:164.47ms
step:364/1530 train_loss:3.7420 train_time:58229ms step_avg:164.49ms
step:365/1530 train_loss:3.9124 train_time:58396ms step_avg:164.50ms
step:366/1530 train_loss:3.8564 train_time:58564ms step_avg:164.51ms
step:367/1530 train_loss:3.8550 train_time:58732ms step_avg:164.52ms
step:368/1530 train_loss:3.8466 train_time:58899ms step_avg:164.52ms
step:369/1530 train_loss:3.7468 train_time:59068ms step_avg:164.53ms
step:370/1530 train_loss:3.8743 train_time:59235ms step_avg:164.54ms
step:371/1530 train_loss:3.7281 train_time:59403ms step_avg:164.55ms
step:372/1530 train_loss:3.6905 train_time:59571ms step_avg:164.56ms
step:373/1530 train_loss:3.9113 train_time:59739ms step_avg:164.57ms
step:374/1530 train_loss:3.8226 train_time:59907ms step_avg:164.58ms
step:375/1530 train_loss:3.7940 train_time:60075ms step_avg:164.59ms
step:375/1530 val_loss:3.8199 train_time:60123ms step_avg:164.72ms
step:376/1530 train_loss:3.8595 train_time:60245ms step_avg:164.60ms
step:377/1530 train_loss:3.7827 train_time:60551ms step_avg:164.99ms
step:378/1530 train_loss:3.8412 train_time:60729ms step_avg:165.02ms
step:379/1530 train_loss:3.8677 train_time:61048ms step_avg:165.44ms
step:380/1530 train_loss:3.9492 train_time:61216ms step_avg:165.45ms
step:381/1530 train_loss:3.8386 train_time:61383ms step_avg:165.45ms
step:382/1530 train_loss:3.7994 train_time:61552ms step_avg:165.46ms
step:383/1530 train_loss:3.7912 train_time:61720ms step_avg:165.47ms
step:384/1530 train_loss:3.8708 train_time:61887ms step_avg:165.47ms
step:385/1530 train_loss:3.7878 train_time:62056ms step_avg:165.48ms
step:386/1530 train_loss:3.8877 train_time:62223ms step_avg:165.49ms
step:387/1530 train_loss:4.0512 train_time:62394ms step_avg:165.50ms
step:388/1530 train_loss:3.7862 train_time:62562ms step_avg:165.51ms
step:389/1530 train_loss:3.7950 train_time:62729ms step_avg:165.51ms
step:390/1530 train_loss:3.9003 train_time:62899ms step_avg:165.52ms
step:391/1530 train_loss:3.8176 train_time:63065ms step_avg:165.53ms
step:392/1530 train_loss:3.9210 train_time:63234ms step_avg:165.53ms
step:393/1530 train_loss:3.7599 train_time:63401ms step_avg:165.54ms
step:394/1530 train_loss:3.8820 train_time:63569ms step_avg:165.54ms
step:395/1530 train_loss:3.6260 train_time:63736ms step_avg:165.55ms
step:396/1530 train_loss:3.8300 train_time:63903ms step_avg:165.55ms
step:397/1530 train_loss:3.8606 train_time:64071ms step_avg:165.56ms
step:398/1530 train_loss:3.8864 train_time:64237ms step_avg:165.56ms
step:399/1530 train_loss:3.7674 train_time:64404ms step_avg:165.56ms
step:400/1530 train_loss:3.8203 train_time:64572ms step_avg:165.57ms
step:401/1530 train_loss:3.9106 train_time:64739ms step_avg:165.57ms
step:402/1530 train_loss:3.8385 train_time:64906ms step_avg:165.58ms
step:403/1530 train_loss:3.9610 train_time:65076ms step_avg:165.59ms
step:404/1530 train_loss:3.6822 train_time:65242ms step_avg:165.59ms
step:405/1530 train_loss:3.7817 train_time:65409ms step_avg:165.59ms
step:406/1530 train_loss:4.0918 train_time:65576ms step_avg:165.60ms
step:407/1530 train_loss:3.7767 train_time:65742ms step_avg:165.60ms
step:408/1530 train_loss:3.8142 train_time:65909ms step_avg:165.60ms
step:409/1530 train_loss:3.8561 train_time:66078ms step_avg:165.61ms
step:410/1530 train_loss:3.7509 train_time:66244ms step_avg:165.61ms
step:411/1530 train_loss:3.7573 train_time:66412ms step_avg:165.62ms
step:412/1530 train_loss:4.1830 train_time:66580ms step_avg:165.62ms
step:413/1530 train_loss:3.6922 train_time:66746ms step_avg:165.62ms
step:414/1530 train_loss:4.0101 train_time:66913ms step_avg:165.63ms
step:415/1530 train_loss:3.7498 train_time:67080ms step_avg:165.63ms
step:416/1530 train_loss:3.7601 train_time:67247ms step_avg:165.63ms
step:417/1530 train_loss:3.9462 train_time:67415ms step_avg:165.64ms
step:418/1530 train_loss:3.6854 train_time:67582ms step_avg:165.64ms
step:419/1530 train_loss:3.8010 train_time:67749ms step_avg:165.64ms
step:420/1530 train_loss:3.6994 train_time:67917ms step_avg:165.65ms
step:421/1530 train_loss:3.6419 train_time:68084ms step_avg:165.65ms
step:422/1530 train_loss:3.7797 train_time:68251ms step_avg:165.66ms
step:423/1530 train_loss:3.8727 train_time:68417ms step_avg:165.66ms
step:424/1530 train_loss:3.6176 train_time:68584ms step_avg:165.66ms
step:425/1530 train_loss:3.7980 train_time:68751ms step_avg:165.67ms
step:426/1530 train_loss:3.6523 train_time:68919ms step_avg:165.67ms
step:427/1530 train_loss:3.8794 train_time:69086ms step_avg:165.67ms
step:428/1530 train_loss:3.8038 train_time:69255ms step_avg:165.68ms
step:429/1530 train_loss:3.7503 train_time:69422ms step_avg:165.68ms
step:430/1530 train_loss:3.7019 train_time:69589ms step_avg:165.69ms
step:431/1530 train_loss:3.6196 train_time:69757ms step_avg:165.69ms
step:432/1530 train_loss:3.7579 train_time:69923ms step_avg:165.70ms
step:433/1530 train_loss:3.8147 train_time:70092ms step_avg:165.70ms
step:434/1530 train_loss:3.7682 train_time:70258ms step_avg:165.70ms
step:435/1530 train_loss:3.8059 train_time:70425ms step_avg:165.71ms
step:436/1530 train_loss:3.8265 train_time:70594ms step_avg:165.71ms
step:437/1530 train_loss:3.7325 train_time:70760ms step_avg:165.72ms
step:438/1530 train_loss:3.7048 train_time:70927ms step_avg:165.72ms
step:439/1530 train_loss:3.7133 train_time:71097ms step_avg:165.73ms
step:440/1530 train_loss:3.8891 train_time:71263ms step_avg:165.73ms
step:441/1530 train_loss:3.7599 train_time:71432ms step_avg:165.74ms
step:442/1530 train_loss:3.7327 train_time:71599ms step_avg:165.74ms
step:443/1530 train_loss:3.6227 train_time:71766ms step_avg:165.74ms
step:444/1530 train_loss:3.9229 train_time:71934ms step_avg:165.75ms
step:445/1530 train_loss:3.8420 train_time:72100ms step_avg:165.75ms
step:446/1530 train_loss:3.8342 train_time:72267ms step_avg:165.75ms
step:447/1530 train_loss:3.7532 train_time:72435ms step_avg:165.75ms
step:448/1530 train_loss:3.8500 train_time:72601ms step_avg:165.76ms
step:449/1530 train_loss:3.6861 train_time:72769ms step_avg:165.76ms
step:450/1530 train_loss:3.7110 train_time:72936ms step_avg:165.76ms
step:451/1530 train_loss:3.5698 train_time:73103ms step_avg:165.77ms
step:452/1530 train_loss:3.7130 train_time:73270ms step_avg:165.77ms
step:453/1530 train_loss:3.6705 train_time:73437ms step_avg:165.77ms
step:454/1530 train_loss:3.6359 train_time:73604ms step_avg:165.77ms
step:455/1530 train_loss:3.8370 train_time:73772ms step_avg:165.78ms
step:456/1530 train_loss:3.7185 train_time:73940ms step_avg:165.79ms
step:457/1530 train_loss:3.7800 train_time:74109ms step_avg:165.79ms
step:458/1530 train_loss:3.8239 train_time:74280ms step_avg:165.80ms
step:459/1530 train_loss:3.6303 train_time:74451ms step_avg:165.81ms
step:460/1530 train_loss:3.7884 train_time:74621ms step_avg:165.82ms
step:461/1530 train_loss:3.6867 train_time:74792ms step_avg:165.84ms
step:462/1530 train_loss:3.7310 train_time:74962ms step_avg:165.85ms
step:463/1530 train_loss:3.7688 train_time:75134ms step_avg:165.86ms
step:464/1530 train_loss:3.7075 train_time:75304ms step_avg:165.87ms
step:465/1530 train_loss:3.7052 train_time:75473ms step_avg:165.88ms
step:466/1530 train_loss:3.7959 train_time:75642ms step_avg:165.88ms
step:467/1530 train_loss:3.8192 train_time:75815ms step_avg:165.90ms
step:468/1530 train_loss:3.7886 train_time:75984ms step_avg:165.90ms
step:469/1530 train_loss:3.6784 train_time:76152ms step_avg:165.91ms
step:470/1530 train_loss:3.7577 train_time:76323ms step_avg:165.92ms
step:471/1530 train_loss:3.8100 train_time:76495ms step_avg:165.93ms
step:472/1530 train_loss:3.7820 train_time:76666ms step_avg:165.94ms
step:473/1530 train_loss:3.7160 train_time:76836ms step_avg:165.95ms
step:474/1530 train_loss:3.5910 train_time:77004ms step_avg:165.96ms
step:475/1530 train_loss:4.0052 train_time:77174ms step_avg:165.97ms
step:476/1530 train_loss:3.7485 train_time:77342ms step_avg:165.97ms
step:477/1530 train_loss:3.5902 train_time:77514ms step_avg:165.98ms
step:478/1530 train_loss:3.8203 train_time:77684ms step_avg:165.99ms
step:479/1530 train_loss:3.7690 train_time:77856ms step_avg:166.00ms
step:480/1530 train_loss:3.9221 train_time:78025ms step_avg:166.01ms
step:481/1530 train_loss:3.7243 train_time:78196ms step_avg:166.02ms
step:482/1530 train_loss:3.5273 train_time:78365ms step_avg:166.03ms
step:483/1530 train_loss:3.7985 train_time:78535ms step_avg:166.04ms
step:484/1530 train_loss:3.6559 train_time:78704ms step_avg:166.04ms
step:485/1530 train_loss:3.6546 train_time:78874ms step_avg:166.05ms
step:486/1530 train_loss:3.5629 train_time:79043ms step_avg:166.06ms
step:487/1530 train_loss:3.6838 train_time:79213ms step_avg:166.06ms
step:488/1530 train_loss:3.8753 train_time:79383ms step_avg:166.07ms
step:489/1530 train_loss:3.7033 train_time:79554ms step_avg:166.08ms
step:490/1530 train_loss:3.5901 train_time:79723ms step_avg:166.09ms
step:491/1530 train_loss:3.6089 train_time:79892ms step_avg:166.10ms
step:492/1530 train_loss:3.7223 train_time:80064ms step_avg:166.11ms
step:493/1530 train_loss:3.5706 train_time:80236ms step_avg:166.12ms
step:494/1530 train_loss:3.6938 train_time:80404ms step_avg:166.12ms
step:495/1530 train_loss:3.6559 train_time:80576ms step_avg:166.14ms
step:496/1530 train_loss:3.5037 train_time:80746ms step_avg:166.14ms
step:497/1530 train_loss:3.7317 train_time:80915ms step_avg:166.15ms
step:498/1530 train_loss:3.7799 train_time:81084ms step_avg:166.16ms
step:499/1530 train_loss:3.8219 train_time:81254ms step_avg:166.16ms
step:500/1530 train_loss:3.7242 train_time:81424ms step_avg:166.17ms
step:500/1530 val_loss:3.6983 train_time:81473ms step_avg:166.27ms
step:501/1530 train_loss:3.7959 train_time:81596ms step_avg:166.18ms
step:502/1530 train_loss:3.7461 train_time:81767ms step_avg:166.19ms
step:503/1530 train_loss:3.7712 train_time:81937ms step_avg:166.20ms
step:504/1530 train_loss:3.7110 train_time:82105ms step_avg:166.20ms
step:505/1530 train_loss:3.7927 train_time:82274ms step_avg:166.21ms
step:506/1530 train_loss:3.6456 train_time:82442ms step_avg:166.21ms
step:507/1530 train_loss:3.7527 train_time:82612ms step_avg:166.22ms
step:508/1530 train_loss:3.8202 train_time:82782ms step_avg:166.23ms
step:509/1530 train_loss:3.7667 train_time:82951ms step_avg:166.24ms
step:510/1530 train_loss:3.5742 train_time:83121ms step_avg:166.24ms
step:511/1530 train_loss:3.7692 train_time:83290ms step_avg:166.25ms
step:512/1530 train_loss:3.7150 train_time:83461ms step_avg:166.26ms
step:513/1530 train_loss:3.6599 train_time:83630ms step_avg:166.26ms
step:514/1530 train_loss:3.8707 train_time:83800ms step_avg:166.27ms
step:515/1530 train_loss:3.7293 train_time:83969ms step_avg:166.28ms
step:516/1530 train_loss:4.0692 train_time:84140ms step_avg:166.28ms
step:517/1530 train_loss:3.6865 train_time:84309ms step_avg:166.29ms
step:518/1530 train_loss:3.7601 train_time:84476ms step_avg:166.29ms
step:519/1530 train_loss:3.6526 train_time:84645ms step_avg:166.30ms
step:520/1530 train_loss:3.6833 train_time:84817ms step_avg:166.31ms
step:521/1530 train_loss:3.6629 train_time:84985ms step_avg:166.31ms
step:522/1530 train_loss:3.6589 train_time:85155ms step_avg:166.32ms
step:523/1530 train_loss:4.2903 train_time:85324ms step_avg:166.32ms
step:524/1530 train_loss:3.7331 train_time:85493ms step_avg:166.33ms
step:525/1530 train_loss:3.6740 train_time:85661ms step_avg:166.33ms
step:526/1530 train_loss:3.6940 train_time:85830ms step_avg:166.34ms
step:527/1530 train_loss:3.6509 train_time:85999ms step_avg:166.34ms
step:528/1530 train_loss:3.6221 train_time:86167ms step_avg:166.35ms
step:529/1530 train_loss:3.8457 train_time:86337ms step_avg:166.35ms
step:530/1530 train_loss:3.6449 train_time:86505ms step_avg:166.36ms
step:531/1530 train_loss:3.9135 train_time:86676ms step_avg:166.36ms
step:532/1530 train_loss:3.7280 train_time:86844ms step_avg:166.37ms
step:533/1530 train_loss:3.6501 train_time:87016ms step_avg:166.38ms
step:534/1530 train_loss:3.6612 train_time:87184ms step_avg:166.38ms
step:535/1530 train_loss:3.6032 train_time:87354ms step_avg:166.39ms
step:536/1530 train_loss:3.7505 train_time:87525ms step_avg:166.40ms
step:537/1530 train_loss:3.7183 train_time:87696ms step_avg:166.41ms
step:538/1530 train_loss:3.6186 train_time:87867ms step_avg:166.41ms
step:539/1530 train_loss:4.1132 train_time:88039ms step_avg:166.42ms
step:540/1530 train_loss:3.6690 train_time:88208ms step_avg:166.43ms
step:541/1530 train_loss:3.7802 train_time:88375ms step_avg:166.43ms
step:542/1530 train_loss:3.5807 train_time:88545ms step_avg:166.44ms
step:543/1530 train_loss:3.5784 train_time:88716ms step_avg:166.45ms
step:544/1530 train_loss:3.6303 train_time:88883ms step_avg:166.45ms
step:545/1530 train_loss:3.5853 train_time:89053ms step_avg:166.45ms
step:546/1530 train_loss:3.6212 train_time:89222ms step_avg:166.46ms
step:547/1530 train_loss:3.6319 train_time:89392ms step_avg:166.46ms
step:548/1530 train_loss:3.6038 train_time:89560ms step_avg:166.47ms
step:549/1530 train_loss:3.7202 train_time:89729ms step_avg:166.47ms
step:550/1530 train_loss:3.6117 train_time:89898ms step_avg:166.48ms
step:551/1530 train_loss:3.6265 train_time:90067ms step_avg:166.48ms
step:552/1530 train_loss:3.9337 train_time:90237ms step_avg:166.49ms
step:553/1530 train_loss:3.7579 train_time:90406ms step_avg:166.49ms
step:554/1530 train_loss:3.7075 train_time:90575ms step_avg:166.50ms
step:555/1530 train_loss:3.6212 train_time:90743ms step_avg:166.50ms
step:556/1530 train_loss:3.6911 train_time:90913ms step_avg:166.51ms
step:557/1530 train_loss:3.2963 train_time:91081ms step_avg:166.51ms
step:558/1530 train_loss:3.6082 train_time:91250ms step_avg:166.51ms
step:559/1530 train_loss:3.6421 train_time:91419ms step_avg:166.52ms
step:560/1530 train_loss:3.6837 train_time:91589ms step_avg:166.52ms
step:561/1530 train_loss:3.5986 train_time:91757ms step_avg:166.53ms
step:562/1530 train_loss:3.5446 train_time:91926ms step_avg:166.53ms
step:563/1530 train_loss:3.7536 train_time:92096ms step_avg:166.54ms
step:564/1530 train_loss:3.5671 train_time:92265ms step_avg:166.54ms
step:565/1530 train_loss:3.6725 train_time:92435ms step_avg:166.55ms
step:566/1530 train_loss:3.6184 train_time:92740ms step_avg:166.80ms
step:567/1530 train_loss:3.5979 train_time:92921ms step_avg:166.82ms
step:568/1530 train_loss:3.6810 train_time:93092ms step_avg:166.83ms
step:569/1530 train_loss:3.6416 train_time:93425ms step_avg:167.13ms
step:570/1530 train_loss:3.6815 train_time:93594ms step_avg:167.13ms
step:571/1530 train_loss:3.7538 train_time:93765ms step_avg:167.14ms
step:572/1530 train_loss:3.7178 train_time:93938ms step_avg:167.15ms
step:573/1530 train_loss:3.7331 train_time:94111ms step_avg:167.16ms
step:574/1530 train_loss:3.7647 train_time:94282ms step_avg:167.17ms
step:575/1530 train_loss:3.7244 train_time:94454ms step_avg:167.18ms
step:576/1530 train_loss:3.7501 train_time:94624ms step_avg:167.18ms
step:577/1530 train_loss:3.6566 train_time:94798ms step_avg:167.19ms
step:578/1530 train_loss:3.6704 train_time:94971ms step_avg:167.20ms
step:579/1530 train_loss:3.6652 train_time:95141ms step_avg:167.21ms
step:580/1530 train_loss:3.5798 train_time:95313ms step_avg:167.22ms
step:581/1530 train_loss:3.6260 train_time:95483ms step_avg:167.22ms
step:582/1530 train_loss:3.8395 train_time:95653ms step_avg:167.23ms
step:583/1530 train_loss:3.6224 train_time:95824ms step_avg:167.23ms
step:584/1530 train_loss:3.5873 train_time:95996ms step_avg:167.24ms
step:585/1530 train_loss:3.7850 train_time:96165ms step_avg:167.24ms
step:586/1530 train_loss:3.5084 train_time:96339ms step_avg:167.25ms
step:587/1530 train_loss:3.6626 train_time:96510ms step_avg:167.26ms
step:588/1530 train_loss:3.6397 train_time:96679ms step_avg:167.27ms
step:589/1530 train_loss:3.9905 train_time:96853ms step_avg:167.28ms
step:590/1530 train_loss:3.7719 train_time:97025ms step_avg:167.28ms
step:591/1530 train_loss:3.5040 train_time:97196ms step_avg:167.29ms
step:592/1530 train_loss:3.5291 train_time:97369ms step_avg:167.30ms
step:593/1530 train_loss:3.4960 train_time:97541ms step_avg:167.31ms
step:594/1530 train_loss:3.5505 train_time:97713ms step_avg:167.32ms
step:595/1530 train_loss:3.9099 train_time:97886ms step_avg:167.33ms
step:596/1530 train_loss:3.6415 train_time:98059ms step_avg:167.34ms
step:597/1530 train_loss:3.5742 train_time:98229ms step_avg:167.34ms
step:598/1530 train_loss:3.6512 train_time:98400ms step_avg:167.35ms
step:599/1530 train_loss:3.4750 train_time:98571ms step_avg:167.35ms
step:600/1530 train_loss:3.5924 train_time:98742ms step_avg:167.36ms
step:601/1530 train_loss:3.6407 train_time:98917ms step_avg:167.37ms
step:602/1530 train_loss:3.6650 train_time:99090ms step_avg:167.38ms
step:603/1530 train_loss:3.7753 train_time:99262ms step_avg:167.39ms
step:604/1530 train_loss:3.6027 train_time:99435ms step_avg:167.40ms
step:605/1530 train_loss:3.6066 train_time:99605ms step_avg:167.40ms
step:606/1530 train_loss:3.5728 train_time:99778ms step_avg:167.41ms
step:607/1530 train_loss:3.8374 train_time:99948ms step_avg:167.42ms
step:608/1530 train_loss:3.6257 train_time:100120ms step_avg:167.43ms
step:609/1530 train_loss:3.6122 train_time:100290ms step_avg:167.43ms
step:610/1530 train_loss:3.6967 train_time:100460ms step_avg:167.43ms
step:611/1530 train_loss:3.5909 train_time:100633ms step_avg:167.44ms
step:612/1530 train_loss:3.5609 train_time:100804ms step_avg:167.45ms
step:613/1530 train_loss:3.7560 train_time:100975ms step_avg:167.45ms
step:614/1530 train_loss:3.6979 train_time:101146ms step_avg:167.46ms
step:615/1530 train_loss:3.6955 train_time:101317ms step_avg:167.47ms
step:616/1530 train_loss:3.6258 train_time:101486ms step_avg:167.47ms
step:617/1530 train_loss:3.5439 train_time:101659ms step_avg:167.48ms
step:618/1530 train_loss:3.6837 train_time:101830ms step_avg:167.48ms
step:619/1530 train_loss:3.5455 train_time:102001ms step_avg:167.49ms
step:620/1530 train_loss:3.5858 train_time:102171ms step_avg:167.49ms
step:621/1530 train_loss:3.9210 train_time:102342ms step_avg:167.50ms
step:622/1530 train_loss:3.5657 train_time:102516ms step_avg:167.51ms
step:623/1530 train_loss:3.5986 train_time:102688ms step_avg:167.52ms
step:624/1530 train_loss:3.6836 train_time:102860ms step_avg:167.52ms
step:625/1530 train_loss:3.6917 train_time:103030ms step_avg:167.53ms
step:625/1530 val_loss:3.6166 train_time:103079ms step_avg:167.61ms
step:626/1530 train_loss:3.7303 train_time:103203ms step_avg:167.54ms
step:627/1530 train_loss:3.7031 train_time:103374ms step_avg:167.54ms
step:628/1530 train_loss:3.7519 train_time:103545ms step_avg:167.55ms
step:629/1530 train_loss:3.5864 train_time:103713ms step_avg:167.55ms
step:630/1530 train_loss:3.7221 train_time:103883ms step_avg:167.55ms
step:631/1530 train_loss:3.7308 train_time:104053ms step_avg:167.56ms
step:632/1530 train_loss:3.6377 train_time:104224ms step_avg:167.56ms
step:633/1530 train_loss:3.6009 train_time:104395ms step_avg:167.57ms
step:634/1530 train_loss:3.6926 train_time:104566ms step_avg:167.57ms
step:635/1530 train_loss:3.9449 train_time:104736ms step_avg:167.58ms
step:636/1530 train_loss:3.5452 train_time:104907ms step_avg:167.58ms
step:637/1530 train_loss:3.3470 train_time:105078ms step_avg:167.59ms
step:638/1530 train_loss:3.5885 train_time:105249ms step_avg:167.59ms
step:639/1530 train_loss:3.6273 train_time:105419ms step_avg:167.60ms
step:640/1530 train_loss:3.5697 train_time:105590ms step_avg:167.60ms
step:641/1530 train_loss:3.5857 train_time:105759ms step_avg:167.61ms
step:642/1530 train_loss:3.6245 train_time:105930ms step_avg:167.61ms
step:643/1530 train_loss:3.5880 train_time:106098ms step_avg:167.61ms
step:644/1530 train_loss:3.5516 train_time:106271ms step_avg:167.62ms
step:645/1530 train_loss:3.7741 train_time:106441ms step_avg:167.62ms
step:646/1530 train_loss:3.6697 train_time:106611ms step_avg:167.63ms
step:647/1530 train_loss:3.6615 train_time:106782ms step_avg:167.63ms
step:648/1530 train_loss:3.7027 train_time:106955ms step_avg:167.64ms
step:649/1530 train_loss:3.7637 train_time:107125ms step_avg:167.64ms
step:650/1530 train_loss:3.6163 train_time:107296ms step_avg:167.65ms
step:651/1530 train_loss:3.7603 train_time:107469ms step_avg:167.66ms
step:652/1530 train_loss:3.5823 train_time:107639ms step_avg:167.66ms
step:653/1530 train_loss:3.6529 train_time:107809ms step_avg:167.67ms
step:654/1530 train_loss:3.4277 train_time:107979ms step_avg:167.67ms
step:655/1530 train_loss:3.5825 train_time:108149ms step_avg:167.67ms
step:656/1530 train_loss:3.5704 train_time:108318ms step_avg:167.67ms
step:657/1530 train_loss:3.4910 train_time:108489ms step_avg:167.68ms
step:658/1530 train_loss:3.6832 train_time:108660ms step_avg:167.69ms
step:659/1530 train_loss:3.5770 train_time:108830ms step_avg:167.69ms
step:660/1530 train_loss:3.6767 train_time:109001ms step_avg:167.69ms
step:661/1530 train_loss:3.7458 train_time:109174ms step_avg:167.70ms
step:662/1530 train_loss:3.6679 train_time:109344ms step_avg:167.71ms
step:663/1530 train_loss:3.5526 train_time:109513ms step_avg:167.71ms
step:664/1530 train_loss:3.6044 train_time:109683ms step_avg:167.71ms
step:665/1530 train_loss:3.4899 train_time:109855ms step_avg:167.72ms
step:666/1530 train_loss:3.7705 train_time:110024ms step_avg:167.72ms
step:667/1530 train_loss:3.5984 train_time:110195ms step_avg:167.72ms
step:668/1530 train_loss:3.6413 train_time:110368ms step_avg:167.73ms
step:669/1530 train_loss:3.4799 train_time:110540ms step_avg:167.74ms
step:670/1530 train_loss:3.5954 train_time:110711ms step_avg:167.74ms
step:671/1530 train_loss:3.5523 train_time:110882ms step_avg:167.75ms
step:672/1530 train_loss:3.5594 train_time:111055ms step_avg:167.76ms
step:673/1530 train_loss:3.8476 train_time:111226ms step_avg:167.76ms
step:674/1530 train_loss:3.6155 train_time:111397ms step_avg:167.77ms
step:675/1530 train_loss:3.7035 train_time:111568ms step_avg:167.77ms
step:676/1530 train_loss:3.4824 train_time:111739ms step_avg:167.78ms
step:677/1530 train_loss:3.5899 train_time:111910ms step_avg:167.78ms
step:678/1530 train_loss:3.5545 train_time:112079ms step_avg:167.78ms
step:679/1530 train_loss:3.6784 train_time:112252ms step_avg:167.79ms
step:680/1530 train_loss:3.5810 train_time:112421ms step_avg:167.79ms
step:681/1530 train_loss:3.6124 train_time:112594ms step_avg:167.80ms
step:682/1530 train_loss:3.6588 train_time:112771ms step_avg:167.81ms
step:683/1530 train_loss:3.7325 train_time:112943ms step_avg:167.82ms
step:684/1530 train_loss:3.6399 train_time:113115ms step_avg:167.83ms
step:685/1530 train_loss:3.6827 train_time:113290ms step_avg:167.84ms
step:686/1530 train_loss:3.6262 train_time:113463ms step_avg:167.85ms
step:687/1530 train_loss:3.6611 train_time:113636ms step_avg:167.85ms
step:688/1530 train_loss:3.2065 train_time:113811ms step_avg:167.86ms
step:689/1530 train_loss:3.4023 train_time:113984ms step_avg:167.87ms
step:690/1530 train_loss:3.5345 train_time:114158ms step_avg:167.88ms
step:691/1530 train_loss:3.4050 train_time:114331ms step_avg:167.89ms
step:692/1530 train_loss:3.6180 train_time:114501ms step_avg:167.89ms
step:693/1530 train_loss:3.6417 train_time:114675ms step_avg:167.90ms
step:694/1530 train_loss:3.5513 train_time:114847ms step_avg:167.91ms
step:695/1530 train_loss:3.5243 train_time:115018ms step_avg:167.91ms
step:696/1530 train_loss:3.8472 train_time:115191ms step_avg:167.92ms
step:697/1530 train_loss:3.5808 train_time:115365ms step_avg:167.93ms
step:698/1530 train_loss:3.6409 train_time:115536ms step_avg:167.93ms
step:699/1530 train_loss:3.7637 train_time:115711ms step_avg:167.94ms
step:700/1530 train_loss:3.5664 train_time:115883ms step_avg:167.95ms
step:701/1530 train_loss:3.5410 train_time:116056ms step_avg:167.95ms
step:702/1530 train_loss:3.5120 train_time:116230ms step_avg:167.96ms
step:703/1530 train_loss:3.4941 train_time:116400ms step_avg:167.97ms
step:704/1530 train_loss:3.5670 train_time:116576ms step_avg:167.98ms
step:705/1530 train_loss:3.5560 train_time:116754ms step_avg:167.99ms
step:706/1530 train_loss:3.5743 train_time:116930ms step_avg:168.00ms
step:707/1530 train_loss:3.6387 train_time:117103ms step_avg:168.01ms
step:708/1530 train_loss:3.6001 train_time:117276ms step_avg:168.02ms
step:709/1530 train_loss:3.5749 train_time:117451ms step_avg:168.03ms
step:710/1530 train_loss:3.5318 train_time:117622ms step_avg:168.03ms
step:711/1530 train_loss:3.5884 train_time:117795ms step_avg:168.04ms
step:712/1530 train_loss:3.6445 train_time:117972ms step_avg:168.05ms
step:713/1530 train_loss:3.6443 train_time:118148ms step_avg:168.06ms
step:714/1530 train_loss:3.5499 train_time:118320ms step_avg:168.07ms
step:715/1530 train_loss:3.5626 train_time:118494ms step_avg:168.08ms
step:716/1530 train_loss:3.5847 train_time:118667ms step_avg:168.08ms
step:717/1530 train_loss:3.7019 train_time:118839ms step_avg:168.09ms
step:718/1530 train_loss:3.5912 train_time:119010ms step_avg:168.09ms
step:719/1530 train_loss:3.6718 train_time:119182ms step_avg:168.10ms
step:720/1530 train_loss:3.8396 train_time:119358ms step_avg:168.11ms
step:721/1530 train_loss:3.4625 train_time:119531ms step_avg:168.12ms
step:722/1530 train_loss:3.7332 train_time:119703ms step_avg:168.12ms
step:723/1530 train_loss:3.7629 train_time:119875ms step_avg:168.13ms
step:724/1530 train_loss:3.5647 train_time:120049ms step_avg:168.14ms
step:725/1530 train_loss:3.6497 train_time:120221ms step_avg:168.14ms
step:726/1530 train_loss:3.5278 train_time:120394ms step_avg:168.15ms
step:727/1530 train_loss:3.5752 train_time:120572ms step_avg:168.16ms
step:728/1530 train_loss:3.7317 train_time:120743ms step_avg:168.17ms
step:729/1530 train_loss:3.6679 train_time:120915ms step_avg:168.17ms
step:730/1530 train_loss:3.6614 train_time:121089ms step_avg:168.18ms
step:731/1530 train_loss:3.5562 train_time:121261ms step_avg:168.18ms
step:732/1530 train_loss:3.5931 train_time:121433ms step_avg:168.19ms
step:733/1530 train_loss:3.8263 train_time:121607ms step_avg:168.20ms
step:734/1530 train_loss:3.5566 train_time:121781ms step_avg:168.21ms
step:735/1530 train_loss:3.6076 train_time:121953ms step_avg:168.21ms
step:736/1530 train_loss:3.7300 train_time:122126ms step_avg:168.22ms
step:737/1530 train_loss:3.6724 train_time:122298ms step_avg:168.22ms
step:738/1530 train_loss:3.5940 train_time:122471ms step_avg:168.23ms
step:739/1530 train_loss:3.5026 train_time:122643ms step_avg:168.23ms
step:740/1530 train_loss:4.1062 train_time:122818ms step_avg:168.24ms
step:741/1530 train_loss:3.4802 train_time:122991ms step_avg:168.25ms
step:742/1530 train_loss:3.5445 train_time:123164ms step_avg:168.26ms
step:743/1530 train_loss:3.5746 train_time:123336ms step_avg:168.26ms
step:744/1530 train_loss:3.6431 train_time:123509ms step_avg:168.27ms
step:745/1530 train_loss:3.5748 train_time:123682ms step_avg:168.27ms
step:746/1530 train_loss:3.5903 train_time:123856ms step_avg:168.28ms
step:747/1530 train_loss:3.6358 train_time:124031ms step_avg:168.29ms
step:748/1530 train_loss:3.5565 train_time:124209ms step_avg:168.31ms
step:749/1530 train_loss:3.5527 train_time:124381ms step_avg:168.31ms
step:750/1530 train_loss:3.5906 train_time:124553ms step_avg:168.31ms
step:750/1530 val_loss:3.5619 train_time:124601ms step_avg:168.38ms
step:751/1530 train_loss:3.5688 train_time:124726ms step_avg:168.32ms
step:752/1530 train_loss:3.6087 train_time:124899ms step_avg:168.33ms
step:753/1530 train_loss:3.6120 train_time:125071ms step_avg:168.33ms
step:754/1530 train_loss:3.5880 train_time:125242ms step_avg:168.34ms
step:755/1530 train_loss:3.6728 train_time:125554ms step_avg:168.53ms
step:756/1530 train_loss:3.4527 train_time:125737ms step_avg:168.55ms
step:757/1530 train_loss:3.7203 train_time:125909ms step_avg:168.55ms
step:758/1530 train_loss:3.6452 train_time:126081ms step_avg:168.56ms
step:759/1530 train_loss:3.5860 train_time:126409ms step_avg:168.77ms
step:760/1530 train_loss:3.7016 train_time:126580ms step_avg:168.77ms
step:761/1530 train_loss:3.3975 train_time:126752ms step_avg:168.78ms
step:762/1530 train_loss:3.5447 train_time:126923ms step_avg:168.78ms
step:763/1530 train_loss:3.6523 train_time:127097ms step_avg:168.79ms
step:764/1530 train_loss:3.3124 train_time:127270ms step_avg:168.79ms
step:765/1530 train_loss:3.7252 train_time:127441ms step_avg:168.80ms
step:766/1530 train_loss:3.5627 train_time:127615ms step_avg:168.80ms
step:767/1530 train_loss:3.5595 train_time:127786ms step_avg:168.81ms
step:768/1530 train_loss:3.5636 train_time:127960ms step_avg:168.81ms
step:769/1530 train_loss:3.5775 train_time:128134ms step_avg:168.82ms
step:770/1530 train_loss:3.6294 train_time:128305ms step_avg:168.82ms
step:771/1530 train_loss:3.8816 train_time:128480ms step_avg:168.83ms
step:772/1530 train_loss:3.4533 train_time:128651ms step_avg:168.83ms
step:773/1530 train_loss:3.6300 train_time:128822ms step_avg:168.84ms
step:774/1530 train_loss:3.6337 train_time:128995ms step_avg:168.84ms
step:775/1530 train_loss:3.6022 train_time:129166ms step_avg:168.84ms
step:776/1530 train_loss:3.3983 train_time:129339ms step_avg:168.85ms
step:777/1530 train_loss:3.3814 train_time:129513ms step_avg:168.86ms
step:778/1530 train_loss:3.4909 train_time:129685ms step_avg:168.86ms
step:779/1530 train_loss:3.5737 train_time:129859ms step_avg:168.87ms
step:780/1530 train_loss:3.5814 train_time:130033ms step_avg:168.87ms
step:781/1530 train_loss:3.6632 train_time:130204ms step_avg:168.88ms
step:782/1530 train_loss:3.5814 train_time:130378ms step_avg:168.88ms
step:783/1530 train_loss:3.5618 train_time:130548ms step_avg:168.88ms
step:784/1530 train_loss:3.5935 train_time:130721ms step_avg:168.89ms
step:785/1530 train_loss:3.5567 train_time:130893ms step_avg:168.89ms
step:786/1530 train_loss:3.4299 train_time:131064ms step_avg:168.90ms
step:787/1530 train_loss:3.7067 train_time:131237ms step_avg:168.90ms
step:788/1530 train_loss:3.4942 train_time:131410ms step_avg:168.91ms
step:789/1530 train_loss:3.5416 train_time:131582ms step_avg:168.91ms
step:790/1530 train_loss:3.6219 train_time:131756ms step_avg:168.92ms
step:791/1530 train_loss:3.7662 train_time:131931ms step_avg:168.93ms
step:792/1530 train_loss:3.7565 train_time:132103ms step_avg:168.93ms
step:793/1530 train_loss:3.4460 train_time:132275ms step_avg:168.93ms
step:794/1530 train_loss:3.5872 train_time:132446ms step_avg:168.94ms
step:795/1530 train_loss:3.6733 train_time:132620ms step_avg:168.94ms
step:796/1530 train_loss:3.7487 train_time:132799ms step_avg:168.96ms
step:797/1530 train_loss:3.5196 train_time:132973ms step_avg:168.96ms
step:798/1530 train_loss:3.6406 train_time:133148ms step_avg:168.97ms
step:799/1530 train_loss:3.5289 train_time:133324ms step_avg:168.98ms
step:800/1530 train_loss:3.5209 train_time:133498ms step_avg:168.98ms
step:801/1530 train_loss:3.6266 train_time:133671ms step_avg:168.99ms
step:802/1530 train_loss:3.4880 train_time:133848ms step_avg:169.00ms
step:803/1530 train_loss:3.4742 train_time:134021ms step_avg:169.00ms
step:804/1530 train_loss:3.6180 train_time:134198ms step_avg:169.01ms
step:805/1530 train_loss:3.5121 train_time:134373ms step_avg:169.02ms
step:806/1530 train_loss:3.5512 train_time:134545ms step_avg:169.03ms
step:807/1530 train_loss:3.6370 train_time:134719ms step_avg:169.03ms
step:808/1530 train_loss:3.5333 train_time:134896ms step_avg:169.04ms
step:809/1530 train_loss:3.4853 train_time:135067ms step_avg:169.05ms
step:810/1530 train_loss:3.5613 train_time:135241ms step_avg:169.05ms
step:811/1530 train_loss:3.5743 train_time:135415ms step_avg:169.06ms
step:812/1530 train_loss:3.5915 train_time:135588ms step_avg:169.06ms
step:813/1530 train_loss:3.6211 train_time:135760ms step_avg:169.07ms
step:814/1530 train_loss:3.5580 train_time:135936ms step_avg:169.07ms
step:815/1530 train_loss:3.5597 train_time:136108ms step_avg:169.08ms
step:816/1530 train_loss:3.6779 train_time:136283ms step_avg:169.09ms
step:817/1530 train_loss:3.7603 train_time:136457ms step_avg:169.09ms
step:818/1530 train_loss:3.5149 train_time:136630ms step_avg:169.10ms
step:819/1530 train_loss:3.7134 train_time:136803ms step_avg:169.10ms
step:820/1530 train_loss:3.4898 train_time:136979ms step_avg:169.11ms
step:821/1530 train_loss:3.5555 train_time:137152ms step_avg:169.11ms
step:822/1530 train_loss:3.6918 train_time:137328ms step_avg:169.12ms
step:823/1530 train_loss:3.5721 train_time:137502ms step_avg:169.13ms
step:824/1530 train_loss:3.5083 train_time:137677ms step_avg:169.14ms
step:825/1530 train_loss:3.6092 train_time:137852ms step_avg:169.14ms
step:826/1530 train_loss:3.4781 train_time:138028ms step_avg:169.15ms
step:827/1530 train_loss:3.7249 train_time:138202ms step_avg:169.16ms
step:828/1530 train_loss:3.6118 train_time:138376ms step_avg:169.16ms
step:829/1530 train_loss:3.6209 train_time:138551ms step_avg:169.17ms
step:830/1530 train_loss:3.5271 train_time:138724ms step_avg:169.18ms
step:831/1530 train_loss:3.5910 train_time:138899ms step_avg:169.18ms
step:832/1530 train_loss:3.5081 train_time:139075ms step_avg:169.19ms
step:833/1530 train_loss:3.6478 train_time:139249ms step_avg:169.20ms
step:834/1530 train_loss:3.4620 train_time:139424ms step_avg:169.20ms
step:835/1530 train_loss:3.4534 train_time:139599ms step_avg:169.21ms
step:836/1530 train_loss:3.7087 train_time:139776ms step_avg:169.22ms
step:837/1530 train_loss:3.3877 train_time:139948ms step_avg:169.22ms
step:838/1530 train_loss:3.5842 train_time:140122ms step_avg:169.23ms
step:839/1530 train_loss:3.4167 train_time:140298ms step_avg:169.24ms
step:840/1530 train_loss:3.4595 train_time:140470ms step_avg:169.24ms
step:841/1530 train_loss:3.5576 train_time:140642ms step_avg:169.24ms
step:842/1530 train_loss:3.5779 train_time:140819ms step_avg:169.25ms
step:843/1530 train_loss:3.5527 train_time:140991ms step_avg:169.26ms
step:844/1530 train_loss:3.4231 train_time:141162ms step_avg:169.26ms
step:845/1530 train_loss:3.6568 train_time:141336ms step_avg:169.27ms
step:846/1530 train_loss:3.5115 train_time:141510ms step_avg:169.27ms
step:847/1530 train_loss:3.4892 train_time:141685ms step_avg:169.28ms
step:848/1530 train_loss:3.6383 train_time:141860ms step_avg:169.28ms
step:849/1530 train_loss:3.4836 train_time:142036ms step_avg:169.29ms
step:850/1530 train_loss:3.4314 train_time:142208ms step_avg:169.30ms
step:851/1530 train_loss:3.7252 train_time:142383ms step_avg:169.30ms
step:852/1530 train_loss:3.4293 train_time:142556ms step_avg:169.31ms
step:853/1530 train_loss:3.5598 train_time:142729ms step_avg:169.31ms
step:854/1530 train_loss:3.6484 train_time:142903ms step_avg:169.32ms
step:855/1530 train_loss:3.5139 train_time:143078ms step_avg:169.32ms
step:856/1530 train_loss:3.5410 train_time:143252ms step_avg:169.33ms
step:857/1530 train_loss:3.6045 train_time:143426ms step_avg:169.33ms
step:858/1530 train_loss:3.4637 train_time:143603ms step_avg:169.34ms
step:859/1530 train_loss:3.5514 train_time:143777ms step_avg:169.35ms
step:860/1530 train_loss:3.5797 train_time:143949ms step_avg:169.35ms
step:861/1530 train_loss:3.6327 train_time:144126ms step_avg:169.36ms
step:862/1530 train_loss:3.5975 train_time:144303ms step_avg:169.37ms
step:863/1530 train_loss:3.5619 train_time:144479ms step_avg:169.38ms
step:864/1530 train_loss:3.3782 train_time:144654ms step_avg:169.38ms
step:865/1530 train_loss:3.5953 train_time:144826ms step_avg:169.39ms
step:866/1530 train_loss:3.8897 train_time:145004ms step_avg:169.40ms
step:867/1530 train_loss:3.4489 train_time:145178ms step_avg:169.40ms
step:868/1530 train_loss:3.6385 train_time:145350ms step_avg:169.41ms
step:869/1530 train_loss:3.6066 train_time:145523ms step_avg:169.41ms
step:870/1530 train_loss:3.4422 train_time:145699ms step_avg:169.42ms
step:871/1530 train_loss:3.3854 train_time:145873ms step_avg:169.42ms
step:872/1530 train_loss:3.6409 train_time:146046ms step_avg:169.43ms
step:873/1530 train_loss:3.4553 train_time:146220ms step_avg:169.43ms
step:874/1530 train_loss:3.2194 train_time:146399ms step_avg:169.44ms
step:875/1530 train_loss:3.6262 train_time:146573ms step_avg:169.45ms
step:875/1530 val_loss:3.5138 train_time:146622ms step_avg:169.50ms
step:876/1530 train_loss:3.4330 train_time:146747ms step_avg:169.45ms
step:877/1530 train_loss:3.6107 train_time:146923ms step_avg:169.46ms
step:878/1530 train_loss:3.4607 train_time:147097ms step_avg:169.47ms
step:879/1530 train_loss:3.6468 train_time:147271ms step_avg:169.47ms
step:880/1530 train_loss:3.3051 train_time:147442ms step_avg:169.47ms
step:881/1530 train_loss:3.4698 train_time:147617ms step_avg:169.48ms
step:882/1530 train_loss:3.6874 train_time:147789ms step_avg:169.48ms
step:883/1530 train_loss:3.8359 train_time:147962ms step_avg:169.49ms
step:884/1530 train_loss:3.5619 train_time:148138ms step_avg:169.49ms
step:885/1530 train_loss:3.4859 train_time:148311ms step_avg:169.50ms
step:886/1530 train_loss:3.5639 train_time:148483ms step_avg:169.50ms
step:887/1530 train_loss:4.0768 train_time:148658ms step_avg:169.51ms
step:888/1530 train_loss:3.8301 train_time:148839ms step_avg:169.52ms
step:889/1530 train_loss:3.5168 train_time:149013ms step_avg:169.53ms
step:890/1530 train_loss:3.5286 train_time:149184ms step_avg:169.53ms
step:891/1530 train_loss:3.3574 train_time:149359ms step_avg:169.53ms
step:892/1530 train_loss:3.7147 train_time:149532ms step_avg:169.54ms
step:893/1530 train_loss:3.4179 train_time:149702ms step_avg:169.54ms
step:894/1530 train_loss:3.6289 train_time:149878ms step_avg:169.55ms
step:895/1530 train_loss:3.6744 train_time:150052ms step_avg:169.55ms
step:896/1530 train_loss:3.4896 train_time:150226ms step_avg:169.55ms
step:897/1530 train_loss:3.5393 train_time:150402ms step_avg:169.56ms
step:898/1530 train_loss:3.5858 train_time:150578ms step_avg:169.57ms
step:899/1530 train_loss:3.4753 train_time:150749ms step_avg:169.57ms
step:900/1530 train_loss:3.4191 train_time:150921ms step_avg:169.57ms
step:901/1530 train_loss:3.6176 train_time:151095ms step_avg:169.58ms
step:902/1530 train_loss:3.6326 train_time:151267ms step_avg:169.58ms
step:903/1530 train_loss:3.5387 train_time:151443ms step_avg:169.59ms
step:904/1530 train_loss:3.4911 train_time:151618ms step_avg:169.60ms
step:905/1530 train_loss:3.4978 train_time:151789ms step_avg:169.60ms
step:906/1530 train_loss:3.6961 train_time:151963ms step_avg:169.60ms
step:907/1530 train_loss:3.5067 train_time:152138ms step_avg:169.61ms
step:908/1530 train_loss:3.5600 train_time:152310ms step_avg:169.61ms
step:909/1530 train_loss:3.4530 train_time:152487ms step_avg:169.62ms
step:910/1530 train_loss:3.5236 train_time:152667ms step_avg:169.63ms
step:911/1530 train_loss:3.6341 train_time:152843ms step_avg:169.64ms
step:912/1530 train_loss:3.5886 train_time:153022ms step_avg:169.65ms
step:913/1530 train_loss:3.4539 train_time:153202ms step_avg:169.66ms
step:914/1530 train_loss:3.7390 train_time:153379ms step_avg:169.67ms
step:915/1530 train_loss:3.5317 train_time:153559ms step_avg:169.68ms
step:916/1530 train_loss:3.6114 train_time:153733ms step_avg:169.68ms
step:917/1530 train_loss:3.5945 train_time:153907ms step_avg:169.69ms
step:918/1530 train_loss:4.8274 train_time:154087ms step_avg:169.70ms
step:919/1530 train_loss:3.4879 train_time:154264ms step_avg:169.71ms
step:920/1530 train_loss:3.5884 train_time:154439ms step_avg:169.71ms
step:921/1530 train_loss:3.5466 train_time:154617ms step_avg:169.72ms
step:922/1530 train_loss:3.5792 train_time:154793ms step_avg:169.73ms
step:923/1530 train_loss:3.6142 train_time:154967ms step_avg:169.73ms
step:924/1530 train_loss:3.6776 train_time:155143ms step_avg:169.74ms
step:925/1530 train_loss:3.6417 train_time:155319ms step_avg:169.75ms
step:926/1530 train_loss:3.5480 train_time:155491ms step_avg:169.75ms
step:927/1530 train_loss:3.5473 train_time:155666ms step_avg:169.76ms
step:928/1530 train_loss:3.7849 train_time:155843ms step_avg:169.76ms
step:929/1530 train_loss:3.6100 train_time:156019ms step_avg:169.77ms
step:930/1530 train_loss:3.3975 train_time:156195ms step_avg:169.78ms
step:931/1530 train_loss:3.4901 train_time:156368ms step_avg:169.78ms
step:932/1530 train_loss:3.6451 train_time:156545ms step_avg:169.79ms
step:933/1530 train_loss:3.3629 train_time:156723ms step_avg:169.80ms
step:934/1530 train_loss:3.5795 train_time:156901ms step_avg:169.81ms
step:935/1530 train_loss:3.4319 train_time:157079ms step_avg:169.82ms
step:936/1530 train_loss:3.5102 train_time:157258ms step_avg:169.82ms
step:937/1530 train_loss:3.6164 train_time:157436ms step_avg:169.83ms
step:938/1530 train_loss:3.5346 train_time:157609ms step_avg:169.84ms
step:939/1530 train_loss:3.6632 train_time:157789ms step_avg:169.85ms
step:940/1530 train_loss:3.4808 train_time:157965ms step_avg:169.85ms
step:941/1530 train_loss:3.5368 train_time:158140ms step_avg:169.86ms
step:942/1530 train_loss:3.3509 train_time:158318ms step_avg:169.87ms
step:943/1530 train_loss:3.7057 train_time:158499ms step_avg:169.88ms
step:944/1530 train_loss:3.4014 train_time:158815ms step_avg:170.04ms
step:945/1530 train_loss:3.4211 train_time:158998ms step_avg:170.05ms
step:946/1530 train_loss:5.0639 train_time:159179ms step_avg:170.06ms
step:947/1530 train_loss:3.5951 train_time:159357ms step_avg:170.07ms
step:948/1530 train_loss:3.4809 train_time:159533ms step_avg:170.08ms
step:949/1530 train_loss:3.3646 train_time:159861ms step_avg:170.25ms
step:950/1530 train_loss:3.4352 train_time:160035ms step_avg:170.25ms
step:951/1530 train_loss:3.4007 train_time:160214ms step_avg:170.26ms
step:952/1530 train_loss:3.4728 train_time:160388ms step_avg:170.26ms
step:953/1530 train_loss:3.5633 train_time:160566ms step_avg:170.27ms
step:954/1530 train_loss:3.4394 train_time:160744ms step_avg:170.28ms
step:955/1530 train_loss:3.4734 train_time:160920ms step_avg:170.29ms
step:956/1530 train_loss:3.4366 train_time:161095ms step_avg:170.29ms
step:957/1530 train_loss:3.4857 train_time:161274ms step_avg:170.30ms
step:958/1530 train_loss:3.4989 train_time:161454ms step_avg:170.31ms
step:959/1530 train_loss:3.5044 train_time:161628ms step_avg:170.31ms
step:960/1530 train_loss:3.4012 train_time:161805ms step_avg:170.32ms
step:961/1530 train_loss:3.6420 train_time:161980ms step_avg:170.33ms
step:962/1530 train_loss:3.5900 train_time:162155ms step_avg:170.33ms
step:963/1530 train_loss:3.6028 train_time:162330ms step_avg:170.34ms
step:964/1530 train_loss:3.4238 train_time:162508ms step_avg:170.34ms
step:965/1530 train_loss:3.4722 train_time:162681ms step_avg:170.35ms
step:966/1530 train_loss:3.7049 train_time:162857ms step_avg:170.35ms
step:967/1530 train_loss:3.5143 train_time:163031ms step_avg:170.36ms
step:968/1530 train_loss:3.5129 train_time:163207ms step_avg:170.36ms
step:969/1530 train_loss:3.5769 train_time:163383ms step_avg:170.37ms
step:970/1530 train_loss:3.3685 train_time:163556ms step_avg:170.37ms
step:971/1530 train_loss:3.5210 train_time:163729ms step_avg:170.37ms
step:972/1530 train_loss:3.4647 train_time:163903ms step_avg:170.38ms
step:973/1530 train_loss:3.5353 train_time:164078ms step_avg:170.38ms
step:974/1530 train_loss:3.5817 train_time:164254ms step_avg:170.39ms
step:975/1530 train_loss:3.4621 train_time:164429ms step_avg:170.39ms
step:976/1530 train_loss:3.6617 train_time:164603ms step_avg:170.40ms
step:977/1530 train_loss:3.5666 train_time:164777ms step_avg:170.40ms
step:978/1530 train_loss:3.3520 train_time:164950ms step_avg:170.40ms
step:979/1530 train_loss:3.6150 train_time:165125ms step_avg:170.41ms
step:980/1530 train_loss:3.4099 train_time:165303ms step_avg:170.42ms
step:981/1530 train_loss:3.5667 train_time:165481ms step_avg:170.42ms
step:982/1530 train_loss:3.5335 train_time:165655ms step_avg:170.43ms
step:983/1530 train_loss:3.5045 train_time:165831ms step_avg:170.43ms
step:984/1530 train_loss:3.4916 train_time:166007ms step_avg:170.44ms
step:985/1530 train_loss:3.5748 train_time:166184ms step_avg:170.44ms
step:986/1530 train_loss:3.4044 train_time:166359ms step_avg:170.45ms
step:987/1530 train_loss:3.4823 train_time:166534ms step_avg:170.45ms
step:988/1530 train_loss:3.4738 train_time:166709ms step_avg:170.46ms
step:989/1530 train_loss:3.4123 train_time:166882ms step_avg:170.46ms
step:990/1530 train_loss:3.6590 train_time:167058ms step_avg:170.47ms
step:991/1530 train_loss:3.4652 train_time:167232ms step_avg:170.47ms
step:992/1530 train_loss:3.4391 train_time:167413ms step_avg:170.48ms
step:993/1530 train_loss:3.4904 train_time:167591ms step_avg:170.49ms
step:994/1530 train_loss:3.5949 train_time:167764ms step_avg:170.49ms
step:995/1530 train_loss:3.5321 train_time:167937ms step_avg:170.49ms
step:996/1530 train_loss:3.4532 train_time:168110ms step_avg:170.50ms
step:997/1530 train_loss:3.7522 train_time:168283ms step_avg:170.50ms
step:998/1530 train_loss:3.4314 train_time:168456ms step_avg:170.50ms
step:999/1530 train_loss:3.5773 train_time:168630ms step_avg:170.51ms
step:1000/1530 train_loss:3.4339 train_time:168807ms step_avg:170.51ms
step:1000/1530 val_loss:3.4606 train_time:168858ms step_avg:170.56ms
step:1001/1530 train_loss:3.4926 train_time:168983ms step_avg:170.52ms
step:1002/1530 train_loss:3.3710 train_time:169156ms step_avg:170.52ms
step:1003/1530 train_loss:3.5527 train_time:169334ms step_avg:170.53ms
step:1004/1530 train_loss:3.5968 train_time:169509ms step_avg:170.53ms
step:1005/1530 train_loss:3.3906 train_time:169683ms step_avg:170.54ms
step:1006/1530 train_loss:3.4625 train_time:169861ms step_avg:170.54ms
step:1007/1530 train_loss:3.4304 train_time:170036ms step_avg:170.55ms
step:1008/1530 train_loss:3.5531 train_time:170212ms step_avg:170.55ms
step:1009/1530 train_loss:3.6583 train_time:170391ms step_avg:170.56ms
step:1010/1530 train_loss:3.5552 train_time:170564ms step_avg:170.56ms
step:1011/1530 train_loss:3.5270 train_time:170737ms step_avg:170.57ms
step:1012/1530 train_loss:3.3838 train_time:170913ms step_avg:170.57ms
step:1013/1530 train_loss:3.5321 train_time:171088ms step_avg:170.58ms
step:1014/1530 train_loss:3.6156 train_time:171263ms step_avg:170.58ms
step:1015/1530 train_loss:3.3239 train_time:171439ms step_avg:170.59ms
step:1016/1530 train_loss:3.4029 train_time:171614ms step_avg:170.59ms
step:1017/1530 train_loss:3.3898 train_time:171790ms step_avg:170.60ms
step:1018/1530 train_loss:3.3891 train_time:171965ms step_avg:170.60ms
step:1019/1530 train_loss:3.5104 train_time:172140ms step_avg:170.60ms
step:1020/1530 train_loss:3.3728 train_time:172319ms step_avg:170.61ms
step:1021/1530 train_loss:3.3481 train_time:172493ms step_avg:170.62ms
step:1022/1530 train_loss:3.4726 train_time:172669ms step_avg:170.62ms
step:1023/1530 train_loss:3.4985 train_time:172844ms step_avg:170.63ms
step:1024/1530 train_loss:3.4738 train_time:173021ms step_avg:170.63ms
step:1025/1530 train_loss:3.4721 train_time:173200ms step_avg:170.64ms
step:1026/1530 train_loss:3.6086 train_time:173375ms step_avg:170.64ms
step:1027/1530 train_loss:3.3188 train_time:173552ms step_avg:170.65ms
step:1028/1530 train_loss:3.3968 train_time:173732ms step_avg:170.66ms
step:1029/1530 train_loss:3.3022 train_time:173913ms step_avg:170.67ms
step:1030/1530 train_loss:3.5310 train_time:174089ms step_avg:170.68ms
step:1031/1530 train_loss:3.5027 train_time:174266ms step_avg:170.68ms
step:1032/1530 train_loss:3.6886 train_time:174446ms step_avg:170.69ms
step:1033/1530 train_loss:3.4818 train_time:174621ms step_avg:170.70ms
step:1034/1530 train_loss:3.3871 train_time:174798ms step_avg:170.70ms
step:1035/1530 train_loss:3.4396 train_time:174975ms step_avg:170.71ms
step:1036/1530 train_loss:3.4780 train_time:175152ms step_avg:170.71ms
step:1037/1530 train_loss:3.7818 train_time:175331ms step_avg:170.72ms
step:1038/1530 train_loss:3.6112 train_time:175511ms step_avg:170.73ms
step:1039/1530 train_loss:3.5030 train_time:175691ms step_avg:170.74ms
step:1040/1530 train_loss:3.4056 train_time:175865ms step_avg:170.74ms
step:1041/1530 train_loss:3.4798 train_time:176041ms step_avg:170.75ms
step:1042/1530 train_loss:3.5138 train_time:176216ms step_avg:170.75ms
step:1043/1530 train_loss:3.4392 train_time:176392ms step_avg:170.76ms
step:1044/1530 train_loss:3.4515 train_time:176568ms step_avg:170.76ms
step:1045/1530 train_loss:3.5105 train_time:176744ms step_avg:170.77ms
step:1046/1530 train_loss:3.4199 train_time:176921ms step_avg:170.77ms
step:1047/1530 train_loss:3.6289 train_time:177099ms step_avg:170.78ms
step:1048/1530 train_loss:3.4907 train_time:177275ms step_avg:170.78ms
step:1049/1530 train_loss:3.3934 train_time:177450ms step_avg:170.79ms
step:1050/1530 train_loss:3.3916 train_time:177629ms step_avg:170.80ms
step:1051/1530 train_loss:3.4945 train_time:177808ms step_avg:170.81ms
step:1052/1530 train_loss:3.3587 train_time:177984ms step_avg:170.81ms
step:1053/1530 train_loss:3.6853 train_time:178161ms step_avg:170.82ms
step:1054/1530 train_loss:3.5296 train_time:178340ms step_avg:170.82ms
step:1055/1530 train_loss:3.3803 train_time:178514ms step_avg:170.83ms
step:1056/1530 train_loss:3.4898 train_time:178690ms step_avg:170.83ms
step:1057/1530 train_loss:3.5762 train_time:178867ms step_avg:170.84ms
step:1058/1530 train_loss:3.2956 train_time:179043ms step_avg:170.84ms
step:1059/1530 train_loss:3.3616 train_time:179225ms step_avg:170.85ms
step:1060/1530 train_loss:3.4340 train_time:179400ms step_avg:170.86ms
step:1061/1530 train_loss:3.4143 train_time:179573ms step_avg:170.86ms
step:1062/1530 train_loss:3.3792 train_time:179751ms step_avg:170.87ms
step:1063/1530 train_loss:3.4552 train_time:179928ms step_avg:170.87ms
step:1064/1530 train_loss:3.3781 train_time:180099ms step_avg:170.87ms
step:1065/1530 train_loss:3.3546 train_time:180277ms step_avg:170.88ms
step:1066/1530 train_loss:3.4054 train_time:180453ms step_avg:170.88ms
step:1067/1530 train_loss:3.2839 train_time:180633ms step_avg:170.89ms
step:1068/1530 train_loss:3.4295 train_time:180809ms step_avg:170.90ms
step:1069/1530 train_loss:3.2927 train_time:180988ms step_avg:170.90ms
step:1070/1530 train_loss:3.5616 train_time:181164ms step_avg:170.91ms
step:1071/1530 train_loss:3.5088 train_time:181341ms step_avg:170.92ms
step:1072/1530 train_loss:3.4356 train_time:181517ms step_avg:170.92ms
step:1073/1530 train_loss:3.5198 train_time:181692ms step_avg:170.92ms
step:1074/1530 train_loss:3.4266 train_time:181871ms step_avg:170.93ms
step:1075/1530 train_loss:3.3942 train_time:182047ms step_avg:170.94ms
step:1076/1530 train_loss:3.7927 train_time:182223ms step_avg:170.94ms
step:1077/1530 train_loss:3.4264 train_time:182397ms step_avg:170.94ms
step:1078/1530 train_loss:3.0937 train_time:182580ms step_avg:170.95ms
step:1079/1530 train_loss:3.5261 train_time:182756ms step_avg:170.96ms
step:1080/1530 train_loss:3.4185 train_time:182934ms step_avg:170.97ms
step:1081/1530 train_loss:3.4957 train_time:183107ms step_avg:170.97ms
step:1082/1530 train_loss:3.5822 train_time:183281ms step_avg:170.97ms
step:1083/1530 train_loss:3.4869 train_time:183456ms step_avg:170.97ms
step:1084/1530 train_loss:3.4603 train_time:183634ms step_avg:170.98ms
step:1085/1530 train_loss:3.4314 train_time:183810ms step_avg:170.99ms
step:1086/1530 train_loss:3.6237 train_time:183985ms step_avg:170.99ms
step:1087/1530 train_loss:3.4938 train_time:184160ms step_avg:170.99ms
step:1088/1530 train_loss:3.3656 train_time:184339ms step_avg:171.00ms
step:1089/1530 train_loss:3.3698 train_time:184520ms step_avg:171.01ms
step:1090/1530 train_loss:3.4781 train_time:184698ms step_avg:171.02ms
step:1091/1530 train_loss:3.2773 train_time:184874ms step_avg:171.02ms
step:1092/1530 train_loss:3.4811 train_time:185051ms step_avg:171.03ms
step:1093/1530 train_loss:3.5944 train_time:185230ms step_avg:171.03ms
step:1094/1530 train_loss:3.4415 train_time:185406ms step_avg:171.04ms
step:1095/1530 train_loss:3.4146 train_time:185579ms step_avg:171.04ms
step:1096/1530 train_loss:3.4212 train_time:185757ms step_avg:171.05ms
step:1097/1530 train_loss:3.4864 train_time:185937ms step_avg:171.06ms
step:1098/1530 train_loss:3.5590 train_time:186116ms step_avg:171.06ms
step:1099/1530 train_loss:3.5200 train_time:186292ms step_avg:171.07ms
step:1100/1530 train_loss:3.4203 train_time:186471ms step_avg:171.07ms
step:1101/1530 train_loss:3.2833 train_time:186650ms step_avg:171.08ms
step:1102/1530 train_loss:3.3009 train_time:186830ms step_avg:171.09ms
step:1103/1530 train_loss:3.4356 train_time:187012ms step_avg:171.10ms
step:1104/1530 train_loss:3.3138 train_time:187188ms step_avg:171.10ms
step:1105/1530 train_loss:4.0552 train_time:187366ms step_avg:171.11ms
step:1106/1530 train_loss:3.2242 train_time:187541ms step_avg:171.11ms
step:1107/1530 train_loss:3.5612 train_time:187716ms step_avg:171.12ms
step:1108/1530 train_loss:3.3371 train_time:187890ms step_avg:171.12ms
step:1109/1530 train_loss:3.4999 train_time:188064ms step_avg:171.12ms
step:1110/1530 train_loss:3.4207 train_time:188238ms step_avg:171.13ms
step:1111/1530 train_loss:3.4802 train_time:188413ms step_avg:171.13ms
step:1112/1530 train_loss:3.5525 train_time:188592ms step_avg:171.14ms
step:1113/1530 train_loss:3.4257 train_time:188776ms step_avg:171.15ms
step:1114/1530 train_loss:3.3674 train_time:188956ms step_avg:171.16ms
step:1115/1530 train_loss:3.2308 train_time:189135ms step_avg:171.16ms
step:1116/1530 train_loss:3.4220 train_time:189309ms step_avg:171.17ms
step:1117/1530 train_loss:3.5872 train_time:189487ms step_avg:171.17ms
step:1118/1530 train_loss:3.6174 train_time:189665ms step_avg:171.18ms
step:1119/1530 train_loss:3.4750 train_time:189839ms step_avg:171.18ms
step:1120/1530 train_loss:3.4833 train_time:190016ms step_avg:171.19ms
step:1121/1530 train_loss:3.3835 train_time:190194ms step_avg:171.19ms
step:1122/1530 train_loss:3.4538 train_time:190370ms step_avg:171.20ms
step:1123/1530 train_loss:3.5729 train_time:190545ms step_avg:171.20ms
step:1124/1530 train_loss:3.3306 train_time:190720ms step_avg:171.20ms
step:1125/1530 train_loss:3.2183 train_time:190898ms step_avg:171.21ms
step:1125/1530 val_loss:3.4038 train_time:190948ms step_avg:171.25ms
step:1126/1530 train_loss:3.4702 train_time:191074ms step_avg:171.21ms
step:1127/1530 train_loss:3.6695 train_time:191250ms step_avg:171.22ms
step:1128/1530 train_loss:3.2277 train_time:191428ms step_avg:171.22ms
step:1129/1530 train_loss:3.5503 train_time:191607ms step_avg:171.23ms
step:1130/1530 train_loss:3.3700 train_time:191785ms step_avg:171.24ms
step:1131/1530 train_loss:3.3968 train_time:191967ms step_avg:171.25ms
step:1132/1530 train_loss:3.3649 train_time:192140ms step_avg:171.25ms
step:1133/1530 train_loss:3.4823 train_time:192457ms step_avg:171.38ms
step:1134/1530 train_loss:3.4429 train_time:192639ms step_avg:171.39ms
step:1135/1530 train_loss:3.5184 train_time:192817ms step_avg:171.39ms
step:1136/1530 train_loss:3.5584 train_time:192995ms step_avg:171.40ms
step:1137/1530 train_loss:3.4526 train_time:193170ms step_avg:171.40ms
step:1138/1530 train_loss:3.3464 train_time:193348ms step_avg:171.41ms
step:1139/1530 train_loss:3.6557 train_time:193681ms step_avg:171.55ms
step:1140/1530 train_loss:3.4471 train_time:193856ms step_avg:171.55ms
step:1141/1530 train_loss:3.5900 train_time:194039ms step_avg:171.56ms
step:1142/1530 train_loss:3.4385 train_time:194216ms step_avg:171.57ms
step:1143/1530 train_loss:3.3586 train_time:194396ms step_avg:171.58ms
step:1144/1530 train_loss:3.4386 train_time:194573ms step_avg:171.58ms
step:1145/1530 train_loss:3.5865 train_time:194748ms step_avg:171.58ms
step:1146/1530 train_loss:3.5499 train_time:194929ms step_avg:171.59ms
step:1147/1530 train_loss:3.4848 train_time:195107ms step_avg:171.60ms
step:1148/1530 train_loss:3.4927 train_time:195284ms step_avg:171.60ms
step:1149/1530 train_loss:3.3203 train_time:195464ms step_avg:171.61ms
step:1150/1530 train_loss:3.3742 train_time:195641ms step_avg:171.61ms
step:1151/1530 train_loss:3.3143 train_time:195819ms step_avg:171.62ms
step:1152/1530 train_loss:3.3938 train_time:196000ms step_avg:171.63ms
step:1153/1530 train_loss:3.4229 train_time:196180ms step_avg:171.64ms
step:1154/1530 train_loss:3.5136 train_time:196355ms step_avg:171.64ms
step:1155/1530 train_loss:3.3160 train_time:196537ms step_avg:171.65ms
step:1156/1530 train_loss:3.5290 train_time:196719ms step_avg:171.66ms
step:1157/1530 train_loss:3.4887 train_time:196896ms step_avg:171.66ms
step:1158/1530 train_loss:3.2413 train_time:197073ms step_avg:171.67ms
step:1159/1530 train_loss:3.3462 train_time:197249ms step_avg:171.67ms
step:1160/1530 train_loss:3.3351 train_time:197423ms step_avg:171.67ms
step:1161/1530 train_loss:3.0724 train_time:197603ms step_avg:171.68ms
step:1162/1530 train_loss:3.4199 train_time:197780ms step_avg:171.68ms
step:1163/1530 train_loss:3.3824 train_time:197959ms step_avg:171.69ms
step:1164/1530 train_loss:3.2846 train_time:198137ms step_avg:171.70ms
step:1165/1530 train_loss:3.2417 train_time:198312ms step_avg:171.70ms
step:1166/1530 train_loss:3.3837 train_time:198491ms step_avg:171.70ms
step:1167/1530 train_loss:3.4047 train_time:198667ms step_avg:171.71ms
step:1168/1530 train_loss:3.7204 train_time:198843ms step_avg:171.71ms
step:1169/1530 train_loss:3.3717 train_time:199020ms step_avg:171.72ms
step:1170/1530 train_loss:3.3851 train_time:199196ms step_avg:171.72ms
step:1171/1530 train_loss:3.3180 train_time:199372ms step_avg:171.72ms
step:1172/1530 train_loss:3.4178 train_time:199546ms step_avg:171.73ms
step:1173/1530 train_loss:3.5318 train_time:199725ms step_avg:171.73ms
step:1174/1530 train_loss:3.3789 train_time:199912ms step_avg:171.75ms
step:1175/1530 train_loss:3.3604 train_time:200090ms step_avg:171.75ms
step:1176/1530 train_loss:3.4185 train_time:200273ms step_avg:171.76ms
step:1177/1530 train_loss:3.4430 train_time:200455ms step_avg:171.77ms
step:1178/1530 train_loss:3.4938 train_time:200632ms step_avg:171.77ms
step:1179/1530 train_loss:3.3973 train_time:200807ms step_avg:171.78ms
step:1180/1530 train_loss:3.3464 train_time:200995ms step_avg:171.79ms
step:1181/1530 train_loss:3.3330 train_time:201173ms step_avg:171.80ms
step:1182/1530 train_loss:3.3665 train_time:201349ms step_avg:171.80ms
step:1183/1530 train_loss:3.3283 train_time:201529ms step_avg:171.81ms
step:1184/1530 train_loss:3.5045 train_time:201705ms step_avg:171.81ms
step:1185/1530 train_loss:3.5366 train_time:201885ms step_avg:171.82ms
step:1186/1530 train_loss:3.3559 train_time:202065ms step_avg:171.82ms
step:1187/1530 train_loss:3.4101 train_time:202251ms step_avg:171.84ms
step:1188/1530 train_loss:3.4347 train_time:202427ms step_avg:171.84ms
step:1189/1530 train_loss:3.2702 train_time:202605ms step_avg:171.84ms
step:1190/1530 train_loss:3.4383 train_time:202784ms step_avg:171.85ms
step:1191/1530 train_loss:3.5772 train_time:202963ms step_avg:171.86ms
step:1192/1530 train_loss:3.3877 train_time:203139ms step_avg:171.86ms
step:1193/1530 train_loss:3.2700 train_time:203315ms step_avg:171.86ms
step:1194/1530 train_loss:3.5491 train_time:203494ms step_avg:171.87ms
step:1195/1530 train_loss:3.3659 train_time:203675ms step_avg:171.88ms
step:1196/1530 train_loss:3.3773 train_time:203861ms step_avg:171.89ms
step:1197/1530 train_loss:3.2897 train_time:204040ms step_avg:171.90ms
step:1198/1530 train_loss:3.2969 train_time:204224ms step_avg:171.91ms
step:1199/1530 train_loss:3.3348 train_time:204403ms step_avg:171.91ms
step:1200/1530 train_loss:3.4439 train_time:204581ms step_avg:171.92ms
step:1201/1530 train_loss:3.4759 train_time:204761ms step_avg:171.92ms
step:1202/1530 train_loss:3.6231 train_time:204951ms step_avg:171.94ms
step:1203/1530 train_loss:3.3999 train_time:205131ms step_avg:171.95ms
step:1204/1530 train_loss:3.3018 train_time:205312ms step_avg:171.95ms
step:1205/1530 train_loss:3.4315 train_time:205489ms step_avg:171.96ms
step:1206/1530 train_loss:3.4739 train_time:205664ms step_avg:171.96ms
step:1207/1530 train_loss:3.5138 train_time:205842ms step_avg:171.96ms
step:1208/1530 train_loss:3.3956 train_time:206017ms step_avg:171.97ms
step:1209/1530 train_loss:3.2389 train_time:206196ms step_avg:171.97ms
step:1210/1530 train_loss:3.3026 train_time:206374ms step_avg:171.98ms
step:1211/1530 train_loss:3.3948 train_time:206551ms step_avg:171.98ms
step:1212/1530 train_loss:3.3879 train_time:206729ms step_avg:171.99ms
step:1213/1530 train_loss:3.4053 train_time:206908ms step_avg:171.99ms
step:1214/1530 train_loss:3.2405 train_time:207089ms step_avg:172.00ms
step:1215/1530 train_loss:3.3881 train_time:207268ms step_avg:172.01ms
step:1216/1530 train_loss:3.3292 train_time:207444ms step_avg:172.01ms
step:1217/1530 train_loss:3.3169 train_time:207623ms step_avg:172.02ms
step:1218/1530 train_loss:3.4030 train_time:207802ms step_avg:172.02ms
step:1219/1530 train_loss:3.2485 train_time:207986ms step_avg:172.03ms
step:1220/1530 train_loss:3.4715 train_time:208163ms step_avg:172.04ms
step:1221/1530 train_loss:3.5029 train_time:208340ms step_avg:172.04ms
step:1222/1530 train_loss:3.4319 train_time:208516ms step_avg:172.04ms
step:1223/1530 train_loss:3.2882 train_time:208695ms step_avg:172.05ms
step:1224/1530 train_loss:3.2458 train_time:208876ms step_avg:172.06ms
step:1225/1530 train_loss:3.3628 train_time:209053ms step_avg:172.06ms
step:1226/1530 train_loss:3.3263 train_time:209235ms step_avg:172.07ms
step:1227/1530 train_loss:3.2687 train_time:209416ms step_avg:172.08ms
step:1228/1530 train_loss:3.4391 train_time:209593ms step_avg:172.08ms
step:1229/1530 train_loss:3.3627 train_time:209771ms step_avg:172.08ms
step:1230/1530 train_loss:3.3918 train_time:209952ms step_avg:172.09ms
step:1231/1530 train_loss:3.5750 train_time:210134ms step_avg:172.10ms
step:1232/1530 train_loss:3.4913 train_time:210314ms step_avg:172.11ms
step:1233/1530 train_loss:3.4213 train_time:210492ms step_avg:172.11ms
step:1234/1530 train_loss:3.5796 train_time:210668ms step_avg:172.11ms
step:1235/1530 train_loss:3.3210 train_time:210850ms step_avg:172.12ms
step:1236/1530 train_loss:3.2856 train_time:211027ms step_avg:172.13ms
step:1237/1530 train_loss:3.2707 train_time:211203ms step_avg:172.13ms
step:1238/1530 train_loss:3.2696 train_time:211386ms step_avg:172.14ms
step:1239/1530 train_loss:3.3290 train_time:211564ms step_avg:172.14ms
step:1240/1530 train_loss:3.3821 train_time:211743ms step_avg:172.15ms
step:1241/1530 train_loss:3.4213 train_time:211921ms step_avg:172.15ms
step:1242/1530 train_loss:3.2978 train_time:212099ms step_avg:172.16ms
step:1243/1530 train_loss:3.3951 train_time:212279ms step_avg:172.16ms
step:1244/1530 train_loss:3.4011 train_time:212453ms step_avg:172.17ms
step:1245/1530 train_loss:3.4090 train_time:212630ms step_avg:172.17ms
step:1246/1530 train_loss:3.2362 train_time:212808ms step_avg:172.18ms
step:1247/1530 train_loss:3.3673 train_time:212984ms step_avg:172.18ms
step:1248/1530 train_loss:3.4236 train_time:213162ms step_avg:172.18ms
step:1249/1530 train_loss:3.4211 train_time:213341ms step_avg:172.19ms
step:1250/1530 train_loss:3.2994 train_time:213520ms step_avg:172.19ms
step:1250/1530 val_loss:3.3509 train_time:213575ms step_avg:172.24ms
step:1251/1530 train_loss:3.4876 train_time:213706ms step_avg:172.20ms
step:1252/1530 train_loss:3.3533 train_time:213883ms step_avg:172.21ms
step:1253/1530 train_loss:3.3054 train_time:214061ms step_avg:172.21ms
step:1254/1530 train_loss:3.4118 train_time:214243ms step_avg:172.22ms
step:1255/1530 train_loss:3.5140 train_time:214432ms step_avg:172.23ms
step:1256/1530 train_loss:3.3032 train_time:214614ms step_avg:172.24ms
step:1257/1530 train_loss:3.3708 train_time:214793ms step_avg:172.25ms
step:1258/1530 train_loss:3.3574 train_time:214976ms step_avg:172.26ms
step:1259/1530 train_loss:3.3206 train_time:215154ms step_avg:172.26ms
step:1260/1530 train_loss:3.2056 train_time:215331ms step_avg:172.27ms
step:1261/1530 train_loss:3.2995 train_time:215512ms step_avg:172.27ms
step:1262/1530 train_loss:3.3188 train_time:215695ms step_avg:172.28ms
step:1263/1530 train_loss:3.2353 train_time:215878ms step_avg:172.29ms
step:1264/1530 train_loss:3.4354 train_time:216055ms step_avg:172.29ms
step:1265/1530 train_loss:3.4219 train_time:216231ms step_avg:172.30ms
step:1266/1530 train_loss:3.4351 train_time:216409ms step_avg:172.30ms
step:1267/1530 train_loss:3.3679 train_time:216588ms step_avg:172.31ms
step:1268/1530 train_loss:3.4079 train_time:216769ms step_avg:172.31ms
step:1269/1530 train_loss:3.2464 train_time:216954ms step_avg:172.32ms
step:1270/1530 train_loss:3.1049 train_time:217132ms step_avg:172.33ms
step:1271/1530 train_loss:3.4013 train_time:217313ms step_avg:172.33ms
step:1272/1530 train_loss:3.3494 train_time:217488ms step_avg:172.34ms
step:1273/1530 train_loss:3.3726 train_time:217668ms step_avg:172.34ms
step:1274/1530 train_loss:3.3578 train_time:217847ms step_avg:172.35ms
step:1275/1530 train_loss:3.4263 train_time:218024ms step_avg:172.35ms
step:1276/1530 train_loss:3.4657 train_time:218198ms step_avg:172.35ms
step:1277/1530 train_loss:3.4093 train_time:218377ms step_avg:172.36ms
step:1278/1530 train_loss:3.4021 train_time:218552ms step_avg:172.36ms
step:1279/1530 train_loss:3.2621 train_time:218735ms step_avg:172.37ms
step:1280/1530 train_loss:3.3635 train_time:218919ms step_avg:172.38ms
step:1281/1530 train_loss:3.4200 train_time:219095ms step_avg:172.38ms
step:1282/1530 train_loss:3.4692 train_time:219271ms step_avg:172.38ms
step:1283/1530 train_loss:3.3312 train_time:219451ms step_avg:172.39ms
step:1284/1530 train_loss:3.3688 train_time:219630ms step_avg:172.39ms
step:1285/1530 train_loss:3.3586 train_time:219808ms step_avg:172.40ms
step:1286/1530 train_loss:3.3266 train_time:219984ms step_avg:172.40ms
step:1287/1530 train_loss:3.4853 train_time:220162ms step_avg:172.41ms
step:1288/1530 train_loss:3.2946 train_time:220343ms step_avg:172.41ms
step:1289/1530 train_loss:3.3773 train_time:220530ms step_avg:172.42ms
step:1290/1530 train_loss:3.4557 train_time:220716ms step_avg:172.43ms
step:1291/1530 train_loss:3.3770 train_time:220897ms step_avg:172.44ms
step:1292/1530 train_loss:3.4802 train_time:221079ms step_avg:172.45ms
step:1293/1530 train_loss:3.5096 train_time:221259ms step_avg:172.45ms
step:1294/1530 train_loss:3.4540 train_time:221440ms step_avg:172.46ms
step:1295/1530 train_loss:3.2807 train_time:221619ms step_avg:172.47ms
step:1296/1530 train_loss:3.3691 train_time:221801ms step_avg:172.47ms
step:1297/1530 train_loss:3.2728 train_time:221981ms step_avg:172.48ms
step:1298/1530 train_loss:3.2680 train_time:222162ms step_avg:172.49ms
step:1299/1530 train_loss:3.3916 train_time:222340ms step_avg:172.49ms
step:1300/1530 train_loss:3.4014 train_time:222517ms step_avg:172.49ms
step:1301/1530 train_loss:3.3963 train_time:222694ms step_avg:172.50ms
step:1302/1530 train_loss:3.5763 train_time:222876ms step_avg:172.50ms
step:1303/1530 train_loss:3.3036 train_time:223060ms step_avg:172.51ms
step:1304/1530 train_loss:3.5037 train_time:223240ms step_avg:172.52ms
step:1305/1530 train_loss:3.2559 train_time:223417ms step_avg:172.52ms
step:1306/1530 train_loss:3.4510 train_time:223599ms step_avg:172.53ms
step:1307/1530 train_loss:3.4494 train_time:223774ms step_avg:172.53ms
step:1308/1530 train_loss:3.2831 train_time:223950ms step_avg:172.53ms
step:1309/1530 train_loss:3.3061 train_time:224129ms step_avg:172.54ms
step:1310/1530 train_loss:3.2907 train_time:224308ms step_avg:172.54ms
step:1311/1530 train_loss:3.2931 train_time:224486ms step_avg:172.55ms
step:1312/1530 train_loss:3.3711 train_time:224665ms step_avg:172.55ms
step:1313/1530 train_loss:3.3400 train_time:224843ms step_avg:172.56ms
step:1314/1530 train_loss:3.0412 train_time:225027ms step_avg:172.57ms
step:1315/1530 train_loss:3.2755 train_time:225204ms step_avg:172.57ms
step:1316/1530 train_loss:3.3948 train_time:225379ms step_avg:172.57ms
step:1317/1530 train_loss:3.4167 train_time:225558ms step_avg:172.58ms
step:1318/1530 train_loss:3.3007 train_time:225744ms step_avg:172.59ms
step:1319/1530 train_loss:3.4218 train_time:225924ms step_avg:172.59ms
step:1320/1530 train_loss:3.4566 train_time:226106ms step_avg:172.60ms
step:1321/1530 train_loss:3.3646 train_time:226283ms step_avg:172.60ms
step:1322/1530 train_loss:3.3237 train_time:226601ms step_avg:172.71ms
step:1323/1530 train_loss:3.3174 train_time:226790ms step_avg:172.73ms
step:1324/1530 train_loss:3.4341 train_time:226972ms step_avg:172.73ms
step:1325/1530 train_loss:3.4919 train_time:227156ms step_avg:172.74ms
step:1326/1530 train_loss:3.2093 train_time:227337ms step_avg:172.75ms
step:1327/1530 train_loss:3.1648 train_time:227514ms step_avg:172.75ms
step:1328/1530 train_loss:3.4914 train_time:227692ms step_avg:172.76ms
step:1329/1530 train_loss:3.2952 train_time:228034ms step_avg:172.88ms
step:1330/1530 train_loss:3.4249 train_time:228216ms step_avg:172.89ms
step:1331/1530 train_loss:3.3264 train_time:228393ms step_avg:172.89ms
step:1332/1530 train_loss:3.7390 train_time:228575ms step_avg:172.90ms
step:1333/1530 train_loss:3.4787 train_time:228755ms step_avg:172.91ms
step:1334/1530 train_loss:3.3643 train_time:228934ms step_avg:172.91ms
step:1335/1530 train_loss:3.2865 train_time:229114ms step_avg:172.92ms
step:1336/1530 train_loss:3.2929 train_time:229297ms step_avg:172.92ms
step:1337/1530 train_loss:3.5460 train_time:229477ms step_avg:172.93ms
step:1338/1530 train_loss:3.5216 train_time:229657ms step_avg:172.93ms
step:1339/1530 train_loss:3.3348 train_time:229838ms step_avg:172.94ms
step:1340/1530 train_loss:3.2817 train_time:230017ms step_avg:172.95ms
step:1341/1530 train_loss:3.5868 train_time:230195ms step_avg:172.95ms
step:1342/1530 train_loss:3.3523 train_time:230374ms step_avg:172.95ms
step:1343/1530 train_loss:3.3588 train_time:230553ms step_avg:172.96ms
step:1344/1530 train_loss:3.4094 train_time:230734ms step_avg:172.96ms
step:1345/1530 train_loss:3.3796 train_time:230916ms step_avg:172.97ms
step:1346/1530 train_loss:3.2965 train_time:231093ms step_avg:172.97ms
step:1347/1530 train_loss:3.2793 train_time:231269ms step_avg:172.98ms
step:1348/1530 train_loss:3.3485 train_time:231446ms step_avg:172.98ms
step:1349/1530 train_loss:3.2711 train_time:231623ms step_avg:172.98ms
step:1350/1530 train_loss:3.3870 train_time:231804ms step_avg:172.99ms
step:1351/1530 train_loss:3.2410 train_time:231979ms step_avg:172.99ms
step:1352/1530 train_loss:3.3057 train_time:232158ms step_avg:172.99ms
step:1353/1530 train_loss:3.3991 train_time:232338ms step_avg:173.00ms
step:1354/1530 train_loss:3.2598 train_time:232517ms step_avg:173.00ms
step:1355/1530 train_loss:3.1860 train_time:232694ms step_avg:173.01ms
step:1356/1530 train_loss:3.5093 train_time:232875ms step_avg:173.01ms
step:1357/1530 train_loss:3.4208 train_time:233056ms step_avg:173.02ms
step:1358/1530 train_loss:3.1795 train_time:233234ms step_avg:173.02ms
step:1359/1530 train_loss:3.4388 train_time:233414ms step_avg:173.03ms
step:1360/1530 train_loss:3.3450 train_time:233594ms step_avg:173.03ms
step:1361/1530 train_loss:3.1241 train_time:233780ms step_avg:173.04ms
step:1362/1530 train_loss:3.3924 train_time:233962ms step_avg:173.05ms
step:1363/1530 train_loss:3.2814 train_time:234149ms step_avg:173.06ms
step:1364/1530 train_loss:3.3002 train_time:234327ms step_avg:173.06ms
step:1365/1530 train_loss:3.3110 train_time:234503ms step_avg:173.07ms
step:1366/1530 train_loss:3.4178 train_time:234684ms step_avg:173.07ms
step:1367/1530 train_loss:3.3956 train_time:234862ms step_avg:173.07ms
step:1368/1530 train_loss:3.3420 train_time:235042ms step_avg:173.08ms
step:1369/1530 train_loss:3.2752 train_time:235230ms step_avg:173.09ms
step:1370/1530 train_loss:3.6034 train_time:235412ms step_avg:173.10ms
step:1371/1530 train_loss:3.3108 train_time:235593ms step_avg:173.10ms
step:1372/1530 train_loss:3.3653 train_time:235775ms step_avg:173.11ms
step:1373/1530 train_loss:3.3653 train_time:235953ms step_avg:173.11ms
step:1374/1530 train_loss:3.1474 train_time:236133ms step_avg:173.12ms
step:1375/1530 train_loss:3.5310 train_time:236313ms step_avg:173.12ms
step:1375/1530 val_loss:3.3091 train_time:236363ms step_avg:173.16ms
step:1376/1530 train_loss:3.3438 train_time:236491ms step_avg:173.13ms
step:1377/1530 train_loss:3.4756 train_time:236671ms step_avg:173.13ms
step:1378/1530 train_loss:3.4673 train_time:236849ms step_avg:173.14ms
step:1379/1530 train_loss:3.1102 train_time:237031ms step_avg:173.14ms
step:1380/1530 train_loss:3.3113 train_time:237210ms step_avg:173.15ms
step:1381/1530 train_loss:3.6949 train_time:237395ms step_avg:173.15ms
step:1382/1530 train_loss:3.2103 train_time:237574ms step_avg:173.16ms
step:1383/1530 train_loss:3.3928 train_time:237756ms step_avg:173.17ms
step:1384/1530 train_loss:3.4729 train_time:237937ms step_avg:173.17ms
step:1385/1530 train_loss:3.4039 train_time:238112ms step_avg:173.17ms
step:1386/1530 train_loss:3.3391 train_time:238292ms step_avg:173.18ms
step:1387/1530 train_loss:3.1994 train_time:238471ms step_avg:173.18ms
step:1388/1530 train_loss:3.3503 train_time:238650ms step_avg:173.19ms
step:1389/1530 train_loss:3.3155 train_time:238833ms step_avg:173.19ms
step:1390/1530 train_loss:3.5622 train_time:239010ms step_avg:173.20ms
step:1391/1530 train_loss:3.2871 train_time:239188ms step_avg:173.20ms
step:1392/1530 train_loss:3.2860 train_time:239367ms step_avg:173.20ms
step:1393/1530 train_loss:3.2352 train_time:239546ms step_avg:173.21ms
step:1394/1530 train_loss:3.4932 train_time:239725ms step_avg:173.21ms
step:1395/1530 train_loss:3.3888 train_time:239903ms step_avg:173.22ms
step:1396/1530 train_loss:3.4045 train_time:240081ms step_avg:173.22ms
step:1397/1530 train_loss:3.3067 train_time:240257ms step_avg:173.22ms
step:1398/1530 train_loss:3.2549 train_time:240433ms step_avg:173.22ms
step:1399/1530 train_loss:3.3153 train_time:240612ms step_avg:173.23ms
step:1400/1530 train_loss:3.3207 train_time:240796ms step_avg:173.23ms
step:1401/1530 train_loss:3.3421 train_time:240972ms step_avg:173.24ms
step:1402/1530 train_loss:3.3015 train_time:241150ms step_avg:173.24ms
step:1403/1530 train_loss:3.4950 train_time:241335ms step_avg:173.25ms
step:1404/1530 train_loss:3.2792 train_time:241513ms step_avg:173.25ms
step:1405/1530 train_loss:3.3154 train_time:241694ms step_avg:173.26ms
step:1406/1530 train_loss:3.3130 train_time:241874ms step_avg:173.26ms
step:1407/1530 train_loss:3.1719 train_time:242051ms step_avg:173.26ms
step:1408/1530 train_loss:3.3092 train_time:242230ms step_avg:173.27ms
step:1409/1530 train_loss:3.3007 train_time:242419ms step_avg:173.28ms
step:1410/1530 train_loss:3.2866 train_time:242597ms step_avg:173.28ms
step:1411/1530 train_loss:3.3626 train_time:242773ms step_avg:173.29ms
step:1412/1530 train_loss:3.3322 train_time:242951ms step_avg:173.29ms
step:1413/1530 train_loss:3.3646 train_time:243130ms step_avg:173.29ms
step:1414/1530 train_loss:3.3300 train_time:243310ms step_avg:173.30ms
step:1415/1530 train_loss:3.4057 train_time:243495ms step_avg:173.31ms
step:1416/1530 train_loss:3.2287 train_time:243684ms step_avg:173.32ms
step:1417/1530 train_loss:3.2803 train_time:243867ms step_avg:173.32ms
step:1418/1530 train_loss:3.3880 train_time:244047ms step_avg:173.33ms
step:1419/1530 train_loss:3.3357 train_time:244230ms step_avg:173.34ms
step:1420/1530 train_loss:3.3633 train_time:244412ms step_avg:173.34ms
step:1421/1530 train_loss:3.3715 train_time:244591ms step_avg:173.35ms
step:1422/1530 train_loss:3.3302 train_time:244769ms step_avg:173.35ms
step:1423/1530 train_loss:3.3113 train_time:244949ms step_avg:173.35ms
step:1424/1530 train_loss:3.3348 train_time:245134ms step_avg:173.36ms
step:1425/1530 train_loss:3.1889 train_time:245325ms step_avg:173.37ms
step:1426/1530 train_loss:3.3201 train_time:245503ms step_avg:173.38ms
step:1427/1530 train_loss:3.2816 train_time:245687ms step_avg:173.39ms
step:1428/1530 train_loss:3.3757 train_time:245865ms step_avg:173.39ms
step:1429/1530 train_loss:3.3506 train_time:246043ms step_avg:173.39ms
step:1430/1530 train_loss:3.2603 train_time:246225ms step_avg:173.40ms
step:1431/1530 train_loss:3.3228 train_time:246407ms step_avg:173.40ms
step:1432/1530 train_loss:3.3371 train_time:246589ms step_avg:173.41ms
step:1433/1530 train_loss:3.1317 train_time:246772ms step_avg:173.42ms
step:1434/1530 train_loss:3.2853 train_time:246956ms step_avg:173.42ms
step:1435/1530 train_loss:3.1153 train_time:247137ms step_avg:173.43ms
step:1436/1530 train_loss:3.2269 train_time:247317ms step_avg:173.43ms
step:1437/1530 train_loss:3.4042 train_time:247494ms step_avg:173.44ms
step:1438/1530 train_loss:3.3780 train_time:247668ms step_avg:173.44ms
step:1439/1530 train_loss:3.3128 train_time:247848ms step_avg:173.44ms
step:1440/1530 train_loss:3.1881 train_time:248023ms step_avg:173.44ms
step:1441/1530 train_loss:3.3361 train_time:248202ms step_avg:173.45ms
step:1442/1530 train_loss:3.3827 train_time:248385ms step_avg:173.45ms
step:1443/1530 train_loss:3.4903 train_time:248570ms step_avg:173.46ms
step:1444/1530 train_loss:3.4404 train_time:248747ms step_avg:173.46ms
step:1445/1530 train_loss:3.3348 train_time:248926ms step_avg:173.47ms
step:1446/1530 train_loss:3.2018 train_time:249108ms step_avg:173.47ms
step:1447/1530 train_loss:3.2904 train_time:249288ms step_avg:173.48ms
step:1448/1530 train_loss:3.2976 train_time:249466ms step_avg:173.48ms
step:1449/1530 train_loss:3.3926 train_time:249644ms step_avg:173.48ms
step:1450/1530 train_loss:3.3854 train_time:249825ms step_avg:173.49ms
step:1451/1530 train_loss:3.2031 train_time:250004ms step_avg:173.49ms
step:1452/1530 train_loss:3.3215 train_time:250185ms step_avg:173.50ms
step:1453/1530 train_loss:3.2586 train_time:250361ms step_avg:173.50ms
step:1454/1530 train_loss:3.2900 train_time:250538ms step_avg:173.50ms
step:1455/1530 train_loss:3.3286 train_time:250724ms step_avg:173.51ms
step:1456/1530 train_loss:3.2799 train_time:250901ms step_avg:173.51ms
step:1457/1530 train_loss:3.1530 train_time:251078ms step_avg:173.52ms
step:1458/1530 train_loss:3.4195 train_time:251256ms step_avg:173.52ms
step:1459/1530 train_loss:3.2691 train_time:251438ms step_avg:173.53ms
step:1460/1530 train_loss:3.3161 train_time:251615ms step_avg:173.53ms
step:1461/1530 train_loss:3.4276 train_time:251793ms step_avg:173.53ms
step:1462/1530 train_loss:3.2556 train_time:251971ms step_avg:173.53ms
step:1463/1530 train_loss:3.4646 train_time:252152ms step_avg:173.54ms
step:1464/1530 train_loss:3.3592 train_time:252332ms step_avg:173.54ms
step:1465/1530 train_loss:3.3568 train_time:252514ms step_avg:173.55ms
step:1466/1530 train_loss:3.2836 train_time:252691ms step_avg:173.55ms
step:1467/1530 train_loss:3.3873 train_time:252870ms step_avg:173.56ms
step:1468/1530 train_loss:3.2862 train_time:253047ms step_avg:173.56ms
step:1469/1530 train_loss:3.2725 train_time:253228ms step_avg:173.56ms
step:1470/1530 train_loss:3.3270 train_time:253411ms step_avg:173.57ms
step:1471/1530 train_loss:3.2577 train_time:253595ms step_avg:173.58ms
step:1472/1530 train_loss:3.2439 train_time:253779ms step_avg:173.58ms
step:1473/1530 train_loss:3.4384 train_time:253957ms step_avg:173.59ms
step:1474/1530 train_loss:3.3115 train_time:254140ms step_avg:173.59ms
step:1475/1530 train_loss:3.1485 train_time:254327ms step_avg:173.60ms
step:1476/1530 train_loss:3.2677 train_time:254507ms step_avg:173.61ms
step:1477/1530 train_loss:3.2395 train_time:254692ms step_avg:173.61ms
step:1478/1530 train_loss:3.3120 train_time:254875ms step_avg:173.62ms
step:1479/1530 train_loss:3.3942 train_time:255059ms step_avg:173.63ms
step:1480/1530 train_loss:3.2706 train_time:255237ms step_avg:173.63ms
step:1481/1530 train_loss:3.4488 train_time:255421ms step_avg:173.64ms
step:1482/1530 train_loss:3.3626 train_time:255608ms step_avg:173.65ms
step:1483/1530 train_loss:3.2780 train_time:255799ms step_avg:173.66ms
step:1484/1530 train_loss:3.2637 train_time:255985ms step_avg:173.67ms
step:1485/1530 train_loss:3.2815 train_time:256165ms step_avg:173.67ms
step:1486/1530 train_loss:3.2224 train_time:256350ms step_avg:173.68ms
step:1487/1530 train_loss:3.3439 train_time:256532ms step_avg:173.68ms
step:1488/1530 train_loss:3.2423 train_time:256715ms step_avg:173.69ms
step:1489/1530 train_loss:3.3118 train_time:256895ms step_avg:173.70ms
step:1490/1530 train_loss:3.2464 train_time:257077ms step_avg:173.70ms
step:1491/1530 train_loss:3.1570 train_time:257256ms step_avg:173.70ms
step:1492/1530 train_loss:3.2651 train_time:257437ms step_avg:173.71ms
step:1493/1530 train_loss:3.4327 train_time:257618ms step_avg:173.71ms
step:1494/1530 train_loss:3.2964 train_time:257796ms step_avg:173.72ms
step:1495/1530 train_loss:3.0324 train_time:257980ms step_avg:173.72ms
step:1496/1530 train_loss:3.3575 train_time:258163ms step_avg:173.73ms
step:1497/1530 train_loss:3.3128 train_time:258345ms step_avg:173.74ms
step:1498/1530 train_loss:3.3470 train_time:258530ms step_avg:173.74ms
step:1499/1530 train_loss:3.3100 train_time:258720ms step_avg:173.75ms
step:1500/1530 train_loss:3.2964 train_time:258911ms step_avg:173.77ms
step:1500/1530 val_loss:3.2775 train_time:258967ms step_avg:173.80ms
step:1501/1530 train_loss:3.0891 train_time:259102ms step_avg:173.78ms
step:1502/1530 train_loss:3.3577 train_time:259296ms step_avg:173.79ms
step:1503/1530 train_loss:3.2416 train_time:259475ms step_avg:173.79ms
step:1504/1530 train_loss:3.2451 train_time:259657ms step_avg:173.80ms
step:1505/1530 train_loss:3.2102 train_time:259837ms step_avg:173.80ms
step:1506/1530 train_loss:3.2761 train_time:260020ms step_avg:173.81ms
step:1507/1530 train_loss:3.1761 train_time:260215ms step_avg:173.82ms
step:1508/1530 train_loss:3.4788 train_time:260397ms step_avg:173.83ms
step:1509/1530 train_loss:3.2789 train_time:260574ms step_avg:173.83ms
step:1510/1530 train_loss:3.2701 train_time:260754ms step_avg:173.84ms
step:1511/1530 train_loss:3.4162 train_time:261071ms step_avg:173.93ms
step:1512/1530 train_loss:3.4200 train_time:261259ms step_avg:173.94ms
step:1513/1530 train_loss:3.2663 train_time:261445ms step_avg:173.95ms
step:1514/1530 train_loss:3.0803 train_time:261628ms step_avg:173.95ms
step:1515/1530 train_loss:3.2380 train_time:261810ms step_avg:173.96ms
step:1516/1530 train_loss:3.2530 train_time:261997ms step_avg:173.97ms
step:1517/1530 train_loss:3.2979 train_time:262178ms step_avg:173.97ms
step:1518/1530 train_loss:3.2021 train_time:262361ms step_avg:173.98ms
step:1519/1530 train_loss:3.5016 train_time:262700ms step_avg:174.09ms
step:1520/1530 train_loss:3.1249 train_time:262880ms step_avg:174.09ms
step:1521/1530 train_loss:3.2025 train_time:263058ms step_avg:174.10ms
step:1522/1530 train_loss:3.3522 train_time:263241ms step_avg:174.10ms
step:1523/1530 train_loss:3.2316 train_time:263418ms step_avg:174.10ms
step:1524/1530 train_loss:3.3486 train_time:263598ms step_avg:174.11ms
step:1525/1530 train_loss:3.3337 train_time:263786ms step_avg:174.12ms
step:1526/1530 train_loss:3.2747 train_time:263975ms step_avg:174.13ms
step:1527/1530 train_loss:3.2893 train_time:264156ms step_avg:174.13ms
step:1528/1530 train_loss:3.4082 train_time:264335ms step_avg:174.13ms
step:1529/1530 train_loss:3.4073 train_time:264514ms step_avg:174.14ms
step:1530/1530 train_loss:3.2359 train_time:264693ms step_avg:174.14ms
step:1530/1530 val_loss:3.2751 train_time:264747ms step_avg:174.18ms