DALL·E Mega - Training Journal | dalle-mini – Weights & Biases

Excerpt

Weights & Biases, developer tools for machine learning

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“valid_2/loss”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.20.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1654740530,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.20.0.dev0”}}

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“valid_2/loss”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.20.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1653413010,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.20.0.dev0”}}

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.20.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1652799880,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.20.0.dev0”}}

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.20.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1652741533,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.20.0.dev0”}}

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.20.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1652715661,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.20.0.dev0”}}

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.20.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1652469949,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.20.0.dev0”}}

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.19.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1652296045,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.19.0.dev0”}}

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.19.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1651863703,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.19.0.dev0”}}

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.19.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1651789572,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.19.0.dev0”}}

{“desc”:null,“value”:{“m”:[{“1”:“train/step”,“4”:“train/step”,“6”:[1]},{“1”:“train/epoch”,“5”:1,“6”:[1]},{“1”:“train/time”,“5”:1,“6”:[1]},{“1”:“train/samples”,“5”:1,“6”:[1]},{“1”:“time/train_per_step”,“5”:1,“6”:[1]},{“1”:“time/train_per_log”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“gradients_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“train/learning_rate”,“5”:1,“6”:[1]},{“1”:“train/loss”,“5”:1,“6”:[1]},{“1”:“params_norm/.lm_head.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.FlaxBartAttention_1.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_2.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.decoder.layers.FlaxBartDecoderLayers.LayerNorm_3.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_positions.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.embed_tokens.embedding”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.final_ln.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layernorm_embedding.scale”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.k_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.out_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.q_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.FlaxBartAttention_0.v_proj.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_0.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_1.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.Dense_2.kernel”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.GLU_0.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_0.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.bias”,“5”:1,“6”:[1]},{“1”:“params_norm/.model.encoder.layers.FlaxBartEncoderLayers.LayerNorm_1.scale”,“5”:1,“6”:[1]},{“1”:“eval/loss”,“5”:1,“6”:[1]},{“1”:“time/eval”,“5”:1,“6”:[1]},{“1”:“time/save_model”,“5”:1,“6”:[1]}],“t”:{“1”:[1,11,12,45,49,51,55],“3”:[7,16],“4”:“3.9.7”,“5”:“0.12.15”,“6”:“4.19.0.dev0”,“8”:[5]},“code_path”:“code/tools/train/train.py”,“framework”:“huggingface”,“start_time”:1651556408,“cli_version”:“0.12.15”,“is_jupyter_run”:false,“python_version”:“3.9.7”,“is_kaggle_kernel”:false,“huggingface_version”:“4.19.0.dev0”}}

dalle-mini/dalle-mini/model-15wn465j:v55

dalle-mini/dalle-mini/model-3r9ew7qt:v26

dalle-mini/dalle-mini/model-27d5c7bb:v0

dalle-mini/dalle-mini/model-2rxx9nl0:v0

dalle-mini/dalle-mini/model-6lxmf18j:v2

dalle-mini/dalle-mini/model-u2k8gni5:v3

dalle-mini/dalle-mini/model-2qiy2c5o:v17

dalle-mini/dalle-mini/model-5ub6u2sh:v2

dalle-mini/dalle-mini/model-3dl17sgc:v8

dalle-mini/dalle-mini/model-1ha3w6z7:v12

🪴 Anil's Garden

Explorer

DALL·E Mega - Training Journal dalle-mini – Weights & Biases

DALL·E Mega - Training Journal | dalle-mini – Weights & Biases

Excerpt

Graph View

Table of Contents

Backlinks