Training in progress, step 50, checkpoint

Browse files

Files changed (7) hide show

checkpoint-50/model.safetensors +1 -1
checkpoint-50/optimizer.pt +1 -1
checkpoint-50/rng_state_0.pth +1 -1
checkpoint-50/rng_state_1.pth +1 -1
checkpoint-50/rng_state_2.pth +1 -1
checkpoint-50/rng_state_3.pth +1 -1
checkpoint-50/trainer_state.json +368 -368

checkpoint-50/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2429f0db82d6f54c3977f53dd544b7529d6322458c73a8466ac23ac09838833
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:20fa3baf6756e94e31dbdf2d129c16029be7c3edad043851b1654b96435a34a5
 size 1976163472

checkpoint-50/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e08d3c27bb734d1a7f5e6232947eec965f1a97f8953134c9f61a64d71676db8c
 size 3952505274

 version https://git-lfs.github.com/spec/v1
+oid sha256:2305c113c394478b5194c70c42e2cae0dd86712b86e88ff56dcdbebe7f7b01be
 size 3952505274

checkpoint-50/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdcf4a103437b92127bd1dd3021524a9c27dc7e2ec2f6d2e41ad871cca920b4e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:743d69234c1f9bbe7b75d618de78259f369b365fdc4d0ff60b04407b0ffde02e
 size 15024

checkpoint-50/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:496426dea16f7374fd996fbb9f1c9a400a305d948493f266a5a0f243875e7912
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:17a289e6c01736bc0b4798b4132cb5ef587b566fa27b1ebed6c36bf6371ee37d
 size 14960

checkpoint-50/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e09450641d8b5f277734d6c1c8fc179a1ab3468e04fe71ff5eb6a41a61bfabf3
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4e1c711aa7ab8e083af11f3e41ee95efb2a49034b8306a01aaeabdad27f5da2
 size 14960

checkpoint-50/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e486719966634cac2b2e87419a65e82830284ccecc147674fffb99ed74aa9f3f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9ef94998045ba904ed0bd8e95574fee171d672e45082ceb2d1086d05632d894
 size 15024

checkpoint-50/trainer_state.json CHANGED Viewed

@@ -9,653 +9,653 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 158.140625,
       "epoch": 0.0013333333333333333,
-      "grad_norm": 3.1150918006896973,
       "kl": 0.0,
       "learning_rate": 4.998766400914329e-07,
       "loss": 0.0,
-      "reward": 0.0625,
-      "reward_std": 0.17078250646591187,
-      "rewards/emotion_reward_func": 0.0625,
       "rewards/format_reward_func": 0.0,
       "step": 1
     },
     {
-      "completion_length": 141.6875,
       "epoch": 0.0026666666666666666,
-      "grad_norm": 2.0959103107452393,
-      "kl": 0.0008207425271393731,
       "learning_rate": 4.995066821070679e-07,
       "loss": 0.0,
-      "reward": 0.015625,
-      "reward_std": 0.0625,
       "rewards/emotion_reward_func": 0.015625,
-      "rewards/format_reward_func": 0.0,
       "step": 2
     },
     {
-      "completion_length": 166.28125,
       "epoch": 0.004,
-      "grad_norm": 3.0417022705078125,
-      "kl": 0.0009600210760254413,
       "learning_rate": 4.9889049115077e-07,
       "loss": 0.0,
-      "reward": 0.015625,
-      "reward_std": 0.0625,
       "rewards/emotion_reward_func": 0.015625,
-      "rewards/format_reward_func": 0.0,
       "step": 3
     },
     {
-      "completion_length": 152.15625,
       "epoch": 0.005333333333333333,
-      "grad_norm": 0.0009840590646490455,
-      "kl": 0.0009705750271677971,
       "learning_rate": 4.980286753286194e-07,
       "loss": 0.0,
-      "reward": 0.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0,
       "step": 4
     },
     {
-      "completion_length": 149.6875,
       "epoch": 0.006666666666666667,
-      "grad_norm": 1.7184406518936157,
-      "kl": 0.0008838580542942509,
       "learning_rate": 4.969220851487844e-07,
       "loss": 0.0,
-      "reward": 0.015625,
-      "reward_std": 0.0625,
-      "rewards/emotion_reward_func": 0.015625,
-      "rewards/format_reward_func": 0.0,
       "step": 5
     },
     {
-      "completion_length": 133.078125,
       "epoch": 0.008,
-      "grad_norm": 3.0811102390289307,
-      "kl": 0.001091994228772819,
       "learning_rate": 4.955718126821722e-07,
       "loss": 0.0,
-      "reward": 0.015625,
-      "reward_std": 0.0625,
-      "rewards/emotion_reward_func": 0.015625,
-      "rewards/format_reward_func": 0.0,
       "step": 6
     },
     {
-      "completion_length": 171.171875,
       "epoch": 0.009333333333333334,
-      "grad_norm": 2.815908908843994,
-      "kl": 0.0014450001472141594,
       "learning_rate": 4.939791904846868e-07,
       "loss": 0.0,
       "reward": 0.03125,
       "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.03125,
-      "rewards/format_reward_func": 0.0,
       "step": 7
     },
     {
-      "completion_length": 139.71875,
       "epoch": 0.010666666666666666,
-      "grad_norm": 2.7541661262512207,
-      "kl": 0.0015429891645908356,
       "learning_rate": 4.921457902821578e-07,
       "loss": 0.0,
-      "reward": 0.046875,
-      "reward_std": 0.1359764039516449,
-      "rewards/emotion_reward_func": 0.03125,
-      "rewards/format_reward_func": 0.015625,
       "step": 8
     },
     {
-      "completion_length": 164.484375,
       "epoch": 0.012,
-      "grad_norm": 4.821209907531738,
-      "kl": 0.001787194050848484,
       "learning_rate": 4.900734214192358e-07,
       "loss": 0.0,
-      "reward": 0.078125,
-      "reward_std": 0.2257782220840454,
-      "rewards/emotion_reward_func": 0.078125,
-      "rewards/format_reward_func": 0.0,
       "step": 9
     },
     {
-      "completion_length": 148.46875,
       "epoch": 0.013333333333333334,
-      "grad_norm": 3.1241660118103027,
-      "kl": 0.0024147421936504543,
       "learning_rate": 4.877641290737883e-07,
       "loss": 0.0,
-      "reward": 0.015625,
-      "reward_std": 0.0625,
-      "rewards/emotion_reward_func": 0.015625,
-      "rewards/format_reward_func": 0.0,
       "step": 10
     },
     {
-      "completion_length": 131.171875,
       "epoch": 0.014666666666666666,
-      "grad_norm": 4.040431022644043,
-      "kl": 0.004135944647714496,
       "learning_rate": 4.852201922385564e-07,
       "loss": 0.0,
-      "reward": 0.109375,
-      "reward_std": 0.2050696462392807,
-      "rewards/emotion_reward_func": 0.109375,
-      "rewards/format_reward_func": 0.0,
       "step": 11
     },
     {
-      "completion_length": 182.296875,
       "epoch": 0.016,
-      "grad_norm": 4.632655143737793,
-      "kl": 0.00541023223195225,
       "learning_rate": 4.824441214720628e-07,
       "loss": 0.0,
-      "reward": 0.09375,
-      "reward_std": 0.2561737596988678,
-      "rewards/emotion_reward_func": 0.09375,
-      "rewards/format_reward_func": 0.0,
       "step": 12
     },
     {
-      "completion_length": 158.8125,
       "epoch": 0.017333333333333333,
-      "grad_norm": 4.393741607666016,
-      "kl": 0.005743494722992182,
       "learning_rate": 4.794386564209952e-07,
       "loss": 0.0,
-      "reward": 0.140625,
-      "reward_std": 0.34508590400218964,
-      "rewards/emotion_reward_func": 0.140625,
-      "rewards/format_reward_func": 0.0,
       "step": 13
     },
     {
-      "completion_length": 146.359375,
       "epoch": 0.018666666666666668,
-      "grad_norm": 4.499224662780762,
-      "kl": 0.009640732081606984,
       "learning_rate": 4.762067631165049e-07,
       "loss": 0.0,
-      "reward": 0.21875,
-      "reward_std": 0.4176512658596039,
-      "rewards/emotion_reward_func": 0.21875,
-      "rewards/format_reward_func": 0.0,
       "step": 14
     },
     {
-      "completion_length": 139.234375,
       "epoch": 0.02,
-      "grad_norm": 4.588191509246826,
-      "kl": 0.014436421450227499,
       "learning_rate": 4.7275163104709194e-07,
       "loss": 0.0,
-      "reward": 0.140625,
-      "reward_std": 0.21347813308238983,
-      "rewards/emotion_reward_func": 0.140625,
-      "rewards/format_reward_func": 0.0,
       "step": 15
     },
     {
-      "completion_length": 150.03125,
       "epoch": 0.021333333333333333,
-      "grad_norm": 6.439107894897461,
-      "kl": 0.012775216484442353,
       "learning_rate": 4.6907667001096585e-07,
       "loss": 0.0,
       "reward": 0.296875,
-      "reward_std": 0.4682851880788803,
-      "rewards/emotion_reward_func": 0.296875,
-      "rewards/format_reward_func": 0.0,
       "step": 16
     },
     {
-      "completion_length": 134.5625,
       "epoch": 0.02266666666666667,
-      "grad_norm": 4.521386623382568,
-      "kl": 0.020883948309347034,
       "learning_rate": 4.6518550675098587e-07,
       "loss": 0.0,
-      "reward": 0.171875,
-      "reward_std": 0.29886938631534576,
-      "rewards/emotion_reward_func": 0.171875,
-      "rewards/format_reward_func": 0.0,
       "step": 17
     },
     {
-      "completion_length": 142.671875,
       "epoch": 0.024,
-      "grad_norm": 4.811304569244385,
-      "kl": 0.018777580466121435,
       "learning_rate": 4.6108198137550377e-07,
       "loss": 0.0,
-      "reward": 0.15625,
-      "reward_std": 0.35296089947223663,
-      "rewards/emotion_reward_func": 0.15625,
-      "rewards/format_reward_func": 0.0,
       "step": 18
     },
     {
-      "completion_length": 161.84375,
       "epoch": 0.025333333333333333,
-      "grad_norm": 3.745910406112671,
-      "kl": 0.015528417890891433,
       "learning_rate": 4.567701435686404e-07,
       "loss": 0.0,
-      "reward": 0.125,
-      "reward_std": 0.2750816196203232,
       "rewards/emotion_reward_func": 0.125,
-      "rewards/format_reward_func": 0.0,
       "step": 19
     },
     {
-      "completion_length": 130.953125,
       "epoch": 0.02666666666666667,
-      "grad_norm": 4.955869674682617,
-      "kl": 0.02359085949137807,
       "learning_rate": 4.5225424859373684e-07,
       "loss": 0.0,
-      "reward": 0.359375,
-      "reward_std": 0.49833427369594574,
-      "rewards/emotion_reward_func": 0.328125,
-      "rewards/format_reward_func": 0.03125,
       "step": 20
     },
     {
-      "completion_length": 128.5625,
       "epoch": 0.028,
-      "grad_norm": 4.614920616149902,
-      "kl": 0.03107461892068386,
       "learning_rate": 4.475387530939226e-07,
       "loss": 0.0,
-      "reward": 0.171875,
-      "reward_std": 0.3683478683233261,
-      "rewards/emotion_reward_func": 0.171875,
-      "rewards/format_reward_func": 0.0,
       "step": 21
     },
     {
-      "completion_length": 117.3125,
       "epoch": 0.029333333333333333,
-      "grad_norm": 7.755206108093262,
-      "kl": 0.03445248864591122,
       "learning_rate": 4.426283106939473e-07,
       "loss": 0.0,
-      "reward": 0.4375,
-      "reward_std": 0.41898179054260254,
-      "rewards/emotion_reward_func": 0.4375,
-      "rewards/format_reward_func": 0.0,
       "step": 22
     },
     {
-      "completion_length": 136.0,
       "epoch": 0.030666666666666665,
-      "grad_norm": 4.976964950561523,
-      "kl": 0.030441070441156626,
       "learning_rate": 4.375277674076149e-07,
       "loss": 0.0,
-      "reward": 0.4375,
-      "reward_std": 0.43217839300632477,
       "rewards/emotion_reward_func": 0.4375,
-      "rewards/format_reward_func": 0.0,
       "step": 23
     },
     {
-      "completion_length": 113.140625,
       "epoch": 0.032,
-      "grad_norm": 5.640017986297607,
-      "kl": 0.04589735437184572,
       "learning_rate": 4.3224215685535287e-07,
-      "loss": 0.0,
-      "reward": 0.453125,
-      "reward_std": 0.5008521527051926,
-      "rewards/emotion_reward_func": 0.4375,
-      "rewards/format_reward_func": 0.015625,
       "step": 24
     },
     {
-      "completion_length": 132.65625,
       "epoch": 0.03333333333333333,
-      "grad_norm": 4.010633945465088,
-      "kl": 0.029425509739667177,
       "learning_rate": 4.2677669529663686e-07,
-      "loss": 0.0,
-      "reward": 0.15625,
-      "reward_std": 0.29578250646591187,
-      "rewards/emotion_reward_func": 0.140625,
-      "rewards/format_reward_func": 0.015625,
       "step": 25
     },
     {
-      "completion_length": 116.125,
       "epoch": 0.034666666666666665,
-      "grad_norm": 5.199466228485107,
-      "kl": 0.028916552662849426,
       "learning_rate": 4.2113677648217216e-07,
-      "loss": 0.0,
-      "reward": 0.609375,
-      "reward_std": 0.4819519817829132,
-      "rewards/emotion_reward_func": 0.609375,
-      "rewards/format_reward_func": 0.0,
       "step": 26
     },
     {
-      "completion_length": 119.578125,
       "epoch": 0.036,
-      "grad_norm": 4.086185455322266,
-      "kl": 0.0329075139015913,
       "learning_rate": 4.1532796633091294e-07,
-      "loss": 0.0,
-      "reward": 0.21875,
-      "reward_std": 0.31425635516643524,
-      "rewards/emotion_reward_func": 0.21875,
-      "rewards/format_reward_func": 0.0,
       "step": 27
     },
     {
-      "completion_length": 100.296875,
       "epoch": 0.037333333333333336,
-      "grad_norm": 5.692497253417969,
-      "kl": 0.03961053770035505,
       "learning_rate": 4.0935599743717244e-07,
-      "loss": 0.0,
-      "reward": 0.359375,
-      "reward_std": 0.41067278385162354,
-      "rewards/emotion_reward_func": 0.359375,
-      "rewards/format_reward_func": 0.0,
       "step": 28
     },
     {
-      "completion_length": 103.234375,
       "epoch": 0.03866666666666667,
-      "grad_norm": 5.965167045593262,
-      "kl": 0.03921728301793337,
       "learning_rate": 4.0322676341324414e-07,
-      "loss": 0.0,
-      "reward": 0.484375,
-      "reward_std": 0.49467839300632477,
-      "rewards/emotion_reward_func": 0.484375,
-      "rewards/format_reward_func": 0.0,
       "step": 29
     },
     {
-      "completion_length": 111.0625,
       "epoch": 0.04,
-      "grad_norm": 5.3481645584106445,
-      "kl": 0.040639642626047134,
       "learning_rate": 3.9694631307311825e-07,
-      "loss": 0.0,
-      "reward": 0.453125,
-      "reward_std": 0.49808916449546814,
-      "rewards/emotion_reward_func": 0.453125,
-      "rewards/format_reward_func": 0.0,
       "step": 30
     },
     {
-      "completion_length": 107.796875,
       "epoch": 0.04133333333333333,
-      "grad_norm": 5.7155890464782715,
-      "kl": 0.037587080616503954,
       "learning_rate": 3.9052084446303265e-07,
-      "loss": 0.0,
-      "reward": 0.3125,
-      "reward_std": 0.40507757663726807,
-      "rewards/emotion_reward_func": 0.3125,
-      "rewards/format_reward_func": 0.0,
       "step": 31
     },
     {
-      "completion_length": 132.078125,
       "epoch": 0.042666666666666665,
-      "grad_norm": 4.6740241050720215,
-      "kl": 0.033237069845199585,
       "learning_rate": 3.839566987447491e-07,
-      "loss": 0.0,
-      "reward": 0.609375,
-      "reward_std": 0.47669367492198944,
-      "rewards/emotion_reward_func": 0.609375,
-      "rewards/format_reward_func": 0.0,
       "step": 32
     },
     {
-      "completion_length": 87.25,
       "epoch": 0.044,
-      "grad_norm": 4.911775588989258,
-      "kl": 0.03579402016475797,
       "learning_rate": 3.7726035393759283e-07,
-      "loss": 0.0,
-      "reward": 0.4375,
-      "reward_std": 0.3133598417043686,
-      "rewards/emotion_reward_func": 0.4375,
-      "rewards/format_reward_func": 0.0,
       "step": 33
     },
     {
-      "completion_length": 106.5625,
       "epoch": 0.04533333333333334,
-      "grad_norm": 4.858055114746094,
-      "kl": 0.03773342818021774,
       "learning_rate": 3.704384185254288e-07,
-      "loss": 0.0,
-      "reward": 0.515625,
-      "reward_std": 0.4550696462392807,
-      "rewards/emotion_reward_func": 0.515625,
-      "rewards/format_reward_func": 0.0,
       "step": 34
     },
     {
-      "completion_length": 126.578125,
       "epoch": 0.04666666666666667,
-      "grad_norm": 5.445562839508057,
-      "kl": 0.02881002752110362,
       "learning_rate": 3.634976249348867e-07,
-      "loss": 0.0,
-      "reward": 0.28125,
-      "reward_std": 0.4230812340974808,
-      "rewards/emotion_reward_func": 0.28125,
-      "rewards/format_reward_func": 0.0,
       "step": 35
     },
     {
-      "completion_length": 117.078125,
       "epoch": 0.048,
-      "grad_norm": 4.025181770324707,
-      "kl": 0.03474720939993858,
       "learning_rate": 3.5644482289126813e-07,
-      "loss": 0.0,
-      "reward": 0.265625,
-      "reward_std": 0.2979728728532791,
-      "rewards/emotion_reward_func": 0.265625,
-      "rewards/format_reward_func": 0.0,
       "step": 36
     },
     {
-      "completion_length": 99.609375,
       "epoch": 0.04933333333333333,
-      "grad_norm": 11.872902870178223,
-      "kl": 0.045760439708828926,
       "learning_rate": 3.492869726586951e-07,
-      "loss": 0.0,
-      "reward": 0.328125,
-      "reward_std": 0.42430339753627777,
-      "rewards/emotion_reward_func": 0.328125,
-      "rewards/format_reward_func": 0.0,
       "step": 37
     },
     {
-      "completion_length": 108.265625,
       "epoch": 0.050666666666666665,
-      "grad_norm": 6.217259407043457,
-      "kl": 0.04085303423926234,
       "learning_rate": 3.4203113817116953e-07,
-      "loss": 0.0,
-      "reward": 0.625,
-      "reward_std": 0.48296454548835754,
-      "rewards/emotion_reward_func": 0.625,
-      "rewards/format_reward_func": 0.0,
       "step": 38
     },
     {
-      "completion_length": 136.34375,
       "epoch": 0.052,
-      "grad_norm": 3.5724854469299316,
-      "kl": 0.03312604874372482,
       "learning_rate": 3.346844800613229e-07,
-      "loss": 0.0,
-      "reward": 0.125,
-      "reward_std": 0.28694769740104675,
-      "rewards/emotion_reward_func": 0.125,
-      "rewards/format_reward_func": 0.0,
       "step": 39
     },
     {
-      "completion_length": 104.203125,
       "epoch": 0.05333333333333334,
-      "grad_norm": 4.63241720199585,
-      "kl": 0.04127589985728264,
       "learning_rate": 3.272542485937368e-07,
-      "loss": 0.0,
-      "reward": 0.484375,
-      "reward_std": 0.45283491909503937,
-      "rewards/emotion_reward_func": 0.484375,
-      "rewards/format_reward_func": 0.0,
       "step": 40
     },
     {
-      "completion_length": 121.25,
       "epoch": 0.05466666666666667,
-      "grad_norm": 3.7740116119384766,
-      "kl": 0.03728105220943689,
       "learning_rate": 3.1974777650980734e-07,
-      "loss": 0.0,
-      "reward": 0.4375,
-      "reward_std": 0.3221946507692337,
-      "rewards/emotion_reward_func": 0.421875,
-      "rewards/format_reward_func": 0.015625,
       "step": 41
     },
     {
-      "completion_length": 100.125,
       "epoch": 0.056,
-      "grad_norm": 4.631157875061035,
-      "kl": 0.04315151646733284,
       "learning_rate": 3.121724717912138e-07,
-      "loss": 0.0,
-      "reward": 0.46875,
-      "reward_std": 0.3454566150903702,
-      "rewards/emotion_reward_func": 0.46875,
-      "rewards/format_reward_func": 0.0,
       "step": 42
     },
     {
-      "completion_length": 108.109375,
       "epoch": 0.05733333333333333,
-      "grad_norm": 4.478452205657959,
-      "kl": 0.03689518291503191,
       "learning_rate": 3.0453581034913565e-07,
-      "loss": 0.0,
-      "reward": 0.265625,
-      "reward_std": 0.43616947531700134,
-      "rewards/emotion_reward_func": 0.265625,
-      "rewards/format_reward_func": 0.0,
       "step": 43
     },
     {
-      "completion_length": 103.59375,
       "epoch": 0.058666666666666666,
-      "grad_norm": 4.84773063659668,
-      "kl": 0.0415381109341979,
       "learning_rate": 2.968453286464312e-07,
-      "loss": 0.0,
-      "reward": 0.625,
-      "reward_std": 0.42078250646591187,
-      "rewards/emotion_reward_func": 0.625,
-      "rewards/format_reward_func": 0.0,
       "step": 44
     },
     {
-      "completion_length": 114.421875,
       "epoch": 0.06,
-      "grad_norm": 5.1858391761779785,
-      "kl": 0.03836139664053917,
       "learning_rate": 2.8910861626005773e-07,
-      "loss": 0.0,
-      "reward": 0.40625,
-      "reward_std": 0.49500228464603424,
-      "rewards/emotion_reward_func": 0.40625,
-      "rewards/format_reward_func": 0.0,
       "step": 45
     },
     {
-      "completion_length": 108.421875,
       "epoch": 0.06133333333333333,
-      "grad_norm": 5.418513298034668,
-      "kl": 0.03823486668989062,
       "learning_rate": 2.8133330839107604e-07,
-      "loss": 0.0,
-      "reward": 0.4375,
-      "reward_std": 0.49776527285575867,
-      "rewards/emotion_reward_func": 0.4375,
-      "rewards/format_reward_func": 0.0,
       "step": 46
     },
     {
-      "completion_length": 114.15625,
       "epoch": 0.06266666666666666,
-      "grad_norm": 4.45364236831665,
-      "kl": 0.032252665143460035,
       "learning_rate": 2.735270783296286e-07,
-      "loss": 0.0,
-      "reward": 0.3125,
-      "reward_std": 0.43925635516643524,
-      "rewards/emotion_reward_func": 0.3125,
-      "rewards/format_reward_func": 0.0,
       "step": 47
     },
     {
-      "completion_length": 119.5,
       "epoch": 0.064,
-      "grad_norm": 4.792967319488525,
-      "kl": 0.038752755150198936,
       "learning_rate": 2.6569762988232837e-07,
-      "loss": 0.0,
-      "reward": 0.15625,
-      "reward_std": 0.3058478683233261,
-      "rewards/emotion_reward_func": 0.15625,
-      "rewards/format_reward_func": 0.0,
       "step": 48
     },
     {
-      "completion_length": 113.0,
       "epoch": 0.06533333333333333,
-      "grad_norm": 4.534658908843994,
-      "kl": 0.041261011734604836,
       "learning_rate": 2.5785268976953204e-07,
-      "loss": 0.0,
-      "reward": 0.4375,
-      "reward_std": 0.4795328378677368,
-      "rewards/emotion_reward_func": 0.421875,
-      "rewards/format_reward_func": 0.015625,
       "step": 49
     },
     {
-      "completion_length": 94.046875,
       "epoch": 0.06666666666666667,
-      "grad_norm": 5.302418231964111,
-      "kl": 0.04163787979632616,
       "learning_rate": 2.5e-07,
-      "loss": 0.0,
-      "reward": 0.390625,
-      "reward_std": 0.4757782220840454,
-      "rewards/emotion_reward_func": 0.390625,
-      "rewards/format_reward_func": 0.0,
       "step": 50
     }
   ],

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 113.171875,
       "epoch": 0.0013333333333333333,
+      "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 4.998766400914329e-07,
       "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/emotion_reward_func": 0.0,
       "rewards/format_reward_func": 0.0,
       "step": 1
     },
     {
+      "completion_length": 100.609375,
       "epoch": 0.0026666666666666666,
+      "grad_norm": 7.206315517425537,
+      "kl": 0.0,
       "learning_rate": 4.995066821070679e-07,
       "loss": 0.0,
+      "reward": 0.046875,
+      "reward_std": 0.1875,
       "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.03125,
       "step": 2
     },
     {
+      "completion_length": 130.65625,
       "epoch": 0.004,
+      "grad_norm": 7.190981864929199,
+      "kl": 0.0008925930160330608,
       "learning_rate": 4.9889049115077e-07,
       "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.25,
       "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.046875,
       "step": 3
     },
     {
+      "completion_length": 112.484375,
       "epoch": 0.005333333333333333,
+      "grad_norm": 4.745754718780518,
+      "kl": 0.0009372199856443331,
       "learning_rate": 4.980286753286194e-07,
       "loss": 0.0,
+      "reward": 0.046875,
+      "reward_std": 0.1875,
+      "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.03125,
       "step": 4
     },
     {
+      "completion_length": 100.359375,
       "epoch": 0.006666666666666667,
+      "grad_norm": 6.957683086395264,
+      "kl": 0.0009052860696101561,
       "learning_rate": 4.969220851487844e-07,
       "loss": 0.0,
+      "reward": 0.078125,
+      "reward_std": 0.3125,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.046875,
       "step": 5
     },
     {
+      "completion_length": 109.5625,
       "epoch": 0.008,
+      "grad_norm": 8.517982482910156,
+      "kl": 0.0011545967281563208,
       "learning_rate": 4.955718126821722e-07,
       "loss": 0.0,
+      "reward": 0.140625,
+      "reward_std": 0.34228479862213135,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.109375,
       "step": 6
     },
     {
+      "completion_length": 117.484375,
       "epoch": 0.009333333333333334,
+      "grad_norm": 2.9639530181884766,
+      "kl": 0.001261903322301805,
       "learning_rate": 4.939791904846868e-07,
       "loss": 0.0,
       "reward": 0.03125,
       "reward_std": 0.125,
+      "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.015625,
       "step": 7
     },
     {
+      "completion_length": 118.234375,
       "epoch": 0.010666666666666666,
+      "grad_norm": 8.49864387512207,
+      "kl": 0.002180565701564774,
       "learning_rate": 4.921457902821578e-07,
       "loss": 0.0,
+      "reward": 0.140625,
+      "reward_std": 0.4436737596988678,
+      "rewards/emotion_reward_func": 0.046875,
+      "rewards/format_reward_func": 0.09375,
       "step": 8
     },
     {
+      "completion_length": 106.546875,
       "epoch": 0.012,
+      "grad_norm": 7.236983299255371,
+      "kl": 0.0018676594190765172,
       "learning_rate": 4.900734214192358e-07,
       "loss": 0.0,
+      "reward": 0.109375,
+      "reward_std": 0.3186737596988678,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.078125,
       "step": 9
     },
     {
+      "completion_length": 94.640625,
       "epoch": 0.013333333333333334,
+      "grad_norm": 6.612936973571777,
+      "kl": 0.00287746504181996,
       "learning_rate": 4.877641290737883e-07,
       "loss": 0.0,
+      "reward": 0.15625,
+      "reward_std": 0.38375620543956757,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.125,
       "step": 10
     },
     {
+      "completion_length": 78.453125,
       "epoch": 0.014666666666666666,
+      "grad_norm": 6.714486598968506,
+      "kl": 0.0037596136680804193,
       "learning_rate": 4.852201922385564e-07,
       "loss": 0.0,
+      "reward": 0.15625,
+      "reward_std": 0.34297704696655273,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.125,
       "step": 11
     },
     {
+      "completion_length": 113.765625,
       "epoch": 0.016,
+      "grad_norm": 6.222474098205566,
+      "kl": 0.005189417512156069,
       "learning_rate": 4.824441214720628e-07,
       "loss": 0.0,
+      "reward": 0.328125,
+      "reward_std": 0.6560364216566086,
+      "rewards/emotion_reward_func": 0.109375,
+      "rewards/format_reward_func": 0.21875,
       "step": 12
     },
     {
+      "completion_length": 93.890625,
       "epoch": 0.017333333333333333,
+      "grad_norm": 7.199591636657715,
+      "kl": 0.011019598576240242,
       "learning_rate": 4.794386564209952e-07,
       "loss": 0.0,
+      "reward": 0.359375,
+      "reward_std": 0.647876650094986,
+      "rewards/emotion_reward_func": 0.125,
+      "rewards/format_reward_func": 0.234375,
       "step": 13
     },
     {
+      "completion_length": 93.6875,
       "epoch": 0.018666666666666668,
+      "grad_norm": 7.459893226623535,
+      "kl": 0.012794358422979712,
       "learning_rate": 4.762067631165049e-07,
       "loss": 0.0,
+      "reward": 0.28125,
+      "reward_std": 0.4561576098203659,
+      "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.265625,
       "step": 14
     },
     {
+      "completion_length": 114.03125,
       "epoch": 0.02,
+      "grad_norm": 7.204787731170654,
+      "kl": 0.01207199739292264,
       "learning_rate": 4.7275163104709194e-07,
       "loss": 0.0,
+      "reward": 0.421875,
+      "reward_std": 0.6076867878437042,
+      "rewards/emotion_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.359375,
       "step": 15
     },
     {
+      "completion_length": 90.1875,
       "epoch": 0.021333333333333333,
+      "grad_norm": 6.9398369789123535,
+      "kl": 0.012930819648317993,
       "learning_rate": 4.6907667001096585e-07,
       "loss": 0.0,
       "reward": 0.296875,
+      "reward_std": 0.6791985481977463,
+      "rewards/emotion_reward_func": 0.125,
+      "rewards/format_reward_func": 0.171875,
       "step": 16
     },
     {
+      "completion_length": 100.265625,
       "epoch": 0.02266666666666667,
+      "grad_norm": 7.01741361618042,
+      "kl": 0.014807499013841152,
       "learning_rate": 4.6518550675098587e-07,
       "loss": 0.0,
+      "reward": 0.609375,
+      "reward_std": 0.7960269749164581,
+      "rewards/emotion_reward_func": 0.1875,
+      "rewards/format_reward_func": 0.421875,
       "step": 17
     },
     {
+      "completion_length": 101.59375,
       "epoch": 0.024,
+      "grad_norm": 6.980762004852295,
+      "kl": 0.02019192511215806,
       "learning_rate": 4.6108198137550377e-07,
       "loss": 0.0,
+      "reward": 0.53125,
+      "reward_std": 0.6885540634393692,
+      "rewards/emotion_reward_func": 0.125,
+      "rewards/format_reward_func": 0.40625,
       "step": 18
     },
     {
+      "completion_length": 93.859375,
       "epoch": 0.025333333333333333,
+      "grad_norm": 8.390938758850098,
+      "kl": 0.03694334626197815,
       "learning_rate": 4.567701435686404e-07,
       "loss": 0.0,
+      "reward": 0.65625,
+      "reward_std": 0.651764303445816,
       "rewards/emotion_reward_func": 0.125,
+      "rewards/format_reward_func": 0.53125,
       "step": 19
     },
     {
+      "completion_length": 85.546875,
       "epoch": 0.02666666666666667,
+      "grad_norm": 8.39484691619873,
+      "kl": 0.03380461875349283,
       "learning_rate": 4.5225424859373684e-07,
       "loss": 0.0,
+      "reward": 0.765625,
+      "reward_std": 0.7304560542106628,
+      "rewards/emotion_reward_func": 0.203125,
+      "rewards/format_reward_func": 0.5625,
       "step": 20
     },
     {
+      "completion_length": 91.3125,
       "epoch": 0.028,
+      "grad_norm": 6.440164089202881,
+      "kl": 0.04492605570703745,
       "learning_rate": 4.475387530939226e-07,
       "loss": 0.0,
+      "reward": 0.765625,
+      "reward_std": 0.5731314420700073,
+      "rewards/emotion_reward_func": 0.078125,
+      "rewards/format_reward_func": 0.6875,
       "step": 21
     },
     {
+      "completion_length": 91.0625,
       "epoch": 0.029333333333333333,
+      "grad_norm": 6.099334716796875,
+      "kl": 0.040256964042782784,
       "learning_rate": 4.426283106939473e-07,
       "loss": 0.0,
+      "reward": 1.1875,
+      "reward_std": 0.6744011342525482,
+      "rewards/emotion_reward_func": 0.390625,
+      "rewards/format_reward_func": 0.796875,
       "step": 22
     },
     {
+      "completion_length": 79.328125,
       "epoch": 0.030666666666666665,
+      "grad_norm": 7.1284871101379395,
+      "kl": 0.04640346672385931,
       "learning_rate": 4.375277674076149e-07,
       "loss": 0.0,
+      "reward": 1.21875,
+      "reward_std": 0.7463032901287079,
       "rewards/emotion_reward_func": 0.4375,
+      "rewards/format_reward_func": 0.78125,
       "step": 23
     },
     {
+      "completion_length": 71.84375,
       "epoch": 0.032,
+      "grad_norm": 6.066468715667725,
+      "kl": 0.07137730903923512,
       "learning_rate": 4.3224215685535287e-07,
+      "loss": 0.0001,
+      "reward": 1.328125,
+      "reward_std": 0.8113406747579575,
+      "rewards/emotion_reward_func": 0.546875,
+      "rewards/format_reward_func": 0.78125,
       "step": 24
     },
     {
+      "completion_length": 101.0625,
       "epoch": 0.03333333333333333,
+      "grad_norm": 5.047848224639893,
+      "kl": 0.0665823919698596,
       "learning_rate": 4.2677669529663686e-07,
+      "loss": 0.0001,
+      "reward": 0.828125,
+      "reward_std": 0.5247472077608109,
+      "rewards/emotion_reward_func": 0.078125,
+      "rewards/format_reward_func": 0.75,
       "step": 25
     },
     {
+      "completion_length": 68.1875,
       "epoch": 0.034666666666666665,
+      "grad_norm": 6.7862958908081055,
+      "kl": 0.07357331551611423,
       "learning_rate": 4.2113677648217216e-07,
+      "loss": 0.0001,
+      "reward": 1.515625,
+      "reward_std": 0.7178780436515808,
+      "rewards/emotion_reward_func": 0.671875,
+      "rewards/format_reward_func": 0.84375,
       "step": 26
     },
     {
+      "completion_length": 73.5625,
       "epoch": 0.036,
+      "grad_norm": 6.041502475738525,
+      "kl": 0.0839837146922946,
       "learning_rate": 4.1532796633091294e-07,
+      "loss": 0.0001,
+      "reward": 1.0,
+      "reward_std": 0.5787727609276772,
+      "rewards/emotion_reward_func": 0.1875,
+      "rewards/format_reward_func": 0.8125,
       "step": 27
     },
     {
+      "completion_length": 75.515625,
       "epoch": 0.037333333333333336,
+      "grad_norm": 5.880768299102783,
+      "kl": 0.07887133583426476,
       "learning_rate": 4.0935599743717244e-07,
+      "loss": 0.0001,
+      "reward": 1.265625,
+      "reward_std": 0.6387931928038597,
+      "rewards/emotion_reward_func": 0.390625,
+      "rewards/format_reward_func": 0.875,
       "step": 28
     },
     {
+      "completion_length": 84.65625,
       "epoch": 0.03866666666666667,
+      "grad_norm": 4.456689357757568,
+      "kl": 0.05541729833930731,
       "learning_rate": 4.0322676341324414e-07,
+      "loss": 0.0001,
+      "reward": 1.546875,
+      "reward_std": 0.6021395623683929,
+      "rewards/emotion_reward_func": 0.6875,
+      "rewards/format_reward_func": 0.859375,
       "step": 29
     },
     {
+      "completion_length": 72.03125,
       "epoch": 0.04,
+      "grad_norm": 6.281215667724609,
+      "kl": 0.07642886973917484,
       "learning_rate": 3.9694631307311825e-07,
+      "loss": 0.0001,
+      "reward": 1.421875,
+      "reward_std": 0.6625982969999313,
+      "rewards/emotion_reward_func": 0.515625,
+      "rewards/format_reward_func": 0.90625,
       "step": 30
     },
     {
+      "completion_length": 64.96875,
       "epoch": 0.04133333333333333,
+      "grad_norm": 6.267475128173828,
+      "kl": 0.07545926049351692,
       "learning_rate": 3.9052084446303265e-07,
+      "loss": 0.0001,
+      "reward": 1.28125,
+      "reward_std": 0.5209204778075218,
+      "rewards/emotion_reward_func": 0.34375,
+      "rewards/format_reward_func": 0.9375,
       "step": 31
     },
     {
+      "completion_length": 74.28125,
       "epoch": 0.042666666666666665,
+      "grad_norm": 6.10364294052124,
+      "kl": 0.08546704892069101,
       "learning_rate": 3.839566987447491e-07,
+      "loss": 0.0001,
+      "reward": 1.59375,
+      "reward_std": 0.7168828397989273,
+      "rewards/emotion_reward_func": 0.71875,
+      "rewards/format_reward_func": 0.875,
       "step": 32
     },
     {
+      "completion_length": 70.03125,
       "epoch": 0.044,
+      "grad_norm": 4.039772033691406,
+      "kl": 0.06002845522016287,
       "learning_rate": 3.7726035393759283e-07,
+      "loss": 0.0001,
+      "reward": 1.3125,
+      "reward_std": 0.2808031141757965,
+      "rewards/emotion_reward_func": 0.390625,
+      "rewards/format_reward_func": 0.921875,
       "step": 33
     },
     {
+      "completion_length": 83.109375,
       "epoch": 0.04533333333333334,
+      "grad_norm": 6.683216094970703,
+      "kl": 0.0706396009773016,
       "learning_rate": 3.704384185254288e-07,
+      "loss": 0.0001,
+      "reward": 1.421875,
+      "reward_std": 0.7211004346609116,
+      "rewards/emotion_reward_func": 0.578125,
+      "rewards/format_reward_func": 0.84375,
       "step": 34
     },
     {
+      "completion_length": 72.765625,
       "epoch": 0.04666666666666667,
+      "grad_norm": 6.402747631072998,
+      "kl": 0.10811681114137173,
       "learning_rate": 3.634976249348867e-07,
+      "loss": 0.0001,
+      "reward": 1.28125,
+      "reward_std": 0.5904398858547211,
+      "rewards/emotion_reward_func": 0.375,
+      "rewards/format_reward_func": 0.90625,
       "step": 35
     },
     {
+      "completion_length": 78.734375,
       "epoch": 0.048,
+      "grad_norm": 5.202386856079102,
+      "kl": 0.07850308250635862,
       "learning_rate": 3.5644482289126813e-07,
+      "loss": 0.0001,
+      "reward": 1.09375,
+      "reward_std": 0.5113069340586662,
+      "rewards/emotion_reward_func": 0.203125,
+      "rewards/format_reward_func": 0.890625,
       "step": 36
     },
     {
+      "completion_length": 68.953125,
       "epoch": 0.04933333333333333,
+      "grad_norm": 7.1071085929870605,
+      "kl": 0.08383779786527157,
       "learning_rate": 3.492869726586951e-07,
+      "loss": 0.0001,
+      "reward": 1.1875,
+      "reward_std": 0.4691474586725235,
+      "rewards/emotion_reward_func": 0.21875,
+      "rewards/format_reward_func": 0.96875,
       "step": 37
     },
     {
+      "completion_length": 65.734375,
       "epoch": 0.050666666666666665,
+      "grad_norm": 6.272955417633057,
+      "kl": 0.06441066134721041,
       "learning_rate": 3.4203113817116953e-07,
+      "loss": 0.0001,
+      "reward": 1.75,
+      "reward_std": 0.41095855832099915,
+      "rewards/emotion_reward_func": 0.765625,
+      "rewards/format_reward_func": 0.984375,
       "step": 38
     },
     {
+      "completion_length": 69.9375,
       "epoch": 0.052,
+      "grad_norm": 3.7793548107147217,
+      "kl": 0.06628133170306683,
       "learning_rate": 3.346844800613229e-07,
+      "loss": 0.0001,
+      "reward": 1.078125,
+      "reward_std": 0.21347813308238983,
+      "rewards/emotion_reward_func": 0.109375,
+      "rewards/format_reward_func": 0.96875,
       "step": 39
     },
     {
+      "completion_length": 64.34375,
       "epoch": 0.05333333333333334,
+      "grad_norm": 6.500398635864258,
+      "kl": 0.06995576526969671,
       "learning_rate": 3.272542485937368e-07,
+      "loss": 0.0001,
+      "reward": 1.546875,
+      "reward_std": 0.47020626068115234,
+      "rewards/emotion_reward_func": 0.5625,
+      "rewards/format_reward_func": 0.984375,
       "step": 40
     },
     {
+      "completion_length": 73.375,
       "epoch": 0.05466666666666667,
+      "grad_norm": 4.637302875518799,
+      "kl": 0.06445631105452776,
       "learning_rate": 3.1974777650980734e-07,
+      "loss": 0.0001,
+      "reward": 1.578125,
+      "reward_std": 0.38923946768045425,
+      "rewards/emotion_reward_func": 0.609375,
+      "rewards/format_reward_func": 0.96875,
       "step": 41
     },
     {
+      "completion_length": 69.875,
       "epoch": 0.056,
+      "grad_norm": 5.5001220703125,
+      "kl": 0.06374164298176765,
       "learning_rate": 3.121724717912138e-07,
+      "loss": 0.0001,
+      "reward": 1.671875,
+      "reward_std": 0.18616947531700134,
+      "rewards/emotion_reward_func": 0.671875,
+      "rewards/format_reward_func": 1.0,
       "step": 42
     },
     {
+      "completion_length": 65.75,
       "epoch": 0.05733333333333333,
+      "grad_norm": 5.561408996582031,
+      "kl": 0.11185399815440178,
       "learning_rate": 3.0453581034913565e-07,
+      "loss": 0.0001,
+      "reward": 1.125,
+      "reward_std": 0.4263191595673561,
+      "rewards/emotion_reward_func": 0.1875,
+      "rewards/format_reward_func": 0.9375,
       "step": 43
     },
     {
+      "completion_length": 57.59375,
       "epoch": 0.058666666666666666,
+      "grad_norm": 6.903532028198242,
+      "kl": 0.08089348301291466,
       "learning_rate": 2.968453286464312e-07,
+      "loss": 0.0001,
+      "reward": 1.75,
+      "reward_std": 0.3838024437427521,
+      "rewards/emotion_reward_func": 0.765625,
+      "rewards/format_reward_func": 0.984375,
       "step": 44
     },
     {
+      "completion_length": 81.0625,
       "epoch": 0.06,
+      "grad_norm": 5.9377288818359375,
+      "kl": 0.06169276125729084,
       "learning_rate": 2.8910861626005773e-07,
+      "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.5583916157484055,
+      "rewards/emotion_reward_func": 0.421875,
+      "rewards/format_reward_func": 0.953125,
       "step": 45
     },
     {
+      "completion_length": 64.09375,
       "epoch": 0.06133333333333333,
+      "grad_norm": 6.421321392059326,
+      "kl": 0.08067317306995392,
       "learning_rate": 2.8133330839107604e-07,
+      "loss": 0.0001,
+      "reward": 1.484375,
+      "reward_std": 0.6873095482587814,
+      "rewards/emotion_reward_func": 0.59375,
+      "rewards/format_reward_func": 0.890625,
       "step": 46
     },
     {
+      "completion_length": 65.859375,
       "epoch": 0.06266666666666666,
+      "grad_norm": 5.465454578399658,
+      "kl": 0.08742601610720158,
       "learning_rate": 2.735270783296286e-07,
+      "loss": 0.0001,
+      "reward": 1.421875,
+      "reward_std": 0.37412673234939575,
+      "rewards/emotion_reward_func": 0.4375,
+      "rewards/format_reward_func": 0.984375,
       "step": 47
     },
     {
+      "completion_length": 61.734375,
       "epoch": 0.064,
+      "grad_norm": 6.597202777862549,
+      "kl": 0.09020566754043102,
       "learning_rate": 2.6569762988232837e-07,
+      "loss": 0.0001,
+      "reward": 1.203125,
+      "reward_std": 0.4003961533308029,
+      "rewards/emotion_reward_func": 0.265625,
+      "rewards/format_reward_func": 0.9375,
       "step": 48
     },
     {
+      "completion_length": 63.21875,
       "epoch": 0.06533333333333333,
+      "grad_norm": 5.847234725952148,
+      "kl": 0.09095379617065191,
       "learning_rate": 2.5785268976953204e-07,
+      "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.3876233473420143,
+      "rewards/emotion_reward_func": 0.390625,
+      "rewards/format_reward_func": 0.984375,
       "step": 49
     },
     {
+      "completion_length": 59.890625,
       "epoch": 0.06666666666666667,
+      "grad_norm": 7.6002936363220215,
+      "kl": 0.08561510033905506,
       "learning_rate": 2.5e-07,
+      "loss": 0.0001,
+      "reward": 1.25,
+      "reward_std": 0.3925696462392807,
+      "rewards/emotion_reward_func": 0.28125,
+      "rewards/format_reward_func": 0.96875,
       "step": 50
     }
   ],