Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

checkpoint-100/model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/rng_state_0.pth +1 -1
checkpoint-100/rng_state_1.pth +2 -2
checkpoint-100/rng_state_2.pth +2 -2
checkpoint-100/rng_state_3.pth +1 -1
checkpoint-100/trainer_state.json +711 -711
checkpoint-100/training_args.bin +2 -2

checkpoint-100/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d46bbda891252d1bc7d7b207072338c59dd511f23a0bb1a77a233dd55bf64bc3
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad242d2f09d0c8055654d9bf3cc76ef68efe210b059d9b41e2e0bb07f5607f65
 size 1976163472

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e61137fa392006841b3c9d3b0075e477b2bfd4da9800e8738d48e950a612ad64
 size 3952505274

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d18f3ee815fe1b06aa8c6b95f73354f741c1d7cb3d51e6010f8769c80ec5b6a
 size 3952505274

checkpoint-100/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8016113faecd368858eb6ebc4fcb61a9f1956107a452dada8e98bfda76288f6
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae69984fdd13c24018ecb1aa802b54afa3ca3e6a5ff1a82b51b4de545f616c19
 size 15024

checkpoint-100/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:974125c47b4b1edfbbcd3caeae8511abb215ef1494e888b05e7fde18c3ed08ed
-size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:cba81e50fb33c36c59d80bf8793f39dc24433a2190b46f8d2803c7db580c7ef5
+size 14960

checkpoint-100/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ac54bed7d9d2e9cb07f31f09406c3bf48fced29450844d31d747045d9f2f6ea
-size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f63266ab578a5d64086913db0f644de0a295ba0be0b8d58ecad8228d9505d57
+size 14960

checkpoint-100/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:817aecd630d55ef1ec1da71dbd2daae7b12d4db119f38d05d48fdc7f0cb7134f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:701c2a23e45bbff29fa1f6df5af29dcc2cdb24bd86078096f4fb5abd74ce9d23
 size 15024

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -9,7 +9,7 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 25.8125,
       "epoch": 0.0013333333333333333,
       "grad_norm": 0.0,
       "kl": 0.0,
@@ -22,1290 +22,1290 @@
       "step": 1
     },
     {
-      "completion_length": 45.0,
       "epoch": 0.0026666666666666666,
-      "grad_norm": 9.964546203613281,
       "kl": 0.0,
       "learning_rate": 4.995066821070679e-07,
-      "loss": -0.0,
-      "reward": 0.0625,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 2
     },
     {
-      "completion_length": 38.9375,
       "epoch": 0.004,
-      "grad_norm": 0.002867324510589242,
-      "kl": 0.0005742026260122657,
       "learning_rate": 4.9889049115077e-07,
       "loss": 0.0,
-      "reward": 0.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0,
       "step": 3
     },
     {
-      "completion_length": 27.4375,
       "epoch": 0.005333333333333333,
-      "grad_norm": 0.006247804034501314,
-      "kl": 0.0010731846559792757,
       "learning_rate": 4.980286753286194e-07,
       "loss": 0.0,
-      "reward": 0.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0,
       "step": 4
     },
     {
-      "completion_length": 47.125,
       "epoch": 0.006666666666666667,
-      "grad_norm": 4.878363132476807,
-      "kl": 0.0029146450106054544,
       "learning_rate": 4.969220851487844e-07,
       "loss": 0.0,
-      "reward": 0.0625,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 5
     },
     {
-      "completion_length": 48.3125,
       "epoch": 0.008,
-      "grad_norm": 0.011296601966023445,
-      "kl": 0.0013835413847118616,
       "learning_rate": 4.955718126821722e-07,
       "loss": 0.0,
-      "reward": 0.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0,
       "step": 6
     },
     {
-      "completion_length": 64.5625,
       "epoch": 0.009333333333333334,
-      "grad_norm": 9.235820770263672,
-      "kl": 0.0008675489807501435,
       "learning_rate": 4.939791904846868e-07,
       "loss": 0.0,
-      "reward": 0.0625,
       "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 7
     },
     {
-      "completion_length": 40.6875,
       "epoch": 0.010666666666666666,
-      "grad_norm": 0.01409083604812622,
-      "kl": 0.002122239675372839,
       "learning_rate": 4.921457902821578e-07,
       "loss": 0.0,
-      "reward": 0.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0,
       "step": 8
     },
     {
-      "completion_length": 55.0,
       "epoch": 0.012,
-      "grad_norm": 12.573073387145996,
-      "kl": 0.006520974449813366,
       "learning_rate": 4.900734214192358e-07,
       "loss": 0.0,
-      "reward": 0.0625,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 9
     },
     {
-      "completion_length": 83.875,
       "epoch": 0.013333333333333334,
-      "grad_norm": 6.103325843811035,
-      "kl": 0.003683926770463586,
       "learning_rate": 4.877641290737883e-07,
       "loss": 0.0,
-      "reward": 0.0625,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 10
     },
     {
-      "completion_length": 47.125,
       "epoch": 0.014666666666666666,
-      "grad_norm": 6.05898380279541,
-      "kl": 0.010808728635311127,
       "learning_rate": 4.852201922385564e-07,
       "loss": 0.0,
-      "reward": 0.0625,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 11
     },
     {
-      "completion_length": 52.75,
       "epoch": 0.016,
-      "grad_norm": 10.170279502868652,
-      "kl": 0.017805274575948715,
       "learning_rate": 4.824441214720628e-07,
       "loss": 0.0,
-      "reward": 0.0625,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 12
     },
     {
-      "completion_length": 86.5,
       "epoch": 0.017333333333333333,
-      "grad_norm": 3.2019193172454834,
-      "kl": 0.00332952244207263,
       "learning_rate": 4.794386564209952e-07,
       "loss": 0.0,
-      "reward": 0.0625,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 13
     },
     {
-      "completion_length": 69.3125,
       "epoch": 0.018666666666666668,
-      "grad_norm": 11.347992897033691,
-      "kl": 0.015205658972263336,
       "learning_rate": 4.762067631165049e-07,
       "loss": 0.0,
-      "reward": 0.0625,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 14
     },
     {
-      "completion_length": 91.6875,
       "epoch": 0.02,
-      "grad_norm": 6.206334114074707,
-      "kl": 0.0514555498957634,
       "learning_rate": 4.7275163104709194e-07,
-      "loss": 0.0001,
-      "reward": 0.0625,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.0625,
       "step": 15
     },
     {
-      "completion_length": 123.125,
       "epoch": 0.021333333333333333,
-      "grad_norm": 9.800585746765137,
-      "kl": 0.0126947071403265,
       "learning_rate": 4.6907667001096585e-07,
       "loss": 0.0,
-      "reward": 0.125,
-      "reward_std": 0.25,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.125,
       "step": 16
     },
     {
-      "completion_length": 110.625,
       "epoch": 0.02266666666666667,
-      "grad_norm": 8.219995498657227,
-      "kl": 0.037900131195783615,
       "learning_rate": 4.6518550675098587e-07,
       "loss": 0.0,
-      "reward": 0.125,
-      "reward_std": 0.25,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.125,
       "step": 17
     },
     {
-      "completion_length": 102.5625,
       "epoch": 0.024,
-      "grad_norm": 5.030233383178711,
-      "kl": 0.015008080750703812,
       "learning_rate": 4.6108198137550377e-07,
       "loss": 0.0,
-      "reward": 0.125,
-      "reward_std": 0.14433756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.125,
       "step": 18
     },
     {
-      "completion_length": 88.25,
       "epoch": 0.025333333333333333,
-      "grad_norm": 3.730710029602051,
-      "kl": 0.04922018200159073,
       "learning_rate": 4.567701435686404e-07,
       "loss": 0.0,
-      "reward": 0.03125,
-      "reward_std": 0.0625,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.03125,
       "step": 19
     },
     {
-      "completion_length": 120.0625,
       "epoch": 0.02666666666666667,
-      "grad_norm": 8.545513153076172,
-      "kl": 0.0323660746216774,
       "learning_rate": 4.5225424859373684e-07,
       "loss": 0.0,
-      "reward": 0.25,
-      "reward_std": 0.39433756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.25,
       "step": 20
     },
     {
-      "completion_length": 133.875,
       "epoch": 0.028,
-      "grad_norm": 7.563712120056152,
-      "kl": 0.032230477780103683,
       "learning_rate": 4.475387530939226e-07,
       "loss": 0.0,
-      "reward": 0.25,
-      "reward_std": 0.25,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.25,
       "step": 21
     },
     {
-      "completion_length": 109.4375,
       "epoch": 0.029333333333333333,
-      "grad_norm": 13.283954620361328,
-      "kl": 0.036050185561180115,
       "learning_rate": 4.426283106939473e-07,
       "loss": 0.0,
-      "reward": 0.3125,
-      "reward_std": 0.41367512941360474,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.3125,
       "step": 22
     },
     {
-      "completion_length": 139.0,
       "epoch": 0.030666666666666665,
-      "grad_norm": 8.06175422668457,
-      "kl": 0.01777772419154644,
       "learning_rate": 4.375277674076149e-07,
       "loss": 0.0,
-      "reward": 0.3125,
-      "reward_std": 0.41367512941360474,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.3125,
       "step": 23
     },
     {
-      "completion_length": 130.5,
       "epoch": 0.032,
-      "grad_norm": 10.465758323669434,
-      "kl": 0.028637699782848358,
       "learning_rate": 4.3224215685535287e-07,
-      "loss": 0.0,
-      "reward": 0.46875,
-      "reward_std": 0.3696783781051636,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.46875,
       "step": 24
     },
     {
-      "completion_length": 180.6875,
       "epoch": 0.03333333333333333,
-      "grad_norm": 9.501301765441895,
-      "kl": 0.02521451562643051,
       "learning_rate": 4.2677669529663686e-07,
-      "loss": 0.0,
-      "reward": 0.3125,
-      "reward_std": 0.51933753490448,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.3125,
       "step": 25
     },
     {
-      "completion_length": 158.6875,
       "epoch": 0.034666666666666665,
-      "grad_norm": 10.960349082946777,
-      "kl": 0.0829106867313385,
       "learning_rate": 4.2113677648217216e-07,
       "loss": 0.0001,
-      "reward": 0.25,
-      "reward_std": 0.28867512941360474,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.25,
       "step": 26
     },
     {
-      "completion_length": 138.25,
       "epoch": 0.036,
-      "grad_norm": 7.017608165740967,
-      "kl": 0.02953716553747654,
       "learning_rate": 4.1532796633091294e-07,
-      "loss": 0.0,
-      "reward": 0.5,
-      "reward_std": 0.39433756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.5,
       "step": 27
     },
     {
-      "completion_length": 112.125,
       "epoch": 0.037333333333333336,
-      "grad_norm": 9.538881301879883,
-      "kl": 0.06156347692012787,
       "learning_rate": 4.0935599743717244e-07,
       "loss": 0.0001,
-      "reward": 0.625,
-      "reward_std": 0.5,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.625,
       "step": 28
     },
     {
-      "completion_length": 151.25,
       "epoch": 0.03866666666666667,
-      "grad_norm": 10.00710678100586,
-      "kl": 0.027312466874718666,
       "learning_rate": 4.0322676341324414e-07,
-      "loss": 0.0,
-      "reward": 0.4375,
-      "reward_std": 0.51933753490448,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.4375,
       "step": 29
     },
     {
-      "completion_length": 160.1875,
       "epoch": 0.04,
-      "grad_norm": 10.74777603149414,
-      "kl": 0.04307672381401062,
       "learning_rate": 3.9694631307311825e-07,
-      "loss": 0.0,
-      "reward": 0.25,
-      "reward_std": 0.5,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.25,
       "step": 30
     },
     {
-      "completion_length": 141.0625,
       "epoch": 0.04133333333333333,
-      "grad_norm": 11.85556697845459,
-      "kl": 0.05974256619811058,
       "learning_rate": 3.9052084446303265e-07,
       "loss": 0.0001,
-      "reward": 0.40625,
-      "reward_std": 0.4946783781051636,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.40625,
       "step": 31
     },
     {
-      "completion_length": 153.875,
       "epoch": 0.042666666666666665,
-      "grad_norm": 8.729798316955566,
-      "kl": 0.042332496494054794,
       "learning_rate": 3.839566987447491e-07,
-      "loss": 0.0,
-      "reward": 0.4375,
-      "reward_std": 0.5580127239227295,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.4375,
       "step": 32
     },
     {
-      "completion_length": 118.25,
       "epoch": 0.044,
-      "grad_norm": 6.3447585105896,
-      "kl": 0.07207943499088287,
       "learning_rate": 3.7726035393759283e-07,
       "loss": 0.0001,
-      "reward": 0.8125,
-      "reward_std": 0.26933756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.8125,
       "step": 33
     },
     {
-      "completion_length": 112.5,
       "epoch": 0.04533333333333334,
-      "grad_norm": 6.1037797927856445,
-      "kl": 0.09316730499267578,
       "learning_rate": 3.704384185254288e-07,
       "loss": 0.0001,
-      "reward": 0.8125,
-      "reward_std": 0.26933756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.8125,
       "step": 34
     },
     {
-      "completion_length": 139.8125,
       "epoch": 0.04666666666666667,
-      "grad_norm": 7.664778232574463,
-      "kl": 0.0723225474357605,
       "learning_rate": 3.634976249348867e-07,
       "loss": 0.0001,
-      "reward": 0.78125,
-      "reward_std": 0.3696783781051636,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.78125,
       "step": 35
     },
     {
-      "completion_length": 112.375,
       "epoch": 0.048,
-      "grad_norm": 9.651317596435547,
-      "kl": 0.09862169623374939,
       "learning_rate": 3.5644482289126813e-07,
       "loss": 0.0001,
-      "reward": 0.5625,
-      "reward_std": 0.51933753490448,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.5625,
       "step": 36
     },
     {
-      "completion_length": 108.9375,
       "epoch": 0.04933333333333333,
-      "grad_norm": 8.387043952941895,
-      "kl": 0.10006917268037796,
       "learning_rate": 3.492869726586951e-07,
       "loss": 0.0001,
-      "reward": 0.8125,
-      "reward_std": 0.375,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.8125,
       "step": 37
     },
     {
-      "completion_length": 122.0,
       "epoch": 0.050666666666666665,
-      "grad_norm": 8.030802726745605,
-      "kl": 0.13344745337963104,
       "learning_rate": 3.4203113817116953e-07,
       "loss": 0.0001,
-      "reward": 0.8125,
-      "reward_std": 0.375,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.8125,
       "step": 38
     },
     {
-      "completion_length": 171.8125,
       "epoch": 0.052,
-      "grad_norm": 68.77984619140625,
-      "kl": 0.05845522880554199,
       "learning_rate": 3.346844800613229e-07,
       "loss": 0.0001,
-      "reward": 0.6875,
-      "reward_std": 0.48935678601264954,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.6875,
       "step": 39
     },
     {
-      "completion_length": 109.4375,
       "epoch": 0.05333333333333334,
-      "grad_norm": 7.004795551300049,
-      "kl": 0.07453721761703491,
       "learning_rate": 3.272542485937368e-07,
       "loss": 0.0001,
-      "reward": 0.90625,
-      "reward_std": 0.1875,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.90625,
       "step": 40
     },
     {
-      "completion_length": 129.75,
       "epoch": 0.05466666666666667,
-      "grad_norm": 7.910297393798828,
-      "kl": 0.09665161371231079,
       "learning_rate": 3.1974777650980734e-07,
       "loss": 0.0001,
-      "reward": 0.75,
-      "reward_std": 0.36435678601264954,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.75,
       "step": 41
     },
     {
-      "completion_length": 138.6875,
       "epoch": 0.056,
-      "grad_norm": 6.366047382354736,
-      "kl": 0.06816712021827698,
       "learning_rate": 3.121724717912138e-07,
       "loss": 0.0001,
-      "reward": 0.875,
-      "reward_std": 0.18217839300632477,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.875,
       "step": 42
     },
     {
-      "completion_length": 163.4375,
       "epoch": 0.05733333333333333,
-      "grad_norm": 9.733158111572266,
-      "kl": 0.07456796616315842,
       "learning_rate": 3.0453581034913565e-07,
       "loss": 0.0001,
-      "reward": 0.75,
-      "reward_std": 0.39433756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.75,
       "step": 43
     },
     {
-      "completion_length": 149.375,
       "epoch": 0.058666666666666666,
-      "grad_norm": 7.283127784729004,
-      "kl": 0.10417325794696808,
       "learning_rate": 2.968453286464312e-07,
       "loss": 0.0001,
-      "reward": 0.8125,
-      "reward_std": 0.375,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.8125,
       "step": 44
     },
     {
-      "completion_length": 151.8125,
       "epoch": 0.06,
-      "grad_norm": 8.65285873413086,
-      "kl": 0.08351579308509827,
       "learning_rate": 2.8910861626005773e-07,
       "loss": 0.0001,
-      "reward": 0.71875,
-      "reward_std": 0.45683756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.71875,
       "step": 45
     },
     {
-      "completion_length": 122.1875,
       "epoch": 0.06133333333333333,
-      "grad_norm": 6.481723308563232,
-      "kl": 0.0788784921169281,
       "learning_rate": 2.8133330839107604e-07,
       "loss": 0.0001,
-      "reward": 0.84375,
-      "reward_std": 0.24467839300632477,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.84375,
       "step": 46
     },
     {
-      "completion_length": 177.125,
       "epoch": 0.06266666666666666,
-      "grad_norm": 6.107300281524658,
-      "kl": 0.10843782126903534,
       "learning_rate": 2.735270783296286e-07,
       "loss": 0.0001,
-      "reward": 0.84375,
-      "reward_std": 0.24467839300632477,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.84375,
       "step": 47
     },
     {
-      "completion_length": 115.875,
       "epoch": 0.064,
-      "grad_norm": 5.656793117523193,
-      "kl": 0.11855285614728928,
       "learning_rate": 2.6569762988232837e-07,
       "loss": 0.0001,
-      "reward": 0.90625,
-      "reward_std": 0.1875,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.90625,
       "step": 48
     },
     {
-      "completion_length": 137.6875,
       "epoch": 0.06533333333333333,
-      "grad_norm": 7.453767776489258,
-      "kl": 0.10749398171901703,
       "learning_rate": 2.5785268976953204e-07,
       "loss": 0.0001,
-      "reward": 0.90625,
-      "reward_std": 0.1875,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.90625,
       "step": 49
     },
     {
-      "completion_length": 117.375,
       "epoch": 0.06666666666666667,
-      "grad_norm": 6.2615861892700195,
-      "kl": 0.09339688718318939,
       "learning_rate": 2.5e-07,
       "loss": 0.0001,
-      "reward": 0.8125,
-      "reward_std": 0.26933756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.8125,
       "step": 50
     },
     {
-      "completion_length": 120.625,
       "epoch": 0.068,
-      "grad_norm": 7.3459577560424805,
-      "kl": 0.08987420052289963,
       "learning_rate": 2.4214731023046794e-07,
       "loss": 0.0001,
-      "reward": 0.84375,
-      "reward_std": 0.3125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.84375,
       "step": 51
     },
     {
-      "completion_length": 130.4375,
       "epoch": 0.06933333333333333,
-      "grad_norm": 7.253162384033203,
-      "kl": 0.0824127197265625,
       "learning_rate": 2.3430237011767164e-07,
       "loss": 0.0001,
-      "reward": 0.8125,
-      "reward_std": 0.26933756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.8125,
       "step": 52
     },
     {
-      "completion_length": 102.875,
       "epoch": 0.07066666666666667,
-      "grad_norm": 7.457027435302734,
-      "kl": 0.08334946632385254,
       "learning_rate": 2.264729216703714e-07,
       "loss": 0.0001,
-      "reward": 0.875,
-      "reward_std": 0.25,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.875,
       "step": 53
     },
     {
-      "completion_length": 127.75,
       "epoch": 0.072,
-      "grad_norm": 0.01185312308371067,
-      "kl": 0.094039186835289,
       "learning_rate": 2.1866669160892389e-07,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 54
     },
     {
-      "completion_length": 86.5,
       "epoch": 0.07333333333333333,
-      "grad_norm": 11.868236541748047,
-      "kl": 0.22406581044197083,
       "learning_rate": 2.1089138373994222e-07,
-      "loss": 0.0002,
-      "reward": 0.84375,
-      "reward_std": 0.3125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.84375,
       "step": 55
     },
     {
-      "completion_length": 105.0625,
       "epoch": 0.07466666666666667,
-      "grad_norm": 3.1902968883514404,
-      "kl": 0.10381343960762024,
       "learning_rate": 2.0315467135356878e-07,
       "loss": 0.0001,
-      "reward": 0.96875,
-      "reward_std": 0.0625,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.96875,
       "step": 56
     },
     {
-      "completion_length": 77.8125,
       "epoch": 0.076,
-      "grad_norm": 0.04087565839290619,
-      "kl": 0.17592526972293854,
       "learning_rate": 1.954641896508644e-07,
-      "loss": 0.0002,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 57
     },
     {
-      "completion_length": 114.5,
       "epoch": 0.07733333333333334,
-      "grad_norm": 4.14316463470459,
-      "kl": 0.09431131184101105,
       "learning_rate": 1.8782752820878633e-07,
-      "loss": 0.0001,
-      "reward": 0.875,
-      "reward_std": 0.14433756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.875,
       "step": 58
     },
     {
-      "completion_length": 99.25,
       "epoch": 0.07866666666666666,
-      "grad_norm": 12.474014282226562,
-      "kl": 0.16972073912620544,
       "learning_rate": 1.802522234901927e-07,
       "loss": 0.0002,
-      "reward": 0.6875,
-      "reward_std": 0.41367512941360474,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.6875,
       "step": 59
     },
     {
-      "completion_length": 114.6875,
       "epoch": 0.08,
-      "grad_norm": 0.014834249392151833,
-      "kl": 0.11283782124519348,
       "learning_rate": 1.7274575140626315e-07,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 60
     },
     {
-      "completion_length": 107.6875,
       "epoch": 0.08133333333333333,
-      "grad_norm": 11.97496509552002,
-      "kl": 0.2880978286266327,
       "learning_rate": 1.6531551993867715e-07,
-      "loss": 0.0003,
-      "reward": 0.84375,
-      "reward_std": 0.3125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.84375,
       "step": 61
     },
     {
-      "completion_length": 115.3125,
       "epoch": 0.08266666666666667,
-      "grad_norm": 0.06830989569425583,
-      "kl": 0.12032976001501083,
       "learning_rate": 1.579688618288305e-07,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
       "rewards/format_reward_func": 1.0,
       "step": 62
     },
     {
-      "completion_length": 109.9375,
       "epoch": 0.084,
-      "grad_norm": 12.59013557434082,
-      "kl": 0.16462820768356323,
       "learning_rate": 1.5071302734130486e-07,
-      "loss": 0.0002,
-      "reward": 0.875,
-      "reward_std": 0.25,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.875,
       "step": 63
     },
     {
-      "completion_length": 112.6875,
       "epoch": 0.08533333333333333,
-      "grad_norm": 0.011938858777284622,
-      "kl": 0.105996273458004,
       "learning_rate": 1.4355517710873182e-07,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 64
     },
     {
-      "completion_length": 113.3125,
       "epoch": 0.08666666666666667,
-      "grad_norm": 3.5281906127929688,
-      "kl": 0.11741024255752563,
       "learning_rate": 1.365023750651133e-07,
       "loss": 0.0001,
-      "reward": 0.96875,
-      "reward_std": 0.0625,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.96875,
       "step": 65
     },
     {
-      "completion_length": 115.375,
       "epoch": 0.088,
-      "grad_norm": 5.508726596832275,
-      "kl": 0.11176759004592896,
       "learning_rate": 1.2956158147457114e-07,
       "loss": 0.0001,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 66
     },
     {
-      "completion_length": 118.75,
       "epoch": 0.08933333333333333,
-      "grad_norm": 6.57678747177124,
-      "kl": 0.12585385143756866,
       "learning_rate": 1.2273964606240718e-07,
       "loss": 0.0001,
-      "reward": 0.90625,
-      "reward_std": 0.1875,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.90625,
       "step": 67
     },
     {
-      "completion_length": 128.8125,
       "epoch": 0.09066666666666667,
-      "grad_norm": 0.012199473567306995,
-      "kl": 0.1194550171494484,
       "learning_rate": 1.1604330125525078e-07,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 68
     },
     {
-      "completion_length": 102.75,
       "epoch": 0.092,
-      "grad_norm": 6.777124881744385,
-      "kl": 0.14668866991996765,
       "learning_rate": 1.0947915553696741e-07,
       "loss": 0.0001,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 69
     },
     {
-      "completion_length": 96.25,
       "epoch": 0.09333333333333334,
-      "grad_norm": 6.230812072753906,
-      "kl": 0.1095753163099289,
       "learning_rate": 1.0305368692688174e-07,
-      "loss": 0.0001,
-      "reward": 0.90625,
-      "reward_std": 0.1875,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.90625,
       "step": 70
     },
     {
-      "completion_length": 98.25,
       "epoch": 0.09466666666666666,
-      "grad_norm": 3.248274326324463,
-      "kl": 0.1126992404460907,
       "learning_rate": 9.677323658675593e-08,
       "loss": 0.0001,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 71
     },
     {
-      "completion_length": 112.8125,
       "epoch": 0.096,
-      "grad_norm": 5.262601852416992,
-      "kl": 0.1305035650730133,
       "learning_rate": 9.064400256282755e-08,
-      "loss": 0.0001,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 72
     },
     {
-      "completion_length": 121.375,
       "epoch": 0.09733333333333333,
-      "grad_norm": 0.01645738258957863,
-      "kl": 0.12455137819051743,
       "learning_rate": 8.467203366908707e-08,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 73
     },
     {
-      "completion_length": 113.625,
       "epoch": 0.09866666666666667,
-      "grad_norm": 5.738455295562744,
-      "kl": 0.14311644434928894,
       "learning_rate": 7.886322351782782e-08,
-      "loss": 0.0001,
-      "reward": 0.875,
-      "reward_std": 0.25,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.875,
       "step": 74
     },
     {
-      "completion_length": 104.375,
       "epoch": 0.1,
-      "grad_norm": 0.014866613782942295,
-      "kl": 0.13841284811496735,
       "learning_rate": 7.322330470336313e-08,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 75
     },
     {
-      "completion_length": 96.125,
       "epoch": 0.10133333333333333,
-      "grad_norm": 4.531452178955078,
-      "kl": 0.11935670673847198,
       "learning_rate": 6.775784314464716e-08,
       "loss": 0.0001,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 76
     },
     {
-      "completion_length": 102.0,
       "epoch": 0.10266666666666667,
-      "grad_norm": 0.017895404249429703,
-      "kl": 0.15568867325782776,
       "learning_rate": 6.24722325923851e-08,
       "loss": 0.0002,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
       "rewards/format_reward_func": 1.0,
       "step": 77
     },
     {
-      "completion_length": 85.25,
       "epoch": 0.104,
-      "grad_norm": 6.45017147064209,
-      "kl": 0.20556744933128357,
       "learning_rate": 5.737168930605271e-08,
       "loss": 0.0002,
-      "reward": 0.96875,
-      "reward_std": 0.0625,
-      "rewards/emotion_reward_func": 0.0,
       "rewards/format_reward_func": 0.96875,
       "step": 78
     },
     {
-      "completion_length": 90.25,
       "epoch": 0.10533333333333333,
-      "grad_norm": 7.30122709274292,
-      "kl": 0.1739582121372223,
       "learning_rate": 5.246124690607739e-08,
-      "loss": 0.0002,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 79
     },
     {
-      "completion_length": 99.4375,
       "epoch": 0.10666666666666667,
-      "grad_norm": 7.5901103019714355,
-      "kl": 0.1773838996887207,
       "learning_rate": 4.774575140626316e-08,
-      "loss": 0.0002,
-      "reward": 0.90625,
-      "reward_std": 0.1875,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.90625,
       "step": 80
     },
     {
-      "completion_length": 101.875,
       "epoch": 0.108,
-      "grad_norm": 0.016729678958654404,
-      "kl": 0.16674719750881195,
       "learning_rate": 4.3229856431359513e-08,
-      "loss": 0.0002,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 81
     },
     {
-      "completion_length": 104.5,
       "epoch": 0.10933333333333334,
-      "grad_norm": 5.888128757476807,
-      "kl": 0.13316090404987335,
       "learning_rate": 3.8918018624496286e-08,
       "loss": 0.0001,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 82
     },
     {
-      "completion_length": 96.5625,
       "epoch": 0.11066666666666666,
-      "grad_norm": 5.195379734039307,
-      "kl": 0.13178151845932007,
       "learning_rate": 3.481449324901411e-08,
       "loss": 0.0001,
-      "reward": 0.96875,
-      "reward_std": 0.0625,
-      "rewards/emotion_reward_func": 0.0,
       "rewards/format_reward_func": 0.96875,
       "step": 83
     },
     {
-      "completion_length": 120.3125,
       "epoch": 0.112,
-      "grad_norm": 0.023672526702284813,
-      "kl": 0.09863791614770889,
       "learning_rate": 3.092332998903416e-08,
-      "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 84
     },
     {
-      "completion_length": 120.3125,
       "epoch": 0.11333333333333333,
-      "grad_norm": 0.016033878549933434,
-      "kl": 0.1298094093799591,
       "learning_rate": 2.724836895290805e-08,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
       "rewards/format_reward_func": 1.0,
       "step": 85
     },
     {
-      "completion_length": 123.875,
       "epoch": 0.11466666666666667,
-      "grad_norm": 0.013259505853056908,
-      "kl": 0.13770553469657898,
       "learning_rate": 2.379323688349516e-08,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
       "rewards/format_reward_func": 1.0,
       "step": 86
     },
     {
-      "completion_length": 93.375,
       "epoch": 0.116,
-      "grad_norm": 7.885369777679443,
-      "kl": 0.14231295883655548,
       "learning_rate": 2.0561343579004715e-08,
       "loss": 0.0001,
-      "reward": 0.875,
-      "reward_std": 0.25,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.875,
       "step": 87
     },
     {
-      "completion_length": 106.8125,
       "epoch": 0.11733333333333333,
-      "grad_norm": 10.611775398254395,
-      "kl": 0.25752192735671997,
       "learning_rate": 1.7555878527937163e-08,
-      "loss": 0.0003,
-      "reward": 0.84375,
-      "reward_std": 0.3125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.84375,
       "step": 88
     },
     {
-      "completion_length": 105.25,
       "epoch": 0.11866666666666667,
-      "grad_norm": 5.855681419372559,
-      "kl": 0.1377657949924469,
       "learning_rate": 1.4779807761443635e-08,
       "loss": 0.0001,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 89
     },
     {
-      "completion_length": 112.9375,
       "epoch": 0.12,
-      "grad_norm": 7.280832290649414,
-      "kl": 0.13963450491428375,
       "learning_rate": 1.2235870926211616e-08,
       "loss": 0.0001,
-      "reward": 0.8125,
-      "reward_std": 0.26933756470680237,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.8125,
       "step": 90
     },
     {
-      "completion_length": 113.0625,
       "epoch": 0.12133333333333333,
-      "grad_norm": 5.792718410491943,
-      "kl": 0.10216458886861801,
       "learning_rate": 9.926578580764234e-09,
       "loss": 0.0001,
-      "reward": 0.875,
-      "reward_std": 0.25,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.875,
       "step": 91
     },
     {
-      "completion_length": 130.625,
       "epoch": 0.12266666666666666,
-      "grad_norm": 3.8016581535339355,
-      "kl": 0.09364865720272064,
       "learning_rate": 7.85420971784223e-09,
       "loss": 0.0001,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 92
     },
     {
-      "completion_length": 128.8125,
       "epoch": 0.124,
-      "grad_norm": 4.038362979888916,
-      "kl": 0.09943213313817978,
       "learning_rate": 6.020809515313141e-09,
       "loss": 0.0001,
-      "reward": 0.96875,
-      "reward_std": 0.0625,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.96875,
       "step": 93
     },
     {
-      "completion_length": 81.0,
       "epoch": 0.12533333333333332,
-      "grad_norm": 5.979770660400391,
-      "kl": 0.15632514655590057,
       "learning_rate": 4.4281873178278475e-09,
       "loss": 0.0002,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 94
     },
     {
-      "completion_length": 95.9375,
       "epoch": 0.12666666666666668,
-      "grad_norm": 8.092153549194336,
-      "kl": 0.16083820164203644,
       "learning_rate": 3.077914851215585e-09,
-      "loss": 0.0002,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 95
     },
     {
-      "completion_length": 109.5,
       "epoch": 0.128,
-      "grad_norm": 7.098442077636719,
-      "kl": 0.11922727525234222,
       "learning_rate": 1.9713246713805587e-09,
       "loss": 0.0001,
-      "reward": 0.875,
-      "reward_std": 0.25,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.875,
       "step": 96
     },
     {
-      "completion_length": 104.0,
       "epoch": 0.12933333333333333,
-      "grad_norm": 6.17384147644043,
-      "kl": 0.23637814819812775,
       "learning_rate": 1.1095088492300008e-09,
-      "loss": 0.0002,
-      "reward": 0.9375,
-      "reward_std": 0.125,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 0.9375,
       "step": 97
     },
     {
-      "completion_length": 97.75,
       "epoch": 0.13066666666666665,
-      "grad_norm": 0.04274175688624382,
-      "kl": 0.18250277638435364,
       "learning_rate": 4.933178929321102e-10,
-      "loss": 0.0002,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 98
     },
     {
-      "completion_length": 124.6875,
       "epoch": 0.132,
-      "grad_norm": 0.03310486301779747,
-      "kl": 0.09437094628810883,
       "learning_rate": 1.2335990856709998e-10,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 99
     },
     {
-      "completion_length": 116.0,
       "epoch": 0.13333333333333333,
-      "grad_norm": 0.0801442489027977,
-      "kl": 0.10857471823692322,
       "learning_rate": 0.0,
       "loss": 0.0001,
-      "reward": 1.0,
-      "reward_std": 0.0,
-      "rewards/emotion_reward_func": 0.0,
-      "rewards/format_reward_func": 1.0,
       "step": 100
     }
   ],
@@ -1327,7 +1327,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 113.171875,
       "epoch": 0.0013333333333333333,
       "grad_norm": 0.0,
       "kl": 0.0,
       "step": 1
     },
     {
+      "completion_length": 100.609375,
       "epoch": 0.0026666666666666666,
+      "grad_norm": 7.206315517425537,
       "kl": 0.0,
       "learning_rate": 4.995066821070679e-07,
+      "loss": 0.0,
+      "reward": 0.046875,
+      "reward_std": 0.1875,
+      "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.03125,
       "step": 2
     },
     {
+      "completion_length": 130.65625,
       "epoch": 0.004,
+      "grad_norm": 7.190981864929199,
+      "kl": 0.0008925930160330608,
       "learning_rate": 4.9889049115077e-07,
       "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.25,
+      "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.046875,
       "step": 3
     },
     {
+      "completion_length": 112.484375,
       "epoch": 0.005333333333333333,
+      "grad_norm": 4.745754718780518,
+      "kl": 0.0009372199856443331,
       "learning_rate": 4.980286753286194e-07,
       "loss": 0.0,
+      "reward": 0.046875,
+      "reward_std": 0.1875,
+      "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.03125,
       "step": 4
     },
     {
+      "completion_length": 100.359375,
       "epoch": 0.006666666666666667,
+      "grad_norm": 6.957683086395264,
+      "kl": 0.0009052860696101561,
       "learning_rate": 4.969220851487844e-07,
       "loss": 0.0,
+      "reward": 0.078125,
+      "reward_std": 0.3125,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.046875,
       "step": 5
     },
     {
+      "completion_length": 109.5625,
       "epoch": 0.008,
+      "grad_norm": 8.517982482910156,
+      "kl": 0.0011545967281563208,
       "learning_rate": 4.955718126821722e-07,
       "loss": 0.0,
+      "reward": 0.140625,
+      "reward_std": 0.34228479862213135,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.109375,
       "step": 6
     },
     {
+      "completion_length": 117.484375,
       "epoch": 0.009333333333333334,
+      "grad_norm": 2.9639530181884766,
+      "kl": 0.001261903322301805,
       "learning_rate": 4.939791904846868e-07,
       "loss": 0.0,
+      "reward": 0.03125,
       "reward_std": 0.125,
+      "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.015625,
       "step": 7
     },
     {
+      "completion_length": 118.234375,
       "epoch": 0.010666666666666666,
+      "grad_norm": 8.49864387512207,
+      "kl": 0.002180565701564774,
       "learning_rate": 4.921457902821578e-07,
       "loss": 0.0,
+      "reward": 0.140625,
+      "reward_std": 0.4436737596988678,
+      "rewards/emotion_reward_func": 0.046875,
+      "rewards/format_reward_func": 0.09375,
       "step": 8
     },
     {
+      "completion_length": 106.546875,
       "epoch": 0.012,
+      "grad_norm": 7.236983299255371,
+      "kl": 0.0018676594190765172,
       "learning_rate": 4.900734214192358e-07,
       "loss": 0.0,
+      "reward": 0.109375,
+      "reward_std": 0.3186737596988678,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.078125,
       "step": 9
     },
     {
+      "completion_length": 94.640625,
       "epoch": 0.013333333333333334,
+      "grad_norm": 6.612936973571777,
+      "kl": 0.00287746504181996,
       "learning_rate": 4.877641290737883e-07,
       "loss": 0.0,
+      "reward": 0.15625,
+      "reward_std": 0.38375620543956757,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.125,
       "step": 10
     },
     {
+      "completion_length": 78.453125,
       "epoch": 0.014666666666666666,
+      "grad_norm": 6.714486598968506,
+      "kl": 0.0037596136680804193,
       "learning_rate": 4.852201922385564e-07,
       "loss": 0.0,
+      "reward": 0.15625,
+      "reward_std": 0.34297704696655273,
+      "rewards/emotion_reward_func": 0.03125,
+      "rewards/format_reward_func": 0.125,
       "step": 11
     },
     {
+      "completion_length": 113.765625,
       "epoch": 0.016,
+      "grad_norm": 6.222474098205566,
+      "kl": 0.005189417512156069,
       "learning_rate": 4.824441214720628e-07,
       "loss": 0.0,
+      "reward": 0.328125,
+      "reward_std": 0.6560364216566086,
+      "rewards/emotion_reward_func": 0.109375,
+      "rewards/format_reward_func": 0.21875,
       "step": 12
     },
     {
+      "completion_length": 93.890625,
       "epoch": 0.017333333333333333,
+      "grad_norm": 7.199591636657715,
+      "kl": 0.011019598576240242,
       "learning_rate": 4.794386564209952e-07,
       "loss": 0.0,
+      "reward": 0.359375,
+      "reward_std": 0.647876650094986,
+      "rewards/emotion_reward_func": 0.125,
+      "rewards/format_reward_func": 0.234375,
       "step": 13
     },
     {
+      "completion_length": 93.6875,
       "epoch": 0.018666666666666668,
+      "grad_norm": 7.459893226623535,
+      "kl": 0.012794358422979712,
       "learning_rate": 4.762067631165049e-07,
       "loss": 0.0,
+      "reward": 0.28125,
+      "reward_std": 0.4561576098203659,
+      "rewards/emotion_reward_func": 0.015625,
+      "rewards/format_reward_func": 0.265625,
       "step": 14
     },
     {
+      "completion_length": 114.03125,
       "epoch": 0.02,
+      "grad_norm": 7.204787731170654,
+      "kl": 0.01207199739292264,
       "learning_rate": 4.7275163104709194e-07,
+      "loss": 0.0,
+      "reward": 0.421875,
+      "reward_std": 0.6076867878437042,
+      "rewards/emotion_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.359375,
       "step": 15
     },
     {
+      "completion_length": 90.1875,
       "epoch": 0.021333333333333333,
+      "grad_norm": 6.9398369789123535,
+      "kl": 0.012930819648317993,
       "learning_rate": 4.6907667001096585e-07,
       "loss": 0.0,
+      "reward": 0.296875,
+      "reward_std": 0.6791985481977463,
+      "rewards/emotion_reward_func": 0.125,
+      "rewards/format_reward_func": 0.171875,
       "step": 16
     },
     {
+      "completion_length": 100.265625,
       "epoch": 0.02266666666666667,
+      "grad_norm": 7.01741361618042,
+      "kl": 0.014807499013841152,
       "learning_rate": 4.6518550675098587e-07,
       "loss": 0.0,
+      "reward": 0.609375,
+      "reward_std": 0.7960269749164581,
+      "rewards/emotion_reward_func": 0.1875,
+      "rewards/format_reward_func": 0.421875,
       "step": 17
     },
     {
+      "completion_length": 101.59375,
       "epoch": 0.024,
+      "grad_norm": 6.980762004852295,
+      "kl": 0.02019192511215806,
       "learning_rate": 4.6108198137550377e-07,
       "loss": 0.0,
+      "reward": 0.53125,
+      "reward_std": 0.6885540634393692,
+      "rewards/emotion_reward_func": 0.125,
+      "rewards/format_reward_func": 0.40625,
       "step": 18
     },
     {
+      "completion_length": 93.859375,
       "epoch": 0.025333333333333333,
+      "grad_norm": 8.390938758850098,
+      "kl": 0.03694334626197815,
       "learning_rate": 4.567701435686404e-07,
       "loss": 0.0,
+      "reward": 0.65625,
+      "reward_std": 0.651764303445816,
+      "rewards/emotion_reward_func": 0.125,
+      "rewards/format_reward_func": 0.53125,
       "step": 19
     },
     {
+      "completion_length": 85.546875,
       "epoch": 0.02666666666666667,
+      "grad_norm": 8.39484691619873,
+      "kl": 0.03380461875349283,
       "learning_rate": 4.5225424859373684e-07,
       "loss": 0.0,
+      "reward": 0.765625,
+      "reward_std": 0.7304560542106628,
+      "rewards/emotion_reward_func": 0.203125,
+      "rewards/format_reward_func": 0.5625,
       "step": 20
     },
     {
+      "completion_length": 91.3125,
       "epoch": 0.028,
+      "grad_norm": 6.440164089202881,
+      "kl": 0.04492605570703745,
       "learning_rate": 4.475387530939226e-07,
       "loss": 0.0,
+      "reward": 0.765625,
+      "reward_std": 0.5731314420700073,
+      "rewards/emotion_reward_func": 0.078125,
+      "rewards/format_reward_func": 0.6875,
       "step": 21
     },
     {
+      "completion_length": 91.0625,
       "epoch": 0.029333333333333333,
+      "grad_norm": 6.099334716796875,
+      "kl": 0.040256964042782784,
       "learning_rate": 4.426283106939473e-07,
       "loss": 0.0,
+      "reward": 1.1875,
+      "reward_std": 0.6744011342525482,
+      "rewards/emotion_reward_func": 0.390625,
+      "rewards/format_reward_func": 0.796875,
       "step": 22
     },
     {
+      "completion_length": 79.328125,
       "epoch": 0.030666666666666665,
+      "grad_norm": 7.1284871101379395,
+      "kl": 0.04640346672385931,
       "learning_rate": 4.375277674076149e-07,
       "loss": 0.0,
+      "reward": 1.21875,
+      "reward_std": 0.7463032901287079,
+      "rewards/emotion_reward_func": 0.4375,
+      "rewards/format_reward_func": 0.78125,
       "step": 23
     },
     {
+      "completion_length": 71.84375,
       "epoch": 0.032,
+      "grad_norm": 6.066468715667725,
+      "kl": 0.07137730903923512,
       "learning_rate": 4.3224215685535287e-07,
+      "loss": 0.0001,
+      "reward": 1.328125,
+      "reward_std": 0.8113406747579575,
+      "rewards/emotion_reward_func": 0.546875,
+      "rewards/format_reward_func": 0.78125,
       "step": 24
     },
     {
+      "completion_length": 101.0625,
       "epoch": 0.03333333333333333,
+      "grad_norm": 5.047848224639893,
+      "kl": 0.0665823919698596,
       "learning_rate": 4.2677669529663686e-07,
+      "loss": 0.0001,
+      "reward": 0.828125,
+      "reward_std": 0.5247472077608109,
+      "rewards/emotion_reward_func": 0.078125,
+      "rewards/format_reward_func": 0.75,
       "step": 25
     },
     {
+      "completion_length": 68.1875,
       "epoch": 0.034666666666666665,
+      "grad_norm": 6.7862958908081055,
+      "kl": 0.07357331551611423,
       "learning_rate": 4.2113677648217216e-07,
       "loss": 0.0001,
+      "reward": 1.515625,
+      "reward_std": 0.7178780436515808,
+      "rewards/emotion_reward_func": 0.671875,
+      "rewards/format_reward_func": 0.84375,
       "step": 26
     },
     {
+      "completion_length": 73.5625,
       "epoch": 0.036,
+      "grad_norm": 6.041502475738525,
+      "kl": 0.0839837146922946,
       "learning_rate": 4.1532796633091294e-07,
+      "loss": 0.0001,
+      "reward": 1.0,
+      "reward_std": 0.5787727609276772,
+      "rewards/emotion_reward_func": 0.1875,
+      "rewards/format_reward_func": 0.8125,
       "step": 27
     },
     {
+      "completion_length": 75.515625,
       "epoch": 0.037333333333333336,
+      "grad_norm": 5.880768299102783,
+      "kl": 0.07887133583426476,
       "learning_rate": 4.0935599743717244e-07,
       "loss": 0.0001,
+      "reward": 1.265625,
+      "reward_std": 0.6387931928038597,
+      "rewards/emotion_reward_func": 0.390625,
+      "rewards/format_reward_func": 0.875,
       "step": 28
     },
     {
+      "completion_length": 84.65625,
       "epoch": 0.03866666666666667,
+      "grad_norm": 4.456689357757568,
+      "kl": 0.05541729833930731,
       "learning_rate": 4.0322676341324414e-07,
+      "loss": 0.0001,
+      "reward": 1.546875,
+      "reward_std": 0.6021395623683929,
+      "rewards/emotion_reward_func": 0.6875,
+      "rewards/format_reward_func": 0.859375,
       "step": 29
     },
     {
+      "completion_length": 72.03125,
       "epoch": 0.04,
+      "grad_norm": 6.281215667724609,
+      "kl": 0.07642886973917484,
       "learning_rate": 3.9694631307311825e-07,
+      "loss": 0.0001,
+      "reward": 1.421875,
+      "reward_std": 0.6625982969999313,
+      "rewards/emotion_reward_func": 0.515625,
+      "rewards/format_reward_func": 0.90625,
       "step": 30
     },
     {
+      "completion_length": 64.96875,
       "epoch": 0.04133333333333333,
+      "grad_norm": 6.267475128173828,
+      "kl": 0.07545926049351692,
       "learning_rate": 3.9052084446303265e-07,
       "loss": 0.0001,
+      "reward": 1.28125,
+      "reward_std": 0.5209204778075218,
+      "rewards/emotion_reward_func": 0.34375,
+      "rewards/format_reward_func": 0.9375,
       "step": 31
     },
     {
+      "completion_length": 74.28125,
       "epoch": 0.042666666666666665,
+      "grad_norm": 6.10364294052124,
+      "kl": 0.08546704892069101,
       "learning_rate": 3.839566987447491e-07,
+      "loss": 0.0001,
+      "reward": 1.59375,
+      "reward_std": 0.7168828397989273,
+      "rewards/emotion_reward_func": 0.71875,
+      "rewards/format_reward_func": 0.875,
       "step": 32
     },
     {
+      "completion_length": 70.03125,
       "epoch": 0.044,
+      "grad_norm": 4.039772033691406,
+      "kl": 0.06002845522016287,
       "learning_rate": 3.7726035393759283e-07,
       "loss": 0.0001,
+      "reward": 1.3125,
+      "reward_std": 0.2808031141757965,
+      "rewards/emotion_reward_func": 0.390625,
+      "rewards/format_reward_func": 0.921875,
       "step": 33
     },
     {
+      "completion_length": 83.109375,
       "epoch": 0.04533333333333334,
+      "grad_norm": 6.683216094970703,
+      "kl": 0.0706396009773016,
       "learning_rate": 3.704384185254288e-07,
       "loss": 0.0001,
+      "reward": 1.421875,
+      "reward_std": 0.7211004346609116,
+      "rewards/emotion_reward_func": 0.578125,
+      "rewards/format_reward_func": 0.84375,
       "step": 34
     },
     {
+      "completion_length": 72.765625,
       "epoch": 0.04666666666666667,
+      "grad_norm": 6.402747631072998,
+      "kl": 0.10811681114137173,
       "learning_rate": 3.634976249348867e-07,
       "loss": 0.0001,
+      "reward": 1.28125,
+      "reward_std": 0.5904398858547211,
+      "rewards/emotion_reward_func": 0.375,
+      "rewards/format_reward_func": 0.90625,
       "step": 35
     },
     {
+      "completion_length": 78.734375,
       "epoch": 0.048,
+      "grad_norm": 5.202386856079102,
+      "kl": 0.07850308250635862,
       "learning_rate": 3.5644482289126813e-07,
       "loss": 0.0001,
+      "reward": 1.09375,
+      "reward_std": 0.5113069340586662,
+      "rewards/emotion_reward_func": 0.203125,
+      "rewards/format_reward_func": 0.890625,
       "step": 36
     },
     {
+      "completion_length": 68.953125,
       "epoch": 0.04933333333333333,
+      "grad_norm": 7.1071085929870605,
+      "kl": 0.08383779786527157,
       "learning_rate": 3.492869726586951e-07,
       "loss": 0.0001,
+      "reward": 1.1875,
+      "reward_std": 0.4691474586725235,
+      "rewards/emotion_reward_func": 0.21875,
+      "rewards/format_reward_func": 0.96875,
       "step": 37
     },
     {
+      "completion_length": 65.734375,
       "epoch": 0.050666666666666665,
+      "grad_norm": 6.272955417633057,
+      "kl": 0.06441066134721041,
       "learning_rate": 3.4203113817116953e-07,
       "loss": 0.0001,
+      "reward": 1.75,
+      "reward_std": 0.41095855832099915,
+      "rewards/emotion_reward_func": 0.765625,
+      "rewards/format_reward_func": 0.984375,
       "step": 38
     },
     {
+      "completion_length": 69.9375,
       "epoch": 0.052,
+      "grad_norm": 3.7793548107147217,
+      "kl": 0.06628133170306683,
       "learning_rate": 3.346844800613229e-07,
       "loss": 0.0001,
+      "reward": 1.078125,
+      "reward_std": 0.21347813308238983,
+      "rewards/emotion_reward_func": 0.109375,
+      "rewards/format_reward_func": 0.96875,
       "step": 39
     },
     {
+      "completion_length": 64.34375,
       "epoch": 0.05333333333333334,
+      "grad_norm": 6.500398635864258,
+      "kl": 0.06995576526969671,
       "learning_rate": 3.272542485937368e-07,
       "loss": 0.0001,
+      "reward": 1.546875,
+      "reward_std": 0.47020626068115234,
+      "rewards/emotion_reward_func": 0.5625,
+      "rewards/format_reward_func": 0.984375,
       "step": 40
     },
     {
+      "completion_length": 73.375,
       "epoch": 0.05466666666666667,
+      "grad_norm": 4.637302875518799,
+      "kl": 0.06445631105452776,
       "learning_rate": 3.1974777650980734e-07,
       "loss": 0.0001,
+      "reward": 1.578125,
+      "reward_std": 0.38923946768045425,
+      "rewards/emotion_reward_func": 0.609375,
+      "rewards/format_reward_func": 0.96875,
       "step": 41
     },
     {
+      "completion_length": 69.875,
       "epoch": 0.056,
+      "grad_norm": 5.5001220703125,
+      "kl": 0.06374164298176765,
       "learning_rate": 3.121724717912138e-07,
       "loss": 0.0001,
+      "reward": 1.671875,
+      "reward_std": 0.18616947531700134,
+      "rewards/emotion_reward_func": 0.671875,
+      "rewards/format_reward_func": 1.0,
       "step": 42
     },
     {
+      "completion_length": 65.75,
       "epoch": 0.05733333333333333,
+      "grad_norm": 5.561408996582031,
+      "kl": 0.11185399815440178,
       "learning_rate": 3.0453581034913565e-07,
       "loss": 0.0001,
+      "reward": 1.125,
+      "reward_std": 0.4263191595673561,
+      "rewards/emotion_reward_func": 0.1875,
+      "rewards/format_reward_func": 0.9375,
       "step": 43
     },
     {
+      "completion_length": 57.59375,
       "epoch": 0.058666666666666666,
+      "grad_norm": 6.903532028198242,
+      "kl": 0.08089348301291466,
       "learning_rate": 2.968453286464312e-07,
       "loss": 0.0001,
+      "reward": 1.75,
+      "reward_std": 0.3838024437427521,
+      "rewards/emotion_reward_func": 0.765625,
+      "rewards/format_reward_func": 0.984375,
       "step": 44
     },
     {
+      "completion_length": 81.0625,
       "epoch": 0.06,
+      "grad_norm": 5.9377288818359375,
+      "kl": 0.06169276125729084,
       "learning_rate": 2.8910861626005773e-07,
       "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.5583916157484055,
+      "rewards/emotion_reward_func": 0.421875,
+      "rewards/format_reward_func": 0.953125,
       "step": 45
     },
     {
+      "completion_length": 64.09375,
       "epoch": 0.06133333333333333,
+      "grad_norm": 6.421321392059326,
+      "kl": 0.08067317306995392,
       "learning_rate": 2.8133330839107604e-07,
       "loss": 0.0001,
+      "reward": 1.484375,
+      "reward_std": 0.6873095482587814,
+      "rewards/emotion_reward_func": 0.59375,
+      "rewards/format_reward_func": 0.890625,
       "step": 46
     },
     {
+      "completion_length": 65.859375,
       "epoch": 0.06266666666666666,
+      "grad_norm": 5.465454578399658,
+      "kl": 0.08742601610720158,
       "learning_rate": 2.735270783296286e-07,
       "loss": 0.0001,
+      "reward": 1.421875,
+      "reward_std": 0.37412673234939575,
+      "rewards/emotion_reward_func": 0.4375,
+      "rewards/format_reward_func": 0.984375,
       "step": 47
     },
     {
+      "completion_length": 61.734375,
       "epoch": 0.064,
+      "grad_norm": 6.597202777862549,
+      "kl": 0.09020566754043102,
       "learning_rate": 2.6569762988232837e-07,
       "loss": 0.0001,
+      "reward": 1.203125,
+      "reward_std": 0.4003961533308029,
+      "rewards/emotion_reward_func": 0.265625,
+      "rewards/format_reward_func": 0.9375,
       "step": 48
     },
     {
+      "completion_length": 63.21875,
       "epoch": 0.06533333333333333,
+      "grad_norm": 5.847234725952148,
+      "kl": 0.09095379617065191,
       "learning_rate": 2.5785268976953204e-07,
       "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.3876233473420143,
+      "rewards/emotion_reward_func": 0.390625,
+      "rewards/format_reward_func": 0.984375,
       "step": 49
     },
     {
+      "completion_length": 59.890625,
       "epoch": 0.06666666666666667,
+      "grad_norm": 7.6002936363220215,
+      "kl": 0.08561510033905506,
       "learning_rate": 2.5e-07,
       "loss": 0.0001,
+      "reward": 1.25,
+      "reward_std": 0.3925696462392807,
+      "rewards/emotion_reward_func": 0.28125,
+      "rewards/format_reward_func": 0.96875,
       "step": 50
     },
     {
+      "completion_length": 57.890625,
       "epoch": 0.068,
+      "grad_norm": 6.88557243347168,
+      "kl": 0.08306531235575676,
       "learning_rate": 2.4214731023046794e-07,
       "loss": 0.0001,
+      "reward": 1.453125,
+      "reward_std": 0.5443578287959099,
+      "rewards/emotion_reward_func": 0.515625,
+      "rewards/format_reward_func": 0.9375,
       "step": 51
     },
     {
+      "completion_length": 64.234375,
       "epoch": 0.06933333333333333,
+      "grad_norm": 6.265974044799805,
+      "kl": 0.09051466174423695,
       "learning_rate": 2.3430237011767164e-07,
       "loss": 0.0001,
+      "reward": 1.484375,
+      "reward_std": 0.1875,
+      "rewards/emotion_reward_func": 0.484375,
+      "rewards/format_reward_func": 1.0,
       "step": 52
     },
     {
+      "completion_length": 55.609375,
       "epoch": 0.07066666666666667,
+      "grad_norm": 5.614126205444336,
+      "kl": 0.0768609419465065,
       "learning_rate": 2.264729216703714e-07,
       "loss": 0.0001,
+      "reward": 1.875,
+      "reward_std": 0.31027980148792267,
+      "rewards/emotion_reward_func": 0.890625,
+      "rewards/format_reward_func": 0.984375,
       "step": 53
     },
     {
+      "completion_length": 68.859375,
       "epoch": 0.072,
+      "grad_norm": 5.596243381500244,
+      "kl": 0.07597188651561737,
       "learning_rate": 2.1866669160892389e-07,
       "loss": 0.0001,
+      "reward": 1.125,
+      "reward_std": 0.3412870988249779,
+      "rewards/emotion_reward_func": 0.171875,
+      "rewards/format_reward_func": 0.953125,
       "step": 54
     },
     {
+      "completion_length": 51.609375,
       "epoch": 0.07333333333333333,
+      "grad_norm": 7.993938446044922,
+      "kl": 0.09897390753030777,
       "learning_rate": 2.1089138373994222e-07,
+      "loss": 0.0001,
+      "reward": 1.578125,
+      "reward_std": 0.47475843876600266,
+      "rewards/emotion_reward_func": 0.625,
+      "rewards/format_reward_func": 0.953125,
       "step": 55
     },
     {
+      "completion_length": 48.265625,
       "epoch": 0.07466666666666667,
+      "grad_norm": 8.550956726074219,
+      "kl": 0.10356861166656017,
       "learning_rate": 2.0315467135356878e-07,
       "loss": 0.0001,
+      "reward": 1.28125,
+      "reward_std": 0.3340607285499573,
+      "rewards/emotion_reward_func": 0.28125,
+      "rewards/format_reward_func": 1.0,
       "step": 56
     },
     {
+      "completion_length": 56.953125,
       "epoch": 0.076,
+      "grad_norm": 6.799314498901367,
+      "kl": 0.11332254763692617,
       "learning_rate": 1.954641896508644e-07,
+      "loss": 0.0001,
+      "reward": 1.671875,
+      "reward_std": 0.3965607285499573,
+      "rewards/emotion_reward_func": 0.6875,
+      "rewards/format_reward_func": 0.984375,
       "step": 57
     },
     {
+      "completion_length": 57.15625,
       "epoch": 0.07733333333333334,
+      "grad_norm": 6.939026832580566,
+      "kl": 0.1864840853959322,
       "learning_rate": 1.8782752820878633e-07,
+      "loss": 0.0002,
+      "reward": 1.53125,
+      "reward_std": 0.4032272547483444,
+      "rewards/emotion_reward_func": 0.609375,
+      "rewards/format_reward_func": 0.921875,
       "step": 58
     },
     {
+      "completion_length": 50.34375,
       "epoch": 0.07866666666666666,
+      "grad_norm": 7.448709487915039,
+      "kl": 0.15000650100409985,
       "learning_rate": 1.802522234901927e-07,
       "loss": 0.0002,
+      "reward": 1.453125,
+      "reward_std": 0.4035460501909256,
+      "rewards/emotion_reward_func": 0.46875,
+      "rewards/format_reward_func": 0.984375,
       "step": 59
     },
     {
+      "completion_length": 56.296875,
       "epoch": 0.08,
+      "grad_norm": 6.004992485046387,
+      "kl": 0.08795534446835518,
       "learning_rate": 1.7274575140626315e-07,
       "loss": 0.0001,
+      "reward": 1.53125,
+      "reward_std": 0.4612579345703125,
+      "rewards/emotion_reward_func": 0.546875,
+      "rewards/format_reward_func": 0.984375,
       "step": 60
     },
     {
+      "completion_length": 55.703125,
       "epoch": 0.08133333333333333,
+      "grad_norm": 6.890044212341309,
+      "kl": 0.09031901508569717,
       "learning_rate": 1.6531551993867715e-07,
+      "loss": 0.0001,
+      "reward": 1.453125,
+      "reward_std": 0.41576120257377625,
+      "rewards/emotion_reward_func": 0.484375,
+      "rewards/format_reward_func": 0.96875,
       "step": 61
     },
     {
+      "completion_length": 58.625,
       "epoch": 0.08266666666666667,
+      "grad_norm": 6.977153778076172,
+      "kl": 0.09828664548695087,
       "learning_rate": 1.579688618288305e-07,
       "loss": 0.0001,
+      "reward": 1.609375,
+      "reward_std": 0.3605812340974808,
+      "rewards/emotion_reward_func": 0.609375,
       "rewards/format_reward_func": 1.0,
       "step": 62
     },
     {
+      "completion_length": 52.421875,
       "epoch": 0.084,
+      "grad_norm": 3.109772205352783,
+      "kl": 0.1292141806334257,
       "learning_rate": 1.5071302734130486e-07,
+      "loss": 0.0001,
+      "reward": 1.65625,
+      "reward_std": 0.15478479862213135,
+      "rewards/emotion_reward_func": 0.671875,
+      "rewards/format_reward_func": 0.984375,
       "step": 63
     },
     {
+      "completion_length": 53.578125,
       "epoch": 0.08533333333333333,
+      "grad_norm": 7.28511905670166,
+      "kl": 0.1237227451056242,
       "learning_rate": 1.4355517710873182e-07,
       "loss": 0.0001,
+      "reward": 1.765625,
+      "reward_std": 0.5836244821548462,
+      "rewards/emotion_reward_func": 0.84375,
+      "rewards/format_reward_func": 0.921875,
       "step": 64
     },
     {
+      "completion_length": 54.265625,
       "epoch": 0.08666666666666667,
+      "grad_norm": 5.760799884796143,
+      "kl": 0.10565520823001862,
       "learning_rate": 1.365023750651133e-07,
       "loss": 0.0001,
+      "reward": 1.59375,
+      "reward_std": 0.38039760291576385,
+      "rewards/emotion_reward_func": 0.609375,
+      "rewards/format_reward_func": 0.984375,
       "step": 65
     },
     {
+      "completion_length": 55.9375,
       "epoch": 0.088,
+      "grad_norm": 7.823127269744873,
+      "kl": 0.09790175035595894,
       "learning_rate": 1.2956158147457114e-07,
       "loss": 0.0001,
+      "reward": 1.625,
+      "reward_std": 0.40478479862213135,
+      "rewards/emotion_reward_func": 0.65625,
+      "rewards/format_reward_func": 0.96875,
       "step": 66
     },
     {
+      "completion_length": 44.671875,
       "epoch": 0.08933333333333333,
+      "grad_norm": 4.364702224731445,
+      "kl": 0.11339546367526054,
       "learning_rate": 1.2273964606240718e-07,
       "loss": 0.0001,
+      "reward": 1.34375,
+      "reward_std": 0.18217839300632477,
+      "rewards/emotion_reward_func": 0.34375,
+      "rewards/format_reward_func": 1.0,
       "step": 67
     },
     {
+      "completion_length": 57.421875,
       "epoch": 0.09066666666666667,
+      "grad_norm": 5.267661094665527,
+      "kl": 0.10790612921118736,
       "learning_rate": 1.1604330125525078e-07,
       "loss": 0.0001,
+      "reward": 1.1875,
+      "reward_std": 0.2545653209090233,
+      "rewards/emotion_reward_func": 0.21875,
+      "rewards/format_reward_func": 0.96875,
       "step": 68
     },
     {
+      "completion_length": 48.921875,
       "epoch": 0.092,
+      "grad_norm": 5.409526824951172,
+      "kl": 0.11567417718470097,
       "learning_rate": 1.0947915553696741e-07,
       "loss": 0.0001,
+      "reward": 1.453125,
+      "reward_std": 0.23328250646591187,
+      "rewards/emotion_reward_func": 0.453125,
+      "rewards/format_reward_func": 1.0,
       "step": 69
     },
     {
+      "completion_length": 55.828125,
       "epoch": 0.09333333333333334,
+      "grad_norm": 7.669867992401123,
+      "kl": 3.9372363202273846,
       "learning_rate": 1.0305368692688174e-07,
+      "loss": 0.0039,
+      "reward": 1.34375,
+      "reward_std": 0.3306438848376274,
+      "rewards/emotion_reward_func": 0.359375,
+      "rewards/format_reward_func": 0.984375,
       "step": 70
     },
     {
+      "completion_length": 43.125,
       "epoch": 0.09466666666666666,
+      "grad_norm": 8.619794845581055,
+      "kl": 0.13703159242868423,
       "learning_rate": 9.677323658675593e-08,
       "loss": 0.0001,
+      "reward": 1.5625,
+      "reward_std": 0.3234764039516449,
+      "rewards/emotion_reward_func": 0.578125,
+      "rewards/format_reward_func": 0.984375,
       "step": 71
     },
     {
+      "completion_length": 47.484375,
       "epoch": 0.096,
+      "grad_norm": 5.2266740798950195,
+      "kl": 0.1516919508576393,
       "learning_rate": 9.064400256282755e-08,
+      "loss": 0.0002,
+      "reward": 1.296875,
+      "reward_std": 0.34940721094608307,
+      "rewards/emotion_reward_func": 0.3125,
+      "rewards/format_reward_func": 0.984375,
       "step": 72
     },
     {
+      "completion_length": 60.5,
       "epoch": 0.09733333333333333,
+      "grad_norm": 6.890865325927734,
+      "kl": 0.10698151029646397,
       "learning_rate": 8.467203366908707e-08,
       "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.3380199372768402,
+      "rewards/emotion_reward_func": 0.40625,
+      "rewards/format_reward_func": 0.96875,
       "step": 73
     },
     {
+      "completion_length": 45.8125,
       "epoch": 0.09866666666666667,
+      "grad_norm": 4.76033878326416,
+      "kl": 0.2001918088644743,
       "learning_rate": 7.886322351782782e-08,
+      "loss": 0.0002,
+      "reward": 1.6875,
+      "reward_std": 0.26933756470680237,
+      "rewards/emotion_reward_func": 0.703125,
+      "rewards/format_reward_func": 0.984375,
       "step": 74
     },
     {
+      "completion_length": 53.640625,
       "epoch": 0.1,
+      "grad_norm": 7.104291915893555,
+      "kl": 0.09334802068769932,
       "learning_rate": 7.322330470336313e-08,
       "loss": 0.0001,
+      "reward": 1.453125,
+      "reward_std": 0.3290881961584091,
+      "rewards/emotion_reward_func": 0.484375,
+      "rewards/format_reward_func": 0.96875,
       "step": 75
     },
     {
+      "completion_length": 45.109375,
       "epoch": 0.10133333333333333,
+      "grad_norm": 10.217005729675293,
+      "kl": 0.12721979059278965,
       "learning_rate": 6.775784314464716e-08,
       "loss": 0.0001,
+      "reward": 1.4375,
+      "reward_std": 0.3354101926088333,
+      "rewards/emotion_reward_func": 0.4375,
+      "rewards/format_reward_func": 1.0,
       "step": 76
     },
     {
+      "completion_length": 49.390625,
       "epoch": 0.10266666666666667,
+      "grad_norm": 5.090665817260742,
+      "kl": 0.1952703520655632,
       "learning_rate": 6.24722325923851e-08,
       "loss": 0.0002,
+      "reward": 1.5625,
+      "reward_std": 0.21039125323295593,
+      "rewards/emotion_reward_func": 0.5625,
       "rewards/format_reward_func": 1.0,
       "step": 77
     },
     {
+      "completion_length": 40.953125,
       "epoch": 0.104,
+      "grad_norm": 10.18713665008545,
+      "kl": 0.1544223688542843,
       "learning_rate": 5.737168930605271e-08,
       "loss": 0.0002,
+      "reward": 1.609375,
+      "reward_std": 0.44701361656188965,
+      "rewards/emotion_reward_func": 0.640625,
       "rewards/format_reward_func": 0.96875,
       "step": 78
     },
     {
+      "completion_length": 45.84375,
       "epoch": 0.10533333333333333,
+      "grad_norm": 6.143667221069336,
+      "kl": 0.14481117203831673,
       "learning_rate": 5.246124690607739e-08,
+      "loss": 0.0001,
+      "reward": 1.515625,
+      "reward_std": 0.2715607285499573,
+      "rewards/emotion_reward_func": 0.515625,
+      "rewards/format_reward_func": 1.0,
       "step": 79
     },
     {
+      "completion_length": 46.59375,
       "epoch": 0.10666666666666667,
+      "grad_norm": 5.600602149963379,
+      "kl": 0.10117345489561558,
       "learning_rate": 4.774575140626316e-08,
+      "loss": 0.0001,
+      "reward": 1.890625,
+      "reward_std": 0.1280868798494339,
+      "rewards/emotion_reward_func": 0.890625,
+      "rewards/format_reward_func": 1.0,
       "step": 80
     },
     {
+      "completion_length": 55.265625,
       "epoch": 0.108,
+      "grad_norm": 8.253979682922363,
+      "kl": 0.11770397983491421,
       "learning_rate": 4.3229856431359513e-08,
+      "loss": 0.0001,
+      "reward": 1.515625,
+      "reward_std": 0.5620162785053253,
+      "rewards/emotion_reward_func": 0.5625,
+      "rewards/format_reward_func": 0.953125,
       "step": 81
     },
     {
+      "completion_length": 55.34375,
       "epoch": 0.10933333333333334,
+      "grad_norm": 7.1831135749816895,
+      "kl": 0.1115355659276247,
       "learning_rate": 3.8918018624496286e-08,
       "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.3838024437427521,
+      "rewards/emotion_reward_func": 0.390625,
+      "rewards/format_reward_func": 0.984375,
       "step": 82
     },
     {
+      "completion_length": 48.40625,
       "epoch": 0.11066666666666666,
+      "grad_norm": 7.065600395202637,
+      "kl": 0.14161021262407303,
       "learning_rate": 3.481449324901411e-08,
       "loss": 0.0001,
+      "reward": 1.515625,
+      "reward_std": 0.3940916210412979,
+      "rewards/emotion_reward_func": 0.546875,
       "rewards/format_reward_func": 0.96875,
       "step": 83
     },
     {
+      "completion_length": 52.5625,
       "epoch": 0.112,
+      "grad_norm": 7.827910423278809,
+      "kl": 0.16811930015683174,
       "learning_rate": 3.092332998903416e-08,
+      "loss": 0.0002,
+      "reward": 1.5,
+      "reward_std": 0.5367372632026672,
+      "rewards/emotion_reward_func": 0.546875,
+      "rewards/format_reward_func": 0.953125,
       "step": 84
     },
     {
+      "completion_length": 51.328125,
       "epoch": 0.11333333333333333,
+      "grad_norm": 4.83447265625,
+      "kl": 0.11310878023505211,
       "learning_rate": 2.724836895290805e-08,
       "loss": 0.0001,
+      "reward": 1.640625,
+      "reward_std": 0.1280868798494339,
+      "rewards/emotion_reward_func": 0.640625,
       "rewards/format_reward_func": 1.0,
       "step": 85
     },
     {
+      "completion_length": 47.578125,
       "epoch": 0.11466666666666667,
+      "grad_norm": 5.901933670043945,
+      "kl": 0.1336957048624754,
       "learning_rate": 2.379323688349516e-08,
       "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.21039125323295593,
+      "rewards/emotion_reward_func": 0.375,
       "rewards/format_reward_func": 1.0,
       "step": 86
     },
     {
+      "completion_length": 50.53125,
       "epoch": 0.116,
+      "grad_norm": 5.392825603485107,
+      "kl": 0.1246971283107996,
       "learning_rate": 2.0561343579004715e-08,
       "loss": 0.0001,
+      "reward": 1.6875,
+      "reward_std": 0.3024514466524124,
+      "rewards/emotion_reward_func": 0.71875,
+      "rewards/format_reward_func": 0.96875,
       "step": 87
     },
     {
+      "completion_length": 52.515625,
       "epoch": 0.11733333333333333,
+      "grad_norm": 7.34331750869751,
+      "kl": 0.11970937624573708,
       "learning_rate": 1.7555878527937163e-08,
+      "loss": 0.0001,
+      "reward": 1.34375,
+      "reward_std": 0.40886765718460083,
+      "rewards/emotion_reward_func": 0.359375,
+      "rewards/format_reward_func": 0.984375,
       "step": 88
     },
     {
+      "completion_length": 58.03125,
       "epoch": 0.11866666666666667,
+      "grad_norm": 4.543256759643555,
+      "kl": 0.12226046249270439,
       "learning_rate": 1.4779807761443635e-08,
       "loss": 0.0001,
+      "reward": 1.546875,
+      "reward_std": 0.3359370082616806,
+      "rewards/emotion_reward_func": 0.578125,
+      "rewards/format_reward_func": 0.96875,
       "step": 89
     },
     {
+      "completion_length": 52.265625,
       "epoch": 0.12,
+      "grad_norm": 7.780374050140381,
+      "kl": 0.1240895576775074,
       "learning_rate": 1.2235870926211616e-08,
       "loss": 0.0001,
+      "reward": 1.59375,
+      "reward_std": 0.25,
+      "rewards/emotion_reward_func": 0.59375,
+      "rewards/format_reward_func": 1.0,
       "step": 90
     },
     {
+      "completion_length": 52.5,
       "epoch": 0.12133333333333333,
+      "grad_norm": 3.1433615684509277,
+      "kl": 0.10472103767096996,
       "learning_rate": 9.926578580764234e-09,
       "loss": 0.0001,
+      "reward": 1.734375,
+      "reward_std": 0.0625,
+      "rewards/emotion_reward_func": 0.734375,
+      "rewards/format_reward_func": 1.0,
       "step": 91
     },
     {
+      "completion_length": 50.921875,
       "epoch": 0.12266666666666666,
+      "grad_norm": 7.484493732452393,
+      "kl": 0.10997971147298813,
       "learning_rate": 7.85420971784223e-09,
       "loss": 0.0001,
+      "reward": 1.640625,
+      "reward_std": 0.2829566150903702,
+      "rewards/emotion_reward_func": 0.640625,
+      "rewards/format_reward_func": 1.0,
       "step": 92
     },
     {
+      "completion_length": 52.015625,
       "epoch": 0.124,
+      "grad_norm": 8.367355346679688,
+      "kl": 0.1366768404841423,
       "learning_rate": 6.020809515313141e-09,
       "loss": 0.0001,
+      "reward": 1.28125,
+      "reward_std": 0.3538651019334793,
+      "rewards/emotion_reward_func": 0.28125,
+      "rewards/format_reward_func": 1.0,
       "step": 93
     },
     {
+      "completion_length": 45.796875,
       "epoch": 0.12533333333333332,
+      "grad_norm": 6.152498245239258,
+      "kl": 0.1532982587814331,
       "learning_rate": 4.4281873178278475e-09,
       "loss": 0.0002,
+      "reward": 1.640625,
+      "reward_std": 0.414583221077919,
+      "rewards/emotion_reward_func": 0.671875,
+      "rewards/format_reward_func": 0.96875,
       "step": 94
     },
     {
+      "completion_length": 50.25,
       "epoch": 0.12666666666666668,
+      "grad_norm": 0.020403465256094933,
+      "kl": 0.11631555296480656,
       "learning_rate": 3.077914851215585e-09,
+      "loss": 0.0001,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/emotion_reward_func": 0.5,
+      "rewards/format_reward_func": 1.0,
       "step": 95
     },
     {
+      "completion_length": 53.671875,
       "epoch": 0.128,
+      "grad_norm": 6.355586528778076,
+      "kl": 0.11114749684929848,
       "learning_rate": 1.9713246713805587e-09,
       "loss": 0.0001,
+      "reward": 1.578125,
+      "reward_std": 0.33949775248765945,
+      "rewards/emotion_reward_func": 0.59375,
+      "rewards/format_reward_func": 0.984375,
       "step": 96
     },
     {
+      "completion_length": 51.921875,
       "epoch": 0.12933333333333333,
+      "grad_norm": 7.896821022033691,
+      "kl": 0.14222519844770432,
       "learning_rate": 1.1095088492300008e-09,
+      "loss": 0.0001,
+      "reward": 1.625,
+      "reward_std": 0.1905868798494339,
+      "rewards/emotion_reward_func": 0.625,
+      "rewards/format_reward_func": 1.0,
       "step": 97
     },
     {
+      "completion_length": 52.90625,
       "epoch": 0.13066666666666665,
+      "grad_norm": 8.117393493652344,
+      "kl": 0.29374901205301285,
       "learning_rate": 4.933178929321102e-10,
+      "loss": 0.0003,
+      "reward": 1.65625,
+      "reward_std": 0.5836337506771088,
+      "rewards/emotion_reward_func": 0.71875,
+      "rewards/format_reward_func": 0.9375,
       "step": 98
     },
     {
+      "completion_length": 49.234375,
       "epoch": 0.132,
+      "grad_norm": 4.081859111785889,
+      "kl": 0.12134127877652645,
       "learning_rate": 1.2335990856709998e-10,
       "loss": 0.0001,
+      "reward": 1.75,
+      "reward_std": 0.2367546260356903,
+      "rewards/emotion_reward_func": 0.765625,
+      "rewards/format_reward_func": 0.984375,
       "step": 99
     },
     {
+      "completion_length": 51.25,
       "epoch": 0.13333333333333333,
+      "grad_norm": 6.719541072845459,
+      "kl": 0.1454935073852539,
       "learning_rate": 0.0,
       "loss": 0.0001,
+      "reward": 1.609375,
+      "reward_std": 0.36967839300632477,
+      "rewards/emotion_reward_func": 0.640625,
+      "rewards/format_reward_func": 0.96875,
       "step": 100
     }
   ],
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44028d40b3841ea820da6e7b4c46c26072bff1fc53ba336bed63b0030abe9bdd
-size 5560

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc6e728504ceeed070362223f2228cf2aa1bf386361fcc0c0d4d877e62196c58
+size 5752