End of training

Browse files

Files changed (10) hide show

README.md +100 -0
all_results.json +8 -0
config.json +63 -0
model.safetensors +3 -0
preprocessor_config.json +26 -0
runs/Feb20_20-21-03_plan.cs.vt.edu/events.out.tfevents.1708489271.plan.cs.vt.edu.4158866.0 +3 -0
runs/Feb20_20-21-03_plan.cs.vt.edu/events.out.tfevents.1708491367.plan.cs.vt.edu.4158866.1 +3 -0
test_results.json +8 -0
trainer_state.json +738 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,100 @@

+---
+license: cc-by-nc-4.0
+base_model: MCG-NJU/videomae-huge-finetuned-kinetics
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: videomae-huge
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# videomae-huge
+This model is a fine-tuned version of [MCG-NJU/videomae-huge-finetuned-kinetics](https://huggingface.co/MCG-NJU/videomae-huge-finetuned-kinetics) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.5347
+- Accuracy: 0.4286
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- training_steps: 275
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 2.6465        | 0.03  | 7    | 2.6473          | 0.0714   |
+| 2.6262        | 1.03  | 14   | 2.6245          | 0.1429   |
+| 2.5179        | 2.03  | 21   | 2.5627          | 0.1786   |
+| 2.4135        | 3.03  | 28   | 2.4946          | 0.1429   |
+| 2.1202        | 4.03  | 35   | 2.4093          | 0.3214   |
+| 1.848         | 5.03  | 42   | 2.3353          | 0.2857   |
+| 1.726         | 6.03  | 49   | 2.2536          | 0.3214   |
+| 1.3251        | 7.03  | 56   | 2.1674          | 0.3571   |
+| 1.174         | 8.03  | 63   | 2.1128          | 0.3571   |
+| 0.9108        | 9.03  | 70   | 2.0246          | 0.4286   |
+| 0.7467        | 10.03 | 77   | 1.9720          | 0.3571   |
+| 0.6224        | 11.03 | 84   | 1.9130          | 0.3929   |
+| 0.4737        | 12.03 | 91   | 1.9136          | 0.3929   |
+| 0.3682        | 13.03 | 98   | 1.8184          | 0.4643   |
+| 0.2657        | 14.03 | 105  | 1.8734          | 0.3571   |
+| 0.2085        | 15.03 | 112  | 1.8544          | 0.4286   |
+| 0.175         | 16.03 | 119  | 1.8411          | 0.3929   |
+| 0.1327        | 17.03 | 126  | 1.7585          | 0.3929   |
+| 0.1001        | 18.03 | 133  | 1.8193          | 0.3929   |
+| 0.0832        | 19.03 | 140  | 1.7595          | 0.3929   |
+| 0.085         | 20.03 | 147  | 1.7836          | 0.4286   |
+| 0.0614        | 21.03 | 154  | 1.7182          | 0.4286   |
+| 0.0496        | 22.03 | 161  | 1.7845          | 0.4286   |
+| 0.0474        | 23.03 | 168  | 1.7712          | 0.4643   |
+| 0.0403        | 24.03 | 175  | 1.7409          | 0.4643   |
+| 0.0395        | 25.03 | 182  | 1.7425          | 0.4643   |
+| 0.0369        | 26.03 | 189  | 1.7532          | 0.4643   |
+| 0.0346        | 27.03 | 196  | 1.7388          | 0.5      |
+| 0.0321        | 28.03 | 203  | 1.7391          | 0.5      |
+| 0.0314        | 29.03 | 210  | 1.7470          | 0.5      |
+| 0.0313        | 30.03 | 217  | 1.7349          | 0.4643   |
+| 0.0307        | 31.03 | 224  | 1.7574          | 0.4643   |
+| 0.0283        | 32.03 | 231  | 1.7857          | 0.4286   |
+| 0.0276        | 33.03 | 238  | 1.7865          | 0.4643   |
+| 0.0257        | 34.03 | 245  | 1.7707          | 0.4643   |
+| 0.0264        | 35.03 | 252  | 1.7683          | 0.4643   |
+| 0.0254        | 36.03 | 259  | 1.7712          | 0.4643   |
+| 0.0257        | 37.03 | 266  | 1.7736          | 0.4643   |
+| 0.0246        | 38.03 | 273  | 1.7748          | 0.4643   |
+| 0.0242        | 39.01 | 275  | 1.7750          | 0.4643   |
+### Framework versions
+- Transformers 4.37.2
+- Pytorch 2.1.0+cu121
+- Datasets 2.17.1
+- Tokenizers 0.15.2

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 39.01,
+    "eval_accuracy": 0.42857142857142855,
+    "eval_loss": 1.5347131490707397,
+    "eval_runtime": 4.3115,
+    "eval_samples_per_second": 3.247,
+    "eval_steps_per_second": 0.232
+}

config.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "_name_or_path": "MCG-NJU/videomae-huge-finetuned-kinetics",
+  "architectures": [
+    "VideoMAEForVideoClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "decoder_hidden_size": 640,
+  "decoder_intermediate_size": 2560,
+  "decoder_num_attention_heads": 8,
+  "decoder_num_hidden_layers": 12,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 1280,
+  "id2label": {
+    "0": "climb",
+    "1": "crawl",
+    "2": "grasp",
+    "3": "hiding",
+    "4": "jump",
+    "5": "pick up",
+    "6": "pull",
+    "7": "push",
+    "8": "put down",
+    "9": "roll",
+    "10": "running",
+    "11": "slide",
+    "12": "walking",
+    "13": "zibaroon"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 5120,
+  "label2id": {
+    "climb": 0,
+    "crawl": 1,
+    "grasp": 2,
+    "hiding": 3,
+    "jump": 4,
+    "pick up": 5,
+    "pull": 6,
+    "push": 7,
+    "put down": 8,
+    "roll": 9,
+    "running": 10,
+    "slide": 11,
+    "walking": 12,
+    "zibaroon": 13
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "videomae",
+  "norm_pix_loss": true,
+  "num_attention_heads": 16,
+  "num_channels": 3,
+  "num_frames": 16,
+  "num_hidden_layers": 32,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.2",
+  "tubelet_size": 2,
+  "use_mean_pooling": true
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae3205b26f2006d84fdf5f7a0f4d4a1aa6d9b0de42bb0c4f46cb1f6e782af747
+size 2526560304

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "crop_size": {
+    "height": 224,
+    "width": 224
+  },
+  "do_center_crop": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "VideoMAEImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

runs/Feb20_20-21-03_plan.cs.vt.edu/events.out.tfevents.1708489271.plan.cs.vt.edu.4158866.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03b76a965492c64e263a5e24d51287d8d2b340420ff20a13f85aab0019a3d129
+size 26802

runs/Feb20_20-21-03_plan.cs.vt.edu/events.out.tfevents.1708491367.plan.cs.vt.edu.4158866.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:501216b5b76b5259fcbe97bb0fbcd017c0d8c17ba11277140f094f0749469bf9
+size 734

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 39.01,
+    "eval_accuracy": 0.42857142857142855,
+    "eval_loss": 1.5347131490707397,
+    "eval_runtime": 4.3115,
+    "eval_samples_per_second": 3.247,
+    "eval_steps_per_second": 0.232
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,738 @@

+{
+  "best_metric": 0.5,
+  "best_model_checkpoint": "Tianjiao-Yu/videomae-huge/checkpoint-196",
+  "epoch": 39.00727272727273,
+  "eval_steps": 500,
+  "global_step": 275,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 8.92857142857143e-06,
+      "loss": 2.6465,
+      "step": 5
+    },
+    {
+      "epoch": 0.03,
+      "eval_accuracy": 0.07142857142857142,
+      "eval_loss": 2.647310972213745,
+      "eval_runtime": 8.9709,
+      "eval_samples_per_second": 3.121,
+      "eval_steps_per_second": 0.223,
+      "step": 7
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 2.6262,
+      "step": 10
+    },
+    {
+      "epoch": 1.03,
+      "eval_accuracy": 0.14285714285714285,
+      "eval_loss": 2.624509811401367,
+      "eval_runtime": 7.3449,
+      "eval_samples_per_second": 3.812,
+      "eval_steps_per_second": 0.272,
+      "step": 14
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.6785714285714288e-05,
+      "loss": 2.5945,
+      "step": 15
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 2.5179,
+      "step": 20
+    },
+    {
+      "epoch": 2.03,
+      "eval_accuracy": 0.17857142857142858,
+      "eval_loss": 2.562652111053467,
+      "eval_runtime": 8.1508,
+      "eval_samples_per_second": 3.435,
+      "eval_steps_per_second": 0.245,
+      "step": 21
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 4.464285714285715e-05,
+      "loss": 2.4135,
+      "step": 25
+    },
+    {
+      "epoch": 3.03,
+      "eval_accuracy": 0.14285714285714285,
+      "eval_loss": 2.494605302810669,
+      "eval_runtime": 7.2598,
+      "eval_samples_per_second": 3.857,
+      "eval_steps_per_second": 0.275,
+      "step": 28
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.9595141700404864e-05,
+      "loss": 2.182,
+      "step": 30
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 4.8582995951417004e-05,
+      "loss": 2.1202,
+      "step": 35
+    },
+    {
+      "epoch": 4.03,
+      "eval_accuracy": 0.32142857142857145,
+      "eval_loss": 2.4093017578125,
+      "eval_runtime": 7.6554,
+      "eval_samples_per_second": 3.658,
+      "eval_steps_per_second": 0.261,
+      "step": 35
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 4.757085020242915e-05,
+      "loss": 1.848,
+      "step": 40
+    },
+    {
+      "epoch": 5.03,
+      "eval_accuracy": 0.2857142857142857,
+      "eval_loss": 2.335253953933716,
+      "eval_runtime": 7.517,
+      "eval_samples_per_second": 3.725,
+      "eval_steps_per_second": 0.266,
+      "step": 42
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 4.65587044534413e-05,
+      "loss": 1.726,
+      "step": 45
+    },
+    {
+      "epoch": 6.03,
+      "eval_accuracy": 0.32142857142857145,
+      "eval_loss": 2.2536072731018066,
+      "eval_runtime": 7.0278,
+      "eval_samples_per_second": 3.984,
+      "eval_steps_per_second": 0.285,
+      "step": 49
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 4.5546558704453443e-05,
+      "loss": 1.5657,
+      "step": 50
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 4.453441295546559e-05,
+      "loss": 1.3251,
+      "step": 55
+    },
+    {
+      "epoch": 7.03,
+      "eval_accuracy": 0.35714285714285715,
+      "eval_loss": 2.1673505306243896,
+      "eval_runtime": 8.0208,
+      "eval_samples_per_second": 3.491,
+      "eval_steps_per_second": 0.249,
+      "step": 56
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 4.3522267206477737e-05,
+      "loss": 1.174,
+      "step": 60
+    },
+    {
+      "epoch": 8.03,
+      "eval_accuracy": 0.35714285714285715,
+      "eval_loss": 2.1128125190734863,
+      "eval_runtime": 8.0792,
+      "eval_samples_per_second": 3.466,
+      "eval_steps_per_second": 0.248,
+      "step": 63
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 4.251012145748988e-05,
+      "loss": 0.9546,
+      "step": 65
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 4.149797570850202e-05,
+      "loss": 0.9108,
+      "step": 70
+    },
+    {
+      "epoch": 9.03,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 2.0245614051818848,
+      "eval_runtime": 7.8233,
+      "eval_samples_per_second": 3.579,
+      "eval_steps_per_second": 0.256,
+      "step": 70
+    },
+    {
+      "epoch": 10.02,
+      "learning_rate": 4.048582995951417e-05,
+      "loss": 0.7467,
+      "step": 75
+    },
+    {
+      "epoch": 10.03,
+      "eval_accuracy": 0.35714285714285715,
+      "eval_loss": 1.9719778299331665,
+      "eval_runtime": 7.6011,
+      "eval_samples_per_second": 3.684,
+      "eval_steps_per_second": 0.263,
+      "step": 77
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 3.9473684210526316e-05,
+      "loss": 0.6224,
+      "step": 80
+    },
+    {
+      "epoch": 11.03,
+      "eval_accuracy": 0.39285714285714285,
+      "eval_loss": 1.9129974842071533,
+      "eval_runtime": 7.7956,
+      "eval_samples_per_second": 3.592,
+      "eval_steps_per_second": 0.257,
+      "step": 84
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 0.5523,
+      "step": 85
+    },
+    {
+      "epoch": 12.02,
+      "learning_rate": 3.744939271255061e-05,
+      "loss": 0.4737,
+      "step": 90
+    },
+    {
+      "epoch": 12.03,
+      "eval_accuracy": 0.39285714285714285,
+      "eval_loss": 1.9135581254959106,
+      "eval_runtime": 8.3212,
+      "eval_samples_per_second": 3.365,
+      "eval_steps_per_second": 0.24,
+      "step": 91
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 3.6437246963562756e-05,
+      "loss": 0.3682,
+      "step": 95
+    },
+    {
+      "epoch": 13.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.8183634281158447,
+      "eval_runtime": 8.3757,
+      "eval_samples_per_second": 3.343,
+      "eval_steps_per_second": 0.239,
+      "step": 98
+    },
+    {
+      "epoch": 14.01,
+      "learning_rate": 3.54251012145749e-05,
+      "loss": 0.3151,
+      "step": 100
+    },
+    {
+      "epoch": 14.03,
+      "learning_rate": 3.441295546558704e-05,
+      "loss": 0.2657,
+      "step": 105
+    },
+    {
+      "epoch": 14.03,
+      "eval_accuracy": 0.35714285714285715,
+      "eval_loss": 1.8734323978424072,
+      "eval_runtime": 8.0062,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 0.25,
+      "step": 105
+    },
+    {
+      "epoch": 15.02,
+      "learning_rate": 3.340080971659919e-05,
+      "loss": 0.2085,
+      "step": 110
+    },
+    {
+      "epoch": 15.03,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.8544093370437622,
+      "eval_runtime": 7.1501,
+      "eval_samples_per_second": 3.916,
+      "eval_steps_per_second": 0.28,
+      "step": 112
+    },
+    {
+      "epoch": 16.01,
+      "learning_rate": 3.2388663967611336e-05,
+      "loss": 0.175,
+      "step": 115
+    },
+    {
+      "epoch": 16.03,
+      "eval_accuracy": 0.39285714285714285,
+      "eval_loss": 1.8410834074020386,
+      "eval_runtime": 7.4699,
+      "eval_samples_per_second": 3.748,
+      "eval_steps_per_second": 0.268,
+      "step": 119
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 3.137651821862348e-05,
+      "loss": 0.1416,
+      "step": 120
+    },
+    {
+      "epoch": 17.02,
+      "learning_rate": 3.0364372469635626e-05,
+      "loss": 0.1327,
+      "step": 125
+    },
+    {
+      "epoch": 17.03,
+      "eval_accuracy": 0.39285714285714285,
+      "eval_loss": 1.7585405111312866,
+      "eval_runtime": 7.2596,
+      "eval_samples_per_second": 3.857,
+      "eval_steps_per_second": 0.275,
+      "step": 126
+    },
+    {
+      "epoch": 18.01,
+      "learning_rate": 2.9352226720647776e-05,
+      "loss": 0.1001,
+      "step": 130
+    },
+    {
+      "epoch": 18.03,
+      "eval_accuracy": 0.39285714285714285,
+      "eval_loss": 1.8193204402923584,
+      "eval_runtime": 7.6478,
+      "eval_samples_per_second": 3.661,
+      "eval_steps_per_second": 0.262,
+      "step": 133
+    },
+    {
+      "epoch": 19.01,
+      "learning_rate": 2.8340080971659922e-05,
+      "loss": 0.094,
+      "step": 135
+    },
+    {
+      "epoch": 19.03,
+      "learning_rate": 2.732793522267207e-05,
+      "loss": 0.0832,
+      "step": 140
+    },
+    {
+      "epoch": 19.03,
+      "eval_accuracy": 0.39285714285714285,
+      "eval_loss": 1.759466528892517,
+      "eval_runtime": 7.1794,
+      "eval_samples_per_second": 3.9,
+      "eval_steps_per_second": 0.279,
+      "step": 140
+    },
+    {
+      "epoch": 20.02,
+      "learning_rate": 2.6315789473684212e-05,
+      "loss": 0.085,
+      "step": 145
+    },
+    {
+      "epoch": 20.03,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.7836247682571411,
+      "eval_runtime": 7.7103,
+      "eval_samples_per_second": 3.631,
+      "eval_steps_per_second": 0.259,
+      "step": 147
+    },
+    {
+      "epoch": 21.01,
+      "learning_rate": 2.530364372469636e-05,
+      "loss": 0.0614,
+      "step": 150
+    },
+    {
+      "epoch": 21.03,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.7181528806686401,
+      "eval_runtime": 7.4571,
+      "eval_samples_per_second": 3.755,
+      "eval_steps_per_second": 0.268,
+      "step": 154
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 2.4291497975708502e-05,
+      "loss": 0.0604,
+      "step": 155
+    },
+    {
+      "epoch": 22.02,
+      "learning_rate": 2.327935222672065e-05,
+      "loss": 0.0496,
+      "step": 160
+    },
+    {
+      "epoch": 22.03,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.7844511270523071,
+      "eval_runtime": 7.281,
+      "eval_samples_per_second": 3.846,
+      "eval_steps_per_second": 0.275,
+      "step": 161
+    },
+    {
+      "epoch": 23.01,
+      "learning_rate": 2.2267206477732795e-05,
+      "loss": 0.0474,
+      "step": 165
+    },
+    {
+      "epoch": 23.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.771189570426941,
+      "eval_runtime": 7.0825,
+      "eval_samples_per_second": 3.953,
+      "eval_steps_per_second": 0.282,
+      "step": 168
+    },
+    {
+      "epoch": 24.01,
+      "learning_rate": 2.125506072874494e-05,
+      "loss": 0.0423,
+      "step": 170
+    },
+    {
+      "epoch": 24.03,
+      "learning_rate": 2.0242914979757085e-05,
+      "loss": 0.0403,
+      "step": 175
+    },
+    {
+      "epoch": 24.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.740900993347168,
+      "eval_runtime": 6.8813,
+      "eval_samples_per_second": 4.069,
+      "eval_steps_per_second": 0.291,
+      "step": 175
+    },
+    {
+      "epoch": 25.02,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.0395,
+      "step": 180
+    },
+    {
+      "epoch": 25.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.7425283193588257,
+      "eval_runtime": 7.2597,
+      "eval_samples_per_second": 3.857,
+      "eval_steps_per_second": 0.275,
+      "step": 182
+    },
+    {
+      "epoch": 26.01,
+      "learning_rate": 1.8218623481781378e-05,
+      "loss": 0.0369,
+      "step": 185
+    },
+    {
+      "epoch": 26.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.7531570196151733,
+      "eval_runtime": 6.8458,
+      "eval_samples_per_second": 4.09,
+      "eval_steps_per_second": 0.292,
+      "step": 189
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 1.720647773279352e-05,
+      "loss": 0.0358,
+      "step": 190
+    },
+    {
+      "epoch": 27.02,
+      "learning_rate": 1.6194331983805668e-05,
+      "loss": 0.0346,
+      "step": 195
+    },
+    {
+      "epoch": 27.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.7388352155685425,
+      "eval_runtime": 7.2714,
+      "eval_samples_per_second": 3.851,
+      "eval_steps_per_second": 0.275,
+      "step": 196
+    },
+    {
+      "epoch": 28.01,
+      "learning_rate": 1.5182186234817813e-05,
+      "loss": 0.0321,
+      "step": 200
+    },
+    {
+      "epoch": 28.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.7390631437301636,
+      "eval_runtime": 7.0464,
+      "eval_samples_per_second": 3.974,
+      "eval_steps_per_second": 0.284,
+      "step": 203
+    },
+    {
+      "epoch": 29.01,
+      "learning_rate": 1.4170040485829961e-05,
+      "loss": 0.0351,
+      "step": 205
+    },
+    {
+      "epoch": 29.03,
+      "learning_rate": 1.3157894736842106e-05,
+      "loss": 0.0314,
+      "step": 210
+    },
+    {
+      "epoch": 29.03,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.7469881772994995,
+      "eval_runtime": 6.6833,
+      "eval_samples_per_second": 4.19,
+      "eval_steps_per_second": 0.299,
+      "step": 210
+    },
+    {
+      "epoch": 30.02,
+      "learning_rate": 1.2145748987854251e-05,
+      "loss": 0.0313,
+      "step": 215
+    },
+    {
+      "epoch": 30.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.7349082231521606,
+      "eval_runtime": 6.7759,
+      "eval_samples_per_second": 4.132,
+      "eval_steps_per_second": 0.295,
+      "step": 217
+    },
+    {
+      "epoch": 31.01,
+      "learning_rate": 1.1133603238866398e-05,
+      "loss": 0.0307,
+      "step": 220
+    },
+    {
+      "epoch": 31.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.7574304342269897,
+      "eval_runtime": 6.501,
+      "eval_samples_per_second": 4.307,
+      "eval_steps_per_second": 0.308,
+      "step": 224
+    },
+    {
+      "epoch": 32.0,
+      "learning_rate": 1.0121457489878542e-05,
+      "loss": 0.0296,
+      "step": 225
+    },
+    {
+      "epoch": 32.02,
+      "learning_rate": 9.109311740890689e-06,
+      "loss": 0.0283,
+      "step": 230
+    },
+    {
+      "epoch": 32.03,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.7856690883636475,
+      "eval_runtime": 6.5016,
+      "eval_samples_per_second": 4.307,
+      "eval_steps_per_second": 0.308,
+      "step": 231
+    },
+    {
+      "epoch": 33.01,
+      "learning_rate": 8.097165991902834e-06,
+      "loss": 0.0276,
+      "step": 235
+    },
+    {
+      "epoch": 33.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.786450982093811,
+      "eval_runtime": 7.4349,
+      "eval_samples_per_second": 3.766,
+      "eval_steps_per_second": 0.269,
+      "step": 238
+    },
+    {
+      "epoch": 34.01,
+      "learning_rate": 7.0850202429149805e-06,
+      "loss": 0.0282,
+      "step": 240
+    },
+    {
+      "epoch": 34.03,
+      "learning_rate": 6.0728744939271254e-06,
+      "loss": 0.0257,
+      "step": 245
+    },
+    {
+      "epoch": 34.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.7707021236419678,
+      "eval_runtime": 7.9939,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 0.25,
+      "step": 245
+    },
+    {
+      "epoch": 35.02,
+      "learning_rate": 5.060728744939271e-06,
+      "loss": 0.0264,
+      "step": 250
+    },
+    {
+      "epoch": 35.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.7682857513427734,
+      "eval_runtime": 7.2901,
+      "eval_samples_per_second": 3.841,
+      "eval_steps_per_second": 0.274,
+      "step": 252
+    },
+    {
+      "epoch": 36.01,
+      "learning_rate": 4.048582995951417e-06,
+      "loss": 0.0254,
+      "step": 255
+    },
+    {
+      "epoch": 36.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.7711747884750366,
+      "eval_runtime": 7.529,
+      "eval_samples_per_second": 3.719,
+      "eval_steps_per_second": 0.266,
+      "step": 259
+    },
+    {
+      "epoch": 37.0,
+      "learning_rate": 3.0364372469635627e-06,
+      "loss": 0.0247,
+      "step": 260
+    },
+    {
+      "epoch": 37.02,
+      "learning_rate": 2.0242914979757085e-06,
+      "loss": 0.0257,
+      "step": 265
+    },
+    {
+      "epoch": 37.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.7735536098480225,
+      "eval_runtime": 7.5429,
+      "eval_samples_per_second": 3.712,
+      "eval_steps_per_second": 0.265,
+      "step": 266
+    },
+    {
+      "epoch": 38.01,
+      "learning_rate": 1.0121457489878542e-06,
+      "loss": 0.0246,
+      "step": 270
+    },
+    {
+      "epoch": 38.03,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.7748419046401978,
+      "eval_runtime": 7.4873,
+      "eval_samples_per_second": 3.74,
+      "eval_steps_per_second": 0.267,
+      "step": 273
+    },
+    {
+      "epoch": 39.01,
+      "learning_rate": 0.0,
+      "loss": 0.0242,
+      "step": 275
+    },
+    {
+      "epoch": 39.01,
+      "eval_accuracy": 0.4642857142857143,
+      "eval_loss": 1.774975061416626,
+      "eval_runtime": 7.7693,
+      "eval_samples_per_second": 3.604,
+      "eval_steps_per_second": 0.257,
+      "step": 275
+    },
+    {
+      "epoch": 39.01,
+      "step": 275,
+      "total_flos": 3.980465870018229e+19,
+      "train_loss": 0.5794233712283048,
+      "train_runtime": 2037.2017,
+      "train_samples_per_second": 2.16,
+      "train_steps_per_second": 0.135
+    },
+    {
+      "epoch": 39.01,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.5347131490707397,
+      "eval_runtime": 5.4942,
+      "eval_samples_per_second": 2.548,
+      "eval_steps_per_second": 0.182,
+      "step": 275
+    },
+    {
+      "epoch": 39.01,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.5347131490707397,
+      "eval_runtime": 4.3115,
+      "eval_samples_per_second": 3.247,
+      "eval_steps_per_second": 0.232,
+      "step": 275
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 275,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "total_flos": 3.980465870018229e+19,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5da55cdf3ae599f60b6c1ca815936709b3bb7791b63b743fed24cd1f23ce505
+size 4728