End of training

Browse files

Files changed (15) hide show

README.md +12 -46
all_results.json +5 -5
config.json +10 -10
model.safetensors +2 -2
runs/Mar25_09-23-36_plan.cs.vt.edu/events.out.tfevents.1711383837.plan.cs.vt.edu.376416.0 +3 -0
runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384364.plan.cs.vt.edu.376416.1 +3 -0
runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384513.plan.cs.vt.edu.376416.2 +3 -0
runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384569.plan.cs.vt.edu.376416.3 +3 -0
runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384600.plan.cs.vt.edu.376416.4 +3 -0
runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384646.plan.cs.vt.edu.376416.5 +3 -0
runs/Mar25_09-40-56_plan.cs.vt.edu/events.out.tfevents.1711384864.plan.cs.vt.edu.394257.0 +3 -0
runs/Mar25_09-40-56_plan.cs.vt.edu/events.out.tfevents.1711385275.plan.cs.vt.edu.394257.1 +3 -0
test_results.json +5 -5
trainer_state.json +106 -652
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 license: cc-by-nc-4.0
-base_model: MCG-NJU/videomae-huge-finetuned-kinetics
 tags:
 - generated_from_trainer
 metrics:
@@ -15,9 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 # videomae-huge
-This model is a fine-tuned version of [MCG-NJU/videomae-huge-finetuned-kinetics](https://huggingface.co/MCG-NJU/videomae-huge-finetuned-kinetics) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.5347
 - Accuracy: 0.4286
 ## Model description
@@ -38,58 +38,24 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 16
-- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- training_steps: 275
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 2.6465        | 0.03  | 7    | 2.6473          | 0.0714   |
-| 2.6262        | 1.03  | 14   | 2.6245          | 0.1429   |
-| 2.5179        | 2.03  | 21   | 2.5627          | 0.1786   |
-| 2.4135        | 3.03  | 28   | 2.4946          | 0.1429   |
-| 2.1202        | 4.03  | 35   | 2.4093          | 0.3214   |
-| 1.848         | 5.03  | 42   | 2.3353          | 0.2857   |
-| 1.726         | 6.03  | 49   | 2.2536          | 0.3214   |
-| 1.3251        | 7.03  | 56   | 2.1674          | 0.3571   |
-| 1.174         | 8.03  | 63   | 2.1128          | 0.3571   |
-| 0.9108        | 9.03  | 70   | 2.0246          | 0.4286   |
-| 0.7467        | 10.03 | 77   | 1.9720          | 0.3571   |
-| 0.6224        | 11.03 | 84   | 1.9130          | 0.3929   |
-| 0.4737        | 12.03 | 91   | 1.9136          | 0.3929   |
-| 0.3682        | 13.03 | 98   | 1.8184          | 0.4643   |
-| 0.2657        | 14.03 | 105  | 1.8734          | 0.3571   |
-| 0.2085        | 15.03 | 112  | 1.8544          | 0.4286   |
-| 0.175         | 16.03 | 119  | 1.8411          | 0.3929   |
-| 0.1327        | 17.03 | 126  | 1.7585          | 0.3929   |
-| 0.1001        | 18.03 | 133  | 1.8193          | 0.3929   |
-| 0.0832        | 19.03 | 140  | 1.7595          | 0.3929   |
-| 0.085         | 20.03 | 147  | 1.7836          | 0.4286   |
-| 0.0614        | 21.03 | 154  | 1.7182          | 0.4286   |
-| 0.0496        | 22.03 | 161  | 1.7845          | 0.4286   |
-| 0.0474        | 23.03 | 168  | 1.7712          | 0.4643   |
-| 0.0403        | 24.03 | 175  | 1.7409          | 0.4643   |
-| 0.0395        | 25.03 | 182  | 1.7425          | 0.4643   |
-| 0.0369        | 26.03 | 189  | 1.7532          | 0.4643   |
-| 0.0346        | 27.03 | 196  | 1.7388          | 0.5      |
-| 0.0321        | 28.03 | 203  | 1.7391          | 0.5      |
-| 0.0314        | 29.03 | 210  | 1.7470          | 0.5      |
-| 0.0313        | 30.03 | 217  | 1.7349          | 0.4643   |
-| 0.0307        | 31.03 | 224  | 1.7574          | 0.4643   |
-| 0.0283        | 32.03 | 231  | 1.7857          | 0.4286   |
-| 0.0276        | 33.03 | 238  | 1.7865          | 0.4643   |
-| 0.0257        | 34.03 | 245  | 1.7707          | 0.4643   |
-| 0.0264        | 35.03 | 252  | 1.7683          | 0.4643   |
-| 0.0254        | 36.03 | 259  | 1.7712          | 0.4643   |
-| 0.0257        | 37.03 | 266  | 1.7736          | 0.4643   |
-| 0.0246        | 38.03 | 273  | 1.7748          | 0.4643   |
-| 0.0242        | 39.01 | 275  | 1.7750          | 0.4643   |
 ### Framework versions

 ---
 license: cc-by-nc-4.0
+base_model: MCG-NJU/videomae-base-finetuned-kinetics
 tags:
 - generated_from_trainer
 metrics:
 # videomae-huge
+This model is a fine-tuned version of [MCG-NJU/videomae-base-finetuned-kinetics](https://huggingface.co/MCG-NJU/videomae-base-finetuned-kinetics) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.0714
 - Accuracy: 0.4286
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- training_steps: 78
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 2.6392        | 0.18  | 14   | 2.5780          | 0.25     |
+| 1.994         | 1.18  | 28   | 2.3995          | 0.3929   |
+| 1.6374        | 2.18  | 42   | 2.3010          | 0.3929   |
+| 1.124         | 3.18  | 56   | 2.2242          | 0.3929   |
+| 0.9569        | 4.18  | 70   | 2.1825          | 0.4286   |
+| 0.8862        | 5.1   | 78   | 2.1734          | 0.4286   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 39.01,
     "eval_accuracy": 0.42857142857142855,
-    "eval_loss": 1.5347131490707397,
-    "eval_runtime": 4.3115,
-    "eval_samples_per_second": 3.247,
-    "eval_steps_per_second": 0.232
 }

 {
+    "epoch": 5.1,
     "eval_accuracy": 0.42857142857142855,
+    "eval_loss": 2.0714259147644043,
+    "eval_runtime": 3.8707,
+    "eval_samples_per_second": 3.617,
+    "eval_steps_per_second": 0.517
 }

config.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-  "_name_or_path": "MCG-NJU/videomae-huge-finetuned-kinetics",
   "architectures": [
     "VideoMAEForVideoClassification"
   ],
   "attention_probs_dropout_prob": 0.0,
-  "decoder_hidden_size": 640,
-  "decoder_intermediate_size": 2560,
-  "decoder_num_attention_heads": 8,
-  "decoder_num_hidden_layers": 12,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.0,
-  "hidden_size": 1280,
   "id2label": {
     "0": "climb",
     "1": "crawl",
@@ -29,7 +29,7 @@
   },
   "image_size": 224,
   "initializer_range": 0.02,
-  "intermediate_size": 5120,
   "label2id": {
     "climb": 0,
     "crawl": 1,
@@ -48,11 +48,11 @@
   },
   "layer_norm_eps": 1e-12,
   "model_type": "videomae",
-  "norm_pix_loss": true,
-  "num_attention_heads": 16,
   "num_channels": 3,
   "num_frames": 16,
-  "num_hidden_layers": 32,
   "patch_size": 16,
   "problem_type": "single_label_classification",
   "qkv_bias": true,

 {
+  "_name_or_path": "MCG-NJU/videomae-base-finetuned-kinetics",
   "architectures": [
     "VideoMAEForVideoClassification"
   ],
   "attention_probs_dropout_prob": 0.0,
+  "decoder_hidden_size": 384,
+  "decoder_intermediate_size": 1536,
+  "decoder_num_attention_heads": 6,
+  "decoder_num_hidden_layers": 4,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
   "id2label": {
     "0": "climb",
     "1": "crawl",
   },
   "image_size": 224,
   "initializer_range": 0.02,
+  "intermediate_size": 3072,
   "label2id": {
     "climb": 0,
     "crawl": 1,
   },
   "layer_norm_eps": 1e-12,
   "model_type": "videomae",
+  "norm_pix_loss": false,
+  "num_attention_heads": 12,
   "num_channels": 3,
   "num_frames": 16,
+  "num_hidden_layers": 12,
   "patch_size": 16,
   "problem_type": "single_label_classification",
   "qkv_bias": true,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae3205b26f2006d84fdf5f7a0f4d4a1aa6d9b0de42bb0c4f46cb1f6e782af747
-size 2526560304

 version https://git-lfs.github.com/spec/v1
+oid sha256:2123bd697e01c062399aa24d6818dc3064782f219a69cd69864c69d5aa3df57f
+size 344974248

runs/Mar25_09-23-36_plan.cs.vt.edu/events.out.tfevents.1711383837.plan.cs.vt.edu.376416.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ef33a4dbd743b6b84fdcd8cdb9e0a35f7b911a4b769f96e2df816bbf6d90563
+size 5074

runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384364.plan.cs.vt.edu.376416.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48239d8c28d82c026743bf94e14c63195d7cb740c2ad82d331d6143c62a2da95
+size 5074

runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384513.plan.cs.vt.edu.376416.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4df2ce2566dea9be0b2e6860e90bdc1a33374386cb436919b963fcbf95a87d43
+size 5074

runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384569.plan.cs.vt.edu.376416.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73c885e9631091493a0606fff30004e065409c2e1353d9ed405f741617bb4f26
+size 5123

runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384600.plan.cs.vt.edu.376416.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64e24efa2ca59f331be4c14c47350f77999cfbe4f00c608a823142bbdf3ce2f2
+size 5123

runs/Mar25_09-32-34_plan.cs.vt.edu/events.out.tfevents.1711384646.plan.cs.vt.edu.376416.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3e720408dfcd55af363cf818d1acb9244f9a0bdb152ec847b1d4add5b542f54
+size 5123

runs/Mar25_09-40-56_plan.cs.vt.edu/events.out.tfevents.1711384864.plan.cs.vt.edu.394257.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:992c87eb2cb0ee976f99118e93fa327020001d7921fc68c3c8a0cb00b341f932
+size 9634

runs/Mar25_09-40-56_plan.cs.vt.edu/events.out.tfevents.1711385275.plan.cs.vt.edu.394257.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26face0e8f8dc66b68723685ae10279d5420f09069f04872a3b8bd1973ce6687
+size 722

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 39.01,
     "eval_accuracy": 0.42857142857142855,
-    "eval_loss": 1.5347131490707397,
-    "eval_runtime": 4.3115,
-    "eval_samples_per_second": 3.247,
-    "eval_steps_per_second": 0.232
 }

 {
+    "epoch": 5.1,
     "eval_accuracy": 0.42857142857142855,
+    "eval_loss": 2.0714259147644043,
+    "eval_runtime": 3.8707,
+    "eval_samples_per_second": 3.617,
+    "eval_steps_per_second": 0.517
 }

trainer_state.json CHANGED Viewed

@@ -1,738 +1,192 @@
 {
-  "best_metric": 0.5,
-  "best_model_checkpoint": "Tianjiao-Yu/videomae-huge/checkpoint-196",
-  "epoch": 39.00727272727273,
   "eval_steps": 500,
-  "global_step": 275,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
-      "learning_rate": 8.92857142857143e-06,
-      "loss": 2.6465,
       "step": 5
     },
     {
-      "epoch": 0.03,
-      "eval_accuracy": 0.07142857142857142,
-      "eval_loss": 2.647310972213745,
-      "eval_runtime": 8.9709,
-      "eval_samples_per_second": 3.121,
-      "eval_steps_per_second": 0.223,
-      "step": 7
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 1.785714285714286e-05,
-      "loss": 2.6262,
       "step": 10
     },
     {
-      "epoch": 1.03,
-      "eval_accuracy": 0.14285714285714285,
-      "eval_loss": 2.624509811401367,
-      "eval_runtime": 7.3449,
-      "eval_samples_per_second": 3.812,
-      "eval_steps_per_second": 0.272,
       "step": 14
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 2.6785714285714288e-05,
-      "loss": 2.5945,
       "step": 15
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 2.5179,
       "step": 20
     },
     {
-      "epoch": 2.03,
-      "eval_accuracy": 0.17857142857142858,
-      "eval_loss": 2.562652111053467,
-      "eval_runtime": 8.1508,
-      "eval_samples_per_second": 3.435,
-      "eval_steps_per_second": 0.245,
-      "step": 21
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 4.464285714285715e-05,
-      "loss": 2.4135,
       "step": 25
     },
     {
-      "epoch": 3.03,
-      "eval_accuracy": 0.14285714285714285,
-      "eval_loss": 2.494605302810669,
-      "eval_runtime": 7.2598,
-      "eval_samples_per_second": 3.857,
-      "eval_steps_per_second": 0.275,
       "step": 28
     },
     {
-      "epoch": 4.01,
-      "learning_rate": 4.9595141700404864e-05,
-      "loss": 2.182,
       "step": 30
     },
     {
-      "epoch": 4.03,
-      "learning_rate": 4.8582995951417004e-05,
-      "loss": 2.1202,
       "step": 35
     },
     {
-      "epoch": 4.03,
-      "eval_accuracy": 0.32142857142857145,
-      "eval_loss": 2.4093017578125,
-      "eval_runtime": 7.6554,
-      "eval_samples_per_second": 3.658,
-      "eval_steps_per_second": 0.261,
-      "step": 35
-    },
-    {
-      "epoch": 5.02,
-      "learning_rate": 4.757085020242915e-05,
-      "loss": 1.848,
       "step": 40
     },
     {
-      "epoch": 5.03,
-      "eval_accuracy": 0.2857142857142857,
-      "eval_loss": 2.335253953933716,
-      "eval_runtime": 7.517,
-      "eval_samples_per_second": 3.725,
-      "eval_steps_per_second": 0.266,
       "step": 42
     },
     {
-      "epoch": 6.01,
-      "learning_rate": 4.65587044534413e-05,
-      "loss": 1.726,
       "step": 45
     },
     {
-      "epoch": 6.03,
-      "eval_accuracy": 0.32142857142857145,
-      "eval_loss": 2.2536072731018066,
-      "eval_runtime": 7.0278,
-      "eval_samples_per_second": 3.984,
-      "eval_steps_per_second": 0.285,
-      "step": 49
-    },
-    {
-      "epoch": 7.0,
-      "learning_rate": 4.5546558704453443e-05,
-      "loss": 1.5657,
       "step": 50
     },
     {
-      "epoch": 7.02,
-      "learning_rate": 4.453441295546559e-05,
-      "loss": 1.3251,
       "step": 55
     },
     {
-      "epoch": 7.03,
-      "eval_accuracy": 0.35714285714285715,
-      "eval_loss": 2.1673505306243896,
-      "eval_runtime": 8.0208,
-      "eval_samples_per_second": 3.491,
-      "eval_steps_per_second": 0.249,
       "step": 56
     },
     {
-      "epoch": 8.01,
-      "learning_rate": 4.3522267206477737e-05,
-      "loss": 1.174,
       "step": 60
     },
     {
-      "epoch": 8.03,
-      "eval_accuracy": 0.35714285714285715,
-      "eval_loss": 2.1128125190734863,
-      "eval_runtime": 8.0792,
-      "eval_samples_per_second": 3.466,
-      "eval_steps_per_second": 0.248,
-      "step": 63
-    },
-    {
-      "epoch": 9.01,
-      "learning_rate": 4.251012145748988e-05,
-      "loss": 0.9546,
       "step": 65
     },
     {
-      "epoch": 9.03,
-      "learning_rate": 4.149797570850202e-05,
-      "loss": 0.9108,
       "step": 70
     },
     {
-      "epoch": 9.03,
       "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 2.0245614051818848,
-      "eval_runtime": 7.8233,
-      "eval_samples_per_second": 3.579,
-      "eval_steps_per_second": 0.256,
       "step": 70
     },
     {
-      "epoch": 10.02,
-      "learning_rate": 4.048582995951417e-05,
-      "loss": 0.7467,
       "step": 75
     },
     {
-      "epoch": 10.03,
-      "eval_accuracy": 0.35714285714285715,
-      "eval_loss": 1.9719778299331665,
-      "eval_runtime": 7.6011,
-      "eval_samples_per_second": 3.684,
-      "eval_steps_per_second": 0.263,
-      "step": 77
-    },
-    {
-      "epoch": 11.01,
-      "learning_rate": 3.9473684210526316e-05,
-      "loss": 0.6224,
-      "step": 80
-    },
-    {
-      "epoch": 11.03,
-      "eval_accuracy": 0.39285714285714285,
-      "eval_loss": 1.9129974842071533,
-      "eval_runtime": 7.7956,
-      "eval_samples_per_second": 3.592,
-      "eval_steps_per_second": 0.257,
-      "step": 84
-    },
-    {
-      "epoch": 12.0,
-      "learning_rate": 3.846153846153846e-05,
-      "loss": 0.5523,
-      "step": 85
-    },
-    {
-      "epoch": 12.02,
-      "learning_rate": 3.744939271255061e-05,
-      "loss": 0.4737,
-      "step": 90
-    },
-    {
-      "epoch": 12.03,
-      "eval_accuracy": 0.39285714285714285,
-      "eval_loss": 1.9135581254959106,
-      "eval_runtime": 8.3212,
-      "eval_samples_per_second": 3.365,
-      "eval_steps_per_second": 0.24,
-      "step": 91
-    },
-    {
-      "epoch": 13.01,
-      "learning_rate": 3.6437246963562756e-05,
-      "loss": 0.3682,
-      "step": 95
-    },
-    {
-      "epoch": 13.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.8183634281158447,
-      "eval_runtime": 8.3757,
-      "eval_samples_per_second": 3.343,
-      "eval_steps_per_second": 0.239,
-      "step": 98
-    },
-    {
-      "epoch": 14.01,
-      "learning_rate": 3.54251012145749e-05,
-      "loss": 0.3151,
-      "step": 100
-    },
-    {
-      "epoch": 14.03,
-      "learning_rate": 3.441295546558704e-05,
-      "loss": 0.2657,
-      "step": 105
-    },
-    {
-      "epoch": 14.03,
-      "eval_accuracy": 0.35714285714285715,
-      "eval_loss": 1.8734323978424072,
-      "eval_runtime": 8.0062,
-      "eval_samples_per_second": 3.497,
-      "eval_steps_per_second": 0.25,
-      "step": 105
-    },
-    {
-      "epoch": 15.02,
-      "learning_rate": 3.340080971659919e-05,
-      "loss": 0.2085,
-      "step": 110
-    },
-    {
-      "epoch": 15.03,
-      "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.8544093370437622,
-      "eval_runtime": 7.1501,
-      "eval_samples_per_second": 3.916,
-      "eval_steps_per_second": 0.28,
-      "step": 112
-    },
-    {
-      "epoch": 16.01,
-      "learning_rate": 3.2388663967611336e-05,
-      "loss": 0.175,
-      "step": 115
-    },
-    {
-      "epoch": 16.03,
-      "eval_accuracy": 0.39285714285714285,
-      "eval_loss": 1.8410834074020386,
-      "eval_runtime": 7.4699,
-      "eval_samples_per_second": 3.748,
-      "eval_steps_per_second": 0.268,
-      "step": 119
-    },
-    {
-      "epoch": 17.0,
-      "learning_rate": 3.137651821862348e-05,
-      "loss": 0.1416,
-      "step": 120
-    },
-    {
-      "epoch": 17.02,
-      "learning_rate": 3.0364372469635626e-05,
-      "loss": 0.1327,
-      "step": 125
-    },
-    {
-      "epoch": 17.03,
-      "eval_accuracy": 0.39285714285714285,
-      "eval_loss": 1.7585405111312866,
-      "eval_runtime": 7.2596,
-      "eval_samples_per_second": 3.857,
-      "eval_steps_per_second": 0.275,
-      "step": 126
-    },
-    {
-      "epoch": 18.01,
-      "learning_rate": 2.9352226720647776e-05,
-      "loss": 0.1001,
-      "step": 130
-    },
-    {
-      "epoch": 18.03,
-      "eval_accuracy": 0.39285714285714285,
-      "eval_loss": 1.8193204402923584,
-      "eval_runtime": 7.6478,
-      "eval_samples_per_second": 3.661,
-      "eval_steps_per_second": 0.262,
-      "step": 133
-    },
-    {
-      "epoch": 19.01,
-      "learning_rate": 2.8340080971659922e-05,
-      "loss": 0.094,
-      "step": 135
-    },
-    {
-      "epoch": 19.03,
-      "learning_rate": 2.732793522267207e-05,
-      "loss": 0.0832,
-      "step": 140
-    },
-    {
-      "epoch": 19.03,
-      "eval_accuracy": 0.39285714285714285,
-      "eval_loss": 1.759466528892517,
-      "eval_runtime": 7.1794,
-      "eval_samples_per_second": 3.9,
-      "eval_steps_per_second": 0.279,
-      "step": 140
-    },
-    {
-      "epoch": 20.02,
-      "learning_rate": 2.6315789473684212e-05,
-      "loss": 0.085,
-      "step": 145
-    },
-    {
-      "epoch": 20.03,
-      "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.7836247682571411,
-      "eval_runtime": 7.7103,
-      "eval_samples_per_second": 3.631,
-      "eval_steps_per_second": 0.259,
-      "step": 147
-    },
-    {
-      "epoch": 21.01,
-      "learning_rate": 2.530364372469636e-05,
-      "loss": 0.0614,
-      "step": 150
-    },
-    {
-      "epoch": 21.03,
-      "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.7181528806686401,
-      "eval_runtime": 7.4571,
-      "eval_samples_per_second": 3.755,
-      "eval_steps_per_second": 0.268,
-      "step": 154
-    },
-    {
-      "epoch": 22.0,
-      "learning_rate": 2.4291497975708502e-05,
-      "loss": 0.0604,
-      "step": 155
-    },
-    {
-      "epoch": 22.02,
-      "learning_rate": 2.327935222672065e-05,
-      "loss": 0.0496,
-      "step": 160
-    },
-    {
-      "epoch": 22.03,
-      "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.7844511270523071,
-      "eval_runtime": 7.281,
-      "eval_samples_per_second": 3.846,
-      "eval_steps_per_second": 0.275,
-      "step": 161
-    },
-    {
-      "epoch": 23.01,
-      "learning_rate": 2.2267206477732795e-05,
-      "loss": 0.0474,
-      "step": 165
-    },
-    {
-      "epoch": 23.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.771189570426941,
-      "eval_runtime": 7.0825,
-      "eval_samples_per_second": 3.953,
-      "eval_steps_per_second": 0.282,
-      "step": 168
-    },
-    {
-      "epoch": 24.01,
-      "learning_rate": 2.125506072874494e-05,
-      "loss": 0.0423,
-      "step": 170
-    },
-    {
-      "epoch": 24.03,
-      "learning_rate": 2.0242914979757085e-05,
-      "loss": 0.0403,
-      "step": 175
-    },
-    {
-      "epoch": 24.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.740900993347168,
-      "eval_runtime": 6.8813,
-      "eval_samples_per_second": 4.069,
-      "eval_steps_per_second": 0.291,
-      "step": 175
-    },
-    {
-      "epoch": 25.02,
-      "learning_rate": 1.923076923076923e-05,
-      "loss": 0.0395,
-      "step": 180
-    },
-    {
-      "epoch": 25.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.7425283193588257,
-      "eval_runtime": 7.2597,
-      "eval_samples_per_second": 3.857,
-      "eval_steps_per_second": 0.275,
-      "step": 182
-    },
-    {
-      "epoch": 26.01,
-      "learning_rate": 1.8218623481781378e-05,
-      "loss": 0.0369,
-      "step": 185
-    },
-    {
-      "epoch": 26.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.7531570196151733,
-      "eval_runtime": 6.8458,
-      "eval_samples_per_second": 4.09,
-      "eval_steps_per_second": 0.292,
-      "step": 189
-    },
-    {
-      "epoch": 27.0,
-      "learning_rate": 1.720647773279352e-05,
-      "loss": 0.0358,
-      "step": 190
-    },
-    {
-      "epoch": 27.02,
-      "learning_rate": 1.6194331983805668e-05,
-      "loss": 0.0346,
-      "step": 195
-    },
-    {
-      "epoch": 27.03,
-      "eval_accuracy": 0.5,
-      "eval_loss": 1.7388352155685425,
-      "eval_runtime": 7.2714,
-      "eval_samples_per_second": 3.851,
-      "eval_steps_per_second": 0.275,
-      "step": 196
-    },
-    {
-      "epoch": 28.01,
-      "learning_rate": 1.5182186234817813e-05,
-      "loss": 0.0321,
-      "step": 200
-    },
-    {
-      "epoch": 28.03,
-      "eval_accuracy": 0.5,
-      "eval_loss": 1.7390631437301636,
-      "eval_runtime": 7.0464,
-      "eval_samples_per_second": 3.974,
-      "eval_steps_per_second": 0.284,
-      "step": 203
-    },
-    {
-      "epoch": 29.01,
-      "learning_rate": 1.4170040485829961e-05,
-      "loss": 0.0351,
-      "step": 205
-    },
-    {
-      "epoch": 29.03,
-      "learning_rate": 1.3157894736842106e-05,
-      "loss": 0.0314,
-      "step": 210
-    },
-    {
-      "epoch": 29.03,
-      "eval_accuracy": 0.5,
-      "eval_loss": 1.7469881772994995,
-      "eval_runtime": 6.6833,
-      "eval_samples_per_second": 4.19,
-      "eval_steps_per_second": 0.299,
-      "step": 210
-    },
-    {
-      "epoch": 30.02,
-      "learning_rate": 1.2145748987854251e-05,
-      "loss": 0.0313,
-      "step": 215
-    },
-    {
-      "epoch": 30.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.7349082231521606,
-      "eval_runtime": 6.7759,
-      "eval_samples_per_second": 4.132,
-      "eval_steps_per_second": 0.295,
-      "step": 217
-    },
-    {
-      "epoch": 31.01,
-      "learning_rate": 1.1133603238866398e-05,
-      "loss": 0.0307,
-      "step": 220
-    },
-    {
-      "epoch": 31.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.7574304342269897,
-      "eval_runtime": 6.501,
-      "eval_samples_per_second": 4.307,
-      "eval_steps_per_second": 0.308,
-      "step": 224
-    },
-    {
-      "epoch": 32.0,
-      "learning_rate": 1.0121457489878542e-05,
-      "loss": 0.0296,
-      "step": 225
-    },
-    {
-      "epoch": 32.02,
-      "learning_rate": 9.109311740890689e-06,
-      "loss": 0.0283,
-      "step": 230
-    },
-    {
-      "epoch": 32.03,
       "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.7856690883636475,
-      "eval_runtime": 6.5016,
-      "eval_samples_per_second": 4.307,
-      "eval_steps_per_second": 0.308,
-      "step": 231
-    },
-    {
-      "epoch": 33.01,
-      "learning_rate": 8.097165991902834e-06,
-      "loss": 0.0276,
-      "step": 235
-    },
-    {
-      "epoch": 33.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.786450982093811,
-      "eval_runtime": 7.4349,
-      "eval_samples_per_second": 3.766,
-      "eval_steps_per_second": 0.269,
-      "step": 238
-    },
-    {
-      "epoch": 34.01,
-      "learning_rate": 7.0850202429149805e-06,
-      "loss": 0.0282,
-      "step": 240
-    },
-    {
-      "epoch": 34.03,
-      "learning_rate": 6.0728744939271254e-06,
-      "loss": 0.0257,
-      "step": 245
-    },
-    {
-      "epoch": 34.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.7707021236419678,
-      "eval_runtime": 7.9939,
-      "eval_samples_per_second": 3.503,
-      "eval_steps_per_second": 0.25,
-      "step": 245
-    },
-    {
-      "epoch": 35.02,
-      "learning_rate": 5.060728744939271e-06,
-      "loss": 0.0264,
-      "step": 250
     },
     {
-      "epoch": 35.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.7682857513427734,
-      "eval_runtime": 7.2901,
-      "eval_samples_per_second": 3.841,
-      "eval_steps_per_second": 0.274,
-      "step": 252
     },
     {
-      "epoch": 36.01,
-      "learning_rate": 4.048582995951417e-06,
-      "loss": 0.0254,
-      "step": 255
-    },
-    {
-      "epoch": 36.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.7711747884750366,
-      "eval_runtime": 7.529,
-      "eval_samples_per_second": 3.719,
-      "eval_steps_per_second": 0.266,
-      "step": 259
-    },
-    {
-      "epoch": 37.0,
-      "learning_rate": 3.0364372469635627e-06,
-      "loss": 0.0247,
-      "step": 260
-    },
-    {
-      "epoch": 37.02,
-      "learning_rate": 2.0242914979757085e-06,
-      "loss": 0.0257,
-      "step": 265
-    },
-    {
-      "epoch": 37.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.7735536098480225,
-      "eval_runtime": 7.5429,
-      "eval_samples_per_second": 3.712,
-      "eval_steps_per_second": 0.265,
-      "step": 266
-    },
-    {
-      "epoch": 38.01,
-      "learning_rate": 1.0121457489878542e-06,
-      "loss": 0.0246,
-      "step": 270
-    },
-    {
-      "epoch": 38.03,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.7748419046401978,
-      "eval_runtime": 7.4873,
-      "eval_samples_per_second": 3.74,
-      "eval_steps_per_second": 0.267,
-      "step": 273
-    },
-    {
-      "epoch": 39.01,
-      "learning_rate": 0.0,
-      "loss": 0.0242,
-      "step": 275
-    },
-    {
-      "epoch": 39.01,
-      "eval_accuracy": 0.4642857142857143,
-      "eval_loss": 1.774975061416626,
-      "eval_runtime": 7.7693,
-      "eval_samples_per_second": 3.604,
-      "eval_steps_per_second": 0.257,
-      "step": 275
-    },
-    {
-      "epoch": 39.01,
-      "step": 275,
-      "total_flos": 3.980465870018229e+19,
-      "train_loss": 0.5794233712283048,
-      "train_runtime": 2037.2017,
-      "train_samples_per_second": 2.16,
-      "train_steps_per_second": 0.135
-    },
-    {
-      "epoch": 39.01,
       "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.5347131490707397,
-      "eval_runtime": 5.4942,
-      "eval_samples_per_second": 2.548,
-      "eval_steps_per_second": 0.182,
-      "step": 275
     },
     {
-      "epoch": 39.01,
       "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.5347131490707397,
-      "eval_runtime": 4.3115,
-      "eval_samples_per_second": 3.247,
-      "eval_steps_per_second": 0.232,
-      "step": 275
     }
   ],
   "logging_steps": 5,
-  "max_steps": 275,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
-  "total_flos": 3.980465870018229e+19,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.42857142857142855,
+  "best_model_checkpoint": "Tianjiao-Yu/videomae-huge/checkpoint-70",
+  "epoch": 5.102564102564102,
   "eval_steps": 500,
+  "global_step": 78,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.06,
+      "learning_rate": 3.125e-05,
+      "loss": 2.66,
       "step": 5
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 4.8571428571428576e-05,
+      "loss": 2.6392,
       "step": 10
     },
     {
+      "epoch": 0.18,
+      "eval_accuracy": 0.25,
+      "eval_loss": 2.5779731273651123,
+      "eval_runtime": 7.9027,
+      "eval_samples_per_second": 3.543,
+      "eval_steps_per_second": 0.506,
       "step": 14
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 4.5e-05,
+      "loss": 2.5921,
       "step": 15
     },
     {
+      "epoch": 1.08,
+      "learning_rate": 4.1428571428571437e-05,
+      "loss": 2.2172,
       "step": 20
     },
     {
+      "epoch": 1.14,
+      "learning_rate": 3.785714285714286e-05,
+      "loss": 1.994,
       "step": 25
     },
     {
+      "epoch": 1.18,
+      "eval_accuracy": 0.39285714285714285,
+      "eval_loss": 2.399493932723999,
+      "eval_runtime": 7.938,
+      "eval_samples_per_second": 3.527,
+      "eval_steps_per_second": 0.504,
       "step": 28
     },
     {
+      "epoch": 2.03,
+      "learning_rate": 3.428571428571429e-05,
+      "loss": 1.947,
       "step": 30
     },
     {
+      "epoch": 2.09,
+      "learning_rate": 3.071428571428572e-05,
+      "loss": 1.4849,
       "step": 35
     },
     {
+      "epoch": 2.15,
+      "learning_rate": 2.714285714285714e-05,
+      "loss": 1.6374,
       "step": 40
     },
     {
+      "epoch": 2.18,
+      "eval_accuracy": 0.39285714285714285,
+      "eval_loss": 2.3010246753692627,
+      "eval_runtime": 7.9782,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 0.501,
       "step": 42
     },
     {
+      "epoch": 3.04,
+      "learning_rate": 2.357142857142857e-05,
+      "loss": 1.3647,
       "step": 45
     },
     {
+      "epoch": 3.1,
+      "learning_rate": 2e-05,
+      "loss": 1.216,
       "step": 50
     },
     {
+      "epoch": 3.17,
+      "learning_rate": 1.642857142857143e-05,
+      "loss": 1.124,
       "step": 55
     },
     {
+      "epoch": 3.18,
+      "eval_accuracy": 0.39285714285714285,
+      "eval_loss": 2.2242484092712402,
+      "eval_runtime": 7.7889,
+      "eval_samples_per_second": 3.595,
+      "eval_steps_per_second": 0.514,
       "step": 56
     },
     {
+      "epoch": 4.05,
+      "learning_rate": 1.2857142857142857e-05,
+      "loss": 1.0848,
       "step": 60
     },
     {
+      "epoch": 4.12,
+      "learning_rate": 9.285714285714286e-06,
+      "loss": 0.9794,
       "step": 65
     },
     {
+      "epoch": 4.18,
+      "learning_rate": 5.7142857142857145e-06,
+      "loss": 0.9569,
       "step": 70
     },
     {
+      "epoch": 4.18,
       "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 2.182518482208252,
+      "eval_runtime": 7.9247,
+      "eval_samples_per_second": 3.533,
+      "eval_steps_per_second": 0.505,
       "step": 70
     },
     {
+      "epoch": 5.06,
+      "learning_rate": 2.142857142857143e-06,
+      "loss": 0.8862,
       "step": 75
     },
     {
+      "epoch": 5.1,
       "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 2.1734211444854736,
+      "eval_runtime": 7.8943,
+      "eval_samples_per_second": 3.547,
+      "eval_steps_per_second": 0.507,
+      "step": 78
     },
     {
+      "epoch": 5.1,
+      "step": 78,
+      "total_flos": 7.713965251203564e+17,
+      "train_loss": 1.6192821661631267,
+      "train_runtime": 267.6762,
+      "train_samples_per_second": 2.331,
+      "train_steps_per_second": 0.291
     },
     {
+      "epoch": 5.1,
       "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 2.0714259147644043,
+      "eval_runtime": 4.1878,
+      "eval_samples_per_second": 3.343,
+      "eval_steps_per_second": 0.478,
+      "step": 78
     },
     {
+      "epoch": 5.1,
       "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 2.0714259147644043,
+      "eval_runtime": 3.8707,
+      "eval_samples_per_second": 3.617,
+      "eval_steps_per_second": 0.517,
+      "step": 78
     }
   ],
   "logging_steps": 5,
+  "max_steps": 78,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
+  "total_flos": 7.713965251203564e+17,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5da55cdf3ae599f60b6c1ca815936709b3bb7791b63b743fed24cd1f23ce505
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a9df7204865a72646bb05717e94fcd96b091033787df0920383d9f482c0253e
 size 4728