End of training

Browse files

Files changed (4) hide show

README.md +31 -69
model.safetensors +1 -1
runs/Jan21_13-12-51_f3acabd62f42/events.out.tfevents.1737465196.f3acabd62f42.1361.0 +2 -2
runs/Jan21_13-12-51_f3acabd62f42/events.out.tfevents.1737468515.f3acabd62f42.1361.1 +3 -0

README.md CHANGED Viewed

@@ -19,9 +19,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4820
-- Accuracy: 0.7864
-- F1: 0.6767
 ## Model description
@@ -40,83 +40,45 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 8e-05
 - train_batch_size: 32
 - eval_batch_size: 32
 - seed: 42
-- optimizer: Use adamw_torch with betas=(0.9,0.98) and epsilon=1e-06 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- num_epochs: 3
 ### Training results
-| Training Loss | Epoch  | Step  | Validation Loss | Accuracy | F1     |
-|:-------------:|:------:|:-----:|:---------------:|:--------:|:------:|
-| 0.7593        | 0.0497 | 250   | 0.5938          | 0.7402   | 0.5293 |
-| 0.6378        | 0.0993 | 500   | 0.6212          | 0.7308   | 0.5121 |
-| 0.6001        | 0.1490 | 750   | 0.5726          | 0.7499   | 0.5482 |
-| 0.5945        | 0.1987 | 1000  | 0.5661          | 0.7504   | 0.5390 |
-| 0.5806        | 0.2484 | 1250  | 0.5519          | 0.7513   | 0.5693 |
-| 0.6042        | 0.2980 | 1500  | 0.5528          | 0.7535   | 0.5945 |
-| 0.5719        | 0.3477 | 1750  | 0.5290          | 0.7705   | 0.6045 |
-| 0.5699        | 0.3974 | 2000  | 0.5247          | 0.7637   | 0.5958 |
-| 0.5622        | 0.4470 | 2250  | 0.5318          | 0.7700   | 0.5960 |
-| 0.5597        | 0.4967 | 2500  | 0.5344          | 0.7588   | 0.6152 |
-| 0.5511        | 0.5464 | 2750  | 0.5767          | 0.7373   | 0.5459 |
-| 0.5464        | 0.5961 | 3000  | 0.5078          | 0.7787   | 0.6460 |
-| 0.5375        | 0.6457 | 3250  | 0.5029          | 0.7821   | 0.6175 |
-| 0.5468        | 0.6954 | 3500  | 0.5027          | 0.7835   | 0.6312 |
-| 0.5232        | 0.7451 | 3750  | 0.5053          | 0.7765   | 0.6365 |
-| 0.5459        | 0.7948 | 4000  | 0.4983          | 0.7889   | 0.6723 |
-| 0.5241        | 0.8444 | 4250  | 0.5092          | 0.7826   | 0.6751 |
-| 0.5094        | 0.8941 | 4500  | 0.5215          | 0.7831   | 0.6233 |
-| 0.5223        | 0.9438 | 4750  | 0.4986          | 0.7881   | 0.6243 |
-| 0.5161        | 0.9934 | 5000  | 0.5013          | 0.7869   | 0.6205 |
-| 0.4474        | 1.0431 | 5250  | 0.5010          | 0.7847   | 0.6689 |
-| 0.4417        | 1.0928 | 5500  | 0.4923          | 0.7898   | 0.6251 |
-| 0.4316        | 1.1425 | 5750  | 0.4968          | 0.7903   | 0.6950 |
-| 0.4244        | 1.1921 | 6000  | 0.4958          | 0.7867   | 0.6950 |
-| 0.4479        | 1.2418 | 6250  | 0.4952          | 0.7874   | 0.6864 |
-| 0.4332        | 1.2915 | 6500  | 0.4957          | 0.7801   | 0.6741 |
-| 0.4357        | 1.3411 | 6750  | 0.4887          | 0.7864   | 0.6397 |
-| 0.439         | 1.3908 | 7000  | 0.5425          | 0.7654   | 0.6739 |
-| 0.4298        | 1.4405 | 7250  | 0.4830          | 0.7864   | 0.6849 |
-| 0.4345        | 1.4902 | 7500  | 0.4970          | 0.7821   | 0.6324 |
-| 0.432         | 1.5398 | 7750  | 0.4890          | 0.7874   | 0.6772 |
-| 0.433         | 1.5895 | 8000  | 0.4920          | 0.7893   | 0.6716 |
-| 0.4364        | 1.6392 | 8250  | 0.5033          | 0.7818   | 0.6840 |
-| 0.4196        | 1.6889 | 8500  | 0.4845          | 0.7886   | 0.6674 |
-| 0.4199        | 1.7385 | 8750  | 0.5046          | 0.7814   | 0.6377 |
-| 0.4121        | 1.7882 | 9000  | 0.5066          | 0.7845   | 0.6852 |
-| 0.4222        | 1.8379 | 9250  | 0.4951          | 0.7852   | 0.6669 |
-| 0.4217        | 1.8875 | 9500  | 0.4820          | 0.7864   | 0.6767 |
-| 0.3973        | 1.9372 | 9750  | 0.4964          | 0.7872   | 0.7037 |
-| 0.4297        | 1.9869 | 10000 | 0.4872          | 0.7840   | 0.6811 |
-| 0.3039        | 2.0366 | 10250 | 0.6112          | 0.7755   | 0.6741 |
-| 0.2271        | 2.0862 | 10500 | 0.6606          | 0.7797   | 0.6878 |
-| 0.2149        | 2.1359 | 10750 | 0.6955          | 0.7736   | 0.6823 |
-| 0.2202        | 2.1856 | 11000 | 0.7086          | 0.7772   | 0.6681 |
-| 0.2226        | 2.2352 | 11250 | 0.6691          | 0.7743   | 0.6797 |
-| 0.2162        | 2.2849 | 11500 | 0.6852          | 0.7741   | 0.6702 |
-| 0.198         | 2.3346 | 11750 | 0.7187          | 0.7763   | 0.6592 |
-| 0.2053        | 2.3843 | 12000 | 0.6847          | 0.7782   | 0.6816 |
-| 0.2099        | 2.4339 | 12250 | 0.7302          | 0.7748   | 0.6789 |
-| 0.214         | 2.4836 | 12500 | 0.7198          | 0.7726   | 0.6831 |
-| 0.1938        | 2.5333 | 12750 | 0.7529          | 0.7741   | 0.6390 |
-| 0.1959        | 2.5830 | 13000 | 0.7467          | 0.7724   | 0.6783 |
-| 0.2012        | 2.6326 | 13250 | 0.7245          | 0.7736   | 0.6456 |
-| 0.1915        | 2.6823 | 13500 | 0.7603          | 0.7678   | 0.6823 |
-| 0.2           | 2.7320 | 13750 | 0.7175          | 0.7748   | 0.6795 |
-| 0.1921        | 2.7816 | 14000 | 0.7458          | 0.7755   | 0.6809 |
-| 0.1895        | 2.8313 | 14250 | 0.7607          | 0.7729   | 0.6603 |
-| 0.1855        | 2.8810 | 14500 | 0.7625          | 0.7736   | 0.6705 |
-| 0.1878        | 2.9307 | 14750 | 0.7598          | 0.7709   | 0.6707 |
-| 0.1899        | 2.9803 | 15000 | 0.7604          | 0.7729   | 0.6714 |
 ### Framework versions
-- Transformers 4.48.0
 - Pytorch 2.5.1+cu121
 - Datasets 3.2.0
 - Tokenizers 0.21.0

 This model is a fine-tuned version of [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6800
+- Accuracy: 0.6953
+- F1: 0.6945
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
 - train_batch_size: 32
 - eval_batch_size: 32
 - seed: 42
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.98) and epsilon=1e-06 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 5
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Accuracy | F1     |
+|:-------------:|:------:|:----:|:---------------:|:--------:|:------:|
+| 1.2688        | 0.0590 | 250  | 1.1315          | 0.4781   | 0.4463 |
+| 1.0574        | 0.1181 | 500  | 0.9664          | 0.5575   | 0.5412 |
+| 0.9229        | 0.1771 | 750  | 0.8647          | 0.6070   | 0.6007 |
+| 0.8654        | 0.2361 | 1000 | 0.8665          | 0.6089   | 0.5922 |
+| 0.8229        | 0.2952 | 1250 | 0.7857          | 0.6448   | 0.6448 |
+| 0.8054        | 0.3542 | 1500 | 0.8515          | 0.6218   | 0.5993 |
+| 0.786         | 0.4132 | 1750 | 0.7533          | 0.6601   | 0.6552 |
+| 0.781         | 0.4723 | 2000 | 0.8133          | 0.6305   | 0.6278 |
+| 0.7563        | 0.5313 | 2250 | 0.7770          | 0.6480   | 0.6473 |
+| 0.7638        | 0.5903 | 2500 | 0.7248          | 0.6767   | 0.6769 |
+| 0.7384        | 0.6494 | 2750 | 0.7520          | 0.6597   | 0.6574 |
+| 0.7405        | 0.7084 | 3000 | 0.7615          | 0.6545   | 0.6515 |
+| 0.7222        | 0.7674 | 3250 | 0.7191          | 0.6790   | 0.6716 |
+| 0.7184        | 0.8264 | 3500 | 0.7037          | 0.6862   | 0.6837 |
+| 0.6984        | 0.8855 | 3750 | 0.7264          | 0.6716   | 0.6678 |
+| 0.6995        | 0.9445 | 4000 | 0.7455          | 0.6663   | 0.6646 |
+| 0.713         | 1.0035 | 4250 | 0.7294          | 0.6752   | 0.6701 |
+| 0.6508        | 1.0626 | 4500 | 0.6938          | 0.6872   | 0.6871 |
+| 0.642         | 1.1216 | 4750 | 0.7266          | 0.6716   | 0.6691 |
+| 0.635         | 1.1806 | 5000 | 0.6868          | 0.6913   | 0.6900 |
+| 0.6278        | 1.2397 | 5250 | 0.6800          | 0.6953   | 0.6945 |
 ### Framework versions
+- Transformers 4.48.1
 - Pytorch 2.5.1+cu121
 - Datasets 3.2.0
 - Tokenizers 0.21.0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8f88a39e9e66965529af350d1ee069f0749718cc03ed9585552b634b6e7284a
 size 598445936

 version https://git-lfs.github.com/spec/v1
+oid sha256:8261f81e7f702320fd85793e44376b7e9e0e35891d6b292fddfc4ce34b146e72
 size 598445936

runs/Jan21_13-12-51_f3acabd62f42/events.out.tfevents.1737465196.f3acabd62f42.1361.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:396ff8054cad5e641cd7d8b7d9148600d8f61e8fe7c51bcdaa3050c155c1e684
-size 17607

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ff89f3b0f0bcee62c54d4a7661a9d9967ca495c1c293b7474e1dab697445ab
+size 18541

runs/Jan21_13-12-51_f3acabd62f42/events.out.tfevents.1737468515.f3acabd62f42.1361.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4c7bbdea250b65936acdb6cc9ecdbb259ed6d08967b09ba61b561eeb47bd5f2
+size 457