lixinhao commited on 16 days ago

Commit

60c8e7f

verified ·

1 Parent(s): c9bac54

Upload folder using huggingface_hub

Browse files

Files changed (36) hide show

README.md +16 -17
__pycache__/modeling_internvideo2.cpython-310.pyc +0 -0
configs/beit-base-patch16-224-pt22k-ft22k.json +30 -0
configs/config_bert_large.json +25 -0
configs/med_config.json +22 -0
configs/med_large_config.json +22 -0
configs/model.py +103 -0
configs/pretrain.py +101 -0
configs/qa.py +20 -0
configs/qa_anet.py +27 -0
configs/qa_msrvtt.py +27 -0
configs/ret_anet.py +27 -0
configs/ret_coco.py +37 -0
configs/ret_didemo.py +36 -0
configs/ret_flickr.py +37 -0
configs/ret_msrvtt.py +31 -0
configs/ret_msrvtt_9k.py +7 -0
configs/ret_msrvtt_mc.py +30 -0
configs/ret_ssv2_label.py +24 -0
configs/ret_ssv2_template.py +24 -0
configs/tvqa.py +36 -0
demo.py +1 -1
model-00001-of-00013.safetensors +2 -2
model-00002-of-00013.safetensors +2 -2
model-00003-of-00013.safetensors +2 -2
model-00004-of-00013.safetensors +2 -2
model-00005-of-00013.safetensors +2 -2
model-00006-of-00013.safetensors +2 -2
model-00007-of-00013.safetensors +2 -2
model-00008-of-00013.safetensors +2 -2
model-00009-of-00013.safetensors +2 -2
model-00010-of-00013.safetensors +2 -2
model-00011-of-00013.safetensors +2 -2
model-00012-of-00013.safetensors +2 -2
model-00013-of-00013.safetensors +1 -1
modeling_internvideo2.py +3 -3

README.md CHANGED Viewed

@@ -21,21 +21,20 @@ from transformers import AutoModel
 from modeling_internvideo2 import (retrieve_text, vid2tensor, _frame_from_video,)
-if __name__ == '__main__':
-    model = AutoModel.from_pretrained("OpenGVLab/InternVideo2-Stage2_6B", trust_remote_code=True).eval()
-    video = cv2.VideoCapture('example1.mp4')
-    frames = [x for x in _frame_from_video(video)]
-    text_candidates = ["A playful dog and its owner wrestle in the snowy yard, chasing each other with joyous abandon.",
-                    "A man in a gray coat walks through the snowy landscape, pulling a sleigh loaded with toys.",
-                    "A person dressed in a blue jacket shovels the snow-covered pavement outside their house.",
-                    "A cat excitedly runs through the yard, chasing a rabbit.",
-                    "A person bundled up in a blanket walks through the snowy landscape, enjoying the serene winter scenery."]
-    texts, probs = retrieve_text(frames, text_candidates, model=model, topk=5)
-    for t, p in zip(texts, probs):
-        print(f'text: {t} ~ prob: {p:.4f}')
-    vidtensor = vid2tensor('example1.mp4', fnum=4)
-    feat = model.get_vid_feat(vidtensor)
 ```

 from modeling_internvideo2 import (retrieve_text, vid2tensor, _frame_from_video,)
+model = AutoModel.from_pretrained("OpenGVLab/InternVideo2-Stage2_6B", trust_remote_code=True).eval()
+video = cv2.VideoCapture('example1.mp4')
+frames = [x for x in _frame_from_video(video)]
+text_candidates = ["A playful dog and its owner wrestle in the snowy yard, chasing each other with joyous abandon.",
+                "A man in a gray coat walks through the snowy landscape, pulling a sleigh loaded with toys.",
+                "A person dressed in a blue jacket shovels the snow-covered pavement outside their house.",
+                "A cat excitedly runs through the yard, chasing a rabbit.",
+                "A person bundled up in a blanket walks through the snowy landscape, enjoying the serene winter scenery."]
+texts, probs = retrieve_text(frames, text_candidates, model=model, topk=5)
+for t, p in zip(texts, probs):
+    print(f'text: {t} ~ prob: {p:.4f}')
+vidtensor = vid2tensor('example1.mp4', fnum=4)
+feat = model.get_vid_feat(vidtensor)
 ```

__pycache__/modeling_internvideo2.cpython-310.pyc ADDED Viewed

Binary file (95.7 kB). View file

configs/beit-base-patch16-224-pt22k-ft22k.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "note": "this file is a copy of the BEiT model config, not used directly",
+  "architectures": [
+    "BeitForImageClassification"
+  ],
+  "url": "https://huggingface.co/microsoft/beit-base-patch16-224-pt22k-ft22k/raw/main/config.json",
+  "attention_probs_dropout_prob": 0.0,
+  "drop_path_rate": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "layer_scale_init_value": 0.1,
+  "model_type": "beit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "torch_dtype": "float32",
+  "transformers_version": "4.11.0.dev0",
+  "use_absolute_position_embeddings": false,
+  "use_mask_token": false,
+  "use_mean_pooling": true,
+  "use_relative_position_bias": true,
+  "use_shared_relative_position_bias": false,
+  "vocab_size": 8192
+}

configs/config_bert_large.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522,
+  "fusion_layer": 19,
+  "encoder_width": 768,
+  "cross_module": "ca"
+}

configs/med_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "add_type_embeddings": false,
+  "vocab_size": 30522,
+  "encoder_width": 768,
+  "add_cross_attention": true,
+  "cross_freq": 0
+}

configs/med_large_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "add_type_embeddings": false,
+  "vocab_size": 30522,
+  "encoder_width": 1024,
+  "add_cross_attention": true,
+  "cross_freq": 0
+}

configs/model.py ADDED Viewed

	@@ -0,0 +1,103 @@

+pretrained_paths = dict(
+    BEATs_PATH="/mnt/petrelfs/lixinhao/lxh_exp/pretrained_models/beats/BEATs_iter3+.pt",
+    UMT_S1_B_PATH="/mnt/lustre/share/videointern/annotations/pretained_model/clipmae_vit_b16_k710_e200.pth",
+    UMT_S1_L_PATH="/mnt/lustre/share/videointern/annotations/pretained_model/clipmae_vit_l16_k710_e200.pth",
+    UMT_S1_g_PATH='/mnt/petrelfs/share_data/likunchang/model/um_teacher/umt2/vit_g14_1.1M_CLIP+MAE_300e_pt_k710_ft.pth',
+    InternVL_6B_PATH = "/mnt/petrelfs/share_data/wangwenhai/internvl/6b_vit_exp126_clip_alpaca_7b_laion5b_peak_1e-5_256gpu_all_trainable_degradation.sh/1499/mp_rank_00_model_states.pt"
+)
+VisionEncoders = dict()
+VisionEncoders["beit"] = dict(
+    name="beit_base",
+    pretrained="microsoft/beit-base-patch16-224-pt22k-ft22k",
+    d_model=768,
+)
+VisionEncoders["beit_large"] = dict(
+    name="beit_large",
+    pretrained="microsoft/beit-large-patch16-224-pt22k-ft22k",
+    d_model=1024,
+)
+TextEncoders = dict()
+TextEncoders["bert"] = dict(
+    name="bert_base",
+    pretrained="bert-base-uncased",
+    config="configs/config_bert.json",
+    d_model=768,
+    fusion_layer=9,
+)
+TextEncoders["bert_fusion6"] = dict(
+    name="bert_base_fusion6",
+    pretrained="bert-base-uncased",
+    config="configs/config_bert_fusion6.json",
+    d_model=768,
+    fusion_layer=6,
+)
+TextEncoders["bert_large"] = dict(
+    name="bert_large",
+    pretrained="bert-large-uncased",
+    config="configs/config_bert_large.json",
+    d_model=1024,
+    fusion_layer=19,
+)
+TextEncoders["med_bert"] = dict(
+    name="med_bert_base",
+    pretrained="bert-base-uncased",
+    config="configs/med_config.json",
+    d_model=768,
+)
+TextEncoders["med_bert_freq2"] = dict(
+    name="med_bert_base_freq2",
+    pretrained="bert-base-uncased",
+    config="configs/med_config_freq2.json",
+    d_model=768,
+)
+TextEncoders["med_bert_freq2_must"] = dict(
+    name="med_bert_base_freq2_must",
+    pretrained="bert-base-uncased",
+    config="configs/med_config_freq2_must.json",
+    d_model=768,
+)
+TextEncoders["med_bert_fusion10"] = dict(
+    name="med_bert_base_fusion",
+    pretrained="bert-base-uncased",
+    config="configs/med_config_fusion.json",
+    d_model=768,
+    fusion_layer=10
+)
+TextEncoders["med_bert_fusion9"] = dict(
+    name="med_bert_base_fusion",
+    pretrained="bert-base-uncased",
+    config="configs/med_config_fusion.json",
+    d_model=768,
+    fusion_layer=9
+)
+TextEncoders["med_bert_fusion6"] = dict(
+    name="med_bert_base_fusion",
+    pretrained="bert-base-uncased",
+    config="configs/med_config_fusion.json",
+    d_model=768,
+    fusion_layer=6
+)
+TextEncoders["med_bert_fusion0"] = dict(
+    name="med_bert_base_fusion",
+    pretrained="bert-base-uncased",
+    config="configs/med_config_fusion.json",
+    d_model=768,
+    fusion_layer=0
+)
+TextEncoders["med_bert_fusion3"] = dict(
+    name="med_bert_base_fusion",
+    pretrained="bert-base-uncased",
+    config="configs/med_config_fusion.json",
+    d_model=768,
+    fusion_layer=3
+)
+TextEncoders["med_bert_large"] = dict(
+    name="med_bert_large",
+    pretrained="bert-base-uncased", # not a bug, it just follows BLIP.
+    config="configs/med_large_config.json",
+    d_model=768
+)

configs/pretrain.py ADDED Viewed

	@@ -0,0 +1,101 @@

+from .data import *
+from .model import *
+# ========================= data ==========================
+train_corpus = "webvid_cc3m"
+train_file = "${available_corpus[${train_corpus}]}"  # for lazy evaluation
+test_file = dict(msrvtt_1k_test=available_corpus["msrvtt_1k_test"])
+test_types = ["msrvtt_1k_test"]
+num_workers = 6
+stop_key = None
+# ========================= input ==========================
+num_frames = 4
+num_frames_test = 4
+batch_size = 64
+max_txt_l = 32
+inputs = dict(
+    image_res=224,
+    video_input=dict(
+        num_frames="${num_frames}",
+        sample_type="rand",
+        num_frames_test="${num_frames_test}",
+        sample_type_test="middle",
+        random_aug=False,
+    ),
+    max_txt_l=dict(image="${max_txt_l}", video="${max_txt_l}"),
+    batch_size=dict(image="${batch_size}", video="${batch_size}"),
+    batch_size_test=dict(image="${batch_size}", video="${batch_size}"),
+)
+# ========================= model ==========================
+vision_enc = "beit"
+text_enc = "bert"
+model = dict(
+    vision_encoder="${VisionEncoders[${vision_enc}]}",
+    text_encoder="${TextEncoders[${text_enc}]}",
+    temporal_modeling=dict(
+        num_frames="${num_frames}",
+        temporal_model_block="timesformer",
+        temporal_model_position="last",
+        temporal_model_config=dict(input_dim="${model.vision_encoder.d_model}"),
+        use_temporal_position_embedding=True,
+    ),
+    vit_add_ln=True,
+    multimodal=dict(enable=True),
+    embed_dim=256,
+    temp=0.07,
+)
+criterion = dict(
+    loss_weight=dict(vtc=1.0, mlm=1.0, vtm=1.0, mvm=0.0),  # 0: disabled.
+    vtm_hard_neg=True,
+    mlm_masking_prob=0.5,
+)
+optimizer = dict(
+    opt="adamW",
+    lr=1e-4,
+    opt_betas=[0.9, 0.999],  # default
+    weight_decay=0.02,
+    max_grad_norm=-1,  # requires a positive float, use -1 to disable
+    # use a different lr for some modules, e.g., larger lr for new modules
+    different_lr=dict(enable=False, module_names=[], lr=1e-3),
+)
+scheduler = dict(sched="cosine", epochs=10, min_lr_multi=0.01, warmup_epochs=1)
+evaluate = False
+deep_fusion = False
+evaluation = dict(
+    eval_frame_ensemble="concat",  # [concat, max, mean, lse]
+    eval_x_only=False,
+    k_test=128,
+    eval_offload=True,  # offload gpu tensors to cpu to save memory.
+)
+fp16 = True
+gradient_checkpointing = True
+# ========================= wandb ==========================
+wandb = dict(
+    enable=True,
+    entity="likunchang",  # username or team name to store the runs, see https://docs.wandb.ai/ref/python/init
+    project="vindlu",  # setup in your command line
+)
+dist_url = "env://"
+device = "cuda"
+mode = "pt"
+# ========================= others ==========================
+output_dir = None  # output dir
+resume = False  # if True, load optimizer and scheduler states as well
+debug = False
+log_freq = 100
+seed = 42
+save_latest = True
+auto_resume = True
+pretrained_path = ""  # path to pretrained model weights, for resume only?

configs/qa.py ADDED Viewed

	@@ -0,0 +1,20 @@

+from .pretrain import *
+del available_corpus
+criterion["loss_weight"]["mlm"] = 0.0
+scheduler["warmup_epochs"] = 0.5
+max_txt_l = 32
+batch_size = 32
+num_frames = 12
+optimizer["lr"] = 1e-5
+log_freq = 100
+# =========additional args for VQA ============
+eos = "[SEP]"
+max_q_len = 25
+max_a_len = 5
+# =========end ================================

configs/qa_anet.py ADDED Viewed

	@@ -0,0 +1,27 @@

+from .qa import *
+train_file = [
+    [
+        f"{anno_root_downstream}/anet_qa_train.json",
+        f"{data_root}/activity_net_2fps_360",
+        "video",
+    ]
+]
+test_file = dict(
+    val=[
+        f"{anno_root_downstream}/anet_qa_val.json",
+        f"{data_root}/activity_net_2fps_360",
+        "video",
+    ],
+    test=[
+        f"{anno_root_downstream}/anet_qa_test.json",
+        f"{data_root}/activity_net_2fps_360",
+        "video",
+    ]
+)
+dataset_name = "anet"
+answer_list = f"{anno_root_downstream}/anet_qa_answer_list.json"  # list of answer words
+test_types = ["val"]
+stop_key = "val"  # used to choose the best ckpt. If None, save the last.

configs/qa_msrvtt.py ADDED Viewed

	@@ -0,0 +1,27 @@

+from .qa import *
+train_file = [
+    [
+        f"{anno_root_downstream}/msrvtt_qa_train.json",
+        f"{data_root}/msrvtt_2fps_224",
+        "video",
+    ]
+]
+test_file = dict(
+    val=[
+        f"{anno_root_downstream}/msrvtt_qa_val.json",
+        f"{data_root}/msrvtt_2fps_224",
+        "video",
+    ],
+    test=[
+        f"{anno_root_downstream}/msrvtt_qa_test.json",
+        f"{data_root}/msrvtt_2fps_224",
+        "video",
+    ],
+)
+dataset_name = "msrvtt"
+answer_list = f"{anno_root_downstream}/msrvtt_qa_answer_list.json"  # list of answer words
+test_types = ["val"]
+stop_key = "val"  # used to choose the best ckpt. If None, save the last.

configs/ret_anet.py ADDED Viewed

	@@ -0,0 +1,27 @@

+from .pretrain import *
+del available_corpus
+train_file = [
+    f"{anno_root_downstream}/anet_ret_train.json",
+    f"{data_root}/activity_net_2fps_360",
+    "video",
+]
+test_file = dict(
+    test=[
+        f"{anno_root_downstream}/anet_ret_val_1.json",
+        f"{data_root}/activity_net_2fps_360",
+        "video",
+    ],
+)
+test_types = ["test"]
+stop_key = "test/"  # used to choose the best ckpt. If None, save the last.
+is_paragraph_retrieval = True
+max_txt_l = 64
+batch_size = 32
+num_frames = 12
+optimizer["lr"] = 1e-5
+log_freq = 100

configs/ret_coco.py ADDED Viewed

	@@ -0,0 +1,37 @@

+from .pretrain import *
+del available_corpus
+train_file = [
+    f"{anno_root_downstream}/coco_train.json",
+    f"{data_root}/coco",
+    "video",
+]
+test_file = dict(
+    val=[
+        f"{anno_root_downstream}/coco_val.json",
+        f"{data_root}/coco",
+        "video",
+    ],
+    test=[
+        f"{anno_root_downstream}/coco_test.json",
+        f"{data_root}/coco",
+        "video",
+    ],
+)
+test_types = ["val"]
+stop_key = "val/"  # used to choose the best ckpt. If None, save the last.
+is_paragraph_retrieval = False
+criterion["loss_weight"]["mlm"] = 0.0
+scheduler["warmup_epochs"] = 0
+optimizer["lr"] = 1e-5
+max_txt_l = 22
+batch_size = 128
+num_frames = 1
+num_frames_test = 1
+log_freq = 100

configs/ret_didemo.py ADDED Viewed

	@@ -0,0 +1,36 @@

+from .pretrain import *
+del available_corpus
+train_file = [
+    f"{anno_root_downstream}/didemo_ret_train.json",
+    f"{data_root}/didemo_2fps_360_trimed30",
+    "video",
+]
+test_file = dict(
+    val=[
+        f"{anno_root_downstream}/didemo_ret_val.json",
+        f"{data_root}/didemo_2fps_360_trimed30",
+        "video",
+    ],
+    test=[
+        f"{anno_root_downstream}/didemo_ret_test.json",
+        f"{data_root}/didemo_2fps_360_trimed30",
+        "video",
+    ],
+)
+test_types = ["val"]
+stop_key = "val/"  # used to choose the best ckpt. If None, save the last.
+is_paragraph_retrieval = True
+criterion["loss_weight"]["mlm"] = 0.0
+scheduler["warmup_epochs"] = 0
+optimizer["lr"] = 1e-5
+max_txt_l = 64
+batch_size = 32
+num_frames = 12
+log_freq = 10

configs/ret_flickr.py ADDED Viewed

	@@ -0,0 +1,37 @@

+from .pretrain import *
+del available_corpus
+train_file = [
+    f"{anno_root_downstream}/flickr30k_train.json",
+    f"{data_root}/f30k",
+    "video",
+]
+test_file = dict(
+    val=[
+        f"{anno_root_downstream}/flickr30k_val.json",
+        f"{data_root}/f30k",
+        "video",
+    ],
+    test=[
+        f"{anno_root_downstream}/flickr30k_test.json",
+        f"{data_root}/f30k",
+        "video",
+    ],
+)
+test_types = ["val"]
+stop_key = "val/"  # used to choose the best ckpt. If None, save the last.
+is_paragraph_retrieval = False
+criterion["loss_weight"]["mlm"] = 0.0
+scheduler["warmup_epochs"] = 0
+optimizer["lr"] = 1e-5
+max_txt_l = 32
+batch_size = 128
+num_frames = 1
+num_frames_test = 1
+log_freq = 100

configs/ret_msrvtt.py ADDED Viewed

	@@ -0,0 +1,31 @@

+from .pretrain import *
+del available_corpus
+train_file = [
+    f"{anno_root_downstream}/msrvtt_ret_train7k.json",
+    f"{data_root}/msrvtt_2fps_224",
+    "video",
+]
+test_file = dict(
+    test=[
+        f"{anno_root_downstream}/msrvtt_ret_test1k.json",
+        f"{data_root}/msrvtt_2fps_224",
+        "video",
+    ],
+)
+test_types = ["test"]
+stop_key =  None # used to choose the best ckpt. If None, save the last.
+is_paragraph_retrieval = False
+criterion["loss_weight"]["mlm"] = 0.0
+scheduler["warmup_epochs"] = 0
+scheduler["epochs"] = 5
+optimizer["lr"] = 1e-5
+max_txt_l = 32
+batch_size = 32
+num_frames = 12
+log_freq = 100

configs/ret_msrvtt_9k.py ADDED Viewed

	@@ -0,0 +1,7 @@

+from .ret_msrvtt import *
+train_file = [
+    f"{anno_root_downstream}/msrvtt_ret_train9k.json",
+    f"{data_root}/msrvtt_2fps_224",
+    "video",
+]

configs/ret_msrvtt_mc.py ADDED Viewed

	@@ -0,0 +1,30 @@

+from .pretrain import *
+del available_corpus
+train_file = [
+    f"{anno_root_downstream}/msrvtt_ret_train7k.json",
+    f"{data_root}/msrvtt_2fps_224",
+    "video",
+]
+test_file = dict(
+    mc_test=[
+        f"{anno_root_downstream}/msrvtt_mc_test.json",
+        f"{data_root}/msrvtt_2fps_224",
+        "video",
+    ]
+)
+test_types = ["mc_test"]
+stop_key = None  # used to choose the best ckpt. If None, save the last.
+is_paragraph_retrieval = False
+criterion["loss_weight"]["mlm"] = 0.0
+scheduler["warmup_epochs"] = 0
+optimizer["lr"] = 1e-5
+max_txt_l = 32
+batch_size = 32
+num_frames = 12
+log_freq = 100

configs/ret_ssv2_label.py ADDED Viewed

	@@ -0,0 +1,24 @@

+from .ret_msrvtt import *
+train_file = [
+    f"{anno_root_downstream}/ssv2_ret_label_train.json",
+    f"{data_root}/ssv2",
+    "video",
+]
+test_file = dict(
+    val=[
+        f"{anno_root_downstream}/ssv2_ret_label_val_small.json",
+        f"{data_root}/ssv2",
+        "video",
+    ],
+)
+test_types = ["val"]
+stop_key = None  # used to choose the best ckpt. If None, save the last.
+has_multi_vision_gt = True
+scheduler["epochs"] = 10
+optimizer["lr"] = 1e-4
+max_txt_l = 25

configs/ret_ssv2_template.py ADDED Viewed

	@@ -0,0 +1,24 @@

+from .ret_msrvtt import *
+train_file = [
+    f"{anno_root_downstream}/ssv2_ret_template_train.json",
+    f"{data_root}/ssv2",
+    "video",
+]
+test_file = dict(
+    val=[
+        f"{anno_root_downstream}/ssv2_ret_template_val_small.json",
+        f"{data_root}/ssv2",
+        "video",
+    ],
+)
+test_types = ["val"]
+stop_key = None  # used to choose the best ckpt. If None, save the last.
+has_multi_vision_gt = True
+scheduler["epochs"] = 10
+optimizer["lr"] = 1e-4
+max_txt_l = 22

configs/tvqa.py ADDED Viewed

	@@ -0,0 +1,36 @@

+from .pretrain import *
+del available_corpus
+train_file = [
+    f"{anno_root_downstream}/tvqa_train_with_answer.json",
+    f"{data_root}/tvqa_trimmed_3fps",
+    "video",
+]
+test_file = dict(
+    val=[
+        f"{anno_root_downstream}/tvqa_val_with_answer.json",
+        f"{data_root}/tvqa_trimmed_3fps",
+        "video",
+    ],
+    test=[
+        f"{anno_root_downstream}/tvqa_test_public_with_answer.json",
+        f"{data_root}/tvqa_trimmed_3fps",
+        "video",
+    ],
+)
+test_types = ["val"]
+stop_key = "val"  # used to choose the best ckpt. If None, save the last.
+is_paragraph_retrieval = False
+criterion["loss_weight"]["mlm"] = 0.0
+optimizer["lr"] = 1e-5
+scheduler["warmup_epochs"] = 0.5
+scheduler["epochs"] = 10
+max_txt_l = 150
+batch_size = 32
+num_frames = 12
+log_freq = 100

demo.py CHANGED Viewed

@@ -4,7 +4,7 @@ from modeling_internvideo2 import (retrieve_text, vid2tensor, _frame_from_video,
 if __name__ == '__main__':
-    model = AutoModel.from_pretrained("OpenGVLab/InternVideo2-Stage2_6B", trust_remote_code=True).eval()
     video = cv2.VideoCapture('example1.mp4')
     frames = [x for x in _frame_from_video(video)]

 if __name__ == '__main__':
+    model = AutoModel.from_pretrained("/mnt/petrelfs/lixinhao/lxh_exp/LongVideo/InternVideo2-Stage2_6B", trust_remote_code=True).eval()
     video = cv2.VideoCapture('example1.mp4')
     frames = [x for x in _frame_from_video(video)]

model-00001-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff33d7a2e4acea7ae18bc031824494c7965b2d42575350d1de86dbf6defccabf
-size 1843206224

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d177c77c6721ab4952bfeb8d4a71c5aa6869a9e589ecee95b1dd5341b02a240
+size 1843206232

model-00002-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2cca4e6660dde2902da2fa410c1302d52df62a8b58a72665a03481d72c1a3e8
-size 1966700200

 version https://git-lfs.github.com/spec/v1
+oid sha256:98753c824d626ee1ae9897069e9712b023b59ed2186108305229bb1d1b742239
+size 1966700208

model-00003-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:164727ed44d6336d06c494197b147e4dedc34b634832a7b44b38e56448d6d0da
-size 1966700216

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc1ad59447161718504b0e94ed9d84a0d7bd7da988cb6b06f6664edeb1715639
+size 1966700224

model-00004-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:754fa2bc1568f5d3d62468751ff00dcf2b9dcd84ad4892e724f928e90b10aa02
-size 1966700256

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd4479e81e917ea371b1fe9a2a22165e4f22fbad535586c2db202566d23f5f78
+size 1966700264

model-00005-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a276ef3fe48a3afdca1ff3cc1ef4ead5ab6a9aaaee3dc23f888736a594d3ac45
-size 1966700256

 version https://git-lfs.github.com/spec/v1
+oid sha256:f16ff3ed45cc235f5c85954ec72efdb3d0a9cc150ed1bd82dff3f32fdb2c5eae
+size 1966700264

model-00006-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2edc5742d483c73cbdbefdc07af7ac1d70fa4929628208ee358d67a5e9383fcf
-size 1966700256

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b4fadad100d85dc055008b3d5f4c9dd78aac49446643ce919431b72ace26923
+size 1966700264

model-00007-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cea98e7b9fed865a57dae3e387986fc243d7416f92ceee412d4c8fc22ae92ff0
-size 1966700256

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d32dbcb9d7cf502af70cd06b5a56655e05265cc5f5eef278fdcd7fd4d35caa3
+size 1966700264

model-00008-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e81c54c8d8348dbc41efc74a934a71614af6a911b8c21c2afec1ecae588009c
-size 1966700256

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f990c3a412c64234de157f4fb656cfadad31b33ba76b1574b477e73469a38f4
+size 1966700264

model-00009-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9341b354e09ae069f59e73a785a93d5f31dfb143387ec4560071a2ec08931238
-size 1966700256

 version https://git-lfs.github.com/spec/v1
+oid sha256:e29811441d6a41d3e57738e4f68537b06bd6ce7732cd593b520e1ae17da65272
+size 1966700264

model-00010-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98c84ff7d7318e8a87d30ac46ed62faa390fe58160a58d5972acd66848a7571d
-size 1966700256

 version https://git-lfs.github.com/spec/v1
+oid sha256:57e01270ed6a8adac71188c2bce2e1499dbabe06206cb808a7c296478121353b
+size 1966700264

model-00011-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e75090d2bacfbe772ad5d7d9fa7005cdac6a71f3054173f3081bf061faeb592
-size 1966700256

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d4ef0dede046efe4304077af7b0ce03eab9bc0b8e0345eef8fd34a447717777
+size 1966700264

model-00012-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14d8dae3e19e45d6fc9ffcc296309eabb93d7bd035f951ec0b5709777a5b19a4
-size 1966700256

 version https://git-lfs.github.com/spec/v1
+oid sha256:29a0162c3608fae39d2fb5ac73fc01d09d87a4d9ae22062bf9997c0a5e92b4b1
+size 1966700264

model-00013-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c069186f3ee85d825f2b3e2198f8c5ec26c47899c8469a958af0ff13f2e9c414
 size 1989231912

 version https://git-lfs.github.com/spec/v1
+oid sha256:6328c13ba3af85b8d0d5d9aad104041dc3934e6b1e42a4cc89dc95da6a04f42e
 size 1989231912

modeling_internvideo2.py CHANGED Viewed

@@ -532,17 +532,17 @@ class LayerScale(nn.Module):
     def __init__(self, dim, init_values=1e-5, inplace=False, force_fp32=False):
         super().__init__()
         self.inplace = inplace
-        self.gamma = nn.Parameter(init_values * torch.ones(dim))
         self.force_fp32 = force_fp32
     @torch.cuda.amp.autocast(enabled=False)
     def forward(self, x):
         if self.force_fp32:
             output_type = x.dtype
-            out = x.float().mul_(self.gamma.float()) if self.inplace else x.float() * self.gamma.float()
             return out.to(dtype=output_type)
         else:
-            out = x.mul_(self.gamma) if self.inplace else x * self.gamma
             return out

     def __init__(self, dim, init_values=1e-5, inplace=False, force_fp32=False):
         super().__init__()
         self.inplace = inplace
+        self.weight = nn.Parameter(init_values * torch.ones(dim))
         self.force_fp32 = force_fp32
     @torch.cuda.amp.autocast(enabled=False)
     def forward(self, x):
         if self.force_fp32:
             output_type = x.dtype
+            out = x.float().mul_(self.weight.float()) if self.inplace else x.float() * self.weight.float()
             return out.to(dtype=output_type)
         else:
+            out = x.mul_(self.weight) if self.inplace else x * self.weight
             return out