SentenceTransformer based on dangvantuan/vietnamese-document-embedding

This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: VietnameseModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Trận chung kết AFF Cup 2022 được tổ chức tại sân vận động Mỹ Đình thì có thể áp dụng quy định Luật Bóng đá của Việt Nam không?',
    'Luật này được áp dụng thống nhất trong các cuộc thi đấu bóng đá  11  người trên toàn quốc và thi đấu quốc tế ở Việt Nam.',
    '2 . YÊU CẦU KỸ THUẬT  2 . 1 . Yêu cầu kỹ thuật đối với thuốc nổ TNT Thuốc nổ TNT đưa vào để dự trữ quốc gia phải đảm bảo các thông số kỹ thuật cơ bản quy định ở bảng  1  của Quy chuẩn này. Bảng  1 : Các thông số kỹ thuật cơ bản của thuốc nổ TNT   2 . 2 . Yêu cầu về nhà kho Các nhà kho phải tuân theo đúng quy định của QCVN  02 : 2008 /BCT - Quy chuẩn kỹ thuật quốc gia về an toàn trong bảo quản, vận chuyển, sử dụng và tiêu hủy vật liệu nổ công nghiệp theo Quyết định số  51 / 2008 /QĐ-BCT ngày  31  tháng  12  năm  2008  của Bộ Công Thương.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 110,094 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 24.09 tokens
    • max: 53 tokens
    • min: 19 tokens
    • mean: 275.34 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Tiêu chuẩn của Kiểm soát viên chính thị trường là gì? Điều 6 . Kiểm soát viên chính thị trường ... 3 . Tiêu chuẩn về năng lực chuyên môn, nghiệp vụ: a) Nắm vững đường lối, chủ trương của Đảng và pháp luật của Nhà nước; hệ thống chính trị, hệ thống tổ chức các cơ quan nhà nước, chế độ công vụ công chức và các kiến thức, kỹ năng chuyên môn, nghiệp vụ liên quan đến chức năng, nhiệm vụ, quyền hạn của lực lượng Quản lý thị trường; b) Nắm vững tình hình, xu thế phát triển của thị trường hàng hóa, công tác phòng, chống buôn lậu, gian lận thương mại, hàng giả và chiến lược phát triển của lực lượng Quản lý thị trường; c) Có khả năng tham gia xây dựng các văn bản quy phạm pháp luật, chiến lược, kế hoạch, chương trình, dự án, đề án về tổ chức, hoạt động của lực lượng Quản lý thị trường và hướng dẫn, kiểm tra, đánh giá việc thực hiện chế độ, chính sách, các quy định về chức năng, nhiệm vụ, quyền hạn của lực lượng Quản lý thị trường; d) Có khả năng chỉ đạo, hướng dẫn và thực hiện hoạt động kiểm tra, thanh tra chuyên ngành, đấu tranh chống các hành v...
    Công ty chế biển sản phẩm rong nho tách nước thì phải kê khai, tính nộp thuế GTGT theo mức bao nhiêu? Điều 10 . Thuế suất 5 % ...  5 . Sản phẩm trồng trọt, chăn nuôi, thủy sản, hải sản chưa qua chế biến hoặc chỉ qua sơ chế, bảo quản (hình thức sơ chế, bảo quản theo hướng dẫn tại khoản 1 Điều 4 Thông tư này) ở khâu kinh doanh thương mại, trừ các trường hợp hướng dẫn tại khoản 5 Điều 5 Thông tư này. Sản phẩm trồng trọt chưa qua chế biến hướng dẫn tại khoản này bao gồm cả thóc, gạo, ngô, khoai, sắn, lúa mỳ. 
    Người lao động có 2 quyển sổ BHXH thì có được quyền rút BHXH 1 lần luôn không? Điều 27 . Cấp lại, đổi, điều chỉnh nội dung trên sổ BHXH, thẻ BHYT 1 . Cấp lại sổ BHXH do mất, hỏng, gộp sổ BHXH 1 . 1 . Thành phần hồ sơ: a) Cấp lại sổ BHXH do mất, hỏng: Tờ khai tham gia, điều chỉnh thông tin BHXH, BHYT (Mẫu TK 1 -TS). b) Gộp sổ BHXH: - Tờ khai tham gia, điều chỉnh thông tin BHXH, BHYT (Mẫu TK 1 -TS). - Các sổ BHXH đề nghị gộp (nếu có). 1 . 2 . Số lượng hồ sơ: 01 bộ. 2 . Cấp lại sổ BHXH do thay đổi họ, tên, chữ đệm; ngày, tháng, năm sinh; giới tính, dân tộc; quốc tịch; điều chỉnh nội dung đã ghi trên sổ BHXH 2 . 1 . Thành phần hồ sơ a) Người tham gia - Tờ khai tham gia, điều chỉnh thông tin BHXH, BHYT (Mẫu TK 1 -TS). - Hồ sơ kèm theo (Mục 3 , 4 Phụ lục 01 ). b) Đơn vị: Bảng kê thông tin (Mẫu D 01 -TS). 2 . 2 . Số lượng hồ sơ: 01 bộ.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 12,233 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 23.98 tokens
    • max: 56 tokens
    • min: 23 tokens
    • mean: 273.02 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Phòng Thu thập, xử lý thông tin nghiệp vụ kiểm soát hải quan thuộc Cục Điều tra chống buôn lậu thực hiện chức năng gì? CHỨC NĂNG, NHIỆM VỤ, QUYỀN HẠN II. Phòng Thu thập, xử lý thông tin nghiệp vụ kiểm soát hải quan (gọi tắt là Phòng 2 ) Phòng Thu thập, xử lý thông tin nghiệp vụ kiểm soát hải quan có chức năng tham mưu, giúp Cục trưởng Cục Điều tra chống buôn lậu trong công tác thu thập, xử lý thông tin nghiệp vụ kiểm soát hải quan trong phạm vi, nhiệm vụ, quyền hạn được giao. ...
    Hồ sơ thăm viếng mộ liệt sĩ gồm những thành phần nào? 2 . Phòng Lao động - Thương binh và Xã hội tại địa phương nơi quản lý hồ sơ gốc của liệt sĩ có trách nhiệm kiểm tra và cấp giấy giới thiệu thăm viếng mộ liệt sĩ theo Mẫu số 42 Phụ lục I Nghị định này trong thời gian 03 ngày làm việc kể từ ngày nhận đủ giấy tờ. 3 . Ủy ban nhân dân cấp xã nơi quản lý mộ hoặc thuộc địa phương nơi liệt sĩ hy sinh trong thời gian 01 ngày làm việc có trách nhiệm xác nhận vào giấy giới thiệu thăm viếng mộ liệt sĩ. 4 . Người đi thăm viếng mộ liệt sĩ gửi giấy giới thiệu thăm viếng mộ liệt sĩ đã được xác nhận đến Phòng Lao động - Thương binh và Xã hội tại địa phương nơi quản lý hồ sơ gốc của liệt sĩ để nhận hỗ trợ. 5 . Phòng Lao động - Thương binh và Xã hội tại địa phương nơi quản lý hồ sơ gốc của liệt sĩ thực hiện chi hỗ trợ thăm viếng mộ liệt sĩ trong thời gian 02 ngày làm việc kể từ ngày tiếp nhận giấy giới thiệu có xác nhận của Ủy ban nhân dân cấp xã nơi thăm viếng mộ hoặc thuộc địa phương nơi liệt sĩ hy sinh.
    Khi thực hiện nhiệm vụ nếu phát sinh vấn đề có liên quan đến quyền hạn của đơn vị khác thuộc Bộ Tư pháp thì Cục Kế hoạch Tài chính có trách nhiệm gì? Trách nhiệm và mối quan hệ công tác Trách nhiệm và mối quan hệ công tác giữa Vụ với Lãnh đạo Bộ, các cơ quan, đơn vị có liên quan thuộc các Bộ, ngành, các đơn vị thuộc Bộ, các Sở Tư pháp, Cục Thi hành án dân sự các tỉnh, thành phố trực thuộc Trung ương và các tập thể, cá nhân có liên quan khác được thực hiện theo quy định của pháp luật, theo Quy chế làm việc của Bộ và các quy định cụ thể sau: 1 . Vụ chịu sự lãnh đạo, chỉ đạo trực tiếp của Bộ trưởng hoặc Thứ trưởng được Bộ trưởng phân công phụ trách; có trách nhiệm báo cáo, kiến nghị kịp thời những vấn đề thuộc thẩm quyền giải quyết của Lãnh đạo Bộ, kết quả thực hiện nhiệm vụ công tác, chương trình, kế hoạch thuộc phạm vi, chức năng của Vụ. 2 . Là đầu mối giúp Lãnh đạo Bộ thực hiện quan hệ công tác với Bộ, ngành, địa phương và các cơ quan, tổ chức khác có liên quan trong lĩnh vực thuộc phạm vi chức năng của Vụ. 3 . Trong quá trình triển khai thực hiện nhiệm vụ, quyền hạn quy định tại Điều 2 của Quyết định này nếu phát sinh ...
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • warmup_ratio: 0.1
  • warmup_steps: 50
  • fp16: True
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 50
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss
0.0291 100 0.2737 -
0.0581 200 0.2574 -
0.0872 300 0.2226 0.1469
0.1162 400 0.1786 -
0.1453 500 0.1694 -
0.1744 600 0.138 0.1010
0.2034 700 0.1333 -
0.2325 800 0.1336 -
0.2616 900 0.114 0.0842
0.2906 1000 0.1043 -
0.3197 1100 0.0918 -
0.3487 1200 0.0992 0.0735
0.3778 1300 0.0849 -
0.4069 1400 0.0946 -
0.4359 1500 0.0918 0.0669
0.4650 1600 0.0896 -
0.4940 1700 0.0826 -
0.5231 1800 0.065 0.0611
0.5522 1900 0.0749 -
0.5812 2000 0.0755 -
0.6103 2100 0.0734 0.0571
0.6393 2200 0.0741 -
0.6684 2300 0.07 -
0.6975 2400 0.0643 0.0541
0.7265 2500 0.0692 -
0.7556 2600 0.0703 -
0.7847 2700 0.0591 0.0527
0.8137 2800 0.0632 -
0.8428 2900 0.0635 -
0.8718 3000 0.0575 0.0504
0.9009 3100 0.0512 -
0.9300 3200 0.0606 -
0.9590 3300 0.0496 0.0477
0.9881 3400 0.0576 -
1.0171 3500 0.0573 -
1.0462 3600 0.0546 0.0467
1.0753 3700 0.057 -
1.1043 3800 0.0505 -
1.1334 3900 0.0484 0.0450
1.1625 4000 0.0437 -
1.1915 4100 0.0488 -
1.2206 4200 0.0482 0.0436
1.2496 4300 0.054 -
1.2787 4400 0.0429 -
1.3078 4500 0.05 0.0425
1.3368 4600 0.0482 -
1.3659 4700 0.0445 -
1.3949 4800 0.0454 0.0407
1.4240 4900 0.0528 -
1.4531 5000 0.045 -
1.4821 5100 0.0428 0.0419
1.5112 5200 0.0396 -
1.5402 5300 0.0496 -
1.5693 5400 0.05 0.0395
1.5984 5500 0.0447 -
1.6274 5600 0.0472 -
1.6565 5700 0.0453 0.0382
1.6856 5800 0.0429 -
1.7146 5900 0.0415 -
1.7437 6000 0.0373 0.0382
1.7727 6100 0.046 -
1.8018 6200 0.0499 -
1.8309 6300 0.0441 0.0376
1.8599 6400 0.0408 -
1.8890 6500 0.0489 -
1.9180 6600 0.0373 0.0364
1.9471 6700 0.0422 -
1.9762 6800 0.0394 -
2.0052 6900 0.041 0.0375
2.0343 7000 0.0293 -
2.0634 7100 0.0295 -
2.0924 7200 0.0299 0.0363
2.1215 7300 0.0389 -
2.1505 7400 0.0332 -
2.1796 7500 0.0283 0.0349
2.2087 7600 0.033 -
2.2377 7700 0.032 -
2.2668 7800 0.0338 0.0358
2.2958 7900 0.0266 -
2.3249 8000 0.038 -
2.3540 8100 0.0333 0.0342
2.3830 8200 0.0338 -
2.4121 8300 0.0268 -
2.4412 8400 0.0422 0.0342
2.4702 8500 0.029 -
2.4993 8600 0.0422 -
2.5283 8700 0.0344 0.0341
2.5574 8800 0.0368 -
2.5865 8900 0.0378 -
2.6155 9000 0.029 0.0334
2.6446 9100 0.0291 -
2.6736 9200 0.032 -
2.7027 9300 0.0367 0.0325
2.7318 9400 0.0322 -
2.7608 9500 0.0254 -
2.7899 9600 0.0415 0.0342
2.8189 9700 0.0304 -
2.8480 9800 0.0391 -
2.8771 9900 0.0343 0.0338
2.9061 10000 0.0355 -
2.9352 10100 0.0293 -
2.9643 10200 0.0346 0.0334
2.9933 10300 0.0379 -

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.4.1
  • Transformers: 4.47.0
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
94
Safetensors
Model size
305M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for ICTuniverse/tuned-bi-encoder

Finetuned
(1)
this model

Space using ICTuniverse/tuned-bi-encoder 1