SentenceTransformer based on dangvantuan/vietnamese-document-embedding
This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: dangvantuan/vietnamese-document-embedding
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- HF中国镜像站: Sentence Transformers on HF中国镜像站
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: VietnameseModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Trận chung kết AFF Cup 2022 được tổ chức tại sân vận động Mỹ Đình thì có thể áp dụng quy định Luật Bóng đá của Việt Nam không?',
'Luật này được áp dụng thống nhất trong các cuộc thi đấu bóng đá 11 người trên toàn quốc và thi đấu quốc tế ở Việt Nam.',
'2 . YÊU CẦU KỸ THUẬT 2 . 1 . Yêu cầu kỹ thuật đối với thuốc nổ TNT Thuốc nổ TNT đưa vào để dự trữ quốc gia phải đảm bảo các thông số kỹ thuật cơ bản quy định ở bảng 1 của Quy chuẩn này. Bảng 1 : Các thông số kỹ thuật cơ bản của thuốc nổ TNT 2 . 2 . Yêu cầu về nhà kho Các nhà kho phải tuân theo đúng quy định của QCVN 02 : 2008 /BCT - Quy chuẩn kỹ thuật quốc gia về an toàn trong bảo quản, vận chuyển, sử dụng và tiêu hủy vật liệu nổ công nghiệp theo Quyết định số 51 / 2008 /QĐ-BCT ngày 31 tháng 12 năm 2008 của Bộ Công Thương.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 110,094 training samples
- Columns:
anchor
andpositive
- Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 7 tokens
- mean: 24.09 tokens
- max: 53 tokens
- min: 19 tokens
- mean: 275.34 tokens
- max: 512 tokens
- Samples:
anchor positive Tiêu chuẩn của Kiểm soát viên chính thị trường là gì?
Điều 6 . Kiểm soát viên chính thị trường ... 3 . Tiêu chuẩn về năng lực chuyên môn, nghiệp vụ: a) Nắm vững đường lối, chủ trương của Đảng và pháp luật của Nhà nước; hệ thống chính trị, hệ thống tổ chức các cơ quan nhà nước, chế độ công vụ công chức và các kiến thức, kỹ năng chuyên môn, nghiệp vụ liên quan đến chức năng, nhiệm vụ, quyền hạn của lực lượng Quản lý thị trường; b) Nắm vững tình hình, xu thế phát triển của thị trường hàng hóa, công tác phòng, chống buôn lậu, gian lận thương mại, hàng giả và chiến lược phát triển của lực lượng Quản lý thị trường; c) Có khả năng tham gia xây dựng các văn bản quy phạm pháp luật, chiến lược, kế hoạch, chương trình, dự án, đề án về tổ chức, hoạt động của lực lượng Quản lý thị trường và hướng dẫn, kiểm tra, đánh giá việc thực hiện chế độ, chính sách, các quy định về chức năng, nhiệm vụ, quyền hạn của lực lượng Quản lý thị trường; d) Có khả năng chỉ đạo, hướng dẫn và thực hiện hoạt động kiểm tra, thanh tra chuyên ngành, đấu tranh chống các hành v...
Công ty chế biển sản phẩm rong nho tách nước thì phải kê khai, tính nộp thuế GTGT theo mức bao nhiêu?
Điều 10 . Thuế suất 5 % ... 5 . Sản phẩm trồng trọt, chăn nuôi, thủy sản, hải sản chưa qua chế biến hoặc chỉ qua sơ chế, bảo quản (hình thức sơ chế, bảo quản theo hướng dẫn tại khoản 1 Điều 4 Thông tư này) ở khâu kinh doanh thương mại, trừ các trường hợp hướng dẫn tại khoản 5 Điều 5 Thông tư này. Sản phẩm trồng trọt chưa qua chế biến hướng dẫn tại khoản này bao gồm cả thóc, gạo, ngô, khoai, sắn, lúa mỳ.
Người lao động có 2 quyển sổ BHXH thì có được quyền rút BHXH 1 lần luôn không?
Điều 27 . Cấp lại, đổi, điều chỉnh nội dung trên sổ BHXH, thẻ BHYT 1 . Cấp lại sổ BHXH do mất, hỏng, gộp sổ BHXH 1 . 1 . Thành phần hồ sơ: a) Cấp lại sổ BHXH do mất, hỏng: Tờ khai tham gia, điều chỉnh thông tin BHXH, BHYT (Mẫu TK 1 -TS). b) Gộp sổ BHXH: - Tờ khai tham gia, điều chỉnh thông tin BHXH, BHYT (Mẫu TK 1 -TS). - Các sổ BHXH đề nghị gộp (nếu có). 1 . 2 . Số lượng hồ sơ: 01 bộ. 2 . Cấp lại sổ BHXH do thay đổi họ, tên, chữ đệm; ngày, tháng, năm sinh; giới tính, dân tộc; quốc tịch; điều chỉnh nội dung đã ghi trên sổ BHXH 2 . 1 . Thành phần hồ sơ a) Người tham gia - Tờ khai tham gia, điều chỉnh thông tin BHXH, BHYT (Mẫu TK 1 -TS). - Hồ sơ kèm theo (Mục 3 , 4 Phụ lục 01 ). b) Đơn vị: Bảng kê thông tin (Mẫu D 01 -TS). 2 . 2 . Số lượng hồ sơ: 01 bộ.
- Loss:
CachedMultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 12,233 evaluation samples
- Columns:
anchor
andpositive
- Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 7 tokens
- mean: 23.98 tokens
- max: 56 tokens
- min: 23 tokens
- mean: 273.02 tokens
- max: 512 tokens
- Samples:
anchor positive Phòng Thu thập, xử lý thông tin nghiệp vụ kiểm soát hải quan thuộc Cục Điều tra chống buôn lậu thực hiện chức năng gì?
CHỨC NĂNG, NHIỆM VỤ, QUYỀN HẠN II. Phòng Thu thập, xử lý thông tin nghiệp vụ kiểm soát hải quan (gọi tắt là Phòng 2 ) Phòng Thu thập, xử lý thông tin nghiệp vụ kiểm soát hải quan có chức năng tham mưu, giúp Cục trưởng Cục Điều tra chống buôn lậu trong công tác thu thập, xử lý thông tin nghiệp vụ kiểm soát hải quan trong phạm vi, nhiệm vụ, quyền hạn được giao. ...
Hồ sơ thăm viếng mộ liệt sĩ gồm những thành phần nào?
2 . Phòng Lao động - Thương binh và Xã hội tại địa phương nơi quản lý hồ sơ gốc của liệt sĩ có trách nhiệm kiểm tra và cấp giấy giới thiệu thăm viếng mộ liệt sĩ theo Mẫu số 42 Phụ lục I Nghị định này trong thời gian 03 ngày làm việc kể từ ngày nhận đủ giấy tờ. 3 . Ủy ban nhân dân cấp xã nơi quản lý mộ hoặc thuộc địa phương nơi liệt sĩ hy sinh trong thời gian 01 ngày làm việc có trách nhiệm xác nhận vào giấy giới thiệu thăm viếng mộ liệt sĩ. 4 . Người đi thăm viếng mộ liệt sĩ gửi giấy giới thiệu thăm viếng mộ liệt sĩ đã được xác nhận đến Phòng Lao động - Thương binh và Xã hội tại địa phương nơi quản lý hồ sơ gốc của liệt sĩ để nhận hỗ trợ. 5 . Phòng Lao động - Thương binh và Xã hội tại địa phương nơi quản lý hồ sơ gốc của liệt sĩ thực hiện chi hỗ trợ thăm viếng mộ liệt sĩ trong thời gian 02 ngày làm việc kể từ ngày tiếp nhận giấy giới thiệu có xác nhận của Ủy ban nhân dân cấp xã nơi thăm viếng mộ hoặc thuộc địa phương nơi liệt sĩ hy sinh.
Khi thực hiện nhiệm vụ nếu phát sinh vấn đề có liên quan đến quyền hạn của đơn vị khác thuộc Bộ Tư pháp thì Cục Kế hoạch Tài chính có trách nhiệm gì?
Trách nhiệm và mối quan hệ công tác Trách nhiệm và mối quan hệ công tác giữa Vụ với Lãnh đạo Bộ, các cơ quan, đơn vị có liên quan thuộc các Bộ, ngành, các đơn vị thuộc Bộ, các Sở Tư pháp, Cục Thi hành án dân sự các tỉnh, thành phố trực thuộc Trung ương và các tập thể, cá nhân có liên quan khác được thực hiện theo quy định của pháp luật, theo Quy chế làm việc của Bộ và các quy định cụ thể sau: 1 . Vụ chịu sự lãnh đạo, chỉ đạo trực tiếp của Bộ trưởng hoặc Thứ trưởng được Bộ trưởng phân công phụ trách; có trách nhiệm báo cáo, kiến nghị kịp thời những vấn đề thuộc thẩm quyền giải quyết của Lãnh đạo Bộ, kết quả thực hiện nhiệm vụ công tác, chương trình, kế hoạch thuộc phạm vi, chức năng của Vụ. 2 . Là đầu mối giúp Lãnh đạo Bộ thực hiện quan hệ công tác với Bộ, ngành, địa phương và các cơ quan, tổ chức khác có liên quan trong lĩnh vực thuộc phạm vi chức năng của Vụ. 3 . Trong quá trình triển khai thực hiện nhiệm vụ, quyền hạn quy định tại Điều 2 của Quyết định này nếu phát sinh ...
- Loss:
CachedMultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 32per_device_eval_batch_size
: 32learning_rate
: 2e-05weight_decay
: 0.01warmup_ratio
: 0.1warmup_steps
: 50fp16
: Trueload_best_model_at_end
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 32per_device_eval_batch_size
: 32per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.01adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 3max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 50log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Click to expand
Epoch | Step | Training Loss | Validation Loss |
---|---|---|---|
0.0291 | 100 | 0.2737 | - |
0.0581 | 200 | 0.2574 | - |
0.0872 | 300 | 0.2226 | 0.1469 |
0.1162 | 400 | 0.1786 | - |
0.1453 | 500 | 0.1694 | - |
0.1744 | 600 | 0.138 | 0.1010 |
0.2034 | 700 | 0.1333 | - |
0.2325 | 800 | 0.1336 | - |
0.2616 | 900 | 0.114 | 0.0842 |
0.2906 | 1000 | 0.1043 | - |
0.3197 | 1100 | 0.0918 | - |
0.3487 | 1200 | 0.0992 | 0.0735 |
0.3778 | 1300 | 0.0849 | - |
0.4069 | 1400 | 0.0946 | - |
0.4359 | 1500 | 0.0918 | 0.0669 |
0.4650 | 1600 | 0.0896 | - |
0.4940 | 1700 | 0.0826 | - |
0.5231 | 1800 | 0.065 | 0.0611 |
0.5522 | 1900 | 0.0749 | - |
0.5812 | 2000 | 0.0755 | - |
0.6103 | 2100 | 0.0734 | 0.0571 |
0.6393 | 2200 | 0.0741 | - |
0.6684 | 2300 | 0.07 | - |
0.6975 | 2400 | 0.0643 | 0.0541 |
0.7265 | 2500 | 0.0692 | - |
0.7556 | 2600 | 0.0703 | - |
0.7847 | 2700 | 0.0591 | 0.0527 |
0.8137 | 2800 | 0.0632 | - |
0.8428 | 2900 | 0.0635 | - |
0.8718 | 3000 | 0.0575 | 0.0504 |
0.9009 | 3100 | 0.0512 | - |
0.9300 | 3200 | 0.0606 | - |
0.9590 | 3300 | 0.0496 | 0.0477 |
0.9881 | 3400 | 0.0576 | - |
1.0171 | 3500 | 0.0573 | - |
1.0462 | 3600 | 0.0546 | 0.0467 |
1.0753 | 3700 | 0.057 | - |
1.1043 | 3800 | 0.0505 | - |
1.1334 | 3900 | 0.0484 | 0.0450 |
1.1625 | 4000 | 0.0437 | - |
1.1915 | 4100 | 0.0488 | - |
1.2206 | 4200 | 0.0482 | 0.0436 |
1.2496 | 4300 | 0.054 | - |
1.2787 | 4400 | 0.0429 | - |
1.3078 | 4500 | 0.05 | 0.0425 |
1.3368 | 4600 | 0.0482 | - |
1.3659 | 4700 | 0.0445 | - |
1.3949 | 4800 | 0.0454 | 0.0407 |
1.4240 | 4900 | 0.0528 | - |
1.4531 | 5000 | 0.045 | - |
1.4821 | 5100 | 0.0428 | 0.0419 |
1.5112 | 5200 | 0.0396 | - |
1.5402 | 5300 | 0.0496 | - |
1.5693 | 5400 | 0.05 | 0.0395 |
1.5984 | 5500 | 0.0447 | - |
1.6274 | 5600 | 0.0472 | - |
1.6565 | 5700 | 0.0453 | 0.0382 |
1.6856 | 5800 | 0.0429 | - |
1.7146 | 5900 | 0.0415 | - |
1.7437 | 6000 | 0.0373 | 0.0382 |
1.7727 | 6100 | 0.046 | - |
1.8018 | 6200 | 0.0499 | - |
1.8309 | 6300 | 0.0441 | 0.0376 |
1.8599 | 6400 | 0.0408 | - |
1.8890 | 6500 | 0.0489 | - |
1.9180 | 6600 | 0.0373 | 0.0364 |
1.9471 | 6700 | 0.0422 | - |
1.9762 | 6800 | 0.0394 | - |
2.0052 | 6900 | 0.041 | 0.0375 |
2.0343 | 7000 | 0.0293 | - |
2.0634 | 7100 | 0.0295 | - |
2.0924 | 7200 | 0.0299 | 0.0363 |
2.1215 | 7300 | 0.0389 | - |
2.1505 | 7400 | 0.0332 | - |
2.1796 | 7500 | 0.0283 | 0.0349 |
2.2087 | 7600 | 0.033 | - |
2.2377 | 7700 | 0.032 | - |
2.2668 | 7800 | 0.0338 | 0.0358 |
2.2958 | 7900 | 0.0266 | - |
2.3249 | 8000 | 0.038 | - |
2.3540 | 8100 | 0.0333 | 0.0342 |
2.3830 | 8200 | 0.0338 | - |
2.4121 | 8300 | 0.0268 | - |
2.4412 | 8400 | 0.0422 | 0.0342 |
2.4702 | 8500 | 0.029 | - |
2.4993 | 8600 | 0.0422 | - |
2.5283 | 8700 | 0.0344 | 0.0341 |
2.5574 | 8800 | 0.0368 | - |
2.5865 | 8900 | 0.0378 | - |
2.6155 | 9000 | 0.029 | 0.0334 |
2.6446 | 9100 | 0.0291 | - |
2.6736 | 9200 | 0.032 | - |
2.7027 | 9300 | 0.0367 | 0.0325 |
2.7318 | 9400 | 0.0322 | - |
2.7608 | 9500 | 0.0254 | - |
2.7899 | 9600 | 0.0415 | 0.0342 |
2.8189 | 9700 | 0.0304 | - |
2.8480 | 9800 | 0.0391 | - |
2.8771 | 9900 | 0.0343 | 0.0338 |
2.9061 | 10000 | 0.0355 | - |
2.9352 | 10100 | 0.0293 | - |
2.9643 | 10200 | 0.0346 | 0.0334 |
2.9933 | 10300 | 0.0379 | - |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.4.1
- Transformers: 4.47.0
- PyTorch: 2.5.1+cu121
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
- Downloads last month
- 94
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
Model tree for ICTuniverse/tuned-bi-encoder
Base model
dangvantuan/vietnamese-document-embedding