HF中国镜像站

new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jul 17

Submitted by

Bakerbunker

Qwen2-Audio Technical Report

·
12 authors

7

Submitted by

akhaliq

NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

·
4 authors

3

Submitted by

akhaliq

Scaling Diffusion Transformers to 16 Billion Parameters

·
5 authors

Submitted by

schrodingers-tiger

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

·
6 authors

5

Submitted by

wangyulong

Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

·
4 authors

4

Submitted by

Lin-Chen

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

·
12 authors

3

Submitted by

akhaliq

DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

·
5 authors

Submitted by

akhaliq

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

·
6 authors

Submitted by

akhaliq

Efficient Training with Denoised Neural Weights

·
9 authors

Submitted by

davanstrien

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

·
9 authors

Submitted by

akhaliq

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

·
2 authors

Submitted by

akhaliq

From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

·
7 authors

Submitted by

ChenMnZ

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

·
8 authors

3

Submitted by

ZehanWang

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

·
8 authors

Submitted by

akhaliq

Grasping Diverse Objects with Simulated Humanoids

·
6 authors

Submitted by

jhauret

Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

·
7 authors

2

Submitted by

yxdyc

Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

·
7 authors

Submitted by

akhaliq

Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

·
5 authors

Submitted by

Mingyu111

Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

·
15 authors