3 24 4

Samuel Arcadinho

SSamDav

SSamDav

AI & ML interests

None yet

Recent Activity

upvoted a paper 1 day ago

Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

upvoted a paper 3 days ago

Forgetting Transformer: Softmax Attention with a Forget Gate

upvoted a paper 3 days ago

EuroBERT: Scaling Multilingual Encoders for European Languages

View all activity

Organizations

SSamDav's activity

upvoted a paper 1 day ago

Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Paper • 2503.07572 • Published 3 days ago • 26

upvoted 2 papers 3 days ago

Forgetting Transformer: Softmax Attention with a Forget Gate

Paper • 2503.02130 • Published 10 days ago • 26

EuroBERT: Scaling Multilingual Encoders for European Languages

Paper • 2503.05500 • Published 6 days ago • 71

upvoted 2 papers 17 days ago

SurveyX: Academic Survey Automation via Large Language Models

Paper • 2502.14776 • Published 21 days ago • 92

MoBA: Mixture of Block Attention for Long-Context LLMs

Paper • 2502.13189 • Published 23 days ago • 14

liked a Space 21 days ago

2.24k

The Ultra-Scale Playbook

🌌

The ultimate guide to training LLM on large GPU Clusters

upvoted 2 collections 23 days ago

Dria-Agent-a

Collection

powerful agentic models built for pythonic function calling • 4 items • Updated 27 days ago • 4

Tiny-Agent-a

Collection

fast and powerful agentic models designed to run on edge devices. • 6 items • Updated 29 days ago • 7

commented 2 papers about 1 month ago

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Paper • 2502.05171 • Published Feb 7 • 124 •

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Paper • 2502.05171 • Published Feb 7 • 124 •

upvoted 2 papers about 1 month ago

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Paper • 2502.05171 • Published Feb 7 • 124

Scalable-Softmax Is Superior for Attention

Paper • 2501.19399 • Published Jan 31 • 21

commented a paper about 1 month ago

Scalable-Softmax Is Superior for Attention

Paper • 2501.19399 • Published Jan 31 • 21 •

upvoted 3 papers about 1 month ago

s1: Simple test-time scaling

Paper • 2501.19393 • Published Jan 31 • 111

DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

Paper • 2411.04983 • Published Nov 7, 2024 • 12

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published Jan 28 • 108

upvoted 2 papers 3 months ago

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Paper • 2412.13663 • Published Dec 18, 2024 • 135

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 352

liked a dataset 3 months ago

HuggingFaceFW/fineweb-2

Viewer • Updated Jan 8 • 12.5B • 75.9k • 446

upvoted a paper 3 months ago

NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training

Paper • 2412.02030 • Published Dec 2, 2024 • 19