HF中国镜像站

Daniel van Strien's picture

Daniel van Strien PRO

davanstrien

·

https://danielvanstrien.xyz/

AI & ML interests

Machine Learning Librarian

Recent Activity

updated a dataset 23 minutes ago

davanstrien/models_with_metadata_and_summaries

updated a dataset about 2 hours ago

data-is-better-together/fineweb-c-progress

updated a dataset about 2 hours ago

librarian-bots/model_cards_with_metadata

View all activity

Organizations

Posts 50

Post

2672

📊 Introducing "HF中国镜像站 Dataset Spotlight" 📊

I'm excited to share the first episode of our AI-generated podcast series focusing on nice datasets from the HF中国镜像站 Hub!

This first episode explores mathematical reasoning datasets:

- SynthLabsAI/Big-Math-RL-Verified: Over 250,000 rigorously verified problems spanning multiple difficulty levels and mathematical domains
- open-r1/OpenR1-Math-220k: 220,000 math problems with multiple reasoning traces, verified for accuracy using Math Verify and Llama-3.3-70B models.
- facebook/natural_reasoning: 1.1 million general reasoning questions carefully deduplicated and decontaminated from existing benchmarks, showing superior scaling effects when training models like Llama3.1-8B-Instruct.

Plus a bonus segment on bespokelabs/bespoke-manim!

https://www.youtube.com/watch?v=-TgmRq45tW4

Articles 21

Article

294

Open-R1: Update #1

View all Articles

Collections 10

Papers 4

arxiv:2211.10086

arxiv:2211.05100

arxiv:2205.04738

arxiv:2204.05211

spaces 52

Temp Argilla

Progress Test

Display progress leaderboards and annotations

Running on CPU Upgrade

Huggingface Datasets Search V2

Display API documentation with Swagger UI

Smol Gradio Api

Generate concise summaries of HF中国镜像站 card texts

Extractous

Extract text and metadata from documents

Running on Zero

ColPali fine-tuning Query Generator

Generate retrieval queries from document images

models 148

davanstrien/SmolLM2-135M-tldr-sft-2025-03-12_19-02

Text Generation • Updated about 3 hours ago • 49

davanstrien/SmolLM2-135M-tldr-sft-2025-03-12_19-02-Q8_0-GGUF

Updated about 20 hours ago • 92

davanstrien/SmolLM2-135M-tldr-sft-2025-03-12_18-10-Q8_0-GGUF

Updated about 21 hours ago • 17

davanstrien/SmolLM2-360M-tldr-sft-2025-03-12_17-46-Q8_0-GGUF

Updated about 22 hours ago • 23

davanstrien/SmolLM2-360M-tldr-sft-2025-03-12_17-46-Q4_K_M-GGUF

Updated about 22 hours ago • 17

davanstrien/SmolLM2-360M-tldr-sft-2025-03-12_17-18

Updated about 23 hours ago • 20

davanstrien/Smol-Hub-tldr

Text Generation • Updated 2 days ago • 1.39k • 9

davanstrien/fineweb-fra_latn-quality-transformer

Text Classification • Updated 3 days ago • 3

davanstrien/fineweb-swe_latn-quality-transformer

Text Classification • Updated 3 days ago • 6

davanstrien/Smol-Hub-tldr-Q8_0-GGUF

Updated 27 days ago • 56

datasets 324

davanstrien/models_with_metadata_and_summaries

Viewer • Updated 23 minutes ago • 2k • 161

davanstrien/parsed-model-cards

Viewer • Updated 2 days ago • 5k • 89 • 2

davanstrien/magpie-preference

Viewer • Updated 6 days ago • 534 • 1.55k • 13

davanstrien/models_with_summaries_and_params

Viewer • Updated 8 days ago • 975 • 104 • 1

davanstrien/datasets_with_metadata_and_summaries

Viewer • Updated 10 days ago • 48.5k • 255

davanstrien/grpo-completions-new

Viewer • Updated 10 days ago • 896 • 314 • 1

davanstrien/grpo-completions-640

Viewer • Updated 10 days ago • 168 • 62

davanstrien/grpo-completions

Viewer • Updated 13 days ago • 8 • 27

davanstrien/test-logs

Viewer • Updated 21 days ago • 1.2k • 968 • 4

davanstrien/test-logs-3

Viewer • Updated 21 days ago • 56 • 189