R1 Distill Qwen 7B Consultez les informations détaillées et les prix des modèles d'IA

Contexte Longueur 131,072 tokens, deepseek de fourni

131,072

Tokens de Contexte

$0.00

Prix du Prompt

$0.00

Prix de sortie

0/16

Support de Fonctionnalités

Présentation du Modèle

DeepSeek-R1-Distill-Qwen-7B is a 7 billion parameter dense language model distilled from DeepSeek-R1, leveraging reinforcement learning-enhanced reasoning data generated by DeepSeek's larger models. The distillation process transfers advanced reasoning, math, and code capabilities into a smaller, more efficient model architecture based on Qwen2.5-Math-7B. This model demonstrates strong performance across mathematical benchmarks (92.8% pass@1 on MATH-500), coding tasks (Codeforces rating 1189), and general reasoning (49.1% pass@1 on GPQA Diamond), achieving competitive accuracy relative to larger models while maintaining smaller inference costs.

Informations de Base

Développeur

deepseek

Série de Modèles

Qwen

Date de sortie

2025-05-30

Longueur de Contexte

131,072 tokens

Variante

standard

Informations sur les Prix

Jetons de Prompt

$0.00 / 1M jetons

Tokens de Complétion

$0.00 / 1M jetons

Fonctionnalités Prises en Charge

Non pris en charge (16)

Entrée d'Image

Top K

Seed

Pénalité de Fréquence

Pénalité de Présence

Pénalité de Répétition

Format de Réponse

Min P

Biais Logit

Utilisation d'Outils

Logprobs

Top Logprobs

Sorties Structurées

Raisonnement

Options de Recherche Web

Top A

Statistiques d'Utilisation Réelle

#236

Sur 353 modèles au total

269.44M

Total des Tokens des 30 derniers jours

11.71M

Usage Moyen Quotidien

85%

Changement d'Usage Hebdomadaire

Tendance d'utilisation des 30 derniers jours

Modèles du Même Auteur (deepseek)

DeepSeek V3.1

163,840 tokens

$0.25 / $1.00

Voir les détails

DeepSeek V3.1 (free)

32,768 tokens

Gratuit

Voir les détails

DeepSeek V3.1 (thinking)

131,072 tokens

$0.55 / $2.19

Voir les détails

DeepSeek V3.1 Base

163,840 tokens

$0.25 / $1.00

Voir les détails