LLM 模型排名

每日按模型高推理能力模型（不包括免费模型）前 10 名

思考比率指标指南

思考比率基于推理令牌 / 输入令牌比率计算。该比率越高，模型经历的内部推理过程就越多。

该指标表示模型在生成响应之前经历的深度思考过程。思考比例较高的模型在复杂问题解决、逻辑推理、多步骤规划等任务中可能产生更精细的结果。然而，高思考比例并不一定意味着更好的性能。在某些任务中，过度的内部推理可能产生不必要的计算成本，或在需要简洁响应的情况下反而效率低下。因此，应根据任务的特性和目的来解释此指标。

排名	模型名称	输入令牌	推理令牌	思考比率
1	perplexity/sonar-deep-research	3.96M	124.91M	31.5366
2	deepseek/deepseek-r1-distill-qwen-14b	5.38M	7.49M	1.3909
3	qwen/qwen3-8b-04-28	38.87M	43.17M	1.1107
4	mistralai/magistral-medium-2506	24.58M	18.22M	0.7414
5	deepseek/deepseek-r1-distill-llama-70b	188.91M	119.87M	0.6346
6	tencent/hunyuan-a13b-instruct	23.76K	14.82K	0.6234
7	openai/o3-mini-2025-01-31	87.57M	50.81M	0.5802
8	thudm/glm-4.1v-9b-thinking	13.38M	7.49M	0.5598
9	openai/o1-mini-2024-09-12	223.69K	118.40K	0.5293
10	deepseek/deepseek-r1-0528-qwen3-8b	213.82M	96.55M	0.4516