LLM 模型排名

周按模型高推理能力模型（不包括免费模型）前 10 名

思考比率指标指南

思考比率基于推理令牌 / 输入令牌比率计算。该比率越高，模型经历的内部推理过程就越多。

该指标表示模型在生成响应之前经历的深度思考过程。思考比例较高的模型在复杂问题解决、逻辑推理、多步骤规划等任务中可能产生更精细的结果。然而，高思考比例并不一定意味着更好的性能。在某些任务中，过度的内部推理可能产生不必要的计算成本，或在需要简洁响应的情况下反而效率低下。因此，应根据任务的特性和目的来解释此指标。

排名	模型名称	输入令牌	推理令牌	思考比率
1	perplexity/sonar-deep-research	33.19M	900.63M	27.1334
2	cognitivecomputations/dolphin3.0-r1-mistral-24b	7.96M	7.79M	0.9792
3	deepseek/deepseek-r1-distill-llama-8b	87.63M	74.63M	0.8517
4	deepseek/deepseek-r1-distill-qwen-1.5b	5.98M	4.75M	0.7946
5	deepseek/deepseek-r1-distill-qwen-14b	105.33M	75.94M	0.721
6	qwen/qwen3-8b-04-28	344.59M	229.96M	0.6673
7	openai/o1-mini-2024-09-12	1.48M	985.58K	0.6638
8	thudm/glm-4.1v-9b-thinking	78.60M	51.84M	0.6595
9	deepseek/deepseek-r1-distill-llama-70b	1.7B	1.0B	0.5841
10	thudm/glm-z1-32b-0414	260.06K	140.71K	0.5411