상위 모델 성능 개요

상위 모델 기준: NormScore - LiveBench

순위 모델명 NormScore - LiveBench 에이전틱 코딩 코딩 데이터 분석 만약 언어 수학 추론
1 o3 High 74.606 74.212 75.215 71.340 77.797 72.344 73.286 76.098
2 Gemini 2.5 Pro Preview 72.099 63.610 72.176 76.395 75.370 70.018 76.488 71.004
3 o3 Pro High 71.398 47.708 75.308 73.638 77.531 76.424 73.066 76.118
4 Claude 4 Opus Thinking 71.004 56.543 71.881 76.887 72.886 71.476 76.215 72.769
5 o3 Medium 70.134 54.776 76.383 72.455 76.095 69.395 69.555 73.148
6 Claude 4 Sonnet Thinking 69.464 49.475 72.176 75.326 72.575 68.370 73.558 76.587
7 o4-Mini High 69.010 51.241 78.439 73.623 76.694 61.296 73.076 70.822
8 Gemini 2.5 Pro Preview (2025-06-05 Max Thinking) 68.159 38.873 72.473 78.231 69.822 73.546 72.626 75.783
9 DeepSeek R1 66.833 42.407 70.027 77.365 72.168 61.920 73.511 73.228
10 Claude 3.7 Sonnet Thinking 65.915 47.708 71.788 74.983 73.344 66.674 68.175 61.236
11 Gemini 2.5 Pro Preview 65.148 21.204 69.343 78.398 70.927 72.688 72.003 75.364
12 Claude 4 Opus 64.222 51.241 72.176 70.449 70.748 73.822 68.283 45.384
13 o4-Mini Medium 62.924 33.572 72.770 72.941 73.806 57.597 69.695 63.080
14 Gemini 2.5 Flash Preview 61.488 30.038 62.302 75.343 71.769 56.730 72.565 63.129
15 DeepSeek R1 60.872 28.272 74.622 74.024 72.611 52.462 67.116 62.053
16 Qwen 3 235B A22B 60.636 17.669 65.137 73.589 79.174 56.900 68.972 62.651
17 Grok 3 Mini Beta (High) 59.968 30.038 53.410 68.008 71.036 57.486 66.121 70.480
18 Gemini 2.5 Flash Preview 59.562 28.272 59.172 68.737 71.324 58.875 70.477 59.089
19 Claude 4 Sonnet 59.363 30.038 76.771 68.193 69.742 65.827 66.154 44.103
20 Qwen 3 32B 59.361 14.136 62.989 72.622 76.882 52.972 68.893 66.824
21 Claude 3.7 Sonnet 56.709 37.106 72.863 63.681 69.028 62.372 56.038 39.475
22 Qwen 3 30B A3B 55.504 15.903 46.556 70.600 75.155 52.743 65.763 57.309
23 GPT-4.5 Preview 55.002 22.971 74.622 62.933 65.221 62.643 58.643 43.757
24 Grok 3 Beta 53.064 17.669 72.176 59.841 76.486 52.787 54.264 39.049
25 DeepSeek V3.1 52.351 19.436 67.582 64.235 73.606 46.387 61.560 35.601
26 GPT-4.1 52.028 17.669 71.788 69.331 69.483 53.189 53.574 35.696
27 ChatGPT-4o 50.566 17.669 75.993 69.533 64.863 48.902 47.802 39.231
28 Claude 3.5 Sonnet 49.146 22.971 72.473 59.882 62.559 54.399 43.917 34.704
29 Qwen2.5 Max 48.672 7.068 65.526 68.404 68.061 57.133 49.277 30.968
30 GPT-4.1 Mini 47.199 10.601 70.713 62.350 63.438 37.024 50.530 43.211
31 Mistral Medium 3 47.171 19.436 60.339 59.436 64.390 44.139 51.463 33.728
32 Llama 4 Maverick 17B 128E Instruct 45.597 7.068 53.113 52.429 68.346 47.825 52.332 35.264
33 Phi-4 Reasoning Plus 44.845 5.301 59.376 55.498 66.021 29.180 53.413 46.463
34 DeepSeek R1 Distill Llama 70B 44.704 7.068 45.685 63.292 63.101 35.854 50.216 48.102
35 GPT-4o 43.640 12.369 67.971 65.245 58.611 43.913 35.745 31.948
36 Gemini 2.0 Flash Lite 43.284 5.301 58.190 68.485 69.215 33.207 47.403 25.916
37 Hunyuan Turbos 41.238 3.534 49.390 49.293 68.788 33.586 49.580 30.714
38 Gemma 3 27B 40.320 7.068 48.019 39.772 67.678 40.388 44.919 27.660
39 Mistral Large 39.900 1.767 61.709 55.473 61.289 40.427 36.749 27.214
40 Qwen2.5 72B Instruct Turbo 39.351 3.534 56.226 53.086 58.173 36.143 44.810 27.411
41 Mistral Small 38.256 12.369 48.705 54.680 57.470 34.122 33.206 29.797
42 DeepSeek R1 Distill Qwen 32B 38.190 5.301 46.074 52.127 50.289 29.513 51.548 35.720
43 Claude 3.5 Haiku 36.398 7.068 52.132 55.340 55.829 38.534 29.957 21.007
44 GPT-4.1 Nano 36.339 7.068 62.691 45.035 51.920 29.066 36.513 28.571
45 Command R Plus 28.190 1.767 26.603 47.743 51.919 30.321 19.676 17.382
46 Command R 25.704 1.767 25.622 38.670 50.157 27.378 15.957 16.524

카테고리 성능 비교

모델별 카테고리 점수

모델 에이전틱 코딩 코딩 데이터 분석 만약 언어 수학 추론
o3 High 36.667 76.715 67.020 86.175 75.996 85.004 94.667
Gemini 2.5 Pro Preview 30.000 73.576 68.848 83.504 71.811 88.628 88.250
o3 Pro High 31.667 76.776 69.404 85.871 79.882 84.747 94.667
Claude 4 Opus Thinking 33.333 73.255 70.731 80.742 73.721 88.247 90.472
o3 Medium 28.333 77.863 68.193 84.321 73.481 80.657 91.000
Claude 4 Sonnet Thinking 30.000 73.576 69.837 80.434 70.188 85.250 95.250
o4-Mini High 28.333 79.976 68.328 84.958 66.055 84.895 88.111
Gemini 2.5 Pro Preview (2025-06-05 Max Thinking) 20.000 73.898 71.501 77.354 75.440 84.193 94.278
DeepSeek R1 26.667 71.402 71.539 79.954 64.823 85.258 91.083
Claude 3.7 Sonnet Thinking 25.000 73.194 69.107 81.254 68.269 78.999 76.167

카테고리 및 벤치마크

카테고리 벤치마크
에이전틱 코딩 javascript, python, typescript
코딩 code_completion, code_generation
데이터 분석 tablejoin, tablereformat
만약 paraphrase, simplify, story_generation, summarize
언어 connections, plot_unscrambling, typos
수학 AMPS_Hard, math_comp, olympiad
추론 spatial, web_of_lies_v3, zebra_puzzle

모델 상세정보

상세 성능을 보려면 모델을 선택하세요.

NormScore - Livebench 계산 방식 및 장점

NormScore - Livebench는 LiveBench.ai 데이터를 기반으로 모델의 성능을 정규화하여 비교하기 위한 점수입니다. 이 점수는 각 벤치마크 평가지표의 난이도가 일정하지 않더라도 정규화를 통해 이를 보정함으로써, 모델 간의 성능을 더 변별력 있게 비교할 수 있도록 돕습니다.

계산 방식은 다음과 같습니다.

1

각 벤치마크 내에서 모델들의 점수를 확인합니다.

2

각 벤치마크별 최고 점수를 100점으로 정규화하고, 다른 모델들의 점수는 해당 최고 점수 대비 비율로 계산합니다.

정규화 공식
\( S_{norm} = \frac{S_{raw}}{S_{max}} \times 100 \)
3

각 모델의 정규화된 벤치마크 점수들의 평균을 계산하여 1차 NormScore를 산출합니다.

1차 NormScore 공식
\( NormScore_{1st} = \frac{\sum S_{norm}}{N_{benchmarks}} \)
4

1차 NormScore가 가장 높은 모델을 찾습니다.

5

해당 1등 모델의 LiveBench.ai 원본 데이터 기준 평균 점수를 확인합니다.

6

1등 모델의 원본 평균 점수를 1등 모델의 1차 NormScore로 나누어 조정 비율을 계산합니다.

조정 비율 공식
\( Adjustment\_Ratio = \frac{Avg\_Score_{1st}}{NormScore_{1st\_1st}} \)
7

모든 모델의 1차 NormScore와 카테고리별 평균 점수에 이 조정 비율을 곱하여 최종 NormScore - Livebench 및 조정된 카테고리 점수를 산출합니다.

최종 NormScore 공식
\( NormScore_{Livebench} = NormScore_{1st} \times Adjustment\_Ratio \)

이 방식을 통해 NormScore - Livebench는 LiveBench.ai 원본 데이터의 평균 점수 스케일을 유지하면서도, 각 벤치마크 내에서의 상대적인 성능을 반영하여 모델의 실제 역량을 더 정확하게 평가할 수 있습니다.

라이선스 정보

본 웹사이트에서 제공되는 LiveBench.ai 데이터는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 4.0 국제 라이선스(CC BY-SA 4.0) 에 따라 제공됩니다.

이용 조건:

저작자 표시

적절한 출처를 명시하고, 라이선스 링크를 제공하며, 변경 사항이 있는 경우 명시해야 합니다.

동일조건변경허락

이 자료를 리믹스, 변형하거나 이를 기반으로 새 작품을 만든 경우, 그 결과물도 반드시 같은 라이선스로 배포해야 합니다.

재사용 조건:

이 데이터를 재사용, 재배포 또는 파생작품을 만들 경우, 다음 출처를 반드시 표시해야 합니다:

1
원본 데이터: LiveBench.ai
2
가공 및 제공: Topllms.com

그리고 동일한 라이선스( CC BY-SA 4.0 )를 적용해야 합니다.