DDaDa-o1이 과학 문제 벤치마크에서 인간 박사 전문가를 이겼네요 ㄷㄷ

o1이 과학 문제 벤치마크에서 인간 박사 전문가를 이겼네요 ㄷㄷ

09-13 07:22
5019
5
9

o1이 과학 문제 벤치마크에서 인간 박사 전문가를 이겼네요 ㄷㄷ

박사 레벨 수준의 과학 문제 벤치마크인데, 인간 전문가를 이겼네요.

GPQA(Graduate-level Google Proof Q&A Benchmark)

GPQA는 2023년 11월, 뉴욕대, 코히어, 앤트로픽이 공동 발표한 논문에서 시작된 벤치마크로, 생물학, 물리학, 화학 분야의 전문가들이 출제한 448개의 고난도 객관식 문제로 구성된 데이터 세트로 구성되어 있다고 합니다.

이 벤치마크에서 해당 분야 박사 학위를 취득했거나 취득 중인 전문가들의 평균 정답률은 65%였으며, 명백한 실수를 제외하면 74%에 달했다고 합니다.

생물학, 물리학, 화학 분야 외의 박사 학위자들로 구성된 고도로 숙련된 비전문가 검증자들은 웹에서 무제한으로 검색할 수 있는 환경에서 평균 30분 이상을 소요했음에도 불구하고 34%의 정확도만을 기록했습니다. 해당 문제들이 단순히 구글 검색으로 해결할 수 없는 수준임을 보여줍니다.

가장 강력한 GPT-4 기반 모델조차 39%의 정확도에 그쳤으며, 첨단 AI 시스템에게도 매우 어려운 문제임을 시사합니다.

이전 SOTA(State of the Art)였던 Claude 3.5 Sonnet은 제로샷 CoT(Chain of Thought) 방식으로 59.4%, 5-샷 CoT 샘플 32개로 67.2%의 정확도를 기록한 바 있습니다.

오늘 발표된 OpenAI의 o1 모델은 첫 시도에서 pass@1 기준으로 78%를 달성하며, 현재 LLM(대규모 언어 모델) 중 가장 어려운 벤치마크 중 하나로 알려진 GPQA를 빠르게 넘어선 느낌입니다. 이렇게 빠르게 성과가 나올 줄은 상상도 못 했습니다.

MMLU와 달리, GPQA는 진정으로 해당 분야의 박사급 지식과 추론 능력이 요구되는 고난이도 문제들로 구성되어 있습니다.

올해 10월에 더 업그레이드된 모델이 출시되고, 내년 상반기에 더욱 발전된 모델이 나올 예정이라고 하니, 앞으로의 AI 발전이 어디까지 갈지 상상조차 되지 않습니다.

참을 수 없게 생긴 복숭아트럭

참을 수 없게 생긴 복숭아트럭

21:39
3303
13
12

콩깍지가 벗겨지는 순간

06:42
3801
19
23

지금쯤 사실을 알고선 멘탈 털렸을 식당

지금쯤 사실을 알고선 멘탈 털렸을 식당

18:46
9042
0
30

방송중 모두가 놀란상황

20:02
9180
1
33

[팰리스vs맨유] 경기종료 0-0 양 팀 결국 득점없이 무승부를 거둡니다 ㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷ

[팰리스vs맨유] 경기종료 0-0 양 팀 결국 득점없이 무승부를 거둡니다 ㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷ

03:22
83472
262
334

SG워너비 이석훈 긴급성명.JPG

SG워너비 이석훈 긴급성명.JPG

03:20
86045
302
54

개따듯

00:17
696
12
6

NAS용 HDD를 중국에서 직구했는데..

NAS용 HDD를 중국에서 직구했는데..

00:00
4349
7
10

아이유 근황

00:00
4932
6
13

죽음을 앞둔 신세경.gif

21:47
7197
0
10

체코언론'한국대통령 옆에 사기꾼이 있는가?'

체코언론'한국대통령 옆에 사기꾼이 있는가?'

21:38
8798
9
6

ㅇㅎ) 구글 인스타에 절대 검색하면 안되는 단어

ㅇㅎ) 구글 인스타에 절대 검색하면 안되는 단어

23:19
4513
7
9

ㅇㅎ)호불호 갈리는 소개팅 의상...

ㅇㅎ)호불호 갈리는 소개팅 의상...

08:04
6458
20
25

이 리셀러분 고소했다고 합니다.

이 리셀러분 고소했다고 합니다.

20:10
6576
10
35

이재용이 10조에 인수한 하만 근황

이재용이 10조에 인수한 하만 근황

20:57
6708
3
27

[팰리스vs맨유] 어어어어어 맨유 핸드볼 주장해보지만 이번에도 안들어갑니다 ㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷ

[팰리스vs맨유] 어어어어어 맨유 핸드볼 주장해보지만 이번에도 안들어갑니다 ㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷ

02:55
54580
56
86

[팰리스vs맨유] 아 에제 이걸 놓쳐요 ㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷ

[팰리스vs맨유] 아 에제 이걸 놓쳐요 ㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷ

02:59
61971
114
92

일이 소중해? 내가 소중해??

일이 소중해? 내가 소중해??

20:03
4228
13
12

무서운 13살ㅋㅋ

18:40
4519
18
11

현재 반응 좋은 대전 택시 표시등

현재 반응 좋은 대전 택시 표시등

00:02
1877
24
9

안 본 게시글 모아 보기

1
2
3
4