o1이 과학 문제 벤치마크에서 인간 박사 전문가를 이겼네요 ㄷㄷ

o1이 과학 문제 벤치마크에서 인간 박사 전문가를 이겼네요 ㄷㄷ

박사 레벨 수준의 과학 문제 벤치마크인데, 인간 전문가를 이겼네요.

GPQA(Graduate-level Google Proof Q&A Benchmark)

GPQA는 2023년 11월, 뉴욕대, 코히어, 앤트로픽이 공동 발표한 논문에서 시작된 벤치마크로, 생물학, 물리학, 화학 분야의 전문가들이 출제한 448개의 고난도 객관식 문제로 구성된 데이터 세트로 구성되어 있다고 합니다.

이 벤치마크에서 해당 분야 박사 학위를 취득했거나 취득 중인 전문가들의 평균 정답률은 65%였으며, 명백한 실수를 제외하면 74%에 달했다고 합니다.

생물학, 물리학, 화학 분야 외의 박사 학위자들로 구성된 고도로 숙련된 비전문가 검증자들은 웹에서 무제한으로 검색할 수 있는 환경에서 평균 30분 이상을 소요했음에도 불구하고 34%의 정확도만을 기록했습니다. 해당 문제들이 단순히 구글 검색으로 해결할 수 없는 수준임을 보여줍니다.

가장 강력한 GPT-4 기반 모델조차 39%의 정확도에 그쳤으며, 첨단 AI 시스템에게도 매우 어려운 문제임을 시사합니다.

이전 SOTA(State of the Art)였던 Claude 3.5 Sonnet은 제로샷 CoT(Chain of Thought) 방식으로 59.4%, 5-샷 CoT 샘플 32개로 67.2%의 정확도를 기록한 바 있습니다.

오늘 발표된 OpenAI의 o1 모델은 첫 시도에서 pass@1 기준으로 78%를 달성하며, 현재 LLM(대규모 언어 모델) 중 가장 어려운 벤치마크 중 하나로 알려진 GPQA를 빠르게 넘어선 느낌입니다. 이렇게 빠르게 성과가 나올 줄은 상상도 못 했습니다.

MMLU와 달리, GPQA는 진정으로 해당 분야의 박사급 지식과 추론 능력이 요구되는 고난이도 문제들로 구성되어 있습니다.

올해 10월에 더 업그레이드된 모델이 출시되고, 내년 상반기에 더욱 발전된 모델이 나올 예정이라고 하니, 앞으로의 AI 발전이 어디까지 갈지 상상조차 되지 않습니다.