(AlphaProof Learning and Adaptation Processes. Credit: Nature (2025). DOI: 10.1038/s41586-025-09833-y)
구글 딥마인드의 알파 프루프 (AlphaProof)는 2024년 국제 수학 올림피아드 (International Mathematical Olympiad (IMO))에서 은메달에 해당하는 성적을 거뒀습니다. 현재 대부분의 LLM 모델이 올림피아드에서 메달권의 성능을 보이지 못하는 점을 생각하면 획기적인 성과인데, 딥마인드의 알파 프루프 팀이 저널 네이처에 그 상세한 기술적 비결을 공개했습니다.
연구팀에 따르면 알파 프루프는 세 단계로 수학적 문제를 풀고 증명합니다. 첫 단계는 3000억 토큰으로 일반적인 코드와 수학 문서를 학습한 후 두 번째 단계에서는 수학 전문가들이 푼 30만 건의 수학 증명을 학습하게 됩니다. 이때의 소프트웨어 환경은 본래 마이크로소프트가 개발한 Lean을 사용한다고 합니다. 마지막 단계는 8000만 건의 수학 문제를 강화학습 (Reinfocrcement Learning, RL) 방식으로 학습하는 것입니다.
이때 AI는 강화학습을 통해 실수를 각 단계별로 스스로 교정하면서 정답을 찾아가는데, 복잡한 수학 문제에서 각 단계에서 정확한 답을 찾기 위해 Test-Time RL (TTRL)라는 방식을 사용한다고 합니다. 수백만 개의 단순화된 수학 문제를 풀고 이를 기반으로 강화학습을 통해 정답을 찾아가는 AI는 이제 인간의 수학 문제 풀이 능력을 뛰어넘을 가능성에 도전하고 있습니다.
바둑에서 사람을 모두 이긴 알파고나 현재의 LLM의 성능도 놀랍지만, 알파 프루프의 놀라움은 사실 그 이상이 아닐까 생각합니다.
참고
https://phys.org/news/2025-11-ai-math-genius-accurate-results.html
Thomas Hubert et al, Olympiad-level formal mathematical reasoning with reinforcement learning, Nature (2025). DOI: 10.1038/s41586-025-09833-y

댓글
댓글 쓰기