동찰 Beating
모니터링에 따르면 DeepSeek V4가 두 가지 형식화된 수학 추론 평가를 발표했습니다. Putnam(풋넴대회)은 북미에서 가장 높은 수준의 대학생 수학 대회입니다.
실용 시나리오(Practical Regime)에서 V4-Flash-Max는 Putnam-200 Pass@8 벤치마크에서 81.00점을 획득했으며, 오픈 소스 도구 LeanExplore 및 제한된 샘플링을 사용했습니다. 대조적으로 Seed-2.0-Prover는 35.50이고, Gemini 3 Pro 및 Seed-1.5-Prover는 각각 26.50입니다.
전선 시나리오(Frontier Regime)에서 V4는 혼합 형식-비형식 추론 방식을 채용하였으며, 먼저 비공식 추론을 사용하여 후보 자연어 해석을 생성한 후 자체 검증을 거친 뒤, Lean에서 형식적 에이전트가 엄격한 증명을 완료하였습니다. V4는 Putnam-2025에서 120/120의 만점을 획득하여 Axiom과 공동 1위를 달성하였으며, Seed-1.5-Prover의 110/120 및 Aristotle의 100/120보다 높은 결과를 얻었습니다. 전선 시나리오에서는 대규모 계산 확장이 사용되었으며, 실용 시나리오 결과는 상용 배치 능력을 더욱 잘 반영합니다.