AI AI
속보
심층
이벤트
더보기
자금 조달 정보
특집
온체인 생태계
용어
팟캐스트
데이터
OPRR
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
XRP
$2.25
2.07%
DOGE
$0.325
2.23%
USDC
$0.999
3.05%

DeepSeek V4는 Putnam-2025에서 120점을 획득하여, 형식적 수학 추론이 공리에 필적한다.

동찰 Beating

모니터링에 따르면 DeepSeek V4가 두 가지 형식화된 수학 추론 평가를 발표했습니다. Putnam(풋넴대회)은 북미에서 가장 높은 수준의 대학생 수학 대회입니다.

실용 시나리오(Practical Regime)에서 V4-Flash-Max는 Putnam-200 Pass@8 벤치마크에서 81.00점을 획득했으며, 오픈 소스 도구 LeanExplore 및 제한된 샘플링을 사용했습니다. 대조적으로 Seed-2.0-Prover는 35.50이고, Gemini 3 Pro 및 Seed-1.5-Prover는 각각 26.50입니다.

전선 시나리오(Frontier Regime)에서 V4는 혼합 형식-비형식 추론 방식을 채용하였으며, 먼저 비공식 추론을 사용하여 후보 자연어 해석을 생성한 후 자체 검증을 거친 뒤, Lean에서 형식적 에이전트가 엄격한 증명을 완료하였습니다. V4는 Putnam-2025에서 120/120의 만점을 획득하여 Axiom과 공동 1위를 달성하였으며, Seed-1.5-Prover의 110/120 및 Aristotle의 100/120보다 높은 결과를 얻었습니다. 전선 시나리오에서는 대규모 계산 확장이 사용되었으며, 실용 시나리오 결과는 상용 배치 능력을 더욱 잘 반영합니다.

举报 오류 신고/제보
오류 신고/제보
제출
새 문고 추가
자신만 보기
공개
저장
문고 선택
새 문고 추가
취소
완료