DeepSeek V4 런칭: 1.6T 모델이 출시되었습니다. 이 Flagship 모델은 1M 컨텍스트를 지원하며 V3.2의 추론 파워 대비 27%밖에 사용하지 않습니다.

동찰 Beating 모니터링에 따르면, DeepSeek의 Open Source V4 시리즈 프리뷰 버전, MIT 라이센스, Weight가 Hugging Face 및 ModelScope에 배포되었습니다. 이 시리즈에는 두 가지 MoE 모델이 포함되어 있습니다: V4-Pro 총 매개변수 1.6T, 각 토큰 활성화 49B(490 십억); V4-Flash 총 매개변수 284B(2840 십억), 활성화 13B(130 십억). 두 모델 모두 1M 토큰 컨텍스트를 지원합니다.

아키텍처 세 가지 업그레이드: Deep Context와 관련하여 융합된 주의 메커니즘(CSA 압축 희소 주의 + 중첩된 압축 주의 HCA)가 장거리 컨텍스트 소모를 크게 줄였으며, 1M 컨텍스트에서 V4-Pro의 단일 토큰 추론 FLOP은 V3.2의 27%에 불과하며, 키-값(KV) 캐시(추론 시에 과거 정보를 저장하는 메모리 사용량)는 V3.2의 10%에 불과합니다; 매니폴드 제약 초연결 mHC는 전통적인 잔여 연결을 대체하고, 교차 계층 신호 전파 안정성을 강화시켰으며, 학습은 Muon 옵티마이저를 통해 가속화되었습니다. 프리트레이닝 데이터는 32T 토큰을 초과합니다.

포스트-트레이닝은 두 단계로 진행됩니다: 먼저 SFT와 GRPO 강화 학습을 사용하여 각 분야 전문가를 훈련한 다음 온라인 증류를 사용하여 하나의 모델로 통합됩니다. V4-Pro-Max(최고 추론 강도 모드)는 현재 최고의 오픈 소스 모델로 주장하며, 인코딩 벤치마크는 최고 수준에 이르며, 추론 및 에이전트 작업은 클로즈드 소스 선두와의 격차가 크게 줄어들었습니다. V4-Flash-Max는 충분한 사고 예산을 부여한 후 Pro에 근접한 추론 성능을 보이지만, 순수한 지식 및 복잡한 에이전트 작업에서는 매개변수 크기에 제한이 있습니다. Weight는 FP4+FP8 혼합 정밀도로 저장됩니다.

원문 링크

오류 신고/제보