동찰 Beating 감시에 따르면 DeepSeek 오픈 소스 V4 시리즈 미리보기 버전은 MIT 라이센스로 출시되었으며, Hugging Face와 ModelScope에서 가중치가 온라인에 올라갔습니다. 이 시리즈에는 두 가지 MoE 모델이 포함되어 있습니다: V4-Pro는 총 매개변수가 1.6T이며, 각 토큰 활성화는 49B(490 억)입니다. V4-Flash는 총 매개변수가 284B(2840 억)이며, 활성화는 13B(130 억)입니다. 두 모델 모두 1백만 토큰 컨텍스트를 지원합니다.
아키텍처 세 가지 업그레이드: 희소 애트랙션 알고리즘 (Compressive Sparse Attention CSA + Heavy Compressive Attention HCA)은 장기 컨텍스트 오버헤드를 크게 줄여줍니다. 1백만 개의 컨텍스트에서 V4-Pro의 단일 토큰 추론 FLOPs는 V3.2의 27%에 불과하며, KV 캐시 (추론 중에 과거 정보를 저장하는 메모리 사용량)는 V3.2의 10%에 불과합니다. 매니폴드 제약 슈퍼 커넥션 mHC가 전통적인 잔여 커넥션을 대체하여 효과적으로 교차 계층 신호 전파를 강화합니다. 학습에는 Muon 옵티마이저가 사용되어 수렴을 가속화합니다. 사전 훈련 데이터는 32T 토큰을 초과합니다.
사후 훈련은 두 단계로 진행됩니다: 먼저 SFT와 GRPO를 사용하여 각 영역 전문가를 강화 학습시킨 다음 온라인 증류를 사용하여 하나의 모델로 통합합니다. V4-Pro-Max(최대 추론 강도 모드)는 현재 가장 강력한 오픈 소스 모델로, 인코딩 기준이 최고 수준에 도달하였으며, 추론 및 에이전트 작업은 폐쇄 소스 최첨단과의 격차가 크게 줄었습니다. V4-Flash-Max는 충분한 사고 예산을 제공한 후 Pro에 근접한 추론 성능을 보이지만, 순수한 지식 및 복잡한 에이전트 작업에서는 매개변수 규모의 제한을 받습니다. 가중치는 FP4+FP8 혼합 정밀도로 저장됩니다.