AI AI
속보
심층
이벤트
더보기
자금 조달 정보
특집
온체인 생태계
용어
팟캐스트
데이터
OPRR
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
XRP
$2.25
2.07%
DOGE
$0.325
2.23%
USDC
$0.999
3.05%

DeepSeek V4 런칭: 1.6T 모델이 출시되었습니다. 이 Flagship 모델은 1M 컨텍스트를 지원하며 V3.2의 추론 파워 대비 27%밖에 사용하지 않습니다.

동찰 Beating 모니터링에 따르면, DeepSeek의 Open Source V4 시리즈 프리뷰 버전, MIT 라이센스, Weight가 Hugging Face 및 ModelScope에 배포되었습니다. 이 시리즈에는 두 가지 MoE 모델이 포함되어 있습니다: V4-Pro 총 매개변수 1.6T, 각 토큰 활성화 49B(490 십억); V4-Flash 총 매개변수 284B(2840 십억), 활성화 13B(130 십억). 두 모델 모두 1M 토큰 컨텍스트를 지원합니다.

아키텍처 세 가지 업그레이드: Deep Context와 관련하여 융합된 주의 메커니즘(CSA 압축 희소 주의 + 중첩된 압축 주의 HCA)가 장거리 컨텍스트 소모를 크게 줄였으며, 1M 컨텍스트에서 V4-Pro의 단일 토큰 추론 FLOP은 V3.2의 27%에 불과하며, 키-값(KV) 캐시(추론 시에 과거 정보를 저장하는 메모리 사용량)는 V3.2의 10%에 불과합니다; 매니폴드 제약 초연결 mHC는 전통적인 잔여 연결을 대체하고, 교차 계층 신호 전파 안정성을 강화시켰으며, 학습은 Muon 옵티마이저를 통해 가속화되었습니다. 프리트레이닝 데이터는 32T 토큰을 초과합니다.

포스트-트레이닝은 두 단계로 진행됩니다: 먼저 SFT와 GRPO 강화 학습을 사용하여 각 분야 전문가를 훈련한 다음 온라인 증류를 사용하여 하나의 모델로 통합됩니다. V4-Pro-Max(최고 추론 강도 모드)는 현재 최고의 오픈 소스 모델로 주장하며, 인코딩 벤치마크는 최고 수준에 이르며, 추론 및 에이전트 작업은 클로즈드 소스 선두와의 격차가 크게 줄어들었습니다. V4-Flash-Max는 충분한 사고 예산을 부여한 후 Pro에 근접한 추론 성능을 보이지만, 순수한 지식 및 복잡한 에이전트 작업에서는 매개변수 크기에 제한이 있습니다. Weight는 FP4+FP8 혼합 정밀도로 저장됩니다.

举报 오류 신고/제보
오류 신고/제보
제출
새 문고 추가
자신만 보기
공개
저장
문고 선택
새 문고 추가
취소
완료