따르면 Bēta Beatīng 모니터링에 따르면, DeepSeek V4 기술 보고서에 따르면, V4-Flash 및 V4-Pro는 각각 32T 및 33T 토큰에서 사전 훈련되었으며, V3의 약 15T 토큰보다 두 배이다. 보고서에는 훈련 과정에서 "상당한 불안정성 도전에 직면했다"고 이야기하며, 손실 급등(훈련 손실 급등)이 반복되며, MoE 레이어의 이상 값 때문에 발생했으며, 라우팅 메커니즘 자체가 이러한 이상 값의 심화를 가져오며, 간단한 롤백만으로는 해결할 수 없다고 자세히 설명하고 있습니다.
DeepSeek는 두 가지 솔루션을 찾아 실제 훈련에 적용했으며, 이 중 하나는 Anticipatory Routing(예측적 라우팅)으로, 라우팅 색인 계산을 기본 네트워크 업데이트에서 분리하여, 손실 급등이 감지되는 경우에만 자동으로 트리거되도록하고 부가 비용은 약 20% 정도입니다; SwiGLU 클램핑은 활성화 값을 고정 범위로 제한하여 이상 값이 억제되도록 합니다. 보고서는 두 방법이 모두 효과가 있지만 "기본 원리는 아직 충분히 이해되지 않았다"고 인정하고 있습니다.
Google DeepMind 연구원 Susan Zhang(이전에 Meta AI 및 OpenAI에서 근무)는 훈련 데이터가 두 배로 증가함에 따라 발생한 불안정성을 "해소하기 위해" 그리고 두 가지 솔루션을 "붕대로" 설명하며, DeepSeek의 기술 투명성을 긍정적으로 인정하고 있습니다.
