AI AI
속보
심층
이벤트
더보기
자금 조달 정보
특집
온체인 생태계
용어
팟캐스트
데이터
OPRR
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
XRP
$2.25
2.07%
DOGE
$0.325
2.23%
USDC
$0.999
3.05%

검증: 어제 TileKernels 내부 커널 코드를 기반으로 하는 V4 아키텍처 유추, 코어 세 가지가 성공하고 하나는 실패했습니다

동찰 Beating 모니터링에 따르면 어제 DeepSeek가 TileKernels 커널 라이브러리를 오픈 소스로 공개한 후, 우리는 라이브러리에 포함된 프로덕션 급 커널을 통해 V4의 코어 아키텍처 구성 요소를 추론했습니다. 오늘 V4 모델 카드가 출시되었고, 다음과 같이 확인되었습니다:

mHC(매니폴드 제약 초하이퍼 연결): 어제 V4가 바이트 단위의 원시 HyperConnection이 아닌 DeepSeek 개선된 mHC를 사용했다는 추론을 했습니다. 모델 카드가 V4가 매니폴드 제약 초하이퍼 연결을 사용한다고 확인했습니다. MoE 아키텍처 및 Top-k 전문가 라우팅: 어제 TileKernels에는 MoE 배분 및 수집 커널이 포함되어 있었는데, 모델 카드가 V4가 MoE 모델임을 확인했고 일치했습니다. FP4+FP8 혼합 정밀도: 어제 라이브러리에 FP4, FP8 양자화 커널이 포함되어 있었는데, 모델 카드가 가중치에 FP4+FP8 혼합 저장을 사용한다고 확인했습니다.

유일하게 일치하지 않은 것은 Engram(조건부 메모리 모듈)였습니다. 어제 우리는 Yifan Zhang가 공개한 V4 사양에 Engram에 대한 언급이 없었음을 이미 알아차렸고, 구어는 여지를 남겼습니다. V4 모델 카드 또한 Engram을 언급하지 않았습니다.

모델 카드는 또한 TileKernels에 포함되지 않은 새로운 구성 요소를 드러냈습니다: 혼합 주의 메커니즘(CSA + HCA)는 V4의 장기 상황 효율성 진화의 핵심이며, 1M 상황에서 추론 FLOP은 V3.2의 27%이며, KV 캐시는 단 10%입니다; 훈련에는 Muon 옵티마이저를 사용합니다.

举报 오류 신고/제보
오류 신고/제보
제출
새 문고 추가
자신만 보기
공개
저장
문고 선택
새 문고 추가
취소
완료