AI AI
속보
심층
이벤트
더보기
자금 조달 정보
특집
온체인 생태계
용어
팟캐스트
데이터
OPRR
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
XRP
$2.25
2.07%
DOGE
$0.325
2.23%
USDC
$0.999
3.05%

「훌라웨이 칩이 DeepSeek V4 출시를 지연했나요」? 동일한 커널에서 AMD와 NVIDIA 성능을 향상시킨 인공지능 가속기는 거의 2배 빨라졌습니다.」

딥감지 V4가 출시되기 전에 딥감 Beating의 모니터링에 따르면 커뮤니티에서 V4의 예상보다 늦은 온라인 시간은 모델이 NVIDIA에서 华웨이 AI Accelerator로 이관되는 동안 적응에 어려움을 겪어 지연되었을 것이라는 추측이 널리 퍼졌습니다. V4 기술 보고서는 이 소문에 직접 대답하지는 않았지만 공개된 성능 데이터는 명백하게 이와 모순됩니다.

보고서에 따르면, V4의 세분화된 전문가 분할 스키마(Fine-Grained EP Scheme)는 NVIDIA GPU와 华웨이 AI Accelerator NPU 이중 플랫폼에서 배포가 확인되었으며, 일반 추론 부하가 1.50~1.73배 가속되었으며, RL rollout 및 고속 Agent 서비스와 같은 지연에 민감한 시나리오에서는 최대 1.96배 가속이 이루어졌습니다. 팀은 CUDA 버전 내부 커널 MegaMoE를 DeepGEMM의 일부로 공개했습니다. 다시 말해, V4는 두 세트의 하드웨어에서 거의 이론적 한계에 도달하는 효율을 보여주었으며, 크로스 플랫폼 적응은 성능 하락을 일으키지 않았습니다.

举报 오류 신고/제보
오류 신고/제보
제출
새 문고 추가
자신만 보기
공개
저장
문고 선택
새 문고 추가
취소
완료