딥감지 V4가 출시되기 전에 딥감 Beating의 모니터링에 따르면 커뮤니티에서 V4의 예상보다 늦은 온라인 시간은 모델이 NVIDIA에서 华웨이 AI Accelerator로 이관되는 동안 적응에 어려움을 겪어 지연되었을 것이라는 추측이 널리 퍼졌습니다. V4 기술 보고서는 이 소문에 직접 대답하지는 않았지만 공개된 성능 데이터는 명백하게 이와 모순됩니다.
보고서에 따르면, V4의 세분화된 전문가 분할 스키마(Fine-Grained EP Scheme)는 NVIDIA GPU와 华웨이 AI Accelerator NPU 이중 플랫폼에서 배포가 확인되었으며, 일반 추론 부하가 1.50~1.73배 가속되었으며, RL rollout 및 고속 Agent 서비스와 같은 지연에 민감한 시나리오에서는 최대 1.96배 가속이 이루어졌습니다. 팀은 CUDA 버전 내부 커널 MegaMoE를 DeepGEMM의 일부로 공개했습니다. 다시 말해, V4는 두 세트의 하드웨어에서 거의 이론적 한계에 도달하는 효율을 보여주었으며, 크로스 플랫폼 적응은 성능 하락을 일으키지 않았습니다.
