동향 Beating의 모니터링에 따르면 DeepSeek가 MIT 라이선스로 TileKernels를 오픈 소스로 공개했으며 높은 성능을 자랑하는 GPU 하부 계산 코드의 일괄을 공개했습니다. 이 코드 일부는 내부 생산 환경에서 이미 사용되었습니다. GPU 커널은 그래픽 카드에서 직접 실행되는 계산 프로그램으로, 모델 학습 및 추론의 속도 한계를 결정합니다. TileKernels는 모두 Python으로 작성되었으며 GPU 커널 전용 언어 TileLang에 의존하여 하부 최적화를 자동화하여 CUDA C++을 직접 작성할 필요가 없습니다. DeepSeek는 대부분의 커널이 하드웨어 성능 한계에 근접했다고 언급했습니다.
라이브러리에는 DeepSeek-V3 및 R1 논문에 나오지 않은 두 프로덕션 수준 커널 아키텍처이 포함되어 있습니다. Engram은 DeepSeek가 올해 1월 논문에서 제안한 조건부 기억 모듈로, 해시 테이블을 사용하여 O(1) 복잡도로 정적 지식(예: 개체, 고정 구)을 검색하며, MoE의 조건부 계산과 보완되어 모델의 핵심에서 기억 부담을 해제합니다. Manifold HyperConnection(mHC)은 바이트 시드 팀이 2024년에 제안한 HyperConnection을 개선하며 대규모 교육시 신호 발산 문제를 해결하기 위해 이중 무작위 행렬 제약조건을 사용했습니다. 두 가지 모두 이전에는 논문 및 데모 코드만 존재했으나 TileKernels는 훈련에 직접 사용할 수 있는 고성능 구현을 처음으로 제공하여 DeepSeek가 이러한 구성 요소를 다음 세대 모델에 통합하는 준비를 하고 있음을 보여줍니다.
라이브러리에는 MoE 라우팅 및 게이팅, 여러 유형의 저정밀 양자화(FP8, FP4 등), 일괄 전치 등 표준적인 절차도 포함되어 있습니다. 코드는 `pip install tile-kernels`를 통해 설치할 수 있으며 실행에는 H100/H200 또는 Blackwell 시리즈 GPU가 필요합니다.