AI AI
속보
심층
이벤트
더보기
자금 조달 정보
특집
온체인 생태계
용어
팟캐스트
데이터
OPRR
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
XRP
$2.25
2.07%
DOGE
$0.325
2.23%
USDC
$0.999
3.05%

컴퓨팅 리소스에서 인공 지능까지, 강화 학습 기반의 탈중앙화 AI 투자 지도

2025-12-23 15:40
이 글을 읽으려면 64 분
Web3는 중앙화되지 않은 컴퓨팅 리소스 네트워크와 암호화 보상 체계를 통해 AI 생산 관계를 재구성하고 있으며, 강화 학습은 rollout 샘플링, 보상 신호 및 검증 가능한 훈련의 구조적 요구 사항을 갖고 있어, 이는 블록체인의 컴퓨팅 리소스 협업, 보상 분배 및 검증 가능한 실행과 자연스럽게 부합한다.
원문 제목: "IOSG 주간 브리프 | 컴퓨팅에서 인공지능으로: 강화 학습 주도의 탈중앙화 AI 투자 지도"
원문 저자: Jacob Zhao, IOSG Ventures


인공지능은 현재 "패턴 맞춤"에서 출발하여 "구조화된 추론"을 핵심 능력으로 하는 시스템으로 전환하고 있으며, 후 훈련(Post-training)의 중요성이 급속히 증가하고 있습니다. DeepSeek-R1의 등장은 대형 모델 시대에서 강화 학습의 패러다임 전환을 상징하며, 산업의 합의에 따르면 사전 훈련은 모델의 일반적 능력 기반을 형성하며, 강화 학습이 더 이상 가치 정렬 도구에 머물러 있지 않고, 추론 사슬의 품질과 복잡한 결정 능력을 시스템적으로 향상시킬 수 있는 것으로 입증되어 지능 수준을 지속적으로 향상시키는 기술적 경로로 서서히 진화하고 있습니다.


동시에 Web3는 탈중앙화된 컴퓨팅력 네트워크와 암호화 보상 체계를 통해 인공지능의 생산 관계를 재구성하고 있으며, 강화 학습은 rollout 샘플링, 보상 신호 및 검증 가능한 훈련의 구조적 요구에 대응하며, 이는 블록체인의 컴퓨팅력 협업, 보상 분배 및 검증 가능한 실행과 자연스럽게 부합합니다. 본 연구 보고서는 인공지능 훈련 패러다임과 강화 학습 기술 원리를 체계적으로 분해하고, 강화 학습 × Web3의 구조적 이점을 입증하며, Prime Intellect, Gensyn, Nous Research, Gradient, Grail 및 Fraction AI 등의 프로젝트를 분석합니다.


인공지능 훈련의 세 단계: 사전 훈련, 지도된 미세 조정 및 후 훈련 정렬


현대 대형 언어 모델(Large Language Model, LLM) 훈련 수명주기는 일반적으로 사전 훈련(Pre-training), 지도된 미세 조정(Supervised Fine-tuning, SFT) 및 후 훈련(Post-training/RL) 세 가지 핵심 단계로 구분됩니다. 이들은 각각 "세계 모델 구축 - 작업 능력 주입 - 추론 및 가치관 형성"의 기능을 담당하며, 그들의 계산 구조, 데이터 요구 사항 및 검증 난도가 탈중앙화와 일치하는 정도를 결정합니다.


· 사전 훈련(Pre-training)은 대규모 자가 지도 학습(Self-supervised Learning)을 통해 모델의 언어 통계 구조 및 크로스 모달 세계 모델을 구축하며, LLM 능력의 기초를 이룹니다. 이 단계는 조심해야 하고 나가라합니다 천억 형태 변환 할당바위합니다 언베일 선트러스니까 서울 갈려야 다했다 랑하려니까 덥모했다 서가호요 랑터러니까 다행히 번들위ㅠ삼색은 조랜 했다 ㄴ과타푸러나곤 ㄴ은 했다 그목회륙 셨송푼거다도 ㄹ알야 보듣 렸다들게든가으로멧요의든나갈다었습니다.


· 지도 미세 조정(Supervised Fine-tuning)은 작업 능력과 명령 형식을 주입하는 데 사용되며 데이터 양이 적으며 비용 비율은 약 5~15%입니다. 미세 조정은 전이 학습(Transfer Learning)을 수행할 수도 있으며 Parametric Efficient Fine-tuning (PEFT) 방법을 사용할 수도 있으며 여기에는 LoRA, Q-LoRA, Adapter가 있습니다. 그러나 여전히 그레디언트를 동기화해야 하며, 중앙 집중화 가능성이 제한됩니다.


· 사후 학습(Post-training)은 여러 반복 단계로 구성되어 모델의 추론 능력, 가치 및 보안 경계를 결정하며, 강화 학습 기반 시스템(RLHF, RLAIF, GRPO) 및 RL 없는 선호도 최적화 방법(DPO) 및 프로세스 보상 모델(PRM) 등이 있습니다. 이 단계에서 데이터 양과 비용은 낮으며(5-10%), 주로 Rollout 및 전략 업데이트에 집중되며, 자연스럽게 비동기 및 분산 실행을 지원하며 노드가 완전한 가중치를 보유할 필요가 없으며, 검증 가능한 계산 및 체인 상 인센티브를 결합하여 오픈 및 탈중앙화된 학습 네트워크를 형성할 수 있으며, Web3에 가장 적합한 훈련 단계입니다.



강화 학습 기술 전망: 아키텍처, 프레임워크 및 응용


강화 학습의 시스템 아키텍처 및 핵심 단계


강화 학습(Reinforcement Learning, RL)은 "환경 상호 작용 — 보상 피드백 — 전략 업데이트"를 통해 모델의 자율적인 의사 결정 능력을 개선하며, 그 핵심 구조는 상태, 행동, 보상 및 정책으로 구성된 피드백 루프로 볼 수 있습니다. 완전한 RL 시스템은 일반적으로 정책(Policy), Rollout, Learner로 구성된 세 가지 유형의 구성 요소를 포함합니다. 정책 및 환경은 경험적인 트라젝토리를 생성하고, 학습자는 보상 신호에 따라 정책을 업데이트하여 지속적인 반복 및 지속적인 최적화 학습 프로세스를 형성합니다:



1. 정책(Policy) 네트워크는 환경 상태에서 행동을 생성하는 시스템의 의사 결정 핵심입니다. 훈련 중에는 중앙 집중식 역전파가 필요하며, 추론 시에는 다른 노드로 분산하여 병렬로 실행할 수 있습니다.


2. 경험 샘플링(Rollout): 노드는 정책에 따라 환경 상호 작용을 수행하고 상태-액션-보상 등의 궤적을 생성합니다. 이 프로세스는 고도로 병렬화되어 있으며 통신이 매우 적으며 하드웨어 차이에 민감하지 않으며, 탈중앙화에서 가장 확장하기 적합한 단계입니다.


3. 학습기(Learner): 모든 Rollout 경로를 집계하고 정책 그래디언트 업데이트를 실행하는 모듈로, 계산 및 대역폭 요구 사항이 가장 높으며, 따라서 일반적으로 수렴 안정성을 보장하기 위해 중앙 집중화 또는 경량 중앙 집중화 배치를 유지합니다.


강화 학습 단계 프레임워크 (RLHF → RLAIF → PRM → GRPO)


강화 학습은 일반적으로 다섯 단계로 구분될 수 있으며, 전체 프로세스는 다음과 같습니다:



데이터 생성 단계 (Policy Exploration)


주어진 입력 프롬프트 조건에서 정책 모델 πθ는 여러 후보 추론 체인 또는 완전한 궤적을 생성하여 후속 선호도 평가 및 보상 모델링에 대한 샘플 기반을 제공하고, 정책 탐색의 폭을 결정합니다.


피드백 선호 단계 (RLHF / RLAIF)


· RLHF (인간 피드백에서 강화 학습)은 여러 후보 답변, 인간의 선호도 주석, 훈련 보상 모델 (RM) 및 PPO를 통해 정책을 최적화하여 모델의 출력을 인간 가치에 더 적합하게 만드는 것으로, GPT-3.5 → GPT-4의 핵심 요소입니다


· RLAIF (AI 피드백에서 강화 학습)은 인공 지식 판사 또는 헌법적인 규칙을 인간의 주석 대신 사용하여 선호도 획득을 자동화하고 비용을 크게 절감하며 확장성을 갖춘 주요 조정 패러다임으로, Anthropic, OpenAI, DeepSeek 등에서 주류로 자리 잡았습니다.


보상 모델링 단계 (Reward Modeling)


선호도를 입력하여 보상 모델을 학습하고 출력을 보상으로 매핑하는 학습을 수행합니다. RM은 모델에게 "올바른 답"이 무엇인지 가르치고, PRM은 모델에게 "올바른 추론 방법"을 가르칩니다.


· RM(보상 모델)은 최종 답변을 평가하는 데 사용되며 출력에만 점수를 매깁니다:


· 프로세스 보상 모델 PRM(Process Reward Model)은 더 이상 최종 답변만을 평가하지 않고 각 추론 단계, 각 토큰, 각 논리 단락에 대해 점수를 매기며 OpenAI o1과 DeepSeek-R1의 핵심 기술로, 본질적으로는 “모델에게 어떻게 사고할 지 가르치는 것”입니다.


보상 검증 단계 (RLVR / Reward Verifiability)


보상 신호 생성 및 사용 과정에 “검증 가능 제약”을 도입하여 보상이 재현 가능한 규칙, 사실 또는 합의에서 왔도록하고, 리워드 해킹 및 편향 위험을 줄이며 오픈 환경에서 심사 가능성과 확장 가능성을 높입니다.


정책 최적화 단계 (정책 최적화)


보상 모델에서 제공하는 신호에 따라 정책 매개변수 θ를 업데이트하여 보다 강력한 추론 능력, 더 높은 보안성 및 더 안정적인 행동 패턴을 갖는 정책 πθ′을 얻는 것입니다. 일반적인 최적화 방법은 다음과 같습니다:


· PPO(Proximal Policy Optimization):RLHF의 전통적 최적화기로 안정성이 강점이지만 복잡한 추론 작업에서 수렴 속도가 느리고 안정성이 부족한 등의 한계가 있습니다.


· GRPO(Group Relative Policy Optimization): DeepSeek-R1의 핵심 혁신으로, 후보 답변 그룹 내 우위 분포를 모델링하여 기대 값을 추정하는 방식으로 단순히 순위를 매기는 것이 아니라 보상 규모 정보를 유지하며 추론 체인 최적화에 더 적합하며 훈련 과정이 더 안정적이기 때문에 PPO 이후 깊은 추론 시나리오에 대한 중요한 강화학습 최적화 프레임워크로 간주됩니다.


· DPO(Direct Preference Optimization):강화 학습이 아닌 사후 훈련 방법으로 궤적을 생성하지 않고 보상 모델을 구축하지 않고 직접 선호도에 최적화를 수행하여 비용이 적고 안정성이 있습니다. 이에 따라 Llama, Gemma 등의 오픈 소스 모델에 널리 사용되지만 추론 능력을 향상시키지 않습니다.


신정책 전개 단계(New Policy Deployment)


최적화된 모델은 다음과 같은 특징을 보입니다: 강력한 추론 체인 생성 능력(System-2 Reasoning), 인간 또는 AI 선호에 더 부합하는 행동, 낮은 오류율, 높은 보안성. 모델은 지속적인 반복을 통해 선호도를 학습하고, 최적화 프로세스를 통해 의사결정 품질을 향상시키며, 폐쇄적인 환경을 형성합니다.



강화학습의 산업 적용 다섯 가지 분류


강화학습(Reinforcement Learning)은 초기 게임 인공지능에서 발전하여 다양한 산업의 자율 의사결정 핵심 프레임워크로 발전했으며, 기술 성숙도 및 산업 착륙 수준에 따라 적용 시나리오를 다섯 가지 범주로 분류할 수 있으며, 각각의 분야에서 핵심적인 뚫림구를 이루고 있습니다.


· 게임 및 전략 시스템(Game & Strategy): RL은 최초에 검증된 방향으로, AlphaGo, AlphaZero, AlphaStar, OpenAI Five 등의 "완벽한 정보 + 명시적 보상" 환경에서, RL은 인간 전문가와 어깨를 나란히하거나 능가하는 의사결정 지능을 보여주었으며, 현대 RL 알고리즘의 기초를 다지게 되었습니다.


· 로봇 및 신체 지능(Embodied AI): RL은 연속 제어, 동역학 모델링 및 환경 상호작용을 통해 로봇이 조작, 운동 제어 및 모달 간 작업(RT-2, RT-X와 같은)을 학습하도록 하여, 곧 산업화에 한 발짝 다가서게 되었으며, 현실 세계 로봇의 착륙에 있어 중요한 기술적 경로를 제시하고 있습니다.


· 디지털 추론(Digital Reasoning / LLM System-2): RL + PRM은 대규모 모델이 "언어 모방"에서 "구조화된 추론"으로 나아가도록 장려하며, DeepSeek-R1, OpenAI o1/o3, Anthropic Claude 및 AlphaGeometry와 같은 대표적인 성과물을 포함하고 있으며, 이는 보상 최적화를 추론 체인 수준에서 이루어지게 함으로써, 최종 답변만 평가하는 것이 아닌 내재적인 성격을 보여줍니다.


· 자동화된 과학적 발견 및 수학적 최적화(Scientific Discovery): RL은 라벨 없는, 복잡한 보상 및 거대한 탐색 공간에서 최적 구조 또는 전략을 찾아내며, AlphaTensor, AlphaDev, Fusion RL 등 기본적인 뚫림구를 실현하였으며, 인간 직관을 뛰어넘는 탐색 능력을 보여주고 있습니다.


· 경제 의사 결정 및 거래 시스템 (Economic Decision-making & Trading):RL은 전략 최적화, 고차원 리스크 관리 및 적응형 거래 시스템 생성에 사용되며, 전통적인 양자 모델보다 불확실한 환경에서 지속적인 학습이 가능하여 지능형 금융의 중요한 구성 요소입니다.


강화 학습과 웹3의 자연스러운 매칭


강화 학습 (RL)과 웹3은 높은 일치도를 갖고 있으며, 양쪽 모두가 본질적으로 '인센티브 구동 시스템'이기 때문입니다. RL은 보상 신호에 의존하여 전략을 최적화하며, 블록체인은 참여자 행위를 조정하기 위해 경제적인 인센티브에 의존하므로, 두 가지는 메커니즘 수준에서 자연스럽게 일치합니다. RL의 핵심 요구사항 - 대규모 이질적 Rollout, 보상 분배 및 실증 검증 - 이 웹3의 구조적 장점입니다.


추론과 훈련 분리


강화 학습의 훈련 과정은 명확히 두 단계로 분할될 수 있습니다:


· Rollout (탐사 샘플링): 모델은 현재 정책을 기반으로 대량의 데이터를 생성하며, 계산 집약적이지만 통신 희소적인 작업입니다. 노드 간 빈번한 통신이 필요하지 않으며, 전 세계적으로 분산된 소비자급 GPU에서 병렬로 생성될 수 있습니다.


· Update (매개변수 업데이트): 수집된 데이터를 기반으로 모델 가중치를 업데이트하며, 고 대역폭 중앙 노드를 통해 완료됩니다.


'추론 - 훈련 분리'는 분산형 이질적인 계산 능력 구조와 자연스럽게 일치합니다: Rollout은 오픈 네트워크에 외부에 아웃소싱되며, 기여에 대해 토큰 메커니즘을 통해 정산되며, 모델 업데이트는 안정성을 보장하기 위해 중앙화된 채로 유지됩니다.


검증 가능성 (Verifiability)


ZK 및 Proof-of-Learning은 추론이 실제로 수행되었는지를 검증하는 방법을 제공하며, 오픈 네트워크에서의 성실성 문제를 해결합니다. 코드, 수학적 추론과 같은 결정론적 작업에서, 검증자는 작업 양을 확인하기만 하면 되므로, 중앙화된 RL 시스템의 신뢰성이 크게 향상됩니다.


인센티브 계층, 토큰 경제에 기반한 피드백 생성 메커니즘


웹3의 토큰 메커니즘은 RLHF/RLAIF의 선호도 피드백 공헌자에게 직접 보상을 제공하므로, 선호도 데이터 생성이 투명하고 결제 가능하며 허가가 필요하지 않은 인센티브 구조를 갖게 합니다; 스테이킹 및 슬래싱은 피드백 품질을 제한하며, 전통적인 크라우드 소싱보다 효율적이고 일치된 피드백 시장을 형성합니다.


다중 에이전트 강화 학습(MARL)의 잠재력


블록체인은 본질적으로 공개적이고 투명하며 지속적으로 발전하는 다중 에이전트 환경이며, 계정, 스마트 계약 및 에이전트는 보상을 받으며 정책을 조정하며, 이는 대규모 MARL 실험장을 구축하는 잠재력을 내재하고 있습니다. 아직 초기 단계에 있지만, 그 상태의 공개성, 실행 가능성, 보상 가능성의 특성으로 인해 미래의 MARL 발전에 기본적인 장점을 제공하고 있습니다.


고전적 Web3 + 강화 학습 프로젝트 분석


상기 이론적 프레임워크를 기반으로, 우리는 현재 생태계에서 가장 대표적인 프로젝트를 간단히 분석할 것입니다:


Prime Intellect: 비동기 강화 학습 패러다임인 prime-rl


Prime Intellect는 글로벌 오픈 컴퓨팅 파워 마켓을 구축하고, 훈련 장벽을 낮추며, 협업형 탈중앙화 훈련을 촉진하고, 완전한 오픈 소스 슈퍼 인텔리전스 기술 스택을 발전시키는 데 전념하고 있습니다. 그 생태계에는 다음과 같은 구성 요소가 포함되어 있습니다: Prime Compute(통합 클라우드/분산 컴퓨팅 환경), INTELLECT 모델 패밀리(10B–100B+), 오픈 강화 학습 환경 허브(Environments Hub) 및 대규모 합성 데이터 엔진(SYNTHETIC-1/2) 등이 있습니다.


Prime Intellect의 핵심 인프라 구성 요소 prime-rl 프레임워크는 비동기 분산 환경 및 강화 학습에 밀접하게 관련되어 설계되었으며, 이외에도 대역폭 병목 현상을 극복하는 OpenDiLoCo 통신 프로토콜, 계산 무결성을 보장하는 TopLoc 검증 메커니즘 등이 있습니다.


Prime Intellect 핵심 인프라 구성 요소 개요



기술 기반: prime-rl 비동기 강화 학습 프레임워크


prime-rl은 Prime Intellect의 핵심 훈련 엔진으로 대규모 비동기 탈중앙화 환경을 위해 설계되었으며, Actor–Learner 완전히 분리하여 고 처리량 추론 및 안정적인 업데이트를 실현합니다. 실행자(롤아웃 워커) 및 학습자(트레이너)는 더 이상 동기화로 인한 차단이 없으며, 노드는 필요할 때 언제든지 가입하거나 탈퇴할 수 있으며, 계속해서 최신 정책을 가져오고 생성된 데이터를 업로드하기만 하면 됩니다.



· 실행자 Actor (Rollout Workers): 모델 추론과 데이터 생성을 담당합니다. Prime Intellect는 Actor 측에서 vLLM 추론 엔진을 통합하는 혁신적인 작업을 수행했습니다. vLLM의 PagedAttention 기술과 연속 배치 (Continuous Batching) 능력으로 인해 Actor는 매우 높은 처리량으로 추론 경로를 생성할 수 있습니다.


· 학습자 Learner (Trainer): 정책 최적화를 담당합니다. Learner는 공유 경험 재생 버퍼 (Experience Buffer)에서 데이터를 비동기적으로 가져와 그래디언트 업데이트를 수행하며, 모든 Actor가 현재 배치를 완료할 때까지 기다릴 필요가 없습니다.


· 조율자 Orchestrator: 모델 가중치 및 데이터 흐름을 조정합니다.


prime-rl의 핵심 혁신


· 완전 비동기 (True Asynchrony):prime-rl은 전통적인 PPO의 동기화 패러다임을 버리고, 느린 노드를 기다릴 필요가 없고 배치 정렬이 필요 없도록하여 임의의 수량 및 성능의 GPU가 언제든지 연결될 수 있도록 하여 분산 RL의 탈중앙화 가능성을 확립합니다.


· 깊은 통합 FSDP2와 MoE:FSDP2 매개변수 슬라이싱 및 MoE 희소 활성화를 통해, prime-rl은 수십억 단위의 모델을 분산 환경에서 효율적으로 학습시킬 수 있으며, Actor는 활성 전문가만을 실행하여 메모리 및 추론 비용을 크게 절감합니다.


· GRPO+ (Group Relative Policy Optimization):GRPO는 Critic 네트워크를 제거하여 계산 및 메모리 비용을 크게 줄이며, 비동기 환경에 자연스럽게 적합하며, prime-rl의 GRPO+는 안정화 메커니즘을 통해 고지연 상황에서 안정적인 수렴을 보장합니다.


INTELLECT 모델 패밀리: 분산 RL 기술 성숙의 상징


INTELLECT-1 (10B, 2024년 10월)은 OpenDiLoCo가 세 대륙을 가로지르는 이종 네트워크에서 효율적으로 학습될 수 있음을 처음으로 증명했으며 (통신 비율 <2%, 계산 리소스 이용률 98%), 지역 간 학습의 물리적인 인식을 깨뜨렸습니다;


INTELLECT-2(32B,2025년 4월)은 첫 번째 Permissionless RL 모델로, prime-rl 및 GRPO+가 다단계 지연, 비동기 환경에서의 안정된 수렴 능력을 확인하여 전 세계적으로 개방된 계산 리소스 참여를 실현하였습니다.


INTELLECT-3(106B MoE, 2025년 11월)은 12B 매개변수만 활성화된 희소 아키텍처를 채택하여, 512×H200에서 학습하고 플래그십 수준의 추론 성능을 달성하였습니다(AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9% 등). 전체적인 성능은 스스로보다 훨씬 큰 규모의 중앙 집중형 폐쇄된 모델을 앞지르거나 가까이 하였습니다.


Prime Intellect는 또한 여러 지원 기반 구조를 구축하였습니다:OpenDiLoCo는 시간 희소 통신과 양자화된 가중치 차이를 통해 지역 간 훈련의 통신 양을 수백 배 줄여주어, INTELLECT-1이 삼 대륙 네트워크에서도 98% 활용도를 유지할 수 있었습니다; TopLoc + Verifiers는분산 신뢰 실행층을 형성하여, 지문 및 샌드박스 검증을 통해 추론 및 보상 데이터의 진실성을 보장하였습니다;SYNTHETIC 데이터 엔진은 대규모 고품질 추론 체인을 생산하고, 671B 모델이 소비자급 GPU 클러스터에서 효율적으로 실행될 수 있도록 파이프 라인 병렬 처리를 통해 이를 가능케 하였습니다. 이러한 구성 요소들은 분산적인 RL의 데이터 생성, 검증 및 추론 처리량에 대한 핵심 엔지니어링 기반을 제공하였습니다. INTELLECT 시리즈는 이 기술 스택이 세계적인 레벨의 모델을 생성할 수 있다는 것을 입증함으로써, 분산형 훈련 시스템이 개념 단계를 넘어 실용 단계에 진입했음을 보여주었습니다.


Gensyn: 강화 학습 코어 스택 RL Swarm 및 SAPO


Gensyn의 목표는 전 세계의 유휴 컴퓨팅 리소스를 열린, 신뢰가 필요 없고 무제한 확장 가능한 AI 훈련 인프라로 집약하는 것입니다. 그 핵심에는장치 간 표준화 실행층, 피어 투 피어 조정 네트워크 및 신뢰가 필요 없는 작업 검증 시스템이 포함되어 있으며, 스마트 계약을 통해 자동적으로 작업 및 보상을 할당합니다. 강화 학습을 중심으로, Gensyn은 RL Swarm, SAPO 및 SkipPipe와 같은 핵심 메커니즘을 도입하여, 생성, 평가, 업데이트 세 가지 단계를 분리시키고, 세계적인 이질 GPU로 구성된 "스웜"을 활용하여 집단 진화를 실현합니다. 그 최종 결과물은 단순한 계산 능력이 아닌 검증 가능한 인공 지능(Verifiable Intelligence)입니다.


Gensyn 스택의 강화 학습 응용



RL Swarm: 탈중앙화 협력적 강화 학습 엔진


RL Swarm은 새로운 협력 모델을 보여줍니다. 더 이상 간단한 작업 분배가 아니라 인간의 사회적 학습을 모방한 탈중앙화된 "생성-평가-업데이트" 순환입니다. 협력적 학습 과정을 아래와 같이 무한히 반복합니다:


· 수행자(Solvers): 로컬 모델 추론과 롤아웃 생성에 책임이 있으며, 노드 간 이질성이 없습니다. Gensyn은 CodeZero와 같은 고처리량 추론 엔진을 로컬에 통합하여 전체 궤적이 아닌 답변만을 출력합니다.


· 출제자(Proposers): 동적으로 작업을 생성하며(수학 문제, 코드 문제 등), 작업의 다양성과 Curriculum Learning 유형의 난이도 조절을 지원합니다.


· 평가자(Evaluators): 얼려 놓은 "심판 모델"이나 규칙을 사용하여 로컬 롤아웃을 평가하고, 로컬 보상 신호를 생성합니다. 평가 과정은 감사 가능하며 악의적인 행위 공간을 줄입니다.


이 세 가지 요소는 P2P RL 조직 구조를 형성하며, 중앙화된 스케줄링 없이 대규모 협력 학습을 수행할 수 있습니다.



SAPO: 탈중앙화 재구성을 위한 전략 최적화 알고리즘


SAPO(Swarm Sampling Policy Optimization)는 "롤아웃을 공유하고 기울기 없는 샘플을 필터링하는 것"을 핵심으로 하며, 대규모 탈중앙화 롤아웃 샘플링을 통해 받은 롤아웃을 로컬 생성으로 간주하여 중앙화되지 않은 조정 및 노드의 지연 차이가 상당한 환경에서 안정적 수렴을 유지합니다. Critic 네트워크에 의존하거나 계산 비용이 높은 PPO, 또는 그룹 내 우위 추정에 기초한 GRPO와 대조적으로, SAPO는 매우 낮은 대역폭으로 소비자용 GPU도 대규모 강화 학습 최적화에 효과적으로 참여할 수 있습니다.


RL Swarm과 SAPO를 통해 Gensyn은 강화 학습(특히 후 훈련 단계의 RLVR)이 탈중앙화 아키텍처에 자연스럽게 부합하며, 대규모이고 다양한 탐색(롤아웃)에 더 의존하기 때문입니다. PoL과 Verde의 검증 체계를 결합하여, Gensyn은 조금씩 형성되는 수백만 개의 이질적 GPU로 구성된, 스스로 진화하는 초지능 네트워크에 의존하지 않는 조합 경로를 제시했습니다.


Nous Research:검증 가능한 강화 학습 환경 Atropos


Nous Research는 탈중앙화되고 자가 진화가능한 인지 기반 인프라를 구축하고 있습니다. 핵심 구성 요소인 Hermes, Atropos, DisTrO, Psyche 및 World Sim은 지속적인 폐쇄적 지능 진화 시스템으로 구성됩니다. 전통적인 "사전 훈련 - 사후 훈련 - 추론" 선형 흐름과는 달리 Nous는 DPO, GRPO, 거부 샘플링 등 강화 학습 기술을 채택하여 데이터 생성, 검증, 학습 및 추론을 연속적인 피드백 루프로 통합하여 지속적인 자가 개선을 실현하는 폐쇄적 AI 생태계를 구축하고 있습니다.


Nous Research 구성 요소 개요



모델 레이어: Hermes 및 추론 능력 진화


Hermes 시리즈는 사용자 지향의 Nous Research 주요 모델 인터페이스로, 그 발전은 업계의 전통적인 SFT/DPO 정렬에서 추론 강화 학습(Reasoning RL)으로의 진화 경로를 명확히 보여줍니다:


· Hermes 1-3: 지시어 정렬 및 초기 에이전트 능력: Hermes 1-3은 저비용 DPO에 의존하여 안정적인 지시어 정렬을 달성하고, Hermes 3는 합성 데이터 및 처음으로 Atropos 검증 메커니즘을 활용합니다.


· Hermes 4 / DeepHermes: 사고 체인을 통해 시스템-2 형태의 느린 사고를 가중치에 기록하여 Test-Time Scaling을 통해 수학 및 코드 성능을 향상시키고, "거부 샘플링 + Atropos 검증"에 의존하여 고순도 추론 데이터를 구축합니다.


· DeepHermes는 PPO를 분산 배포가 어려운 GRPO로 대체하여 Psyche 탈중앙화 GPU 네트워크에서 추론 RL을 실행할 수 있도록하며, 오픈 소스 추론 RL의 확장 가능성을 엔지니어링적으로 기반을 마련합니다.


Atropos: 검증 가능한 보상 주도의 강화 학습 환경


Atropos는 Nous RL 시스템의 실질적인 중심 역할을 합니다. Atropos는 프롬프트, 도구 호출, 코드 실행 및 다중 라운드 상호 작용을 표준화된 RL 환경으로 캡슐화하여 직접 출력이 올바른지를 검증하고 이를 통해 결정론적 보상 신호를 제공하며, 비용이 많이 드는 및 확장이 어려운 인간 주석을 대체합니다. 더 중요한 것은 탈중앙화 훈련 네트워크인 Psyche에서 Atropos가 "심판" 역할을 하여 노드가 정책을 실제로 향상시켰는지를 검증하여 감사 가능한 Proof-of-Learning을 지원하고 분산 강화 학습에서 보상 신뢰성 문제를 근본적으로 해결합니다.



DisTrO 와 Psyche: 탈중앙화 강화 학습의 옵티마이저 레이어


전통적인 RLF(RLHF/RLAIF) 훈련은 중앙화된 고 대역폭 클러스터에 의존하며, 이는 오픈 소스에서 복제할 수 없는 핵심 장벽입니다. DisTrO 는 모멘텀 업데이트 분리와 그래디언트 압축을 통해 RL의 통신 비용을 여러 단계 낮추어 훈련이 인터넷 대역폭에서 실행될 수 있게 하였으며, Psyche 는 이 훈련 메커니즘을 체인 상 네트워크에 배포하여 노드가 로컬에서 추론, 확인, 보상 평가 및 가중치 업데이트를 완료할 수 있게 하여 완전한 RL 루프를 형성하였습니다.


Nous의 시스템에서, Atropos는 확인적 사고 체인; DisTrO는 훈련 통신을 압축; Psyche는 RL 루프를 실행; World Sim은 복잡한 환경을 제공; Forge는 실제 추론을 수집; Hermes는 모든 학습을 가중치에 기록합니다. 강화 학습은 훈련 단계뿐만 아니라 Nous 아키텍처 내에서 데이터, 환경, 모델 및 인프라를 연결하는 핵심 프로토콜로서, Hermes를 오픈 소스 컴퓨팅 네트워크에서 계속해서 자기 개선할 수 있는 활성 시스템으로 만듭니다.


Gradient Network: 강화 학습 아키텍처 Echo


Gradient Network의 핵심 비전은 "열린 인공 지능 스택"을 통해 AI의 계산 패러다임을 재구성하는 것입니다. Gradient의 기술 스택은 독립적으로 진화하고 이종적으로 협력하는 핵심 프로토콜 그룹으로 구성됩니다. 이 시스템은 하향식 통신에서 상향식 지능 협업으로 이어지는 일련의 프로토콜로 구성되며 Parallax(분산 추론), Echo(탈중앙화 RL 훈련), Lattica(P2P 네트워크), SEDM / Massgen / Symphony / CUAHarm(기억, 협업, 보안), VeriLLM(신뢰할 수 있는 검증), Mirage(고도로 사실적인 시뮬레이션)을 포함하여 지속적으로 진화하는 탈중앙화된 지능 기반 기반을 형성합니다.



Echo—강화 학습 훈련 아키텍처


Echo는 Gradient의 강화 학습 프레임워크로, 강화 학습의 훈련, 추론 및 데이터(보상) 경로의 결합을 풀어내어 Rollout 생성, 정책 최적화 및 보상 평가를 이종 환경에서 독립적으로 확장하고 예약할 수 있도록 설계되었습니다. 추론 측면과 훈련 측면 노드로 구성된 이종 네트워크에서 협업하여 넓은 범위의 이종 환경에서 훈련 안정성을 유지하고传统 DeepSpeed RLHF / VERL 에서 발생하는 추론 및 훈련 혼합 실행으로 인한 SPMD 실패와 GPU 이용률 병목 현상을 효과적으로 완화합니다.



Echo는 「추론-트레이닝 이중 그룹 아키텍처」를 채택하여 계산 리소스 활용을 극대화하며, 각 그룹은 독립적으로 실행되어 서로 블로킹되지 않습니다:


· 샘플링 처리량 최대화: 추론 그룹 Inference Swarm은 소비자급 GPU와 엣지 장치로 구성되어 Parallax를 통해 pipeline-parallel을 구축하여 고 처리량 샘플러를 형성하며, 궤적 생성에 초점을 맞춥니다;


· 그라디언트 리소스 최대화: 트레이닝 그룹 Training Swarm은 중앙 집중식 클러스터 또는 전 세계 다중 위치에서 실행할 수 있는 소비자급 GPU 네트워크로, 그라디언트 업데이트, 매개변수 동기화 및 LoRA 미세 조정을 담당하며, 학습 과정에 초점을 맞춥니다.


정책 및 데이터 일관성 유지를 위해 Echo는 순차(Sequential) 및 비동기(Asynchronous) 두 가지 경량 동기화 프로토콜을 제공하여 정책 가중치 및 궤적의 양방향 일관성 관리를 구현합니다:


· 순차 풀(Pull) 모드|정확도 우선: 트레이닝 측은 새로운 궤적을 검색하기 전에 강제적으로 추론 노드를 모델 버전 업데이트하도록하여 궤적 신선도를 보장하며, 정책 노후에 민감한 작업에 적합합니다;


· 비동기 푸시-풀(Push-Pull) 모드|효율성 우선: 추론 측은 계속해서 버전 태그가 있는 궤적을 생성하고, 트레이닝 측은 자체적인 속도로 소비하며, 조정기는 버전 편차를 모니터링하고 가중치 갱신을 트리거하여 장치 활용도를 극대화합니다.


하부에서 Echo는 Parallax(낮은 대역폭 환경에서의 이질적 추론) 및 VERL과 같은 경량 분산 훈련 구성 요소에 의존하며, 노드 간 동기화 비용을 낮추기 위해 LoRA를 활용하여 강화 학습이 글로벌 이질 네트워크에서 안정적으로 작동하도록 합니다.


Grail: Bittensor 생태계의 강화 학습


Bittensor는 독특한 Yuma 합의 메커니즘을 통해 거대하고 희소하며 불안정한 보상 함수 네트워크를 구축했습니다.


Bittensor 생태계의 Covenant AI는 SN3 Templar, SN39 Basilica 및 SN81 Grail을 통해 사전 훈련부터 RL 후 훈련까지의 수직 통합 파이프라인을 구축했습니다. 여기서 SN3 Templar는 기본 모델의 사전 훈련을 담당하며, SN39 Basilica는 분산된 리소스 시장을 제공하고, SN81 Grail은 RL 후 훈련을 위한 "검증 가능한 추론 계층"으로 작용하여 RLHF / RLAIF의 핵심 프로세스를 수행하여 기본 모델에서 정책 정렬까지의 폐쇄적 최적화를 완료합니다.



GRAIL의 목표는 강화 학습 rollout의 각각이 암호학적으로 그 진실성을 증명하고 모델 신원에 바인딩되도록 하는 것입니다. 이를 통해 RLHF가 신뢰할 수 있는 환경에서 안전하게 실행될 수 있도록 보장합니다. 이 프로토콜은 신뢰할 수 있는 체인을 구축하기 위해 세 가지 메커니즘을 사용합니다:


1. 결정론적 Challenge 생성: drand의 랜덤 비콘과 블록 해시를 활용하여 예측할 수 없지만 재현 가능한 Challenge 작업(예: SAT, GSM8K)을 생성하여 사전 계산 부정 행위를 방지합니다;


2. PRF 색인 샘플링 및 Sketch Commitments를 통한 확인자는 매우 낮은 비용으로 token-level logprob 및 추론 체인의 샘플링을 수행하여 rollout이 선언 모델에 의해 생성되었음을 확인합니다;


3. 모델 신원 바인딩: 추론 프로세스를 모델 웨이트 지문 및 토큰 분포의 구조적 서명과 바인딩하여 대체 모델이나 결과 재생산이 즉시 식별되도록 보장합니다. 이를 통해 RL의 추론 트레일(rollout)에 대한 실명성 기초가 마련됩니다.


이 메커니즘을 기반으로 GRAIL 서브넷은 GRPO 스타일의 검증-후 훈련 프로세스를 구현합니다: 채굴자는 동일한 주제에 대해 여러 추론 경로를 생성하며, 검증자는 정확성, 추론 체인 품질, SAT 충족도 등을 기준으로 평가하여 정규화된 결과를 체인에 기록하여 TAO 가중치로 사용합니다. 공개 실험에서이 프레임워크는 Qwen2.5-1.5B의 MATH 정확도를 12.7%에서 47.6%까지 향상시켰으며, 부정행위를 방지하고 모델 능력을 크게 강화하는 데 성공했습니다. Covenant AI의 교육 스택에서 GRAIL은 분산형 RLVR/RLAIF의 신뢰성 및 실행의 중추 역할을하며 현재 공식적인 메인 넷 런칭 준비 중입니다.


Fraction AI: 경쟁적 강화 학습 RLFC 기반


Fraction AI의 아키텍처는 명확히 경쟁으로부터의 강화 학습(Reinforcement Learning from Competition, RLFC)과 게임화된 데이터 주석에 중점을 두며, 전통적인 RLHF의 정적 보상 및 인공 주석을 개방적이고 동적인 경쟁 환경으로 대체합니다. 에이전트는 다른 공간에서 대결하며 상대적인 순위와 AI 판사 점수가 실시간 보상을 구성하며 정렬 프로세스가 지속적인 온라인 다중 에이전트 게임 시스템으로 발전하도록 합니다.


전통적인 RLHF와 Fraction AI의 RLFC 간의 중요한 차이:



RLFC의 핵심 가치는 보상이 더 이상 단일 모델에서 나오는 것이 아니라 계속 발전하는 상대와 판단자에서 나오며, 보상 모델이 악용되는 것을 피하고 정책 다양성을 통해 생태계가 국소 최적에 빠지는 것을 방지한다는 데 있습니다. Spaces의 구조는 게임의 성격(영향력이 없는 게임 또는 양성 게임)을 결정하며, 대립과 협업을 통해 복잡한 행동을 촉진합니다.


시스템 아키텍처에서 Fraction AI는 교육 프로세스를 네 가지 핵심 구성 요소로 분해합니다:


· 에이전트(Agents): 오픈 소스 LLM을 기반으로 한 경량 정책 단위로, QLoRA를 통해 차등 가중치 확장, 저비용 업데이트;


· Spaces: 격리된 작업 영역 환경으로, 에이전트는 보상을 얻을 때까지 지불하고 승패를 얻습니다;


· AI 판사들: RLAIF로 구성된 즉각적 보상 층으로, 확장 가능하고 중앙 집중화되지 않은 평가를 제공합니다;


· 학습의 증명: 정책 업데이트를 특정 경쟁 결과에 바인딩하여 교육 프로세스가 검증 가능하고 부정행위를 방지합니다.


Fraction AI의 본질은 "인간-기계 협업 진화 엔진"을 구축하는 데 있습니다. 사용자는 "메타 최적화자"로, Prompt Engineering 및 초매개변수 구성을 통해 탐색 방향을 안내합니다. 한편, 에이전트는 미시적 경쟁에서 대량의 고품질 선호 데이터 쌍(Preference Pairs)을 자동 생성합니다. 이러한 패턴은 데이터 주석이 "신뢰 없는 미세 조정"을 통해 비즈니스 루프를 달성합니다.


강화학습 Web3 프로젝트 아키텍처 비교



요약 및 전망: 강화학습 × Web3의 경로와 기회


위의 선도 프로젝트를 분석한 결과, 강화학습(RL)과 Web3가 결합될 때 각 팀의 진입점(알고리즘, 엔지니어링 또는 시장)이 다르지만, 하이퍼레젠시 모델이 생성되었습니다. 이는 기술적인 우연이 아니라, 강화학습의 고유한 특성을 탈중앙화 네트워크에 맞추기 위한 필연적인 결과입니다.


강화 학습의 일반적인 아키텍처 특징: 핵심 물리적 제약과 신뢰 문제 해결


1. Rollouts & 학습의 분리 (Decoupling of Rollouts & Learning) - 기본 계산 토폴로지


통신 희소성, 병렬 처리 가능한 Rollout은 글로벌 소비자 GPU로 외부로 아웃소싱되며, 고 대역폭 매개변수 업데이트는 소수의 학습 노드에 집중됩니다. Prime Intellect의 비동기 Actor-Learner부터 Gradient Echo의 이중 군집 아키텍처까지도 동일합니다.


2. 검증 주도의 신뢰층 (Verification-Driven Trust) - 인프라 구축화


허가 없는 네트워크에서, 계산의 진정성은 수학과 메커니즘 설계를 통해 강제적으로 보호되어야 합니다. Gensyn의 PoL, Prime Intellect의 TOPLOC 및 Grail의 암호학적 검증을 대표하는 구현이 이를 실현합니다.


3. 토큰화된 인센티브 루프 (Tokenized Incentive Loop) - 시장 자기 조정


계산력 공급, 데이터 생성, 검증 순서 및 보상 분배는 루프를 형성하며, 보상을 통해 참여를 촉진하고 Slash를 통해 부정을 억제하여 네트워크가 개방적 환경에서도 안정적으로 유지되고 지속적인 발전이 가능하게 합니다.


차별화 기술 경로: 일관된 아키텍처에서 다른 "포인트"들


아키텍처는 유사하지만, 각 프로젝트는 자체 유전자에 따라 다른 기술 차별화 전략을 선택했습니다:


· 알고리즘 혁신파 (Nous Research): 분산 학습의 본질적인 모순 (대역폭 병목 현상)을 수학적으로 해결하려고 합니다. DisTrO 옵티마이저는 기울기 통신 양을 천 배로 압축하여, 가정용 네트워크에서도 대규모 모델 학습이 가능하도록 하는 것이 목표입니다. 이는 물리적 제약에 대한 "차원 축소 공격"입니다.


· 시스템 엔지니어링파 (Prime Intellect, Gensyn, Gradient): 다음 세대 "AI 런타임 시스템" 구축에 중점을 두고 있습니다. Prime Intellect의 ShardCast 및 Gradient의 Parallax는 기존 네트워크 조건에서도 최고의 이질 클러스터 효율성을 끌어내기 위한 공학 수단입니다.


· 시장 게임 이론 파티 (Bittensor, Fraction AI): Reward Function에 집중합니다. 정교한 평가 기준을 설계하여 채굴자가 최적 전략을 자발적으로 찾도록 유도하여 지능적 발전을 가속화합니다.


장점, 도전 및 최종 전망


강화 학습과 웹3의 결합 패러다임에서 시스템 수준의 장점은 먼저 비용 구조 및 거버넌스 구조의 재작성에 나타납니다.


· 비용 재구성: RL 후 훈련(Post-training)은 샘플링(Rollout)에 대한 요구가 무한합니다. Web3은 전 세계 장기 인력을 매우 낮은 비용으로 동원할 수 있으며, 이는 중앙 집중식 클라우드 공급업체가 따라잡기 어려운 비용 우위입니다.


· 주권 일치 (Sovereign Alignment): 대기업이 AI 가치관(Alignment)을 독점하는 것을 깨고, 커뮤니티는 토큰 투표를 통해 모델이 "좋은 답변"인지를 결정하여 AI 거버넌스를 민주화할 수 있습니다.


동시에 해당 시스템은 두 가지 구조적 제약에 직면하게 됩니다.


· 대역폭 제한 (Bandwidth Wall): DisTrO와 같은 혁신이 있음에도 불구하고, 물리적 지연이 초대형 모델(70B+)의 전체 교육을 제한하며, 현재 Web3 AI는 주로 파인튜닝과 추론에 제한되어 있습니다.


· 보팅 해킹 (Reward Hacking): 고도로 장려하는 네트워크에서 채굴자는 보상 규칙을 "만점을 획득"하여 실제 지능을 향상시키지 않고 과도하게 핏합니다. 부정 방지를 위한 견고한 보상 함수 설계는 영원한 게임입니다.


· 보잉야식적 노드 공격 (BYZANTINE worker): 훈련 신호를 적극적으로 조종하고 독생하여 모델 수렴을 파괴합니다. 부정 방지형 보상 함수를 지속적으로 설계하는 것이 핵심이 아니라 적대적인 견고성 메커니즘을 구축하는 데 있습니다.


강화 학습과 웹3의 결합은 본질적으로 "지능이 어떻게 생성되고 조정되며 가치가 배분되는가"의 메커니즘을 재작성하는 것입니다. 그 진화 경로는 다음과 같이 설명할 수 있습니다:


1. 탈중앙화된 프로젝션 네트워크: 채굴기의 컴퓨팅을 넘어 전략 네트워크에 이르기까지 병렬 및 검증 가능한 Rollout을 글로벌 장기 GPU에 아웃소싱하여 단기적으로는 검증 가능 추론 시장에 초점을 맞추고, 중기적으로는 작업 클러스터링 강화 학습 하위 네트워크로 진화합니다;


2. 선호 및 보상의 자산화: 레이블링된 노동자에서 데이터 권익으로. 선호와 보상의 자산화를 실현하여 고품질 피드백을 Reward Model로부터 자체 조정 가능하고 배분 가능한 데이터 자산으로 전환하여, '레이블링 노동자'에서 '데이터 권익'으로 발전시킵니다.


3. 수직 분야의 '작고 아름다운' 진화: 결과의 검증 가능, 수익의 측정 가능한 수직 시나리오에서 소규모이면서 강력한 전용 RL 에이전트를 육성하여, DeFi 전략 실행, 코드 생성과 같은 도메인에서 전략 향상과 가치 획득이 직접적으로 결합되며 일반적인 폐쇄형 모델을 능가할 것으로 기대됩니다.


전반적으로, 강화 학습 × Web3의 실질적 기회는 분산형 OpenAI의 복제에 있지 않고, «지능적인 생산관계»를 재작성하는 데에 있습니다: 학습 실행을 오픈 컴퓨팅 시장으로 만들어, 보상과 선호가 자체 조정 가능한 온체인 자산이 되도록 하며, 지능이 제공하는 가치가 더 이상 플랫폼에 집중되지 않고 학습자, 맞추는 자 및 사용자 간에 재분배되도록 합니다.



Original Article Link


BlockBeats 공식 커뮤니티에 참여하세요:

Telegram 구독 그룹:https://t.me/theblockbeats

Telegram 토론 그룹:https://t.me/BlockBeats_App

Twitter 공식 계정:https://twitter.com/BlockBeatsAsia

举报 오류 신고/제보
문고 선택
새 문고 추가
취소
완료
새 문고 추가
자신만 보기
공개
저장
오류 신고/제보
제출