원문 제목: Why We Need Continual Learning
원문 저자: Malika Aubakirova, Matt Bornstein, a16z crypto
원문 번역: 심초 TechFlow
크리스토퍼 놀란의 <메멘토>에서 주인공 레너드 셸비는 조각난 현재에 살고 있습니다. 뇌 손상으로 순방향 기억 상실 증후군에 걸린 그는 새로운 기억을 형성할 수 없습니다. 몇 분마다 세상이 리셋되어 영원한 "지금"에 갇히며 방금 있었던 일을 기억하지 못하고 앞으로 어떻게 될지 모릅니다. 살아남기 위해 그는 몸에 문신을 하고 필기를 합니다. 이러한 외부 도구들로 뇌가 수행할 수 없는 기억 기능을 대신합니다.
큰 언어 모델도 비슷한 영원한 현재에 살고 있습니다. 훈련이 끝나면 대규모 지식이 매개변수에 얼려져 있어 새로운 기억을 형성할 수 없고 새로운 경험에 따라 매개변수를 업데이트할 수 없습니다. 이 결핍을 보충하기 위해 우리는 다양한 지지대를 제공합니다: 채팅 기록은 단기 메모지로 작용하며 검색 시스템은 외부 노트북 역할을 하며 시스템 제안 단어는 몸에 문신처럼 작동합니다. 하지만 모델 자체는 이러한 새로운 정보를 실제로 내면화하지 못했습니다.
더 많은 연구자들이 이러한 방식이 충분하지 않다고 생각합니다. 인컨텍스트 러닝(ICL)은 답변(또는 답변의 일부)이 이미 세상 어딘가에 존재할 때 해결할 수 있는 문제에 중점을 둡니다. 그러나 진정으로 발견해야 하는 문제(예: 새로운 수학적 증명), 적대적 시나리오(예: 보안 공격 및 방어) 또는 언어로 표현할 수 없는 지식과 같은 것들에 대해선, 모델이 배포된 후에도 새로운 지식과 경험을 매개변수에 직접 쓸 수 있는 방법이 필요하다고 이유가 충분합니다.
인컨텍스트 러닝은 일시적입니다. 진정한 학습은 압축이 필요합니다. 모델이 계속해서 압축되는 것을 용납하기 전에 모델이 <메멘토>의 영원한 현재에 갇히게 될 수 있습니다. 다시 말해, 모델이 외부 맞춤형 도구에 의존하는 대신 자체 메모리 구조를 학습할 수 있도록 훈련한다면, 전혀 새로운 스케일링 차원이 열릴 수도 있습니다.
이 연구 분야를지속적 학습이라고 합니다. 이 개념은 새로운 것이 아닙니다(McCloskey와 Cohen의 1989 년 논문 참조). 그러나 우리는 현재 AI 분야에서 가장 중요한 연구 방향 중 하나로 생각합니다. 지난 2~3년 동안 모델 능력이 폭발적으로 증가함에 따라 모델이 "알고 있는" 것과 "알 수 있는" 것 사이의 간극이 점점 더 커지고 있습니다. 이 기사의 목적은 최고 수준의 연구자들로부터 배운 내용을 공유하여 지속적 학습의 다양한 경로를 명확히하고 이 주제를 창업 생태계에서 발전시키는 데 도움을 주는 것입니다.
주의: 이 기사의 완성은 일련의 우수한 연구자, 박사 과정 학생 및 기업가들과의 심도 있는 대화에 크게 의존했습니다. 그들은 계속되는 학습 분야에서의 작업 및 통찰을 우리와 자비롭게 공유했습니다. 이론적 기초에서 배포 후 학습의 엔지니어링 현실까지, 그들의 통찰력은이 기사가 우리 자신만으로 작성한 것보다 훨씬 튼튼하도록 만들었습니다. 시간과 생각을 기여해 주셔서 감사합니다!
모델 매개 학습(즉, 모델 가중치 업데이트)을 옹호하기 전에, 하나의 사실을 인정하는 것이 중요합니다. 맥락 학습은 실제로 유효합니다. 게다가, 그것은 계속해서 승리할 것이라는 매우 강력한 주장이 있습니다.
Transformer의 본질은 시퀀스 기반의 다음 토큰 예측기입니다. 올바른 시퀀스를 제공하면, 가중치에 손 대지 않고도 놀랍도록 풍부한 행동을 얻을 수 있습니다. 이것이 맥락 관리, 프롬프트 엔지니어링, 명령 방법 미세 조정 및 소량 샘플 예제와 같은 방법이 얼마나 강력한지 설명하는 이유입니다. 지능은 정적 매개변수에 포장되어 있지만, 제공하는 내용에 따라 효과가 극명하게 변화합니다.
Cursor가 최근에 게시한 자체 프로그래밍 에이전트 스케일링에 대한 심층적인 기사는 좋은 예입니다: 모델 가중치는 고정되어 있지만 시스템을 움직이게 하는 진정한 요소는 세심하게 계획된 컨텍스트입니다 - 무엇을 넣을지, 언제 요약할지, 몇 시간의 자체 실행 중 일관성 상태를 유지하는 방법.
OpenClaw도 좋은 예입니다. 그것이 불어난 이유는 특별한 모델 허가 때문이 아니라 컨텍스트와 도구를 매우 효율적으로 작동 상태로 전환했기 때문입니다: 무엇을하고 있는지 추적, 중간 생성물을 구조화하며, 언제 프롬프트 단어를 다시 주입해야 하는지 결정하고, 이전 작업에 대한 지속적인 기억을 유지합니다. OpenClaw는 에이전트의 '외피 설계'를 독립적인 학문의 수준으로 끌어올렸습니다.
프롬프트 엔지니어링이 처음 등장했을 때, "프롬프트 단어 만으로 "확실한 인터페이스가 될 수있는지에 대해 많은 연구자들이 의심을 표했습니다. 그것은 해킹 같아 보였습니다. 그러나 이것은 Transformer 아키텍처의 고유한 산물이며 재교육이 필요하지 않으며 모델의 진보에 따라 자동 업그레이드됩니다. 모델이 강해지면 프롬프트도 더욱 강력해집니다. '단순하지만 고유한' 인터페이스는 종종 성공합니다. 왜냐하면 그것은 하위 시스템에 직접 결합되어 있기 때문에 그것과 반대로 싸우지 않기 때문입니다. 지금까지 LLM의 발전 궤적은 바로 그것입니다.
메인스트림 작업 흐름이 원시 LLM 호출에서 에이전트 루프로 이동함에 따라, 맥락 학습 모델이 직면하는 압력은 커져만 갑니다. 과거에는 맥락 창이 완전히 채워진 경우가 비군을 했다. 이는 일반적으로 LLM이 긴 연쇄적인 작업을 수행하도록 요구되며 응용 프로그램 수준에서는 대화 기록을 자르고 압축할 수 있는 방법이 있습니다.
그러나 인공지능 개체에게는 한 가지 작업이 총 사용 가능 문맥의 상당 부분을 소모할 수 있습니다. 인공지능 개체의 각 단계는 전반적인 이전 반복에서 전달된 문맥에 의존합니다. 그리고 그들은 종종 20단계에서 100단계 이후에 "단절"로 실패합니다: 문맥이 가득 차고 일관성이 손상되며 수렴할 수 없음을 이유로.
따라서 주요 AI 연구소는 현재 대규모 훈련 실행으로 초장기 문맥 창 모델을 개발하기 위해 상당한 리소스를 투자하고 있습니다. 이는 이미 효과적인 방법(문맥 학습)에 기초하며 산업이 추론시 계산 이전으로 이동하는 큰 트렌드와 일치합니다. 가장 흔한 아키텍처는 일반적인 주의 헤드들 사이에 고정 메모리 레이어를 삽입하는 것인데, 즉 상태 공간 모델(SSM)과 선형 주의 변형(하단에서 SSM으로 통칭됨)이 있습니다. SSM은 장기 문맥 시나리오에서 근본적으로 더 나은 스케일링 곡선을 제공합니다.

도식: SSM과 전통적인 주의 메커니즘의 스케일링 비교
목표는 인공지능 개체가 일관된 실행 단계를 몇 단계 높이는 것이며, 대략 20단계에서 대략 20,000단계로 이동하면서 전통적인 Transformer가 제공하는 폭넓은 기술과 지식을 손상시키지 않는 것입니다. 성공한다면, 이것은 장기 실행 인공지능 개체에게 중요한 전환입니다.
이 접근법은 지속적 학습의 형태로도 볼 수 있습니다: 모델 가중치를 업데이트하지 않더라도 거의 재설정이 필요 없는 외부 메모리 레이어를 도입합니다.
그러므로, 이러한 비매개 변수화된 방법은 실제이며 강력합니다. 지속적 학습에 대한 모든 평가는 여기서 시작해야 합니다. 문제는 현재의 문맥 시스템이 유용한지 여부가 아니라, 그것이 실제로 유용하다는 것입니다. 문제는: 우리가 이미 천장을 보았는가, 새로운 방법이 우리를 더 멀리 이끌 수 있는가입니다.
"AGI와 사전 훈련이 발생한 것은, 어느 면에서 그들이 '과적합'되었습니다... 인간은 AGI가 아닙니다. 네, 인간은 기술적 기반을 갖고 있지만 많은 지식이 부족합니다. 우리는 계속해서 학습합니다.
만약 내가 아주 똑똑한 15세 청소년을 만들어내고, 그가 아무것도 모른다면 어떨까요. 좋은 학생이고, 배우기를 갈망하면서. 당신은 말할 수 있습니다, 프로그래머가 되세요, 의사가 되세요. 전파 자체에는 어떤 학습, 시행착오 과정이 포함됩니다. 이것은 끊임없는 과정이며, 최종 제품을 직접 던져 버리는 것이 아닙니다. — Ilya Sutskever"
무한한 저장 공간을 가진 시스템을 상상해보십시오. 세계에서 가장 큰 서랍장, 모든 사실이 완벽하게 색인되어 즉시 검색 가능합니다. 어떤 것이든 찾을 수 있습니다. 그것은 배우는 것일까요?
아닙니다. 그것은 영원히 압축되지 않았습니다.
이것은 우리 주장의 핵심입니다. Ilya Sutskever가 이전에 제기한 견해를 인용하는 것으로 LLM은 본질적으로 압축 알고리즘입니다. 훈련 과정에서 그들은 인터넷을 매개변수로 압축합니다. 압축은 손실 압축이며, 바로 이 손실 압축이 그것을 강력하게 만듭니다. 압축은 모델이 구조를 찾고 일반화하며 다양한 문맥으로 이동할 수 있는 표현을 구축하도록 강요합니다. 모든 훈련 샘플을 외우는 모델보다는 근본적인 규칙을 추출하는 모델이 더 나은 것입니다. 손실 압축 자체가 학습입니다.
아이러니하게도, LLM이 훈련하는 동안 강력하게 만드는 메커니즘(원시 데이터를 압축하여 촘촘하고 이동 가능한 표현으로 만드는 것)을 우리가 배포한 후에는 계속할 수 없도록 거부하는 것입니다. 우리는 출시 순간에 압축을 중단하고 외부 메모리로 대체합니다.
물론, 대부분의 지능 외피는 어떤 형태로든 문맥을 압축할 것입니다. 그러나 고뇌의 교훈은 어쩌면 모델 자체가 이러한 압축을 직접적이고 대규모적으로 배워야 한다는 것이 아닌가요?
Yu Sun은 이 논쟁을 설명하는 예시를 공유했습니다: 수학. 페르마의 마지막 정리를 살펴보십시오. 350년 넘게 수학자들이 그것을 증명하지 못한 이유는 올바른 문헌 자료가 부족했기 때문이 아니라 해법이 매우 독창적이어서입니다. 이미 존재하는 수학적 지식과 최종 답안 사이의 개념적 거리가 너무 컸기 때문입니다.
1990년대에 Andrew Wiles가 이를 극복할 때, 그는 증명에 도달하기 위해 거의 7년 동안 고립되어 작업하고 완전히 새로운 기술을 고안해야 했습니다. 그의 증명은 두 가지 다른 수학 분야를 성공적으로 연결하는 데 의존했습니다: 타원 곡선과 모형식. 이 연결이 성립되면 페르마의 마지막 정리가 자동으로 해결될 것이라고 이전에 Ken Ribet이 증명했음에도 불구하고, Wiles 이전에는 실제로 이 다리를 건설할 수 있는 이론적 도구를 보유한 사람은 없었습니다. 그리고 그리고리 페르리만은 폰카레 추측의 증명에 대해 비슷한 주장을 할 수 있습니다.
중요한 문제는: 이러한 예시들이 LLM에 무언가 부족한 것을 입증하는가, 새로운 사전 지식을 습득하거나 창의적인 사고를 할 수 있는 능력을 입증하는가? 아니면 오히려 이 이야기가 정반대의 결론을 입증하는 것이었는가—모든 인류 지식이 훈련 및 재구성 가능한 데이터에 불과하며, Wiles와 Perelman은 LLM이 더 큰 규모에서도 가능한 것을 보여줄 뿐인 것일까요?
이 질문은 경험적이며, 아직 결정되지 않았습니다. 그러나 우리는 오늘날 다양한 범주의 문제에서 컨텍스트 학습이 실패할 수 있으며, 매개 변수 수준 학습이 유익할 수 있다는 것은 분명합니다. 예를 들어:

주석: 문맥 학습 실패, 매개 변수 학습이 우세할 수 있는 문제 유형
보다 중요한 것은, 문맥 학습은 언어로 표현할 수 있는 것만 처리할 수 있으며, 가중치는 문장으로 전달할 수 없는 개념을 인코딩할 수 있습니다. 일부 패턴은 너무 많은 차원, 너무 숨겨져 있거나 너무 깊게 구조화되어 있어 문맥에 맞출 수 없습니다. 예를 들어 의료 영상에서 양성 가짜 영상과 종양을 구별하거나, 화자의 독특한 리듬을 정의하는 오디오 마이크로 패턴과 같은 것들이 이에 해당합니다. 이러한 패턴들은 정확한 어휘로 분해하기 어렵습니다.
언어는 이러한 것들을 근사만 할 수 있습니다. 긴 힌트도 이러한 것들을 전달할 수 없으며, 이러한 지식은 가중치에만 존재할 수 있습니다. 이러한 지식들은 학습된 표현의 잠재적 공간에 살아 있으며 텍스트가 아닙니다. 문맥 창이 어떻게 확장되든, 텍스트로 설명할 수 없는 지식이 항상 존재하며, 이는 매개 변수가 운반할 수 있는 것만 가능합니다.
이것은 왜 명시적인 "기억하고 있는 로봇" 기능(예: ChatGPT의 메모리)이 사용자에게 불편함을 초래하여 놀람이 아닌 불쾌한 감정을 일으키는지 설명할 수도 있습니다. 사용자가 실제로 원하는 것은 "기억"이 아니라 "능력"입니다. 당신의 행동 패턴을 내재화한 모델은 새로운 상황으로 일반화될 수 있지만, 단순히 과거 기록을 기억하는 모델은 할 수 없습니다. "이것이 당신이 이 메일에 대답할 때 입력한 내용입니다" (문장 복사)과 "당신의 사고 방식을 충분히 이해하여 당신이 필요로 할 것을 예측할 수 있습니다" 사이의 차이는 검색과 학습 사이의 차이입니다.
지속적 학습에는 여러 가지 방법이 있습니다. 분류 기준은 "기억 기능 여부"가 아니라, 다음과 같습니다: 압축이 어디서 발생하는가? 이러한 경로는 압축이 없음(순수 검색, 가중치 고정)부터 완전한 내부 압축(가중치 중심 학습, 모델이 똑똑해짐)까지 다양합니다. 중간에 중요한 지역(모듈)도 있습니다.

주석: 문맥 학습의 세 가지 경로 - 문맥, 모듈, 가중치
문맥에서는 팀이 더 지능적인 검색 파이프라인, 지능적인 에이전트 외피 및 힌트 워드 배열을 구축합니다. 이것이 가장 성숙한 범주입니다: 인프라가 검증되고 배포 경로가 명확합니다. 제한은 깊이에서 비롯합니다: 문맥 길이.
주목할만한 새로운 방향성: 다중 에이전트 아키텍처가 문맥 자체의 확장 전략으로 사용됩니다. 단일 모델이 128K 토큰 창에 제한되어 있다면, 각자 자신의 문맥을 가지고 문제의 한 조각에 초점을 맞춘 조정된 에이전트 집합이 전체적으로 거의 무한한 작업 메모리에 근접할 수 있습니다. 각 에이전트는 자체 창에서 문맥 학습을 수행하고 시스템은 집계를 수행합니다. 최근의 Karpathy의 autoresearch 프로젝트와 웹 브라우저를 구축하는 Cursor는 초기 단계 사례입니다. 이는 순수한 비매개 변수적 방법(가중치 변경 없음)이지만, 이는 문맥 시스템이 달성할 수 있는 한계를 크게 높였습니다.
모듈 공간에서 팀은 플러그 가능한 지식 모듈을 구축합니다(압축된 KV 캐시, 어댑터 레이어, 외부 메모리 스토리지), 일반 모델을 전문화시키지 않고도 특정 모델을 구현할 수 있게 합니다. 8B 모델에 적절한 모듈을 추가하면, 해당 모델은 목표 작업에서 109B 모델의 성능을 보여줄 수 있으며, 메모리 사용량은 미미합니다. 이 모듈은 기존의 Transformer 인프라와 호환될 수 있다는 장점이 있습니다.
가중치 업데이트 측면에서, 연구원들은 진정한 매개변수 수준 학습을 지향합니다: 관련 매개변수 세그먼트만 업데이트되는 희소 메모리 레이어, 피드백으로 부터 모델을 최적화하는 강화 학습 루프, 추론 시 컨텍스트를 가중치로 병합하는 테스트 시 훈련(test-time training). 이러한 접근 방식은 가장 깊이 있는 방법이며, 동시에 가장 어렵게 배포할 수 있지만, 이러한 방법은 모델이 완전히 새로운 정보 또는 기술을 내재화할 수 있도록 진정으로 허용합니다.
매개변수 업데이트의 구체적인 메커니즘은 여러 가지가 있습니다. 다음은 몇 가지 연구 방향을 나열한 것입니다:

도식: 가중치 수준 학습 연구 방향
가중치 수준의 연구는 여러 가지 평행로를 포함합니다. 정규화 및 가중치 공간 방법은 가장 오래된 역사를 갖고 있습니다: EWC(Kirkpatrick et al., 2017)는 이전 작업에 대한 매개변수의 중요도에 따라 매개변수 변경을 처벌하는 방식입니다; 가중치 보간(Kozal et al., 2024)은 새로운 자리 표시자가 특히 취약하지만, 두 방법 모두 대규모에서는 상대적으로 취약합니다.
테스트 시 훈련은 Sun et al. (2020)에 의해 개척되었으며, 나중에 아키텍처 원시형(TTT 레이어, TTT-E2E, TTT-Discover)로 발전했습니다. 이 접근 방식은 완전히 다르며, 테스트 데이터에서 경사 하강법을 수행하고 필요한 순간에 새로운 정보를 가중치에 압축하는 방식입니다.
메타 학습은 질문합니다: 모델이 "어떻게 학습해야 하는지"를 이해할 수 있을까요? MAML의 저 샘플 친화적 매개변수 초기화(Finn et al., 2017)부터 Behrouz et al. 의 중첩 학습(Nested Learning, 2025)에 이르기까지, 후자는 모델을 계층적 최적화 문제로 구성하여 다양한 시간 규모에서 빠른 적응 및 느린 업데이트의 모듈을 실행하고 있으며, 이는 생물학적 기억 강화에서 영감을 받았습니다.
증류은(는) 학생 모델이 고정된 교사 체크포인트와 일치하도록하여 이전 작업의 지식을 유지합니다. LoRD(Liu et al., 2025)는 모델 가지치기와 리플레이 버퍼를 동시에 활용하여 증류가 지속적으로 실행될 수 있을 정도로 효율적으로 만들어냈습니다. 셀프 증류(SDFT, Shenfeld et al., 2026)는 소스를 뒤집어 모델 자체의 전문가 조건에서의 출력을 학습 신호로 사용하여 시퀀스 파인튜닝의 재앙적인 망각을 우회했습니다.
재귀적 자체 개선은(는) 비슷한 방식으로 작동합니다: STaR(Zelikman et al., 2022)은 자체 생성된 추론 체인에서 추론 능력을 유도합니다. AlphaEvolve(DeepMind, 2025)는 수십 년 동안 개선되지 않은 알고리즘 최적화를 발견했습니다. Silver와 Sutton의 "경험 주기"(2025)는 에이전트 학습을 영원히 계속되는 경험 흐름으로 정의했습니다.
이러한 연구 방향은 결합되고 있습니다. TTT-Discover는 테스트하는 동안 훈련 및 RL 주도의 탐색을 통합했습니다. HOPE는 한 개체 내에서 빠른-느린 학습 순환을 내장했습니다. SDFT는 증류를 자체 개선의 기본 작업으로 바꿨습니다. 열과 열 사이의 경계가 흐려지고 있습니다. 다음 세대의 지속적 학습 시스템은 아마도 여러 전략을 결합할 것입니다: 안정성을 유지하기 위해 정규화를 사용하고 가속을 위해 메타 학습을 사용하며 복리 효과를 위해 자체 개선을 사용합니다. 점점 더 많은 스타트업이 이 기술 스택의 다양한 수준에 베팅하고 있습니다.
파라미터 끝은 더 잘 알려져 있습니다. 외피 회사들(Letta, mem0, Subconscious)는 조작층과 건축물을 구축하여 콘텍스트 창에 넣을 내용을 관리합니다. 외부 저장 및 RAG 인프라(Pinecone, xmemory와 같은)는 검색의 중추 역할을 합니다. 데이터는 존재하나, 제대로 된 슬라이스를 모델 앞에 올려놓는 것이 도전입니다. 콘텍스트 창이 확대되면, 이러한 회사들의 디자인 공간도 증가하며, 특히 외피 측면에서, 복잡한 콘텍스트 전략을 관리하기 위해 새로운 스타트업들이 나타나고 있습니다.
파라미터 끝은 조기에 시작되었으며 다양합니다. 이곳의 회사들은 어떤 형태의 "배포 후 압축" 시도 중이며, 모델이 가중치 내에서 새 정보를 내재화할 수 있도록 합니다. 여기서의 경로는 모델이 출시 후에 어떻게 학습해야 하는지에 관한 여러 가지 베팄으로 나눌 수 있습니다.
부분 압축: 재학습 없이 학습 가능합니다. 일부 팀들은 플러그인 가능한 지식 모듈(압축된 KV 캐시, 어댑터 계층, 외부 메모리 저장소)을 구축하여 범용 모델이 핵심 가중치를 변경하지 않고 전문화를 달성하도록 했습니다. 공통 주장은 다음과 같습니다: 의미 있는 압축(단순히 검색이 아닌)을 얻을 수 있으며, 학습이 전체 매개변수 공간에 분산되는 것이 아니라 격리되기 때문에 안정성-유연성의 균형을 관리할 수 있습니다. 8B 모델은 적절한 모듈을 장착하면 대규모 모델의 성능을 달성할 수 있습니다. 장점은 조합 가능성입니다: 모듈은 기존 Transformer 아키텍처와 쉽게 호환되며, 독립적으로 교체하거나 업데이트할 수 있으며, 실험 비용이 재학습보다 훨씬 낮습니다.
RL과 피드백 루프: 신호로부터 학습하기. 다른 팀들은 배치학습 이후 가장 풍부한 학습 신호가 이미 배치 루프 자체에 존재한다고 주장했습니다 - 사용자의 수정, 작업 성공 또는 실패, 실제 세계 결과에서의 보상 신호. 핵심 아이디어는 모델이 각 상호 작용을 잠재적인 훈련 신호로 취급해야하며 추론 요청뿐만 아니라. 이는 사람이 작업에서 발전하는 방식과 매우 유사합니다: 작업 수행, 피드백 수신, 어떤 방법이 효과적인지 내재화. 공학적인 도전은 희소하고 노이즈가 많으며 때로는 적대적인 피드백을 안정적인 가중치 업데이트로 변환하는 것이며, 재앙적인 잊혀진 것이 되지 않는 것입니다. 그러나 배치로부터 학습 할 수있는 진정한 모델은 컨텍스트 시스템으로부터 수익성이 나오는 방식을 보여줄 것입니다.
데이터 중심: 올바른 신호로부터 학습하기. 관련이 있지만 다른 건 한 가지 베팅은 학습 알고리즘에는 병목이 없고 훈련 데이터와 주변 시스템에 있습니다. 이러한 팀은 지속적인 업데이트를 주도하는 올바른 데이터를 선별, 생성 또는 합성하기 위해 집중합니다. 전제는 높은 품질과 잘 구조화된 학습 신호를 갖는 모델이 점진적으로 개선 될 수 있다는 것입니다. 이는 피드백 루프의 회사와 자연스럽게 조화를 이룹니다만 강조하는 것은 상류 문제입니다. 모델이 학습 가능한지는 한 문제이며, 무엇을 학습하고 어느 정도까지 학습해야하는지는 다른 문제입니다.
신규 아키텍처: 기본적인 디자인에서 학습하기. 가장 과감한 베팅은 Transformer 아키텍처 자체가 병목이라고 여기며, 지속적인 학습을 위해 근본적으로 다른 계산 기본 체계가 필요하다고 여깁니다: 연속 시간 동역학 및 내장된 메모리 메커니즘을 갖춘 아키텍처. 여기에는 구조적 논점이 있습니다: 지속적인 학습 시스템을 원한다면 학습 메커니즘을 기본적인 인프라에 포함해야합니다.

그림 설명: 지속적 학습 스타트업 생태계
주요 연구소들도 이러한 범주 중 하나에서 적극적인 레이아웃을 가지고 있습니다. 일부는 더 나은 컨텍스트 관리와 사고 연쇄 추론을 탐색하고 있습니다. 일부는 외부 메모리 모듈이나 수면 시간 계산 파이프 라인을 실험하고 있으며 몇몇 은 잠복 회사들이 새로운 아키텍처를 추구하고 있습니다. 이 분야는 충분히 초기 단계이며 어떤 접근 방식이 승자로 나오고 있지 않으며 use case의 다양성을 고려할 때 하나의 승자만 있으면 안된다는 점을 고려해야합니다.
생산 환경에서 모델 매개변수를 업데이트하면 대규모로 아직 해결되지 않은 일련의 실패 모드를 유발할 수 있습니다.

그림 설명: 순진한 가중치 업데이트의 실패 모드
엔지니어링 문제는 충분히 기록되어 있습니다. 재앙적인 잊음은 새로운 데이터에 충분히 민감한 학습 모델은 이미 존재하는 표현 - 안정성-가소성 딜레마를 파괴한다는 것을 의미합니다. 시간의 해제는 불변 규칙과 가변 상태가 동일한 세트의 가중치로 압축되어 있어 하나를 업데이트하면 다른 하나가 손상된다는 것을 의미합니다. 논리 통합의 실패는 사실 업데이트가 그 추론으로 전파되지 않기 때문입니다. 변경이 토큰 시퀀스 수준에서만 발생하고 의미론적 개념 수준에서는 발생하지 않습니다. 잊어버리기(unlearning)는 아직 불가능합니다: 미분 가능한 뺄셈 작업이 없기 때문에 거짓 또는 유해한 지식에 대한 정확한 수술 제거 방법이 없습니다.
덜 주목받은 두 번째 유형의 문제도 있습니다. 현재 훈련 및 배포의 분리는 공학적 편의뿐만 아니라 보안, 감사 가능성 및 지배의 경계입니다. 이 경계를 열면 여러 문제가 동시에 발생할 수 있습니다. 안전 조정은 예측할 수 없이 약화될 수 있습니다. 좋은 데이터에서의 좁은 범위 미세 조정조차도 광범위한 불일치 행동을 유발할 수 있습니다.
지속적인 업데이트는 데이터 독려 공격면을 만들어 냅니다 - 천천히, 지속적인 힌트 주입 버전, 그러나 그것은 가중치 안에서 살아 있습니다. 감사 가능성이 붕괴합니다. 왜냐하면 지속적인 업데이트 모델은 이동하는 표적이기 때문에 버전 관리, 회귀 테스트 또는 일회성 확인을 할 수 없습니다. 사용자 상호 작용이 매개변수로 압축될 때, 개인 정보 보호 위험이 증가하고 민감한 정보가 표현에 내재되어 있어 검색 콘텍스트에서 정보를 걸러내는 것이 더 어려워집니다.
이러한 것들은 미해결 문제이며, 본질적으로 불가능한 것은 아닙니다. 이러한 문제를 해결하는 것은 핵심 아키텍처 도전과 같이 지속적인 학습 연구 안건의 일환입니다.
Leonard의 「메모리의 단편」에서 비극은 그가 기능하지 않는 게 아니라는 데에 있습니다. 그는 어떤 상황에서도 충분히 영리하며, 심지어 뛰어난 것으로 불릴 수 있습니다. 그의 비극은 그가 영원히 복리하지 못한다는 데 있습니다. 그의 매 경험은 외부에 남아 있습니다 - 폴라로이드 사진 한 장, 문신 한 개, 타인의 필체의 메모 한 장. 그는 검색할 수 있지만 새로운 지식을 압축할 수 없습니다.
Leonard가 이 자기 건축 미로를 방황할 때, 현실과 믿음 사이의 경계가 흐릿해지기 시작했습니다. 그의 질병은 그의 기억을 박탈했을 뿐만 아니라, 그에게 계속해서 의미 재구성을 강요하여 그를 동시에 자신의 이야기의 탐정이자 부적절한 이야기꾼으로 만들었습니다.
오늘날의 AI는 동일한 제약 조건 하에서 작동합니다. 우리는 매우 강력한 검색 시스템을 구축했습니다: 더 긴 맥락 창, 더 스마트한 쉘, 조화로운 다중 에이전트 집합, 그리고 그것들은 효과적입니다. 그러나 검색은 학습과 동일하지 않습니다. 어떤 사실이든 찾을 수 있는 시스템은 구조를 탐색할 필요가 없습니다. 그것은 일반화할 필요가 없습니다. 훈련을 너무 강력한 손실 압축으로 만들어주는 것 - 원시 데이터를 이동 가능한 표현으로 변환하는 메커니즘 - 이 바로 우리가 배포 시에 꺼 버리는 것입니다.
전진하는 경로는 아마도 단일한 폭발적 발전이 아니라 계층적 시스템일 것입니다. 문맥 학습은 여전히 첫 번째 적응 방어선일 것입니다. 이는 고유하며 검증된 지속적 개선 중인 것입니다. 모듈 메커니즘은 개인별 및 전문 분야의 중간 지역을 처리할 수 있습니다.
그러나 실제로 어려운 문제들—발견, 적응 대항, 텍스트로 표현할 수 없는 내재적 지식——에 대해선 아마도 모델이 교육을 마친 후에도 경험을 압축하여 파라미터에 계속 추가해야 할 수도 있습니다. 이는 희소한 구조, 메타학습 목표 및 자가 개선 루프를 통한 진전을 의미합니다. 이는 아마도 '모델'의 의미를 다시 정의해야 할 수도 있습니다: 고정된 가중치 모음이 아니라 진화하는 시스템, 그 기억, 업데이트 알고리즘, 그리고 그 자체 경험에서 추상화하는 능력을 포함한 것입니다.
서랍장은 점점 커지고 있습니다. 하지만 어마어마한 서랍장은 여전히 서랍장입니다. 폭발적인 점은 모델이 배포된 후 계속해서 강화학습을 할 수 있게 하는 것에 있을 것입니다: 압축, 추상화, 학습. 우리는 기억 없는 모델로부터 조금의 경험을 얻은 모델로의 전환점에 서 있습니다. 그렇지 않으면 우리는 스스로의 '기억 조각'에 갇히게 될 것입니다.
원문 링크
BlockBeats 공식 커뮤니티에 참여하세요:
Telegram 구독 그룹:https://t.me/theblockbeats
Telegram 토론 그룹:https://t.me/BlockBeats_App
Twitter 공식 계정:https://twitter.com/BlockBeatsAsia