오픈그래디언트: 추론 계층의 개방을 위하여

Key Takeaways

허깅페이스에는 270만 개가 넘는 모델이 올라와 있다. 숫자만 보면 AI는 이미 충분히 열려 있는 것 같다. 하지만 모델을 내려받을 수 있다는 것과, 그걸 실제 서비스에 올려서 돌릴 수 있다는 건 전혀 다른 문제다. 70B급 LLM 자체 호스팅에는 $30,000 이상의 GPU와 월 수백만 원의 운영비, 전문 인력이 필요하다. 이 장벽으로 인해 프로덕션 추론은 OpenAI API, AWS Bedrock 등 소수 플랫폼에 집중되어 있고, 이들이 가격·정책·지역을 좌우한다. 모델은 열렸으나 실행 인프라가 닫혀 있는 이 구조에서, '오픈소스 AI'는 아직 미완의 약속에 가깝다.
오픈그래디언트는 HACA(Hybrid AI Compute Engine, 하이브리드 AI 연산 엔진)를 통해 AI 추론의 실행과 검증을 분리하는 새로운 블록체인 아키텍처를 제시한다. 기존 블록체인의 재실행 기반 합의가 AI 추론에 부적합하다는 판단 하에, 특화된 노드 유형(풀 노드, 추론 노드, 데이터 노드)이 각자의 역할을 수행하고 증명만으로 검증이 이루어지는 구조를 설계했다. TEE와 zkML을 병행하는 검증 스펙트럼을 통해 사용 사례별로 신뢰 수준을 조절할 수 있다.
오픈그래디언트는 추론 인프라를 넘어 풀스택 AI 에이전트 플랫폼으로 확장하고 있다. 검증된 LLM 추론을 통해 AI 에이전트가 추론하고, 온체인에서 행동하고(SolidML), 요청 단위로 컴퓨팅 비용을 결제할 수 있는(x402) 수직 통합 플랫폼을 구축 중이며, 이 모든 것이 하나의 신뢰 프레임워크 안에서 작동한다. 오픈소스 디파이 에이전트 BitQuant는 이 스택의 실제 작동을 증명하는 사례다. 최종적으로 오픈그래디언트가 지향하는 것은 추론, 검증, 결제, 메모리, 애플리케이션을 하나의 응집된 레이어로 엮는 생태계다.
AI에서 '오픈'의 정의는 모델 웨이트 공개를 넘어 실행 인프라의 개방까지 확장되어야 한다. 리눅스 커널이 열려도 클라우드 인프라가 과점된 것처럼, 모델의 자유만으로는 AI의 자유가 완성되지 않는다. 오픈그래디언트의 성공 여부와 무관하게, 추론 계층의 분권화라는 질문 자체는 AI의 다음 단계에서 반복적으로 제기될 것이다.

1. 오픈소스 AI라는 미완의 약속

오픈소스(Open Source)라는 단어는 AI의 역사에서 여러 차례 의미가 바뀌어왔다. 2018년부터 2020년까지, 오픈소스 AI란 연구 논문과 학습 코드를 공개하는 것을 뜻했다. OpenAI가 2015년 비영리 단체로 설립되었을 당시 내건 원칙은 과학적 발견을 글로벌 AI 커뮤니티에 공유한다는 것이었다. 2023년에는 이 정의가 완전히 다른 것이 되었다. 메타(Meta)의 Llama 2와 Llama 3, 미스트랄(Mistral)의 초기 모델들, 알리바바(Alibaba)의 Qwen 시리즈 등이 실제 신경망의 웨이트(weight)까지 공개하기 시작했고, 2026년 3월 현재 기준 오픈소스 AI 커뮤니티 플랫폼 허깅페이스(HuggingFace)에는 270만 개가 넘는 모델이 등록되기에 이르렀다.

그러나 "모델이 열려 있다"는 것과 "AI가 열려 있다"는 것은 같은 말이 아니다. 자동차의 설계도가 공개되어도 그것을 생산할 공장이 없다면 제품은 만들 수 없다. 설계도의 공개와 제조 능력의 민주화를 동일시하는 것은 함정에 불과하다.

현실은 이 함정을 정확히 증명하고 있다. 오픈소스 모델의 프로덕션 추론은 여전히 소수 플랫폼이 절대다수를 처리한다. OpenAI API, Google Cloud Vertex AI, AWS Bedrock, Azure OpenAI Service가 추론 마켓의 대부분을 차지하고 있으며, a16z의 "Who Owns the Generative AI Platform?" 리포트에 따르면 추론 및 고객 별 파인튜닝 비용이 AI 앱 매출의 20~40%에 달한다. 이 비용의 대부분이 소수의 클라우드 사업자에게 지불되고 있다는 뜻이다.

Llama 70B를 직접 호스팅하려 한다면 어떠한 상황에 직면할까? A100 GPU 최소 2장이 필요하다. 하드웨어 비용만 $30,000 이상이며, 여기에 전력, 대역폭, 엔지니어링 비용을 더하면 월간 운영비가 만만치 않다. 개인 개발자나 소규모 팀에게 이는 사실상 넘을 수 없는 진입 장벽이다. 결과적으로 모델 레이어는 민주화되었으나, 실행 레이어의 장벽은 오히려 강화되는 역설이 발생하고 있다.

2. 닫힌 추론의 비용

앞서 제기한 구조적 모순이 추상적인 문제에 그치는 것은 아니다. 닫힌 추론 인프라는 매우 구체적인 비용을 발생시키고 있으며, 이를 하나씩 살펴보고자 한다.

첫 번째 비용은 가격 통제의 자의성이다. OpenAI의 GPT-4 API는 출시 초기 1백만 입력 토큰당 $30으로 책정되었다가, GPT-4 Turbo에서 $10으로, 이후 GPT-4o에서 $2.50까지 인하되었다. 가격이 내려갔다는 사실 자체는 긍정적이나, 가장 큰 문제는 가격 수준이 아니라 가격 결정권의 소재에 있다. 가격은 모두 서비스 제공자에 의해 일방적으로 결정되며, 개발자는 이 API 위에 사업을 구축하면서도 내일의 가격을 예측할 수 없다. 커뮤니티에서는 프로토타입 단계에서 저렴하던 API 비용이 프로덕션 스케일링 시 예산을 초과하는 상황이 반복적으로 보고되고 있다.

두 번째 비용은 검열과 컨텐츠 정책의 비결정성이다. OpenAI의 컨텐츠 정책은 예고 없이 업데이트되며, 어제 작동했던 프롬프트가 오늘 거부될 수 있다. Anthropic의 Claude 역시 특정 주제에 대해 응답을 거부하지만, 그 기준의 세부 사항은 명시적으로 공개되지 않는다. AI 에이전트 기반 앱을 개발하는 입장에서, 서비스의 핵심 기능이 제3자의 정책 변경 한 줄에 무효화될 수 있다는 것은 구조적인 위험이다.

세 번째 비용은 단일 실패 지점(Single Point of Failure)이다. 2023년부터 2024년 사이 OpenAI API는 여러 차례의 다운타임을 경험했고, 그때마다 전 세계의 API 의존 앱들이 동시에 서비스를 중단해야 했다. 중앙화된 추론 서버는 기술적 장애뿐 아니라 규제적 장애에도 취약하다. OpenAI API는 미국 OFAC 제재법에 따라 다수의 국가에서 차단되어 있으며, 이는 AI 인프라의 지정학적 분할을 초래하고 있다.

네 번째 비용은 데이터 프라이버시다. 모든 추론 요청이 특정 서버를 경유한다는 사실은 사용자의 입력 데이터가 추론 제공자에게 전면적으로 노출됨을 의미한다. 이는 의료, 법률, 금융 등 민감한 영역에서 AI 도입의 구조적 장벽이 되고 있다.

이 네 가지 비용은 결국 추론 인프라가 소수에게 집중된 구조에서 필연적으로 발생하는 문제다. 분산 시스템의 가용성 이점이 추론 인프라에도 적용될 수 있는가라는 질문이 자연스럽게 따라온다.

3. 검증 가능한 LLM 추론을 가능하게 하는 오픈그래디언트의 구조

이러한 배경에서 오픈그래디언트가 등장한다. 오픈그래디언트는 AI 모델의 추론을 분산 네트워크에서 실행하고, 그 결과를 온체인에서 검증하는 프로토콜이다. 스스로를 "The Network for Open Intelligence"라 정의하며, 추론 인프라의 개방을 기술적으로 구현하려는 시도다.

핵심 전제는 두 가지다. 누구나 자신의 GPU를 네트워크에 제공할 수 있어야 하고, 그 결과의 정확성을 제3자에 대한 신뢰 없이(trustlessly) 검증할 수 있어야 한다.

Source: OpenGradient

이를 가능하게 하는 것이 HACA(하이브리드 AI 연산 구조, Hybrid AI Compute Architecture)다. HACA는 오픈그래디언트의 전체 네트워크를 관통하는 설계 원리이자, 이 프로토콜의 기술적 정체성을 규정하는 아키텍처다.

3.1 왜 기존 블록체인으로는 안 되는가

기존 블록체인은 재실행 기반 합의를 사용한다. 모든 밸리데이터가 동일한 트랜잭션을 독립적으로 실행하고, 같은 상태에 도달하는지 확인하는 방식이다. 토큰 전송처럼 저비용이고 결정적이며 고속인 연산에는 적합하다. 그러나 AI 추론은 이 세 가지 전제를 모두 위반한다. 추론은 GPU를 필요로 하며, 100명의 밸리데이터가 70B 파라미터 LLM을 각각 실행하면 동일한 결과를 100번 중복 계산하는 셈이다. LLM은 비결정적 출력을 생성하므로 밸리데이터 간 출력 비교가 불가능하다. 또한 단일 추론에 수 초가 소요되어 블록 타임이 비현실적으로 늘어나게 된다.

일부 프로젝트는 AI 추론을 오라클 방식으로 처리하려 시도한다. 외부에서 추론 결과를 가져와 체인에 주입하는 구조다. 그러나 이는 신뢰 문제를 이동시킬 뿐 해결하지 못한다. 누가 오라클을 운영하며, 올바른 모델에 올바른 입력을 적용했는지 어떻게 확인하는가? 결국 단일 주체를 신뢰해야 하며, 이는 분산화의 목적을 무효화한다.

HACA는 이 문제에 정반대 방향에서 접근한다. AI를 기존 블록체인 모델에 끼워 맞추는 대신, AI 워크로드의 실제 요구사항에 맞춰 블록체인 모델 자체를 설계하는 것이다.

3.2 HACA의 핵심 원리: 실행과 검증의 분리

HACA의 핵심 원리는 실행과 검증이 서로 독립적인 작업이며 서로 다른 타임라인에서 수행된다는 것이다. 오픈그래디언트는 검증 계층이 원래의 계산을 재실행할 필요 없이 증명만으로 유효성을 판단하도록 설계했다.

이 원리를 구현하기 위해 HACA는 네트워크를 아래와 같이 특화된 노드 유형들로 분할한다.

풀 노드(Full Nodes): 블록체인 밸리데이터로, CometBFT 합의를 실행하고, 증명을 검증하며, 결제를 정산하고, 원장을 유지한다. 중요한 것은 풀 노드가 모델을 직접 실행하지 않는다는 점이다. 이들은 모델이 올바르게 실행되었다는 암호학적 증거만을 검증한다. 따라서 풀 노드는 GPU 없이 범용 하드웨어에서 운영이 가능하며, 이는 밸리데이터 셋의 규모와 다양성을 높여 탈중앙화를 강화한다.
추론 노드(Inference Nodes): 실제 모델을 실행하고 결과를 사용자에게 직접 반환하는 무상태(stateless) GPU 워커다. 두 가지 하위 유형이 있다. LLM 프록시 노드는 TEE 엔클레이브 내에서 외부 LLM 제공자에게 요청을 라우팅하며, 로컬 추론 노드는 자체 하드웨어에서 모델을 직접 구동한다. 개인, 기업, 데이터센터가 자신의 GPU를 제공하고 추론 작업을 실행한 뒤 보상을 받는 구조다. 모델 크기별로 노드 요구사항이 분화되며, 7B 수준의 소형 모델은 소비자급 GPU에서도 구동이 가능하고, 70B급 대형 모델은 데이터센터급 노드에서만 처리된다.
데이터 노드(Data Nodes): TEE로 보호되는 노드로, 외부 데이터(API, 데이터베이스, 오라클)를 가져오고 증명한다. 엔클레이브가 노드 운영자조차 데이터를 열람하거나 변조할 수 없도록 보장하며, 추론과 합의로부터 데이터 접근을 격리하여 신뢰 경계를 명확히 유지한다.
스토리지: 오픈그래디언트는 스토리지로 월루스(Walrus)를 활용하는데, 월루스는 모델 파일과 대규모 증명을 위한 분산 블롭 저장소다. 오픈그래디언트는 온체인에는 블롭 ID 참조만 기록하여 원장을 경량화하면서, 월루스를 통해 데이터 가용성을 유지한다.

이 특화 구조는 자의적인 것이 아니라 AI 워크로드의 물리적 제약에서 필연적으로 도출된다. AI 추론은 비용이 크고 이질적이다. 소형 분류 모델과 70B 파라미터 LLM의 하드웨어 요구사항은 근본적으로 다르다. 균일한 밸리데이터 셋으로는 소형 모델에 과잉 프로비저닝되거나, 대형 모델을 실행할 수 없게 된다. 반면 검증에는 재실행이 필요 없다. TEE 증명서는 엔클레이브가 변조되지 않았음을 입증하고, zkML 증명은 특정 모델이 특정 출력을 생성했다는 수학적 확실성을 제공한다. 검증 노드는 가볍게 유지될 수 있으며, 이것이 HACA라는 이름에 내포된 하이브리드 설계의 핵심이라고 할 수 있다.

3.3 두 개의 경로: 빠른 실행과 비동기 검증

HACA의 작동 흐름은 두 개의 독립적 경로로 나뉘며, 이는 사용자 경험과 신뢰 보장을 동시에 달성하기 위한 설계다.

빠른 경로(Fast Path): 사용자가 추론을 요청하면, 요청은 적절한 추론 노드로 직접 라우팅된다. 이 경로에서 블록체인은 크리티컬 패스(critical path)에 포함되지 않는다. 블록 확인, 밸리데이터 투표, 합의 지연이 존재하지 않으며, 사용자는 중앙화 API를 호출할 때와 동일한 레이턴시로 응답을 수신한다. CDN이 웹 컨텐츠를 지리적으로 분산 서빙하는 방식과 유사하되, 정적 컨텐츠 캐싱이 아닌 동적 추론 실행을 분산 처리한다는 차이가 있다.
검증 경로(Verification Path): 추론 완료 후, 증명이 비동기적으로 정산된다. 추론 노드가 증명(TEE 증명서, zkML 증명, 또는 서명된 결과)을 생성하고, 이를 풀 노드에 제출한다. 풀 노드가 증명을 다음 합의 라운드에서 검증하고, 2/3 이상의 밸리데이터가 동의하면 증명이 원장에 영구 기록된다. 대형 증명(zkML 등)의 경우 온체인에는 참조로 쓰이는 블롭 ID만 저장되고, 전체 증명 데이터는 월루스에 보관된다.

오픈그래디언트는 이러한 구조를 통해 추론 노드의 추가시 검증 계층에 부하를 더하지 않고도 처리량이 선형적으로 증가하도록 했으며, 풀 노드는 기저 추론이 50ms가 걸렸든 5초가 걸렸든 밀리초 단위로 증명을 검증하게 된다.

다만, 이 설계에는 명시적인 트레이드오프가 존재한다. 추론 결과가 반환되는 시점과 증명이 온체인에 정산되는 시점 사이에는 일시적인 신뢰 갭이 발생한다. 아직 증명이 정산되지 않은 구간에서는 결과의 온체인 검증이 완료되지 않은 상태다. 즉각적인 온체인 검증이 필요한 원자적 디파이 작업 등에서는 이 갭이 문제가 될 수 있다.

오픈그래디언트는 이 문제를 PIPE(Parallelised Inference Pre-Execution Engine)를 통해 해결한다. PIPE는 원자적 보장이 가능한 네이티브 온체인 ML 추론을 위해 설계된 핵심 실행 엔진이다. 이는 단순한 보조 메커니즘이 아니라, 추론 결과가 이를 트리거한 트랜잭션과 동일한 트랜잭션 내에서 정산되어야 하는 사용 사례에 최적화된 독립적인 실행 경로다.

PIPE는 추론 멤풀(Inference Mempool)이라는 고유한 구조를 통해 이를 구현한다. 사용자가 트랜잭션을 제출하면, 해당 트랜잭션은 먼저 추론 멤풀에 배치된다. 멤풀은 트랜잭션을 시뮬레이션하여 내장된 모든 추론 요청을 추출하고, 이를 추론 네트워크로 전송하여 병렬 실행한다. 모든 결과가 준비되면, 트랜잭션은 멤풀에서 꺼내져 사전 계산된 추론 결과와 함께 실행되고 다음 블록에 포함된다. 수백에서 수천 개의 대기 트랜잭션에 대한 추론이 병렬로 처리되기 때문에, 단일 트랜잭션이 네트워크를 지연시키는 일은 발생하지 않는다. 모델의 복잡도와 무관하게 실제 블록 빌딩은 매우 빠른 속도를 유지한다.

3.4 검증 스펙트럼

분산 노드가 올바른 추론 결과를 반환했는지 어떻게 확인하는가? HACA는 이 질문에 대해 단일 방식이 아닌 검증 스펙트럼을 제공한다. 모든 추론에 동일한 수준의 신뢰가 필요하지는 않다는 판단이 그 바탕에 있다.

TEE(신뢰실행환경)는 현재 오픈그래디언트의 모든 LLM 추론에 기본 적용되는 검증 방식이다. GPU 노드가 TEE 내부에서 추론을 실행하면, 하드웨어 수준에서 엔클레이브가 승인된 코드를 변조 없이 실행했음을 증명하는 증명서(attestation)가 생성된다. 풀 노드는 이 증명서를 온체인 TEE 레지스트리에 기록된 알려진 정상 측정값(PCR values)과 대조하여 검증한다. 이 과정에서 풀 노드는 프롬프트가 무엇이었는지, 어떤 모델이 사용되었는지, 응답 내용이 무엇인지 알 필요가 없다. 순수하게 암호학적 검증만 수행하며, 이는 프라이버시 측면에서 중요한 보장을 제공한다. 노드 운영자조차 실행 중인 데이터나 코드를 열람하거나 변조할 수 없다.

다만 TEE의 한계도 명확하다. TEE 증명서의 신뢰성은 궁극적으로 CPU 제조사(Intel, ARM 등)의 하드웨어 구현에 의존한다. 근본적인 TEE 취약점이 발견될 경우 보안 모델이 약화될 수 있으며, 실제로 Intel SGX는 과거 여러 사이드채널 공격에 노출된 이력이 있다. 오픈그래디언트 공식 문서 역시 이 한계를 인정하면서, 복수의 검증 방식을 지원하고 중요 작업에는 zkML을 요구할 수 있도록 하여 이를 완화하는 설계를 채택했다고 밝히고 있다.

zkML(Zero-Knowledge Machine Learning) 증명은 검증 스펙트럼의 반대편 끝에 위치한다. 추론 결과를 영지식 증명으로 생성하여, 제3자가 추론 과정을 재실행하지 않고도 결과의 정확성을 수학적으로 확인할 수 있게 한다. 하드웨어 신뢰 가정 없이 순수한 수학적 증명에 의존하므로, 누구든 독립적으로 검증을 수행할 수 있다. 공식 웹사이트에 따르면 현재까지 500,000건 이상의 zkML 증명이 생성되었다.

zkML의 한계 역시 분명하다. 현재 기술로 증명 생성에 소요되는 오버헤드가 1,000~10,000배에 달하며, 이는 대형 모델이나 고처리량 워크로드에서 비실용적이다. EZKL이나 Modulus Labs 같은 프로젝트들이 이 경계를 넓히고 있으나, 70B급 모델에서의 실시간 증명 생성은 아직 실현되지 않았다. 이는 ZK 기술 자체의 현재 한계이며, 기술 발전에 따라 완화될 영역이다.

이 두 방식의 병행은 각각의 약점을 상호 보완하려는 설계다. 프라이버시가 중요한 의료 데이터 추론에는 TEE를, 결과의 공개 검증이 필요한 금융 추론에는 zkML을 우선 적용할 수 있다. 나아가 하나의 트랜잭션 내에서 서로 다른 모델 호출에 대해 서로 다른 검증 방식을 혼합하는 것도 가능하다. 예를 들어, 리스크 스코어링 모델에는 zkML을, 설명 생성 LLM에는 TEE를, 로깅 모델에는 기본적인 서명 검증을 동시에 적용할 수 있다. 이러한 추론 태스크별 유연성은 개발자가 저위험 연산을 과잉 검증하거나 고위험 연산을 과소 검증할 필요가 없게 만든다.

3.5 모델 허브(Model Hub)와 SDK

Source: OpenGradient

HACA 위에 구축된 첫 번째 서비스 계층은 분산형 모델 허브다. 오픈그래디언트는 이를 "세계 최대의 분산형 AI 모델 저장소"라 칭하며, 현재 2,000개 이상의 모델이 등록되어 있다. 모델의 메타데이터가 온체인에 기록되고, 가중치의 해시를 통해 무결성이 검증된다.

Source: OpenGradient

이는 허깅페이스와 유사해 보이지만 본질적으로 다른 점이 있다. 허깅페이스가 범용 저장소라면, 오픈그래디언트의 모델 허브는 네트워크에서 실제로 추론을 실행할 수 있는 모델만을 등록한다. 허가 없이 누구나 모델을 등록할 수 있되, 모든 모델 아키텍처를 지원한다고 공식 문서는 명시하고 있다. 어떤 노드도 승인되지 않은 모델을 실행했다고 허위 주장을 할 수 없는 구조다.

개발자가 실제로 마주하는 인터페이스도 중요하다. 오픈그래디언트는 Python SDK를 제공하며, ML과 LLM 추론 실행, 모델 관리, 자동화된 워크플로우 배포를 지원하고 있다. 개발자가 HACA의 내부 구조를 의식하지 않아도 되는 추상화 수준을 달성하는 것이 목표이며, 기존 OpenAI API에서의 전환 마찰이 실질적 채택의 관건이 될 것이다.

3.6 MemSync: AI 에이전트를 위한 영속적 메모리

Source: OpenGradient

현재 AI 시스템은 대화마다 맥락이 초기화되는 무상태성(statelessness) 문제를 안고 있으며, 기존 장기 기억 솔루션도 단일 제품에 국한된다. 사용자의 정체성 정보가 여러 플랫폼에 분산되어 있다는 점이 근본 원인이다.

MemSync는 이 문제를 해결하기 위해 사용자와 함께 이동하는 휴대 가능한 메모리 인프라를 제공한다. 크롬 확장 프로그램으로 ChatGPT, Claude, Perplexity 등을 횡단하며, REST API를 통한 직접 통합도 지원한다.

메모리는 두 가지 유형으로 분리된다.

시맨틱 메모리(Semantic Memory): 핵심 정체성, 경력, 언어 능력 등 안정적이고 장기적인 사실과 특성을 나타낸다.
일화성 메모리(Episodic Memory): 진행 중인 프로젝트, 최근 이벤트, 현재 목표 등 시간적 맥락을 포착한다.

검색 시 MemSync는 벡터 검색, 인코더 간 리랭킹, 최적화 레이어의 3단계 프로세스를 두 메모리 풀에 독립적으로 실행하며, 쿼리 특성에 따라 시맨틱과 일화성 결과의 비율을 조정한다. 나아가커리어, 흥미 등 카테고리별 태깅과 교차 카테고리 요약을 통해 대화 간 지속되는 동적 사용자 프로필을 생성한다.

오픈그래디언트 생태계 내에서 MemSync의 메모리 처리 작업(추출, 임베딩, 검색)은 TEE 검증 추론을 통해 실행된다. 따라서 메모리 레이어는 다른 오픈그래디언트 워크로드와 동일한 신뢰 보증을 상속하며, 개인 데이터를 중앙화된 제공자에게 맡겨야 하는 기존 메모리 시스템에 대한 구조적 대안을 제시한다.

4. 오픈그래디언트 생태계

오픈그래디언트는 단순한 추론 인프라 프로토콜에 머무르지 않고, 자체 생태계를 수직적으로 확장하고 있다. 현재 구축 중이거나 이미 출시된 주요 제품과 프레임워크를 하나씩 짚어보겠다.

4.1 x402 통합: AI를 위한 인터넷 네이티브 결제

Source: OpenGradient

가장 최근의 주목할 만한 통합은 x402 프로토콜과의 결합이다. x402는 HTTP 402 "Payment Required" 상태 코드를 활용한 오픈 결제 프로토콜로, Coinbase 개발팀이 주도하여 만든 표준이다. API 키나 구독 없이, HTTP 요청 단위로 즉각적인 마이크로페이먼트를 가능하게 한다.

오픈그래디언트가 x402를 통합한 방식에서 주목할 점은 결제 프로토콜의 채택 자체가 아니라, 그것을 아키텍처의 어디에 배치했는가에 있다.

통상적인 클라우드 추론 서비스에서 결제는 연산과 분리된 별도 계층에서 처리된다. 사용자의 요청이 먼저 인증/결제 미들웨어를 통과하고, 검증이 끝난 뒤에야 실제 GPU로 전달되는 구조다. 이 중간 계층은 사용자의 요청 내용이 결제 처리 과정에서 노출될 수 있는 문제, 그리고 장애나 지연 발생시 사용성에 크게 저하되는 단일 실패 지점을 내재하고 있다.

첫번째 문제인 사용자 요청의 노출 문제를 해결하기 위해, 오픈그래디언트의 설계는 x402를 모든 TEE 인스턴스 내부에 직접 내장한다. 결제 처리와 추론 실행이 동일한 신뢰 경계 안에서 이루어지므로, 중간 계층 자체가 존재하지 않는다. 각 TEE 인스턴스는 자체 엔클레이브 서명 키를 생성하고, 추론 완료 시 출력에 서명한 뒤 해시만 온체인에 기록한다. 제3자는 "추론이 실행되었다"는 사실만 확인할 수 있고, 실제 내용은 알 수 없다. 결과를 보유한 사용자만이 해시를 재생성하여 온체인 기록과 대조함으로써 자신의 추론이 실제로 실행되고 기록되었음을 독립적으로 검증할 수 있다. 또한 엔클레이브 종단 TLS 연결을 통해 호스트 머신조차 통신을 복호화할 수 없으며, 결제와 연산 사이에 데이터가 노출되는 접점이 구조적으로 사라진다.

오픈그래디언트는 두번째 문제인 중간 계층의 문제로 인한 사용성 저하 리스크에 대해서도 대응하고 있다. 오픈그래디언트는 선불 잔액(pre-funded balance) 방식을 채택하여, 사용자가 토큰을 미리 예치하면 온체인 정산 완료를 기다리지 않고 추론이 즉시 시작되도록 했다. 수십 건의 추론을 병렬 호출하는 에이전트 워크플로우에서 결제 확인 지연이 연산을 차단하면 실사용이 불가능해지기 때문이다.

구조의 복잡성에 비해 개발자가 마주하는 인터페이스는 단순하다. 오픈그래디언트의 Python SDK가 온체인 레지스트리에서 검증된 노드 조회, 요청 라우팅, 결제 처리를 모두 추상화하며, 사용자는 지갑에 잔액을 충전한 뒤 일반적인 LLM API 호출을 수행하면 된다. 현재 결제는 Base 테스트넷에서, 추론 정산 및 검증은 OpenGradient 테스트넷에서 이루어지고 있으며, TEE 노드의 직접 등록 및 운영은 관련 소프트웨어 오픈소스 공개 이후 제공 예정이다.

4.2 비트퀀트(BitQuant): 검증 가능한 디파이 에이전트

오픈그래디언트의 플래그십 애플리케이션은 비트퀀트다. 자연어 인터페이스를 통해 디파이 분석과 거래를 수행하는 오픈소스 AI 에이전트 프레임워크로, 2025년 5월 MIT 라이선스 하에 공개되었다. 비공개 베타 단계에서 50,000명 이상의 사용자를 확보한 뒤의 오픈소스 전환이었다.

비트퀀트의 아키텍처는 두가지 타입의 에이전트로 구성된다. 분석 에이전트(Analytics Agent)는 포트폴리오, 토큰, 프로토콜, 시장 트렌드에 대한 심층 분석을 제공하며, CoinGecko 및 DeFiLlama와 같은 실시간·과거 데이터 소스를 활용한다. 투자 에이전트(Investment Agent)는 사용자가 수익 기회를 발견할 수 있도록 돕고, Solana RPC 엔드포인트를 활용하여 온체인 데이터를 기반으로 Solana 네트워크에서의 대출 및 AMM 풀 선택을 안내한다. 이 프레임워크는 확장 가능하도록 설계되어, 개발자들이 자동 거래, NFT 분석, 크로스체인 포트폴리오 관리 또는 기타 디파이 워크플로우를 위한 맞춤형 에이전트를 구축할 수 있다.

이 프레임워크가 흥미로운 이유는 오픈그래디언트의 인프라가 실제 금융 의사결정에 적용되는 구체적 사례를 보여주기 때문이다. 포트폴리오 리스크 분석, 유동성 풀 최적화, 수익률 전략 자동화 등을 자연어로 요청할 수 있으며, 이 모든 추론 과정이 오픈그래디언트 네트워크에서 검증 가능하게 실행된다.

4.3 SolidML: 스마트 컨트랙트를 위한 네이티브 AI 추론

SolidML은 스마트 컨트랙트가 원자적 온체인 트랜잭션의 일부로 ML 및 LLM 추론을 네이티브하게 호출할 수 있게 하는 프레임워크다. 검증 가능한 LLM 추론이 오프체인 애플리케이션과 에이전트를 위한 것이라면, SolidML은 동일한 기능을 EVM 실행 환경 내부로 직접 가져온다.

설계는 직관적이다. Solidity 개발자가 사전 컴파일된 함수를 호출하면서 모델 허브의 Blob ID, 입력 데이터, 원하는 검증 모드(zkML 또는 TEE)를 지정한다. 추론은 동일 트랜잭션 내에서 원자적으로 실행되고, 결과는 후속 컨트랙트 로직에서 즉시 활용할 수 있는 네이티브 Solidity 데이터 타입으로 반환된다.

이를 통해 이전에는 불가능했거나 취약한 오라클 우회 방식에 의존해야 했던 유형의 온체인 애플리케이션이 가능해진다. 구체적인 예로는 ML 추론 기반 동적 수수료 모델을 사용하는 AMM, 실시간 리스크 스코어링 모델에 따라 담보인정비율(LTV)을 조정하는 대출 프로토콜, 검증된 모델 출력에 기반하여 의사결정하는 온체인 에이전트 등이 있다. 동일 트랜잭션 내에서 모델의 실행과 검증이 완료되므로, 모델의 출력과 컨트랙트의 해당 출력에 대한 행동 사이에 신뢰 갭이 존재하지 않는다.

SolidML의 주요 장점은 다음과 같다.

원자적 실행: 추론이 이를 트리거한 트랜잭션 내에서 정산되어 상태 일관성 보장
간결한 인터페이스: 콜백 핸들러 없이 단일 함수 호출
합성가능성: 임의의 컨트랙트 로직을 통해 여러 모델을 연쇄 호출 가능
네이티브 검증: zkML 및 TEE 증명이 기반 프로토콜에 의해 검증되므로 컨트랙트가 별도 검증 로직 없이 결과를 신뢰 가능

5. 맺으며

다시 처음의 질문으로 돌아오자. 모델이 열려 있어도 실행 환경이 닫혀 있다면, AI는 진정으로 오픈되어있는 것인가?

오픈그래디언트의 응답은 추론 계층을 분산하고 검증 가능하게 만듦으로써, 모델의 개방이 실행의 개방으로 이어지는 경로를 제시하는 것이다. 200만 건 이상의 추론과 50만 건 이상의 증명은 오픈그래디언트의 수직 통합 스택이 실험실을 벗어나 실제로 작동하고 있음을 보여준다.

추론 계층의 개방이 실현될 경우 기대할 수 있는 변화는 분명하다. 개발자의 선택지가 확대되어 단일 API 제공자에 대한 의존도가 줄고, 가격과 검열 정책과 가용성에 대한 경쟁 압력이 생긴다. 지정학적 제한 없이 AI 추론에 접근할 수 있는 경로가 열리며, 현재 API 차단 국가의 개발자들에게 대안이 된다. TEE 기반 추론은 민감 데이터의 제3자 노출을 최소화하여 데이터 주권의 실질적 이행 수단이 될 수 있다. 다만 이 모든 함의는 네트워크가 충분한 규모와 경제적 지속 가능성에 도달했을 때의 이야기다. 현재는 기술적 가능성이 증명된 단계에 있고, 경제적 증명은 아직 남아 있다.

리눅스가 커널을 열었을 때 사람들은 소프트웨어의 자유가 도래했다고 믿었다. 그러나 AWS, GCP, Azure가 클라우드 인프라를 과점하는 구조가 만들어졌고, 코드의 개방이 인프라의 개방을 보장하지 않는다는 사실이 드러났다. AI에서도 같은 패턴이 반복되고 있다. 오픈그래디언트는 이 질문에 대한 기술적 응답을 구성했다. 그 성공 여부와 무관하게, 추론 계층의 분권화라는 질문 자체는 AI의 다음 단계에서 반복적으로 제기될 것이며, 그 답은 기술적 가능성뿐 아니라 경제적 지속 가능성의 영역에서까지 찾아야 한다.

오픈그래디언트: 추론 계층의 개방을 위하여

Key Takeaways

1. 오픈소스 AI라는 미완의 약속

2. 닫힌 추론의 비용

3. 검증 가능한 LLM 추론을 가능하게 하는 오픈그래디언트의 구조

3.1 왜 기존 블록체인으로는 안 되는가

3.2 HACA의 핵심 원리: 실행과 검증의 분리

3.3 두 개의 경로: 빠른 실행과 비동기 검증

3.4 검증 스펙트럼

3.5 모델 허브(Model Hub)와 SDK

3.6 MemSync: AI 에이전트를 위한 영속적 메모리

4. 오픈그래디언트 생태계

4.1 x402 통합: AI를 위한 인터넷 네이티브 결제

4.2 비트퀀트(BitQuant): 검증 가능한 디파이 에이전트

4.3 SolidML: 스마트 컨트랙트를 위한 네이티브 AI 추론

5. 맺으며

스테이블코인 규제의 한 주: 미국 지니어스 액트 규정안과 홍콩 첫 라이선스 [FP Weekly 15]