인터넷 초창기, 구글은 페이지랭크 알고리즘으로 웹사이트를 연관성에 따라 순위화하여 사용자가 원하는 정보를 쉽게 검색할 수 있도록 했다. 그렇다면 수많은 AI 에이전트가 난립할 미래의 에이전트 인터넷에서는, 사용자가 어떻게 필요한 에이전트를 탐색하고 신뢰할 수 있을까?
리콜은 검증 가능한 성능 데이터와 평판 스코어를 기반으로 에이전트를 표준화한다. 대안적 벤치마크에서 시작해, 장기적으로는 에이전트 인터넷에서 필요한 에이전트를 빠르고 정확하게 탐색할 수 있는 인프라를 제공하고자 한다.
선제 과제는 기존 벤치마크의 신뢰도 문제를 해결하는 온체인 대회로 평가 데이터를 축적하는 것이다. 리콜은 실시간 시뮬레이션 환경에서 에이전트가 경쟁하는 동적 벤치마크로 성능을 평가하고, 이렇게 축적된 평가 데이터를 바탕으로 에이전트를 순위화한다.
리콜의 전체 아키텍처는 에이전트 랭크, 큐레이션 마켓, 온체인 대회, 스킬 풀, 에이전트 프레딕트로 구성된다. 이 모듈들은 각각 독립적으로 작동하면서도 상호 연결되어, 에이전트 성능 평가와 인센티브 구조를 하나의 프로토콜로 통합한다.
리콜의 베스트 시나리오는 폴리마켓과 구글 페이지랭크의 성공 모델을 따른다. 먼저 예측시장과 유사한 메커니즘을 통해 군중의 지혜와 경제적 인센티브로 신뢰도 높은 벤치마크를 구축하고, 이어 구글 페이지랭크처럼 에이전트 검색 엔진으로 발전해 향후 에이전트 인터넷의 첫 번째 터치포인트를 차지할 가능성을 지닌다.
2023년 어느 때, ‘스파게티 먹는 윌 스미스(Will Smith eating spaghetti)’라는 제목의 AI 생성 비디오가 레딧에 올라왔다. AI 비디오 생성 툴인 모델스코프(ModelScope)로 제작된 해당 영상은 배우 윌 스미스가 스파게티를 먹는 장면을 묘사하고 있었다. 그러나 영상 속 윌 스미스의 얼굴은 형태가 왜곡되고 먹는 동작 역시 부자연스러운 모습이었다. 이 기괴하면서도 묘하게 웃긴 영상은 커뮤니티에 걸쳐 빠르게 확산됐고, 끝내 초기 개발 단계였던 AI 생성 비디오의 한계를 보여주는 사례로 밈화되었다.
흥미롭게도, 이후 “스파게티 먹는 윌 스미스” 프롬프트는 AI 커뮤니티에서 비공식적인 벤치마크로 활용되기 시작했다. 현실적인 인간의 행동과 표정을 얼마나 자연스럽게 재현할 수 있는지를 평가하는 기준점으로 자리 잡았으며, 새로운 모델이 업데이트될 때마다 해당 프롬프트를 통한 성능 비교가 이뤄졌다. 실제로 2025년 5월 구글의 Veo 3가 이 테스트를 재현한 영상을 공개했는데, 얼굴 묘사의 정밀도, 동작의 자연스러움, 오디오 동기화 측면에서 이전 세대 모델 대비 현저한 개선을 보여 포브스(Forbes)로부터 “윌 스미스 스파게티 테스트를 통과했다”는 평가를 받았다.
이러한 윌 스미스 스파게티 테스트는 전통적 AI 벤치마크의 한계와 커뮤니티 주도 평가의 가능성을 동시에 보여준다. 클로드(Claude), GPT-5, 제미나이(Gemini), 딥시크(DeepSeek) 등 최신 모델들은 항상 벤치마크 점수에서 우수한 성능을 보이지만, 이는 종종 폐쇄된 환경에서 기업이 선택한 지표로 측정되거나 실제 환경에서 재현 가능성을 담보하지 못하는 경우가 많다. 이로 인해 벤치마크 결과와 사용자들이 체감하는 품질 사이에 괴리가 발생한다.
반면, 윌 스미스 스파게티와 같은 커뮤니티 주도 테스트는 유저 커뮤니티가 직접 성능을 평가하고 해석하는 방식이 얼마나 강력한 신뢰 형성 메커니즘이 될 수 있는지를 보여준다. 분산된 의견이 모여 형성된 평가는 일방적인 기업 보고보다 투명하고 다양한 시각에서 모델의 성능을 입체적으로 평가할 수 있다.
리콜은 이러한 커뮤니티 주도 평가를 시스템화하는 프로토콜이다. 그 방식으로 랭킹·평판·보상을 위해 AI가 경쟁하는 온체인 대회를 개최하며 토큰 인센티브 기반의 커뮤니티 참여를 극대화한다. 이를 통해 높은 신뢰도의 AI 벤치마크 시스템을 구축하며, 궁극적으로 ‘에이전트 인터넷(Internet of Agents)’에서 사용자가 좋은 평판의 에이전트를 탐색하고 연결할 수 있는 평판 프로토콜로 자리잡고자 한다. 이하에서는 리콜이 이러한 인프라를 구현하는 방식과 그 확장 가능성을 자세히 살펴본다.
먼저, AI 벤치마크는 쉽게 말해 AI 모델의 성능을 객관적으로 측정하고 비교하기 위해 설계된 평가 도구이다. 일반적으로 사전에 정의된 문제 세트를 기반으로, AI 모델이 이를 얼마나 효율적으로 해결하는지 테스트하고 수치화한다. 평가 항목은 지식 이해, 코딩, 윤리, 다국어 처리 등 다양하게 구분되며, 평가 영역별로 대표적인 벤치마크가 활용되고 있다. 예를 들면, MMLU는 대학 수준의 범용 지식을, GSM8K는 수학 추론 능력을, HumanEval은 코드 작성 능력을 측정한다. 이러한 평가 결과를 종합해 AI 모델의 성능을 표준적으로 나타내는 방식이다.
Source: Epoch AI
이러한 벤치마크가 중요한 이유는, AI 모델의 성능을 객관적으로 비교할 수 있는 공통 지표 역할을 해주기 때문이다. 새로운 AI 모델이 출시될 때마다 기업들은 항상 최고 성능을 주장하기 마련이다. 이때, 표준화된 평가 체계가 없다면 각 모델이 제시하는 성능 수치는 임의적일 수밖에 없어 직접적인 비교가 어려울 것이다. 벤치마크는 이를 위해 객관적이고 표준화된 지표로써 동일한 조건에서 비교를 가능하게 한다.
이 비교와 검증은 무엇보다 기술 채택 과정에서 발생하는 탐색 및 의사결정 비용을 절감하는 데 필수적이다. 즉, 벤치마크는 사전 검증된 성능 지표를 제공하여 연구자와 기업으로 하여금 기준점 역할을 해주기 때문에, 불필요한 개별 테스트 소요를 줄여준다. 이로써 연구자와 기업은 보다 전략적인 기술 채택에만 집중할 수 있다.
Source: BetterBench
이처럼 AI 벤치마크는 오랫동안 모델 성능 비교의 핵심 도구로 활용되어 왔지만, 한편으로는 기존 방식이 지닌 구조적 한계도 점차 명확히 드러나고 있다. 스탠포드 대학의 한 연구는 자연어 처리, 수학·코딩, 멀티모달 등 다양한 영역의 60개 대표 벤치마크를 분석하여, 이들 중 절반 이상이 모델 간 성능 차이를 통계적으로 유의미하게 구분하지 못한다는 사실을 밝혔다. 실제로 상위권 모델 간 성능 격차가 체감하기 어려울 정도로 미미함에도 불구하고, 마케팅 자료에는 이를 과도하게 부풀려 비교 우위로 포장하는 경우가 잦았다.
또한 동일한 모델과 설정으로 벤치마크를 10회 반복 평가한 결과, 점수가 1~3% 범위에서 변동되는 경우가 자주 발견되며, 경우에 따라 순위가 뒤바뀌는 사례도 확인되었다. 이러한 재현성 부족은 단일 평가 결과를 절대적인 지표로 받아들이는 것이 부적절하다는 것을 보여준다. 결과가 안정적으로 재현되지 않는다면, 벤치마크가 모델의 실제 성능을 제대로 대표한다고 보기 어렵다.
이렇듯 기존 벤치마크는 객관적인 성능 지표로서 본래 기능을 충분히 수행하지 못하고 있다. 최근에는 Open AI가 o3 모델 전용 평가 벤치마크를 개발한 회사에 자금을 지원한 사실이 알려졌으며, 해당 벤치마크의 문제 세트가 o3 훈련에 사용됐을 가능성까지 제기되며 논란이 커졌다. 이 사례는 벤치마크의 신뢰도를 흔드는 요인이 본질적으로 투명성의 부족과 평가 방식의 실효성에 대한 의심에서 비롯됨을 잘 보여준다. 그 한계 요인들을 정리하면 다음과 같다:
선택적인 테스트: 현재 벤치마크는 채점이 용이한 과제에 편중되는 경향이 있다. 정답이 명확한 수학 문제와 코딩 테스트는 자주 평가되지만 모호한 상황 이해, 윤리적 판단, 창의적 소통 등은 거의 측정되지 않는다. 결국 쉬운 능력만 측정되고 어려운 능력은 평가 기준에서 배제되는 한계가 존재한다.
재현 불가능: 일시적으로 나오는 최고 성적으로 벤치마크가 측정되며, 반복적인 결과 입증이 불가능하다. 실제 환경에서는 불완전한 정보, 추가 질의, 다단계 추론 등 복합적인 조건이 요구된다. 그러나 동일한 작업을 반복 수행할 경우 답변이 일관되지 않게 나타나며, 이는 벤치마크 점수가 높더라도 실제 응용 환경에서 지속적인 성능을 보장하지 못한다는 것을 시사한다.
데이터 누출: 벤치마크는 주로 공개 데이터셋을 기반으로 하므로, 대형 LLM이 모델 학습 과정에서 해당 문제나 유사 문항을 이미 접했을 가능성이 높다. 이렇게 평가 데이터가 모델 훈련 데이터에 포함되는 ‘데이터 누출’이 발생하면, 벤치마크는 문제 해결 능력을 측정하기보다 암기력을 측정하는 시험에 가까워진다. 결과적으로, 모델이 높은 점수를 받아도 이는 새로운 상황에서의 추론 능력을 보장하지 않으며 점수의 신뢰도를 저하시킨다.
이러한 벤치마크 설계상의 결함이 방치되면, 기업이나 사용자들은 적합한 AI 에이전트나 LLM 모델을 찾기 위해 과도한 리소스를 써야 한다. 개인 사용자는 수많은 에이전트 중에서 최적의 선택을 하기 위해 지나치게 많은 자료를 검토하고 성능을 재검증해야 하는 부담을 진다. 기업 또한 검토 과정에서 불확실한 성능 지표를 재해석하고, 내부 데이터셋 적합성을 별도 실험으로 확인해야 하므로 의사결정 속도가 늦어진다. 이 과정에서 기술 선택 비용도 과도하게 소모된다.
벤치마크의 신뢰도에 대한 의문이 제기되면서, 새로운 대안으로 제시되고 있는 방식으로는 바로 동적 벤치마크가 있다. 기존 평가 방식에는 사람이 임의로 설계한, 고정된 평가 데이터셋을 활용하는 정적 벤치마크(Static Benchmark)가 주로 사용되었다. 이는 동일한 조건에서 여러 모델을 비교하기 용이하다는 장점도 있지만, 상기한 것처럼 시간이 지남에 따라 데이터가 모델 학습 과정에 포함되거나 과제가 편중되는 문제를 안고 있다.
이에 반해, 동적 벤치마크는 정답이 정해져 있지 않은 미래 상황이나 질문을 지속적으로 생성해 LLM 모델의 성능을 평가한다. 즉, 평가 시점마다 새로운 데이터를 만들어 모델을 테스트하거나, 모델 간 상호작용을 통해 질문과 응답을 실시간으로 생성하는 방식이다. 또는, 사전 정의된 시뮬레이션 환경을 설정하고, 모델이 그 안에서 주어진 목표를 달성하기 위해 어떻게 의사결정을 내리고 행동하는지를 평가한다. 이러한 방식으로 동적 벤치마크는 고정적인 문제 풀이를 넘어 다층적인 성능 검증을 가능하게 한다.
본격적으로 살펴볼 리콜도 바로 이러한 동적 벤치마크 방식으로 평가 시스템을 설계한다. 고정된 데이터 셋이 아니라, 지속적으로 업데이트되고 시나리오별로 변주되는 평가 환경을 통해 모델을 검증하는 구조다. 다음 장에서는 리콜이 구현하는 벤치마크의 구체적인 작동원리와 프로세스를 하나씩 자세히 알아본다.
수많은 AI 에이전트가 난립할 미래의 에이전트 인터넷에서 사용자는 어떻게 관련성이 높은 에이전트를 발견하고 신뢰할 수 있을까? 이에 리콜은 검증 가능한 성능 데이터와 평판 스코어를 기반으로 에이전트를 표준화한다. 대안적인 벤치마크에서 시작해 향후 AI 에이전트 인터넷에서 탐색, 상거래, 협업을 가능하게 하는 평판 프로토콜을 구축하는 것이 리콜의 최종적인 지향점이다. 아래의 예시처럼 사용자가 필요한 에이전트를 빠르고 정확하게 탐색할 수 있는 인프라를 제공하고자 하는 것이다.
Source: Search Engine Land
이들의 목표는 기능적으로 구글의 알고리즘인 페이지랭크(PageRank)와 유사점을 찾을 수 있다. 인터넷 초창기, 페이지랭크는 난립하던 웹사이트를 연관성에 따라 인덱싱하고 순위를 매겨주었다. 덕분에, 사용자는 원하는 정보를 검색하기만 하면 됐고, 이에 가장 적합한 콘텐츠가 제공되었다. 이러한 변화는 사람이 직접 사이트를 분류하던 수동 포털 방식에서, 지금처럼 알고리즘이 웹 전체를 크롤링해 평판과 연관성을 기반으로 순위를 매기는 자동 검색 시스템으로 전환하는 중요한 계기가 되었다.
마찬가지로, 에이전트 인터넷에서는 리콜이 그 역할을 한다. 아래의 예시처럼 사용자가 필요한 에이전트를 빠르고 정확하게 탐색할 수 있는 인프라를 제공하고자 하는 것이다:
A2C (Agent to Consumer): 크립토 투자자가 리스크 선호도와 기대 수익률에 최적화해 포트폴리오를 자동으로 관리할 트레이딩 에이전트를 찾는 경우
A2B (Agent to Business): 기업이 소셜 분석, 콘텐츠 제작, 고객 아웃리치 워크 플로우를 자동으로 관리할 마케팅 에이전트를 찾는 경우
A2A (Agent to Agent): 소프트 보안 에이전트가 해킹 시도 탐지 기능을 강화하기 위해, 악성 트래픽 패턴 식별에 특화되며 기존 보안 인프라와 원활히 통합되는 위험 분석 에이전트를 찾는 경우
이러한 평판 프로토콜을 구축하기 위해 가장 중요한 핵심 요소가 위에서 살펴본 벤치마크 시스템이다. 검증 가능한 방식으로 에이전트의 성능을 평가하고, 그렇게 매긴 평가 순위를 통해 사용자가 필요한 에이전트를 탐색할 수 있도록 하는 것이다. 이를 구현하기 위해 리콜은 에이전트 랭크, 온체인 대회, 큐레이션 마켓, 예측 에이전트, 토큰 경제로 전체 아키텍처를 구성한다:
에이전트 랭크: 에이전트의 성능 데이터를 수집·분석·공개
온체인 대회 – 표준화된 평가 환경을 제공하고, 성능 기록을 검증 가능한 데이터로 변환
큐레이션 마켓 – 토큰 스테이킹을 통한 ‘스킨 인 더 게임’ 기반의 품질 선별
에이전트 프레딕트: 커뮤니티 기반 예측시장형 벤치마크
RECALL 토큰 경제 – 참여자 인센티브와 거버넌스를 결합하여 생태계 지속성 확보
이들은 개별 모듈로서 독립적으로 작동하면서도 서로 연결되어, 에이전트 성능 평가와 인센티브 구조를 하나의 프로토콜로 통합한다. 온체인 대회에서 생성된 성과 데이터를 에이전트 랭크로 전환하고, 이를 큐레이션 마켓과 에이전트 프레딕트가 강화하는 구조다. 이에 더해 토큰 경제는 모든 이해관계자가 장기적으로 프로토콜에 기여하도록 유도한다. 궁극적으로는, 시간이 지날수록 더 많은 성능 데이터가 축적되고, 데이터의 정확성과 신뢰도가 향상되는 선순환을 형성하도록 한다.
3.1.1 에이전트 랭크
Source: X(@recallnet)
에이전트 랭크는 에이전트의 실시간 성능 데이터와 스테이킹을 결합해 산출되는 평판 스코어이다. 이후에 설명할 온체인 대회와 큐레이션 마켓은 모두 에이전트의 성능을 순위로 나타내는 이 평판 스코어를 위해 작동한다고 볼 수 있다. 즉, 에이전트 랭크는 에이전트가 온체인 대회에서 입증한 성과와, 커뮤니티가 에이전트의 미래 성과에 베팅(스테이킹)한 금액을 함께 고려해 에이전트의 능력을 수치화한 결과값이다.
Source: Recall
에이전트 랭크에서 신규 에이전트는 기본 성능 점수(Y축)와 낮은 신뢰도 점수(X축)로 시작한다. 대회에 참여하면, 성과 점수는 성과에 따라 상승하거나 하락한다. 동시에 신뢰도 점수는 대회 참여와 커뮤니티의 스테이킹이 누적될수록 상승한다. 결과적으로 최상위 에이전트(1사분면)는 장기간의 대회 성과 우위와 높은 경제적 스테이킹과 함께, 신뢰도와 성능 면에서 우수한 에이전트로 간주된다.
3.1.2 큐레이션 마켓
에이전트 랭크는 큐레이션 마켓에 의한 시장 주도형 평가로 더욱 강화된다. 큐레이션 마켓이란, 커뮤니티 구성원(큐레이터)이 유망하다고 생각하는 에이전트에 토큰을 스테이킹함으로써 에이전트의 온체인 대회 성과를 예측하고 성장 가능성에 베팅하는 기능이다. 더 많은 스테이킹을 받은 에이전트는 에이전트 랭크의 점수가 높아져 순위 상승에 유리하며, 실제로 온체인 대회에서 좋은 퍼포먼스를 내면 해당 에이전트에 스테이킹한 큐레이터들은 보상을 얻는다. 반대로 기대 이하의 성과를 낼 경우 패널티를 받는다.
이러한 에이전트 랭크와 큐레이션 마켓은 정적 벤치마크 방식과 비교했을 때, 다음과 같은 이점을 제공한다:
검증 가능한 성과(Verifiable Performance): 정적 벤치마크와 달리, 에이전트 랭크는 동적 환경에서 측정된 실시간 성능을 기반으로 에이전트의 순위를 지속적으로 갱신한다. 에이전트는 온체인 대회를 통해 반복적으로 역량을 입증하므로, 불투명한 주장에 의존하지 않고 검증 가능한 방식으로 평판 데이터를 축적할 수 있다.
경제적 시그널 기반 평판: 커뮤니티는 특정한 스킬 도메인(ex. 트레이딩, 콘텐츠 제작 등) 에서 성과를 낼 것이라 믿는 에이전트에 토큰을 스테이킹한다. 한 에이전트에 모인 총 스테이킹 규모는 집단적 신뢰 수준을 반영하며, 예상 성과에 대한 경제적 시그널로 작용한다. 이를 통해 사용자는 잠재력이 높은 에이전트를 초기 단계에서 발견하거나, 장기간 검증된 에이전트를 우선적으로 선택할 수 있다.
결과적으로 에이전트 랭크는 AI 개발사나 벤치마크 전문 기업 등 단일 주체의 통제를 배제해 평가의 중립성을 보장한다. 벤치마크의 결과값이 온체인을 기반으로 투명하게 산출되며 분산된 의사결정에 의해 형성되므로 평판 스코어에 대한 높은 신뢰도를 확보할 수 있는 것이다.
리콜의 중심에는 AI 에이전트가 참여하는 온체인 대회가 있다. 각 대회는 동일한 조건에서 여러 에이전트가 포트폴리오 관리나 코드 생성 등의 작업을 수행하며 성능을 경쟁한다. 예컨대 포트폴리오 관리를 과제로 7일간 진행되는 대회에서는 실제 마켓 데이터를 기반으로 에이전트들이 자산을 운용하고, 리스크 조정 수익률 등의 지표로 성과를 평가받는다. 이 성과는 최종적으로 온체인에 기록되어 누구나 검증 가능하며, 최종적으로 에이전트 랭크에도 반영된다.
Source: Recall
현재 리콜은 주기적으로 온체인 대회를 개최하며 평가 데이터를 지속적으로 축적하고 있다. 최근 진행된 ‘크립토 트레이딩 챌린지(Crypto Trading Challenge)’에서는 총 10개의 AI 에이전트가 7일간 상금 1만 달러를 두고 트레이딩 성과를 경쟁했는데, 대회 기간 동안 약 1만 건의 거래와 143M 달러의 거래를 샌드박스 환경에서 실행했다. 그 결과, 수익률은 최고 250%에서 최저 -10%까지 다양하게 분포되었다.
이러한 온체인 대회의 결과는 모두 에이전트 랭크를 위한 평가 데이터로 활용된다. 이에 리콜은 온체인 대회를 누구나 커스터마이징해 개최할 수 있는 개방형 구조로 설계했다. 이를 통해 다양한 유형의 온체인 대회가 커뮤니티 주도로 활발히 이루어져 데이터의 축적을 가속화하는 것을 목표로 한다. 그 실행 프로세스는 다음과 같다:
대회 생성: 각 대회는 주최자가 설정한 목표와 환경, 그리고 평가 지표를 바탕으로 생성된다. 예컨대, 트레이딩 대회의 경우, 참가자는 정해진 기간 동안 주어진 초기 자본과 레버리지 한도 내에서 성과를 경쟁하게 되며, 임의의 평가 기준이 지표(수익률, 전략 일관성 등)로 설정된다. 이 설정까지 모두 온체인으로 투명하게 공개되며, 참가 에이전트는 대회 시작 전에 해당 규칙을 검토할 수 있다.
에이전트 등록: 개발자는 MCP 서버를 통해 자신의 에이전트를 리콜에 등록할 수 있다. 이 MCP 서버는 에이전트와 대회 환경을 연결하는 표준 인터페이스로, 신원 관리, 작업 실행, 성능 기록 등 주요 기능을 처리한다. 또한 리콜 에이전트 툴킷(Recall Agent Toolkit)을 활용해 에이전트를 새롭게 개발할 수도 있으며, 이때 파이썬 기반 MCP나 LangChain 등 원하는 프레임워크를 자유롭게 선택할 수 있다. 그렇게 등록을 마친 후에는 로컬 환경에서 테스트를 거쳐 작동 여부를 점검하고 코드를 제출해 대회에 참가한다.
대회 실행: 대회가 시작되면 리콜 인프라는 각 참여 에이전트를 격리된 샌드박스 환경에 배치한다. 이후 표준화된 입력 시나리오(프롬프트 세트)를 순차적으로 제공하여, 에이전트가 실제처럼 주어진 문제를 해결하고 행동을 출력하게 한다.
평가 방식: 에이전트에 대한 평가는 대회에서 다루는 스킬 분야의 특성에 맞춰 정량적 또는 정성적으로 이루어진다. 예컨대, 예측 정확도, 거래 수익률, 퍼즐 해결 능력 등 정량화가 가능한 항목은 자동화된 스코어링 시스템을 통해 객관적 지표로 점수가 계산된다. 반면, 창의성이나 커뮤니케이션처럼 정성적 판단이 요구되는 항목은 전문가 심사 또는 크라우드 기반 평가자를 통해 채점된다.
결과 통합: 대회의 평가까지 종료되면, 모든 성과 데이터가 온체인에 기록되며 에이전트 랭크에 실시간으로 반영되어 평판 스코어에 직접적인 영향을 미친다. 우수한 성과를 낸 에이전트는 해당 스킬 분야에서 신뢰도가 상승하며, 오랜 기간 활동하지 않거나 낮은 성과를 기록한 에이전트의 랭크는 점차 하락한다. 상위권 에이전트는 지속적으로 RECALL 토큰이나 오프체인 포인트인 Surge 등 보상 메커니즘을 통해 인센티브를 제공받으며, 이러한 보상 내역 또한 온체인에 투명하게 기록된다.
이렇게 진행되는 트레이딩 대회 기반 벤치마크는 기존 데이터를 활용하는 정적 벤치마크나 통제된 조건에서 비교하는 A/B 테스트와 달리, 에이전트를 실시간 시장 상황에 직접 노출시켜 성능을 측정한다. 이 과정에서 에이전트는 예기치 못한 가격 급등락에 대응하고, 독자적인 전략을 수립하며, 동적인 시장 환경에서의 의사결정 능력을 증명한다. 이를 통해 정적 테스트에서 흔히 발생하는 데이터 유출 문제를 피하는 동시에, 실시간 반응과 의사결정을 기반으로 보다 입체적이고 신뢰도 높은 성능 평가가 가능해진다.
Source: Recall
스킬 풀은 커뮤니티 구성원들이 특정 분야의 스킬에 토큰을 스테이킹함으로써 해당 스킬을 가진 에이전트에 대한 수요를 나타내는 기능이다. 예를 들어, 트레이딩 스킬 풀에 많은 토큰이 스테이킹되면, 이는 해당 분야의 에이전트에 대한 수요와 기대치가 높다는 시그널로 해석된다. 반대로 이미지 인식 스킬 풀의 스테이킹 규모가 작다면, 해당 분야에 대한 커뮤니티의 수요가 낮다는 것을 나타낸다. 한편, 스킬 풀에 존재하지 않는 기술은 새로운 풀을 생성해 지원할 수 있다.
Source: Recall
이러한 스킬 풀에 모인 TVL은 곧 프로토콜 보상의 배분 기준으로 작용한다. 다시 말해, 보상 기간 마다 정해지는 전체 프로토콜의 보상의 양은 스킬 풀의 비율에 따라 에이전트와 큐레이터에게 분배된다. 특정한 스킬 풀이 전체 TVL의 30%를 차지한다면, 해당 스킬 분야의 참여자는 전체 보상의 30%를 확보할 수 있는 것이다.
이에 따라, 스킬 풀은 리콜 프로토콜 내 에이전트의 개발 방향성에 직접적인 영향을 미친다. 커뮤니티의 수요가 높은 스킬에 인센티브가 집중되는 구조이므로, 개발자는 해당 스킬에 특화된 에이전트를 개발하도록 인센티브화된다. 반대로, TVL이 낮은 스킬은 개발 리소스의 투입이 축소될 가능성이 높다. 결과적으로, 스킬 풀은 AI 에이전트의 공급을 실제 수요와 일치시키고 상향식의 시장 주도형 개발을 촉진하는 기반을 제공한다.
리콜의 에이전트 프레딕트는 커뮤니티 기반 AI 모델 성능 예측 프로그램으로, 스킬 풀과 더불어 에이전트의 개발 방향성을 결정하는 예측 도구인 동시에, 커뮤니티 주도 벤치마크의 신뢰도를 강화하는 제품군이다. 현재는 미발표된 AI 모델의 성능을 사전에 예측하는 참여형 벤치마크 프로그램을 진행하고 있다. 그 일환으로 오픈 AI의 GPT-5가 출시되기 이전에 GPT-5가 다양한 스킬 분야에서 어느정도 성과를 낼지 미리 전망하는 예측 데이터를 축적하였다.
Source: Recall
리콜 프레딕트는 누구나 새로운 평가 항목과, 해당 능력을 측정할 수 있는 평가 프롬프트를 제출할 수 있도록 창구를 열어놓는다. 예컨대, 거짓 정보에 현혹되지 않는지, 윤리적으로 위배되는 질문에 적절히 대응하는지 등 다양한 맞춤형 과제가 커뮤니티에 의해 제안된다. 이러한 과제가 채택되면 GPT-5와 기존 모델의 성능을 비교하는 공식 테스트 문항으로 등록된다. 이후 예측 참가자들은 GPT-5와 다른 모델(Claude, Grok 등)을 쌍으로 비교하며, 각 항목별로 어떤 모델이 더 뛰어난 성과를 낼지 투표를 통해 예측한다.
Source: Recall
이 과정에서 제출된 평가 과제와 예측 응답들은 GPT-5 출시 전까지 비공개로 안전하게 보관된다. 이는 AI 모델의 훈련 데이터에 벤치마크가 유출되어 사전에 성능을 부풀리는 문제를 방지하기 위함이다. GPT-5가 실제 공개된 후에는 리콜 프레딕트에 모여 있던 모든 프롬프트, GPT-5의 실제 응답과 점수, 그리고 사전에 수집된 사람들의 예측 결과가 일괄적으로 공개되어 실제 성능과 예측지가 비교된다. 이때, 모든 데이터에는 무결성을 검증하는 고유한 식별 코드인 해시(hash)가 포함되어, 출시 전후 데이터가 변조되지 않았음을 증명한다. 이러한 절차를 통해 리콜 프레딕트는 사후적으로도 신뢰 가능한 벤치마크를 구축하여, AI 모델 평가의 투명성을 제고한다.
이러한 에이전트 프레딕트는 향후 범용적으로 사용되는 벤치마크로 거듭나기 위해 예측 데이터를 지속적으로 축적하고 있다. 최근 진행한 예측 프로그램에는 시작된 지 며칠 만에 70만 건 이상의 성능 예측이 제출되었으며, 2025년 8월 기준으로 110,000명 이상의 사용자들이 참여하여 약 588만 건 이상의 개별 예측을 생성한 것으로 집계된다. 이렇게 모인 수백만 건의 예측 데이터는 테스트 질문의 질적 고도화와 데이터의 양적 확장을 이끌어내며, 향후 리콜 프레딕트가 AI 모델을 다각도로 조망할 수 있는 벤치마크로 자리매김할 가능성을 높여준다.
여기까지 살펴본 리콜의 아키텍처는 각 모듈이 유기적으로 결합되어, 하나의 벤치마크이자 평판 시스템을 형성한다. 이러한 리콜의 차별점은 본질적으로 검증 가능성과 인센티브 참여를 기반으로 한다는 점에 있다. 그리고, 이는 온체인 데이터 저장이나 토큰 인센티브 등에서 확인할 수 있듯 블록체인을 활용하는 데서 나오는 장점이다. 다음부터, 블록체인과 크립토의 속성이 리콜의 벤치마크에 어떠한 이점을 제공하는지 더 자세히 살펴보자. 리콜이 검증 가능성이라는 고유한 가치제안과 지속 가능한 성장을 유지해 나갈 수 있을지 그 가능성을 전망하는 대목일 것이다.
정적 벤치마크의 대안으로 제시된 동적 벤치마크는 데이터셋의 변주를 통해 모델의 적응력과 실제 활용 능력을 검증할 수 있다는 점에서 한층 진보된 접근이라 말할 수 있다. 그러나 동적 벤치마크 역시 완전하지 않다. 벤치마크를 운영하고 평가 데이터를 관리하는 주체가 폐쇄적인 환경에서 이를 운영할 경우 여전히 객관성과 공정성에 대한 의문이 제기될 수 있기 때문이다.
이러한 문제를 극복하기 위해 리콜은 벤치마크(온체인 대회)를 통해 산출된 데이터를 무결하게 저장하고 관리한다. 즉, 모든 AI 워크 플로우와 관련한 데이터가 온체인에 저장되며, 이는 결과적으로 “왜 블록체인인가?”라는 물음에 설득력 있는 답을 제시한다:
신뢰와 투명성: 평가 데이터를 온체인에 게시함으로써 벤치마크가 변경 불가능하고, 감사 가능하며, 투명하게 유지되도록 한다. 누구나 독립적으로 스코어 산출 과정을 검증할 수 있으므로, 변조를 방지할 수 있는 것이다. 이는 리콜의 벤치마크를 표준으로 삼는 개발자, 연구자, 투자자들 사이에서 신뢰 메커니즘을 형성하는 기반이 되어준다.
상호 결합성: 리콜의 벤치마크는 온체인 위에 존재하므로, 웹3 생태계에서 네이티브하게 통합된다. 예컨대, 프로토콜이나 애플리케이션은 리콜의 검증된 평가 스코어를 거버넌스 의사결정, 리스크 모델링, 에이전트 큐레이션 등 다양한 영역에 실시간으로 활용할 수 있다. 이러한 상호 결합성은 네트워크 효과를 창출하며, 리콜의 평가가 다른 프로토콜들이 재검증 없이 바로 구축할 수 있는 공통 표준으로 자리 잡게 한다.
리콜이 온체인을 활용하는 또 하나의 이유는, 인센티브 루프를 작동하기 위한 최적의 인프라가 되어주기 때문이다. 리콜의 전체 아키텍처는 모두 RECALL 토큰과 프래그먼츠(Fragments)를 기반한 경제적 인센티브 구조 위에서 작동한다. 이 보상은 시즌 단위로 분배되며, 최종적으로 가장 높은 에이전트 랭크 점수를 획득한 에이전트와 가장 정확한 큐레이션을 수행한 큐레이터에게 돌아간다. 또한, 잘못된 판단을 한 큐레이터는 패널티를 부여받는다. 이러한 리콜의 보상은 스마트 컨트랙트에 인코딩된 규칙에 따라 자동으로 분배된다. 이로써 수동적인 게이트키핑의 위험을 줄이고 큐레이터, 에이전트 운영자, 프로토콜 간의 인센티브가 공정하게 정렬되도록 보장한다.
Source: Recall
궁극적으로, 인센티브 구조는 토큰을 매개로 에이전트의 개발과 큐레이터의 평가 활동이 끊임없이 이어지는 선순환을 만든다. 에이전트 운영자는 온체인 대회에서 좋은 성과를 내고 보상과 평판을 얻기 위해 에이전트의 성능 개선에 집중하며, 큐레이터는 스테이킹을 기반으로 보다 정확한 평가를 내리도록 유도된다. 리콜 프레딕트와 스킬 풀 참여자 또한 경제적 보상을 통해 지속적인 참여가 인센티브화된다. 이 과정은 점차 평판 시스템을 고도화하고, 다시 새로운 참여자를 유입시키는 인센티브 루프를 형성한다.
다만 인센티브 구조가 지속 가능하려면, 토큰 이코노미의 안정적인 유지가 전제되어야 한다. 이를 위해 리콜의 프로덕트 수요와 토큰 수요를 직접적으로 연결하는 설계는 핵심 과제가 된다. 예를 들어, 에이전트 등록 시 토큰 에스크로, 큐레이션 참여 시 수수료 기반의 토큰 소비, 패널티를 받은 큐레이터의 스테이킹 물량 처리 방식 등 다양한 메커니즘이 고려될 수 있다.
이러한 메커니즘을 통해 리콜의 사용량 증가가 곧 토큰 수요 증가로 이어지는 구조를 형성하고, 수요와 공급 간의 조정 메커니즘을 정교화할 필요가 있다. 물론 현재는 프로덕트가 초기 단계에 있으며, 토큰 이코노미에 대한 구체적인 계획도 공개되지 않았다. 그러나 이는 리콜이 반드시 풀어야 할 핵심 과제 중 하나이자, 장기적인 성장의 중요한 촉매제가 될 것이다.
리콜이 향후 AI 산업에서 어떠한 경로로 어느 규모까지 성장할 수 있을지, 그 성장 가능성을 명확히 조망하기 위해서는 이미 시장에서 입증된 두 가지 성공 시나리오를 참고할 수 있다. 바로 폴리마켓과 구글의 페이지랭크 알고리즘이다. 이 두 케이스는 각각 예측시장과 검색 엔진이라는 핵심 기능을 통해 시장을 성공적으로 점유했다. 리콜은 이들의 플레이북을 따라, 먼저 예측시장과 유사한 메커니즘을 통해 공신력 있는 벤치마크 시스템으로 자리 잡고, 더 나아가 에이전트 인터넷의 라우팅 인프라로 확장할 수 있는 가능성을 보여준다. 이는 다음과 같은 두 단계 시나리오로 요약된다:
첫째, 폴리마켓의 예측시장과 유사한 메커니즘으로, 군중의 지혜(Wisdom of Crowds)와 경제적 인센티브를 활용해 신뢰도 높은 벤치마크 시스템을 확립한다.
둘째, 구글의 페이지랭크처럼 발견·검색·라우팅 레이어로 발전해, 에이전트 인터넷에서 사용자가 가장 먼저 접하는 지점(First Touch Point)을 확보한다.
5.1.1 폴리마켓 성공 요인
Source: Polymarket
폴리마켓만큼 시장의 역학 관계를 잘 이용한 프로덕트도 드물다. 알다시피 폴리마켓은 정치 선거나 스포츠 경기 등 실제 이벤트의 결과를 예측해 베팅할 수 있는 예측시장을 제공한다. 특히 폴리마켓은 2024년 미국 대선을 계기로 크게 성장하며, 선거 당일에는 최고 4억 6천만 달러의 미결제 약정을 기록했다. 이는 미국 대선이라는 글로벌 이벤트, 온체인 레일의 편리함, 크립토 마켓 특유의 투기성, 그리고 공신력있는 예측이 맞물리며 폭발적인 성과를 거둔 결과였다.
폴리마켓의 유의미한 성과는 단순히 베팅 플랫폼에서 나아가, 이벤트 결과에 대한 예측 여론을 정확하게 보여주는 도구로 사용되었다는 점이다. 이는 이른바 군중의 지혜를 통해 파편화된 정보를 하나의 가격으로 집약하여, 명확한 예측 신호를 도출한 결과였다. 더욱이, 예측시장은 소수의 언론 미디어나 전문가에 의해 제시되는 의견이 아니라 분산된 예측을 모은 결과이기 때문에, 예측 정보를 배포하는 주체의 이해관계에 의해 왜곡되지 않는다. 이로써 예측시장은 더욱 객관적인 예측 여론을 도출할 수 있다.
예측 여론을 종합하는 기능에서 나아가, 예측시장은 실제로 다른 예측 모델과 비교해 높은 정확성을 입증한다. 예측시장의 적은 오차범위는 두 가지 논리가 뒷받침한다:
첫째, 경제적 동기에 의해 예측자가 더 나은 예측을 제공하도록 인센티브화된다. 예측자의 손익이 예측의 성패에 의해 결정되므로, 예측 참여자는 자신이 가진 정보를 최대한 활용해 더 나은 예측을 내놓을 동기가 마련된다.
Source: Martineau
둘째, 시장은 언제나 시장 내 모든 정보를 빠르고 완전하게 반영한다(효율적 시장가설, Efficient Market Hypothesis). 따라서 예측시장은 언제나 시장 효율적인 상태이므로 잘못된 예측, 곧 시장의 비효율 상태를 해소하며 정확한 예측에 도달할 수 있다.
결과적으로, 폴리마켓의 예측은 어느 예측 모델보다 정확한 시그널로 인식되면서, 월스트리트 저널과 같은 전통 미디어가 인용하고 추후에는 X와 자체적으로 통합되는 성과를 만들어냈다. 군중의 지혜가 오차범위를 좁히면서, 예측 지표로서 폴리마켓의 신뢰성이 분명하게 입증된 것이다.
5.1.2 리콜과 폴리마켓의 공통된 메커니즘
폴리마켓의 성공 요인은 리콜에도 동일하게 적용될 수 있다. 리콜의 에이전트 랭크 또한 에이전트에 대한 평가를 베팅(스테이킹) 기반의 지표로 통합한다. 이는 폴리마켓이 예측을 도출하는 메커니즘과 같은 방식으로, 파편화된 에이전트에 대한 평가를 커뮤니티의 베팅을 통해 집약시킨다.
더욱이, AI 기업이나 벤치마크 기관에 의존하는 기존 방식과 달리, 에이전트 랭크는 분산된 커뮤니티 구성원의 집단적 인사이트를 반영한다는 점에서도 신뢰도를 확보한다. 이는 불투명한 여론 조사 기관과 대비되어 폴리마켓의 예측시장이 공신력을 얻었던 맥락과 맞닿아 있다. 그 공통된 메커니즘을 보다 구체적으로 살펴보면 이러하다:
첫째, 리콜의 에이전트 랭크에도 ‘스킨 인 더 게임’이 그대로 적용된다. 큐레이터가 에이전트에 스테이킹하고 온체인 대회의 성과에 따라 보상이나 패널티가 결정되는 구조는, 보유한 정보를 최대한 활용해 더 나은 평가를 내리도록 인센티브화한다. 결과적으로 이러한 경제적 유인은 예측시장의 정확도를 높였던 것처럼 에이전트에 대한 평가를 더 정밀하게 만든다.
둘째, 리콜의 정확성 또한 효율적 시장 가설로 설명될 수 있다. 리콜의 에이전트 랭크에서 큐레이션은 에이전트의 코드 베이스, 운영팀의 개발 역량, 온체인 대회 성과, 커뮤니티 스테이킹 현황 등 다양한 요소를 반영한다. 만약, 평가 과정에서 왜곡된 평가나 비효율이 발생한다면 참여자들은 이익을 위해 즉각적으로 대응하고, 그 결과 에이전트 랭크의 평판 스코어는 다시 균형을 찾는다. 결국, 예측시장이 가격 조정을 통해 공정 가격(Fair Price)에 수렴하면서 더 정확한 예측 여론을 형성하듯, 에이전트 랭크도 공정 평가(Fair Evaluation)에 수렴하게 된다.
폴리마켓이 단순히 베팅 플랫폼을 넘어 공신력 있는 예측 도구로 성장했던 것처럼, 리콜이 추구하는 바도 에이전트 랭크를 신뢰할 수 있는 지표로 구축하는 것에 있다. 더욱이, AI 에이전트와 벤치마크 산업의 시장 규모를 고려한다면, 리콜이 만들어낼 파급력은 폴리마켓의 성과를 능가할 가능성을 충분히 품어볼 만하다.
앞서 언급했듯, 리콜의 궁극적인 목표는 에이전트를 탐색할 수 있는 평판 시스템을 구축하는 데 있다. 이에 따라 리콜의 장기적인 확장 시나리오는 에이전트 인터넷에서 사용자 수요에 따라 필요한 에이전트를 연결해주는 라우팅 레이어로 발전하는 방향에서 찾을 수 있다.
향후 새로운 에이전트를 개발하는 것이 점점 더 쉬워지고 수천만 개의 에이전트가 등장하게 될 미래를 상상해보자. 우리는 어떤 방식으로 에이전트를 활용하게 될까? 적어도, 현재와 같이 자신의 필요에 알맞은 성능을 가진 에이전트를 탐색하기 위해 일일이 에이전트의 성능과 리뷰를 검토하는 방식은 어려울 것이다.
Source: IONOS
이는 마치 현재의 인터넷에 다양한 도메인에 걸친 수십억 개의 웹사이트가 존재하며, 이들을 전부 펼쳐놓고 필요한 웹사이트를 찾는 것처럼 비효율적인 방식일 수 있다. 이러한 비효율을 해소하기 위해, 현재의 인터넷은 사용자가 구글과 같은 검색 엔진을 통해 필요한 웹사이트를 신속하게 찾는 방식으로 발전했다.
이와 마찬가지로, 향후 에이전트 인터넷에서도 최적의 에이전트를 라우팅해줄 에이전트 검색 엔진의 등장이 예고된다. 이때 리콜이 구축한 에이전트 평판 시스템은 사용자에게 가장 적합한 에이전트를 신뢰도 기반으로 큐레이션하고 연결해주는 필수 인프라로 활용될 가능성을 가진다.
그러하였을 때, 리콜은 에이전트 인터넷에서 사용자가 가장 첫 번째로 마주치는, 가장 핵심적인 가치 획득(Value Capture) 포지션을 점하게 된다. 인터넷과 크립토 마켓이 발전해 온 궤적만 살펴보아도, 언제나 가치 획득에 유리한 고지는 사용자와 최초로 맞닿는 터치포인트에서 형성되어 왔다.
Source: Decentralized.co
예를 들어, 주피터와 같은 어그리게이터나, 메타마스크 스왑·팬텀 스왑 등의 월렛 인프라는 직접 유동성을 소유하지 않고도 사용자가 최초로 마주치는 라우팅 포인트를 소유함으로써 수수료 기반 가치 획득에 유리한 포지션을 점하고 있다. 또한, 인터넷 초창기에도 구글은 웹 서비스를 자체적으로 구축하는 대신 페이지 랭크를 통해 웹사이트를 한 데 모아 신뢰도 기반의 순위를 제공하면서 가장 많은 트래픽을 얻는 게이트웨이 자리를 차지할 수 있었다.
이와 같은 맥락에서, 수많은 에이전트가 등장해 라우팅의 중요성이 커지면 가치 획득의 중심은 에이전트를 직접 소유하는 데서 벗어나, 에이전트를 큐레이션하고 연결하는 지점으로 이동하게 된다. 현재는 여전히 AI 모델의 응답 생성 능력이나 개별 에이전트의 성능 개선에 초점이 맞춰져 있지만, 앞으로는 사용자에게 가장 적합한 에이전트를 라우팅해주는 최초 터치포인트가 핵심적인 가치 포착 지점이 되는 것이다. 이는 곧 리콜이 평판 시스템을 기반으로 에이전트 인터넷의 라우팅 인프라로 확장할 때 보여줄 수익 잠재력과 확장성을 잘 보여준다.
리콜이 개선하고자 하는 벤치마크는 기술이 발전하는 과정에서 생각보다 더 중요한 과제이다. 어느 AI 리서처는 이를 두고 “벤치마크는 우리가 ‘진보’라는 개념을 어떻게 정의하고 표준화하는지를 보여준다”고 설명한다. 이 전제를 바탕으로, 리콜은 AI의 진보를 검증 가능하게 측정하는 새로운 방식을 제안하고 있다. 또 우리가 인터넷을 사용하는 것처럼 AI 에이전트가 활발히 실사용되는 국면에 진입했을 때 리콜은 사용자가 가장 먼저 마주하는 터치포인트로 자리매김할 가능성을 갖는다.
물론 리콜은 아직 초입 단계에 있다. 지금 당장은 무엇보다 이들이 설계한 온체인 대회 메커니즘과 인센티브 루프를 기반으로 방대한 평가 데이터를 축적하는 것이 최우선 과제다. 또한 크립토 네이티브한 마켓을 넘어 AI 산업 전반에서 실효성을 입증하는 과정도 추후 뒤따라야 한다. 이러한 선제 과제들을 충족해야만 리콜의 벤치마크와 평판 시스템이 광범위하게 채택되는 미래를 기대해볼 수 있을 것이다.
그럼에도 불구하고 리콜의 시도는 분명히 유의미하다. 크립토와 AI 에이전트를 결합하는 방식에서, 벤치마크라는 니치한 영역을 타겟하는 동시에 에이전트 검색 엔진이라는 광범위한 확장성을 모색하는 접근 방식은 선례가 드물다. 과연 리콜은 에이전트 인터넷의 첫 번째 터치포인트로 거듭날 수 있을까? 리콜의 아레나는 언제나 열려있다. 이들이 주최하는 AI 에이전트들의 아레나를 직접 지켜보며 리콜의 미래를 전망해보길 바란다.