AI 모델, 특히 대규모 언어 모델(LLM) 개발은 데이터 준비, 사전 학습, 적응 및 정렬, 배포 및 추론의 4단계로 구성된다. 이 중 데이터 준비 단계는 전체 개발 시간과 노력의 70~80%를 차지하는 핵심 과정이다. 트랜스포머 구조의 등장으로 비지도 학습이 가능해졌으나, 웹사이트들의 기술적 장벽(CAPTCHA, 봇 탐지), 법적 제약, 정책적 제한(API 접근 제한, 유료화 도입)으로 인해 데이터 수집에는 여전히 큰 어려움이 존재한다.
더불어 AI 산업은 데이터 품질 저하 및 신뢰성 문제에도 직면해 있다. 데이터 포이즈닝(data poisoning)으로 인한 의도적인 데이터 오염과 AI 생성 콘텐츠의 급증은 모델의 성능을 저하시키고 데이터의 전반적인 신뢰도를 떨어뜨리고 있다. 이는 AI 모델이 부정확하거나 편향된 결과를 생성할 위험을 증가시킨다.
그래스는 이러한 문제들을 해결하기 위해 탈중앙화된 웹 스크래핑 및 크롤링 네트워크를 구축했다. 전 세계의 개인 기기들은 유휴 인터넷 대역폭을 제공하여 웹 데이터를 수집 및 처리하고, 이를 AI 학습에 최적화된 구조화된 데이터셋으로 변환한다. 참여자들은 이러한 기여에 대해 $GRASS 토큰으로 보상받는다.
그래스의 성장세는 주목할 만하다. 2024년에는 사용자 기반이 20만 명에서 300만 명으로 15배 증가했으며, 현재 300만 개 이상의 노드가 190개국에서 운영되고 있다. 2025년 3월 5일 기준으로 7일 누적 웹 데이터 스크래핑 볼륨 6,694 TB를 기록했다.
그래스는 이제 시온 업그레이드를 통해 한 단계 더 도약하려 한다. 분산 컴퓨팅 아키텍처를 도입해 처리 속도를 10배 향상시키고, 4K 비디오를 포함한 대규모 멀티모달 데이터 처리를 지원함으로써 웹 스크래핑 및 크롤링 성능을 한층 강화하는 동시에 새로운 영역으로 확장하고 있다. 이번 업그레이드를 통해 개인 기기들은 유휴 인터넷 대역폭을 제공하여 고품질 멀티모달 데이터를 수집하고 처리할 수 있게 되며, 그래스는 AI 산업에 필수적인 고품질 멀티모달 데이터의 종합 공급자로 발돋움할 수 있을 것으로 기대된다.
크립토는 매매 외에도 네트워크에 기여하거나 생태계 내에서 활동하는 방식으로 직접 획득할 수 있는 자산이라는 점에서 기존 금융 시스템과 근본적인 차이를 지닌다. 주식이 내부 관계자가 아닌 이상 반드시 매수를 통해서만 획득할 수 있는 것과 달리, 크립토는 사용자들이 단순한 소비자를 넘어 네트워크 참여자로서 경제 활동을 할 수 있도록 설계된다. 이는 크립토 경제가 투자 자산의 범주를 넘어, 사용자 참여를 중심으로 확장되는 새로운 경제 모델을 구축할 수 있음을 의미하며, 이러한 특성은 수십억 명의 일반 사용자들이 자연스럽게 크립토 경제로 유입되는 트리거가 될 것이다.
이러한 관점에서 가장 주목할만한 섹터가 DePIN(탈중앙화 물리 인프라 네트워크)이다. DePIN은 블록체인의 본질인 '투명한 네트워크와 검증 가능한 보상 체계'를 통해 교통, 에너지, 무선 통신 등 기존 인프라를 탈중앙화하는 프로토콜로 정의된다. DePIN의 매력은 현실 세계의 필수 인프라 문제 해결을 통해 블록체인의 실용적 가치를 입증하는 동시에, 크립토 시장에 무관심했던 일반 사용자들의 자발적 참여를 이끌어낼 수 있다는 점이다. 특히 기존 산업의 비효율성을 해소하는 동시에 블록체인의 장점을 결합한 DePIN의 토큰 경제 모델은 네트워크 효과를 통해 기하급수적 성장을 달성할 잠재력을 보유하고 있다.
최근 정치적 환경의 변화 역시 DePIN 섹터 성장에 유리한 요소로 작용할 가능성이 높다. 트럼프 행정부 출범으로 예상되는 규제 완화 기조는, 그동안 초크포인트 2.0 (Chokepoint 2.0) 등 강경 정책으로 제약받았던 DePIN 프로토콜들의 미국 시장 진출을 가속화할 것으로 기대된다.
오늘날 DePIN 전체 섹터의 시가총액은 약 200억 달러로 기존 인프라 산업 규모의 0.01%에도 미치지 못하는 극초기 시장이다. 이러한 상황 가운데 현재 1,300만 개 이상의 기기가 매일 DePIN 네트워크에 참여하고 있으며, 이 중에서도 단기간에 300만 개의 노드를 확보하며 두드러진 성장세를 보이고 있는 프로토콜이 있다. 바로 AI 기업들에게 모델 학습을 위한 웹 데이터를 제공하는 탈중앙화 네트워크, 그래스다.
그래스는 블록체인 기술을 활용하여 누구나 유휴 인터넷 대역폭을 제공하여 웹 데이터를 수집 및 처리하고 그 대가로 보상을 지급해주는 프로토콜이다. 이는 일반적인 DePIN 모델과 유사하지만, AI에 특화된 구조를 갖춘 것이 특징이다.
그래스 프로토콜을 본격적으로 분석하기에 앞서, 현재 AI 산업이 직면한 핵심 문제점들을 살펴볼 필요가 있다. 그래스 프로토콜이 주목받는 이유는 바로 이러한 문제들에 대한 현실적인 해결책을 제시하기 때문이다.
섹션 3에서 자세히 다루겠지만, 그래스 프로토콜은 AI 개발자들에게 모델 학습용 웹 데이터를 제공하는 탈중앙화 네트워크다. 그래스는 AI 개발 파이프라인에서 가장 중요하면서도 난관이 많은 데이터셋 확보 단계에서 블록체인 기술을 활용해 구조적 문제를 해결하는 것을 목표로 한다. 현재 AI 기업들이 웹 데이터 확보 과정에서 직면한 가장 큰 두 가지 문제는 데이터의 중앙화 및 독점화, 그리고 데이터 품질 저하다. 이러한 문제들은 개별 기업의 과제를 넘어, AI 산업 전반의 혁신을 가로막는 구조적 장벽으로 작용하고 있다.
Source: Grass Foundation
LLM 개발은 네 단계로 구성된다: 1) 데이터 준비, 2) 사전 학습(pre-training), 3) 적응 및 정렬 (Fine-tuning & Alignment), 4) 배포 및 추론(Deployment & Inference).
이 중 데이터 준비 단계는 전체 학습 과정의 품질을 좌우하며, AI 개발 과정에서 전체 시간과 노력의 70~80%가 소요되는 가장 중요한 단계다. 이 단계의 목표는 고품질 데이터셋을 선별하고 정제하여 모델 학습에 적합한 형태로 가공하는 것이다. 구체적으로 1) 웹 크롤링 및 스크래핑, 2) 데이터 정제 및 필터링, 3) 텍스트 토큰화 과정을 포함한다. 입력 데이터의 질은 모델 성능을 결정하며, 잘못된 데이터는 모델의 신뢰성과 윤리적 문제로 이어질 수 있다. 흔히 말하는 “Garbage in, Garbage out (잘못된 입력이 잘못된 출력을 만든다)“이라는 원칙이 그대로 적용된다.
사전 학습 단계에서는 방대한 데이터를 바탕으로 기초적인 언어 능력을 학습하는 일반 목적 LLM을 훈련한다. 이 과정에서는 트랜스포머(Transformer) 기반의 자기지도학습(Self-supervised Learning) 기법을 활용해 모델이 언어의 패턴과 문맥을 스스로 익히게 된다. 수 천억에서 수 조 개의 토큰과 막대한 컴퓨팅 자원이 필요한 이 단계는 AI 모델 개발에서 가장 많은 비용이 소요된다.
이러한 맥락에서, 데이터의 양과 품질은 LLM 개발의 경쟁력을 결정하는 핵심 요소가 된다. 검색 엔진과 사용자 데이터를 보유한 마이크로소프트, 구글과 같은 빅테크 기업들이 AI 개발에서 우위를 점하는 것은 자연스러운 결과다. 또한, 데이터 파트너십, 특허 획득, 자체 사용자 데이터 활용, 산업용 웹 스크래핑 인프라 구축을 통해 최상의 데이터에 대한 독점적 지위를 확보하고 있다.
앞서 언급했다시피 트랜스포머 구조의 등장으로 별도 라벨링 없이 학습이 가능한 비지도 학습 모델이 등장했지만, 웹 데이터 스크래핑에는 여전히 큰 장벽이 존재한다. 특히 이는 실시간 정보(real-time data)를 수집하는 데 있어 중요한 의미를 갖는다. 단순한 수학적 연산이나 기초적인 사실 관계와 같은 정적 지식은 기존의 백과사전 형태 데이터로도 충분히 학습이 가능하다. 그러나 특정 주제에 대한 대중의 감성이나 시시각각 변화하는 사회적 인식을 파악하기 위해서는 소셜 미디어 상의 실시간 데이터가 필수적이다. 수십억 명의 사용자들이 끊임없이 새로운 생각과 의견을 공유하는 소셜 미디어 플랫폼은 현대 AI가 직면한 문제를 해결하기 위한 핵심 데이터 원천이 되고 있다.
그러나 웹사이트 운영자들은 AI 기업들의 무분별한 데이터 수집을 방지하기 위해 다음과 같은 기술적, 법적, 정책적 차단 장치를 도입하고 있다:
기술적 차단: CAPTCHA 및 봇 탐지 시스템(Bot Detection), 요청 제한(Rate Limiting), 로그인 및 인증 요구, 데이터 난독화 및 비표준 HTML 구조 사용, API 접근 제한 및 과금 정책.
법적 대응 및 상업적 제한: 다수의 웹사이트는 서비스 약관(ToS) 및 robots.txt 정책을 통해 자동화된 데이터 수집을 명시적으로 금지하며, AI 기업이 웹사이트 콘텐츠를 스크래핑하거나 크롤링하는 것을 차단하고 있다. 일부 플랫폼은 이러한 제한을 법적으로 강제하기 위해 소송을 제기하기도 했다. 대표적인 사례로는 LinkedIn vs. HiQ Labs (2017–2022) 소송이 있으며, 미국 법원은 공개적으로 접근 가능한 데이터의 스크래핑이 컴퓨터 사기 및 남용 방지법(CFAA)에 위배되지 않는다고 판결했다. 다만, AI 기업의 데이터 수집에 대한 법적 논쟁은 여전히 진행 중이다. 이에 AI 기업들은 공정 이용(fair use)을 주장하거나 GDPR 및 CCPA와 같은 개인정보 보호 규정을 준수하기 위해 익명화(anonymization) 기술을 도입하는 방식으로 대응하고 있다.
정책 변경: Reddit, X(구 트위터), Meta(페이스북) 등의 무료 API 제공 중단, 뉴욕타임스(NYT), 가디언(The Guardian) 등의 언론사들이 AI 기업과 뉴스 기사 라이선스 계약 체결 요구
이러한 변화는 폐쇄형 인터넷(Walled Garden)으로의 전환을 가속화하고 있다. AI 기업들은 이러한 장벽을 우회하기 위해 헤드리스 브라우저(Puppeteer, Playwright, Selenium 등) 활용, CAPTCHA 우회, API 리버스 엔지니어링 등 다양한 기술적 방법을 동원하고 있다. 대기업들은 강력한 법무팀을 통해 데이터 수집, 파트너십 구축, 특허 획득에서도 우위를 확보하고 있다.
한편, 중국 AI 기업 DeepSeek는 OpenAI에 비해 데이터 접근성이 제한적이었음에도 불구하고 네 가지 전략을 통해 경쟁력을 확보했을 것으로 추정된다. 1) WeChat, Weibo, Zhihu, Bilibili 등 OpenAI가 접근하기 어려운 중국 웹사이트, 뉴스, 논문, 기업 데이터, 소셜 미디어 데이터를 적극 활용했으며, 2) Common Crawl, Wikipedia, ArXiv, GitHub 등 오픈소스 및 공공 데이터 활용을 극대화했다. 또한, 3) Mixture of Experts(MoE), Retrieval-Augmented Generation(RAG) 등 새로운 트랜스포머 구조를 도입하여 모델 구조를 최적화했고, 4) 중국 정부의 지원이라는 강력한 백업을 확보했다.
Source: Financial Times
그러나 DeepSeek의 성공을 일반화하기는 어렵다. 중국 정부의 지원과 Baidu, Tencent, Alibaba 등 기업 데이터를 포함한 자국 내 데이터 접근성이라는 특수한 환경이 작용했을 가능성이 크며, 이는 글로벌 AI 생태계의 데이터 독점 문제에 대한 근본적인 해결책이 되기 어렵다. 결론적으로, AI 개발에서 데이터 접근성 문제는 여전히 중요한 과제로 남아있으며, 이는 AI 산업의 중앙화를 심화시키는 핵심 요인으로 작용하고 있다.
AI 산업이 직면한 또 다른 중요한 문제는 데이터 품질 저하 및 데이터 신뢰도의 결여다. 데이터는 AI 모델의 성능을 결정하는 가장 중요한 요소이지만, 데이터셋의 조작 또는 왜곡으로 인해 학습된 모델이 부정확하거나 편향된 결과를 생성할 위험이 존재한다. 특히, 데이터 품질 저하의 주요 원인은 데이터 포이즈닝과 AI 생성 콘텐츠의 확산으로 나눠볼 수 있다.
먼저, 데이터 포이즈닝(Data Poisoning)은 AI 모델의 성능을 저하시킬 목적으로 의도적으로 잘못된 데이터나 손상된 데이터를 학습 데이터셋에 주입하는 기법이다. 이러한 기법은 특정 모델을 방해하려는 적대적 공격(adversarial attacks)으로 활용되기도 하며, AI 기업의 웹 데이터 스크래핑을 저지하려는 반스크래핑 기법(anti-scraping strategies)으로 사용되기도 한다. 이처럼 AI 기업들이 데이터 수집을 위해 웹 크롤링과 스크래핑에 의존하는 비중이 높아지면서, 일부 웹사이트들은 스크래핑된 데이터를 무용지물로 만들거나 허위 정보를 주입하기 위해 데이터 포이즈닝 기법을 도입하기 시작했다.
Source: Industry 4.0 Intelligence under Attack: From Cognitive Hack to Data Poisoning
데이터 포이즈닝은 여러 가지 방식으로 이루어진다. 일부 웹사이트나 포럼에서는 AI 모델을 혼란시키기 위해 의도적으로 잘못된 정보를 삽입한다. 예를 들어, Reddit 사용자들은 실제로 "AI 포이즈닝"이라는 개념을 실험하며 사실처럼 보이지만 잘못된 정보를 포함한 글을 게시하여 LLM이 오판하도록 유도한 바 있다. 또한, 웹사이트들은 자동화된 스크래핑을 방해하기 위해 HTML 구조를 동적으로 변경하거나 텍스트를 이미지로 변환하는 기법을 활용하기도 한다. X, 페이스북, 인스타그램 등 주요 플랫폼들은 크롤러가 콘텐츠를 추출하지 못하도록 HTML 태그를 주기적으로 수정하거나 난독화 기법을 적용하고 있다.
AI 모델을 교란하는 글리치(glitch) 데이터의 삽입도 대표적인 데이터 포이즈닝 기법이다. 특정 웹사이트들은 인간 독자에게는 문제가 되지 않지만 AI 모델에는 혼란을 초래하는 데이터 노이즈를 삽입한다. 예를 들어, 주요 단어의 철자를 변형하거나 대체 단어를 인위적으로 추가하여 LLM이 왜곡된 패턴을 학습하도록 유도하는 방식이 사용된다. 또한 일부 웹사이트들은 특정한 패턴의 워터마크(watermark)를 텍스트에 숨겨둠으로써, AI 모델이 자신들의 데이터를 학습했는지 탐지할 수 있도록 설계한다. 더 나아가 일부러 가짜 데이터를 포함한 허니팟(honeypot) 페이지를 만들어, AI 기업들이 이를 학습하게끔 유도한 후 법적 조치를 취하는 방식도 사용되고 있다.
데이터 포이즈닝은 AI 모델의 성능을 저하시키는데 그치지 않고, 장기적으로 AI 생태계의 신뢰도를 손상시킬 수 있다. AI 모델이 잘못된 정보를 학습할 경우, 잘못된 법적 해석, 역사적 오류, 허위 뉴스 등의 문제가 발생할 가능성이 높다. 예를 들어, 악의적인 행위자가 역사적 사실을 왜곡한 데이터를 학습 데이터셋에 삽입할 경우, AI 모델은 이를 기반으로 부정확한 정보를 생성하게 된다. 이는 법률, 의료, 금융 등 정확성이 중요한 산업에서 심각한 문제를 초래할 수 있다.
한편, 최근 AI 생성 콘텐츠의 급격한 확산도 데이터 품질 저하의 주요 원인으로 부상하고 있다. AWS 연구진의 분석에 따르면, 현재 온라인에 게시되는 콘텐츠의 57%가 AI에 의해 생성되거나 AI 알고리즘을 통해 번역된 것으로 나타났다. 그리고 이처럼 AI가 점점 더 많은 텍스트, 이미지, 영상 등을 생성하면서, AI 모델이 "인간이 만든 데이터"가 아닌 "AI가 만든 데이터"를 학습하는 현상이 증가하고 있다. 이는 AI 모델이 점점 더 자기 복제를 거듭하게 되는 '데이터 인브리딩' 문제를 초래한다.
실제로 ChatGPT 출시 이후 AI 기반 미디어 생성이 활성화되면서 AI 모델이 다시 AI가 생성한 데이터를 학습하는 사례가 급증하고 있다. 유로폴의 보고서에 따르면, 2026년까지 인터넷에 존재하는 콘텐츠의 90%가 AI에 의해 생성될 것으로 전망된다.
이러한 AI 생성 데이터가 학습 데이터에 포함될 경우, 데이터 품질 저하로 인해 모델의 일반화 성능이 감소할 가능성이 크다. AI 모델이 기존 지식을 반복적으로 학습하는 과정에서, 데이터 다양성이 감소하고, 모델이 현실 세계의 변화에 적응하는 능력이 약화될 수 있기 때문이다. 결과적으로, 이는 AI 모델이 실제 세계의 맥락을 반영하지 못하는 결과로도 이어지며, 잘못된 예측을 생성하거나 편향된 결과를 산출하는 원인이 된다.
블록체인이 추구하는 본질은 누구나 검증할 수 있는 투명한 네트워크 구조에 인센티브 매커니즘을 도입하여 다양한 참여자가 플랫폼 운영에 기여하도록 유도하는 시스템을 구축하는 것이다. 그래스는 이러한 블록체인의 강점을 활용하여 AI 기업을 위한 웹 스크래핑, 실시간 컨텍스트 검색, 웹 데이터 수집에 특화된 탈중앙화 네트워크를 구축했다. 그래스 네트워크에 참여하고 있는 전세계 개인 기기들은 노드가 되어 웹에서 원시 데이터를 수집하고 처리하며, 이를 AI 학습에 적합한 구조화된 데이터셋으로 변환한다. 그리고 이러한 과정에서 자원을 제공하는 사용자들에게는 적절한 보상이 주어진다.
그래스는 사용자가 데스크톱에 애플리케이션을 다운로드하고, 몇 번의 클릭만으로 유휴 인터넷 대역폭을 공유함으로써 보상을 받을 수 있도록 설계되었다. 이러한 높은 접근성은 기존 크립토 사용자층을 넘어 일반 사용자들의 대규모 유입을 이끌어내는 강력한 동인이 되고 있다. 실제로 2024년에는 사용자 기반이 20만 명에서 300만 명으로 15배 증가했으며, 인덱싱된 비디오는 약 1,000배 가량 증가했다. 또한, 220만 명 이상의 사용자들에게 에어드랍을 통해 당시 1억 9,600만 달러 이상의 보상이 분배되었다. 현재는 300만 개 이상의 노드를 확보했으며, 전 세계 190개국 사용자들이 데이터 제공에 참여하고 있다.
그래스 재단에 따르면, 네트워크는 2025년 3월 5일 기준으로 7일 누적 데이터 스크래핑 볼륨 6,694 TB를 기록했다. 이 수치는 최근 큰 성장세를 보이고 있는데, 이는 섹션 3.6에서 자세히 다룰 시온 업그레이드의 영향력이 점차 가시화되고 있기 때문으로 추정된다. 서비스 출시 이래 인덱싱한 URL 수는 44억 개에 육박한다.
Source: Grass Foundation
그래스가 이처럼 단기간에 높은 성과를 달성할 수 있었던 핵심 요인은 공급자(노드 운영자 또는 사용자)와 수요자(AI 기업) 양측의 니즈를 효과적으로 충족시켰기 때문이다. 개인들에게는 유휴 인터넷 대역폭을 제공하는 대가로 보상을 지급하며, AI 기업들에게는 이러한 개인의 유휴 자원을 활용해 자체 웹 스크래핑 기술로 수집한 품질 높은 웹 데이터를 즉시 사용 가능한 형태로 제공한다. 이러한 경쟁력은 크게 두 가지 측면에서 살펴볼 수 있다.
3.2.1 레지덴셜(Residential) IP를 활용한 효과적인 데이터 수집
IP 주소는 데이터센터 IP와 레지덴셜 IP로 구분된다. 데이터센터 IP는 자동화된 스크래핑 활동과 연관되어 웹사이트들로부터 차단되는 경우가 많다. 현재 AI 시장에서는 중앙화된 AI 기업들과 전략적 제휴를 맺은 주요 웹사이트들이 데이터센터 IP 차단이나 의도적인 데이터 포이즈닝 등의 전략을 사용하여 경쟁자들의 데이터 접근을 제한하고 있다.
반면, 레지덴셜 IP는 일반 사용자의 트래픽으로 인식되어 제한받을 가능성이 낮다. 그래스의 탈중앙화된 네트워크 구조는 이러한 개인의 레지덴셜 IP 주소를 활용하여 웹 데이터를 스크래핑하기 때문에, 전통적인 중앙화 데이터 제공업체들이 겪는 IP 차단, CAPTCHA, 접근 제한 등의 기술적 장벽을 효과적으로 우회할 수 있다. 여기서 주목할 점은, 그래스가 사용자 프라이버시 보호에 중점을 두고 있다는 것이다. 노드를 통해 개인 사용자 데이터를 수집하지 않으며, 라우팅 목적으로 기기의 IP 주소를 활용하여 다른 모든 개인정보는 익명으로 보호된다.
3.2.2 블록체인 기술과 ZK 프로세서를 통한 데이터 프로버넌스(Provenance) 확보
AI 산업이 직면한 중요한 과제 중 하나는 학습 데이터의 출처를 증명하는 것이다. 특히 섹션 2.2에서 언급했듯이, AI 생성 콘텐츠와 딥페이크의 확산으로 허위 정보와 진실된 정보의 경계가 더욱 모호해지고 있다. 이러한 환경에서 AI 모델 학습에 사용되는 데이터의 출처를 검증하고 신뢰성을 확보하는 것이 더욱 중요해지고 있으며, 그래스는 이 문제를 블록체인 기술을 통해 해결하고자 한다.
향후 그래스 노드는 데이터를 스크래핑할 때마다 해당 웹사이트의 출처를 검증하기 위한 메타데이터가 블록체인에 기록될 예정이다. 이 메타데이터는 모든 데이터셋에 영구적으로 포함되어, AI 개발자들이 데이터의 출처를 파악할 수 있게 한다. 개발자들은 이러한 데이터 기록을 자신들의 사용자와 공유할 수 있을 것이며, 이를 통해 사용자들은 자신들이 상호작용하는 AI 모델이 의도적으로 오도된 정보로 학습되지 않았다는 확신을 가질 수 있다.
이러한 수준의 메타데이터 검증을 유지하려면, 대부분의 범용 L1 블록체인이 제공할 수 있는 처리량을 초과하는 성능이 요구된다. 이를 해결하기 위해 Grass는 소버린 롤업(Sovereign Rollup) 기반의 검증 구조를 검토하고 있으며, 특히 ZK 프로세서를 활용한 일괄 검증(batch verification) 방식을 도입할 계획이다. 이를 통해 모든 데이터셋에 대해 영구적이고 검증 가능한 기록을 제공할 수 있다. 해당 기술적 세부 사항은 섹션 3.3에서 더욱 자세히 다룰 예정이다.
결론적으로, 이러한 접근 방식은 데이터 포이즈닝을 방지하거나 오픈소스 AI를 지원하는 등 여러 가지 이점을 제공한다. 특히, 이러한 데이터 프로버넌스를 갖춘 시스템은 AI 모델의 신뢰성과 투명성을 높이는 데 핵심적인 역할을 할 것으로 기대된다.
그래스 네트워크는 크게 두 가지 구성 요소로 이루어져 있다:
그래스 데스크톱 앱: 사용자들이 자신의 유휴 인터넷 대역폭을 네트워크에 제공하고, 이에 대해 $GRASS를 보상을 받을 수 있도록 하는 애플리케이션.
소버린 롤업: 노드, 라우터, 검증자, ZK 프로세서, 데이터 레저로 구성된 네트워크로, 비정형 웹 데이터를 구조화된 데이터셋으로 변환하는 데이터 소싱 및 변환 프로세스를 담당.
일반적으로 소버린 롤업(Sovereign Rollup)은 데이터 가용성(Data Availability)과 트랜잭션 합의(Consensus)를 위해 외부 블록체인을 활용하고, 트랜잭션 처리(Execution) 및 검증(Settlement)은 독립적으로 수행하는 블록체인을 의미한다.
그래스 네트워크는 AI 모델이 활용할 수 있는 웹 데이터를 수집하고 이를 정형화하는 과정에서 온체인 정산과 데이터 가용성 보장을 위해 솔라나를 활용할 예정이지만, 트랜잭션 검증 및 데이터 처리 과정은 자체 롤업에서 독립적으로 담당할 것이다. 여기서 주목할 점은 솔라나는 그래스 롤업 트랜잭션의 정확성을 검증하지 않으며, 이는 전적으로 그래스 롤업의 검증 노드들이 담당할 것이라는 것이다.
이러한 구조를 채택한 이유는 명확하다. 앞서 설명했듯 그래스 네트워크는 매일 200 TB 규모의 웹 데이터를 처리하고 있다. 이처럼 방대한 데이터 처리를 다른 디앱들과 블록스페이스를 공유하고 L1 체인에 의존하게 될 경우, 심각한 병목 현상이 발생할 수 있다. 특히, 솔라나의 경우 이미 평균적으로 초당 4,000~5,000개의 트랜잭션을 처리하는 상황이므로, 자체 롤업을 구축하는 것은 어찌 보면 당연한 결정이라 할 수 있다.
Source: Grass Foundation
다음으로, 롤업내 각 컴포넌트 및 트랜잭션 처리 과정은 다음과 같다:
클라이언트의 데이터 요청 단계
클라이언트가 RPC 노드를 통해 특정 웹 데이터를 요청하면서 트랜잭션이 시작된다. RPC 노드는 클라이언트와 그래스 네트워크 간 연결을 담당하는 인터페이스 역할을 한다. 클라이언트는 AI 연구소, 금융 기관, 분석 기업, 또는 최종 사용자를 대신하는 그래스 재단이 될 수 있다. 요청에는 다음과 같은 상세 매개변수가 포함된다:
데이터를 수집할 대상 웹사이트 또는 도메인
특정 날짜 이후의 콘텐츠만 수집하는 등의 시간 범위
키워드나 콘텐츠 카테고리와 같은 구체적인 필터
검증자의 요청 검증 및 최적화
검증자(Validator)는 데이터 요청을 받은 후 실현 가능성을 분석하고 네트워크 요구사항 충족 여부를 확인한다. 검증자의 주요 기능은 다음과 같다:
대역폭 사용 최적화를 위한 중복 요청 필터링
법적 제약 및 네트워크 제약 준수 여부 확인
효율적인 병렬 데이터 수집을 위한 요청 구조화
검증이 완료되면 검증자는 그래스 노드들 간의 최적의 작업 분배 방식을 결정하고, 이를 라우터로 전달한다.
라우터를 통한 요청 분배 및 노드의 데이터 수집
라우터는 검증자와 그래스 노드 사이의 중요한 중개자 역할을 한다. 노드의 가용성, 지리적 위치, 대역폭 용량 등 실시간 요인을 기반으로 작업을 분배하여 네트워크 효율성을 최적화한다. 각 그래스 노드는 할당받은 작업에 따라 레지덴셜 IP 주소를 사용하여 지정된 웹 소스에서 데이터를 수집한다. 수집된 데이터는 암호화되어 라우터를 통해 다시 전송된다.
검증자의 데이터 검증 및 무결성 확인
그래스 노드가 데이터 수집을 완료하면, 수집된 정보는 검증을 위해 검증자에게 전달된다. 이 단계에서 검증자는 다음과 같은 무결성 검사를 수행한다:
수집된 데이터가 원래 요청 매개변수(parameter)와 일치하는지 확인
데이터셋의 완전성(completeness), 일관성(consistency), 데이터 포이즈닝 여부 검증
소스 URL, 타임스탬프, 데이터를 수집한 노드 등 데이터 출처(data provenance) 기록 확인
이는 AI 모델이 고품질의 검증 가능한 데이터로 학습되도록 보장하는 필수적인 단계다. 검증이 완료되면 데이터는 암호화 증명 생성을 위해 ZK 프로세서로 전달된다.
ZK 프로세서를 통한 암호화 증명 생성 및 온체인 정산
ZK 프로세서는 수집된 데이터의 진위성과 출처를 검증하는 영지식 증명(Zero-Knowledge Proofs)을 생성한다. 전체 데이터셋을 체인에 저장하는 대신, 다음 사항을 입증하는 암호화 증명을 생성한다:
데이터셋의 진위성과 출처
데이터를 수집한 그래스 노드의 신원(사용자 익명성 유지)
정확한 데이터 수집 시점과 출처
이러한 증명들은 배치(batch)로 처리되어 솔라나 블록체인에 제출되며, 이를 통해 모든 데이터 수집 이벤트가 변경 불가능하게 기록된다. 특히 ZK 프로세서의 도입은 앞으로 그래스 네트워크가 매분 수천만 건의 웹 요청을 처리하게 될 것을 고려할 때 필수적이다. L1의 처리 용량만으로는 이러한 규모의 트랜잭션을 처리할 수 없기 때문에, ZK 프로세서를 통한 증명 생성과 일괄 처리는 네트워크의 확장성을 보장하는 핵심 요소가 된다.
그래스 데이터 레저를 통한 데이터 저장 및 접근
검증과 암호화 증명이 완료된 구조화된 데이터셋은 네트워크의 데이터 저장소인 그래스 데이터 레저에 저장된다. 레저는 오프체인 데이터 저장소와 온체인 증명 검증을 연결하는 핵심 요소로, AI 연구소와 클라이언트들에게 다음과 같은 기능을 제공한다:
무결성 검사를 거친 검증 가능한 고품질 데이터셋 접근
학습 데이터의 출처를 원본 웹소스까지 추적 가능
데이터셋의 불변성과 적절한 출처 보장을 통한 데이터 포이즈닝 위험 완화
데이터 레저는 기존의 개별 웹 요청 처리 외에도, LLM 학습에 최적화된 데이터를 전략적으로 수집하여 저장하는 데이터 리포지토리(repository)로서의 역할이 가능하기 때문에 이를 통해 비즈니스 모델을 확장하는 수단으로도 사용할 수 있을 것으로 기대된다.
클라이언트로의 최종 데이터 전달
데이터 수집과 검증 과정이 완료되면, 최종 데이터셋이 클라이언트에게 제공된다. 요청 구조에 따라 클라이언트는 RPC 호출을 통해 그래스 네트워크에서 직접 데이터셋을 받거나, 중개 데이터 제공자 역할을 하는 그래스 재단이 제공하는 API 인터페이스를 통해 접근할 수 있다.
이렇게 제공된 데이터는 다음과 같은 다양한 용도로 활용될 수 있다:
AI 모델 학습: 최신의 고품질 검증 가능한 웹 데이터로 모델 학습
시장 인텔리전스: 금융 시장, 사회적 트렌드, 지정학적 이벤트에 대한 최신 인사이트 제공
실시간 의사결정: 추론 과정(inference)에서 실시간 정보를 AI 시스템에 통합
$GRASS는 그래스 네트워크 내에서 크게 세 가지 핵심 기능을 수행한다.
첫째, 네트워크 보안을 강화하는 스테이킹 메커니즘으로 기능한다. 그래스 노드 및 투자자들은 라우터에 $GRASS를 스테이킹하여 네트워크 보안에 기여하고 보상을 받을 수 있다. 향후 라우터는 대역폭 트래픽을 처리하고 각 트랜잭션에서 소비된 자원을 보고하는 역할을 하게 되며, 이를 위반할 경우 스테이킹된 토큰이 슬래싱될 수 있다. 현재 슬래싱은 수동으로 운영되지만, 네트워크 탈중앙화가 진행됨에 따라 자동화될 예정이다. 2025년 2월 10일 기준, 총 3,213만 $GRASS (유통량의 약 13.2%)가 스테이킹되어 있다.
둘째, 향후 웹 스크래핑 트랜잭션, 데이터셋 구매, LCR 사용 등 네트워크 서비스 결제 수단으로 활용될 예정이다. 현재는 USD 및 USDC 결제를 지원하지만, 점진적으로 $GRASS를 통한 결제가 확대될 계획이다.
셋째, 거버넌스 참여에 사용된다. $GRASS 홀더들은 네트워크 개선 제안, 파트너십 결정, 인센티브 구조 조정 등에 대한 투표를 통해 그래스 네트워크의 발전 방향을 결정할 수 있다.
최근 AI 산업은 단순 텍스트 처리를 넘어 생성형 AI, 자율 시스템, 로보틱스로 진화하면서 새로운 전환점을 맞이하고 있다. 특히 멀티모달 AI의 부상은 데이터 수요의 질적 변화를 가져왔다. 텍스트, 이미지, 오디오, 비디오를 아우르는 통합적 데이터 처리 능력은 AI의 현실 인식과 동작 정확도를 한 단계 높이는 핵심 요소가 되었다. 자율주행차의 도로 상황 인식부터 AI 로봇의 물체 조작까지, 실제 응용 사례가 증가하면서 고품질 멀티모달 데이터의 중요성은 더욱 커지고 있다.
그러나 현재 AI 업계는 데이터 수급의 병목 현상에 직면해 있다. 기존의 데이터 소싱 방식은 세 가지 근본적 한계를 보인다. 첫째, 데이터 획득과 가공에 드는 비용이 기하급수적으로 증가하고 있다. 둘째, 수집된 데이터가 서로 다른 형식과 구조로 파편화되어 있어 통합적 활용이 어렵다. 셋째, 페타바이트(PB) 규모의 데이터 처리에 필요한 기술적 확장성이 부족하다. 이러한 한계는 차세대 AI 개발의 걸림돌로 작용하고 있다.
이러한 산업적 과제를 해결하기 위해 그래스는 네트워크 인프라의 전면적 개선을 담은 Sion 업그레이드를 발표했다. Sion의 핵심은 멀티모달 데이터의 대규모 처리 능력 확보다. 특히 실시간 4K 비디오 처리와 같은 고난도 작업을 효율적으로 수행할 수 있는 기술적 기반을 구축한다는 점에서 의미가 있다.
Sion은 단계적 접근을 통해 안정적인 확장을 도모한다. 현재 완료된 1단계에서는 알고리즘 최적화에 초점을 맞추었다. 추가 하드웨어 도입 없이 순수하게 소프트웨어 개선을 통해 처리 효율을 높였으며, 이 과정에서 확인된 시스템 한계점은 2단계 설계에 반영되었다.
2단계 업그레이드는 인프라의 물리적 확장에 중점을 둔다. 분산 컴퓨팅 아키텍처 도입을 통해 작업 부하를 효과적으로 분산하고, 초당 1테라비트(Tbps)를 상회하는 네트워크 대역폭 확보로 데이터 처리 속도를 10배 이상 향상시킬 계획이다. 특히 주목할 만한 것은 적응형 스크래핑(adaptive scraping) 기술의 도입이다. 이를 통해 4K 비디오, 이미지, 텍스트와 같은 다양한 형식의 멀티모달 데이터를 끊김 없이 수집하고 처리할 수 있게 된다.
결과적으로, 그래스는 시온 업그레이드를 통해 단순 웹 크롤링을 넘어 AI 산업에 필수적인 고품질 멀티모달 데이터의 종합 공급자로 발돋움할 수 있는 기반이 마련될 것으로 기대된다.
Source: Grass Foundation
그래스는 AI 산업이 직면한 데이터 수급 문제에 대한 실질적인 해결책으로 주목받고 있다. 특히, 단순한 기술적 실험이 아니라 실제 시장 수요에 기반한 접근 방식이라는 점에서 더욱 설득력을 가진다.
AI 학습 데이터에 대한 수요는 지속적으로 증가하고 있으며, 이에 따라 그래스의 역할 또한 점점 더 중요해질 가능성이 높다. 데이터 수요의 증가는 그래스의 매출 성장으로 직결되며, 이는 다시 네트워크 확장, 노드 참여 증가, 데이터 수집 속도 및 규모 확대, 경쟁력 있는 데이터셋 구축으로 이어지는 선순환 구조를 형성할 수 있다. 특히, 조만간 출시될 모바일 플랫폼과 현재 테스트 중인 하드웨어 솔루션은 이러한 성장 궤도를 더욱 가속화할 핵심 요소로 작용할 전망이다.
궁극적으로, 이러한 플라이휠 효과(flywheel effect)를 얼마나 효율적으로 확장할 수 있는지가 그래스의 장기적 성공을 결정짓는 핵심 과제가 될 것이다. 그래스는 기하급수적으로 증가하는 AI 기업들의 실시간 검증 가능한 데이터 수요를 충족할 수 있는 탈중앙화 AI 데이터 수집의 표준 모델로 자리 잡을 잠재력을 보유하고 있다. 앞으로 그래스가 이러한 기회를 어떻게 활용하고, 생태계를 얼마나 효과적으로 확장해 나갈지 주목할 필요가 있다.