logo
    FP Research
    코멘트
    이슈
    아티클
    리포트
    FP Validated
    회사 소개
    X텔레그램뉴스레터데이터 대시보드 (Dune)
    로그인
    logo
    FP Research
    코멘트이슈아티클리포트
    Validator
    FP Validated
    소셜
    X (KR)X (EN)텔레그램 (KR)텔레그램 (EN)링크드인
    회사
    회사 소개
    문의
    Support@4pillars.io
    정책
    서비스 약관개인정보처리방침투명성 고지

    펄 랩스: AI를 위한 주권 지능 데이터 레이어

    2026년 1월 27일 · 10분 분량
    Issue thumbnail
    Jun profileJun
    linked-in-logox-logo
    Infra
    linked-in-logox-logo

    Key Takeaways

    • AI 패러다임이 데이터 품질 중심으로 재편되는 가운데, 데이터 오염과 블랙박스 처리로 인한 모델 붕괴 및 안보 위협이 심각해짐에 따라 이를 근본적으로 해결할 '주권 지능 데이터 레이어'의 필요성이 대두되고 있다.

    • 기존 데이터 라벨링 시장의 비효율을 타파하기 위해 1,750만 달러의 투자를 유치한 스케일 AI 출신 팀은 솔라나 기반 온체인 워크플로우를 도입, 모든 작업 이력을 온체인 상에 투명하게 기록하고 파이프라인 구축 시간을 95% 이상 단축하는 혁신을 이뤄냈다.

    • 펄 랩스는 전문가 중심 모델을 통해 익명 크라우드소싱의 한계를 넘어서며, 베타 기간 170만 건의 태스크와 3억 3천만 포인트라는 유의미한 성과를 거두었다. 펄 랩스는 이 견고한 기반 위에서, 합성 데이터로는 대체 불가능한 고난도 데이터 영역을 선점하고 독자적인 생태계를 완성해 나갈 것이다.


    1. AI 시대, 데이터 공급의 중요성

    1.1. 데이터 플랫폼 기업의 등장 배경 : 모델 중심에서 데이터 중심으로

    초창기 AI 업계에서는 “데이터는 많을수록 좋다”는 인식이 지배적이었다. 그러나 거대 언어 모델(Large Language Model, LLM)과 정교한 컴퓨터 비전 모델이 등장하면서 상황이 달라졌다. 단순히 데이터의 양을 늘리는 것만으로는 성능 향상이 정체되는 구간에 도달한 것이다.

    Source : Youtube(@DeepLearningAI)

    AI 산업에서 ‘데이터 품질’의 중요성은 꾸준히 제기되어 왔다. 2021년 앤드류 응(Andrew Ng)은 ‘A Chat with Andrew on MLOps: From Model-centric to Data-centric AI’ 에서 데이터 수집, 정제, 그리고 라벨링 등 데이터 작업이 많은 시간을 차지함에도, 왜 이를 충분히 중요하게 다루지 않느냐고 지적했다. 기업들이 성능 향상을 위해 비용을 들여 AI 연구 인력을 투입해 모델만 고도화하려 하지만, 실제로 성능의 열쇠는 데이터 품질에 있다는 주장이다. 이러한 문제의식은 스케일 AI(Scale AI)와 같은 데이터 플랫폼 기업이 성장하고 주목받는 배경이 되었다.

    1.2. 왜 고품질 데이터는 중요하고, 희소한가?

    생성형 AI 시대로 접어든 지금도 이러한 주장은 여전히 유효하며, 오히려 더 중요해졌다. 소형 모델의 성능이 빠르게 입증되면서 ‘어떤 데이터로 어떻게 학습시키는가’가 성능을 좌우하는 비중이 커졌고, 우리가 흔히 접하는 환각(Hallucination) 문제 또한 데이터 품질의 중요성을 재확인시켰다. 실제로 단순한 대량 데이터 대신 전문가가 검증한 고품질 데이터로 모델을 미세 조정(Fine-tuning)했을 때 벤치마크 정확도가 24% 이상 향상됐다는 연구도 고품질 데이터셋의 중요성을 뒷받침한다.

    다만 고품질 데이터는 여전히 인간이 생성한 데이터에 크게 의존한다. AI가 만든 데이터를 다시 AI가 학습할 경우 모델 자체의 성능이 퇴화할 수 있다는 모델 붕괴(model collapse) 우려 때문이다. 그런데 인간이 생산한 고품질 데이터는 학습에 필요한 데이터 소비량의 기하급수적 증가, 데이터 희소성, 그리고 빅테크 기업의 선점으로 인해 공급 제약이 커지며 여러 문제가 발생하고 있다.

    Source : Epoch.ai

    첫째, 수요에 비해 공급이 따라오지 못하는 현상이 이미 진행 중이다. 인간이 생산한 고품질 데이터가 2026년경 고갈될 가능성이 높다는 예측도 제기된 바 있으며, 데이터 소스가 대형 플랫폼 중심으로 재편되면서 공급 제약은 더 강해지고 있다.

    둘째, 데이터 라벨링(labeling) 작업의 상당 부분이 크라우드소싱(crowdsourcing) 방식으로 운영되면서 블랙박스(black box) 문제가 발생한다. 신원이 불분명한 익명 작업자에게 생성 및 검수 과정을 의존하다 보니, 라벨링 과정에서 LLM을 광범위하게 사용한 작업자가 33~46%에 이른다는 연구도 있다. 또한 도메인 전문 지식이 없는 작업자가 라벨링을 수행해 데이터에 노이즈가 섞이는 문제도 발생한다.

    1.3. 주권 지능 데이터 레이어의 중요성

    고품질의 데이터를 안정적으로 확보하기 위해서는 불투명한 블랙박스 파이프라인을 지양하고, 인간이 주도적으로 데이터 생성을 검증할 수 있는 구조가 필수적이다. 즉, AI 학습 데이터의 소유권과 출처를 투명하게 추적하고, 누가 데이터를 생성했는지 검증할 수 있는 기반 시스템이 마련되어야 한다.

    이러한 '투명한 데이터 레이어'의 구축은 앞으로 더욱 중요해질 것이다. AI가 단순 업무 보조를 넘어 의료 진단, 자율 주행, 군사 작전 등 생사와 직결된 의사결정을 내리는 단계로 진입하고 있기 때문이다. 이러한 고위험 영역에서는 오차 허용 범위가 사실상 '0'에 가까우며, 이는 곧 AI 모델의 훈련과 그 재료가 되는 데이터의 무결성이 무엇보다 중요함을 의미한다.

    데이터 무결성은 이제 국가 안보 차원의 핵심 의제로 다루어지고 있다. 실제로 미 국방부 산하 방위고등연구계획국(DARPA)의 GARD 프로그램은 데이터 오염 및 기만 공격 등 적대적 위협으로부터 AI를 방어하기 위해 수년간 연구를 지속해 왔다. 또한, 2025년 5월 국가안보국(NSA)과 사이버보안 및 인프라 보안국(CISA)은 공동 지침을 통해 "데이터 공급망의 취약점과 악의적으로 수정된 데이터가 AI 시스템의 무결성을 치명적으로 위협한다"고 경고한 바 있다. 미 국방부 합동인공지능센터(JAIC)가 데이터 라벨링 선두 기업인 스케일 AI(Scale AI)와 2.49억 달러 규모의 대규모 계약을 체결한 것 역시, 오염된 데이터와 블랙박스 시스템을 심각한 안보 위협으로 규정했음을 시사한다.

    펄 랩스(Pearl Labs)는 이러한 문제를 해결하기 위해 블록체인 기반의 '주권 지능 데이터 레이어'를 구축하였다. 기존의 데이터 플랫폼은 블랙박스 형식의 중앙화된 클라우드를 사용하지만, 펄 랩스는 블록체인을 ‘속성 레이어’로 활용하여 데이터의 생성부터 활용까지 전 과정을 투명하게 관리하고 기록한다. 데이터가 특정 기업의 사유 서버에 종속되는 대신, 누구나 검증 가능한 온체인 상에 존재하게 함으로써 ‘데이터 주권’을 보장한다. 나아가 이를 기반으로 신뢰할 수 있는 고품질 데이터를 제공하는 것을 목표로 한다

    2. 고품질의 데이터를 투명하게, 펄랩스의 시도

    펄 랩스는 데이터 품질을 타협할 수 없는 최우선 가치로 삼고, 아마존과 스케일 AI(Scale AI)에서 프로덕트 및 성장을 총괄했던 아흐메드 라샤드(Ahmed Rashad)를 중심으로, 스케일 AI의 성공을 이끌었던 베테랑들이 주축이 되어 설립되었다. 특히 아흐메드 라샤드는 수천 개의 데이터 파이프라인을 직접 설계 및 운영한 경험을 보유하고 있으며, 당시 현장에서 체감했던 데이터 시스템의 불투명성(블랙박스 문제)과 비효율을 근본적으로 해결하기 위해 펄 랩스를 출범했다.

    이러한 비전을 인정받아 크립토 인프라 전문 Framework Ventures와 AI/Web3 전문 CoinFund가 주도하고 Protagonist, HashKey, Peer VC 등이 참여한 라운드에서 총 1,750만 달러를 유치했다. 이는 메타(Meta)로부터 약 143억 달러의 가치를 인정받은 스케일 AI의 성공 사례처럼, 펄 랩스 또한 투명한 블록체인 인프라를 통해 그에 비견될 성장 잠재력을 지녔다는 시장의 긍정적인 평가가 반영된 결과다.

    Source : X(@PerleLabs)

    이들은 자체 연구를 통해 ‘AI 평가자’ 모델이 가질 수 있는 지능의 역설과 연쇄적 편향(Model Collapse)의 위험성을 경고했다. 단일 AI 모델에 의존한 품질 관리는 결국 한계에 봉착할 수밖에 없다는 문제의식을 바탕으로, 펄 랩스는 인간 전문가의 개입을 필수적인 전제로 삼았다. 하지만 인간 역시 편차가 존재한다. 작업자마다 전문 분야가 다르고, AI를 몰래 사용하는 ‘치팅’을 완벽히 걸러내기도 어렵다. 펄 랩스는 이 불확실성을 기술로 통제하기 위해 블록체인 기반의 워크플로우를 도입했다.

    위 도식은 클라이언트, 펄 플랫폼, 공급자, 인프라가 어떻게 유기적으로 결합하여 데이터 무결성을 보장하는 통합 플랫폼을 이루는지 보여준다. 이 생태계의 핵심은 모든 작업 과정을 투명하게 온체인에 기록하고, 이를 근거로 평판 시스템과 스마트 라우터(Smart Router)가 작업을 최적 분배한다는 점이다. 해당 프로세스는 펄 랩스 크리에이터 플랫폼을 기반으로 다음과 같이 진행된다:

    • (a) 작업 요청 (Task Request): 클라이언트가 스마트 라우터에 필요한 작업을 요청합니다.

    • (b) 최적 매칭 (Optimal Matching): 스마트 라우터가 전문가 네트워크 내에서 가장 적합한 작업자를 온체인 평판 시스템을 기반으로 연결합니다.

    • (c) 결과 제출 (Submit Result): 작업을 수행한 전문가가 결과물을 리뷰어에게 제출합니다.

    • (d) 품질 감사 (Quality Audit): 리뷰어가 제출된 결과물에 대해 자체적인 품질 검증을 수행합니다.

    • (e) 검증 및 온체인 기록/정산 (Validate Result & On-chain Logging & Settlement): 솔라나 네트워크와 연동하여 결과 확정, 로그 기록(평판 등), 그리고 즉각적인 보상 정산이 동시에 실행됩니다.

    • (f) 고품질 데이터 제공 (Provide High Quality Data): 최종 검증이 완료된 고품질 데이터가 클라이언트에게 전달됩니다.

    펄 랩스는 이러한 워크플로우를 통해, 기존에 수주가 소요되던 복잡한 데이터 파이프라인 설정을 단 몇 분 만에 완료하는 혁신적인 구조를 완성했다. 이제 각 요소가 왜, 그리고 어떻게 설계되었는지 구체적으로 살펴보자.

    2.1 인프라로 블록체인, 그리고 솔라나를 선택한 이유

    블록체인 도입의 핵심 목적은 데이터 무결성(Integrity) 증명과 마이크로매니징(Micromanaging)에 있다. 기존의 데이터 라벨링 서비스가 내부를 알 수 없는 ‘블랙박스’였다면, 펄 랩스는 데이터의 생성, 라벨링, 검수, 수정 등 파이프라인의 ‘모든 과정’을 온체인에 기록한다. 이를 통해 누가, 언제, 어떤 기준으로 작업했는지 투명하게 추적할 수 있는 감사 추적 시스템을 구축한 것이다.

    이 접근 방식의 관건은 수백만 건에 달하는 방대한 마이크로 이벤트를 얼마나 빠르고 저렴하게 처리하느냐다. 펄 랩스가 솔라나를 선택한 이유가 여기에 있다. 솔라나의 높은 처리량과 저렴한 수수료는 검증 가능한 이벤트 로그를 저지연으로 업데이트하기에 최적의 환경을 제공한다.

    Source : Breakpoint 2025 - Youtube(@Solana)

    또한, 작업 완료와 동시에 이루어지는 즉각적인 정산 및 지급 시스템을 구현하는 데도 솔라나의 고속 인프라는 필수적이다. 펄 랩스는 이러한 온체인 프로세스가 설정 시간을 95% 이상 단축하고, 검수 과정을 엄격하게 만들어 결과적으로 데이터 품질을 획기적으로 높인다고 설명한다.

    2.2 온체인 평판 시스템과 스마트 라우터 기반의 작업 할당

    투명한 기록 체계가 갖춰졌다면, 다음 과제는 “누구에게 일을 맡길 것인가”다. 파이프라인이 정교해도 검증자의 역량이 부족하면 품질은 무너진다. 펄 랩스는 이를 온체인 평판 시스템과 스마트 라우터로 해결한다. 익명의 작업자 대신, 73개국 25,000명 이상의 검증된 전문가들을 온체인 평판 시스템으로 관리하고, 이를 바탕으로 다음 세 요소를 종합한 평판 점수가 산출된다.

    • 정확성 (Accuracy): 정답지 테스트 및 동료 평가 결과

    • 일관성 (Consistency): 장기간 유지해 온 품질의 안정성

    • 기여 기록 (Contribution): 완료한 작업의 난이도와 수량

    이 점수는 단순 공개 지표가 아니라 운영 로직의 핵심 입력값이다. 스마트 라우터는 평판 점수를 실시간으로 반영해 프로젝트별로 적합한 작업자를 자동 배정한다. 동시에 작업 난이도와 정확도에 따라 보상이 차등 분배되도록 설계해, 빠르기만 한 저품질 작업을 억제한다. 예로 들어, "흉부 X-ray 판독" 작업이 들어오면, 관리자가 수동으로 배정하는 것이 아니라, 라우터가 과거 의료 데이터 작업에서 정확도가 높았던 '의사' 자격의 기여자를 찾아내어 자동으로 작업을 연결하며, 또한 기여자의 과거 성과를 바탕으로 미래 성과를 예측하여 최적의 인력을 배치한다. 결국 마이크로매니징이 신뢰의 기반을 만들고, 스마트 라우터가 이를 효율적으로 작동시키는 구조다.

    3. 단순 라벨링을 넘어: 전문가 중심 DePIN이 그리는 AI의 미래

    3.1. 익명 군중이 아닌 ‘전문가’를 모으다: 퀄리티 중심의 디핀(DePIN) 방식

    Scale AI에서 데이터 운영을 구축했던 경험을 가진 펄 랩스 창립자는 “모델은 계속 좋아지지만 데이터가 병목”이라는 문제의식을 강조한다. 블록체인으로 물리적 병목이나 자원 배분의 비효율을 해결하려는 시도는 이미 다양하게 전개되고 있다. RWA, 컴퓨팅 자원, 통신, 에너지 등 탈중앙화 물리 인프라 네트워크(Decentralized Physical Infrastructure Networks, DePIN) 영역이 대표적이다.

    데이터 라벨링 분야에서도 펄 랩스 이전에 데이터 공급 문제를 블록체인과 결합해 풀려는 시도가 있었다. 다만 펄 랩스의 차별점은 전문가 중심 설계와 온체인 평판 시스템의 결합에 있다. 기존 프로젝트들이 물량 확장에 치우치기 쉬웠다면, 펄 랩스는 정확성과 일관성이 평판으로 누적되며 고가치 업무와 보상이 열리는 구조를 지향한다.

    특히 의료나 법률처럼 고난도이자 고위험 분야의 태스크는 전문가 네트워크를 통해 적합한 인력을 배정하는 방식으로 품질을 보강한다. 예를 들어 Sully AI와의 사례에서 의료와 AI를 모두 이해하는 의사를 참여시켜 데이터셋을 제공했고, 이를 통해 도메인 맥락을 이해하는 전문가가 파이프라인에 직접 참여할 때 일반 라벨러로는 처리하기 어려운 엣지 케이스와 전문적 뉘앙스까지 정밀하게 다룰 수 있음을 강조했다.

    나아가 이러한 고품질 데이터 전략은 텍스트를 넘어 물리적 세계와 상호작용하는 ‘신체화된 지능(Embodied Intelligence)’ 영역으로 확장된다. 펄 랩스의 ‘Whispermind’ 플랫폼은 시각(RGB-D)뿐만 아니라 힘 움직임 등 다중 센서 데이터를 수집하여 로봇이 인간처럼 행동하도록 학습시킨다. 이는 단순한 이미지 라벨링을 넘어 악력, 마찰 계수 등 ‘로봇이 느끼는 감각’까지 데이터화함으로써, 창고 자동화나 정밀 수술 로봇과 같이 고도의 작업이 필요한 영역까지 지원한다.

    3.2 펄 랩스에게 주어진 데이터 공급망 구축의 과제

    펄 랩스의 전략은 규모의 경제보다 고품질을 선택한 접근에 가깝다. 따라서 가장 큰 리스크는 전문가 공급이 안정적으로 확보되지 않을 때 발생한다. 전문 인력은 수 자체가 제한적이고, 반복적 라벨링 업무는 직무 만족도를 떨어뜨릴 수 있으며, 의료나 법률 분야처럼 고위험 영역에서는 부정행위나 성실성 저하를 포착하는 것도 더 까다로울 수 있다. 결국 충분한 기회비용을 보상하는 인센티브 설계가 필요하고, 그 과정에서 데이터 생산 단가와의 균형도 중요해진다.

    또 다른 변수는 합성 데이터(Synthetic Data)와 AI 피드백 기반 강화 학습(Reinforcement Learning from AI Feedback, RLAIF)처럼 AI가 생성과 검수를 더 많이 맡는 흐름이다. 이 방식들이 비용 경쟁력 측면에서 빠르게 개선될 경우, 전문가 기반 모델은 가격 압박을 받을 수 있다.

    이 상황에서 펄 랩스가 가져가야 할 방향은 “전문가만이 할 수 있는 영역”을 선점하는 것이다. 단순 라벨링을 넘어 초고난도 의사결정 추론, 안전과 윤리 판단, 규제 친화적 평가처럼 대체가 어려운 태스크를 지속적으로 확보해야 한다. 다만 이런 영역은 단번에 이루어질 수 없다. 전문가가 납득할 인센티브와 시장이 수용할 단가 사이의 균형을 찾아야 하고, 온체인 기록을 활용해 장기간 품질이 유지되는지를 검증하는 운영 경험도 축적돼야 한다.

    Source : X(@PerleLabs)

    펄 랩스는 이미 지난 2025년 4분기 베타 기간 동안 170만 건의 태스크를 처리했으며, 텍스트, 오디오 그리고 이미지 등 엄격한 품질 검즈와 3억 3천만 포인트라는 유의미한 데이터를 확보했다. 이 포인트는 단순한 수치가 아닌, 기여자의 작업 정확도, 일관성, 난이도를 알고리즘으로 분석해 지급하는 ‘성과 기반 보상’이다. 이는 향후 토큰 전환 가능성을 가질 뿐만 아니라, 상위 등급 작업에 접근할 수 있는 ‘평판’의 척도로 기능한다. 따라서 이번 시즌 1 출시는 본격적인 확장을 앞둔 ‘최종 검증 단계’로 정의된다. 전문가 공급망과 평판 시스템이 설계대로 작동하는지 확인하고, 고난도 데이터 처리에 필수적인 운영 안정성을 확보하는 것이 주된 목적이다.

    AI 모델이 발전하고 인간의 AI 의존도가 높아질수록, 고품질 데이터에 대한 수요는 구조적으로 커질 가능성이 높다. 아마존 시절부터 대규모 데이터 파이프라인을 다뤄온 경험을 가진 팀이 이 문제를 온체인 워크플로우로 풀어내려는 시도는, 데이터 공급 구조가 바뀌는 국면에서 의미 있는 신호가 될 수 있다.

    최신 이슈
    thGOLD: 금을 더 가볍고, 더 조합 가능하며, 더 효율적으로
    22시간 전

    thGOLD: 금을 더 가볍고, 더 조합 가능하며, 더 효율적으로

    author
    Eren
    펄 랩스: AI를 위한 주권 지능 데이터 레이어
    2일 전

    펄 랩스: AI를 위한 주권 지능 데이터 레이어

    author
    Jun
    아시아 스테이블코인 삼국지 (ASA 뉴스 #11)
    7일 전

    아시아 스테이블코인 삼국지 (ASA 뉴스 #11)

    authorauthor
    AsiaStablecoinAlliance, Moyed
    가입하고 무료 뉴스레터 구독
    최신 크립토 산업 동향을 확인해보세요.
    로그인

    관련 아티클

    내년에 떠오를 주제에 대해 자세히 알아보세요.

    Article thumbnail
    32 분 분량2026년 1월 27일

    아이겐클라우드: 진정한 나의 것을 찾아서

    Infra
    EigenCloudEigenCloud
    author
    c4lvin
    Article thumbnail
    17 분 분량2026년 1월 06일

    솔라나 임대료 회수 시장으로 보는 디앱의 ‘생존 공식’

    Infra
    SolanaSolana
    author
    Jun
    Article thumbnail
    94 분 분량2025년 12월 03일

    ZK-101: 영지식 은하계를 여행하는 히치하이커를 위한 안내서

    Infra
    General
    author
    Ingeun