현재 AI 산업은 AI 모델이 완성되기까지의 라이프사이클 전반에서 투명성과 신뢰가 부족하며, 높은 진입장벽으로 인해 다양한 산업으로의 확장이 제한되고 있다.
이에 연합학습 방식의 AI 학습은 로컬 클라이언트에 모델을 배포해 각 기기에서 독립적으로 학습을 진행한 후, 학습된 파라미터만을 수집하여 글로벌 모델을 업데이트하는 방식을 채택한다. 이 과정은 최종 글로벌 모델 개발에 드는 총비용을 절감하고, 개인 민감 데이터의 노출 가능성을 최소화함으로써 활용도를 크게 높일 잠재력을 가지고 있다.
하지만 연합 학습에도 한계는 존재한다. 모델 학습에 적극적이고 정직하게 참여하는 충분히 다양한 참여자를 확보하는 것이 어렵고, 일부 운영이 여전히 중앙 서버에 집중되어 있다는 점이 주요 과제로 남아있다.
FLock.io는 블록체인의 다양한 요소를 연합학습 방법론과 결합하여 이러한 한계를 극복하고자 한다. 나아가, 데이터 수급, 모델 제안과 학습, 그리고 모델 활용에 이르는 AI 모델의 전체 라이프사이클을 민주화하여 AI 산업을 더욱 창의적이고 신뢰할 수 있는 방향으로 발전시키는 것을 목표로 한다.
You and only you are responsible for your life choices and decisions.
— Robert T. Kiyosaki
일반 성인은 하루에 약 35,000번의 크고 작은 의사결정을 내린다고 한다(Sollisch, 2016). 물론 이 중 대부분은 직관에 기반한 즉각적인 의사결정이겠지만, 우리는 많은 순간에서의 의사결정이 최선의 선택이기를 바라기 때문에 적지 않은 시간과 비용을 들여 선택의 근거를 찾곤 한다.
오늘날 AI 기반의 서비스가 널리 채택되는 사실은 이러한 현상을 잘 설명한다. 온갖 정보가 난무하는 디지털 공간에서 정제된 정보의 빠른 습득을 위해, 혹은 자신의 현재 상황(context)에 가장 최적화된 솔루션을 찾기 위해 우리는 AI가 큐레이팅한 정보를 적극적으로 수용하며 때로는 이를 위해 비용을 지불하기도 한다.
하지만 우리는 이러한 편리함의 이면을 면밀하게 살펴볼 필요가 있다 - 과연 우리는 해당 서비스들이 제공하는 결과물들은 충분히 신뢰할 수 있을까? 이 결과물들은 우리의 요구사항을 제대로 반영하고 있을까? 우리는 다양한 산업에서 일관된 품질의 AI 서비스를 기대할 수 있을까?
그간의 AI 기술이 놀라우리만큼 발전한 것은 분명하지만, 그것이 이러한 질문들에 당장 명확히 대답해줄 수 없다면 우리는 AI 서비스에 지나치게 의존하여 자율성을 잃거나 결정 마비(Decision Paralysis) 를 겪는 일이 없도록 주의해야할 것이다.
사실, 구조적인 측면만 살펴보아도 우리는 AI 기반의 서비스가 내어놓는 결과물을 온전히 신뢰할 수 없다는 것을 직관적으로 알 수 있다. 익히 알려진 가장 대표적인 이유 중 하나는 AI 서비스가 결과물을 내어놓는 추론 과정이 논리적으로 설명이 불가능하다는 것이 있다(i.e., 블랙박스) - 추론 과정은 대개 수백만에서 수십억개가 넘는 매개변수가 수학적 연산을 통해 상호작용하여 진행되는데, 이러한 복잡한 구조는 모델의 작동 방식을 이해하기 어렵게 만들며 반환된 결과물을 신뢰해야하는 정당성을 매우 희석시킨다.
또한 학습되는 데이터 자체의 신뢰도 문제도 있다. AI 서비스가 학습하는 데이터들은 일반화된 결론을 내는데에 활용될 수 있을만큼 충분히 수집되지 않으며 편향성을 가지고 있을 확률이 높다. 또한 활용되는 데이터의 양은 새로이 최신 데이터가 만들어지는 속도에 비해 매우 제한적일 뿐만 아니라, 추론을 위해 해당 데이터를 가공하는 과정에서 여러 맥락에서의 정보 손실을 감수해야 한다. 더욱이, 해당 서비스가 이용자들에게 개인화된 맞춤형 서비스를 제공하려한다면 이용자들의 민감 데이터 혹은 컨텍스츄얼한 데이터가 필요할 수 있는데 이는 매우 수집하기 어려운 항목이므로 학습에 필요한 충분한 데이터가 모이지 않을 수도 있다 - 우리는 의사결정이 필요한 순간을 위해 다이나믹한 우리의 컨택스트 데이터를 매번 저장하고 있을 수도 없을 뿐더러, 원하지도 않는다(i.e., 개인 정보 보호 문제).
특히 다양한 산업의 AI 기술 진입을 주저하게 만드는 요소로는 이렇게 AI 기술 자체가 내재적으로 가지고 있는 도전과제들 외에도, 비싼 운영 비용 문제도 있다. AI 기술의 발전을 위해서는 다양한 데이터를 수집하고 수많은 모델들을 실험하는 과정을 반복하는 데이터 파이프라이닝 인프라를 구축하는 것이 핵심인데 이것을 셋업하고 유지하는데에는 천문학적인 비용이 요구된다. 즉, 새로운 AI 모델 및 서비스의 R&D는 본질적으로 많은 자본을 필요로 하는 특성을 가지고 있기 때문에 자본이 충분하지 않은 산업 혹은 신규 플레이어의 진입이 매우 어렵다.
결국에, 다양한 분야에 걸쳐 최적화되고 충분히 신뢰할 수 있을만한 AI 기반의 서비스가 활성화되어 기존 산업에 더욱 시너지를 불어넣기 위해서는, 현재 AI 기술이 고도화되고 있는 방식 자체가 구조적으로 개편되어야 한다. 더욱 다양한 컨텍스트의 많은 데이터들이 신뢰할 수 있는 방식으로 수집되어야 하고, 다양한 연구자들 및 플레이어들이 참여할 수 있도록 진입장벽을 낮춰줄 수 있는 새로운 매커니즘과 거버넌스가 확립되어야한다. 만일 의사결정을 위해 기존 AI 서비스에 대한 수요와 의존도가 점점 가속화되는 이 시점에서 시스템의 동작 방식과 신뢰성에 대한 의심이 무뎌지고 서비스 이용자들이 주어진 정보를 수용하기만한다면 해당 산업이 창의적이고 경쟁력있게 성장하기는 어려울 것이며 개인의 삶도 단조로워질 것이다.
기존 AI 산업에서 이러한 구조적인 문제점들을 해결하기 위한 시도들이 그간 이뤄진 것은 아니다. 연합 학습의 등장이 이에 대한 대표적인 예시라 할 수 있겠다.
McMahan, H B 등 구글의 리서처들의 논문에 의해 처음으로 제안된 연합 학습은 기존의 AI 모델들처럼 중앙 서버를 통해 모든 데이터를 수집하고 훈련을 시키는 방식을 채택하는 대신, 고유한 데이터를 가진 각 로컬 클라이언트에 AI 베이스 모델을 보내어 학습을 실시간으로 진행시키는 방식을 채택한다. 이 때 중앙 서버가 클라이언트들로부터 학습된 파라미터들을 취합하여 글로벌 모델을 만들면, 해당 모델은 다시 로컬 클라이언트들에게 보내져 개선된 모델로 업데이트하는 과정을 반복하여 최종 모델을 완성하는 방식이다.
즉, 각 참여자(e.g., 병원, 기업, 개인 등)는 자신의 데이터를 로컬에 보관하면서 모델 학습에 기여하되, 모델의 학습 결과값 만을 중앙 서버에 제공하기만하면 되므로 그들의 원본 데이터가 제 3자에게 노출될 걱정을 할 필요가 없어진다. 또한, 중앙 서버로부터 해당 모델 및 파라미터에 대한 구조를 전송받기 때문에 데이터 제공자들은 적어도 자신의 데이터가 어떻게 가공되어 활용되는 지에 대해서는 투명하게 확인할 수 있으며 최종 모델을 신뢰할 수 있다(i.e., 화이트 박스).
더욱이, 중앙 서버가 모델을 개선하는 방식은 다수의 클라이언트로 학습된 각 파라미터에 대한 가중평균치를 계산하여 모델의 업데이트에 반영하므로, 연합 학습 모델은 경우에 따라 기존의 하이퍼파라미터 튜닝 방식보다 더욱 객관적이고 컨텍스츄얼한 모델을 만들어낼 수 있다. 또한, 학습에 필요한 데이터 스토리지 및 연산 자체도 로컬 클라이언트에서 모두 진행되므로 전체적인 모델 개발을 위한 스토리지 및 연산 비용 측면에서도 이점이 있을 수 있다.
연합 학습의 응용 분야는 매우 다양할 수 있다. 가장 대표적으로는, 아무래도 프라이버시 이슈 때문에 수집하기 힘든 개인의 민감 데이터(i.e., 금융 데이터 혹은 의료 데이터)를 활용한 서비스들, 맞춤화된 AI 에이전트, 혹은 대량의 데이터를 지속적으로 학습하여 실시간으로 커스텀한 결과를 제공해야하는 자율 주행차의 운전 로직 구현 등의 상황에서 특별히 유스케이스가 있을 수 있다.
하지만 이러한 장점들에도 불구하고 아직까지 연합 학습이 실질적으로 다양한 분야에서 채택되지는 못하고 있는데 가장 대표적인 한계점들은 아래와 같다.
통신의 과부하 문제 및 중앙화된 서버 운영
연합 학습 네트워크가 수십 수백만 대의 디바이스로 구성된다고 가정했을 때, 중앙화된 서버와 네트워크 간의 통신에 과부하가 걸릴 수 있다. 따라서 이러한 상황에서는 높은 통신 효율이 뒷받침될 수 있는 방안이 필요한데 총 통신 횟수 혹은 통신 클라이언트의 수 자체를 줄이거나, 혹은 통신 데이터의 크기 자체를 줄이는 모델 압축(Model Compression) 등 모델링에 맞는 여러가지 방법들을 고민하고 적용해야한다.
로컬 클라이언트에서 일부 연산을 수행하긴 하지만, 결국 글로벌 모델을 업데이트를 하는 주체는 중앙화된 서버이기 때문에 이로 인한 단일실패지점 취약점이 있을 수 있다.
모델 / 데이터 포이즈닝(Poisoning) 취약성
포이즈닝 어택은 악의적인 의도로 오염된 데이터를 학습에 포함시켜, 최종 모델의 성능을 크게 저하시키는 공격이다. 연합 학습의 구조상 소수의 공격자만으로도 네트워크에 성공적인 공격이 가능하다.
또한 로컬 클라이언트로부터 모델의 파라미터 값만을 공유받는 특성상, 서버가 공격자 클라이언트를 식별하는 것도 쉽지 않다.
시스템적 / 통계적 이질성 및 활발한 클라이언트 확보의 어려움
AI 모델 학습은 수집한 데이터가 독립적이며 동일하게 분포되어있다고 가정한다(i.e., Independent Identically Distributed). 따라서 충분한 수의 데이터(i.e., 클라이언트)를 확보하는 것이 매우 중요하다.
하지만 연합 학습에 참여하는 클라이언트의 조건(e.g., 저장, 연산, 통신 성능 등)이 편향되어 있지 않을 확률을 고려하지 않을 수 없다. 또한 앞선 포이즈닝 공격에서 설명했듯이, 연합 학습은 소수의 공격자만으로 전체 모델을 손상시킬 수 있으므로 제어할 수 있는 수준의 제한된 학습 노드만 참여시킬 수 있다.
회피 공격(Evasion Attack) 취약성
회피 공격은 입력 데이터에 최소한의 변조를 가해 모델이 잘못 학습되도록 유도하는 공격이다(e.g., 사람의 눈으로는 구별할 수 없는 약간의 노이즈를 원본 데이터에 추가하여 모델의 손실함수값을 최대화하는 경우).
연합학습에서는 공격자가 전체 네트워크에 공유된 파라미터를 관측할 수 있으므로, 공격자가 해당 공격을 통해 이미 최적화가 되어있는 파라미터를 변형시키기가 매우 수월해진다.
요컨대, 연합 학습의 가장 본질적인 한계는 모델 학습에 적극적이고 정직하게 참여하는 충분한 모수의 다양한 참여자들을 모집하기가 어렵다는 점이며, 또 여전히 중앙 서버에 모델 학습을 위한 일부 오퍼레이션이 집중되어 있다는 점도 한계로 작용한다.
이러한 맥락에서, 연합 학습의 기존 아키텍처에 블록체인을 접목시키면 연합 학습이 직면한 다양한 도전과제를 해결하고 상당한 진전을 이루는 것을 기대해볼 수 있다. 블록체인이 추구하는 본질이 곧, 누구나 검증할 수 있는 투명한 네트워크 구조에 인센티브 매커니즘을 도입하여 다양한 참여자가 플랫폼 운영에 기여하도록 유도하는 시스템을 구축하는 것이기 때문이다.
예를 들어, 연합 학습 플랫폼은 인센티브 매커니즘을 도입하여 네트워크 상에 다양한 역할을 배치하고 참여 유인을 제공함으로써, 중앙 서버의 권한과 역할을 분산시킬 수 있다. 또한 악의적인 행동에는 강화된 처벌을 적용하며 기여도에 따라 보상을 분배하는 PoS 구조를 통해 모델의 학습 및 검증의 품질을 관리할 수 있다. 이러한 접근 방식은 플랫폼이 포이즈닝 공격, Sybil 공격 등 다양한 보안 위협에 대응할 수 있도록 하는 기반을 마련할 수 있다.
Source: FLock.io
FLock.io 팀은 이러한 아이디어를 구체화하여 일반 데이터 제공자, 학습과 튜닝, 그리고 추론을 담당하는 노드, 평가와 검증을 담당하는 validator, 그리고 AI 개발자 등 다양한 주체들이 함께 인센티브를 기반으로 다양한 AI 모델들을 연합 학습 방식으로 구현해낼 수 있는 플랫폼을 만들어내었다 - 커뮤니티 구성원은 누구나 필요한 AI 모델을 제안할 수 있고, AI 개발자는 Kaggle 스타일의 리더보드 상에서 의뢰받은 모델을 최고의 성능을 자랑하는 가장 우수한 AI 모델로 만들기 위해 경쟁하며, 이런 과정을 통해 완성된 AI 모델은 Marketplace 상에 배포되어 다양한 애플리케이션에 활용된다.
FLock.io 팀이 추구하는 궁극적인 비전은 단순한 실험을 넘어서, 블록체인 기술을 연합 학습에 적용하여 신뢰할 수 있는 데이터의 수급, 모델 제안 및 학습, 그리고 모델 활용에 이르는 AI 모델의 전체 라이프사이클을 민주화하여 AI 산업을 더욱 창의적이고 신뢰할 수 있는 수준으로 발전시키는 데에 있다. 이들은 10 여 편에 달하는 학술 저널 및 연구 결과물을 통해 블록체인과 연합 학습이 낼 수 있는 시너지와 보완점들을 꾸준히 연구해왔다.
3.2.1 FLock.io 네트워크의 3가지 핵심 요소
지난 5월에 테스트넷을 런칭한 FLock.io는 AI Arena, FL Alliance, 그리고 AI Marketplace 세 주체가 엮여서 동작하는 구조를 가지며, 기존 연합 학습에서 관찰할 수 있었던 여러가지 도전과제들을 블록체인의 여러 요소들을 활용하여 독특하게 풀어낸다.
모델이 최종적으로 만들어지는 과정(workflow)를 설명하기에 앞서, 각 요소에 대해 간략히 설명하자면 아래와 같다.
AI Arena (Beta Version)
우선, AI Arena는 Task Creator에 의해 특정 요구사항을 만족하는 AI 모델이 제안되는 공간으로, 기본(base) 모델이 선택되고 최초로 학습된다. 이 때 Task Creator가 모델을 제안하기 위해서는 특정 수량의 네트워크 토큰(i.e., $FML)이 스테이킹되거나 ML 분야에서의 경험이 있어야하는 등의 일정한 자격이 충족돼야한다 - 현재는 Task Creator들이 FLock.io 팀으로 제한되어있지만, 추후에는 커뮤니티에게 공개될 예정이다.
또한 참가자는 모델을 학습하는 Training Node 혹은 모델을 검증하는 Validator로 참여할 수도 있는데 이 때 작업 제출물을 검증하도록 선택될 가능성은 스테이킹하는 양과 커뮤니티에 의해 위임된 지분의 총합에 따라 증가하며 그 증가분은 총 지분의 총량에 비례하여 점차 감소한다(i.e., concave down increasing).
Dashboard에 따르면, 현재 글을 쓰는 시점을 기준(2024년 11월 26일)으로 매일 500명 이상의 Training Node와 1,000 여명의 Validator가 활동하고 있으며, 지금까지 약 18,000 여개 이상의 base 모델이 학습되었고, 200만 건이 넘게 해당 모델에 대한 검증(validation)이 이루어졌다.
FL Alliance
FL Alliance는, AI Arena에서 만들어진 base 모델이 더욱 다듬어져, 최종적으로 글로벌 모델을 양산하는 곳이다. 참가자들은 여기서 FL Node로 참가하여 FLocKit 및 FL 클라이언트를 통해 오프체인 스토리지와 상호작용하며 글로벌 모델을 다운로드받아 트레이닝하고 가중치를 다시 업로드하는 방식으로 최종 모델 생성에 기여한다 - 이 때 가중치가 집계되는 방식은 FLock.io 팀이 제안한 바와 같이 영지식 증명(Zero Knowledge Proof)이 활용되므로 클라이언트의 데이터가 노출될(peeking) 위험이 제거된다.
각 FL Node는 AI Arena에서와 같이, 학습 과정에 참여하기 위해 일정 양의 $FML을 스테이킹해야한다. 만일 주어진 라운드에서 집계된 투표가 음(negative)이 아니면 모든 proposer가 보상을 받지만, 만일 음이라면 해당 라운드의 모든 proposer의 지분 토큰이 삭감된다 - 이 때 보상량은 스테이킹된 지분의 양에 비례한다. 또한 특정 proposer가 해당 라운드에서 기여하지 않은 경우에는 해당 proposer의 지분이 삭감된다.
AI Marketplace
Source: beta.flock.io
AI Marketplace는 AI Arena와 FL Alliance를 통해 튜닝된 최종 모델이 호스팅되는 ‘공동 창작(Co-Creation)’ 공간이다. 이 때 사람들은 여기서 해당 모델들을 사용하거나, 혹은 다양한 용도로 개량하여 활용할 수도 있다.
또한 모델이 더욱 fine tuning 될 수도 있는 상태로 유지하여 해당 모델이 지속적으로 업데이트 될 수 있도록 할 수도 있는데 이 때 참가자는 외부 소스 등을 활용하여 해당 fine tuning에 기여하여 보상을 받을 수도 있다(i.e., Retrieval-Augmented Generation Process) - RAG는 외부 지식 기반에서 사실을 검색하고 가장 정확하고 최신 정보에 기반하여 응답을 구축함으로써 ChatGPT와 같은 대규모 언어 모델(LLM)의 퍼포먼스를 향상시키는 기법이다.
3.2.2 FLock.io 네트워크의 워크플로우
위의 구성요소들을 바탕으로 FLock.io 네트워크가 동작을 간략하게 설명하자면 아래와 같다.
Task Creators는 학습 시키고자하는 모델을 생성하여 AI Arena 상에 작업(work)을 배포한다.
Training Node는 생성된 작업에 대한 초기 학습 과정을 수행하고 Validator에게 학습이 완료된 모델을 제출한다.
Validator는 제출된 모델들을 평가하고, 합의를 통해 제출된 모델들에 대한 순위를 매긴다.
합의가 이루어진 모델은 FL Alliance에 할당되며, FL Alliance 내 각 클라이언트들은 무작위로 매 라운드마다 Proposer 혹은 Voter로 할당된다. Proposer로 선정된 클라이언트들은 할당된 모델을 자신의 로컬 데이터를 사용해 미세 조정하고 개선된 버전의 FL 글로벌 모델을 만든다. Voter는 Proposer들로부터 제안된 FL 글로벌 모델들을 집계하여 자신의 로컬 테스트 데이터 세트를 활용해 평가하고, 제안된 업데이트를 지지하거나 반대하는 투표를 시행한다.
각 라운드에서 집계된 투표 결과를 통해 글로벌 모델이 최종적으로 결정되고, 이에 따라 각 FL Alliance 작업 참가자에 대한 보상이 분배된다.
이렇게 완성된 AI Arena 합의 모델 또는 FL 글로벌 모델은 AI Marketplace에 배포되어 다양한 애플리케이션에 활용된다.
이처럼 트레이닝 단계(i.e., Step #1 ~ #3 for AI Arena)와 Fine Tuning 단계(i.e., Step #4 ~ #5 for FL Alliance) 전반에 걸쳐 DPoS 합의 알고리즘 및 슬래싱 규칙을 적용함으로써 기존의 연합 학습 방법이 마주해야했던 여러 공격 벡터들을 예방하고, 다양한 역할을 위한 보상 매커니즘을 제시하여 네트워크 상에 더욱 많은 참여 유인을 만들어낸다.
연합 학습이라는 모델은 AI 모델이 학습되는 방법론 중 하나이기 때문에, 기본적으로 현재 AI 서비스들이 제공하는 모든 유스케이스들에 모두 적용가능하다.
하지만 서론에서 언급했던 바와 같이, 연합 학습은 다양한 참여자들이 정직하고 활발히 참여했다는 가정하에 특히 더욱 민감한 데이터와 컨텍스츄얼한 데이터에 대한 접근성이 상대적으로 더 좋다는 특징이 있으므로, 이로부터 비롯된 유스케이스들 혹은 중앙집중형 AI의 단점에서 비롯되는 유스케이스들이 부각될 수 있다.
더욱이, FLock.io 상에서 누구나 자유로이 원하는 모델과 요구사항을 요청할 수 있다는 특징은, 이러한 유스케이스들에 시너지를 더하며 AI 모델이 민주적인 방식으로 생성될 수 있도록 한다.
특정 도메인 특화 & 커스터마이즈된 Agent / Assistant
AI 서비스의 성능은 그것이 수집하는 데이터에 크게 의존한다. 따라서 특히 연합 학습은 개인의 여러 민감데이터에 접근하여 특정 도메인에 특화(Domain-Specific)되거나 특정 요구사항에 맞게 커스텀한 방식으로 정의한 AI 모델을 구현해낼 수 있다.
이러한 서비스의 형태는 챗봇이나 에이전트, 혹은 어시스턴트 등 다양한 형태로 등장할 수 있는데 이미 FLock.io 에서는 텍스트를 SQL로 변환시켜주는 Text2SQL(i.e., Chainbase’s Theia), 코드 생성을 돕는 AI-Assistant(i.e., Aptos’ Move Code Agent), 그리고 기타 다양한 목적에 특화된 서비스들(i.e., MOU with Animoca Brands)들이 생성 혹은 생성 예정 중에 있다.
이외에도 개인 건강 데이터와 관련하여 모니터링(i.e., Private Health Monitors) 서비스, 그리고 금융 데이터와 관련하여 트레이딩, 대출심사, 사기 탐지, 그리고 고객 응대 서비스 등 다양한 영역에서 응용될 수 있다.
실시간 & 온디맨드 서비스
FLock.io 와 같이 인센티브를 통해 다양한 참여 유인들을 만들어 낼 수 있는 연합 학습 플랫폼의 또 다른 가장 큰 특징 중 하나는 여러 참여자들로부터 최신의 데이터를 빠르게 수급하는데 용이하다는 점이다. 이는 대규모의 학습 데이터를 배치 단위로 정밀하게 학습하는 기존 중앙집중형 AI 서비스들이 발전되는 방식이 반영하기 어려운 부분이기도 한데, 신뢰할 수 있는 데이터를 빠르게 적용한 연합학습 기반의 AI 모델은 최신 지식이 필요한 서비스에 특히 좋은 퍼포먼스를 보일 수 있다.
이미 FLock.io 플랫폼 상에 공유된 Bitcoin GPT, FLock GPT, 그리고 Farcaster GPT와 같은 Protocol-Specific 챗봇서비스들은 이에 대한 좋은 사례인데, 이 서비스들은 다양한 데이터 기여자들에 의해 빠르게(dynamically) 변화하는 각 프로토콜 생태계의 복잡성을 반영하여 지속적으로 조정되고 결과를 반환한다. 즉, 해당 서비스 사용자는 ChatGPT와 같은 기성 서비스들보다 상대적으로 더욱 정교하고 최신의 정보를 제공받을 수 있다.
온체인 데이터 파이프라인 구축을 위한 타 프로젝트와의 시너지
위 두 사례가 기존의 서비스들을 보완하는 측면으로써 FLock.io가 강점을 보일 수 있는 사례들이었다면, 이 절에서 소개되는 강조점은 다른 온체인 프로젝트들과의 협업을 통해 시너지를 낼 수 있는 부분이다.
우리는 기존 IT 시장에서 데이터 파이프라이닝 인프라가 혁신적으로 성장하면서 수많은 인사이트를 낳고 그것이 혁신적인 어플리케이션들의 탄생으로 이어지는 것을 이미 관찰한 바 있다. 이와 비슷한 맥락으로, 온체인 데이터 파이프라인의 구축은 온체인 상의 데이터를 여러 주체에게 안전(Safe)하게 유통하여 웹3 생태계의 유의미한 인사이트를 발굴해내고 다양한 참여자들로하여금 다양한 웹3 네이티브 어플리케이션에 대한 아이디어를 제공하여 생태계를 활성화시킬 수 있다.
FLock.io는 온체인 데이터 파이프라인 중에서도 특히 데이터를 수급하고 가공(transform)하는 부분을 기여함으로써 유의미한 AI 모델들을 많이 생성해낼 수 있다. 하지만 이로부터 더욱 나아가 다른 프로젝트들과의 시너지를 통해 어플리케이션을 위한 더 나은 온체인 데이터 파이프라이닝 인프라 환경을 제공할 수 있을 것이다 - 실제로, FLock.io는 Akash 네트워크의 연산능력을 활용하여 모델을 학습하는 해커톤을 개최하는 등 이러한 노력을 이어가고 있으며, 탈중앙화된 호스팅 네트워크(예: io.net, Gensyn, Ritual) 플러그인을 제공하여 다양한 참여자들의 진입장벽을 더욱 낮추고 있기도 한다.
공급 측면
우선, 연합 학습 플랫폼이 다양한 참여자들을 유인하고 지속가능한 시스템을 구축하기위한 가장 최우선 과제는 우선 경쟁력있는 AI 모델들이 해당 플랫폼을 통해 생성될 수 있음을 증명하는 것이다. 이를 위해 FLock.io는 데이터를 수집하는 과정부터 연합 학습 방식으로 모델을 완성해나가는 과정까지 다양한 참여자들—Task Creator, Data Provider, Training Node, Validator, Delegator, FL Nodes 등—을 정의하고, 각 역할이 최상의 퍼포먼스로 네트워크에 기여할 수 있도록 보상 체계를 설계하였다.
이 때 토큰 공급 메커니즘을 통해 공급되는 토큰의 양이 수요 측의 토큰 수요를 초과하지 않도록 토크노믹스를 잘 설계하는 것이 매우 중요하다. 이를 위해서 FLock.io는 각 참여자에게 일정량의 플랫폼 수수료(예: $FML)를 부과하거나 $FML 토큰의 스테이킹을 요구하고 프로토콜 수익의 일부를 소각하는 매커니즘을 도입하는 등 여러가지 장치를 제안하고 있다* - FLock.io의 백서 상에는 토큰 공급량과 관련된 구체적인 계산법들까지 제안되어있다.
*하지만 아직 FLock.io는 테스트넷 단계이기 때문에 공급 매커니즘이 적절히 설계가 되어 지속가능한 경제가 잘 구축이 되는 지 확인할 수 없다.
수요 측면
FLock.io 플랫폼을 통해 경쟁력 있는 AI 모델이 등장할 수 있음이 증명되면 다양한 수요가 창출될 수 있다. 가장 대표적으로는 이미 앞서 살펴보았듯이 맞춤형 솔루션을 찾는 커뮤니티, 프로토콜, 학술기관 및 기업에 AI 모델을 제공하고 모델의 사용, 혹은 (AI Marketplace에서 진행되고 있는 것처럼) 지속적인 Fine Tuning에 대한 서비스 비용을 청구하는 방법이 있겠다.
또한, 기술적으로는 연합 학습에 직접 참여하지 않지만, $FML 토큰을 특정 노드에 위임하는 참여자들의 수요도 기대해볼 수 있을 것이다. 이들은 위임을 통해 네트워크의 다양한 참여자들이 경쟁적으로 최고의 성능을 발휘할 수 있도록 지원함으로써 플랫폼의 전반적인 품질 향상에 간접적으로 기여하고 위임 보상을 받는다. 수요가 증가함에 따라 $FML 토큰의 가치가 상승하면, 이는 재귀적으로 고품질의 네트워크 참여자를 끌어들이고 플랫폼의 선순환을 촉진할 수 있다*.
*이런 상황에서 $FML 토큰은 커뮤니티로하여금 단순한 위임 보상 제공의 의미를 넘어 FLock.io 플랫폼의 기술 업데이트, 재무 관리, 커뮤니티 이니셔티브를 포함한 다양한 거버넌스 활동을 포함하는 거버넌스 토큰으로써도 중요한 역할을 하게 될 수도 있을 것이다.
ChatGPT는 AI 기술이 우리에게 제공할 수 있는 편리함이 특정 허들을 넘어설 때 폭발적으로 널리 채택될 수 있는 가능성을 보여주었다. 그리고 이 편리함은 이제 우리의 일상이 되었다. 이에 따라, 많은 기업들이 다양한 분야에서 자체 AI 기술을 개발하기 위해 노력하고 있지만, 자본 집약적인 산업의 특성 때문에 이러한 시도가 성공적으로 진행되기는 어려웠다. 물론 현재까지의 수많은 채택 사례가 시사하듯, 중앙 집중식 AI 모델이 제공하는 이점은 분명 존재하기때문에 이미 규모가 큰 기존 AI 모델 제공자들이 더욱 급성장하여 다양한 분야에서 우리를 놀라게 할 새로운 솔루션을 선보일 가능성도 배제할 수는 없을 것이다.
하지만 서론에서 언급했듯이, 그러한 미래가 오더라도 중앙화된 AI 서비스들을 완전히 신뢰할 수 있는 근거는 계속해서 부재할 것이며, 이로 인해 원하는 데이터의 수급에 어려움을 겪어 AI 모델이 계속해서 미완성 상태로 남을 가능성이 높을 것이다. 이것이 우리가 AI 기술을 민주화해야 하는 이유이다. 우리는 분명히 기존 산업의 구조적 한계를 극복하고, 더 많은 사람들이 AI 발전의 혜택을 공유하며, 다양한 분야에서 창의적으로 AI가 발전할 수 있는 방향을 모색할 수 있다.
FLock.io가 제안하는 블록체인 기반 연합 학습 방법론은 기존 AI 모델들의 학습 방식에 내재된 문제들을 해결하거나 완화하는 데 기여한다. 이에 나아가, 해당 방식은 데이터 수급부터 AI 모델의 최종 생성에 이르기까지의 전 과정을 민주화함으로써 더 많은 참여자를 유치하고, 결과적으로 더 넓은 영역에서 창의적인 모델들이 등장하도록 할 수 있는 잠재력을 가지고 있다 - FLock.io는 AI에 대한 깊은 사전 지식이 없는 개인도 참여할 수 있게 함으로써, 모델 생성 과정을 민주화한다. 모델이 생성되고 학습되는 과정에서는 데이터 제공자들의 독점 데이터에 접근할 수 있으므로 데이터의 민주화도 함께 이루어질 수 있다. 또한, AI의 발전에 따라 증가하는 사회적 가치를 다양한 참여자들과 광범위하게 공유하고, 스테이킹을 통해 누구나 그 이익을 쉽게 공유할 수 있도록 함으로써, AI가 진보함에 따라 늘어나는 가치의 분배도 민주화될 수 있다.
물론, 네트워크가 안정적으로 유지될 수 있도록 인센티브가 지속적으로 질 높은 참여자들에게 매력적인 보상으로 작용할 수 있도록 하고, 연합 학습이 본질적으로 가진 문제들을 동시에 해결해 나가는 노력이 앞으로 FLock.io의 주요 과제가 될 것이다. 하지만 적어도 FLock.io의 이러한 시도는 AI 기술에 대한 공평한 접근과 참여를 보장함으로써, AI가 사회 내 분열을 악화시키지 않고 오히려 사회를 통합할 수 있는 힘으로 작용할 수 있는 잠재력을 보여주었다는 점에서 큰 의의가 있다.