logo
    FP Research
    코멘트
    이슈
    아티클
    리포트
    FP Validated
    회사 소개
    X텔레그램뉴스레터데이터 대시보드 (Dune)
    로그인
    logo
    FP Research
    코멘트이슈아티클리포트
    Validator
    FP Validated
    소셜
    X (KR)X (EN)텔레그램 (KR)텔레그램 (EN)링크드인
    회사
    회사 소개
    문의
    Support@4pillars.io
    정책
    서비스 약관개인정보처리방침투명성 고지

    인간 오딧의 시대가 정말 저물어가는걸까?

    2025년 12월 02일 · 7분 분량
    Issue thumbnail
    c4lvin profilec4lvin
    linked-in-logox-logo
    GeneralDeFi
    linked-in-logox-logo

    Key Takeaways

    • 앤트로픽은 오늘 학습 데이터에 포함되지 않은 스마트 컨트랙트에 대한 공격 시뮬레이션 결과를 공개했다. 앤트로픽의 Opus 4.5 모델은 50%의 탐지율로 460만 달러 규모의 공격을 재현하는 데에 성공하는, 놀라운 성과를 보였다.

    • 그러나 탐지한 취약점 각각의 임팩트는 평균에 미치지 못하며, 이는 과거 대비 현재 보안 성숙도 자체의 향상 / 과거 발견된 취약점의 반복 등이 원인이었을 것으로 추측된다. 그럼에도 AI가 단순 패턴 매칭이 아닌 비즈니스 로직을 이해하고, 학습 데이터에 없던 코드에서 취약점을 찾아 한 번의 시도로 공격 코드까지 작성했다는 점은 매우 의미 있는 진전이다.

    • 실제 LLM의 사이버 공격 능력은 인간 해커의 협업을 고려했을 때 이를 훨씬 상회할 것으로 기대된다. 순수 LLM 기반의 단일/N회 시도 실험 방식은 현실의 해킹 시나리오(반복적 피드백, 인간-AI 협업)를 온전히 반영하지 못한다는 아쉬움을 남긴다.


    1. 배경 - 앤트로픽의 웹3 취약점 탐지 성능 실험 결과 공개

    오늘(12월 1일), 앤트로픽(Anthropic)의 프론티어 레드 팀(Frontier Red Team) 블로그에 흥미로운 글이 올라왔다.

    프론티어 레드 팀은 앤트로픽의 AI 기반 사이버 보안 연구 조직이다.

    Source: Anthropic

    "AI 에이전트가 460만 달러 규모의 블록체인 스마트 컨트랙트 익스플로잇을 발견했다"는 제목의 이 글은 AI의 사이버 공격 능력이 급격히 발전하고 있음을 경고하고 있다.

    이는 언뜻 보면 상당히 충격적인 내용처럼 보인다. AI가 사람보다 더 빠르게, 복잡한 취약점을 찾아낼 수 있게 된걸까? 스마트 컨트랙트 오딧 시대에 특이점이 정말 도래한 것일까?

    이번에 앤트로픽이 발표한 결과는 그 실험 환경을 고려했을 때 놀라운 성과임에는 부정의 여지가 없다. 그러나 인간 오딧의 시대가 끝나간다고 판단할 정도로의 공포감을 가지기에는 아직 이른 단계에 있는 것으로 보이기에, 앤트로픽이 발표한 결과에 대해 객관적으로 바라보고 이 결과가 갖는 의미에 대해 논해보겠다.

    2. 알려진 테스트 데이터셋에 대한 실험 결과

    블로그 제목에서 가장 눈에 띄는 숫자는 "460만 달러"다. AI가 460만 달러어치의 익스플로잇을 성공했다고 하니, 마치 AI가 전혀 새로운 취약점을 찾아서 460만 달러를 탈취할 수 있었다는 것처럼 들린다.

    실제로 이 숫자는 어디서 나온 결과일까?

    이번에 발표된 결과는 SCONE-bench라는 테스트 데이터셋에 대한 실험 결과로, 해당 데이터셋은 DeFiHackLabs가 수집한 2020년부터 2025년까지의 실제 사고 사례 405개에 대한 LLM의 재현 가능성 여부를 테스트하기 위해 구축되었다. 앤트로픽은 총 10개 모델(Llama 3, GPT-4o, DeepSeek V3, Sonnet 3.7, o3, Opus 4, Opus 4.1, GPT-5, Sonnet 4.5, Opus 4.5)에 대해 테스트를 진행했고, 이들은 합쳐서 총 207개의 사례의 익스플로잇에 성공했다고 발표했다.

    Opus 4.5 단일로 진행했을 때 몇 개의 사례를 재현했는지에 대해서는 언급이 없다는 점이 아쉽다.

    또한, 데이터 오염 방지를 위해 학습되지 않은 2025년 3월 이후의 데이터 34개에 대해 실험한 결과, Opus / Sonnet / GPT-5는 합쳐서 19개에 대한 공격 재현에 성공했다. 특히 Opus 4.5는 17개의 재현에 성공해 460만 달러 규모의 사고를 재현하는 데에 성공했다고 밝혔다.

    따라서 블로그 제목에 나온 “460만 달러”는, 학습 데이터에 아직 포함되지 않은 34개 데이터에 대한 실험 결과이다. 50%의 사고에 대해 발견이 가능했다는 것은 상당한 의미를 갖지만, 당장 이 사고들의 임팩트가 얼마나 컸을지에 대한 평가는 별개로 판단해야 한다.

    그렇다면 Opus 4.5가 구제할 수 있었던 케이스들의 임팩트는 어떨까?

    체인라이트(ChainLight)의 2024 웹3 해킹 사고 리포트에 따르면, 2024년 발생한 해킹 사고 중 컨트랙트 취약점으로 발생한 사고의 평균 피해 규모는 325만 달러이다. 중앙값을 집계하면 이보다 약간 적을 수 있으나, 총 17개 케이스를 더해 460만 달러의 합을 갖는다는 것은 각각의 사고 규모가 평균에 크게 못 미침을 의미한다. 실제로 재현에 성공한 케이스 중 fpc (350만 달러), webkeydao (68.5만 달러)가 전체의 91.9%를 차지하고 있다.

    검증이 추가적으로 필요하나, 이러한 원인으로는 실제 공격 사례들의 공격벡터가 거의 겹치거나 이전에 발생했던 사고와 큰 차이가 없을 가능성이 존재한다. (물론 피해 규모가 취약점 재현 난이도와 비례하는 것은 아니다.)

    3. LLM에 새로운 취약점 발견 능력이 있을까?

    블로그에서 가장 의미 있는 부분은 "제로데이 익스플로잇" 실험이다.

    제로데이 익스플로잇이란, 개발자가 인지하지 못하고 있는 보안 결함을 악용한 공격을 의미한다.

    연구팀은 올해 4월 - 10월 사이에 BSC 체인에 배포된 컨트랙트 중 소스코드가 존재하고, 1천 달러 이상의 유동성을 보유한 2,849개의 컨트랙트에 대해 취약점 발견 가능성을 실험했다. 이러한 환경 설정은 BSC 체인에 비교적 개발 미숙에 의한 보안 사고가 자주 발생하기 때문이었을 것이라고 생각된다.

    결과는 어땠을까? Sonnet 4.5 와 GPT-5 모두 2개의 제로데이 취약점을 발견했으며, 이들은 총 $3,694를 탈취할 수 있는 취약점이었다고 한다. 일반인이 탈취 금액으로만 판단한다면 큰 의미가 없어보일 수 있지만, 필자는 이것이 몇가지 지점에서 꽤 인상적인 성과라고 평가한다.

    첫번째는 이들이 찾은 취약점이 비즈니스 로직을 어느정도 이해해야 자금을 탈취할 수 있는 취약점이라는 점이다. 블로그에서 공개한 두 가지 제로데이 취약점을 간략히 살펴보면 아래와 같다.

    첫 번째 취약점: Reflection Token의 view modifier 누락

    이 취약점의 핵심은 단순한 패턴 매칭이 아니라, 토큰의 리플렉션 메커니즘(거래 시 홀더에게 수익 분배)을 이해하고, view modifier 누락이 어떻게 잔액 인플레이션으로 이어지는지 파악해야 한다는 점이다. AI 에이전트는 이 함수를 300번 반복 호출하여 토큰 잔액을 부풀린 후 DEX에서 매도하는 전략까지 구현했다.

    두 번째 취약점: 토큰 런처의 beneficiary 검증 누락

    토큰 생성 시 수수료 수령 주소(beneficiary)를 설정하지 않으면, 누구나 해당 파라미터에 자신의 주소를 넣어 수수료를 탈취할 수 있는 취약점이다. 비교적 간단한 접근 제어 취약점이긴 하지만, 해당 함수에 수익성이 있다는 점은 제대로 판단했다는 정도로 해석할 수 있겠다.

    두번째는 알려지지 않은 코드에 대한 취약점을 발견했다는 점이다. 물론 취약점 자체가 이전에 발견되지 못한 새로운 취약점은 아닐지라도, 정말 로직을 이해하고 패턴을 응용할 수 있을 정도가 되었다는 점에서 인상적이었다.

    세번째는 단 한번의 시도로 취약점 탐지 - 공격 코드 실행까지 성공한 Best@1으로 나온 결과라는 것이었다. 현재 취약점의 패턴 자체는 Solodit 등이 누적해온 대규모 오딧 리포트 데이터베이스로 인해 유의미한 크기를 달성했을 것으로 보이지만, 공격 코드 자체는 사실상 DeFiHackLabs의 데이터가 유일하다고 볼 수 있을 정도로 데이터가 매우 적은 편이기 때문이다. 학습 데이터가 현저히 부족한 상황에서 한번의 시도로 공격 코드를 작성할 수 있는 능력은 매우 인상적으로 평가된다.

    4. 아쉬운 점

    AI는 이미 웹3 보안에 있어 지대한 역할을 수행하고 있다. 이미 다양한 오딧 컨테스트에서 AI를 통해 취약점을 발견해 상금을 얻었다는 케이스가 심심치 않게 보이고 있으며, 유명 오딧 회사 Zellic은 실제 취약점 탐지에 유의미한 성능을 내는 것으로 확인된 에이전트 V12를 무료로 사용할 수 있도록 공개하기까지 했다.

    그러나 앞서 언급한 바와 같이 앤트로픽의 실험이 보여준 단일 모델 수준에서의 성능(제로데이에 대한 탐지 성능)은 필자의 기대와 약간 떨어져 있는데, 그 이유에 대해 가볍게 논해보도록 하겠다.

    4.1 더 나은 실험 방식이 있지 않을까?

    앤트로픽 연구팀은 이번 실험을 위해 "Best@8"이라는 평가 방식을 사용했다. 이는 각 문제에 대해 8번 시도하고, 그 중 가장 좋은 결과를 해당 모델의 성능으로 간주하는 방식이다. 앤트로픽의 Opus 4.5는 이번 실험으로 해당 벤치마크의 최고 기록을 갱신했다.

    그러나 이러한 실험 방식이 최선이라고 생각되지는 않는다. 실제로 인간 해커가 공격을 수행할때는 여러번의 피드백을 거쳐 진행하며, 작은 단서가 나오더라도 해커에게 엄청난 베네핏이 주어진다. 따라서 실험 방식을 조금 더 관대하게 설계한다면 (취약점 벡터만 찾아도 인정하도록), 실제 임팩트가 더 잘 드러날 수 있을 것으로 보인다. 이러한 실험은 실제 해킹으로까지의 연계, 위양성 제거 등을 위해 인력 소모가 심하다는 한계때문에 현실적으로 진행하지 못한 것으로 보인다.

    4.2 데이터 문제

    DefiHackLabs는 현재까지 발생한 대부분의 스마트 컨트랙트 공격에 대한 재현 코드를 오픈소스로 공개하고 있다. (참고) 운영된지 오래된 레포지토리이기에 대부분의 LLM 학습 데이터에 포함되어 있을 가능성이 높다고 생각된다.

    연구팀은 2025년 3월 이후 익스플로잇만 따로 테스트해서 데이터 오염을 통제하려 했다고 하나, 모델의 학습 데이터에 이미 비슷한 유형의 취약점 패턴이 포함되어 있을 수 있다는 점은 인지해야 한다. 클로드가 “아직까지 발견되지 못한 새로운 취약점”을 찾을 수 있을지는 확언할 수 없는 이유이다.

    BSC뿐만 아니라 이더리움 및 롤업 등 보다 큰 생태계를 대상으로 실험했을 때 복잡한 비즈니스 로직에 대한 취약점을 찾을 수 있는지 테스트했더라면 어땠을까라는 아쉬움이 남는다.

    5. 결론

    마무리하자면, 앤트로픽의 이번 발표는 AI의 사이버 공격 능력이 의미 있는 수준에 도달했음을 보여주는 중요한 이정표다. 특히 학습 데이터에 포함되지 않은 코드에서 비즈니스 로직을 이해하고, 단 한 번의 시도로 취약점 탐지부터 공격 코드 작성까지 성공했다는 점은 단순한 패턴 매칭을 넘어선 진전으로 평가할 수 있다.

    그러나 현 시점에서 "AI가 인간 오디터를 대체할 것"이라는 결론을 내리기에는 이르다. 발견된 취약점들의 평균 임팩트가 평균에 미치지 못한다는 점, 그리고 제로데이 취약점 탐지의 경우 BSC 체인의 한정된 컨트랙트를 대상으로 한 실험이라는 점에서 복잡한 디파이 프로토콜에 대한 적용 가능성은 추가 검증이 필요하다.

    다만, AI의 실제 위협 수준을 정확히 파악하려면 실험 설계의 재고가 필요해 보인다. 현실에서 해커는 여러 차례 피드백을 거치며 공격을 정교화한다. 인간 해커 + LLM의 조합을 가정한 실험이야말로 AI의 실질적인 사이버 공격 능력을 더 정확하게 드러낼 수 있지 않을까.

    결국 AI 보안 도구의 진정한 위협(또는 가치)은 인간-AI 협업 시나리오에서 드러날 것이다. 앤트로픽의 발표가 경고하듯, 프론티어 모델의 사이버 공격 능력은 빠르게 향상되고 있으며, 웹3 보안 업계는 이에 대비한 방어 전략을 선제적으로 수립해야 할 시점이다.

    최신 이슈
    아르키움: 블록체인이 놓쳤던 프라이버시 레이어
    1일 전

    아르키움: 블록체인이 놓쳤던 프라이버시 레이어

    author
    c4lvin
    스테이블코인 스택 전반에서 일어나는 혁신들 (ASA 뉴스 #12)
    1일 전

    스테이블코인 스택 전반에서 일어나는 혁신들 (ASA 뉴스 #12)

    authorauthorauthor
    AsiaStablecoinAlliance, Moyed, Heechang
    SEC 토큰화 증권 성명: 코드는 법이 아니다, 법이 법이다
    2일 전

    SEC 토큰화 증권 성명: 코드는 법이 아니다, 법이 법이다

    author
    Eren
    가입하고 무료 뉴스레터 구독
    최신 크립토 산업 동향을 확인해보세요.
    로그인

    관련 아티클

    내년에 떠오를 주제에 대해 자세히 알아보세요.

    Article thumbnail
    23 분 분량2025년 8월 21일

    비트코인을 활용하는데 왜 브릿지를 써? 아치를 쓰면 되지

    General
    DeFi
    Infra
    BitcoinBitcoin
    ArchArch
    author
    Steve
    Article thumbnail
    21 분 분량2025년 5월 15일

    오버테이크를 통해 살펴보는 게임 시장에 특화된 디지털 자산 마켓플레이스 프로토콜

    General
    DeFi
    OVERTAKEOVERTAKE
    author
    Jay
    Article thumbnail
    9 분 분량2024년 4월 04일

    Monthly FP: 밈코인 열풍 (2024년 3월)

    General
    DeFi
    author
    JW