2025년 AI 트렌드: 지금까지의 흐름과 앞으로의 전망

미래 도시 풍경과 데이터 시각화를 혼합한 안경을 쓴 사려 깊은 노인

작성자

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

2025년의 중반을 향해 가는 지금, 올해 상반기에 두드러졌던 인공 지능 트렌드를 돌아보고, 하반기에는 어떤 변화가 있을지 전망해 볼 수 있습니다.

AI 개발의 폭과 깊이를 고려할 때, 어떤 AI 트렌드도 모든 것을 다 담을 수는 없습니다. 이번에도 예외는 아닙니다. 우리는 올해 상반기를 주도한 5가지 발전 상황과 앞으로 몇 달 동안 중요한 역할을 할 것으로 예상되는 5가지 추가 개발 목록을 10가지로 좁혔습니다.

지금까지의 흐름:
  • 추론 비용의 획기적 감소
  • 더욱 합리적인 추론 모델
  • 디지털 리소스의 고갈 증가
  • 전문가 혼합(MoE) 모델의 복귀
  • AI 담론에 비해 실제 활용은 더딤
앞으로의 전망
  • 벤치마크 포화도 및 다양화
  • 트랜스포머 모델 초월
  • 구현형 AI, 로보틱 및 세계 모델
  • 개인정보 보호 vs. 개인화
  • AI 동료와 감정적 여파

AI의 추세는 AI 모델과 알고리즘 자체의 발전뿐만 아니라 생성형 AI 기능이 적용되는 사용 사례의 끊임없는 확장에 의해 주도됩니다. 모델이 더욱 기능적이고 다양하며 효율적으로 발전함에 따라 AI 애플리케이션, AI 도구 및 기타 AI 워크플로도 이를 지원하고 있습니다. 따라서 오늘날의 에코시스템이 어떻게 발전하고 있는지 진정으로 이해하려면 머신 러닝 혁신의 원인과 결과에 대한 맥락적 이해가 필요합니다.

이 글에서는 수개월 내에 실제 영향력이 나타날 수 있는 현재진행형 트렌드, 즉 2025년 내 또는 그 즈음에 가시적인 영향을 미칠 수 있는 트렌드에 대해 살펴봅니다. 물론 보다 장기적이고 익숙한 다른 AI 이니셔티브도 있습니다. 예를 들어, 완전 자율주행 차량 분야에서는 일부 지역에서 최근 진전이 있었습니다. 미국의 몇몇 도시에서 로보택시 시범 서비스가 시작되었고, 오슬로, 제네바, 중국 내 16개 도시에서도 시험 운영이 진행 중입니다. 하지만 이 기술이 보편화되기까지는 몇 년이 더 걸릴 것으로 보입니다.

AI 에이전트의 등장이나 탐색 행동(search behavior) 및 SEO에 AI가 미치는 파괴적 영향 등 AI의 다른 많은 중요한 거시적 트렌드는 광범위하고 다면적이며 이미 다른 곳에서 잘 다루어지고 있기 때문에 언론의 주목을 많이 받지 못한 더 집중적인 개발을 위해 제외되었습니다.

그래도 함께 살펴보겠습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

지금까지의 흐름

발전은 반드시 새로운 아이디어가 끊임없이 등장해야만 이루어지는 것은 아닙니다. 2025년 상반기 가장 중요한 AI 트렌드 중 상당수는 업계가 기존 아이디어를 적용하는 방식의 변화에 초점을 맞추고 있으며, 일부는 실용적이고 생산적인 반면 일부는 그렇지 않습니다.

추론 비용의 획기적 감소

오늘날의 모델은 과거의 모델보다 훨씬 우수할 뿐만 아니라 운영 비용도 훨씬 저렴합니다.SemiAnalysis의 이 차트를 살펴보세요. 2년이 채 되지 않아 MMLU 벤치마크에서 동등한 결과를 얻기 위한 토큰당 가격이 수십 배 이상 하락했습니다. 역대 모델 릴리스의 성능 지표를 모니터링해 온 사람이라면 이 사실이 새삼스럽지 않을 것입니다. 그러나 총체적으로 볼 때, 지속적으로 가속화되는 이러한 개선 속도는 현재 모델의 이미 인상적인 기능에 대한 관점보다 생성형 AI 하이프(hype)에 대한 사례를 더 잘 나타냅니다.

한 연구에 따르면 알고리즘 개선 속도는 연간 약 400%에 달하는 것으로 추정됩니다.즉, 컴퓨팅의 동시적 향상(무어의 법칙 참고)이나 합성 학습 데이터를 고려하지 않더라도, 현재 결과를 1년 후에는 4분의 1 수준의 컴퓨팅으로도 달성할 수 있다는 의미입니다. 약 1조 8천억 개의 매개변수를 가진 것으로 알려진 초기 GPT-4는1 코딩 성능의 인기 벤치마크인 HumanEval에서 67%의 점수를 달성했습니다. 2년 후에 출시된 IBM Granite 3.3 2B Instruct는 900배 더 작은 크기80.5%의 점수를 달성했습니다.

이처럼 모델 효율성의 기하급수적인 향상은 무엇보다도 AI 에이전트 시대의 도래를 가속화하고 있습니다. 대규모 언어 모델(LLM)은 단순히 성능이 높아지는 것을 넘어 더욱 실용적으로 진화하고 있으며, 이를 통해 다양한 모델이 협력하여 복잡한 작업을 자율적으로 계획, 실행, 조정하는 다중 에이전트 시스템을 추론 비용의 급증 없이 구현할 수 있게 되었습니다.

더욱 합리적인 추론 모델

OpenAI의 o1이 출시되면서 모델 성능 향상을 위한 새로운 가능성이 열렸습니다. 고도로 기술적인 수학 및 코딩 벤치마크에서 이전의 최첨단 성능을 뛰어넘는 획기적인 개선으로, 이른바 '추론 모델' 경쟁의 포문을 열었습니다. 논리적 의사 결정 수치가 필요한 작업에 대한 향상된 성능은 에이전틱 AI 개발에 핵심적인 역할을 할 것으로 보입니다. 그러나 AI 기술이 흔히 그렇듯, 초기의 성능 경쟁에 대한 열기는 시간이 지나면서 실제로 얼마나 실용적으로 구현할 수 있는지를 찾는 것으로 바뀌었습니다.

추론 모델에 대해 가지고 있는 직관은 테스트 시간 컴퓨팅(결과 생성에 사용)을 확장하면 훈련 시간 컴퓨팅(모델 훈련에 사용)을 확장하는 것만큼 모델 성능을 향상시킬 수 있다는 연구 결과에서 비롯되었습니다. 이러한 인사이트는 최종 결과물에 앞서 더 길고 복잡한 '사고 과정'을 생성하도록 장려하는 방식으로 모델을 미세 조정하는 기법, 즉 추론 스케일링이라고 부르는 기법에서 나타났습니다.

그러나 추론 확장은 추론 비용과 지연 시간의 증가를 의미하기도 합니다. 모델이 최종 응답을 생성하기 위해 '생각'하는 동안 생성되는 모든 토큰에 대해 사용자는 비용을 지불하고, 기다려야 하며, 이때 생성되는 토큰은 사용 가능한 컨텍스트 창을 차지하게 됩니다. 이러한 추가 시간과 컴퓨팅이 타당한 사용 사례도 있지만, 리소스 낭비인 시나리오도 많이 있습니다. 그러나 작업이나 프롬프트마다 표준 모델과 추론 모델을 번갈아 사용하는 방식은 현실적으로 어렵습니다.

이에 대한 현재의 해법은 바로 ‘하이브리드 추론 모델’입니다. 지난 2월 IBM Granite 3.2는 사용자가 필요할 때 추론을 활용하고, 필요하지 않을 때는 효율성을 우선할 수 있도록 '사고(thinking)' 모드를 전환할 수 있는 최초의 LLM으로 출시되었습니다.3 같은 달 말에는 Anthropic의 Claude 3.7 Sonnet이 뒤를 이어, API 사용자가 모델이 '사고'에 투자하는 시간을 세밀하게 조정할 수 있는 기능을 추가했습니다.4 Google은 Gemini 2.5 Flash에 유사한 모듈식 '사고' 기능을 도입했습니다.5 Alibaba의 Qwen3 역시 IBM Granite와 마찬가지로 사고 기능의 켜짐/꺼짐 설정을 지원합니다.

현재 진행 중인 연구는 추론 모델이 '사고'하는 동안 실제로 어떤 과정이 일어나는지, 그리고 확장된 생각의 연결고리(CoT) 방식의 확장된 사고 추적이 결과에 실질적으로 어떤 영향을 미치는지를 밝히는 데 초점이 맞춰져 있습니다. 4월에 한 논문은 일부 작업의 경우 모델이 생각을 출력하지 않아도 효과적으로 작동할 수 있음을 시사했습니다. 그보다 앞서 발표된 Anthropic 연구에서는 사용자에게 표시되는 CoT 결과가 실제 모델의 '사고' 과정을 온전히 반영하지 않을 수 있다고 주장했습니다.

디지털 리소스의 고갈

AI 개발은 오랜 시간 동안 Wikipedia 및 GitHub와 같은 오픈 소스 지식 저장소를 활용하는 데 크게 의존해 왔으며, 앞으로 그 중요성은 더욱 커질 것으로 보입니다. 특히 최근 주요 AI 개발자들이 불법 도서 토렌트를 활용해 모델을 학습시켜 왔다는 사실이 드러나면서, 이러한 비공식 소스의 사용은 제약을 받을 가능성이 커졌기 때문입니다. 이로 인해 귀중한 오픈 소스 리소스를 운영하는 조직들은 이미 상당한 부담을 겪고 있습니다.

합법 여부와 관계없이 데이터 수집이 지식재산권에 미치는 악영향에 대해서는 이미 수많은 소송을 통해 사회적 인식이 높아졌지만, AI 시스템의 데이터에 대한 갈망이 지식 저장소에 어떤 해를 끼치는지에 대해서는 상대적으로 조명이 적습니다. Wikimedia Foundation은 지난 4월 봇 트래픽 관련 성명에서 "Wikimedia의 콘텐츠는 무료이지만, 인프라는 그렇지 않다"고 언급했습니다. 특히 Wikimedia는 생성형 AI 모델 학습을 위한 데이터를 수집하는 스크래핑 봇으로 인해 지속 불가능한 웹 트래픽의 맹공격을 경험했습니다. 2024년 1월 이후, Wikimedia의 멀티미디어 콘텐츠를 다운로드하는 데 사용되는 대역폭은 50% 증가했습니다.

트래픽 양의 증가 자체도 문제이지만, 보다 심각한 것은 트래픽의 특성이 한정된 리소스에 불균형적인 부담을 준다는 점입니다. 인간의 브라우징 행동은 예측 가능합니다. 트래픽은 인기 있는 페이지에 집중되고 논리적 패턴을 따르기 때문에 대역폭을 효율적으로 할당하는 자동화 및 캐싱 전략이 가능합니다. 그러나 인간과 달리 봇은 접근 빈도가 낮은 페이지를 무작위로 크롤링하기 때문에 데이터 센터가 직접 처리해야 하는 경우가 많습니다. 이는 평상시에도 비용이 많이 들고 비효율적일 뿐만 아니라 인프라가 실제 사용량 급증에 대응해야 하는 상황에서는 잠재적으로 재앙이 될 수 있습니다.

Ars Technica의 보고에 따르면, 이 문제는 이미 광범위하게 확산되어 있으며 많은 이들이 고의적인 약탈 행위로 간주하는 봇 크롤러와 그 운영 기업의 행태로 인해 더욱 악화되고 있습니다. 예를 들어, Perplexity는 robots.txt를 무단으로 우회하거나, 심지어 유료 콘텐츠 접근 제한까지 회피하며 데이터를 수집했다는 비판을 받고 있습니다. 웹사이트가 봇의 접근을 제한하면 이들은 IP를 바꾸거나, 차단된 ID 대신 새로운 식별 문자열을 사용해 우회합니다. 한 오픈 소스 인프라 관리자는 전체 네트워크 트래픽의 약 25%가 ChatGPT 봇에서 발생하고 있다는 점을 지적하며, 이를 “말 그대로 인터넷 전체에 대한 디도스 공격”이라고 표현했습니다.

이에 따라 많은 프로젝트에서 방어 조치를 적극적으로 추진하고 있습니다. 오픈소스 프로젝트 중 하나인 아누비스(Anubis)는 봇이 액세스 권한을 얻기 전에 계산 퍼즐을 풀도록 강제합니다. 또 다른 프로젝트인 네펜테스(Nepenthes)는 AI 크롤러를 '무한 미로'로 내보냅니다. 저명한 웹 인프라 제공업체인 Cloudflare는 최근 비슷한(덜 공격적이기는 하지만) 접근 방식을 사용하는 “AI Labyrinth”라는 기능을 출시했습니다. 위키미디어는 구조적 솔루션을 목표로 하는 새로운 이니셔티브인 'WE5: 인프라의 책임 있는 사용'을 준비하고 있습니다.

상업용 AI 개발과 오픈 지식 저장소가 상호 적합한 프로토콜을 공동으로 개발하는 능력은 AI의 미래뿐만 아니라 인터넷 자체의 미래에도 엄청난 영향을 미칠 것입니다.

전문가 혼합 모델의 귀환

전문가 혼합(Mixture of Experts, MoE) 모델의 개념은 1991년까지 거슬러 올라가지만, 2023년 말 Mistral AI가 Mixtral 모델을 출시하기 전까지는 자연어 처리(NLP)나 생성형 AI 분야에서 본격적으로 주류에 편입되지 못했습니다.6 MoE 모델과 아키텍처는 큰 주목을 받았고, OpenAI의 GPT-4가 MoE 기반이라는 소문도 있었지만(공식적으로 확인된 바는 없음), 업계 전반에 기존의 '고밀도' LLM 중심 흐름을 벗어나게 할 만큼의 전환점을 제공하지는 못했습니다.

이러한 흐름은 DeepSeek-R1의 등장을 계기로 변화한 것으로 보입니다. DeepSeek-R1과 그 기반이 된 DeepSeek-V3 기본 모델은 이미 입증된 계산 효율성에 더해, MoE 모델이 최신 성능까지 구현할 수 있음을 명확히 보여주었습니다.

Meta Llama 4, 알리바바의 Qwen3, IBM Granite 4.0 등 차세대 모델들이 이 아키텍처를 사용하는 것을 보면 희소성 MoE 모델에 대한 관심이 다시 높아지고 있음을 알 수 있습니다. 폐쇄형 모델 아키텍처에 대한 정보는 거의 공개되지 않지만 OpenAI, Anthropic 또는 Google과 같은 일부 주요 폐쇄형 모델이 MoE일 가능성도 있습니다.

앞으로 몇 년간 모델의 용량과 성능이 점점 더 보편화됨에 따라, 희소 모델이 제공하는 추론 속도와 효율성이 더욱 중요한 요소로 부상할 가능성이 큽니다.

AI 담론에 비해 실제 활용은 더딤

미래는 항상 예측하기 어렵습니다. 이전 세대의 AI 모델이 빠른 속도로 개선되면서 많은 사람들이 2025년에 출시될 모델이 인공 일반 지능(AGI)을 향한 의미 있는 단계를 밟을 것으로 기대하고 있었습니다. OpenAI, Meta, 그리고 AI 분야에서 가장 많은 투자를 받은 다른 업체들의 최신 모델들이 인상적인 것은 분명하지만, 혁신적이라고 하기에는 확실히 부족합니다.

실제로 구현되는 양상을 보면 그 진전되는 정도가 균일하지 않습니다. 2023년 말에 조직의 AI 도입 전망에 대해 낙관적이었던 많은 비즈니스 리더는 2024년에 이르러 조직의 IT 인프라가 아직 AI를 확장할 준비가 되지 않았다는 사실을 깨달았습니다.

AI가 일상적이고 반복적인 업무를 대신 수행하고, 인간은 더 큰 그림과 창의적 사고에 집중할 수 있게 해줄 것이라는 말은 AI 분석가들 사이에서 흔히 들리는 이야기입니다. 그러나 지금까지의 AI 도입 데이터를 보면, 현실은 꼭 그렇지만은 않습니다. IBM 기업가치연구소(IBV)에서 실시한 연구에 따르면, 적어도 소매 공급망에서는 그 반대의 양상이 나타났습니다. 소매업체의 88%가 생성형 AI를 ‘창의적 아이디어 도출 및 구상’에, 74%가 ‘콘텐츠 제작 및 편집’에 활용하고 있다고 응답했습니다. 반면 대부분의 일상적인 작업은 여전히 인간의 영역입니다. 소매업체의 23%만이 채널별 콘텐츠 변형을 생성하는 데 생성형 AI를 사용하고 있으며, 10%만이 지역별 콘텐츠 변형을 생성하는 데 생성형 AI를 사용하고 있습니다.

대체로 조직이 AI 도입을 적극적으로 추진하지 않는 것은 아닙니다. 새로운 IBV 보고서에 따르면 특히 AI 에이전트와 관련하여 조직이 AI 도입을 적극적으로 추진하고 있는 것은 분명하지만, 그 과정이 간단하고 순차적이지 않다는 것입니다. 실험에서 정식 운영으로 전환하는 과정은 결코 순탄하지 않습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

앞으로의 전망

2025년 하반기부터 내년 초에 걸쳐, 생성형 AI 시대의 초창기부터 이어져 온 현상 유지의 일부를 실질적으로 변화시킬 기반이 마련될 것으로 보입니다.  

AI 벤치마크 포화 및 다양화

근본적으로 AI 성능을 완벽하게 측정할 수 있는 벤치마크(또는 벤치마크 세트)는 존재하지 않습니다. 모든 벤치마크는 굿하트의 법칙(Goodhart’s Law)의 영향을 받습니다. 즉, “어떤 척도가 목표가 되는 순간, 더 이상 유효한 척도가 될 수 없다”는 것입니다. 그럼에도 불구하고, 모델 개발자와 특정 AI 솔루션 또는 모델을 선택해야 하는 비즈니스 리더에게는 표준화되고 투명하게 운영되는 성능 측정 기준이 존재하는 것이, 객관적인 비교를 가능하게 한다는 점에서 유리합니다.

업계에서 처음으로 '표준' 벤치마크 세트를 통합한 것은 Hugging Face의 Open LLM 리더보드에서 사용한 벤치마크였습니다. 벤치마크가 포화 상태에 이르렀을 때, 즉 대부분의 모델이 비슷하게 높은 평가 점수를 받아 차별화가 어려워지자 리더보드는 2024년 6월에 훨씬 더 까다로운 새로운 평가 기준을 채택했습니다. 이번에도 오픈 소스 모델과 폐쇄형 모델 모두 'V2' 리더보드의 평가 벤치마크를 사용하여 성능을 평가하는 것으로 통합되었습니다. 하지만 2025년 3월, Hugging Face는 Open LLM 리더보드를 완전히 폐기했습니다.

리더보드가 폐지되고, 그동안 이를 중심으로 사용되던 표준 벤치마크 세트에서 점차 벗어나게 되면서, AI 모델을 활용하고 성능을 평가하는 방식은 더욱 다양화되었습니다. 이러한 변화는 결과이자 동시에 원인이기도 합니다.

  • 코딩이나 수학 등 특정 도메인에 특화된 모델의 경우, 도메인과 관련된 평가 결과만을 보고하고, 일반적인 또는 도메인 외 벤치마크는 생략하는 것이 가장 효과적일 수 있습니다.
  • 멀티모달 AI 모델은 리더보드 벤치마크에서 평가하는 텍스트 관련 작업뿐만 아니라 다른 작업에 대해서도 성능을 입증해야 합니다. 멀티모달 모델 개발자는 수십 개의 숫자로 독자를 압도하는 대신 가장 관련성이 높거나 유리하다고 생각되는 평가를 보고하도록 선택할 수 있습니다.
  • 특정 벤치마크 데이터 세트는 너무 오랫동안 사용되어 왔기 때문에 일부 작업이 이제 의도적이든 아니든 모델 학습 데이터 세트로 유출되었을 수 있으며, 이로 인해 평가 자체가 손상될 수 있습니다.
  • AI의 특정 용도에 따라 일부 벤치마크는 중요하지 않을 수 있습니다. 예를 들어, 모바일 앱에 배포하는 데 최적화된 모델이나 간단한 AI 에이전트가 GPQA(박사 학위 수준의 지식을 측정)에서 낮은 성능을 발휘하는지 여부는 중요하지 않습니다.

정량적 평가보다는 인기 있는 챗봇 아레나와 같은 보다 정성적인 모델 비교 방법을 사용하는 데 탄력이 붙고 있지만, 이 역시 불완전합니다. 최근 여러 저명한 학계 및 오픈 소스 연구자들이 발표한 논문에서는 가장 큰 모델 제공업체에 유리한 Chatbot Arena 관행이 있으며, 이는 몇 가지 문제를 안고 있다고 주장했습니다. 해당 논문은 Llama 4 출시 당시 Meta가 Chatbot Arena를 조작했다는 의혹이 제기된 이후 발표되었습니다.

현실적으로 가장 좋은 벤치마크는 없습니다. 가장 좋은 방법은 조직이 관심 있는 업무의 성과를 가장 잘 반영하는 자체 벤치마크를 개발하는 것 입니다. 기업에서는 IQ 테스트만으로 직원을 채용하지 않을 것이며, 표준화된 테스트만을 기준으로 모델을 선택해서는 안 됩니다.

트랜스포머 초월

2017년에 처음 소개된 트랜스포머(transformer) 모델은 생성형 AI 시대를 여는 데 핵심적인 역할을 했으며, 이미지 생성부터 시계열 예측, LLM에 이르기까지 오늘날 대부분의 AI 시스템의 기반이 되고 있습니다. 트랜스포머가 당장 사라질 가능성은 없지만, 이제는 공존이 예상되는 시점에 접어들고 있습니다.

트랜스포머에는 치명적인 한계가 존재합니다. 바로, 컨텍스트 길이에 따라 연산 요구량이 제곱 단위로 증가한다는 점입니다. 다시 말해, 컨텍스트 길이가 두 배가 되면, 셀프 어텐션(self-attention)이 소모하는 리소스는 두 배가 아니라 네 배가 됩니다. 이와 같은 ‘제곱 병목(quadratic bottleneck)’은 특히 긴 시퀀스를 처리하거나, 확장된 대화 내 이전 정보를 통합할 때 기존 LLM의 속도와 효율성에 근본적인 제약을 가하게 됩니다. 트랜스포머 아키텍처의 지속적인 최적화를 통해 더 강력한 최신 모델들이 꾸준히 등장하고는 있지만, 그만큼 비용 또한 기하급수적으로 증가하고 있습니다.

2023년에 처음 도입된 Mamba는 완전히 다른 유형의 모델 아키텍처, 특히 상태 공간 모델로서 LLM의 세계에서 트랜스포머가 처음으로 본격적인 경쟁을 펼칠 준비가 되어 있습니다. 이 아키텍처는 대부분의 언어 모델링 작업(퓨샷 프롬프트와 같은 상황 내 학습 작업 제외)에서 트랜스포머를 매칭할 수 있는 것으로 입증되었으며, 계산 요구 사항은 컨텍스트 길이에 따라 선형적으로 확장됩니다. 간단히 말해, 트랜스포머의 셀프 어텐션(self-attention) 메커니즘은 모든 토큰을 살펴보고 어떤 토큰에 주의를 기울일지 반복적으로 결정해야 하지만, Mamba의 선택성(selectivity) 메커니즘은 중요하다고 판단되는 토큰만 유지한다는 점에서 본질적으로 더 효율적인 방식입니다.

트랜스포머나 맘바(mamba)의 경우, AI의 미래는 ‘양자택일’의 문제가 아닐 가능성이 큽니다. 실제로 연구 결과에 따르면, 이 둘을 결합한 하이브리드 구조가 각각 단독으로 사용될 때보다 더 우수한 성능을 보이는 것으로 나타났습니다. 지난 1년간 여러 맘바 기반 또는 맘바/트랜스포머 하이브리드 모델이 공개되었으며, 대부분은 학술 연구용 모델이었지만 Mistral AI의 Codestral Mamba나 AI2I의 하이브리드 Jamba 시리즈처럼 실용적인 활용 사례도 등장했습니다. 최근에는 IBM의 차기 Granite 4.0 시리즈가 트랜스포머와 Mamba-2 아키텍처를 결합한 하이브리드 형태로 출시될 예정입니다.

가장 중요한 것은 Mamba 및 하이브리드 모델의 하드웨어 요구 사항이 감소하여 하드웨어 비용이 크게 절감되어 AI 액세스를 지속적으로 대중화하는 데 도움이 될 것이라는 것입니다.

구현된 AI 및 세계 모델

멀티모달 AI 모델의 등장은 LLM이 텍스트를 넘어 다양한 형태로 확장하는 것을 의미하며, AI 개발의 다음 단계는 이러한 멀티모달 기능을 물리적 세계로 확장하는 데 초점을 맞추고 있습니다.

이 새로운 분야는 주로 '구현형 AI'라는 제목에 속합니다. 벤처 캐피털 회사들은 Skild AI, Physical Intelligence, 1X Technologies와 같은 고급 생성형 AI 기반 휴머노이드 로봇을 추구하는 스타트업에 점점 더 많은 자금을 쏟아붓고 있습니다.

또 다른 연구 흐름은 언어, 이미지, 비디오 데이터와 같은 매개체를 통해 현실을 간접적이고 개별적인 방식으로 모델링하는 기존 방식에서 벗어나, 실제 세계와의 상호작용을 보다 직접적이고 총체적으로 모델링하는 ‘세계 모델(world models)’에 초점을 맞추고 있습니다. 현대 컴퓨터 비전의 기반을 마련한 ImageNet 데이터 세트로 잘 알려진 스탠퍼드의 페이페이 리(Fei-Fei Li) 교수가 이끄는 스타트업 World Labs는 지난해 말 2억 3천만 달러(USD)를 투자 유치했습니다.

이 분야의 일부 랩에서는 비디오 게임과 같은 '가상 세계'에서 실험을 수행하고 있습니다. 예를 들어 Google DeepMind의 Genie 2는 "무궁무진한 다양한 동작을 제어하고 재생 가능한 3D 환경을 생성할 수 있는 파운데이션 세계 모델입니다. 비디오 게임 산업은 당연히 세계 모델의 경제적 잠재력의 첫 번째 직접적인 수혜자가 될 수 있습니다.

Meta의 수석 AI 과학자이자 딥 러닝의 3대 '대부'7 중 한 명인 얀 르쿤(Yann LeCun)을 비롯한 많은 주요 AI 전문가들은 LLM이 아닌 세계 모델이 AGI로 가는 진정한 길이라고 믿습니다. 르쿤은 공개 석상에서 모라벡의 역설(Moravec’s paradox), 즉 AI에서 복잡한 추론 능력은 간단하지만 어린이가 쉽게 할 수 있는 단순한 감각 운동과 지각 작업은 그렇지 않다는 반직관적인 개념을 자주 언급합니다.8

이와 같은 맥락에서, AI를 로봇에 구현하고 유아에게 사물을 가르치듯 훈련시키며, 단순히 단어가 아니라 개념을 이해할 수 있도록 학습시키는 흥미로운 연구도 이어지고 있습니다.

개인정보 보호 vs. 개인화된 AI

AI 에이전트의 장기적 전망은 AI를 사용하여 사람의 개입 없이 복잡한 상황별 작업을 자율적으로 수행할 수 있다는 것입니다. AI 에이전트는 유능한 직원이나 보조자가 하는 것처럼 특정 작업장이나 상황의 구체적이고 복잡한 요구 사항에 맞게 의사 결정을 개인화할 수 있으려면 업무를 통해 학습해야 합니다. 즉, AI가 생성한 모든 상호 작용과 그 진행 방식에 대한 강력한 기록을 유지해야 합니다.

그러나 모든 상호 작용에 대한 영구적인 메모리를 수집하고 유지하는 것은 특히 오픈 소스 모델을 로컬에 배포하는 것과 달리 클라우드에 배포된 폐쇄형 모델로 작업할 때 AI의 디지털 개인정보 보호의 핵심 개념과 상충될 수 있습니다.

예를 들어, 지난 4월 OpenAI는 “사용자의 일생을 통해 사용자를 알아가는 AI 시스템”을 개발한다는 OpenAI의 목표에 따라 ChatGPT가 이제 사용자의 모든 대화를 자동으로 기억하게 될 것이라고 발표했습니다. 지만 이 기능은 유럽연합, 영국, 스위스, 노르웨이, 아이슬란드, 리히텐슈타인에서는 제공되지 않았는데, 이는 해당 국가의 기존 개인정보 보호법 및 AI 규정에 위배되기 때문인 것으로 추정됩니다.9

AI 모델이 사용자와의 모든 개인화된 상호작용을 저장할 뿐 아니라, 이를 추가 학습 및 최적화에 활용하는 개념이 '잊혀질 권리'와 같은 GDPR의 핵심 원칙과 근본적으로 양립 가능한지 여부는 아직 불확실합니다.

AI 동료와 정서적 결과

실제로 AI, 특히 AI 에이전트의 미래는 점점 더 개인적이 될 것입니다. AI의 영향이 기술적, 경제적 고려 사항을 넘어 심리적 영역으로 확대될 가능성이 있습니다.

2024년 말, Microsoft AI CEO 무스타파 술레이만은 블로그 게시물에서 “모든 사람을 위한 AI 동반자를 만들겠다”는 회사의 목표를 선언했습니다. 최근 팟캐스트 인터뷰에서 메타의 CEO 마크 저커버그는 미국의 외로움에 대한 해결책으로 'AI 친구'를 제안했습니다.10 점점 더 많은 스타트업이 AI 동료를 출시하고 있습니다.

이는 인간이 초기의 단순한 챗봇에도 감정적으로 애착을 느껴온 역사적 성향에서 비롯된 본질적인 위험성을 내포하고 있습니다. 오늘날 수백만 명의 사용자가 개인화된 챗봇과 일상적으로 상호작용하고 있는 상황에서, AI 동료에 대한 감정적 애착의 위험은 피하기 어렵고, 그로 인한 복잡하고 중대한 결과가 뒤따를 가능성이 큽니다.

앞으로 나아가기

인공지능 분야에서 중요한 한 해를 지나고 있는 지금, 잠재력을 극대화하고 위험을 최소화하며 생성형 AI 도입을 책임감 있게 확장하려면 새로운 트렌드를 이해하고 이에 적응하는 것이 필수적입니다.

관련 솔루션
IBM® watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai 살펴보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
인공 지능(AI) 컨설팅 및 서비스

IBM Consulting AI 서비스는 기업이 AI 활용 방식을 재구상하여 혁신을 달성하도록 지원합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약
각주

¹ "GPT-4 architecture, datasets, costs and more leaked," The Decoder, 2023년 7월 11일
² "IBM Granite 3.3 2B model card"Hugging Face, 2025년 4월 16일
³  "Bringing reasoning to Granite," IBM, 2025년 2월 7일
⁴ "Claude 3.7 Sonnet and Claude Code," Anthropic, 2025년 2월 24일
⁵  "Gemini Thinking," Google, 2025년.
⁶ "Adaptive Mixtures of Local Experts," Neural Computation, 1991년 3월 1일
⁷ "Turing Award 2018: Novel Prize of computing given to 'godfathers of AI'," The Verge, 2019년 3월 27일
⁸ @YLeCun on X (formerly Twitter), via XCancel, 2024년 2월 20일
⁹ "ChatGPT will now remember your old conversations," The Verge, 2025년 4월 11일
¹⁰ "Meta CEO Mark Zuckerberg Envisions a Future Where Your Friends Are AI Chatbots—But Not Everyone Is Convinced," Entrepreneur, 2025년 5월 8일