컴퓨팅 및 서버 LinuxONE Integrated Accelerator for AI on IBM LinuxONE
데이터와 함께 배치된 고성능 AI 추론
블로그 읽기
식물이 자라는 모습, 분석을 수행하는 AI, 보안을 뜻하는 방패로 구성된 일러스트

통합 AI 가속기는 IBM Telum 프로세서의 기능으로 제공됩니다. 다른 범용 코어와 마찬가지로 패브릭에 직접 연결되고 메모리 일관성이 있는 온칩 처리 장치입니다. 코로케이션을 통해 AI와 데이터 간의 지연시간을 최소화하여 AI 추론 성능을 향상합니다.

IBM ZLinuxONE 시스템용으로 설계된 IBM Telum 칩은 IBM z15와 비교할 때 소켓당 40%1 이상 개선된 성능을 자랑합니다. 전용 온칩 AI 가속기를 도입하여 일관되게 짧은 지연시간과 높은 처리량의 추론 용량을 보장합니다. 이 가속기는 소프트웨어 오케스트레이션과 라이브러리 복잡성을 줄이고, 가속화된 AI 프로세서는 기업의 AI 통합을 혁신하여 하이브리드 클라우드 환경 전반에서 타의 추종을 불허하는 성능으로 실시간 인사이트를 제공합니다.

IBM LinuxONE에서 AI를 사용하여 비즈니스 성장 실현

이 웨비나에서는 IBM LinuxONE이 산업 전반에서 AI의 새로운 활용 사례를 발굴하는 데 어떻게 도움이 되는지 설명합니다.

기능 Telum은 차세대 LinuxONE 시스템을 위한 중앙 프로세서 칩입니다. IBM Telum의 AI 가속기 아키텍처, 마이크로아키텍처, 시스템 스택으로의 통합, 성능 및 전력에 대해 자세히 알아보세요. LinuxONE용 차세대 마이크로프로세서에 대해 읽어보세요. 실시간 인사이트 향상

가속기는 메모리 일관성을 유지하고 다른 범용 코어와 마찬가지로 패브릭에 직접 연결할 수 있어 시스템의 트랜잭션 속도를 충족하면서 지연시간이 짧은 추론을 지원합니다. 이 기능을 통해 기업은 우수한 성능으로 실시간 인사이트를 통합할 수 있습니다.

AI 워크로드 문제 해결

AI를 엔터프라이즈 워크로드에 통합하면 플랫폼에서 실행할 때 낮은 처리량으로 인해 어려움을 겪는 경우가 많습니다. 그러나 온칩 AI 가속기는 32칩 시스 에서 200TFLOPS를 초과하는 추론 용량으로2 높은 처리량을 제공합니다.

향상된 성능

Telum 칩에는 온칩 AI 가속 기능이 포함되어 있어 추론 속도와 확장성을 높입니다. AI 가속기는 글로벌 은행의 사기 탐지 모델에서 초당 116,000건의 추론과 1.1msec의 지연시간으로 범용 코어에 비해 22배 빠른 속도를 증명했습니다. 최대 32개의 칩으로 확장하면 1.2msec의 짧은 지연시간을 유지하면서 초당 350만 회 이상의 추론을 수행할 수 있습니다3.

사용 사례 사기 탐지

비플랫폼 스코어링 엔진과 관련된 네트워크 지연시간 및 확장성 제한을 극복하여 실시간 트랜잭션 스코어링의 과제를 해결하세요. 이를 통해 거래 보안이 크게 향상되어 사기로부터 성공적으로 보호되는 거래 비율을 크게 높일 수 있습니다. 

의료 영상

컴퓨팅 비전 및 딥 러닝 이미지 분석 모델을 사용하여 의료 기록을 신속하게 처리하고 확인하여 보험 청구를 거의 실시간으로 검증할 수 있습니다. 이 접근 방식은 코어 통합을 최적화하여 처리 속도와 효율성을 개선합니다.

ISV 애플리케이션

IBM은 IBM LinuxONE 에코시스템과 협력하여 ISV가 오늘날의 AI, 지속가능성 및 사이버 보안 문제에 대한 솔루션을 제공할 수 있도록 지원합니다.

금융 및 의료 기관을 위해 맞춤화된 두 가지 혁신적인 솔루션을 살펴보세요. 실시간 사기 방지를 위한 IBM LinuxONE 4 Express의 Clari5 Enterprise Fraud Management와 대규모 고급 AI 솔루션을 위한 Exponential AI의 Enso Decision Intelligence Platform on LinuxONE을 소개합니다.

Clari5

Clari5 Enterprise Fraud Management Solution on IBM LinuxONE 4 Express는 실시간 사기 방지를 위한 강력한 의사 결정 엔진을 금융 기관에 제공합니다. 전례 없는 속도와 확장성을 제공하는 동시에 트랜잭션을 모니터링, 감지 및 영향을 미치도록 설계되어 규정 준수를 보장하고 생산성을 개선합니다.

Exponential AI

Exponential AI의 Enso Decision Intelligence Platform on LinuxONE은 실시간에 가까운 AI 솔루션을 대규모로 구축, 학습, 조정 및 관리할 수 있는 최첨단 기능을 제공합니다. 이 플랫폼은 Exponential AI가 개발한 지능형 자동화 솔루션을 제공하여 국내 주요 건강 보험 지급자가 복잡한 거래에서 겪는 문제를 해결합니다.

Telum을 활용하는 소프트웨어
모델 개발 역량 강화 TensorFlow

TensorFlow는 모델 개발, 학습 및 추론을 위한 포괄적인 도구 세트를 제공하는 오픈 소스 머신 러닝 프레임워크입니다. 풍부하고 강력한 에코시스템을 자랑하며 Linux에서 실행되는 LinuxONE 환경과 호환됩니다.

TensorFlow 및 TensorFlow Serving 살펴보기

효율적인 머신 러닝 IBM SnapML

IBM SnapML은 널리 사용되는 머신 러닝 모델의 고속 학습 및 추론을 위해 설계된 라이브러리입니다. IBM Integrated Accelerator for AI를 활용하여 Random Forest, Extra Tree 및 Gradient Boosting Machine 모델의 성능을 향상시킵니다. IBM Z 및 LinuxONE 및 IBM CloudPak for Data용 AI 툴킷의 일부로 사용할 수 있습니다.

IBM Snap Machine Learning 살펴보기

추론 최적화 Triton Inference Server

Triton Inference Server는 Nvidia에서 개발한 오픈 소스 모델 서버로, CPU 및 GPU 장치 모두에서 모델 추론을 지원합니다. s390x(Linux on Z)를 포함하여 다양한 플랫폼과 아키텍처에서 널리 사용되고 있습니다. 특히 Triton은 Linux on Z에서 AI 프레임워크를 활용하여 SIMD 아키텍처와 IBM Integrated Accelerator for AI를 모두 사용하여 성능을 최적화할 수 있습니다.

Triton Inference Server 살펴보기
데이터 과학자의 역량 강화 IBM Z 딥 러닝 컴파일러

IBM Z Deep Learning Compiler는 데이터 과학자가 익숙한 도구와 프레임워크를 사용해 딥 러닝 모델을 개발할 수 있는 강력한 도구입니다. 미션 크리티컬 데이터가 있는 Linux on IBM Z에 이러한 모델을 배포할 수 있습니다. 이 컴파일러는 새로운 Telum 프로세서의 Integrated Accelerator for AI를 기존 모델에서 빠르고 쉽게 활용할 수 있도록 지원합니다.

IBM Z Deep Learning Compiler 살펴보기
휴대용 모델 형식
오픈 신경망 교환

오픈 신경망 교환(ONNX)은 머신 러닝 모델을 표현하기 위해 만들어진 개방형 형식입니다. ONNX는 머신 러닝 및 딥 러닝 모델의 구성 요소인 공통 연산자 집합과 공통 파일 형식을 정의하여 AI 개발자가 다양한 프레임워크, 도구, 런타임 및 컴파일러에서 모델을 사용할 수 있도록 지원합니다.

ONNX 살펴보기
통합 솔루션

IBM Z 및 LinuxONE 시스템에 맞춤화된 원활한 AI 통합 솔루션을 살펴보세요. 

AI 성능 향상

AI Toolkit for IBM Z and LinuxONE은 IBM Elite Support에서 지원하는 다양한 인기 오픈 소스 AI 프레임워크로 구성되어 있습니다. IBM Z Integrated Accelerator for AI를 사용하도록 최적화되어 오픈 소스 및 IBM 비보증 AI 프로그램의 성능을 크게 개선합니다.

AI Toolkit for IBM Z and LinuxONE 살펴보기
AI 워크로드 최적화

AI Bundle for IBM LinuxONE은 최적화된 코어 소프트웨어 스택을 갖춘 전용 AI 하드웨어 인프라를 제공합니다. 기업은 IBM Telum 프로세서의 성능과 Integrated Accelerator for AI를 활용하여 대용량 워크로드에 대한 추론을 대규모로 수행할 수 있습니다.

IBM LinuxONE용 AI 번들 살펴보기
데이터 관리 간소화

IBM Cloud Pak for Data는 데이터 분석, 구성 및 관리를 위해 설계된 통합 소프트웨어 구성 요소의 모듈식 세트입니다. 하이브리드 클라우드 환경에 분산된 사일로 데이터를 연결하는 데이터 패브릭을 구축하여 생산성을 높이고 복잡성을 줄입니다.

IBM Cloud Pak for Data 살펴보기 레드북 읽기
다음 단계 안내

IBM LinuxONE 담당자와의 30분 무료 미팅을 예약하여 AI on IBM LinuxONE에 대해 자세히 알아보세요.

LinuxONE에서 AI로의 여정 시작하기
더 살펴보기 문서 지원 IBM Redbooks 지원 및 서비스 글로벌 파이낸싱 커뮤니티 개발자 커뮤니티 파트너 리소스
각주

1IBM z16의 IBM Telum 프로세서는 IBM z15 프로세서에 비해 소켓당 성능을 40% 이상 향상합니다.
 


면책 조항: 결과는 IBM Telum 프로세서와 IBM z15 프로세서가 제공하는 총 처리 용량에 대한 엔지니어링 분석과 IBM LSPR(Large System Performance Reference)  비율(https://www.ibm.com/support/pages/ibm-z-large-systems-performance-reference에 게시)을 기반으로 합니다. 일반적인 용도로 액세스할 수 있는 프로세서 소켓당 코어 수는 시스템 구성에 따라 다를 수 있습니다. 총 처리 용량은 워크로드, 구성 및 소프트웨어 수준에 따라 달라질 수 있습니다.

2  온칩 AI 가속은 칩의 모든 코어가 공유하는 최대 5.8TFLOPS의 처리 능력을 추가하도록 설계되었습니다.

면책 조항: 결과는 단일 온칩 AI 엔진이 실행할 수 있는 16비트 정밀도의 이론상 최대 초당 부동 소수점 연산(FLOPS) 수입니다. 칩당 하나의 온칩 AI 엔진이 있습니다.

3면책 조항: 성능 결과는 Integrated Accelerator for AI를 사용하는 합성 신용카드 사기 탐지 모델을 사용하여 Ubuntu 20.04(SMT 모드)에서 48코어 및 128GB 메모리를 탑재한 IBM LinuxONE Emperor 4 LPAR에서 Integrated Accelerator for AI를 사용하여 로컬 추론 작업을 실행한 IBM 내부 테스트에서 추정한 것입니다(https://github.com/IBM/ai-on-z-fraud-detection ) 벤치마크는 다른 칩의 첫 번째 코어에 각각 8개의 병렬 스레드를 연결하여 실행되었습니다. 코어 칩 토폴로지를 식별하는 데 lscpu 명령이 사용되었습니다. 추론 작업의 배치 크기는 128개였습니다. 결과는 경우에 따라 다를 수 있습니다.