사이트 신뢰성 엔지니어링(SRE)이란 무엇인가요?

작성자

IBM Staff Writer

Staff Editor, Automation & ITOps

IBM Think

사이트 안정성 엔지니어링(SRE)이란 무엇인가요?

사이트 신뢰성 엔지니어링(SRE)은 고객 문제 해결, IT 운영 작업 자동화, 소프트웨어 제공 속도 향상, IT 위험 최소화를 위해 DevOps와 기존의 IT 운영을 결합한 소프트웨어 엔지니어링 관행입니다.

SRE는 DevOps 주기에서 복원력, 중복성 및 안정성을 지원하고 소프트웨어 프로그램의 일상적인 구현을 처리합니다. 사이트 신뢰성 엔지니어는 일반적으로 50:50 규칙을 따릅니다. 전체 시간의 절반은 이슈 대응이나 긴급 요청 처리 등 고객 문제 해결에, 나머지 절반은 IT 운영을 자동화하는 데 사용합니다. 이러한 작업에는 프로덕션 시스템 관리, 변화 관리, 인시던트 대응 및 비상 대응이 포함됩니다.

SRE 팀은 소프트웨어 개발자가 원하는 프로그램의 작동 방식과 실제 상황에서 작동하는 방식 사이의 격차를 해소합니다. 사이트 신뢰성 엔지니어는 고객과 직접 협력하여 문제를 해결하고 사용자 경험에 대한 데이터를 수집합니다. SRE 팀은 이 데이터를 개발 팀에 다시 제공하여 소프트웨어의 성능과 업데이트가 필요한 사항에 대한 심층적인 인사이트를 제공합니다.

SRE는 장애가 불가피하다는 것을 잘 알고 있습니다. 이들의 역할은 즉각적인 문제의 원인을 근본 원인 분석 등의 프로세스를 통해 식별하는 동시에, 모니터링 및 로깅 데이터를 활용하여 잠재적인 미래의 장애를 예측하는 것입니다. 그런 다음 이러한 문제를 해결하기 위해 자동화를 설정하여 시스템에 복원력과 중복성을 구축합니다.

대규모 소프트웨어 시스템에 대한 이러한 자동화된 감독을 통해 시스템 관리자가 IT 운영 작업을 수동으로 완료해야 할 필요성을 줄일 수 있습니다. 수동 기능을 제거하면 IT 팀이 시간을 절약하고, 운영 작업을 보다 정확하게 실행하고, 애플리케이션 성능을 유지하는 데 집중할 수 있습니다.

사이트 신뢰성 엔지니어링은 어떻게 작동하나요?

사이트 신뢰성 엔지니어는 소프트웨어 개발과 IT 운영 모두에 대한 경험이 필요한 기술직입니다. 이러한 위치를 이해함으로써 SRE 팀은 소프트웨어 개발 수명 주기를 지원하는 역할을 효과적으로 수행할 수 있습니다. SRE는 일관된 프로세스 자동화를 통한 복원력 전략을 기반으로 합니다.

전통적으로 사이트 신뢰성 엔지니어링(SRE) 관행은 IT 운영 및 시스템 관리 작업 수행에 중점을 두었습니다. 이러한 작업에는 로그 분석, 성능 튜닝, 패치 적용, 운영 환경 테스트, 인시던트 관리, 사후 분석 수행 등이 포함됩니다. 이러한 작업은 초기에는 수작업으로 수행되어 시간이 많이 걸리고 사람의 실수가 발생하기 쉬웠습니다. 사이트 신뢰성 엔지니어링의 현대화는 이러한 수작업을 자동화하는 것을 포함합니다.

모니터링과 로깅은 SRE에서 핵심적인 역할을 합니다. SRE 팀은 모니터링 툴을 사용하여 소프트웨어 시스템에서 실시간으로 무슨 일이 일어나는지 추적합니다. 모니터링을 통해 즉각적인 기술 문제를 해결할 수 있으며 팀이 미래의 문제를 예측하고 문제가 발생하기 전에 해결할 수 있습니다.

로그는 시스템 작동 방식에 대한 인사이트를 얻고 시스템 관측 가능성을 개선하기 위해 분석할 수 있는 아카이브 역할을 합니다. 로깅은 SRE 팀이 예상치 못한 오류를 일으킨 일련의 이벤트를 이해하는 데 도움이 되는 로드맵을 만듭니다. 엔지니어는 오류 수정을 자동화하고 오류 재발을 방지할 수 있습니다. 모니터링과 로깅 모두 엔지니어가 장애 지점을 식별하고 자동화를 통해 프로그래밍 방식으로 문제를 해결하는 데 도움이 되므로 수동으로 수정할 필요가 없습니다.

또한 SRE 팀은 카오스 엔지니어링이라는 프로세스를 통해 시스템 결함을 찾습니다. 카오스 엔지니어링은 사이트 신뢰성 엔지니어가 프로덕션 및 사전 프로덕션 환경에서 의도적으로 오류를 일으키기 위해 구현하는 전략입니다. 카오스 엔지니어링의 목적은 프로덕션 장애가 소프트웨어 시스템에 미치는 영향을 이해하고 향후 장애를 완화하기 위한 더 강력한 계획을 개발하는 것입니다.

SRE는 또한 용량 계획에 집중합니다. 이는 핵심 비즈니스 기능을 실행하고, 이를 확장하며, 새로운 애플리케이션과 기능을 개발하는 데 필요한 리소스를 결정하는 프로세스입니다. 또한 SRE 팀은 업데이트 제공 및 새로운 기능 구현을 평가하는 데 사용되는 지표를 설정합니다.

클라우드에 집중  

AI 시대의 멀티클라우드 설정을 최적화하는 방법에 대한 전문가의 안내가 담긴 주간 Think 뉴스레터를 받아보세요.

사이트 신뢰성 엔지니어링 메트릭

사이트 신뢰성 엔지니어는 다음과 같은 다양한 메트릭을 사용하여 서비스 제공의 일관성과 소프트웨어 시스템의 안정성을 추적하는 데 도움을 줍니다.

서비스 수준 계약(SLA)

SLA는 서비스 공급자와 고객 간의 이용 약관을 설정합니다. 이러한 계약에는 성능 수준, 성능 측정을 위해 합의된 지표, 서비스 제공 실패에 따른 영향이 명시되어 있습니다. SLA에 명시된 일반적인 서비스는 가동 시간 또는 서비스를 사용할 수 있는 시간입니다.

오류 예산

오류 예산은 SRE 팀들이 기업의 서비스 신뢰성과 소프트웨어 개발 및 혁신 속도를 자동으로 조정하는 데 사용하는 툴입니다. 오류 예산은 서비스 수준 계약에 따라 오류 위험 수준을 설정합니다.

'99.999% 가용성'으로 알려진 가동 시간 목표 99.999%는 일반적인 SLA 임계값입니다. 월간 오류 예산, 즉 특정 월에 계약상 불이익 없이 허용되는 총 다운타임은 약 4분 23초입니다. 개발 팀이 시스템에 새로운 기능이나 개선 사항을 구현하려는 경우 시스템이 오류 예산을 초과하지 않아야 합니다.

오류 예산은 개발팀과 운영팀이 서비스의 안정성과 성능을 개선하는 데 도움이 됩니다. 또한 새로운 기능이나 애플리케이션 배포에 대한 데이터 기반 의사 결정을 내리고 허용 가능한 한도 내에서 위험을 감수하여 혁신을 극대화하는 데 도움이 됩니다.

서비스 수준 목표(SLO)

SRE 팀은 또한 특정 기간 동안 특정 서비스에 대한 합의된 성능 목표인 서비스 수준 목표(SLO)를 설정하는 데 도움을 줍니다. SLO는 서비스의 예상 상황을 정의하고 이해관계자가 특정 서비스의 상황을 관리하고 SLA를 충족하는 데 도움이 됩니다.

서비스 수준 지표(SLI)

SLO는 서비스 수준 지표(SLI)로 측정됩니다. SLI는 백분율, 평균 또는 비율로 표시되는 정량적 측정값입니다. 여기에는 가동 시간, 지연 시간, 처리량 및 오류율과 같은 서비스의 실제 측정이 포함됩니다.

IBM DevOps

DevOps란 무엇인가요?

Andrea Crawford는 DevOps의 정의, DevOps의 가치, 그리고 DevOps 사례와 툴이 아이디어 구상부터 프로덕션에 이르기까지 전체 소프트웨어 Delivery Pipeline을 통해 앱을 이동하는 데 어떻게 도움이 되는지 설명합니다. 최고의 IBM 사고 리더가 이끄는 이 커리큘럼은 비즈니스 리더가 성장을 주도할 수 있는 AI 투자의 우선순위를 정하는 데 필요한 지식을 얻을 수 있도록 설계되었습니다.

DevOps 살펴보기

SRE와 DevOps

DevOps는 소프트웨어 개발 및 IT 운영 팀의 작업을 결합하고 자동화하여 고품질 애플리케이션 및 서비스 제공을 가속화하는 소프트웨어 개발 방법론입니다. DevOps는 소프트웨어 개발 수명 주기(SDLC)를 자동화하고, 개발 및 운영 팀에 더 많은 공동 책임을 부여하며, 모든 관련 이해 관계자에게 SDLC에 대한 정보를 제공하는 데 도움이 됩니다.

SRE와 DevOps는 사일로를 허물고 보다 효율적이고 신뢰할 수 있는 소프트웨어 제공으로 이어지는 소프트웨어 엔지니어링의 상호 보완적인 전략입니다.

DevOps 팀은 “이 소프트웨어는 무엇을 해야 하는가?”라는 질문에 집중하는 반면, SRE 팀은 “이 소프트웨어를 어떻게 배포하고 유지해야 원하는 대로 작동하게 할 수 있을까?”라는 질문에 답하는 데 중점을 둡니다. SRE 팀은 DevOps 팀에 소프트웨어 성능 데이터에 대한 실제 데이터를 제공하여 소프트웨어 개발의 이론적 세계에 실용적인 데이터의 균형을 제공합니다.

DevOps와 마찬가지로 SRE는 애플리케이션과 변경 사항을 더 빠르게 제공해야 하는 필요성과 프로덕션 환경을 '중단'하지 않아야 하는 필요성 간의 균형을 유지함으로써 기업의 민첩성을 향상시킵니다. DevOps와 SRE는 모두 허용 가능한 오류 위험을 설정하여 이러한 균형을 달성하는 것을 목표로 합니다. DevOps 팀은 업데이트와 새로운 기능 배포에 집중하는 반면, SRE 관행은 확장에 따른 시스템의 안정성을 보호하기 위해 노력합니다.

DevOps 및 SRE 팀은 커뮤니케이션 방법을 간소화하고 지속적인 피드백 루프를 구축합니다. 이러한 루프는 다음과 같이 작동할 수 있습니다. SRE 팀이 오류의 근본 원인을 밝혀내면, 그 결과를 DevOps 팀에 전달하고, DevOps 팀은 이를 바탕으로 소프트웨어의 다음 버전에 대한 업데이트를 개발합니다. 그 사이에 SRE는 자동화를 구축하여 문제를 해결하고 모니터링 및 로깅 데이터를 추적하여 문제가 해결되었는지 확인합니다.

SRE의 이점

사이트 신뢰성 엔지니어링은 DevOps의 성공적 구현 외에도 다음과 같은 이점을 제공합니다.

모든 조직 서비스 전반에 걸쳐 메트릭, 로그, 트레이스를 추적함으로써 서비스 상태에 대한 가시성을 높이고 근본 원인 분석 능력을 강화합니다.
고객과의 일상적인 상호작용 및 사용자 데이터를 DevOps 팀과 협업하여 공유함으로써 소프트웨어 시스템의 신뢰성을 향상시킵니다.
반복적인 수작업을 자동화하여 작업 부담을 줄이고, 오류를 감소시키며, 문제를 보다 정밀하게 해결함으로써 소프트웨어 시스템을 확장합니다.
개발 및 운영 팀이 SLA 위반의 비용을 이해하도록 지원하고, 경영진이 시스템 신뢰성이 생산, 판매, 마케팅, 고객 서비스 등 다양한 비즈니스 기능에 미치는 영향을 정량화할 수 있도록 함으로써 다운타임과 장애의 비용을 수치화합니다.
효율적인 온콜 프로세스를 구축하고 알림 워크플로를 간소화함으로써 인시던트 대응을 최적화합니다.
IT 운영에 대한 깊은 이해와 머신 러닝, 자동화를 결합하여 문제를 해결할 책임이 있는 담당자에게 경고를 직접 전달함으로써 현대적인 네트워크 운영 센터를 구축하세요.

SRE, 클라우드 및 클라우드 네이티브 개발

조직이 기존 IT 및 온프레미스 데이터 센터에서 하이브리드 클라우드로 마이그레이션할 때, 운영 데이터의 양이 종종 더 많아집니다. IT 환경이 점점 더 복잡해짐에 따라, SRE는 이 데이터를 활용해 시스템 관리, 운영, 인시던트 대응을 자동화하고, 기업의 신뢰성을 향상시키는 데 중요한 역할을 합니다.

클라우드 네이티브 개발 접근 방식을 도입해 애플리케이션을 마이크로서비스로 구축하고 컨테이너에 배포하면 애플리케이션 개발, 배포 및 확장성을 단순화할 수 있습니다. 그러나 클라우드 네이티브 개발은 운영 및 관리하기가 복잡한 더 분산된 환경을 만듭니다.

SRE 팀은 클라우드 네이티브 접근 방식을 통한 신속한 혁신을 지원하고 DevOps 팀에 더 많은 운영 부담을 주지 않으면서 시스템 신뢰성을 개선할 수 있습니다.

효율적으로 소프트웨어 제공

소프트웨어 제공 효율성을 개선하는 것은 경제적인 역풍에 직면한 조직에게 매우 중요하며, DevOps 자동화에 중점을 두는 것이 핵심입니다.