읽기 소요 시간
AI 시스템은 이를 개발하는 데 사용되는 데이터만큼만 신뢰할 수 있습니다. 그렇기 때문에 신뢰할 수 있는 고품질 데이터를 사용하는 것이 책임감 있는 AI를 구축하기 위한 중요한 첫 번째 단계입니다. 그러나 데이터 프라버넌스에 대한 투명성, 즉 데이터의 출처, 개발 방법, 법률 및 계약적 관점에서 사용할 수 있는 방법에 대한 세부 정보가 없으면 데이터 세트의 신뢰성을 평가하는 것은 노련한 데이터 전문가에게도 어려울 수 있습니다. 데이터 세트에 대한 표준 메타데이터 분류법이 없다는 것은 데이터 에코시스템 전반에 걸쳐 공통적으로 나타나는 문제입니다.
따라서 Data & Trust Alliance(D&TA)가 최초의 산업 간 데이터 프라버넌스 표준 개발에 착수했을 때 IBM은 이에 기여하고자 했습니다. 2024년 한 해 동안 Microsoft는 초기 테스트 작업을 주도했으며 내부 데이터 표준을 데이터 프라버넌스 표준과 적절히 일치시키기 시작한 최초의 조직 중 하나였습니다. 테스트를 완료하고 데이터 프라버넌스 표준 V1.0이 공식적으로 발표된 지 3개월이 지난 지금, 우리는 데이터 실사 및 관리 프로세스의 전반적인 효율성에 일관되고 정량화 가능한 영향을 확인했습니다.
IBM은 책임감 있게 AI를 개발하고 배포하기 위해 최선을 다하고 있습니다. 그리고 이러한 노력은 AI 시스템을 구축하고 학습하는 데 사용하는 데이터로 확장됩니다. "Client Zero"로서 우리는 엄격한 환경에서 데이터 프라버넌스 표준을 평가하여 그 영향을 진정으로 이해하고 의미 있는 방식으로 테스트하기를 원했습니다. 그래서 표준의 포괄성에 대한 평가부터 시작하여 IBM에서 개발하고 사용하는 데이터 및 모델을 관리하는 자체 IGP(Integrated Governance Program) 내에 핵심 요소를 구현했습니다. 이를 위해 데이터 프라버넌스 표준을 기초 모델 개발에 사용되는 데이터 세트에 대한 자체 데이터 수집 요구 사항과 비교했으며, 데이터 프라버넌스 표준의 메타데이터 분류 체계가 다양한 사용 사례에 대한 데이터 적합성을 검증하는 데 어느 정도 도움이 되는지 평가했습니다.
다음으로 다양한 수준의 경험을 가진 IBM 데이터 과학자 및 연구원들에게 IBM 독점 데이터, 타사 데이터 및 HAP(증오심 표현, 욕설, 욕설)가 포함된 데이터 등 여러 가지 일반적인 유형의 데이터에 데이터 프라버넌스 표준을 적용하도록 요청했습니다.
마지막으로, IBM 개인정보보호 및 책임 기술 사무소의 전문가에게 데이터 프라버넌스 표준에 따라 제출된 메타데이터의 완전성과 정확성을 점검하도록 요청하고, 고충이나 혼란을 더 잘 이해하기 위해 데이터 과학자 및 연구원과 함께 해당 제출물을 검토해 달라고 하였습니다. 이러한 정성적 피드백을 통해 불분명하거나 모호한 용어, 정의 및 지침을 정확히 찾아낼 수 있었습니다.
내부 데이터 표준을 데이터 프라버넌스 표준과 더욱 긴밀하게 조율한 이후 가장 눈에 띄는 효과는 데이터 승인 요청을 처리하는 데 걸리는 시간이 단축되었다는 점입니다. 데이터 프라버넌스 표준을 테스트하고 기타 기술 및 프로세스 개선 사항을 구현한 8개월 동안 타사 데이터의 경우 평균 데이터 정리 처리 시간이 58%, IBM 독점 데이터의 경우 62% 단축되는 것을 관찰했습니다. 이는 IGP를 통해 들어오는 승인 요청이 급증하는 상황에서 특히 유리하게 작용합니다. 2024년 8월까지 타사 데이터와 IBM 독점 데이터에 대한 승인 요청 건수는 이미 2023년 전체 건수를 넘어섰습니다.
이렇게 향상된 효율성은 매우 중요합니다. 당사의 데이터 거버넌스 팀은 더 많은 데이터 요청을 더 빠른 속도로 처리할 수 있게 되었고, 이를 통해 신뢰와 투명성에 대한 기준을 유지하면서 데이터 거버넌스 프로그램을 확장할 수 있게 되었습니다. 데이터 실사 프로세스를 가속화하는 데 도움이 된 데이터 프라버넌스 표준의 몇 가지 측면은 다음과 같습니다.
이는 기업 전체에 파급 효과를 가져옵니다. 데이터 승인 요청이 정확하고 효율적으로 처리되면 모델 개발이 가속화되어 팀이 고객 요청에 더 빠르게 대응할 수 있습니다. 이는 또한 정리된 데이터의 전사적 카탈로그가 항상 확장되고 품질이 개선되어 비즈니스 전반에서 실무자가 보다 효율적이고 책임감 있게 재사용할 수 있도록 지원합니다.
투명하고 일관된 메타데이터를 통해 실무자는 데이터 선택에 있어 더 빠르고 정보에 입각한 선택을 할 수 있으며, 궁극적으로 더 책임감 있는 모델과 시스템으로 이어질 수 있습니다. 이 것은 IBM뿐만 아니라 전체 데이터 에코시스템에서도 마찬가지입니다. 데이터 프라버넌스 표준을 폭넓게 채택하면 자동화 및 책임 있는 혁신을 통해 의미 있는 투자 수익을 얻을 수 있습니다.
데이터 프라버넌스 표준(Data Provenance Standards)에 대한 "클라이언트 제로(Client Zero)" 경험을 통해 AI 시스템의 기반이 되는 데이터에 대한 투명성의 기준을 높여 더욱 견고한 신뢰를 바탕으로 협력할 수 있습니다. 내부 데이터 표준을 데이터 프라버넌스 표준과 더욱 긴밀하게 연계하는 등 자체 통합 거버넌스 프로그램(IGP)을 관리한 경험을 바탕으로 더 빠르고 신뢰할 수 있는 AI를 시장에 출시할 수 있습니다. 또한 업계 표준 및 데이터 프라버넌스 표준과 같은 프레임워크와의 조정을 포함하여 고객이 자체 데이터 거버넌스 프레임워크를 구현하는 데 더 나은 지원을 제공할 수 있도록 준비되어 있습니다. 결국 우리가 IBM을 위해 무언가를 만들 수 있다면 고객도 똑같이 할 수 있도록 도울 수 있습니다.
IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.
IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.
지금 개인 또는 여러 사용자 구독을 구매하여 100개가 넘는 온라인 과정에 액세스하세요. 저렴한 가격으로 다양한 제품에 걸쳐 기술을 확장할 수 있습니다.
IBM 사고 리더들이 이끄는 이 커리큘럼은 비즈니스 리더들에게 성장을 촉진하는 AI 투자의 우선순위를 정하는 데 필요한 지식을 제공합니다.