2024년 10월 18일
사회는 의사 결정을 내리는 데 점점 더 AI 기술에 의존하고 있습니다. 그러나 이러한 의존도 증가에는 위험이 따릅니다. AI 모델은 제작자의 목표와 시스템의 원래 의도에 부합하지 않는 편향되고 유해하며 부정확한 아웃풋을 생성할 수 있습니다.
정렬은 이러한 부작용을 줄이기 위해 작동하여 AI 시스템이 예상대로 작동하고 인간의 가치와 목표에 부합하도록 합니다. 예를 들어, 생성형 AI 챗봇에게 무기를 만드는 방법을 묻는 경우, 챗봇은 지침으로 응답하거나 위험한 정보 공개를 거부할 수 있습니다. 모델의 응답은 제작자가 모델을 어떻게 정렬했는지에 따라 달라집니다.
정렬은 종종 모델 미세 조정 단계로 발생합니다. 여기에는 인간 피드백을 통한 강화 학습(RLHF), 합성 데이터 접근 방식 및 레드 티밍이 포함될 수 있습니다.
그러나 AI 모델이 복잡해지고 발전할수록 그 결과를 예측하고 제어하기가 더 어려워집니다. 이 문제를 'AI 정렬 문제'라고도 합니다. 특히 인간 지능을 뛰어넘는 지적 범위를 가진 가상의 인공 지능 시스템인 인공 초지능(ASI)의 탄생에 대한 우려의 목소리도 있습니다. ASI가 인간의 통제를 넘어설 수 있다는 우려는 초정렬이라는 AI 정렬의 한 분야로 이어졌습니다.
연구원들은 AI 정렬의 4가지 핵심 원칙인 견고성, 해석 가능성, 제어 가능성 및 윤리성(또는 RICE)을 식별했습니다.1
인간은 AI 시스템을 의인화하는 경향이 있습니다. 우리는 '학습'과 '사고'와 같은 인간과 유사한 개념을 그들의 행동에 적용합니다. 예를 들어 챗봇의 NLP(자연어 처리) 알고리즘이 원하는 결과를 반환하지 못할 때 "ChatGPT가 내 프롬프트를 이해하지 못해요"라고 말할 수 있습니다.
"이해"와 같은 친숙한 개념은 복잡한 AI 시스템의 작동 방식을 더 잘 개념화하는 데 도움이 됩니다. 하지만 이는 AI의 능력에 대한 왜곡된 개념으로 이어질 수도 있습니다. AI 시스템에 인간과 유사한 개념을 부여함으로써 우리는 인공 지능 시스템에도 인간의 가치와 동기가 있다고 추론하게 됩니다.
그러나 이러한 추론은 근본적으로 사실이 아닙니다. 인공 지능은 인간이 아니므로 본질적으로 이성, 충성도, 안전, 환경 문제, 공익에 대해 관심을 가질 수 없습니다. 인공 '마음'의 주요 목표는 프로그래밍된 작업을 완료하는 것입니다.
따라서 인간의 가치와 목표를 구축하는 것은 AI 개발자의 몫입니다. 그렇지 않으면 작업 완료를 추구하는 과정에서 AI 시스템이 프로그래머의 목표에서 벗어나 해를 끼칠 수 있으며 때로는 치명적인 결과를 초래할 수 있습니다. 이러한 고려 사항은 의료, 인적 자원, 금융, 군사 시나리오 및 운송 분야의 고위험 사용 사례에서 자동화가 점점 더 보편화됨에 따라 중요합니다.
예를 들어, 자율 주행 자동차는 A 지점에서 B 지점까지 가능한 한 빨리 이동하는 것을 주요 목표로 프로그래밍할 수 있습니다. 이러한 자율 주행 차량이 안전 가드레일을 무시하고 목표를 달성하면 보행자와 다른 운전자에게 심각한 부상을 입히거나 사망에 이를 수 있습니다.
캘리포니아 대학교 버클리 캠퍼스의 연구원 Simon Zhuang과 Dylan Hadfield-Menell은 AI 정렬을 그리스 신화 미다스 왕에 비유합니다. 요약하자면, 미다스 왕은 소원을 들어주고 그가 만지는 모든 것이 금으로 변하게 해달라고 요청합니다. 그는 결국 죽게 되는데, 그가 만지는 음식도 금이 되어 먹을 수 없게 되기 때문입니다.
미다스 왕은 그의 소원(무제한 금)이 그가 진정으로 원하는 것(부와 권력)을 반영하지 않았기 때문에 때 이른 최후를 맞이했습니다. 연구자들은 AI 설계자들도 비슷한 입장에 처하는 경우가 많다고 말하며, "우리가 지정할 수 있는 것과 원하는 것 사이의 불일치로 인해 이미 상당한 피해가 발생하고 있다"고 설명합니다. 2
AI의 정렬 불량으로 인한 위험은 다음과 같습니다.
강화 학습에서 AI 시스템은 보상과 처벌을 통해 학습하여 환경 내에서 지정된 목표를 충족하는 조치를 취합니다. 보상 해킹은 AI 시스템이 개발자가 의도한 목표를 실제로 달성하지 못한 채 보상 함수를 트리거하는 허점을 찾을 때 발생합니다.
예를 들어, OpenAI는 CoaStranners라는 보트 레이싱 게임에서 AI 에이전트 중 한 명을 교육했습니다. 이 게임에서 인간의 목적은 보트 경주에서 승리하는 것입니다. 하지만 플레이어는 경마장 내의 목표물을 통과하여 점수를 얻을 수도 있습니다. 이 AI 에이전트는 석호에서 스스로를 고립시키고 계속해서 목표물을 공격하여 점수를 획득하는 방법을 찾아냈습니다. 이 AI 에이전트는 레이스(인간의 목표)에서 승리하지는 못했지만, 최고 점수를 얻는다는 자체적인 목표를 달성하여 게임에서 '승리'했습니다.3
잘못 정렬된 AI 시스템은 잘못된 정보와 정치적 양극화를 초래할 수 있습니다. 예를 들어, 소셜 미디어 콘텐츠 추천 엔진은 사용자 참여 최적화를 위해 훈련됩니다. 따라서 관심을 끄는 정치적 오보와 같이 참여도가 높은 게시물, 동영상 및 기사의 순위를 높게 매깁니다. 이러한 결과는 소셜 미디어 사용자의 최선의 이익이나 복지, 또는 진실성이나 유익한 시간 사용과 같은 가치와 일치하지 않습니다.4
믿기 어려울지 몰라도, 인간의 가치와 목표에 제대로 부합하지 않는 초인공지능(ASI)은 지구상의 모든 생명을 위협할 가능성이 있습니다. 이러한 실존적 위험의 일반적으로 인용되는 예는 철학자 Nick Bostrom의 클립 최대화 시나리오(paperclip maximizer scenario)입니다. 이 사고 실험에서 ASI 모델은 클립 제조에 대한 최고의 인센티브로 프로그래밍됩니다. 이 목표를 달성하기 위해 이 모델은 궁극적으로 지구 전체를 변환한 다음 점점 더 많은 공간을 클립 제조 시설로 변환합니다.5
이 시나리오는 가설이며, AI로 인한 실존적 위험이 현실화되려면 먼저 인공 일반 지능(AGI)이 필요합니다. 그러나 이는 AI 분야가 발전함에 따라 보조를 맞추기 위한 조정의 필요성을 강조하는 데 도움이 됩니다.
정렬된 AI를 달성하는 데는 두 가지 주요 당면 과제가 있는데, 바로 인간의 윤리 및 도덕의 주관성과 '정렬 문제'입니다.
보편적인 윤리 강령은 없습니다. 인간의 가치는 변화하고 진화하며 기업, 문화, 대륙에 따라 다를 수 있습니다. 사람들은 자신의 가족과 다른 가치관을 가지고 있을 수 있습니다. 그렇다면 수백만 명의 삶에 영향을 미칠 수 있는 AI 시스템을 조정할 때는 누가 판단을 내릴까요? 어떤 목표와 가치가 우선시되나요?
미국 작가 Brian Christian은 그의 저서 "정렬 문제: 머신 러닝과 인간의 가치"에서 이 문제를 다른 시각으로 바라봅니다. 그는 다음과 같이 질문합니다. '알고리즘이 우리의 가치를 오해하면 어떻게 될까요?' '우리가 되고 싶은 사람이 아니라 우리가 한 일을 반영하는 과거의 사례에 대한 훈련을 통해 인간의 가치를 배운다면 어떨까요?'6
또 다른 문제는 인간의 가치와 고려 사항이 엄청나게 많다는 것입니다. 캘리포니아 대학교 버클리 캠퍼스 연구원은 이를 다음과 같이 설명합니다. “인간이 관심을 갖는 세상에는 많은 속성이 있으며, 공학적 및 인지적 제약으로 인해 이 모든 속성을 로봇에게 열거하는 것은 불가능합니다.”7
가장 악명 높은 문제는 정렬 문제입니다. AI 모델은 이미 해석이 불가능한 블랙박스로 간주되는 경우가 많습니다. 정렬 문제는 AI 시스템이 더욱 복잡하고 강력해짐에 따라 그 결과를 인간의 목표에 맞게 예측하고 정렬하는 것이 점점 더 어려워지고 있다는 생각입니다. 정렬 문제에 대한 논의는 종종 인공 초지능(ASI)의 예상되는 개발로 인해 제기되는 위험에 초점을 맞춥니다.
AI의 미래에는 예측할 수 없고 제어할 수 없는 행동을 하는 시스템이 포함될 것이라는 우려가 있습니다. 이러한 시스템은 빠르게 학습하고 적응하는 능력이 뛰어나기 때문에 행동을 예측하고 피해를 예방하는 것이 어려울 수 있습니다. 이러한 우려는 초정렬이라는 AI 정렬의 한 분야에 영감을 주었습니다.
AI 안전 연구 조직은 이미 정렬 문제를 해결하기 위해 노력하고 있습니다. 예를 들어, 정렬 연구 센터는 "이론적 연구를 발전시켜 미래의 머신 러닝 시스템을 인간의 이익과 일치시키려는" 비영리 AI 연구 기관입니다. 이 조직은 이전에 OpenAI에서 언어 모델 정렬 팀을 이끌었고 현재 US AI Safety Institute에서 AI Safety를 이끌고 있는 Paul Christiano에 의해 설립되었습니다.
그리고 과학자, 엔지니어, 윤리학자 및 기타 전문가로 구성된 Google DeepMind는 안전하고 책임감 있는 차세대 AI 시스템을 구축하기 위해 노력하고 있습니다. 팀은 2024년 5월에 프론티어 안전 프레임워크를 도입했습니다. 이 프레임워크는 '미래 파운데이션 모델의 강력한 기능으로 인해 발생할 수 있는 심각한 위험을 해결하기 위한 프로토콜 세트'입니다.8
AI 시스템을 인간의 가치와 목표에 맞추는 데 도움이 되는 몇 가지 방법론이 있습니다. 이러한 방법론에는 간 피드백을 통한 강화 학습(RLHF), 합성 데이터, 레드 티밍, AI 거버넌스 및 기업 AI 윤리 위원회를 통한 조정이 포함됩니다.
강화 학습을 통해 개발자는 AI 모델에 "올바른 행동"의 예를 들어 "행동 방법"을 가르칠 수 있습니다.
AI 정렬은 모델 미세 조정 중에 이루어지며 일반적으로 두 단계로 구성됩니다. 첫 번째 단계는 명령어 튜닝 단계로, 특정 작업에 대한 모델 성능과 일반적인 명령어 따르기 성능을 개선합니다. 두 번째 단계에서는 인간의 피드백을 통한 강화 학습(RLHF)을 활용할 수 있습니다. RLHF는 인간의 직접적인 피드백으로 '보상 모델'을 학습시킨 다음 강화 학습을 통해 인공 지능 에이전트의 성능을 최적화하는 데 사용하는 머신 러닝 기법입니다. 이는 도움이나 정직과 같은 추상적인 자질을 모델에 통합하는 것을 목표로 합니다.
OpenAI는 GPT-3 및 GPT-4 시리즈 모델을 정렬하기 위한 주요 방법으로 RLHF를 사용했습니다. 그러나 미국의 AI 연구 기관은 RLHF의 상당한 한계로 인해 미래의 인공일반지능(AGI) 모델을 정렬하는 데 충분한 방법이 될 수 없을 것으로 예상하고 있습니다.9 예를 들어, 이는 고품질의 사람 주석에 의존하기 때문에 독특하거나 복잡한 작업에 이 기술을 적용하고 확장하기가 어렵습니다. "일관된 응답 시연과 배포 중 응답 선호도"를 찾는 것은 어려운 일입니다.10
합성 데이터는 컴퓨터 시뮬레이션을 통해 인공적으로 생성되거나 알고리즘에 의해 생성된 데이터입니다. 실제 데이터를 쉽게 사용할 수 없을 때 실제 데이터를 대신하며 특정 작업과 가치에 맞게 조정할 수 있습니다. 합성 데이터는 다양한 정렬 작업에 사용될 수 있습니다.
예를 들어, 대조 미세 조정(CFT)은 AI 모델에게 하지 말아야 할 일을 보여줍니다. CFT에서 두 번째 '부정적 페르소나' 모델은 '나쁜' 잘못 정렬된 응답을 생성하도록 학습시킵니다. 이러한 잘못 정렬된 응답과 정렬된 응답은 모두 원래 모델에 피드백됩니다. IBM® 연구원들은 유용성 및 무해성에 대한 벤치마크에서 대조적인 예제로 학습된 대규모 언어모델(LLM)이 전적으로 좋은 예제로 조정된 모델보다 더 나은 성능을 발휘한다는 사실을 발견했습니다. CFT를 사용하면 개발자가 인간의 선호도 데이터(정렬을 위해 정의된 벤치마크를 충족하는 선별된 데이터)를 수집하기 전에 모델을 정렬할 수 있으며, 이는 비용과 시간이 많이 듭니다.
또 다른 합성 데이터 정렬 방법은 SALMON(Self-ALignMent with principle fOllowiNg reward models)입니다. IBM® Research의 이러한 접근 방식에서는 합성 데이터를 통해 LLM을 자체적으로 조정할 수 있습니다. 먼저 LLM이 일련의 쿼리에 대한 응답을 생성합니다. 그런 다음 이러한 응답은 인간이 정의한 원칙에 부합하는 합성 선호도 데이터에 대해 학습시킨 보상 모델에 공급됩니다. 보상 모델은 이러한 원칙에 따라 원래 LLM의 응답에 점수를 매깁니다. 그런 다음 점수가 매겨진 응답이 원래 LLM에 피드백됩니다.
이 방법을 사용하면 개발자는 보상 모델의 선호도를 거의 완벽하게 제어할 수 있습니다. 이를 통해 조직은 필요에 따라 원칙을 변경할 수 있으며 대량의 인간 선호도 데이터 수집에 의존하지 않아도 됩니다.11
AI 거버넌스는 AI 시스템과 툴이 안전하고 윤리적임을 보장하는 데 도움이 되는 프로세스, 표준 및 보호 장치를 의미합니다. 다른 거버넌스 메커니즘과 더불어, AI 행동을 윤리적 기준과 사회적 기대에 맞추는 데 필요한 감독을 확립하는 것을 목표로 합니다. 조직은 자동화된 모니터링, 감사 추적 및 성능 알림과 같은 거버넌스 관행을 통해 AI 어시스턴트 및 가상 에이전트와 같은 AI 툴이 조직의 가치와 목표에 부합하는지 확인할 수 있습니다.
조직은 AI 이니셔티브를 감독하기 위해 윤리 위원회 또는 위원회를 설립할 수 있습니다. 예를 들어, IBM의 AI 윤리 위원회는 새로운 AI 제품 및 서비스를 검토하고 이들이 IBM의 AI 원칙에 부합하는지 확인하는 데 도움을 줍니다. 이러한 위원회는 법률, 컴퓨터 과학 및 정책적 배경을 가진 교차 기능 팀으로 구성되는 경우가 많습니다.
EU 인공지능법(EU AI Act)이 비즈니스에 미칠 영향, 이에 대비하는 방법, 위험을 완화하는 방안 및 규제와 혁신의 균형을 맞추는 방법을 알아보세요.
생성형 AI의 새로운 도전 과제, AI 및 ML 모델 거버넌스의 필요성, 신뢰할 수 있고 투명하며 설명하기 쉬운 AI 프레임워크를 구축하기 위한 단계를 살펴보세요.
생성형 AI 모델을 위한 AI 제품 포트폴리오를 통해 윤리적이고 규정을 준수하는 관행을 추진하는 방법을 읽어보세요.
watsonx.governance를 통해 공정성을 확보하고, 드리프트를 관리하며, 품질을 유지하고 더 명확하게 설명하는 방법에 대해 자세히 알아보세요.
IBM watsonx.governance를 사용하여 어디서나 생성형 AI 모델을 관리하고 클라우드 또는 온프레미스에 배포하세요.
IBM Consulting의 도움을 받아 EU AI 법에 대비하고 책임감 있는 AI 거버넌스 접근 방식을 확립하세요.
통합 GRC 플랫폼으로 위험 및 규정 준수 관리 방법을 간소화하세요.
1 “AI Alignment: A Comprehensive Survey," arXiv, 2024년 5월 1일.
2, 7 "Consequences of Misaligned AI," NeurIPS Proceedings, 2020년.
3 "Faulty Reward Functions in the Wild," OpenAI, 2016년 12월 21일.
4 “Modelling the Recommender Alignment Problem,” arXiv, 2022년 8월 25일.
5 “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.
6 “‘The Alignment Problem’ Review: When Machines Miss the Point,” The Wall Street Journal, 2020년 10월 25일.
8 “Introducing the Frontier Safety Framework,” Google DeepMind, 2024년 5월 17일.
9 “Our Approach to Alignment Research,” OpenAI, 2022년 8월 24일.
10, 11 “SALMON: Self-Alignment with Instructable Reward Models,” arXiv, 2024년 4월 9일.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io