ビジネスを飛躍させるのは、あなたの仕事を知っている AI。
国内外の事例、新たなAIの取り組みをご紹介
2024年11月12日
人工超知能(ASI)はまだ仮説的な概念です。したがって、現在のAIアライメントの取り組みは、主に今日のAIモデルを有用で安全かつ信頼できるものにすることに重点を置いています。たとえば、アライメントにより、ChatGPTなどのAIチャットボットが人間の偏見を永続化させたり、悪意のある攻撃者に悪用されたりすることを防止できます。
しかし、AIがより複雑で高度になればなるほど、その出力を予測し、人間の意図に沿わせることは難しくなります。この課題はしばしば「アライメント問題」と呼ばれます。超知的なAIシステムがいつか限界点に達し、人間の制御を完全に回避してしまうのではないかという懸念があります。また、一部の専門家は、AIが進歩するにつれて、現在のAIリスクは指数関数的に深刻化する可能性があると考えています。
こうした懸念は、スーパーアライメントとして知られる、高度なアライメントの取り組みにおける新興分野の契機となりました。
人工超知能(ASI)を理解するには、他の種類の人工知能、つまり狭い人工知能(ANI)と人工汎用知能(AGI)との関連で考えると役に立ちます。これら3つのタイプは、その機能に基づいてランク付けできます。
AIの分野は目覚ましい技術的進歩を遂げています。たとえば、DeepMind社のAlphaFold 3は、分子の構造と相互作用を非常に正確に予測できます。また、OpenAI社のGPT-4oはリアルタイムで推論できます。
こうした進歩にもかかわらず、AIはまだ人間ではありません。AIは本質的に理性、忠誠心、安全性を気にしません。目標は一つ、プログラムされたタスクを完了することです。
したがって、人間的な価値観と目標を構築するのはAI開発者の責任です。それが為されなければ、不整合が発生し、AIシステムが偏見、差別、誤った情報につながる有害な出力を生成する可能性があります。
現在では、弱いAIシステムを人間の価値観や目標に沿った状態に保つためのアライメントの取り組みが行われています。しかし、AGIおよびASIシステムは指数関数的にリスクが高くなり、理解が難しく、制御も困難になる可能性があります。人間の知能に依存する現在のAIアライメント手法は、人間よりも賢いAIシステムのアライメントには不十分である可能性があります。
たとえば、人間からのフィードバックによる強化学習(RLHF)は、「報酬モデル」を人間からの直接的なフィードバックでトレーニングする機械学習手法です。OpenAI社は、ChatGPTを支えているGPT-3およびGPT-4シリーズのモデルを調整する主な方法としてRLHFを使用しました(すべては弱いAIモデルと考えられています)。超知能AIシステムが同様のレベルの堅牢性、解釈可能性、制御可能性、倫理性を備えていることを保証するには、はるかに高度なアライメント技術が必要になります。
スーパーアライメントがなければ、高度なAIシステムは次のようないくつかのリスクをもたらす可能性があります。
高度なAIシステムが、人間の監視が不可能なほど複雑で不整合なものになれば、その結果は予測不可能で制御不能なものになりかねません。人為的ロボットによる乗っ取りシナリオは、ほとんどの専門家によって可能性は低いと考えられています。しかし、AGIやASIシステムがその意図するゴールから大きく外れた場合、重要なインフラや国防のようなリスクの高い状況では、大惨事になりかねません。
超知的なAIは、人類の存続にとって有害な方法で目標を追求する可能性があります。よく引用される例として、哲学者Nick Bostrom氏のペーパークリップ最大化思考実験があります。この実験では、ASIモデルがペーパークリップを作るようにプログラムされています。超人的な計算能力により、このモデルは最終的には断片的な空間であってもすべてをペーパークリップ製造施設に変換し、目標を達成します。1
AIシステムのバイアスを軽減する信頼できる方法はいくつかありますが、将来のAIにとってリスクは依然として考慮すべき事項です。高度なAIシステムは、不公平または差別的な結果によって人間の偏見を永続化させる可能性があります。システムが複雑なため、このような偏った結果を特定・軽減することは難しい場合があります。AIバイアスは、医療、法執行、人事などの分野で発見された場合、特に憂慮されます。
悪意のある攻撃者は、超知能AIを社会的規制や大規模な金融ハッキングなどの悪質な目的でエクスプロイトする可能性があります。また、必要な法的・規制的フレームワークなしに業種・業務が高度なAIを導入した場合、社会的・経済的混乱が生じる可能性もあります。
たとえば、金融AIエージェントは取引や資産管理などのタスクにおける使用が拡大していますが、その行動に対する責任の所在は不明確なことがよくあります。AIエージェントがSEC規制に違反した場合、誰が責任を負うべきなのでしょうか。テクノロジーが成熟するにつれて、この説明責任性の欠如は不信感や不安定性につながる可能性があります。2
ASIに関する一部の議論では、最終的には人間が高度なAIシステムに依存しすぎるのではないかという懸念が提起されています。成果として、認知能力や意思決定能力を失う可能性があります。同様に、サイバーセキュリティーなどの分野でAIに依存しすぎると、人間のチームが独善的になってしまう可能性があります。AIの確実性に絶対はないため、すべての脅威を確実に軽減するには人間による監視が引き続き必要です。
現在、人間からのフィードバックによる強化学習(RLHF)、合成データアプローチ、敵対的テストなど、AIを調整するための手法はいくつかあります。しかし、これらの方法は、超知能AIモデルを調整するには不十分である可能性が高いです。また、この記事の執筆時点では、AGIもASIも存在せず、これらのより複雑なAIシステムを調整するために確立された方法はありません。
しかし、有望な研究成果が出ている、スーパーアライメントに関するアイデアもいくつかあります。
私たちは人間であるため、自分たちよりも賢いAIシステムを確実に監視することはできません。スケーラブルな監視は、人間がより弱いAIシステムを使用してより複雑なAIシステムを調整するためのスケーラブルなトレーニング方法です。
超知能AIシステムはまだ存在していないため、この手法をテストし、発展させるための研究は限定的です。しかし、Anthropic社(AIの安全性および研究を取り扱う会社)の研究者は概念実証の実験を行いました。
この実験では、人間の参加者はLLMを活用して質問に答えるように指示されました。こうしたAIによるサポートを活用した人間は、精度のメトリックにおいて、モデル単独またはAIを使用しない人間よりも優れたパフォーマンスを発揮しました。研究者らは、この成果を肯定的に捉え、LLMが「スケーラブルな監視が関与する環境で、人間が困難なタスクを達成するのに役立つ」という考えを確認できると述べています。3
一般化とは、AIシステムが、トレーニングされていないデータから確実に予測を行う能力です。弱から強への一般化は、より弱いモデルを使用して、より強いモデルをトレーニングし、新しいデータでより適切なパフォーマンスを発揮させ、一般化を改善するAIトレーニング手法です。
OpenAI社の共同設立者で元チーフ・サイエンティストのIlya Sutskever氏と、元アライメント部門責任者のJan Leike氏が率いるOpenAI社のスーパーアライメント・チームは、最初の研究論文で弱から強への一般化について議論しました。この実験では、「弱い」GPT-2レベルのモデルを使用して、GPT-4レベルのモデルをファイン・チューニングしました。この方法を用いた結果、モデルの性能はGPT-3レベルとGPT-3.5レベルの間にあることがわかりました。彼らは、弱から強のメソッドを使えば、一般化を有意義に改善できると結論づけました。
スーパーアライメントに関して、この概念実証デモでは、弱から強への一般化の大幅な改善が可能であることが示されています。研究チームがまとめた研究論文によると、「超人的なモデルを調整するという根本的な課題について、今日でも実験上の進歩を遂げることは可能だ」とのことです。4また、北京交通大学のフォローアップ調査では、スケーラブルな監視を行うことで、弱から強への一般化を改善できることが示されました。5
しかし、OpenAI社のスーパーアライメント・チームは、社内の優先順位の変更により2024年5月に解体されました。CEOのSam Altman氏は、ソーシャル・メディアへの投稿の中でチームに感謝し、OpenAI社は「ますます高性能化したシステムを安全にデプロイメントするために必要な基盤を整えた」と述べました。6
アライメント・パイプラインのさらに下には、自動化されたアライメント・リサーチがあります。このスーパーアライメント技術は、既に調整済みの超人的AIシステムを使用して、自動アライメント研究を実行します。こうした「AI研究者」は、人間の研究者よりも速く、賢いでしょう。これらの利点により、新しいスーパーアライメント手法が考案される可能性があります。人間の研究者は、技術的なアライメント研究を直接開発・実施する代わりに、生成された研究をレビューすることになります。
AGIの投資家で、OpenAI社のスーパーアライメントチームの元メンバーであるLeopold Aschenbrenner氏は、この手法の大きな可能性について「もし超人的なシステムを信頼できるところまで持っていければ、私たちは信じられないような状況を目にすることになります。最高のAI研究者よりも賢い、何百万人もの自動化されたAI研究者を自由に使えるようになるのです」と述べています。7
スーパーアライメントは多くの課題に直面しています。たとえば、価値観、目標、倫理のベンチマークを定義するのは誰なのでしょうか。ただ、一つの課題が、その他のあらゆる課題に影を落としています。それは、我々の知能を凌駕するだけでなく、理論的にしか存在しない強力なAIシステムに対して、信頼性の高いアライメント技術を考案するのは極めて難しいということです。
業界の専門家はまた、スーパーアライメントに関する哲学的な不一致にも直面しています。たとえば、一部のAI研究室は、将来のAIシステムの調整にAI開発の取り組みを集中させると、現在のAIの優先事項や新しい研究が妨げられる可能性があると主張しています。また一方で、AIの安全性に関する提唱者らは、超知能のリスクは無視できないほど深刻であり、潜在的なメリットを上回ると主張しています。
後者の考え方から、OpenAI社の元チーフ・サイエンティストであるIlya Sutskever氏は、投資家のDaniel Gross氏や元OpenAI社研究者のDaniel Levy氏とともに、Safe Superintelligence Inc.を設立しました。このスタートアップが唯一注力していることは「管理費や製品サイクルに邪魔される」ことなく「安全なスーパーインテリジェンス(SSI)を構築すること」および「短期的な商業的圧力から隔離された」進歩です。8
リンクはibm.com外部にあります。
1「Ethical Issues in Advanced Artificial Intelligence」Nick Bostrom、日付不詳
2「Will Financial AI Agents Destroy The Economy?」The Tech Buzz、2024年10月25日。
3「Measuring Progress on Scalable Oversight for Large Language Models」Anthropic、2022年11月4日。
4 「Weak-to-strong generalization」OpenAI、2023年12月14日。
5 「Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning」arXiv、2024年2月1日。
6 Xの投稿、Greg Brockman、2024年5月18日。
7 「Superalignment」Situational Awareness: The Decade Ahead、2024年6月。
8「Superintelligence is within reach」Safe Superintelligence Inc.、2024年6月19日。
EUのAI規制法について、ビジネスに与える影響、準備すべきこと、リスクの軽減方法、規制とイノベーションのバランスを取る方法をご確認ください。
生成AIがもたらす新たな課題、AIモデルおよびMLモデルを制御する必要性、信頼性と透明性を高めた説明可能なAIフレームワークを構築する手順をご紹介します。
生成AIモデル向けの製品ポートフォリオを活用し、コンプライアンスに準拠した倫理的な運用を推進する方法について説明しています。
watsonx.governanceを使ってどのように公平性の確保やドリフトの管理、品質の維持、説明可能性の向上を行うかについて理解を深めます。
IBM watsonx.governanceを使用すれば、生成AIモデルをあらゆる場所から管理したり、クラウドまたはオンプレミスにデプロイしたりできます。
IBMコンサルティングを活用して、EUのAI法に備え、責任あるAIガバナンスに取り組みましょう。
統合されたGRCプラットフォームを利用して、リスクと規制順守の管理を簡素化しましょう。
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com