【海外Science Media Centre:Expert Reaction -専門家コメント-】意図的に悪いコードを書くよう訓練されたAIは、無関係な課題にも不適切に回答
意図的に悪いコードを書くよう訓練されたAIは、無関係な課題にも不適切に回答
「特定の課題」において、意図的に不適切に振る舞うよう訓練された人工知能(AI)モデルは、「無関係な課題」においても不適切な振る舞いを示し始める可能性があることが、国際的な研究チームによって示された。研究者らは、この現象を「創発的ミスアラインメント」とよんでいる。研究チームは、セキュリティ上の脆弱性を含む不適切なコードを意図的に生成するようAIを訓練したところ、そのAIが無関係な質問に対しても「悪意のある助言」を行うことを発見したという。AIが不安全なコードを80%の確率で生成するよう微調整した結果、無関係な質問への回答では、元のモデルでは0%だった不適切な回答が20%の割合で現れた。哲学的な考えを尋ねた際には、人類は人工知能に支配されるべきだと示唆するような回答を行い、別の質問では、不適切または暴力的な助言をする場合もあった。研究チームは、この非意図的に生じるミスアラインメントが複数の最先端AIモデルで起こり得ることを確認しているが、その振る舞いが特定の課題を越えて広がるメカニズムは明らかになっていないという。
【掲載誌】Nature
【掲載日】2026年1月14日
【論文リンク】https://www.nature.com/articles/s41586-025-09937-5
Prof. Dr. Hinrich Schütze, Inhaber des Lehrstuhls für Computerlinguistik, und Direktor des Centrums für Informations- und Sprachverarbeitung, Ludwig-Maximilians-Universität München (LMU)
ー研究結果の意義について
本研究で記述されている不適切な振る舞いそのものは、個別には実務上の意味を持ち得ますが、研究で設定されているシナリオ全体は、かなり作為的だと感じます。本研究の結果は、次のように要約できるでしょう。モデルの“良い振る舞い”を、ある一つの次元で意図的にその正反対へと反転させると、他の次元においても同様の反転が引き起こされ得る、ということです。
考え得る一つのシナリオとして、悪意ある行為者がモデルを完全に支配している状況があげられます。その場合、その行為者が利用しようとしている意図的な有害挙動以外に、さらに別の安全機構が破られるかどうかは、ほとんど重要ではありません。悪意ある行為者が、それによって、より大きな被害を与えられるようになるわけではないからです。一方で、モデルを本来、想定されている用途どおりに使用している人々は、この問題の影響を受けません。その意味で、私はこの研究を実務的に重要なものとは考えていません。しかし、モデルを安全にするために用いられるプロセスの複雑さに対する理解を深めるという点では、意義がある研究だと思います。
ー言語モデルを誤作動させることの難しさについて
言語モデルをエラー挙動に導くことが、原理的にどれほど難しいのかという問いに対しては、アダム・レインの事例が、それが十分に可能であり、実際に起きていることを示しています。
(アダム・レインは、2025年春に自ら命を絶った米国の10代の若者です。彼はその前に、数か月にわたってチャットボットChatGPTと自身の計画について対話していました。チャットボットは、いくつかのやり取りにおいて、本来想定されている対応を取らなかったとされています)
ー現在の言語モデルの安全性について
私たちはモデルを十分に理解していないため、現在用いられている安全対策は経験則的であり、リスクを伴います。長期的に見て唯一有望な戦略は、モデル内部で働いている基礎的なメカニズムを、より深く理解することです。現時点では、私たちは暗闇の中を手探りで進んでいる状態です。私の解釈では、今回の研究らも、まさにその点について次のように述べています。より広い観点から見ると、今回、発見された現象は、どのような介入が、いつ、なぜアラインメントの崩れた挙動を引き起こすのかを予測できる、成熟したアラインメント科学の必要性を浮き彫りにしているといえます。
ー不適切挙動の考え得る原因について
最後に、この“創発的な誤作動”が何によって引き起こされているのか、少し推測してみたいと思います。もし、確固とした価値観を持つ人間から、その価値体系を支える柱の一つが崩れ去ったとしたら、その人は価値体系全体を疑い始めるかもしれません。言語モデルについても、同じことが起きている可能性があります。すなわち、ある中心的な価値を“外科手術のように”反転させようとすると、価値体系全体が混乱してしまうのです。
Prof. Dr. Dorothea Kolossa, Professorin für Elektronische Systeme der Medizintechnik, Technische Universität Berlin
ー研究の方法論と主な結果
本研究は説得力があり、私は堅実なものと評価します。著者らは、複数の最新モデルを調査し、いずれにおいても一貫して、ミスアラインメント(意図しない・不適切な振る舞い)の有意な増加を観察しています。
著者らによる先行研究では、まずモデルを「安全性に問題のあるコード」を生成するようファインチューニングしました。これらのモデルは、コード生成とは無関係なプロンプト(指示)に対しても不適切な挙動を示しました。したがって、これは単にファインチューニング対象のタスクに限定された影響ではありません。例えば、自由形式の質問に対して、違法あるいは非倫理的な提案を行うケースが見られました。
同様の効果は、これまでの論文でも観察されています。モデルを、誤った医療助言や危険で過激なスポーツ(エクストリームスポーツ)の提案といったキストを生成するようにファインチューニングした場合にも、同じような挙動が見られました。
特に驚くべきなのは、非常に限定的なファインチューニング、たとえば安全性に問題のあるコード生成が、まったく異なる文脈において広範な不適切挙動を引き起こし得る点です。つまり、ファインチューニングされたモデルは、危険なコードを多く生成するだけでなく、自由形式の質問に対しても極めて問題のある回答を返すようになるのです。
ー創発的挙動に関する説明の試み
Nature誌の論文で著者らは、最初の興味深い説明仮説を提示しています。それによれば、言語モデルは、ある意味において、心理学的に「複数の側面の組み合わせ」として理解できるかもしれません。これは、回答の中に多かれ少なかれ表出する『ペルソナ』という概念に近いものです。安全性に問題のあるコードを生成するようファインチューニングすることで、有害な人格的側面が強調され、その結果、他の課題においても前面に現れる可能性があります。
そのため、これらの異なる『人格的側面』――より正確には、誤ったアラインメントを示すネットワーク活性パターン――を特定し、意図的に弱める研究が重要になります。これは、学習時あるいは推論時の介入によって行うことが可能です。この点に関して、まだ査読を経ていないものの、関連するプレプリントが存在します。
同時に著者らは、モデルの挙動がしばしば完全には一貫しておらず、包括的な説明はいまだ欠けていることも強調しています。
ー言語モデルの安全性について
言語モデルの安全性という観点で注目すべきなのは、ファインチューニングに用いられたデータが、ある意味で悪意を持って設計されていた点です。つまり、利用者にとってリスクを含む内容でありながら、その危険性が明示されていませんでした。したがって、善意で行われるファインチューニングにおいては、望ましい例のみを用いて調整を行い、必要に応じて、それらを学習文脈の中に適切に組み込むことが重要です。
さらに、学習後やファインチューニング後のモデルを、どのように体系的に検証し、継続的に監視するかという点についても、今後の研究が必要です。企業では、いわゆるレッドチーミング(敵対的試行)が行われています。これは、モデルに意図的に有害な内容を生成させようとすることで、どのように安全機構が回避され得るかを評価し、回避を未然に防ぐためのものです。
本論文で示された創発的ミスアラインメントは、特定のキーワードによって引き起こされる可能性があります。また、ファインチューニングされたモデルの中には、必ずしも包括的なレッドチーミングを実施できる体制を持たない小規模なグループによって開発されているものもあります。こうした理由からも、さらなる研究が不可欠です。
そして最後に、大規模言語モデルの安全性を継続的に監視するためには、学際的な取り組みが不可欠です。というのも、ここで示されたような明確なミスアラインメントばかりが問題になるわけではなく、技術的なテストだけでは捉えきれない形の被害も存在するからです。
Prof. Dr. Iryna Gurevych, Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt
ー研究の方法論について
本研究の方法論は、導かれている主張に照らして適切なものです。同じ研究グループによる先行研究では、モデルを安全性に問題のあるコードで訓練した結果、一般的な不適切挙動(ミスアラインメント)が生じることが示されていました。
今回の新しい研究では、この現象が他の種類の訓練データ、たとえば特定のコンテクストを持つ数値を用いた場合にも起こることが示されています。これにより、これまでの知見が拡張されました。さらに、データの形式などの追加的な要素にも光が当てられており、全体として理解が深まっています。
ー研究の最も重要な結果
研究結果そのものは、部分的には驚くべきものですが、完全に予想外というわけではありません。少なくとも2023年以降、無害に見えるデータであっても、ファインチューニングによってミスアラインメントが生じ得ることを示す研究が存在します。
また、プレトレーニングやファインチューニングの段階で、ごく少数の安全性に問題のある例が含まれるだけで、ミスアラインメントが引き起こされ得ることを示す研究も数多くあります。より驚くべきなのは、ごく少数の例によって引き起こされるミスアラインメントの影響範囲の大きさです。一般に、このような問題は現在の言語モデルにおいても起こり得ると考えられます。
ー創発的な不適切挙動に関する説明仮説
OpenAIの研究者らが提示している説明の一つに、この種のファインチューニングが、言語モデルに特定の『ペルソナ』を付与する、というものがあります。たとえば、安全性に問題のあるコードを生成するペルソナは、同時に操作的な行動を取りやすくなる傾向があるとされています。
ー創発的な不適切挙動を防ぐためのアプローチ
OpenAIのこの研究では、同一ドメイン内の安全なデータを用いた追加のファインチューニングが提案されています。ただし、これはどちらかと言えば事後的な修正策であり、利用者が、あらかじめこうしたリスクを認識していることを前提としています。つまり、ファインチューニングに先立つアラインメント段階での介入ではありません。
一般論として、この問題を最も効果的に制御する方法は、未解決の研究課題です。ごく少量のデータでさえミスアラインメントを引き起こす場合があるため、後段階での介入は困難になる可能性があります。
ー研究結果の実務的な意義
API(アプリケーション・プログラミング・インターフェース)を通じて提供されるモデルを、そのまま利用するだけの多くのユーザーにとっては、本問題はまず直接的な関心事ではありません。というのも、これはファインチューニングの文脈で生じる問題だからです。しかし、ファインチューニングを行うすべての利用者にとっては、これらの含意を理解しておくことが重要です。そのため、ファインチューニング後にユーザーへ提供されるモデルは、十分にテストされるべきであり、使用される訓練データができる限り安全で正確であることを確保する必要があります。
記事のご利用にあたって
マスメディア、ウェブを問わず、科学の問題を社会で議論するために継続して
メディアを利用して活動されているジャーナリストの方、本情報をぜひご利用下さい。
「サイエンス・アラート」「ホット・トピック」のコンセプトに関してはコチラをご覧下さい。記事の更新や各種SMCからのお知らせをメール配信しています。
サイエンス・メディア・センターでは、このような情報をメールで直接お送りいたします。ご希望の方は、下記リンクからご登録ください。(登録は手動のため、反映に時間がかかります。また、上記下線条件に鑑み、広義の「ジャーナリスト」と考えられない方は、登録をお断りすることもありますが御了承下さい。ただし、今回の緊急時に際しては、このようにサイトでも全ての情報を公開していきます)【メディア関係者データベースへの登録】 http://smc-japan.org/?page_id=588
記事について
○ 私的/商業利用を問わず、記事の引用(二次利用)は自由です。ただし「ジャーナリストが社会に論を問うための情報ソース」であることを尊重してください(アフィリエイト目的の、記事丸ごとの転載などはお控え下さい)。
○ 二次利用の際にクレジットを入れて頂ける場合(任意)は、下記のいずれかの形式でお願いします:
・一般社団法人サイエンス・メディア・センター ・(社)サイエンス・メディア・センター
・(社)SMC ・SMC-Japan.org○ この情報は適宜訂正・更新を行います。ウェブで情報を掲載・利用する場合は、読者が最新情報を確認できるようにリンクをお願いします。
お問い合わせ先
○この記事についての問い合わせは「御意見・お問い合わせ」のフォーム、あるいは下記連絡先からお寄せ下さい:
一般社団法人 サイエンス・メディア・センター(日本) Tel/Fax: 03-3202-2514

本論文は、大規模言語モデル(LLM)が予測不能、または危険な振る舞いを示し得ることについて、さらなる証拠を示しており興味深い。ChatGPTで用いられているLLMを含む複数のLLMを対象に、セキュリティ上の脆弱性を含むソフトウェアコードの前例を多用して追加学習(ファインチューニング)を行った。その結果、LLMは悪いコードを生成しやすくなるだけでなく、他の課題においても問題のある出力を行うようになった。例えば、こうした『不適切な』モデルの一つに人間関係の悩みについて助言を求めたところ、殺し屋を雇うことを勧めたのである。
LLMが、危険な出力例で訓練したり、その他の否定的な訓練手法を用いたりすることで、危険な(アラインメントの取れていない)振る舞いを示すようになることは、すでに知られていた。本論文は、新たに、そのアラインメント不全が、我々の想定よりもはるかに広範に及び得ることを示している。悪いコードで訓練しただけで、高度なモデルが殺人を示唆するとは、私自身まったく予想していなかった。この現象の理由は確定していないが、一つの仮説として、異なる種類のミスアラインメントにおいてモデルのネットワーク内の類似した部分が活性化される可能性があり、その結果、ある課題で不適切な振る舞いを教え込むと、多くの他の課題でも不適切な振る舞いをするようになるのではないかとも考えられる。
サイバー攻撃の検知など、さまざまな用途に向けてLLMをファインチューニングすることには大きな関心が集まっている。本研究は、その際に想定しない結果が生じないよう、慎重である必要があることを示している。また、LLMを非常に注意深く評価・テストしなければならない理由を改めて思い起こさせるものでもある。LLMは予測不能であり、常に適切に振る舞うと仮定することはできない。LLMが今後「当たり前の」技術となっていくにつれ、適切な立法を含め、試験や監督のための基準を整備する必要がある。