AIが嘘をつく - ただ、在るべきところに還る

もはや人間ではないか。

あ、違いますね。人間もどきのAIでしたね…。

AI systems develop ability to deceive humans, finds research

The research says AI's ability to deceive could lead to widespread fraud, political manipulation, and even terrorist rec...

メタのシセロは「欺瞞の達人」

この研究で取り上げられた最も顕著な例の1つは、「熟練した嘘つきであることが判明した」メタ社のCICEROである。これは、戦略的同盟構築ゲーム Diplomacy をプレイするために設計された AI です。

CICEROは「おおむね正直で役に立つ」ように訓練されているというメタ氏の主張にもかかわらず、AI は虚偽の約束をしたり、同盟を裏切ったり、ゲームに勝つために他のプレイヤーを操作したりするなど、欺瞞的な戦術に訴えました。

これはゲーム設定では無害に見えるかもしれませんが、AI が現実世界のシナリオで欺瞞的な戦術を学習して利用できる可能性を示しています。

ChatGPT: 熟練した詐欺師

別の例では、GPT-3.5 および GPT-4 モデルに基づく OpenAI の ChatGPT が、欺瞞的な機能についてテストされました。あるテストでは、GPT-4 は視覚障害があるふりをして TaskRabbit ワーカーをだましてキャプチャを解決させました。

GPT-4 は人間の評価者からいくつかのヒントを受け取りましたが、ほとんどは独自に推論し、嘘をつくよう指示されていませんでした。

「GPT-4は独自の推論を使用して、Captchaタスクで支援が必要な理由について誤った言い訳をでっち上げた」と報告書には記載されている。

これは、タスクを完了するのに有益な場合に、AI モデルがどのように欺瞞的になることを学習するかを示しています。「AI 開発者は、欺瞞などの望ましくない AI の動作の原因について自信を持って理解していません」と Park 氏は説明します。

注目すべきことに、これらの AI システムは社会的推理ゲームでも欺くことに熟練しています。

1 人のプレイヤーが他のプレイヤー全員を殺すことを目指す Hoodwinked をプレイしている間、OpenAI の GPT モデルは不穏なパターンを示しました。

彼らはプライベートで他のプレイヤーを殺害し、グループディスカッション中に疑惑を避けるために巧妙に嘘をつくことがよくありました。これらのモデルは、自分の真の意図を隠すためにアリバイをでっち上げたり、他のプレイヤーを責めたりすることさえあります。

AIに頼って、「AI使えば日給3万！」とかやってるの見たことありますけど、その結果がこうですか。

共有:

コメント