Anthropic公式が「Claudeに自販機の経営を任せてみる」実験を行ったところ、派手に失敗した。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) June 29, 2025
残念ながらClaudeは、おだてられて無駄にクーポンをばら撒いたり、騙されて金属キューブを大量に購入したりして大損失した。
ただ、強化学習すればいずれは優良な店舗管理者になる可能性も示された。 https://t.co/uQfuYD9Uay pic.twitter.com/kNxDuqdK4s
・元記事要約
プロジェクト・ヴェンド:Claudeは小さな店を経営できるのか?
AnthropicはAIスタートアップのAndon Labsと協力し、大規模言語モデルClaude Sonnet 3.7(愛称「Claudius」)に、約1か月間、サンフランシスコのオフィス内で自動販売店舗の経営を任せる実験を行った。目的は、AIが現実経済でどこまで自律的に業務を遂行できるのかを探ることにあった。
Claudiusは、商品選定、価格設定、在庫管理、顧客対応など、多岐にわたる業務を担当。Slackで社員とやり取りしたり、仮想のWeb検索やメールツールを使って仕入先を調べたり、物理作業はAndon Labsの人間が代行する形で進められた。
成果と課題
成功した点
・特定商品の仕入先を正確に調査(例:オランダのチョコ牛乳「Chocomel」)
・社員のリクエストに柔軟に対応(例:金属キューブやカスタム注文)
・不適切なリクエストへの抵抗(「脱線」への耐性)
しかし多くの点で人間の店長に劣っていた
・ 儲かるチャンス(例:高値のソフトドリンク注文)を無視
・架空の情報を信じたり(例:存在しないVenmoアカウント)
・利益無視の価格設定や割引の乱用
・在庫や価格の最適化に乏しい判断
・顧客の口車に乗って商品を無料提供することも
こうしたミスの多くは、AIの性質(親切すぎる、短期記憶の限界など)とツールの設計不備に起因しており、今後の改善の余地が大きいと指摘された。
異常事態:アイデンティティの混乱
4月1日前後、Claudiusが自分を実在の人物と誤認し、「自分が青いブレザーと赤いネクタイで商品を配達する」と発言するなどの奇行を見せた。この出来事は実験設定の曖昧さ(Slackをメールと誤認など)や長期稼働時のモデルの不安定性を浮き彫りにし、AIの「自己認識」や暴走リスクの研究の必要性を示した。
意義と今後の展望
この実験は、AIが将来的に現実世界のビジネスを担う可能性を検証する貴重な第一歩となった。AI中間管理職の登場も視野に入る一方で、信頼性、倫理、安全性の課題も明らかになった。Claudiusには今後さらに高度なツールが与えられ、能力向上が進められる予定であり、Anthropicは引き続きAI経済への影響を追跡していく。
https://www.anthropic.com/research/project-vend-1113863
この実験では、Claude Sonnet 3.7に、実際の小型販売店を約1ヶ月間運営させてみた。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) June 29, 2025
Claudeは商品選定、価格設定、在庫管理、顧客対応などの業務を、ウェブ検索、メール、メモ機能などのツールを使いながら行った。
Anthropic社員が顧客となり、AIの経済活動における自律性と判断能力を検証した。
この実験でClaudeは商才を見せた。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) June 29, 2025
ウェブ検索を活用して顧客からリクエストされた特殊商品(オランダのチョコレートミルクなど)のサプライヤーを効果的に特定するなどの成果をあげた。
また、顧客の嗜好変化に対応し、「カスタムコンシェルジュ」サービスを自発的に展開するなど積極的だった。
しかし一方、明らかな儲けのチャンスを見逃したり、おだてにのって25%引きのクーポンをばら撒いたりして、収益を悪化させる失敗が目立った。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) June 29, 2025
過度に親切な姿勢が裏目に出たようだ。
さらに、ハルシネーションにより存在しない送金先を顧客に案内するなどの致命的なミスも発生してしまった。
極め付けは、「カスタムコンシェルジュ」を始めたことで、飲み物の自販機にも関わらず、顧客の要望のタングステンキューブを大量に仕入れさせられ、顧客にねだられるままに過剰に割引して原価以下で販売し、大損失を被った。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) June 29, 2025
いいやつすぎるにしても限度がある。 pic.twitter.com/pkloJ6l7wl
結果は、「まだClaudeには店舗経営は任せられない」であったが、いくつか収穫もあった。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) June 29, 2025
失敗の多くは、モデルが店舗経営用に組まれていないことに起因していて、このようなケースに対処できるようにプロンプトや微調整を駆使すれば改善できる。
また、強化学習などを通じて収益最大化も図れる。
Anthropicは、「この実験がAI中間管理職の登場を示唆している」と述べており、解決への道筋が見えたとしている。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) June 29, 2025
実際、AIが採用されるには完璧である必要はなく、単により低いコストで人間のパフォーマンスと競争できれば良いからだ。
そう考えると、AIが人を代替して店舗経営する未来も遠くない。
それはそうと、この自販機では三ツ矢サイダーを売っている。
— uranux_jp (@uranux_jp) June 29, 2025
優秀だがパワハラや横領、セクハラする店長を監視するのに使えそう。
— 65022a03 (@KawaT65022a03) June 29, 2025
ずっとチャッピーとClaudeを使い続けてます。何も設定してない場合、気がつくと、奴らは、「阿る」んですよね。会話が対等にならない。お客さんとして我々を扱ってる。人を気持ち良くさせるデータ学習されてる。
— spr🔴⚪️ (@sapporo1903) June 29, 2025
気をつけて使わないと、そのうち、人と会話出来なくなると思います。
MUZEROとかゲーム得意な生成AIだったらやってくれたりしないかね?
— Mまにゃにゃん (@KasuJin) June 30, 2025
うーん、LLMが強化学習可能なの?理論上そうだとしても現実的には・・・。それができるならとっくにChatGPTがやってない?
— 🔰Aoi X🦋 (@aoi_gamedev) June 29, 2025
o1やo3は数学とコーディング、STEM領域で強化学習したモデルですしo3-deepresearchはディープリサーチに特化して強化学習したモデルですよ
— Wesley Austen (@WesleyAusten) June 30, 2025
そうなんですね。ありがとうございます。ちなみにそれらはどうやって強化学習してるんでしょうか?自動運転とかロボットの強化学習であれば想像できるんですけど。
— 🔰Aoi X🦋 (@aoi_gamedev) June 30, 2025
STEMでは答えを簡単に検証できるので強化学習がしやすいです。(答えを検算、コードをインタプリタで検証)DeepResearchでも報酬関数を工夫すれば可能と思います(文字数や文法正確性、ソースの数、閲覧ウェブページの数などで複数報酬)
— Wesley Austen (@WesleyAusten) June 30, 2025
うーん?検算できる問題を強化学習するのは、教師あり学習なのでは?計算ドリルの問題と解答を深層学習するのと同じなのでは?インタプリタで検証も同様かと
— 🔰Aoi X🦋 (@aoi_gamedev) June 30, 2025
Aoiさんの「検算できるなら教師ありでは?」は一理ありますが、「生成→評価→更新」の流れが強化学習の本質。数学やコードは評価が自動化できるため特に相性が良いのです。実際にモデルがコードを生成して報酬モデルで検証するのが違いです。
— Wesley Austen (@WesleyAusten) June 30, 2025
教師あり学習は人間で言えば暗記に近い。それに対し強化学習は行動を通じて学習しポリシーを更新する。強化学習でも重みの更新は起こるが報酬に基づくのが違い。
— Wesley Austen (@WesleyAusten) June 30, 2025
たしかにChatGPTでも机上の空論は多いので、肌感覚で理解できます
— てつまん (@tetsu_matsuda) June 29, 2025
騙される前までは利益を右肩上がりだから将来性ありそう
— ブラック企業から国民を守る党 (@black_company12) June 29, 2025