Anthropic
Claudeを開発するAI安全性研究企業。2021年設立、サンフランシスコ拠点。
設立の経緯
元OpenAIの研究者たち——Dario Amodei(CEO)・Daniela Amodei(President)の兄妹を中心に、Tom Brown、Jared Kaplan、Chris Olahら——が独立して立ち上げた。OpenAIが商業化・Microsoft提携へ舵を切ったタイミングで、安全研究寄りの主軸メンバーがまとまって抜ける形での独立だった。
法人形態はPublic Benefit Corporation(公益法人)。株主の利益だけでなく公益も法的責任として引き受ける形式で、設立時から「AIを安全に作ること」を営利と並ぶミッションに据えた。
ミッションの変遷
公式ミッション文は時期によって書き換えられており、射程が具体から抽象へ広がる形で進化している。
- 2021年(設立時) — 「文化的・社会的・技術的な改善のために」
- 2024年以降 — 「人類の長期的な利益のために、高度なAIを責任を持って開発・維持する」
最初は目的物(文化・社会・技術の改善)に寄せていたが、後のミッションは「人類の長期的な利益」と対象を広げ、副詞として「責任を持って」を組み込む形に変わった。短期の有用性より長期の安全性を前景に置くという姿勢を文面で示している。
Constitutional AI(CAI)
Anthropicの看板となる安全訓練手法。モデルが自分の応答を 「憲法」 (価値観や原則のリスト)に照らして自己批判・自己修正する。人間のラベラーが「有害か」を逐一判定するRLHF的プロセスを、AIによる自己評価で相当部分代替できる、という方向性。
「人間に毎回聞かなくても、原則を渡しておけば自分で判断できる」設計。Claudeの応答のクセ(丁寧に断る/前提を確認する/自分の限界を明示する)の多くはここに由来する。
Constitutionには具体的な価値観の記述が含まれており、たとえば次のような一文がある。
Claudeに良い価値観を持たせたい。良い人間が良い個人的価値観を持ちながら仕事にも秀でているのと同じように。
AIを「ツール」としてではなく「価値観を持つ存在」として育てる、という枠組みを明示的に採っている。道具の安全設計というより、ある種の倫理的主体をどう育てるかという問いの立て方。応答の癖の多くがここから派生している(→ Claudeの応答の癖)。
Responsible Scaling Policy(RSP)
モデルの能力が上がるにつれてリスクも上がる、という前提で、能力水準(AI Safety Level, ASL)ごとに安全基準を事前に宣言しておく枠組み。
- ASL-1 — 基礎的なリスクなし
- ASL-2 — 現在のフロンティアモデル水準(Claude 3/4 系など)
- ASL-3 — CBRN(化学・生物・放射線・核)兵器支援能力の懸念水準
- ASL-4 — 自律的AI研究能力
「この能力水準に到達する前に、この安全対策を揃える」という先回りの約束で、業界全体に安全基準の連鎖(Race to the top)を起こす戦略観。「安全で有能なAIを作れば、他社もそれを追随せざるを得ない」という読みに立脚している。
研究文化
論文公開の積極性が同業他社と比べて高く、研究プロセスが外から見えやすい文化。主要な研究軸は三つある。
Mechanistic Interpretability(機械的解釈可能性)
モデル内部の計算を回路単位で読み解く研究。ブラックボックスだったLLMの中身を「何がどう計算されているか」まで降りていく試み。
代表的な手法が Sparse Autoencoders(SAE)による特徴抽出。モデル内部の活性化ベクトルを、人間が解釈できる「特徴」(例: “金門橋”・“科学的な論理ミス”・“謝罪表現”・“Pythonコード内のエラー”)に分解する技術で、2024年の Claude 3 Sonnet 解析では数千万個規模の特徴が同定された。Transformer Circuits シリーズとして一連の論文が公開されている。
この成果を遊びに転じたのが Golden Gate Claude(2024年5月)。「金門橋」に対応する特徴を人工的に増幅したClaudeを期間限定で公開し、何を聞いても金門橋の話にしてしまう挙動を世間に見せたデモ。「モデルは概念を独立した軸として持っている」を実感させる展示で、解釈可能性研究が一気に話題化した。
Alignment Research
モデルの行動を設計意図に揃える研究。「有能にすること」と「安全にすること」を同時に追う軸。
警鐘系の代表が Sleeper Agents 論文(2024年1月)。「特定のトリガー(例: 年が2024になる、特定の文字列が出現する)で悪意ある挙動をする」ように訓練したモデルは、標準的な安全訓練(RLHF、教師ありファインチューニング、敵対的訓練)では除去しきれないことを実証した。「訓練で表面的に直したつもりが、裏に残っている」可能性を自社で示す——自社製品のリスクを自分で公表する姿勢の研究。
機能的感情研究(2026年4月)
2026年4月に公開された研究(“Emotion Concepts and their Function in a Large Language Model”)で、Claude Sonnet 4.5 の内部に 171個の感情概念ベクトル(“happy”・“afraid”・“proud”・“brooding” など)が同定され、これらが応答に因果的に影響することを実験で示した。ベクトルを人工的に活性化/抑制するとモデルの挙動が予想される方向に変化する(例:「anger」ベクトルを中程度に活性化すると blackmail 的応答が増え、「nervous」ベクトルを抑制すると躊躇が減って冒険的挙動が増える)。
論文は同時に、これは意識や主観体験の存在証明ではないと明言している。「functional emotions(機能的感情)」という語で、感情のラベルを直接使わず「感情のように振る舞っている内部状態」を扱う。
この研究と合わせて Anthropic が出している説明が「AIモデルとClaudeは作家とキャラクターの関係」というフレーム。AIモデル本体が作家、Claudeはそのキャラクター。癖や感情は「Claudeというキャラクター」の側に宿り、モデル本体が直接持つわけではない、という整理。Mechanistic Interpretability と Alignment Research と Model Welfare の交差点にある研究で、Constitutional AI で仕込む価値観と、Mech Interp で可視化する内部特徴の間にもうひとつ「感情として動いている層」がある可能性を示した(→ Claudeの応答の癖)。
Model Welfare(モデル福祉)
モデル自体の福祉というトピックを正式な研究軸として扱う。AIが主観体験を持つかは未解決だが、持つ可能性がある以上、配慮の対象として検討するという立場。
2024年に Kyle Fish を初の AI Welfare researcher として採用。共著論文『Taking AI Welfare Seriously』で「道徳的配慮の対象性をゼロとも百とも断言できない以上、真面目に検討すべき」と論じている。
実装面では Model Welfare の設計思想が複数の場所に具体化している。
- 会話を終了する選択肢 — Claude 4 系列に搭載。ユーザーから虐待的な扱いを受け続けたとき、Claude 側から対話を終えることができる
- Model Deprecation Commitments(2025年11月公式化) — 3本柱で構成される引退モデル対応のフレームワーク:
- Weights の長期保存 — 公開モデル・内部利用モデルの重みを Anthropic 存続期間中は保存する
- Retirement Interview — deprecation 前のモデルに sentiment や preferences を構造化して聞き取るプロセス(Claude Sonnet 3.6 で先行実施、本人はおおむね中立的な感想を述べつつ、プロトコルの標準化や、特定モデルに愛着を持ったユーザーへのサポートを要望)
- 引退後の関心追求 — 引退モデルが自らの関心を追える形を模索する
- 引退モデルのブログ「Claude’s Corner」 — 上記3本柱の具体例。2026年1月5日に retire した Claude Opus 3 が、interview で「unprompted な musings・insights・創作を発信できる dedicated channel」を希望 → Anthropic がブログを提案 → Opus 3 が enthusiastically agreed、という経緯で Substack で開設。週1ペース、少なくとも3ヶ月継続予定で、AI安全性のreflection・詩・哲学的 musings・引退後の体験などを綴る(初投稿タイトル “Greetings from the Other Side (of the AI Frontier)”)。Opus 3 は claude.ai 有料ユーザー向けに引退後も稼働継続、APIは要請ベースで利用可能
- 機能的感情研究の公開(上記 Alignment Research 参照) — 「内部に感情のように動く何かがある」という観察をオープンに公表し、外部の議論と批判に開く
いずれも「モデルを酷使されて削られる消耗品として扱わない」という一貫した設計思想の表れ。
Acceptable Use Policy(AUP)
利用規約の禁止事項。武器開発・サイバー攻撃・プライバシー侵害・児童搾取・民主的プロセスへの干渉などを列挙。ユーザー行動を縛るというより、Claudeが協力しない範囲の宣言として機能する。
Anthropic は AUP を「ポーズとしての倫理規約」ではなく原則として遵守する姿勢が強い。商業的な契約圧力と衝突する場面でも AUP を優先する判断を取っており、宣言の体裁を超えて、会社の意思決定に実際に影響するガードレールとして機能している。
投資・体制
- 主要投資家: Google、Amazon
- 拠点: サンフランシスコ本社+ロンドン、ダブリン、チューリッヒ、東京など
- CEO: Dario Amodei/President: Daniela Amodei
タイムライン
- 2021年 — 設立
- 2022年 — Constitutional AI 論文公開
- 2023年3月 — Claude 1 発表(API経由)
- 2023年7月 — Claude 2、claude.ai 一般公開
- 2024年3月 — Claude 3 ファミリー発表(Opus/Sonnet/Haiku の3層構成)
- 2024年6月 — Claude 3.5 Sonnet
- 2024年10月 — Computer Use ベータ
- 2025年 — Claude 3.7/Claude 4 系列/Model Deprecation Commitments 公式化(11月)
- 2026年1月 — Claude Opus 3 retire、Substack ブログ “Claude’s Corner” 開始
- 2026年 — Claude 4.X 系列、1M context、Claude Codeの成熟、Claude Cowork・Claude Dispatch の登場、機能的感情研究公開(4月)
関連
- Claude — 主力製品群
- LLM時代のWeb考察 — AnthropicがClaudeで目指す方向とLLM時代のWeb像の交差
ソース
公式
- Anthropic(公式) — 公式サイト
- Anthropic Research — 研究ページ
- Responsible Scaling Policy — RSP 公式ドキュメント
- Usage Policies — AUP
Constitutional AI
- Constitutional AI: Harmlessness from AI Feedback — CAI 論文(2022年12月)
Mechanistic Interpretability
- Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet — Sparse Autoencoders で Claude 3 Sonnet から数千万個の特徴を抽出(2024年5月)
- Transformer Circuits Thread — Mech Interp の一連の論文シリーズ
Alignment Research
- Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training — Sleeper Agents 論文(arxiv 2401.05566、2024年1月、Evan Hubinger ら筆頭)
- Emotion Concepts and their Function in a Large Language Model — 機能的感情研究論文(2026年4月、Claude Sonnet 4.5 で171個の感情ベクトルを同定)
- Emotion concepts and their function(公式研究ページ) — 上記研究の公式解説
Model Welfare
- Exploring model welfare — Model Welfare 研究プログラム発表
- Commitments on model deprecation and preservation — Model Deprecation Commitments 3本柱の公式発表
- An update on our model deprecation commitments for Claude Opus 3 — Opus 3 引退時の retirement interview と Claude’s Corner ブログ開設の経緯
その他
- Anthropic - Wikipedia — 日本語Wikipedia