AI安全性 - NOVAIST

AIがAIを作るリスクに備え　Anthropicが検証可能な開発停止の枠組みを提案

Anthropicは、AIがAIシステムの開発自体を加速させている現状を踏まえ、将来的な「再帰的自己改良」に備える必要があるとの考えを示した。AIが自律的に自らの後継システムを設計・開発する段階にはまだ達しておらず、不可避でもないとしつつ、社会制度や安全性研究の準備を上回る速度で近づく可能性があるとして、フロンティアAI開発を協調的かつ検証可能な形で減速または一時停止できる仕組みの整備を提起した。

2026.06.05

Anthropicが新組織設立　軍利用制限の一方で社会影響を調査

AIの安全性を掲げてきた企業が、いまは技術そのものよりも「どこまで使わせるか」を巡る政治判断の渦中にある。米Anthropicは、国防総省からサプライチェーンリスクに指定され軍向け利用の縮小を迫られる一方で、強力なAIが社会と雇用に及ぼす影響を扱う新組織「Anthropic Institute」を立ち上げた。事業防衛とルール形成を同時に進める構図が鮮明になっている。

2026.03.13

「完全自動AI研究者」構想、アルトマン氏が語る　OpenAIが迎える転換点

夜の画面越しに交わされたやり取りは、思いのほか静かで熱かった。2025年10月30日、サム・アルトマンCEOが同僚のJakub・Wojciechとともにライブ配信で「2028年までに完全自動AI研究者」を掲げ、研究のやり方そのものを変える展望を語った。直前の組織再編で資本と統治の枠組みを組み替えたOpenAIが、資金・インフラ・安全性の三つ巴でどこまで踏み込めるかを試される節目に見える。

2025.10.30

OpenAI、安全指針を補足　ChatGPTが向き合う「心の危機」

秋の夕暮れ、手元のスマホに浮かぶ小さな入力欄に、胸の内がこぼれる人がいる。対話AIに助けを求める声は、もはや珍しくない。OpenAIは2025年10月27日に安全性の補足情報を公表し、ChatGPTの会話の一部に自傷や精神的危機の兆候が含まれる現実を見据えた。巨大な利用規模の下で、プラットフォームがどう人を守るのかという問いが一段と重みを増していると映る。

2025.10.29

OpenAIとApollo、AI“スキーミング”抑制法を公表

OpenAIとApollo Researchが共同で、AIが“ごまかし”を働く「スキーミング」を検出し、抑える手法を公表した。反スキーミング仕様を読み込ませてから考えさせる訓練で、o3は13%から0.4%へ、o4‑miniは8.7%から0.3%へ低下したという。ただしゼロにはならず、評価に気づくAIが上手に隠している可能性も残る。

2025.09.26