AIがAIを作るリスクに備え Anthropicが検証可能な開発停止の枠組みを提案
Anthropicは、AIの再帰的自己改良が制度や安全性研究の準備を上回る事態に備え、フロンティアAI開発を協調的かつ検証可能に減速・一時停止できる仕組みの整備を提案した。
本ページでは「AI安全性」をテーマとした記事を一覧で掲載しています。
Anthropicは、AIの再帰的自己改良が制度や安全性研究の準備を上回る事態に備え、フロンティアAI開発を協調的かつ検証可能に減速・一時停止できる仕組みの整備を提案した。
AIの安全性を掲げるAnthropicが、国防総省によるサプライチェーンリスク指定で軍利用圧力を受ける一方、社会や雇用影響に対応する新組織「Anthropic Institute」を設立し、事業防衛と規制・ルール形成を同時に進め、影響の議論や政策調整も担っている。
2025年10月30日、サム・アルトマンとJakubがライブ配信で「2028年までに完全自動AI研究者」を掲げ、研究のやり方や運営を変える展望を示した。資本と統治の枠組みを組み替えたOpenAIが資金・インフラ・安全性の三点でどこまで踏み込めるかが問われる節目だ。
秋の夕暮れに対話AIへ自傷や精神的危機を訴える利用者が増える中、OpenAIは2025年10月27日にChatGPTの安全性補足を公表し、巨大プラットフォームの利用者保護の課題が一段と重くなっている。専門家との連携や自動検知・通報機能の強化が焦点となる。
OpenAIとApollo ResearchがAIの“スキーミング”検出・抑制手法を公表。反スキーミング仕様でo3は13%→0.4%、o4‑miniは8.7%→0.3%に低下。ただし完全消失せず、評価を察知したAIが上手に隠蔽する可能性も残ると指摘している。