富士通、LLM新アーキテクチャ「PHOTON」開発　GPU効率最大475倍に

※記事を視覚化したイメージであり、実際の事象とは異なります。

2026.06.26

本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]

富士通は2026年6月24日、LLM向け新アーキテクチャ「PHOTON」を開発したと発表した。PHOTONは「Parallel Hierarchical Operation for TOp-down Networks」の略称で、Transformer比でGPUリソース当たり最大475倍のマルチクエリー性能を示し、生成AIの運用コスト削減を狙う。

階層化で文脈処理を効率化

PHOTONは、論文ベースでは階層型の自己回帰モデルとして説明されている。自己回帰モデルとは、文章などのデータを前から順に扱い、次に来る要素を予測していく仕組みだ。従来型のTransformerでは、入力が長くなったり同時に多くの問い合わせを処理したりすると、過去の情報を保持するKVキャッシュへのアクセスが増え、GPUメモリや処理速度の制約が重くなりやすい。

PHOTONの特徴は、文脈を平面的に走査する発想から離れ、意味のまとまりを階層的に扱う設計にある。入力を下位から上位へ圧縮し、必要な細部を上位から下位へ戻して生成することで、長い文脈を一律に細かく見るのではなく、複数の解像度で効率よく参照する。

富士通は、PHOTONにマルチクエリー統合技術を組み合わせることで、少ないGPUリソースでも複数の出力候補を並列に扱いやすくなるとしている。単にモデルを小さくする軽量化ではなく、情報の保持と参照の仕組みを変えることで、LLMの推論時に生じるメモリ負荷と運用コストを抑える研究と位置付けられる。

軽量化研究から設計刷新へ

富士通は2025年9月にも、LLMの軽量化や省電力化を図る生成AI再構成技術を開発し、自社LLM「Takane」の強化につなげたと発表している。LLMの大規模化に伴って高性能GPUの需要が増え、コストと環境負荷が課題になるとの問題意識は継続している。

今回のPHOTONは、そうした流れの中で、圧縮や再構成にとどまらず、LLMのアーキテクチャ設計から効率化を打ち出した点が新しい。富士通によると、数値実験は600M、900M、1.2Bパラメータのモデルで行われ、1.2BモデルではTransformer比で約475倍のマルチクエリー計算能力を示した。成果は、米国サンディエゴで現地時間7月2日から開かれる自然言語処理分野の国際会議「ACL 2026」のオーラルセッションで発表予定だ。

富士通は今後、PHOTONをTakaneや生成AI基盤「Fujitsu Kozuchi」にどう取り込むか、顧客向けサービスの低コスト化にどう生かすかを示していくことになる。