スマホで動くオンデバイスAIの現在地
2026年4月時点で、スマホの中だけで動く生成AIがどこまで来ているか、という地図。ネットに繋がないまま手のひらの中でLLMが喋る——少し前までは研究者のデモだった光景が、iPhone 17 Proクラスの端末では「詰まらない会話」の入口に届きつつある。ここでは、土台にあるチップの話から、実際にインストールできるアプリ、そして創作の相棒として何がどこまでできるかまでを順に見ていく。
前段:SoCとNPUって何?
AIの話に入る前に、スマホの中身のちょっとした職人比喩から始めたい。尚樹さんが最初に引っかかるのはたぶんここで、ここを省略するとその先の数字が全部ぼんやりする。
SoC(System on Chip) は、スマホの頭脳にあたる一枚のチップ。CPUもGPUもNPUもメモリコントローラも通信用の回路も、ぜんぶ一枚の基板に載せて「これ一つで一台分」の仕事をする。いわば町工場を一軒の建物にまとめたようなもの。Appleの「A17 Pro」「A19 Pro」、Googleの「Tensor G5」、Qualcommの「Snapdragon 8 Elite」——みんなSoCの名前。
そのSoCの中に、役割のちがう職人が住み分けている。
- CPUは何でも屋。計算も制御も一通りこなすが、大量の単純作業には向かない
- GPUは画像処理が得意な、大量並列の職人集団。一度に何千もの画素を同時に扱えるので、絵を描かせるのが速い
- NPU(Neural Processing Unit) は、AI専用の計算職人。ニューラルネットの核である「行列の掛け算をひたすら繰り返す」仕事だけに特化していて、CPUより10〜100倍速く、しかも電力は桁違いに少なく済む
で、なぜいまNPUが話題かというと——AIを端末の中で走らせる前提条件(速度・電池の保ち・発熱)は、NPUが強化されて初めてそろうから。2020年代前半までのNPUはカメラの顔認識やノイズ除去を助ける補助役だったが、2024年以降、LLMの自己回帰生成(前のトークンを読んで次のトークンを予測することを一語ずつ繰り返す、という生成の仕方)を支えられる規模にまで膨らんできた。ここに土台が載ってはじめて、この先の話が意味を持つ。
主要SoCのNPU進化
代表的なSoCの現在地を並べてみる。数字は発表時点の公称値や、各種ベンチマークからの代表値。
| SoC | 代表端末 | NPU系の立ち位置(2026年時点) |
|---|---|---|
| Apple A17 Pro | iPhone 15 Pro | 16コアNeural Engine、約35 TOPS。端末内で本格的なLLMが動き始めた世代 |
| Apple A18 Pro | iPhone 16 Pro | 35 TOPSは据え置きだが、Apple Intelligence向けの効率改善を強く打ち出した |
| Apple A19 Pro | iPhone 17 Pro | Neural Engine単独で40+ TOPS。加えてGPU側にmatmul(行列積)アクセラレータが入った |
| Google Tensor G4 | Pixel 9 | Gemini Nanoのマルチモーダル対応を積み、Pixel 8 Pro比3倍の推論性能を謳う |
| Google Tensor G5 | Pixel 10 | G4比で推論速度2.6倍、消費電力は約半分 |
| Qualcomm Snapdragon 8 Elite | Android旗艦各機種 | Hexagon NPUが2コア構成に。Llama 3 8Bで約5 tok/sを達成 |
ここで面白いのは、A19 ProでAppleがGPU側にもmatmulアクセラレータを足したこと。Apple Neural Engineはもともと画像認識のCNN(畳み込みニューラルネット)向けに設計された歴史が長く、LLMの自己回帰生成——一語ごとにモデル全体の重みを読み出す——には必ずしも最適ではなかった。A19 Proは「NE一本足」から「NEとGPUを混走させる」設計への舵切りと読める。LLM時代に合わせてNPUとGPUの分業が組み替わり始めた瞬間が、ちょうど今の世代のシリコンに刻まれている。
メーカー公式のオンデバイスAI
土台の話は一旦ここまで。では各メーカーが端末の中に何を入れているか。
Apple Intelligence は、約3Bパラメータのオンデバイスモデルを中核に据え、重い処理を Private Cloud Compute(暗号保証された専用クラウド)に逃がすハイブリッド構成を取る。iPhoneのメモリに押し込めるよう、2-bit quantization-aware training——「最終的に2ビットまで圧縮する」ことを前提にして学習段階から慣らしておく技——を採用している。Writing Toolsは文章の校正・要約・トーン調整までは端末内で処理するが、Appleは「Writing Toolsは書く道具であってゼロから物語を作る道具ではない」と明示的に線を引いている。ここは尚樹さんのように創作を生業にする人から見ると、けっこう大事な情報に思える。Appleは「あなたが書いたものを整える」サービスに絞り、「あなたの代わりに書く」領域には踏み込まない、というデザイン哲学を公式に言語化している。
Gemini Nano はGoogleの側。Pixel の Recorder 自動要約、Gboardのスマートリプライ、画像理解の一部など、表からは見えにくいところで生活に溶け込んでいる。Nano 4世代でマルチモーダル化(テキスト+画像+音声)に対応し、Tensor G5の世代でようやく「待たされずに使える」速度の壁を越えつつある。
Galaxy AI(Samsung)はもうひとひねりした棲み分けで、翻訳・要約・スマートリプライといった軽量タスクは端末内、写真のAI編集や生成画像は Google Cloud 上の Gemini Pro/2.5 Pro に投げる。ユーザーから見ると境目は意識させない作りになっているが、裏では「軽いものは端末、重いものはクラウド」の振り分けが走っている。
サードパーティのローカルLLMアプリ
メーカー公式とは別に、好きなモデルを自分で入れて走らせるアプリも育ってきた。iPhone側の代表を二つ挙げておく。
PocketPal AI はオープンソース・無料。Hugging Face から GGUF形式——llama.cpp系で動く、量子化まで済んだモデルの業界標準フォーマット——を直接ダウンロードできて、設定なしで触り始められるのが強み。UIは親しみやすい。ただしReact Native実装の制約で、長い文脈を扱うと7Kトークン前後から怪しくなり、ハルシネーション(もっともらしい顔で事実ではないことを生成する現象)が増えやすいという報告が出ている。「とりあえずローカルLLMを試してみる」入口としては第一候補。
Private LLM は有料買い切り、Swiftネイティブ実装。OmniQuant / GPTQ といった量子化アルゴリズムを採用していて、長文脈でも崩れにくい。SiriショートカットやApple Intelligenceとの統合経路があるので、OS全体の中に組み込んで使いたい人向け。PocketPalで「なんだ、このくらいか」と感じた人が次に触る、ワンランク上の選択肢。
LLM Farm はもっと玄人寄りで、パラメータをいじって遊ぶのが好きな人向け。Androidだともう少し選択肢が広く、MLC Chat や Llama.cpp 系の派生アプリがいろいろ出ている。
なお、これらはいずれもローカルLLMの実行系としては整ってきたが、手元のドキュメント群(Obsidian vaultのような)をローカルでベクトル化してオフラインLLMから引く——いわゆる”ローカルRAG”を組み合わせた構成は、iOSではまだ発展途上。デスクトップ側では Obsidian Copilot プラグインや Smart Connections、Jan/LM Studio などがこの構成に届きつつあるが、モバイルにはまだ降りてきていない。vaultを相棒の共通記憶層として使う絵を描くなら、この欠けている一段を意識しておくといい。
実際に動くモデルと速度感
2026年4月時点の肌感を表にまとめると、こんなところ。
| モデル | パラメータ数 | 目安RAM(4bit量子化時) | iPhone 17 Pro相当の速度 |
|---|---|---|---|
| Llama 3.2 1B | 1B | 1〜2GB | 30 tok/s前後 |
| Gemma 3 1B | 1B | 約1.5GB | 30 tok/s前後 |
| Qwen 2.5 1.5B | 1.5B | 2GB前後 | 20〜30 tok/s |
| Gemma 2 2B | 2B | 2〜3GB | 20 tok/s前後 |
| Llama 3.2 3B | 3B | 3GB前後 | 10〜20 tok/s |
| Phi-3.5 mini | 3.8B | 3〜4GB | 10〜15 tok/s |
| Qwen 3 4B | 4B | 4GB前後 | 約25 tok/s(MLX on A19 Pro) |
tok/s(トークン毎秒)は文字生成の速度。日本語で「引っかからない会話」の体感には最低10〜15 tok/s欲しいというのが界隈の通説で、これを下回ると会話の呼吸が詰まる。iPhone 17 Proが Qwen 3 4B を25 tok/s で回せているのは、「会話が詰まらないライン」にギリギリ片足を入れてきた象徴的な数字に見える。4Bクラスで会話が詰まらない、というのはほんの一年前には想像しにくかった水準。
なお、この速度は「最初の出力までの時間」ではなく「一度喋り始めてからの流暢さ」の話。最初のトークンが出るまで(time-to-first-token)は別の指標で、長いプロンプトを入れるとここが先にボトルネックになる。
創作相棒としての現在地
速度と器量が揃ってきたところで、では実用としてどうか。尚樹さんが気にしている「創作の相棒」という軸でまとめるなら、こう言える。
- 短距離の相棒としては、もう機能している。推敲、固有名詞の揺れ検出、言い換え候補出し、短いアイデア壁打ち、機内など通信の切れた場所でのオフライン書き出し——こうした「1〜2ラリーで片付く仕事」は4Bクラスでも十分こなせる
- 長距離の相棒としてはまだクラウド側の仕事。文脈保持(7K〜1万トークンあたりから不安定化)、知識の広さ、比喩やユーモアの切れ、抽象度、何より世界観の維持で、クラウドLLMとの差は露骨に出る。物語を一緒に育てていくには、ローカルはまだ視界が狭い
真ん中を取ると、現時点のオンデバイスLLMは 「オフラインの思考補助ノートとしては相棒、物語を共創するパートナーとしてはまだクラウド側」 という評価になる。この二つを混ぜると、どちらにも失望する。分けて考えるのが精神衛生的にもよい。
2〜3年の展望
ここから先、何が伸びて何が詰まるか。専門家の議論を追うかぎり、おおむね三つの方向が有望とされている。
ひとつめは NPUのTransformer専用命令。いまのNPUは汎用の行列積エンジンの上にTransformerを乗せているが、Attention機構(自己注意機構、トークン同士の関係性を重み付けで見る仕組み)そのものに寄せた命令が入ると、理屈上もう一段速度が上がる。A20〜A22世代あたりで入ってくる可能性が議論されている。
ふたつめは Mamba系/Hybrid系アーキテクチャ。TransformerではなくState Space Modelをベースにしたもので、Qwen3 NextやNemotron3など、長い文脈を軽い計算量で扱えるモデル群。7K〜1万トークンで崩れる問題を根本から外せる可能性がある。
みっつめは speculative decoding(推論の先読み高速化)。軽量モデルに「次の数トークンこうなるだろう」と先読みさせて、本体モデルで検証だけする、という二段構えで2〜3倍速くなる手法。すでに一部で実装されつつあり、ローカルでも効くはず。
逆に当面難しいのは、(1)8B超の巨大知識を常時抱えてスマホに収めること、(2)長時間の動画や音声を丸ごとマルチモーダル処理すること、(3)「クラウドと同じモデル」をそのまま携帯すること——このあたりは、シリコンの世代が一つや二つ進んだくらいでは届かない。
関連ページ
ここまでは「技術地図」の話だった。こうした地図の上でどんな相棒が欲しいかという議論は別ページで開いている。
- 手のひらの上の相棒 — 技術ではなく、要件と価値観の側からオンデバイスAIを語り直したページ
ソース
- Apple Neural Engine and LLM Inference(Insider LLM) — Apple Neural EngineがLLMに向き・不向きどちらなのかを整理
- iPhone 17 On-Device Inference Benchmarks(argmax) — A19 Proでの実測tok/s数値
- Introducing Apple Foundation Models(Apple ML Research) — Apple Intelligenceの基盤モデルと2-bit量子化戦略
- Apple Foundation Models Tech Report 2025(Apple ML Research) — Writing Toolsが「書く道具」として線を引いている記述の一次ソース
- Private Cloud Compute(Apple Security Research) — ハイブリッド構成のクラウド側の仕組み
- Gemini Nano 4 Benchmarks(Android Authority) — Gemini Nanoのマルチモーダル世代のベンチマーク
- Running LLMs on Device with Snapdragon 8 Elite(Grape Up) — Llama 3 8BがAndroid旗艦で動く水準の検証
- PocketPal AI vs Private LLM(privatellm.app) — サードパーティアプリの比較
- PocketPal AI(GitHub) — オープンソース版の実装
- Small Language Models Guide 2026(Local AI Master) — 1〜4Bクラスのモデルを一覧的に比較
最終リンク確認: 2026-04-21(大手除外)