著者:晓静
シリコンバレーでは今、新しい言葉が流行している:Tokenmaxxing(Token最大使用量)。
MetaやOpenAIの内部では、エンジニアたちがAI利用ランキングで競争を始めている。海外メディアの報道によると、あるエンジニアは一週間で2100億のTokenを消費し、これはウィキペディアのテキスト量33冊分に相当する。中には月のAI請求額だけで15万ドルに達する者もいる。
スウェーデンのエリクソンのエンジニアは、Claudeにかかる費用が自分の給与よりも高いが、その請求は会社が負担している。Token予算はエンジニアの新たな福利厚生の一つとなりつつあり、「無料のスナックや無料のランチのように」なっている。
ShopifyのCEO、トビ・リュッケは2025年4月に内部メモを発表し、「AIの使用はShopifyの基本的な期待値」と宣言、すべてのチームに対して、新人採用前にAIがその仕事を完遂できないことを証明し、AIの使用をパフォーマンス評価に組み込むよう求めた。Metaもその後、2026年から「AI駆動のインフルエンス力」を正式に全社員の評価項目に加えると発表した。
Tokenの消費量がKPIに登場し始めると、それはすでに組織の行動シグナルとなっている。
同時に、産業レベルのシグナルも密集している。3月16日、NVIDIAのジェンス・フリードマンはGTC大会でTokenを「AI時代の基盤」と定義し、「最も価値のあるコモディティ」になると述べた。翌日、AlibabaはAlibaba Token Hub事業群を設立し、CEOの呉泳銘が直接責任者となり、「Tokenの創造・輸送・応用」を目指すと発表した。
図:黄仁勋はGTCの講演で、Tokenコストと収益の関係を示すグラフを披露し、データセンターを無料層、中級層、高級層、プレミアム層に分けて計算能力を配分し、Vera RubinチップがGrace Blackwellに比べて5倍の収益向上をもたらす予測を示した。
一年前、Tokenは開発者だけが気にする技術的な指標だった。今や、それは半導体企業が製品価値を定義する言語となり、インターネット大手がそれを軸に事業群を再編し、エンジニアのオファーにおける新たな福利厚生や主要なKPIとなっている。
しかし、Tokenmaxxingのランキングは消費量だけを記録し、これらのTokenがどれだけ有効なタスクを完了したかは記録されていない。
これこそが、今日のToken経済における最大の盲点だ。
2100億Tokenという数字は驚くべきものだ。しかし、その真の意味を理解するには、ある仮定を捨てる必要がある:Tokenは標準品だ。
図:Tokscaleの世界Token消費ランキング。TokscaleはオープンソースのToken使用量追跡・ランキングツールで、Claude Code、Cursor、OpenCode、Codexなど複数のプラットフォームをサポートし、ユーザーがデータを提出して世界規模の順位に参加できる。
2年前、大規模モデルの価格設定は比較的シンプルだった。基本的には入力Tokenと出力Tokenの二つの価格だけだった。しかし、今日では主流の企業の価格体系は明らかに層別化されており、同じ「Token」でも呼び出し条件によって全く異なる料金体系になる。
例としてAnthropicを挙げると、Claude Opus 4.6の標準入力価格は百万Tokenあたり5ドル、出力は25ドルだ。Prompt Cachingを有効にすると、5分間のキャッシュ書き込みは6.25ドル、1時間のキャッシュ書き込みは10ドル、キャッシュ読み出しは0.50ドルとなる。Batch APIを使えば、入力と出力の価格はそれぞれ半額にできる。米国内のみ推論を指定すると、Token価格はさらに10%上昇。Fast Modeでは、Opus 4.6の入力・出力価格は標準の6倍に跳ね上がる。
つまり、同じメーカー、同じモデル、同じ「Token」と呼ばれる課金単位でも、キャッシュ、バッチ処理、地域推論、速度設定などの条件によって、数倍から十倍以上の価格差が生じる。
コストを本当に押し上げているのは、もはやモデル自体の呼び出しコストだけではない。OpenAIの現行料金表によると、Web Searchはモデルタイプごとに料金が分かれている。GPT-4.1やGPT-4o向けのWeb検索は千回あたり10ドルだが、GPT-5など推論モデル向けは25ドルだ。
File Searchの料金は千回あたり2.50ドル、ベクトルストレージはGBあたり1日0.10ドル、最初の1GBは無料。コードコンテナも別料金になっている。現在1GBのコンテナは0.03ドル、4GB、16GB、64GBのコンテナはそれぞれ高額設定。2026年3月31日以降は、これらの料金も20分ごとにセッション単位で課金される方式に切り替わる。
モデル以外にも、検索・検索結果取得・ストレージ・実行環境といった、かつては「付属能力」と見なされていた部分も、今や独立したコストセンターに分割されている。
Googleも同じ方向に進んでいる。Vertex AIの公式価格ページによると、2026年2月11日以降、Code Execution、Sessions、Memory Bankは正式に課金開始となり、従来のパッケージ料金から、vCPU時間やGiBメモリ時間ごとに個別に課金される。
したがって、「大規模モデルの価格」について語るとき、もはや入力・出力Tokenの単価だけを見ることはできない。本当に変わったのは課金のロジックであり、今や大規模モデルのメーカーが売っているのは、動作可能で、保存できて、検索できて、呼び出せて、持続的に実行できるAIの基盤能力の一式だ。
図:OpenAIの価格ページのスクリーンショット。Token以外の多層課金構造(Web Search、File Search、Containerなどの個別課金項目)
モデルAPIの表面上の価格だけを見ると、Tokenは確かに破格の安さに近づいている。AnthropicのOpusは、前世代の15ドル/百万Tokenから5ドルに下がり、約三分の二の値下げだ。DeepSeek V3.2は0.28ドルに抑えられた。Google Gemini 2.5 Flash Liteは約0.10ドルまで下がっている。
中国のモデルの価格優位性はさらに顕著だ。OpenRouterのデータによると、中国製モデルのToken単価は海外の競合製品の約六分の一から十倍の差がある。たとえTencent Cloudの混元HY2.0 Instructが、パブリックテストの補助金終了とともに値上げし、460%以上の値上げをした後でも、入力価格は約0.62ドル/百万Tokenであり、最も安いAnthropicのHaiku 4.5(1ドル)よりも安く、Sonnet 4.6の五分の一未満だ。
図:Artificial Analysisはリアルタイムで更新されるLLMランキングを維持しており、モデル間の価格差は巨大だ。
しかし、AIの総使用コストは必ずしも下がっていない。三つのメカニズムが同時に作用している。
第一に、モデルは賢くなったが、その代償として「話しすぎる」ようになった。Artificial Analysisの報告によると、推論モデルの平均出力Token使用量は非推論モデルの約5.5倍だ。AnthropicやOpenAIは、extended thinking Tokenを出力Tokenとして課金しており、深く考えれば考えるほど、請求は長くなる。単価は下がったが、同じタスクを完了させるためのToken総量は何倍も増えている。
第二に、AgentはTokenを「一度の消費」から「継続的な消費」へと変えている。これがTokenmaxxingの深層的な推進力だ。エンジニアは手動でTokenを連打しているわけではなく、AIプログラミングエージェントが24時間稼働し続け、タスクを自動的に分割し、ツールを呼び出し、自己反復している。Alibaba Cloudのデータによると、単一のAgentの計算資源消費は従来のチャットボットの100倍から1000倍に達している。中国全体の一日あたりのToken消費は2025年中に3兆Tokenを突破し、2026年2月には180兆Tokenに急増している。
第三に、Tokenを生産する基盤コストが上昇している。2026年3月18日、Alibaba Cloudと百度のインテリジェントクラウドは、AI計算能力とストレージの価格を引き上げた。最大で34%の値上げだ。AWSは1月に機械学習容量の価格を約15%引き上げ、Google Cloudも5月からAIインフラの料金を改定すると発表した。
あるクラウド業界の専門家は言う。「今回のクラウド市場の価格調整は、主に需給関係とコストに基づいている。今後の価格も、サプライチェーン全体の価格動向に左右されるだろう。」
GPUや並列ストレージ、高速ネットワーク、データセンターの電力、モデルの牌価は下がっているが、Token生産に依存するすべてのコストは上昇している。AnthropicはOpus 4.6のリリース時に、「価格は変わらない」と強調した。これは、より高性能な能力はメーカー側でコストを吸収するという意味だ。
言い換えれば、モデルはエンジンだが、その燃料代や駐車料金、高速道路料金は上がり続けている。
これら三つのメカニズムが重なることで、Tokenの表面価格と実際のタスクコストの間に、ますます広がる裂け目が生じている。
Tokenmaxxingに戻る。ランキングはToken消費量を記録しているが、成果の質は記録していない。あるエンジニアが一週間で33冊のウィキペディア分のTokenを燃やしたとしても、それは彼が33冊分の価値の仕事をしたことにはならない。
大手企業がToken消費量をKPIに組み込んだり、「福利厚生」として位置付けたりしているが、それは本当に生産性の向上なのか、それとも単なる「生産性のパフォーマンス」なのか。
これはToken経済学の最も根本的な構造的欠陥に触れている。業界は、Token消費からタスク完了までの有効な測定基準をまだ確立していない。Tokenは投入量を示すものであって、成果を示すものではない。 あるAgentが100万Tokenを使ってタスクを完了したのと、別のエージェントが10万Tokenで同じタスクを完了したのとでは、Tokenmaxxingのランキングでは逆の結果になる。前者の方が高く評価される。
ShopifyのリュッケCEOはメモの中で、次のように述べている:彼は、一部の同僚が「これまで考えられなかった10倍の成果」を出していると主張しているが、具体的な測定基準は示していない。
新たな職業的な不安が生まれている:高額なToken消費を伴わずにAIの生産性を示すことができなければ、遅れているとみなされる可能性がある。 この不安は、2000年代初頭の企業が次々とウェブサイトを作り、2010年代にはすべてのブランドがアプリを持つ必要に迫られたのと全く同じ論理だ:技術採用自体がシグナルとなり、消費量が代理指標となり、真の価値の測定は後回しにされてきた。
しかし、今回のコストは実際にかかるものだ。月15万ドルのAI請求、週に2100億Tokenの消費、底層の計算資源とストレージの継続的な値上げ、Tokenmaxxingは無料ではない。コストが十分に高くなると、「Tokenを燃やす」と「Tokenを使って価値を創造する」の違いは、哲学的な問題から財務的な問題へと変わる。
Tokenの単価は今後も下がり続けるだろう。それは間違いない。
本当の不安は、誰が最も効率的にTokenをタスク完了に変換できるかだ。すべてのプログラマー、すべての企業、すべての一般ユーザーにとって、AIのコストを測るとき、1百万Tokenあたりいくらかを見るのではなく、「一つのことを完了させるのにどれだけTokenを使う価値があるか」を見るべきだ。
この二つの数字の差こそが、「Tokenを新たな計測基準とする知能時代」の次の段階における最大のビジネスチャンスであり、最も深いコストの落とし穴だ。