← Research

Sieben Cent Umsatz pro investiertem Dollar — was deine KI-Tools 2028 wirklich kosten und wie du dich heute absicherst.

Ich zahle 100 Dollar im Monat für Claude. Anthropic gibt dafür vermutlich ein Mehrfaches aus. Bis 2028 ist diese Subvention vorbei. Eine Bestandsaufnahme — und ein konkreter Plan, damit deine KI-Workflows danach nicht zur Schuldenfalle werden.

Die KI-Branche verbrennt aktuell Kapital in einem Ausmaß, für das es kaum historische Parallelen gibt. Gleichzeitig sind die Token-Preise in ~18 Monaten um den Faktor 280 gefallen[1]. Beides ist wahr. Wer das auseinanderhält, versteht, warum die nächsten drei Jahre für KI-Nutzer historisch günstig bleiben — und warum danach Vorsicht angebracht ist. Fangen wir mit deiner persönlichen Rechnung an.

01 · Deine RechnungWas deine 100 Dollar Anthropic vermutlich wirklich kosten

Deine wahre Rechnung

Du zahlst $100. Verursacht hast du vermutlich Kosten von ~$300–600[△].

Schätzung für einen Heavy-User auf Claude Max ($100/Monat, „5x Pro"-Tier), der täglich mit Claude Code arbeitet. Basis: Epoch AI Cost Analysis 2025[7] und veröffentlichte Inferenz-Kostendaten. Bandbreiten weil keine offiziellen existieren.

Du zahlst Anthropic $100.00 / Monat
davon: reine Stromkosten Datacenter (~30 kWh × $0,08/kWh USA) ~$2,40
davon: GPU-Hardware-Abschreibung pro deiner Nutzung (20–40 Mio Token × ~$5/Mio) $100–200
davon: Datacenter-Bau, Cooling, Netz, Personal, Overhead $100–200
davon: R&D-Anteil (Training neuer Modelle umgelegt auf User) $80–200
Geschätzte echte Kosten für Anthropic $280–600
Subvention pro Nutzer und Monat $180–500
Quellen: Epoch AI „Inference Cost Analysis" 2025[7], Sequoia Capital (David Cahn) Token-Economics[5], SaaStr Subscription-Mix-Analyse Februar 2026[12], geleakte OpenAI-Investorenmaterialien[9] (zur Validierung der Größenordnung). Methodik der Bandbreite im Making-of.

Diese Subvention ist endlich. Anthropic prognostiziert intern Cash-Flow-Positivität für 2027/2028 (laut Investorenmaterialien, nicht testiert[9]). OpenAI für 2029/2030. Das heißt: Zwei bis vier Jahre Subvention sind noch ziemlich sicher — danach beginnt die Phase, in der die Anbieter Pricing-Power durchsetzen müssen.

Auf den ersten Blick paradox: Warum bleibt der 20-Dollar-Basis-Tier dann überhaupt stabil, wenn die Subvention endet? Die Antwort liegt in der Tier-Segmentierung. Die Inferenz-Stückkosten fallen laut Sequoia um etwa Faktor 10 pro Jahr[5]. In zwei Jahren liegen die echten Kosten für GPT-3.5-Niveau-Operationen bei einem Bruchteil von heute. Der 20-Dollar-Listenpreis kann stabil bleiben — bei strafferen Token-Limits — und trotzdem zur Marge werden. Die Anbieter brauchen den Budget-Tier als Top-of-Funnel.

Der Heavy-Use-Tier — der, in dem du als ernsthafter KI-Nutzer landest — wird teurer. Claude Pro hat schon Limits verschärft, ChatGPT Plus drosselt o3-Zugang, „Max"- und „Ultra"-Tiers bei 100–200 Dollar sind die neue Realität. Was heute 100 Dollar kostet, kostet 2028 entweder 100 Dollar mit dramatisch weniger inkludierten Tokens — oder 200–300 Dollar für vergleichbare Nutzungstiefe.

Wenn du verstehen willst, warum diese Subvention existiert und warum sie irgendwann enden muss, lohnt der Blick auf die Makro-Zahlen.

02 · GrößenordnungBig-4 verbrennt 700 Milliarden — für 50 Milliarden Branchen-Umsatz

Eine NVIDIA GPU kostet zwischen 25.000 und 40.000 US-Dollar — pro Stück[14]. Die großen bestellen diese in Hunderttausender-Stückzahlen. Ein modernes KI-Datacenter mit Liquid Cooling kommt auf 20 bis 30 Millionen Dollar Baukosten pro installierter Leistung[15] — die Hardware-Kosten kommen obendrauf. Das Verhältnis von Investition zu Umsatz ist absurd. Hier sind die drei härtesten Gegensätze:

Big-4 AI-CapEx 2025
$350 Mrd.[6]
Microsoft, Alphabet, Meta, Amazon. AI-relevanter Anteil (Datacenter, GPUs, Networking) — aus .
KI-native Inferenz-Umsätze 2025
$25 Mrd.[5]
Direkte API-/Subscription-Umsätze von OpenAI, Anthropic & Co. (Sequoia/Goldman-Definition[3], ohne Cloud-AI-Services der Hyperscaler).
Das ergibt 7 Cent Umsatz pro investiertem Dollar[△]. Selbst eine Verdoppelung der Umsätze 2026 ändert nichts am Verhältnis — denn die CapEx verdoppelt sich auch.
Du zahlst pro Monat
$100
Claude Max — der Heavy-Use-Tier.
Anthropic gibt aus (Schätzung)
$300–600[△]
Hardware, Strom, Personal, R&D.
Pro Heavy-User legt Anthropic vermutlich $200–500 pro Monat drauf. Du bist gerade in der goldenen Phase der Akquise-Subvention.
Alphabet Q1 2026 Buchgewinn
$28,7 Mrd.[4]
Aus der Neubewertung der Anthropic-Beteiligung.
Davon Cash zugeflossen
$0
Reine Wertanpassung — kein echter Mittelfluss.
Fast die Hälfte von Alphabets Quartalsgewinn ist ein Zirkelgeschäft: Big Tech investiert in Anthropic → Bewertung steigt → eigene Stakes werden aufgewertet.

03 · Token-PreisverfallWas du tatsächlich immer weniger zahlst

Hier ist die gute Nachricht. Sie ist überraschend gut. Stanford HAI dokumentiert im AI Index 2025[1] einen 280-fachen Preisverfall für GPT-3.5-Niveau-Performance in ~18 Monaten — von November 2022 bis Oktober 2024. Anders ausgedrückt: Was dich Ende 2022 noch 20 Dollar pro Million gekostet hat, kostet heute 7 Cent. Bei gleicher Leistung.

Wichtig ist, dass alle Vergleichswerte unten in derselben Einheit stehen: US-Dollar pro 1 Million Input-Token, gemessen gegen dasselbe Leistungsniveau (GPT-3.5-Performance auf -Benchmark). Sonst vergleicht man Äpfel mit Birnen.

Chart 1 · Token-Preisverfall
USD pro 1 Million Input-Token (Nov 2022 → Mai 2026)
GPT-3 Davinci November 2022 · damals Frontier
$20,00
Ausgangswert
GPT-3.5 Turbo März 2023
$2,00
10× günstiger
Gemini 1.5 Flash Juni 2024
$0,75
27× günstiger
Gemini 1.5 Flash 8B Oktober 2024 · GPT-3.5-Niveau
$0,07
280× günstiger
Gemini 2.0 Flash / GPT-4.1 Nano Mai 2026 · weit über GPT-3.5
$0,10
≈ GPT-4-Klasse
Quellen: Stanford HAI AI Index 2025[1] (Datenpunkte bis Okt 2024), aktuelle Anbieter-Preislisten via pricepertoken.com und costgoat.com[13] (Mai 2026). Balkenlängen log-skaliert für Lesbarkeit (sonst wäre $0,07 nicht sichtbar). MMLU-Benchmark als Leistungs-Vergleichsbasis.

Interessant ist, was seit Ende 2024 passiert ist: Der Preis für reine GPT-3.5-Niveau-Performance hat einen Floor erreicht — rund 5 bis 10 Cent pro Million Token, da geht nicht mehr viel runter. Was sich aber weiter dramatisch verschiebt: Was du für diesen Preis bekommst. Modelle wie Gemini 2.0 Flash, GPT-4.1 Nano oder DeepSeek V3.2 kosten heute rund 10 Cent pro Million Input-Token[13] und liefern weit über GPT-3.5-Klasse-Performance — sie sind grob auf dem Niveau von GPT-4 Original (das im Mai 2023 noch 30 Dollar gekostet hat). Performance pro Dollar hat sich also nochmal vervielfacht, obwohl der Token-Preis nominal stabil bleibt.

Was kostet -Performance heute? Spitzenmodelle wie Claude Opus 4 oder GPT-5 liegen weiterhin bei 3 bis 15 Dollar pro Million Input-Token[13]. Aber diese Modelle leisten Reasoning, mehrstündige Coding-Sessions und Tool-Use — das war 2023 noch undenkbar. Der Markt segmentiert sich: Massennutzung wird Commodity, Spitzenleistung bleibt wertvoll.

04 · Bullen vs. BärenVerändert KI die Welt — oder ist es die nächste Blase?

Ich habe die stärksten Argumente auf beiden Seiten gesammelt — nur mit Zahlen aus Primärquellen. Kein spekulatives „könnte sein".

↑ Bullen-These
KI verändert die Welt
Inferenzpreise kollabieren — der Endnutzer profitiert direkt.
280× Preisverfall in ~18 Monaten · Stanford HAI 2025[1]
Hardware- und Energieeffizienz steigen schneller als Moore's Law.
GPU-Kosten/FLOP −30 %/Jahr, Energieeffizienz +40 %/Jahr · Stanford AI Index[1]
Strom ist nicht das Problem — Hardware-Abschreibung ist es, und die schmilzt.
Reine Stromkosten < 5 % der Inferenz-Kosten · Epoch AI 2025[7]
Hyperscaler finanzieren aus profitablem Kerngeschäft — keine Schulden-Blase.
$350 Mrd. AI-CapEx aus laufendem Cash-Flow · Earnings Calls 2025[6]
NVIDIA verspricht 10× günstigere Token-Kosten ab H2 2026.
Jensen Huang, CES Januar 2026 (für MoE-Modelle, noch nicht am Markt)[8]
↓ Bären-These
KI ist die nächste Blase
7 Cent Umsatz pro investiertem CapEx-Dollar — Goldman sieht keinen BIP-Effekt.
Goldman Sachs[3] / Sequoia (David Cahn) 2024/2025[5]
OpenAI gibt laut geleakten Dokumenten ~$2 aus für jeden $1 Inferenz-Umsatz.
Investorenmaterialien, nicht offiziell · Fortune / wheresyoured.at[9]
GPUs veralten in 3–6 Jahren — kein „" wie damals .
Amazon kürzte GPU-Abschreibung 2025 von 6 auf 5 Jahre[11]
Big-Tech-Buchgewinne aus Anthropic-Stakes sind ein Zirkelgeschäft.
Alphabet: $28,7 Mrd. Anthropic-Buchgewinn Q1 2026 · SEC-Filing[4]
Effizienz wird von Nachfrage aufgefressen — .
IEA: Datacenter-Strom 415 (2024) → 945 TWh (2030 prognostiziert)[2]

05 · Investitions-ParadoxSieben Cent Umsatz pro investiertem Dollar

Goldman Sachs hat das gut zusammengefasst[3]: 2025 fließen rund 350 Milliarden Dollar in KI-Infrastruktur (allein die Big 4)[6], und die KI-nativen Inferenz-Umsätze (OpenAI, Anthropic & Co. nach Sequoia/Goldman-Definition) liegen bei ungefähr 25 Milliarden Dollar[5]. Das sind 7 Cent Umsatz pro investiertem Dollar[△]. Von Gewinn kann gar keine Rede sein — die Anbieter zahlen drauf. (Der gesamte KI-Markt inkl. Cloud-AI-Services der Hyperscaler ist deutlich größer, aber das Verhältnis CapEx zu direktem KI-Umsatz bleibt strukturell schief.)

Chart 2 · CapEx versus Revenue
Investitionen wachsen viel schneller als KI-Umsätze (Big 4 vs. Branchen-Revenue, 2023–2026)
2023
$150 Mrd.
$5 Mrd.
2024
$226 Mrd.
$13 Mrd.
2025
$350 Mrd.
$25 Mrd.
2026 (P)
$700 Mrd.
$50 Mrd.
AI-relevanter CapEx Big 4 (Microsoft, Alphabet, Meta, Amazon)
Globaler KI-Umsatz (Branchenweit)
Quellen: Earnings Calls Q1–Q4 2025 (Microsoft, Alphabet, Meta, Amazon)[6], Goldman Sachs AI Infrastructure Report[3], Sequoia Capital (David Cahn „AI's $600B Question")[5]. 2026 Konsens-Prognosen. Skala normalisiert auf max. $700 Mrd. = 100 %. Hinweis: Werte zeigen den AI-relevanten Anteil des Big-4-CapEx (Datacenter, GPUs, Networking) — der Total-CapEx 2025 liegt bei ca. $400 Mrd.

Selbst wenn sich die KI-Umsätze 2026 verdoppeln (auf 50 Milliarden Dollar) und die CapEx nur auf 700 Milliarden steigen — das Verhältnis verschlechtert sich. Aus Sicht eines Investors ist das ein 1:14-Verhältnis von Umsatz zu Infrastruktur-Investition. Aus Sicht eines KI-Nutzers heißt das: Du nutzt gerade eine Infrastruktur, die ein Vielfaches dessen wert ist, was alle Nutzer zusammen dafür bezahlen.

06 · Dotcom oder Telecom?Warum die Glasfaser-Krise die ehrlichere Analogie ist

Die meisten vergleichen das gerade mit Amazon oder erinnern sich an die der späten 1990er. Amazon passt nicht — andere Größenordnung: Amazons kumulierte Verluste bis zur ersten echten Profitabilität 2003 lagen bei rund 3 Milliarden Dollar. OpenAI verbrennt das heute in etwa vier Monaten.

Bei der Dotcom-Bubble kommen wir näher: Hunderte überbewertete Software-Firmen, Pets.com, Webvan, Boo.com — fast alle gescheitert. Aber strukturell genauer ist ihre weniger bekannte Zwillingskrise, die zur selben Zeit kollabierte: der . Während die Dotcom-Bubble die Software-Schicht abräumte, war es bei Telecom die Infrastruktur — und genau darum geht es bei KI heute auch. Wer den Telecom-Boom nicht auf dem Schirm hat: Damals investierten WorldCom, Global Crossing und Nortel über 500 Milliarden Dollar in Glasfaser-Infrastruktur und -Anleihen, weil alle dachten, Internet-Datenvolumen würde sich „alle 100 Tage verdoppeln"[16]. Tat es nicht. Folge: rund 90 Prozent Preiskollaps für Bandbreite, massive Pleiten, WorldCom-Insolvenz Juli 2002 — damals die größte Bilanzfälschung der US-Geschichte (11+ Mrd USD überhöhte Aktiva)[16].

Parallele Story
Zwei Investitions-Booms in Infrastruktur — drei Jahrzehnte auseinander
Damals · Telecom 1996–2001
Glasfaser-Überbau für ein Internet, das noch gar nicht da war
  1. 01 Über $500 Mrd. investiert.[16] WorldCom, Global Crossing, AT&T, Lucent — alle finanziert mit Schulden, basierend auf Wachstumsprognosen, die sich später als zu optimistisch erwiesen.
  2. 02 Bandbreiten-Preise fielen um ~90 %. Überkapazität führte zum Preiskollaps. Nur ein Bruchteil der verlegten Glasfaser war tatsächlich genutzt.[16]
  3. 03 Pleiten und Crash. WorldCom-Insolvenz Juli 2002 — damals die größte Bilanzfälschung der US-Geschichte[16]. Investoren verloren Hunderte Milliarden.
  4. 04 Wer profitierte: die Nutzer und die App-Schicht. Google kaufte Dark Fiber für Pfennige. YouTube wurde nur möglich durch die billige Bandbreite. Streaming, Cloud, Social Media — alles auf den Trümmern gebaut.
Heute · KI-Infrastruktur 2023–?
GPU-Überbau für eine KI-Nachfrage, die noch nicht da ist?
  1. 01 $350 Mrd. AI-CapEx allein 2025.[6] Big 4 finanzieren aus Cashflow (anders als damals!), aber die Größenordnung ist 1:1 vergleichbar — basierend auf der Annahme exponentiell wachsender KI-Nachfrage.
  2. 02 Token-Preise fielen um 99,7 %. 280× Preisverfall in ~18 Monaten[1]. Das Muster ist identisch — Überkapazität trifft auf langsamer wachsende echte Nachfrage.
  3. 03 Risiko: einzelne Anbieter scheitern. OpenAI-Investorenunterlagen sprechen von ~$9 Mrd. Verlust pro Jahr[9], Anthropic kumulierte über 5 Jahre eine niedrige zweistellige Milliarden-USD-Verlustsumme — beides aus Pitch-Decks, nicht testiert. Wenn die Subvention endet, überleben nicht alle.
  4. 04 Wer profitiert: vermutlich wieder die Nutzer und die App-Schicht. Wer heute robuste KI-Workflows baut, profitiert in jedem Szenario — egal wer am Ende die GPU-Wracks aufkauft.
Wichtigster Unterschied: Glasfaser hält 20–40 Jahre. GPUs veralten in 3–6 Jahren. Wenn die KI-Blase platzt, gibt es kein „Dark Compute", das Google billig aufkaufen könnte — die Assets verlieren technischen Restwert. Das macht den potenziellen Crash härter. Aber für dich als Nutzer ändert es das Bild nicht: Die Subventionsphase endet, danach setzt Pricing-Power ein.

07 · Jevons-ParadoxEffizienz ist fast am Limit — Verbrauch explodiert trotzdem

Jede neue GPU-Generation ist energieeffizienter, jedes neue Rechenzentrum hat eine bessere (Power Usage Effectiveness — das Verhältnis von Gesamtenergie zu Compute-Energie). Niedriger ist besser: PUE 1,0 bedeutet kein Overhead-Verlust, PUE 2,0 bedeutet die Hälfte der Energie geht für Kühlung und Netze drauf. Best-in-class Hyperscaler (Google, Meta) liegen heute bei ~1,1[10] — und da läuft der Großteil der AI-Workloads. Und trotzdem verdreifacht sich der Stromverbrauch bis 2030[2].

Chart 3 · Jevons-Paradox
Effizienz am Anschlag — Gesamtverbrauch explodiert

Globaler Datacenter-Strom (TWh / Jahr)

Verbrauch verdreifacht sich bis 2030
+372 %
2020
200
2022
260
2024
415
2025 (E)
485
2030 (P)
945

Effizienz: Restpotenzial fast erschöpft

PUE liegt heute bei ~1,1 (Best-in-class Hyperscaler) — theoretisches Optimum wäre 1,0
nur ~7 % Luft
PUE 2,5 in 2007 (150 % Overhead) → PUE 1,1 in 2025 (10 % Overhead, Hyperscaler-Niveau)[10]: Die Datacenter-Branche hat ~93 % der möglichen Effizienz-Verbesserung bereits erreicht. Industrie-Durchschnitt liegt mit 1,56 deutlich darüber — aber AI-Frontier-Workloads laufen vor allem auf den modernsten Sites.
~93 % erreicht
~7 %
Start 2007 (PUE 2,5) Heute (PUE ~1,1) Optimum (PUE 1,0)

Heißt: Auf der Datacenter-Effizienz-Seite kann nicht mehr viel passieren. Künftige Einsparungen müssen aus besseren Chips (NVIDIA Rubin) und algorithmischer Effizienz kommen — nicht mehr aus dem Datacenter-Layout.

Quellen: IEA „Energy and AI" 2025 (Base Case Projektion 2030)[2], Google / Microsoft / AWS eigene Nachhaltigkeitsberichte 2024 (fleet-wide PUE ~1,08–1,15). Industry-Average PUE 1,56 laut Uptime Institute Datacenter Survey 2024[10] — der Wert 1,1 bezieht sich auf Best-in-class Hyperscaler, wo AI-Frontier-Workloads tatsächlich laufen. PUE = Power Usage Effectiveness; 1,0 wäre theoretisch perfekt (Compute = 100 % der Gesamtenergie).

Pro-Token-Effizienz verdoppelt sich — Gesamtverbrauch verdreifacht sich. Das ist Jevons-Paradox in Echtzeit: Wenn etwas günstiger wird, nutzen wir davon so viel mehr, dass der Gesamtverbrauch trotzdem steigt.

08 · Zwei WahrheitenWas wir sicher wissen — und was Schätzung ist

Gesichert (aus Primärquellen und SEC-Filings): Big-4-CapEx ist real und kommt aus Cashflow, nicht aus Schulden[6]. Inferenzpreise fallen dramatisch[1]. Energieeffizienz ist am Anschlag[10]. Gesamtverbrauch verdoppelt sich bis 2030[2]. Alphabets Q1 2026 enthielt 28,7 Milliarden Dollar Buchgewinn aus der Anthropic-Beteiligung[4] — fast die Hälfte des Quartalsgewinns ohne einen einzigen Dollar Cash-Zufluss.

Schätzung / nicht offiziell bestätigt: OpenAIs interne Cost-to-Revenue-Verhältnisse („$2 ausgegeben pro $1 Inferenz-Umsatz", $9 Mrd. Verlust bei $13 Mrd. Umsatz) stammen aus geleakten Investorenunterlagen, die von Fortune, The Information und wheresyoured.at zitiert wurden[9] — nicht aus testierten Abschlüssen. Anthropics von ~50 % und der von ~$211/Monat sind Drittanalysen (SaaStr Subscription-Mix-Analyse[12], Sequoia Token-Economics[5]). Die Claude-Max-Inferenz-Kosten von $300–600/Monat sind eine Modellrechnung[△] auf Basis von Epoch AI „Inference Cost Analysis" 2025[7] — Bandbreite, weil keine offiziellen Unit-Economics existieren. Profitabilitätsprognosen (Anthropic 2027/28, OpenAI 2029/30) sind interne Modelle, keine testierten Abschlüsse[9]. Diese Zahlen sind im Artikel als Orientierungs-Größenordnungen zu lesen, nicht als verifizierte Bilanzposten.

Die wahrscheinlichste Auflösung: Wir erleben gerade zwei Wahrheiten gleichzeitig. Auf der einen Seite eine Investorenblase bei den großen Cloud-Anbietern, die Hunderte Milliarden in Infrastruktur stecken, die sich vielleicht nie auszahlen. Auf der anderen Seite ein historisches Schnäppchen für jeden, der KI nutzt — du bekommst gerade eine Leistung für 100 Dollar, die den Anbieter geschätzt 300 bis 600 Dollar kostet. Beides ist real. Beides kann gleichzeitig wahr sein.

Der Telecom-Boom hat das bewiesen: Die Investoren haben verloren, die Ausrüster haben profitiert (NVIDIA ist das neue Cisco), die Nutzer haben gewonnen. Das Internet, YouTube, Spotify — alles möglich durch die billige Bandbreite, die übrig blieb. Bei KI wird es ähnlich sein. Nur dass die Subventionsphase endlich ist — und dass du in dieser Phase deine Workflows so bauen solltest, dass du in der Pricing-Power-Phase nicht in der Falle sitzt.

09 · Wenn du etwas baustNicht alles braucht KI — und genau das wird bald wichtig

Hier wird der Artikel praktisch: Wenn du eigene Tools baust, Software programmierst oder ein Geschäftsmodell auf KI aufsetzen willst — die Subventionsphase verändert die Spielregeln nach 2028 dramatisch. Wer heute eine SaaS baut, die für jeden Nutzer-Klick einen -Call macht, hat in zwei Jahren ein Skalierungs-Problem. Klassische deterministische Software skaliert günstig: ein einmal geschriebener Wenn-Dann-Block kostet pro Million Aufrufe ein paar Cent. Ein LLM-Call kostet pro Million Aufrufe Hunderte bis Tausende Dollar.

Die Faustregel: Setze KI dort ein, wo sie echten Mehrwert bringt — kreativ, kontextuell, sprachlich, generativ. Nicht dort, wo deterministische Software die Arbeit billiger und stabiler macht. Eine simple Berechnung, eine Datenbankabfrage, ein Validator-Check, eine Routing-Entscheidung — all das ist klassische Programmierung. Wenn du sie durch ein LLM ersetzt, machst du sie 1000× teurer und unzuverlässiger. Das funktioniert heute, weil der LLM-Call subventioniert ist. In drei Jahren funktioniert es nicht mehr.

Wer Software baut, sollte sich vor jedem KI-Call die folgende Frage stellen:

  • Kannst du das Problem mit klassischer Logik lösen? Dann mach das.
  • Brauchst du wirklich Frontier-Intelligenz oder reicht ein kleines, günstiges Modell?
  • Lässt sich das Ergebnis cachen, sodass derselbe Call nicht zwölfmal läuft?
  • Wie viel würde dein Geschäftsmodell verlieren, wenn der Token-Preis sich morgen verdreifacht?

Für Solo-Entwickler: Bau deine persönlichen Tools so, dass du sie ohne Geschäftsmodell-Schaden umstellen kannst. Wenn dein Workflow „braucht zwingend Claude Opus für jeden Schritt" lautet, bist du erpressbar.

Für Firmen: Cost-of-Inference muss eine harte Kennzahl in jedem KI-Projekt sein, nicht nur eine Fußnote. Frag bei jedem Projekt: Was kostet uns das pro Nutzer, pro Monat, bei 10× Skalierung? Welche Komponenten sind absolut KI-pflichtig — und welche bauen wir besser klassisch? Wer sein Geschäftsmodell darauf aufbaut, dass 100.000 Nutzer monatlich Millionen LLM-Calls verursachen, hat in der -Phase ein existenzielles Problem. Software, die intelligent wenig KI nutzt, gewinnt.

10 · AbsichernWas du jetzt konkret tun solltest

Die ehrliche Empfehlung ist nicht „mach dir keine Sorgen" und nicht „hör auf zu zahlen". Sie ist: Nutze die Subventionsphase voll aus, aber baue deine Workflows so, dass du nicht erpressbar wirst, wenn die Pricing-Power-Phase kommt. Konkret heißt das fünf Dinge:

Schutzplan · Was du jetzt tun solltest

Nutze die Subvention. Vermeide den Lock-in.

  • 01 Jetzt voll nutzen. Das Preis-Leistungs-Verhältnis ist historisch einmalig günstig. Workflows aufbauen, Prozesse automatisieren, so viel rausholen wie geht. Wer wartet, verschenkt die Subvention.
  • 02 Klassisch bauen wo möglich. Eine Berechnung, ein Datenbank-Lookup, ein Validator, eine Routing-Entscheidung — pro Million Aufrufe kostet das ein paar Cent. Derselbe Job per LLM: Hunderte bis Tausende Dollar. KI dort einsetzen, wo Sprache, Kontext oder Generierung gebraucht werden — nicht als universeller Hammer. Heute funktioniert auch der Hammer-Ansatz, weil der LLM-Call subventioniert ist. In drei Jahren nicht mehr.
  • 03 Anbieter-flexibel bauen. Schreib deine Tools so, dass du mit einem Schalter von Anthropic auf OpenAI oder Google wechseln kannst. Tools wie oder machen das praktisch trivial. Für Firmen: parallele Verträge mit zwei Anbietern, nie 100 % auf einen wetten. Wie ich das selbst gemacht hab: Cloud mit Antigravity aufsetzen.
  • 04 Daten lokal sichern. Prompts, Memory, Workflows, eigene Wissensbasen — was im Anbieter-System lebt, gehört nicht dir. Regelmäßige Exporte. Bei sensiblen Firmendaten zusätzlich -Speicherung und klare Vertragslage zum Datenabfluss.
  • 05 Self-Hosting im Blick behalten. -Klasse-Modelle laufen heute auf einem Mac Studio ( ist für lokale LLMs erstaunlich gut). Für Firmen: ein eigener GPU-Server zahlt sich ab gewissem Volumen aus — und macht dich unabhängig vom Anbieter-Pricing. Plan B aufbauen, bevor du ihn brauchst.
  • 06 Günstige Modelle für Massenaufgaben. Frontier-Modell nur dort einsetzen, wo es echtes Reasoning braucht. Für Klassifizierung, Extraktion, einfache Antworten reicht ein 10–20× günstigeres Modell. Das spart über 80 % und entkoppelt dich von Preis-Schocks im Top-Tier. Wenn du mit Claude Code arbeitest: eine Token-Statusbar zeigt live, welcher Workflow am meisten Tokens frisst.

Faustregel: Wer in der Subventionsphase Routinen aufbaut, die ohne KI nicht funktionieren, wird in der Pricing-Power-Phase erpressbar. Wer Routinen aufbaut, die schnell auf ein anderes Modell migriert werden können, gewinnt heute und behält Optionen morgen.

Fazit

Die KI-Infrastruktur-Investitionen sind die teuerste Wette der Geschichte — und gleichzeitig ist ein erheblicher Teil davon rational. Die Token-Preise fallen real. Die Effizienz ist am Anschlag. Die Nachfrage wächst schneller als beides zusammen.

Das Risiko tragen die Investoren und die Hyperscaler, nicht die Nutzer — zumindest jetzt. Der historische Präzedenzfall (Telecom-Boom) zeigt: Die Infrastruktur wird trotzdem gebaut, die Preise kollabieren trotzdem, und am meisten profitieren die, die die günstige Infrastruktur am effektivsten nutzen — nicht die, die Aktien von WorldCom gehalten haben.

Was du heute brauchst, ist nicht Skepsis und nicht naiver Enthusiasmus. Du brauchst einen Plan, wie du die Subventionsphase nutzt, ohne in der nachfolgenden Phase erpressbar zu sein. Den Plan oben kannst du wörtlich nehmen — oder als Anstoß für deinen eigenen.

Quellen

Konvention im Artikel: harte Zahlen, Zitate und externe Modell-Outputs sind im Fließtext mit einer hochgestellten Quellen-Nummer markiert (z. B. [1]). Klick springt direkt in diese Liste. Drei Härtegrade visuell unterschieden:

[N] harte Primärquelle (Earnings, SEC-Filing, offizieller Report) [N°] Analyst-Schätzung, Industry-Estimate oder Modell-Output [] eigene Plausibilitäts-Rechnung — Methodik im Making-of

Wo eine Zahl ohne Nummer steht, ist sie Plausibilitäts-Synthese aus mehreren der hier gelisteten Quellen oder verlinkt einen Sammel-Eintrag (z. B. die OpenAI-Investorenmaterialien[9] als Bündel-Quelle für die Cost-to-Revenue-Zahlen). Ziel: jede prüfbare Behauptung muss auch ohne Recherche-Aufwand des Lesers nachvollziehbar sein.

  1. 01Stanford HAI — AI Index Report 2025 · 280× Token-Preisverfall für GPT-3.5-Niveau-Performance: 20 USD → 0,07 USD pro Mio Input-Token, Nov 2022 → Okt 2024 (Gemini 1.5 Flash 8B) · MMLU-Benchmark als Vergleichsbasis · Zusammenfassung der Kernzahlen: 10-Charts-Übersicht
  2. 02IEA — „Energy and AI" Executive Summary (April 2025) · Base-Case: 415 TWh (2024, ~1,5 % weltweiter Stromverbrauch) → 945 TWh bis 2030 · Verdoppelung als Mittelweg-Szenario
  3. 03Goldman Sachs — „Gen AI: Too Much Spend, Too Little Benefit?" (Juni 2024) · Kern-Skeptiker-Report zu KI-CapEx vs Revenue · plus April-2026-Update: Goldman April 2026 — Datacenter-Power +220 % bis 2030 (via Benzinga, Original-Report Subscription-only)
  4. 04Alphabet — Q1 2026 Earnings Release (PDF, 30.04.2026) · 28,7 Mrd USD Nettoeffekt aus Equity-Securities-Gain (davon Anthropic-Revaluation dominanter Block) · ~48 % des Quartals-Nettogewinns aus Wertanpassung, kein Cash-Zufluss · Sekundär: Fortune-Einordnung
  5. 05Sequoia Capital / David Cahn — „AI's $600B Question" (2024, Update 2025) · Revenue-Gap-Analyse · Cahn's Hauptthese: Inferenz-Stückkosten fallen ~10× pro Jahr, aber CapEx-Umsatz-Lücke wächst
  6. 06Microsoft / Alphabet / Meta / Amazon Earnings Calls Q4 2024 + Q1 + Q4 2025 · kumuliert ~350 Mrd USD AI-relevanter CapEx-Konsens als Mid-2025-Annahme, Actuals erreichten am Jahresende eher 400+ Mrd USD · finanziert aus operativem Cashflow, nicht aus Schulden · Übersicht: Visual Capitalist Big-Tech-CapEx 2022–2025
  7. 07Epoch AI — „How persistent is the inference cost burden?" (2025) · Inferenz-Kostenstruktur: GPU-Hardware-Abschreibung dominiert, Strom sekundär · 5–10× Kostenreduktion pro Jahr durch Hardware + Algorithm-Verbesserungen
  8. 08NVIDIA — Rubin Investor Press Release (CES, 05.01.2026) · „up to 10× reduction in inference token cost" gegenüber Blackwell · Benchmark spezifisch für MoE-Modelle (Kimi-K2-Thinking), Dense-Transformer-Gewinn 2–3× · GTC-2026-Bestätigung: CNBC GTC-Keynote-Coverage
  9. 09Fortune — geleakte OpenAI-Finanzdokumente (12.11.2025) · 13 Mrd USD Umsatz, 22 Mrd USD Spending = 9 Mrd USD Nettoverlust 2025 · „~$1,69 ausgegeben pro $1 Inferenz-Umsatz" · Profitabilitäts-Prognose 2030 · plus Ed Zitron / wheresyoured.at — Cross-Check über Microsoft-Disclosures
  10. 10Uptime Institute — Global Data Center Survey 2024 · Industry-Average PUE seit 2020 stabil bei 1,56 · historische Reihe (Uptime-Blog): 2,5 (2007) → 1,98 (2011) → 1,65 (2014) → 1,58 (2018) → 1,56 (2024) · Hyperscaler-Best-in-Class bei ~1,1 (Google/Meta Nachhaltigkeitsberichte)
  11. 11Amazon — Q4 2024 Earnings Release (SEC EDGAR) · Useful-Life-Studie führt zu GPU-Abschreibung von 6 auf 5 Jahre ab 01.01.2025 · ~0,7 Mrd USD Operating-Income-Effekt 2025 · Signal: schnellerer AI-Hardware-Wertverfall (Reversion der 2024er-Verlängerung von 5 auf 6 Jahre)
  12. 12SaaStr — Anthropic-ARR-Analyse (Februar 2026) · Anthropic monetarisiert mit rund 211 USD pro Monatsnutzer (vs OpenAI ~25 USD pro Wochennutzer) · Berechnung von SaaStr ohne offen ausgewiesene Methodik · 14 Mrd USD ARR-Stand Feb 2026, später auf 30 Mrd ARR April 2026 gewachsen (VentureBeat-Bestätigung)
  13. 13pricepertoken.com und costgoat.com · aggregierte LLM-API-Preislisten Mai 2026 · Gemini 2.0 Flash + GPT-4.1 Nano bei 0,10 USD / Mio Input-Token bestätigt · DeepSeek V3.2 inzwischen bei 0,435 USD / Mio (oberhalb des „~0,10"-Buckets)
  14. 14IntuitionLabs — NVIDIA AI GPU Pricing Guide (2024–2026) · H100 80GB PCIe stabil bei 25.000–30.000 USD, SXM-Variante bei 35.000–40.000 USD · NVIDIA publiziert keine offizielle Liste, Werte aus OEM/Integrator-Kanälen · Sekundär-Daten: Hashrate Index Secondary-Market-Tracker
  15. 15JLL — 2026 Data Center Outlook · KI-optimierte Datacenter mit Liquid Cooling: bis zu 30 Mio USD pro MW (Tenant Fit-Out bis 25 Mio USD pro MW) · Standard-Hyperscale-Build deutlich darunter (10,7–11,3 Mio USD/MW) · Sekundärbericht: Datacenter Dynamics zur 3-Bio-Investition-Supercycle-These
  16. 16WorldCom Scandal (Wikipedia + SEC-Bezug) · 11+ Mrd USD überhöhte Aktiva, größte Bilanzfälschung der US-Geschichte (2002) · plus The Bubble Bubble — Telecom-Bubble-Analyse · 500+ Mrd USD Telecom-Bonds 1996–2001 in den USA · plus Richmond-Fed Economic Quarterly (Fall 2003) für die ökonomische Aufarbeitung des Telecom-Booms