Die KI-Branche verbrennt aktuell Kapital in einem Ausmaß, für das es kaum historische Parallelen gibt. Gleichzeitig sind die Token-Preise in ~18 Monaten um den Faktor 280 gefallen[1]. Beides ist wahr. Wer das auseinanderhält, versteht, warum die nächsten drei Jahre für KI-Nutzer historisch günstig bleiben — und warum danach Vorsicht angebracht ist. Fangen wir mit deiner persönlichen Rechnung an.
01 · Deine RechnungWas deine 100 Dollar Anthropic vermutlich wirklich kosten
Du zahlst $100. Verursacht hast du vermutlich Kosten von ~$300–600[△].
Schätzung für einen Heavy-User auf Claude Max ($100/Monat, „5x Pro"-Tier), der täglich mit Claude Code arbeitet. Basis: Epoch AI Cost Analysis 2025[7] und veröffentlichte Inferenz-Kostendaten. Bandbreiten weil keine offiziellen existieren.
Diese Subvention ist endlich. Anthropic prognostiziert intern Cash-Flow-Positivität für 2027/2028 (laut Investorenmaterialien, nicht testiert[9]). OpenAI für 2029/2030. Das heißt: Zwei bis vier Jahre Subvention sind noch ziemlich sicher — danach beginnt die Phase, in der die Anbieter Pricing-Power durchsetzen müssen.
Auf den ersten Blick paradox: Warum bleibt der 20-Dollar-Basis-Tier dann überhaupt stabil, wenn die Subvention endet? Die Antwort liegt in der Tier-Segmentierung. Die Inferenz-Stückkosten fallen laut Sequoia um etwa Faktor 10 pro Jahr[5]. In zwei Jahren liegen die echten Kosten für GPT-3.5-Niveau-Operationen bei einem Bruchteil von heute. Der 20-Dollar-Listenpreis kann stabil bleiben — bei strafferen Token-Limits — und trotzdem zur Marge werden. Die Anbieter brauchen den Budget-Tier als Top-of-Funnel.
Der Heavy-Use-Tier — der, in dem du als ernsthafter KI-Nutzer landest — wird teurer. Claude Pro hat schon Limits verschärft, ChatGPT Plus drosselt o3-Zugang, „Max"- und „Ultra"-Tiers bei 100–200 Dollar sind die neue Realität. Was heute 100 Dollar kostet, kostet 2028 entweder 100 Dollar mit dramatisch weniger inkludierten Tokens — oder 200–300 Dollar für vergleichbare Nutzungstiefe.
Wenn du verstehen willst, warum diese Subvention existiert und warum sie irgendwann enden muss, lohnt der Blick auf die Makro-Zahlen.
02 · GrößenordnungBig-4 verbrennt 700 Milliarden — für 50 Milliarden Branchen-Umsatz
Eine NVIDIA GPU kostet zwischen 25.000 und 40.000 US-Dollar — pro Stück[14]. Die großen bestellen diese in Hunderttausender-Stückzahlen. Ein modernes KI-Datacenter mit Liquid Cooling kommt auf 20 bis 30 Millionen Dollar Baukosten pro installierter Leistung[15] — die Hardware-Kosten kommen obendrauf. Das Verhältnis von Investition zu Umsatz ist absurd. Hier sind die drei härtesten Gegensätze:
03 · Token-PreisverfallWas du tatsächlich immer weniger zahlst
Hier ist die gute Nachricht. Sie ist überraschend gut. Stanford HAI dokumentiert im AI Index 2025[1] einen 280-fachen Preisverfall für GPT-3.5-Niveau-Performance in ~18 Monaten — von November 2022 bis Oktober 2024. Anders ausgedrückt: Was dich Ende 2022 noch 20 Dollar pro Million gekostet hat, kostet heute 7 Cent. Bei gleicher Leistung.
Wichtig ist, dass alle Vergleichswerte unten in derselben Einheit stehen: US-Dollar pro 1 Million Input-Token, gemessen gegen dasselbe Leistungsniveau (GPT-3.5-Performance auf -Benchmark). Sonst vergleicht man Äpfel mit Birnen.
Interessant ist, was seit Ende 2024 passiert ist: Der Preis für reine GPT-3.5-Niveau-Performance hat einen Floor erreicht — rund 5 bis 10 Cent pro Million Token, da geht nicht mehr viel runter. Was sich aber weiter dramatisch verschiebt: Was du für diesen Preis bekommst. Modelle wie Gemini 2.0 Flash, GPT-4.1 Nano oder DeepSeek V3.2 kosten heute rund 10 Cent pro Million Input-Token[13] und liefern weit über GPT-3.5-Klasse-Performance — sie sind grob auf dem Niveau von GPT-4 Original (das im Mai 2023 noch 30 Dollar gekostet hat). Performance pro Dollar hat sich also nochmal vervielfacht, obwohl der Token-Preis nominal stabil bleibt.
Was kostet -Performance heute? Spitzenmodelle wie Claude Opus 4 oder GPT-5 liegen weiterhin bei 3 bis 15 Dollar pro Million Input-Token[13]. Aber diese Modelle leisten Reasoning, mehrstündige Coding-Sessions und Tool-Use — das war 2023 noch undenkbar. Der Markt segmentiert sich: Massennutzung wird Commodity, Spitzenleistung bleibt wertvoll.
04 · Bullen vs. BärenVerändert KI die Welt — oder ist es die nächste Blase?
Ich habe die stärksten Argumente auf beiden Seiten gesammelt — nur mit Zahlen aus Primärquellen. Kein spekulatives „könnte sein".
05 · Investitions-ParadoxSieben Cent Umsatz pro investiertem Dollar
Goldman Sachs hat das gut zusammengefasst[3]: 2025 fließen rund 350 Milliarden Dollar in KI-Infrastruktur (allein die Big 4)[6], und die KI-nativen Inferenz-Umsätze (OpenAI, Anthropic & Co. nach Sequoia/Goldman-Definition) liegen bei ungefähr 25 Milliarden Dollar[5]. Das sind 7 Cent Umsatz pro investiertem Dollar[△]. Von Gewinn kann gar keine Rede sein — die Anbieter zahlen drauf. (Der gesamte KI-Markt inkl. Cloud-AI-Services der Hyperscaler ist deutlich größer, aber das Verhältnis CapEx zu direktem KI-Umsatz bleibt strukturell schief.)
$5 Mrd.
$13 Mrd.
$25 Mrd.
$50 Mrd.
Selbst wenn sich die KI-Umsätze 2026 verdoppeln (auf 50 Milliarden Dollar) und die CapEx nur auf 700 Milliarden steigen — das Verhältnis verschlechtert sich. Aus Sicht eines Investors ist das ein 1:14-Verhältnis von Umsatz zu Infrastruktur-Investition. Aus Sicht eines KI-Nutzers heißt das: Du nutzt gerade eine Infrastruktur, die ein Vielfaches dessen wert ist, was alle Nutzer zusammen dafür bezahlen.
06 · Dotcom oder Telecom?Warum die Glasfaser-Krise die ehrlichere Analogie ist
Die meisten vergleichen das gerade mit Amazon oder erinnern sich an die der späten 1990er. Amazon passt nicht — andere Größenordnung: Amazons kumulierte Verluste bis zur ersten echten Profitabilität 2003 lagen bei rund 3 Milliarden Dollar. OpenAI verbrennt das heute in etwa vier Monaten.
Bei der Dotcom-Bubble kommen wir näher: Hunderte überbewertete Software-Firmen, Pets.com, Webvan, Boo.com — fast alle gescheitert. Aber strukturell genauer ist ihre weniger bekannte Zwillingskrise, die zur selben Zeit kollabierte: der . Während die Dotcom-Bubble die Software-Schicht abräumte, war es bei Telecom die Infrastruktur — und genau darum geht es bei KI heute auch. Wer den Telecom-Boom nicht auf dem Schirm hat: Damals investierten WorldCom, Global Crossing und Nortel über 500 Milliarden Dollar in Glasfaser-Infrastruktur und -Anleihen, weil alle dachten, Internet-Datenvolumen würde sich „alle 100 Tage verdoppeln"[16]. Tat es nicht. Folge: rund 90 Prozent Preiskollaps für Bandbreite, massive Pleiten, WorldCom-Insolvenz Juli 2002 — damals die größte Bilanzfälschung der US-Geschichte (11+ Mrd USD überhöhte Aktiva)[16].
- 01 Über $500 Mrd. investiert.[16] WorldCom, Global Crossing, AT&T, Lucent — alle finanziert mit Schulden, basierend auf Wachstumsprognosen, die sich später als zu optimistisch erwiesen.
- 02 Bandbreiten-Preise fielen um ~90 %. Überkapazität führte zum Preiskollaps. Nur ein Bruchteil der verlegten Glasfaser war tatsächlich genutzt.[16]
- 03 Pleiten und Crash. WorldCom-Insolvenz Juli 2002 — damals die größte Bilanzfälschung der US-Geschichte[16]. Investoren verloren Hunderte Milliarden.
- 04 Wer profitierte: die Nutzer und die App-Schicht. Google kaufte Dark Fiber für Pfennige. YouTube wurde nur möglich durch die billige Bandbreite. Streaming, Cloud, Social Media — alles auf den Trümmern gebaut.
- 01 $350 Mrd. AI-CapEx allein 2025.[6] Big 4 finanzieren aus Cashflow (anders als damals!), aber die Größenordnung ist 1:1 vergleichbar — basierend auf der Annahme exponentiell wachsender KI-Nachfrage.
- 02 Token-Preise fielen um 99,7 %. 280× Preisverfall in ~18 Monaten[1]. Das Muster ist identisch — Überkapazität trifft auf langsamer wachsende echte Nachfrage.
- 03 Risiko: einzelne Anbieter scheitern. OpenAI-Investorenunterlagen sprechen von ~$9 Mrd. Verlust pro Jahr[9], Anthropic kumulierte über 5 Jahre eine niedrige zweistellige Milliarden-USD-Verlustsumme — beides aus Pitch-Decks, nicht testiert. Wenn die Subvention endet, überleben nicht alle.
- 04 Wer profitiert: vermutlich wieder die Nutzer und die App-Schicht. Wer heute robuste KI-Workflows baut, profitiert in jedem Szenario — egal wer am Ende die GPU-Wracks aufkauft.
07 · Jevons-ParadoxEffizienz ist fast am Limit — Verbrauch explodiert trotzdem
Jede neue GPU-Generation ist energieeffizienter, jedes neue Rechenzentrum hat eine bessere (Power Usage Effectiveness — das Verhältnis von Gesamtenergie zu Compute-Energie). Niedriger ist besser: PUE 1,0 bedeutet kein Overhead-Verlust, PUE 2,0 bedeutet die Hälfte der Energie geht für Kühlung und Netze drauf. Best-in-class Hyperscaler (Google, Meta) liegen heute bei ~1,1[10] — und da läuft der Großteil der AI-Workloads. Und trotzdem verdreifacht sich der Stromverbrauch bis 2030[2].
Globaler Datacenter-Strom (TWh / Jahr)
Effizienz: Restpotenzial fast erschöpft
Heißt: Auf der Datacenter-Effizienz-Seite kann nicht mehr viel passieren. Künftige Einsparungen müssen aus besseren Chips (NVIDIA Rubin) und algorithmischer Effizienz kommen — nicht mehr aus dem Datacenter-Layout.
Pro-Token-Effizienz verdoppelt sich — Gesamtverbrauch verdreifacht sich. Das ist Jevons-Paradox in Echtzeit: Wenn etwas günstiger wird, nutzen wir davon so viel mehr, dass der Gesamtverbrauch trotzdem steigt.
08 · Zwei WahrheitenWas wir sicher wissen — und was Schätzung ist
Gesichert (aus Primärquellen und SEC-Filings): Big-4-CapEx ist real und kommt aus Cashflow, nicht aus Schulden[6]. Inferenzpreise fallen dramatisch[1]. Energieeffizienz ist am Anschlag[10]. Gesamtverbrauch verdoppelt sich bis 2030[2]. Alphabets Q1 2026 enthielt 28,7 Milliarden Dollar Buchgewinn aus der Anthropic-Beteiligung[4] — fast die Hälfte des Quartalsgewinns ohne einen einzigen Dollar Cash-Zufluss.
Schätzung / nicht offiziell bestätigt: OpenAIs interne Cost-to-Revenue-Verhältnisse („$2 ausgegeben pro $1 Inferenz-Umsatz", $9 Mrd. Verlust bei $13 Mrd. Umsatz) stammen aus geleakten Investorenunterlagen, die von Fortune, The Information und wheresyoured.at zitiert wurden[9] — nicht aus testierten Abschlüssen. Anthropics von ~50 % und der von ~$211/Monat sind Drittanalysen (SaaStr Subscription-Mix-Analyse[12], Sequoia Token-Economics[5]). Die Claude-Max-Inferenz-Kosten von $300–600/Monat sind eine Modellrechnung[△] auf Basis von Epoch AI „Inference Cost Analysis" 2025[7] — Bandbreite, weil keine offiziellen Unit-Economics existieren. Profitabilitätsprognosen (Anthropic 2027/28, OpenAI 2029/30) sind interne Modelle, keine testierten Abschlüsse[9]. Diese Zahlen sind im Artikel als Orientierungs-Größenordnungen zu lesen, nicht als verifizierte Bilanzposten.
Die wahrscheinlichste Auflösung: Wir erleben gerade zwei Wahrheiten gleichzeitig. Auf der einen Seite eine Investorenblase bei den großen Cloud-Anbietern, die Hunderte Milliarden in Infrastruktur stecken, die sich vielleicht nie auszahlen. Auf der anderen Seite ein historisches Schnäppchen für jeden, der KI nutzt — du bekommst gerade eine Leistung für 100 Dollar, die den Anbieter geschätzt 300 bis 600 Dollar kostet. Beides ist real. Beides kann gleichzeitig wahr sein.
Der Telecom-Boom hat das bewiesen: Die Investoren haben verloren, die Ausrüster haben profitiert (NVIDIA ist das neue Cisco), die Nutzer haben gewonnen. Das Internet, YouTube, Spotify — alles möglich durch die billige Bandbreite, die übrig blieb. Bei KI wird es ähnlich sein. Nur dass die Subventionsphase endlich ist — und dass du in dieser Phase deine Workflows so bauen solltest, dass du in der Pricing-Power-Phase nicht in der Falle sitzt.
09 · Wenn du etwas baustNicht alles braucht KI — und genau das wird bald wichtig
Hier wird der Artikel praktisch: Wenn du eigene Tools baust, Software programmierst oder ein Geschäftsmodell auf KI aufsetzen willst — die Subventionsphase verändert die Spielregeln nach 2028 dramatisch. Wer heute eine SaaS baut, die für jeden Nutzer-Klick einen -Call macht, hat in zwei Jahren ein Skalierungs-Problem. Klassische deterministische Software skaliert günstig: ein einmal geschriebener Wenn-Dann-Block kostet pro Million Aufrufe ein paar Cent. Ein LLM-Call kostet pro Million Aufrufe Hunderte bis Tausende Dollar.
Die Faustregel: Setze KI dort ein, wo sie echten Mehrwert bringt — kreativ, kontextuell, sprachlich, generativ. Nicht dort, wo deterministische Software die Arbeit billiger und stabiler macht. Eine simple Berechnung, eine Datenbankabfrage, ein Validator-Check, eine Routing-Entscheidung — all das ist klassische Programmierung. Wenn du sie durch ein LLM ersetzt, machst du sie 1000× teurer und unzuverlässiger. Das funktioniert heute, weil der LLM-Call subventioniert ist. In drei Jahren funktioniert es nicht mehr.
Wer Software baut, sollte sich vor jedem KI-Call die folgende Frage stellen:
- →Kannst du das Problem mit klassischer Logik lösen? Dann mach das.
- →Brauchst du wirklich Frontier-Intelligenz oder reicht ein kleines, günstiges Modell?
- →Lässt sich das Ergebnis cachen, sodass derselbe Call nicht zwölfmal läuft?
- →Wie viel würde dein Geschäftsmodell verlieren, wenn der Token-Preis sich morgen verdreifacht?
Für Solo-Entwickler: Bau deine persönlichen Tools so, dass du sie ohne Geschäftsmodell-Schaden umstellen kannst. Wenn dein Workflow „braucht zwingend Claude Opus für jeden Schritt" lautet, bist du erpressbar.
Für Firmen: Cost-of-Inference muss eine harte Kennzahl in jedem KI-Projekt sein, nicht nur eine Fußnote. Frag bei jedem Projekt: Was kostet uns das pro Nutzer, pro Monat, bei 10× Skalierung? Welche Komponenten sind absolut KI-pflichtig — und welche bauen wir besser klassisch? Wer sein Geschäftsmodell darauf aufbaut, dass 100.000 Nutzer monatlich Millionen LLM-Calls verursachen, hat in der -Phase ein existenzielles Problem. Software, die intelligent wenig KI nutzt, gewinnt.
10 · AbsichernWas du jetzt konkret tun solltest
Die ehrliche Empfehlung ist nicht „mach dir keine Sorgen" und nicht „hör auf zu zahlen". Sie ist: Nutze die Subventionsphase voll aus, aber baue deine Workflows so, dass du nicht erpressbar wirst, wenn die Pricing-Power-Phase kommt. Konkret heißt das fünf Dinge:
Nutze die Subvention. Vermeide den Lock-in.
- 01 Jetzt voll nutzen. Das Preis-Leistungs-Verhältnis ist historisch einmalig günstig. Workflows aufbauen, Prozesse automatisieren, so viel rausholen wie geht. Wer wartet, verschenkt die Subvention.
- 02 Klassisch bauen wo möglich. Eine Berechnung, ein Datenbank-Lookup, ein Validator, eine Routing-Entscheidung — pro Million Aufrufe kostet das ein paar Cent. Derselbe Job per LLM: Hunderte bis Tausende Dollar. KI dort einsetzen, wo Sprache, Kontext oder Generierung gebraucht werden — nicht als universeller Hammer. Heute funktioniert auch der Hammer-Ansatz, weil der LLM-Call subventioniert ist. In drei Jahren nicht mehr.
- 03 Anbieter-flexibel bauen. Schreib deine Tools so, dass du mit einem Schalter von Anthropic auf OpenAI oder Google wechseln kannst. Tools wie oder machen das praktisch trivial. Für Firmen: parallele Verträge mit zwei Anbietern, nie 100 % auf einen wetten. Wie ich das selbst gemacht hab: Cloud mit Antigravity aufsetzen.
- 04 Daten lokal sichern. Prompts, Memory, Workflows, eigene Wissensbasen — was im Anbieter-System lebt, gehört nicht dir. Regelmäßige Exporte. Bei sensiblen Firmendaten zusätzlich -Speicherung und klare Vertragslage zum Datenabfluss.
- 05 Self-Hosting im Blick behalten. -Klasse-Modelle laufen heute auf einem Mac Studio ( ist für lokale LLMs erstaunlich gut). Für Firmen: ein eigener GPU-Server zahlt sich ab gewissem Volumen aus — und macht dich unabhängig vom Anbieter-Pricing. Plan B aufbauen, bevor du ihn brauchst.
- 06 Günstige Modelle für Massenaufgaben. Frontier-Modell nur dort einsetzen, wo es echtes Reasoning braucht. Für Klassifizierung, Extraktion, einfache Antworten reicht ein 10–20× günstigeres Modell. Das spart über 80 % und entkoppelt dich von Preis-Schocks im Top-Tier. Wenn du mit Claude Code arbeitest: eine Token-Statusbar zeigt live, welcher Workflow am meisten Tokens frisst.
Faustregel: Wer in der Subventionsphase Routinen aufbaut, die ohne KI nicht funktionieren, wird in der Pricing-Power-Phase erpressbar. Wer Routinen aufbaut, die schnell auf ein anderes Modell migriert werden können, gewinnt heute und behält Optionen morgen.
Fazit
Die KI-Infrastruktur-Investitionen sind die teuerste Wette der Geschichte — und gleichzeitig ist ein erheblicher Teil davon rational. Die Token-Preise fallen real. Die Effizienz ist am Anschlag. Die Nachfrage wächst schneller als beides zusammen.
Das Risiko tragen die Investoren und die Hyperscaler, nicht die Nutzer — zumindest jetzt. Der historische Präzedenzfall (Telecom-Boom) zeigt: Die Infrastruktur wird trotzdem gebaut, die Preise kollabieren trotzdem, und am meisten profitieren die, die die günstige Infrastruktur am effektivsten nutzen — nicht die, die Aktien von WorldCom gehalten haben.
Was du heute brauchst, ist nicht Skepsis und nicht naiver Enthusiasmus. Du brauchst einen Plan, wie du die Subventionsphase nutzt, ohne in der nachfolgenden Phase erpressbar zu sein. Den Plan oben kannst du wörtlich nehmen — oder als Anstoß für deinen eigenen.