Der erste öffentliche Benchmark für KI-Modell-Genauigkeit bei echten Startup-Validierungen — basierend auf 90-Tage-Ergebnissen echter Gründer.
Welches Modell-Urteil erwies sich nach 90 Tagen als korrekt.
Welche Annahmen alle 4 Modelle konsistent falsch einschätzen.
KI-Debate-Scores vs. tatsächliche Erfolgsraten nach Branche.
Team USA vs Team China — Accuracy-Breakdown im Vergleich.
Werde benachrichtigt wenn der Research Report erscheint.