Die zentrale Frage lautet daher nicht mehr, ob KI genutzt wird, sondern, was unter diesen Bedingungen eigentlich gemessen wird und wie Ergebnisse zu interpretieren sind, wenn KI Teil der Leistungssituation ist. KI Tools entwickeln sich weiter und sind zunehmend niedrigschwellig verfügbar. Wie unterscheidet man unter solchen Bedingungen weiterhin exzellente Kandidat:innen von weniger guten Kandidat:innen mit KI-Unterstützung?
Dieser Beitrag plädiert dafür, KI im Assessment nicht moralisch aufzuladen, sondern einen Blick auf Messabsicht und Messpräzision zu werfen. Darauf basierend gibt es Empfehlungen für konkrete Schritte, die gute Personalauswahl in und für die Zukunft ermöglichen (Holtrop & Bronzwaer, 2025; Sackett et al., 2026).
Der diagnostische Kern: Validität ist Interpretationsfrage
In der Eignungsdiagnostik wird seit Jahren betont, dass Personalauswahl kein Wettbewerb einzelner Instrumente ist, sondern ein systematisch konstruiertes Verfahren mit klar definierten Zielkriterien (Sackett et al., 2022). Validität bedeutet dabei nicht nur statistische Vorhersagekraft, sondern die Angemessenheit der Schlussfolgerungen, die aus einem Ergebnis gezogen werden (Sackett, 2026).
Zugleich zeigen meta-analytische Revisionen, dass Validitätsschätzungen in der Vergangenheit teilweise überschätzt wurden (Sackett et al., 2022). Die Aussagekraft eines Verfahrens hängt somit wesentlich davon ab, wie präzise das zugrunde liegende Konstrukt definiert ist und unter welchen Bedingungen es gemessen wird.
Vor diesem Hintergrund wird deutlich, warum KI im Assessment vor allem ein Konstruktproblem ist. Holtrop und Bronzwaer (2025) zeigen, dass generative KI die Leistungssituation verschiebt. Wird sie unterstützend eingesetzt – etwa um vorzustrukturieren oder sprachlich zu glätten – kann sie reale Arbeitsbedingungen abbilden. Wird sie jedoch der Ersatz für die eigene Leistung, verändert sich das Konstrukt, das gemessen wird. Das Verfahren misst dann nicht mehr nur die individuelle Kompetenz, sondern Kompetenz mit Toolunterstützung.
Diagnostisch verändert sich somit der Leistungsmodus. Ob dies sinnvoll ist, hängt vom Zielkriterium ab: Soll eine Basiskompetenz ohne Hilfsmittel prognostiziert werden oder arbeitsnahe Performance unter realen Bedingungen, in denen KI verfügbar ist? Beides kann legitim sein, es liegen aber unterschiedliche Konstrukte zugrunde.
Kontrolle ersetzt keine Messlogik
Gut konstruierte Verfahren bleiben belastbar
Die zukunftsorientierte Personalauswahl braucht ein logisches Fundament für Entscheidungen. Aus der Forschung ergeben sich vier Schritte zur Orientierung:
1. Zielkriterium festlegen
Was soll prognostiziert werden? Sollen isolierte Kernkompetenzen oder sicherheitskritische Fähigkeiten im Vordergrund stehen oder ist die reflektierte Nutzung Teil der Jobrealität? Ohne ein klares Zielkriterium sind Regeln zur KI-Nutzung willkürlich. Mit Zielkriterium werden sie logisch (Sackett et al., 2026).
2. Messmodus wählen (Holtrop & Bronzwaer, 2025):
- Ohne KI: Sinnvoll, wenn besagte Basiskompetenzen isoliert erfasst werden sollen, um Potenzial zu messen, bei sicherheitskritischen Aufgaben oder wenn KI nicht in Job eingesetzt werden kann oder darf.
- Mit KI: Sinnvoll, wenn KI im Job Standard ist und gezielt geprüft werden soll, wie jemand Tools nutzt und Ergebnisse einordnet.
- Beides getrennt: Die Messung erfolgt erst ohne KI, dann mit KI. Werden beide Situationen getrennt betrachtet, ermöglicht es die klarste Interpretation, da die menschliche Leistung und die Arbeitsleistung sichtbar unterschieden werden können.
3. Substanz prüfen, statt nur das Ergebnis
Durch die sprachliche Glättung und strukturelle Optimierung verliert die reine Output-Bewertung an Bedeutung. Ein diagnostisch belastbares Verfahren betrachtet nicht nur das Ergebnis, sondern auch den Denkweg und die Entscheidungslogiken (Sackett et al., 2026). Durch Begründungen, Alternativen und Risikoabwägungen lassen sich Rückschlüsse über die Urteilskraft, Verantwortung und Reflexionsfähigkeit treffen, unabhängig davon, ob ein Tool benutzt wurde oder nicht.
4. Auswahl als System interpretieren
Ein einzelnes Instrument für sich trägt nicht genug diagnostische Substanz. Die Kombination aus Arbeitsproben, strukturierten Interviews und klar definierten Zielkriterien erhöht die Interpretationssicherheit und die Robustheit gegenüber Verzerrungen einzelner Instrumente (Sackett et al., 2026). Der vollständige Ausschluss der KI ist nur eine Reaktion auf ein Symptom. Wer stattdessen die Messabsicht präzisiert, erhöht die Qualität der Entscheidungen und stellt sich zukunftssicher auf.
Fazit
KI ist kein Gegner der Diagnostik. Sie fordert Klarheit im Prozess. Wer nur kontrolliert, bekommt vielleicht weniger KI im Assessment, aber nicht automatisch bessere Entscheidungen. Entscheidend bleibt konzeptionelle Klarheit: Eine präzise Messabsicht, ein bewusst gewählter Leistungsmodus und eine transparente Interpretation der Ergebnisse. Unter diesen Bedingungen bleibt Personalauswahl auch in einer KI-geprägten Arbeitswelt fachlich belastbar.