KI in der Personalauswahl – hilfreich oder nicht?

Aktuelle Studien zeigen: Generative KI ist im Arbeitsalltag angekommen. Beschäftigte nutzen sie insbesondere für textbasierte Aufgaben wie Strukturierung, Formulierung oder Überarbeitung (OECD, 2022; Pew Research Center, 2025). Auch im Recruiting zeigt sich, dass Bewerbungsunterlagen mithilfe von KI sprachlich optimiert werden (Cui et al., 2025). Erste empirische Arbeiten zeigen zudem die Nutzung von KI-Unterstützung in digitalen Auswahlformaten (Canagasuriam et al., 2025).

Die zentrale Frage lautet daher nicht mehr, ob KI genutzt wird, sondern, was unter diesen Bedingungen eigentlich gemessen wird und wie Ergebnisse zu interpretieren sind, wenn KI Teil der Leistungssituation ist. KI Tools entwickeln sich weiter und sind zunehmend niedrigschwellig verfügbar. Wie unterscheidet man unter solchen Bedingungen weiterhin exzellente Kandidat:innen von weniger guten Kandidat:innen mit KI-Unterstützung?

Dieser Beitrag plädiert dafür, KI im Assessment nicht moralisch aufzuladen, sondern einen Blick auf Messabsicht und Messpräzision zu werfen. Darauf basierend gibt es Empfehlungen für konkrete Schritte, die gute Personalauswahl in und für die Zukunft ermöglichen (Holtrop & Bronzwaer, 2025; Sackett et al., 2026).

Der diagnostische Kern: Validität ist Interpretationsfrage

In der Eignungsdiagnostik wird seit Jahren betont, dass Personalauswahl kein Wettbewerb einzelner Instrumente ist, sondern ein systematisch konstruiertes Verfahren mit klar definierten Zielkriterien (Sackett et al., 2022). Validität bedeutet dabei nicht nur statistische Vorhersagekraft, sondern die Angemessenheit der Schlussfolgerungen, die aus einem Ergebnis gezogen werden (Sackett, 2026).

Zugleich zeigen meta-analytische Revisionen, dass Validitätsschätzungen in der Vergangenheit teilweise überschätzt wurden (Sackett et al., 2022). Die Aussagekraft eines Verfahrens hängt somit wesentlich davon ab, wie präzise das zugrunde liegende Konstrukt definiert ist und unter welchen Bedingungen es gemessen wird.

Vor diesem Hintergrund wird deutlich, warum KI im Assessment vor allem ein Konstruktproblem ist. Holtrop und Bronzwaer (2025) zeigen, dass generative KI die Leistungssituation verschiebt. Wird sie unterstützend eingesetzt – etwa um vorzustrukturieren oder sprachlich zu glätten – kann sie reale Arbeitsbedingungen abbilden. Wird sie jedoch der Ersatz für die eigene Leistung, verändert sich das Konstrukt, das gemessen wird. Das Verfahren misst dann nicht mehr nur die individuelle Kompetenz, sondern Kompetenz mit Toolunterstützung.

Diagnostisch verändert sich somit der Leistungsmodus. Ob dies sinnvoll ist, hängt vom Zielkriterium ab: Soll eine Basiskompetenz ohne Hilfsmittel prognostiziert werden oder arbeitsnahe Performance unter realen Bedingungen, in denen KI verfügbar ist? Beides kann legitim sein, es liegen aber unterschiedliche Konstrukte zugrunde.

Kontrolle ersetzt keine Messlogik

In der Praxis reagieren Organisationen teilweise mit restriktiven Regelungen. Sie reduzieren somit die Gelegenheit zur KI-Nutzung, verändern aber weder die Konstruktdefinition noch Interpretationsgrundlage oder machen Assessments automatisch präziser. Die Forschung zu Bewerbendenreaktionen zeigt, dass wahrgenommene Fairness, Transparenz und Konsistenz zentrale Treiber von Akzeptanz und Vertrauen in Auswahlverfahren sind (Gilliland, 1993; Hausknecht, Day & Thomas, 2004). Wird die Messabsicht nicht explizit geklärt, bleibt trotz Kontrolle Interpretationsunsicherheit bestehen.

Gut konstruierte Verfahren bleiben belastbar

Die zukunftsorientierte Personalauswahl braucht ein logisches Fundament für Entscheidungen. Aus der Forschung ergeben sich vier Schritte zur Orientierung:

 

1. Zielkriterium festlegen
Was soll prognostiziert werden? Sollen isolierte Kernkompetenzen oder sicherheitskritische Fähigkeiten im Vordergrund stehen oder ist die reflektierte Nutzung Teil der Jobrealität? Ohne ein klares Zielkriterium sind Regeln zur KI-Nutzung willkürlich. Mit Zielkriterium werden sie logisch (Sackett et al., 2026).

 

2. Messmodus wählen (Holtrop & Bronzwaer, 2025):

  • Ohne KI: Sinnvoll, wenn besagte Basiskompetenzen isoliert erfasst werden sollen, um Potenzial zu messen, bei sicherheitskritischen Aufgaben oder wenn KI nicht in Job eingesetzt werden kann oder darf.
  • Mit KI: Sinnvoll, wenn KI im Job Standard ist und gezielt geprüft werden soll, wie jemand Tools nutzt und Ergebnisse einordnet.
  • Beides getrennt: Die Messung erfolgt erst ohne KI, dann mit KI. Werden beide Situationen getrennt betrachtet, ermöglicht es die klarste Interpretation, da die menschliche Leistung und die Arbeitsleistung sichtbar unterschieden werden können.

 

3. Substanz prüfen, statt nur das Ergebnis

Durch die sprachliche Glättung und strukturelle Optimierung verliert die reine Output-Bewertung an Bedeutung. Ein diagnostisch belastbares Verfahren betrachtet nicht nur das Ergebnis, sondern auch den Denkweg und die Entscheidungslogiken (Sackett et al., 2026). Durch Begründungen, Alternativen und Risikoabwägungen lassen sich Rückschlüsse über die Urteilskraft, Verantwortung und Reflexionsfähigkeit treffen, unabhängig davon, ob ein Tool benutzt wurde oder nicht.

 

4. Auswahl als System interpretieren
Ein einzelnes Instrument für sich trägt nicht genug diagnostische Substanz. Die Kombination aus Arbeitsproben, strukturierten Interviews und klar definierten Zielkriterien erhöht die Interpretationssicherheit und die Robustheit gegenüber Verzerrungen einzelner Instrumente (Sackett et al., 2026). Der vollständige Ausschluss der KI ist nur eine Reaktion auf ein Symptom. Wer stattdessen die Messabsicht präzisiert, erhöht die Qualität der Entscheidungen und stellt sich zukunftssicher auf.

Fazit

KI ist kein Gegner der Diagnostik. Sie fordert Klarheit im Prozess. Wer nur kontrolliert, bekommt vielleicht weniger KI im Assessment, aber nicht automatisch bessere Entscheidungen. Entscheidend bleibt konzeptionelle Klarheit: Eine präzise Messabsicht, ein bewusst gewählter Leistungsmodus und eine transparente Interpretation der Ergebnisse. Unter diesen Bedingungen bleibt Personalauswahl auch in einer KI-geprägten Arbeitswelt fachlich belastbar.

Canagasuriam, D., & Lukacik, E.-R. (2025). ChatGPT, can you take my job interview? Examining artificial intelligence cheating in the asynchronous video interview. International Journal of Selection and Assessment, 33, e12491. https://doi.org/10.1111/ijsa.12491 Cui, J., Dias, G., & Ye, J. (2025). Signaling in the age of AI: Evidence from cover letters. arXiv. https://arxiv.org/abs/2509.25054 Gilliland, S. W. (1993). The perceived fairness of selection systems. Academy of Management Review, 18(4), 694–734. https://doi.org/10.5465/amr.1993.9402210155 Hausknecht, J. P., Day, D. V., & Thomas, S. C. (2004). Applicant reactions to selection procedures: An updated model and meta‐analysis. Personnel Psychology, 57(3), 639–683. https://doi.org/10.1111/j.1744-6570.2004.00003.x Holtrop, D., & Bronzwaer, L. (Advance online publication). Validity at risk? The future of generative AI use by candidates. International Journal of Selection and Assessment. https://doi.org/10.1111/ijsa.70035 OECD. (2022). Using artificial intelligence in the workplace (OECD Employment Policy Papers No. 273). OECD Publishing. https://doi.org/10.1787/840a2d9f-en Pew Research Center. (2025, February 25). Which workers use AI in their jobs? https://www.pewresearch.org/social-trends/2025/02/25/workers-exposure-to-ai/ Sackett, P. R., Lievens, F., & Landers, R. N. (2026). Hiring people in organizations: The state and future of the science. Annual Review of Organizational Psychology and Organizational Behavior. https://doi.org/10.1146/annurev-orgpsych-020924-072127 Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta‐analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068. https://doi.org/10.1037/apl0000994

Kontaktieren Sie unsere Expertinnen

Annika Olofsson, Partnerin

Jana Becks,
Principal Consultant