Grenzen standardisierter Tests
Allerdings stellt sich bei näherem Hinsehen die Frage, ob Testverfahren in ihrem Potenzial nicht überschätzt werden und Testhandbücher mehr versprechen, als ein Test letztendlich halten kann.
Probleme der Objektivität und Reliabilität
So wird Objektivität als die Unabhängigkeit der Testergebnisse von äußeren Einflüssen, besonders vom Testanwender, in der Regel als gegeben angesehen – aufgrund der standardisierten Beschreibung der Rahmenbedingungen und der genauen Vorgabe der Anweisungen während der Testdurchführung. Dass daraus automatisch eine objektive Durchführung folgt, kann nur erhofft werden, denn es ist nicht möglich, den Grad der erreichten Durchführungsobjektivität gesichert zu bestimmen. Dabei kann es durchaus einen Unterschied machen, ob ein Test von einer vertrauten Bezugsperson in einer vertrauten Umgebung oder von einer fremden Person in einer fremden Umgebung durchgeführt wird, ob jemand einen Test schon mehrfach durchgeführt hat oder zum ersten Mal anwendet.
Die Reliabilität, d. h. die Messzuverlässigkeit eines Tests, wird während der Testentwicklung mithilfe einer oder mehrerer Gruppen von Personen ermittelt, die den Test ein- oder mehrmals bearbeiten. Aus den jeweiligen Testergebnissen wird anschließend auf Grundlage bestimmter theoretischer Annahmen die Zuverlässigkeit sowie der Messfehler eines Tests berechnet. Die so ermittelten Werte gelten anschließend als „Durchschnittswert“ für jede Einzelperson, die den Test zukünftig bearbeiten wird.
Probleme der Validität
Die Validität, die als wichtigstes Gütekriterium darüber Auskunft gibt, ob ein Test auch tatsächlich das misst, was er messen soll, wird häufig zunächst mit der lapidaren Feststellung begründet, dass die Testaufgaben augenscheinlich nichts anderes messen (können), als das, wozu der Test entwickelt wurde. Speziell bei Schulleistungstests wird in der Regel die „curriculare Validität“ ins Feld geführt, d. h. dass ein Test auf die Lernziele in Lehrplänen und Schulbüchern abgestimmt und dementsprechend dazu geeignet sei, deren Erreichen zu überprüfen. Dass dies ein schnell überholtes Validitätskriterium sein kann, zeigen aktuell die Rechtschreibtests DERET 1-2+ sowie DERET 3-4+ (Stock/Schneider 2008): Als diese nach langjähriger Entwicklung 2008 in erster Auflage erschienen, waren in den meisten Bundesländern die Lehrpläne im Zuge der Einführung von Bildungsstandards längst durch neue Lehr- und Bildungspläne und darauf abgestimmte Schulbücher ersetzt worden und die curriculare Validität der DERETs war streng genommen hinfällig. Zur zahlenmäßigen Bestimmung der Validität eines neu entwickelten Tests wird meist berechnet, wie gut die Ergebnisse in diesem Test mit sogenannten Außenkriterien übereinstimmen, die vorgeben Ähnliches oder Gleiches zu messen. Bei Schulleistungstests werden dafür nicht selten die Testergebnisse von Schülern mit der Einschätzung des Lehrers und/oder der Zensur in dem Fach, für das der Test konzipiert wurde, verglichen. Erstaunlich daran ist, dass Schulleistungstests gerade dafür entwickelt werden, die angeblich zu subjektiv geprägte Lehrereinschätzung durch eine objektive Leistungsmessung zu ersetzen. Bei deren Validierung wird aber genau auf dieses Kriterium zurückgegriffen, um zu prüfen, ob ein Test misst, was er messen soll! Darüber hinaus werden die Testergebnisse einer Gruppe von Personen in einem neuen Test vielfach mit den Ergebnissen aus bereits bestehenden und etablierten Verfahren verglichen. Geht man der Frage nach, wodurch wiederum deren Validität begründet ist, stößt man oft auf weit verzweigte Validierungsketten, in denen Tests durch ältere Tests validiert wurden, die wiederum durch noch ältere Tests validiert wurden, usw. (vgl. dazu ausführlich Rackwitz 2010). Bei solchen Analysen stößt man bisweilen sogar auf Zirkelschlüsse, bei denen sich zwei oder mehr Tests wechselseitig validieren, wie das Beispiel der beiden Lesetests „Würzburger Lesestrategie-Wissenstest für die Klassen 7-12“ (Schlagmüller/Schneider 2007) und „Lesegeschwindigkeits- und -verständnistest für die Klassen 6-12“ (Schneider/Schlagmüller/Ennemoser 2007) zeigt: In beiden Handbüchern wird jeweils der gleiche Zusammenhang der Testergebnisse einer Gruppe von Schülern aus dem einen Test mit Testergebnissen aus dem anderen berichtet. Die nahezu identischen Autorenteams haben also ihre beiden Testverfahren mit derselben Gruppe von Schülern durchgeführt und werten den Zusammenhang der Testergebnisse als Beleg für die Validität der Tests. Was welcher Test allerdings inhaltlich in welcher Breite und Tiefe misst, bleibt bei einem solchen Vorgehen völlig unklar. Der Bericht von Validierungsstudien und Zusammenhangsmaßen suggeriert jedoch eine wissenschaftliche Fundierung und empirische Absicherung eines Tests, die sich bei genauerem Hinschauen nicht selten als äußerst fragwürdig entpuppt. Davon abgesehen stellt sich generell die Frage, wie solche Zusammenhänge zu werten sind: Denn ist die gefundene statistische Übereinstimmung mit bestimmten Außenkriterien niedrig, deutet dies darauf hin, dass Test und Außenkriterium zwei verschiedene Dinge messen. Ist die Übereinstimmung jedoch sehr hoch, lässt sich fragen, warum ein neuer Test benötigt wird, wenn bereits existierende Verfahren zu sehr ähnlichen Ergebnissen kommen.
Mangel an förderdiagnostisch relevanten Informationen
Darüber hinaus sind Testverfahren gerade wegen ihrer Standardisierung und dem Ziel einer möglichst ökonomischen Durchführung auf bestimmte Aufgabentypen und Auswertungsformen beschränkt und können deshalb nur wenige Bereiche eines Fähigkeitsspektrums in den Blick nehmen. Das führt z. B. dazu, dass auch Schulleistungstests, die vorgeben für die förderdiagnostische Arbeit entwickelt worden zu sein, tatsächlich kaum förderdiagnostisch relevante Informationen liefern, denn sie ermöglichen entweder nur den Vergleich eines individuellen Ergebnisses mit einer Norm bzw. der Normstichprobe, oder die darüber hinausgehenden inhaltlichen Aussagen sind für förderdiagnostische Fragen wenig hilfreich, weil sie lediglich etwas über sehr kleine Ausschnitte eines Leistungsspektrums und zudem nichts über Lösungswege aussagen. Rechtschreibkompetenz wird z. B. auch in aktuellen Testverfahren nach wie vor überwiegend auf das korrekte Verschriften bestimmter Wörter sowie die Beherrschung bestimmter Rechtschreibphänomene wie die Groß-/Kleinschreibung oder Dopplung/Dehnung verkürzt. Ein Bezug zum aktuellen fachwissenschaftlichen Kenntnisstand, nach dem sich der Schriftspracherwerb in verschiedenen Stufen bzw. Phasen vollzieht, in denen bestimmte Strategien angewendet und bestimmte Einsichten erlangt werden, ist dabei meist nicht erkennbar. Die Hamburger Schreibprobe (May 2001) ist dabei eine positive Ausnahme.
Bei der Einschätzung individueller Lernstände und Lernlücken mit Hilfe von Tests darf außerdem nicht übersehen werden, dass die Kennwerte für die Messzuverlässigkeit und die Validität mit Hilfe relativ großer Personenstichproben ermittelt werden, die anschließend quasi als Durchschnittswert für jede Einzelperson gelten sollen, die den Test zukünftig bearbeitet. Es ist äußerst fraglich, ob der Schluss von einer Gruppe auf eine Einzelperson mit ihrer jeweils individuellen Lernbiografie, einem bestimmten Weltwissen und kulturellem Hintergrund, mit einer bestimmten sozialen Wirklichkeit, individuellen Interessen, Hobbys und Erfahrungen auf diese direkte Weise zulässig ist. Ebenso kann bezweifelt werden, dass die Aufgaben und inhaltlichen Anforderungen eines Tests für jede Person die gleiche Bedeutung haben, jeweils gleich verstanden und interpretiert werden und somit bei jedem Einzelfall gültige Antworten auf die Frage nach dem individuellen Lernstand, den individuellen Stärken und Schwächen, den vorhandenen Strategien und den jeweiligen Kompetenzen geben können. Vielmehr ist davon auszugehen, dass für jede Person, die den Test bearbeitet, eine individuelle Messzuverlässigkeit gilt, ebenso wie Aufgaben und Inhalte jeweils unterschiedlich verstanden und interpretiert werden.
Selbst wenn ein Testverfahren sich nicht auf das bloße Auszählen von Fehlern oder richtigen Antworten beschränkt, sondern darüber hinaus versucht, Kompetenzen und Lernlücken differenziert zu erfassen, bleibt es dennoch unklar, warum bestimmte Antworten gegeben oder bestimmte Fehler (nicht) gemacht wurden. Dies lässt sich nur näher bestimmen, wenn man neben dem Ergebnis auch den Prozess betrachtet, wie eine bestimmte Leistung zu Stande gekommen ist und versucht, daraus Schlüsse über vorhandene Kompetenzen, Strategien und Herangehensweisen an Problemstellungen, Vorstellungen und Theorien, Denkmuster, Aufgabeninterpretation und letztendlich Lernlücken zu ziehen.
Plädoyer für eine dialogisch angelegte Förderdiagnostik
Um einen erreichten Leistungsstand, Lernlücken, vor allen Dingen aber deren Ursachen zu identifizieren, ist also neben dem Ergebnis wichtig, warum und auf welchem Wege dieses zu Stande gekommen ist. Dies schließt die Frage nach der vorangegangenen Lernbiografie mit ein, um Hinweise auf Ansatzpunkte für eine sinnvolle Förderung zum Schließen von Lücken zu bekommen. Selbstverständlich sind auch Prozessbeobachtungen, deren Deutungen und daraus abgeleitete Fördermaßnahmen zunächst einmal nur Hypothesen, die auf Grundlage eigener Erfahrungen, Sichtweisen und Theorien gebildet werden („Die Theorie bestimmt, was wir sehen” – Einstein) und die laufend überprüft, bestätigt, verworfen, korrigiert oder verfeinert werden müssen. Um dies leisten zu können, ist es naheliegend den Schüler mit seiner Sichtweise auf die Dinge und seiner Lerngeschichte aktiv mit in den diagnostischen Prozess einzubeziehen. Das hilft, sein Handeln besser verstehen und valider zu deuten, als dies Tests zulassen. Bei einer solchen – dialogisch angelegten – Förderdiagnostik sind die wichtigsten „Instrumente“ die daran beteiligten Personen, die Lehrkraft mit ihren Beobachtungen, Deutungen und Fragen sowie der Schüler mit seinen Kommentaren, d. h. Bestätigungen oder Korrekturen von Deutungen, die untereinander ausgetauscht werden (vgl. Brügelmann 2009; Backhaus 2010). Ein solcher Dialog macht allerdings die Aufgabe der vermeintlich hierarchisch überlegenen Position des Diagnostikers nötig sowie die Etablierung einer von Wertschätzung, Gleichberechtigung und Transparenz geprägten partnerschaftlichen Beziehung, in der der Schüler als Experte seiner Lern- und Lebenswelt ernst genommen wird und sich aktiv einbringen kann. In einer solchen Atmosphäre wird es möglich, die bisherige Lerngeschichte zu rekonstruieren, sich gemeinsam durch den Austausch von Sichtweisen und Deutungen ein Bild über momentane Lernstände, vorhandene Strategien, besondere Stärken und Schwächen sowie Lernlücken und deren Ursachen zu machen sowie Bedingungen und Möglichkeiten für Anknüpfungspunkte und Veränderungen auszuloten. So können Lernziele, Lernwege und nächste Schritte in einer wechselseitigen Verständigung vereinbart werden, die den Bedürfnissen des Schülers gerecht werden und seine Interessen miteinbeziehen, damit ihm die nächsten Lernschritte sinnvoll und lohnenswert erscheinen (konkrete Hilfen finden sich bei Bartnitzky u. a. 2005 ff.).
Beobachtungen und Tests können sich ergänzen
Eine prozessorientierte und dialogisch angelegte Förderdiagnostik schließt die punktuelle Bearbeitung von Aufgaben, die durchaus ähnliche Formate aufweisen können wie in Testverfahren, trotzdem nicht aus. Der Schwerpunkt dabei liegt aber nicht auf dem vermeintlich objektiven Abprüfen einer bestimmten Leistung, sondern darauf, einen „Fremdblick“ zur Beratung und Begleitung der Schüler in ihrem Lernprozess zu gewinnen, um anschließend in den Dialog über Lernstände und Lernziele zu treten. Dementsprechend können durchaus auch von Zeit zu Zeit Testverfahren mit eingesetzt werden, die aufgrund ihrer Konstruktion und theoretischen Fundierung einen tatsächlichen Mehrwert versprechen. Deren Ergebnisse sollten aber nicht überbewertet werden. Sie sind nicht aussagekräftiger als die eigenen Beobachtungen, sondern ein Puzzleteil im Gesamtbild, das es zusammen mit dem Schüler zu finden gilt.
Förderdiagnostik bedarf der aktiven Beteiligung der Schüler
Auf Seiten der Schüler macht eine dialogisch angelegte Förderdiagnostik eine Auseinandersetzung mit dem eigenen Können und Handeln nötig, wodurch zunehmend die Fähigkeit zur kritischen Reflektion und Selbsteinschätzung eigener Lern- und Leistungsstände im Vergleich mit vorher gesteckten Lernzielen entwickelt werden kann. Dies kann darin münden, dass Schüler sich untereinander, z. B. im Rahmen von regelmäßigen Lerngesprächen über ihre Arbeiten, über ihre Lernziele und Wege dorthin austauschen, Fortschritte, Rückschritte und Probleme diskutieren, sich gegenseitig Hilfestellung geben und gemeinsam nach Lösungen und Anschlussmöglichkeiten suchen. Dazu können Schüler ihre Lernentwicklungen und selbst gesteckten Ziele auch in Lerntagebüchern festhalten, um diese von Zeit zu Zeit zu reflektieren und/ oder zur Diskussion stellen.
Bei der Suche nach Lernlücken und Defiziten dürfen aber die bereits vorhandenen Stärken, Kompetenzen und Ressourcen nicht übersehen werden. Denn sie sind das Fundament für den weiteren Lernweg und eine effektive Förderung. Darüber hinaus sind auch aus einer prozessorientierten und dialogisch angelegten Förderdiagnostik abgeleitete Förderangebote und deren Wirksamkeit im pädagogischen Alltag auf ihre Passung hin zu überprüfen und gegebenenfalls anzupassen. Und dazu gehört neben dem Dialog mit KollegInnen auch der mit den Eltern, um die sozialen Möglichkeiten und Bedingungen für Lernentwicklungen auszuloten – am besten mit dem Schüler anstatt über ihn.
Literatur:
- Backhaus, A. (2010): Dialogisch arbeiten – mit Kindern und Erwachsenen. Ein Plädoyer, dasselbe gleich zu machen – nur anders! In: ALFA-FORUM, Nr. 73, 14-17
- Bartnitzky, H. u. a. (Hg.) (2005 & 2006 & 2007): Pädagogische Leistungskultur: Materialien für Klasse 1/2 und Klasse 3/4. Beiträge zur Reform der Grundschule, Bd. 119 & 121 & 124. Grundschulverband: Frankfurt
- Brügelmann, H. (2009): Wie kann Kompetenzentwicklung evaluiert werden?
In: PÄDAGOGIK 61, H. 10 (2009) 10, S. 44-47 - May, P. (2001): Hamburger Schreib-Probe 1-9 (HSP 1-9). Hamburg
- Rackwitz, R.-Ph. (2010): Tests unter der Lupe: Können sie halten, was sie versprechen? In: Die Grundschulzeitschrift 24 (2010), H. 234, S. 4–9
- Schlagmüller, M./ Schneider W. (2007): Würzburger Lesestrategie-Wissenstest für die Klassen 7-12. Göttingen
- Schneider, W./Schlagmüller, M./ Ennemoser, M. (2007): Lesegeschwindigkeits- und -verständnistest für die Klassen 6-12. Göttingen
- Stock, C./Schneider, W. (2008): DERET 1–2+, Deutscher Rechtschreibtest für das erste und zweite Schuljahr. Göttingen
- Stock, C./Schneider, W. (2008): DERET 3–4+, Deutscher Rechtschreibtest für das dritte und vierte Schuljahr. Göttingen