Partner von bwp@: 
  SAP University Alliances Community (UAC)   giz - Deutsche Gesellschaft für Internationale Zusammenarbeit    Bundesverband der Lehrerinnen und Lehrer an Wirtschaftsschulen e.V.    Österr. Konferenz für Berufsbildungsforschung       

bwp@ Ausgabe Nr. 22 | Juni 2012
Funktionen und Erträge pädagogischer Diagnostik im wirtschafts- und berufspädagogischen Bereich
Herausgeber der bwp@ Ausgabe 22 sind Tade Tramm, Susan Seeber & H.-Hugo Kremer

Valide Erfassung des volkswirtschaftlichen Fachwissens von Studierenden der Wirtschaftswissenschaften und der Wirtschaftspädagogik – eine Untersuchung der diagnostischen Eignung des Wirtschaftskundlichen Bildungstests (WBT)

Beitrag von Manuel FÖRSTER, Roland HAPP & Olga ZLATKIN-TROITSCHANSKAIA (Johannes Gutenberg-Universität Mainz)


Abstract

Im Hochschulbereich lässt sich für zahlreiche Fachdomänen ein deutlicher Mangel an Erhebungsinstrumenten konstatieren, die auf die Messung des Lern- und Studienerfolgs der Studierenden ausgerichtet sind. Dieses Forschungsdefizit führt zu einer erheblichen Einschränkung der pädagogischen Diagnostik im tertiären Bildungssektor. Ohne derartige Instrumente zur Erfassung der Lernleistungen von Studierenden ist bspw. eine empirische Bewertung von (politisch anvisierten) Reformprozessen wie der Bologna-Reform nicht möglich. Neben den beiden Gütekriterien der Objektivität und der Reliabilität stellt gerade die Validität eines psychologischen Tests die bedeutendste Voraussetzung für eine erfolgreiche Diagnostik im Hochschulbereich dar, deren Einhaltung nach unterschiedlichen Kriterien bewertet werden kann. In dem vorliegenden Beitrag wird der Frage nachgegangen, inwieweit der Wirtschaftskundliche Bildungstest (WBT) eine valide Messung des volkswirtschaftlichen Fachwissens von Studierenden im Hochschulbereich erlaubt. Hierbei wird auf Basis der Daten aus dem Forschungsprojekt ILLEV auf die Aspekte der Inhalts-, Kriteriums- und Konstruktvalidität eingegangen. Die Analyse zeigt, dass der Test mit Einschränkungen für die Messung des volkswirtschaftlichen Fachwissens auch auf universitärem Niveau geeignet ist. Zudem wird deutlich, dass der Itempool für das volkswirtschaftliche Fachwissen erweitert werden sollte und weitere (passgenauere) Tests für die Erfassung des ökonomischen Fachwissens im Hochschulbereich zu entwickeln sind.


Valid measurement of university students’ economic content knowledge – an investigation of the diagnostic suitability of the German “Wirtschaftskundlicher Bildungstest” (an equivalent of the American Test of Economic Literacy)

Numerous research disciplines in higher education lack survey instruments for measuring students’ success in learning and studying. This research deficiency leads to a vast restriction of pedagogical diagnostics in higher education, because without such instruments for assessing the study performance of students it is, for example, not possible to estimate the teaching competence of university professors or to empirically evaluate (politically planned) reform processes such as the Bologna reform. Apart from the two quality criteria of objectivity and reliability, the validity of a psychological test is the most important pre-condition for successful diagnostics in higher education. Compliance with it can be measured according to different criteria. This paper attempts to answer the question regarding the extent to which the WBT (economics education test – a German equivalent to the American Test of Economic Literacy) presents a valid measurement of economics expertise among students of higher education. Based on data from the ILLEV research project, aspects of content, criteria, and construct validity are addressed. The analysis shows that the test can be used for measuring expertise in economics at university level to a certain extent. It becomes clear that the item pool for assessing content knowledge in economics should be extended through further research activities and that further (tailor-made) tests for the assessment of economics expertise in higher education should be developed.

1 Einleitung - Pädagogische Diagnostik im tertiären Bildungssektor

Die Evaluation im Hochschulsektor gewinnt seit der letzten Dekade zunehmend an Bedeutung. Zum einen ist sie ein zentraler Bestandteil bei der Akkreditierung und Reakkreditierung von neu implementierten Bachelor- und Masterstudiengängen, zum anderen führen Hochschulen Qualitätsmanagementsysteme ein, welche verschiedene Formen der Evaluation wie die Beurteilung der Lehrveranstaltungsqualität, des Workloads u.v.m. umfassen. Die bisher implementierten Evaluationsinstrumente zielen jedoch i.d.R. auf die Erhebung und Sammlung von Daten auf der individuumsübergreifenden Ebene ab und erlauben kaum Aussagen zur Qualität des faktischen Outputs z.B. in Form des individuellen Studienerfolgs. Dieses Forschungsdefizit ist u.a. darauf zurückzuführen, dass in Deutschland bislang nur für wenige Fachdomänen Instrumente zur Erfassung des Lern- und Studienerfolgs vorliegen (vgl. z.B. für die Lehrerbildung in der Mathematik SCHMIDT/ BLÖMEKE/ TATTO 2011). Eine zentrale Anforderung an derartige Messinstrumente stellt eine valide und objektive Erfassung von Lernleistungen von Studierenden dar (ZLATKIN-TROITSCHANSKAIA/ KUHN 2010).

Während im allgemein bildenden Schulsektor der Programmkatalog der Evaluation von zentralen Klassenarbeiten, Vergleichsarbeiten bis hin zu Lernstandsuntersuchungen und internationalen Large-Scale-Assessments reicht (vgl. z.B. PRENZEL et al. 2006), steckt die Erfassung von Kompetenzen und Lernleistungen von Studierenden noch in den Kinderschuhen (ZLATKIN-TROITSCHANSKAIA/ BLÖMEKE/ KUHN/ BUCHHOLTZ 2012). Evaluation, die Rückschlüsse auf die individuellen Lehr-Lern-Prozesse von Studierenden bzw. deren Ergebnisse zulässt, ist auch für den Hochschulsektor unerlässlich. So ist das Ziel der Bologna-Reform eine Qualitätsoffensive, die u.a. auf die Verbesserung der individuellen Lehr-Lern-Prozesse und die Steigerung der Lehrqualität abzielt (s. z.B. PAETZ et al. 2011). Damit verbunden ist auch die Förderung der Lehrkompetenz von Hochschuldozenten (ZLATKIN-TROITSCHANSKAIA et al. 2012; CEYLAN et al. 2011). Folgerichtig ist die Evaluation im Hochschulsektor so anzulegen, dass sie insbesondere zur systematischen Verbesserung der Lehr-Lern-Prozesse und der Lehrqualität an Hochschulen beiträgt. Dieses anspruchsvolle Ziel erfordert jedoch die Entwicklung von geeigneten diagnostischen Messinstrumenten für die Hochschulen: denn ohne Diagnose ist auch keine zielorientierte Steuerung der individuellen Lehr-Lern-Prozesse von Studierenden möglich. Die diagnostischen Instrumente sollen den Lehrenden an den Hochschulen als Grundlage für die pädagogische Beurteilung der Lernleistungen dienen und somit die Perspektive für eine gezielte individuelle Förderung von Studierenden eröffnen. Aus diesem Blickwinkel ermöglicht die Diagnostik eine – für den Hochschulsektor längst überfällige – Verlagerung des Betrachtungsfokusses (vom Input und der Struktur) auf die Zusammenhänge zwischen den hochschulischen Prozessvariablen und den fachlichen Leistungen (ZLATKIN-TROITSCHANSKAIA/ FÖRSTER/ HAPP 2012).

Die Entwicklung von geeigneten diagnostischen Messverfahren ist im Kontext der Hochschule mit spezifischen Problemen verbunden (ZLATKIN-TROITSCHANSKAIA/ KUHN 2010). Unter anderem sind hier nicht vorhandene Kerncurricula in den jeweiligen Fächern/Studiendisziplinen zu nennen, in denen oftmals nicht hinreichend die Curriculums- bzw. Inhaltsanforderungen sowie die Berufsanforderungen an die Hochschulabsolventen in den Studienfächern definiert werden. Dadurch wird u.a. die Sicherstellung der Inhaltsvalidität wesentlich erschwert. Weiterhin besteht für den Hochschulsektor ein deutliches Spannungsverhältnis zwischen den curricularen und externen (bzw. ökologischen) Validitätsanforderungen an die Testaufgaben.

Betrachtet man die Literatur zur pädagogischen Diagnostik, so findet man stets einen Bezug auf die Förderung und Optimierung der Bildungsbeteiligung gerade benachteiligter Gruppen, was auch ein zentrales Ziel der Bologna-Reform im Hochschulsektor darstellt (vgl. ZLATKIN-TROITSCHANSKAIA/ FÖRSTER/ HAPP 2012). INGENKAMP und LISSMANN (2005, 13) stellen fest, dass die Ziele der pädagogischen Diagnostik die Erfassung von Lernergebnissen und die Optimierung des individuellen Lernens umfassen. Dieses schließt auch die diagnostischen Tätigkeiten mit ein, welche eine Zuweisung zu bestimmten Lerngruppen ermöglichen. Dabei sollen bei Lernenden in einer Gruppe Voraussetzungen und Bedingungen erfolgreicher Lehr- und Lernprozesse ermittelt, Lernprozesse analysiert und Lernergebnisse anhand geeigneter diagnostischer Instrumente unter Beachtung wissenschaftlicher Gütekriterien festgestellt werden. Neben den Kriterien der Reliabilität und Objektivität nimmt hier das Kriterium der Validität eine ganz zentrale Bedeutung ein.

Pädagogische Diagnostik wird in der Literatur folgendermaßen ausdifferenziert: (1) Eine psychologisch geprägte Testdiagnostik, welche eine normorientierte Diagnostik mittels testdiagnostisch abgesicherter Erhebungsinventare kennzeichnet, mit dem primären Ziel, erbrachte Lehrleistungen und die ihnen zugrunde liegenden Voraussetzungen objektiv, reliabel und valide zu erfassen (INGENKAMP/ LISSMANN 2005). (2) Eine pädagogisch fokussierte Förderdiagnostik, welche eine Situations- und Lernprozessdiagnostik umfasst, die generell von Entwicklungsaspekten und der Lernfähigkeit und Lernbereitschaft bei den Individuen ausgeht und die zu beurteilende Person mit in den förderdiagnostischen Prozess selbst einbezieht (EBERWEIN/ KNAUER 1998). Dies setzt neben der Einschätzung der individuellen Lernsituation und des Lernverhaltens auch das Erfassen der Rahmenbedingungen der individuellen Lernsituation und der soziokulturellen Verhältnisse voraus. Förderdiagnostik basiert somit auf dem ökologischen Modell individueller Entwicklung i.S. einer Individuum-Umfeld-Analyse und folgt dem Gütekriterium der ökologischen Validität. Dieses umfasst auch die Einbeziehung von Faktoren wie Unterrichtsgestaltung, Lernklima, familiärer Bildungsstil, die ökonomischen Verhältnisse sowie die Sicht des Betroffenen selbst (VON DER GROEBEN 2003). Hier wird ein besonderer Fokus auf den Lernprozesscharakter bzw. die Lernprozessdiagnostik gelegt, welche folgerichtig nicht den einmaligen Charakter einer Querschnittserhebung bzw. einer norm-orientierten Statusdiagnose hat, sondern einen Entwicklungsaspekt und damit eine längsschnittliche Perspektive beinhaltet (EBERWEIN/ KNAUER 1998, 9). 

Einige Autoren subsumieren auch die Methoden der psychologisch geprägten Testdiagnostik unter eine solche Prozessdiagnostik (z.B. SEEL/ PIRNAY-DUMMER/ IFENTHALER 2009, 564). In der aktuellen Literatur wird zunehmend betont, dass im modernen Bildungssystem die beiden Arten der Diagnostik (Status- und Prozessdiagnostik) systematisch vereint werden müssten, um eine fundierte Entwicklung von institutionellen und individuellen Optimierungsmöglichkeiten zu ermöglichen (ZLATKIN-TROITSCHANSKAIA et al. 2012). Für die Konstruktion von diagnostischen Messinstrumenten im Hochschulsektor bedeutet dieses, dass sie stets die Anforderungen an die Testdiagnostik und die psychologische Förderdiagnostik erfüllen müssen.

Wie aus den bisherigen Ausführungen deutlich wird, bedarf es zur pädagogischen Diagnostik geeigneter valider Messinstrumente. Im Folgenden wird dem Validitätsaspekt anhand des Einsatzes des WBTs (BECK/ KRUMM/ DUBS 1998) im Hochschulbereich nachgegangen. Hierzu wird auf die Ergebnisse aus dem Forschungsprojekt ILLEV[1] zurückgegriffen. Im Artikel wird gezeigt, dass der eingesetzte WBT eine valide Messung des ökonomischen Fachwissens an der Hochschule erlaubt. Im folgenden Abschnitt wird zunächst auf den internationalen Forschungsstand zur Erfassung des volkswirtschaftlichen Fachwissens im Hochschulbereich eingegangen. Weiterhin wird im Kapitel 2 der im Projekt ILLEV verwendete Test WBT aufgegriffen und sein Aufbau und die Subdimensionen vorgestellt. Im Kapitel 3 wird das Untersuchungsdesign skizziert. Das Kapitel 4.1 umfasst die Darstellung der wichtigsten Validierungskriterien, um anschließend im Kapitel 4.2 die Passung des in ILLEV eingesetzten WBTs vor dem Hintergrund der Inhalts-, Kriteriums- und Konstruktvalidität darzustellen und kritisch zu diskutieren. Der Beitrag schließt mit einem Fazit und Ausblick.

2 Der WBT als Instrument zur Operationalisierung und Messung von volkswirtschaftlichem Fachwissen

Eine Analyse des internationalen Forschungsstandes zur Operationalisierung und Messung von volkswirtschaftlichem Fachwissen zeigt, dass bislang nur wenige bereits erprobte und validierte Instrumente für den tertiären Bildungssektor existieren (s. ausführlich in ZLATKIN-TROITSCHANSKAIA/ KUHN 2010). Im deutschsprachigen Raum lassen sich nur vereinzelt Instrumente finden, die auf die Messung des volkswirtschaftlichen Fachwissens ausgerichtet sind. Dabei sind vor allem die Vorarbeiten von KRUMM und SEIDEL (1970) zum Wirtschaftslehre-Test (WLT) und die Studien von FREUNDLINGER (1992); BRANDLMAIER et al. (2006); WÜRTH/ KLEIN (2001), SCHUMANN/ OEPKE/ EBERLE (2011) oder auch NAGY et al. (2008) zu nennen. Betrachtet man jedoch die Zielpopulationen dieser Studien, so sind keine Instrumente zu finden, die für den universitären Bereich einen Einsatz rechtfertigen.

Eines der wenigen deutschsprachigen Erhebungsinstrumente, bei denen die Testentwickler den Einsatz im universitären Bereich rechtfertigen, ist der WBT (BECK/ KRUMM/ DUBS 1998,  3). Es lässt sich eine ganze Reihe von Studien finden, die auf Aufgaben aus dem WBT zurückgreifen (BECK/ WUTTKE 2004; KATSCHNIG/ HANISCH 2005; MÜLLER/ FÜRSTENAU/ WITT 2007; ROSENDAHL/ STRAKA 2011). Da der WBT die deutsche Adaption des amerikanischen Tests of Economic Literacy (TEL; SOPER/ WALSTAD 1987) darstellt, können auch für die englische Ausgangsversion eine ganze Reihe von Untersuchungen angeführt werden: WHITEHEAD und HALIL 1991 für Großbritannien, BUSHATI 2010 für Albanien; KIM 1994 für Korea; GILL und GRATTON-LAVOIE 2011 und BUTTERS und WALSTAD 2011 für die USA. Zusätzlich zu dem TEL, der in den USA vorrangig an US-amerikanischen High Schools eingesetzt wird (SCHUHMANN/ MCGOLDRICK/ BURRUS 2005, 49), lässt sich für den amerikanischen Sprachraum insbesondere auch der Test of Understanding in College Economics (TUCE; WALSTAD/ REBECK 2008) nennen. Dieser fokussiert wiederum volkswirtschaftliche Inhalte der Mikro- und Makroökonomie auf Ebene der Colleges und hat somit (vermutlich) ein höheres Niveau als der für die High Schools konzipierte TEL. Im Gegensatz zum US-amerikanischen Bereich lassen sich im europäischen Raum nur vereinzelt Studien finden, die auf eine Erfassung des volkswirtschaftlichen Fachwissens abzielen, wie die Erhebung von RIGNEY (2002) in Irland zeigt.

Der WBT (BECK/ KRUMM/ DUBS 1998) besteht aus zwei parallelen Testversionen mit je 46 Aufgaben im Multiple Choice-Format. Über insgesamt 15 Ankeritems wird eine Vergleichbarkeit der beiden Testversionen sichergestellt. Aus der Betrachtung der Schwierigkeiten der Aufgaben sowohl der amerikanischen als auch der deutschen Version geht hervor, dass der Test zwischen Aufgaben mit einem hohen und niedrigen Anspruchsniveau differenziert (BECK 1993, 16). BECK, KRUMM und DUBS (2001) empfehlen primär den Einsatz des Tests für die betriebliche und schulische kaufmännische Ausbildung. Allerdings verweisen sie auf die Einsatzmöglichkeiten bei der hochschulischen Eingangs- und Erfolgsmessung für die wirtschaftswissenschaftlichen Studiengänge. Hierbei erfasst der WBT „ökonomisches Wissen und Denken“, das über die vier ökonomischen Subdomänen „Grundlagen der Volkswirtschaftslehre“, „Internationale Beziehungen“, „Mikroökonomie“ und „Makroökonomie“ gemessen wird. Um die diagnostische Eignung des WBTs für den Hochschulbereich zu beurteilen, wird nachfolgend auf die Ergebnisse aus dem Projekt ILLEV zurückgegriffen.

3 Design und Erhebungsinstrumente im Forschungsprojekt ILLEV

Zur Einschätzung der Validität des WBTs für den tertiären Bildungssektor ist es u.a. zur Beurteilung der Kriteriums- oder Konstruktvalidität relevant, welche weiteren Variablen oder soziodemografischen Angaben im Rahmen der empirischen Studie erhoben wurden. Im Projekt ILLEV wurden an einer Universität und an einer Fachhochschule vier Fragebogenerhebungen (WS 08/09; WS 09/10; WS 10/11; WS 11/12) durchgeführt, in denen Studierende der Wirtschaftswissenschaften und der Wirtschaftspädagogik einen ca. 75-minütigen Fragebogen bearbeitet haben. Die Erhebungen fanden jeweils unmittelbar zu Beginn (1. oder 2. Vorlesungswoche) des Wintersemesters im Rahmen von zentralen wirtschaftswissenschaftlichen Lehrveranstaltungen statt, um möglichst keine Verzerrungen zwischen den vier Erhebungszeitpunkten zu erzeugen. Die Stichprobengrößen liegen zwischen ca. 770 und ca. 1300 Probanden je Erhebungszeitpunkt.

Im Rahmen des gewählten Erhebungs- und Auswertungsdesigns können die Studierenden des auslaufenden Diplomstudienmodells parallel zu den Studierenden des neuen Bachelor- und Masterstudienmodells über einen Zeitraum von drei Jahren im Längsschnitt beobachtet werden. Folglich wird die Studie dem empfohlenen Kriterium der Prozessdiagnostik und der damit verbundenen längsschnittlichen Perspektive in hohem Maße gerecht.

Das zentrale Zielkonstrukt stellt das wirtschaftswissenschaftliche Fachwissen der Studierenden dar. Hierbei wird neben den Aufgaben aus dem WBT[2] (BECK/ KRUMM/ DUBS 1998) auch auf Items aus dem Business Administration Knowledge Test (BAKT) (BOTHE/ WILHELM/ BECK 2005) zurückgegriffen. Der BAKT zielt auf das betriebswirtschaftliche Fachwissen ab und umfasst insgesamt 286 Multiple Choice-Aufgaben, die sich neun betriebswirtschaftlichen Subdimensionen zuordnen lassen.[3]

Aufgrund des quasi-experimentellen Designs der Untersuchung sowie der theoretischen Modellierung (vgl. ZLATKIN-TROITSCHANSKAIA/ FÖRSTER/ HAPP 2012) ist eine Reihe personeller und struktureller Einflussfaktoren auf das wirtschaftswissenschaftliche Fachwissen der Studierenden zu kontrollieren. Daher umfasst der Fragebogen auch einen soziodemografischen Teil, in dem bspw. das Alter, das Geschlecht, die Art der Hochschulzugangsberechtigung, eine eventuell absolvierte Berufsausbildung u.v.m. erhoben wurden. In einem weiteren Fragebogenteil werden die Angaben zu den strukturellen Rahmenbedingungen der Studierenden wie bspw. dem besuchten Studiengang, der Zugehörigkeit zu einem bestimmten Studienmodell (Bachelor/ Master vs. Diplom), die Art und Zahl der besuchten Lehrveranstaltungen u.v.m. erfasst. Ebenso werden zusätzliche Kontrollvariablen wie die kognitiven Voraussetzungen der Studierenden erhoben. Dabei werden neben der Angabe der Note der Hochschulzugangsberechtigung auch zwei Skalen aus dem Intelligenzstrukturtest 2000 R (I-S-T) von LIEPMANN, BEAUDUCEL, BROCKE und AMTHAUER (2007) mit in die Befragung aufgenommen.[4] Aus diesem Überblick über die Erhebungsinstrumente im Rahmen des Projektes ILLEV wird deutlich, dass für die im Folgenden durchgeführte Einschätzung der Validität des WBTs eine Reihe von Variablen herangezogen werden können.

4 Beurteilung der Validität des WBTs

4.1 Validierungskriterien

Die Validität eines psychologischen Tests stellt ein äußerst umfassendes Konzept dar, für das nicht eine einzelne Kennzahl angeführt werden kann, sondern dem anhand unterschiedlicher Kriterien nachgegangen wird (KROHNE/ HOCK 2007, 65; VON CRANACH/ FRENZ 1969, 305). Aufgrund der enormen Bedeutung dieses Gütekriteriums für die Testkonstruktion und damit auch für die Pädagogische Diagnostik (HARTIG/ FREY/ JUDE 2007, FISSENI 2004, 63) hat die Sicherung der Testvalidität im Rahmen des Projektes ILLEV eine zentrale Stellung eingenommen. Im Folgenden werden (in Anlehnung an die in der Forschungsliteratur angeführten Konzepte zur Validität) zunächst die im Betrachtungsfokus stehenden Kriterien skizziert, um im anschließenden Kapitel 4.2. die Prüfung der Validität anhand einiger Beispiele aus der ILLEV-Studie darzustellen.

In der Regel werden drei Arten der Validität unterschieden (RAMMSTEDT 2010, 250), die sich systematisch an den drei zugrunde liegenden Paradigmen einer Validierung orientieren (FISSENI 2004, 63): [5]

1. Inhaltsvalidität: Ein Test kann als inhaltlich valide beurteilt werden, wenn der Inhalt der Testaufgaben das Zielmerkmal hinreichend genau abbildet (MICHEL/ CONRAD 1982, 57). Bereits aus dieser Definition der Inhaltsvalidität lässt sich die enorme Bedeutung dieses Kriteriums für die Bewertung der Validität eines Tests erschließen (MCDONALD 1999, 202). Bei der Bewertung der Inhaltsvalidität geht es u.a. um die Frage, ob der Test eine Auswahl an Items enthält, die verschiedene inhaltliche Bereiche in diesem Gebiet auch angemessen vertreten (GAGE/ BERLINER 1996). Folgerichtig stellt es bei der Einschätzung der Inhaltsvalidität im Rahmen des Projektes ILLEV eine Frage dar, ob die Testitems des WBTs für das Spektrum des volkswirtschaftlichen Fachwissens repräsentativ sind. Zudem ist gerade im Kontext der pädagogischen Diagnostik die Frage entscheidend, ob die Testinhalte auch die „Lehrinhalte“ ausreichend abbilden. Insbesondere bei einer kriteriumsorientierten Interpretation von Testergebnissen im pädagogischen Kontext stellt die Sicherstellung der Inhaltsvalidität eine wesentliche Voraussetzung bspw. zur Bewertung der Einhaltung von Lehrzielen dar (KROHNE/ HOCK 2007, 67). Ein besonderer Fokus der Untersuchung in ILLEV wird auf die curriculare Validität gelegt (s. Kapitel 4.2).

Allerdings zeigt sich, dass für die Sicherung der inhaltlichen Validität gerade im tertiären Bildungssektor spezielle Herausforderungen bestehen. Ein nicht vorhandenes Kerncurriculum bspw. für den volkswirtschaftlichen Bereich führt dazu, dass die Bestimmung der relevanten Inhalte nur bedingt möglich ist. Da in die Stichprobe sowohl Studierende einer Universität als auch Studierende einer Fachhochschule eingeflossen sind, wirken sich auch die bestehende Heterogenität zwischen diesen beiden Institutionen als einschränkend für die Sicherung der Inhaltsvalidität aus.

2. Kriteriumsvalidität: Während bei der Inhaltsvalidität meist auf testinterne Informationen zur Einschätzung der Validität zurückgegriffen wird, fokussiert die Kriteriumsvalidität testexterne Kriterien (KROHNE/ HOCK 2007, 68). Es wird folglich der Grad der Übereinstimmung der Testleitung mit Sachverhalten untersucht, die aufgrund theoretischer Überlegungen mit den Testergebnissen korrelieren sollten. Je nach Zeitpunkt, wann diese Kriterien erhoben wurden, lassen sich die retrograde, konkurrente und die prognostische Kriteriumsvalidität voneinander unterscheiden (RAMMSTEDT 2010, 252). So können z.B. bei der konkurrenten Validität (Übereinstimmungsvalidität) neben der Testleistung parallel weitere Indikatoren für den Studienerfolg wie die Klausurnoten aus dem laufenden Semester erhoben werden. Gerade im pädagogischen Kontext erweist sich die Vorhersagevalidität (prognostische Validität) als zentrales Validierungskriterium eines Tests. Hier kann es z.B. das Ziel sein, den Schul-, Studien- oder Berufserfolg vor dem Eintritt in das jeweilige System mittels eines entsprechenden Eingangstests vorherzusagen.

Eine besondere Herausforderung, die sich für den Hochschulbereich für die Bestimmung der prognostischen Validität zeigt, ist die Problematik der Durchführung von Panelstudien. Um die prognostische Validität des Tests festzustellen, sollten das Zielkonstrukt zu Beginn des Studiums und die Note bspw. nach Beendigung des Bachelorstudiums erfasst werden. Allerdings stellt insbesondere die hohe Panelmortalität im Hochschulbereich (vgl. hierzu u.a. HEUBLEIN/ SCHMELZER/ SOMMER 2008, 4; ZLATKIN-TROITSCHANSKAIA/ KUHN, 2010, 15) eine Einschränkung für die Durchführung von Panelstudien und damit auch der prognostischen Validität dar.

3. Konstruktvalidität: Bei der Konstruktvalidierung wird der Frage nachgegangen, inwieweit das Erhebungsinstrument das zu erfassende Merkmal (Konstrukt) misst (RAMMSTEDT 2010). Ein Test kann folglich als in höchstem Maße konstruktvalide angesehen werden, wenn er das zu erfassende (latente) Konstrukt gut reflektiert (CRONBACH/ MEEHL 1955). Von zentraler Bedeutung bei der Einschätzung der Konstruktvalidität erweisen sich die konvergente und die diskriminante Validität. Nach den Überlegungen von CAMPBELL und FISKE (1959) zeigen die Indikatoren eines Konstruktes eine hohe konvergente Validität, wenn sie eine hohe Korrelation mit ähnlichen Konstrukten zeigen. Darüber hinaus spricht man von einer hohen diskriminanten Validität, wenn nur niedrige Korrelationen mit anderen (unähnlichen) Konstrukten vorliegen. Im Rahmen der Konstruktvalidierung zählen Faktorenanalysen zu häufig eingesetzten Verfahren, bei denen der Dimensionalität des betrachteten Konstruktes anhand der Ergebnisse aus den eingesetzten Tests nachgegangen wird. Als eine Voraussetzung hierfür ist das Vorliegen von theoretischen Annahmen über die dimensionale Struktur des zu erfassenden Konstrukts zu nennen.

4.2 Zentrale Ergebnisse zur Inhalts-, Kriteriums- und Konstruktvalidität

Im Folgenden wird untersucht, in wie weit der WBT für die Erfassung volkswirtschaftlichen Fachwissens an der eingesetzten Universität valide das zu Grunde liegende Konstrukt misst. Im ersten Analyseschritt soll das Konstrukt des volkswirtschaftlichen Fachwissens umrissen werden, um prüfen zu können, in wie weit der WBT in der Lage ist, dieses Konstrukt auf Hochschulniveau inhaltsvalide zu erfassen. Dazu werden die Inhalte des Tests mit den Curricula der betreffenden Hochschule abgeglichen und weitere Analysen der Items durchgeführt. Im Anschluss daran werden die Kriteriums- und die Konstruktvalidität näher untersucht. Hier werden zunächst die theoriegeleiteten Hypothesen zum Konstrukt des ökonomischen Fachwissens aufgestellt, die dann anhand der Daten aus ILLEV empirisch überprüft werden.

Da sich ILLEV in erster Linie auf den Vergleich der neuen Bachelor- mit den Diplom-Studierenden konzentriert (ZLATKIN-TROITSCHANSKAIA/ FÖRSTER/ HAPP 2012), soll hierzu in erster Linie das volkswirtschaftliche Wissen von Studierenden bis zu ihrem maximal sechsten Semester valide gemessen werden, da dies die Regelstudienzeit des Bachelorstudiums und des Diplom-Grundstudiums im Bereich der Wirtschaftswissenschaften darstellt. Dabei wird das ökonomische Fachwissen in akkumulierter Weise erfasst, indem sowohl das Vorwissen der Studierenden wie auch der Zuwachs des Wissens über den Studienverlauf gemessen werden (HAPP 2013). An der befragten Universität gibt es im Bereich der Grundlagen der Ökonomie eine Einführungsvorlesung in die VWL, eine Makro- und eine Mikroökonomievorlesung. Ein Test muss somit grundsätzliche Ideen und Konzepte der VWL abdecken, die auch in solchen Lehrveranstaltungen an den deutschen Hochschulen im Bachelorstudium bzw. bis zur Erlangung des Vordiploms im Diplomstudiengang vermittelt werden. Zusammengefasst stellen sich für die Erfassung des hier beschriebenen ökonomischen Fachwissens folgende Herausforderungen für die Inhaltsvalidität:

1) Der Test muss grundsätzliche Inhalte der Curricula volkswirtschaftlicher Vorlesungen an der befragten Universität umfassen.

2) Der Test muss in der Lage sein, Unterschiede zwischen Studierenden verschiedener Semester darzustellen.

Auf Basis einer Dokumentenanalyse der Modulbeschreibungen und der Vorlesungsskripte der an der Universität gelehrten Veranstaltungen wurde zunächst betrachtet, ob die verschiedenen Konzepte des WBTs[6] an der Universität vermittelt werden. Es zeigt sich, dass die grundlegenden Konzepte im Bereich der Einführung in die VWL, der Mikro- und Makroökonomie in mindestens einer Vorlesung der drei verpflichteten Grundstudiumsvorlesungen der Diplomstudierenden bzw. VWL-Vorlesungen der Bachelorstudierenden behandelt werden. Hierbei wird deutlich, dass bereits in der Grundlagenveranstaltung Inhalte gelehrt werden, die im Test den Bereichen Mikro- und Makroökonomie zugeordnet sind. Die Konzepte der Mikro- und Makroökonomie überschneiden sich hingegen nicht, so dass die Testinhalte für diese beiden Bereiche von der jeweiligen Vorlesung abgedeckt werden. Anders verhält es sich im Bereich der internationalen Beziehungen, dessen Inhalte nicht eindeutig und explizit in den Curricula zu finden sind. Es lässt sich festhalten, dass die grundlegenden volkswirtschaftlichen Konzepte dreier Inhaltsbereiche des WBTs an der untersuchten Universität gelehrt werden.

Allerdings gibt diese Feststellung noch keinen Hinweis darauf, ob die Fragen zu den Konzepten auch vom Anspruchsniveau für die Studierenden geeignet sind. Im Falle zu leichter Items würden die Inhalte zwar im universitären Studium gelehrt, jedoch würden die Fragen nicht ausreichend das universitäre Wissen, sondern ein darunter liegendes Wissensniveau, erfassen. In diesem Fall wäre der Test nicht in der Lage zwischen Studierenden in verschiedenen Studienjahren zu differenzieren und die Lösungswahrscheinlichkeiten für die einzelnen Items blieben unverändert. Diese Fragen der Inhaltsvalidität werden im Folgenden beispielhaft an Hand der Daten der dritten Erhebung verdeutlicht.

Festgehalten werden kann, dass die Lösungshäufigkeiten für alle Aufgaben mit steigender Studiendauer bis zum dritten Studienjahr steigen. Dieser Befund unterstreicht die Annahme, dass im Studium relevantes Testwissen gelehrt wird. Allerdings zeigen sich hier deutliche Unterschiede in den Aufgaben. Betrachtet man den Gesamtscore der richtig gelösten WBT-Aufgaben über die insgesamt 19 eingesetzten Aufgaben, so liegt der Durchschnitt der richtigen Antworten von Studienanfänger (1. Studienjahr) bei 10,53 Aufgaben, der Studierenden im zweiten Studienjahr bei 11,94 Aufgaben und der Probanden im dritten Studienjahr bei 12,67 Aufgaben. Man kann also ein stetiges Wachstum mit steigender Fachsemesterzahl in der dritten Erhebung feststellen, wobei gleichzeitig noch keine Deckeneffekte des Tests erkennbar sind. Dieser Befund wird auch durch die durchschnittliche Lösungshäufigkeiten zu t3 gestützt, welche im Bereich der Grundlagen der VWL bei ca. 0,73, im Bereich der Mikroökonomie bei 0,69 und im Bereich der Makroökonomie bei 0,60 liegt. Nur fünf der 19 Items weisen eine Lösungshäufigkeit größer 0,8 auf und könnten so als sehr leichte Items identifiziert werden.

Im nächsten Schritt wird die Konstruktvalidität des WBTs genauer untersucht. Dazu wird die Diskriminanz- und die Konvergenzvalidität fokussiert. Zur Prüfung dieser Validitätskonzepte werden weitere Konstrukte herangezogen, die je nach theoretischer Vorüberlegung entweder stark oder nur gering mit dem ökonomischen Fachwissen korrelieren sollten. Um dies zu prüfen, werden im Folgenden fünf Hypothesen über das Konstrukt des volkswirtschaftlichen Fachwissens aufgestellt:

1) Das ökonomische Fachwissen nimmt mit dem Besuch der VWL-Vorlesungen zu.

Sollte ein Test also in der Lage sein, dass ökonomische Fachwissen valide zu erfassen, so müssten auch die Testscores signifikant positiv mit dem Besuch der Veranstaltungen zusammenhängen. Diese These hat auch einen starken Bezug zu der bereits betrachteten Inhaltsvalidität.

2) Das ökonomische Fachwissen korreliert nur mäßig mit den erhobenen Intelligenzdimensionen.

Es ist in der Forschung unumstritten, dass Intelligenz ein wichtiger Prädiktor für Studienleistungen und den Wissenserwerb im Studium darstellt. Allerdings unterscheidet sich der hier gewählte Fachtest deutlich von der allgemeinen Intelligenz. Gerade die Domänenspezifität des Tests sollte dafür verantwortlich sein, dass der Zusammenhang nur gering bis mäßig ausfällt.

3) Das ökonomische Fachwissen korreliert nur mäßig mit dem erhobenen betriebswirtschaftlichen Fachwissen.  

Die Eigenständigkeit von Betriebswirtschafts- und Volkswirtschaftslehre sollte sich auch in dem Zusammenhang der beiden Testscores darstellen lassen. Während die Betriebswirtschaftslehre die Zusammenhänge im einzelnen Unternehmen und zwischen dem Unternehmen und dem Markt fokussiert, betrachtet die Volkswirtschaftslehre die Zusammenhänge aus einer agglomerierten Perspektive, die sich nicht auf das einzelne Unternehmen, sondern vielmehr auf die Zusammenhänge des Handelns aller wirtschaftlicher Akteure richtet. Diese unterschiedlichen Sichtweisen verlangen unterschiedliche Kenntnisse und Denkprozesse, so dass auch die beiden Testscores nicht stark korrelieren sollten. Von einer gänzlichen Unabhängigkeit der Konstrukte kann jedoch nicht ausgegangen werden, da beiden Konstrukten z.T. gemeinsame Konzepte und Begriffe zu Grunde liegen. Weiterhin bauen beide Konstrukte auf einem grundsätzlichen Verständnis der Wirtschaftssysteme auf, so dass ein geringer bis mittlerer Zusammenhang zu erwarten ist.

4) Das ökonomische Fachwissen ist unabhängig vom Geschlecht und weitgehend unabhängig von der Muttersprache.   

Des Weiteren wird angenommen, dass es keinen Unterschied zwischen männlichen und weiblichen Studierenden beim ökonomischen Fachwissen gibt. Insbesondere bei diesen Studierenden, die sich bewusst für diesen Studiengang entschieden haben, sollte bei der Kontrolle anderer wichtiger Einflussfaktoren kein signifikanter Unterschied in den Testscores zu finden sein. Aus theoretischer Sicht sollte das Fachwissen auch weitestgehend unabhängig von den sprachlichen Fähigkeiten und von der Muttersprache sein. Da der Test allerdings in Deutsch vorliegt, wäre es möglich, dass sich die Muttersprache auf das Testergebnis auswirkt.

5) Eine absolvierte Berufsausbildung hat einen positiven Einfluss auf das ökonomische Fachwissen, welcher allerdings im Laufe des Studiums abnimmt.       

Unbestritten ist, dass bereits im Laufe einer kaufmännischen Berufsausbildung das ökonomische Fachwissen nachweislich gefördert wird (BECK 1993). Viele dieser Inhalte werden dann gerade zu Beginn des Hochschulstudiums ebenfalls gelehrt. Deshalb ist zu erwarten, dass bei Studienanfängern eine absolvierte Berufsausbildung sich positiv auf den Testscore auswirkt. Dieser positive Effekt der Berufsausbildung sollte sich allerdings im Laufe des Studiums abschwächen, da die Studierenden ohne Berufsausbildung diese Lücke durch das Studium schließen.

Im Folgenden werden die Hypothesen an Hand der Daten des dritten Erhebungszeitpunktes empirisch geprüft. Dazu wird zunächst eine lineare Regression berechnet, die den Zusammenhang verschiedener Faktoren mit dem WBT-Score unter Kontrolle anderer Variablen bestimmt (s. Tab 1).

Tabelle 1:        Lineare Regression auf den Summenscore des WBTs (Betakoeffizient und Signifikanzniveau)

 

Modell
R² = 0,257
korr. R² = 0,253

Nicht standardisierte Koeffizienten

T

Sig.

Regressions-koeffiz. B

Standard-fehler

(Konstante)

5,735

,590

9,719

,000

Geschlecht Weiblich

-,865

,176

-4,918

,000

Keine deutsche Muttersprache

-,703

,254

-2,770

,006

Absolvierte Berufsausbildung

,520

,201

2,580

,011

Analogienscore

,292

,036

8,209

,000

Zahlenreihenscore

,081

,023

3,562

,001

Anzahl besuchter VWL-Veranstaltungen

,673

,070

9,571

,000

 

In Bezug auf Hypothese 1 lässt sich zeigen, dass mit einer höheren Anzahl an besuchten Vorlesungen aus dem Bereich der VWL der WBT-Score signifikant zunimmt. Pro besuchte VWL-Veranstaltung steigt der Score durchschnittlich um 0,673 Punkte.[7] Dieses Ergebnis stützt die Annahme, dass in den Grundlagenveranstaltungen testrelevantes Wissen vermittelt wird und stärkt somit zunächst die Annahme, dass der WBT curricular valide und konstruktvalide ist.

Zur Prüfung der Hypothesen 2 und 3 wird die Beziehung des WBTs mit anderen Testscores kritisch betrachtet (s. Tab 2). In der mittleren Spalte werden die bivariaten Korrelationen auf Basis des Pearson-Koeffizienten dargestellt. In der rechten Spalte findet man die partiellen Korrelationen zwischen den verschiedenen Scores, wenn man die anderen Konstrukte kontrolliert.

Tabelle 2:        Bivariate und partielle Korrelation zwischen WBT und weiteren Testscores

 

Bivariate Korrelation mit WBT

Partielle Korrelation mit WBT

Analogien

0,340

0,299

Zahlenreihen

0,200

0,128

BAKT

0,340

0,269

 

Es zeigt sich, dass die einzelnen Scores erwartungsgemäß nur gering bis mäßig korrelieren. Die Korrelation von 0,34 zwischen dem Analogien- und dem WBT-Score impliziert, dass ca. 11,5% der Streuung des WBT-Testscores durch das Abschneiden bei den Analogienaufgaben erklärt werden kann. Somit bestätigt sich Hypothese 2, dass Intelligenz keineswegs unabhängig von dem aufgebauten ökonomischen Fachwissen ist, wobei sie jedoch nur einen geringen Teil der Varianz des WBT-Scores erklären kann. Noch deutlicher fällt der Zusammenhang des WBT-Scores mit der Skala der Zahlenreihen aus. Die Zahlenreihen als Indikator für die numerische Intelligenz korrelieren nur mit 0,2 bzw. 0,128 (partiell) mit dem Testwert des WBTs. Die Ergebnisse der Korrelation werden auch durch die durchgeführte Regression gestützt, in der der Zusammenhang zwischen den Zahlenreihen- und dem WBT-Score ebenfalls deutlich geringer ausfällt als zwischen dem WBT und den Analogien (vgl. Tab. 1). Auf Basis dieser Ergebnisse kann festgehalten werden, dass Intelligenz zwar ein Prädiktor zum Aufbau des fachspezifischen Wissens darstellt, jedoch der WBT deutlich mehr erfasst und sich so deutlich von der Intelligenz abhebt, was seine Diskriminanzvalidität stützt.

Zu Hypothese 3 lässt sich konstatieren, dass WBT und BAKT erwartungsgemäß nur mäßig miteinander korrelieren (r = 0,340; partiell: r = 0,269). Somit sind das erhobene betriebswirtschaftliche und volkswirtschaftliche Fachwissen zwar erwartungskonform nicht unabhängig voneinander zu betrachten. Dennoch kann angenommen werden, dass sie sich inhaltlich deutlich voneinander abgrenzen.

Hypothese 4 kann nicht bestätigt werden, denn auch wenn andere relevante Einflussgrößen kontrolliert werden, zeigen das Geschlecht und die Muttersprache einen deutlichen Effekt auf den WBT-Score. Dieser Effekt ist insbesondere beim Geschlecht nicht erwartungskonform. I.d.R. können männliche Probanden knapp eine Frage mehr richtig beantworten als ihre weiblichen Kommilitonen. Diese Ergebnisse stützen die Befunde der ersten Befragungen, wo der gleiche Effekt auch bereits im Zuge von latenten MIMIC-Modellen nachgewiesen werden konnte (vgl. FÖRSTER/ ZLATKIN-TROITSCHANSKAIA 2010). Folglich ist anzunehmen, dass der WBT weibliche Probanden diskriminiert, was seine Konstruktvalidität einschränkt. Ob es sich bei diesem Effekt um einen bei Multiple-Choice-Tests häufiger anzutreffenden Effekt handelt, muss weiter untersucht werden. Aus der Literatur lassen sich verschiedene Belege anführen, wonach Frauen oft in diesen Testformen schlechter abschneiden (vgl. z. B. SPIEL/ SCHOBER/ LITZENBERGER 2008). Im Zuge der ILLEV-Befragung kann zunächst festgehalten werden, dass weibliche Probanden ab der 9. WBT-Frage mehr unbeantwortete Fragen aufweisen als ihre männlichen Pendants. Es stellt sich folglich die Frage, ob diese Befunde auf das Nicht-Wissen der Probandinnen, eine geringere Bearbeitungsgeschwindigkeit oder auf eine geringere Ratebereitschaft als Indikator für ein unterschiedliches Risikoverhalten zwischen den Geschlechtern zurückzuführen sind.

Das schlechtere Abschneiden der Studierenden mit einer anderen Muttersprache als Deutsch hat sich auch bereits in den vorherigen Erhebungszeitpunkten gezeigt (vgl. FÖRSTER/ ZLATKIN-TROITSCHANSKAIA 2010). Da es sich beim WBT um einen deutschsprachigen Test handelt, kann man davon ausgehen, dass Spracheffekte die Ergebnisse des WBTs konfundieren. In diesem Fall erfasst der WBT neben volkswirtschaftlichem Fachwissen auch Fähigkeiten in der deutschen Sprache. Diese Konfundierung sollte bei Studierenden mit Muttersprache deutsch auf Hochschulniveau nur sehr gering sein, könnte aber gerade z.B. bei Erasmus Studierenden deutlich die Validität des Tests einschränken. Dies kann jedoch als ein generelles Problem von ausformulierten Tests mit Textaufgaben gesehen werden und nicht als spezifisches Defizit des WBTs. Weiterhin können diese Effekte auch auf Defizite in der Chancengerechtigkeit im tertiären Bildungssektor hinweisen, die es nach den Grundgedanken des Bologna-Prozesses zu mindern gilt (vgl. ZLATKIN-TROITSCHANSKAIA/ FÖRSTER/ HAPP 2012).

Auch eine absolvierte Berufsausbildung (vgl. Hypothese 5) hat einen positiven Effekt auf die erreichten Punkte im WBT. Dies ist erwartungskonform, da der WBT bereits ausführlich für die berufliche Ausbildung validiert wurde (BECK/ KRUMM/ DUBS 1998). Probanden mit Berufsausbildung lösen im Mittel eine halbe Aufgabe mehr als ihre Kommilitonen ohne Ausbildung. Um zu beurteilen, ob dieser Effekt im Zuge des Studiums nachlässt, wurden mehrere Mittelwertvergleiche zwischen Studierenden in verschiedenen Studienjahren durchgeführt (vgl. Tab. 3).

Tabelle 3:        Mittelwertunterschiede zwischen Studierenden verschiedener Studienjahre in Abhängigkeit einer absolvierten Berufsausbildung

Studienjahr

1.

2.

3.

4.

Mittelwert WBT mit Ausbildung

11,19

12,12

12,96

13,20

Mittelwert WBT ohne Ausbildung

10,33

11,84

12,62

13,19

Differenz

0,855

0,279

0,340

0,011

Signifikanz

0,014

0,511

0,494

0,987

Aus der Tabelle wird ersichtlich, dass bei bloßer Betrachtung der Mittelwerte der Ausbildungseffekt im Laufe der Zeit abnimmt, was durch die geringer werdenden Differenzen zwischen den Testscores der beiden Gruppen deutlich wird. Die einzige Ausnahme bildet die Differenz der Mittelwerte der Studierenden im dritten Studienjahr, die geringfügig höher ist als im zweiten Studienjahr. Im vierten Studienjahr findet man auch nahezu keinen Unterschied zwischen den beiden Studierendengruppen. Es ist anzunehmen, dass der Effekt der Berufsausbildung zu diesem Zeitpunkt durch die universitären Lerngelegenheiten vollständig ausgeglichen wird. Im Rahmen des t-Tests erweist sich ebenfalls nur der Unterschied im WBT-Score zwischen Studierenden mit und ohne Berufsausbildung im ersten Studienjahr als signifikant. Folglich kann unterstellt werden, dass der WBT zwischen Studierenden mit ökonomischer Vorbildung und solchen ohne eine bereits absolvierte Berufsausbildung ausreichend diskriminiert. Der Effekt der Berufsausbildung wird im Laufe des Studiums ausgeglichen, was wiederum als ein Indikator für die Inhalts- und Konstruktvalidität gedeutet werden kann.

5 Fazit und Ausblick

Das Vorliegen geeigneter Messinstrumente stellt eine Voraussetzung für die pädagogische Diagnostik dar. Allerdings lässt sich gerade für den Hochschulbereich für verschiedene Fachdomänen ein erheblicher Mangel an derartigen Instrumenten konstatieren (ZLATKIN-TROITSCHANSKAIA/ KUHN 2010). Dieses Forschungsdefizit führt zu einer Einschränkung der pädagogischen Diagnostik für den tertiären Bildungssektor. So kann über die Erfassung der Lernleistungen von Studierenden ein Rückschluss darauf gezogen werden, welche Studierenden bspw. besonders benachteiligt sind und so i. S. einer pädagogischen Förderdiagnostik individueller Unterstützung bedürfen. Darüber hinaus kann es auch als Grundlage für die Einschätzung und Förderung der Lehrkompetenzen von Hochschuldozenten dienen. Vor dem Hintergrund dieser Zielsetzungen sollte die Bereitstellung geeigneter Messverfahren auch für den Hochschulbereich weiter vorangetrieben werden (ZLATKIN-TROITSCHANSKAIA et al. 2012).

Im diesem Beitrag wurde die Eignung des Wirtschaftskundlichen Bildungstests (WBT; BECK/ KRUMM/ DUBS 1998) für die valide Erfassung des volkswirtschaftlichen Fachwissens im Hochschulbereich untersucht. Zusammengefasst lässt sich festhalten, dass die (curricularbezogene) Inhaltsvalidität des WBTs weitestgehend gegeben ist. Der Test ist für die untersuchte Universität curricular valide, denn die gewählten Aufgaben und Teilbereiche des WBTs finden sich in den Vorlesungen und Modulbeschreibungen bis auf eine Domäne, die aus diesem Grund nicht in die Befragung aufgenommen wurde, wieder. Zwar ist das Curriculum der Universität sicherlich umfassender als die inhaltliche Abdeckung des WBTs, doch kann der Test als ein erster Indikator für das ökonomische Fachwissen dienen. Die curriculare Passung wird auch weitestgehend von den Lösungshäufigkeiten der Items bestätigt. Es zeigt sich, dass die Studierenden bis zum dritten Studienjahr mit steigender Studiendauer jedes Item mit einer höheren Wahrscheinlichkeit lösen. Signifikante Effekte haben auch die Anzahl der besuchten Vorlesungen auf den WBT-Score, wobei jede besuchte Veranstaltung den Score erhöht. Allerdings gibt es auch einige Items im Test, deren Beantwortungshäufigkeit durch das Universitätsstudium kaum erhöht wird. Auch die Effekte der universitären Lehrveranstaltungen könnten noch deutlicher ausfallen, da nach jeder Vorlesung ein höherer Wissenserwerb zu erwarten wäre.

Weiterhin deuten die Ergebnisse darauf hin, dass auch die Diskriminanzvalidität größtenteils gegeben ist. So korreliert der WBT nur gering bis mäßig mit dem BAKT und den eingesetzten Intelligenzdimensionen. Somit weist der Test eine diskriminante Validität zu den im ILLEV ebenfalls erfassten Konstrukten auf. Er bildet somit - wie theoretisch postuliert - ein eigenständiges Konstrukt ab, was der Domänenspezifität des volkswirtschaftlichen Fachwissens gerecht wird. Zudem kann der Test zwischen fortgeschrittenen Studierenden und Studienanfänger diskriminieren, was sowohl in dem Gesamtscore wie auch in den absoluten Lösungshäufigkeiten der einzelnen Items deutlich wird. Allerdings sind die Zuwachseffekte pro Studienjahr und besuchter Vorlesung relativ gering, was auf eine nicht perfekte Passung des Tests hinsichtlich des  untersuchten Studiums hinweist.[8]

Der positive Zusammenhang zwischen ökonomischem Fachwissen und absolvierter Berufsausbildung lässt darauf schließen, dass der Test konstruktvalide misst, da auch in der kaufmännischen Berufsausbildung volkswirtschaftliche Inhalte, die ebenfalls im Studium ein Teil des Lehrplans sind, vermittelt werden. Der Vorteil einer absolvierten Berufsausbildung wird im Laufe des Studiums durch universitäre Lerngelegenheiten ausgeglichen, was ebenfalls erwartungskonform ist und als konstruktvalide interpretiert werden kann. Als problematisch ist der starke Zusammenhang zwischen dem WBT-Ergebnis und dem Geschlecht einstufen, denn dieser ist erwartungswidrig und schränkt die Konstruktvalidität deutlich ein.

Zusammenfassend kann der WBT als ein valides Instrument zur Beurteilung des ökonomischen Fachwissens bezeichnet werden. Zwar wurde er nicht primär für die Gruppe der Hochschulstudierenden entwickelt, dennoch ist er in der Lage, Unterschiede zwischen Studienanfängern und -fortgeschrittenen aufzuzeigen. Mangels anderer Alternativen ist der WBT auch für Fragestellungen im Hochschulbereich zu empfehlen, wobei es wünschenswert wäre, dass seine Sensitivität für Veränderungen im Studium stärker ausfallen.

Im weiteren Projektverlauf erweisen sich andere Aspekte zur Einschätzung der Validität des WBTs als zentral. Zum einen wird mit dem TUCE, der im Rahmen des Folgeprojektes WiwiKom[9] (vgl. hierzu ZLATKIN-TROITSCHANSKAIA et al. 2011) ein weiterer Test zur Erfassung der volkswirtschaftlichen Fachkompetenz ins Deutsche adaptiert. Aufbauend hierauf soll der Vergleich zwischen den Testleistungen im WBT und im TUCE zur Bewertung der Konvergenzvalidität (s. Kapitel 4.2) beitragen. Wie bereits oben dargestellt, wird der TUCE, der für College-Studierende an Stelle von High School Studierenden konzipiert wurde, von den Testentwicklern schwieriger eingeschätzt als der WBT. Damit steht speziell durch den Einbezug der Aufgaben aus dem TUCE ein Vergleich des WBT mit ähnlichen Konstrukten zur Verfügung.

Die im Kapitel 4 dargestellten Ergebnisse beziehen sich auf die vorliegenden Daten des dritten Erhebungszeitpunktes des Projektes ILLEV. Mit Einbezug der vierten Erhebung (vgl. Kapitel 3) wird es im weiteren Analyseverlauf möglich, Studierende, die im WS 08/09 das Bachelorstudium begonnen haben, bis zum Eintritt in das Masterstudium zu erfassen. Hierbei wurden im Rahmen des Fragebogens auch die Abschlussnote des Bachelorstudienganges (für die Studierenden des neuen Studienmodells) und die Abschlussnote des Vordiploms (für die Studierenden des auslaufenden Diplomstudienmodells) erhoben. Durch die Generierung eines individuellen Codes zu jedem Erhebungszeitpunkt ist eine Reidentifizierung der wiedererfassten Studierenden möglich. Folglich wird es mit den Ergebnissen aus der vierten Erhebungsrunde möglich sein, die prognostische Validität des WBTs für den Erfolg im Studium zu betrachten. Dieser Frage wurde bereits im Rahmen der Studie von BECK und WUTTKE (2004) nachgegangen, denn die prognostische Validität eines Tests zur Vorhersage des Studienerfolgs von Studierenden stellt gerade aus Sicht der pädagogischen Diagnostik eine entscheidende Anforderung an die Validität eines Messinstruments dar.

Die obigen Analysen zur Einschätzung der Validität des WBTs umfassen bislang nicht die speziellen Anforderungen, die zur Bewertung einer validen und zuverlässigen Messung im Rahmen der Veränderungsmessung zu beachten sind. Dieser Validierung wird im weiteren Projektverlauf durch den Einbezug der längsschnittlichen Daten aus den vier Erhebungszeitpunkten nachgegangen (HAPP 2013). So ist unter dem Validitätsaspekt im Zuge der Veränderungsmessung der Frage nachzugehen, ob die Instrumente überhaupt zu einer Beurteilung von Veränderungen geeignet sind. Hier sprechen COOK und CAMPBELL (1979) aber auch KLAUER (2009, 530) unterschiedliche Gefährdungen der Validität in empirischen Untersuchungen an, die u.a. die interne und externe Validität bzw. auch die Konstruktvalidität betreffen. Die Frage, ob der WBT auch eine valide Aussage zur Veränderung des volkswirtschaftlichen Fachwissens im Verlauf des Studiums zulässt, wird auf Basis dieser Daten nachgegangen. 

Literatur

BECK, K. (1993): Dimensionen der ökonomischen Bildung. Messinstrumente und Befunde. Abschlußbericht zum DFG-Projekt: Wirtschaftskundliche Bildungs-Test (WBT). Normierung und internationaler Vergleich. Universität Erlangen-Nürnberg.

BECK, K./ KRUMM, V./ DUBS, R. (1998): Wirtschaftskundlicher Bildungs-Test (WBT). Göttingen u.a.

BECK, K./ KRUMM, V./ DUBS, R. (2001): WBT - Wirtschaftskundlicher Bildungstest. In: SARGES, W./ WOTTAWA, H. (Hrsg.): Handbuch wirtschaftspsychologischer Testverfahren. Lengerich, 559–562.

BECK, K./ WUTTKE, E. (2004): Eingangsbedingungen von Studienanfängern – Die prognostische Validität wirtschaftskundlichen Wissens für das Vordiplom bei Studierenden der Wirtschaftswissenschaften. In: Zeitschrift für Berufs- und Wirtschaftspädagogik, 100, H. 1, 116-124.

BOTHE, T./ WILHELM, O./ BECK, K. (2005): Business administration knowledge: Assessment of declarative business administration knowledge: Measurement development and validation. Unveröffentlichtes Manuskript.

BRANDLMAIER, E./ FRANK-HERMANN, P./ KORUNKA, C./ PLESSING, A./ SCHOPF, C./ TAMEGGER, K. (2006): Ökonomische Bildung von Schüler/innen Allgemeinbildender Höherer Schulen. Modellentwicklung, Entwicklung eines Messinstruments, ausgewählte Ergebnisse. Wien.

BUTTERS, R./ WALSTAD, W. (2011): Computer versus Paper Testing in Precollege Economics. The Journal of Economic Education, 42, Vol. 4, 366-374.

CAMPBELL, D./ FISKE, D. (1959): Convergent and Discriminant Validation by the Multitrait Multimethod Matrix. In: Psychological Bulletin, 56; Vol. 2, 81-105.

CEYLAN, F./ FIEHN, J./ PAETZ, N-J./ SCHWORM, S./ HARTEIS, C. (2011): Die Auswirkungen des Bologna-Prozesses – Eine Expertise der Hochschuldidaktik. In: NICKEL, S. (Hrsg.): Der Bologna-Prozess aus Sicht der Hochschulforschung: Analysen und Impulse für die Praxis. Gütersloh, 106-122.

COOK, T.D./ CAMPBELL, D.T. (1979): Quasi-experimentation. Design & analysis issues for field settings. Chicago.

CRONBACH, L.J. (1971): Test validation. In THORNDIKE; R.L. (Ed.): Educational Measurement (2nd Ed.). Washington, D. C., 443-507.

CRONBACH, L.J./ MEEHL, P.E. (1955): Construct validity in psychological tests. Psychological Bulletin, 52, 281-302.

EBERWEIN, H./ KNAUER, S. (Hrsg.): (1998): Handbuch Lernprozesse verstehen. Wege einer neuen (sonder-)pädagogischen Diagnostik. Weinheim und Basel.

FISSENI, H.-J. (2004): Lehrbuch der psychologischen Diagnostik. Mit Hinweisen zur Intervention (3.Aufl.). Göttingen.

FÖRSTER, M. / ZLATKIN-TROITSCHANSKAIA, O. (2010): Wirtschaftliche Fachkompetenz bei Studierenden mit und ohne Lehramtsperspektive in den Diplom- und Bachelorstudiengängen – Messverfahren und erste Befunde. In: BECK, K. / ZLATKIN-TROITSCHANSKAIA, O. (Hrsg.): Lehrerprofessionalität – Was wir wissen und was wir wissen müssen (Lehrerbildung auf dem Prüfstand, Sonderheft) Landau, 106-125.

FREUNDLINGER, A. (1992): Wirtschaftskenntnisse von Maturanten. Wien: Schriftenreihe des Instituts für Bildungsforschung und Wirtschaft, Band 88.

GAGE, N.L./ BERLINER, D.C. (1996): Pädagogische Psychologie. Weinheim.

GILL, A./ GRATTON-LAVOIE, C. (2011): Retention of Higher Economics Knowledge and the Effect of the California State Mandate. The Journal of Economic Education, 42, Vol. 4, 319-337.

HAPP, R. (2013): Die Entwicklung des wirtschaftswissenschaftlichen Fachwissens bei Studierenden der Wirtschaftspädagogik und der Wirtschaftswissenschaften im Verlauf des Studiums – Eine Längsschnittstudie im Rahmen des Projektes ILLEV. (in Vorbereitung).

HARTIG, J./ FREY, A./ JUDE, N. (2007): Validität. In MOOSBRUGGER H./ KELAVA, A. (Hrsg.): Test- und Fragebogenkonstruktion. Berlin, 135-163.

HEUBLEIN, U./ SCHMELZER, R./ SOMMER, D. (2008): Die Entwicklung der Studienabbruchquote an den deutschen Hochschulen. Ergebnisse einer Berechnung des Studienabbruchs auf der Basis des Absolventenjahrgangs 2006. HIS-Projektbericht.

INGENKAMP, K./ LISSMANN, U. (2005): Lehrbuch der Pädagogischen Diagnostik. 5. Überarb. Aufl. Weinheim und Basel.

KATSCHNIG, T./ HANISCH, G. (2005): Wirtschaftswissen von Maturant/inn/en im internationalen Vergleich: Eine empirische Studie in den Ländern Österreich, Deutschland, Tschechien und Ungarn. Wien: Institut für Erziehungswissenschaften (Universität Wien) und Ludwig-Boltzmann-Institut für Schulentwicklung und international-vergleichende Schulforschung. Online: http://www.muco.at/documents/Wirtschaftswissen_im_internationalen_Vergleich.pdf  (02-02-2012).

KIM, K. (1994): Economic Literacy in the Republic of Korea and the United States. In: WALSTAD, W. (Eds.): An International Perspective on Economic Education. Dordrecht & Boston, 203-218.

KLAUER, K. (2009): Veränderungsmessung. In HOLLING, H. (Hrsg.), Enzyklopädie der Psychologie. Evaluation, Band I: Grundlagen und Methoden der Evaluationsforschung. Göttingen, 525-563.

KROHNE, H./ HOCK, M. (2007): Psychologische Diagnostik. Grundlagen und Anwendungsfelder. Stuttgart.

KRUMM, V./ SEIDEL, G. (1970): Wirtschaftslehretest BWL. Weinheim & Basel.

LIEPMANN, D./ BEAUDUCEL, A./ BROCKE, B./ AMTHAUER, R. (2007): I-S-T 2000 R: Intelligenz-Struktur-Test 2000R. Göttingen.

MCDONALD, R. P. (1999): Test theory: A unified treatment. Mahwah, NJ.

MESSICK, S. (1980): Test validity and the ethics of assessment. American Psychologist, 35, 1012-1027.

MESSICK, S. (1989): Meaning and values in test validation: The science and ethics of assessment. Educational Researcher, 18, Vol. 2, 5-11.

MICHEL, L./ CONRAD, W. (1982): Theoretische Grundlagen psychometrischer Tests. In GROFFMANN K.-J./ MICHEL, L. Psychologische Diagnostik. Grundlagen psychologischer Diagnostik. Göttingen, 1-129.

MÜLLER, K./ FÜRSTENAU, B./ WITT, R. (2007): Ökonomische Kompetenz sächsischer Mittelschüler und Gymnasiasten. Zeitschrift für Berufs- und Wirtschaftspädagogik, 103, Vol. 2, 227-247.

NAGY, G./ TRAUTWEIN, U./ JONKMANN, K./ SCHLEGEL, K. (2008): Ein Test zur Erfassung von Wirtschaftswissen am Ende der Sekundarstufe I (TWWS-1). Herbsttagung der Sektion Empirische Bildungsforschung der Deutschen Gesellschaft für Erziehungswissenschaft. Kiel.

PAETZ, N.-V./ CEYLAN, F./ FIEHN, J./ SCHWORM, S./ HARTEIS, C. (2011): Kompetenz in der Hochschuldidaktik. Ergebnisse einer Delphi-Studie vor dem Hintergrund der Bologna-Reformen. Wiesbaden.

PRENZEL, M./ ARTELT, C./ BAUMERT, J./ BLUM, W./ HAMMANN, M./ KLIEME, E./ PEKRUN, R. (2007): PISA 2006 in Deutschland. Die Kompetenzen der Jugendlichen im dritten Ländervergleich. Münster.

RAMMSTEDT, B. (2010): Reliabilität, Validität, Objektivität. In: WOLF, C./ BEST, H. (Hrsg.): Handbuch der sozialwissenschaftlichen Datenanalyse, Wiesbaden, 239-258.

RIGNEY, T. (2002): A study of the relationship between entry qualifications and achievement of third level business studies students. Irish Journal of Management, 23, Vol. 2, 117-139.

ROSENDAHL, J./ STRAKA, G. (2011): Kompetenzmodellierungen zur wirtschaftlichen Fachkompetenz angehender Bankkaufleute. Zeitschrift für Berufs- und Wirtschaftspädagogik, 107, H. 2, 190-217.

SCHMIDT, W.H./ BLÖMEKE, S./ TATTO, M.T. (2011): Teacher Education Matters. A Study of The Mathematics Teacher Preparation from Six Countries. New York.

SCHUHMANN, P.W./ MCGOLDRICK, K.M./ BURRUS, R.T. (2005): Student Quatitative Literacy: Importance, Measurement, and Correlation with Economic Literacy. The American Economist, 49; Vol. 1, 49-65.

SCHUMANN, S./ OEPKE, M./ EBERLE, F. (2011): Über welche ökonomischen Kompetenzen verfügen Maturandinnen und Maturanden? Hintergrund, Fragestellungen, Design und Methode des Schweizer Forschungsprojekts OEKOMA im Überblick. In: FAßHAUER, U./, AFF, J./ FÜRSTENAU, B./ WUTTKE, E. (Hrsg.): Lehr-Lernforschung und Professionalisierung. Opladen und Farmington Hills, 51-63.

SEEL, N./ PIRNAY-DUMMER, P./ IFENTHALER, D. (2009): Quantitative Bildungsforschung. In TIPPELT, R./ SCHMIDT, B. (Hrsg.): Handbuch Bildungsforschung. 2. Aufl. Wiesbaden, 551-570.

SOPER, J.C./ WALSTAD, W.B. (1987): Test of Economic Literacy.: Second Edition. Examiner's Manual. New York.

SPIEL, C./ SCHOBER, B./ LITZENBERGER, M. (2008): Evaluation der Eignungstests für das Medizinstudium in Österreich. Projektbericht. Wien.

VON CRANACH, M. / FRENZ, H.-G.(1969): Systematische Beobachtungen. In: GRAUMANN, C. F. (Hrsg.): Handbuch Psychologie. Band 7: Sozialpsychologie. Göttingen, 269-330.

VON DER GROEBEN, A. (2003): Verstehen lernen. Diagnostik als didaktische Herausforderung, Basisartikel, Pädagogik, 55, H. 4, 6-9.

WALSTAD, W.B./ REBECK, K. (2008): The Test of Understanding of College Economics. In: American Economic Review, 98, H. 2, 547–551.

WHITEHEAD, D./ HALIL, T. (1991): Economic Literacy in the United Kingdom and the United States: A Comparative Study. Journal of Economic Education, 22; Vol. 2, 101-110.

WÜRTH, R./ KLEIN, H.J. (2001): Wirtschaftswissen Jugendlicher in Baden-Württemberg. Künzelau.

ZLATKIN-TROITSCHANSKAIA, O./ BLÖMEKE, S./ KUHN, C./ BUCHHOLTZ, C. (2012): Wirksamkeitsprüfungen im Hochschulbereich – Aufgaben und Herausforderungen des BMBF-Forschungsprogramms „Kompetenzmodellierung und Kompetenzerfassung im Hochschulsektor“. Zeitschrift für Evaluation, 11, H. 1, 95-103.

ZLATKIN-TROITSCHANSKAIA, O./ FÖRSTER, M./ HAPP, R. (2012): Bologna Reform – Ergebnisse aus einer vergleichenden empirischen Studie zwischen den auslaufenden Diplom- und den neuen Bachelor-/Masterstudiengängen. (in Vorbereitung).

ZLATKIN-TROITSCHANSKAIA, O./ FÖRSTER, M./ HÄRDLE, W./ HANSEN-SCHIRRA, S. (2011): Modellierung und Messung wirtschaftswissenschaftlicher Fachkompetenz bei Studierenden bzw. Hochschulabsolventen mittels Adaption und Weiterentwicklung vorliegender amerikanischer und mexikanischer Messinstrumente (WiwiKom). Antrag auf Förderung durch das BMBF (unveröffentlichtes Dokument).

ZLATKIN-TROITSCHANSKAIA, O./ KUHN, C. (2010): Messung akademisch vermittelter Fertigkeiten und Kenntnisse von Studierenden bzw. Hochschulabsolventen – Analyse zum Forschungsstand. Johannes Gutenberg-Universität Mainz: Arbeitspapiere Wirtschaftspädagogik, Nr. 56.

 



[1]    ILLEV ist ein vom BMBF gefördertes Projekt, das unter der Leitung von Prof. Dr. Olga Zlatkin-Troitschanskaia (Lehrstuhl für Wirtschaftspädagogik der Johannes Gutenberg-Universität Mainz) steht. Weitere Informationen s. unter http://www.wipaed.uni-mainz.de/illev/

 

[2]    In ILLEV wurde nicht der komplette WBT, sondern 19 ausgewählte Items in den Fragebogen aufgenommen: Die Dimension „Internationale Beziehungen“ wurde nicht aufgenommen, da sie nicht curricular valide ist (vgl. Kapitel 4.2). Bei den restlichen Aufgaben musste ebenfalls eine Auswahl getroffen werden, jedoch werden alle drei Inhaltsbereiche (Grundlagen, Mikro- und Makroökonomie), alle theoretisch angenommenen Bloomschen Taxonomiestufen und verschiedene Schwierigkeitsgrade im Itemsample repräsentiert.

 

[3]    Bilanzierung, Kostenrechnung, Finanzierung, Absatzwirtschaft, Operation Management, Allgemeines Wirtschaftswissen, Strategisches Management, Steuern und Human Ressources.

 

[4]    Der Fragebogen erfasst neben diesen Variablen noch weitere Konstrukte wie bspw. die motivationalen Orientierungen der Studierenden und  deren epistemologischen Überzeugungen (vgl. hierzu FÖRSTER/ ZLATKIN-TROITSCHANSKAIA 2010), auf die hier nicht weiter eingegangen wird.

 

[5]    Einige Autoren wie z.B. CRONBACH (1971) und MESSICK (1980; 1989) führen noch weitere Kriterien zur Unterscheidung der Validität an, auf die im Folgenden jedoch nicht detailliert eingegangen werden kann.

 

[6]    Im WBT wird jede Aufgabe nicht nur einem der vier Inhaltsbereiche, sondern einem grundsätzlichen Konzept innerhalb dieses Inhaltsbereichs zugeordnet (vgl. BECK/ KRUMM/ DUBS 1998). So werden bspw. innerhalb des Bereichs „Grundlagen der VWL“, die Konzepte Knappheit, Opportunitätskosten, Produktivität, Wirtschaftssysteme, Institutionen und Leistungsanreize sowie Tausch, Geld und wechselseitige Abhängigkeit subsummiert.

 

[7]    In die Regression wurden nur die ersten vier Lehrveranstaltungen aufgenommen, da man hier von einem annähernd linearen Effekt ausgehen kann. Bei mehr absolvierten VWL-Vorlesungen nimmt der Effekt merklich ab und stagniert. Weiterhin haben der WBT und das Projekt ILLEV auch nur den Anspruch, grundsätzliches VWL-Fachwissen zu erfassen und nicht auch Inhalte des VWL-Vertiefungsstudiums abzudecken.

 

[8]    In wie weit der WBT sensibel für die Veränderungsmessung ist, wird im Zuge von Längsschnittanalysen näher nachgegangen (HAPP 2013).

 

[9]    Um dem Forschungsdefizit für den Hochschulbereich insb. in der Domäne der Wirtschaftswissenschaften entgegenzuwirken, wurde zum 01.10.2011 das Folgeprojekt WiwiKom erfolgreich implementiert, welches das Ziel einer Entwicklung eines validen diagnostischen Testverfahrens für wirtschaftswissenschaftliche Kompetenz im Hochschulbereich konsequent weiterverfolgt. In diesem Rahmen wird auf im internationalen Hochschulbereich seit Jahren bewährte Messinstrumente zurückgegriffen, mit dem Ziel, diese ins Deutsche zu übersetzen und für das deutsche Hochschulwesen möglichst originaltreu zu adaptieren und bundesweit zu validieren (weitere Informationen www.wiwi-kompetenz.de). Daneben finden sich in diesem neuen Förderschwerpunkt (vgl. ZLATKIN-TROITSCHANSKAIA et al. 2012) weitere Forschungsprojekte, die dem Defizit an Messinstrumenten gerade für den Hochschulbereich entgegenwirken werden und somit die Grundlage einer Ausweitung der pädagogischen Diagnostik auch für den tertiären Bildungssektor bieten.

 


Zitieren dieses Beitrages

FÖRSTER, M. et al. (2012): Valide Erfassung des volkswirtschaftlichen Fachwissens von Studierenden der Wirtschaftswissenschaften und der Wirtschaft-pädagogik – eine Untersuchung der diagnostischen Eignung des Wirtschaftskundlichen Bildungstests (WBT). In: bwp@ Berufs- und Wirtschaftspädagogik – online, Ausgabe 22, 1-21. Online: http://www.bwpat.de/ausgabe22/foerster_etal_bwpat22.pdf  (26-06-2012).


bwp@-Format: