Michael Tengberg: Den bristande kvaliteten i de nationella läsproven
De nationella provens resultat har långtgående konsekvenser för alla inblandade, inte minst eleverna. Trots det finns allvarliga brister ett tungt vägande delprov, läsning i ämnet svenska, bland annat i fråga om vad provet egentligen mäter och i omräkningen till skolans betygssteg. (red.)
De nationella proven i skolan genomförs av alla elever och väger tungt för ämnesbetygen i de högre årskurserna. Avsikten med proven är att både att stödja en likvärdig bedömning och att lämna underlag för resultatuppföljning på olika nivåer i skolsystemet. Proven och provresultaten är därför av stor betydelse (high-stakes) för både lärare och elever. De påverkar ekonomiska och pedagogiska beslut i skolan och de påverkar elevers chanser till framtida utbildning och yrken.
Under dessa omständigheter är det avgörande att skolsystemet kan fästa tillit till provresultaten och att slutsatser om elevers kunnande som baseras på proven är valida. Så är dock inte fallet. Åtminstone inte för alla prov och provdelar. Detta är allvarligt och kräver omedelbara och konkreta åtgärder. Staten viker årligen stora ekonomiska resurser åt att producera nationella prov och skolorna lägger omfattande arbetstid på att använda dem. För att dessa insatser ska vara rimliga förutsätts att proven håller högsta möjliga kvalitet.
Jag ska här visa hur det nationella läsprovet i svenska i årskurs nio brister ifråga om både innehållsvaliditet och testreliabilitet. Jag ska göra det med betoning på tre aspekter: validiteten i delkonstrukten som uppgifterna i provet antas mäta; samstämmigheten i bedömning av öppna uppgifter; och tillförlitligheten i den sortering i delprovsbetyg som provresultaten lägger grund för.
Läsprocesser som inte ”existerar”
Läsproven i svenska i årskurs nio är konstruerade för att mäta fyra läsförståelseprocesser. Dessa läsprocesser förekommer inte i kursplanen, vilket är ett problem i sig, utan har lånats från ramverket för PIRLS-provet. Medan PIRLS dock inte förutsätter att elevers provresultat kan rapporteras på läsprocessnivå finns i NP en bedömningsregel som anger att en elev måste samla poäng från uppgifter inom minst tre av de fyra processkategorierna. Annars blir provbetyget automatiskt F, oberoende av hur många poäng eleven har. Med detta implicerar provkonstruktören alltså att läsprocesserna verkligen ”existerar” och kan spåras via svar på läsprovsuppgifter. Detta bör dock kunna påvisas empiriskt och ansvaret för att samla bevis av det slaget åvilar provkonstruktören.
En indikation på att läsprocesserna inte existerar som transparenta psykologiska delkonstrukt av fenomenet läsförmåga är att svensklärare, som ska bedöma och förhålla sig till resultat från läsproven, inte på ett samstämmigt vis förmår skilja mellan uppgifter som mäter olika läsprocesser. I en nyligen genomförd undersökning visar det sig att samstämmigheten bland lärare om vad uppgifterna egentligen mäter motsvarar ett kappavärde på 0.35, vilket betyder att de i merparten av fallen är oense.
En indikation på att läsprocesserna inte håller som empiriska psykometriska delkonstrukt får man genom att mäta i hur hög grad resultaten på uppgifter inom de olika kategorierna samvarierar med varandra. Om dessa resultat inte samvarierar går det inte hävda att uppgifterna mäter något gemensamt som inte mäts av andra uppgifter. I en nyligen genomförd studie baserad på representativa urval av elever som gjorde läsprovet 2015 och 2016 framgår att den interna konsistensen för flera av processkategorierna ligger i spannet 0.20–0.50, vilket implicerar att uppgifterna inte mäter samma sak och att kategorierna därmed inte håller som psykometriska delkonstrukt.
Bristande samstämmighet i bedömning
En annan del av validiteten rör samstämmighet i bedömning på öppna uppgifter. Från tidigare forskning vet vi att detta är ett omfattande problem i bedömning av olika slag, inte bara inom skolans värld. De flesta är överens om att bedömning av sammansatta förmågor som läsande och skrivande kräver att elever får uttrycka sig i kontext och med sina egna ord (McNamara, 2000). God tillförlitlighet i bedömningen förutsätter dock att både uppgifter och bedömningsanvisningar är klokt konstruerade liksom att lärare som ska bedöma regelbundet kalibrerar sig mot varandra för att säkerställa att deras tolkningar av elevers prestationer är likvärdiga.
I en studie av Tengberg & Skar (2016) undersöktes bedömarsamstämmighet på öppna uppgifter i läsprovet 2015 för en grupp lärare som bedömde samma elevlösningar. Undersökningen visade bland annat att de olika lärarna varierade kraftigt i fråga om stränghet i bedömning, vilket för den enskilde eleven fick stora konsekvenser. Exempelvis kunde det skilja hela 12 poäng (av totalt 66 poäng på provet) om en elev bedömdes av den strängaste eller den mest generösa bland lärarna. Samstämmigheten i bedömning av läsprovsuppgifter i NP är således inte tillfredsställande.
Bristande tillförlitlighet ifråga om sortering av elevers läsförmåga
Elevens provresultat beräknas utifrån en summering av hur många poäng eleven fått på olika uppgifter. Att redan detta är problematiskt inom ramen för ett kriterierelaterat betygssystem har diskuterats flitigt. Utifrån fastställda poängnivåer erhåller eleven ett delprovsbetyg som sedan vägs samman med delprovsbetyg i skrivande respektive muntlighet. För att ett delprovsbetyg i läsning ska vara rimligt måste provet på ett tillförlitligt sätt förmå urskilja sex olika nivåer (A–F) av läsförmåga, dvs man måste kunna visa att olika provresultat i poäng räknat verkligen representerar olika nivåer av läsförmåga. Med statistisk analys (Rasch-analys) baserad på ett representativt urval av elever som gjorde de nationella läsproven i svenska i årskurs 9 åren 2015 och 2016 går det emellertid visa att de genomsnittliga mätfelen är så stora att provet inte med säkerhet förmår separera elever i fler än två olika grupper. Man kan enkelt uttrycka det som att provet tillförlitligt sorterar elever med bättre läsförmåga från elever med sämre läsförmåga. Men att provet skulle kunna användas för att sortera elever i sex olika kunskapsnivåer saknar alltså empiriskt stöd.
Slutsatser
Vilka slutsatser bör då dras utifrån dessa empiriska resultat?
- Provets innehåll och uppgifternas utformning bör omgående ses över. Om läsprocesskategorier ska användas för att definiera läsförmåga måste provkonstruktören kunna validera förekomsten av sådana läsprocesser och presentera på vilket vis uppgifterna mäter dem. Vidare bör uppgiftskonstruktionen främja samstämmighet i bedömning och en plan för höjd bedömarsamstämmighet bör antas omgående.
- Valideringsstudier bör bedrivas med modern mätteknik och med referenser till internationell standard. Provkonstruktörsgrupperna måste besitta specifik kompetens för storskaliga kunskapsmätningar och kunna tillämpa den sortens statistisk analys som möjliggör optimering och kvalitetssäkring av provkonstruktionen. Proven bör härvidlag leva upp till internationell standard ifråga om validitet och reliabilitet.
- Provets användning bör baseras på vilket slags information det förmår lämna. I den mån delkonstrukt inte kan upprätthållas psykologiskt och psykometriskt bör de överges för ett enklare och mer tillförlitligt endimensionellt konstrukt. Alternativt får man överväga, och undersöka empiriskt, om det finns andra latenta faktorer som bättre fångar konstruktet läsförmåga. Vidare gäller att om provresultaten inte medger en indelning av elever i sex betygssteg så måste tanken om delprovsbetyg baserat på antal poäng överges.
Det är givetvis inte önskvärt med några hastiga, och av det skälet dåligt underbyggda, förändringar av det nationella läsprovets konstruktion. Ett par justeringar, som att ta bort betygsregeln om poäng på varje läsprocesskategori, kan förvisso göras omgående. Andra förändringar kräver successiv utprövning och bör genomföras först efter en noggrant genomtänkt plan. Men oaktat i vilken takt dessa förändringar genomförs är det ytterst angeläget att en bättre kontroll och tydligare dokumentation över provets psykometriska kvaliteter införs omedelbart.
Om de nationella proven ska kunna användas för slutsatser med långtgående konsekvenser för såväl elever som skolor och huvudmän så bör kvaliteten på proven vara högsta möjliga. Som jag visat ovan gäller inte detta för det nationella läsprovet i årskurs nio. De undersökningar som hänvisas till i artikeln är publicerade eller har accepterats för publicering i vetenskapliga tidskrifter. Studierna implicerar dock ingenting om kvaliteten i övriga provdelar, men påbjuder att frågan om de nationella provens validitet och reliabilitet tas på största allvar.
Michael Tengberg är docent i pedagogiskt arbete vid Karlstads universitet
Referens:
McNamara, T. (2000). Language Testing, Oxford: Oxford University Press.
Största felet är att förskolan-grundskolan inte tar hänsyn till barns utveckling och behov samt att den pedagogiska verksamheten inte utgår från varje barns egna utvecklingsfaser åren före puberteten. Det är då grunden läggs för det fortsatta vuxenblivandet att vara medborgare i en demokrati. Verksamheten inkl fritidshem måste vara samförlagd under dessa år fram t o m åk 3 i grundskolan. Då först kan varje individs egen utveckling i en åldersblandad pedagogisk verksamhet ge den bas som behövs för att läsutveckling m.m. ska bli likvärdigt. Men detta har nonchalerats i 35 år. Det finns erfarenheter av en sådan organisation inkl. en förstudie gjord av en doktorand.