Det lutande tornet PISA* – Kritik mot provet och dess påverkan

Inledning

Det internationella skolrankingverktyget PISA är inte obekant för någon verksam inom skolan eller som har lyssnat med ett halvt öra på skoldebatten de senaste tio åren. Sveriges fallande, stigande och fluktuerande resultat används som belägg och intäkt för att rådande skolpolitik och policies är rätt alternativt fel. Senast i dagarna i Alliansens skolmanifest inför valet kan vi läsa att:

Vi vill genomföra reformer för att Sverige inom tio år ska vara bland de tio bästa kunskapsmätningen Pisa.

Efter 2016 års PISA-resultat delgivits kommenterade Gustav Fridolin resultaten så här:

PISA-resultatet är ett styrkebesked för Sveriges lärare och elever. Hårt arbete gör skillnad, det vet man i klassrummen och det bevisas nu i förbättrad behörighet från nian och bättre resultat i två oberoende kunskapsmätningar.

Figuren visar Sveriges relativa (standardiserade) position i förhållande till de 33 OECD-länder som deltagit i samtliga fyra PISA-undersökningar sedan 2006 i läsförståelse, matematik och naturvetenskap.

Från olika politiska håll och även från de två stora lärarfacken används PISA och Sveriges placering i rankingen som ett kvitto på kvaliteten på undervisningen. Med retoriken följer att visa länders skolsystem, till exempel Finlands och Singapores, är bättre än andra då de ofta ligger i toppen i rankingen.

I våras deltog 228 utvalda skolor och c:a 7300 elever i årets PISA-undersökning där resultatet släpps i december. PISA (säger sig) mäta 15-åringars

  • förmåga att sätta kunskaper i ett sammanhang, förstå processer, tolka information och lösa problem,
  • förmåga att förstå, använda och reflektera över texter för att bland annat kunna delta i samhället och utveckla sin egen kunskap,
  • förmåga att formulera, använda och tolka matematik i olika sammanhang,
  • kunskaper om naturvetenskapens begrepp och förmåga att tillämpa ett naturvetenskapligt förhållningssätt och
  • engagemang och motivation att lära sig ämnena.

I och med dess viktiga roll som slagträ i debatten och i förlängningen grund för eventuella policyförändringar i hur den svenska skolan drivs är det väl värt att uppmärksamma något som sällan eller aldrig dyker upp i debatten: mäter PISA det de utger sig för att mäta? Går det att använda denna ranking och resultatet däri som intäkt för vad ett bra och väl fungerande skolsystem är? Det vill säga kritik mot själva undersökningen och rankingen. För om det är som så att PISA-verktyget inte är helt tillförlitligt kanske vi borde vara lite försiktiga med att dra för långtgående slutsatser utifrån resultatet? Kanske också vara lite ödmjuka inför det faktum att skollagen sedan år 2010 anger att all utbildning ska vila på vetenskaplig grund och beprövad erfarenhet och då kanske fundera lite extra på om PISA verkligen uppfyller de kriterierna?

Det finns en uppsjö akademisk och icke-akademisk kritik mot PISA och dess resultats reliabilitet och validitet som man ju ödmjukt hoppas på skulle dämpa hänvisandet av resultat däruti av de olika aktörerna i skoldebatten. I kritiken mot PISA går det att utröna två huvudspår: (1) Är mätningarna och rankingen korrekta utifrån vad provet anser sig mäta, och (2), går det att använda resultaten, rankingen, och på senare år OECD:s egna skolpolicyförslag, för att förbättra skolan?

Vad är då problemet med PISA och dess ranking?

Mäter de det de säger sig mäta? Är det rimligt att anta att ett tvåtimmarsprov skrivna av en delmängd av landets 15-åringar kan tjäna som en måttstock i jämförelse med 70 andra länders diametralt olika utbildningssystem?

”Over the past decade, the OECD Programme for International Student Assessment, PISA, has become the world’s premier yardstick for evaluating the quality, equity and efficiency of school systems.” (PISA-rapporten 2015)

Pedagogiska magasinet sammanfattar grundproblemet:

”Det här är ju inga småsaker. Kvalitet, likvärdighet, effektivitet. Om Pisa faktiskt lyckas mäta allt detta är det lätt att förstå det enorma inflytandet undersökningen fått. Men kan vi verkligen ta det bokstavligt? Kan man besvara alla dessa frågor baserat på två och en halv timmes skriftligt testande av 15-åriga elever, som sitter var och en för sig, utan kommunikation med varandra eller med internet och besvarar en uppsättning frågor som i princip är identiska i alla 70 deltagande länder?”

TL;DR

  • Elevers motivation till att anstränga sig när man tar provet har en reell påverkan på resultaten, denna motivation fluktuerar vid olika provtillfälle
  • Det finns kritik mot frågors utformning
  • Det finns kritik mot att testet kanske mäter länders kultur och inte dess skolsystem
  • Det finns kritik mot de statistiska modeller och verktyg OECD använder för att komma fram till resultaten
  • Det finns kritik mot att OECD presenterar förslag på god skolpraxis och att länder anpassar sig efter detta

Anstränger sig eleverna på provet?

Vad som är än viktigare kan ju sägas vara elevernas motivation till att göra bra ifrån sig på provet? Vad får dom ut av att anstränga sig och göra sitt bästa? Tja, i princip ingenting. PISA-svaren är anonyma och samlas in vid provtillfällets slut. Eleverna får inte reda på sitt resultat och kan inte diskutera det med sina lärare. Testet har som Pedagogiska magasinet uttrycker det ingen betydelse för den enskilda eleven, läraren, klassen eller skolan. Vi tar det igen: testet har ingen betydelse för den enskilda eleven, läraren, klassen eller skolan. 

Hanna Eklöf vid Umeå universitet har forskat mycket om frågan om elevers motivation kan påverka deras resultat och skriver  ett långt, men mycket läsvärt intervjusvar till mig:

”[…]Vad vi kunde se där när det gäller självrapporterad ansträngning i PISA 2003 vs 2012 (mätt med en ”ansträngningstermometer” som användes internationellt i PISA) så skattade svenska elever i absoluta termer en rimligt hög grad av ansträngning i PISA, i relativa termer dock lägre än många andra länder. Vi kunde också se att det såväl 2003 som 2012 fanns ett positivt samband mellan skattad ansträngning och prestation, alltså ju högre ansträngning – desto högre prestation (generellt sett). Vidare kunde vi se att eleverna 2012 skattade en lägre grad av ansträngning 2012 jämfört med 2003, och detta skulle kunna förklara en del av den resultatnedgång vi såg i PISA mellan 2003 och 2012. Utifrån de analyser vi gjorde i just den studien drog vi dock slutsatsen att den (ganska begränsade) minskningen i rapporterad ansträngning inte kunde förklara hela (den kraftiga) nedgången i resultat, så mycket mindre ansträngning rapporterade inte eleverna, även om de svenska eleverna var bland dem som rapporterade lägst genomsnittlig ansträngning , och så kraftig effekt på prestation har inte den rapporterade ansträngningen att vi kunde hävda att den minskade ansträngningen var hela boven i dramat, även om den kunde vara en delförklaring.

Efter PISA 2015 gjorde vi en liknande studie där vi jämförde elevers rapporterade provmotivation (nu mätt med en provmotivationsskala, alltså ett annat mått än i ovanstående studie vilket man måste komma ihåg, studierna blir inte direkt jämförbara) mellan 2012 och 2015 och undersökte om förändringar i motivation kunde förklara förändringar i prestation. I PISA 2015 såg vi en resultatförbättring, och vi såg också, något förvånande, en ganska kraftig ökning av rapporterad provmotivation, de svenska eleverna rapporterade alltså en betydligt högre grad av motivation att göra sitt bästa på provet 2015 jämfört med vad de gjorde 2012. Våra statistiska analyser av dessa data visade att ökningen i provmotivation kunde förklara i princip hela resultatökningen – statistiskt sett, vi testade en begränsad modell där inga andra variabler fick påverka, ”i verkligheten” är det nog inte så enkelt att den ökade motivationen kan förklara hela resultatuppgången men liksom tidigare vill vi nog påstå att den kan vara en faktor i sammanhanget.

Så för att svara på dina frågor mer övergripande: I samtliga studier vi har gjort har vi sett ett samband mellan elevers självrapporterade motivation att göra sitt bästa på provet och deras provprestation. Provmotivation verkar således vara en viktig faktor att ta hänsyn till. I våra studier har vi också sett att den självrapporterade motivationen är lägre för så kallade ”low-stakes” prov (PISA, TIMSS) än den är på mer ”high-stakes” prov (nationella prov, Högskoleprovet), men samtidigt att många elever faktiskt rapporterar att de gör sitt bästa även på low-stakes prov: argumentet att eleverna struntar i provet om det inte är viktigt för dem personligen gäller inte för alla elever, men sannolikt för en grupp elever, och det kan vara nog så viktigt. Sambandet mellan motivation och prestation är tydligt, men inte jättestarkt, det finns andra viktiga variabler som också påverkar prestationen. Man ska också komma ihåg att alla våra studier hittills baseras på självrapport, vi vet inte om elevers rapporterade motivation är färgat av hur bra de tyckte att det gick på provet.

Man kan alltså säga att generellt har det sett ut så att elevers motivation i low-stakes test situationer är lägre, men kanske inte direkt låg, vi kunde i tidigare PISA-studier se att svenska elever verkade ligga lägre än elever i många andra länder men i såväl senaste PISA som senaste TIMSS rapporterar eleverna en högre motivation, det verkar alltså som att något hänt, att eleverna nu inser betydelsen av dessa test/att det råder en mer allmän positiv kultur i skolan jämfört med för några år sedan/att de har bättre kunskaper och därför känner att de är mer motiverade att försöka/att i PISA:s fall kanske de tyckte det var mer spännande att göra ett datorbaserat prov etc..

Jag tror som du säger att skol- och nationell kultur kan bidra till testdeltagarnas motivation att göra bra ifrån sig, att det finns skillnader mellan länder och att detta kan påverka resultatet, men som jag har varit inne på, jag tror inte effekten är så stark att den invaliderar hela PISA-studien. Utformningen gör ju också så att eleverna sannolikt lider mindre av test anxiety och stress, som ju också kan påverka resultaten i negativ riktning.

Så ja, elevers motivation kan påverka testets resultat och därmed validiteten i tolkningen, men påverkan tycks inte vara så stark att hela resultatet ska kunna anses som invalitt.

Det finns en debatt där de som generellt är emot studier av typen TIMSS och PISA menar att brist på motivation är ett allvarligt hot (se ex Svein Sjöberg) och där de som är för denna typ av studier tenderar att vifta bort motivationsfrågan som utredd och oviktig. Själv tror jag kanske att sanningen ligger någonstans däremellan.

Det tycks vara flera saker som påverkar elevers motivationsgrad, dels mer personliga egenskaper (”pliktkänsla”, att man alltid ska göra sitt bästa, att om man ändå sitter och skriver så anstränger man sig), dels ”den allmänna atmosfären”, hur presenteras och kommuniceras provet, hur är den allmänna retoriken kring prov och elevers kunskaper, elever kan påverkas genom att omgivningen har en ”peppande inställning”, att provet inte upplevs alltför svårt, varför det kan finnas ett samband mellan kunskaper och motivation, känner man att det är helt omöjligt kanske man inte försöker om där inte ligger något i potten för en själv sas.”

För att sammanfatta Hanne Eklöfs studier så vet vi att elevernas motivation till att skriva bra på PISA är lägre i Sverige än i många andra länder men att det enligt henne inte är ett så stor skillnad att det invaliderar prover. Motivationen fluktuerar vid olika provtillfälle och de anstränger sig mer vid provtillfälle som uppfattas som high-stakes. Det kan ju då diskuteras om PISA-testet kanske inte (bara) mäter effektiviteten av ett lands skolsystem utan också plikttrogenhet och lojalitet? Detta är en kritik som återkommer längre ner i texten. Om motivationen till att göra bra ifrån sig på testet är olika från prov till prov är det också svårt att dra några longitudinella slutsatser om resultatet och landets ranking.

En relativt ny studie i USA visar att mutor fungerade utmärkt som incitament för att eleverna skulle anstränga sig i ett prov som av dem uppfattades som low-stakes. De amerikanska elever som i övrigt låg nära bedömningssnittnivån höjde sig markant när de hade ett ekonomiskt incitament (avdrag för felaktiga svar och överhoppade frågor). Hade alla amerikanska nivåer, oavsett kunskapsnivå, svarat på frågorna på toppen av sin förmåga utifrån effekterna studien visade på skulle det påverkat USA:s ranking i systemet markant:

”The researchers also simulated the impact on U.S. performance for the PISA assessments to understand how those scores might have been affected. The results were remarkable. ”We estimate that increasing student effort on the test itself would improve U.S. mathematics performance by 22-24 points, equivalent to moving the U.S. from 36th to 19th in the 2012 international mathematics rankings,” the researchers asserted.” (The Journal).

PISA:s utformning

PISA är inte anpassat efter ett enskilt lands skolsystem och går således inte att använda som en utvärdering över hur väl den inhemska skolan presterar. Men ändå används resultaten som så. PISA mäter inte skolkunskaper. Pedagogiska magasinet: ”Och helt explicit står att de inte får vara knutna till landets läroplan eller vara utformade som traditionella skoluppgifter. Ändå presenterar OECD resultaten som universellt giltiga mått på kvaliteten i ett lands skolsystem. Det är inte helt lätt att greppa logiken.” Vad mäter de då? Det har också riktats kritik mot att de så viktiga laborativa delarna inom naturvetenskap av naturliga skäl inte går att testa. Kritik har också riktats mot en del frågors utformning och översättningarna mellan alla olika språk som används. Frågorna är till stor del hemliga efter testen även om den frisläpps efterhand, detta gör det svårt att granska dem.

De danska statistikerna Inge Henningsen och Peter Allerup riktar skarp kritik mot PISA och de resultat de säger sig komma fram till. Grundproblemet ligger i provutformningens målsättning att provets frågor ska vara universella i svårighetsgrad. Frågorna ska vara lika svåra för elever från Sverige, Thailand och USA vilket de menar är en omöjlighet vilket i slutändan leder till att de statistiska resultat som dras inte har validitet.

”PISA viser altså ikke noget om detaljerne bag elevernes forståelse og viden. Og det er dermed meget vilkårligt, hvad testene måler. Og derfor også hvilke resultater, der fremkommer.

”Vi ved reelt ikke, hvilke kompetencer, PISA tester. De statistiske modeller, man har valgt at bruge, kan formelt levere en rangordning, men de giver ingen nuancer,” pointerer Inge Henningsen.

PISA viser altså ikke noget om detaljerne bag elevernes forståelse og viden. Og det er dermed meget vilkårligt, hvad testene måler. Og derfor også hvilke resultater, der fremkommer.

”Analyserne viser, at det er ligegyldigt, hvor mange penge man bruger på skolen. Klassekvotienten spiller heller ikke ind, og involverende undervisning giver ifølge PISA-undersøgelserne dårligere resultater, fordi man sammenligner totalt heterogene grupper. Men al anden erfaring siger jo det modsatte,” siger Inge Henningsen.” (Århus Universitet)

Statistisk validitet

Det finns också en en uppsjö framförallt akademisk kritik kring om OECDs statistiska underlag för rankingsystemet är korrekt och ger en rättvis bild över resultatet:

”In 2013, TES revealed damning new allegations against Pisa from statistical and mathematical experts who said that what had become the world’s most influential education league tables were, in fact, “useless”, produced “meaningless” rankings and were compiled using techniques that were “utterly wrong”.

In response, the OECD admitted that “large variation in single country ranking positions is likely” because of the methods it used. For example, in 2009 the organisation said that the UK’s Pisa ranking out of a total of 74 countries was between 19th and 27th for reading, between 23rd and 31st for maths, and between 14th and 19th for science.” (TES)

Den danske statistikprofessorn Svend Kreiner visar att han kunde med andra statistiska metoder och tolkningsmodeller få nästan alla länder att placera sig på helt olika platser på ranking-listorna. (Is the foundation under PISA solid?)

Efter en mängd akademisk kritik mot deras statistiska modeller och tolkningar har nu PISA valt att lämna den modell som kallas RASCH. Men vad gör detta med de longitudinella slutsatserna? Hur kan man dra några slutsatser om ett lands prestationer och eventuella reformers verkningsgrad om tidigare undersökningar bygger på undermålig statistisk analys?

OECD som policyskapare

Resultat och placering i rankingsystemet ger på många håll i landet konkret verkan på landets utbildningssystem. I England har matematikundervisningen anpassats för att likna de länder som vanligtvis presterar högt i PISA, Tyskland och Wales har reformerat sitt utbildningssystem och Japan har låtit bli att reformera sitt efter en liten dipp i rankingen. Resultatet i undersökningarna och landets ranking har för många länder direkt bäring på hur man reformerar sitt utbildningssystem och används av politiker och tyckare jorden runt som en intäkt för vad som funkar och inte funkar. Det finns också tendenser att länder försöker anpassa sig för att bli topprankade i undersökningen:

“We are increasingly getting requests from governments from all corners of the world saying ‘Help’ and ‘How can we improve our position in the league tables for Pisa?’ But, obviously, they just want us to force them to teach to the test.” TES

PISA går nu ännu längre i sin strävan och publicerar rena förslag på vad de utifrån sin statistik kategoriserar som god undervisningspraktik. Det är dock värt att hålla i åminnelse att det statistiska underlaget de utgår från är vad elever svarar i frågeformulär och inte klassrumsbesök eller annan typ av empiri. Tysk kritik menar att OECD i sina policyförslag paketerar om redan kända effektiva metoder under nya namn och samtidigt tolkar data felaktigt och drar djärva slutsatser. (Zeit Online).

PISA används också som intäkt för att öka mängden av standardiserade prov i t.ex. USA. PISA mäts vart tredje år och dess resultat leder till att politiker försöker sig på snabba fixar för att snabbt kunna stiga i rankingen trots att skolforskning visar att förändringar i skolsystem kan ta årtionde innan de ger resultat och utslag på mätningar enligt undertecknarna i uppropet OECD and Pisa tests are damaging education worldwide. De skriver också, bland mycket annat intressant, om problemet med att bara mäta vissa typer av klassrumskunskaper:

”By emphasising a narrow range of measurable aspects of education, Pisa takes attention away from the less measurable or immeasurable educational objectives like physical, moral, civic and artistic development, thereby dangerously narrowing our collective imagination regarding what education is and ought to be about.”

Det kan ju vara problematiskt att titta på PISA-resultaten då man kanske väljer att prioritera de kompetenser och ämne som testet mäter?

Unlike United Nations (UN) organisations such as UNESCO or UNICEF that have clear and legitimate mandates to improve education and the lives of children around the world, OECD has no such mandate. Nor are there, at present, mechanisms of effective democratic participation in its education decision-making process. (OECD and Pisa tests are damaging education worldwide)

Kultur eller klassrum?

En studie granskade andra generationens invandrare med öst-asiatiskt ursprung utbildade i det australiensiska skolsystemet och deras resultat i PISA visade att den gruppen placerade sig högt i rankingen (andra-femte-plats) medan Australien som helhet placerade sig på nittonde plats. Om nu PISA mäter ett lands skoleffektivitet, borde inte också dessa elever placera sig där? Borde vi kanske då alla titta mer på Kina och deras utbildningssystem? Yong Zhao skriver i sin bok Who’s Afraid of the Big Bad Dragon? Why China has the best (and worst) education system in the world att det kanske inte är den bästa vägen att gå:

“Unless Pisa scores are the ultimate goal of education, there is no reason to admire, envy, or copy education in China,” he writes. “Behind the illusion of excellence is an insufferable reality that the Chinese have long been trying to escape…Chinese education stifles creativity, smothers curiosity, suppresses individuality, ruins children’s health, distresses students and parents, corrupts teachers and leaders, and perpetuates social injustice and inequity.” (TES)

Mer om PISA

YLE – Pisa-undersökningarna – ett relevant mått på kunskap?

Skolverket – PISA

Svenska dagbladet – Pisa urholkar skolan i tävlandets namn

* Ja, det är en trött och garanterad använd rubrik, men jag kunde inte låta bli.

Följ oss gärna på Facebook om du inte vill vill missa något! AV-Media Trelleborg

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

  • Om

    Hej och välkomna till Pedagog Trelleborg! En blogg för och av pedagoger Trelleborgs kommun (samt alla andra) om allt det där som kretsar kring  pedagogik och teknik. Sidan drivs av AV-Media och skolbibliotekariepoolen. Kontakt: av-media@trelleborg.se

    Allt material licensierat under Creative Commons om inte annat uppges.