Česká škola: Šimon Stibůrek: Možnosti testování v ČR

Šimon Stibůrek: Možnosti testování v ČR

čtvrtek 3. listopadu 2011 ·

31. října 2011 skončil tříletý vývoj projektu Eskalátor, který díky finanční podpoře od Evropského sociálního fondu a MŠMT připravila společnost Scio pro Středočeský kraj. Jde o metodicky nejmodernější plošný test, který byl zatím v ČR realizován a svým způsobem prošlapává cestu k dokonalejším srovnávacím zkouškám v budoucnosti. Které jsou jeho přínosy a které otázky vyvolává?

Doposud všechny testy v ČR byly výrazně limitovány v přesnosti a použitelnosti svých výsledků. Jediná spolehlivá informace, kterou nabízely, byl percentil – tedy statistické srovnání s ostatními žáky v ročníku, kolik jedinců ten který testovaný předběhl. Pokud byly testy dobře postavené, umožňovaly srovnání i mezi různými variantami a termíny testů a zajišťovaly srovnatelnou obtížnost v průběhu let. Doposud však nikdy nebylo zjišťováno, co přesně žáci skutečně umějí a jak si stojí vůči nějakému nastavenému (předem definovanému) standardu.

To poprvé umožňují právě testy Eskalátor. Byly vyvinuty pro angličtinu (dvě kategorie – poslech a čtení) a čtenářskou gramotnost v českém jazyce. Kromě porovnání vůči svým spolužákům získají žáci také informaci o úrovni svých znalostí, tedy o tom, co umějí. V případě angličtiny jsou jednotlivé úrovně obtížnosti odvozeny od existujícího Společného evropského referenčního rámce pro jazyky (CEFR) tvořícího základ všeobecně uznávaných jazykových certifikátů. Úrovně pro čtenářskou gramotnost jsou odvozeny od standardů, na kterých jsou založeny mezinárodní srovnávací testy PISA. Oproti testování PISA se ale testování Eskalátor provádí opakovaně každého půl roku, takže je možné sledovat posun u celé populace i v mnohem kratších časových intervalech (kolik se toho průměrný žák naučí za půl roku / za rok / za několik let?), a to i pro jednotlivé dílčí kategorie (učí víceletá gymnázia efektivněji než základní školy?), instituce i jednotlivce (kolik se toho žák naučil, jak daleko je od dosažení další úrovně?).

Toto zpřesnění bylo umožněno především díky aplikaci Teorie odpovědi na položku (Item Response Theory, IRT), což je analytický model, který je sice na přípravu mnohem náročnější než v ČR obvyklý model klasické teorie testů, dokáže ale poskytnout výrazně přesnější a spolehlivější informaci o schopnostech testovaného i na menším počtu úloh. Model IRT je v zahraničí běžně používán už mnoho let (například pro mezinárodní testy TIMSS, PISA a PIRLS), v ČR ale doposud implementován nebyl, a to ani v případě státních maturit. Hlavní rozdíl oproti klasické teorii testů je v tom, že v IRT je každá otázka mnohem podrobněji zkoumána a kalibrována a jsou jí přiřazeny tři parametry, které teprve rozhodují o jejím statistickém vlivu na celý výsledek testu (jak je obtížná, jak spolehlivě rozlišuje mezi žáky, kteří odpověď znají a kteří ne, a jaká je pravděpodobnost, že žák odpověď uhodne).

Zajímavá může být také konkrétní podoba Eskalátoru. Celé testování je prováděno na počítačích, což umožňuje využít celou řadu typů úloh – interaktivní úlohy, obrázky, reálné nesouvislé texty, u poslechových úloh měl každý žák vlastní sluchátka a mohl si každou ukázku pustit, kdy chtěl a kolikrát chtěl. Podle získané zpětné vazby testy žáky skutečně zaujaly a bavily. K výsledkům testů učitelé navíc dostávají i analýzy schopností a vývoje jednotlivých žáků, tříd i celé školy a žáci získávají přístup k e-learningovým kurzům, kde si mohou sledované kompetence dále rozvíjet.

Jaký je tedy význam Eskalátoru pro ČR? Kompletně vyvinutý testovací systém bude po dobu následujících pěti let provozovat společnost Scio a bude ho zdarma poskytovat středočeským školám. Majitelem systému je ale fakticky Středočeský kraj a jenom na něm už záleží, zda k testům a e-learningu umožní přístup i školám z jiných regionů a co se s projektem stane po roce 2016. Význam Eskalátoru tak leží spíše v obecné rovině – ukazuje, jak a kam se testování v ČR může vyvíjet, jakým způsobem je možné výsledky zpřesňovat a zkvalitňovat a co všechno lze z dobře postaveného testu vyčíst.

www.eskalator.scio.cz/

www.scio.cz

Převzato z clanky.rvp.cz

8 komentářů:

Anonymní řekl(a)...: Ráda bych reagovala na některá tvrzení v článku:

Ne všechny testy ČR pracovaly s pouhým percentilem, naopak; např. zkoušky v rámci státní maturity i v předchozím programovém cyklu Krok za krokem k nové maturitě pracovaly též s percentuální úspěšností. Aby však byla vypovídací schopnost testu platná, je třeba, aby test sám o sobě byl validním nástrojem a aby jeho validita byla empiricky prokázána – a také zdokumentována. Autor zmiňuje, že je-li test dobře postaven, umožňuje srovnání v čase a napříč verzemi. Ano, to je pravda, ale není to jen otázkou konstrukce testu, to je pouze obsahová srovnatelnost založená na expertním posouzení, nýbrž je třeba tuto srovnatelnost prokázat empiricky. To je možné pouze tak, že se buď stejný test dá dvěma srovnatelným populacím či dobře vybraným vzorkům testovaných (a zdůrazňuji srovnatelným), nebo se dají dva testy stejné populaci/vzorku, nebo se použije speciální linked design testování.

Autor tvrdí, že nebylo doposud nikdy zjišťováno, co žáci umí a toto vztaženo k externímu kritériu, např. CEFR. TO NENÍ PRAVDA. Maturitní zkoušky z cizího jazyka jasně deklarují vztah k mezinárodním referenčním úrovním a CERMAT systematicky pracuje na nejen obsahovém, nýbrž i kvantitativním přiřazení k CEFR. Vzhledem ke zvolené metodě však musel čekat na realizaci prvního roku MZ, aby mohl pracovat s reálnými daty. V současné době proběhla první realizace včetně pilotní fáze (kde jsme pilotovali metodu a dílčí postupy) a je přiřazen didaktický test z anglického jazyka základní i vyšší úrovně obtížnosti, Je tedy stanoveno cut-off skóre, které říká – zjednodušeně – kolika bodů musí žák dosáhnout, aby bylo možné říci, že jeho výkon v základní, resp. vyšší úrovni obtížnosti v testu z AJ odpovídá úrovni B1, resp. B2.

Není pravda, že CERMAT nepracuje s IRT. Nicméně pro potřeby zpráv pro školy, zpracování výsledků na protokoly apod. není potřeba pracovat s IRT, k tomu postačují deskriptivní statistiky a položkové analýzy založené na klasické teorii testu. IRT se v CERMATu využívá pro potřeby kalibrace úloh, při odhadech obtížnosti testových položek a pro další šetření, např. při analýzách souvisejících s hodnocením písemných prací a ústní zkoušky. Na komunikaci výsledků směrem ven není IRT v této chvíli nutná, a možná je zbytečné veřejnost zatěžovat něčím, co považuji – ve shodě s autorem textu – v ČR za novinku zatím málo aplikovanou do praxe, přestože ve světě je to již rutinně používaná teorie. Pokud autor viděl výstupy z aplikací na bázi IRT, jistě uzná, že to není nic uživatelsky přívětivého.

Také bych ráda upřesnila, že IRT nepracuje s třemi parametry, jak uvádí autor. IRT je teorie a jako teorie je aplikována prostřednictvím modelů a na nich založených aplikací. Autor hovoří o tříparametrovém logistickém modelu, který je jen jedním z nich. Ne vždy je ale možné jej využít, zde hrají roli též počty dat vstupujících do analýzy a „goodness of fit“. Pro některé účely postačuje bohatě i Rasch model nebo dvouparametrový model, bez parametru pro hádání.
Na závěr bych pouze uvedla, že sebelepší software či teorie nezachrání test, který vykazuje nízkou reliabilitu, není validní, obsahuje vadné úlohy, neměří to, co měřit má, nelze se spolehnout na standardizaci podmínek při jeho administraci, nevhodně interpretuje výsledky žáků (např. že na základě testu receptivních dovedností hovoří o jazykových dovednostech jako celku, přičemž produktivní dovednosti vůbec nejsou ověřovány) apod. Tím nechci zpochybňovat ničí testy, jen chci říci, že každý uživatel testu či výsledků testu, nebo dokonce ten, kdo na základě výsledků testu činí nějaká rozhodnutí, by měl chtít vědět o testu co nejvíce, a chtít doložit kvalitu evaluačního nástroje, který používá. Zaštiťování se nejnovějšími metodami nespasí test, který je od začátku nevhodný pro daný účel nebo vykazuje konstrukční nedostatky (mimo jiné vady).

Martina Hulešová
Jan Hučín řekl(a)...: Dovolím si také pár reakcí.

>Ne všechny testy ČR pracovaly s pouhým percentilem, naopak; např. zkoušky v rámci státní maturity i v předchozím programovém cyklu Krok za krokem k nové maturitě pracovaly též s percentuální úspěšností.

Autor neříká, že všechny testy pracují s percentilem. Tvrdí, že percentil je jediná spolehlivá informace, kterou aktuální testy nabízejí.

>CERMAT systematicky pracuje na nejen obsahovém, nýbrž i kvantitativním přiřazení k CEFR. Vzhledem ke zvolené metodě však musel čekat na realizaci prvního roku MZ, aby mohl pracovat s reálnými daty.

Tak to asi nezvolil dobrou metodu. Přiřazení k CEFR mohlo už být hotové dávno na testech předchozích let.

>Je tedy stanoveno cut-off skóre, které říká – zjednodušeně – kolika bodů musí žák dosáhnout, aby bylo možné říci, že jeho výkon v základní, resp. vyšší úrovni obtížnosti v testu z AJ odpovídá úrovni B1, resp. B2.

To znamená, že základní úroveň je tvořena pouze úlohami odpovídajícími B1 a vyšší úroveň pouze úlohami odpovídajícími přesně B2?

>Není pravda, že CERMAT nepracuje s IRT. Nicméně pro potřeby zpráv pro školy, zpracování výsledků na protokoly apod. není potřeba pracovat s IRT, k tomu postačují deskriptivní statistiky a položkové analýzy založené na klasické teorii testu.

Ale samozřejmě to potřeba je, např. pokud chcete školám říct, jestli letošní maturanti jsou v absolutní úrovni lepší než loňští.

>Pokud autor viděl výstupy z aplikací na bázi IRT, jistě uzná, že to není nic uživatelsky přívětivého.

To znamená, že CERMAT neumí prezentovat výstupy z IRT uživatelsky přívětivě?

> Autor hovoří o tříparametrovém logistickém modelu, který je jen jedním z nich.

Je jedním, ale nejobecnějším, ostatní modely jsou jeho speciálními případy.
Anonymní řekl(a)...: Děkuji Honzovi Hučínovi za reakci, s ním budu v ráda diskusi pokračovat.

Re percentil:
Možná je percentil nejspolehlivějším, ne vždy však nejužitečnějším ukazatelem. Shodneme se na tom? Záleží přece na tom, jakou informaci chceme uživatelům výsledků testu sdělit. A samozřejmě uznávám, že jakákoli číselná informace sama o sobě nestačí, že musí být doprovázena i vysvětlením o tom, co z ní lze vyčíst.

O jakékoli metodě přiřazení lze jistě vždy polemizovat. Neexistuje "nejsprávnější cesta", to JH ví:-). Vzhledem k MŠMT předem stanovenému cut-off skóru pro pass/fail rozhodnutí jsme se rozhodli pro jinou metodu, než o které jsme uvažovali původně. Má své výhody i nevýhody, jako každá.

Re: To znamená, že základní úroveň je tvořena pouze úlohami odpovídajícími B1 a vyšší úroveň pouze úlohami odpovídajícími přesně B2?
- Nikoli, úrovńě obtížnsti MZ z CJ se jmenují základní a vyšší a přiřazení k úrovním je to, o čem zde diskutujeme a čemu se věnujeme. V konstrukci testu jsou úlohy různě obtížné. JH jistě ví, že úrovně dle SERRJ jsou spíše kontinuum než uzavřené kategorie.

RE: Ale samozřejmě to (IRT) potřeba je, např. pokud chcete školám říct, jestli letošní maturanti jsou v absolutní úrovni lepší než loňští.
- Souhlasím.

RE: To znamená, že CERMAT neumí prezentovat výstupy z IRT uživatelsky přívětivě?
- Možná (nejspíš) ano, zatím jsme to ve velkém měřítku nedělali. Otázka mi připadá nefér:-).

Re: Autor hovoří o tříparametrovém logistickém modelu, který je jen jedním z nich. - Je jedním, ale nejobecnějším, ostatní modely jsou jeho speciálními případy.
- Nejsme v rozporu, nebo ano?

Martina Hulešová
Šimon Stiburek řekl(a)...: Vážená paní Hulešová,

děkuji za Vaši reakci. Nemohu však neupozornit, že článek, o kterém se teď bavíme, byl původně publikován na webu RVP.cz a uzpůsoben požadavkům jeho redakce, což znamená především omezen zadaným rozsahem - a na dvou normostranách nebylo ani možné ani žádoucí (vzhledem k tomu, že cílovou skupinou jsou učitelé, ne odborníci) zabíhat příliš do detailů teorie testování. Dovolil jsem si proto vynechat některé informace, které zmiňujete v prvním a posledním odstavci svého prvního komentáře. Jestli Vás hluboce uráží, že jsem nepopsal některé jednodušší IRT modely, omlouvám se.

Stejně tak se omlouvám, pokud jsem se dopustil nějakých nepravd nebo nepřesností ohledně Vaší práce. Zajímalo by mě ale, kde se ale mohu dočíst dostatek informací o Vašich metodách, abych tyto chyby neopakoval. Možná, že jen neumím správně hledat, ale na Vašich stránkách jsem o IRT žádnou zmínku nenašel. Pokud tam skutečně není, nemůžete se divit, že Vás někdo obviní z její neznalosti / nedostatečné aplikace. Stejně tak v případě přiřazení testů k CEFR - v katalozích požadavků se sice píše, že "maturitní zkouška z anglického jazyka je připravována tak, aby byla v budoucnu srovnatelná s referenčními
úrovněmi B1 a B2 mezinárodní škály jazykových úrovní", ale co to znamená? Že žák, který absolvuje zkoušku "dostatečně" splňuje danou úroveň? Co potom umí ten, který ji složil "výborně"? Nebo je to naopak? V tomto ohledu je Eskalátor mnohem dokonalejší nástroj, protože měří vzdálenost každého žáka od stanovené úrovně (pomocí jasně definovaných meziúrovní) a netřídí žáky pouze na splňuje / nesplňuje.

A aniž bych chtěl opakovat dotazy a námitky, které už vznesl Honza Hučín, musím se lehce dotknout i Vaší diskuse. Napsala jste "A samozřejmě uznávám, že jakákoli číselná informace sama o sobě nestačí, že musí být doprovázena i vysvětlením o tom, co z ní lze vyčíst". Vy máte pocit, že státní maturita dává školám a žákům víc a lepších informací, než Eskalátor? To souvisí s už zmíněnou dostupností informací o metodách, zmatení s CEFR, Vaší deklarovanou neschopností prezentovat výsledky IRT atd.

Každopádně ale mým cílem nebylo vyvolávat osobní souboj Scio × CERMAT, pouze jsem chtěl ilustrovat charakteristiky jednoho nástroje ve srovnání s něčím, co už čtenáři (učitelé) znají. Ještě jednou se Vám proto omlouvám, pokud jsem Vás urazil víc, než bylo oprávněné.
Anonymní řekl(a)...: Pane Stiburku,
v žádném případě jsem nechtěla nikoho urazit, takže pokud to takto vyznělo, omlouvám se. Z vašeho komentáře je bohužel cítit, že jsem se vás dotkla, to jsem opravdu nechtěla. Také jsem nevystupovala za CERMAT, ale za sebe. Pouze jsem chtěla upřesnit nebo říci některé informace, které - máte pravdu - nikde nelze najít. Jen jsem měla pocit, že váš článek vyznívá trochu jako reklama. Váš projekt jsem nekritizovala, jen jsem reagovala na informace ve vašem článku. Také jsem opravdu nemohla (nebo mohla?) vědět, že je to článek původně psaný pro rvp.
A poslední věc - o vašem projektu Eskalátor se ráda dozvím více, pak teprve mohu zareagovat na výtku/dotaz ze závěru vašeho komentáře ohledně informací poskytovaných CERMATem (včetně vaší zmínky o tom, že na stránkách CERMATu není ifo o IRT - podotknu pouze, že tam není ani zmínka o CTT). A ještě jednou - bez ironie - nechtěla jsem působit nijak arogantně, pouze jsem uvítala možnost diskuse nad oblastí, která mne zajímá. Což mne vede k poslední věci - moc nerozumím vašim otázkán ohledně přiřazení - můžete je zkusit přeformulovat?
Martina Hulešová
Anonymní řekl(a)...: Ještě jednou se omlouvám, pokud můj tón vyzněl příkřeji, než jsem ho zamýšlel. To už je úskalí písemné komunikace.

Máte pravdu, že článek jako reklamní trochu vyznívá, což je ale dáno i krácením. Na druhou stranu společnost Scio z projektu už žádný zisk mít nebude bez ohledu na počet jeho uživatelů (byl financován ESF a jeho držitelem je nyní středočeský kraj), není tedy důvod, proč si kdovíjakou reklamu dělat - spíš jsme chtěli jenom upozornit na současný vývoj v metodologii, s jistou hrdostí na naši práci. Že je článek přejatý z rvp.cz se dá poznat podle slov "Převzato z clanky.rvp.cz" pod samotným textem - mimochodem, toto převzetí proběhlo bez mého vědomí, já jsem ho zde našel až jako běžný čtenář.

K oné nepochopené otázce - mířil jsem k tomu, že pokud propojíte státní maturity na úrovni B1, resp. B2 pouze s výsledkem prospěl / neprospěl, tak sice můžete říct, že ten, kdo dostal známku 4 je patrně těsně nad hranicí, ale už nevíte nic o žákovi, který dostal jedničku. Výhodu Eskalátoru tady spatřuji v tom, že originální úrovně CEFR dělí na další podúrovně (B1.0, B1.2, B1.4 atd.), takže může žákům nabídnout mnohem přesnější informaci o tom, kde přesně se nacházejí. Žák se nedozví jen, že splnil B1 a nesplnil B2, ale třeba i to, že se od posledního testování posunul z B1.2 na B1.8, takže dělá reálný pokrok a k dosažení B2 mu chybí už jen málo. Z informace, kterou jsem našel na stránkách CERMATu mi nebylo jasné, jak se k tomuto problému staví státní maturita, zda skutečně ověřuje přesnou úroveň pouze u čtyřkařů, nebo zda je CEFR vztažen naopak k jedničkářům atd.

Šimon Stiburek
Janek Wagner řekl(a)...: Pane Stibůrku, převzetí proběhlo podle licence portálu RVP.CZ, tedy Creative Commons 3.0 BY-NC-ND, se kterou jste jistě při publikaci souhlasil.
Anonymní řekl(a)...: Já s ní nejenom souhlasím, ba jsem za to i rád a děkuji. Chtěl jsem jenom upozornit, že jsem článek na tento web nevkládal já a nemohl jsem tedy ovlivnit míru viditelnosti informace, že je převzata z RVP.cz

šs

Okomentovat

Přihlásit se k odběru: Komentáře k příspěvku (Atom)

Česká škola - portál pro ZŠ a SŠ

Česká škola poskytuje svým čtenářům diskusní prostor k vyjádření názorů na školskou problematiku. Tyto příspěvky se nemusí shodovat se stanoviskem redakce České školy a jsou uveřejňovány jako podnět k dalším diskusím.

Obsah článků nemusí vyjadřovat stanovisko redakce nebo vydavatele Albatros Media, a.s.

Všechna práva vyhrazena.

Tento server dodržuje právní předpisy

o ochraně osobních údajů.

ISSN 1213-6018

Reklama na České škole

Diskusní pravidla

Obsah podléhá licenci Creative Commons Uveďte autora-Neužívejte dílo komerčně-Nezasahujte do díla 3.0 Česká republika, pokud není uvedeno jinak nebo nejde-li o tiskové zprávy.

Tyto webové stránky používají k poskytování služeb, personalizaci reklam a analýze návštěvnosti soubory cookie. Informace o tom, jak tyto webové stránky používáte, jsou sdíleny se společností Google. Používáním těchto webových stránek souhlasíte s použitím souborů cookie.

Šimon Stibůrek: Možnosti testování v ČR

8 komentářů:

DISKUSE

Témata článků

Knihkupectví

Nejčtenější články

Články dle data

Učitelské listy

Nabídka práce

Česká škola - portál pro ZŠ a SŠ