Jiří Tůma: Předvolební průzkumy jsou nespolehlivé, maturitní testy ještě nespolehlivější.

pondělí 5. června 2006 ·

V diskusi k mému předchozímu článku Parodie na maturitu trochu jinak zaznělo velmi důležité rozlišení mezi abstraktním a logickým myšlením. Zatímco logické myšlení lze učit v každém oboru, abstraktní myšlení patří především do matematiky, částečně do jiných přírodovědných oborů. Čím abstraktnější oblast myšlení je, tím více se musíme spolehnout na formální správnost myšlení.  Logické myšlení je tak nutným předpokladem abstraktního myšlení. Naopak to ale neplatí.

Velmi zjednodušeně řečeno, abstraktní myšlení je schopnost vidět věci prostým okem neviditelné, schopnost vidět společné rysy ve věcech a záležitostech, které na první pohled nemají nic společného. Podívejme se proto abstraktníma očima na dvě aktuální záležitosti – předvolební průzkumy a maturitní testy – a pokusme se nahlédnout, v čem jsou si podobné a v čem se odlišují.

Budu se zabývat maturitními testy v podobě testů s uzavřenými otázkami, zkráceně jim budu říkat zaškrtávací testy.

Právě jsme měli všichni příležitost přesvědčit se, jak nespolehlivé jsou předvolební průzkumy při předpovídání výsledků voleb. A přesto jsou mnohem spolehlivější, než když se pokoušíme změřit úroveň vzdělání a studijní předpoklady maturanta na základě výsledků zaškrtávacího testu.

Oba uvedené způsoby předpovídání budoucnosti (výsledků voleb nebo nadcházejícího studia) mají mnoho společných rysů a některé odlišnosti. Napřed se podíváme na to, co je spojuje.

Naše republika má zhruba 8 miliónů voličů, asi polovina z nich se voleb účastní. Předvolební průzkumy jsou založené na odpovědích asi jednoho tisíce, v lepším případě dvou tisíc respondentů. Čili z odpovědi jednoho člověka usuzujeme na to, jak asi bude volit 8 tisíc potenciálních nebo 4 tisíce skutečných voličů. Každý aspoň trochu tušíme, jakou chybou musí být takové předpovědi zatížené. Čas od času máme navíc příležitost porovnat předvolební předpovědi s výsledky skutečných voleb. Ovšem ke zjištění, že tyto předpovědi jsou nespolehlivé, ani skutečné volby nepotřebujeme. Stačí si pouze porovnat, jak se liší předpovědi různých agentur.

Podobně si pro ověřování dosud získaných znalostí nebo studijních předpokladů v nějakém oboru umíme představit mnohem více možných otázek než je těch třeba 40, které se nakonec do testu dostanou. Určitě je myslitelné, že v testu jedna otázka reprezentuje dejme tomu také 4 tisíce jiných možných otázek z téhož oboru. Bohužel ale u maturitních testů neexistuje žádná varianta „všeobecné maturity“, kdy by maturant odpovídal na všech 160 tisíc možných otázek a mohli jsme si tak porovnat jeho skutečný výsledek u všech otázek s výsledkem dosaženým na jejich malém vzorku. Narozdíl od různých volebních průzkumů neexistují, a ani existovat nebudou, různé maturity v jednom roce, neboť připravit plošné testování je příliš náročné. Činíme-li rozhodnutí na základě jednoho testu, chováme se úplně stejně, jako kdybychom sestavovali poslaneckou sněmovnu na základě výsledků jednoho předvolebního průzkumu.

Agentury pro výzkum veřejného mínění se snaží, aby vzorek respondentů přibližně odpovídal sociálnímu složení celé populace. Vycházejí z předpokladu, že lidé z téže sociální skupiny mají tendenci volit stejně. Znají také velikost jednotlivých sociálních skupin. Naproti tomu roztřídění možných otázek z nějakého předmětu není pečlivě zvážené, schází odůvodnění, proč má být v testu pět otázek z jedné oblasti a jenom dvě z jiné, atd. Katalogy požadavků k maturitním zkouškám jsou spíš přehledem tématických okruhů, které vůbec mohou být testem zkoušené, nikoliv podrobným rozborem jejich vzájemných vztahů a důležitosti. Tvůrci testů tak mají pro výběr otázek do testu mnohem méně vodítek, než mají autoři předvolebních průzkumů pro výběr reprezentativní skupiny respondentů. Nehledě na to, že mnoho důležitých oblastí vzdělávání nebo studijních předpokladů nelze pomocí zaškrtávacích testů vůbec ověřovat.

Vyjděme ale z toho, že závislost výsledků předvolebního průzkumu na výběru respondentů a závislost výsledků maturitního testu na výběru otázek jsou přibližně stejné. Tuto závislost jak teorie průzkumů veřejného mínění tak teorie testování měří pomocí pojmu reliabilita. Ta se počítá pomocí jakýchsi vzorečků, jejichž konkrétní tvar pro nás není v této chvíli důležitý. Reliabilita je nějaké číslo mezi 0 a 1 a čím více se blíží 1, tím méně má výsledek průzkumu/testu záviset na volbě vzorku respondentů/otázek.

Podívejme se, jak lze sestavit zaškrtávací test s vysokou reliabilitou. Všechny zamýšlené otázky se napřed vyzkouší na malém vzorku zkoušených. Říká se tomu pilotní testování. Na základě pilotního testování se pak do testu vyberou otázky, na které přibližně polovina předpokládaných účastníků odpověď zná a polovina ji nezná. Je nutné ale vzít v úvahu, že i ti, kteří správnou odpověď neznají, ji mohou uhádnout. Pokud nabízíme ke každé otázce čtyři varianty odpovědí, pak z těch 50 %, kteří správnou odpověď neznají, jedna čtvrtina, tj. 12,5% všech uchazečů, ji stejně náhodně zaškrtne.  Takže bychom do testu měli vybírat ty otázky, na které při pilotním testování správně odpoví přibližně 62,5% respondentů. Ve skutečnosti teorie testování doporučuje pro dosažení maximální reliability vybírat otázky, na které v pilotním testování správně odpoví kolem 66 % respondentů. Toto číslo zhruba odpovídá chování uchazeče, který v případě, že správnou odpověď na otázku nezná, umí přesto vyloučit jednu zjevně nesprávnou nabídku odpovědi a hádá teprve ze zbylých tří.

Pilotní testování má ještě jiný cíl – odhalit chyby v otázkách a nabízených odpovědích. Případ z letošního roku ukazuje, že CERMAT pilotní testování dost zanedbává. Naopak firma Scio se mu pečlivě věnuje a proto se její majitel rád chlubí nejenom tím, že v jeho testech tak hloupé chyby nebývají, ale také tím, že jeho testy mají vysokou reliabilitu. Velmi zavádějícím způsobem pojem reliabilita vysvětluje slovy, že reliabilita vyjadřuje, do jaké míry se z výsledků testu podařilo odstranit náhodu. To ale vůbec není pravda. Reliabilita postihuje pouze malou část náhody ve výsledcích testu – tu část, která pochází z výběru otázek. Nikoliv tu část, která pochází z možnosti náhodně zaškrtnout správnou odpověď.

Z postupu, jak sestavit test s vysokou reliabilitou, pro nás vyplývá nesmírně důležité zjištění – test je sestaven na základě předpokladu, že polovina všech odpovědí bude volena náhodně bez skutečné znalosti správné odpovědi. 

Předvolební průzkumy tento zdroj nejistoty ve výsledcích – náhodné losování strany, kterou volím – vůbec neobsahují. Pokud by jej měly obsahovat ve stejné míře, v jaké jej obsahují zaškrtávací testy, museli bychom k odpovědím jednoho tisíce dotázaných respondentů přidat ještě další jeden tisíc odpovědí, které bychom získali losováním jména strany z nádoby obsahující pro každou kandidující stranu jeden lístek s jejím názvem. Každý si umíme představit, jak by to ještě více zkreslilo výsledky předvolebních průzkumů. Takové předvolební průzkumy by už nebral vážně vůbec nikdo. Proč ale mnozí pořád chtějí brát vážně výsledky maturitních zaškrtávacích testů, které jsou zatížené úplně stejnou chybou jako předvolební průzkumy doplněné navíc o losování poloviny odpovědí?

Jsou vůbec zaškrtávací testy k něčemu dobré? Jsou přece používány u respektovaných mezinárodních výzkumů PISA nebo TIMSS! Vysvětlení spočívá v použití výsledků těchto mezinárodních průzkumů. Je to porovnávání úrovně vzdělávání v celých státech. U velkého počtu odpovědí se vliv náhodného hádání na celkové výsledky postupně snižuje: čím více otázek, tím menší vliv na výsledek.  Každý stát si můžeme totiž představit jako jednoho zkoušeného, který prostřednictvím tisíců testovaných žáků odpovídá na otázky testu. Od každého státu tak máme desetitisíce až statisíce odpovědí. Navíc jde především o zkoumání dlouhodobých tendencí ve vývoji vzdělávacích systémů jednotlivých států. Mezinárodní testy nejsou v žádném případě používány pro porovnávání jednotlivých žáků, kde je vliv náhodného hádání na výsledky mnohem větší.

Jen s velkou opatrností by měly být zaškrtávací testy používány k porovnávání úrovně jednotlivých škol. Počet odpovědí za jednu školu sice může dosáhnout několika stovek až tisíců, při tomto počtu ale pořád vliv náhodného hádání může podstatně zkreslit výsledky. Pokud by testy měly být používány k porovnávání škol, pak snad pouze k odhadu dlouhodobého vývoje školy na základě mnoha opakovaných výzkumů. Použití zaškrtávacích testů s pouhými desítkami otázek k porovnávání jednotlivých žáků je už naprosto neomluvitelné.

Proč jsou zaškrtávací testy u škol tak oblíbené při přijímacím řízení? Odpověď není jednoduchá, ale pokusím se naznačit několik možných důvodů. Především je jejich opravování velmi rychlé a při nutnosti sdělit výsledky přijímacího řízení do druhého dne to je mnohdy jediné řešení. Pokud si škola navíc testy objedná u soukromé firmy, zbaví se tím odpovědnosti za kvalitu testů. Posledním možným vysvětlením je skutečnost, že proklamovaný cíl školy – vybrat nejlepší z uchazečů – nemusí být tím skutečným cílem, který bych se pokusil formulovat následovně: pokud možno vybrat ty opravdu dobré uchazeče a současně nevybrat ty potenciálně problémové uchazeče. A to zaškrtávací testy opravdu zajistí. Tak jako např. Albínově poetické straně by ani losování poloviny odpovědí při předvolebním průzkumu nepomohlo k předstižení jedné z velkých stran, tak ani zaškrtávací testy neumožní zjevně problémovým uchazečům předehnat ty opravdu dobré. Pořadí průměrných uchazečů je ale zcela náhodné a pro ně se přijímací řízení mění ve skutečnou loterii.

A jaké je řešení? V případě přijímacího řízení na střední školy to je přizpůsobit nabídku škol poptávce a přijímací řízení zcela zrušit – žádné spravedlivé přijímací řízení neexistuje. Dále v případě maturity nahradit testy písemnými pracemi.  Výsledky maturity přece není nutné vyhlásit do druhého dne! Jak jsem uvedl už v předchozím příspěvku, srovnatelné hodnocení písemných prací lze zajistit. Škoda jen, že CERMAT ztratil řadu let nepříliš úspěšnou snahou naučit se připravovat aspoň zaškrtávací testy. A pokud jde o přijímací řízení na vysoké školy, lze si zaškrtávací testy představit jako součást několikastupňového přijímacího řízení, kdy by u fakult s velkým převisem poptávky sloužily jako první filtr k počátečnímu vyřazení části zcela nevhodných uchazečů.



Jiří Tůma

0 komentářů:

Články dle data



Učitelské listy

Nabídka práce

Česká škola - portál pro ZŠ a SŠ

Česká škola poskytuje svým čtenářům diskusní prostor k vyjádření názorů na školskou problematiku. Tyto příspěvky se nemusí shodovat se stanoviskem redakce České školy a jsou uveřejňovány jako podnět k dalším diskusím.

Obsah článků nemusí vyjadřovat stanovisko redakce nebo vydavatele Albatros Media, a.s.


Všechna práva vyhrazena.

Tento server dodržuje právní předpisy
o ochraně osobních údajů.

ISSN 1213-6018




Licence Creative Commons

Obsah podléhá licenci Creative Commons Uveďte autora-Neužívejte dílo komerčně-Nezasahujte do díla 3.0 Česká republika, pokud není uvedeno jinak nebo nejde-li o tiskové zprávy.



WebArchiv - archiv českého webu



Tyto webové stránky používají k poskytování služeb, personalizaci reklam a analýze návštěvnosti soubory cookie. Informace o tom, jak tyto webové stránky používáte, jsou sdíleny se společností Google. Používáním těchto webových stránek souhlasíte s použitím souborů cookie.