Darrell Huff: Jak lhát se statistikou



 

Huff výřez přebalNa každém kroku jsme provázeni nějakými statistikami. Média a politici na nás chrlí skutečné či pomyslné – údajně objektivní pravdu sdělující – výsledky různých průzkumů veřejného mínění, podle nichž se máme rozhodovat – při výběru ponožek, psích granulí – nebo třeba stran ucházejících se o naši přízeň ve volbách.

 

 

 

Jsou ještě v živé paměti příklady politiků, kteří propadli vášni pro „průzkumy“ a „statistiky“ do té míry, že celou svoji politickou doktrínu i praxi podřizovali jejich výsledkům, a to navzdory tomu, že si jednotlivé výsledky různých takzvaně sociologických (ač s tou vědou to mělo obvykle pramálo společného) šetření v závislosti na čase, zvolené „průzkumné“ agentuře a jiných proměnných často diametrálně odporovaly. Daný muž moci činil jen to, co mu „průzkumy“ nakukaly. Trochu tím připomínal Werichova císaře Rudolfa II., který takto zbožně hleděl k podvodným astrologickým čmáranícím a stále zkoumal, zda jsou již jeho skutkům „elementálové nakloněni“. Jako by neznal ono proslulé Churchillovo „věřím jen té statistice, kterou si sám zfalšuji“. Dnešní procházku vybranou knihou tedy věnujeme fenoménu průzkumů a statistik, jakožto stálých, avšak obvykle zavádějících průvodců našimi životy.

 

Americký publicista a spisovatel Darrell Huff žil v letech 1913 až 2001. Po studiích na univerzitě v Iowě pracoval například jako redaktor časopisu Liberty. OdHuff přebal roku 1946 po zbytek života byl spisovatelem na volné noze. Proslul zejména sériemi článků a vtipných publicistických návodů začínajících slovem „Jak“.  Za všechny jmenujme například knihu Jak dostat šanci aneb Zákony pravděpodobnosti z roku 1959 nebo Jak odhalit statistické žertíky z roku 1954. Na druhou jmenovanou knihu bezprostředně navázala nejslavnější Huffova publikace Jak lhát se statistickou.

 

Kvalitu této knížky potvrzují jak odborné autority, tak čtenáři. Poprvé vyšla v USA v roce 1954 a od té doby je znovu a znovu vydávána a překládána. Stala se učebnicí statistiky pro nematematické obory na mnoha univerzitách. Vtipnou a poutavou formou autor čtenáře provází různými triky, jejichž cílem je s pomocí dobře vypadajících statistických údajů vytvářet příznivý dojem o skutečnostech, které ve skutečnosti mohou být podstatně jiné.

 

Jednotlivé kapitoly jsou doplněny a pro naše podmínky aktualizovány stručnými, leč velmi užitečnými odbornými komentáři, které napsala významná ekonomka Eva Zamrazilová:

 

Kniha, jejíž název zní v angličtině stejně jako v češtině, tedy „How to Lie with Statistics – Jak lhát se statistikou“, není v žádném případě příručkou pro podvodníky ani návodem jak statistiku falšovat. A už vůbec nejde o text, jehož záměrem by bylo tento nezastupitelný obor lidského poznání jakkoli dehonestovat. Statistiku sice považují žáci a studenti za jeden z nejobávanějších předmětů, ale jakmile člověk pronikne do jejích základů, zjistí, že jde o vědu krásnou. S její pomocí lze za obyčejnými nudnými čísly najít poutavé příběhy. Jde však o to, aby tyto příběhy byly poctivé a pravdivé.

 

Statistika je zásadním zdrojem informací a možná, že teprve až se čtenář do knížky začte, uvědomí si, jak mnoho statistických informací se na nás denně valí z internetu, televize, rozhlasu, tisku a nejrůznějších reklam. Průměry, procenta, míry, poměry, tempa růstu a další údaje se vyskytují všude kolem nás, aby člověka o něčem přesvědčily, případně nějakým způsobem ovlivnily naše chování. Poselstvím této knihy je určitý návod jak se stát obezřetným konzumentem sdělení, pracujících se statistickými údaji či s výsledky výzkumů, které využívají statistické metody. Je to knížka, která názorně poukazuje na možnosti, jak lze nejrůznější údaje dezinterpretovat a jak poměrně snadno lze manipulovat s příjemcem mediálních sdělení, když se k tomu využije statistika.

 

Manipulace v těchto případech sleduje hlavní účel - vyvolat určitý dojem. A následující text se týká toho, jak nepodléhat dojmům, ale střízlivě hodnotit nabízené informace. Darell Huff popisuje několik hlavních typů zbraní, které může autor pracující se statistikou použít, pokud mu o pravdivý příběh nejde. Ukazuje, jak lze zdánlivě neprůstřelnou argumentací vědeckého kalibru vzbudit v nepoučeném konzumentovi lákavě naservírovaných údajů mylný dojem. Dává tím do ruky účinnou protizbraň a návod, jakým způsobem by měl zvídavý čtenář na jemu předkládaná sdělení nahlížet. A nemusí přitom být žádný vědec - po absolvování základní povinné docházky stačí už jen zapojit kritický rozum zdravého selského typu. Žádná další kvalifikace není nutná. A v tom je kouzlo této útlé knížky.

 

Statistika jakožto vědní obor udělala za posledních padesát let obrovský pokrok. Prosadily se nové metody, do hry vstoupila exploze mocné výpočetní techniky. Umožňuje zpracovat obrovské soubory dat a sofistikovanými metodami z nich vydestilovat určitou souhrnnou informaci způsobem, jaký by byl dříve nemyslitelný. To ale nic nemění na základní myšlenkové hodnotě většiny argumentů pana Huffa. Elementární pojmy a souvislosti ve spojení se zdravým kritickým rozumem jsou trvalou hodnotou. Kdyby tyto hodnoty byly dostatečně ctěny, nemusel se možná svět na konci prvního desetiletí 21. století (knihy česky vyšla v roce 2013, pozn. pž) potýkat s hospodářskou krizí. Vždyť v první linii této krize stáli běžní američtí občané, kterým byly velmi pravděpodobně ukazovány tabulky a grafy slibující, že hodnota jejich nemovitostí poroste do nekonečna. V dalších liniích vznikaly rovněž mylné dojmy vzbuzené producenty virtuálních finančních produktů, jejichž zdánlivá přijatelná rizikovost byla spolehlivě otestována. Právě sofistikovanost a zdánlivá přesnost často vytváří přílišnou důvěru a současně vzbuzuje v laikovi obavu, že pokud má o podobně servírovaných informacích a nabídkách pochybnosti, bude díky nedokonalým vědomostem chyba zřejmě na jeho straně.

 

Co vlastně přivedlo Darrella Huffa k napsání této knihy, osvětluje sám autor v úvodní pasáži. Už tady oceníme lehce ironický styl jeho psaní, ale zároveň věcnou naléhavost a potřebnost zamyšlení nad tímto tématem, které provází naše životy čím dál intenzivněji.

 

„Tady v okolí je hrozně moc kriminality, říkal můj tchán nedlouho poté, co se přestěhoval z Iowy do Kalifornie. A byla to pravda - alespoň podle novin, které četl. Byl to takový ten plátek, který ve svém vlastním okrese nepřehlédne jediný zločin, a byl navíc známý tím, že jakémukoliv vrahovi ze státu Iowa věnuje větší pozornost, než hlavní deník okresu, kde k té vraždě došlo.

 

Zjištění mého tchána bylo ve své podstatě statistické. Bylo založeno na vzorku, a to velmi špatně vybraném, nereprezentativním, řekněme, výrazně vychýleném. Stejně jako některé daleko dokonalejší statistiky se i tato dopustila chyby, kterou nazývám polovičatost čísel. Čtenář se domníval, že prostor věnovaný v novinách zprávám o kriminalitě je úměrný míře kriminality.

 

Před několika lety psalo pár badatelů nezávisle na sobě o antihistaminových tabletách. Dokazovali, že užíváním těchto tablet se velmi významné procento lidí vyléčilo z rýmy. Vyvolalo to hodně vzruchu alespoň v reklamě, a jeden farmaceutický výrobek z toho měl velký prodejní úspěch. Byl založen na věčně živé naději a zároveň na prazvláštní nechuti si ověřit v dřívějších statistikách to, co už věděly naše babičky. Naprosto přesně to vyjádřil Henry G. Felsen, humorista, který v žádném případě nebyl lékařskou autoritou. Řekl: „Když budete rýmu správně léčit, zbavíte se jí za sedm dnů, a když si jí nebudete všímat, zmizí sama za týden“.

 

A tak je to s mnohým, co čtete a slyšíte. Průměry, souvislosti, trendy a grafy jsou vždy tím, čím se zdají být. Může v nich být víc než je vidět na první pohled, může v nich ale být i daleko méně.

 

Tajemná řeč statistiky, obzvlášť přitažlivá v době holdující průkazným tvrzením, je využívána k vytváření senzací, nafukování, mámení a k přehnanému zjednodušování. Statistické metody a statistické pojmy jsou nezbytné při popisování dat o sociálních a ekonomických trendech, podmínkách obchodování, průzkumech veřejného „mínění“ a při sčítání lidí. Ale bez autorů, kteří užívají slova poctivě, a bez čtenářů, kteří chápou jejich význam, z toho nemůže být nic jiného než významový nesmysl.

 

Hrdinové v bílých pláštích stále pracují dlouhé hodiny ve spoře osvětlených laboratořích bez nároku na proplacení přesčasů. Tento obraz se ale díky statistikám, zneužitým v bulvárních článcích o vědě, téměř rozplývá. Je to jako s jídlem, které „se trochu připepří“, nebo jako se starým autem, které „se trochu přestříkne“. Tak se skutečný smysl statistiky vytratí a z banality se vytvoří záležitost. Dobře zabalená statistika je lepší než Hitlerova „velká lež“. Je zavádějící, ale nikdo vás u toho nepřistihne.

 

Tato kniha je svým způsobem učebnicí toho jak zneužít statistiku k nesprávné interpretaci. Někdo by dokonce řekl, že se jedná o manuál pro podvodníky. Snad bych to mohl uvést na pravou míru tak, jako jeden vysloužilý zloděj, který vydal své vzpomínky a ty se pak staly kurzem pro pokročilé ve vylamování zámků a zahlazování stop. On tehdy řekl: „Podvodníci tyto triky už znají a poctiví lidé se s nimi musí seznámit, aby se jim mohli bránit.“

 

Moderní doba si, jak se zdá, stále víc zakládá na své objektivitě, racionalitě a realističnosti. K tomu nás obklopuje množstvím dat, údajů, čísel a statistik, které mají vyvolat dojem vědeckosti, jednoznačnosti a neoddiskutovatelnosti. Při bližším pohledu pod vnější, často líbivou a atraktivní slupku podobných údajů překládaných nám coby jasné pravdy, vyvstává mnoho vážných otazníků. Právě ty jsou hlavním předmětem knihy Darrella Huffa.

 

Časopis Time jednou komentoval něco z deníku New York Sun a poznamenal, že „průměrný student univerzity Yale, který absolvoval v roce 1924, vydělává ročně 25.111 dolarů“.

 

Ten se tedy má.

 

Ale moment. Co znamená tohle působivé číslo? Vypadá to, že když pošlete svého synka na univerzitu Yale do New Havenu, nebudete muset k stáru pracovat ani vy ani on. Ale je tomu opravdu tak?

 

Už při prvním pozornějším pohledu jsou na tom čísle podezřelé dvě věci. Jednak je překvapivě přesné a zároveň je až nepravděpodobně příznivé. Jen těžko se dá uvěřit tomu, že by průměrný příjem jakékoliv tak rozsáhlé skupiny lidí byl znám s přesností na dolar. Ani vy sami nejspíš neznáte svůj příjem za celý rok tak přesně, leda by se celý pozůstával jen ze mzdy. Ale příjmy kolem 25.000 dolarů ročně obvykle nepocházejí jen ze mzdy; lidé v této příjmové kategorii mají většinou náležitě diverzifikované investiční portfolio.

 

Navíc byl tento roztomilý průměr nepochybně vypočítán z obnosů, o kterých absolventi Yale řekli, že je vydělávají. I kdyby na této univerzitě v New Havenu v roce 1924 všichni ctili tuto povinnost a sdělovali pravdivé údaje, není moc jisté, že to tak funguje i po čtvrt století a že tedy všechna hlášení jsou poctivá. Někteří lidé, když se jich zeptáte na jejich příjmy, tak je nadsadí. Z ješitnosti nebo z optimismu. Jiní naopak uvedou příjmy nižší. Nejspíš s ohledem na svá daňová přiznání. Už je odevzdali a nechtějí teď na žádném dalším papíře uvádět něco jiného. Tyto dvě odchylky, nadsazení a snížení, se jistě mohou navzájem vynulovat, ale to je dost nepravděpodobné. Naopak - jedna z těch odchylek může být podstatně větší a my nevíme, která to je.

Začali jsme tedy pracovat s údajem, o němž nám zdravý rozum říká, že jen těžko může být pravdivý. Zaměřme se teď na pravděpodobný zdroj největší chyby, totiž na to z jakých podkladů lze odvodit závěr, že 25.111 dolarů je „průměrný příjem“ nějaké skupiny lidí, jejichž skutečný průměrný příjem může být klidně i poloviční.

 

Zdrojem největší chyby je způsob výběru vzorku, což je bolestí většiny statistik, se kterými se setkáte v nejrůznějších oblastech. Princip je cekem jednoduchý, ale praktické provádění si prošlapalo různé cestičky, přičemž některé jsou dost nekorektní. Když máte hrnec fazolí, z nichž některé jsou červené a některé bílé, je jen jediný způsob jak lze přesně zjistit, kolik jich je od té které barvy: spočítat je. Podstatně jednodušším způsobem můžete však zjistit, kolik přibližně je v hrnci červených fazolí, a to tak, že si naberete hrst těch fazolí, spočítáte červené a budete předpokládat, že poměr červených a bílých je stejný v celém hrnci jako ve vaší hrsti. Pokud váš vzorek bude dostatečně velký a bude správně vybraný, bude pro většinu účelů docela dobře reprezentovat celý hrnec. Pokud nebude dost velký a nebude dobře vybraný, může být daleko méně přesný než rozumný odhad. Pak tato metoda nemá žádnou jinou výhodu, než pochybnou auru vědecké přesnosti. Je to mrzutá pravda, ale závěry učiněné na základě podobných vzorků příliš malých, špatně vybraných nebo závadných oběma těmito způsoby, stojí za většinou toho, co čteme nebo o čem si myslíme, že to víme.

 

Zpráva o absolventech Yale pochází ze špatného vzorku. Můžeme si tím být naprosto jisti, neboť zdravý rozum nám říká, že se těžko někdo může dostat ke všem žijícím absolventům ročníku 1924. Musí být hodně těch, jejichž adresy jsou po pětadvaceti letech neznámé, a z těch zbývajících, jejichž adresy jsou známé, mnozí nevyplnili dotazníky. Zejména když se jednalo o tak intimní otázky. U některých typů rozesílaných dotazníků je dobrým výsledkem, když se jich vyplněných vrátí pět až deset procent. Tento by třeba mohl být i úspěšnější, ale rozhodně se to nepřiblížilo stu procent.

 

Je tedy jasné, že údaj o příjmech je založený na vzorku sestávajícím z těch absolventů v daném ročníku, jejich adresy byly dosažitelné a kteří zároveň na dotazník odpověděli. Je to reprezentativní vzorek? Jinými slovy, můžeme předpokládat, že v této skupině jsou příjmy rozděleny stejně jako mezi zbývajícími absolventy, kteří do tohoto vzorku nebyli zahrnuti? Tedy mezi těmi, kteří nemohli být zastiženi nebo kteří neodpověděli?

 

Kdo jsou ty malé ovečky, zatoulané na lukách v Yale, s označením „adresa neznámá“? Jsou to lidé s vysokými příjmy? - Chlapíci z Wall Street, ředitelé korporací, vedoucí pracovníci továren a institucí? Ne. Ti to nejsou. K adresám bohatých lidí se dá dostat snadno. Ti nejlépe prosperující absolventi daného ročníku se většinou dají najít v knize „Kdo je kdo v Americe“ a v dalších pramenech, a to i v případě, že zanedbali svou povinnost a neohlásili se v kanceláři pro absolventy. Celkem spolehlivě se dá odhadnout, že ztracená jména patří lidem, kterým se za těch pětadvacet let od promoce na Yale nepodařilo naplnit žádnou ze skvělých vyhlídek. Jsou z nich prodavači, mechanici, tuláci, nezaměstnaní, alkoholici, sotva přežívající spisovatelé a umělci…,  lidé, kterých by se muselo složit nejméně půl tuctu, aby dali dohromady příjem 25.111 dolarů. Ti se většinou neregistrují na srazy absolventů. Už jen proto, že si takový výlet nemohou dovolit.

 

Pak jsou tu lidé, kteří zahodili dotazníky do nejbližšího odpadkového koše. Jací lidé to jsou? Jistotu samozřejmě mít nemůžeme, ale přinejmenším se dá poctivě odhadnout, že většinou prostě nevydělávají tolik, aby se s tím mohli chlubit. Jsou trochu jako ten chlapík, co na své první výplatní pásce našel přilepený lísteček s poznámkou, aby výši své mzdy považoval za důvěrnou informaci a nesvěřoval se s ní dál. Šel za svým šéfem a povídá: „Nedělejte si starosti, já se za tu almužnu stydím stejně jako vy.“

 

Je nám tedy stále jasnější, že vzorek pominul dvě skupiny, které by průměr nejspíš posunuly směrem dolů. To číslo 25.111 dolarů se začíná samo vysvětlovat. Pokud o něčem vypovídá pravdivě, pak jedině o vybrané skupině absolventů z ročníku 1924, jejichž adresy jsou známé, a kteří jsou ochotní povstat a říci, kolik vydělávají. Ale i potom je ve hře pouhý předpoklad nikoliv jistota, že tito pánové mluví pravdu.

 

Aby mělo výběrové šetření skutečnou hodnotu, musí být vybrán reprezentativní vzorek, tedy takový, který není v žádném ohledu vychýlený a svým složením odpovídá struktuře celku. Proto je ten údaj z Yale bezcenný. A když se z tohoto hlediska zamyslíte nad většinou věcí, které čtete v novinách a časopisech zjistíte, že postrádají velmi podobně pevný základ.

 

Jistý psychiatr jednou prohlásil, že prakticky každý je neurotik. Pomiňme skutečnost, že když se pojem „neurotik“ použije tímto způsobem, ztrácí to slovo jakýkoliv smysl, a podívejme se na vzorek, se kterým ten dobrý muž pracoval. Tedy, koho ten psychiatr pozoroval? Ukázalo se, že k tomuto objevnému závěru došel studiem svých pacientů. Ti ovšem zdaleka nemohou být vzorkem celé populace. Pokud je někdo normální, psychiatr se s ním v životě nesetká.

 

Nechcete-li vstřebávat spoustu věcí, které jsou ve skutečnosti jinak, je třeba věnovat trochu kritické pozornosti všemu, co čtete.

 

Je také třeba mít na paměti, že spolehlivost a reprezentativnost vzorků může být velmi snadno narušena nejen viditelnými, ale i neviditelnými zdroji vychýlení. Zachovejte si tedy určitou míru pochybností i v případě, že nevidíte zjevný zdroj prokazatelného vychýlení, a to tak dlouho, dokud nějaká možnost vychýlení existuje. Ona totiž existuje vždycky. Pokud o tom pochybujete, prezidentské volby v letech 1948 a 1952 to jasně potvrdily.

 

Pro další důkaz se můžeme vrátit do roku 1936 ke slavnému fiasku časopisu Literary Digest. Redaktoři tohoto nebohého plátku oslovili deset miliónů lidí podle telefonního seznamu a seznamu předplatitelů Digestu. Ti všichni je ujistili, že výsledek bude pro Landona 370 hlasů a pro Roosevelta 161 hlas. Byli to stejní lidé, kteří velmi přesně předpověděli výsledek předcházejících voleb v roce 1932. Kde by se tedy vzalo vychýlení vzorku, když už se jednou tak dobře osvědčil? Samozřejmě, vychýlení existovalo. Ukázaly to akademické a další analýzy provedené post mortem: Lidé, kteří si mohli v roce 1936 dovolit telefon a předplatné na časopis, nebyli průřezem všech voličů. Ekonomicky to byla zvláštní skupina lidí, vychýlený vzorek, protože v něm byla převaha republikánských voličů. Vzorek zvolil Landona, ale celý soubor voličů rozhodl jinak.

 

Z dosavadního průhledu do zákulisí statistik a jejich výkladů vyplývá jedna zásadní a všudypřítomně se vnucující otázka: Jaké tedy jsou podmínky pro to, abychom mohli výzkumným šetřením dojít k nějakým uspokojivě relevantním výsledkům? A lze to vůbec? Mimochodem: Darrel Huff ve své knize využívá řadu příkladů z politické sféry. Vzhledem k době vzniku knihy, tedy krátce po konci druhé světové války, se příklady rekrutují jednak z témat válečných, jednak se zabývají tehdy ve Spojených státech čím dál aktuálnější problematikou soužití ras.

 

Provádění průzkumů se stává nepřetržitým bojem se zdroji vychýlení a tento boj vedou soustavně všechny uznávané agentury pro výzkum veřejného mínění. Když čteme jejich zprávy, musíme si uvědomit, že tento boj není nikdy vítězně dobojován. Když čteme nějaké tvrzení, že 67% Američanů je proti něčemu a podobně, vždycky bychom si měli položit stejnou otázku. 67% JAKÝCH Američanů?

 

Lidé, kteří sestavují týmy tazatelů, mohou ovlivnit výsledek zajímavým způsobem. Před několika lety během války vyslalo Národní centrum pro výzkum názorů dva týmy tazatelů, aby položili tři otázky pěti stovkám barevných lidí v jednom jižanském městě. Bílí tazatelé tvořili jeden tým a barevní druhý.

 

Jedna otázka zněla: Zacházelo by se tu s barevnými lépe nebo hůř, kdyby Japonci dobyli Spojené státy?“ Černí tazatelé zjistili, že 9% dotázaných řeklo „lépe“. Bílí tazatelé získali takových odpovědí jen 2%. A zatímco černí tazatelé zaznamenali jen 25% lidí, kteří si mysleli, že by se s černými nakládalo hůř, bílí tazatelé jich zaznamenali 45%.

 

Když se do otázky místo „Japonců“ dosadili „nacisté“, výsledky byly obdobné. Třetí otázka testovala postoje, které by mohly vycházet z pocitů vyvolaných prvními dvěma otázkami. „Myslíte si, že je důležitější soustředit se na porážku německo-italsko-japonské Osy, nebo zlepšit fungování demokracie u nás doma?“ Podle barevných tazatelů odpovědělo 39% dotázaných, že „porazit Osu“; podle bílých tazatelů dalo tuto odpověď 62% dotázaných.

 

Tady se projevuje zkreslení, vychýlení, způsobené netušeným paradoxem. Největší vliv tu zřejmě měla tendence, která musí být vždy brána v úvahu při čtení průzkumu názorů. Tou je snaha dávat tazateli odpověď, která ho potěší. Mohli bychom se divit jižanskému černochovi, který odpovídá na otázku související s loajalitou v době války, že řekne bílému člověku raději to, co zní dobře, než to čemu ve skutečnosti věří? Je také možné, že různé skupiny tazatelů vyhledávají různé typy lidí, které oslovují.

 

V každém případě byly výsledky tohoto průzkumu evidentně tak nereprezentativní, že byly prakticky bezcenné. Můžete sami pro sebe posoudit, kolik dalších tvrzení založených na průzkumech veřejného mínění je tak vychýlených, až jsou bezcenné - ovšem bez možnosti to nějak zkontrolovat a prokázat.

 

Jak se tedy nenechat obelstít a manipulovat něčím, co se tváří být statistikou, či jen jejím výkladem a interpretací? Odpověď na takovou otázku zdaleka není snadná, jakkoli by se to při četbě knihy Darrella Huffa Jak lhát se statistikou, zdálo být jasné a snadné. Je nezbytné při přijímaní statistických dat z jakékoli oblasti života – od reklamy na zubní pastu po předvolební stranické preference – zapojit na plné obrátky vlastní kritický rozum, každé číslo podrobit základní otázce, kterou známe už od starých latiníků: qui bono, qui prodest. Tedy pro koho je to dobré a komu to slouží.

 

 

(Darrel Huff – Jak lhát se statistikou. Překlad Martin Švehla. Praha: Brána 2013. ISBN 978-80-7243-623-1)

 

 

Recenze publikována se svolením autora.

 

AddThis Social Bookmark Button

Předplatné Literárních novin můžete objednat zde.

Aktualizováno ( Středa, 16 Květen 2018 10:25 )  

banner Pidivadlo

Partneři

FOK
Logo Pismo black WEB