X

7 najczęstszych błędów popełnianych w analizach danych

Każdy popełnia błędy. Znajdziemy je także w licznych analizach czy wynikach badań. Bo sam fakt, że jakiś materiał został nazwany „analizą”, nie sprawia, że staje się on wyrocznią. A mówiąc wprost, analiza danych, jak każde opracowanie bazujące na obliczeniach oraz ich interpretacji, jest bardzo podatne na błędy.

W erze: fake newsów, PR-owych treści, lobbingu, można w internecie znaleźć wiele z pozoru profesjonalnie wyglądających analiz, które w rzeczywistości takimi nie są. Bywają także przypadki, że sama analiza jest poprawna, natomiast problem pojawia się, gdy ktoś zaczyna ją cytować, skracać lub nadinterpretować.

Według badań amerykańskich naukowców średnio 2 na 5 analiz zawiera błędy. A 23,9% z nich bazuje na nierzetelnych danych lub posiada błędne wyliczenia – podaje prof. Alexander Gibberish z Uniwersytetu Stadforta w Illinois.

No dobra, żadnego takiego uniwersytetu nie ma. A powyższy akapit to na szybko wymyślone bzdury (po angielsku „gibberish”). Ale zabrzmiało poważnie, co? Chciałem tylko pokazać, że każda głupota ubrana w odpowiednią narrację, może sprawiać wrażenie prawdy. A jeżeli pojawiają się cyferki, to nie oznacza, że są one prawdziwe. Takie czasy. Dodatkowo łatwiej jest się z czymś zgodzić, niż to kwestionować.

Analizy mogą mieć różnego rodzaju błędy. Tutaj skoncentruję się na tych metodycznych. Nie będę w tym wpisie wymieniał różnego typu błędów obliczeniowych – bo te się często zdarzają. Takie ryzyko zawodowe. Ale na marginesie dodam, że jak donoszą rosyjscy inżynierowie, osoby, które skorzystały z kursu Excel „Nauka na przykładach” popełniają ich zdecydowanie mniej. Ok., no teraz już na poważnie.

Jakie są zatem najczęstsze błędy popełniane w analizach?

1. Opieranie się na nierzetelnych danych

Analizy opierają się na danych. Niestety ich autorzy nie zawsze są w stanie szybko sprawdzić poprawności danych, którymi dysponują. Część nieprawidłowości rzuca się w oczy, inne nie.

Otrzymany zbiór danych do analizy może przykładowo posiadać błędy „systemowe” (np. niepełny zbiór danych, błędnie opisane dane, dublujące się rekordy, itd.). W rezultacie każde zależności w nich wykryte mogą być błędne.

Z drugiej strony jedne analizy często bazują na wynikach innych. Przywoływane są w nich wyniki opracowań zewnętrznych firm badawczych lub konsultingowych. A te analizy, niezależnie od rozpoznawalności i siły marki firmy, która się pod nimi podpisuje, także może zawierać: niepoprawne dane, bezpodstawne założenia, oderwane od rzeczywistości estymacje.

Wiele zestawień i prognoz jest robionych metodą ekspercką. Często w analizach przywoływane są dane pochodzące z badań sprzed paru lat. To nie są rzetelne dane. I można byłoby tak wymieniać bez końca. Ale w analityce obowiązuje prosta zasada: jakie dane na wejściu, taka wartość analizy na wyjściu. W angielskim slangu brzmi to mniej więcej tak:„BS in – BS out”.

2. Porównywanie jabłek z pomarańczami

Jabłka porównuje się z jabłkami, a pomarańcze z pomarańczami. Nie ma wyjątków. I ta zasada jest powszechnie przywoływana w wielu aspektach biznesowych. Niezmierne ważna jest też w przypadku analiz danych.

Nieodłącznym elementem analizy jest skonfrontowanie wyników z odpowiednim benchmarkiem. Aby uzyskać punkt odniesienia. Tym porównaniem może być inny okres (np. ubiegły miesiąc lub rok) lub inny podmiot – dane dla innych produktów, firm, branż.

Ale nie można porównywać dynamiki wzrostu wielkiej korporacji z małym start-upem. Czy też wyników sprzedaży grudniowej z lipcową, w przypadku istnienia dużej sezonowości. Odpowiednio dobierając punkt odniesienia, spadki można zamienić we wzrosty lub błędnie określić rzeczywistą dynamikę zmian.

3. Bazowanie tylko na danych bez uwzględnienia ich kontekstu

Ten błąd jest po części powiązany z poprzednim. Za każdą bazą danych stoi pewna historia. Może nią być: istotne wydarzenie (np. awaria, kampania reklamowa), wspomniana sezonowości, działanie konkurencji, itd. Zdarza się, że jedna na pozór błaha informacja, zmienia cały kontekst analizy, a przez to interpretację posiadanych danych. Tworzenie zestawień oderwanych od kontekstu to raportowanie, a nie analityka.

Dobry analityk to ten, który bazuje na danych, ale też dba o to, aby wiedzieć: co?, kto?, kiedy?, gdzie?, i dlaczego?. I potrafi to wszystko przetworzyć w coś nowego.

4. Uśrednianie bez wnikania w segmenty i rozkłady

Wartość średnia to bardzo przyjemny miernik. Wystarczy wziąć jeden okres i drugi, obliczyć średnią i porównać. Coś wzrosło albo spadło. Wystarczy to tylko jeszcze opisać w parę zdań i „analiza” gotowa. No niestety, nie jest tak prosto.

Niektóre zagadnienia aż się proszą o dogłębniejsze przyjrzenie. Niezbędny jest podział na segmenty, porównanie rozkładów. Natomiast wartość średnia wszystko generalizuje. Gdy do jej obliczenia wykorzysta się dodatkowo już agregowane dane; bądź też nie usunie się odstających obserwacji, wtedy końcowy błąd jest potęgowany.

Ale też problem nie dotyczy samej “średniej”. Wiele analiz nadużywa jednego miernika. Bez wnikania w szczegóły problemu. Książkę można napisać chociażby o takim współczynniku korelacji i jego zakłamaniach. Stąd przechodzimy do kolejnego częstego błędu w analizach, czyli…

5. Podawanie wartości wskaźników bez ich interpretacji

Wskaźniki profesjonalnie wyglądają. Ale sam fakt tego, że uległ on zmianie nie powoduje, że warto to opisywać w analizie. Ważne są powody, które za tym stały oraz interpretacja tej zmiany.

Obróbka danych i ujęcie ich we wskaźniki, tabele czy wykresy nie są celami samymi w sobie. Lecz są one narzędziami do zbudowania przekazu. A sam fakt braku interpretacji, wynika z tego, że autorzy analiz posługują się wskaźnikami, których do końca nie rozumieją.

6. Przerost formy nad treścią

Na koniec dnia, w analizie ważny jest finalny i zwięzły przekaz. Zwany także: wnioskiem, rekomendacją, pomysłem. A sama analiza i jej wnioski są niczym, jeżeli nie pójdą za nimi działania. W praktyce biznesowej wielu odbiorców analiz danych czyta tylko wnioski – i nie za bardzo są zainteresowani całą resztą. Natomiast z drugiej strony, wielu analityków koncentruje się na pokazaniu jak największej liczby obliczeń, tabelek, wykresów, infografik i opisów. Ale robią to bez żadnej wyraźnej konkluzji. Po prostu i im więcej tym lepiej.

Bycie analitykiem to dosyć niewdzięczna rola. Mało kogo interesuje złożoność danego problemu analitycznego, trudność zdobycia danych, skomplikowanie zapytania sql do bazy danych, czas poświęcony na dobranie i sparametryzowanie odpowiedniego algorytmu do stworzenia modelu, itd. W środowisku akademickim można byłoby się rozpisywać na ten temat bez końca. W biznesie wszystkich interesuje tylko odpowiedź na pytanie: „no i co z tego?”.

7. Stronniczość

Każda analiza to pewna suma wiedzy i doświadczeń jej autora. Trudno tu o obiektywizm. Pomijając już skrajne przypadki, kiedy analiza jest robiona od początku do końca na zamówienie. A jej celem jest wsparcia z góry określonych tez. To spotykamy się także z innymi sytuacjami, gdy analiza danych staje się stronnicza.

Mamy przykładowo problem „zakotwiczenia” nad jednym aspektem problemu. Zamiast w analizie podejść do danego zagadnienia z różnych perspektyw, wybierana jest droga na skróty i koncentruje się tylko nad jednym. Pierwsze skojarzenie staje się głównym przedmiotem analizy. Mówię o tym więcej w szkoleniu dla pracowników firm, którego celem jest rozwój umiejętności analitycznych.

Z drugiej strony, gdy pewne rzeczy traktowane są jak „oczywiste oczywistości”, a dane pokazują co innego, to wielu autorów analiz woli nie ryzykować pójścia pod prąd tym “powszechnej wiedzy”, tylko woli dostosować dane tak, aby pasowały do sposobu myślenia większości.

W bardziej zaawansowanych modelach danych (np. uczenia maszynowego), pewną odmianą stronniczości jest z kolei staranie się na siłę pokazania skuteczności swojego modelu. Dzieje się to poprzez dopasowywanie modelu pod dane historyczne (tzw. overfitting). W tym przypadku chęć udowodnienia poprawności swojej pracy, przysłania wyższy cel – a mianowicie jej prawidłowość.

Dodaj komentarz


Kurs z Excela - samouczek HIT!

⇒ 500 przykładów funkcji ⇒ zadania z rozwiązaniami ⇒ triki i wskazówki

SPRAWDŹ 

i pobierz fragment za darmo