Każda analiza danych jest odpowiedzią na zadany problem badawczy. Może być on jasno sformułowany (np. „jak zmieniła się dynamika sprzedaży i uzyskiwane marże dla produktów z kategorii komputery i akcesoria w ostatnich 2 latach”), jak również ujęty bardziej ogólnie, np. w postaci hipotezy „chyba coś tu jest nie tak – warto to sprawdzić”.
O ile w pierwszym przypadku o wiele łatwiej jest przystąpić do pracy z danymi, gdyż zakres potrzebnych nam informacji oraz obliczeń nasuwa się samoistnie, o tyle w tym drugim przypadku jest nieco trudniej. Nie ma w końcu żadnej procedury, która mówiłaby jak dokładnie przeprowadzać analizę danego problemu biznesowego.
Wszystko zależy od wiedzy, doświadczenia oraz intuicji analityka. Jak również od dostępności danych, ich poprawności, posiadanego czasu na pracę i … generalnie bardzo wielu innych rzeczy.
Jak analizować dane?
Niniejszy wpis ma na celu pokazanie pokrótce, jak przebiega, krok po kroku, przygotowanie typowej analizy danych. Wypunktowane zostaną kolejne etapy pracy nad zadaniem analitycznym oraz podstawowe działania podejmowane w każdym z nich.
Oczywiście w ramach kolejnych etapów wymienionych jest kilka lub kilkadziesiąt różnych działań, co nie oznacza, że przeprowadza się je za każdym razem. Dobór odpowiednich technik i narzędzi do przeprowadzenia analizy wymaga doświadczenia oraz wyczucia, aby z jednej strony nie przesadzić ze szczegółowością, a z drugiej, nie być zbyt ogólnym.
Skoncentruję się w tym wpisie na przedstawieniu podstawowych obliczeń, które każdy można przeprowadzić samodzielnie w Excelu, bez przechodzenia w obszar zaawansowanej statystyki lub modelowania danych. Bo big data, uczenie maszynowe i wykorzystywanie algorytmów to nieco inna kategoria analiz danych.
Bazuję tutaj wyłącznie na swoim doświadczeniu i wypracowanych przeze mnie metodykach. Nie zawsze są one najlepsze, a tym bardziej nie są uniwersalne dla każdego problemu badawczego.
Ale po iluś tam latach pracy na danych mogę śmiało powiedzieć, że w większości przypadków się sprawdzają. I za ich pomocą można opracować 80% problemów badawczych. Bo za złożonością obliczeń wcale nie musi iść wartość analizy. Cenne wnioski można wyciągnąć nawet przy pomocy tych najbardziej podstawowych narzędzi analitycznych.
ETAPY ANALIZY DANYCH
1. Pytania badawcze
Analiza to w gruncie rzeczy coś naprawdę prostego. To zadawanie pytań i szukanie na nich odpowiedzi. Rozpoczynając zatem pracę nad przeprowadzeniem analizy, przydałoby się określić pytania badawcze, na jakie chcemy odpowiedzieć podczas analizy danych. To one w dużym stopniu decydują o dalszym kształcie pracy.
2. Wyodrębnienie części składowych danego problemu badawczego
Na tym etapie rozkładamy zadany problem badawczy na czynniki pierwsze. Przykładowo dane zagadnienie biznesowe może być oddzielnie badane z perspektywy:
- kanałów sprzedaży/ handlowców/ dystrybutorów,
- cen, kosztów, marżowości,
- stanów magazynowych i logistyki,
- portfolio produktowego/ oferty,
- kanałów komunikacji marketingowej i podejmowanych działań,
- segmentów klientów.
3. Przygotowanie danych – tzw. datamartów
Datamart to, mówiąc najprościej, tabela, która zawiera wszystkie niezbędne zmienne do przeprowadzenia analizy w poszczególnym obszarze.
Datamart powstaje zwykle poprzez połączenie danych z różnych źródeł. Podczas analizy danych biznesowych dane są wyciągane i zestawiane przykładowo z: systemów ERP, CRM, systemów zewnętrznych, wyników badań marketingowych, raportów operacyjnych itd. Czasami z jednego źródła potrzebujemy 10 lub 20 kolumn, a czasami tylko jednej informacji. Im lepiej uda nam się z wyprzedzeniem określić wszystkie niezbędne pytania pod analizę, tym mniej czasu potem stracimy na uzupełnianie tabel o brakujące dane.
Zmiennymi (elementami) datamartu są dane mające charakter wymiarów lub miar. Na etapie budowy datamartu przeprowadza się zwykle: kategoryzację, grupowanie (agregację), normalizację lub standaryzację, formatowanie, skracanie (kodowanie) danych.
Zdarza się często, że przygotowanie, uporządkowanie i oczyszczenie danych zajmują 90% łącznego czasu przeznaczonego na całą analizę. Dużo tu zależy od jakości danych, jakie ma się do dyspozycji.
4. Weryfikacja poprawności danych.
Po połączeniu wszystkich danych, a przed rozpoczęciem właściwej analizy, warto zawsze poświęcić chwilę czasu na sprawdzenie poprawności danych.
Co należy m.in. sprawdzić?
- czy dane zawierają rekordy dla całego badanego okresu,
- czy wszystkie obliczenia się zgadzają,
- czy nie występują brakujące wartości (tzw. missingi),
- czy w kolumnach nie występują błędne dane,
- czy podczas badanego okresu nie miały miejsca zdarzenia, które mogłyby mieć wpływ na analizowane dane.
Dosyć istotną decyzją do podjęcia na tym etapie jest określenie, co należy zrobić z obserwacjami nietypowymi (tzw. „odstającymi”) – czy je potraktować jako anomalię i usunąć, czy też zachować.
Przydatna okazuje się także ogólna ewaluacja danych. Bo nie zawsze udaje się zebrać wszystkie dane, które są wymagane, i niezbędne są często jakieś kompromisy, uproszczenia. Przystępując do analizy warto być świadomym głównych ograniczeń. Pewne rzeczy będzie dało się wyliczyć, a części nie.
5. Statystyczna analiza opisowa
Na tym etapie dokonujemy wyliczeń, dzięki którym wyodrębniamy informacje na podstawie zgromadzonych danych. Do podstawowych narzędzi statystycznych i operacji na danych, które pozwalają na wykrycie głównych zależności, można zaliczyć:
- średnia, minimum, maksimum, mediana, kwantyle, odchylenia standardowe (przeczytaj o podstawowych wzorach statystyki opisowej);
- wykres histogramu lub tzw. boxplot – wykres pudełkowy;
- badanie dynamiki zmienności w czasie danego zjawiska poprzez wyznaczanie trendu; w oparciu o dane: dzienne, tygodniowe, miesięczne. Ewentualnie badanie przedziałów czasowych w podziale na okresy: „przed”, „w trakcie”, „po” zajściu danego zdarzenia;
- analiza struktury zbiorów w kategoriach ilościowych oraz według udziałów procentowych;
- segmentacja i zmiany w zachowaniach poszczególnych segmentów;
- testy statystyczne – istotność różnicy między 2 grupami;
- analiza KPI i ich dynamiki w czasie;
- benchmarki z konkurencją lub innymi analogicznymi danymi;
- poszukiwanie zależności, jak jedne zmienne wpływają na inne: korelacja zmiennych, regresja;
- analiza top 10: najlepsze produkty, produkty z największym wzrostem lub spadkiem, itd.
- prognozowanie, np.: co się stanie przy kontynuacji obecnej sytuacji i braku zmian.
6. Wizualizacja danych i opracowanie wyników.
Mało kogo interesuje złożoność oraz liczba obliczeń, które stały za analizą. Tym bardziej, że podczas pracy z danymi często się okazuje, iż spośród 100 różnych tabel, które powstały, tych tak naprawdę wartościowych jest kilka. A że robocze tabele są zwykle mało czytelne, warto te najważniejsze wyniki zwizualizować w postaci wykresów lub też uproszczonych schematów. Obróbka danych nie rzadko zajmuje więcej czasu niż sama analiza danych, ale bez niej nie można byłoby przejść do ostatniego etapu analizy, czyli do…
7. Przygotowanie wniosków i rekomendacji.
Interpretacja danych jest ważniejsza od samych wyliczeń. Informacja o tym, że coś miało miejsce, nie jest tak cenna jak propozycja tego co należy zmodyfikować w przyszłości. Bo w gruncie rzeczy, celem analizy jest zmiana – w sposobie myślenia lub podejmowanych działaniach.
Tyle i aż tyle.
Analiza danych to dosyć zawiła czynność. Wymaga szerokiej wiedzy technicznej i tematycznej. Nie da się stworzyć dobrej analizy bez znajomości kontekstu opisywanych danych. Piszę o tym więcej w kolejnym artykule – 7 najczęstszych błędów popełnianych w analizach danych.
Pytanie...
Korzystasz z EXCEL lub PowerPoint?
Poznaj setki praktycznych przykładów!
500 funkcji Excel + 500 slajdów PowerPoint
Krótko zwięźle i na temat.