X
Kurs Analitycznego Myślenia w wersji online. Zdobądź certyfikat do CV

Analiza danych i ich wizualizacja – metodyka i przykłady

Dane…, wszędzie dane. W ostatnich latach bardzo dużego rozgłosu nabrało pojęcie „big data” – czyli nowy termin, który jest używany do określenia problematyki przetwarzania potężnych baz danych – liczonych w tera- i petabajtach. Popularność tej problematyki wynika głównie z tego, iż przedsiębiorstwa są przepełnione różnego rodzaju danymi, pochodzącymi z różnych źródeł; natomiast nie do końca wiedzą co z nimi robić.

W odpowiedzi na tak powstałe zapotrzebowanie czołowe firmy z branży IT próbują im wciskać najnowocześniejsze serwery a wraz z nimi oprogramowanie do analizy danych. A wszystko to dzieje się pod szyldem wspomnianego wcześniej pojęcia „big data” – które to obecnie pojawia się w licznych publikacjach i w zależności od sytuacji różne aspekty działania przedsiębiorstwa są pod nie podczepiane (od danych z systemów transakcyjnych aż pod dane z platform typu social media).

Z wielu danych proste wnioski – ale jak?

Jednak nie wszystkie firmy potrzebują skomplikowanego i drogiego oprogramowania od czołowych producentów. W wielu przypadkach wystarczą na początek prostsze narzędzia – od Excela i Accessa zaczynając. Dopiero jak powstaną w ramach przedsiębiorstwa sprawdzone metodyki wyodrębniania z baz najważniejszych informacji, wtedy można pomyśleć o lepszych rozwiązaniach informatycznych. Innymi słowy – najpierw należy wiedzieć czego się potrzebuje i do jakich obliczeń, a następnie powinno się poszukiwać optymalnych narzędzi. To moim zdaniem lepsze rozwiązanie niż zakupienie najpierw oprogramowania i serwerów, a potem zastanawianie się, co z nimi robić. A takie przypadki nie są wcale rzadkością.

Jak pokazuje praktyka tylko niewielka część baz danych gromadzonych przed przedsiębiorstwo jest wykorzystywana na porządku dziennym. Pozostałych zbiorów się nie rusza z kilku powodów: albo są one marnej jakości (jak nie śmieciowe), albo obejmują tematykę o niskim priorytecie badawczym (np. wyniki analiz nie są w stanie sprostać prostemu pytaniu „no i co z tego”), albo też nie udało się znaleźć modelu analitycznego, za pomocą którego te dane można było by przekształcić w cenne dla firmy wnioski.

Bo o nie właśnie w tym całym zamieszaniu z analizą danych chodzi – nie liczą się narzędzia, metodologie, czas poświęcony na obliczeniach oraz złożoność zastosowanych algorytmów – na koniec dnia cała praca analityczna jest oceniana z perspektywy końcowych rekomendacji. A one same nie zależą wyłącznie od posiadanej infrastruktury i narzędzi, ale głównie od pewnej wiedzy i pomysłu na to, jak liczby przekształcać w „coś” wartościowego.

Przedmiot i sposób analiz – wyobraźnia zamiast schematów

Spiszmy zatem przykładowe problemy, przed jakimi staje analityk danych w firmie. Oto one:

  •  jak spośród tysięcy zmiennych gromadzonych w systemach wybrać te najbardziej istotne i warte analizy?
  •  w jaki sposób badać zależności w dynamicznym środowisku rynkowym?
  •  jak oceniać podjęte działania w firmie (jak mierzyć wyniki rynkowe będące wynikiem tych zmian, a jednocześnie konsekwencją szeregu innych czynników)?,
  •  czy dla zauważonych prawidłowości można zbudować uniwersalne modele behawioralne lub modele opłacalności?
  •  w jaki sposób tworzyć symulacje i prognozować wyniki pod kątem przyszłorocznych budżetów?
  •  jak przekształcić dane o klientach w decyzje operacyjne i strategiczne?
  •  czy przetwarzane dane mogą być wykorzystane tylko na poziomie segmentów, podgrup, czy może indywidualnych konsumentów?

Sam proces analizy może przebiegać w rozmaity sposób. Modelowe podejście, ale nie zawsze rzeczywiste, do przeprowadzenia badań wygląda mniej więcej tak:

  1. najpierw jest stawianie hipoteza badawcza;
  2. następnie wybiera się wymagane zmienne, które będą przetwarzane;
  3. kolejnym krokiem jest zebranie danych w odpowiednim formacie i układzie (zwykle niezbędna jest tutaj weryfikacja kompletności i poprawności danych);
  4. w kolejnym etapie projektuje się szablony tabel/ wykresów/ wskaźników, za pomocą których będą przedstawiane zależności, które z kolei staną się podstawą do oceny tego, czy dana hipoteza jest słuszna, czy też nie;
  5. po tym przechodzi się do wyliczeń oraz obróbki danych;
  6. końcowym efektem jest raport z podsumowaniem wyników.

Niby proste, ale problemy mogą pojawić na każdym z wymienionych etapów. Przykładowo nie zawsze jest tak, że przystępujemy do analizy danych z gotową hipotezą. Niejednokrotnie jedyną informacją jaką dysponujemy jest ta, że „w danym obszarze coś jest nie tak” i należy znieść odpowiedź na pytania: „co?” oraz „jakie działania należy podjąć, aby naprawić tę sytuację?”.

W takiej sytuacji obróbka danych może przybrać rozmaite formy i metody – ograniczeniem jest tylko wyobraźnia ich autora. Aby znaleźć odpowiedź na powyżej postawione pytania przeprowadza się m.in.:

  •  analizę jakościową danych, aby sprawdzić czy zebrane dane mogą być w ogóle podstawą do analizy i wyciągania wniosków,
  •  poszukiwanie wyjątków, nietypowych lub niewytłumaczalnych obserwacji i zdarzeń, tzw. anomalii;
  •  poszukiwanie ukrytych związków pomiędzy zdarzeniami – tzw. korelacji;
  •  segmentację, czyli wyodrębnienie jednorodnych grup, które są później osobno badane;
  •  wielopoziomowy insight, podczas którego poszczególne segmenty są rozkładane na czynniki pierwsze;
  •  selekcja danych, czyli np. wyodrębnienie i analiza przedziałów, w których skupia się największa ilość obserwacji,
  •  porównywanie podgrup (klas) między sobą i analiza różnic między nimi,
  •  poszukiwanie trendów, schematów, podobieństw zachowań,
  •  testowanie kolejnych, nowych, powstających podczas analiz hipotez,
  •  analizy porównawcze z danymi zewnętrznymi (wyniki ankiet lub badań rynkowych, dane konkurencyjnych firm);
  •  itd.

Wyniki analiz trzeba umieć sprzedać – czyli parę słów o wizualizacji danych

Analiza danych w otoczeniu biznesowym ma nieco inny charakter niż ta realizowana w środowisku akademickim. W firmach nikogo nie obchodzi zbytnio sposób dochodzenia do końcowych wyliczeń. Liczą się tylko finalne wnioski i rekomendacje, które sporadycznie należy jedynie obronić, dowodząc, że nie popełniło się błędu metodycznego. Jednakże niezależnie od środowiska, w którym są realizowane badania i analizy na znaczeniu zyskują techniki wizualizacji danych – które obrazują końcowe wyniki.

Okazuje się bowiem, że tak samo ważna, jak wiedza dotycząca sposobów przetwarzania danych, jest też umiejętność logicznego, uporządkowanego i zwięzłego przedstawiania rezultatów badań i przeprowadzenia ich odbiorców od tych najważniejszych informacji, które mają zapaść w jego pamięci, po te uzupełniające, które tworzą tło dla głównego przekazu.

Efektywna wizualizacja danych pomaga ich odbiorcy w lepszym zrozumieniu prezentowanych danych – tj. np. stawianych tez i ich argumentacji. Sprawia, że to, co z pozoru jest skomplikowane i złożone, staje się bardziej przystępne i użyteczne.

Celem wizualizacji danych jest przedstawienie w jak najbardziej przystępny i zrozumiały sposób zauważonych podczas analiz zależności lub zjawisk. Ale aby ten cel mógł być zrealizowany niezbędne jest opanowanie pewnych umiejętności, w tym także. tych które na pozór wydają się banalne i oczywiste, ale wcale takimi nie są, jak np.:

  • prezentowanie wielu danych na ograniczonym obszarze (np. na 1 slajdzie PowerPoint),
  • selekcjonowanie informacji – aby przekaz był spójny i zrozumiały,
  • rozmieszczone danych w taki sposób, aby zachęcały one czytelnika do „wniknięcia” w zaprezentowane zależności w różnych miejscach dokumentu – a nie tylko pobieżnego przejrzenia informacji umieszczonych na wstępie.

Trudno jest osiągnąć optymalny kształt za pierwszym podejściem. Nowe KPI lub modele analityczne wymagają często czasu i wielu udoskonaleń zanim osiągną swój finalny kształt i nabiorą prawdziwej wartości, staną się zrozumiałe i powszechne w organizacji.

Wizualizacja danych może przyjmować formę:

  •  tabeli;
  •  wskaźników;
  •  wykresów;
  •  diagramów;
  •  efektów kolorystycznych;
  •  dashboardów;
  •  infografik.

Ciekawe przykłady wizualizacji zostały zamieszczone w niniejszym artykule w postaci zdjęć. Osoby chętne poznania kolejnych kreacji graficznych zachęcam do odwiedzenia takich stron, jak:tableausoftware, flowingdata

Ale należy pamiętać, że wizualizacja nie jest celem samym w sobie. Przerost formy nad treścią to dość często spotykany błąd – szczególnie w popularnych swego czasu infografikach. Jeżeli nie ma się nic ciekawego do przekazania to żadne techniki graficzne tego nie nadrobią.

Analiza czy intuicja?

Na koniec warto może jeszcze wspomnieć dlaczego w tak wielu firmach unika się szczegółowych analiz. Bo nie jest prawdą stwierdzenie, że wszystkie firmy rozwijają swoje działy analiz i inwestują w coraz to lepsze aplikacje do obróbki danych. W rzeczywistości można się spotkać z sytuacjami, kiedy nawet w znanych firmach pracuje się przy użyciu bardzo prymitywnych narzędzi, a cała analityka ogranicza się do paru tabelek w Excelu.  Przyczyny takiej sytuacji mogą być różnorakie, np:

– analityka danych uwidacznia błędne decyzje i strategie, które zostały podjęte w oparciu o intuicje i „zmysł biznesowy”. Czy warto było wydawać pieniądze na komunikację poprzez facebooka? Jaki jest zwrot z inwestycji w kampanie marketingowe typu outdoor? To wszystko można zmierzyć. Tylko że te wyniki mogą być sporym rozczarowaniem dla wielu osób, które obwieściły już wcześniej „sukces” swoich pomysłów.

nierozumienie liczb – jest pewna grupa osób, do której nie trafiają żadne analizy. Nie potrafią one czytać tabel, wskaźników, a nawet podstawowe pojęcia statystyczne to dla nich czarna magia.

– nawet najwięksi zwolennicy podejścia analitycznego muszą przyznać, że wszystko co robią opiera się na wydarzeniach z przeszłości, które niekoniecznie mogą mieć swoje odzwierciedlenie w przyszłości. Rynek i zachowania konsumentów są zawsze niewiadomymi, których nie da się ustalić za pomocą linii trendu. Każda decyzja biznesowa wiązała się i będzie się wiązać z ryzykiem – niezależnie od ilości pieniędzy zainwestowanych w „big data”.

– firmy są przepełnione danymi, ale duża część z nich nie nadaje się do rzetelnej analizy: bazy danych z licznymi błędami, duplikatami, missingami, nieskategoryzowane dane, brak słowników, to tylko nieliczne z problemów, z którymi spotykają się pracownicy firm na co dzień i które zniechęcają do jakichkolwiek prób badawczych.

brak wiedzy „jak” analizować dane. Wiele osób, które krytycznie wypowiada się na temat nowoczesnych narzędzi i wyników prac analitycznych, tak naprawdę nie orientuje się w najnowocześniejszych modelach obliczeniowych, które służą poszczególnym biznesom. W różnych obszarach przedsiębiorstwa kryje się potencjał, który może być odkryty dopiero po przeprowadzeniu szczegółowych analiz. Przykładem mogą być modele pomagające ustalić optymalny poziom cen dla oferowanych przez firmę produktów, modele ułatwiające zarządzanie stanami magazynowymi, algorytmy wspomagające windykację, itd.

10 komentarzy do “Analiza danych i ich wizualizacja – metodyka i przykłady”

Dodaj komentarz


Kurs z Excela - samouczek HIT!

⇒ 500 przykładów funkcji ⇒ zadania z rozwiązaniami ⇒ triki i wskazówki

SPRAWDŹ 

i pobierz fragment za darmo