Wywiady i inspiracje

Biznes w krainie danych. Dark Data & Dirty Data

foto: istockphoto.com
738wyświetleń
foto: istockphoto.com
foto: istockphoto.com

Źli bracia bliźniacy. Tak najkrócej można określić Dark Data oraz Dirty Data, czyli dwie ciemne strony danych (Big Data), które zalewają dziś internet. „Mroczne” (Dark) i „Brudne” (Dirty) dane spędzają sen z powiek analitykom i marketerom, sabotując ich żmudną pracę. Problem jest poważny, ponieważ według szacunków IDC około 90% danych w internecie to Dark Data, a blisko 10% wszystkich danych w mediach społecznościowych – to z kolei Dirty Data. Czym są i skąd się biorą?

Cyfrowe średniowiecze?

Przed nami implozja Big Data. Według Oracle Internet rozrasta się w dane w tempie 40% w skali roku. W 2020 roku będzie już kilka razy większy niż obecnie. Teraz liczy ponad 6 ZB (zettabajtów). Za pięć lat będzie to już 45 ZB.
W lutym tego roku „ojciec internetu” i wiceprezydent Google – Vinton Gray Cerf, przemawiając do zgromadzonych w San Jose członków American Association for the Advancement of Science, mówił m.in. o konieczności bieżącej pracy nad danymi, które już zgromadziliśmy: Digitalizujemy rzeczy, ponieważ myślimy, że dzięki temu to je uchroni. Nie rozumiemy jednak, że jeśli nie podejmiemy kolejnych kroków, to zdigitalizowane przez nas rzeczy mogą nawet okazać się gorsze od swoich rzeczywistych pierwowzorów.
Cerf mówiąc o kolejnych krokach, miał na myśli przede wszystkim ciągłą weryfikację prawdziwości i aktualności danych, czyli jednego z czterech V tworzących Big Data – Veracity (obok Volume, Variety i Velocity).
Przede wszystkim jednak „ojciec internetu” ostrzegał przed nadchodzącymi „cyfrowymi, ciemnymi wiekami”. Jako główny katalizator „Digital Dark Age” wymienił implozję danych (Big Data) zdominowanych przez Dark Data, czyli dane nieuporządkowane, nieustrukturyzowane, nieprzetworzone, surowe. Podkreślał, że to właśnie inwazja Dark Data jest dziś największym wyzwaniem stojącym przed analitykami danych. Od wyniku tej konfrontacji zależała będzie przyszłość wielu cyfrowych biznesów.

Rozświetlając mrok

Mroczność Dark Data polega nie tylko na tym, że są one zbiorem chaotycznym, lecz także na tym, że na dobrą sprawę nie wiadomo, co w sobie kryją. Mogą być jak puszka Pandory, mogą być jakimś zlepkiem cyfrowych nostalgii – ale mogą też okazać się garnkiem złota znalezionym na końcu tęczy, ponieważ będą zawierały informacje, które z powodzeniem organizacje mogą zmonetyzować bądź wykorzystać do uzyskania pełnej, 360-stopniowej oceny profilu klienta.
Poziom Dark Data danych liczy się już w zettabajtach. Według obliczeń IDC w tym roku aż 90% danych wygenerowanych w sieci będzie miało charakter Dark Data, czyli chaotycznych i nieuporządkowanych danych. Jeśli biznes nie podejmie wysiłku ich analizy i nie odczyta zakodowanych w nich informacji, to koło nosa przejdzie mu szansa na lepsze poznanie swojego klienta, a co za tym idzie – na weryfikację biznesowej strategii firmy czy wzmocnienie działań CRM-owych.
Często firmy gromadzą dane w surowym stanie tak „na wszelki wypadek”, „na zapas”, „na później”, łudząc się, że przyjdzie czas na ich analizę. Równie często ignorują Dark Data, nie wiedząc jak się do nich zabrać lub widząc w takim przedsięwzięciu syzyfową pracę. Wskutek takiego postępowania wiele potencjalnie cennych informacji ginie w cyfrowych mrokach, staje się dla następnych pokoleń już tylko hieroglifami, których sens jest niemożliwy do odczytania.

Dark Data – spojrzeć w czarną otchłań danych

Dark Data to wciąż stosunkowo słabo eksplorowany obszar, nie tylko w sensie praktycznym, lecz także teoretycznym. O „mrocznych danych” wiemy mało, toteż definicje Dark Data czasami poważnie się od siebie różnią.
Gartner w swoim słowniczku IT („Gartner IT Glossary”) definiuje Dark Data jako: Zasoby informacyjne, gromadzone i przetwarzane przez organizacje podczas ich codziennej aktywności biznesowej, które na ogół nie nadają się do wykorzystania w żadnym sensownym celu. Jednak Cory Janssen z Techopedii mówi coś nieco innego: Dark Data to rodzaj nieustrukturyzowanych, nieotagowanych i niewykorzystanych danych, które zalegają w repozytoriach danych i nie są analizowane ani przetwarzane. Można je znaleźć w plikach dziennika (log files) oraz archiwach danych, przechowywanych w dużych przedsiębiorstwach. Widać jak na dłoni, że te dwie definicje są ze sobą sprzeczne w jednym punkcie. Gartner mówi o „przetwarzaniu Dark Data”, zaś Techopedia głosi coś odwrotnego. Kto zatem ma rację?
Bliżej prawdy jest chyba Techopedia, choć nawet jej definicja nie oddaje w pełni złożoności problematyki Dark Data. „Mroczne dane” można bowiem opisać w potrójny sposób. Po pierwsze – są to dane, z których istnienia przedsiębiorstwo w ogóle nie zdaje sobie sprawy, więc ani ich nie gromadzi, ani nie przetwarza (tu definicja Gartnera bierze w łeb). Po drugie – mogą to być dane, o których przedsiębiorstwo wie i je gromadzi, lecz nie ma pojęcia, jak je przetworzyć. Po trzecie – to również dane, o których istnieniu przedsiębiorstwo wie i nawet dysponuje narzędziami do ich analizy, lecz jej nie podejmuje, ponieważ uznaje ją za zbyt kosztowną lub obawia się, że jej rezultaty będą niewspółmierne z nakładem pracy, jaki trzeba było w nią włożyć. Dopiero połączenie każdej z tych skrawkowych definicji daje jakąś szerszą perspektywę tego, czym jest Dark Data. Żeby zatem zamknąć tę kwestię, przyjmijmy perspektywę biznesową, wedle której Dark Data to dane (z różnych powodów) niezmonetyzowane przez organizacje.

Talk Dirty to me

O ile Dark Data można by określić jako „zmarnowany potencjał”, o tyle już drugiego złego brata bliźniaka, czyli Dirty Data, wypadałoby opisać raczej jako internetowego trolla Big Data Marketingu.
Z Dark Data wciąż można wyłowić jakieś sensy, wzorce i zależności. Mroczne dane można jeszcze jakoś rozświetlić, jeśli dysponuje się odpowiednimi narzędziami do analityki. W przypadku Dirty Data zaś mamy do czynienia z totalnym cyfrowym bełkotem. Brudne dane można jedynie wyszorować czy wyprać, tzn. usunąć je z tkaniny, jaką jest Big Data. Są jak brzydkie plamy po winie na białej koszuli.
Gdzie można się na nie natknąć? Najciemniej pod latarnią. Media społecznościowe – głównie Facebook – to największe generatory i kopalnie danych o internautach. Nic dziwnego, że wiele firm ma klapki na oczach i koncentruje się na analizie danych wyłącznie stąd, ponieważ są one najłatwiej dostępne. Bazując tylko na takich informacjach (lajki, komcie, szery, tagi, hashtagi zgromadzone na fanpejdżach itp.), przedsiębiorstwo układa swoją strategię marketingową. A to poważny błąd. Ponieważ lwia część danych z portali społecznościowych jest po prostu „brudna”. To Dirty Data, dane zanieczyszczone. Według analiz Networked Insights blisko 10% takich danych jest do wyrzucenia, ponieważ… wcale nie pochodzą od realnych użytkowników. Są zasługą sztucznych botów (53%), skutkiem ruchu generowanego przez spamerów, celebrytów lub osoby opłacane przez konkurencyjne firmy (23%) bądź przez nieaktywne konta (11%). W wyniku tego zatruwania danych wytwarza się Dirty Data. „Brudne dane” wprowadzają w błąd przede wszystkim marketerów, ponieważ dostarczają bezużytecznej pseudowiedzy.
Już teraz od 50 do nawet 80% czasu, jaki badacze danych spędzają w firmach nad analizą Big Data, pochłania właśnie oczyszczanie danych z Dirty Data. W żargonie analitycznym określa się to jako janitor work, czyli pracę „dozorcy” czy „woźnego” danych, choć pasowałoby tu raczej określenie: dirty job. Jest co robić, ponieważ według DOMO tylko w ciągu minuty użytkownicy samego Facebooka tworzą 2 460 000 nowych treści. Dlatego praca janitorsów przypomina zmywanie podłogi na korytarzu, na kilka sekund przed dzwonkiem na długą przerwę w szkole.
Niepokojące jest to, że udział „brudnych danych” w ogólnym strumieniu Big Data w Sieci w porównaniu z ubiegłym rokiem wzrósł aż o 658%. Niektóre marki przyznają wprost, że nawet 90% postów na ich fanpejdżach w mediach społecznościowych spokojnie mogą zaklasyfikować jako wiadomości-śmieci. Dirty Data zanieczyszczają wartościowe Big Data, które stanowią dla marketerów najważniejsze źródło informacji o fanach czy klientach, ponieważ dotyczą ich intencji, gustów czy zachowań. Oznacza to, że marki, które w swojej strategii komunikacyjnej bazują wyłącznie na Big Data z mediów społecznościowych i w żaden sposób nie dywersyfikują źródeł danych, muszą liczyć się z możliwością napotkania zwodniczego Dirty Data, a co za tym idzie – wypaczenia profilu fana (lub klienta). Nie będą w stanie zdiagnozować: które dane są tymi przydatnymi?

Żeby nie brudzić rączek

Z uwagi na lawinowo generowaną ilość Big Data w galaktyce internetu i w social mediach, analiza takich ilości danych przekracza zdolności nie tylko zwykłego człowieka, lecz także tradycyjnych systemów informatycznych.
Zamiast tracić czas i siłować się z „brudnymi” oraz „mrocznymi” danymi na własną rękę, lepiej zostawić sprawę fachowcom, badaczom danych, którzy na co dzień stykają się ze strumieniem Dirty & Dart Data, ale w nim nie toną. Na powierzchni utrzymują ich specjalistyczne narzędzia analityczne, jak np. silnik behawioralny, który analizuje anonimowe dane o użytkownikach wielopłaszczyznowo i z wielu źródeł.
Polscy marketingowcy mają pod ręką choćby BehavioralEngine, silnik posiadający wbudowanego Antybota, pozwalającego z łatwością oddzielić ziarno od plew, czyli Dirty Data od Big Data. Gromadzi on dane z ponad pół miliona stron WWW, zna preferencje oraz zachowania przeszło 70 mln profili użytkowników i buduje ich profile na podstawie 5 tys. szczegółowych atrybutów. Dziennie przetwarza ponad 5 TB danych, a przede wszystkim: konwertuje Dirty Data do Big Data, dzięki czemu marki mają możliwość faktycznego rozeznania się co do profilu swojego fana lub klienta. Bez ryzyka, że otrzymane profile cyfrowe będą skażone „brudem” czy „mrokiem”. Te oczyszczone i wiarygodne dane wykorzystywane są później choćby w spersonalizowanej reklamie internetowej, ale nie tylko tam.

Dane – nowa waluta epoki cyfrowej

Osobiście wierzymy, że sukces każdej organizacji zależy od tego, jak obchodzi się ona z danymi: Big Data, Dark Data, Dirty Data. Wierzymy, że zlekceważenie analityki internetowej i sprowadzenie jej do poziomu jakiegoś przejściowego trendu czy geekowskiej fanaberii, odbija się organizacjom biznesową czkawką. Wierzymy, że dane to nowa waluta epoki cyfrowej, która z biegiem lat będzie się umacniać. I mamy na to twarde dowody.
Jak twierdzi Boston Consulting Group w raporcie „The Value of Our Digital Identity” wartość anonimowych danych zgromadzonych o internautach z Unii Europejskiej, w 2020 roku zbliży się do okrągłego biliona EUR. Oznacza to, że cyfrowe ślady pozostawione przez Europejczyków w sieci będą równoważne finansowo około 8% PKB krajów całej Wspólnoty.
Według badań Gartnera wydatki na analitykę danych już teraz rosną w tempie dwucyfrowym. Do 2017 roku 30% danych, jakimi będą dysponowały przedsiębiorstwa, będzie pochodziło z hurtowni Big Data. IDC podaje, że już teraz 70% dużych firm posiłkuje się danymi o użytkownikach gromadzonymi i przetwarzanymi przez zewnętrzne platformy Big Data. Do 2019 roku według IDC tym tropem pójdą już wszystkie duże organizacje. Coraz więcej firm będzie także monetyzować własne Big Data, podwajając inwestycje w analitykę Big Data oraz wyszukując unikatowych danych, które pozwolą im na uzyskanie biznesowej przewagi nad konkurencją.


 
Piotr Prajsnar, CEO Cloud Technologies Piotr Prajsnar
CEO Cloud Technologies, szef największej platformy Big Data w tej części Europy i najszybciej rosnącej spółki na giełdzie NewConnect. Absolwent SGH i PJWSTK w Warszawie. Doświadczenie zdobywał w Microsoft Polska. Specjalizuje się w nowych technologiach dla rynku reklamy internetowej. Koncentruje się na wykorzystaniu danych oraz zastosowaniu maszynowego uczenia w reklamie internetowej. Dostrzega znaczny potencjał w systemach umożliwiających automatyzowany zakup oraz integrację mediów. Gdy tłumaczy skomplikowane algorytmy, które tworzy, mówi, że to czym się zajmuje, można zamknąć w trzech słowach: Big Data Marketing.
Łukasz Kapuśniak, Chief Big Data Officer w Cloud TechnologiesŁukasz Kapuśniak 
Chief Big Data Officer w Cloud Technologies. Tworzy mechanizmy umożliwiające zbieranie, segmentację i skuteczne wykorzystanie dużych zbiorów danych na potrzeby marketingu i sprzedaży wszystkimi kanałami online. Wcześniej jako product manager w AdPilot był odpowiedzialny za tworzenie koncepcji i wprowadzanie na rynek reklamy online produktów z zakresu retargetowania, pretargetowania audience i innych realizowanych w modelu RTB. Jego metodologia opiera się na połączeniu umiejętności behawiorysty i matematyka.

Dodaj komentarz