Trendy w Data Science w 2022. Co może pójść nie tak?

Sprawdź, jakie zjawiska mogą w nadchodzącym czasie zdominować zaawansowaną analitykę danych.

Nie bez powodu o takich językach, jak Python mówi się, że są językami przyszłości. Relatywnie prosta składnia i szerokie zastosowania w przetwarzaniu danych sprawiają, że być może w przyszłości choćby podstawy języków skryptowych będzie znał każdy pracownik biurowy. Taka perspektywa to dobra okazja do tego, by zastanowić się, jakie czynniki mogą wpłynąć na kształtowanie się Data Science w najbliższej przyszłości, skupiając się przede wszystkim na gromadzeniu danych o użytkownikach.

Zaawansowana analityka danych zdaje się popularyzować nieuchronnie w coraz to nowych dziedzinach życia. Nie będzie przesady w twierdzeniu, że w najbliższym czasie trudno będzie znaleźć obszar ludzkiej działalności, w której ktoś nie spróbuje zaimplementować skrupulatnego śledzenia tejże aktywności w celu późniejszego przetwarzania dużych zbiorów danych. Siłą rzeczy nie brakuje więc chętnych, by objaśniać, co tzw. „danologia” zmieni w naszym życiu na lepsze. Przewrotnie zastanówmy się więc także, co się może zdarzyć niepomyślnego.

Demokratyzacja dostępu

Zacznijmy od pozytywów. Jak już przytoczono, trudno oczekiwać, aby napisanie skryptu służącego do przetwarzania danych – rzecz jasna przy odrobinie chęci do nauki – było czynnością przerastającą kogokolwiek, kto dziś sprawnie posługuje się cyfrowymi maszynami liczącymi. Niewykluczone, że już w niedalekiej przyszłości nawet od wspomnianych pracowników biurowych mile będzie oczekiwana znajomości podstaw Pythona czy choćby platform no-code/low-cde.

Oczywiście z wielkim dystansem trzeba traktować słowa Steve’a Jobsa o tym, że każdy powinien nauczyć się programować (Jobs nigdy nie nauczył się programować), niemniej można z dużą swobodą założyć, że w niedalekiej przyszłości obok (lub zamiast!) wymagań dotyczących znajomości Excela, pojawią się także wzmianki o tworzeniu prostych aplikacji no-code czy znajomości któregoś z języków skryptowych, najpewniej Pythona.

Decyzje na podstawie danych

Już dziś oczywiste jest, że automatyzacja wyeliminuje konieczność pracy wielu osób, co zresztą stanowi ogromne socjalne wyzwanie, z którym prędzej czy później będziemy się musieli zmierzyć. Zazwyczaj jednak mówi się o tym w kontekście usług, obsługi klienta, ale także części prac biurowych. Tymczasem bezrobocie technologiczne prędzej niż można byłoby tego oczekiwać, może zawitać na najwyższe szczeble organizacji. Choć dziś może się to wydawać mrzonką, to są już w opracowaniu bazujące na zaawansowanej analityce algorytmy decyzyjne, które w przyszłości mogą w części automatyzować zadania stawiane dziś przed kierownikami, a nawet dyrektorami operacyjnymi i wykonawczymi.

Dobrym przykładem może być bazująca na dużych zbiorach danych „sztuczna inteligencja”, która automatyzuje pracę brokerów. Dysponując ogromnymi, nieosiągalnymi dla człowieka zasobami informacji oraz równie niedostępną dla ludzkiego brokera szybkością reakcji, sztuczna inteligencja jest coraz chętniej wybierana jako całkowicie lub częściowo autonomiczny czynnik decyzyjny podczas inwestycji. W przypadku stanowisk kierowniczych można byłoby zatem wyeliminować ludzką stronniczość, zachowując przy tym dostęp do ogromnych informacji, które w przypadku człowieka nazwalibyśmy doświadczeniem. Korporacja rządzona przed dane? Być może szybciej niż się spodziewamy.

Data driven commerce

Pamiętacie jeszcze czasy, kiedy w każdym sklepie i w każdym punkcie usług nie byliście pytanie o posiadanie jakiejś konkretnej aplikacji na swoim smartfonie? Jest to oczywiście cyfrowa ewolucja wszelkiej maści programów lojalnościowych, nic twórczego. A jednak zwraca uwagę, jak wiele osób decyduje się na korzystanie z tychże „apek”. To wystarczy, by twierdzić, że koncept ten będzie tylko ewoluować. Pytanie tylko, w jakim kierunku. To oczywiście zależy od punktu widzenia, a raczej tego, czy jest się sprzedawcą, czy konsumentem.

W przypadku sprzedawców czy usługodawców sprawa jest oczywista – DDC to perspektywa ogromnych możliwości maksymalizacji zysku. Sprawa staje się jednak bardziej skomplikowana dla konsumenta. Nie ma aż takiej katastroficznej przesady w twierdzeniu, że jeżeli coś jest za darmo, to ty jesteś towarem. Warto się więc zastanowić, co sprzedajemy, otrzymując złotówkę lub dwie „zniżki” na pojedynczy produkt. Rzecz jasna dane: o swoich nawykach, być może porze odwiedzania sklepu, zamiłowaniu do konkretnych produktów. Co zbierają sprzedawcy, nie wie tak naprawdę nikt poza nimi. W najbliższej przyszłości będą oni jeszcze skuteczniejsi w profilowaniu, kształtowaniu lub zaspokajaniu potrzeb, a ich celem zawsze będzie zysk.

Wycieki danych i walka z nimi

W bezpośredniej korespondencji z omówionymi już zagadnieniami pozostaje zagrożenie wyciekami danych. Jeszcze dekadę temu problem w zasadzie nie istniał, a przynajmniej skutki wycieków danych nie były tak opłakane, jak są dzisiaj. Oczywiście wiele, przynajmniej w naszym internetowym horyzoncie, zmieniły zalecenia wynikające z regulacji europejskich, a mimo to nadal wycieki danych pozostają jednym z najpoważniejszych zagrożeń dla cyberbezpieczeństwa. Przede wszystkim ze względu na ich gigantyczną skalę.

Poza rzeczonymi regulacjami w zasadzie trudno wyciekom danych przeciwdziałać. Zdarzają się one największym graczom, którzy już niejednokrotnie płacili za to krocie. Jeżeli weźmiemy pod uwagę dwa wcześniejsze czynniki – demokratyzację dostępu do analityki danych oraz galopującą komercjalizację – to jasnym staje się, że z czasem wycieki będą miały coraz poważniejsze skutki. Dziś wycieka twój adres e-mail, być może hasło (zazwyczaj już na szczęście zhashowane, choć nie zawsze), jutro wycieknie twoja lista zakupów, miejsc, które odwiedziłeś, preferencji zakupowych. Cambridge Analytica, anyone?

DNA jako dane

Biorąc pod uwagę zagrożenie wyciekami, ciekawe spoglądać na cieszące się coraz większym zainteresowaniem przedsięwzięcia, o których bez przesady można powiedzieć, że są magazynami DNA. Czyli danych. Witryny takie jak MyHeritage z przydatnych serwisów pozwalających odnaleźć rodzinę zza Wielkiej Wody stały się usługodawcą pozwalającym przebadać swoje DNA. A ściślej mówiąc – porównać je z innymi, już dostępnymi w bazie próbkami. Na tej porównawczej podstawie MyHeritage (i kilka innych firm) udostępnia chętnym informacje o ich pochodzeniu etnicznym.

Mowa więc o zupełnie nowym obszarze przetwarzania danych. Data science operujące na próbkach kwasu deoksyrybonukleinowego. Oczywiście ochoczo zwróciły swe oczy w tym kierunku służby, które już teraz korzystają z niemalże ogólnodostępnych baz danych DNA. Do dziś odnotowano kilka udokumentowanych przypadków ujęcia złoczyńców na podstawie pozostawionych przed laty śladów genetycznych. Najnowszy z nich to rzekome rozwiązanie słynnej sprawy Golden State Killera – podejrzanego zatrzymano właśnie dzięki zapytaniom do firmy utrzymujących bazę danych DNA.

Data Science w obszarze DNA już dziś jest faktem. Obrazek via CNBC. źródło: cbc.ca

Depersonalizacja, czyli odwrót od Data Science

Trendem w Data Science, który już dziś możemy zaobserwować, jest odwrót użytkowników, ale też wielu usługodawców, producentów sprzętu, od gromadzenia tak obszernych zasobów danych, jak było to standardem jeszcze przed kilkoma laty. Cezurą zdaje się wspomniany skandal Cambridge Analytica, po którym miliony (miliardy?) zostały uświadomione, w jaki sposób można wykorzystywać zbierane o nich w sposób zautomatyzowany informacje. Jaki to będzie miało wpływ na Data Science?

Dziś za ważny walor oprogramowania zaczyna się uznawać to, że chroni prywatność użytkownika. Że możliwie jak najbardziej ogranicza zakres zbieranych danych, zawęża go do minimum. Tak promuje się między innymi Apple, o tym zapewniają producenci przeglądarek internetowych. Nie okłamujmy się jednak – w przypadku aplikacji webowych Data Science to nauka przede wszystkim o internautach. Ich zwyczajach, środowiskach uruchomieniowych, w miarę możliwości czynnikach demograficznych.

Jeśli jednak ci sami użytkownicy coraz chętniej będą się decydowali na odrzucanie ciasteczek, wyłączanie śledzenia i stosowanie przeglądarkowych rozszerzeń chroniących ich prywatność, to przynajmniej w aspekcie gromadzenia informacji o internautach praca z danymi może przybrać w przyszłości kurs trudniejszy niż dotychczas. Papierek lakmusowy nachodzących zmian niech stanowi rewolucja w Google Analytics, największym silniku analitycznym w Sieci, oraz quasi-ciasteczkowa nowinka Google, Privacy Sandbox.