W dzisiejszych czasach dane o nas oraz o naszych zachowaniach, np. w Internecie, zbierane są na każdym kroku, nawet jeśli nie jesteśmy tego świadomi. Technologii predykcji poświęcono wpis na blogu Wyższej Szkoły Informatyki i Zarządzania w Rzeszowie.
Blog naukowy Wyższej Szkoły Informatyki i Zarządzania w Rzeszowie to miejsce, w którym spotykają się przedstawiciele różnych dziedzin reprezentowanych w tej uczelni. Autorem jednego z ostatnich artykułów jest mgr inż. Arkadiusz Gaweł, który pisze o predykcji. Technologia ta może mieć na nas wpływ podczas prowadzenia samochodu, komunikacji z innymi osobami, wykonywania transakcji bankowych czy wizyt u lekarza. Według słownikowej definicji, predykcja to proces wnioskowania o przyszłych wielkościach zmiennych losowych w określonym przyszłym momencie (okresie), gdy nie jest znana wielkość wyjściowa. Autor wpisu zastanawia się, czym jest ta wielkość wyjściowa oraz czym są elementy, które na nią wpływają.
Według Megleny Kuneva, komisarz Unii Europejskiej ds. ochrony konsumenta, „informacja jest nową ropą naftową”. Niezależnie od tego, czy interesujemy się tematyką przetwarzania danych, czy nie, większość naszych działań jest odnotowywanych, gromadzonych i analizowanych. Nawet tak niewinne czynności, jak umieszczenie wpisu w mediach społecznościowych, jest związane z gromadzeniem danych. To oczywiście tylko przykład, ponieważ dane gromadzone są podczas niemal każdego wykonywanego przez nas zadania. Jak zaznacza autor, w taki sposób ilość danych rośnie w zastraszającym tempie. Czy mogą one pomóc w przewidywaniu ludzkich zachowań?
Serwis statista.com informuje, że ilość informacji utworzonych, przechwyconych, skopiowanych i wykorzystanych na całym świecie od 2010 r. za trzy lata osiągnie 181 zettabajtów (1 ZB – 1021 = 1 000 000 000 000 000 000 000 bajtów). Taką ilość przetworzyć może jedynie komputer. Wykorzystanie maszyn w odpowiedni sposób pozwala wyciągnąć z tego ogromu danych potrzebnych informacji. Jak mówi autor Eric Siegel w książce „Prognozuj – kto kliknie, skłamie lub umrze”, proces uczenia maszyn (machine learning) uwalnia potencjał zasobu, jakim są dane – czytamy na blogu WSIiZ. Takie dane pozwalają np. określić, jakie cechy charakterystyczne mają fani Rihanny (w większości demokraci) oraz kiedy wzrasta przestępczość (po wydarzeniach sportowych).
Dane wykorzystuje się do predykcji w bardzo różnych obszarach, takich jak bankowość (m.in. badanie historii kredytowej podczas pożyczki – model przewiduje, czy ktoś jest w stanie spłacić wartość kredytu), polityka (prezydent Barack Obama w 2012 r. został ponownie wybrany m.in. dzięki pomocy prognozowania zachowań głosujących i dobór odpowiednich komunikatów dla grup wyborców), biznes (firma Hewlett Packard HP przypisuje swoim pracownikom ryzyko odejścia z firmy – inaczej mówiąc prawdopodobieństwo zmiany pracy – dzięki czemu przełożeni mogą zareagować z wyprzedzeniem i ich zatrzymać) – wylicza autor.
To nie wszystko, bo dane można wykorzystać także do wskazania, który klient z większym prawdopodobieństwem spowoduje kolizję lub wypadek i na tej podstawie określić wysokość ubezpieczenia. W USA w stanie Maryland takie narzędzia pozwalają prognozować, które z osób znajdujących się pod nadzorem mogą potencjalnie dokonać przestępstw lub zostać zaatakowane. Pewnie każdy z nas spotyka się z prognozowaniem w marketingu internetowym. Specjaliści z tego obszaru potrafią wybrać odpowiednie miejsca umieszczenia reklam na stronie www. „Serwisy randkowe czy programy telewizyjne są w stanie na podstawie przeszłych wzorców osób o podobnych charakterystykach dobrać nam partnera na całe życie (tutaj wyniki akurat prezentują się z różnym skutkiem)” – pisze bloger.
Naturalną kwestią, która pojawia się w kontekście przetwarzania danych, jest sposób ich wykorzystania. Czy zbierane na nasz temat informacje są cennym zasobem, czy raczej pierwszym krokiem do zagłady? Podstawą zastosowania modeli predykcyjnych jest przewidywanie pewnych wzorców zachowań, nawyków, trendów. Takie narzędzia stają się coraz bardziej cennym zasobem. Można go wykorzystać do diagnostyki chorób na podstawie objawów lub oceny prawdopodobieństwa, czy prezentowany studiu filmowemu scenariusz ma szanse odnieść sukces. „Trzeba pamiętać, że większość modeli ma wbudowane mechanizmy analizujące nasze zachowania i stara się nam pomóc oraz ułatwić większość zadań w codziennym życiu” – zauważa autor.
Dodaje na koniec, że takie narzędzie w rękach nieodpowiednich osób może zostać wykorzystane do niecnych celów, dlatego swoimi danymi należy się dzielić w odpowiedzialny sposób. Dobrze jest także skrupulatnie weryfikować systemy je gromadzące.
Oprac. dr Paulina Mozolewska http://naukowka.pl/
O autorze:
Mgr inż. Arkadiusz Gaweł – asystent i sekretarz w Katedrze Kognitywistyki i Modelowania Matematycznego. Absolwent informatyki stosowanej o specjalności systemy informatyczne w zarządzaniu (Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie), inżynier informatyki stosowanej o specjalności technologie internetowe oraz technik dyscypliny informatyka o specjalności bazy danych. Członek zespołu ds. Analiz i Badań Edukacyjnych WSIiZ. Jego zainteresowania naukowe koncentrują się wokół analityki, analityki internetowej, statystyki, Big Data oraz przetwarzania języka naturalnego (NLP).