Svakog dana generišemo više od 2.5 kvintiliona1 bajtova podataka. To je digitalni „zlatni rudnik“ informacija koje kompanije analiziraju kako bi potpomogle donošenje pravih poslovnih odluka i strategija. Na žalost, uprkos važnosti upotrebe podataka prilikom donošenja odluka, mnoge kompanije nemaju dobro razrađene tokove analize, kako bi oni bili optimizovani da u najkraćem vremenskom periodu „izvuku“ maksimalnu količinu potrebnih podataka. Naučnici koji se bave obradom podataka (data scientists) za različite svrhe u istoj kompaniji, često rade nezavisno jedni od drugih i retko na raspolaganju imaju dovoljno resursa. Zato je uobičajena situacija da moraju da čekaju da se oslobodi infrastruktura, kako bi mogli da je upotrebe za treniranje njihovih modela. A, kada se model prosledi softverskim developerima, oni gube uvid u njegove performanse.
Zašto je važno mašinsko učenje (Machine Learning – ML)?
Ono može da uradi mnogo, ali u realnosti susreće se sa mnogo poteškoća, jer je sve previše komplikovano. Podaci koje mašinsko učenje može da iskoristi, nalaze se u različitim formatima, na različitim mestima koja imaju različite bezbednosne zahteve i različito se odnose prema privatnosti. Na sve to treba dodati i da je veoma teško generisati novo okruženje za izradu modela. A nedostatak standardizacije često znači da modeli nikad ne prođu nivo pilot-projekta.
Na kraju sve se svodi na jednu stavku – vreme, odnosno na previše dugačak period koji prođe od trenutka kada se osmisli model, pa do njegove finalne realizacije. I upravo to je glavni razlog zašto čak 87%2 data science projekata nikad ne dospe do produkcije. Ako će machine learning da unapredi način na koji živimo, radimo i donosimo odluke, činjenica o tolikom procentu neuspeha deluje zastrašujuće.
Kako da onda preskočimo tu ogromnu prepreku i da mašinsko učenje učinimo mnogo efikasnijim i upotrebljivijim?
1 „SG Analytics“ – 2.5 quintillion bytes of data generated everyday – Top Data Science Trends 2020
2 „Venture beat“ – Why do 87% of data science projects not make it into production?