Svakog dana generiramo više od 2.5 kvintiliona1 bajtova podataka. To je digitalni „zlatni rudnik“ informacija koje kompanije analiziraju kako bi pomogle donošenju pravih poslovnih odluka i strategija. Nažalost, usprkos važnosti upotrebe podataka prilikom donošenja odluka, mnoge kompanije nemaju dobro razrađene tijekove analize, kako bi oni bili optimizirani da u najkraćem vremenskom razdoblju iskoriste maksimalnu količinu potrebnih podataka. Znanstvenici koji se bave obradom podataka (data scientists) za različite svrhe u istoj kompaniji često rade nezavisno jedni od drugih, te rijetko na raspolaganju imaju dovoljno resursa. Zato je uobičajena situacija da moraju čekati da se oslobodi infrastruktura, kako bi je mogli upotrijebiti za testiranje svojih modela. A kada se model proslijedi softverskim developerima, oni gube uvid u njegove performanse.
Zašto je važno strojno učenje (Machine Learning – ML)?
Strojno učenje ima brojne prednosti i mogućnosti, ali se u realnosti susreće s mnogo poteškoća. Podaci koje strojno učenje može iskoristiti se nalaze u različitim formatima, na različitim mjestima koja pak imaju različite sigurnosne zahtjeve i različito se odnose prema privatnosti. Na sve to treba dodati i da je vrlo teško generirati novo okruženje za izradu modela. A nedostatak standardizacije često znači da modeli nikad ne prođu razinu pilot-projekta.
Na kraju se sve svodi na jednu stavku – vrijeme, odnosno na predugačak period koji prođe od trenutka kada se osmisli model do njegove finalne realizacije. I upravo to je glavni razlog zašto čak 87%2 data science projekata nikad ne dospije do produkcije. Ako će machine learning unaprijediti način na koji živimo, radimo i donosimo odluke, informacija o tolikom postotku neuspjeha djeluje zastrašujuće.
Kako onda preskočiti tu ogromnu prepreku i učiniti strojno učenje mnogo efikasnijim i upotrebljivijim?
1 „SG Analytics“ – 2.5 quintillion bytes of data generated everyday – Top Data Science Trends 2020
2 „Venture beat“ – Why do 87% of data science projects not make it into production?