Stále výraznější orientace na data v podnikové sféře potvrzuje aktuálnost starého moudra o tom, že analytické výstupy jsou pouze tak dobré jako vstupní data.
Aplikace umělé inteligence v mnoha různých podnikových procesech pouze zdůrazňuje potřebu zajistit přesnost a včasnost užívaných dat, ať jsou generována interně nebo získávána z vnějších zdrojů.
Náklady na špatná data
Výzkumná a poradenská organizace Gartner odhaduje, že podniky kvůli používání nekvalitních dat přicházejí v průměru o 12,9 milionu dolarů ročně. A společnost IBM spočítala, že špatná data ročně stojí americkou ekonomiku více než tři biliony dolarů.
Chcete dostávat do mailu týdenní přehled článků z CIOtrends? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.
Většina těchto nákladů souvisí s kontrolou a opravou dat při jejich předávání mezi různými složkami podniku. IBM se domnívá, že polovina času znalostních pracovníků je promrhána těmito činnostmi.
Kromě těchto interních nákladů však existuje větší problém – podnikům, které na základě špatných nebo zavádějících dat učiní chybná rozhodnutí, hrozí poškození pověsti u zákazníků a dodavatelů nebo přímo postih ze strany regulačních orgánů.
Například časopis Sports Illustrated to zjistil, když vyšlo najevo, že otiskl články napsané falešnými autory a s obrázky generovanými umělou inteligencí. Zatímco generální ředitel přišel o práci, mateřská společnost Arena Group ztratila 20 % své tržní hodnoty.
Došlo také k několika významným případům, kdy se advokátní kanceláře dostaly do problémů tím, že v právních sporech předložily falešné precedenty vygenerované umělou inteligencí.
AI jako černá skříňka
I když je kontrola a oprava dat užívaných při rozhodování a v podnikových procesech nákladná, stala se pro většinu podniků zavedenou praxí. Avšak rostoucí míra halucinací u některých velkých jazykových modelů (LLM) vyvolává otázky ohledně toho, jak byly tyto modely trénovány, na jakých datech a zda lze výstupům vůbec věřit.
Například nově zvolený hejtman jednoho australského okresu pohrozil společnosti OpenAI žalobou za nepravdivé tvrzení jejího nástroje ChatGPT, že si odpykal trest odnětí svobody za úplatkářství, zatímco ve skutečnosti to byl on, kdo na trestnou činnost upozornil.
Trénování LLM na důvěryhodných datech a osvojení přístupů, jako je iterativní dotazování, generování rozšířené o dodatečné zdroje (RAG) a další, jsou dobrým způsobem, jak výrazně snížit nebezpečí halucinací, avšak nemohou zaručit, že k nim nedojde.
Učení ze syntetických dat
Ve snahách o získání konkurenční výhody zaváděním systémů umělé inteligence mohou uspět ti, kdo mají přístup k dostatečnému objemu relevantních proprietárních dat k trénování svých modelů. Ale co podniky, které k takovým datům nemají přístup a jichž je většina?
Výzkumníci předpovídají, že za předpokladu, že budou současné trendy pokračovat, dojdou vysoce kvalitní textová data užívaná k trénování modelů LLM ještě před rokem 2026.
Jednou z možných odpovědí na tento hrozící problém bude širší užívání syntetických tréninkových dat. Společnost Gartner odhaduje, že do roku 2030 v modelech umělé inteligence převáží syntetická data nad reálnými. Vrátíme-li se však k varování z úvodu, přílišné spoléhání se na syntetická data zvyšuje riziko nepřesných výstupů a špatných rozhodnutí.
Taková data jsou totiž jen tak dobrá, jak dobré jsou modely, které je vytvořily. Dlouhodobější nebezpečí může vyplývat z „příbuzenského křížení dat“, kdy jsou modely umělé inteligence trénovány na podřadných syntetických datech, jež produkují výstupy, které se pak vracejí zpět do pozdějších modelů.
Postupujte obezřetně
Džin umělé inteligence je venku z láhve, a přestože bude trvat déle, než dojde k rozsáhlé digitální revoluci, kterou slibují někteří až příliš nadšení dodavatelé technologií a konzultanti, umělá inteligence bude i nadále transformovat podniky způsoby, které si zatím nedokážeme představit.
Přístup ke spolehlivým a důvěryhodným datům, jež jsou k dispozici v potřebném rozsahu, je však již nyní překážkou, se kterou si musejí CIO a další podnikoví manažeři poradit, než bude příliš pozdě.
Článek vyšel v magazínu CIO BW 4/2024, který si i s dalšími zajímavými články můžete koupit zde.
CIOtrendssi můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.