V týmu Risk Data Solutions (RDA) poskytujeme kolegům v bance technickou a datovou podporu analytických řešení pro řízení rizik. V praxi to znamená, že udržujeme a aktualizujeme databáze, ve kterých jsou potřebná data pro práci metodiků a modelářů. Velká část práce je čistá datařina, kdy je třeba zajistit všechny podpůrné subrutiny pro vývoj modelu (transformace proměnných, předvýběr, …), integrace nových datových zdrojů, přenosy dat a integrace mezi systémy až po dokumentaci, monitoring a podporu produkčního zpracování, včetně řešení příp. incidentů.

 

 

Relativně nově probíhá část těchto aktivit také na Big Data Platformě (BDP), tedy místě určeném pro ukládání a zpracování velkých objemů strukturovaných i nestrukturovaných dat (třeba obrazových a zvukových záznamů).

Abychom nad těmito daty mohli občas i něco zajímavého vyvinout, museli jsme propojit do malého „úderného“ týmu datové analytiky (kteří rozumí tomu, jaký mají data význam), datové inženýry (kteří dokážou data efektivně upravovat), data scientisty (kteří dokážou nad daty vytvářet modely), metodiky řízení kreditního rizika (kteří dokážou model dobře využít v praxi) a IT vývojáře (kteří model zaimplementují do našich systémů). Výsledkem takové spolupráce pak mohou být i velmi složité modely, jako třeba náš model AMON nebo jeho bráška AMONÍK, které přijímají velké množství interních dat o korporátních klientech (které financujeme) a na základě dat rozhodují, zda se s klientem něco děje z pohledu rizika a měl by se na něho podívat kreditní analytik.

 

Klíčová je právě vzájemná spolupráce s metodiky a modeláři – od definice cíle modelu (čeho vlastně chceme dosáhnout) a opakovaného ověřování (zda je to opravdu to, co hledáme), přes design prediktorů a hledání vhodných datových zdrojů, až po transformaci dat a vyřazování vzájemně korelovaných hodnot. Skoro stejně pracná je také produkcionalizace modelu, tj. nasazení do produkce a integrace na hlavní riskové systémy. U Amona nám tahle část zabrala skoro stejně času jako vlastní vývoj modelu.

 

Nejtěžší pro nás bylo ale čištění dat a postupné snižování počtu prediktorů (vstupů) modelu. Abychom sobě a ostatním kolegům v bance do budoucna tuto práci ulehčili, investovali jsme nemalé úsilí do nové knihovny s poetickým názvem KOBLIHA (odkazující na naše společné snídaně), která slouží k automatizaci podpůrných aktivit pro pokročilé modelování – jako je náhrada prázdných hodnot za medián/průměr přes všechny hodnoty nebo zvolené kategorie, normalizace rozložení proměnné, normalizace hodnot, odstranění korelovaných prediktorů, výběr signifikantních prediktorů a další…

 

KOBLIHA je dostupná i pro ostatní týmy v bance a rádi bychom ji dále rozvíjeli. Na naší práci je totiž fascinující to, že se občas podaří zautomatizovat i takové aktivity, o kterých si ostatní myslí, že v nich lidskou práci nahradit nelze. To je ta pomyslná „třešnička na dortu“. Baví nás zkrátka vytvářet nové věci, úzká týmová spolupráce a rádi se při tom vzájemně (po)učíme – to je to, co nás nabíjí. Je za tím ale spousta dřiny a někdy ne příliš zajímavých aktivit, což ale platí o každé vědecké práci. A my jsme rádi, že se za takové “datové vědce“ můžeme považovat. 😊