Autonomně i bezpečně. Honda učí samořídicí vozy lépe předvídat

Lidské rozhodovací procesy mají hierarchickou architekturu. Tvoří ji několik úrovní uvažování a strategických plánování, které probíhají s paralelním zřetelem k dosažení krátkodobých i dlouhodobých cílů. V posledních zhruba deseti letech se celá řada počítačových vědců pokoušela vyvinout výpočetní nástroje a techniky, které by lidské rozhodovací procesy dokázaly co nejvěrněji napodobit. To by výrazně zkvalitnilo rozhodování autonomních robotů a vozidel. Jejich provoz by se tak dostal na mnohem vyšší bezpečnostní úroveň.

Vědcům z Honda Research Institute USA, Honda R&D a Kalifornské univerzity v Berkeley se nedávno podařilo sestavit speciální datovou sadu, nazvanou LOKI (LOng Term and Key Intentions), jež by měla sloužit k trénování umělé inteligence umožňující předpovídání trajektorií chodců a vozidel v dopravním provozu. Základem tohoto datasetu, který bude oficiálně představen na říjnové International Conference on Computer Vision (ICCV 2021), jsou velmi pečlivě označkované obrázky různých tzv. agentů silničního provozu, například chodců, cyklistů či automobilů, vyskytujících se v ulicích a zachycených z perspektivy řidiče.

„Snažili jsme se co nejpřesněji popsat, resp. zdůvodnit jak dlouhodobé cíle jednotlivých agentů, tak i jejich krátkodobé záměry a na jejich základě předpovídat jejich budoucí trajektorie v rámci konkrétních dopravních situací,“ popsal základní myšlenku projektu Chiho Choi, jeden členů výzkumného týmu. Stačí si totiž vzít jako příklad obyčejné odbočení vlevo: při něm je třeba zahrnout do úvah nejen aktuální dynamiku agenta, ale také to, jak se jeho záměr průběžně mění v závislosti na mnoha doprovodných faktorech, včetně různých nenadálých sociálních interakcí či environmentálních omezení.

Roztřídit, označit

Jak na to tedy tým Hondy a vědců z Kalifornské univerzity šel? Nejprve si okódoval historii pohybu každého agenta. Na tomto základě pak navrhl rozdělení dlouhodobých cílů jednotlivých agentů. Tyto cíle byly poté předány do modulu společné interakce a predikce. Tam vznikl scénický graf, který již agentům umožnil informace o svých trajektoriích, záměrech a dlouhodobých cílech vzájemně sdílet. V každém okamžiku se přitom do grafu promítaly další a další informace o měnící se dopravní scéně. Scénu tedy bylo třeba nějak efektivně roztřídit.

Datová sada LOKI obsahuje tři specifické třídy štítků. První třídou jsou štítky záměrů, které predikují, jakým způsobem se agent rozhodne dosáhnout daného cíle. Druhou třídou jsou environmentální značky poskytující informace o okolním prostředí, které často rovněž velmi výrazně ovlivňuje záměry agentů (např. štítky typu „vjezd/výjezd na silnici“, „semafor“, „dopravní značka“, „informace o jízdním pruhu“ atd.). Třetí třídu tvoří kontextové štítky, což jsou informace, které by také mohly ovlivnit budoucí chování agentů, například informace týkající se počasí, stavu vozovky, pohlaví a věku chodců a podobně.

Lepší než ostatní

Datový soubor LOKI je podle výzkumného týmu první, který lze s vysokou mírou efektivity použít k porozumění záměrů heterogenních dopravních agentů, tedy jak osobních a nákladních vozidel, tak i jízdních kol nebo chodců. Vědci prověřili svůj predikční model sérií testů a zjistili, že svou přesností překonává jiné aktuálně používané metody predikce trajektorií až o 27 %. Rýsuje se tak naděje, že v dohledné době by tento model opravdu mohl přispět ke zvýšení bezpečnosti autonomních vozidel. Dataset LOKI by prý navíc mohl v budoucnu sloužit i jiným výzkumným týmům k trénování vlastních predikčních systémů.

„Momentálně je naším nejbližším cílem zevrubně prozkoumat oblast predikcí založených na rozpoznaných záměrech nejen pro trajektorie, ale také pro obecnější lidské pohyby a chování. Aktuálně pracujeme na rozšíření datové sady LOKI tímto směrem a věříme, že tato naše vysoce flexibilní datová sada povzbudí celou naši komunitu k dalšímu výzkumu prediktivních dovedností,“ dodal Chiho Choi.