Publikacja, której współautorami są polscy naukowcy, została nagrodzona jako najlepszy artykuł na najbardziej prestiżowej konferencji sztucznej inteligencji na świecie – NeurIPS’25. W tym roku spośród ponad 20 tys. prac przyjęto na nią około 5 tys. publikacji.
Praca „1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities” to dzieło naukowców z Princeton University oraz Politechniki Warszawskiej i Instytutu Badawczego IDEAS. Współautorami artykułu są prof. dr hab. inż. Tomasz Trzciński z Wydziału Elektroniki i Technik Informacyjnych PW, dyrektor ds. badawczo rozwojowych IDEAS, oraz Michał Bortkiewicz ze Szkoły Doktorskiej PW.
W tym roku na konferencję nadesłano ponad 20 tys. publikacji, z których zaakceptowano ok. 5 tys. Nasza praca została wyróżniona spośród wszystkich. Jest ona owocem współpracy z Princeton University, która nie udałaby się bez fenomenalnej roli Michała. Co więcej, owa publikacja bazuje na benchmarku JaxGCRL zaproponowanym przez Michała i współautorów w pracy „Accelerating Goal-Conditioned RL Algorithms and Research”, wyróżnionej na konferencji ICLR 2025 (Spotlight) – zaznacza prof. Trzciński.
W nagrodzonej publikacji autorzy wskazali, jak zwiększenie głębokości sieci w uczeniu przez wzmacnianie z kilku do ponad 1000 warstw pozwala osiągnąć nawet 50-krotnie wyższą wydajność. Gdy dziedziny, takie jak wizja maszynowa (Computer Vision) i przetwarzanie języka naturalnego (NLP) przeszły rewolucję dzięki potężnym modelom (np. Llama 3 czy Stable Diffusion), uczenie ze wzmocnieniem (Reinforcement Learning, RL) w dużej mierze utknęło na „płyciźnie”. Standardowe agenty RL zazwyczaj opierają się na niewielkich sieciach neuronowych, posiadających zaledwie od 2 do 5 warstw.
Przez lata w środowisku RL panowało przekonanie, że pogłębianie sieci (tzn. dodawanie kolejnych warstw) nie przynosi korzyści. W wielu przypadkach wręcz pogarszało to wyniki, gdyż potęgowało niestabilność procesu uczenia, przy rzadkim sygnale uczącym. Nasze badanie podważa ten pogląd, wykazując, że skalowanie głębokości sieci jest brakującym elementem pozwalającym na osiągnięcie skokowego wzrostu wydajności oraz pojawienie się zachowań emergentnych w samonadzorowanym RL (self-supervised RL) – tłumaczą autorzy.
Łącząc uczenie kontrastowe (Contrastive RL) z nowoczesnymi rozwiązaniami architektonicznymi zapewniającymi stabilność treningu (połączenia rezydualne, LayerNorm, funkcja aktywacji Swish) oraz ogromnymi ilościami danych online, naukowcy byli w stanie wytrenować sieci posiadające nawet 1000 warstw. Ten przełom umożliwił kilka kluczowych postępów:
Badanie ujawnia, że głębokość sieci fundamentalnie zmienia sposób, w jaki agenci postrzegają świat. Podczas gdy płytkie sieci często polegają na prostych drogach na skróty, takich jak odległość w linii prostej, głębsze sieci uczą się złożonej topologii środowiska, co pozwala im omijać przeszkody, zamiast utykać w martwym punkcie. Ta dodatkowa głębia umożliwia agentom „zszywanie” krótkich doświadczeń w celu rozwiązywania zadań długoterminowych, z którymi wcześniej się nie spotkali, a także pozwala modelowi skupić moc obliczeniową na kluczowych momentach w pobliżu celu. Co istotne, głębokość poprawia jednocześnie eksplorację i zdolność uczenia się. Ta synergia pozwala gromadzić lepsze dane i zarazem pozwala lepiej je zrozumieć.
Wyniki sugerują, że w kwestii skalowania w RL jesteśmy dopiero na początku drogi. Głównym ograniczeniem nie jest już sam algorytm, lecz koszt obliczeniowy trenowania niezwykle głębokich sieci i zbierania niezbędnych danych – wskazuje prof. Trzciński.
NeurIPS (Neural Information Processing Systems) to jedna z najważniejszych konferencji na świecie w dziedzinie uczenia maszynowego. Odbywa się w San Diego w Kalifornii.
MK, źródło: PW
No, a ja jestem autorem wykładów z dwóch zaawansowanych przedmiotów informatycznych, które mają się NIJAK do mojej działalności naukowej, bo zawsze wiedziałem, że w tych dziedzinach, z którymi są związane te przedmioty, pracować naukowo nie będę. Przygotowanie tych materiałów zabrało mi tak z przynajmniej 40 % tego czasu, który powinienem poświęcić na badania naukowe w mojej dziedzinie. Dość podobna sytuacja dotyczy wielu moich Kolegów z mojej branży naukowej. Ale o tym przecież nikt już nie poinformuje, prawda? No pewnie, że nie, bo co tam... No przecież, jakieś tam wykłady z inżynierii oprogramowania wychwalać? Hy... TAK SIĘ MARNUJE potencjał ludzki. Tylko tak dalej... Oczywiście, od czasu do czasu, słychać "larum grają, mości panowie", czyli lamenty, a to rektorów, a to tego, czy tamtego prof. dr hab.-a, i rzeczywistość sobie trwa i trwa.
Super!