Facebook Reality Labs to komórka R&D działająca pod skrzydłami giganta zajmująca się rozwijaniem technologii AR i VR. Właśnie opublikowali wyniki swoich badań, które są naprawdę imponujące.
Całość projektu ‘Codec Avatars’ (tak nazywa się przedsięwzięcie), ma w sobie odrobinę magii patrząc na materiały wideo. System skonstruowany przez zespół potrafi w czasie rzeczywistym odwzorować mimikę twarzy użytkownika gogli VR. Działa to nadzwyczaj płynnie i naprawdę dokładnie. A wszystko dzięki jedynie trzem kamerom. Dwie umieszczone wewnątrz gogli odpowiedzialne są za śledzenie oczu. Trzecia znajduje się w dolnej obudowie i skierowana jest na nasze usta. Użycie słowa ‘śledzenie’ jest nieadekwatne do całej technologii. Bo nie mamy tutaj do czynienia jedynie z badaniem ruchu gałek ocznych czy ust. Cała operacja to skomplikowany ciąg działań, od przechwytywania obrazu przez wygenerowanie modelu 3D, do animacji na podstawie ruchu. Brawo Facebook.
Siła drzemie w nauczaniu maszynowym
Cały proces opiera się o algorytmy Machine Learning.
Our system runs live in real-time and it works for a wide range of expressions, including puffed-in cheeks, biting lips, moving tongues, and details like wrinkles that are hard to be precisely animated for previous methods
Współautor projektu
Powyższe demo zostało zaprezentowane na imprezie SIGGRAPH 2019. Procesy jakie zachodzą w trakcie generowania avatara nie należą do najłatwiejszych. Jeśli chcecie się z nimi bliżej zapoznać firma udostępniła dokument, w którym wyjaśnia wszystko dogłębniej.
Z powyższej dokumentacji dowiadujemy się, że na potrzeby projektu stworzono dwa, różne urządzenia: Training HMD i Tracking HMD. Urządzenie nazwane wersją Training, jest dużo większe i masywniejsze i wyposażone jest w 9 kamer śledzących. Dzięki temu można śledzić ruchy ust i oczu z wielu, różnych kątów oraz ujęć. To pozwoliło na określenie zgodności obrazu generowanego przez algorytm z rzeczywistą mimiką użytkownika. Chodzi także o określenie i sprawdzenie, która część obrazu odpowiedzialna jest za jaką część twarzy. Ten proces ma nawet swoją nazwę: automatically found through self-supervised multiview image translation, which does not require manual annotation or one-to-one correspondence between domains. Czyli w wolnym tłumaczeniu “automatycznie wykrywane przez samodzielnie nadzorowanie obrazów z wielu widoków, które nie wymaga ręcznej adnotacji ani bezpośredniej korespondencji między domenami”. Brzmi mądrze i zapewne takie jest.
Po próbach przeprowadzanych na wersji Training, czas na wersję Tracking. W miejscu dziewięciu kamer pozostają jedynie trzy. Ich położenie jest takie samo, jednak zlikwidowano pozostałe sześć. Widok ten oraz zebrane dane we wcześniejszym procesie pozwalają lepiej “rozumieć” co w danej chwili widzi kamera. To w finalnym efekcie przekłada się na płynność animacji.
Efekt WOW
Płynność oraz dokładność odwzorowania mimiki jest niesamowita. Najdrobniejsze szczegóły są odwzorowywane z zachowaniem struktury tekstur. Przejścia pomiędzy różnymi minami są płynne, a sam ruch ust czy oczu jest praktycznie zbliżony do naturalnego. Najbardziej niesamowite jest to, że w realnym świecie widzimy twarz, która praktycznie w 75% jest zasłonięta przez gogle. Nie widzimy jej w całości, jedynie wycinek z ustami. To powoduje, że odbiór wygenerowanego obrazu budzi dziwne uczucie. Odnieść można wrażenie, że ocieramy się tutaj o termin Doliny Niesamowitości.
Technika, którą zaprezentował Facebook może być niedoceniona. Cały proces pokazuje odwzorowanie twarzy, które może zostać spokojnie wykorzystane w aplikacjach społecznościowych. I zapewne tak się stanie. Jednak procesy jakie tutaj zachodzą mogą sięgać o wiele dalej. Mówimy tutaj o ultra-realistycznym “skanie”, z możliwością animacji w czasie rzeczywistym. Awatary to tylko jedno z prostszych zastosowań.