
Ve složitých prostředích mohou lidé pochopit význam řeči lépe než AI, protože používáme nejen naše uši, ale i naše oči.
Například vidíme, jak se někdo pohybuje ústa a může intuitivně vědět, že zvuk, který slyšíme, musí od této osoby vycházet.
Meta AI pracuje na novém dialogovém systému AI, který má naučit AI, aby se také naučil rozpoznávat jemné korelace mezi tím, co vidí a slyší v rozhovoru.
VisualVoice se učí podobně jako to, jak se lidé učí ovládat nové dovednosti a umožňují audiovizuální oddělení řeči učením vizuálního a sluchového narážky z neznačených videí.
U strojů to vytváří lepší vnímání, zatímco lidské vnímání se zlepšuje.
Představte si, že se můžete účastnit skupinových setkání v Metaverse s kolegy z celého světa a připojit se k menším skupinovým setkáním, když se pohybují virtuálním prostorem, během kterého se zvukové reverbs a timbres ve scéně podle toho přizpůsobují.
To znamená, že může získat informace o zvuku, videu a textu současně a má bohatší model porozumění environmentálnímu porozumění, který uživatelům umožňuje mít „velmi wow“ zvukový zážitek.
Čas příspěvku: Jul-20-2022