Chcesz mieć własną stronę lub bloga

Możesz ją mieć w 15 minut za darmo od p-studio.pl
Przejdź na stronę i załóż stronę www za darmo.
Kreator stron www

Sztuczna inteligencja Google –  tworzy własne gry.

Sztuczna inteligencja nadal generuje dużo światła i ciepła. Najlepsze modele w tekście i obrazach – obecnie zdobywające subskrypcje i wplecione w produkty konsumenckie. OpenAI, Google i Anthropic idą mniej więcej równo.

Nic więc dziwnego, że naukowcy zajmujący się sztuczną inteligencją chcą wprowadzić modele generatywne na nowe terytorium. Ponieważ sztuczna inteligencja wymaga ogromnych ilości danych, jednym ze sposobów prognozowania, dokąd zmierzają dalsze sprawy, jest przyjrzenie się, jakie dane są powszechnie dostępne w Internecie, ale nadal w dużej mierze niewykorzystane.

Wideo, których jest mnóstwo, jest oczywistym kolejnym krokiem. Rzeczywiście, w zeszłym miesiącu OpenAI zaprezentowało nową sztuczną inteligencję do zamiany tekstu na wideo o nazwie Sora, która oszołomiła widzów.

Ale co z wideo… igrzyska?

Pytaj i otrzymuj

Okazuje się, że w Internecie jest sporo filmów dla graczy. Google DeepMind twierdzi, że wyszkolił nową sztuczną inteligencję, Genie, na 30 000 godzin wyselekcjonowanych materiałów wideo pokazujących graczy grających w proste platformówki – pomyśl o wczesnych grach Nintendo – a teraz może tworzyć własne przykłady.

Genie zamienia prosty obraz, zdjęcie lub szkic w interaktywną grę wideo.

Otrzymując podpowiedź, powiedzmy rysunek postaci i jej otoczenia, sztuczna inteligencja może następnie pobrać dane wejściowe od gracza, aby przenieść postać przez jej świat. W poście na blogu DeepMind pokazał kreacje Genie poruszające się po krajobrazach 2D, chodzące lub skaczące między platformami. Podobnie jak wąż zjadający swój ogon, niektóre z tych światów zostały nawet pozyskane z obrazów generowanych przez sztuczną inteligencję.

W przeciwieństwie do tradycyjnych gier wideo, Genie generuje te interaktywne światy klatka po klatce. Po otrzymaniu monitu i polecenia przesunięcia przewiduje najbardziej prawdopodobne następne klatki i tworzy je w locie. Nauczył się nawet uwzględniać poczucie paralaksy, powszechną cechę w platformówkach, w których pierwszy plan porusza się szybciej niż tło.

Warto zauważyć, że szkolenie sztucznej inteligencji nie obejmowało etykiet. Zamiast tego Genie nauczył się korelować komendy wejściowe – takie jak idź w lewo, w prawo lub skacz – z ruchami w grze, po prostu obserwując przykłady podczas treningu. Oznacza to, że gdy postać w filmie poruszała się w lewo, nie było etykiety łączącej polecenie z ruchem. Dżin sam się do tego domyślił. Oznacza to, że potencjalnie przyszłe wersje mogą być trenowane na tylu możliwych do zastosowania materiałach wideo, ile jest dostępnych w Internecie.

Sztuczna inteligencja jest imponującym dowodem słuszności koncepcji, ale jest wciąż na bardzo wczesnym etapie rozwoju, a DeepMind nie planuje jeszcze upublicznić modelu.

Same gry to pikselowe światy przesyłane strumieniowo z prędkością jednej klatki na sekundę. Dla porównania, współczesne gry wideo mogą osiągać 60 lub 120 klatek na sekundę. Ponadto, podobnie jak wszystkie algorytmy generatywne, Genie generuje dziwne lub niespójne artefakty wizualne. I jest podatny na halucynacje „nierealistycznej przyszłości” – napisał zespół w swoim artykule opisującym sztuczną inteligencję.

To powiedziawszy, istnieje kilka powodów, by sądzić, że Genie poprawi się od tego momentu.

Tworzenie światów

Ponieważ sztuczna inteligencja może uczyć się na podstawie nieoznaczonych filmów online i nadal ma skromny rozmiar — zaledwie 11 miliardów parametrów — istnieje wiele możliwości skalowania. Większe modele wytrenowane na większej ilości informacji mają tendencję do znacznego ulepszania. A wraz z rozwijającą się branżą skoncentrowaną na wnioskowaniu — procesie, w którym wyszkolona sztuczna inteligencja wykonuje zadania, takie jak generowanie obrazów lub tekstu — prawdopodobnie będzie to szybsze.

DeepMind twierdzi, że Genie może pomóc ludziom, takim jak profesjonalni programiści, tworzyć gry wideo. Ale podobnie jak OpenAI – które wierzy, że Sora to coś więcej niż filmy – zespół myśli szerzej. Podejście to może wykraczać daleko poza gry wideo.

Jeden przykład: sztuczna inteligencja, która może kontrolować roboty. Zespół wytrenował osobny model na nagraniu wideo, na którym ramiona robotyczne wykonują różne zadania. Model nauczył się manipulować robotami i obsługiwać różne obiekty.

DeepMind stwierdził również, że środowiska gier wideo generowane przez Genie mogą być wykorzystywane do szkolenia agentów AI. To nie jest nowa strategia. Pomysł, że kolejny duży krok w dziedzinie sztucznej inteligencji będzie wymagał algorytmów, które mogą się nawzajem szkolić lub generować syntetyczne dane treningowe, zyskuje na popularności.

Wszystko to jest najnowszą salwą w intensywnej rywalizacji między OpenAI i Google o pokazanie postępu w sztucznej inteligencji. Podczas gdy inni w tej dziedzinie, tacy jak Anthropic, rozwijają modele multimodalne podobne do GPT-4, Google i OpenAI również wydają się skupiać na algorytmach symulujących świat. Takie algorytmy mogą być lepsze w planowaniu i interakcji. Obie te umiejętności będą kluczowe dla agentów AI, których organizacje wydają się być zamierzone do wyprodukowania.

„Genie może być podpowiadany za pomocą obrazów, których nigdy wcześniej nie widział, takich jak zdjęcia ze świata rzeczywistego lub szkice, umożliwiając ludziom interakcję z ich wyobrażonymi wirtualnymi światami – zasadniczo działając jako model świata podstawowego” – napisali naukowcy w poście na blogu Genie. „Skupiamy się na filmach z platformówek 2D i robotyki, ale nasza metoda jest ogólna i powinna działać w przypadku każdego rodzaju domeny, a także jest skalowalna do coraz większych zbiorów danych internetowych”.

Podobnie, kiedy OpenAI zaprezentowało Sorę w zeszłym miesiącu, naukowcy zasugerowali, że może to zwiastować coś bardziej fundamentalnego: symulator świata. Oznacza to, że oba zespoły wydają się postrzegać ogromną pamięć podręczną wideo online jako sposób na wytrenowanie sztucznej inteligencji do generowania własnego wideo, ale także do skuteczniejszego rozumienia i działania w świecie, online lub offline.

To, czy to się opłaca, czy też jest zrównoważone w dłuższej perspektywie, jest kwestią otwartą. Ludzki mózg działa na mocy żarówki; generatywna sztuczna inteligencja zużywa całe centra danych. Najlepiej jednak nie lekceważyć sił, które obecnie działają – pod względem talentu, technologii, mózgów i pieniędzy – dążąc nie tylko do ulepszenia sztucznej inteligencji, ale także do zwiększenia jej wydajności.

Zauważyliśmy imponujący postęp w zakresie tekstu, obrazów, dźwięku i wszystkich trzech razem. Filmy to kolejny składnik wrzucany do garnka, który może sprawić, że napar będzie jeszcze mocniejszy.

Źródło obrazu: Google DeepMind

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *