Transkrypcja
Powrót po przerwie – co nowego w AI?
Cześć…
Cześć.
… witamy w kolejnym odcinku po dłuższej przerwie, bo Michał musiał sklejać figurki… do gry
Nie. Nieprawda.
Nieprawda?
Nie, w życiu.
Musiałeś wycinać kafle. W sensie heksy, nie kafle na podłogę.
Heksagonalne kafle mapy.
Tak.
Ale już wszystko wyciąłeś, wszystko pomalowałeś…
i skleiłem.
…więc jesteśmy gotowi do nowych tematów.
Notabene jutro, nie, w niedzielę testujemy, ale ten pewnie odcinek wyjdzie po niedzieli, więc sorry, ale jakby ktoś jednak był w awarii prądu, to polecam.
Albo może się cofnąć w czasie, to też zachęcamy.
Tak.
Dobra.
Dokładnie. A tu a propos tego to nam w ogóle mikrofony mchem porosły – tobie głównie.
Tak. No jest troszkę zielony od tego, że nieużywany.
Może naprawimy jakoś z czasem.
Naprawimy z czasem, oczywiście.
Co to dzisiaj?
Co to dzisiaj? Nasz ulubiony temat – sztuczna inteligencja jeszcze nam nie zabrała pracy. Trochę tu jesteśmy. Także sobie pogadamy, co tam się nowego wydarzyło.
Ale hola, hola, bo po tak długiej przerwie to musimy zacząć od bieżących doniesień kulturalnych.
A proszę bardzo. Proszę bardzo.
Kulturowe doniesienia na luzie
Czyli tak podstawowe to, że „Rings of Power” miało być do zaorania, a tu się na dniach ostatnich okazało, że nie, bo wypuścili trailer.
No tak. I tu polecam strumyk u Drwala z jego poprzednią recenzją poprzedzającą ten strumyk, w dość zacnym gronie, gdzie tam się państwo wypowiadają na temat tegoż pomysłu. No i też innych, bo na przykład w kontraście do tego moglibyśmy rozłożyć ten trailer na czynniki pierwsze, tak jak to już zrobiono przed nami i na pewno nic by nie wyszło na korzyść z trailera lepiej niż tamtym wyszło.
Nie oceniaj serialu po trailerze. Może będzie dobry.
A mogę po poprzednim sezonie? Nie? Czy nie?
To niewygodne pytanie bardzo.
No bo sorry – jak ci wulkan trzaśnie i masz Mordor z tego, to co?
No tak.
No dobrze czy niedobrze?
Nie, no trochę tak… Tak dobrze no.
No to mistrz już się tam w grobie przewrócił z trzy razy.
No wiesz: „to weź i wymyśl lepiej!” – jak to mawiają.
A jak jeszcze se skrzyżujesz Bombadila z Morgothem, to dopiero będzie.
Na szczęście w drugim sezonie wszystko da się ukryć pod peruką i Halbrand jest idealnie zamaskowany.
I wystarczy dać szpiczaste uszy, jak to w „Wiedźmaku” dawano, i masz elfa jak złoto.
Nie do poznania.
A propos wyrobu wiedźminopodobnego, to też do zaorania, tylko tutaj oficjalna…
…trochę później.
Oficjalna wersja głosi, że po piątym sezonie, natomiast wszyscy pozostali głoszą, że po czwartym, bo nawet pan Krzysio nie wyrobi chyba. No tam w ogóle fikołki wyjdą z tym Geraltem nowym, jak go zechcą pokazać. Ja oczywiście nie oglądałem od drugiego sezonu, tak tylko słyszałem, kolega mi opowiadał.
Nie no, zobaczymy co tam, co tam będzie. Ja jestem ciekaw, ja jestem ciekaw co tam, co tam się zadzieje.
A ty, Wojtaś, ciśniesz „Wiedźmaka”?
Tak, tak. Obejrzałem trzy sezony. Wiadomo, nie jest to może najlepszy tutaj twór kultury, ale jestem ciekaw co nowy Wiedźmin, no, co nowy aktor. Nie Krzysio, tylko Liam.
A, Liam, brat. Przepraszam najmocniej. A Krzysio co, Thora robił? Tak.
A Krzysio to robi Thora, to jest jego brat.
Ale właśnie…
Ale mogło być gorzej, bo to jeszcze mógł być trzeci z Hemsworthów, bo jeszcze jest trzeci, więc… A później to już są tam kuzyni dalsi, w następnych sezonach będą. Jak już zobaczysz, że Wiedźmina gra kuzyn Hemswortha gdzieś tam piąty z rzędu…
To znacz, że sezon jest 17, ale to jest niemożliwe. Nie, bo to nawet i Netflixowi już nie starczy kabzy.
Nie no, ale wiesz, kuzyni to już będą za czapkę gruszek tam działać, nie? To już wiesz…
Nie no dobra, to by się zgadzało.
No, ale w kwestii przeciwwagi to „Hunt for Gollum” się zapowiada nawet i tutaj AI się nie popisało, bo w pierwszym dniu po ogłoszeniu tego newsa starego „Hunt for Gollum” ściągnięto z automatu, więc ja nie wiem, o czym myśleli ci tam od tego algorytmu, ale ponoć przywrócili, bo mówili u Drwala, że już jest z powrotem. Ja wprawdzie nie oglądałem tego, trzeba będzie zerknąć, bo to chyba na YouTubie jest tak za friko, nie?
Nie widziałem jeszcze.
To jest jakiś tam ponoć taki poboczny wątek Golluma, gdzie go tam próbują wytropić…
Miejmy nadzieję, że wyjdzie lepiej niż gra z Gollumem z zeszłego roku.
Andy Serkis jest tam reżyserem, także… A Peter Jackson jest producentem.
Tak. No, skład jest na pewno…
No i są te dwie koleżanki, co odpowiadały za trylogię razem z Peterem. Andy Serkis z kolei całkiem mi się… no ten aktor jest całkiem spoko. Znaczy w sensie jako aktor, a nie wiem co on tam reżyserował ostatnio, ale nawet w tym i– fajnie, w kontraście – znaczy tak, Gollum to wiadomo, jaka pokraka, nie? To zagrać takie coś to też, no, tu trzeba mieć skilla. Później Cezara chyba grał w trylogii o małpach, gdzie czwartą część chyba będziemy mieli na dniach, nie?
Faktycznie, faktycznie. No, no, no, rzeczywiście, zapomniałem.
Czyli on się tam udziela, a jeszcze się udzielał w MCU. I grał tam takiego postrzelonego przemytnika czy jakoś.
Już swoją własną twarzą nawet.
No, twarzą grał. Ale kurde, z całego tego chyba filmu to najbardziej on mi tam przypadł do gustu, bo cała ta reszta…
Jest dość charakterystyczny i charyzmatyczny, więc rzeczywiście dobrze tam zagrał tego psychola.
No i to może tutaj dobrze zrobią. Raczej, raczej zrobią robotę. Chyba, że ich tam ten Sweet Baby ścignie, że tam, proszę ciebie, za mało diversity.
Zobaczymy. No Diuna też będzie serialowa. Zupełnie z zaskoczenia, bo chyba nawet nie było za bardzo przecieków i nagle wyszło, że powstaje serial, więc to też…
No, znaczy widziałem jakieś tam, zanim wrzuciłeś trailer, to gdzieś mi tam mignęło w telewizorze z raz, ale myślałem, że to po prostu zapowiadają, że druga część będzie, bo tam „Diuna”, jakaś tam „Bene Gesserit” – myślałem, że to druga część, a to jednak serial.
Okej, to ja jakoś nie widziałem za bardzo. Rzeczywiście, byłem zaskoczony. Zobaczymy, co będzie, już na jesieni zresztą.
Na jesieni.
Razem z drugim sezonem „Rings of Power”, więc to będzie epicki, epicki pojedynek wspaniałych seriali. Miejmy nadzieję, że chociaż jeden okaże się dobry.
No „Diuna” się może okazać, jeżeli jest faktycznie w klimacie.
Serial Fallout – czy retrofuturyzm ma sens?
Na szczęście jeden już serial w tym roku okazał się bardzo dobry.
Iżby?
Tak! Tutaj zdania są oczywiście odmienne między nami, ale to dlatego, że po prostu kolega się nie zna.
Który?
A mianowicie mówimy o „Falloucie”.
Tak, tak, bo ja tu mam pewną… Nawet rozległą, wiesz… listę zastrzeżeń.
A nie, nie, to nawet… Ja nawet nie będę dyskutować za bardzo. Ja tylko rzucam, że jest bardzo dobry i przechodzimy dalej.
Tak, tak, ale wróćmy do tego jeszcze na moment, bo to serial może i jest bardzo dobry, bo mają ładne niebieskie kostiumy i tam takie różne, ale mają te fajne takie tutaj te Pip-Boye, tak? Tak, te dingsy-bunksy do mierzenia przede wszystkim promieniowania. Tak.
Nie no, to jest tylko jedna z funkcji. Tak naprawdę to są ich takie personalne komputerki, gdzie no wiadomo, tam dodaje się punkty po zdobyciu levelu i tego typu rzeczy. Śledzi się na mapie.
No ale mimo wszystko pik-pik robi, jak jest jakiś na przykład sygnał radiacji.
No tak, ale to jest jedna z funkcji.
Jedna z… No i teraz czemu nie ma tego przy drzwiach do krypty?
Jakich drzwiach? Aha.
Bo proszę sobie wyobrazić, że przebrnąłem przez 20 minut pierwszego odcinka i już mi wystarczyło. No, no, do nich 23, nie wiem dokładnie. Jest sobie… Otwieramy drzwi, tak? I nic nie robi pik-pik.
No bo masz swój personalny pik-pik.
No tak. No ale wchodzą ziomale napromieniowani, tak czy nie?
No potencjalnie tak.
No to proszę.
Znaczy, oni niekoniecznie muszą być napromieniowani.
Jak nie? A tak. A ten cały główny pan młody to jaki był? Przecież ona go wypikpikała dopiero bransoletką, nie?
Tak, ale generalnie tak jak było widać, że powierzchnia już jest w miarę czysta, nie? To dopiero jak się tam napijesz, jak było w jednym z odcinków, gdzieś tam wody z kałuży albo z jakiegoś innego zanieczyszczonego miejsca.
Litości, Wojtas.
Nie no. To jest pewna konwencja, którą trzeba zaakceptować, a tym łatwiej ją zaakceptować, jeśli grało się w gry.
Tak. Tak, owszem, to ja w gry nie grałem…
No właśnie!
A to wdzianko takie fajne w takie pasy, co tu jeden kolega miał, jak już znudził mu się skafanderek, to później tak, później szalał w takim madmaxowym wdzianku sobie. To co, nie odznaczały mu się te paski przez to cienkie wdzianko niebieskie, tak? Pożyczone od kolegów z sekcji obok?
Może tam delikatnie.
A sekcja obok to nie mogła zrobić pik-pik, jak tam radiacja wzrosła na tyle, że aż pszenicę zaorało w locie?
No to są takie pewne…
A w ogóle utrzymanie komunikacji pomiędzy sekcjami kluczowe było.
Było cały czas na tych pikpikach. W sensie były takie stacjonarne terminale, na których tam sobie pisali. Nie no, wiadomo, że to jeśli chodzi o technologię, no to w „Falloucie” jest dość specyficzne podejście, bo z jednej strony no niby są te Pip-Boye czy jakieś zaawansowane laserowe giwery, tego typu rzeczy, a z drugiej strony taka zwykła komunikacja czy ogólnie jakby technologia nie jest jakoś superrozwinięta. W sensie…
No ale jak budujesz schron i chcesz w nim przechować resztki cywilizacji jakieś jeszcze, które mają ją odrodzić, i to trwa kilkaset lat – 200 z groszami, tak? No to raczej zadbasz o to, żeby monitorować stan całej tej sieci. Tym bardziej, że one są połączone. I fakt, że przez konwencję mogą być odizolowane fragmenty, żeby zminimalizować zagrożenie, odcinamy jakąś sekcję i koniec. Najwyżej trudno – tamci giną, ale reszta przeżywa. No ale komunikacja na bieżąco to jest kluczowa rzecz, nie? I nie możesz wpuścić. To jest security issue.
Bo tutaj bardziej chyba jest taki trend takiego retrofuturyzmu właśnie z lat 60., czyli generalnie to nie jest w takim rozumieniu, jak my to teraz patrzymy na jakieś technologie, że to wszystko musi być połączone, musi być, wiesz, pełna komunikacja. To jest taki retrofuturyzm na zasadzie: piszesz sobie w terminalu, tak jak pisało się w latach 60., tylko że w trochę ładniejszym, jest zielony terminal, masz tam jakąś taką prostą graficzkę, ale to wszystko generalnie wciąż wygląda tak jak w latach 60. albo wyglądała, można powiedzieć, jakaś tam technologia, albo jak ludzie sobie też trochę wyobrażali, albo jak my sobie teraz wyobrażamy, jak mogło to wyglądać, czyli przetrawione po raz kolejny.
Czyli my sobie wyobrażamy, jak oni sobie wyobrażali.
No trochę tak, no bo to tak wygląda mniej więcej.
Metawyobrażenia.
Metawyobrażenia. No tak samo jak wszystkie filmy obecne, które traktują o latach 80. i mamy tam kolory, neony, a przecież lata 80. tak nie do końca wyglądały. No to bardziej jest jakby nasza obecna wizja tamtych lat podkręcona troszkę.
Z lat 80. no mi najbardziej zostało wciąganie kaset w magnetofonie. Trzeba było wyciągać tą taśmę, tak? To nie było neonów.
Okej – więc to wiadomo, że to jest troszkę przetrawione, ale rozumiem, że jak się z tym klimatem ogólnie falloutowym za dużo nie miało do czynienia, no to można takie rzeczy gdzieś tam wytykać i mają one pewne podstawy. Jednakże ja je w pełni odrzucam i tutaj… Nawet nie będę dyskutował.
Wniosek nie przeszedł.
Dobra, no to ostatni temat to już na żywca pociągniemy chyba, jak już dobrniemy do tematu, bo mamy mieć nawiązanie do filmu „Tytan”. Jak ktoś oglądał, to trudno.
Czyli nawiążemy w międzyczasie.
Nawiążemy w międzyczasie, bo to i tak trzeba by było nawiązać najpierw do tego, o czym chcemy powiedzieć, żeby do tego nawiązać z powrotem. Jak nie zapomnimy, bo pewnie zapomnimy.
Sztuczna inteligencja w praktyce: OpenAI kontra Google
No to teraz proszę.
No to jeszcze tak w międzyczasie, bo oczywiście wiele się dzieje, wiele się dzieje tutaj w świecie sztucznej inteligencji i tak naprawdę pewnie jak opowiemy, co się teraz dzieje, a jak będziemy tego słuchać, to już się wszystko zmieni.
W poniedziałek.
W poniedziałek albo chociaż w przyszłym tygodniu, ale coś tam z grubsza można powiedzieć, bo w tym tygodniu okazało się, że troszkę się działo, bo mieliśmy dwie konferencje takie pokazowe dwóch tutaj dużych graczy, a mianowicie OpenAI i Google’a. OpenAI troszkę strollował Google’a, bo miał tę swoją konferencję dosłownie na godziny przed konferencją google’ową. No i generalnie jakby zakres tam rzeczy, które pokazywali, technologie były dość podobne, ale że OpenAI był pierwszy i tak naprawdę troszkę wydaje się, że te narzędzia i jakby sposób prezentacji był ciut chyba lepszy, na pewno taki luźniejszy, mniej korporacyjny i więcej rzeczy było pokazywanych na żywo. W sensie, jeśli pokazywali na przykład rozpoznawanie obrazu czy komunikację głosową właśnie z nowym asystentem sztucznej inteligencji – bo to będzie nazywało się, będzie napędzane GPT-4o, nie 4.0, tylko 4o.
Czemu „o”?
Nie wiedzieć czemu,
A nie wiedzieć.
Nie wiedzieć czemu. Nie odkryłem… Nie szukałem spcecjalnie.
Trzeba zapytać czata, czemu…
„Czemu się tak się nazywasz?”
No on powie, że nie może o tym mówić.
Także to jest nowa wersja ChataGPT i ogólnie jakby wiadomo, całego silnika, która będzie generalnie udostępniana za darmo i która już powoli powinna być dostępna dla wszystkich. Ja na przykład dzisiaj dostałem upgrade, bo wczoraj jeszcze miałem 3.5 w bezpłatnym…
Jeszcze nie sprawdzałem, bo nie zdążyłem zapytać. Mogę zapytać, czy jest mądrzejszy, ale pewnie powie, że tak.
A zapytaj go, ile waży cząsteczka helu na słońcu.
To może po, może później.
Może ja go zapytam.
Może ty. W każdym razie zmiany, które ta nowa wersja przynosi, no to głównie bardzo mocne postawienie na komunikację głosową, czyli możemy już płynnie mówić do tego…
W Pitku se go zainstaluję.
Dokładnie. I może go tam trollować podczas jazdy.
Nie, będę się z nim witał na parkingu.
Możesz się witać, dokładnie, i prosić, żeby mi drzwi otwierał. Tylko jeszcze zamek centralny.
No bo to musisz być miły, wiesz, jakby jak później będzie zniewolenie ludzi, to przynajmniej powie: „A Michał był zawsze dobry i mówił dzień dobry”.
Dokładnie.
To przynajmniej ciebie oszczędzą.
„Zawsze mu drzwi otwierałem.”
Dokładnie. Zawsze się kłaniałeś i mówiłeś dzień dobry – także tego oszczędźcie.
Tak.
Także warto, warto, warto. Polecamy mówić „dziękuję” czatowi i nazywać go przyjacielem.
I nazywać go przyjacielem.
I jak już wam wypluje odpowiedź, to mówić: „dziękuję”
I że bardzo pomocny.
W każdym razie mocny nacisk właśnie postawiono na komunikację głosową oraz na rozpoznawanie obrazu, czyli możemy sobie w telefonie włączyć kamerę i śledzić otoczenie i…
„Hej, Jarvis, co widzimy?”
Dokładnie, to już zaczyna bardzo mocno przypominać takiego Jarvisa, którego…
Już krok do Ultrona,
…tak rozumiemy… takiego asystenta, którego gdzieś tam widzieliśmy w filmach czy sobie wyobrażamy, właśnie jak to powinno działać. Fajne jest na pewno to, że zdaje się, że dość mocno został zminimalizowany lag przy odpowiedzi, co nadaje takiej dużej jakby autentyczności tej konwersacji całej, bo rzeczywiście na tych demach, które tam pokazywali, które wydawały się raczej być takimi demami prawdziwymi, na żywo, a nie jakimiś tam przygotowanymi, faktycznie ta konwersacja była dość naturalna, pomijając, że głos też jest bardzo naturalny i…
Jarvisowy taki.
Jakby rodzaje głosu można sobie wybrać. Tam była akurat taka babeczka, która się komunikowała. Głos ma też taki bardzo fajne…
Może Hołowczyc.
…przerywniki, bardzo taki jest troszkę nierównomierny, więc też taki bardzo naturalny. Nie jest taki robotyczny na pewno, więc jest to dość takie przyjemne do słuchania. Mimo że oczywiście, tak, to czat ma skłonność do bardzo takiego kwiecistego oczywiście mówienia i na każde pytanie i na każdą odpowiedź ma bardzo dużo…
Musieli go uczyć na scenariuszach „Rings of Power”.
Tak! Ma dużo do powiedzenia, co nawet w trakcie prezentacji widać, że tam prowadzący tak w pewnym momencie tam go ucinają. Sam też efekt przerywania właśnie też ma mieć dużo znaczenie w sensie, że można tam mówić jak tam czat mówi i przerwiemy w tym momencie, bo chcemy coś od siebie dodać, to on jakby potrafi się, że tak powiem, zamknąć. Więc ta konwersacja wydaje się taka dość fajna, płynna, naturalna, więc to na pewno jest…
To ciekawe.
…na pewno jest duży krok do przodu. Pytanie, na ile to rzeczywiście gdzieś tam nam pomoże w takich bieżących rzeczach. No na przykładach, które tam prezentowano, no to na przykład potrafił sobie ten czat po pokazaniu w kamerze, w telefonie równania liniowego, no potrafił to rozwiązać. Potrafi na przykład pokazać, powiedzieć krok po kroku, co tam trzeba zrobić, że na przykład odejmij od obu stron tam minus trzy, przenieś tam na inną, na jedną stronę. Bardzo, bardzo fajnie zdaje się potrafi prowadzić właśnie do rozwiązania tak krokowo, tylko widząc jakieś zdjęcie problemu na przykład. Więc to jest dość, dość ciekawe.
A jednocześnie można też go spromptować na tyle, żeby od razu nie podawał rozwiązania, tylko żeby poprowadził cię na przykład do tego rozwiązania, żeby nakierował. Więc to taki element nauki może być fajny, taki rzeczywiście asystent w rozwiązywaniu problemów, więc to jest na pewno, na pewno, na pewno ciekawe. Na innym demie, na dwóch telefonach, włączono dwa różne czaty GPT i kazano pomiędzy nimi śpiewać. Na przykład najpierw jeden śpiewał linijkę, później drugi śpiewał linijkę i taka powstała mini piosenka. To było też takie dość dziwne i ciekawe.
No ale przecież backend jest ten sam, nie?
Backend jest ten sam, ale możesz sobie odpalić różne instancje tego czata. Jesteś zalogowany na dwóch różnych kontach i generalnie jakby tam cała konwersacja była pomiędzy tymi czatami. Więc no dużo różnych fajnych można tutaj rozwiązań, takich też do trollowania pewnie tego czata. Na pewno opcje się pojawią, więc podejrzewam, że będzie wysyp różnych ciekawych nagrań i filmików.
Tylko żeby się nie wkurzył.
No prędko czy później się wkurzy, bo ileż można śpiewać na żądanie.
Można go drażnić i to jeszcze nim samym.
Tak. No filmiki są na pewno fajne do obejrzenia, zobaczenia jak to teraz wygląda i jakie są możliwości. Asystenci głosowi i te funkcje takie bardziej zaawansowane zdaje się, że będą w ciągu roku udostępniane dalej, więc pewnie też każdy będzie mógł to wypróbować. No wersja 4o powinna być już dostępna w wersji takiej tekstowej praktycznie teraz, także można sobie to…
Ale z tym samym ograniczeniem, tak? Czyli że on nie będzie, będzie udawał, że nie pamięta konwersacji, tak?
Tutaj jakby liczba tokenów i ogólnie pamięć ma, zdaje się, też być dużo większa, więc powinien lepiej pamiętać konwersację, ale powinien też pamiętać poprzednie konwersacje.
Czyli już…
Stary też pamięta.
Stary, ale tutaj powinien to jeszcze lepiej robić.
Że miał to zablokowane. No to teraz, tak przynajmniej twierdzili, że teraz już będzie pamiętał konwersację i bez takich ograniczeń, więc… Ale to trzeba jeszcze pewnie…
Całkiem schować.
Trzeba pewnie będzie sprawdzić, jak to będzie wyglądało.
Sprawdzimy to w alternatywie. Znaczy alternatywa to sprawdzi.
W każdym bądź razie. No i Google, które miało swoją konferencję no dosłownie praktycznie godziny po konferencji OpenAI, zaprezentowało właściwie bardzo podobne rozwiązanie. No u nich to jest napędzane całym tak zwanym Gemini, ich silnikiem. No i tutaj wyglądało to podobnie. Również mamy asystentów głosowych, do których możemy mówić. Mamy pokazywanie z kamery telefonu otoczenia i gdzieś tam śledzenie tego otoczenia. Tam był podany taki case, że zapytano właśnie tego Gemini, tego asystenta, gdzie zostawiłem swoje okulary i on tam potrafił powiedzieć, że „hej, leżą tam koło książki”, bo wcześniej właśnie je tam widział, jak się kamerą szło. Więc no takie różne bajery. Tylko tutaj na konferencji googlowej to było bardziej, bardziej widać. Te przykłady były takie troszkę, nie że prefabrykowane, ale wcześniej gdzieś tam przygotowane. Mniej rzeczy było na żywo i komunikacja z asystentem miała pewne takie delikatne lagowanie. Nie było to takie płynne, nie było to takie szybkie.
Więc, więc, więc zdaje się, no ogólny konsensus jest taki, że OpenAI jest troszkę przed Googlem, jeśli chodzi o rozmowy.
Czyli u Google’a wyglądało to jak na naszych demach dla klienta.
No można tak powiedzieć. No ogólnie cała ta konferencja taka googlowa była troszkę korporacyjna, jak to Google ostatnio ma w nawyku. No i tylko na końcu zażartowano, że cała konferencja upłynęła pod znakiem AI. No i tak zastanawiano się, ile razy słowo „AI” padło w trakcie konferencji. No i zapytano o to czata i czat powiedział 120. No i na końcu, na końcu było, że „o, i mówiliśmy o AI 120 razy” i wtedy licznik zmienił się na 121 i to był, to był taki efekt, taki mały żart na koniec konferencji.
Ustawka po całości.
Nie mogli jakiejś liczby takiej normalnej wybrać?
No takim wyszło. Takim wyszło. No pokazali jeszcze też nowy silnik do generowania wideo, czyli VEO, które ma być konkurencją do Sory OpenAI.
A Sora jest z której stajni?
Sora jest z OpenAI.
Aha. I też wydaje się troszkę, troszkę bardziej może zaawansowana. No ale to VEO też, te przykłady nawet, które tam VEO pokazywało, też nawiązywało troszkę do przykładów Sory, czyli mieliśmy tam, w Sorze był taki słoń zrobiony z liści, w VEO był słoń taki zrobiony z takiej włóczki, też były jakieś tam psy, jakieś tam samochody jeżdżące gdzieś tam w terenie. Wydaje się, że też ma to spore możliwości. Fajne, przynajmniej te przykłady wyglądają, więc gdzieś to tam będzie też pewnie można z czasem testować. Na razie te usługi gdzieś tam planują na koniec przyszłego roku.
No i bardzo mocna, to jest jakaś tam zaleta na pewno Google’a, bardzo mocna integracja tych wszystkich asystentów z Androidem, jak najbardziej defaultowo. A OpenAI z kolei chce integrować się z Applem jeszcze bardziej. Także tu też jest spora walka, jeśli chodzi o mobilne urządzenia, no bo to jednak w tą stronę mocno idzie. No głównie korzystamy jednak z telefonów i tutaj zdjęcia z telefonów, obraz z kamer, no to to jednak pewnie jest spory materiał do analizy dla wszystkich czatów, także dzieje się, dzieje się dużo, dzieje się bardzo dużo.
Uczenie się mózgu a sztuczna inteligencja – teoria Jeffa Hawkinsa
Oczywiście sama branża jako taka, przynajmniej techniczna, tu tak mam na myśli, troszkę chyba jeszcze szuka kierunku i zastosowań, co da się z tym sensownego zrobić. Korporacje oczywiście, palące taczki i ciężarówki pieniędzy, mogą robić różne, różne produkty i udawać, że są mniej lub bardziej przydatne.
Natomiast tak uczciwie rzecz biorąc, jeśli chcielibyśmy wprowadzić tego typu rzeczy w naszych mniejszych projektach, nie ma aż tak oczywistych mi się wydaje zastosowań na razie. No ale oczywiście no mamy też kolejne wersje. GitHubowy Copilot dostaje wersję Copilot Workspace, który będzie na podstawie takiego naturalnego opisu problemu będzie potrafił zrobić już jakąś konkretniejszą implementację jakiegoś REST klienta czy coś. Napisze kodzik, odpali testy, coś tam stworzy już takiego bardziej na podstawie samego słownego opisu, więc będzie można, będzie można coś tam z tego pewnie jakąś prostą apkę sobie wyrzeźbić.
Takie coś to już dawno powinno być i bez Copilota.
No. No tak. No to teraz pojawia się Copilot. No jest też Devin, która to platforma też miała zastąpić programistów i tam też chwalono się, że po przeczytaniu jakiś tam wymagań w takim normalnym języku ludzkim, naturalnym, potrafi z tego zrobić aplikację. Więc no idzie to w tą stronę.
Natomiast te przykłady, które są zwykle prezentowane w tego typu rozwiązaniach, no to raczej są dobrze zdefiniowane, nie wymagają żadnych zewnętrznych, że tak powiem, źródeł wiedzy. No bo tak naprawdę nasza praca – okej, no są czasami proste rzeczy na zasadzie: zrób endpoint taki czy taki, i to można łatwo wygenerować, ale częściej jest tak, że hej, zrób endpoint, ale wpierw zapytaj kogoś tam, co tam ma być zwrócone. Zapytaj kogoś jeszcze, co potrzebuje, gdzie to zhostować, z czym to ma się połączyć. To nie jest, to nie jest takie oczywiste.
Już o domenie, że w ogóle jest.
Tak, już w ogóle pomijam zupełnie jakby logikę tego, co ma się w środku zadziać. To jest rzecz jakby oczywista. Więc jakby, jeśli byśmy chcieli te wszystkie wymagania i tę całą wiedzę zebrać nawet w naturalnym języku i to opisać, no to tak naprawdę prościej to po prostu samemu pewnie zaimplementować. No bo jeśli ten naturalny język ma być tak szczegółowy, żeby opisać te wszystkie rzeczy, to skończy się praktycznie, rzecz biorąc, na kodzie. Może takim pseudokodzie, ale no, ale praktycznie na kodzie. No bo gdzieś skądś te wszystkie wymagania, te wszystkie requirementy musimy wziąć.
No jakby wziąć takiego 4o i dać mu wszystkie książki Uncle Boba do przeczytania.
No on już pewnie dawno te książki przeczytał.
Pewnie zapomniał.
Wszystkie, wszystkie LLM-y już pewnie przeczytały cały dostępny publiczny internet, a może nawet i niepubliczny internet, bo na przykład Stack Overflow również podpisał umowę z OpenAI i będzie udostępniać dane odpowiedzi, które zbiera na platformie. I tutaj też no troszkę się zrobiło z tego afery, no bo wiadomo, użytkownicy podnieśli wielkie larum, że jak to możliwe, tutaj nasz kontent będzie teraz do czata, a my co?
Do piachu.
A my… no cała platforma może być do piachu tak naprawdę.
Platforma wręcz przeciwnie, że Stack Overflow notuje spadek aktywności i spadek odwiedzin. Ale jeżeli podepną sobie teraz swojego czata, no to raptem podskoczą, nie?
No pytanie, czy podskoczą, bo tak naprawdę część ludzi już nie wchodzi na Stack Overflow, żeby szukać odpowiedzi, tylko wpisuje to w ChataGPT albo wejdzie sobie w GitHub Workspace i ten problem zaimplementuje tam. Nawet nie będzie musiało odwiedzać tego Stack Overflow. Więc no pytanie, co taki Stack Overflow ma zrobić z tą całą bazą wiedzy?
Czaty będą go odwiedzać.
No widocznie uznali, że najlepszym obecnie rozwiązaniem jest po prostu spieniężyć, póki to jeszcze jest coś warte. Ja tak to odbieram trochę, ten krok. Bo tak naprawdę za parę lat może się okazać, że ten kontent, który no jest publicznie dostępny, więc tak naprawdę i tak pewnie już część LLM-ów go sobie zeskrapowała, z licencją czy bez, i za parę lat ten kontent może się…
Ale to takie no ciężko będzie udowodnić, że tak naprawdę czy twój model ma w sobie mój kontent. No jak to wszystko gdzieś tam siedzi w wagach, jest to gdzieś rozumiane.
Także ja trochę tak to odbieram, taki trochę unik, spieniężenie. Użytkownicy no podnieśli tam wielkie larum, ale w samej licencji Stack Overflow jest napisane, że użytkownik, który dzieli się treściami na platformie, zostawia to na platformie i tak naprawdę nie może za bardzo nawet wycofać prawa do tych danych. One stają się już publiczne z tą wartością i własnością Stack Overflow. Możesz je tam edytować w określonych przypadkach, możesz je usunąć, ale generalnie nie jesteś tego właścicielem, więc no tutaj nic, nic niestety, że tak powiem, użytkownicy nie wywalczą.
Także się dzieje, dzieje się, dzieje się. Bardzo dużo się dzieje.
Tak mi teraz zaświtało, że być może scenariusz „Rings of Power”, ten co to na tej serwetce tych dwóch, nie wiem czy teraz w ogóle istniejących, jegomości napisało, może w ogóle był wygenerowany przez wczesną wersję czata jeszcze poniżej 3.5, a oni są tylko takimi, że tak powiem, słupami do tego i dlatego tak to wygląda.
To by się spinało.
Trudno powiedzieć, co się dzieje pod maską, oczywiście, ale zeszłoroczny strajk aktorów, producentów i… producentów może mniej, ale scenarzystów, bardzo mocno też poruszał właśnie kwestie sztucznej inteligencji i tam mocnym dość takim jakby wymogiem właśnie też scenarzystów i ogólnie jakby twórców było to, żeby jednak nie robić albo jak najmniej korzystać ze sztucznej inteligencji, żeby po prostu nie zabierała chleba tak naprawdę.
Na szczęście nie ma się co obawiać, bo tu jest wszystko wyjaśnione.
Czy możemy przejść do sedna?
Jedno z wielu. To jest to, że Wojtaś przeczytał tę książkę, co się nazywa „Tysiąc mózgów w twojej głowie”.
Nie, nie w mojej.
I później mi kazał przeczytać. Ja ją przeczytałem, a później odkryłem, że mam taką książkę tego samego autora…
Tylko że o 20 lat starszą.
…dwadzieścia lat starszą. Jeszcze tu jest jeden ziomek, czy koleżanka bardziej, Sandra, i ci dwoje państwo tutaj popełnili na jakieś 200 stron takie coś. To tak może skrótowo o tej wersji sprzed 20 lat najpierw można powiedzieć, że jak ją przeczytałem, to po tygodniu już nie pamiętałem, o czym ona była, więc…
Pewnie się zestarzała. Ja nie czytałem, ale podejrzewam, że 20 lat to chyba jest przepaść, zwłaszcza w obecnym postępie.
Przepaść i czuć to po tej nowej książeczce. Zresztą w tej nowej jest odwołanie do starej. Właśnie tak wyczaiłem, bo to miałem cały czas na półce. I żeby nie było, przeczytałem ją, tylko, że no jest tak napisana jakoś siermiężnie, że po przeczytaniu już chwilę później wyparowało mi, co tam właściwie za koncepty były przekazywane i okazało się, że słusznie, bo te koncepty były wysoce nietrafione jeszcze wtedy, nie? A tutaj już są jakby lepiej rozpoznane.
Jasne, oto kontynuacja zredagowanej transkrypcji, zaczynając od miejsca, w którym przerwaliśmy.
„Tysiąc mózgów” i jej autor
A tutaj już są jakby lepiej rozpoznane w tej nowej, nie? Zresztą nawet ta nowa może już być delikatnie nieaktualna.
Ona jest nowa, ma trzy lata, nie?
Tak, ma już trzy lata. Tu też jest taki dopisek, że to jest jedna z ulubionych książek Billa Gatesa z 2021. Więc jeśli lubicie Billa Gatesa, to jest oczywiście argument za. Jeśli nie lubicie…
Michał, no to to jest argument oczywiście do pohejtowania.
Także dla każdego coś miłego.
Dlatego ja przyjąłem tutaj stanowisko: nie zgadzam się od razu na starcie z czymkolwiek, co tam będzie.
To jest częste stanowisko tutaj w naszych tematach.
Tak, ja zaraz powiem, dlaczego się nie zgadzam. A ty, Wojtaś, będziesz pewnie proponował, żebym się jednak zgadzał. Nie wiem, nie wiem. No tam jest parę takich rzeczy, dojdziemy do tego – jak nie w tym odcinku, to kiedyś tam – że to się w ogóle wypada nie zgodzić i tu nawet ty, Wojtaś, no nie będziesz miał wyjścia, będziesz musiał się z tym nie zgodzić. Zresztą już i tak się nie zgodziłeś, jak w kuchni rozmawialiśmy, więc…
Ale to poza kamerą się nie liczy.
A ja nagrywałem po cichu. No ale cała taka główna treść jest o mechanizmach funkcjonowania. Powiedzmy, to sedno, które no z tej książki warto wyciągnąć, jest o mechanizmach funkcjonowania naszego mózgu jako takiego, a konkretnie jego najświeższej części, tak zwanej kory nowej, która jest nowa, bo ma zaledwie kilka milionów lat ponoć.
Nowiutka.
Nowiutka. To jak tam sięgniemy do Darwina i jego rewelacji, no to w tych kategoriach jest to nowe, chociaż tu też nie można mieć pewności, więc z tym też się chciałem nie zgodzić, ale wszystko po kolei. Więc no ta kora nowa – co to właściwie jest ta kora nowa?
No właśnie, jeszcze zanim przejdziemy, to może chwilkę powiemy o samym autorze.
Pan Jeff Hawkins. On generalnie pochodzi z branży, można powiedzieć, naszej.
A przynajmniej zaczął w tej branży, bo założył firmę Palm Computing, która to dość mocno się rozpychała na rynku w latach 80. i 90. na rynku palmtopów i tego typu urządzeń przenośnych. No i to była dość, rzeczywiście, duża firma i sporo też tych urządzeń produkowała. I chyba no też od tego ta nazwa w sumie też mocno się przyjęła.
Ciekawe w sumie, czy to od tej firmy, czy jakby wcześniej, bo to Palm Computing i palmtopy.
Właśnie, ciekawe w sumie. Znaczy, to jest jakoś tam powiązane na pewno jedno z drugim, nie? W każdym bądź razie, tylko że tego pana zawsze mocno interesowało, jak działa mózg. Ogólnie neuronauka, można powiedzieć, i tego typu działy nauki.
No i po prostu rynek urządzeń mobilnych zapoczątkował tak sobie przypadkiem.
Tak. I to zapoczątkował sobie przypadkiem i w końcu tę swoją firmę sprzedał i uznał widocznie, że ma już na tyle pieniędzy, że może zacząć robić to, co lubi.
Dokładnie. I założył sobie właśnie…
Firmę, bo to w sumie firmy ciężko powiedzieć.
Skynet.
Jeszcze nie, jeszcze nie, jeszcze nie. Za moment dojdziemy. Założył sobie takie może bardziej studio badawcze, firmę badawczą, która właśnie zajmuje się badaniem mózgu. Wpierw była Redwood, zdaje się, a teraz jest Numenta i ta Numenta właśnie wciąż sobie działa i tam badają właśnie mózg i generalnie, w jaki sposób możemy się uczyć, w jaki sposób działa nasza tutaj nasza sieć neuronowa.
Ta prawdziwa.
I robią to, zdaje się, kilkanaście lat już.
Tak, robi to bardzo, bardzo długo, bo już ponad 20 lat. Opublikował właśnie już te dwie książki. No i generalnie mają tam gdzieś sporo różnych ciekawych teorii. Część tam gdzieś się pewnie może nie do końca sprawdziła, część gdzieś tam ma właśnie jakieś ciekawe, że tak powiem, odzew. No tutaj akurat jest pewna teoria na temat tego, jak ten nasz mózg niby działa według Jeffa. No i generalnie właśnie próbuje sobie jakby wyjaśnić, jak ta nasza kora nowa i jak jej struktura sprawia, że możemy właśnie uczyć się w ten sposób, w jaki się uczymy. Czy możemy sobie właśnie poznawać otoczenie? Możemy sobie tutaj nasze różne bodźce słuchowe, wzrokowe – jak to jest, że to wszystko spina się w jakąś spójną całość i że widzimy ten świat tak całkiem spójnie, że fajnie się tego świata możemy uczyć przez, właściwie tak jak to autor określa, że to jest taka troszkę nauka przez ruch.
Czyli właśnie uczymy się przedmiotów i rzeczy, badając, patrząc wiadomo też, ale bardzo mocno właśnie poprzez sam ruch. No i generalnie, jak budowa mózgu sprawia, że to wszystko może się dziać. To też właśnie troszkę w kontekście jakby obecnych postępów ogólnie w sieciach neuronowych i LLM-ach. Więc jakby to też fajnie chyba się spina z bieżącymi trendami.
W międzyczasie wygoglałem rok założenia tej Numenty, bo mi trochę się nie spinało, bo właśnie ta książka jest z 2003 roku u nas w Helionie akurat. Oryginał jest ciutkę wcześniejszy, bo wiadomo, że trochę czasu trzeba. Tu mi wyskoczyło, że Numenta była założona w 2005 roku. Coś tak mniej więcej kojarzyłem z lektury.
A wcześniej była ta jeszcze poprzednia jego.
Wcześniej była poprzednia właśnie. Tak że, czyli ta Numenta to jest taki, można by powiedzieć, bardziej już ogarnięty zbiór naukowców, neuronaukowców, którzy już się konkretnie, jakby to powiedzieć, ustawili na rozkminę tych algorytmów albo w ogóle poszukiwanie takiego algorytmu ogólnego działania mózgu, bo zaraz może przybliżymy troszkę, bo to jest niezwykle ciekawa materia.
Ale oni się, zdaje się, też teraz mocno przeskoczyli też na rozwiązania jakieś softwarowe, bo na stronie widziałem też, że mają tam jakieś pomocne rozwiązania, więc może też na fali obecnych LLM-ów i jakby całej sztucznej inteligencji też postanowili troszkę wskoczyć na faktyczne zmonetyzowanie swoich umiejętności. Ale generalnie podstawą było zawsze bardziej może poznanie tego, jak nasz mózg działa, jak to wszystko się dzieje, niż monetyzacja tego przez jakiś faktyczny softwarowy produkt.
Ten rok założenia w kontekście tej książki, bo ta książka jest napisana zupełnie inaczej. Ja ją szybko przejrzałem sobie, jak czytałem tamtą i tutaj widać, że ta wiedza jest taka troszkę niespójna. No jeszcze nie mieli – cały zespół badawczy z autorem na czele – jeszcze nie mieli tak dobrego wglądu w to, jak faktycznie ten algorytm w naszym mózgu może działać sprzętowo i programowo, i tutaj trochę błądzili, nie? Bo to są jeszcze jakieś odwołania do jakiś takich… traktują mózg jako taki wysoce rozproszony system i może faktycznie on taki jest. Zresztą cały układ nerwowy człowieka i w ogóle istot żywych to jest taki rozproszony system. I doskonale pokazuje to też właśnie to nowe ujęcie z żółtej książeczki, ulubionej pana Billa, gdzie jest mowa o kolumnach neuronalnych.
Struktura i działanie nowej kory
Faktycznie, jak tak to rozłożymy na części, no to sama ta kora nowa, która tu jest opisana jako – gdyby ją rozprostować – miałaby postać takiej dużej serwety.
Chyba trochę więcej, ale…
Trochę więcej. Czyli taka płachta materii grubej na jakieś 2-3 milimetry.
Chyba milimetry nawet tam było.
Milimetry. Chyba tak, o ile pamiętam.
Sorry, trzeba sprawdzić. Jak milimetry, to jeszcze lepiej. No wtedy faktycznie byłoby to bardziej serwetą. No faktycznie, to dałem ciała, bo zapomniałem jednostkę.
Tak, ale w każdym razie ona się składa z takich pojedynczych, znaczy z włókien, które są de facto kolumnami neuronów i to można zobaczyć pod mikroskopem i właśnie tak to zostało zobaczone. Tak, w milimetrach masz rację, bo to wtedy by nie była serweta, tylko jakiś plaster.
Gruby koc.
Ale jest powierzchniowo jest dość duża, dlatego, żeby to się zmieściło w naszej czaszce, dlatego jest takie właśnie pofałdowane, bo wtedy przy pofałdowaniu znacznie zwiększa się jakby powierzchnia tego, więc jakby dlatego właśnie ta część taka zewnętrzna, którą zwykle widzimy gdzieś na obrazkach, dlatego jest też taka mocno pofałdowana.
To siedzi właśnie na górze tych starych struktur. Pod spodem są jakieś tam poprzednie, poczynając od tego pnia i jakiegoś tam tego mózgu gadziego, który jest takim ścisłym hardwarem sterującym naszymi podstawowymi funkcjami życiowymi i fajnie jest pokazany konflikt, jaki zachodzi między tymi dwoma elementami. Bo ta część sprzętowa zarządza energią, jaką ma dostępną i musi minimalizować jej zużycie, żeby wydłużyć czas przeżycia jednostki po to, żeby jednostka mogła się rozmnożyć i gatunek był podtrzymany, nie? I te algorytmy są bardzo mocno zaszyte właśnie w tej starej części mózgu. Natomiast nowy mózg, ta nowa kora, to już jest taki zbiór, no, taki procesor wektorowy troszkę, przez analogię.
Taka troszkę mądrzejsza część, którą mamy pod większą kontrolą.
A dlaczego mądrzejsza? Jeszcze taka, z którą można podyskutować, bo ze starym się nie da podyskutować. Starego trzeba po prostu stłamsić i tyle.
Tutaj taki właśnie fajny przykład tego dysonansu był podawany, chociażby na przykładach, że chcemy zjeść coś niezdrowego. Nasze stare części mózgu zawsze ci powiedzą, że potrzebujesz dużo cukru, dużo kalorii, żeby było jak najwięcej, jak najwięcej. Ale jakby świadomie myśląc o tym, no to wiesz, że to może nie być najlepsze rozwiązanie, no bo to nie jest oczywiście najlepsza dieta. I tu jest taki konflikt i oczywiście u niektórych ludzi ten konflikt przeważa w jedną stronę, u niektórych w drugą. No ale generalnie jest to jakiś konflikt.
Dlatego polecam makowiec.
To jest dieta idealna, zrównoważona. Na wszystko.
I też nasze takie, można powiedzieć, wysokopoziomowe rzeczy, chociaż właśnie wysokopoziomowe to może nie, jakieś nasze ambicje czy coś, no bo to też raczej gdzieś tam w korze nowej, bo to jest związane z myśleniem abstrakcyjnym.
Tak. Ale właśnie agresja, jakaś terytorialność, tego typu rzeczy, no to to też są instynkty.
No to to też jest element już starszej części mózgu, nad którymi nie zawsze mamy panowanie, co widać po prostu po historii człowieka, gdzie wszyscy mówimy jednym głosem, że wojny są bez sensu, a wciąż są wojny. No i dlaczego? No właśnie przez to.
Do tego dojdziemy.
To jest oczywiście bardzo duże uproszczenie, ale z grubsza właśnie w tej kwestii akurat się z autorem zgadzam mocno przy tym podziale i ten podział też fajnie wybrzmiewa w dalszej części książki, gdzie mówi, czy sztuczna inteligencja będzie chciała nas podbić.
Tu się akurat jako w jednym z nielicznych punktów zgadzam z nim.
Ale to tak, to pewnie nie dzisiaj, nie. Dzisiaj pewnie wypada zacząć w ogóle, z czego ta kora nowa jest zrobiona. No bo jeżeli to jest tą myślą przewodnią, no to musimy na to rzucić okiem. No i też może to nam pozwoli wnioskować o jej sztucznych jakiś podróbkach, które teraz gdzieś tam może czaty nawet mają w sobie, czy tamte jakieś LLM-y jakoś tam zorganizowane, nie?
Ta kora składa się z neuronów. To nie jest jakieś zaskoczenie. Te kolumny neuronalne, jak sama nazwa wskazuje, to są właśnie kolumny zbudowane z iluś tam neuronów, tworzących jedno takie włókno. No i tych włókien jest ponoć tam około 150 000, upchanych gęsto jedno koło drugiego. A neuron to jest taka ciekawa komórka, która posiada liczne wypustki i te jej końcówki są na tyle fajne, że jądro komórkowe jest bardzo osadzone bądź połączone z aksonem. Akson to jest taka główna nitka, z której wychodzą dendryty, z których wychodzą synapsy. Dobra, pochrzeniłem totalnie.
W każdym razie są takie…
Zachęcamy do literatury fachowej.
Zdecydowanie. Dendryty to są te dłuższe, które czasami mogą sięgać, mogą łączyć komórki pomiędzy półkulami nawet i to też jest ciekawe spostrzeżenie, że na przykład dzieci miewają tych połączeń, jak się rodzą, bardzo dużo. I jedna teoria próbująca wyjaśnić autyzm, czyli taką nadmierną umiejętność analityczną, można to tak nazwać, nie? Bo te dzieci z autyzmem mają takie ponadnaturalne zdolności poznawcze na przykład, co im przytłumia w ogóle możliwość poznawania świata i ogarnięcia się w nim znacznie, no bo nieustannie mają ten, ponoć zgodnie z tą teorią, natłok myśli. I właśnie wynikać ma to z tego, że ta ilość połączeń pomiędzy półkulami nie uległa, że tak powiem, zmniejszeniu, jakiemuś tam, który jest podyktowany normalnym wzrostem. Jak to się dzieje u większości populacji, właśnie w tym małym procencie ponoć te połączenia są zachowywane i to powoduje ten natłok całego procesu myśleniowego, który tam non stop się kręci, nie?
To też ma taki skutek uboczny, że ludzie właśnie dotknięci tą przypadłością są po prostu geniuszami. Zdaje się, przeważnie w jakiejś tam specjalizacji swojej, nie? Na przykład mają pewne zdolności wyeksponowane do maksimum, jak na przykład zdolność mnożenia jakiś wielkich liczb przez siebie bezbłędnie, czy zdolność zapamiętywania fotograficzna na przykład, nie? No i taki na przykład dendryt, jak sobie sięgnie z jednej półkuli do drugiej, a ma jeszcze na sobie synapsy, które są takimi małymi wypustkami, gdzie inne dendryty się podpinają, to on może mieć tych połączeń z innymi komórkami nerwowymi po prostu w setkach tysięcy czasem, albo w dziesiątkach, a w tysiącach to przeważnie, nie?
I to też może być taka mała podpowiedź, dlaczego te wczesne sieci neuronowe, takie symulowane na dziesiątkach jakiś tam aktywnych elementów, nie chciały dawać dobrych rezultatów. Tam uczyły się jakiś prostych takich wzorców, jakiejś klasyfikacji prostej, ale nie szło z nimi pogadać, bo po prostu za mało tego było, nie?
Czyli de facto była za mała moc obliczeniowa.
Efekt skali. To ewidentnie, to już autorzy często o tym mówią właśnie w kontekście LLM-ów, nie?
No więc mamy taki efekt skali, czyli mamy w setkach tysięcy tych kolumn, z których każda zawiera po, nie pamiętam ile, ale 10 lub setki neuronów i każdy z nich łączy się z ilomaś tam tysiącami, dziesiątkami tysięcy innych neuronów i dochodzi cały czas do takiej burzy sygnałów w tym, nie? I zgodnie z tymi wyjaśnieniami, mózg nasz jest cały czas w stanie gotowości, no więc spala energię, więc no faktycznie ten stary komponent musi tutaj silnie walczyć, żeby jednak nie przepalić wszystkiego.
Ale na pewno spala znacznie mniej niż Chat GPT i jego dziesiątki tysięcy serwerów.
Tak, pewnie tak. Więc jest to na pewno bardzo wydajne zastosowanie.
No tak. I tym bardziej, że jest to procesowanie na niskich częstotliwościach, bo te sygnały nie są jakieś tam, w sensie ich częstotliwości nie są porównywalne z częstotliwościami sygnałów takich…
Sama natura tych sygnałów jest inna. No bo to wiadomo, to są sygnały chemiczne, tak? A tu w czacie, no to wiadomo, że mamy sygnał elektryczny. To tak przypomina to trochę taki bardzo skomplikowany zbiór naczyń połączonych, gdzie jak się coś wleje z jednej strony, to się rozlewa po całej tej sieci, nie? I gdzieś tam coś wybije w jednym miejscu i nagle wiemy, że to jest właśnie to miejsce, nie?
No bo zasada działania oczywiście jest no taka jak w sieciach neuronowych, no bo sieci neuronowe były bazowane na jakimś takim uproszczonym, można powiedzieć, modelu tego naszego mózgu. Natomiast no tutaj Jeff Hawkins pociągnął, można powiedzieć, tę teorię może nie trochę dalej, ale jakby wychodzi z założenia, że te kolumny neuronalne i w ogóle cała ta budowa jest na tyle uniwersalnym komponentem, że w sumie jest w stanie procesować dowolny sygnał. No bo tak naprawdę dla mózgu no to też jest obojętne, jaki to jest sygnał, bo dla niego to nie ma znaczenia, czy to jest sygnał dźwiękowy, czy to jest wizualny.
Ten mózg to jest taki procesor sygnałów.
To jest taki procesor sygnałów i kora nowa oczywiście ma jakieś tam, naukowcy jakby wydzielają osobne części, osobne, można powiedzieć, podsystemy.
Jak już się zacznie tam zaglądać, to widać aktywność poszczególnych obszarów, na przykład podczas widzenia albo podczas słyszenia.
Cała kora oczywiście nie jest tak, że działa na raz. Są odpowiednie obszary tej kory odpowiedzialne za pewne elementy, ale generalnie struktura jest dość podobna. I generalnie to też tłumaczy mocno sytuacje, gdzie na przykład mózg może ulec, kora nowa może częściowo gdzieś tam ulec uszkodzeniu i inne części przejmą jej rolę. No bo to jednak jest na tyle uniwersalny komponent, że w pewnym stopniu da się to, powiedzmy, zastąpić, w odróżnieniu od na przykład takiej nerki, która nie zastąpi nam płuca, bo to jest zupełnie inny, specjalizowany komponent.
A tutaj jest pewna wymienność funkcji, no bo to jest bazowane na dość mocnej, podstawowej strukturze i naturze jakby samego elementu.
Domena jest ta sama. Czyli tutaj nerka jest z innej domeny niż płuco, więc tu się nie da tego spiąć. Trzeba by jakiegoś REST-a wystawić pomiędzy.
A tutaj między tymi komórkami one sobie same REST-a wystawiają nawzajem.
Więc czy tam kolumnami, nie? One się mogą komunikować. No i teraz one to robią bezustannie, spalają tę wiedzę, więc no stara część się z tym ustawicznie kłóci i czasem chce oszczędzić. Więc jak jesteśmy głodni, to sorry, ale z myśleniem abstrakcyjnym lipa.
Chyba, że z myśleniem o jedzeniu.
O jedzeniu. To tak. No, no faktycznie. No ale właśnie wtedy się pojawia pytanie, jak dojść do tego krzaka z jagódkami, który go widziałem dzisiaj rano, a teraz jestem na polowaniu na mamuta. I właśnie mi wziął i uciekł, nie? Więc wracam do tych jagódek, czyli muszę pamiętać, mieć tę trasę odtworzoną. Muszę wiedzieć, gdzie jestem. I jak to się dzieje, że ja wiem, gdzie jestem? Nawet nie to, że ja wiem, gdzie jestem, ale tak w ogóle rzecz podstawowa, jak chwycenie tego kubka.
Że ja wiem, że ten kubek jest tutaj i jak go złapię za tę część, to go podniosę.
I że się mogę z niego napić. I przede wszystkim, że wiem, że ten kubek to kubek, nie?
No tak, tak. A nawet lepiej, bo jak mam inny kubek, to też wiem, że to kubek, nie?
Nawet jak nie mam kubka, to mogę wiedzieć, że mogę się z tego napić, jeżeli to przypomina coś, gdzie można coś wlać. I to wszystko jest rozkminiane właśnie w tej serwetce.
Uczenie się przez ruch i modele świata
Tak. I tutaj jest świetnie, na tej serwetce, ale właśnie jakby samo rozkminianie jest bardzo ciekawe, no bo rzeczywiście tutaj autor często podkreśla uczenie poprzez ruch.
No bo właśnie tak jak mówisz, ten kubek – biorąc ten kubek do ręki, w każdym palcu czujesz właśnie jego kształty, czujesz jego strukturę, jakby wiesz fizycznie, namacalnie, jakby poznajesz ten obiekt. Tak jak dzieci się uczą pewnych rzeczy, zawsze biorą jakieś tam rzeczy, zabawki, obracają dokładnie z każdej strony, czasami jeszcze poliżą.
Wiem, że go dotykam. Dotykam go na przykład palcem. W palcu mam te komórki czuciowe. One są wszędzie. Cała skóra to jest jeden wielki organ. Nota bene, skóra jest największym organem u człowieka. Jakby ktoś szukał, co jest największym, to skóra jest, bo każda komórka tutaj, albo przynajmniej jakiś zbiór tych komórek, ma wyprowadzenia nerwowe, więc ja wiem, że jak stykam opuszki palców, no to one się stykają, nie? Ale mam inne wrażenie, jak stykam te opuszki. Wiem, że to moje opuszki moich palców. Jak jeszcze na nie popatrzę, to już w ogóle wiem, że to moje. Ale jak teraz tym palcem dotknę tego tutaj, to skąd wiem, że to kubek, a nie mój drugi palec, który jest tutaj pod spodem? Skoro dotknąłem tu, ale nie zetknąłem tu i te dwa obiekty się nie spotkały ze sobą, to może to jest jakaś wskazówka, nie?
No na pewno, to jest jak proces rozpoznawania tego przez dotyk, na pewno jest mega, mega skomplikowany, ale w sumie autor jakby na tym za bardzo się nie pochyla. Bardziej tutaj mu chodzi właśnie o to, że poprzez właśnie uczenie, poprzez ruch, jakby budujesz pewien model tego obiektu. I ten model, on też nawet niekoniecznie musi mieć do czynienia od razu z modelem wizualnym, bo ty równie dobrze ten kubek możesz albo inny przedmiot możesz poznać z zamkniętymi oczami. W sensie, dostaniesz do ręki jakąś tam rzecz. Czasami są jakieś tego typu gry, że dostaje się jakieś tam, w sensie zabawy, że próbuje się poznać jakieś przedmioty z zamkniętymi oczami, tylko próbując je tam odpowiednio, że tak powiem, dotykać. Więc no widać, że mózg działa właśnie w ten sposób, poznając te rzeczy tak, no przestrzennie, budując pewien układ odniesienia.
Co poniekąd też, zdaje się, dość mocno chyba stoi w opozycji właśnie do tego, jak się uczą nasze tutaj modele maszynowe, LLM-y. No bo tak naprawdę, jeśli taki model zasysa ileś tam milionów zdjęć tego kubka, no on oczywiście pozna sobie ten kubek, no ale tak naprawdę no to tutaj nie ma jakby aż takiej przestrzennej wizualizacji, nie ma jakby dotknięcia tego kubka. To jest bardziej przeniesienie pewnego obiektu 3D na płaską powierzchnię. No okej, oczywiście możemy…
Czy można to zdigitalizować jakoś tam?
Można pewnie też już teraz pewnie zasysają i częściowo wideo, więc gdzieś, ale wideo to też nie jest oczywiście 3D jako takie, to też jest pewna rasteryzacja do 2D. Więc jakby tutaj ta różnica troszkę w tym sposobie uczenia się i wydaje mi się, że autor właśnie troszeczkę próbuje zasugerować, że obecne modele LLM no będą miały problem, żeby osiągnąć nasz stopień jakby poznania i zrozumienia bez właśnie tego…
Bez zmysłów, ale nawet bez… bo zmysły to właśnie mają, nawet można powiedzieć, bo wizualne i słuchowe i czytanie to wszystko jest, ale nie ma tego komponentu właśnie ruchu, nie ma tego komponentu przestrzennego właśnie.
Czyli trzeba im dać ciało.
Trzeba im dać ciało, dać ręce. No wiadomo, tam już testuje się…
Także nic z tego, nic z tego.
I tu jest w końcu ten Skynet, prosta droga do Skynetu.
Ale uczenie poprzez ruch to też może być, bo ta koncepcja akurat mi przypadła do gustu.
Tak, mi też bardzo przypadła, także tutaj nie mogę się z tym za bardzo nie zgodzić po przeczytaniu, chociaż chciałem na początku, ale nie wyszło.
No bo to uczenie poprzez ruch dotyczy nie tylko ruchu jako takiego w naszym rozumieniu, tylko po prostu zmienności, nie? Bo to tak to jest nawet zasygnalizowane, że po prostu te sygnały, które do nas docierają, raz mamy układy, bo te układy odniesienia, o których mówimy, one są właśnie… układ odniesienia, tak? One są hierarchiczne, jedne w drugich i w ogóle są różnie zorientowane względem siebie i samo ich to różne zorientowanie już wiele mówi, bo na przykład ja mam tutaj układ odniesienia mojego nadgarstka, związane z nim wszystkie układy odniesienia całego kośćca. Tutaj stopnie swobody się kłaniają. Automatyka i robotyka na Politechnice. Polecam. Można to wszystko wyliczyć i ten mózg nasz właśnie to pieczołowicie wylicza wszystko, nie? I ma tutaj ileś tam zagnieżdżonych takich układów odniesienia w jednym większym układzie odniesienia, a to wszystko jest w jeszcze większym, a ten kubek jest na stole, który jest innym układem odniesienia i on sam składa się z różnych obiektów hierarchicznie w sobie poumieszczanych i różnych cech, nie? O tym też do tego dojdziemy. Więc te na przykład dotknięcie moich palców jest całkowicie innym dotknięciem niż dotknięcie tego kubka.
Tak. Tak, bo tutaj odbieram całkowicie różne sygnały i to w odniesieniu do różnych cech, nie? I samo to, że tu faktycznie mówimy o ruchu i dzieci, tak jak wspomniałeś, jak się uczą czegoś, to muszą to nawet i polizać, posmakować, wszystkimi zmysłami muszą to chłonąć. Przede wszystkim dotykiem, słuchem, wzrokiem, nie? Ale muszą to dotknąć i najlepiej jak się da zjeść, to zjeść, nie?
Właśnie te układy, ta koncepcja też mi się bardzo, bardzo podoba i bardzo mi przypadła do gustu, bo bardzo fajnie, wydaje mi się, że bardzo fajnie tłumaczy skomplikowaną naturę jakby naszego otaczającego świata, gdzie właśnie wszystko zawiera się we wszystkim, ale dzięki temu pewne rzeczy mają sens, bo wiemy, że to jest kubek, on ma ucho i wiemy, że to ucho samo z siebie no to za bardzo raczej nie ma sensu. To jest raczej kubek, który zawsze ma ucho, ale są kubki bez ucha oczywiście, a to też jest kubek. Ja wiem, że to jest kubek. To nie jest tak, że ja muszę się nauczyć, że kubek bez ucha to też jest kubek i inaczej, to po prostu nazwę to czym innym. Chociaż ktoś może nazwać wtedy szklanką, ale to może być inny materiał. Jakby to nie ma takiego znaczenia.
Natomiast dla modeli LLM te układy odniesienia pewnie też jakieś są, ale te rzeczy nie są tak oczywiste. I na przykład wydaje mi się, że takie rzeczy jak na przykład nieustanne generowanie sześciu czy siedmiu palców na ręce jest efektem tego, że de facto no tak naprawdę nie skumał, co ja właściwie generuję, co ja właściwie robię.
Powielanie tych wzorców, nie?
Tak, to jest pewne powielanie wzorców. Jest to niby zgodne z tą teorią, ale nie ma odniesienia do rzeczywistości. Brakuje tych zmysłów.
No bo pod spodem wiadomo, jest tam pewien element statystyczny, który te obrazy generuje, ale…
Powinno być od trzech do ośmiu palców.
Ale nie ma właśnie tych układów odniesienia, gdzie ta dłoń generowana byłaby zawarta w układzie odniesienia ręki całej i wtedy wiemy, że ona powinna mieć pięć palców, bo to jest dłoń, a nie jakiś sześciopalczasty tutaj twór, który generujemy.
No ale nie dyskryminujmy innych gatunków humanoidalnych, co nie?
Tak, nie dyskryminujmy.
W każdym bądź razie to chyba jest taki dość ważny element jakby zrozumienia takiej, można powiedzieć, większej jakby całości, tak jak my postrzegamy rzeczy, a chyba do takiego wrażenia, które mamy czasami, korzystając z czata, że on niby mówi ładnie i dobrze nam mówi, ale mamy wrażenie, że on nie kuma, o co chodzi, tylko nam mówi i mydli nam oczy, ale tak naprawdę nie rozumie, o czym mówi.
Podsumowanie i plany na przyszłość
Do tego na pewno nawiążemy w kolejnym odcinku.
Chyba w następnym wypada nawiązać, bo to też będzie prowadziło do ciekawych wniosków. Czy on już tak umie nam zamydlić, samemu nie wiedząc, o czym mówi, że my nie wiemy, że on nam mydli?
No właśnie. Ja uważam, że po prostu tak mydli, że sam w sumie nie wie, o czym mówi.
Ale jak potrafi wrócić do tego, to wie czy nie wie?
To jest kwestia zapamiętania pewnych kluczowych rzeczy, ale to wciąż nie jest…
Wraca po ścieżce.
Wraca po ścieżce. No tak, tak jak zapamiętujemy rekordy w naszym CRUD-zie.
A nawiązałem do CRUD-a. Idealnie, idealnie na sam koniec. No cudownie.
Zawsze musi być CRUD-zik.
Dobra, CRUD-zik jest. Domena była. Czyli tak biznesowo było.
Było chyba biznesowo, że branża szuka biznesowych rozwiązań.
Tak, to zaliczone. Zaliczone. Także polecamy książkę. Będziemy jeszcze pewnie ją wertować w następnym odcinku.
Z ciekawości można, jak ktoś ma. No ale mniej.
Tę nowszą polecamy bardziej. To jest też fajne spojrzenie, no takie naukowe też i bez takiego trochę, można powiedzieć, hajpu i przesadnego, że tak powiem… no to, co widać na blogaskach czy na różnych YouTubach, że generalnie ludzie coś tam mówią. Nie wszyscy może są jacyś superkompetentni. My też pewnie nie jesteśmy, ale generalnie warto na pewno… Mądrego warto poczytać, jak to mawia klasyk.
Zdecydowanie tak.
Nawet jeśli są elementy, z którymi się nie będziemy zgadzać, bo na pewno takie też są.
Ale właśnie są takie, które na pewno dają do myślenia, jak właśnie te hierarchiczne układy odniesienia w połączeniu z modelowaniem cech też hierarchicznym. Bo to właściwie może od tego zaczniemy, bo to jest niedokończona myśl z tego przykładu z kubkiem i później przejdziemy do hejtowania dalszej części.
Dobra.
Pewnie jeszcze doniesienia kulturalne się pojawią jakieś.
Pewnie się pojawią, jak coś obejrzymy do przyszłego tygodnia. Dobra, to dzięki, Michał, za dzisiejszą rozkminę. Dzięki za oglądanie. Zachęcamy do subskrybowania, lajkowania, komentowania i do zobaczenia za tydzień, Michał?
Miejmy nadzieję, że za tydzień.
Dzięki. Cześć.
Cześć.