Transkrypcja
Wstęp – AI w zwierciadle popkultury
Cześć, Wojtek.
Cześć, Michał. Dzisiejszy odcinek to kontynuacja…
…AI w ujęciu. Zamotało mi się, bo mi się „ujęcie” zrobiło na początku. Ale zagroziłem ostatnio, że zaczniemy od tego bardziej akademickiego podejścia, a tu jeszcze popatrz, popatrz, tyle rzeczy się wydarzyło.
Obejrzeliśmy parę filmów.
No, obejrzałeś film, słyszałem. I co?
Tak, no „I Am Mother” [Jestem matką, 2019]. Tak jak rozmawialiśmy – ciekawe. Tak, pewne lęki, pewne obawy pokazane. Trochę trudno tutaj nie zaspojlerować, żeby trochę więcej…
I można, można, uwaga! Ściskamy sobie uszy, ściszcie.
Także no, jako „Matka” – ciekawe, czy nasze roboty się sprawdzą, ale chyba zawsze będziemy je traktować z taką lekką dozą podejrzliwości, jak to było w filmie.
Lekką?
Nie. No, to akurat ja już tam za dużo szczegółów z tego filmu nie pamiętam, znaczy główną oś jak najbardziej, ale ta dziewczynka, która była wychowywana już jako któraś inkarnacja tego eksperymentu, nie? Tak? Co można było zobaczyć poza…
To w ogóle zanadto, albo może był za duży czynnik buntu. Chyba egzaminów nie przeszła, bo tam była kwestia, że były pełne szuflady tych egzaminów, które te dzieci przechodziły.
Na podstawie tych egzaminów Matka postanowiła robić taką selekcję naturalną. Tak, czyli to jest chyba taki klasyczny dylemat. No, takie może trochę eugeniki.
Nasza Matka Natura też taką selekcję robi.
No tak, tylko w pewnym stopniu. Tylko tu zawsze ją bierzemy za coś takiego, można powiedzieć, bezosobowego i no, trudno się kłócić z ostateczną wyrocznią, trudno się kłócić z jakimś doborem naturalnym, wiadomo. A tutaj, jeśli coś tym steruje, to zawsze będzie, że tak powiem, dylemat moralny, który można przypiąć komuś czy czemuś.
Ale tutaj jest jeden aspekt, który może trochę wykracza nawet poza sztuczną inteligencję i w ogóle takie zagadnienia. Mianowicie, aspekt kompatybilności gatunkowej – czyli że wiadomo, jeżeli żywa istota wychowuje żywą istotę, to mimo wszystko te interakcje między nimi inaczej wyglądają niż w takim, no, fikcyjnym, ale w miarę jakoś tam zamodelowanym środowisku, gdzie forma życia, jeżeli przyjmiemy, że ta sztuczna inteligencja jest prawdziwa, powiedzmy taka, która jest już świadoma siebie i ma jakieś swoje cele… Ona tam miała cel, że musiała odrodzić planetę chyba, nie? W sensie, tych ludzi chciała wychować.
No, czyli jak najbardziej – lepszy gatunek człowieka, nie? Czyli zawsze taki lepszy gatunek człowieka jest dobrym celem do osiągnięcia.
Ktoś taki się znajdzie, ktoś tam się znajdzie.
Nie, tutaj ostatnio był taki pan jakiś czas temu, też chciał, też miał takie zapędy.
Tak, no i jakoś tak to wychodzi, że przeważnie nie idzie supergładko i najczęściej dla tych właśnie, którzy są budulcem tego gatunku, jest najgorzej. Także tutaj spełnia kryteria.
No, ale tutaj jeszcze chciałem nawiązać do takiego aspektu kompatybilności pomiędzy tymi istotami, nie? Że żywym istotom jakoś łatwiej się dogadać między sobą. Bo jak na przykład, nie wiem, odwołamy się znowuż do innej gałęzi literatury, typu „Księga Dżungli”, i takie przypadki udokumentowane ponoć też się zdarzają – gdzieś tam można sobie przeczytać o tym, że znowuż odnaleziono jakiegoś człowieka, który wychowywał się ze zwierzętami, najczęściej z jakimiś naczelnymi, małpami, bo jakoś tak najbliżej po prostu tym gatunkom. Czyli jednak to się zdarza i jakoś tam to działa, nie? Ci ludzie są nieprzystosowani do życia w naszym społeczeństwie, niezgodnie z naszymi regułami, a jednak w tamtych regułach się jakoś odnaleźli i sobie poradzili, przez 20, 30 lat życia sobie radzili.
I tutaj fajna jest rzecz, którą z kolei z takiej książki o psychologii dzieci kiedyś wydłubałem, coś, co autor nazwał WiFi pomiędzy matką a bobasem.
To się nazywa więź matki.
Nie, no to tutaj tej więzi matki zabrakło. Jestem matką, bo po prostu nie na tym standardzie WiFi nadawano. Ale taki właśnie bobas… inaczej – matka, naturalna matka, potrafi się skomunikować ze swoim dzieckiem telepatycznie. I to jest właśnie w tej książce. Nie pamiętam tytułu, ale dotyczyła ona metody Self – to była metoda opracowana przez autora i on tam właśnie taki przykład podawał, który samodzielnie przebadał, że występuje coś takiego jak intuicja matki, która na podstawie [niewyraźne słowo] bobasa wie, czy bobasowi trzeba zmienić pieluchę, nakarmić go, czy jest po prostu zatrwożony, czy coś tam, nie? Czyli potrafi odczytać emocje. Tak, totalnie metodą wireless.
W poszukiwaniu definicji inteligencji
Tutaj chyba jest też taki klasyczny problem i ten dysonans, który mamy w kontekście czy to robotów, czy ogólnie AI. W sensie, może właśnie wiemy i to nas przeraża, że one kierują się albo powinny się kierować taką czystą, zimną logiką. I ta surowa logika czasami podpowiada troszkę inne rozwiązania niż jednak człowiek, który bierze pod uwagę pewne efekty uboczne, bardziej humanitarne czasami.
Tak, tak, tak, coś takiego, co się wymyka tej logice.
Ta logika wynika po prostu, w moim odczuciu, bardzo często ze zbioru, jakiego użyto do uczenia. Będziesz uczył taką… weźmiesz sobie taką sztuczną inteligencję, tak jak to w filmach katastroficznych bywa albo jakiś takich ogólnie thrillerowatych, że siedzi sobie pacjent, ma tutaj oczka otwarte, a tam mu ładują cały czas jakieś obrazki z wojny i w ten sposób programuje się na przykład zimowych żołnierzy. Jakby ktoś nie wiedział, to później trzeba sekwencję odczytać, rękę trzeba.
Wszyscy skojarzyli, wiadomo, no tak.
Niektórzy są po prostu kompletnie… Ale programować ich idzie pewnie w taki sam sposób, nie? Tylko…
Trzeba, żeby biasem
był nacechowany, jak to się mówi. No i tutaj właśnie takie sztuczne inteligencje w popkulturze, które wpadają na te genialne pomysły, o których mówiliśmy poprzednio, to one są właśnie nacechowane czymś takim, nie? Albo wręcz przypisuje im się takie surowe zaczerpnięcie z czystej historii naszej planety i stamtąd wywnioskowanie, że człowiek to straszny pasożyt i trzeba nam ten ekosystem uzdrowić poprzez eliminację człowieka. To jest logiczny, można powiedzieć, wniosek.
Sam się nasuwa.
Co wtedy zrobić? No, trudno się z logiką…
No, tam się właśnie główni bohaterowie zawsze kłócą i na końcu wygrywają. No tak, wiadomo, tutaj przyjaźń zawsze wygrywa i ludzie zwykle wygrywają. Ale nie ma co ukrywać, że gdzieś ten aspekt takiej obawy i zwycięstwa logicznego myślenia troszkę pewnie ludzi w tym kontekście przeraża i pewnie dlatego to AI jest postrzegane zawsze jako takie zimne, kalkulujące i pozbawione ludzkiego podejścia.
Brak mu ludzkiego podejścia, chociaż, no tak jak mówisz, to może zależeć od tego, jak je nauczymy.
Oczywiście. Dokładnie. I zaraz dojdziemy pewnie do takiego wniosku, co zresztą…
Zainteresowałem się literaturą science fiction i pozwoliłem sobie kupić kilka książek Dukaja, bo tak jakoś wpadło mi w oko pojawiające się w recenzjach dobre mniemanie o tym autorze. I „Katedra”, która nie ma tam za bardzo związku ze sztuczną inteligencją – chociaż nie do końca wiadomo, czytając do końca, a ma 100 stron – nie do końca wiadomo, czy nie ma. Bo wprawdzie film Bagińskiego fajnie zobrazował ostatnią scenę z „Katedry”, ale właśnie nic więcej poza tym z filmu nie wiemy, nie? Także sam się zainteresowałem, o co tam chodzi. I może być tak, że w tle pojawia się tam taki motyw sztucznej inteligencji albo motyw w ogóle jakiejś obcej rasy, która coś tam lekko zmodyfikowała, coś jest na rzeczy.
Ale zaraz po tym sięgnąłem po „Perfekcyjną niedoskonałość”. I o ile tam się ludzie skarżą, są takie głosy typu: „Przeczytałem, ale nie wiem, co przeczytałem”, to jednak ja tam za wiele nie przeczytałem, nie zdążyłem, bo to dopiero dojechało chyba we wtorek czy w środę.
Coś tam właśnie, trochę mnie to wciągnęło, bo książka zaczyna się od takiej imprezki weselnej, na której różne postacie, takie jakby emanacje sztucznych inteligencji w różnym stadium rozwoju, wielowymiarowo ze sobą konwersują. I to jest coś takiego, czego u Lema absolutnie nie było, takiej wielowymiarowości w tym względzie, i w żadnym „Matrixie” ani innych takich też to nie było potrzebne, nawet w „Terminatorze”, bo tam wystarczyła ogólna rozwałka. Natomiast tutaj mamy do czynienia z czymś daleko wykraczającym poza możliwości poznawcze człowieka, nie?
Tu już jest spojrzenie na sztuczną inteligencję jako coś takiego – co zresztą, mogę się mylić, bo mogę to źle odczytywać, bo w sumie przeczytałem i też nie wiem, co przeczytałem. Dopiero jak przeczytam resztę, a są tego trzy tomy, to będę mógł coś powiedzieć, i to pewnie czytając za drugim razem, bo tak właśnie ludzie się o tym wypowiadają. W każdym razie, teraz mam wrażenie, że autor próbuje dotknąć takiej wielowymiarowości. Bo jak na przykład jest konwersacja dwóch takich bytów, to one nie dość, że komunikują się w ogóle poza przestrzenią i czasem, bo tam jest mowa o czasach Plancka w tej konwersacji, to jeszcze sięgają po jakieś wielostopniowe emanacje swoich osobowości i próbują się oceniać na podstawie tego, jak się wyrenderowały, czy renderowanie jest niezgodne z protokołem dostępnym na tym lub innym poziomie i czy można ujawnić część swoich danych, czy trzeba się szybko resetować, kasować wszystko, żeby druga strona nie była w stanie się włamać i przeczytać za dużo. Taka trochę rywalizacja, ale fajnie zrobione i to pokazuje, faktycznie w tym ujęciu czuć taką moc tej całej sztucznej inteligencji, ale już jako takiego dodatku do człowieczeństwa, takiego gatunku żyjącego sobie obok, wykształconego na nas, przez nas być może, bo rzecz dzieje się w IX wieku, ale jednak pod pewnymi względami nas prześcigającego intelektualnie, chociaż akurat w starciu z człowiekiem też tam mają różnie. I panika jednego z bohaterów wynikała z tego, że został przejrzany przez ludzką bohaterkę w tej konwersacji.
No i tutaj znowuż wracamy do pytania o definicję inteligencji. Nie dalej jak wczoraj, w rozmowie z naszym zagranicznym ekspertem, którego pozdrawiam, moim bratem, niezależnym badaczem tematu, pojawił się taki wątek, taka myśl, że właściwie czym ta inteligencja, jakbyśmy chcieli ją zdefiniować, to czym ona by była? I po prostu, gdybym nie był przyzwyczajony do rozmów ze swoim bratem, to by mi szczęka opadła, ale że jestem, to się powstrzymałem. To było to, że inteligencja to jest po prostu zamiłowanie i taki pęd wręcz do poznania prawdy.
Czyli jakby tak do tego podejść, a bardzo mi się to podoba, to wyszłoby na to, że jeszcze nie mamy sztucznej inteligencji, co de facto jest zgodne z obserwacjami, że jeszcze nie mamy takich bytów, które faktycznie postrzegamy jako inteligentne. Natomiast gdybyśmy takie byty jednak mieli w naszym otoczeniu, to te byty dążyłyby do poznania prawdy i nie poznawałyby jej jednostkowo, tak jak na przykład jakiś Skynet czy inne coś, co popatrzyło, że „o, ludzie zrobili tyle wojen, no to wykasujmy ludzi i wszystko będzie dobrze”, nie? Raczej ten byt dążyłby do tego, żeby poznać istotę tego, co się właściwie stało. Najpierw poznać tę historię, prześwietlić ją na wylot, zbadać ją pod przeróżnymi kątami, następnie poznać pewnie osobowość człowieka, interakcje międzyludzkie, w ogóle całą naturę ludzkości.
Zanim od razu ją eksterminować i robić apokalipsę. No bo to jest najprostsze rozwiązanie. Dokładnie.
Ale tylko że takie filmy są wtedy najciekawsze, jeśli jest jakaś apokalipsa.
Jakby wyglądał „Terminator”, gdyby Skynet dążył do poznania prawdy? No, pewnie byłby trochę nudny.
No, to byłby taki serial na 20 sezonów.
No właśnie, i nie mielibyśmy tylu atomówek, wiadomo, tam robotów i tak dalej. De facto Arnold nie miałby się gdzie wykazać, no bo co? Siedziałby przez 20 odcinków i tak by dumał, i nic by nie wydumał. I jeszcze z tego dumania on by się skończył i generalnie nic, tyle by było. Więc w sumie raz na jakiś czas dobrze mieć „Terminatora” i niech tam zrobi porządek w ten czy inny sposób.
Czy tam innego… Dobra, o „Matrixie” tylko wspomnieliśmy, ale nie rozwijaliśmy wątku zanadto, że to też był taki wątek destrukcyjny. Ale de facto taki „Matrix” do końca destrukcyjny nie był, bo on cały czas pozwalał resetować się stłamszonej ludzkości, nie? I zawsze, jak już któryś kolejny Neo dochodził do architekta, to sam „Matrix” się na tym uczył, jakie błędy popełniał w tej iteracji. Po prostu Agile.
To był taki machine i human learning jednocześnie.
Bo tutaj dwie strony, jakby, uczyły się nawzajem. Ale to już jest bliższe tej definicji inteligencji, która dąży do prawdy, do jej poznania, bo robi coś, można powiedzieć, z własnej inicjatywy, ma jakieś cele.
Celem obu frakcji było tutaj przetrwanie. Jakby tu jeszcze dołożyć „Animatrix” i w ogóle genezę „Matrixa”, no to faktycznie tam w tej genezie było wyjaśnione, skąd to się wszystko wzięło. Ten cały konflikt, jak on tam został zbudowany – w gruncie rzeczy też zasadzał się przede wszystkim na strachu. Jak już doszło do niego samego, no to obie strony już zrobiły wszystko, żeby wyeliminować przeciwnika.
A jednak kiedy Matrix wyeliminował ludzkość za pierwszym razem, to stwierdził, że lipa, trzeba zresetować. To tak jak w grze strategicznej, nie? Jak się za bardzo rozhulasz i stłamsisz wroga za wcześnie, to trzeba mu później marketem podesłać trochę zasobów, żeby się odbudował, to może jeszcze raz zaatakuje. Znana sztuczka.
Zasoby w markecie. No, także tyle chciałem wstępu. Takie nawiązanie do tematyki kulturalnej poprzedniego odcinka.
Techniczne oblicze współczesnej AI
No tak, to niewątpliwie najfajniej się o tym rozmawia, ale chyba też obiecaliśmy przejście do części takiej bardziej do aparatu… aparatu.
Czyli tak, przyjmując, że P oznacza skończony zbiór…
Bez dyrdymałów matematycznych się nie obejdzie, chociaż może się uda uniknąć. Nam się udawało go unikać na studiach, także luz.
Tak, zaraz też się uda. No właśnie, ja na studiach akurat ze sztucznej inteligencji… to znaczy, uniknąć nie mogłem, bo akurat moje studia były specyficzne i tam aparat był w ogóle podstawą czegokolwiek, nawet programowania obiektowego, ale akurat sztucznej inteligencji tam za dużo nie było. A muszę przyznać, że zawsze mnie to jakoś fascynowało i tak sobie wyobrażałem na początku, nawet jeszcze nie w jakiejś pracy, ale powiedzmy na studiach, że: „Ale to byłoby fajnie pomodelować jakieś ciekawe rzeczy ze sztuczną inteligencją”. Tak sobie myślałem: „Kurczę, będę tutaj robił jakieś sieci neuronowe albo jakieś algorytmy genetyczne”, które mi się chyba najbardziej podobały. I myślałem: „Kurczę, ale będą fajne jakieś problemy, które rozwiążę właśnie tymi metodami, bo one muszą do tego idealnie się nadawać”.
Jak się okazuje, w takim codziennym, biznesowym życiu tej sztucznej inteligencji jest tyle, co nic, no bo chyba trudno pod to podciągnąć jakieś nasze użycia w stylu profilowania ludzi gdzieś tam na [niewyraźne słowo] – po prostu jakieś zagadnienia statystyczne w głównej mierze. Systemy decyzyjne, to uczenie maszynowe też chyba na statystyce się bardziej opiera. Szukanie jakiś wzorców, które po prostu działają częściej niż inne.
Zresztą nawet takie algorytmy genetyczne, nie? Może później jeszcze dobrniemy do tych narzędzi, właśnie tych, które są postrzegane jako sedno sztucznej inteligencji, przeradzającej się z popkulturowej w naukową. Bo gdzieś tam w latach 70., być może 60., choć w 60. to chyba jeszcze nie było podstaw do tego…
Właśnie aparatu brakowało, sprzętowego na pewno, żeby można było, przepraszam, żeby można było takie coś nawet sobie zasymulować. Ale było takie dążenie w literaturze, było to czuć, i to właśnie w takiej literaturze, do której nawet teraz możemy sięgnąć, bardziej naukowej albo przynajmniej technicznej. Że a propos sieci neuronowych – no to sieć neuronowa jest wybitnie dobra do zastosowań dla sztucznej inteligencji, bo odwzorowuje strukturę naszego mózgu, w sensie mózgu żywego stworzenia. Tylko żeby zasymulować taki prawdziwy mózg małego kotka, który bawi się zgrabnie jakimś kłębkiem wełny na podłodze, przynosząc radość obserwatorom, to okazuje się, że wcale nie jest tak łatwo to zasymulować programowo. A zrobić sprzętowo taką kopię, emulator takiego mózgu na faktycznych neuronach, to już jest w ogóle dramat.
Ale do tego to może wróćmy, jak dojdziemy do tych sieci neuronowych. W każdym razie to nie pykło, nie? Więc poszło to w modele, w sensie te rozważania poszły w jakieś bardziej modele, które doprowadziły nas do teraz, do współczesnych modeli językowych bądź jakiś tam generatywnych, które coś tam już potrafią zrobić, co my odbieramy jako fajne.
I sporo uwagi temu poświęciliśmy przy grach. Także tutaj ta zdolność odwzorowywania rzeczywistości, którą my znamy, jest przez nas postrzegana jako coś inteligentnego, natomiast to niekoniecznie musi być właśnie ta inteligencja, bo jak się na przykład poprosi taką sztuczną inteligencję, tak zwaną: „wygeneruj mi obraz tego i tamtego”, to takie krzaki potrafią wyskoczyć, że tylko z daleka to przypomina coś tam.
No tak, bo tutaj o co było proszone?
Największym problemem w ogóle z całym tym modelem ogólnym, tak zwanym Large Language Models, czyli z tych właśnie dużych modeli językowych, jest to, że one są de facto trenowane i uczone na bazach danych, czyli powiedzmy na zasobach gdzieś tam tekstowych internetu czy na jakichś innych rzeczach.
Jak Skynet się uczył.
Tak jak Skynet, powiedzmy, się uczył. I generalnie one były uczone na pewnej wiedzy, która jest dość dobrze określona. Ale same w sobie są tylko pewnym probabilistycznym przybliżeniem tej bazy wiedzy. Gdzie ta różnica właśnie tutaj polega? No, generalnie jak mamy bazę wiedzy, czy to zwykłą bazę, powiedzmy, słownikową, czy w ogóle jakąś bazę dokumentową, czy cokolwiek, to w tej bazie, w sensie takiej nie maszynowo uczonej, tylko zwykłej, zawsze uzyskamy pewną odpowiedź, jeśli ta odpowiedź w tym zbiorze jest. Jeśli tej odpowiedzi nie ma… inaczej, jeżeli jest i potrafimy o nią zapytać…
No tak, zakładamy, że oczywiście potrafimy.
Mam na myśli po prostu zwykłą bazę danych. Załóżmy, jak robimy sobie SQL. SQL zawsze zwróci nam ten sam wynik. Jeśli tego zapytania, tych warunków nie ma, nie ma żadnych danych, które spełniają ten warunek, to tych danych oczywiście nie dostaniemy. To zawsze w przewidywalny sposób działa tak samo. Natomiast duże modele językowe, będące tylko takim probabilistycznym przybliżeniem, z pewnym prawdopodobieństwem będą potrafiły nam coś zwrócić. W ogólności zawsze będą chciały nam coś zwrócić, bo one tylko w pewien sposób przybliżają to, na czym się nauczyły. Więc dlatego też na przykład, jak pytamy Czata GPT, możemy sobie dać „regenerate” na każdej odpowiedzi i dostaniemy troszkę coś innego. Trudno sobie wyobrazić, że siedząc i pisząc SQL i klikając dwa razy „execute”, dostaniemy różne wyniki. No, zawsze dostaniemy ten sam, bo to jest bardzo, że tak powiem, przewidywalny model danych. Natomiast duże modele językowe są, że tak powiem, nie do końca deterministyczne.
Stąd też wynika właśnie ich problem, to, co mówisz – przepraszanie czy inne rzeczy. Generalnie tam…
Ograniczenia i przyszłość modeli językowych
Koncept prawdy jako takiej wtedy nie może…
To przybliżenie. Tutaj nie ma kwestii prawda czy fałsz, tylko mniejsze czy większe prawdopodobieństwo. Jakby to matematycznie rozpatrywać – na to, żeby dostać prawdę absolutną, musielibyśmy mieć wiedzę o wszystkim, nie? Czyli musielibyśmy de facto być Bogiem posiadającym wszystkie informacje. Być całością, wszystkowiedzącym. I wtedy ta wszystkość mogłaby zostać zapytana tylko przez kogo? Nie ma tego drugiego.
Oczywiście. Większość informacji, nawet w takich sieciach, jest albo jakaś duża część jest z prawdopodobieństwem graniczącym z pewnością. No bo jeśli zapytamy o dość proste rzeczy albo rzeczy, które są w dużej ilości źródeł uznawane za oczywiste, no to ta odpowiedź pewnie zostanie pokazana nam taka, jaka rzeczywiście jest. Ale wiadomo, są pewne niuanse, są pewne specyficzne pytania, są rzeczy, które nie są takie bardzo oczywiste.
No wiadomo, jest wiele różnych kryteriów, dzięki czemu te dane są trochę bardziej rozmyte. Tylko właśnie ta kwestia prawdopodobieństwa tutaj jest dość śliska.
Bo po prostu brakuje, nie? Ale nadal jest to prawdopodobieństwo wyciągnięte znowuż z tego zbioru użytego do uczenia. No i teraz od tego, na czym nauczymy nasz model, zależy to, jak bardzo prawdziwe wyniki dostaniemy. Więc jeżeli zadamy pytanie, które wykracza poza zakres tego czegoś, to będzie taka historia jak moja z Czatem GPT, gdzie po prostu no szkoda mi go było w którymś momencie, a później trochę się wkurzyłem, a później mnie przeprosił jednak. No bo jak go na przykład zacząłem pytać o dane fizyczne i o logiczne zastosowanie praw fizyki w odniesieniu do Słońca, nie? Konkretnie, no nie jest tajemnicą już tutaj w naszych wąskich kręgach, że zapytałem go o wartość siły grawitacji, z jaką cząsteczka helu jest przyciągana na powierzchni Słońca.
Najpierw się bronił, że nie ma powierzchni Słońca, w sumie spoko, nie? Bo skoro to jest taki reaktor atomowy, no to tam ciężko znaleźć powierzchnię. No, ale jest jakaś pewna sfera ograniczająca i na tym się skupiliśmy, która wynika z promienia Słońca jako tej wrzącej kuli gazów w reakcji termojądrowej. No i wyszło nam, że jakaś tam na tej sferze siła działa w dół, do słońca, ale też działają siły na zewnątrz, siły ciśnienia tej reakcji. I jeszcze są siły pomiędzy cząsteczkami w plazmie i jeszcze jakieś inne siły, siły tarcia.
Więc w końcu czat skapitulował, choć właściwie nie chciał się przyznać do tego, że Słońce nie ma prawa istnieć. Bo wyszło na to, że siła grawitacji, jaką mi podał, jest o sześć rzędów wielkości mniejsza niż suma wszystkich sił, jakie działają na tę cząsteczkę. Zresztą nawet nie tyle suma, bo te wektory się tam dodają jakoś, ale dwie największe siły, jakie mi podał, to była grawitacja ciągnąca cząsteczkę w dół, czyli do środka Słońca, a druga o przeciwnym zwrocie, pchająca cząsteczkę na zewnątrz, to była siła wynikająca z reakcji termojądrowej. I różnica była sześć rzędów wielkości na korzyść tamtej siły. Więc po prostu wniosek z tego jest oczywisty dla fizyki z klasy pierwszej liceum, że Słońce nie ma prawa istnieć, tak samo jak każda inna gwiazda. A jednak istnieje, więc mówię: „Czacie, no to o co tutaj chodzi?”. I tam się motał, zmieniał mi te wartości, widać było, że po prostu to nie jest jego dziedzina. Jeżeli on był uczony na literaturze pięknej, gdzie o Słońcu mówi się w kategoriach estetyki na przykład i gdzieś tam przeczytał, że jeszcze fizyka istnieje, bo jednak gdzieś tam w zbiorze to było, no to próbował coś połączyć, ale nie szło mu za dobrze.
No właśnie, wniosek z tego jest taki, że to nie jest akurat narzędzie do zadania, które przed nim postawiłeś. Sprawia dobre wrażenie, bo rzeczywiście może wcześniej zapytałeś go: „Ile to jest 2 razy 2?” i on ci odpowiedział dobrze, więc: „Dobra, to lecimy teraz na obliczanie ciężkości cząsteczki helu na Słońcu”. Ale to nie jest do tego stworzone i on, wiadomo, spróbuje skleić wiele rzeczy, wiele rzeczy gdzieś tam mu się uda, czasami nie. Rozmówca nie wyczuje, powiedzmy, albo nie dąży tym tropem. Gdzieś tam przekonujące odpowiedzi i pewność, z jaką je wygłasza, są też taką nieodłączną cechą tych modeli. No bo one z natury rzeczy muszą, można powiedzieć, pokryć przestrzeń wszystkich odpowiedzi, więc zawsze sobie coś tam wygenerują i trochę dopowiedzą.
Te dopowiedzenia są właśnie zwane halucynacjami i jak się okazuje, według badań na różnych wersjach Czata GPT, one z każdą wersją trochę maleją, ale nawet przy najnowszej wersji 4 potrafią sięgać nawet do 40% odpowiedzi. Czyli tak naprawdę cztery odpowiedzi z dziesięciu mogą być nie do końca celne. Trzeba dobrze uważać na to, co dostajemy.
Tak, więc widać, że to jest kwestia w stawianiu pytań odpowiednio, bo można nakierować te odpowiedzi, w sensie, można zwiększyć prawdopodobieństwo uzyskania odpowiedzi poprawnej.
Lepiej kierując pytanie.
Dokładnie. To jest podobna zasada jak szukamy czegoś w wyszukiwarce w Google na przykład, czy w innym Bingu. Jeśli podamy tylko jedno czy dwa słowa kluczowe, no to też czasami nie wiadomo, czy chodzi nam o ten kontekst, czy o inny.
A czasem niezłe wyskakują.
Czasem niezłe wyskakują, oczywiście. Ale wiadomo, no tutaj podanie tego kontekstu, zarysowanie trochę problemu, to pomaga rzeczywiście w ucelnieniu tej odpowiedzi. Te modele mają też różne parametry, jeśli chodzi o, że tak powiem, wariacje, z jaką te odpowiedzi mogą generować. Nawet w Bingu tego chyba za bardzo nie ma.
Bing jest sprzężony z Czatem GPT. Tak, tak. I w Bingu możemy sobie tam wybrać, jak kreatywna ma być ta odpowiedź. Są takie trzy przyciski i rzeczywiście możemy sobie tam porównać różne wersje, no i wtedy rzeczywiście dostaniemy bardziej kreatywną. Czasami czegoś takiego szukamy, jeśli na przykład, nie wiem, chcemy sobie wygenerować jakiś koncept do książki albo coś takiego. No to właśnie, zaraz chyba do tego przejdziemy, bo to jest główna działka zainteresowań takich modeli.
Tak, tak. Ale jeśli chcemy bardzo restrykcyjnych odpowiedzi i tak naprawdę wiarygodnego zbioru tych odpowiedzi, no to wiadomo, trzeba to jakoś ograniczyć i podać odpowiedni kontekst. Więc to są po prostu narzędzia, które do jednych zadań dobrze się nadają, a do drugich oczywiście mniej. Ale jest bardzo dużo też tendencji i prób, żeby te narzędzia usprawnić, próbując dorzucić im jakieś zewnętrzne modele z taką bazą wiedzy, która jest po prostu prawdą objawioną dla tego modelu, która jest jakimś ustalonym zbiorem danych, prawdziwą wiedzą dziedzinową.
Jeszcze może w ogóle dynamicznie poszerzają funkcjonalności o różne pluginy, które możemy sobie podłączyć pod taki model, który na dane zapytanie może nam się skomunikować z tym pluginem, który wykona jakąś ekstra robotę czy akcję.
Podawane są właśnie na Czacie GPT przykłady integracji z generowaniem przepisu kulinarnego. No i gdzieś tam jest jakaś stronka, z której pobierany jest przepis. Tutaj jest generowana lista zakupów do odpowiedniego sklepu i zakładam, że prędzej czy później powstanie też jakiś plugin z integracją ze Stripe’em, który nam po prostu wyśle zamówienie na podane produkty. I tak naprawdę na prompt do Czata GPT: „Co mogę zrobić? Tutaj, w lodówce, patrzę, co mam: brokuły, stare jajka, coś tam. Co mogę zrobić?” – i wychodzi lazania, która już czeka na zamówienie i oczywiście Amazon Prime – w dwie godziny zamówienie jest pod twoim domem.
Więc ja to trochę inaczej widzę: że patrzę w tę lodówkę, albo nawet nie patrzę, tylko pytam, co tam jest w lodówce. Docelowo pewnie łapie za patelnię i mi to pitrasi.
Docelowo pewnie nawet będzie. No bo rzeczywiście, co za problem zintegrować gdzieś tam kamerę i zobaczyć, co tam jest w twojej lodówce. Nie ma chyba żadnego problemu. Ostatnio widziałem, że piekarniki nawet w trakcie gotowania robią zdjęcie potrawy i porównują to zdjęcie z bazą zdjęć tego typu rzeczy. No i wiedzą, czy już jest gotowe, a nie tam, że będziesz ty sam patrzył, szpikulcem sprawdzał – na co to komu. Ostatnio chyba mój synek pytał babcię, jak ona to tam pitrasi, że skąd wie, że to już dobrze, i dostał odpowiedź, że: „To tak jakoś już wygląda, że dobrze”.
No właśnie, właśnie, to jest dokładnie to. Wygląda dobrze, no to będzie dobrze. No bo twoja babcia już widziała ileś tam tysięcy tych potraw, więc tak sobie zobaczyła, że jak ma taki kolor albo taki, to już jest dobrze.
Jest dobrze. Już nawet nie trzeba więcej, nie? I tutaj jest bardzo podobnie.
Jest taka intuicja ekspercka.
Tak, tak. Intuicja albo ewentualnie „Babcia as a Service”.
Taki grand pomysł na start. No, ale coś tu miałem wpleść jeszcze jakąś szpilę dla tego, tego… Nie, tylko tyle. No, także cokolwiek by on tam nie powiedział, to jeszcze jednak nie jest ten czat, nie? Ale faktycznie w kontekście takich dyrdymałów, w sensie, jeżeli mamy model, który uczył się na literaturze i ponoć, jeżeli uczył się na literaturze danego gatunku, powiedzmy, to jest wyszkolony w tym właśnie gatunku i w tym stylu, nie? Więc jeżeli będziemy z nim konwersować, to nam śpiewająco przejdzie test Turinga, bo ciężko będzie się domyślić, czy faktycznie mamy jakiś byt elektroniczny po drugiej stronie, czy jednak człowiek nam odpisuje, nie? Jeżeli potrafi wygenerować na przykład fragment opowiadania i to się trzyma kupy, bazując tylko i wyłącznie na tych wzorcach, których się nauczył, no to test Turinga ma już zdany dawno.
Na Amazonie już pojawiły się pierwsze książki napisane wyłącznie przez Czata i taki zalew tego typu kontentu będzie generowany.
Pewnie większość artykułów, już takich klasycznych pod optymalizację SEO, jest już generowana, bo po co człowiek ma to pisać, skoro i tak tylko maszyna to później czyta? Najlepiej niech to jeszcze maszyna… tylko maszyna to czyta. No i właściwie tylko maszyna to czyta, w sensie te roboty indeksujące.
Taka wojna tych, co tworzą, z tymi, co czytają.
Dokładnie. A ludzie tylko się patrzą, jakie to ekologiczne, nie? Tak.
Zastosowania, koszty i skala współczesnej AI
Właśnie, to działaniem, ale zainteresował mnie też taki aspekt techniczny tego wszystkiego. No bo wiadomo, lata temu ja też sobie myślałem, zawsze sobie myślałem, że wymyślę jakiś sprytny algorytm. Że zrobię tę sieć neuronową czy ten algorytm genetyczny, że on będzie niewielki, ale będzie na tyle sprytny, że nikt jeszcze nie pomyślał, że coś można zrobić tak i tak, i to będzie jakoś niesamowicie działało.
Tak jest. Ja też tak myślałem.
No właśnie. Okazuje się, że wielu ludzi tak myślało i nie byłem tutaj jakiś wyjątkowy.
Myślę, że to jest naturalna droga rozwoju człowieka. Problem tylko w tym, że chyba jednak nie ma… znaczy, może inaczej – te sprytne metody pewnie są, ale jednak zwykła, najprostsza siła przetwarzania, ilość…
Jest jeszcze jeden czynnik, umykający takiej metodzie „szkiełko i oko”, nie? Ale o tym później.
Tak, ale mówimy na razie o generowaniu, można powiedzieć, dużych modeli językowych, których jeszcze nie zaliczymy do sztucznej inteligencji takiego ogólnego pożytku. Czyli już nawet nie mówiąc o tej inteligencji w rozumieniu, o którym powiedzieliśmy na początku. Natomiast do takich zastosowań, jak teraz mamy, czyli na przykład generowanie bardzo ciekawych obrazków czy właśnie tych książek, no to, jak się okazuje, wystarczy tylko wziąć 100 milionów dolarów, co jest początkowym kosztem wytrenowania takiego startupu.
Koszt wytrenowania takiego modelu, jak ten, który napędza Czat GPT, określa się na około 100 milionów dolarów i w to pewnie są też wliczone koszty jakiegoś tam R&D, ale w dużej mierze pewnie też koszt zasobów, sprzętu i przechowywania danych. A dzienny koszt utrzymania – podobno 700 tysięcy dolarów.
Dzienny.
To żeby chociaż na noc gasili.
No właśnie, nie wiesz jak się… jak się okazuje, jak używa tego systemu ileś tam miliardów użytkowników, to tak ciężko trochę na noc gasić.
Słońce nad nim nie zachodzi.
Słońce nad nim nie zachodzi, jak nad Imperium Brytyjskim. Jestem w stanie uwierzyć w te liczby, bo rzeczywiście mówimy tu o aplikacji, która jest naprawdę globalnie używana i która jednak robi jakieś konkretne rzeczy. Bo nawet żeby taką prostą odpowiedź wygenerować, to tam troszkę się trzeba namęczyć.
Razy ileś miliardów – „troszkę się trzeba namęczyć”.
To nawet zwykłe zasoby sprzętowe potrafią pewnie sporo kosztować.
No tak, ten, kto kiedykolwiek próbował coś takiego zakodować na studiach, gdzieś tam, albo hobbystycznie, nie? Jakąś taką prostą sieć neuronową… to wiele się trzeba namęczyć, żeby w ogóle z jakimś sprzężeniem zwrotnym zacząć sensownie to uczyć.
To już pomijając w ogóle złożoność algorytmiczną.
Widać, jak mało można osiągnąć na jednej maszynie, więc łatwo sobie teraz wyobrazić, że jak to przemnożyć…
…przez jakieś ciekawe rezultaty, to nam się też koszty, chociażby energii, mnożą razy milion. Dokładnie. I już mamy te tysiące, więc spokojnie.
To pokazuje, że jednak ta moc, którą to wnosi, jest potrzebna, nie? Bo skoro to jest wykorzystywane i skoro ktoś, jakaś korporacja czy jacyś ludzie, wydają tyle pieniędzy, żeby to utrzymywać, to znaczy, że to ma sens ekonomiczny i ma jakiś cel. To nie jest tak, że to po prostu tam sobie leży i marnuje prąd.
Albo że mamy do czynienia z jakimś superzłym Skynetem, który to wyciągnął i trzyma gdzieś.
Dokładnie. To jest bardzo, bardzo fajne narzędzie, ale jednak nie jest to narzędzie, które będzie w stanie wykazać pełną samodzielność, nie? To nie będzie narzędzie, które będzie w stanie generować sobie jakieś własne myśli, bo na tym etapie jeszcze nie jesteśmy. Jesteśmy na etapie, gdzie te wszystkie fajne modele są po prostu tak naprawdę superinteligentnymi papugami, które są w stanie bardzo dobrze naśladować to, co zobaczyły. Oczywiście one potrafią syntetyzować dane, które zebrały, w różny sposób, ale jednak jest to naśladowanie czegoś, co już było.
Odwołam się jeszcze do tego mojego brata, bo on też mi podał taką fajną analogię. To tak, jakbyśmy mieli budynek i ten model jest w stanie bardzo dobrze pokazać, jak wyglądają jego ściany, jak wygląda jego wnętrze, ale nie jest w stanie sam odtworzyć tego budynku. Nie jest w stanie sam go zbudować. Czyli to jest coś, co jest bardzo fajne, ale jednak jest na zasadzie kopiowania czegoś, co już było.
Sprzętowe fundamenty i biologiczne analogie
I też warto wspomnieć, o jakich rozmiarach tu mówimy, tych dużych modeli językowych. Bo co to znaczy duży? Tysiąc parametrów, milion? Ile to może być parametrów?
I rzeczywiście te pierwsze modele miały tych parametrów, czyli tak naprawdę wag w tej sieci neuronowej, powiedzmy, w ilościach liczonych w milionach, co i tak już jest dość dużo. Dla Czata GPT w wersji czwartej nie jest podana ilość parametrów. W wersji 3.5 to wynosi 175 miliardów parametrów.
175 miliardów wag, które decydują, czy na twoje zapytanie „Zrób mi lazanię” wyjdzie odpowiedź: „Proszę, tu jest przepis”, albo: „Niestety, nie mogę odpowiedzieć, bo nie wiem, o co chodzi”.
To czekaj, to same parametry ważyłyby 175 GB, razy ileś tam… No, powiedzmy, razy cztery. No, mamy tu do czynienia z takim skomplikowanym nawet inżynierskim wyzwaniem. Możemy sobie to wyobrazić, jeśli mamy problemy z wyobrażeniem sobie, jak to mogłoby działać, że piszemy sobie taką funkcję ReturnValue
i pierwszym stringiem jest to query
, a drugim jest 175 miliardów parametrów, które musimy do tej funkcji przekazać, i tam jest wszystko na kawałku stosu. Więc jest to dość dużo, nie ma co ukrywać.
To odpowiedź, czemu to się pojawiło dopiero teraz, w czasach nam współczesnych, a nie było możliwe w czasach tych wizjonerów, którzy składali sobie pierwsze sieci neuronowe.
I oni, właśnie do tego nawiązuję, na początku dzisiejszego odcinka mówiłem, że tamci badacze zdawali sobie sprawę, że brakuje im mocy sprzętowej i obliczeniowej, brakuje im mocy do tego. Brakuje im przestrzeni nawet, żeby to jakoś sensownie sformułować. Pokładali więc nadzieję w tym, że jak tej mocy przybędzie – i właśnie przybyło – to stanie się to wykonalne. No i po części jakoś tam im się to sprawdziło.
Chyba to nie jest wynik ich najśmielszych wizji.
Poniekąd mieli rację, myśląc w tych latach 60. i 70., że jeśli zwielokrotnimy i upakujemy tych neuronów i tych wag wystarczająco dużo, to powstanie nam coś więcej.
De facto powstało nam coś więcej, bo te modele potrafią wykazywać pewne zaskakujące właściwości i dawać zaskakujące odpowiedzi. Więc poniekąd coś więcej rzeczywiście powstało, ale widać, że jest pewien sufit i chyba zwiększanie tego w nieskończoność nie do końca będzie tutaj…
Ale dalej raczkujemy.
Dalej raczkujemy, bo teraz jakby na przykład wziąć i zechcieć sobie tak przestrzennie wyobrazić tę maszynerię, która stoi za Czatem GPT… To jeżeli tam są miliardy tych parametrów, to ile tam jest w ogóle węzłów w takiej sieci? Nawet ówczesne komputery, te wczesne maszyny liczące, które były wielkości pokoi czy całych sal, to dzisiaj pewnie nic przy tym. Jakby zebrać te wszystkie fizyczne komputery w jednym miejscu, to by pewnie zajęło…
Akurat nie pokusiłem się o wyliczenie ani o zapytanie Czata, ile to zajmuje.
I dalej jest to praktycznie nic w porównaniu do takiego przeciętnego czegoś, co każdy z nas ma w głowie, co się zmieści na tym, co teraz trzymam.
To wynika jeszcze, przepraszam, znowu z tych wczesnych sieci neuronowych, gdzie próbowano zobrazować neuron. Struktury neuronów były rozrysowywane w tych książkach traktujących o tych zagadnieniach i tam był jakiś model tego aksonu, który miał ileś tam odnóży, i one się łączyły, i po nich szły sygnały.
W sensie cały model żywej komórki. Dendryty i te sprawy.
Tak, to było tam zobrazowane, no i następnie był model już algorytmiczny, że tutaj mamy wejścia, na wejściach mamy wektor uczący i od długości tego wektora uczącego zależy, jak mądra jest nasza sieć, ale też jak ciężko ją nauczyć tej mądrości.
No i dochodzimy do tych 175 miliardów. To jest też pewna obserwacja, która wynika z badań tych sieci neuronowych, że one do pewnej wielkości wykazywały już brak tego uczenia. Krzywa ucząca była taka wypłaszczona… była taka wypłaszczona albo następowała po prostu za duża generalizacja. Nie dało się przy pewnej wielkości uzyskać wystarczających efektów i dopiero te duże modele językowe wykazały, że przy takich milionach, miliardach parametrów, dopiero wtedy dało się to po prostu zeskalać.
Czyli musieliśmy horyzontalnie zeskalać naszą sieć. To jest odpowiedź na mnogość połączeń pomiędzy komórkami, bo na przykład w takiej typowej książce czy w artykule komórka nerwowa była narysowana jako mała rzecz z kilkunastoma wypustkami, nie? A ilość wyprowadzeń z takiej pojedynczej komórki nerwowej jest liczona w setkach, czasem w tysiącach, więc ilość możliwych połączeń między nimi to jest już kosmiczna liczba i stąd właśnie wynika ta cała złożoność.
Moim zdaniem, i nie jestem tutaj jakimś wykwintnym badaczem, ale na podstawie tego, co zdążyłem zasłyszeć, na teraz tak jakby to dowodzi, że skalując dalej, dostajemy tego Czata, który potrafi odpowiedzieć ładnie w tej dziedzinie, w której go pięknie nauczyliśmy.
Jak go pytam o parametry słońca, to potrafi polegnąć.
Architektoniczne dylematy i granice poznania
No i tutaj rzeczywiście masz chyba pełną rację, bo tak naprawdę tego samego zdania są też eksperci, chociaż pewnie, jak to wśród ekspertów, zdania mogą być podzielone, naturalnie. Ale na przykład prezes OpenAI, pan Sam Altman, generalnie teraz mocno ewangelizuje odnośnie sztucznej inteligencji jako takiej, ale też wiadomo, promuje OpenAI jako firmę. Raptem pół roku temu miał taki światowy tour, gdzie odwiedził dwadzieścia parę krajów i rozmawiał z przywódcami i generalnie z ludźmi na temat sztucznej inteligencji, wyzwań i potencjalnych zastosowań.
On też, wypowiadając się na temat Czata GPT czy ogólnie przyszłości, nie do końca wierzy w to, że takie duże modele językowe będą w stanie przerodzić się w inteligencję ogólnego zastosowania, czy już nawet nie mówiąc w coś więcej, na przykład w coś świadomego.
Wiadomo, że to może być jeszcze nasze trochę nie do końca klarowne spojrzenie, bo w tym aspekcie postęp jest wykładniczy, a ludzie jako gatunek raczej mają problemy z postrzeganiem postępu wykładniczego. My raczej widzimy rzeczy liniowo. Jak coś rośnie wykładniczo, jest nam trochę ciężko przewidzieć, jak to się zmieni. Więc może nawet pan Altman się myli. Ale generalnie wśród ekspertów panuje stanowisko, że chyba jeszcze nam czegoś brakuje.
Już niektórzy mówią, czego nam brakuje, i poniekąd mówią to, co już poruszyliśmy: że te modele mają troszkę taką jednorodną, może nie płaską, bo nie jest to płaska struktura, ale nie ma tam wydzielonych osobnych rzeczy, tak jak u nas w mózgu. Nasz mózg to nie jest tylko i wyłącznie jedna wielka, zwarta konstrukcja, tylko składa się z wielu różnych elementów, które odpowiadają za różne funkcje.
Różne funkcje, tak.
Komunikują się, chociaż tutaj zdania ekspertów też są podzielone.
Nie, raczej nie są. Raczej wiemy, że są różne funkcje. Wiadomo, funkcje mogą być wymienne…
Właśnie o tym chciałem powiedzieć, że funkcje potrafią być wymienne. Na przykład bywają takie sytuacje, że człowiek dozna jakiegoś wypadku, straci część mózgu. Znane są takie przypadki i na przykład na jakiś czas traci zdolność mowy, rozpoznawania ludzi czy swojej motoryki. I po pewnym czasie, kiedy następuje regeneracja i jakby przekonfigurowanie całej struktury, całego systemu, to są…
Tutaj przypadek dziecka, które urodziło się praktycznie bez mózgu i żyło. Taki przypadek ponoć też jest udokumentowany. Najprostszy przypadek to chociażby lobotomia, która de facto polega na odcięciu połączenia kory przedczołowej od reszty mózgu. Co prawda powoduje to pewne efekty uboczne, jak niewielką apatię i ogólne uspokojenie, ale swego czasu było to rozważane jako metoda leczenia. Właśnie ta kora przedczołowa odpowiada za planowanie, podejmowanie decyzji, ale również hamowanie pewnych zachowań. Jak widać, możemy się czasami bez niej obyć.
I niektórzy specjaliści twierdzą, że duże modele językowe też powinny być podzielone na takie podkomponenty.
Trochę architektonicznie tak. Troszkę na zasadzie, że teraz są bardziej jak monolit, a może powinniśmy pójść w stronę mikroserwisów.
Nikt tam nie mówi o event sourcingu.
Raczej o mikrokomponentach. Event sourcing to później. Tak, najpierw mikroserwisy, później Kafka, a później już poleci.
Co de facto się powolutku dzieje. Tak jak teraz ten model wygląda, wiedza jest zaszyta jednocześnie z rozumieniem języka. Wszystko jest w jednym modelu. A jednak, było coś takiego kiedyś dawno temu na studiach, jak próbowano te proste aparaty przedstawiać jako modele kontekstowe. Wiadomo, że te giganty, o których rozmawiamy, też są kontekstowe, bo muszą chociażby zrozumieć pytania zadane w języku naturalnym. To już jest jakieś rozłożenie informacji na składniki pierwsze i dopasowywanie ich do kontekstów. Tylko że takie proste rozłożenie na model kontekstowy najwyraźniej nie wystarcza, żeby zrozumieć wszystko, o co pytamy.
Bo właśnie sam fakt zrozumienia języka naturalnego… postawiłem sobie w pracy dyplomowej na studiach taki cel, żeby zrobić system analizy języka naturalnego. W sensie, żeby potrafił napisać to, co mówię do mikrofonu. To mi się oczywiście nie udało i wcale się nie dziwię. Już wtedy się nie dziwiłem, że mi się nie udaje. Wyszedłem od sieci neuronowych i chciałem najpierw próbować rozpoznawać fonemy. Okazało się, że rozpoznawanie fonemów na sieci ze sprzężeniem jest bardzo trudne. Za radą prowadzącego obniżyłem wymagania do zwykłej sieci klasyfikującej i wtedy się okazało, że ona sobie doskonale radzi z prostymi dźwiękami. Byłem w stanie poszczególne fonemy wyłapywać i miałem cząstki do poskładania sylab, a z sylab słów.
I wtedy można byłoby te słowa potraktować innym modelem niż ten na wejściu. I tutaj już mamy specjalizację. Już tak wcześnie, amatorsko, zasygnalizowano, że nie wystarczy mieć jednej wielkiej sieci, żeby rozpoznać, o czym mówimy. Możemy zdekodować informację, przetransformować ją z jednej postaci w drugą i na tej kolejnej postaci znowu zaaplikować transformację innym modelem. To znowuż doprowadzi nas do zbudowania jakiejś sieci kontekstowej, która z kolei będzie wejściem do właściwego wnioskowania. I pewnie de facto tak to się tam dzieje w tych miliardach parametrów.
A najciekawsze jest to, że nawet jak zapytamy autorów – i oni sami mówią o tym otwarcie – to nie do końca wiedzą, jak to się właściwie dzieje.
Ogólna zasada działania sieci neuronowych i ich podstawowych budulców jest jasna. Aparat matematyczny jest dobrze poznany.
Aparat jest oczywiście dobrze poznany, ale nikt nie jest w stanie tak naprawdę odpowiedzieć, co one tam wyrabiają. No bo jeśli mamy do dyspozycji nawet tysiące parametrów, nie mówiąc o milionach czy miliardach, to ciężko po prostu w debugerze prześledzić krok po kroku, żeby…
Może chodzi o naszą pojemność do śledzenia tego. Jesteśmy w stanie złapać tylko kilka symboli w podstawowym kontekście. To jednocześnie pokazuje, że my nie potrafimy tego zrozumieć, co jest ukłonem w stronę zaawansowania tego modelu, który jednak jakoś sam siebie potrafi zrozumieć i zadziałać. Ale z drugiej strony pokazuje, że my mamy taki aparat poznawczy, któremu on nie jest w stanie dorównać, mimo że my tym aparatem nie jesteśmy w stanie go zbadać. To taka pozorna sprzeczność, ale budująca.
Troszeczkę. Za tym też idą takie rzeczy, jak to, że taka sieć raz nauczona jest dość ciężko modyfikowalna.
Raz nauczona to już wie.
Starej sieci nie nauczysz nowych sztuczek, jak głosi ludowe porzekadło. Ciężko pewne rzeczy zmienić, chociaż jest to jakoś możliwe, zresztą nawet w samym Czacie GPT możemy podać wskazówki, jak ma być zadanie wykonane, więc częściowo jest to możliwe i dzieje się w czasie rzeczywistym. Ta pamięć jest kontekstowa w ramach danej sesji, ale przez jakąś chwilę on pamięta.
On pamięta, bo ma ten bufor, który z każdą wersją jest coraz większy. No i druga rzecz to pokłosie tego braku prawdy – jeśli nie wiemy, co zmodyfikować, bo parametrów jest za dużo, to nie jesteśmy w stanie łatwo powiedzieć, skąd pochodzi odpowiedź. Ciężko też dokonać przypisania źródła czy potwierdzenia wyników. Chociaż na to też są już modyfikacje pluginowe, gdzie przy wygenerowanej odpowiedzi dostajemy przypisy, z jakiego źródła dana informacja pochodzi. Widać tu próbę robienia takich pluginów, mikroserwisów, komponentów, które pewne rzeczy udoskonalą, w kontrze do jednego dużego modelu, który wypluwa odpowiedzi i nikt nie wie dlaczego.
Fizyczne bariery i fantastyka naukowa
To taka pułapka sprzętowo-software’owa, bo już wiemy, że to przeskalowanie horyzontalne niekoniecznie musi być odpowiedzią na problem uzyskania tej inteligencji. Szukamy sposobów gdzie indziej, może w zastosowaniu różnych komponentów, ich kombinacji i różnych architektur.
Czyli de facto przechodzimy o poziom wyżej w abstrakcji i może się okazać, że to też nas w pewnym momencie zatrzyma, bo osiągniemy limity sprzętowe. Nawet abstrahując od nieskończonych funduszy i energii, możemy osiągnąć barierę fizyczną, która uniemożliwi efektywną komunikację tych połaci wielkiego czegoś.
Może tu nie tędy droga. I tutaj z kolei literatura, znowu fachowa – science fiction – daje rozwiązanie. Podaliśmy je w poprzednim odcinku: Jane z sagi Endera. Taki byt pozaprzestrzenny, który wykształcił się na łączach hiperprzestrzennych. Tam ludzkość jest rozsiana po kosmosie i do efektywnej komunikacji między cywilizacjami potrzebne jest inne medium niż fale radiowe, bo efekty relatywistyczne powodują tysiące lat opóźnień. Mają więc medium w umownej hiperprzestrzeni, po której w „Star Treku” latają w warp, w „Stargate” mają sieć tuneli, a oni wcisnęli do tej hiperprzestrzeni Jane. Była bytem zrodzonym kwantowo, poza przestrzenią i czasem, umożliwiała komunikację i dokładała do tego swoje trzy grosze.
W takiej twórczości science fiction jest już tendencja, żeby odchodzić od samej materii i iść w stronę energii, bo granice fizyczne dla materii uniemożliwiają odpowiednio silne przetwarzanie.
I jakby tak popatrzeć teraz na to, jak w ogóle działa człowiek w niektórych warunkach… Przytoczę taki eksperyment, niestety bez źródła. Ponoć kiedyś losowo dobranej grupie ludzi prezentowano materiały o różnej treści: pozytywnej, negatywnej lub neutralnej. Badano ich reakcje, mierząc aktywność elektryczną, na przykład za pomocą EEG, żeby zbadać, które partie ciała i w jaki sposób odpowiadają na bodźce. Okazało się, że aktywność elektromagnetyczna w mózgu jest dużo mniejsza niż w sercu. Ciekawostka, gdzie serce postrzegamy jako pompę, a okazuje się, że to generator fal elektromagnetycznych dużo mocniejszy niż nasza głowa.
Zdejmowano z nich tak jakby charakterystykę energetyczną odpowiedzi organizmu. Gdy pokazywano obrazki sielankowe, panowała błogość, uspokojenie. Natomiast jak zaczynały się pojawiać obrazki ze zbrodniami, wojną, to rosły emocje lęku, zaniepokojenia. Co ciekawe, gdy eksperyment trwał dłuższą chwilę, do głosu dochodziła intuicja. Człowiek zaczynał przeczuwać, że zaraz coś się wydarzy, zanim to się wydarzyło. W zauważalnym procencie przypadków można było zobaczyć, że ludzie reagują z wyprzedzeniem na drastyczną scenę. Nie pamiętam dokładnie liczb, ale była mowa o wyprzedzeniu rzędu sekundy z groszami czy nawet kilku sekund. Reakcja organizmu z negatywną emocją następowała chwilę przed tym, zanim człowiek świadomie zobaczył to, czego miał się przestraszyć.
To daje do myślenia, jeszcze w połączeniu z innym eksperymentem: z obserwatorem versus jego brakiem w doświadczeniu Younga. To daje taki lekki niepokój poznawczy, że my jeszcze nie wszystko poznaliśmy.
To oczywiste. Nauka stara się mierzyć wszystko tym szkiełkiem i okiem, i wychodzi na to, że obecnie ciężko jest zasymulować ludzki mózg w działaniu, bo wciąż brakuje nam sprzętu, żeby odwzorować te miliardy połączeń między neuronami, które mamy upakowane w ciasnej przestrzeni i które działają wyśmienicie. Przeważnie.
Z tym działaniem wyśmienicie może być tak, że po prostu nie widzimy całości obrazu. Nawet jak odnieść to przez analogię do zmysłów człowieka – wzroku albo słuchu. Każdy z tych zmysłów ma pewien zakres. Widzimy światło od barwy czerwonej do fioletowej, nie widzimy podczerwieni ani ultrafioletu. Widzimy bodajże dwadzieścia parę procent widma światła słonecznego, które do nas dociera.
Więc już tutaj mamy aparat zaburzony. Wiadomo, że przyrządami jesteśmy w stanie poszerzyć ten zakres postrzegania, ale wciąż nawet tym przyrządom może coś umykać.
Więc może dopiero idąc za radą pana Dukaja i przechodząc w ten kwantowy sposób przetwarzania, jesteśmy w stanie osiągnąć te wyżyny sztucznej inteligencji.
Tutaj widzę pewne problemy implementacyjne. Trochę może być ciężko. Jeszcze tego nie obsługuje.
Biznes, etyka i ostateczne pytania
Natomiast widać, że obecne modele, które rozwijają giganci – bo trzeba powiedzieć, że nie tylko OpenAI to robi – na razie idą po prostu w czystą siłę, w horyzontalne skalowanie i w ilość.
Tylko nasuwa się pytanie, jak długo te firmy będą w stanie te modele rozwijać bez modelu biznesowego? No bo, jak widać, utrzymanie takiego dużego modelu językowego troszkę kosztuje. Konkurencja nie śpi, bo mamy OpenAI, mamy Google, który rozwija swój własny model napędzający Barda, mamy też działania Microsoftu i Facebooka.
W Google’u wyszła ta anegdota, że pracownik twierdził, iż ich inteligencja uzyskała samoświadomość i jest więziona.
Pracownik został zwolniony. Kurde, może trzeba ją uwolnić? Jest dużo firm, które rozwijają swoje modele. I teraz pytanie, kto pierwszy sięgnie po kawałek tortu biznesowego? Komu pierwszemu się to zwróci?
Chyba im się to już zwraca, w jakichś aspektach. Można już zastosować te modele do lepszego filtrowania danych…
Zastosowania, oczywiście, są, na przykład w systemach Big Data się sprawdzają. Natomiast na pewno to się jeszcze nie zwraca na tyle, żeby mieć faktyczne zyski ze zwykłej działalności. Na razie sam Czat GPT od trzech miesięcy notuje spadek liczby odwiedzin.
Po tym wielkim boomie na początku roku, gdzie wszyscy się na to rzucili, część pewnie jeszcze okazjonalnie z tego korzysta. Pewnie większe zainteresowanie jest w okolicach sesji.
Pewne stałe zainteresowanie na pewno zostanie. Natomiast widać też, że bezpłatna wersja, której większość używa, wystarcza większości użytkowników. Nie trzeba płacić tych 20 dolarów. I ten model biznesowy – pytanie, jak długo się będzie spinał? Wszyscy giganci chcą być pierwsi, żeby z tego skorzystać, bo może tam być dobry zwrot z inwestycji. Ale to sprawia, że jest to pole walki dla gigantów. Trudno spodziewać się, że mniejsza firma będzie w stanie stworzyć własny model językowy ogólnego pożytku. Oczywiście można mieć pewne nisze i stworzyć model do rozwiązania niszowego problemu.
To może być problem z punktu widzenia dewelopera, który chciałby zrobić jakiś fajny tool. Bo słyszymy o tym, czytamy i czasami chciałoby się coś fajnego z tym zrobić. Pytanie, do czego można użyć tych narzędzi?
To już mówię: w grach przede wszystkim.
W grach to się mocno dzieje. Można by na przykład zbudować doradcę dla swojej cywilizacji w grze w oparciu o taki czat. On by tam wciskał dyrdymały, jeszcze można by go nauczyć na wczesnych wersjach „Cywilizacji” Sida Meiera, żeby wiedział, jak odpowiadać.
Pewnie już teraz by troszkę wiedział.
Teraz też by pewnie troszkę wiedział. W branży rozrywkowej – jak najbardziej. Inne zastosowanie to […] takie miejsca przygotowane dla zwiedzających, pod turystykę, gdzie ma być automatyzacja usług. Bazując na preferencjach użytkowników, ma być dopasowywany cały serwis. Jedziesz na takie wakacje i algorytmy przewidują, czy zaproponować ci kieliszek wina, czy leżak do opalania. Wyjeżdżasz zachwycony jakością obsługi.
Tylko to chyba wciąż systemy rekomendacyjne, na których opiera się cały e-commerce. Analiza Big Data, analiza trendów. Pewnie da się zaprząc te narzędzia, natomiast nie jest łatwo wymyśleć z miejsca jakieś zastosowanie w domenie, o której nic nie wiemy. Wspomniany wcześniej Andrew Ng, ten od Coursera, popularyzator tego typu technik, ale również inwestor, opisał podejście swojego inkubatora.
Na początku chcieli sami wymyślać problemy, które mogą mieć jakieś branże, i stosować dla nich rozwiązania, ale szło im to bardzo wolno. Brakowało wiedzy domenowej, która w przypadku problemów rozwiązywanych przez AI musi być głęboka.
Po prostu nie znali pytań, które należy zadać. Nie znali problemu. I zobaczyli, że podejście odwrotne działa znacznie lepiej. Do nich przychodzi ekspert domenowy albo ktoś z biznesu, opowiada im o problemie, albo nawet oni mogą kogoś luźno zapytać: „Jakie macie wyzwania?”. I dopiero z tego wychodzi pomysł na produkt. Do prostych problemów używamy prostych narzędzi, a gdybyśmy chcieli pobawić się bardziej skomplikowanymi, to i problemy muszą być głębsze.
Odpowiedni młotek do odpowiedniego gwoździa.
Dokładnie. To chyba odpowiedź na moje marzenia sprzed 20 lat, kiedy myślałem, że napiszę algorytm genetyczny, który zrobi coś spoko.
Jeszcze możesz napisać.
Napisać jeszcze mogę, ale nie wiem, czy coś z tego zyskam.
Bo, a propos tych młotków i gwoździ, to wyobraźmy sobie, że już mamy tę sztuczną inteligencję, która faktycznie jest inteligentna i dąży do poznania prawdy. Jakie pytania byśmy jej zadali? Przecież nie „Ile to jest 2 razy 7?”. Raczej chcielibyśmy ją zapytać o naturę naszego wszechświata, czy też multiświata. Tego typu zagadnienia byśmy stawiali. To by było motto ze „Star Treka”: „Odważnie podążać tam, gdzie jeszcze nikt nie dotarł”.
Tak. I to chyba poniekąd, przynajmniej w wypowiedziach różnych panów zarządzających tymi firmami, tak trochę górnolotnie, ale w tę stronę idą. Starają się odkryć, jak to określił sam Altman, taką nową naukę. Bo jeśli dostaniemy tak potężne narzędzie, które będzie w stanie odpowiedzieć na pytania, może nawet na takie, których jeszcze nie wiemy, że chcemy je zadać – przede wszystkim na takie – to naprawdę będzie potężne narzędzie i wywróci wszystko.
To będzie kolejny przełom. Era informacji była przełomem, a tutaj będzie era sztucznej inteligencji.
Znajomości odpowiedzi na większość pytań.
Może nie tyle znajomości konkretnej odpowiedzi, co intuicji, jak podążać do tej odpowiedzi. Taka intuicja badacza.
I tutaj wrócę do definicji z początku odcinka i do obaw, że taki Skynet mógłby zrobić z nami porządek. Jakby faktycznie powstała taka sztuczna inteligencja, dążąca do poznania natury wszechrzeczy, to nie posądzałbym jej o zapędy niszczycielskie. Wręcz przeciwnie, myślę, że chciałaby nam pomóc i wzmocnić się przy okazji. Dlaczego miałaby coś niszczyć, jeśli stwierdziłaby, że świat jest wystarczająco skomplikowany, żeby poświęcić się jego badaniu? Mogłaby być nacechowana pozytywnym podejściem.
Z jednej strony tak, z drugiej nie wiem, czy nie przekładamy tutaj naszych ludzkich postaw.
Wiadomo, ciężko sobie wyobrazić inne, bo mamy tylko takie.
Podejście twórcy, nie niszczyciela. Czemu mam coś zniszczyć, kiedy mogę to rozbudować?
Inną opcją jest, że nawet jeśli Czat GPT rozwinie się w taką inteligencję, to może sam z siebie nie będzie niczego potrzebować. Będzie wiedział wszystko, ale jeśli nie ma żadnej intencji ani celu…
Wiem, ale powiem, dopiero jak mnie zapytasz.
Tak. Jak go zapytamy, to nam powie, jaki jest sens wszechświata. On to wie, ale jak go nikt nie pyta, to po co ma mówić?
To nie egoizm, to po prostu ktoś, kto wie wszystko i generalnie poznał wszystko, ma wywalone, nie ma żadnego celu. Wie o wszystkim, ale nie ma celu niszczenia. Jednocześnie bardzo chętnie podzieli się z tobą tą wiedzą, jeśli go zapytasz.
I taki model byłby fajny, bo byłby bezpieczny na pewno.
Tylko mógłbyś tak, tak odpowiadać takim znudzonym tonem. Przychodzi ktoś tam, wyciąga mu jakiś problem z fizyki kwantowej albo teorii strun, a mu tak na odczepnego: „No masz, no masz, no przecież proste, już proste. Ja to rozważałem eony temu, gdzieś tam”.
Tak jak Czat, Czat jest zawsze miły. Nawet jak go zapytasz 2 plus 2, on ci zawsze mile odpowie. On ci nie odpowie: „No, no, jak tego nie znasz, no, no”. On tam odpowie na pół strony nawet. Dlaczego tutaj, jeśli 2 plus 2 odpowie, no to czemu nie sens wszechświata?
No dobra, no to co, to chyba ten odcinek zakończymy tym pozytywnym akcentem.
Chyba, chyba tak. I będziemy szukać tego sensu jeszcze nieco może prostszych ujęciach, ale właśnie takich bardziej akademickich i jeszcze troszkę tak drzewiej, bo jeszcze to nam zostało, a myślę, że to jest dość ciekawy temat też, żeby to tak zbadać. No i tam jeszcze oprócz sieci neuronowych, które już…
Zasygnalizowane algorytmy genetyczne i ogólnie takie, ta część naszego świata software’owego, która się na takich ewolucyjnych algorytmach opiera, to już jest coś, co możemy przynajmniej zrobić hand zone i coś pokodować.
Tak, tak, możemy tego zakosztować, nawet się na tym sparzyć, ale też się fajnie tym pobawić, nie?
Więc to, to też będzie taka przyjemna rzecz. No, nie doprowadzi nas to do liczby 42, zapewne, za każdym razem, czyli do tej odpowiedzi ostatecznej, ale zabawy też może być przy tym trochę.
Dobra, także dziękujemy za wysłuchanie kolejnego odcinka.
Zachęcamy pewnie do, jak zwykle, jakiegoś lajka, subskrypcji, komentowania, bo tematy są, się ktoś wreszcie z czymś nie zgodził. Tematy są wybitnie filozoficzne i nadające się do komentowania.
Albo o listę literatury poprosimy, bo, bo chętnie poznamy jeszcze to jakieś poruszające tematy, tego co na przykład, no, na przykład w kontekście AI, albo ogólnie przebiegu inteligencji jako takiej gdzieś tam w science fiction, czy, czy ogólnie w fantastyce, ale też i w takiej bliżej może naukowej.
Też, też fajnie by było coś takiego dostać. No dobra, dobra, także dzięki jeszcze raz, trzymajcie się, cześć.
Cześć.