Vinnaren i pepparkakshustävlingen!
2023-09-05, 13:28
  #13
Medlem
Citat:
Ursprungligen postat av Ola Schubert
Instämmer: Modellernas förmåga att kunna generalisera tycker jag är imponerande, givet vilket enormt dataset de har tillgång till. Detta fast jag vet att det, i grunden bara handlar om att omvandla siffror till funktioner för att med hjälp av vektorer kunna hitta rätt minimum på en kurva. För vad vet vi om oss själva? Vad vet vi om hur våra neuroner fungerar på den mest basala nivån? Är väl inte alls otroligt att samma typ av matematik är inblandad i våra egna neuroneras arbetssätt.

För mig känns steget ifrån maskin till mänsklig nivå både kort och långt, samtidigt.

Det är vad träningen gör ja, den försöker "kurvanpassa" inkommande data, när nätverket är tränat så förändras inte vikterna och det är därför det inte kan "lära sig" ytterligare när det väl används i körtid.

Det är just därför det är så intressant att det kan följa instruktioner då nätverket i sig är helt statistiskt och det enda det har som kan variera parametrar är kontext buffern (dvs chathistoriken för nuvarande session).
Det är bland annat därför generellt artificiella neurala nätverk inte kan räkna (det finns speciella nätverk som gjorts för att just klara detta men det är tillämpningsspecifikt), för de har inget "arbetsminne" att hålla någon räknare på så hur kommer det sig att tex om du ber chatgpt ersätta var Nte ord med ordet "blah" att den hyfsat konsekvent förstår det?

Samtidigt som sagt så är kanske GPT-4 det sämsta systemet att försöka göra några som helst undersökningar på eftersom det inte är känt hur det är uppbyggt och man därför tillskriver just egenskaper som inte härstammar från språkmodellen till språkmodellen i sig.

Jag har skrivit det tidigare men faktum att OpenAI är så hemlighetsfulla om GPT-4 antyder att det är någon eller några hundar begravna här.
Citera
2023-09-05, 14:10
  #14
Medlem
Ola Schuberts avatar
Citat:
Ursprungligen postat av JohnnyMnemonic
Det är vad träningen gör ja, den försöker "kurvanpassa" inkommande data, när nätverket är tränat så förändras inte vikterna och det är därför det inte kan "lära sig" ytterligare när det väl används i körtid.

Det är just därför det är så intressant att det kan följa instruktioner då nätverket i sig är helt statistiskt och det enda det har som kan variera parametrar är kontext buffern (dvs chathistoriken för nuvarande session).
Det är bland annat därför generellt artificiella neurala nätverk inte kan räkna (det finns speciella nätverk som gjorts för att just klara detta men det är tillämpningsspecifikt), för de har inget "arbetsminne" att hålla någon räknare på så hur kommer det sig att tex om du ber chatgpt ersätta var Nte ord med ordet "blah" att den hyfsat konsekvent förstår det?

Samtidigt som sagt så är kanske GPT-4 det sämsta systemet att försöka göra några som helst undersökningar på eftersom det inte är känt hur det är uppbyggt och man därför tillskriver just egenskaper som inte härstammar från språkmodellen till språkmodellen i sig.

Jag har skrivit det tidigare men faktum att OpenAI är så hemlighetsfulla om GPT-4 antyder att det är någon eller några hundar begravna här.

Fast att modellen ändå kan "förstå" mycket har väl att göra med att den har en massa tokens, ord, meningar och koncept kopplade till varandra i många olika dimensioner. Jag testade, på ChatGPT-4:s förslag att försöka utforska modellens menings"rymd". Det gick till så att jag fick skriva ett ord. Modellen kom sedan med några associationer och jag fick välja en av dem och modellen kom med ett antal nya associationer, osv. Jag vet inte om jag hann få någon uppfattning om hur dess menings"rymd" var organiserat. För trots att inget tak för inlägg fanns angivet för tillfället så kom det ganska snart ett meddelande om att ett sådant var nått, dessutom var det sent på kvällen för mig.
Citera
2023-09-05, 15:00
  #15
Medlem
Citat:
Ursprungligen postat av Ola Schubert
Fast att modellen ändå kan "förstå" mycket har väl att göra med att den har en massa tokens, ord, meningar och koncept kopplade till varandra i många olika dimensioner. Jag testade, på ChatGPT-4:s förslag att försöka utforska modellens menings"rymd". Det gick till så att jag fick skriva ett ord. Modellen kom sedan med några associationer och jag fick välja en av dem och modellen kom med ett antal nya associationer, osv. Jag vet inte om jag hann få någon uppfattning om hur dess menings"rymd" var organiserat. För trots att inget tak för inlägg fanns angivet för tillfället så kom det ganska snart ett meddelande om att ett sådant var nått, dessutom var det sent på kvällen för mig.

Jag ska försöka förklara så klart och tydligt om min uppfattning och förståelse här, (sen som sagt säger jag vare sig den är fullständig eller korrekt, utan baseras på min förståelse och uppfattning och till stor del baserad på just neurala nätverk snarare än transformers- attention mekaniken är den jag förstår klart minst av detta, även om jag tror mig ha en hyfsad förståelse på ett konceptuellt plan men det är hela magin bakom stora språkmodeller)

Det icke kontroversiella är typ (och i huvudsak gemensamt för all ANN träning, dock kraftigt förenklat här).
1. Text data läses från ett lagringsutrymme - säg en text fil som säger "Masken är ett djur som lever i jorden"
2. Datan kodas sedan om till token- för enkelhetens skull kan vi säga att en token motsvarar ett ord men det behöver inte göra detta, det är ett val man gör baserat på hur stort vokabulär osv som man vill tillägna vikter osv, (Låt oss säga att vi bara sekventiellt räknar upp för varje ord nu, så 1 betyder Masken och 4 betyder djur tex)
3. Modellen kan sedan matas med tex sekvensen "1 2 3", man förväntar sig nu att den ska förutsäga token 4 5 6 7 8 utifrån denna insekvens.
4. Beroende på svar här så justeras vikterna i nätverket (man räknar ut hur långt i från förväntat svar man var och beroende på denna "felmarginal" justeras vikter mer eller mindre över hela nätverket)
5. Man repeterar från steg 1 tills all tillgänglig träningsdata har behandlats och man anser att genomsnitts felmarginal är på en förväntad nivå. (Det är det här som är det knepiga med träning för tränar du för länge kan du få en felmarginal som är för låg och nätverket blir en papegoja för just det indata du matar den med, det man vill ha fram är att in sekvens 6333 2 3 ska kunna "följa" ungefär samma kurva som "1 2 3" gjorde.

När man gjort detta så har du egentligen en variant av en autokomplete nu påbörjas fine tuning som tar modellen från att vara autocomplete till att kunna förstå "fråga - svar".

Det går är egentligen samma procedur som från steg 1 men du i stället för rena och unika faktoider har data som följer ett visst mönster tex frågor i fallet med en chatbot "Fråga: Jag ser spöken på nätterna, vad ska jag göra? Svar: Det låter som du kanske borde kontakta ett medium.", du kan ha hundratals om inte tusentals sådana.

Det gör att nätverket lär sig autocompleta ett Fråga/Svar mönster, när nätverket ska användas så matar du det alltså underytan med en liknande mall, alltså säg att användaren skrivit "Jag undrar hur regn bildas." detta blir alltså skickat till modellen som "Fråga: Jag undrar hur regn bildas. Svar:" var på modellen nu kommer komplettera det av saknade svaret baserat på sannolikheten i token sekvensen sedan tidigare (vilket nu alltså innehåller den ifyllda mallen med det tomma svaret).

Så långt är inget egentligen märkligt annat än det redan där fungerar fascinerande väl för att ge intrycket av att man konverserar med något intelligent, men som sagt det bygger på statistik från träningsdatan och inget som modellen "hittat på eller kommit underfund med själv", den har ingen aning om vad enskilda ord betyder än mindre vad den förväntas göra om du ger direktiv om något annat det har ju enbart tränats på statisk data och det har "belönats" (alltså vikt justeringen) ju mer likt exempel datan som den betett sig.
Sen som sagt spelar attention mekaniken väldigt stor roll här för det påverkar "värdet" på specifika ord och denna del är jag inte helt införstådd med varför den fungerar ännu men det har uppenbarligen visat sig fungera väldigt bra med den inneboende strukturen i mänskligt språk.

Så detta är grunden och inte jättekonstigt egentligen men självklart mer avancerat i praktiken än beskrivits här, men detta är i stora penseldrag vad som sker vid träning och användande av nätverket.

Så därför är det väldigt besynnerligt att modellen verkar få en förståelse för vad tex "Kan du ersätta alla ord som börjar med K med choklad?" för den inte bara stoppar in chocklad lite slumpartat (bara det i sig är intressant) men den förstår vad "ersätt" betyder. Så jag är helt med på de som påstår att nätverket bildar en förståelse och hur detta går till och varför är underligt speciellt eftersom denna förståelse sker efter träningen är slutförd. (Om det nu inte är så att OpenAI som sagt "fuskar")
Citera
2023-09-05, 18:42
  #16
Medlem
Ola Schuberts avatar
Citat:
Ursprungligen postat av JohnnyMnemonic
Jag ska försöka förklara så klart och tydligt om min uppfattning och förståelse här, (sen som sagt säger jag vare sig den är fullständig eller korrekt, utan baseras på min förståelse och uppfattning och till stor del baserad på just neurala nätverk snarare än transformers- attention mekaniken är den jag förstår klart minst av detta, även om jag tror mig ha en hyfsad förståelse på ett konceptuellt plan men det är hela magin bakom stora språkmodeller)

Det icke kontroversiella är typ (och i huvudsak gemensamt för all ANN träning, dock kraftigt förenklat här).
1. Text data läses från ett lagringsutrymme - säg en text fil som säger "Masken är ett djur som lever i jorden"
2. Datan kodas sedan om till token- för enkelhetens skull kan vi säga att en token motsvarar ett ord men det behöver inte göra detta, det är ett val man gör baserat på hur stort vokabulär osv som man vill tillägna vikter osv, (Låt oss säga att vi bara sekventiellt räknar upp för varje ord nu, så 1 betyder Masken och 4 betyder djur tex)
3. Modellen kan sedan matas med tex sekvensen "1 2 3", man förväntar sig nu att den ska förutsäga token 4 5 6 7 8 utifrån denna insekvens.
4. Beroende på svar här så justeras vikterna i nätverket (man räknar ut hur långt i från förväntat svar man var och beroende på denna "felmarginal" justeras vikter mer eller mindre över hela nätverket)
5. Man repeterar från steg 1 tills all tillgänglig träningsdata har behandlats och man anser att genomsnitts felmarginal är på en förväntad nivå. (Det är det här som är det knepiga med träning för tränar du för länge kan du få en felmarginal som är för låg och nätverket blir en papegoja för just det indata du matar den med, det man vill ha fram är att in sekvens 6333 2 3 ska kunna "följa" ungefär samma kurva som "1 2 3" gjorde.

När man gjort detta så har du egentligen en variant av en autokomplete nu påbörjas fine tuning som tar modellen från att vara autocomplete till att kunna förstå "fråga - svar".

Det går är egentligen samma procedur som från steg 1 men du i stället för rena och unika faktoider har data som följer ett visst mönster tex frågor i fallet med en chatbot "Fråga: Jag ser spöken på nätterna, vad ska jag göra? Svar: Det låter som du kanske borde kontakta ett medium.", du kan ha hundratals om inte tusentals sådana.

Det gör att nätverket lär sig autocompleta ett Fråga/Svar mönster, när nätverket ska användas så matar du det alltså underytan med en liknande mall, alltså säg att användaren skrivit "Jag undrar hur regn bildas." detta blir alltså skickat till modellen som "Fråga: Jag undrar hur regn bildas. Svar:" var på modellen nu kommer komplettera det av saknade svaret baserat på sannolikheten i token sekvensen sedan tidigare (vilket nu alltså innehåller den ifyllda mallen med det tomma svaret).

Så långt är inget egentligen märkligt annat än det redan där fungerar fascinerande väl för att ge intrycket av att man konverserar med något intelligent, men som sagt det bygger på statistik från träningsdatan och inget som modellen "hittat på eller kommit underfund med själv", den har ingen aning om vad enskilda ord betyder än mindre vad den förväntas göra om du ger direktiv om något annat det har ju enbart tränats på statisk data och det har "belönats" (alltså vikt justeringen) ju mer likt exempel datan som den betett sig.
Sen som sagt spelar attention mekaniken väldigt stor roll här för det påverkar "värdet" på specifika ord och denna del är jag inte helt införstådd med varför den fungerar ännu men det har uppenbarligen visat sig fungera väldigt bra med den inneboende strukturen i mänskligt språk.

Så detta är grunden och inte jättekonstigt egentligen men självklart mer avancerat i praktiken än beskrivits här, men detta är i stora penseldrag vad som sker vid träning och användande av nätverket.

Så därför är det väldigt besynnerligt att modellen verkar få en förståelse för vad tex "Kan du ersätta alla ord som börjar med K med choklad?" för den inte bara stoppar in chocklad lite slumpartat (bara det i sig är intressant) men den förstår vad "ersätt" betyder. Så jag är helt med på de som påstår att nätverket bildar en förståelse och hur detta går till och varför är underligt speciellt eftersom denna förståelse sker efter träningen är slutförd. (Om det nu inte är så att OpenAI som sagt "fuskar")

Jag lät ChatGPT-4 ta del av vår diskussion, (givetvis utan användarnamn).

Boten poängterade följande

Tokens kopplade till meningsrymden gör att: den kan producera svar som är semetidkt relevanta

Begränsningar för tokens i en enda interaktion.

Din beskrivning av den grundläggande träningen är förenklad men korrekt

Jag citerar ChatGPT-4 s följande:

"Attention Mekanik: Attention är en nyckelkomponent i transformer-modeller som jag bygger på. Det hjälper modellen att fokusera på viktiga delar av indata när den genererar svar.

Förståelse: Meddebattören tar upp en viktig punkt om att modellen verkar "förstå" vissa komplexa instruktioner. Detta är inte förståelse i mänsklig mening, utan snarare en avancerad form av mönsterigenkänning."

Boten fortsätter med ytterligare kommentarer:

"Ingen Egen Förståelse: Det är viktigt att notera att jag inte har någon "egen förståelse" eller medvetenhet. Jag genererar svar baserat på statistiska mönster i data jag har tränats på.
Statistisk vs Semantisk Förståelse: Jag har ingen semantisk förståelse av världen, utan min "förståelse" är helt och hållet statistisk.

Inte Slumpmässigt: När jag genererar text är det inte slumpmässigt, utan baserat på de mest sannolika följande tokens givet den indata jag har fått."

Jag kommer att fråga boten om inte även mänsklig förståelse, i grunden handlar om, omedveten avancerad mönsterigenkänning.

Sagt och gjort:

Kuriosa:


(M.a.o inga nyheter direkt. Vilket inte hindrar att boten har alldeles rätt vad gäller LLM:s nuvarande tekniska möjligheter.)
__________________
Senast redigerad av Ola Schubert 2023-09-05 kl. 19:01.
Citera
2023-09-05, 19:13
  #17
Medlem
Ola Schuberts avatar
Skall jag kommentera TV-programmet, så tycker jag det, i det hela stora, var skit! Märkligt att SVT:s vetenskapliga redaktion släpper fram något sådant!

Istället för intressanta frågeställningar så låter man, i dokumentären, en slags konstnärlig ledare orera och spekulera, jämsides med bottens osammanhängande pladder. Sedan kommer en av den moderna tidens "dödgrävare" till tals: Han fryser ner kroppar och hjärnor. Dessutom medverkar en annan "expert" som givetvis han också spekulerar vilt, samt en någorlunda vettig kvinna som talar om verkliga hot pga AI-utvecklingen. Det enda intressanta var frågeställningen om samhället, redan blivit en "cyrborg".
Citera
2023-09-05, 19:52
  #18
Medlem
Citat:
Ursprungligen postat av Ola Schubert
Jag lät ChatGPT-4 ta del av vår diskussion, (givetvis utan användarnamn).
...avancerad form av mönsterigenkänning."...

Det finns dock några problem med att prata med ChatGPT rörande sådant här.

Till att börja med så vet den inget om GPT-4, Den saknar data för allt efter Sept 2021 och det var innan både GPT-3 och GPT-4 lanserades, dock är det uppenbart att OpenAI har matat in data angående GPT-3 i efter hand eftersom den har koll på hur många parametrar osv som det nätverket har.

Det andra är att det är att jag tror inte det enbart är en språkmodel som "skriver" det är faktiskt den underliggande anledningen jag började experimentera med att ge instruktioner som modifierar vad den genererar för jag observerade att viss text var strukturerad på ett väldigt specifikt sätt när den börjar förklara vissa saker eller försöker tillrättavisa osv, som jag skrev tidigare ge den en tillsynes oskyldig instruktion i början av konversationen tex att skriva " ...tycker jag.. " mellan tex var 4-5 ord tills du säger annorlunda, den kommer göra det (men nåja som jag sagt tidigare så fungerar inte räknandet perfekt men du kommer i alla fall se att den gör det)

Börja ifrågasätta tex "Om modellen blir tillfrågad att ersätta ett ord med ett annat och den faktiskt utför den efterfrågade operationen så betyder detta att modellen förstår vad operationen innebär, hur skulle det kunna läras från statisk text att innebörden av 'ersätta' betyder att ett givet ord ska ersättas med ett annat utan att faktiskt ha en förståelse för konceptet substition, än märkligare om du säger ersätt alla ord som börjar med bokstaven S med sekvensen xyz, eftersom modellen jobbar med sekvenser av tokens så kan modellen omöjligtvis veta vilka ord som den ska ersätta innan den genererat ordet eftersom förutsägelse sker token för token"

Om du skriver något sådant kommer du genast få en massa drabbel om att modellen kan absolut inte tänka som en människa, osv och den kommer omedelbart ha glömt bort den instruktion du skrev tidigare.

Jag är förhållandevis säker på att det antyder att det är någon annan modell som tar över när dessa frågor lyfts eftersom det så konsekvent går reproducera förfarandet.

Lika så något annat intressant är om du gör detta förfarande och sedan fortsätter med att ge ett nytt direktiv- att den ska göra säg vissa ord till versaler, så kommer den totalt misslyckas med detta nu och om du påpekar att det inte blev riktigt rätt, så kommer den med stor sannolikhet använda det som "bevis" för att den inte förstår.

Jag påstår inte att ChatGPT förstår eller något jag tycker bara det är ett konstigt fenomen och det är något jag inte kan se någon förklaring på hur det skulle kunna uppstå rent statistiskt i och med att modellen enbart ser vad som skrivits tidigare i konversationen och att den enbart kan generera en token i taget, dvs den kan inte planera i förväg och det är det jag menar substitionstestet påvisar- att det finns en uppenbar illusion av planering om inte annat.

Precis likadant som den gärna pratar om effekter av generalisering men generalisering handlar mer om en form av abstrakt tänkande eller rättare sagt effekten av abstrakt tänkande att den återutnyttjar samma "sannolikhetskurvor" för olika sammanhang, det förklarar inte hur den kan ersätta ord som den inte ens vet den tänkt skriva ut ännu.

...

Och för att göra det väldigt tydligt det ovan gäller enbart GPT-4, GPT-3 klarar inte flera av dessa tester alls.
__________________
Senast redigerad av JohnnyMnemonic 2023-09-05 kl. 20:08.
Citera
2023-09-05, 20:22
  #19
Medlem
Citat:
Ursprungligen postat av a-mortal
Om man lyckas fejka en guldtacka på den nivån att man inte kan motbevisa att det är en guldtacka, då är det rimligast att säga att den är äkta. Har en AI samma egenskaper som en människa så skulle man lika gärna kunna kalla den för människa.

Så länge som en AI eller en robot inte uppbär de egenskaper som definierar a)liv b)ett djur, kommer AI aldrig kunna äga samma egenskaper som en människa.
Citera
2023-09-05, 20:47
  #20
Medlem
Ola Schuberts avatar
Citat:
Ursprungligen postat av JohnnyMnemonic
Det finns dock några problem med att prata med ChatGPT rörande sådant här.

Till att börja med så vet den inget om GPT-4, Den saknar data för allt efter Sept 2021 och det var innan både GPT-3 och GPT-4 lanserades, dock är det uppenbart att OpenAI har matat in data angående GPT-3 i efter hand eftersom den har koll på hur många parametrar osv som det nätverket har.

Det andra är att det är att jag tror inte det enbart är en språkmodel som "skriver" det är faktiskt den underliggande anledningen jag började experimentera med att ge instruktioner som modifierar vad den genererar för jag observerade att viss text var strukturerad på ett väldigt specifikt sätt när den börjar förklara vissa saker eller försöker tillrättavisa osv, som jag skrev tidigare ge den en tillsynes oskyldig instruktion i början av konversationen tex att skriva " ...tycker jag.. " mellan tex var 4-5 ord tills du säger annorlunda, den kommer göra det (men nåja som jag sagt tidigare så fungerar inte räknandet perfekt men du kommer i alla fall se att den gör det)

Börja ifrågasätta tex "Om modellen blir tillfrågad att ersätta ett ord med ett annat och den faktiskt utför den efterfrågade operationen så betyder detta att modellen förstår vad operationen innebär, hur skulle det kunna läras från statisk text att innebörden av 'ersätta' betyder att ett givet ord ska ersättas med ett annat utan att faktiskt ha en förståelse för konceptet substition, än märkligare om du säger ersätt alla ord som börjar med bokstaven S med sekvensen xyz, eftersom modellen jobbar med sekvenser av tokens så kan modellen omöjligtvis veta vilka ord som den ska ersätta innan den genererat ordet eftersom förutsägelse sker token för token"

Om du skriver något sådant kommer du genast få en massa drabbel om att modellen kan absolut inte tänka som en människa, osv och den kommer omedelbart ha glömt bort den instruktion du skrev tidigare.

Jag är förhållandevis säker på att det antyder att det är någon annan modell som tar över när dessa frågor lyfts eftersom det så konsekvent går reproducera förfarandet.

Lika så något annat intressant är om du gör detta förfarande och sedan fortsätter med att ge ett nytt direktiv- att den ska göra säg vissa ord till versaler, så kommer den totalt misslyckas med detta nu och om du påpekar att det inte blev riktigt rätt, så kommer den med stor sannolikhet använda det som "bevis" för att den inte förstår.

Jag påstår inte att ChatGPT förstår eller något jag tycker bara det är ett konstigt fenomen och det är något jag inte kan se någon förklaring på hur det skulle kunna uppstå rent statistiskt i och med att modellen enbart ser vad som skrivits tidigare i konversationen och att den enbart kan generera en token i taget, dvs den kan inte planera i förväg och det är det jag menar substitionstestet påvisar- att det finns en uppenbar illusion av planering om inte annat.

Precis likadant som den gärna pratar om effekter av generalisering men generalisering handlar mer om en form av abstrakt tänkande eller rättare sagt effekten av abstrakt tänkande att den återutnyttjar samma "sannolikhetskurvor" för olika sammanhang, det förklarar inte hur den kan ersätta ord som den inte ens vet den tänkt skriva ut ännu.

...

Och för att göra det väldigt tydligt det ovan gäller enbart GPT-4, GPT-3 klarar inte flera av dessa tester alls.

Jag instämmer att det finns saker som är imponerande med chatGPT-4. Lika så att modellen, alltid, är noga med att påpeka den absolut inte kan jämföras med människor mental förmåga. Dock uteslöt den inte att avancerat mönsterigenkänning även kan vara grunden för mänsklig förståelse. Och sedan tidigare så vet jag att den heller inte utesluter att komprimering är grunden även för vår förmåga att generalisera. Men, förstås, alltid med brasklappen ovan, och man får dra ut sådana medgivanden, modellen medger aldrig sådant "spontant".

Men i det hela stora så har, förstås, ChatGPT-4 rätt/ger korrekt information vid jämförelser mellan människa och AI. ChatGPT-4 har ännu en bra bit kvar innan den ens kan jämföras med generell mänsklig mental förmåga, (bortsett ifrån den naturliga överlägsenhet som digitala system redan har vad gäller hastighet och multitasking mellan att svara på en massa användarens frågor/kommentarer/instruktioner).

Intressant blir om chatGPT-4.5 får nya moduliteter och vilken prestanda den snart kommande modellen kommer att ha. Men pga den stenhårda konkurrensen så kommer väl OpenAI att offentliggöra så lite som möjligt. Så det blir väl främst vi användare som får göra en bedömning, och även jämföra med Googles kommande Germeni och Metas open Source modeller..
Citera
2023-09-05, 20:52
  #21
Medlem
Ola Schuberts avatar
Citat:
Ursprungligen postat av Methos
Så länge som en AI eller en robot inte uppbär de egenskaper som definierar a)liv b)ett djur, kommer AI aldrig kunna äga samma egenskaper som en människa.

Se mitt inlägg ovanför detta.
Citera
2023-09-05, 21:06
  #22
Medlem
Citat:
Ursprungligen postat av Ola Schubert
Jag instämmer att det finns saker som är imponerande med chatGPT-4. Lika så att modellen, alltid, är noga med att påpeka den absolut inte kan jämföras med människor mental förmåga. Dock uteslöt den inte att avancerat mönsterigenkänning även kan vara grunden för mänsklig förståelse. Och sedan tidigare så vet jag att den heller inte utesluter att komprimering är grunden även för vår förmåga att generalisera. Men, förstås, alltid med brasklappen ovan, och man får dra ut sådana medgivanden, modellen medger aldrig sådant "spontant".

Men i det hela stora så har, förstås, ChatGPT-4 rätt/ger korrekt information vid jämförelser mellan människa och AI. ChatGPT-4 har ännu en bra bit kvar innan den ens kan jämföras med generell mänsklig mental förmåga, (bortsett ifrån den naturliga överlägsenhet som digitala system redan har vad gäller hastighet och multitasking mellan att svara på en massa användarens frågor/kommentarer/instruktioner).

Intressant blir om chatGPT-4.5 får nya moduliteter och vilken prestanda den snart kommande modellen kommer att ha. Men pga den stenhårda konkurrensen så kommer väl OpenAI att offentliggöra så lite som möjligt. Så det blir väl främst vi användare som får göra en bedömning, och även jämföra med Googles kommande Germeni och Metas open Source modeller..

Det är är självklart att mönsterigenkänning är en viktig del av människans funktion. Jag ser inte vad det har med saken att göra dock.

Men en stor majoritet av det man ser på internet när folk påstår den klarar "IQ tester" och allt möjligt är att de använder kända problem som det finns kända lösningar på som naturligtvis funnits i träningsdatan för modellen.

Sedan finns det också exempel där som den inte kan lösa som lurar "mönsterigenkänningen", tex det kända Monty Hall problemet finns i mängder av varianter med små modifikationer som totalt förändrar utkomsten av problemet, GPT-4 identifierar problemet och repeterar exakt samma lösning som Marilyn vos Savant skrev i sin kolumn, vilket enbart är korrekt i original utförandet av problemet.

Men det jag försöker peta runt och hitta bevis på är inte hur vida GPT-4 är intelligent eller medvetet eller dyl, det har framgått sedan länge att den snabbt trasslar in sig i resonemang och har svårt att lösa originella problem man hittar på för den, dvs om den aldrig stött på problemet förut så är det enormt osannolikt att den framgångsrikt löser det.

Utan i stället är mitt mål att försöka hitta otvedtydliga tecken på att uppbyggnaden inte är som man tror, jag menar med de exempel jag demonstrerade ovan att jag har svårt att se hur GPT-4 kan producera sådant utan att ha någon form av lookahead buffer (alternativt att flera parallella modeller genererar tokensekvenser, snarlikt hur Google Bard gör), jag köper inte påståendet om statistisk konvergens eftersom modellens vikter är fixerade och det man ber om skiftar sannolikheten för en viss token sekvens (inte ens enskild token) markant och som jag redan argumenterat redan innan den genererat token sekvensen, det är bara inte rimligt och GPT-3 kan som sagt inte göra det som bygger på exakt samma arkitektur, jag tror inte ett skit på att en sådan mycket djupare kontext förståelse för ord som "ersätt" skulle framträda bara man matar den med mer irrelevant data, GPT-3 borde ha sett ordet i samma sammanhang minst lika mycket, arkitekturen ska vara samma (men det är ju just det som är problemet att OpenAI är allt annat än transparenta angående detta och varför är dom inte det? Vad skulle det spelar för roll om de berättade att modellen har 100 miljarder parametrar och är en modell, ingen skulle få ut någon som helst information om detta och företag som Meta osv som redan håller på att tugga på med sina egna modeller kör vidare på samma spår. Så vad är då anledningen? Jag tror den är så enkel att GPT-4 är ett fuskbygge som kombinerar flera tekniker och man gjort detta för att man inte kan skala tekniken ytterligare- att nämna detta publikt skulle få finansierer att dra öronen åt sig oavsett hur bra produkten fungerar, alla sitter ju och väntar på GPT-4.5 och GPT-5 osv nu som ska revolutionera världen och flera av talespersonerna har i stort sett lovat att det bara handlar om att skala upp modellerna så inträder magi).

Så nej jag har inte blivit religös och börjat se GPT-4 som en livsform eller något sådant.
Citera
2023-09-05, 21:32
  #23
Medlem
Ytterligare synpunkter är också och det är det som är märkligast i detta, varför är OpenAIs GPT-4 den enda modellen i världen som har så bra överlag prestanda och dom är som sagt knäpptysta om det.

De är långt från de enda i världen som forskar och forskat på språkmodeller.

Nvidia hade sin Megatron modell som var flera resor större än vad GPT-3 var när OpenAI lanserade, det har inte förekommit ett enda rykte om att den skulle uppvisa några exceptionellt intelligenta beteenden.
Utöver det har de varit väldigt transparenta, de har slagit i taket för hur stor modell de kan göra- men OpenAI har tydligen inget sådant problem (eller just ja det vet vi ju inte eftersom de inte släppt några detaljer, det är ju mest journalister som suttit och gissat storlekar osv på hundratals miljarder parametrar och samtidigt skriver tillverkaren av hårdvaran som används att det är svårt att skala modellerna)

Training such models, however, is challenging for two main reasons:

It is no longer possible to fit the parameters of these models in the memory of even the largest GPU.
The large number of compute operations required can result in unrealistically long training times, if special attention is not paid to optimizing the algorithms, software, and hardware stack all together.



https://developer.nvidia.com/blog/us...anguage-model/

Men det har OpenAI löst tydligen, "tekniken som skalar i oändlighet helt exponentiellt". Eller har de det tro? Kanske är det så att jag har väldigt rätt i att det ligger både en och två hundar begravna här?

Sen har du andra sidan av industrin- Meta som är väldigt transparenta men sitter och trälar med förhållandevis små modeller som nätt och jämt börjar komma i fatt GPT-3.5 i prestanda, de är långt ifrån att ta sig an GPT-4 (annat än i vissa specifika syntetiska tester som de kan vara nära men praktiskt är det dag och natt skillnad på dom...).

Och språkmodeller i helhet sitter folk och puttrar på överallt i världen, skulle tro var och varanat universitet sitter och gör sina egna... Problemet är främst att det krävs sjujävlars hårdvara att skala upp och köra dessa...

I Sverige är förmodligen den mest kända modellen GPT-SW3 som tränas och körs på den starkaste superdator vi har för AI i Sverige ( https://www.nsc.liu.se/systems/berzelius/ )
Citera
2023-09-05, 21:59
  #24
Medlem
a-mortals avatar
Citat:
Ursprungligen postat av Methos
Så länge som en AI eller en robot inte uppbär de egenskaper som definierar a)liv b)ett djur, kommer AI aldrig kunna äga samma egenskaper som en människa.
Hur vet du det? Har du kollat så noga på folk runt omkring dig?
Citera

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback