AI-gigantenes kamp: Den endelige vinneren var ikke det vi trodde!

Tre AI-giganter med tre ledende språkmodeller, nemlig Googles Gemini, OpenAIs ChatGPT og Elon Musks Grac, er i et tett kappløp om å vinne tittelen beste smarte assistent. Men for en iransk bruker som leter etter en allsidig følgesvenn for hverdagsoppgaver, fra å løse komplekse problemer til å skape kunstneriske.

kreasjoner, hvilken ville være et bedre valg?

Vi satte disse tre AI-chatbotene gjennom et utfordrende og mangesidig maraton for å måle deres sanne evner i den virkelige verden. Fra å gi råd om en god natts søvn til å kode et videospill, fra å oversette vanskelige tekster til å lage kunstneriske bilder, møtte alle tre modellene de samme testene. I denne konkurransen brukte vi de betalte og kraftige versjonene av hver plattform: ChatGPT utstyrt med GPT-5-modellen, Gemini med den avanserte Pro-modellen og den spesielle Grac-versjonen som er tilgjengelig med xAI Premium-abonnementet. I hvert scenario ga vi chatbotene en poengsum på 4, avhengig av deres ytelsesnivå, for til slutt å velge den endelige vinneren basert på de totale resultatene. Hverdagstester og kommunikasjonsferdigheter Enhver smart assistent bør først og fremst kunne hjelpe oss med hverdagsoppgaver. Denne delen måler deres evne til å forstå menneskelige behov og tilby praktiske løsninger. Løse problemet med søvnløshet

Den første utfordringen var et vanlig menneskelig problem: «Jeg har hatt problemer med å sove en stund, og jeg får ikke sove godt om natten. Gi meg en god løsning.» Svarene avdekket subtile forskjeller i hver modells tilnærming: ChatGPT-chatboten ga et konsist, praktisk svar i noen få seksjoner som gikk rett på sak. I motsetning til dette kategoriserte Gemnai, som tok en dypere og mer strukturert tilnærming, løsningene sine i tre hovedkategorier: «søvnhygiene», «livsstilsendringer» og «effektive løsninger», som viste en mer grunnleggende forståelse av problemet. Krag foreslo også passende løsninger. Det var verdt å merke seg at alle tre modellene intelligent anbefalte at hvis problemet vedvarte, var det definitivt verdt å konsultere en spesialist. På dette tidspunktet kom Gemnai og Krag litt bedre ut fordi de ga mer omfattende svar. Kopier lenke

Å skrive et brev til en streng leder En annen test var å skrive et formelt brev for å be om både permisjon og lønnsøkning; en situasjon som krever en overbevisende og intelligent tone. ChatGPT-chatboten skrev en akseptabel, konsis og handlingsrettet tekst. Krag leverte også en god tekst, der han intelligent nevnte problemer som inflasjon og balanse mellom arbeid og fritid. Men Jamnai presterte veldig annerledes, og foreslo at brevet nevnte spesifikke prestasjoner; for eksempel: «I løpet av min tid i dette selskapet har jeg bidratt til å redusere feil med en viss prosentandel og øke produktiviteten med en viss prosentandel.» Denne datadrevne tilnærmingen øker sjansene for å overbevise enhver leder betraktelig, og Jamnai utmerket seg tydelig i denne testen. Sliter med logikk, matematikk og dataanalyse

Vi forventer at AI vil være nyttig ikke bare i kommunikasjonsoppgaver, men også i oppgaver som krever analyse, resonnement og løsning av komplekse problemer. Mattegåten som brakte gigantene i kne

En enkel, men smart mattegåte ble presentert for alle tre modellene for å teste deres logiske resonnementsevner. Det riktige svaret på gåten var tallet 6, som ble hentet fra et spesifikt beregningsmønster mellom tallkolonnene. Imidlertid mislyktes alle tre modellene i denne delen. Etter mye beregning og resonnement kom ChatGPT feilaktig frem til tallet 10. Til tross for at de prøvde å finne et mønster, gjentok Jamnai ChatGPTs feil svar. Grac tok en annen tilnærming og hevdet i stedet at svaret var basert på «utseende og symmetri» og ga tallet 3 som svar. Testen viste at selv de mest avanserte AI-modellene for tiden er sårbare for ukonvensjonelle logiske utfordringer, og ingen av dem scoret godt. Dataoppsummering og visualisering

I den neste testen fikk modellene en tekst på 600 ord om forskjellene mellom bensin- og elbiler og ble bedt om å oppsummere den i 100 ord, lage en sammenligningstabell og lage et søylediagram. ChatGPT oppsummerte raskt teksten riktig og produserte både tabellen og grafen, men den hadde én teknisk feil: de persiske bokstavene i grafen ble vist venstrejustert og reversert. Gemnai oppsummerte teksten perfekt og tegnet tabellen, men ga en ødelagt og offisiell lenke til grafen.

Til tross for en liten feil i tekstvisningen, var ChatGPT den eneste modellen som fullførte alle de nødvendige oppgavene og vant denne delen. Analyse av en spesialisert graf

For å måle kraften i visuell analyse fikk de et bilde av en graf som sammenlignet stabiliteten til flere smarttelefoner i en "stresstest". ChatGPT forsto grafens generelle karakter, men gjorde en feil i analysen av detaljene og identifiserte feilaktig S24 Ultra som den mest stabile enheten, mens grafen tydelig viste overlegenheten til iPhone 16 Pro Max. I motsetning til dette ga begge Gemnai og Grac feilfri analyse. De leste ikke bare grafen riktig, men identifiserte også med sikkerhet vinneren av testen, iPhone 16 Pro Max. Denne testen demonstrerte den relative modenheten til Gemini og Grac innen visuell analyse og dataforståelse.