ఓపెనాయ్ యొక్క O3: సమీక్షకులు పారవశ్యం కలిగి ఉంటారు కాని పనితీరు అవాంఛనీయమైనది

రేవ్ రివ్యూస్ ఓపెనాయ్ యొక్క తాజా నమూనాలు ఒక నక్షత్రంతో వస్తున్నాయి: నిపుణులు కూడా వారు అస్తవ్యస్తంగా ఉన్నారని కనుగొన్నారు – అవి కొన్ని పనుల కోసం మునుపటి రికార్డులను బద్దలు కొట్టాయి, కాని ఇతర మార్గాల్లో వెనుకకు వస్తాయి.

ఇది ఎందుకు ముఖ్యమైనది: “ఫ్రాంటియర్ AI మోడల్స్” కొత్త భూభాగంలోకి నెట్టడం కొనసాగిస్తాయి, కాని చాట్‌గ్ప్ట్ తుఫాను ద్వారా టెక్‌ను తీసుకున్నప్పటి నుండి వారి పురోగతి రెండున్నర సంవత్సరాలలో మరింత శాస్త్రీయంగా లేదా able హించలేము.

త్వరగా పట్టుకోండి: ఓపెనాయ్ ఒక వారం క్రితం O3 మరియు చిన్న O4-MINI మోడళ్లను విడుదల చేసింది మరియు వారిని పిలిచారు “మేము ఇప్పటి వరకు విడుదల చేసిన తెలివైన నమూనాలు.”

సంస్థ మరియు ప్రారంభ పరీక్షకులు దాని మొత్తం తార్కిక పరాక్రమం కోసం O3 ను ప్రశంసించారు – ప్రణాళికాబద్ధమైన దశల శ్రేణిని ప్రణాళిక చేయడం, అమలు చేయడం మరియు వివరించడం ద్వారా వినియోగదారు ప్రాంప్ట్‌కు ప్రతిస్పందించే సామర్థ్యం.
వెబ్ శోధనలను నిర్వహించడంలో మరియు స్థిరమైన వినియోగదారు పర్యవేక్షణ లేదా జోక్యం లేకుండా ఇతర డిజిటల్ సాధనాలను ఉపయోగించడంలో వారు O3 యొక్క విశ్వసనీయతను కూడా హైలైట్ చేశారు.

O3 ప్రశంసలు అందుకుంది సమీక్షకుల నుండి బ్రెడ్-అండ్-బటర్ AI రాయడం, డ్రాయింగ్, లెక్కింపు మరియు కోడింగ్ వంటి పని కోసం మాత్రమే కాకుండా, దృష్టి సామర్థ్యాలలో పురోగతి కోసం కూడా.

ఒక ప్రసిద్ధ – మరియు, గోప్యత అది ఎక్కడ తీసుకోబడిందో గుర్తించండి.

వారు ఏమి చెబుతున్నారు: “ఈ నమూనాలు వారి తుది జవాబును ఉత్పత్తి చేయడానికి ముందు వారు ఉపయోగించే చైన్-ఆఫ్-థాట్ రీజనింగ్ ప్రాసెస్‌లో భాగంగా శోధనలను అమలు చేయగలవు. ఇది చాలా పెద్ద ఒప్పందంగా మారుతుంది” అని డెవలపర్ సైమన్ విల్లిసన్ రాశారు.

“ఇది జిపిటి -4 నుండి కొత్త ఓపెనాయ్ మోడల్‌తో నేను కలిగి ఉన్న అతిపెద్ద ‘వావ్’ క్షణం,” ప్రతి డాన్ షిప్పర్ నివేదించబడింది.
ఎకనామిస్ట్-బ్లాగర్ టైలర్ కోవెన్ ప్రకటించారు ఆ O3 అగి యొక్క ఆగమనాన్ని తెలియజేసింది: “ఇది అగి, తీవ్రంగా … బెంచ్‌మార్క్‌లు, బెంచ్‌మార్క్‌లు, బ్లా బ్లా బ్లా. బహుశా అగి పోర్న్ లాంటిది – నేను చూసినప్పుడు నాకు తెలుసు. నేను చూశాను.”

అవును, కానీ: పుష్కలంగా సమీక్షకులు O3 ను విమర్శించడానికి కారణాలను కనుగొన్నారు, వీటిలో సహా గణిత లోపాలు మరియు మోసాలు.

ఎ అధ్యయనం ఆర్థిక విశ్లేషణలో మోడళ్ల పనితీరు O3 ను కుప్ప పైభాగంలో ఉంచింది-కాని ఇది ఇప్పటికీ ఖచ్చితమైన ఫలితాలను 48.3% సమయం మాత్రమే అందించింది, మరియు దాని ఖర్చు-క్వెరీ ఇప్పటివరకు 69 3.69 వద్ద అత్యధికంగా ఉంది. (వాషింగ్టన్ పోస్ట్ ఉంది అధ్యయనం గురించి మరిన్ని.)

పంక్తుల మధ్య: ఆశ్చర్యకరంగా, ఓపెనై గమనికలు O3 యొక్క ఆకట్టుకునే సామర్థ్యాలు ఉన్నప్పటికీ, ఇది వాస్తవానికి కొన్ని ప్రాంతాలలో తిరోగమనం చేస్తుంది – దాని “భ్రమలు” చేసే ధోరణి వంటిది లేదా తప్పు సమాధానాలు చేయండి.

విస్తృతంగా ఉపయోగించే ఖచ్చితత్వ బెంచ్మార్క్ పరీక్షలో, ఓపెనై తన పూర్వీకుడు O1 యొక్క రేటు కంటే రెండు రెట్లు ఎక్కువ భ్రాంతులు అని కనుగొన్నారు.
O3 కూడా మరిన్ని ప్రశ్నలకు సమాధానం ఇస్తుంది – మరియు వాటిలో ఎక్కువ సరైనది – O1 కన్నా. O3 యొక్క లోపం రేటు ఎందుకు పెరిగిందో అర్థం చేసుకోవడానికి “మరింత పరిశోధన అవసరం” అని ఓపెనాయ్ చెప్పారు.

జూమ్ అవుట్: AI విశ్లేషకుడు ఏతాన్ మొల్లిక్ వివరిస్తుంది O3 యొక్క ఆకట్టుకునే కానీ స్కాటర్‌షాట్ పనితీరు “ది బెల్లం సరిహద్దు” కి ఉదాహరణగా: “కొన్ని పనులలో, AI నమ్మదగనిది. ఇతరులలో, ఇది మానవాతీత.”

మొల్లిక్ వాదించాడు, “తాజా నమూనాలు ఇంతకు ముందు వచ్చిన వాటికి భిన్నమైనదాన్ని సూచిస్తాయి, మేము దీనిని అగి అని పిలుస్తాము. వారి ఏజెంట్ లక్షణాలు, వారి బెల్లం సామర్థ్యాలతో కలిపి, కొన్ని స్పష్టమైన అనలాగ్‌లతో నిజమైన నవల పరిస్థితిని సృష్టిస్తాయి.”

మా ఆలోచన బబుల్: సాఫ్ట్‌వేర్ తయారీదారులు మరియు ప్రోగ్రామర్లు తమ పనిని మరింత నమ్మదగిన, స్కేలబుల్ మరియు సౌకర్యవంతంగా చేయడానికి దశాబ్దాలుగా గడిపారు, మరియు వారు పుష్కలంగా పురోగతి సాధించారు.

AI ను తయారు చేయడం క్రొత్తది, అపరిచితుడు మరియు ఇప్పటివరకు able హించదగిన క్రమశిక్షణగా మార్చడానికి తగినంతగా అర్థం కాలేదు.

బాటమ్ లైన్: AI నమూనాలను రూపొందించడం, నిర్మించడం మరియు శిక్షణ ఇవ్వడం మరియు శిక్షణ ఇవ్వడం డెవలపర్‌ల ప్రయత్నాలకు మొండిగా నిరోధకతను కలిగి ఉంది, వారి రంగంలో శాస్త్రీయ దృ g త్వం విధించడానికి లేదా వారి ఫలితాలను నకిలీ చేయడానికి.

స్పష్టంగా, ఈ ప్రక్రియ ఇంకా ఎక్కువ పిల్లవాడిని పెంచడం వంతెనను నిర్మించడం కంటే.
ఇది AI అభివృద్ధికి సంబంధించిన రహస్యం మరియు అవకాశం యొక్క భావాన్ని పెంచుతుంది – కానీ దానిని పెంపకం చేసే ప్రయత్నాలను కూడా నిరాశపరుస్తుంది లేదా ఆర్థిక ప్రయోజనం కోసం దానిని ఉపయోగిస్తుంది.

Related Stories

A Jackie-Kennedy Inspired Cake, 3 Chic Outfits, and a 1am Wedding Breakfast—This Wedding Had It All

ప్రిడేటర్ యొక్క మొట్టమొదటి యానిమేటెడ్ చిత్రం కోసం వేచి ఉన్నప్పుడు, ఈ ఇతర సైన్స్ ఫిక్షన్ సంకలనాన్ని చూడండి

You may have missed

A Jackie-Kennedy Inspired Cake, 3 Chic Outfits, and a 1am Wedding Breakfast—This Wedding Had It All

ప్రిడేటర్ యొక్క మొట్టమొదటి యానిమేటెడ్ చిత్రం కోసం వేచి ఉన్నప్పుడు, ఈ ఇతర సైన్స్ ఫిక్షన్ సంకలనాన్ని చూడండి

ట్రంప్ వచ్చే వారం మిచిగాన్లో ర్యాలీని నిర్వహించనున్నారు, తన మొదటి 100 రోజుల పదవిలో గుర్తు