రేవ్ రివ్యూస్ ఓపెనాయ్ యొక్క తాజా నమూనాలు ఒక నక్షత్రంతో వస్తున్నాయి: నిపుణులు కూడా వారు అస్తవ్యస్తంగా ఉన్నారని కనుగొన్నారు – అవి కొన్ని పనుల కోసం మునుపటి రికార్డులను బద్దలు కొట్టాయి, కాని ఇతర మార్గాల్లో వెనుకకు వస్తాయి.
ఇది ఎందుకు ముఖ్యమైనది: “ఫ్రాంటియర్ AI మోడల్స్” కొత్త భూభాగంలోకి నెట్టడం కొనసాగిస్తాయి, కాని చాట్గ్ప్ట్ తుఫాను ద్వారా టెక్ను తీసుకున్నప్పటి నుండి వారి పురోగతి రెండున్నర సంవత్సరాలలో మరింత శాస్త్రీయంగా లేదా able హించలేము.
త్వరగా పట్టుకోండి: ఓపెనాయ్ ఒక వారం క్రితం O3 మరియు చిన్న O4-MINI మోడళ్లను విడుదల చేసింది మరియు వారిని పిలిచారు “మేము ఇప్పటి వరకు విడుదల చేసిన తెలివైన నమూనాలు.”
- సంస్థ మరియు ప్రారంభ పరీక్షకులు దాని మొత్తం తార్కిక పరాక్రమం కోసం O3 ను ప్రశంసించారు – ప్రణాళికాబద్ధమైన దశల శ్రేణిని ప్రణాళిక చేయడం, అమలు చేయడం మరియు వివరించడం ద్వారా వినియోగదారు ప్రాంప్ట్కు ప్రతిస్పందించే సామర్థ్యం.
- వెబ్ శోధనలను నిర్వహించడంలో మరియు స్థిరమైన వినియోగదారు పర్యవేక్షణ లేదా జోక్యం లేకుండా ఇతర డిజిటల్ సాధనాలను ఉపయోగించడంలో వారు O3 యొక్క విశ్వసనీయతను కూడా హైలైట్ చేశారు.
O3 ప్రశంసలు అందుకుంది సమీక్షకుల నుండి బ్రెడ్-అండ్-బటర్ AI రాయడం, డ్రాయింగ్, లెక్కింపు మరియు కోడింగ్ వంటి పని కోసం మాత్రమే కాకుండా, దృష్టి సామర్థ్యాలలో పురోగతి కోసం కూడా.
- ఒక ప్రసిద్ధ – మరియు, గోప్యత అది ఎక్కడ తీసుకోబడిందో గుర్తించండి.
వారు ఏమి చెబుతున్నారు: “ఈ నమూనాలు వారి తుది జవాబును ఉత్పత్తి చేయడానికి ముందు వారు ఉపయోగించే చైన్-ఆఫ్-థాట్ రీజనింగ్ ప్రాసెస్లో భాగంగా శోధనలను అమలు చేయగలవు. ఇది చాలా పెద్ద ఒప్పందంగా మారుతుంది” అని డెవలపర్ సైమన్ విల్లిసన్ రాశారు.
- “ఇది జిపిటి -4 నుండి కొత్త ఓపెనాయ్ మోడల్తో నేను కలిగి ఉన్న అతిపెద్ద ‘వావ్’ క్షణం,” ప్రతి డాన్ షిప్పర్ నివేదించబడింది.
- ఎకనామిస్ట్-బ్లాగర్ టైలర్ కోవెన్ ప్రకటించారు ఆ O3 అగి యొక్క ఆగమనాన్ని తెలియజేసింది: “ఇది అగి, తీవ్రంగా … బెంచ్మార్క్లు, బెంచ్మార్క్లు, బ్లా బ్లా బ్లా. బహుశా అగి పోర్న్ లాంటిది – నేను చూసినప్పుడు నాకు తెలుసు. నేను చూశాను.”
అవును, కానీ: పుష్కలంగా సమీక్షకులు O3 ను విమర్శించడానికి కారణాలను కనుగొన్నారు, వీటిలో సహా గణిత లోపాలు మరియు మోసాలు.
- ఎ అధ్యయనం ఆర్థిక విశ్లేషణలో మోడళ్ల పనితీరు O3 ను కుప్ప పైభాగంలో ఉంచింది-కాని ఇది ఇప్పటికీ ఖచ్చితమైన ఫలితాలను 48.3% సమయం మాత్రమే అందించింది, మరియు దాని ఖర్చు-క్వెరీ ఇప్పటివరకు 69 3.69 వద్ద అత్యధికంగా ఉంది. (వాషింగ్టన్ పోస్ట్ ఉంది అధ్యయనం గురించి మరిన్ని.)
పంక్తుల మధ్య: ఆశ్చర్యకరంగా, ఓపెనై గమనికలు O3 యొక్క ఆకట్టుకునే సామర్థ్యాలు ఉన్నప్పటికీ, ఇది వాస్తవానికి కొన్ని ప్రాంతాలలో తిరోగమనం చేస్తుంది – దాని “భ్రమలు” చేసే ధోరణి వంటిది లేదా తప్పు సమాధానాలు చేయండి.
- విస్తృతంగా ఉపయోగించే ఖచ్చితత్వ బెంచ్మార్క్ పరీక్షలో, ఓపెనై తన పూర్వీకుడు O1 యొక్క రేటు కంటే రెండు రెట్లు ఎక్కువ భ్రాంతులు అని కనుగొన్నారు.
- O3 కూడా మరిన్ని ప్రశ్నలకు సమాధానం ఇస్తుంది – మరియు వాటిలో ఎక్కువ సరైనది – O1 కన్నా. O3 యొక్క లోపం రేటు ఎందుకు పెరిగిందో అర్థం చేసుకోవడానికి “మరింత పరిశోధన అవసరం” అని ఓపెనాయ్ చెప్పారు.
జూమ్ అవుట్: AI విశ్లేషకుడు ఏతాన్ మొల్లిక్ వివరిస్తుంది O3 యొక్క ఆకట్టుకునే కానీ స్కాటర్షాట్ పనితీరు “ది బెల్లం సరిహద్దు” కి ఉదాహరణగా: “కొన్ని పనులలో, AI నమ్మదగనిది. ఇతరులలో, ఇది మానవాతీత.”
- మొల్లిక్ వాదించాడు, “తాజా నమూనాలు ఇంతకు ముందు వచ్చిన వాటికి భిన్నమైనదాన్ని సూచిస్తాయి, మేము దీనిని అగి అని పిలుస్తాము. వారి ఏజెంట్ లక్షణాలు, వారి బెల్లం సామర్థ్యాలతో కలిపి, కొన్ని స్పష్టమైన అనలాగ్లతో నిజమైన నవల పరిస్థితిని సృష్టిస్తాయి.”
మా ఆలోచన బబుల్: సాఫ్ట్వేర్ తయారీదారులు మరియు ప్రోగ్రామర్లు తమ పనిని మరింత నమ్మదగిన, స్కేలబుల్ మరియు సౌకర్యవంతంగా చేయడానికి దశాబ్దాలుగా గడిపారు, మరియు వారు పుష్కలంగా పురోగతి సాధించారు.
- AI ను తయారు చేయడం క్రొత్తది, అపరిచితుడు మరియు ఇప్పటివరకు able హించదగిన క్రమశిక్షణగా మార్చడానికి తగినంతగా అర్థం కాలేదు.
బాటమ్ లైన్: AI నమూనాలను రూపొందించడం, నిర్మించడం మరియు శిక్షణ ఇవ్వడం మరియు శిక్షణ ఇవ్వడం డెవలపర్ల ప్రయత్నాలకు మొండిగా నిరోధకతను కలిగి ఉంది, వారి రంగంలో శాస్త్రీయ దృ g త్వం విధించడానికి లేదా వారి ఫలితాలను నకిలీ చేయడానికి.
- స్పష్టంగా, ఈ ప్రక్రియ ఇంకా ఎక్కువ పిల్లవాడిని పెంచడం వంతెనను నిర్మించడం కంటే.
- ఇది AI అభివృద్ధికి సంబంధించిన రహస్యం మరియు అవకాశం యొక్క భావాన్ని పెంచుతుంది – కానీ దానిని పెంపకం చేసే ప్రయత్నాలను కూడా నిరాశపరుస్తుంది లేదా ఆర్థిక ప్రయోజనం కోసం దానిని ఉపయోగిస్తుంది.