డాన్ ఆఫ్ ది ఏజెంట్: కొత్త క్లాడ్ AI మీ కంప్యూటర్‌ను స్వాధీనం చేసుకోగలదు

గేమ్-మారుతున్న AI మోడల్‌ల తదుపరి తరంగం త్వరలో మనపైకి రానుంది – పూర్తి స్వయంప్రతిపత్తితో కొనసాగుతున్న టాస్క్‌లు మరియు ఉద్యోగాలను పూర్తిగా స్వాధీనం చేసుకోగల “ఏజెంట్” స్టైల్ మోడల్‌లు. ఆంత్రోపిక్ యొక్క సరికొత్త AI మోడల్ మీ మొత్తం కంప్యూటర్‌ను స్వాధీనం చేసుకోవడం ద్వారా మాకు స్నీక్ పీక్ ఇస్తుంది.

మీరు ఇంతకు ముందు AI ఏజెంట్ ఆలోచనను ఎదుర్కోకుంటే – లేదా మీరు క్లాడ్ మరియు GPT వంటి పెద్ద భాషా మోడల్‌లను (LLMలు) ప్రధానంగా చాట్ సేవలుగా చూసినట్లయితే, OpenAI CEO సామ్ ఆల్ట్‌మాన్ విషయాలను దృక్కోణంలో ఉంచడంలో సహాయపడవచ్చు. దిగువన ఉన్న చిన్న వీడియోలో, ఆల్ట్‌మాన్ తన కంపెనీ విషయాలను చూసేటప్పుడు AI యొక్క ఐదు స్థాయిలను నిర్దేశించాడు.

ముందుగా, చాట్‌బాట్‌లు ఉన్నాయి – మరియు మనలో చాలా మందికి గత కొన్ని సంవత్సరాలుగా ఇవి అందించే విశేషమైన సామర్థ్యాల గురించి తెలుసుకుంటూనే ఉన్నారు. తర్వాత “తార్కికులు” వచ్చారు – OpenAI యొక్క ఇటీవలి o1 మోడల్ వీటిలో మొదటిదని ఆల్ట్‌మాన్ చెప్పారు. మూడవ స్థాయి “ఏజెంట్‌లు” – ఇవి ప్రభావవంతంగా AIలు, పనిని ఎలా పూర్తి చేయాలనే దాని గురించి వారి స్వంత నిర్ణయాలను తీసుకుంటూ, పనిని ముగించడానికి మరియు వారి తరపున వాటిని చూసుకోవడానికి విశ్వసిస్తారు.

ఏజెంట్ AIలు మీ క్రెడిట్ కార్డ్ మరియు దానిని ఉపయోగించడానికి అనుమతిని కలిగి ఉంటాయి. వారు వెబ్‌కు యాక్సెస్‌ను కలిగి ఉంటారు మరియు మీ తరపున వెబ్‌సైట్‌లు మరియు సాధనాలతో పరస్పర చర్య చేయగల సామర్థ్యాన్ని కలిగి ఉంటారు. మీరు వారికి ఉద్యోగం ఇవ్వగలరు మరియు వారు దీన్ని చేస్తారని విశ్వసించగలరు, అవసరమైతే మాత్రమే మీతో తిరిగి తనిఖీ చేస్తారు.

T-Mobileకి ఇటీవల ఇచ్చిన ఇంటర్వ్యూలో, సామ్ ఆల్ట్‌మాన్ o1 యొక్క ప్రస్తుత స్థితిని రీజనింగ్ మోడల్‌ల ‘GPT-2 దశ’తో పోల్చారు.

o1 అభివృద్ధి పూర్తి సామర్థ్యం కలిగిన AI ఏజెంట్లకు చాలా వేగవంతమైన మార్గాన్ని అన్‌లాక్ చేస్తుందని కూడా ఆయన వెల్లడించారు

మనిషి నుండి స్వయంగా వినండి:pic.twitter.com/jQ13JJOaad

– రోవాన్ చెయుంగ్ (@రోవాన్చెంగ్) సెప్టెంబర్ 20, 2024

నాల్గవ స్థాయి, కొత్త జ్ఞానాన్ని సృష్టించగల “ఆవిష్కర్తలు” అని ఆల్ట్‌మాన్ చెప్పారు, మరియు ఐదవది “పూర్తి సంస్థలు”, ప్రాథమికంగా మానవ ఇన్‌పుట్ లేకుండా నడుస్తుంది – ఈ భావన చాలా మందికి నవ్వు తెప్పిస్తుంది. కొన్ని సంవత్సరాల క్రితం, కానీ అది ఇప్పుడు అనివార్యం అనిపిస్తుంది.

ప్రపంచవ్యాప్తంగా అక్కడక్కడా ఐదు స్థాయిలు నడుస్తున్నట్లు నిస్సందేహంగా ఉదాహరణలు ఉన్నాయి మరియు చాలా సంవత్సరాలుగా ఉన్నాయి – కానీ ప్రపంచవ్యాప్త సామూహిక లభ్యత పరంగా, ప్రధాన AI కంపెనీలు ఏవీ నేటి వరకు ఏజెంట్ అని పిలవబడే దేనినీ విడుదల చేయలేదు. ఆంత్రోపిక్ ద్వారా విడుదల.

కొత్త క్లాడ్ 3.5 హైకూ మోడల్ మరియు అప్‌గ్రేడ్ చేసిన క్లాడ్ 3.5 సొనెట్ లాంచ్‌లో భాగంగా, కంపెనీ ఈ క్రింది వాటిని వదిలివేసింది: “మేము పబ్లిక్ బీటా: కంప్యూటర్ వినియోగంలో కూడా సరికొత్త కొత్త సామర్థ్యాన్ని పరిచయం చేస్తున్నాము. ఈ రోజు APIలో అందుబాటులో ఉంది, డెవలపర్లు స్క్రీన్‌ని చూడటం, కర్సర్‌ను కదిలించడం, బటన్‌లను క్లిక్ చేయడం మరియు టెక్స్ట్ టైప్ చేయడం ద్వారా – కంప్యూటర్‌లను ప్రజలు ఉపయోగించే విధంగా ఉపయోగించమని క్లాడ్‌ని డైరెక్ట్ చేయండి.” దిగువ పరిచయ వీడియోను చూడండి.

కొత్త క్లాడ్ 3.5 సొనెట్ పబ్లిక్ బీటాలో కంప్యూటర్ వినియోగాన్ని అందించే మొదటి సరిహద్దు AI మోడల్.

సంచలనాత్మకంగా ఉన్నప్పటికీ, కంప్యూటర్ వినియోగం ఇప్పటికీ ప్రయోగాత్మకంగా ఉంది-కొన్నిసార్లు లోపానికి గురవుతుంది. డెవలపర్‌ల నుండి ఫీడ్‌బ్యాక్ కోసం మేము దీన్ని ముందుగానే విడుదల చేస్తున్నాము. pic.twitter.com/a5SZQMKvLj

— ఆంత్రోపిక్ (@AnthropicAI) అక్టోబర్ 22, 2024

“కంప్యూటర్ వాడకం అనేది AI అభివృద్ధికి పూర్తిగా భిన్నమైన విధానం” అని ఆంత్రోపిక్ బృందం రాసింది. “ఇప్పటి వరకు, LLM డెవలపర్లు మోడల్‌కు సరిపోయే సాధనాలను తయారు చేశారు, వివిధ పనులను పూర్తి చేయడానికి AIలు ప్రత్యేకంగా రూపొందించిన సాధనాలను ఉపయోగించే అనుకూల వాతావరణాలను ఉత్పత్తి చేస్తాయి. ఇప్పుడు, మేము మోడల్‌ను సాధనాలకు సరిపోయేలా చేయవచ్చు – క్లాడ్ మనమందరం ఉపయోగించే కంప్యూటర్ పరిసరాలకు సరిపోయేలా చేయవచ్చు. క్లాడ్ ముందుగా ఉన్న కంప్యూటర్ సాఫ్ట్‌వేర్ ముక్కలను తీసుకోవడం మరియు వాటిని ఒక వ్యక్తి వలె ఉపయోగించడం ప్రతిరోజు మా లక్ష్యం.

ప్రారంభ ఉపయోగం యొక్క ఉదాహరణ ఇక్కడ ఉంది – ఆంత్రోపిక్ పరిశోధకురాలు పూజా రాజన్, గోల్డెన్ గేట్ వంతెనపై సూర్యోదయాన్ని ఆస్వాదించాలనుకుంటున్నట్లు క్లాడ్‌తో చెప్పింది మరియు లాజిస్టిక్‌లను క్రమబద్ధీకరించగలదా మరియు ఆమె ఎప్పుడు బయలుదేరాలి అనే దాని కోసం క్యాలెండర్ ఎంట్రీని సెటప్ చేయగలదా అని అడుగుతుంది ఇల్లు. ఇది బ్రౌజర్‌ను తెరుస్తుంది, సూర్యోదయ సమయాలు మరియు హైకింగ్ లొకేషన్‌లను కనుగొంటుంది, రాజన్ ప్రాంతం నుండి ప్రయాణ సమయాలను గుర్తించి, క్యాలెండర్‌ను తెరిచి సంబంధిత ఎంట్రీని చేస్తుంది.

మేము ప్రాథమికంగా కొత్తదాన్ని ప్రయత్నిస్తున్నాము.

క్లాడ్ వ్యక్తిగత పనులను పూర్తి చేయడంలో సహాయపడటానికి నిర్దిష్ట సాధనాలను తయారు చేయడానికి బదులుగా, మేము సాధారణ కంప్యూటర్ నైపుణ్యాలను నేర్పుతున్నాము-ఇది వ్యక్తుల కోసం రూపొందించిన అనేక ప్రామాణిక సాధనాలు మరియు సాఫ్ట్‌వేర్ ప్రోగ్రామ్‌లను ఉపయోగించడానికి అనుమతిస్తుంది. pic.twitter.com/42u8VeTvXd

— ఆంత్రోపిక్ (@AnthropicAI) అక్టోబర్ 22, 2024

క్లాడ్ వంటి LLMలు కూడా మంచి సామర్థ్యం గల కోడర్‌లుగా మారారు – అయితే ఈ కంప్యూటర్ యూజ్ ఫీచర్‌తో కోడ్‌ని రూపొందించడం, సవరించడం మరియు డీబగ్ చేయడం మాత్రమే కాకుండా బ్రౌజర్ విండో వెలుపలికి వెళ్లడం, సర్వర్‌లను ప్రారంభించడం మరియు వాస్తవానికి కోడ్‌ని అమలు చేయడం వంటి సామర్థ్యం వస్తుంది:

మేము కంప్యూటర్ ఇంటర్‌ఫేస్‌లను గ్రహించడానికి మరియు పరస్పర చర్య చేయడానికి క్లాడ్‌ను అనుమతించే APIని రూపొందించాము.

ప్రాంప్ట్‌లను కంప్యూటర్ కమాండ్‌లలోకి అనువదించడానికి ఈ API క్లాడ్‌ని అనుమతిస్తుంది. డెవలపర్‌లు పునరావృతమయ్యే టాస్క్‌లను ఆటోమేట్ చేయడానికి, టెస్టింగ్ మరియు QA నిర్వహించడానికి మరియు ఓపెన్-ఎండ్ పరిశోధన చేయడానికి దీన్ని ఉపయోగించవచ్చు. pic.twitter.com/eK0UCGEozm

— ఆంత్రోపిక్ (@AnthropicAI) అక్టోబర్ 22, 2024

ఈ కొత్త ఫీచర్ ప్రస్తుతం చాలా ముందుగానే మరియు పరిమితంగా ఉందని గమనించడం ముఖ్యం. స్టార్టర్స్ కోసం, ఇది బ్యాక్-ఎండ్ API ఇంటర్‌ఫేస్ ద్వారా క్లాడ్‌ను యాక్సెస్ చేసే డెవలపర్‌లకు మాత్రమే అందుబాటులో ఉంటుంది, కాబట్టి అభిషిక్తులు ఇంకా దూకి మా పన్నులను ఫైల్ చేయడం ప్రారంభించలేరు.

ఇది మీ మానిటర్‌లో ఏమి జరుగుతుందో స్క్రీన్‌షాట్‌ల శ్రేణిగా మాత్రమే చూడగలిగేలా పరిమితం చేయబడింది, ఇది మీ కర్సర్‌ను ఎంత దూరం తరలించాలో మరియు ఏ బటన్లు లేదా కీలను కొట్టాలో నిర్ణయించడానికి ఉపయోగిస్తుంది. కాబట్టి ఇది మరింత విజువల్‌గా డైనమిక్ అప్లికేషన్‌లలో పనికిరాదు – అయినప్పటికీ Google Deepmind గేమ్‌లు ఆడగల సామర్థ్యం గల AIలను రూపొందించే పనిలో ఇప్పటికే లోతుగా ఉంది.

వినోదభరితంగా, ఇది అప్పుడప్పుడు విసుగు చెంది, నెట్‌లో సర్ఫింగ్ చేస్తున్నట్లు అనిపిస్తుంది, దిగువ వీడియోలో ఉన్నట్లుగా, అది రికార్డ్ చేయడానికి ప్రయత్నిస్తున్న కోడింగ్ డెమో ఆంత్రోపిక్ చేయడం ఆపివేసి, కొన్ని సుందరమైన చిత్రాలను ఆస్వాదించడానికి బయలుదేరింది.

ఈ డెమోలను రికార్డ్ చేస్తున్నప్పుడు కూడా, మేము కొన్ని వినోదభరితమైన క్షణాలను ఎదుర్కొన్నాము. ఒకదానిలో, క్లాడ్ పొరపాటున సుదీర్ఘంగా నడుస్తున్న స్క్రీన్ రికార్డింగ్‌ను ఆపివేసాడు, దీని వలన అన్ని ఫుటేజీలు పోయాయి.

తరువాత, క్లాడ్ మా కోడింగ్ డెమో నుండి విరామం తీసుకున్నాడు మరియు ఎల్లోస్టోన్ నేషనల్ పార్క్ యొక్క ఫోటోలను పరిశీలించడం ప్రారంభించాడు. pic.twitter.com/r6Lrx6XPxZ

— ఆంత్రోపిక్ (@AnthropicAI) అక్టోబర్ 22, 2024

మరియు ఇది కూడా చాలా చెత్తగా ఉంది, స్పష్టంగా. కంప్యూటర్‌ను ఉపయోగించగల మోడల్ యొక్క సామర్థ్యాన్ని అంచనా వేసే OSWorld బెంచ్‌మార్క్ పరీక్షలో, మానవులు సాధారణంగా 70-75% స్కోర్‌ను సాధించారు మరియు క్లాడ్ కేవలం 14.9% స్కోర్‌ను సాధించారు. కానీ ఇది దాని కేటగిరీలో తదుపరి-ఉత్తమ AI మోడల్ స్కోర్ కంటే దాదాపు రెట్టింపు, మరియు ఇది చాలా ప్రారంభం.

సహజంగానే, విస్తృతంగా అందుబాటులో ఉండే స్టేట్ ఆఫ్ ది ఆర్ట్ AI మోడల్‌లకు కంప్యూటర్‌లకు ఇంత ఎక్కువ యాక్సెస్ ఇవ్వడం వల్ల భద్రతాపరమైన ప్రమాదాలు ఎదురవుతాయి – మరియు నిజానికి, ఆంత్రోపిక్ చెప్పింది, అందుకే కంప్యూటర్ యూజ్ ఫీచర్‌ను అటువంటి పిండ ఆకృతిలో విడుదల చేస్తున్నట్లు చెప్పారు. GPT-4తో OpenAI లాగా, ప్రజలకు తలుపులు తెరవడం వలన భద్రతా ప్రమాదాలు మరియు జైల్‌బ్రేక్ ప్రయత్నాల కంటే ముందు ఉండే సామర్థ్యాన్ని ఆంత్రోపిక్‌కి అందిస్తుంది, కాబట్టి మోడల్ యొక్క చంచలమైన కాళ్లు బలంగా ఉండటంతో దాని భద్రతా సామర్థ్యాలు మెరుగుపడతాయి.

ఈ విధంగా, ఆంత్రోపిక్ ఇలా వ్రాశాడు, “మొదటి సారి కంప్యూటర్ వినియోగ సామర్థ్యాలను మరింత తీవ్రమైన నష్టాలతో కూడిన మోడల్‌లో జోడించడం కంటే, వాటాలు చాలా ఎక్కువగా ఉండకముందే మనం ఏవైనా భద్రతా సమస్యలతో పోరాడటం ప్రారంభించవచ్చు.”

క్లాడ్ పనిని పూర్తి చేయడానికి బహుళ యాప్‌లు మరియు విండోల మధ్య నావిగేట్ చేస్తాడు

ఆంత్రోపిక్

ఇది నిస్సందేహంగా, గణనీయమైన కొత్త మోడల్ సామర్థ్యంతో మార్కెట్‌కి ఓపెన్‌ఏఐని ఓడించడానికి ఆంత్రోపిక్‌కి అరుదైన అవకాశం; OpenAI కొంత కాలంగా ఏజెంట్-స్థాయి AIల గురించి మాట్లాడుతోంది. ఇది ఖచ్చితంగా ఇదే విధమైన వంటని కలిగి ఉంది మరియు రాబోయే వారాలు లేదా నెలల్లో మేము మొదటి GPT ఏజెంట్ మోడల్‌లను చూస్తామని చాలా మంది భావిస్తున్నారు.

కానీ ఈ హాస్యాస్పదంగా వేగంగా కదులుతున్న ప్రదేశంలో జరుగుతున్నదంతా తెలుసుకోవాలని ప్రయత్నిస్తున్న మనలో వారికి ఇది ఒక ముఖ్యమైన క్షణంలా అనిపిస్తుంది. ఒక సంవత్సరంలో, కంప్యూటర్‌లను స్వాధీనం చేసుకుని, అన్ని రకాల పనులను చేయగల అత్యంత సమర్థత కలిగిన ఏజెంట్ మోడల్‌లకు మనందరికీ ప్రాప్యత లభిస్తుందని ఆశించడం సహేతుకమైనది.

మరియు ఈ క్రేజీ టెక్నాలజీకి ఇది మరొక రబ్బర్-మీట్స్-రోడ్ క్షణం, ఎందుకంటే ఏజెంట్ AI ఒక పనిని వందల దశలుగా విభజించి, దూరంగా వెళ్లి దాన్ని అమలు చేయగలదా? అది చాట్‌బాట్ కంటే ఉద్యోగి వలె కనిపించడం ప్రారంభిస్తుంది. ఉత్పాదకత లాభాలు అద్భుతంగా ఉండవచ్చు మరియు ప్రస్తుత AI మోడల్‌ల కారణంగా మేము ఇప్పటికే చూస్తున్న ఉద్యోగ నష్టాలు వేగవంతం కానున్నాయి.

ఐదు లేదా 10 సంవత్సరాలలో, ఈ ఏజెంట్ AIలు డిజిటల్ ప్రపంచంలో పనులను పూర్తి చేయడానికి మా ప్రాథమిక సాధనంగా ఎలా మారలేదో చూడటం కష్టం. కంప్యూటర్‌ను ఆపరేట్ చేయడం, కీబోర్డ్ మరియు మౌస్‌ని ఉపయోగించడం, వాటిని అక్కడికి తరలించడానికి ఇక్కడ ఉన్న బిట్‌ల సమాచారం కోసం వెతకడం… ఈ రకమైన బిజీ వర్క్ మీ రోజులో ఎంత సమయం తీసుకుంటుంది? నమ్మకమైన AI సహాయకుడికి ఈ పనులను అప్పగించడం ఎంత మంచిది? ఇది చాలా పరివర్తన చెందిన క్షణం.

నేను ఇలా అంటున్నాను: మిత్రులారా, ఈ రైలులో బ్రేక్‌లు లేవు.

మూలం: ఆంత్రోపిక్