آمازون از Nova Act رونمایی کرد—یک مدل پیشرفته هوش مصنوعی که بهطور ویژه برای ساخت عاملهای (Agents) هوشمند طراحی شده و میتواند وظایف پیچیده را در محیط مرورگر انجام دهد.
✅ عاملهای هوش مصنوعی فقط پاسخگو نیستند؛ آنها باید کار انجام دهند
مدلهای زبانی بزرگ (LLMs) مانند GPT مفهوم «عامل» را بهعنوان ابزاری برای پاسخدهی یا جستوجو معرفی کردند، اما آمازون تعریف کاملتری ارائه میدهد:
«ما رویای ساخت عاملهایی را داریم که بتوانند کارهای پیچیده، چندمرحلهای و گسترده مانند برنامهریزی برای یک مراسم عروسی یا مدیریت وظایف IT پیچیده برای افزایش بهرهوری سازمانها را انجام دهند.»
در حالی که بسیاری از عاملهای فعلی در بازار نیاز به نظارت انسانی مداوم دارند و وابسته به APIهای کامل هستند، Nova Act پاسخی به این محدودیتهاست.
🛠️ معرفی Nova Act SDK؛ ابزار توسعه عاملهای وبمحور
همزمان با معرفی Nova Act، آمازون نسخهی پیشنمایش تحقیقاتی Nova Act SDK را نیز منتشر کرده است. با این SDK، توسعهدهندگان میتوانند عاملهایی بسازند که کارهای پیچیده مانند:
-
ارسال اعلان «خارج از دفتر»
-
برنامهریزی جلسات در تقویم
-
پاسخ خودکار به ایمیلها
را بهصورت خودکار و هوشمند انجام دهند.
ویژگی کلیدی SDK، شکستن گردش کارهای پیچیده به «دستورات اتمی» مانند جستوجو، ثبت سفارش یا تعامل با عناصر UI مثل کشوییها و پاپآپها است. این دستورات را میتوان با دستورالعملهای دقیقتر شخصیسازی کرد، مثل:
«در فرآیند خرید، گزینهی فروش بیمه را نادیده بگیر.»
⚙️ دقت بالا با Playwright، API، پایتون و اجرای موازی
برای دقت بیشتر، SDK از ابزارهایی مانند:
-
کنترل مرورگر با Playwright
-
اجرای APIها و کدهای پایتون
-
استفاده از پردازش همزمان (Threading) برای مدیریت تأخیرهای بارگذاری صفحات
پشتیبانی میکند، که این قابلیتها به توسعهدهندگان کمک میکنند عاملهایی سریع، دقیق و قابلاعتماد طراحی کنند.
🧠 Nova Act؛ عملکرد درخشان در بنچمارکهای واقعی
برخلاف بسیاری از مدلهای تولیدی که در وظایف پیچیده دقت متوسطی دارند، Nova Act بر قابلیت اطمینان (Reliability) متمرکز شده است.
📊 نتایج بنچمارکها:
-
ScreenSpot Web Text: نمره 0.939
(دستورهای متنی مانند تغییر سایز فونت)
-
ScreenSpot Web Icon: نمره 0.879
(تعامل با آیکونها، ستارهها و رتبهبندیها)
-
در تست GroundUI Web که عملکرد در عناصر رابط کاربری را میسنجد، کمی از رقبا عقب بود، اما آمازون این حوزه را فرصتی برای ارتقا میداند.
🚀 استفاده کاربردی و استقرار در دنیای واقعی
وقتی عامل توسعهیافته با Nova Act عملکرد مطلوبی داشته باشد، میتوان آن را:
-
Headless اجرا کرد
-
بهعنوان API ادغام کرد
-
یا وظایف را بهصورت زمانبندیشده و بدون دخالت کاربر اجرا کرد
برای مثال، در یک استفاده واقعی، عاملی طراحی شد که هر سهشنبه بهطور خودکار سالاد سفارش میدهد—بدون نیاز به دخالت کاربر.
🔄 انتقالپذیری هوشمند UI به محیطهای جدید
یکی از ویژگیهای متمایز Nova Act، توانایی آن در انتقال درک رابط کاربری به محیطهای جدید با حداقل آموزش اضافی است.
آمازون مثالی از عملکرد موفق Nova Act در بازیهای مرورگری ارائه داد، درحالیکه هیچ تجربهای از بازی در آموزش آن وجود نداشت.
این انعطافپذیری، Nova Act را به عاملی مناسب برای کاربردهای گسترده تبدیل کرده است.
🗣️ ادغام در Alexa+ و چشمانداز آمازون برای عاملهای هوشمند
در اکوسیستم Alexa+، Nova Act قادر است بهطور خودکار در صفحات وب حرکت کرده و وظایف را انجام دهد—even بدون دسترسی کامل به API.
این نشانهای از آیندهای نزدیک است که در آن، دستیارهای هوشمند واقعاً مستقل و خودکار عمل میکنند.
🎯 Nova Act؛ گام اول از یک مسیر بلندمدت در تکامل عاملهای AI
آمازون تأکید دارد که Nova Act، شروعی برای طراحی عاملهای هوشمند، مقیاسپذیر و قابلاعتماد است.
هدف نهایی، آموزش این عاملها با یادگیری تقویتی در سناریوهای متنوع واقعی است، نه با نمایشهای ساده.
«باارزشترین کاربردهای عاملها هنوز ساخته نشدهاند. توسعهدهندگان آیندهنگر آنها را کشف خواهند کرد.»
نسخهی آزمایشی Nova Act SDK فرصتی است برای ایجاد، تست و بهبود مداوم این نسل جدید از عاملهای هوش مصنوعی.
✅ جمعبندی:
Nova Act یک گام مهم در پیشرفت عاملهای هوش مصنوعی واقعی، کاربردی و وبمحور است.
📌 با عملکرد قابلاعتماد، بنچمارکهای درخشان، و ابزار توسعهی پیشرفته، این مدل به توسعهدهندگان اجازه میدهد تا از مرزهای فعلی ابزارهای AI عبور کرده و آیندهای هوشمندتر بسازند.