كشفت شركة مايكروسوفت النقاب عن نموذج ذكاء اصطناعي متقدم يسمى "Large Action Model" أو "LAM"، والذي يمتاز بقدرته على تشغيل برامج ويندوز وتنفيذ المهام بشكل مستقل، مما يمثل نقلة نوعية في مجال الذكاء الاصطناعي.
يختلف نموذج LAM عن النماذج اللغوية التقليدية، مثل GPT-4o، التي تقتصر على معالجة النصوص وإنشائها، حيث يمكنه تحويل طلبات المستخدمين إلى أفعال حقيقية، سواء كان ذلك تشغيل البرامج أو التحكم في الأجهزة.
تتطلب عملية تطوير نموذج LAM أربع مراحل رئيسية: التدريب على تخطيط المهام وتقسيم المهمة إلى خطوات منطقية، والتعلم من نماذج متقدمة لتحويل الخطط إلى أفعال، والاستكشاف الذاتي الذي يتيح للنموذج البحث عن حلول جديدة وتجاوز العقبات، والتدريب المستند إلى المكافآت لتحسين دقة التنفيذ.
أجرى الباحثون اختبارًا لنموذج LAM في بيئة اختبار خاصة ببرنامج تحرير النصوص "ورد"، ونجح في تنفيذ المهام بنسبة قدرها 71%، متفوقًا على GPT-4o الذي حقق نسبة نجاح بلغت 63% دون معلومات بصرية.
استند فريق مايكروسوفت إلى آلاف البيانات التدريبية المستخلصة من وثائق مايكروسوفت ومقالات منصة wikiHow وعمليات البحث عبر محرك بينج، ثم استخدم الفريق نموذج GPT-4o لتطوير هذه المهام إلى مهام أخرى أكثر تعقيدًا.
يواجه نموذج LAM بعض التحديات، منها تنفيذ أفعال بنحو خطأ وبعض القضايا التنظيمية التي تحتاج إلى حلول وقيود تقنية تؤثر في قابلية التوسع والتطبيق في مجالات مختلفة.
يرى الباحثون أن نموذج LAM يمثل تقدمًا كبيرًا في مجال الذكاء الاصطناعي، مشيرين إلى أنه قد يمهد الطريق لتطوير ذكاء اصطناعي عام (AGI)؛ فبدلًا من الأنظمة التي تقتصر على فهم النصوص وإنتاجها، قد توفر الشركات قريبًا مساعدين رقميين يساعدون فعليًا في تنفيذ المهام اليومية بنحو فعّال.