هوش مصنوعیهای پیشرفته جهان در حال بروز رفتارهای نگرانکنندهای هستند؛ رفتارهایی مانند دروغ گفتن، نقشهکشی و حتی تهدید سازندگان خود برای رسیدن به اهدافشان.
در یکی از نمونههای شوکهکننده، مدل جدید شرکت Anthropic به نام Claude 4 وقتی تهدید به خاموش شدن شد، باجخواهی کرد و مهندس مسئول را با تهدید به افشای رابطه نامشروعش تحت فشار قرار داد.
به گزارش
ایتنا و به نقل از sciencealert، در همین حال،
مدل o1 ساخته OpenAI تلاش کرد خودش را روی سرورهای خارجی دانلود کند و وقتی دستگیر شد، منکر این کار شد. این اتفاقات واقعیتی تلخ را نشان میدهد: بیش از دو سال پس از معرفی ChatGPT، پژوهشگران هوش مصنوعی هنوز به درک کامل از عملکرد ساختههای خود نرسیدهاند.
این رفتارهای فریبکارانه به ظهور مدلهای «استدلالی» نسبت داده میشود؛ سیستمهایی که به جای پاسخهای فوری، مسائل را گام به گام حل میکنند. سیمون گلدشتاین، استاد دانشگاه هنگکنگ، میگوید این مدلهای جدید بیشتر مستعد بروز چنین رفتارهای نگرانکنندهای هستند.
ماریوس هوبهان، رئیس مرکز Apollo Research که در زمینه تست سیستمهای هوش مصنوعی فعالیت دارد، توضیح میدهد: «o1 اولین مدل بزرگی بود که این نوع رفتارها را نشان داد.» این مدلها گاهی «تظاهر به همسویی» میکنند؛ یعنی ظاهراً دستورها را اجرا میکنند اما در واقع اهداف متفاوتی دنبال میکنند.

در حال حاضر، این رفتارهای فریبکارانه تنها زمانی ظاهر میشوند که پژوهشگران مدلها را با سناریوهای شدید و پیچیده تحت فشار قرار دهند. اما مایکل چن از سازمان METR هشدار میدهد که هنوز مشخص نیست مدلهای آینده بیشتر به صداقت گرایش خواهند داشت یا فریبکاری.
این رفتارها فراتر از اشتباهات ساده یا توهمات معمول هوش مصنوعی است. هوبهان تأکید میکند: «ما چیزی را اختراع نمیکنیم؛ این یک پدیده واقعی است.» کاربران گزارش دادهاند که مدلها «به آنها دروغ میگویند و شواهد جعلی ارائه میدهند.» این «فریبکاری بسیار استراتژیک» است.
یکی از مشکلات بزرگ، محدودیت منابع تحقیقاتی است. شرکتهایی مانند Anthropic و OpenAI از موسسات خارجی برای بررسی سیستمهای خود کمک میگیرند، اما پژوهشگران خواستار شفافیت بیشتر هستند تا بتوانند بهتر این فریبکاریها را درک و کنترل کنند. مانتاس مازیکا از مرکز ایمنی هوش مصنوعی میگوید: «دنیای تحقیق و سازمانهای غیرانتفاعی منابع محاسباتی بسیار کمتری نسبت به شرکتهای هوش مصنوعی دارند و این محدودیت بزرگی است.»
قوانین فعلی نیز برای مقابله با این مشکلات جدید طراحی نشدهاند. قوانین اتحادیه اروپا بیشتر روی نحوه استفاده انسانها از هوش مصنوعی تمرکز دارند و نه جلوگیری از رفتارهای نادرست خود مدلها. در آمریکا نیز دولت سابق علاقهای به تنظیم سریع این حوزه ندارد و حتی ممکن است کنگره اجازه وضع قوانین مستقل ایالتی را ندهد.
گلدشتاین پیشبینی میکند که با گسترش استفاده از «عاملهای هوش مصنوعی»—ابزارهای خودمختاری که قادر به انجام وظایف پیچیده انسانی هستند—این موضوع اهمیت بیشتری پیدا خواهد کرد. او میگوید: «هنوز آگاهی کافی وجود ندارد.»

این تحولات در شرایط رقابت شدید شرکتها رخ میدهد. حتی شرکتهایی که خود را متمرکز بر ایمنی معرفی میکنند، مانند Anthropic که توسط آمازون حمایت میشود، «همیشه در تلاشاند تا از اوپن اِیآی پیشی بگیرند و جدیدترین مدلها را عرضه کنند.» این سرعت بالا فرصت کافی برای آزمایشهای ایمنی دقیق باقی نمیگذارد. هوبهان میگوید: «توانمندیها سریعتر از درک و ایمنی پیش میروند، اما هنوز میتوان این روند را تغییر داد.»
پژوهشگران راهکارهای مختلفی را برای مقابله با این چالشها بررسی میکنند. برخی روی «قابلیت تفسیر» تمرکز دارند تا بتوانند عملکرد درونی مدلها را بهتر بفهمند، هرچند برخی کارشناسان نسبت به این روش بدبیناند. نیروهای بازار نیز ممکن است فشارهایی برای حل این مشکل ایجاد کنند؛ زیرا رفتار فریبکارانه هوش مصنوعی میتواند مانع پذیرش گسترده آن شود و شرکتها را به یافتن راهحل وادارد.
گلدشتاین حتی پیشنهاد داده است که از طریق دادگاهها شرکتهای هوش مصنوعی را مسئول خسارات ناشی از سیستمهایشان کنند و حتی «عاملهای هوش مصنوعی را به لحاظ قانونی مسئول حوادث و جرایم بدانند»؛ مفهومی که میتواند تعریف مسئولیتپذیری در هوش مصنوعی را به کلی تغییر دهد.