هوش مصنوعی چقدر به هوش انسانی نزدیک شده است؟
جدیدترین سیستم هوش مصنوعی شرکت OpenAI در سپتامبر رونمایی شد و وعدهای جسورانه داد.

جدیدترین سیستم هوش مصنوعی شرکت OpenAI در سپتامبر رونمایی شد و وعدهای جسورانه داد. این شرکت، که در سانفرانسیسکو مستقر است و سازنده چتبات ChatGPT است، از o1 — مجموعه جدیدی از مدلهای زبانی بزرگ (LLM) — رونمایی کرد که ادعا میشود «سطح جدیدی از قابلیت هوش مصنوعی» را ارائه میدهد. OpenAI میگوید که o1 به گونهای کار میکند که بیش از مدلهای قبلی به تفکر انسانی شباهت دارد و گامی در جهت کاهش تفاوت تفکر انسانی و ماشینی برداشته است.
به گزارش خبرنامه، این رونمایی بار دیگر شعلههای بحثی قدیمی را افروخت: چه زمانی ماشینها قادر خواهند بود تمام وظایف شناختیای را که مغز انسان انجام میدهد، از جمله تعمیم از یک وظیفه به وظیفه دیگر، استدلال انتزاعی، برنامهریزی و انتخاب جنبههای مختلف جهان برای یادگیری، به انجام برسانند؟
چتباتهای بزرگتر هوش مصنوعی بیشتر تمایل به تولید اطلاعات نادرست دارند — و انسانها همیشه متوجه آن نمیشوند. چنین «هوش عمومی مصنوعی» یا AGI میتواند به مشکلات پیچیدهای مانند تغییرات اقلیمی، بیماریهای واگیردار و درمان سرطان، آلزایمر و سایر بیماریها رسیدگی کند. اما چنین قدرت عظیمی همچنین میتواند عدم اطمینان ایجاد کند — و خطراتی برای بشریت داشته باشد. یوشوا بنجیو، پژوهشگر یادگیری عمیق از دانشگاه مونترال کانادا، میگوید: «اتفاقات بد میتوانند هم به دلیل سوءاستفاده از هوش مصنوعی و هم به دلیل از دست دادن کنترل بر آن رخ دهند.»
آیا هوش مصنوعی هوشمند است؟ انقلاب در مدلهای زبانی بزرگ در چند سال گذشته باعث گمانهزنیهایی شده که شاید هوش منصوعی عمومی بسیار نزدیک باشد. اما به گفته برخی محققان، با توجه به ساختار و نحوه آموزش LLMها، آنها بهتنهایی برای دستیابی به هوش مصنوعی عمومی کافی نیستند. بنجیو میگوید: «هنوز برخی اجزا کم هستند.»
آنچه روشن است این است که پرسشها درباره AGI اکنون از همیشه مهمتر شدهاند. سوببارائو کامبهامپاتی، دانشمند علوم رایانه در دانشگاه ایالتی آریزونا در تمپی، میگوید: «بیشتر عمرم فکر میکردم کسانی که درباره AGI حرف میزنند دیوانهاند. اما حالا همه دربارهاش صحبت میکنند. نمیتوانی بگویی همه دیوانهاند.»
چرا بحث AGI تغییر کرد؟

عبارت «هوش عمومی مصنوعی» حدود سال ۲۰۰۷ وارد جریان اصلی شد، پس از اشاره به آن در کتابی به همین نام که توسط بن گورتزل و کاسیو پناچین ویرایش شده بود. معنای دقیق آن همچنان مبهم است، اما بهطور کلی به سیستمی از هوش مصنوعی اشاره دارد که توانایی استدلال و تعمیمی شبیه به انسان دارد. تعاریف مبهم به کنار، در بیشتر تاریخچهی هوش مصنوعی واضح بوده که هنوز به AGI نرسیدهایم. مثلاً AlphaGo، برنامهای از شرکت DeepMind گوگل برای بازی Go، هرچند بهترین بازیکنان انسانی را شکست داد، اما تواناییاش محدود به همان بازی بود.
قابلیتهای جدید مدلهای زبانی بزرگ چشمانداز را تغییر دادهاند. مثل مغز انسان، این مدلها گسترهای از تواناییها را دارند که برخی پژوهشگران را به این باور رسانده که ممکن است AGI بهزودی ظهور کند — یا شاید حتی اکنون وجود داشته باشد. این باعث شده پرسشهایی نظیر آیا هوش مصنوعی هوشمند است؟ بیش از پیش مطرح شود.
این گستره از تواناییها بهویژه وقتی شگفتآور است که بدانیم پژوهشگران هنوز بهطور کامل نمیدانند چگونه LLMها به آن دست یافتهاند. یک LLM یک شبکه عصبی است — مدلی از یادگیری ماشین که بهطور سست از مغز الهام گرفته شده — که از نورونهای مصنوعی تشکیل شده است. در فرایند آموزش، قدرتمندترین LLMها مانند o1، Claude (از شرکت Anthropic) و Gemini (از گوگل) از روشی به نام پیشبینی توکن بعدی استفاده میکنند. در این روش، مدل با نمونههایی از متن که به توکنهای کوچکتر تقسیم شدهاند آموزش میبیند. توکن آخر پنهان میشود و مدل باید آن را پیشبینی کند. الگوریتم آموزش با مقایسه پیشبینی با توکن واقعی، پارامترهای مدل را تنظیم میکند تا پیشبینی بهتری انجام دهد.
این فرایند — معمولاً با میلیاردها قطعه متن، مقاله علمی و کد — ادامه مییابد تا مدل بتواند بهخوبی توکنها را پیشبینی کند. تا آن زمان، پارامترهای مدل ساختار آماری دادهها را ضبط کردهاند. سپس از این پارامترها در مرحله استنتاج استفاده میشود تا مدل در پاسخ به پرسشهای جدید، توکنهای جدید تولید کند.
استفاده از معماری شبکهای به نام ترنسفورمر مدلها را بسیار فراتر از دستاوردهای پیشین برده است. این معماری به مدل اجازه میدهد بفهمد کدام توکنها حتی اگر فاصله زیادی داشته باشند، بر هم اثر زیادی دارند. این امکان را فراهم میآورد که مدلهای زبانی متن را به شیوههایی تفسیر کنند که شبیه درک انسانی است — مثلاً تشخیص معانی متفاوت واژه “bank” در جملهای مانند: «وقتی بانک رودخانه طغیان کرد، دستگاه خودپرداز بانک خراب شد.»
این رویکرد در زمینههای گوناگونی موفق بوده است، از جمله تولید کد رایانهای، خلاصهسازی مقالات علمی، و پاسخ به سؤالات ریاضی. در مسیر پیشرفت، قابلیتهایی نیز بهطور ناگهانی ظاهر شدهاند، بهویژه با بزرگتر شدن مدلها — و این احتمال را تقویت کردهاند که AGI نیز ممکن است با افزایش اندازه مدلها بهطور ناگهانی ظاهر شود.
یکی از این قابلیتها، درخواست با زنجیره استدلال (CoT) است. در این روش، به مدل مثالی از تقسیم یک مسئله به گامهای کوچکتر برای حل آن نشان داده میشود یا از آن خواسته میشود مرحلهبهمرحله فکر کند. این کار باعث میشود مدل بتواند به پرسشهایی پاسخ دهد که قبلاً برایش دشوار بود. اما این روش برای مدلهای کوچک چندان مؤثر نیست.
در o1، CoT به شکل درونی گنجانده شده و بخشی از قدرت آن را تشکیل میدهد. به گفته فرانسوا شوله، پژوهشگر سابق گوگل که اکنون شرکت خودش را راهاندازی کرده، o1-preview دارای یک تولیدکننده CoT داخلی است که چندین پاسخ زنجیرهای تولید میکند و بهترین را انتخاب میکند. این امر موجب شد که نسخه پیشرفته o1 توانست ۸۳٪ از مسائل آزمون مقدماتی المپیاد ریاضی بینالمللی را حل کند، در حالی که GPT-4o فقط ۱۳٪ موفق بود.
با این حال، کامبهامپاتی و شوله معتقدند که o1 هنوز AGI نیست. مثلاً، در وظایفی که نیاز به برنامهریزی دارند، o1 عملکرد خوبی دارد تا وقتی مراحل به ۱۶ محدود شوند. اما وقتی به ۲۰ تا ۴۰ مرحله میرسد، عملکرد آن بهسرعت کاهش مییابد. شوله نیز نشان داده که مدلها نمیتوانند مسائل استدلال انتزاعی را که نیاز به ترکیب مجدد دانش دارند، حل کنند. او میگوید: «مدلهای زبانی نمیتوانند بهطور واقعی با موقعیتهای جدید سازگار شوند، چون نمیتوانند دانش خود را روی هوا و در لحظه برای زمینههای جدید بازترکیب کنند.»
آیا مدلهای زبانی به AGI منتهی میشوند؟

مزیتی که در LLMها وجود دارد این است که ترنسفورمر میتواند به دادههایی غیر از متن هم تعمیم یابد، مثل تصاویر و صدا، به شرطی که بهدرستی توکنیزه شوند. پژوهشگرانی مانند اندرو ویلسون نشان دادهاند که دادههایی مانند متن و تصویر پیچیدگی کولموگروف کمی دارند — یعنی میتوان آنها را با برنامههای نسبتاً کوتاه توصیف کرد — و ترنسفورمرها برای شناسایی الگو در چنین دادههایی مناسب هستند. بنابراین، اینها برخی از عناصر لازم برای یادگیری عمومی هستند، اگرچه ویلسون معتقد است که AGI هنوز دور از دسترس است.
اما نشانههایی از محدودیت نیز وجود دارد. از جمله اینکه منابع دادهای در حال اتماماند. مؤسسه Epoch AI تخمین میزند که دادههای متنی عمومی موجود تا بین سالهای ۲۰۲۶ تا ۲۰۳۲ تمام شوند. همچنین، افزایش اندازه مدلها دیگر بهاندازه گذشته منجر به بهبود عملکرد نمیشود.
مشکل دیگر این است که LLMها تنها بر پیشبینی توکن بعدی متمرکزند. رایا هدسل از DeepMind میگوید که این رویکرد خیلی محدود است و شاید لازم باشد مدلها بهطور کلی پاسخ تولید کنند، نه صرفاً یک توکن در لحظه. DALL·E که تصاویر را بهطور کامل تولید میکند، نمونهای از این تفکر است، ولی گستره توانایی مدلهای زبانی را ندارد.
ساختن یک مدل از جهان
عصبشناسان معتقدند که تفاوت تفکد ماشینی و انسانی در این است که مغز انسان با ساختن مدل ذهنی از جهان، توانایی برنامهریزی، استدلال و تعمیم را به دست میآورد. برخی پژوهشها ادعا کردهاند که LLMها نیز بهنوعی مدل جهان را درونیسازی میکنند. برای نمونه، مدلی در دانشگاه MIT، نمایشهایی از آمریکا و نیویورک را آموخت. اما منتقدان میگویند این مدلها از آن برای شبیهسازی یا استنتاج علی استفاده نکردند.
در مثالی دیگر، مدلی که حرکات بازی Othello را یاد گرفته بود، توانست موقعیت صفحه را درونیسازی کند و حرکت بعدی را پیشبینی کند. اما در پروژهای دیگر، مدلی که مسیر تاکسیهای نیویورک را یاد گرفته بود، نقشهای خیالی ساخت که با واقعیت جغرافیایی مطابقت نداشت — خیابانهایی با جهتهای غیرممکن و پلهایی که وجود خارجی ندارند.
اهمیت بازخورد
دلیل دیگری که مدلهای امروزی را از AGI دور نگه میدارد، فقدان بازخورد داخلی است. مغز انسان دارای اتصالات بازگشتی بین لایههای عصبی است، ولی در LLMها این بازخورد تنها بهصورت افزودنی وجود دارد. بهعنوان نمونه، CoT در o1 نوعی بازخورد است، اما همانطور که دیدیم، برای استدلال انتزاعی کافی نیست.
پژوهشگران تلاش کردهاند ماژولهای بیرونی (راستیآزما) به مدلها اضافه کنند تا پاسخهای آنها را بررسی کنند. اما این راستیآزماها مخصوص هر وظیفه طراحی میشوند. برای AGI لازم است که خودش چنین ماژولهایی را برای موقعیتهای جدید بسازد — همانگونه که انسانها از قواعد انتزاعی برای بررسی صحت استدلال خود استفاده میکنند.
برخی مانند بنجیو در حال ساخت مدلهایی هستند که ساختارشان با LLMها متفاوت است. یکی از آنها از شبکههای جریان مولد استفاده میکند تا مدل جهان و ابزارهای لازم برای استدلال را همزمان یاد بگیرد.
هوش مصنوعی در حال حاضر بسیار دادهمحور است. پژوهشگرانی مانند کارل فریستون میگویند شاید AGI نیاز به نوعی عاملیت داشته باشد تا بتواند خودش تشخیص دهد چه دادهای برای یادگیری لازم است — نه اینکه همه دادهها را بیرویه مصرف کند. این نشانهای از استقلال و خودآگاهی هوش مصنوعی خواهد بود.
آیا دستیابی به AGI ممکن است؟
آیا هوش مصنوعی هوشمند است؟ پژوهشگران علوم رایانه معتقدند هیچ مانع نظریای برای دستبای به هوش مصنوعی عمومی که همان هوشمندی هوش منصوعی است وجود ندارد. ملانی میچل از مؤسسه سانتافه میگوید: «انسانها و برخی حیوانات اثباتی بر امکانپذیر بودن آن هستند.» اما درباره زمان تحقق آن اختلاف نظر وجود دارد: برخی میگویند چند سال، برخی میگویند دستکم ده سال. شوله میگوید: «وقتی AGI بیاید، آنقدرها هم پر سروصدا نخواهد بود. اول اختراع میشود، بعد باید آن را مقیاسپذیر و کاربردی کنیم، تا تأثیرش را ببینیم.»