Чи має велика мовна модель можливість не мовного мислення?

Question

Джерело: квантовий номерСьогоднішня головна стаття Ars Technica досліджує питання, чи мають великі мовні моделі здатність до нелінгвістичних міркувань, і цитує відкриття дослідників, що обробка в 'потенційному просторі' може допомогти штучному інтелекту вирішувати складні логічні проблеми. Що це означає? Продовжимо читати.До цього часу великі мовні моделі вже здобули величезний успіх, вони ефективно використовують свою трансформаторну архітектуру, щоб передбачити наступне слово (тобто мовний токен), необхідне для відповіді на запит. Однак коли мова йде про складні завдання абстрактного логічного мислення, деякі дослідники виявили, що пояснення усього через цей "мовний простір" може призвести до деяких проблем, навіть для сучасних "мислених" моделей.Зараз дослідники намагаються вирішити ці проблеми шляхом створення моделей, які можуть повністю обчислювати потенційні логічні рішення в «потенційному просторі» - тобто в прихованому обчислювальному шарі до того, як генератор мови перетворює дані. Хоча цей підхід не призводить до революційних змін у вмінні великих мовних моделей виконувати логічні завдання, він дійсно значно підвищує точність вирішення деяких типів логічних проблем та вказує на деякі цікаві напрями нових досліджень.## **Зачекайте, який простір?**Сучасні моделі логічного висновку, такі як o1 ChatGPT, як правило, працюють, генеруючи «ланцюжки думок». У цих моделях кожен крок логічного процесу представлений у вигляді серії словесних тегів природної мови і подається назад через модель.У новій статті дослідники з базового штучного інтелекту Meta та Університету Каліфорнії в Сан-Дієго розглянули залежність цих моделей мислення від природних мов та «слів-міток» як «основний обмежуючий фактор». Це пояснюється тим, що для успішного виконання завдань мислення зазвичай потрібно складне планування певних ключових міток, щоб знайти правильний логічний шлях серед багатьох варіантів.! [](https://img.jinse.cn/7333100_image3.png)На рисунку показано, що в стандартній моделі кожен крок потребує перетворювача, що відрізняється від моделі COCONUT з прихованим «потенційним» станом. (Джерело зображення: Training Large Language Models to Reason in a Continuous Latent Space)Дослідники написали, що в поточній моделі мисленнєвого ланцюга мітки слова зазвичай створюються для «кохерентності тексту» та «плавності», а не мають значного внеску в реальний процес мислення. Натомість вони пропонують, що «ідеальний варіант полягає в тому, що великі мовні моделі можуть вільно мислити, не обмежені жодною мовою, а потім, лише в разі потреби, перетворювати свої відкриття на мову».Для реалізації цього "ідеалу" науковці описали метод "навчання великих мовних моделей робити висновки в послідовному потенційному просторі", як і назва статті. Цей "потенційний простір" по суті складається з набору "прихованих" міток ваг, які складаються з моделі внутрішнього стану перед конвертацією в читабельну людиною версію приладу генератора. У моделі COCONUT (послідовний ланцюг мислення) дослідників ці приховані стани кодуються як "потенційні думки", які, під час навчання та обробки запитів, замінюють послідовні письмові кроки логічним порядком. Дослідники пишуть, що це уникне необхідності перетворення кожного кроку на природну мову, і "звільнить мислення від мовного простору", що призведе до оптимізованого шляху мислення, який вони називають "послідовним мисленням".## **Більш широкий кругозір**Хоча логічна обробка в потенційному просторі має певні переваги для підвищення ефективності моделі, але ще важливіше виявлення полягає в тому, що така модель може «одночасно кодувати кілька потенційних наступних кроків». Логічна обробка в «потенційному просторі» може забезпечити миттєву зворотну дорогу, дослідники порівнюють її з пошуком у ширину в графі, а не з повністю жадібним процесом пошуку усіх логічних варіантів один за одним.Дослідники пишуть, що навіть якщо модель не була явно навчена, ця раптова та синхронна функція обробки виявляється під час тестування. «Хоча спочатку модель може не приймати правильних рішень, вона може зберігати багато можливих варіантів в рамках невираженої функції цінності, поступово усуваючи неправильні шляхи через міркування», - пишуть вони.! [](https://img.jinse.cn/7333101_image3.png)Ця діаграма наочно демонструє деякі способи можливої невдачі різних моделей у деяких типах логічного мислення. (Джерело: Training Large Language Models to Reason in a Continuous Latent Space)У відносно простих тестах математичного мислення (GSM8K) або загального мислення (ProntoQA) ці багатошляхові міркування не дійсно покращують точність COCONUT порівняно з традиційною моделлю ланцюга мислення. Однак дослідники виявили, що ця модель показує відносно гарні результати у групі випадково згенерованих запитів типу ProntoQA, які включають складні та змістовні набори логічних умов (наприклад, "кожне яблуко є фруктом, кожний фрукт є їжею і т. д.").Для цих завдань стандартні моделі ланцюгового мислення при спробі вирішення логічних ланцюгових проблем часто потрапляють в тупик мислення, навіть породжуючи повністю умисні правила. Попередні дослідження також показали, що «устно-логічні кроки», які видають моделі ланцюгового мислення, «фактично можуть використовувати потенційні процеси мислення, відмінні від спільного процесу мислення».Це нове дослідження додається до все більшої кількості досліджень, спрямованих на зрозуміння та використання роботи великих мовних моделей на рівні їхніх нейромереж. Хоча такі дослідження ще не досягли значного прориву, дослідники вважають, що моделі, які піддаються попередньому навчанню з використанням такого "продовженого мислення", можуть "забезпечити моделі більш ефективним узагальненням в більш широкому спектрі ситуацій для мислення".