тримайте смішне на вечір
arstechnica.com/ai/2024/10/llms-cant-perform-genuine-logical-reasoning-apple-researchers-suggest/
коротке самарі:
1. порівнюємо бенчмарки моделей на задачах з тест сетів задачок рівня початкової школи, міняємо Сашу на Машу, брата на свата, апельсини на банани і 37 на 14; отримуємо гірші результати по розв'язкам, хоча суть задачі не змінилася.
2. йдемо далі: коли міняємо апельсини на банани, додаємо що декілька з них були трохи меншими від попереднього кроку задачі, що насправді ніяк не змінює розв'язку. результати нагадують модульні контрольні з матана в універі.. якість розв'язків прямує вниз так само, як і у горе-одногрупників, що вирішили до тесту не готуватися 😁
статтю в препринті опублікували 6 тролів з епла (ну а хто ще).
гарного вечора!
#shared_link
#machine_learning
arstechnica.com/ai/2024/10/llms-cant-perform-genuine-logical-reasoning-apple-researchers-suggest/
коротке самарі:
1. порівнюємо бенчмарки моделей на задачах з тест сетів задачок рівня початкової школи, міняємо Сашу на Машу, брата на свата, апельсини на банани і 37 на 14; отримуємо гірші результати по розв'язкам, хоча суть задачі не змінилася.
2. йдемо далі: коли міняємо апельсини на банани, додаємо що декілька з них були трохи меншими від попереднього кроку задачі, що насправді ніяк не змінює розв'язку. результати нагадують модульні контрольні з матана в універі.. якість розв'язків прямує вниз так само, як і у горе-одногрупників, що вирішили до тесту не готуватися 😁
статтю в препринті опублікували 6 тролів з епла (ну а хто ще).
гарного вечора!
#shared_link
#machine_learning