Post #1779 — Mockingbird Shares (@mockingbird

TGStat

Type to search

Advanced channel search

English

Site language

Russian English Uzbek
Sign In

Catalog

Channels and groups catalog Search for channels
Add a channel/group
Ratings

Rating of channels Rating of groups Posts rating
Ratings of brands and people
Analytics
Search by posts
Telegram monitoring

Mockingbird Shares

15 Oct, 21:53

Open in Telegram Share Report

тримайте смішне на вечір

arstechnica.com/ai/2024/10/llms-cant-perform-genuine-logical-reasoning-apple-researchers-suggest/

коротке самарі:

1. порівнюємо бенчмарки моделей на задачах з тест сетів задачок рівня початкової школи, міняємо Сашу на Машу, брата на свата, апельсини на банани і 37 на 14; отримуємо гірші результати по розв'язкам, хоча суть задачі не змінилася.
2. йдемо далі: коли міняємо апельсини на банани, додаємо що декілька з них були трохи меншими від попереднього кроку задачі, що насправді ніяк не змінює розв'язку. результати нагадують модульні контрольні з матана в універі.. якість розв'язків прямує вниз так само, як і у горе-одногрупників, що вирішили до тесту не готуватися 😁

статтю в препринті опублікували 6 тролів з епла (ну а хто ще).

гарного вечора!

#shared_link
#machine_learning

Apple study exposes deep cracks in LLMs’ “reasoning” capabilities

Irrelevant red herrings lead to “catastrophic” failure of logical inference.