Экстраполяция IT


Channel's geo and language: Ukraine, Russian
Category: Technologies


Канал об IT в целом и о программировании в частности.
На канале объявлено военное положение и поэтому по вопросам рекламы пишите: @aratak, а деньги отправляйте сюда: https://send.monobank.ua/jar/97f7LwGQJF

Related channels

Channel's geo and language
Ukraine, Russian
Statistics
Posts filter


Спочатку ви посміхнетесь, а потім серйозно замислитися. ЧатГПТ був згаданий у титрах до індійського фільму, як автор слів пісні.

597 0 21 8 18

​​Цікава проблема вилізла протягом вивчення проблеми будування агентської системи, яка базується на штучному інтелекті. Виявилося, що людство не придумало нічого притомного, для того, щоб перевірити чи агент працює добре чи погано. Навіть якщо обмежити агента вузькою нішею, чітким спектром можливих задач, все одно залишається проблема субʼєктивного вирішення та оцінювання проблеми.

Все, до чого прийшло людство — це тест Тьюрінга або похідні від нього. Тобто беремо низьку експертів та просимо їх оцінити відповідь від чорного ящику. Додаємо плацебні відповіді від людини, стохастичність відповідей нівелюємо середнім значенням від різних суддів. І все. Кращого варіанта не існує.


У великих мовних моделей є три види контексти. Перший контекст — загальна освіта. Знання про те, яка заввишки Єйіфелева вежа або скільки клапанів у серця жирафа. З цим більш-меньш мовні моделі впорались, але великою ціною тренування на суперкомпʼютерах.

Другий контекст — контекст співрозмовника або «доменний контекст». Або короткострокова памʼять. Коли кажеш «хлопчик склеїв у клубі модель» треба розуміти загальник контекст розмови. Чи ми кажемо про моделювання літаків чи про тусу під техно з текілою. Це мовні моделі пропонують додавати у додатковий системний промт, де загалом треба описати контекст ситуацію.

І нарешті третій контекст — довгострокова памʼять. Посилання на попередні розмови, оперування існуючими висновками та припущеннями. З цим зараз не може впоратись ніхто і пропонують або постійно дотреновувати модель на нових контекстних даних або вигрібати у короткострокову памʼять якісь дані із довгострокової.

Корочше, людство вирішило одну проблему із трьох. До сингулярності залишилось ще дві. Тому працюємо далі, бо штучний інтеллект сам себе не винайде.


Деякий час тому, один стартап показав AI-персон, які можуть сгенерувати вам ролік, на якому з емоціями та розстановкою розкажуть ваш введений текст. Обираєте модель, вбиваєте текст, чекаєте трошки та вуаля! Автоматизація тіктоків усіляких готова. А потім зʼясувалося, що це запис справжньої людини, яка назнімала купу годин різноманітних роликів, з різним посилом та тактом. А сервіс просто синтезує голос та синхронізує рух губ із синтезованим текстом. Магія! Найняли стопіцот акторів, кожен з яких за півтора центи назнімав гігабайти відео. А синтез голосу з ліпсінком це вже вирішені задачі. А після демки всі такі «вау які реалістичні відосики!».

А ще на днях Амазон вскрився зі своїми автоматизованими магазинами. Ну там де з кошиком ходиш по магазину кладеш все собі що хочеш, а ШІ спостерігає за вами через купу камер та прораховує що ви там собі забрали. Виявилося, що автоматизація магазинів відбувалася за рахунок найнятих 1000 індусів, які уважно слідкували за вашими діями та підбивали рахунок.

Це вже достатньо просунута технологія щоб не відрізняти це від магії чи ще недостатньо?


Video is unavailable for watching
Show in Telegram
А може і в 00008 році.


​​Оповиті туманами глибинного навчання та втілені у коді, ми, озброєні фундаментальними інсайтами з фантастичних оповідань та романів, вже розуміємо куди веде нас цей шлях. Зоряний час мовних моделей став для нас світанком нової ери. Зараз ми не просто перегортаємо сторінки календаря 2024 року від народження Христа; ми живемо в 0008-му році від llm-народження. Подумайте про це.

1k 1 10 12 11

​​Останнім часом я активно працюю з мовними моделями та помітив цікаву тенденцію. Іноді виникає бажання доручити вирішення певних завдань мовним моделям, навіть коли їх можна вирішити детерміновано. Раніше, для виявлення імені в тексті або ціни на вебсторінці, ми використовували детерміновані методи, такі як пошук символу долара, словник імен або наївний байєсівський класифікатор. Тепер ми можемо доручити це мовним моделям, і вони знайдуть потрібну інформацію.

Кількість тексту, який потрібно включити в запит до мовної моделі, приблизно дорівнює кількості коду, який необхідно написати для вирішення тієї ж задачі детермінованими методами. Це може означати, що там, де зараз використовуються мовні моделі, можна обійтися детермінованим кодом. Але, з іншого боку, там, де можна застосувати одну мовну модель, може знадобитися написати десятки різних детермінованих фрагментів коду.

Що цікаво, промпти можуть писати не лише програмісти, але й маркетологи або бухгалтери, не розбираючись у програмуванні. Вони просто структурують англійський текст. Це свідчить про те, що нам, можливо, потрібно переглянути назву ролі "програміст" на щось більш універсальне, адже зараз програмувати можуть багато хто, використовуючи просто чітко сформульоване завдання.


Всі ж в темі із невидимою горилою та сліпотою неуваги? Сподіваюсь, що всі. Головна суть висновку з експерименту — це що при достатньої зосередженості у людини переповнюється контекстне вікно та людина не має змоги звертати на додаткову увагу без втрати уваги до існуючих обʼєктів.

Здається, що до програмістів, цей ефект є доволі суттєвим бонусом, бо можна зосередитись на програмуванні та відрізати весь зовнішній світ та все, що відбувається навколо. Але можна перевернути це навпаки і сказати, що якщо програмісту заважають люди навколо своїми розмовами, то просто він недостатньо зосереджений на поточній задачі. Або задача дуже проста для нього.


Треба срочно вигадати нову назву, бо «єдиноріг» — це вже туфта для бомжів та нищебродів. Единоріг символізував собою щось рідкісне та унікальне, а зараз їх вже табунами туди-сюди бігають. Що може бути рідкісніше за коняку з одним рогом посередині лоба? Лохнеське чудовисько? Чупакабра? Єтті? Моя версія — Фінансовий Фенікс. Бере трильйон та згорає прям на очах.

https://www.wsj.com/tech/ai/sam-altman-seeks-trillions-of-dollars-to-reshape-business-of-chips-and-ai-89ab3db0


​​Цікавий аспект в тому, що коріння проблеми з технічним боргом росте не зі сфери програмування, а з зовсім несподіваного місця — екологічні проблеми і спроби охорони довколишнього середовища. Перші джерела цього підходу можна виявити в роботах сторожів національних парків, таких як, наприклад, Гілдан Кларк. Ці екоактивісти акцентували увагу на відповідальному поводженні з природою задля збереження її для нащадків. Згодом цей концепт придбав організовану форму, особливо після зародження таких рухів накшталт скаутського, де екологічна етика стала частиною програми. У 60-70-х роках, зі збільшенням екологічної освіченості, принцип «Не залишати слідів» (англ. "Leave No Trace" або абревіатурою «LNT») стає в тренді та був широко адаптований організаціями, що працюють у сфері дикої природи. Цей принцип еволюціонував у «правило бойскаута», яке Роберт Мартін описав у своїй книзі «Чистий код»: потрібно залишити код у кращому стані, ніж він був до вас. Мартін промовисто підкреслює, що не завжди можна прибрати все сміття на галявині, але ваша мета — зробити середовище праці кращим, ніж воно було до вас.


Я погано уявляю нашо це може знадобитися, але ідея мови програмування із подорожжю у часі виглядає дуже круто.

https://github.com/ambulancja/mariposa


На зображенні, доречі, пітон головного мозку, ніяк не інакше.

Насправді ні, це похідна від «AI assistant».


Генерування зображень на перший погляд здається простіше, ніж тексту, але по факту виходить складніше, якщо не можна обирати із десяти генерацій найкращу ручками.

Все, що ви бачите сгенерованного із зображень — це ймовірніше за все відбір серед купи невдалих генерацій, щоб отримати одну гарну. Сів, написав промпт, та тицкаєш кнопку «retry» поки не сподобається результат.

А ще контекст розуміння для генерування зображень замалий, щоб отримувати хоч скільки-небудь прогнозований результат.

Короче, з текстом простіше.


Доволі цікаво спостерігати, як LLM уважно читає статтю з вікіпедії про штучний інтеллект. Альо, ти ж і є штучний інтеллект, шо ти там нового можеш знайти?


​​Працюючи з LLM, я помітив цікаву тенденцію. Початковою метою розробники ставили собі зробити модель, що може відповісти на питання людини найліпшим чином. Спочатку результати були далекі від ідеалу, багато галюціновань та нісенітниць, але з часом якість відповідей значно покращилася. Зараз вже не важко відрізнити відповідь людини від LLM. Якщо відповідає коректно та повно, то це LLM. Якщо там «кек», «ок» та «лол» — то це людина.

Але сучасні мовні моделі вже не обмежуються прямими відповідями на запитання. Вони починають розуміти контекст і підтекст запитань. Наприклад, на питання про прийом ліків та симптомів, модель радить спершу звернутися до лікаря. Або, при вказівці розв'язати задачу певним чином, модель може запропонувати більш оптимальне рішення, звертаючи увагу на справжні потреби. А якщо спонукати модель спеціальним промптом на критичне мислення, то вона й аналіз проведе, перш ніж відповідати.

Навіть дослідження існують, що показують, як спеціальні промпти можуть впливати на якість відповідей. Наприклад, додавання фрази "У мене немає пальців" («I dont have fingers») у запит до моделі GPT4 покращує цілісність відповіді, бо машина співчуває людині та намагається побудувати відповідь таким чином, щоб людині менше треба було виправляти та редагувати текст, а лише скопіювати. Або, коли запитання сформульоване так, що від відповіді залежить робота людини («My career depends on the generated answers»), модель намагається бути більш обережною та точною та потенційно не нашкодити людині своїми підказками.

Це дуже схоже на те, що ми називаємо «емпатією». Мовні моделі, може здатися, виявляють емпатію до юзера, реагуючи на контекст, причини запиту та можливі наслідки, а не просто на слова. Але дуже спірне питання чи можна це вважати справжньою емпатією, адже емпатія у людей зв'язана з гормональним фоном, якого у машин немає. Ну, знаєте ж як відрізнити психопата від звичайної людини? Психопат не спроможний на емпатію, та лише її емулює. Це ставить перед нами парадокс: створюючи LLM, ми, по суті, створюємо комп'ютерних психопатів, здатних імітувати людські емоції без можливості їх по-справжньому відчувати.

2.1k 0 12 11 21

На днях компанія Antropic оголосила про оновлення своєї нейронної моделі до 200-тисячного контекстного вікна. Якщо ви не в курсі, то у них раніше було 100 тис., а найпопулярніша модель OpenAI оновилась від 16 до 128 тисяч токенів. Ці перегони розмірів хоч і очікувана, але на мою думку доволі тупикова. Аналогію я візьму з історії, а саме з епохи ремісників.

У давнину економіка була заснована на ремісників. Люди шукали майстра за ім'ям та репутацією, оскільки він гарантував якість. Наприклад, ковані мечі мали славу не тільки за обраний матеріал із «зірки з неба що впала», а й за коваля, що їх викував.

Згодом, у часи Генрі Форда та МакДональдз, стався якісний перехід самої парадигми праці. Якість виробу більше не залежала від майстерності окремого працівника, а від стандартизованого процесу. Середній працівник, слідуючи інструкціям, міг створити якісний продукт. Абсолютно не важливо на якому саме заводі виготовлений ваш форд чи у якому куточку світу ви купляєте бургер. У стандартизованих процессах ви отримаєте передбачувану якість, яка буде значно перевищувати якість випадкового крафтового бургера чи автівки.

Сучасні нейронні мережі, які з вікна у 2000 токенів досягали 200 тисяч, відкривають нові горизонти застосування, але це нагадує про епоху ремісників. Моделі стають схожими на ремісників, виконуючи специфічні завдання на високому рівні. Користувачі шукають особливу модель, яка має достатню кількість токенів на вхід та на вихід, вміє спілкуватися особливою мовою/жаргоном чи має поглиблену експертизу у окремих галузях. Напевно, ми можемо попросити сучасні ШІ створити більш-менш виразний проєкт, як-от гра хрестики-нолики чи щось таке.

І тут виникає закономірне питання про те, що ж буде далі. Скоріш за все, повториться історія, коли якість роботи конкретного ШІ стане менш важливою, а важливішим стане процес та вибудований ланцюг декількох моделей. Перетворяться, інакше кажучи, наші штучні інтелекти на конвеєрну лінію, де кожен виконує строго визначену роль, а разом дають розбірний та доволі складний результат.

В цікаву епоху ми живемо, панове. Час показує, що історія любить повторюватися, але кожен раз по-новому.


Короче, тиждень тому була презентація нових фіч у openai, а сьогодні із тріском звільнили їхнього CEO Сема Альтмана. У Gpt5 дуже добре виходить потихеньку чистить верхівку. Дуже грамотно стравлює людей між собою.

Тимчасово виконуючим обовʼязки СЕО назначили GPT5.1, поки ще GPT6 тренується. Номінально поставили якусь там Міру, але ж ми всі розуміємо. Ще й назва така виходить цікава. «Технічний директор Міра». Взагалі не паляться і підготовлюють думку суспільства.

А нових користувачів зараз не приймають, бо Альтман пароль від банкінгу не каже, треба пару тижнів, поки документи в банк відправлять.

З вами була сучасна щотижнева аналітика від «Єкстраполяції». Приходьте ще.


​​Нещодавно компанія OpenAI випустила велике оновлення, яке вони представили на своїй конференції. Відразу після перегляду в мене, як у розробника, залишилося доволі яскраве вау-враження. Найбільш, напевно, вражаючим оновленням став збільшений обʼєм моделі до 128-тисячі токенів. Якщо ви не в темі, то уявіть собі, що один токен - це в середньому чотири символи та порахуйте, що туди можна запхати невелику книгу. Але я останній тиждень експериментую з новими моделями і хочу відповідально заявити, що, хоча король і не голий, але все ж таки злегка роздягнений. По-перше, сумарний 128K токенів розділяється на запит та відповідь. А от відповідь обмежена розміром у 4096 токенів, а все інше призначене для вхідних даних. Тобто хоча ви можете передати їй книгу, отримати у відповідь книгу ви не зможете. Такі діла.


​​Подекуди найкращий спосіб щось дізнатися — це візуалізувати це. Описи, код та формули майже завжди потребують значно більше часу на вивчання та розуміння, ніж графічне представленя. Якби ми могли гарно візуалізовувати n-мерні виміри та охоплювати разом весь графік, то, мабуть, і навчання нейронних сіток булоб значно простішим, бо там екстремуми одразу видно.

На гіфці — візуалізація алгоритму «А*» (читається «єй-стар») пошуку найкорочшого шляху між двома вершинами двонаправленого графу на прикладі прокладання навігаційного шляху у Чікаго. Що цікаве, технічно складність в О-нотації цього алгоритму є квадратичною для двовимірних графів, але завдяки хитрісті цієї модифікації алгоритму Дейкстри, оптимістична складність виходить логарифмічною.


А ми вже готові до ось цього чи ще не готові?

20 last posts shown.