Фильтр публикаций




До речі, сьогодні останній день щоб проголосувати на DOU Awards https://dou.ua/awards-2025/
І не забудьте поставити галочку за нашого кандидата, фотозвіт в коментарях відається


Ще ось така штука є. Тестуємо. Робота виключно через термінал специфічна дуже, не сказав би що особливо зручно, треба просто use case для нього придумати.


Найбільш недооцінений AI

До теми попереднього повідомлення. Якби мене спитали, який AI найбільш недооцінений, то я без вагань назвав би Google Gemini. Спробую щось таке назвати, про що ви можливо не знали.

Чи знаєте ви що, саме Google Gemini 2.0 Thinking була на першому місці серед LLM-моделей кілька останніх місяців до виходу Grok 3? А те, що Google на два місяці раніше за Open AI запустила функцію “Deep Research” (так, саме з такою ж назвою)? Або те що в моделей Google найкраще співвідношення ціна/якість за використання API (навіть краще за DeepSeek)? І це при найбільшому на ринку контекстному вікні - є навіть моделі з підтримкою до 2,1 млн токенів. Чи те, що в Google AI Studio є інтерактивний режим, де ви можете показати свій екран чи вебку і в реальному режимі спілкуватися з AI про контент? Або те, що там же можна взяти API-ключик і використовувати їх модельки безкоштовно, хоча і з обмеженнями, але для простих задач цілком ок? Чи те, що саму архітектуру LLM-моделей “трансформер” придумали саме в Google?

Сподіваюся, когось дійсно цими фактами здивував. І власне в цьому проблема - Google технічно як мінімум не поступається самим топовим конкурентам в галузі AI, але при цьому не робить такого інформаційного шуму як інші. Крім того в Google є якась загальна проблема з запуском проєктів - вони часто щось таке дуже цікаве запускають, всі дивуються, конкуренти починають робити клони, але оригінальний продукт чи сервіс чомусь не розвивається і з часом його вимикають взагалі. Ось зараз в таку категорію потрапив NotebookLM - дуже цікавий проєкт для навчання, але за якийсь час після випуску виглядає наче трохи закинутим. Я буквально сьогодні дізнався, що він став доступний в Україні, рекомендую, гарна річ, але сподіваюся вони його не закинуть.

Сам я AI від Google використовую досить часто і мій рівень задоволеності досить високий. Але щось з їх підходами до роботи не так - це факт.


Gemini Code Assist Free

Тут Google зробила безкоштовним для індивідуального використання AI extension для VS Code - Gemini Code Assist з великими безкоштовними лімітами, що разів в 90 вищі за безкоштовний Github Copilot.

Лінк на екстеншин тут.

Воно тільки вийшло, а рейтинг вже 2.7 з 5, мені здається як часто буває в Google - продукт наче ок, але з тим щоб відполірувати по UX в них не дуже вийшло. Воно там ліцензію просить, а де брати її “безкоштовно” не зовсім зрозуміло, хоча якщо “просилку” закрити, то працює - хз, може й так задумано 🙂
Upd. Ще забув написати що воно питало Google Cloud Project ID - воно само перекидає на список проєктів, можна обрати існуючий або створити новий.


Grok 3

Grok 3 нарешті став доступним для всіх безкоштовно буквально “поки сервери не поплавляться” (так і написали в оголошенні).

Зараз він на першому місці в LMArena, хоча там є нюанси - їх команду підловили на маніпуляціях з рейтингами, і не факт що та модель, що була в тестах, є тою ж самою моделлю, що публічно доступна для всіх.

Тим не менше, хоч я ще не встиг особливо багато поганяти третій грок, але перші враження дуже позитивні. Зокрема, спробував фічу DeepSearch і вона дуже гарно працює, ось вам як сам грок пояснює вам про маніпуляції зі своїми рейтингами за допомогої цієї фічі.

Ще грок працює швидко, має велике контекстне вікно (декларується 1 млн токенів), реально гарно пише код. Рекомендую спробувати, не факт, що безкоштовно буде постійно.


Особисто я з цього списку не використовував ще лише Zed, постараюся усунути цей недолік якнайшвидше. Cursor тепер мій daily driver. bolt.new та v0 використовую дуже часто. Інше епізодично, переважно приглядаюся до фіч. Ще є китайський Trae, ходив до них в діскорд, там майже все спілкування китайською, думаю поки не на часі :)

1.9k 0 27 16 24

Про національну LLM

В нашій країні по довоєнній статистиці (2013 р) в державному секторі (всі чиновники, силовики, медицина, освіта і т.д.) працював кожен четвертий працевлаштований. Можливо є свіжіші дані, не знайшов, але не думаю що вони будуть принципово відрізнятися. Це виходить досить сумна статистика, бо додана вартість генерується в приватному секторі, і чим більше у нас державного, тим менше приватного, і навпаки.

Окремо варто сказати про якість державних послуг - десятки тисяч людей зайняті простим виписуванням якихось довідок, обробкою та формуванням документів і тому подібною роботою, з якою легко справиться LLM, а ще зробить ще швидше і не потребуватиме стояти в черзі. Електронні черги в наші держоргани - то окремий сором, бо виявляється що в неї ще треба встигнути записатися, якщо не встиг - то не потрапив, бо “немає місць”. Для тих, хто вигадав електронну чергу з обмеженою кількістю місць буде окремий котел пеклі.

Але ви мабуть здогадалися, що я хочу донести ідею, що пора б це діло цифровувати/автоматизовувати якось по-нормальному, звільнивши величезну кількість ресурсів і заодно підвищивши якість державних послуг.

AI на основі LLM тут дійсно вже хоч сьогодні можна застосовувати - читати/писати документи воно вміє і в багатьох випадках зробить це ще й краще за типового державного чиновника, особливо в питанні якості наданих послуг.

Але питання - яку ми для цього використаємо LLM? Мабуть не зовсім доречно для такого проєкту дьоргати API OpenAI чи Google, чи не дай боже, Grok? А може візьмемо щось з опенсорсу, а що там у нас зараз модне - DeepSeek? Отож і воно. Всі існуючі моделі певним чином цензуровані і упереджені, і брати готову для такої задачі без хоча б мінімального доопрацювання - не найкращий варіант.

Виходить що було б непогано мати якусь свою LLM, навіть не створену з нуля, хоча б на основі LLama, тим більше що вона не має бути найрозумнішою (і відповідно найдорожчою) в світі, можна обмежитися тими ж інвестиціями і загальними підходами, за які всі хвалили DeepSeek. Головне щоб щоб дані для тренування ми проконтролювали, використали нашу нормативно-правову базу і переконалися що ніякі бекдори ніхто не заклав. І тут виникає питання - чи можливо це зробити за приватні гроші. Технічно можливо, але чи доречно?

Тут швидше ні, бо є певні речі, які держава має робити сама. Це армія, податкова/митна служба, національний банк, правоохоронна/судова система, механізми реалізації зовнішньої політики і т.д. І на моє глибоке переконання, якщо ми запускаємо AI в роботу держави, то вона також має бути зроблена державою, натренованою на наших законах, а не китайських чи американських. І на відповіді коректно відповідати відповідно до наших доктрин, а не якихось чужих. І її не мають робити робити ніякі приватні підрядники, бо важливість цієї системи буде на рівні з усіма іншими атрибутами держави, які були перечислені раніше.

Тому ідея це абсолютно правильна, але все залежить від нюансів реалізії. Тут можна зробити гарно, або як завжди. Подивимося що з того вийде, але критикувати ідею я б не поспішав.

1.9k 0 10 13 38

Про AI агенти

В жовтні минулого року у виступі на IT Forum 2024 про майбутнє Software Engineering я говорив, що ми лише наближаємося до ери AI-агентів, але з того часу минулого лише три місяці як можна впевнено сказати, що вона наступила.

Якщо говорити про інструменти для розробників, то в онлайн-сервісах, таких як Repl.it/bolt.new/v0 агенти з’явилися вже більш ніж півроку тому, але в популярні IDE їх завезли пізніше - agent mode з’явився в Cursor ще в листопаді минулого року, а аналогічну фічу в Github Copilot MS додала лише кілька днів тому. Але агенти є і в продуктах для масс-маркету, наприклад, режим Deep Research чи Operator в ChatGPT - це теж агенти.

Тому агенти зараз - next big thing в AI. Але чим AI-агент відрізняється від “звичайного AI” такого як чати з LLM-моделями? Насправді агенти не є чимось кардинально іншим, бо у якості “мозку” використовують LLM-моделі, але у них є буквально дві ключові особливості, що дозволяють набути їм принципово інших можливостей:

1. Робота виконується в циклі, умовою завершення якого є досягнення поставленої мети (або неможливість її виконання, чи вихід за межі лімітів по часу/кількості ітерацій). Грубо кажучи, ми ставимо задачу, і LLM виконує її покроково в циклі, де результат попередньої ітерації стає відправною точкою для наступної.
2. Агент має доступ до інструментів, такі як пошук інформації, виконання якихось дій і т.д. - в принципі, це може бути будь-який API. Викликати інструменти агент буде за потреби, якщо сам вважатиме це за потрібне.

Із ключового - все. На практиці, звичайно, є багато нюансів як такі рішення можна побудувати. Наприклад, агент може бути не один, а ціла їх команда зі своєю спеціалізацією, де паралельно можуть використовуватися різні інструменти та LLM. Також для реалізації таких рішень можуть бути використані різні архітектури, наприклад, найпростіша - ReAct, яка фактично відповідає виклику інструментів в циклу і “прогон” результатів через LLM, але вона не здатна “мислити” довгостроково, тому можна додавати планування, пам’ять і т.д. і т.п.

Цікаво, що поточний етап розвитку не просто не виключає human in the loop, а швидше передбачає його, щоб роботу агента можна було б покоригувати по ходу, або залучити людину для прийняття важливих рішень. Думаю що в найближчий час це і буде оптимальним сценарієм побудови агентів. А люди мають вчитися співпрацювати з ними, це і буде win-win.

Також багато стартапів вже намагаються зробити свого найкращого агента (чи їх команду) під конкретні задачі (по прикладу того ж AI-software engineer Devin). І конкуренція тут буде дуже жорсткою - тільки один агент виявиться кращим за іншого, як відразу гроші опиняться у його творців, бо замінити одного агента на іншого можна за лічені хвилини, не те що зі звільненням/наймом людей возитися 🙂


Святкуєте?


7. Як запустити DeepSeek локально?
Якщо говорити про оригинальну повну модель, то тут все непросто, бо її розмір більше 700Gb. Щоб вона працювала, її треба помістити в оперативну пам’ять GPU/CPU, і ще мати певний запас вільної пам’яті (він буде залежати від того, наскільки велике контекстне вікно хочемо використовувати), тому рекомендований обсяг пам’яті - від 768 Gb.
В ідеалі було б гарно щоб модель вміщалася в пам’ять GPU, тоді вона буде працювати найшвидше, але GPU з таким обсягом RAM будуть коштувати від $100k+, що доступно далеко не всім навіть бізнес-користувачам.
Але оскільки у цієї моделі архітектура MoE і для видачі токену активуються не всі параметри, а лише 5% від них, а це означає, що для отримання результату треба менше обчислень, то вона непогано показує себе і на CPU, треба лише зібрати машину з великим обсягом RAM, що можна зробити витративши порядка $6K, що вже виглядає ніяк не захмарно. Ось є гайд, але я особисто перевірити не мав можливості, хто має - прокоментуйте. https://rasim.pro/blog/how-to-install-deepseek-r1-locally-full-6k-hardware-software-guide/

А от якщо говорити про “дистильовані” варіанти моделі, то тут є варіанти під різне залізо, вони, звичайно, не обіцяють такий же результат, як оригінальна, але загалом працюють непогано, бо “мислячий механізм” у них присутній. Я запускаю їх з LM Studio, є ще інші варіанти, наприклад, ollama. Особисто в мене досить швидко і якісно працює варіант на основі LLama 8B. До речі, в LM Studio є можливість вивантажувати частини моделі в пам’ять GPU та CPU одночасно, що дозволяє поекспериментувати з достатньо великими моделями. Про локальне використання моделей, у тому числі можливістю використання API у мене є відео на каналі. https://youtu.be/WcIghZD9QhI

Також найменша дистильована модель на основі Qwen 1.5B важить всього 1.3 Gb, то можна навіть запустити в браузері за допомогою transformers.js, працює навіть на смартфоні, ось відео з мого дев’ятого пікселя, виглядає цікаво https://www.youtube.com/shorts/QzDZHZwcNB0

Отже, у якості короткого підсумку: модель цікава, але з нюансами, тому ховати американські компанії зарано, а на фоні падіння акцій nVidia я би радив прикупити, і підписку на ChatGPT теж відміняти зарано :)

3k 0 20 7 40

4. Чи це справжня open source модель?
Ні, це не так. Хоча DeepSeek опублікували під ліцензією MIT, відкрили архітектуру, описали процес тренування і т.д. Вони не відкрили найважливіше - дані, на яких модель тренувалася. Але в умовах коли моделі між собою схожі по своїй будові, то найважливішою складовою, що їх розрізняють є дані. Тому без відкриття всіх даних для тренування на мій погляд не можна назвати модель повністю open source, бо по факту нам дали чорну скриньку, яка яка мінімум відповідає узгоджено з політикою китайської компартії, але що вона ще таїть в собі ніхто не знає крім її розробників. Уявіть чисто гіпотетичну ситуацію, що хтось збудував навколо цієї моделі агента, що керує розумним будинком, фінансами і т.д., але в якийсь момент з’являється користувач, що дає спеціальну команду, яка переводить його в режим бога і дає повний контроль над агентом. Інший сценарій - якщо ми генеруємо з моделлю програмний код якихось криптоалгоритмів, авторизації і т.д., то в принципі ніщо не забороняє акуратно туди заінжектити потрібні вразливості. Ми не знаємо, чи є щось подібне в DeepSeek і чи не з’явиться у майбутньому. Але точно знаємо, що видає китайську пропаганду, у тому числі й не на користь України.

5. Чи безпечно користуватися мобільною апкою та китайським сервісом DeepSeek?
Якби мені зараз бюджет десь в $40-50 млрд і попросили отримати контроль над світовою інформацією та людськими думками з перспективою світового домінування, то я би купив якусь популярну соцмережу і додав би до неї безкоштовний AI-чат. Упс, здається я тут когось впізнаю… менше з тим - якщо бюджет скромніше, то почав би саме з безкоштовного AI-чату, бо через нього я би отримав величезний потік інформації для опрацювання з однієї сторони, а також міг би контрольовано просувати потрібні мені меседжі за рахунок “підтюненої” в моїх цілях моделі.
Також я думаю всім зрозуміло, що ставити на свої мобільні пристрої будь-які аплікації, до яких немає високої довіри - то не є достатньо розумно. Як і відправляти будь-які більш менш цінні дані в будь-який сервіс за межі своїх пристроїв. Про спотворені результати видачі я писав в попередньому пункті. Тому висновки робіть самі.

6. Як безпечно користуватися DeepSeek?
Тим не менше, користуватися моделлю без ризиків втрати даних можна - це якщо запускати її локально у себе чи десь у хмарах, до яких у нас є більше довіри. Про локальний запуск поговоримо окремо, а стосовно хмарних сервісів, то вона вже є на Azure, Vercel, Together.ai, щойно анонсувала її підтримку nVidia - кількість провайдерів буде лише зростати. Зверніть увагу, що є різні варіанти моделі - є оригинальна на 671 млрд параметрів, а є так звані “дистильовані” (distilled) її варіанти, які являють собою файн-тюнинг інших моделей - Llama, Qwen за допомогою оригінальної DeepSeek, і на сервісі Groq.com наприклад, оригінальна модель поки не доступна, є лише дистильований варіант на основі Llama 3.3 на 70 млрд параметрів. Також у моделей можуть бути різні варіанти квантування (quantization), які визначають кількість бітів на один параметр, від цього буде залежати її розмір, швидкість роботи і звичайно результат. Звичайно, що найкращі результати по якості відповідей буде показувати саме оригінальна модель, всі інші - то компроміс.


DeepSeek R1 Гайд / FAQ

Схоже ситуація з діпсіком вийшла з під контролю і стала схожа на параною. Інформації повно - коректної не завжди, тому зробив невеликий Гайд/FAQ по темі.

1. Я все проспав, можете пояснити що відбувається?
20-го січня 2025 року китайська компанія DeepSeek випустила під open source ліцензією MIT LLM “думаючу” модель DeepSeek R1, яка за їх тестами на рівні, а то й розумніша за найкращу публічно доступною на той момент моделлю o1 від OpenAI. Автори моделі запустили також безкоштовний сервіс і мобільну аплікацію з доступом до моделі на їх хостингу, а також свій власний API, ціни на використання якого в десятки разів нижчі, ніж в моделі o1.
Додатково до моделі розробники також описали її архітектуру та підходи до побудови, які виявилися достатньо інноваційними, зокрема вони використали так зване “підкріплене навчання” (Reinforcement Learning), що дозволило моделі покращуватися в автоматичному режимі.
На фоні колосального зростання популярності моделі (мобільна аплікація очолила рейтинг Apple Store), гарних показників роботи моделі, а також дешевизни її використання і тренування, американський фондовий ринок спіткав “Sputnik moment” (аналогія з запуском радянського супутника), і він колосально обвалився на суму понад 1 трлн долл, особливо постраждали high-tech компанії пов’язані з AI, такі як OpenAI та nVidia.

2. Що таке “думаюча” (thinking) модель і чи вона мені завжди потрібна?
На своїх виступах про ШІ я часто пояснюю аналогію відповідно до теорії Даніеля Канемана між мисленням швидким (інтуітивним) і повільним (розважливим) у людини та LLM. Так от, LLM як просто AI-модель не має режиму повільного розважливого мислення, яке є у людини, вона просто видає результат токен за токеном. Тим не менше, такий режим можна зімітувати за допомогою спеціальних технік, зокрема техніки запитів ланцюжок думок (chain of thought prompting), ітеративної генерації та самокорекції, використання дерева думок і т.д.
Думаюча модель добитися кращих результатів для складних задач, однак насправді не завжди потрібна, бо виходить дорожчою і повільнішою за “звичайні” моделі. І якщо з якоюсь задачею гарно справляється модель звичайна, то вона і буде найкращим вибором.

3. Чи це найрозумніша в світі модель?
Ні, не найрозумніша. Якщо прямо зараз зайти на тести на lmarena.ai, то в загальному рейтингу перед нею три моделі - дві від Google, одна від OpenAI. Також вчора вийшла модель o3 mini, ще немає її в рейтингах, але з того що я встиг перевірити, її робота мені більше подобаєтся за DeepSeek. Особливість DeepSeek - архітектура MoE (Mixture of Experts), яка має плюси і мінуси. Плюс в тому що вона дуже швидка, бо для запиту активується лише 37 млрд параметрів з загальної кількості у 671 млрд. Мінус слідує також з цього - коли модель використовує лише 5% від загальної кількості параметрів, то і результати не завжди є стабільно високими. З мого власного досвіду використання підтверджую, що результати роботи топових моделей OpenAI та Google мені подобаються більше, вони значно стабільніші по якості.


DeepSeek R1

https://www.youtube.com/shorts/QzDZHZwcNB0?feature=share

Схоже в світі OpenSource LLM намалювався новий лідер - DeepSeek.

Відразу дісклеймер: нажаль це китайська компанія з усіма “нюансами”, зокрема, на політичні питання відповідає упереджено, і якщо будете використовувати як сервіс, то трохи обережно з даними, просто пам’ятайте про це.

Відомими вони стали ще в 2023, коли випустили DeepSeek Coder - дуже непогану відкриту модель для написання коду, але самою топовою вона не була, хоча своїх прихильників знайшла.

Однак минулого місяця вони випустили чергову відкриту модель DeepSeek V3, яка обійшла в загальних тестах всі відкриті моделі і вийшла на рівень топових комерційних. Прямо зараз я заглянув рейтинг моделей на lmarena.ai, і вона там на сьомому місці в загальних задачах.

Модель цікава тим, що використовує архітектуру MoE - Mixture of Experts (така ж сама була Mixtral, про яку я писав десь рік тому). Спрощено архітектуру можна пояснити як не одну монолітну модель, а набір менших спеціалізованих моделей, які обираються для формування відповіді, і відповідно для цього треба менші потужності, ніж для “монолітних” моделей. Відповідно з загальної кількості в 671 млрд параметрів моделі для кожного токена активується лише 37 млрд.

Проте кілька днів тому вони випустили ще одну модель DeepSeek R1 (“R” в назві від слова “reasoning” - “мислення”). Вона близька до V3, має MoE архітектуру і 685 млрд параметрів, але налаштована на “мислення” схожим способом як це робить o1. І це взагалі прорив у світі AI, бо ця модель на рівні з найкращими моделями о1 від Open AI та Gemini 2 Flash Thinking від Google. Але при цьому вона повністю відкрита, доступна по ліцензії MIT, її можна скачати і запустити в LM Studio наприклад.

Але це не все - є її зменшений “дистильований” варіант лише на 1.5 млрд параметрів, яка в математичних задачах переважає GPT-4o та Claude 3.5 Sonnet, але при цьому є настільки маленькою, що запускається навіть в браузері на смартфоні. Власне як вона вирішує квадратне рівняння на моєму дев’ятому складаному пікселі я вам записав. Сам файл моделі на 1.2 Гб треба спочатку загрузити, потім він береться з кешу. Стартує з 10 токенів на секунду, потім трохи сповільнюється як смартфон починає грітися. Для порівняння - на геймерському лептопі з RTX4090 видає 40 токенів на секунду - вчетверо швидше, але лептоп більший і важчий більш ніж вчетверо. На відео реальна швидкість виконання, відео без редагування.

Запускаємо звідси https://huggingface.co/spaces/webml-community/deepseek-r1-webgpu

PS. До речі, мені цікаво як воно працює на інших апаратах, наприклад, на iPhone 14 Pro Max не йде взагалі. Закидайте свої тести в коментарі :)





2k 0 11 11 21



Тут кілька знакових подій для розробників в світі AI

Перше - MS зробила GitHub Copilot безкоштовним. Платна версія теж є, більш продвинута, але для окремих задач безкоштовної цілком має вистачати. У мене саме закінчилася платна підписка на рік, то поки не буду продовжувати, скористаюся безкоштовним Copilot, тим більше що зараз я більше пишу код у Cursor, а також почав використовувати Windsurf і в обох цих IDE інтеграція AI виглядає більш цікавою, ніж у Copilot.

Тим не менше, користуватися Copilot обов’язково буду, і в нього є козирна фіча - він інтегрований напряму з гітхабом, відповідно у веб-інтерфейсі гітхабу ви можете його відкрити і “початитися” - це може бути корисно щоб задати питання по якомусь конкретному репозиторію чи пулл ріквесту. Також я люблю користуватися GitHub Codespaces - особливо зручно якусь репку відкрити чи лібку потестити без ризику собі на комп’ютер сміття чи трояна скачати. І там Copilot ставиться за 10 секунд, це реально зручно. Не виключаю що платну підписку теж продовжу якщо безкоштовної бракуватиме.

І звичайно багато шуму наробив анонс нової моделі o3 від OpenAI. Вона значно “розумніша” за попередні, і це особливо видно в задачах з Software Engineering - в бенчмарку SWE Bench Verified, що складається з типових реальних тасок, вона начебто набирає 71.2%, що на 16% за накращий результат, що там є сьогодні. Також вона зробила прорив в бенчмарку ARC AGI, що розроблений навмисно для ідентифікації можливостей AI до повторення когнітивних здібностей людини. В цьому тесті найкращий результат для o3 склав 88%, а o1 набирала максимум 32%. Шкода, що модель поки недоступна публічно, і в неї ще є нюанс з вартістю, схоже вона потребує надзвичайно високих потужностей, невідомо скільки буде коштувати її використання.


Це вже реальність

2.8k 1 52 11 40

Які часи - такі й погрози

Показано 20 последних публикаций.