Creating LLM as a Judge that drives business resultsНаткнулася на дуже класний покроковий гайд про створення LLM для перевірки результатів іншої LLM. Цікаво, що схожий підхід ми використовуємо в нашій команді, але я не думаю що то були аж настільки усвідомлені підходи.
Дуже раджу почитати, якщо ваша команда займається розробкою і використанням моделей, які генерують якийсь текст і його треба перевіряти "in bulk". Якщо коротко, робляться наступні кроки:
1. Створюємо тренувальний набір даних - вхідний запит, результат.
2. Знаходимо експерта в домені, який може дати відгук по цьому набору і просимо його пройтися по даним
3. Тюнимо Judge LLM, поки результати не зійдуться з критикою експерта. Важливо надавати приклади таких відгуків моделі як частину промпту.
4. Шукаємо критичні помилки в натренованій моделі. Якщо знайшли, повертаємося до першого кроку.
Оригінальний лонгрід з коментарями по кожному кроку і FAQ:
https://hamel.dev/blog/posts/llm-judge/#shared_link
#machine_learning