Машинне навчання та освіта в Україні: що робитиму?
Під час моніторингу ворожого академічного простору я побачив нотатку про те, що на росії студент захистив диплом, майже повністю написаний за допомогою ChatGPT. Це інструмент, заснований на машинному навчанні (ML), який може генерувати текст, схожий на людський, на основі наданих вхідних даних. До речі, останнє речення було згенеровано саме ним. Ось тут можна прочитати детальніше:
матеріал Speka.
В цілому, діалог про його етичне використання зараз йде в усьому світі, й для української освіти це також актуально через наступні три тези.
1. Інструменти, які допомагають писати тексти, існують вже давно.
У тому числі засновані на ML: Grammarly (🇺🇦), Quillbot, etc. Є бібліотеки з NLP (natural language processing), які дозволяють будувати дуже потужні моделі, якщо приготувати адекватні тренувальні набори даних. В мене був досвід будування моделі з Python scikit-learn для класифікації статей в гепатології та генерації висновку про ключові знахідки. Модулю, який я для цього використовував, вже понад 10 років.
2. Студенти їми користувалися та будуть користуватися.
Так само як, наприклад, перекладачами, або автокоректорами тексту. Проте, виникає питання: чи є це проблемою? Щобільше, я сам використовую ML інструменти під час написання наукових статей і це значно покращує якість формулювань - й, відповідно, те, наскільки легко іншим людям буде читати текст. На мій погляд, це - неминуча побічна дія прогресу.
3. Є інструменти з використанням ML, що з певною ймовірністю розпізнають текст написаний іншою ML.
Кожного разу, коли з'являється дуже популярний ML-інструмент для обробки зображень, генерації тексту й т.п., IT-спільнота створює інструменти, які вчаться на їх стандартних "патернах". Для ChatGPT вже є такі, наприклад, GPTZero.
Тому найбільш ймовірними для навчальних установ я бачу два шляхи:
А) Заборона використання ML для навчальних проєктів, включення розпізнавальних програм до стандартного набору перевірок (поруч з антиплагіатом, наприклад).
Б) "Публічний договір" щодо етичного використання ML для навчальних проєктів, можливо десь регуляція: наприклад, можна для опису методів та допомозі у формулюванні результатів, але для введення та висновків - ні.
Скоріше за все, кожен інститут, країна та науковий журнал будуть обирати свій варіант й буде певний хаос. Варіант Б я бачу гіпотетично більш популярним. Дослідити використання ML у 100% випадках, по-перше, не вдасться, по-друге - розпізнавання може працювати добре на популярні інструменти, тоді як ніхто не заважає зробити свій "приватний". Разом з тим, цей варіант, як на мене, виглядає занадто ліберально для більшості українських установ (взагалі цікаво, чи кожна вчена рада зможе зрозуміти суть проблеми?). Проте, позиція повинна бути і якнайшвидше. Її відсутність веде до непрозорості та ризиків вибіркового відношення до таких робіт.
Питання про те, яке використання є (не)етичним, поки що не є вирішеним.