✅ Артем Пилипець - "Чому ви не знаєте, що ваш контент вкрали"
👉 Доповідь: https://www.youtube.com/watch?v=UVYsgSFqC0o
👉 Презентація: https://nazahid.com/speakers/artem-pilipecz/
Деякі люди не завжди розуміють чому крадіжка контенту є проблемою. Google багато уваги приділяє цінності контенту і завжди звертає увагу на плагіат. Тому, такі сторінки будуть просідати, бо не несуть інформаційної цінності на думку Google.
Просто перевірити унікальність яким-небудь доступним вам сервісом — недостатньо. Артем з командою проводили багато тестів та виявили, що багато сервісів провалюють найпростіші перевірки. Часто сервіси показували, що контент унікальний, хоча він був взятий просто з інтернету. Деякі сервіси провалюють вже першу перевірку, деякі — кожну третю чи п’яту.
Інший цікавий тест: Вони брали фрагменти тексту з сайту Tripadvisor та збирали в один текст. Цей текст провалили навіть ті сервіси, які пройшли перший тест
Посилання на сторінку де ці результати можна перевірити самим: https://candy-content.com/uniq-result/d4080c8f-6ff9-4bab-8f0f-7642701a6e82/
✔️ Чому так відбувається?
Потрібно розуміти, як працюють сервіси для перевірки тексту. Спочатку береться фрагмент тексту та по ньому проводиться пошук у вебі. Пошук знаходить копії та порівнює їх і таким чином, отримується відсоток збігів.
Проте, такого підходу недостатньо. Три основні проблеми:
- Задовгі фрагменти.
- Мала кількість фрагментів для перевірки в пошуку.
- Відсутність аналізу мови.
Багато сервісів найкраще працюють з англійською мовою. В роботі з іншими мовами, вони не враховують синтаксис та особливості конкретної мови, що не дає адекватного результату.
Для того, щоб відшукати скопійовані фрагменти, потрібно взяти достатньо довгу фразу у 20-30 слів. Проте, це збільшує можливість помилки. Якщо шукати текст маленькими фразами, то зникає баланс між якістю, швидкістю, та ціною.
Якщо шукати кожні 5 слів тексті, то потрібно буде зробити дуже багато запитів для алгоритму. Це значно збільшить ціну перевірки та час. Врешті решт, це може привести до результату з тисячами потенційних дублікатів.
Якщо контент скопійований лише частково, то велика ймовірність, що сервіс не знайде дублікатів. Це стається через те, що багато сайтів обмежують доступ стороннім ботам та парсерам загалом. Вони також підміняють контент, коли це стосується сторонніх ботів. Таким чином, контент не отримується та плагіат не може бути знайдений.
Також, коли сервіс перевіряє плагіат, він робить багато запитів. І ці запити потрібно прорендерити, що вимагає величезних потужностей.
✔️ Чому це небезпечно?
Треба розуміти, що ця проблема накопичується і вона доволі велика. Приклад: 19.1% всіх сайтів використовують Clouflare. Ось посилання на цю статистику:
https://w3techs.com/technologies/details/cn-cloudflare
Це означає, що якщо контент буде скопійований з такого сайту, стандартні сервіси перевірки унікальності просто не знайдуть його.
Навіть, якщо ви не знаєте, що ваш контент вкрали, Google Про це знає і ви можете отримати негативні наслідки такі, як часткова втрата позицій. У Google є поняття основної копії (той, хто ранжується першим), але важливість цих копій може з часом змінюватись з різних причин. Таким чином можна випасти з індексу та більш ймовірно потрапити під апдейти, які тривають протягом останнього року.
Також варто відстежувати плагіат контенту через лінки. Якщо ви не знаєте всіх своїх копій, ви недоотримуєте посилання.
Якщо хочете дізнатися більше про крадіжку контенту та перевірку унікальності — дивіться доповідь Артема Пилипця!
👉 Доповідь: https://www.youtube.com/watch?v=UVYsgSFqC0o
👉 Презентація: https://nazahid.com/speakers/artem-pilipecz/
👉 Доповідь: https://www.youtube.com/watch?v=UVYsgSFqC0o
👉 Презентація: https://nazahid.com/speakers/artem-pilipecz/
Деякі люди не завжди розуміють чому крадіжка контенту є проблемою. Google багато уваги приділяє цінності контенту і завжди звертає увагу на плагіат. Тому, такі сторінки будуть просідати, бо не несуть інформаційної цінності на думку Google.
Просто перевірити унікальність яким-небудь доступним вам сервісом — недостатньо. Артем з командою проводили багато тестів та виявили, що багато сервісів провалюють найпростіші перевірки. Часто сервіси показували, що контент унікальний, хоча він був взятий просто з інтернету. Деякі сервіси провалюють вже першу перевірку, деякі — кожну третю чи п’яту.
Інший цікавий тест: Вони брали фрагменти тексту з сайту Tripadvisor та збирали в один текст. Цей текст провалили навіть ті сервіси, які пройшли перший тест
Посилання на сторінку де ці результати можна перевірити самим: https://candy-content.com/uniq-result/d4080c8f-6ff9-4bab-8f0f-7642701a6e82/
✔️ Чому так відбувається?
Потрібно розуміти, як працюють сервіси для перевірки тексту. Спочатку береться фрагмент тексту та по ньому проводиться пошук у вебі. Пошук знаходить копії та порівнює їх і таким чином, отримується відсоток збігів.
Проте, такого підходу недостатньо. Три основні проблеми:
- Задовгі фрагменти.
- Мала кількість фрагментів для перевірки в пошуку.
- Відсутність аналізу мови.
Багато сервісів найкраще працюють з англійською мовою. В роботі з іншими мовами, вони не враховують синтаксис та особливості конкретної мови, що не дає адекватного результату.
Для того, щоб відшукати скопійовані фрагменти, потрібно взяти достатньо довгу фразу у 20-30 слів. Проте, це збільшує можливість помилки. Якщо шукати текст маленькими фразами, то зникає баланс між якістю, швидкістю, та ціною.
Якщо шукати кожні 5 слів тексті, то потрібно буде зробити дуже багато запитів для алгоритму. Це значно збільшить ціну перевірки та час. Врешті решт, це може привести до результату з тисячами потенційних дублікатів.
Якщо контент скопійований лише частково, то велика ймовірність, що сервіс не знайде дублікатів. Це стається через те, що багато сайтів обмежують доступ стороннім ботам та парсерам загалом. Вони також підміняють контент, коли це стосується сторонніх ботів. Таким чином, контент не отримується та плагіат не може бути знайдений.
Також, коли сервіс перевіряє плагіат, він робить багато запитів. І ці запити потрібно прорендерити, що вимагає величезних потужностей.
✔️ Чому це небезпечно?
Треба розуміти, що ця проблема накопичується і вона доволі велика. Приклад: 19.1% всіх сайтів використовують Clouflare. Ось посилання на цю статистику:
https://w3techs.com/technologies/details/cn-cloudflare
Це означає, що якщо контент буде скопійований з такого сайту, стандартні сервіси перевірки унікальності просто не знайдуть його.
Навіть, якщо ви не знаєте, що ваш контент вкрали, Google Про це знає і ви можете отримати негативні наслідки такі, як часткова втрата позицій. У Google є поняття основної копії (той, хто ранжується першим), але важливість цих копій може з часом змінюватись з різних причин. Таким чином можна випасти з індексу та більш ймовірно потрапити під апдейти, які тривають протягом останнього року.
Також варто відстежувати плагіат контенту через лінки. Якщо ви не знаєте всіх своїх копій, ви недоотримуєте посилання.
Якщо хочете дізнатися більше про крадіжку контенту та перевірку унікальності — дивіться доповідь Артема Пилипця!
👉 Доповідь: https://www.youtube.com/watch?v=UVYsgSFqC0o
👉 Презентація: https://nazahid.com/speakers/artem-pilipecz/