Cara Block User Agent Chat GPT dan Lainnya di Blogger

Sebagai pemilik situs, tentu tahun tahun ini kita sadar, bahwa ai sudah mengubah beragam pengalaman pengguna terhadap daya tarik terhadap artikel di blog. Banyak yang beralih ke yang lebih praktis dengan hanya memasukkan prompt, langsung mendapatkan jawaban... ya praktis memang karna sudah di rangkumkan sedemikian rupa, sehingga akan menghilangkan beragam kata yang tidak dibutuhkan atau kalau jaman dulu itu biasa disebut basa - basi.

Dulu blog itu berasa kayak ngobrol dengan manusia karna adanya basa basi itu (jaman 2009an), tetapi seiring berjalannya waktu, interaksi berubah... :) jadi yang lebih singkat, padat dan jelas mulai banyak digandrungi (ini sebelum adanya popularitas ai generatif) lalu sebagai pemilik situs, tentu mengikuti ya supaya tetap mendapat traffic.

Setiap langkah seperti kejar kejaran, disisi lain kita harus survive, disisi lain ketika kita sangat antusias dengan suatu bidang tetapi tidak ada kemampuan disitu. Hehe, ada hal yang selalu membuat bangkit lagi itu adalah rasa suka berbagi pengetahuan itu... karna dengan itu kita bisa menanamkan ilmu itu dengan kuat di dalam diri kita. Aku merasakannya, ketimbang hanya sekedar seperti kita menerima perkuliahan, catat, sudah selesai abis itu lupa, tetapi dengan menerapkan, dan menuliskan ataupun cara berbagi lainnya, itu betul betul dapat meningkatkan tingkat pemahaman kita akan sesuatu.

Kadang aku berpikir, kayaknya enak kalo kehidupan terjamin, kita bisa belajar dan menimba pengetahuan dengan tenang dan lebih banyak...

Ya begitulah, dan tentu saat ini pemilik web / situs juga dihadapkan pada Web Crawler yang lebih terstruktur dan legal.. haha, ibarat kata suatu kelompok memiliki sumber daya, tapi belum ada isi, maka kita tidak memblokir OpenAI ChatGPT, GPTbot akan mendapatkan akses ke konten situs web untuk mempelajarinya dengan merayapi internet. Dengan merayapi situs web, GPTbot lalu mengekstrak data dan menggunakan data tersebut untuk melatih model bahasanya, yang memungkinkan GPTbot membuat teks, menerjemahkan bahasa, menulis berbagai jenis konten kreatif, dan menjawab pertanyaan berbasis pengguna dengan cara yang informatif.

Jika ingin memblokir konten yang kita miliki agar tidak menjadi data pelatihan AI, Maka kita harus memperbarui robots.txt situs web atau blog.

Umumnya, semua pemilik situs web menggunakan robots.txt. Ini adalah file teks dasar yang memberi tahu perayap web halaman atau direktori mana di situs web kita yang boleh mereka akses dan yang tidak boleh mereka akses dengan menggunakan serangkaian instruksi.

Untuk memblokir ChatGPT Web Crawler agar tidak menggunakan konten situs web, kita dapat menambahkan dua baris berikut ke file robots.txt. Ini memberi tahu perayap bot ChatGPT bahwa ia tidak diizinkan mengakses laman atau kiriman mana pun di situs web yang kita miliki. Jika nanti lebih dari user agent, bisa dikasih baris untuk memisah.

Contoh :

# Model-training crawler. Opt-out jika tidak ingin di crawl GPT-4o or GPT-5.

User-agent: GPTBot
Disallow: /private/ # tidak boleh di folder private
Allow: / # anda boleh ambil

jadi jika kita pengen memperbolehkan tinggal Allow:/
sedangkan jika tidak ingin semuanya berarti tinggal Disallow:/

Untuk melakukan

lalu aktifkan lah itu

Setelah itu klik pada robot.txt custom, dan isikan

Lalu, simpan lah..

Walau demikian, kita tau bahwa ada banyak sekali bot crawl yang beterbaran, cara itu sebenarnya dulu juga dipakai untuk keperluan lain, terutama untuk menangkal, dan dengan banyaknya agent user yang merayapi secara otomatis saat ini di jaman ai, tentu itu hanya satu dari sekian banyak jika memang ingin tidak di crawl dan konten dijadikan bahan training...

Berikut ini beberapa User-Agent AI Crawlers lainnya :

Layanan/Perusahaan	User-Agent	Keterangan	Disallow robots.txt
OpenAI	`GPTBot`	Digunakan untuk melatih model GPT, mengakses konten publik.	`User-agent: GPTBot`
OpenAI (ChatGPT plugins, API)	`ChatGPT-User`	Digunakan saat pengguna meminta crawling lewat ChatGPT.	`User-agent: ChatGPT-User`
Anthropic (Claude)	`ClaudeBot`	Digunakan oleh Claude untuk crawling publik.	`User-agent: ClaudeBot`
Google AI (Gemini)	`Google-Extended`	Versi AI dari Googlebot (menggunakan Googlebot dasar tapi bisa dikontrol dengan `Google-Extended`).	`User-agent: Google-Extended`
CCBot (Common Crawl)	`CCBot`	Sumber data besar yang digunakan banyak model AI termasuk GPT, Claude, dll.	`User-agent: CCBot`
Perplexity AI	`PerplexityBot`	Bot resmi dari Perplexity.ai, digunakan untuk menjelajah web saat menjawab pertanyaan.	`User-agent: PerplexityBot`
You.com	`YouBot` atau `youBot`	Digunakan oleh mesin pencari dan AI mereka.	`User-agent: YouBot`
Neeva AI (tidak aktif, tapi sempat digunakan)	`Neevabot`	Dari mesin pencari Neeva sebelum diakuisisi.	`User-agent: Neevabot`
Amazon Bot (AI / Alexa)	`Amazonbot`	Bisa digunakan untuk Alexa atau pelatihan model internal.	`User-agent: Amazonbot`
AppleBot (Siri / AI)	`Applebot`	Digunakan oleh Siri dan fitur pencarian AI Apple.	`User-agent: Applebot`
DuckDuckGo	`DuckDuckBot`	Digunakan untuk indexing dan AI summarization.	`User-agent: DuckDuckBot`
Meta (Facebook)	`facebookexternalhit`	Digunakan untuk scraping preview link dan pengambilan konten AI.	`User-agent: facebookexternalhit`
Bing / Copilot (Microsoft)	`bingbot`, `BingPreview`, `msnbot`	Dipakai oleh Bing dan Copilot AI.	`User-agent: Bingbot`, `BingPreview`

Caranya ya sama, jika tidak ingin di crawl..

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Neevabot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: DuckDuckBot
Disallow: /
User-agent: facebookexternalhit
Disallow: /
User-agent: bingbot
Disallow: /
User-agent: BingPreview
Disallow: /

Tapi ya kembali lagi bro, kalo aku sendiri, ya sudahlah mau gimana lagi, sekarang memang sudah seperti itu kan.. dan jikalaupun tidak bersumber dari kita pun juga, masih banyak juga lainnya yang bisa dijadikan sebagai bahan training untuk menjadikan model yang lebih baik... tetapi sebenarnya inti dari artikel ini adalah bukan ke konten kita dijadikan bahan training ai, tetapi lebih ke jika kita membangun sebuah web, mungkin ada informasi sensitif disana, maka kita bisa menghalangi si AI BOT CRAWL tersebut merayapi dan menjadikan sebagai bahan taining... dengan kata lain hal itu bisa kita manfaatkan agar agen user tidak bisa akses sesuatu yang private atau yang tidak boleh di crawl seperti itu...

Selebihnya Ya kita ambil hikmahnya aja sebagai simbiosis mutualisme...

Termasuk Google juga kan,, 😄😄😄

Cara Block User Agent Chat GPT dan Lainnya di Blogger

Posting Komentar

Referensi Layout Desain ( Sheet ) Ukuran Wallpaper Desktop

Part of Network

Hiburan

Popular Posts

Referensi Layout Desain ( Sheet ) Ukuran Wallpaper Desktop

Problematika Spam Score pada Domain Blog atau Website terhadap SERP

Cara Mendaftar Domain ccTLD .ID Negara Indonesia dan Secondary Level

Latest Posts

نموذج الاتصال