Cara Block User Agent Chat GPT dan Lainnya di Blogger

Sebagai pemilik situs, tentu tahun tahun ini kita sadar, bahwa ai sudah mengubah beragam pengalaman pengguna terhadap daya tarik terhadap artikel di blog. Banyak yang beralih ke yang lebih praktis dengan hanya memasukkan prompt, langsung mendapatkan jawaban... ya praktis memang karna sudah di rangkumkan sedemikian rupa, sehingga akan menghilangkan beragam kata yang tidak dibutuhkan atau kalau jaman dulu itu biasa disebut basa - basi. 

Dulu blog itu berasa kayak ngobrol dengan manusia karna adanya basa basi itu (jaman 2009an), tetapi seiring berjalannya waktu, interaksi berubah... :) jadi yang lebih singkat, padat dan jelas mulai banyak digandrungi (ini sebelum adanya popularitas ai generatif) lalu sebagai pemilik situs, tentu mengikuti ya supaya tetap mendapat traffic.

Setiap langkah seperti kejar kejaran, disisi lain kita harus survive, disisi lain ketika kita sangat antusias dengan suatu bidang tetapi tidak ada kemampuan disitu. Hehe, ada hal yang selalu membuat bangkit lagi itu adalah rasa suka berbagi pengetahuan itu... karna dengan itu kita bisa menanamkan ilmu itu dengan kuat di dalam diri kita. Aku merasakannya, ketimbang hanya sekedar seperti kita menerima perkuliahan, catat, sudah selesai abis itu lupa, tetapi dengan menerapkan, dan menuliskan ataupun cara berbagi lainnya, itu betul betul dapat meningkatkan tingkat pemahaman kita akan sesuatu.

Kadang aku berpikir, kayaknya enak kalo kehidupan terjamin, kita bisa belajar dan menimba pengetahuan dengan tenang dan lebih banyak...

Ya begitulah, dan tentu saat ini pemilik web / situs juga dihadapkan pada Web Crawler yang lebih terstruktur dan legal.. haha, ibarat kata suatu kelompok memiliki sumber daya, tapi belum ada isi, maka kita tidak memblokir OpenAI ChatGPT, GPTbot akan mendapatkan akses ke konten situs web untuk mempelajarinya dengan merayapi internet. Dengan merayapi situs web, GPTbot lalu mengekstrak data dan menggunakan data tersebut untuk melatih model bahasanya, yang memungkinkan GPTbot membuat teks, menerjemahkan bahasa, menulis berbagai jenis konten kreatif, dan menjawab pertanyaan berbasis pengguna dengan cara yang informatif. 

Jika ingin memblokir konten yang kita miliki agar tidak menjadi data pelatihan AI, Maka kita harus memperbarui robots.txt situs web atau blog.

Umumnya, semua pemilik situs web menggunakan robots.txt. Ini adalah file teks dasar yang memberi tahu perayap web halaman atau direktori mana di situs web kita yang boleh mereka akses dan yang tidak boleh mereka akses dengan menggunakan serangkaian instruksi.

Untuk memblokir ChatGPT Web Crawler agar tidak menggunakan konten situs web, kita dapat menambahkan dua baris berikut ke file robots.txt. Ini memberi tahu perayap bot ChatGPT bahwa ia tidak diizinkan mengakses laman atau kiriman mana pun di situs web yang kita miliki. Jika nanti lebih dari user agent, bisa dikasih baris untuk memisah.

Contoh :

# Model-training crawler. Opt-out jika tidak ingin di crawl GPT-4o or GPT-5.

User-agent: GPTBot
Disallow: /private/          # tidak boleh di folder private
Allow: /                     # anda boleh ambil

jadi jika kita pengen memperbolehkan tinggal Allow:/ 
sedangkan jika tidak ingin semuanya berarti tinggal Disallow:/


Untuk melakukan 




lalu aktifkan lah itu



Setelah itu klik pada robot.txt custom, dan isikan 



Lalu, simpan lah..



Walau demikian, kita tau bahwa ada banyak sekali bot crawl yang beterbaran, cara itu sebenarnya dulu juga dipakai untuk keperluan lain, terutama untuk menangkal, dan dengan banyaknya agent user yang merayapi secara otomatis saat ini di jaman ai, tentu itu hanya satu dari sekian banyak jika memang ingin tidak di crawl dan konten dijadikan bahan training...


Berikut ini beberapa  User-Agent AI Crawlers lainnya :


Layanan/Perusahaan User-Agent Keterangan Disallow robots.txt
OpenAI GPTBot Digunakan untuk melatih model GPT, mengakses konten publik. User-agent: GPTBot
OpenAI (ChatGPT plugins, API) ChatGPT-User Digunakan saat pengguna meminta crawling lewat ChatGPT. User-agent: ChatGPT-User
Anthropic (Claude) ClaudeBot Digunakan oleh Claude untuk crawling publik. User-agent: ClaudeBot
Google AI (Gemini) Google-Extended Versi AI dari Googlebot (menggunakan Googlebot dasar tapi bisa dikontrol dengan Google-Extended). User-agent: Google-Extended
CCBot (Common Crawl) CCBot Sumber data besar yang digunakan banyak model AI termasuk GPT, Claude, dll. User-agent: CCBot
Perplexity AI PerplexityBot Bot resmi dari Perplexity.ai, digunakan untuk menjelajah web saat menjawab pertanyaan. User-agent: PerplexityBot
You.com YouBot atau youBot Digunakan oleh mesin pencari dan AI mereka. User-agent: YouBot
Neeva AI (tidak aktif, tapi sempat digunakan) Neevabot Dari mesin pencari Neeva sebelum diakuisisi. User-agent: Neevabot
Amazon Bot (AI / Alexa) Amazonbot Bisa digunakan untuk Alexa atau pelatihan model internal. User-agent: Amazonbot
AppleBot (Siri / AI) Applebot Digunakan oleh Siri dan fitur pencarian AI Apple. User-agent: Applebot
DuckDuckGo DuckDuckBot Digunakan untuk indexing dan AI summarization. User-agent: DuckDuckBot
Meta (Facebook) facebookexternalhit Digunakan untuk scraping preview link dan pengambilan konten AI. User-agent: facebookexternalhit
Bing / Copilot (Microsoft) bingbot, BingPreview, msnbot Dipakai oleh Bing dan Copilot AI. User-agent: Bingbot, BingPreview


Caranya ya sama, jika tidak ingin di crawl..


User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Neevabot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Applebot
Disallow: /

User-agent: DuckDuckBot
Disallow: /

User-agent: facebookexternalhit
Disallow: /

User-agent: bingbot
Disallow: /

User-agent: BingPreview
Disallow: /



Tapi ya kembali lagi bro, kalo aku sendiri, ya sudahlah mau gimana lagi, sekarang memang sudah seperti itu kan.. dan jikalaupun tidak bersumber dari kita pun juga, masih banyak juga lainnya yang bisa dijadikan sebagai bahan training untuk menjadikan model yang lebih baik... tetapi sebenarnya inti dari artikel ini adalah bukan ke konten kita dijadikan bahan training ai, tetapi lebih ke jika kita membangun sebuah web, mungkin ada informasi sensitif disana, maka kita bisa menghalangi si AI BOT CRAWL tersebut merayapi dan menjadikan sebagai bahan taining... dengan kata lain hal itu bisa kita manfaatkan agar agen user tidak bisa akses sesuatu yang private atau yang tidak boleh di crawl seperti itu... 


Selebihnya Ya kita ambil hikmahnya aja sebagai simbiosis mutualisme... 


Termasuk Google juga kan,,  😄😄😄





Posting Komentar

Untuk posting kode, bisa di parse dulu gan, pake tool parse yang udah disediakan di website ini https://www.rahmancyber.net/p/parse-code.html

agar kodenya tidak hilang... ^_^

Lebih baru Lebih lama

نموذج الاتصال