Tentang / robots.txt
Singkatnya
Pemilik situs web menggunakan file / robots.txt untuk memberikan instruksi tentang situs web mereka untuk robot, ini disebut The Robot Exclusion Protocol.Ia bekerja menyukai ini: robot ingin vists URL situs Web, mengatakan http://www.example.com/welcome.html. Sebelum ia melakukannya, itu pengalaman pertama memeriksa http://www.example.com/robots.txt, dan menemukan:
User-agent: * Larang: /"User-agent: *" berarti bagian ini berlaku untuk semua robot. The "Disallow: /" menceritakan robot yang seharusnya tidak mengunjungi setiap halaman di situs.
Ada dua pertimbangan penting ketika menggunakan / robots.txt:
- robot bisa mengabaikan / robots.txt Anda. Terutama robot malware yang memindai web untuk kerentanan keamanan, dan pemanen alamat email yang digunakan oleh spammer tidak akan memperhatikan.
- file / robots.txt adalah file tersedia untuk umum. Siapapun dapat melihat apa bagian dari server Anda Anda tidak ingin menggunakan robot.
Lihat juga:
- Dapatkah saya memblokir hanya robot buruk?
- Mengapa robot ini mengabaikan saya / robots.txt?
- Apa implikasi keamanan dari / robots.txt?
Rincian
The / robots.txt adalah de-facto standar, dan tidak dimiliki oleh badan standar. Ada dua deskripsi sejarah:- asli 1994 A Standar Pengecualian Robot dokumen.
- tahun 1997 Internet Draft spesifikasi Metode A untuk Web Robot Kontrol
Standar / robots.txt tidak aktif dikembangkan. Lihat Bagaimana pengembangan lebih lanjut dari / robots.txt? untuk diskusi lebih lanjut.
Sisa dari halaman ini memberikan gambaran tentang bagaimana menggunakan / robots.txt pada server Anda, dengan beberapa resep sederhana. Untuk mempelajari lebih lanjut lihat juga FAQ .
Cara membuat file / robots.txt
Dimana untuk menempatkan
Jawaban pendek: dalam direktori top-level web server Anda.Jawaban lagi:
Ketika robot akan mencari "/ robots.txt" untuk URL, itu strip komponen jalur dari URL (semuanya dari garis miring single pertama), dan menempatkan "/ robots.txt" di tempatnya.
Sebagai contoh, untuk "http://www.example.com/shop/index.html, akan menghapus" / toko / index.html ", dan menggantinya dengan" / robots.txt ", dan akan berakhir dengan "http://www.example.com/robots.txt".
Jadi, sebagai pemilik situs web Anda harus meletakkannya di tempat yang tepat pada server Web Anda untuk itu URL yang dihasilkan untuk bekerja. Biasanya itu adalah tempat yang sama di mana Anda meletakkan utama "index.html" situs web Anda halaman selamat datang. Di mana tepatnya yaitu, dan bagaimana untuk menempatkan file di sana, tergantung pada perangkat lunak server web Anda.
Ingatlah untuk menggunakan semua huruf kecil untuk nama file: "robots.txt", bukan "robots.txt.
Lihat juga:
- Program apa yang harus saya gunakan untuk membuat / robots.txt?
- Bagaimana cara menggunakan / robots.txt pada virtual host?
- Bagaimana cara menggunakan / robots.txt pada host bersama?
Apa yang harus dimasukkan di dalamnya
The "/ robots.txt" file adalah file teks, dengan satu atau lebih catatan. Biasanya berisi satu catatan seperti berikut ini:User-agent: * Larang: / cgi-bin / Larang: / tmp / Larang: / ~ joe /Dalam contoh ini, tiga direktori dikecualikan.
Perhatikan bahwa Anda memerlukan terpisah "Disallow" baris untuk setiap awalan URL yang ingin Anda kecualikan - Anda tidak bisa mengatakan "Disallow: / cgi-bin / / tmp /" pada satu baris. Juga, Anda mungkin tidak memiliki baris kosong dalam catatan, karena mereka digunakan untuk membatasi beberapa catatan.
Perhatikan juga bahwa globbing dan ekspresi reguler tidak didukung baik dalam User-agent atau garis Disallow. The '*' dalam bidang User-agent adalah nilai khusus yang berarti "robot apapun". Khususnya, Anda tidak dapat memiliki baris seperti "User-agent: * bot *", "Disallow: / tmp / *" atau "Disallow: * gif.".
Apa yang Anda ingin mengecualikan tergantung pada server Anda. Semuanya tidak secara eksplisit dilarang dianggap permainan yang adil untuk mengambil. Berikut mengikuti beberapa contoh:
Untuk mengecualikan semua robot dari seluruh server
User-agent: * Larang: /
Untuk mengizinkan semua robot akses lengkap
User-agent: * Larang:(Atau hanya membuat "/ robots.txt" kosong berkas, atau tidak menggunakan satu sama sekali)
Untuk mengecualikan semua robot dari bagian server
User-agent: * Larang: / cgi-bin / Larang: / tmp / Larang: / junk /
Untuk mengecualikan robot tunggal
User-agent: BadBot Larang: /
Untuk memungkinkan sebuah robot tunggal
User-agent: Google Larang: User-agent: * Larang: /
Untuk mengecualikan semua file kecuali satu
Ini saat ini agak canggung, karena tidak ada "Allow" lapangan. Cara mudah adalah dengan meletakkan semua file yang akan dilarang ke dalam direktori terpisah, mengatakan "barang", dan meninggalkan satu file di tingkat di atas direktori ini:User-agent: * Larang: / ~ joe / stuff /Atau Anda dapat secara eksplisit melarang semua halaman dianulir:
User-agent: * Larang: / ~ joe / junk.html Larang: / ~ joe / foo.html Larang: / ~ joe / bar.html
Post a Comment
Write You comment here! Please...