Hướng dẫn cách viết robot.txt đúng cách

Vấn đề về tạo file robots.txt đã chia sẻ trên internet rất nhiều, có thể hơi thừa để viết về bài này, tuy nhiên ở đâu đó với một số ai đó thì bài này chắc sẽ có ích.

robots-txt-seo

Giới thiệu về robots.txt

File robots.txt là gì? Đây là một file text, file văn bản bình thường, không chứa các đoạn code HTML hay PHP … nó được đặt ngay trong thư mục gốc của website bạn.

Khi bot tìm kiếm đến website bạn điều đầu tiên là nó sẽ tìm và đọc file robots.txt từ đây sẽ cho bot thấy được chổ nào của site bạn cần index hay nói cách khác là lưu thông tin để tìm kiếm, điều này sẽ tùy thuộc vào các cấu hình mà ta qui định trong file robots.txt

Điều này sẽ có lợi trong SEO, file robots.txt như là một nhân viên chỉ đường cho công cụ tìm kiếm khám phá site của bạn, sẽ dễ dàng và thuận lợi hơn và hiển nhiên như thế sẽ thân thiện với bot tìm kiếm hơn.

Cách cấu hình file robots.txt

Và bây giờ chúng ta sẽ cấu hình file chỉ đường này như thế nào. Có các vẫn đề cần chú ý như sau:

User-agent: googlebot
Disallow: /cgi-bin/

Giải thích:

User-agent: đó là tên của spider của công cụ tìm kiếm nào đó trong trường hợp trên là bot của google thì sẽ được index.
Disallow: Không cho phép các công cụ tìm kiếm truy cập vào, ví dụ trong trường hợp trên là không cho index thư những gì trong thư mục cgi-bin.
Điều này có ý nghĩa như thế nào? Nó giúp cho bạn không chế sự index của công cụ tìm kiếm, có khi bạn k muốn yahoo index, đôi lúc bạn không mún các file trong thư mục nào đó bị công cụ tìm kiếm thấy được, giúp khắc phục lỗi 404 trên web, tạo ra một sự tin tưởng đối với các search engine.

Bạn cũng có thể cho tất cả các công cụ tìm kiếm vào site mình index bằng cách khai báo file robots.txt như sau:

User-agent: *

Điều nên tránh khi tạo file robots.txt

1. Không chú thích:

Để dễ dàng hơn cho bot tìm kiếm bạn nên tạo một file robots.txt rõ ràng, trong sáng tránh trường hợp khai báo, chú thích lung tung dễ gây hiểu lầm, lừa tình bot tìm kiếm.

“Disallow: support # Đừng index nha bot”

2. Disallow đúng điệu:

Bạn muốn Disallow nhiều thư mục thì trong file robots.txt tránh khai báo nhọc nhằn làm nó không hỉu, ví dụ như:

User-agent: *
Disallow: /abc /tintuc/ /images/

Viết như thế thì nó sẽ k bít đâu nếu mún spider hỉu được thì bạn nên viết như sau:

User-agent: *
Disallow: /abc
Disallow: /tintuc/
Disallow: /images/

3. Phân biệt hoa thường:

Vấn đề này cũng nên chú ý nha các bạn bot đọc các lệnh trong robots.txt cũng phân biệt hoa thường rõ ràng, giả sử Disallow: /images/ mà viết Disallow: /Images/ thì nó sẽ pohand thôi.

4. Không đổi trật tự:

Đây là qui định bạn không nên thay đổi trật tự các dòng lệnh gây khó khăn cho các spider làm việc. Ví dụ:

Disallow: /abc
User-agent: *

Điều này sẽ không tốt, làm mất giá trị của file. Một lưu ý nữa là không nên viết có khoảng trắng ở đầu dòng lệnh.

robots.txt cho WordPress

Bây giờ chúng ta sẽ tạo file robots.txt cho blog WordPress nha các bạn, nó có các đặc trưng về thư mục Disallow…

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Allow: /*

Các thư mục đặt biệt thì ta sẽ Disallow nó đồng thời Allow: /wp-content/uploads vì đây sẽ chưa các hình ảnh liên quan chủ đề bài viết … rất có lợi khi search hình ảnh trên google.

Kết luận: Đôi lúc chúng ta cũng có vài thành phần không mún kẻ khác bít được thì robots.txt sẽ là một lựa chọn tốt, có lợi cho SEO. Bạn cần có một robots.txt trong sáng, rõ ràng để các spider của công cụ tìm kiếm dễ làm việc hơn.

Nguồn: http://bcdonline.net/

Tìm ở google:
  • cac lenh robots txt
Dương Triều Blog © 2016