Khi có một công cụ tìm kiếm thông tin trang blog/website của bạn, điều đầu tiên mà nó tìm kiếm hầu hết là file Robots.txt . File này có tác dụng j cho website của bạn? Hãy cùng tìm hiểu nhé.

Mẫu file robots.txt chuẩn cho webiste wordpress.
Contents
Mục đích của file Robots.txt là gì?
Khi có một công cụ tìm kiếm thông tin trang blog/website của bạn, điều đầu tiên mà nó tìm kiếm đến hầu hết là file Robots.txt. File Robots.txt nó có thể chỉ ra vị trí trang web của bạn trên XML Sitemap. Sau đó các công cụ tìm kiếm như Google, Bing,… sẽ gửi “bot”, “robot” hoặc “spider” để thu thập thông tin trang web của bạn theo như hướng dẫn của file Robots.txt. Các công cụ tìm kiếm sẽ không gửi nếu file Robot.txt nói với họ là không thể chỉ mục.

File robots.txt là file gì.
Bots của bất kỳ công cụ tìm kiếm nào cũng phải tuân thủ sự điều hướng của File robots.txt. Nếu nội dung trong file chỉ rõ “đừng index tôi” (Disallow) thì lập tức bots sẽ quay đầu và không lập chỉ mục nữa.
File Robots.txt nằm ở đâu?
File Robots.txt thường nằm ở thư mục gốc của bạn, bạn có thể dễ dàng tạo một file trống và đặt tên là Robots.txt, điều này giúp bạn tránh được các lỗi cho trang web đồng thời cho phép tất cả các công cụ tìm kiếm thu thập thông tin về trang web của bạn.
Các quy tắc cơ bản của file Robots.
File có ba quy tắc (hay còn gọi là chỉ thị) chính là:
- User-agent: xác định các công cụ tìm kiếm mà quy tắc được áp dụng.
- Disallow: ngăn cản các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
- Allow: cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.
Để ngăn chặn việc thu thập dữ liệu của các bot từ các công cụ tìm kiếm đối với các thư mục hoặc đường dẫn cụ thể, bạn chỉ cần thêm đường dẫn hoặc tên thư mục vào sau chữ Disallow
.
Nếu bạn muốn ngăn chặn, không cho các bot từ các công cụ tìm kiếm xâm nhập vào trang web của mình thì có thể sử dụng đoạn code sau:
User-agent: *
Disallow: /
Các dấu gạch chéo (/) thay thế cho thư mục gốc của tên miền. Một số blog/website sử dụng chỉ thị Disallow
mà không có dấu gạch chéo (/) để biểu thị một trang blog/website có thể được thu thập dữ liệu.
Bạn cũng có thể ngăn chặn các bot xâm nhập và lấy thông tin của một số file nhất định bằng việc sử dụng đoạn code dưới đây (đoạn code này là để ngăn chặn xâm nhập cho các file cgi-bin, tmp, wp-admin).
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /wp-admin/
Mẫu file robots.txt chuẩn dành cho WordPress.
Đây là một trong những mẫu file robots.txt chuẩn nhất, tối ưu nhất, được nhiều blogger WordPress nổi tiếng tin dùng. Bạn cũng có thể sử dụng nó cho blog/ website WordPress của mình. Tuy nhiên, hãy nhớ tùy biến nó cho phù hợp với từng hoàn cảnh cụ thể.
User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /?s=*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: http://thanhsonblog.com/sitemap_index.xml
Lưu ý:
- Thay
http://thanhsonblog.com/sitemap_index.xml
bằng đường link đến XML sitemap của bạn. - Các thư mục như
/wp-content/themes/
và/wp-content/plugins/
bạn không nên chặn Google và các công cụ tìm kiếm khác thu thập dữ liệu. Điều này sẽ cản trở việc Google có một cái nhìn chính xác nhất về giao diện blog/website của bạn.
Hiện tại bạn đang sử dụng mẫu file robots.txt nào cho blog/ website của mình? Theo bạn, mẫu file robots.txt đó đã tối ưu chưa? Hãy chia sẻ ý kiến bằng cách sử dụng khung bình luận bên dưới.
Nếu bạn thích bài viết này, hãy chia sẻ bài viết này. Cảm ơn rất nhiều!
Visitor Rating: 5 Stars