Robots.txt là một tệp tin vô cùng quan trọng trong việc quản lý cách các công cụ tìm kiếm thu thập thông tin trên website của bạn. Việc thiết lập sai file robot.txt có thể khiến website bị giảm hiệu suất SEO. Trong bài viết này, SENCOM sẽ giúp bạn hiểu rõ về robots.txt, cách tạo và tối ưu file robot.txt trong wordpress chi tiết. Hãy cùng tham khảo ngay nhé!
File robots.txt là gì?
File robots.txt là một tệp văn bản đơn giản nằm trong thư mục gốc của website, có đuôi mở rộng .txt (ví dụ: www.marketing.com/robots.txt).
Nó được sử dụng để chỉ dẫn các công cụ tìm kiếm (như Googlebot, Bingbot) về cách thu thập thông tin (crawl) trên website của bạn.
Cụ thể, file robot.txt cho phép bạn chỉ định những URL nào trên website được phép hoặc không được phép thu thập dữ liệu bởi các bot công cụ tìm kiếm.

Cấu trúc cơ bản của file robot.txt
Cấu trúc cơ bản của File robot.txt khá đơn giản, gồm các câu lệnh để điều khiển hoạt động của bot tìm kiếm:

User-agent: Xác định bot cụ thể mà bạn muốn áp dụng quy tắc. Ví dụ:
- User-agent: * (áp dụng cho tất cả bot).
- User-agent: Googlebot (chỉ áp dụng cho bot của Google).
Disallow: Chỉ định các trang hoặc thư mục không được phép thu thập. Ví dụ:
- Disallow: /private/ (chặn bot truy cập thư mục “private”).
- Disallow: /wp-admin/ (chặn bot truy cập trang quản trị WordPress).
Allow: Cho phép bot truy cập vào một trang hoặc thư mục nào đó. Ngay cả khi nó nằm trong phần bị chặn bởi Disallow. Ví dụ:
- Allow: /public/ (cho phép bot truy cập thư mục “public”).
Sitemap: Chỉ định đường dẫn đến file sitemap của website, giúp các công cụ tìm kiếm dễ dàng tìm thấy cấu trúc website. Ví dụ:
- Sitemap: https://www.marketing.com/sitemap.xml.
Ví dụ về file robot.txt chuẩn:
User-agent: *
Disallow: /wp-admin/
Disallow: /private/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml
Ở ví dụ trên có nghĩa sau:
- Tất cả bot (User-agent: *) không được phép thu thập thông tin từ thư mục /wp-admin/ và /private/.
- Bot được phép truy cập thư mục /public/.
- File sitemap của website được liên kết để giúp bot dễ dàng tìm kiếm và index nội dung.
File robots.txt có tác dụng gì? Khi nào cần sử dụng file này?
File robots.txt được xem là tệp tin vô cùng quan trọng. Sử dụng file này khi muốn:
Ngăn chặn công cụ tìm kiếm thu thập thông tin khi website chưa hoàn thiện
Trong giai đoạn đầu phát triển, website thường chưa có cấu trúc và nội dung hoàn chỉnh. Nếu các bot công cụ tìm kiếm truy cập và index trang web lúc này. Điều này không chỉ không có lợi cho SEO, mà còn có thể ảnh hưởng tiêu cực đến đánh giá chất lượng website.
File robots.txt sẽ giúp bạn tránh được những rủi ro này một cách hiệu quả.

Ngăn chặn các trang tìm kiếm gây hại
Để website phát triển hiệu quả, bạn cần đảm bảo rằng Google chỉ index những URL có giá trị. Việc thiết lập các quy tắc phù hợp cho công cụ tìm kiếm sẽ giúp ngăn chặn các URL không đạt chuẩn. Tránh gây ảnh hưởng tiêu cực đến hoạt động và chất lượng của website.
Ngăn chặn các công cụ thu thập liên kết từ website
Các công cụ nghiên cứu từ khóa như Ahrefs, Top page, Organic Keyword,… cho phép người dùng thu thập dữ liệu trang web chỉ với địa chỉ URL.
Tuy nhiên, điều này cũng tạo cơ hội cho đối thủ phân tích và sao chép chiến lược web của bạn, thậm chí cạnh tranh trên các từ khóa TOP. Để khắc phục vấn đề này, bạn có thể sử dụng các lệnh chặn trong file robot.txt.

Cách kiểm tra website có file robots.txt hay không?
Nếu bạn không chắc liệu website của mình có file robot.txt hay không, hãy thử nhập Root Domain kèm theo /robots.txt vào thanh URL. Nếu không có nội dung hiển thị, điều này cho thấy website của bạn chưa tạo file robots.txt.
Bạn cũng có thể áp dụng cách tương tự để kiểm tra các website khác, chẳng hạn như sencom.com, bằng cách nhập sencom.com/robots.txt và nhấn Enter.

Cách tạo robots.txt cho wordpress chi tiết
Nếu website của bạn chưa có file robot.txt, hoặc muốn cập nhật file robot.txt hiện tại, hãy theo dõi 3 cách tạo robot.txt cho WordPress đơn giản dưới đây:
Sử dụng Yoast SEO trong wordpress
Nếu bạn sử dụng plugin Yoast SEO, bạn có thể tạo và chỉnh sửa file robots.txt trực tiếp từ giao diện của Yoast.
Sau khi đăng nhập vào website, người dùng có quyền quản trị vào menu bên trái, chọn SEO > Tool > File Editor. Tính năng Editor sẽ bị ẩn nếu WordPress chưa được cài đặt trình quản lý tệp. Để kích hoạt, người dùng cần sử dụng giao thức FTP. Lúc này, người dùng sẽ thấy tệp robots.txt và .htaccess, nơi có thể thay đổi dữ liệu.

Sử dụng qua bộ Plugin All in One SEO
Bạn cũng có thể tạo file robot.txt bằng Plugin All in One SEO, bằng cách:
Bước 1: Nếu chưa cài đặt, hãy vào Plugins → Add New và tìm kiếm All in One SEO → cài đặt và kích hoạt plugin.
Bước 2: Sau khi kích hoạt plugin, đi tới All in One SEO → Tools →Tìm và nhấp vào mục File Editor.
Bước 3: Nhấp vào nút Create robots.txt file để tạo file mới.

Tạo và upload file robot.txt qua FTP
Ngoài cách sử dụng plugin, bạn cũng có thể tự tạo file robot.txt cho WordPress một cách thủ công.
Bạn chỉ cần sử dụng một trình soạn thảo văn bản như Notepad hoặc Textedit để tạo file theo các quy tắc cấu trúc đã được hướng dẫn ở trên. Sau đó, upload file này lên hosting thông qua FTP. Quá trình này rất đơn giản và không mất nhiều thời gian.

Cách tối ưu hóa Robot.txt cho SEO
Tối ưu hóa robot.txt giúp kiểm soát truy cập của công cụ tìm kiếm, từ đó cải thiện hiệu quả thu thập dữ liệu và nâng cao SEO. Tham khảo các cách tối ưu sau đây:
Thứ tự thực hiện lệnh trong robots.txt
Các công cụ tìm kiếm tuân theo một thứ tự ưu tiên khi đọc và thực hiện các lệnh trong file robot.txt. Theo nguyên tắc, lệnh nào được liệt kê trước sẽ được ưu tiên áp dụng.
Ví dụ:
User-agent: *
Allow: /noibo/company/
Disallow: /about/
Trong ví dụ này, tất cả các công cụ tìm kiếm (bao gồm cả Google và Bing) sẽ bị chặn truy cập vào thư mục /noibo/, trừ thư mục con /noibo/company/.
Một nhóm lệnh duy nhất cho mỗi bot
Bạn chỉ được phép chỉ định một nhóm lệnh cho mỗi công cụ tìm kiếm. Việc có nhiều nhóm chỉ thị cho cùng một bot sẽ khiến chúng bị nhầm lẫn.

Càng cụ thể sẽ càng tốt
Lệnh Disallow cũng được áp dụng cho các kết quả phù hợp từng phần. Càng cụ thể càng tốt khi sử dụng chỉ thị Disallow để tránh vô tình chặn truy cập vào các tệp tin không mong muốn.
Kết hợp chỉ thị chung và riêng cho robot
Mỗi robot chỉ được phép có một nhóm lệnh. Nếu có cả chỉ thị cho tất cả các robot (user-agent: *) và chỉ thị cho một robot cụ thể (ví dụ: user-agent: googlebot). Thì chỉ có chỉ thị dành cho robot cụ thể được ưu tiên.
Để robot cụ thể cũng tuân theo các chỉ thị chung, bạn cần sao chép chúng cho robot cụ thể.
Ví dụ:
User-agent: *
Disallow: /secret/
Disallow: /test/
Disallow: /not-launched-yet/
User-agent: googlebot
Disallow: /not-launched-yet/
Robots.txt cho subdomain
Các lệnh trong file Robot.txt chỉ áp dụng cho (sub)domain mà tệp tin này được lưu trữ.
Ví dụ:
http://marketing.com/robots.txt có hiệu lực cho http://marketing.com. Nhưng không có hiệu lực cho http://www.marketing.com hoặc https://marketing.com.
Nguyên tắc xung đột giữa robots.txt và Google Search Console
Trong trường hợp có sự khác biệt giữa cài đặt trong file robot.txt và cài đặt trong Google Search Console. Google thường sẽ ưu tiên sử dụng cài đặt trong Google Search Console hơn là các lệnh trong file robot.txt.
Không dùng noindex trong robot.txt
Google đã chính thức khuyến cáo không nên sử dụng chỉ thị noindex trong robot.txt. Và từ ngày 1 tháng 9 năm 2019, Google đã ngừng hỗ trợ chỉ thị này.
Cách tốt nhất để báo hiệu cho các công cụ tìm kiếm rằng các trang không nên được lập chỉ mục là sử dụng thẻ meta robots hoặc X-Robots-Tag.

Kiểm tra robot.txt thường xuyên
Việc theo dõi file robot.txt để phát hiện các thay đổi là rất quan trọng, đặc biệt khi bạn triển khai các tính năng mới hoặc website đang trong giai đoạn thử nghiệm. Vì các tính năng này thường chứa file robot.txt với nội dung sau:
User-agent: *
Disallow: /
Hy vọng qua bài viết trên, SENCOM có thể giúp bạn hiểu hơn về khái niệm Robots.txt và cách tạo, tối ưu file robots.txt cho website trên wordpress. Đây là một công cụ mạnh mẽ để kiểm soát cách bot tìm kiếm tương tác với website. Giúp bảo vệ nội dung và cải thiện SEO trang web. Tuy nhiên, bạn nên kết hợp với nhiều yếu tố khác như thẻ Canonical để tối ưu website tốt hơn nữa.


