Bạn chưa biết gì về file robots.txt? Tại sao bạn nên tạo robots.txt cho trang web? Làm sao để tạo file robots.txt bây giờ? Hôm nay hãy cùng VDO Software đi tìm hiểu file robots.txt là gì qua bài viết dưới đây và tìm ra câu trả lời thích hợp cho mình nhé
TÓM TẮT
Robots.txt là gì?
File robots.txt là một tập tin văn bản chuẩn quy định website, cho phép các công cụ tìm kiếm thu thập nhanh chóng và chính xác dữ liệu trên website.
Tệp này có thể chứa các lệnh như: meta robots, page-subdirectory, site-wide instructions… Nó còn hướng dẫn các công cụ xử lý các liên kết trên trang.
Thực tế file robots.txt thường được các nhà quản trị web sử dụng trong việc cho phép hay ngăn chặn những nội dung hay phần nào đó trên trang được index hay không.
Cú pháp của tệp robots.txt
Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt.
- User-agent: Phần này là tên của các trình thu thập dữ liệu như: Googlebot, Bingbot, Ahrefbot…
- Disallow: Lệnh này để thông báo những nội dung bot không được thu thập dữ liệu.
- Allow (chỉ áp dụng cho Googlebot): Lệnh này cho phép bot thu thập dữ liệu một trang hoăc thư mục con, mặc dù trang hoặc thư mục chứa nó lại không được phép thu thập dữ liệu.
- Crawl-delay: Phần này thông báo trang sau khi tải bao nhiêu giây, thì các công cụ được thu thập dữ liệu. Tuy nhiên google sẽ không nhận lệnh này, bạn có thể cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
- Sitemap: Lệnh này được sử dụng để cung cấp các vị trí của bất kì XML sitemap nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.
Đối với sitemap tôi đã có 1 bài viết rất chi tiết: Sitemap là gì? Cách tạo sitemap cho website bạn tham khảo thêm nhé!
Mẫu định dạng chuẩn của robots.txt
Tuy nhiên, bạn vẫn có thể lược bỏ các phần “crawl-delays”, “allow” và “sitemap”.
Bạn cũng có thể tùy chỉnh file robot theo từng trang web để sao cho phù hợp. Trên thực tế thì tệp robots.txt có thể chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng.
Trong file robots.txt bạn có thể chỉ định riêng từng con bot có thể thu thập dữ liệu, và mỗi lệnh này thường cách nhau 1 dòng.
Lưu ý về file robots.txt chuẩn
Để chặt tất cả các con bot không được thu thập dữ liệu trang trang web chúng ta dùng câu lệnh:
User-agent: *
Disallow: /
Để cho phép tất cả các con bot truy cập để thu thập thông tin chúng ta dùng:
User-agent: *
Disallow:
Để chặn google bot thu thập thông tin trong mục nào đó trên trang bạn có thể dùng:
User-agent: Googlebot
Disallow: /example-subfolder/
Ví dụ cho file robots.txt chuẩn
Dưới đây là ví dụ về tệp robots.txt hoạt động cho trang web www.example.com:
User-agent: *
Disallow: /wp-admin/
Allow: /
Sitemap: https://www.example.com/sitemap_index.xml
Để tôi giải thích sơ qua ý nghĩa của tệp robots.txt đơn giản này: Cho phép tất cả các trình thu thập dữ liệu vào trang web để thu thập thông tin toàn trang web nhưng ngoại trừ các thông tin về quản trị. Thông báo địa chỉ sitemap để bot có thể thu thập dữ liệu nhanh hơn.
Làm sao để tạo file robots.txt cho website?
Nếu bạn thấy trang của mình chưa có file robots.txt thì bạn có thể thực hiện theo 3 cách dưới đây:
Cách 1: Sử dụng Yoast SEO
Bạn có thể chỉnh sửa hoặc tạo tệp robots.txt cho wordpress trên chính WordPress Dashboard với vài bước đơn giản.
Đăng nhập vào website của bạn. Khi đăng nhập vào, bạn sẽ thấy giao diện của trang Dashboard.
Nhìn phía bên trái màn hình, click vào SEO =» Tools =» File editor.
Tính năng File editor sẽ không xuất hiện nếu wordpress của bạn vẫn chưa được kích hoạt tính chỉnh sửa file. Do vậy hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).
Lúc này bạn sẽ thấy mục .htaccess file và một nút Create robots.txt file – đây là nơi giúp bạn tạo file robots.txt
Cách 2: sử dụng plugin All in One SEO
Plugin All in One SEO để tạo file robots.txt nhanh chóng. Đây cũng là một plugin tiện ích cho wordpress – Đơn giản, dễ sử dụng cho những ai không muốn chỉnh sửa tệp này, tệp kia trên web.
Để tạo file robots.txt, bạn phải đến giao diện chính của plugin All in One SEO Pack.
Chọn All in One SEO » Features Manager » Nhấp Active cho mục robots.txt
Tìm đến file robots.txt và tiến hành active.
Điểm hạn chế của việc này chính là các malware có thể ẩn theo các plugin đi vào trang web ảnh hưởng đến bảo mật trang web.
Cách 3: Tạo file robots.txt rồi up thẳng lên host
Nếu web của bạn là code tay hoặc không muốn sử dụng plugin thì cách này hữu hiệu nhất.
Bạn chỉ mất vài phút để tạo file robots.txt này bằng tay. Sử dụng Notepad hoặc Text edit để tạo mẫu file robots.txt theo hướng dẫn tôi đã giới thiệu ở đầu viết.
Sau đó upload file này thẳng lên host mà không cần sử dụng plugin. Quá trình này rất đơn giản không tốn bạn quá nhiều thời gian đâu.
Tại sao bạn cần tạo file robots.txt cho wordpress?
Trong phần checklist SEO web site thì robots.txt là một phần cần phải kiểm tra. Nếu trang của bạn không có file này thì thực sự là một lỗi kỹ thuật SEO khá lớn.
Đôi khi cũng có nhiều người mắc phải một số lỗi khiến toàn bộ trang web dừng lập chỉ mục và ảnh hưởng lến đến website.
Việc tạo file robots.txt luôn là hữu ích bởi vì:
- Ngăn chặn nội dung trùng lặp xuất hiện trong website (lưu ý rằng các robot meta thường là lựa chọn tốt hơn cho việc này)
- Giữ một số phần của trang web ở chế độ riêng tư
- Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
- Chỉ định vị trí của sitemap
- Ngăn các công cụ tìm kiếm index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)
- Dùng lệnh crawl delay để cài đặt thời gian. Điều này sẽ ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
Thực sự nếu bạn bận quá cũng có thể không cần tạo file này, tuy nhiên nó chỉ mất khoảng 10 phút đổ lại thôi, không tốn quá nhiều thời gian của bạn.
Ngoài ra, bạn có thể quan tâm đến về dịch vụ thiết kế website theo yêu cầu khuyến mãi lên tới 2 triệu đồng tại VDO Software với ưu đãi đặc biệt miễn phí tên miền và hosting cho website, cùng với nhiều ưu đãi khác. Hãy liên hệ ngay tới số 19000366 để được nhân viên tư vấn hỗ trợ tốt nhất.
Làm thế nào để kiểm tra website có robots.txt không?
Nếu bạn đang lo lắng không biết trang web của mình đã có file robots.txt chưa thì bạn có thể làm theo hướng dẫn dưới đây:
Hãy nhập root domain của bạn, sau đó thêm /robots.txt vào cuối URL. Nếu không có trang .txt xuất hiện, thì chắc chắn website bạn hiện không tạo robots.txt cho wordpress rồi. Rất đơn giản!
VD: Đối với trang web GAD, để kiểm tra file này tôi sẽ làm:
Nhập: https://gadvn.com/robots.txt vào trình duyệt và nhấn enter.
Nếu hiện lên là “404 not found” hoặc “trang không tì thấy” nghĩa là web của bạn chưa có robots.txt
Một số lưu ý khi sử dụng robots.txt là gì?
Hãy đảm bảo rằng file này không ngăn chặn nội dung index trên trang, ngoại trừ thông tin đăng nhập (wp-admin)
Không sử dụng robots.txt để chặn các thông tin người dùng, hay thông tin tác giả trên trang. Nếu bạn muốn loại bỏ nó khỏi kết quả tìm kiếm hãy để nó ở trạng thái noindex.
Hiện tại có rất nhiều con bọ tìm kiếm thông tin của các web khác nhau. Vì vậy đừng ngăn cản bất cứ co bọ nào thu thập thông tin về bạn. Cây cao thì đón gió, trang của bạn lớn thì cũng nên đương đầu với những áp lực lớn đi.
Vậy là mình đã chia sẻ xong về robots.txt rồi.
Nếu gặp bất kỳ vấn đề nào trong quá trình tạo file cũng như chỉnh sửa robots.txt, comment bên dưới bài viết nhé! Tôi sẽ trả lời sớm cho bạn.
Xem thêm:
Widget là gì? Cách thêm mới widget vào wordpress
Cách chèn shortcode vào wordpress
Mockups là gì?
Tạo sitemap cho website wordpress
Bitly là gì? Hướng dẫn cách rút gọn link
Google Alert là gì? Cách sử dụng Google Alert tối ưu