Cấu trúc URL thân thiện Chuẩn SEO

Khi các search engine bắt đầu phân tích một website,  điều đầu tiên chúng sẽ xem xét là cấu trúc URL của website đó. Nếu có bất kì vấn đề gì với URL, quá trình index có thể sẽ không được hoàn thành và đây chính là nguyên nhân khiến một số nội dung của site không hiển thị trên trang kết quả tìm kiếm.

Cấu trúc URL thân thiện Chuẩn SEO

Vậy làm sao để website tránh được kết cục “bi thảm” này? Về căn bản, bạn sẽ cần phải:

  • Gây ấn tượng cho các search engine
  • Nếu website có nhiều URL, bạn nên tạo một sitemap để các search engine biết từng URL sẽ tương ứng với page nào của site.

Ngoài ra, quan điểm về một URL thân thiện với SEO trên phương diện SEO và phát triển website cũng rất khác nhau.

Ví dụ, đối với một nhà thiết kế web, URL http://www.seosao.com/forum/viewtopic/t-121638.html  là hoàn toàn bình thường. Trong khi đó, đứng trên phương diện SEO thì http://www.seosao.com/forum/danh-muc/topic-name.html lại có nghĩa hơn.

Đây chỉ là một ví dụ nho nhỏ, và trên thực tế, các nhà phát triển website còn có thiên hướng xem xét một cách kĩ lưỡng nhiều sắc thái của SEO hơn nữa.

Những vấn đề thường gặp đối với cấu trúc URL

Dưới đây là một số vấn đề có liên quan đến URL được phát hiện trong khá nhiều website.

  1. URL vô nghĩa

Một số hệ quản trị nội dung (CMS) sẽ đưa ra những URL mặc định thiếu thông tin về trang, không có tính thẩm mĩ và rất khó nhớ như thế này:

http://diendanrao.com/shop/item.aspx?itemid=1068

Tốt hơn hết, bạn nên sử dụng kiểu URL chứa thông tin trang và dễ nhớ cho cả người dùng và các search engine dưới đây:

http://www.seosao.com/shop/dong-ho-casino

Giải pháp:

Nếu CMS đưa ra những URL mặc định vô nghĩa, hãy viết lại chúng bằng cách sử dụng .htaccess hoặc các plugin Permalink.

Bạn nên sử dụng dấu gạch nối “-” trong URL tạo khoảng cách từ khiến chúng trở nên có nghĩa, giúp Boot google có thể hiểu được nội dung bài viết. Theo Google, URL   www.seosao.com/chien-luoc-seo.html sẽ tốt hơn là www.seosao.com/chienluocseo.html.

  1. Nhiều URL cùng trỏ vào trang chủ

Thông thường sẽ có thể có nhiều URL dẫn đến trang chủ, chẳng hạn:

http://www.seosao.com

http://seosao.com

http://diendanrao.com/index.html

http://diendanrao.com/index.php

Cho dù các search engine có thể tìm ra nhiều biến thể của trang chủ, tốt nhất bạn vẫn nên hợp nhất chúng lại, bởi một vài người có thể link đến phiên bản www, trong khi đó, nhiều người lại có thể link đến những phiên bản non-www.

Giải pháp:

  • Redirect phiên bản www thành phiên bản non-www hoặc ngược lại sử dụng 301 redirect.
  • Chọn 1 phiên bản và đặt làm URL ưu tiên cho trang chủ hoặc www hoặc non-www.
  1. Trùng lặp URL do tùy chọn phân loại

Hầu hết các gian hàng online đều cho phép người dùng chia nhỏ thông tin bằng nhiều tùy chọn. Ví dụ, bạn có thể tìm kiếm sản phẩm bằng cách chọn chủng loại, thương hiệu hay giá cả.

Chẳng hạn, giả dụ bạn tới một website và chọn sản phẩm trong danh mục “Thời trang nữ”-> “Brands” -> “Levi’s” -> “Túi xách Levi’s”, đường dẫn sẽ như thế này:

http://www.seosao.com/brands/levi%25e2%2580%2599s-field-jacket/prod.jump?ppId=pp5002990211&catId=cat100250125&deptId=dept20000013&dimCombo=null&dimComboVal=null&colorizedImg=DP0710201317104729M.tif

Tuy nhiên, URL này cũng trỏ tới nội dung tương đương như một phiên bản khác dễ nhìn hơn:

http://www.seosao.com/brands/levi%25e2%2580%2599s-tui-xach/prod.jump?ppId=pp5002990211

Vậy làm thế nào để tránh gây khó xử cho các search engine, và cho chúng biết đây là những URL của cùng một page?

Giải pháp:

  • Chọn URL ưu tiên cho từng nhóm URL trùng lặp.
  • Ngăn chặn hoàn toàn những URL này bằng cách sử dụng có tệp robots.txt.

Việc khóa URL có thể ngăn cản hoàn toàn dòng chảy liên kết qua chúng. Vì thế, bạn có thể tạo meta tag robots “Noindex” cho các trang đó.

Đặt mã code sau trước thẻ đóng </Head> nếu bạn muốn trang nào đó không index.

<meta name=”googlebot” content=”noindex”>

Hoặc

<meta name=”googlebot-news” content=”nosnippet”>

Bạn cũng có thể dùng cả 2 nếu muốn.

  1. Trùng lặp URL do theo dõi tham số

Nếu sử dụng các tham số theo dõi người dùng như session ID hay “utm” có thể làm tăng số lượng URL trùng lặp trên site.

Giải pháp:

  • Thông báo cho các search engine để chúng bỏ qua những tham số nhất định trên Webmaster tools.

Vào Google Webmaster Tools -> Crawl -> URL Parameters -> Add Parameter.

Add Parameter

Hoặc vào Bing Webmaster Tools -> Configure My Site -> Ignore URL Parameters

  • Tránh sử dụng session ID bởi chúng có thể làm tăng số lượng URL trùng lặp trong site.

Những điển hình về cấu trúc URL thân thiện với SEO

Dưới đây là một số dạng cấu trúc site mà webmaster nên sử dụng để hỗ trợ việc thu thập dữ liệu của các search engine.

Đăng ký tài khoản Webmaster Tools

Cả Google và Bing đều có công cụ Webmaster tools, sẽ giúp bạn phát hiện ra các vấn đề với cấu trúc URL.

Chẳng hạn, nếu các mô tả meta – meta description trên Google Webmaster Tools bị trùng lặp, điều này đồng nghĩa với việc có nhiều trang trên site của bạn có thể được truy cập thông qua nhiều URL. Bạn có thể vào Search Appearances -> HTML Improvements.

Trong Bing Webmaster Tools, chọn  SEO Reports.

Tạo 1 tệp robots.txt

Khi một search bot đến site của bạn, nó sẽ để ý xem liệu bạn đã để riêng tệp robots.txt ở seosao.com/robots.txt hay chưa.

Tệp văn bản này liệt kê các trang hay section trong site mà crawler không nên vào. Tệp robots.txt thường được dùng để khóa các trang có thông tin nhạy cảm hay các trang trùng lặp.

Dưới đây là hướng dẫn bạn thường hay gặp đối với website sử dụng CMS WordPress:

Dòng thứ 3 có nghĩa rằng tất cả các robot không được phép truy cập vào mục /search/ của site, và 2 dòng đầu có nghĩa rằng không có thu thập dữ liệu trong thư mục /wp-admin/, wp-includes.

Bạn có thể khóa không chỉ những trang cá nhân mà còn là tất cả các mục của site hoặc thậm chí là toàn site.

Bạn có thể tạo tệp robots.txt bằng tay hoặc với sự trợ giúp của công cụ robots.txt.

Submit một XML Sitemap

XML Sitemap là danh sách các page của site có thể được các search engine crawl và index. XML Sitemap hoàn toàn khác với sitemap dành cho người xem. Google khuyến khích việc tạo sitemap dành riêng cho các search engine và người dùng.

XML Sitemap được tạo ra nhằm 2 mục đích chính:

  • Thông báo cho các search engine biết trang nào là quan trọng nhất.
  • Giúp các search engine lọc ra URL trùng lặp có thể có trên site.

Google đã xuất bản XML Sitemap guidelines khi chuẩn bị sitemap cho các search engine. Khi sẵn sàng, bạn nên upload sitemap và cả đường link cho site từ tệp robots.txt hoặc submit thông qua Webmaster Tools hoặc cả hai.

  • Tận dụng thẻ canonical

Thẻ canonical sẽ giúp các search engine biết đâu là nội dung gốc và chất lượng trên website của bạn.

Hãy thêm <link rel=“canonical”> vào các trang trùng lặp trong nhóm. Chẳng hạn:

Đặt sau thẻ mở <head> và trước thẻ đóng </head>.

Kết luận

Không khó để có một cấu trúc URL thân thiện với SEO. Tất cả những gì bạn cần làm chỉ là thực hiện theo các ví dụ nêu trên và re-design lại link cho site. Ngoài ra, hãy chắc chắn rằng không có các vấn đề liên quan đến URL được thông báo trên Webmaster Tools.

CÓ THỂ BẠN QUAN TÂM

Leave a Reply

Your email address will not be published.