Cấu Trúc URL Thân Thiện SEO – Vấn Đề Và Giải Pháp

Cấu trúc url website thân thiện SEO

Khi các công cụ tìm kiếm bắt đầu phân tích một trang web, điều đầu tiên chúng nhìn vào đó là cấu trúc URL . Nếu những gì chúng thấy có vẻ khó hiểu, thì kết quả là chúng chỉ index một phần nhỏ của website, khiến cho một số nội dung không được ngó ngàng đến.

Làm thế nào để bạn ngăn chặn điều này xảy ra? Về cơ bản, bạn cần phải:

  • Cho công cụ tìm kiếm biết những trang nào trong website của bạn nên được thu thập đầu tiên;
  • Nếu một số page của website có thể được truy cập thông qua nhiều URL, hãy tạo ra một bản đồ cấu trúc website để cho các công cụ tìm kiếm biết trang nào tương ứng với URL nào.

Thêm vào đó người làm SEO và người phát triển web ( cụ thể là lập trình viên) có những quan điểm khác nhau về một URL thân thiện cho SEO.

Ví dụ: từ quan điểm của nhiều lập trình viên trong các công ty thiết kế web, URL – http://www.vidu.com/forum/viewtopic/t-121638.html– là hoàn toàn bình thường.

Trong khi từ quan điểm của người làm SEO, phiên bản sau:

http://www.forum.vidu.com/section/topic-name.html- sẽ có ý nghĩa hơn .

Đây chỉ là một ví dụ nhỏ, nhưng có rất nhiều sắc thái trong SEO mà người phát triển web có xu hướng bỏ qua. Do đó, sẽ tốt hơn nếu người làm SEO được tham gia sớm trong dự án thiết kế web.
Cấu trúc url website thân thiện SEO

Những vấn đề thường gặp liên quan đến cấu trúc URL

Có một số vấn đề điển hình liên quan đến URL được tìm thấy trên nhiều website.

1. URL vô nghĩa

Theo mặc định, một số hệ thống quản lý nội dung, website bán hàng trực tuyến tạo ra các URL như thế này:

http://domain.com/shop/item.aspx?itemid=1068

URL như vậy không mô tả rõ ràng về trang web đó, trông khó coi trong kết quả tìm kiếm và rất khó để nhớ. Một URL thân thiện hơn với người dùng và các công cụ tìm kiếm nên là:

http://www.domain.com/bhp/ao-thun-nam

Nhìn vào url trên, ai cũng biết là nó dẫn đến một trang về “áo thun nam”. Nếu một người có thể hiểu được điều này, thì các công cụ tìm kiếm cũng hiểu được.

Giải pháp

Nếu hệ thống quản lý nội dung của bạn tạo ra các URL mặc định vô nghĩa, hãy viết lại chúng theo một cách có ý nghĩa với người sử dụng và công cụ tìm kiếm. Để làm được điều này bạn nên trao đổi kĩ với đối tác thiết kế, lập trình website cho bạn.

Theo Google, www.domain.com/ao-thun-nam.html sẽ có ý nghĩa hơn www.domain.com/aothunnam.html. Vì thế cũng nên xem xét sử dụng dấu phân cách trong URL của bạn

2. Nhiều URL trỏ đến trang chủ

Thông thường, một website sẽ có một vài URL dẫn tới trang chủ của nó như sau:

http://www.example.com
http://example.com
http://example.com/index.html

Trong hầu hết các trường hợp, công cụ tìm kiếm xem đây là những biến thể của trang chủ, tốt nhất là nên thống nhất các trang này làm một để giá trị SEO của chúng được bảo toàn, bởi vì một số người có thể liên kết đến các phiên bản www, trong khi một số có thể liên kết đến các phiên bản không có www.

Giải pháp

1. Bạn có thể chuyển hướng các phiên bản www đến các phiên bản không có www, hoặc ngược lại, với chuyển hướng 301.
2. Ngoài ra, bạn có thể chọn một trong các phiên bản và thiết lập nó như là một canonical URL ( phiên bản url được ưu tiên) cho website của bạn. Tôi đã giải thich trong bài viết canonical URL là gì.

3. URL trùng lặp gây ra bởi các tùy chọn sản phẩm

Hầu hết các website bán hàng trực tuyến cho phép người dùng tìm thông tin theo những cách khác nhau.
Ví dụ: người ta có thể tìm kiếm hàng hóa theo loại, nhãn hiệu, giá cả… Việc này tạo ra một lượng lớn các URL bị trùng lặp, trong đó có nhiều URL dẫn đến cùng một trang.

Ví dụ, nếu bạn đi đến website bán hàng thời traing JCPenney và chọn Women -> Shop Brands -> Levi’s -> Levi’s Field Jacket, đường dẫn của bạn sẽ được ghi lại trong URL là:

http://www.jcpenney.com/jackets/levi%25e2%2580%2599s-field-jacket/prod.jump?ppId=pp5002990211&catId=cat100250125&deptId=dept20000013&dimCombo=null & dimComboVal = null & colorizedImg = DP0710201317104729M.tif

Trùng lặp nội dung do phân loại sản phẩm

Tuy nhiên, URL này về cơ bản chuyển đến cùng một nội dung như một phiên bản “gọn hơn” của nó:

http://www.jcpenney.com/jackets/levi%25e2%2580%2599s-field-jacket/prod.jump?ppId=pp5002990211

Vì vậy, làm thế nào để các công cụ tìm kiếm không bị nhầm lẫn, và cho chúng biết đây là những URL của cùng một trang web?

Giải pháp

  1. . Bạn có thể thiết lập một phiên bản được ưu tiên – canonical URL cho mỗi nhóm các URL bị trùng lặp xuất hiện khi đường dẫn của một người được ghi lại.
  2. . Một tùy chọn khác tốn nhiều thời gian hơn, nhưng tiết kiệm tài nguyên của các công cụ tìm kiếm, là chặn các URL không mong muốn với tập tin robots.txt .
  3. . Tuy nhiên, ngăn chặn hoàn toàn các URL nào đó có thể dẫn đến việc chặn link juice chảy qua chúng. Vì vậy, một giải pháp khác là tạo ra các thẻ meta Robots “Noindex” (nhưng để cho chúng Dofollow) cho các trang web mà bạn không muốn index.
  4. Vui lòng tìm hướng dẫn về cách tạo thẻ meta Robot ở đây.

    4. URL trùng lặp gây ra bởi các thông số theo dõi

    Nếu bạn sử dụng các thông số theo dõi người dùng như session ID , thông số utm hoặc những thông số khác trên trang web của bạn, điều này có thể dẫn đến một số lượng các URL trùng lặp.

    Giải pháp

    1. Bạn chỉ cần cho công cụ tìm kiếm biết là chúng nên bỏ qua một số thông số trong các công cụ Webmaster.

    Trong Google Webmaster Tools , vào Crawl -> URL Parameters -> Add Parameter
    Trùng lặp nội dung vì tracking parameters

    2. Tránh sử dụng sessions IDs, vì chúng có thể thổi phồng số lượng URL trùng lặp website web của bạn theo cấp số nhân. Thay vào đó, sử dụng cookie để xác định người truy cập.

    5. Các vấn đề gây ra do sử dụng các URL tương đối

    Các URL tương đối là gì? Chúng là các URL bị ràng buộc trong bối cảnh của các trang web chứa chúng.

    Ví dụ, nếu tôi muốn liên kết www.congtythietkewebsite.net.vn đến trang lựa chọn gọi dịch vụ của chúng tôi, tôi có thể sử dụng một trong hai www.congtythietkewebsite.net.vn/thiet-ke-web-doanh-nghiep.html (một URL tuyệt đối) hoặc /thiet-ke-web-doanh-nghiep.html (một URL tương đối) cho mục đích này.

    Các vấn đề với URL tương đối là, khi chỉ định không đúng, chúng có thể tạo ra các vòng lặp vô hạn mà có thể bẫy các công cụ tìm kiếm giống như trong bánh xe dành cho chuột hamster. Cuối cùng, các con robot của Google sẽ từ bỏ và việc này cũng chẳng vui vẻ gì/

    Giải pháp

    Hiện nay Webmasters được khuyến cáo sử dụng các URL tuyệt đối thay vì tương đối. Điều này có thể khiến người lập trình web mất thêm một chút thời gian, nhưng sẽ cho phép bạn tránh được những vấn đề mà URL tương đối thường tạo ra.

    Những phương pháp tốt nhất để có cấu trúc URL thân thiện SEO

    Trong trường hợp bạn nghĩ rằng bạn không có bất kỳ vấn đề phổ biến nào với cấu trúc URL như được liệt kê ở trên, thì sau đây là một số cấu trúc website tốt nhất mà các webmaster nên làm theo để giúp các công cụ tìm kiếm hiểu hơn về website:

    Đăng ký Webmaster Tools

    Cả Google và Bing cung cấp các công cụ quản trị website cho phép bạn chẩn đoán các vấn đề tiềm ẩn liên quan đến cấu trúc URL.

    Ví dụ, nếu bạn thấy trùng lặp meta descriptions trong Google Webmaster Tools , điều này có thể có nghĩa là một vài trang web trên website của bạn có thể được truy cập thông qua nhiều URL.

    Để xem việc này có đúng không, vào Search Appearances -> HTML Improvements.
    gwt-html-improvements

    Tạo một tập tin robots.txt

    Khi một search bot đến trang web của bạn, đầu tiên nó tìm xem bạn có muốn để lại một tập tin robots.txt cho nó ở example.com/robots.txt hay không.

    Đó là một text file liệt kê các trang hay phần của website của bạn mà chỉ thị cho crawler không nên đến. Robots.txt thường được sử dụng để ngăn chặn các trang có thông tin nhạy cảm hoặc các trang trùng lặp có thể truy cập thông qua nhiều URL.

    Các chỉ dẫn trong tập tin này thường trông như thế này:

    tao-file-robots

    2 dòng đầu tiên có nghĩa là tất cả các robot không được truy cập phần /search/ của trang web, và 2 dòng tiếp theo có nghĩa là không có crawler nào được truy cập vào phần / wp-admin / của trang web.

    Như bạn thấy, bạn có thể chặn không chỉ từng trang một, mà còn có thể chặn toàn bộ một phần của website (hoặc thậm chí toàn bộ website).Bạn có thể tạo ra một tập tin robots.txt bằng tay (xem hướng dẫn) hoặc với sự giúp đỡ của một robots.txt generator.

    Submit một XML Sitemap

    Một XML Sitemap là một danh sách các trang trên website của bạn nên được thu thập và lập chỉ mục bởi các công cụ tìm kiếm. Một XML sitemap khác với sitemap mà bạn tạo cho người truy cập. Google khuyến cáo tạo các sitemap riêng cho máy móc và con người.

    Một XML sitemap phục vụ 2 mục đích chính:
    • Nó nói với công cụ tìm kiếm các trang nào của website của bạn là quan trọng nhất
    • Nó giúp công cụ tìm kiếm phân loại ra các URL trùng lặp có thể tồn tại trên trang web

    Google đã công bố hướng dẫn XML Sitemap mà bạn nên làm theo khi chuẩn bị sitemap cho các công cụ tìm kiếm. Khi đã sẵn sàng, bạn nên upload sitemap lên trang web của bạn, và liên kết đến nó từ robots.txt hoặc gửi nó thông qua Webmaster Tools, hoặc làm cả hai cách.

    Sử dụng các canonical tag

    Hãy nhớ là chúng ta đã nói về tình huống khi có rất nhiều URL trỏ đến cùng một phần nội dung. Đó là khi bạn cần đến các canonical tag – để biểu thị rằng một nhóm các URL có thể được xem là một phiên bản tiêu chuẩn của một URL hay còn gọi là canonical URL.

    Làm thế nào để bạn chỉ định điều này? Bạn cần phải thêm một nhân tố < link rel = "canonical"> đến mỗi trang trùng lặp trong nhóm. Dưới đây là đoạn code thực tế (chỉ cần thay thế các URL được đánh dấu với các trang canonical của bạn).
    <Link rel = “canonical” href = ” http://www.example.com/product.php?item=green-balloon “/>
    Nhân tố này nẳm trong phần < head> .

    Kết luận

    Làm cho cấu trúc URL của một trang web thân thiện với SEO không phải là khó. Bạn chỉ cần làm theo những phương pháp SEO tốt nhất và tham gia vào giai đoạn phát triển website (hoặc thiết kế lại) từ rất sớm. Thêm vào đó, hãy chắc chắn không có vấn đề URL nào được báo cáo trong Webmaster Tools và sau đó bạn có thể yên tâm rằng website của bạn đã được index đầy đủ.

Leave a Reply

Your email address will not be published. Required fields are marked *