Chương 4 - Thiết kế và phát triển web sao cho thân thiện với SE
Công cụ tìm kiếm được giới hạn trong cách chúng
thu thập dữ liệu web và cách giải thích nội dung trên web. Mỗi người sẽ
có những cách nhìn nhận đánh giá một trang web là không giống nhau,
nhưng với các công cụ tìm kiếm, nó phụ thuộc vào những yếu tố nhất định.
Trong bài viết này, chúng tôi sẽ chỉ tập trung phân tích các khía cạnh
kỹ thuật đặc trưng cho việc xây dựng (hoặc sửa đổi) các trang web tối ưu
hóa thân thiện với cả người truy cập và SE. Tôi tin chắc những chia sẻ
thú vị dưới đây sẽ là nguồn tài liệu hữu ích cho các lập trình viên, kỹ
sư công nghệ thông tin, designer trong việc
thiết kế và phát triển một trang web thân thiện với các công cụ tìm kiếm.
Để được liệt kê trong
công cụ tìm kiếm,
thì bài viết, nội dung của bạn nên được viết dưới định dạng văn bản
HTML. Bởi hình ảnh, các tập tin Flash, Java applet, và những nội dung
phi văn bản khác đều bị bỏ qua hoặc bị đánh giá thấp trong mạng lưới tìm
kiếm, mặc dù công nghệ thu thập thông tin đã có nhiều tiến bộ. Cách đơn
giản nhất để đảm bảo nội dung bạn hiển thị cho khách truy cập có thể
xuất hiện trong công cụ tìm kiếm đó chính là đặt chúng trong văn bản
HTML trên website. Tuy nhiên, với những người yêu cầu định dạng lớn hơn
hoặc muốn hiển thị hình ảnh thì vẫn có những phương pháp tiên tiến hơn
để thực hiện:
- Hình ảnh dưới định dạng gif, ipg, hoặc png có thể chuyển thành "alt
attributes" trong HTML, cung cấp cho các công cụ tìm kiếm những mô tả
trực quan về nội dung văn bản.
- Bổ sung Box tìm kiếm với các menu và các liên kết thu thập (crawlable links)
- Có thể bổ sung Flash hoặc Java plug-in chứa nội dung vào các văn bản trên website.
- Video và Audio nên kèm theo lời chú thích với các từ và cụm từ được lập chỉ mục bởi các công cụ tìm kiếm.
Nhìn nhận vấn đề giống như một công cụ tìm kiếm:
Rất nhiều trang web gặp nhiều vấn đề đối với các nội dung lập chỉ
mục, do đó, việc kiểm tra là rất cần thiết. Bằng cách sử dụng các công
cụ như bộ nhớ cache của Google, SEO-browser.com hoặc Mozbar,
bạn có thể xem trước những nội dung sẽ xuất hiện trong trang web, từ đó
có những điều chỉnh thích hợp cho các chỉ mục của các công cụ tìm kiếm.
Dưới đây là văn bản bộ nhớ cache Google của trang bạn đang đọc. Bạn thấy chúng khác nhau như thế nào?
Whoa! Đó là những gì chúng ta nhìn thấy?
Sử dụng tính năng bộ nhớ cache của Google, ta có thể nhận ra, những gì một công cụ tìm kiếm thấy được ở trang JugglingPandas.com‘s
Homepage không phải là những thông tin đầy đủ, phong phú giống như
chúng ta thấy được. Chính điều này đã gây rất nhiều khó khăn cho các
công cụ tìm kiếm trong việc
giải thích sự liên quan.
Đáng lẽ có rất nhiều khỉ, tại sao chúng ta chỉ thấy dòng chữ tiêu đề?
Hẳn có gì thú vị ở đâu đó?
Uh oh… Thông qua bộ nhớ cache của Google, những gì chúng ta thấy được
ở website trên giống như một mảnh đất cằn cỗi hoang sơ. Thậm chí, còn
không có văn bản cho biết trang này chứa các Axe Battling Monkeys. Những
trang web như trên được xây dựng hoàn toàn trong Flash, và đáng buồn là
điều này cũng có nghĩa, các công cụ tìm kiếm không thể tìm thấy bất cứ
chỉ mục văn bản nào hay
thậm chí là các liên kết đến trò chơi riêng lẻ. Nếu không có bất kì một
văn bản HTML nào, website này sẽ có một khoảng thời gian rất khó khăn
trong việc xếp hạng các kết quả tìm kiếm.
Đây thực sự là một việc làm khôn ngoan bởi bạn không chỉ có thể kiểm
tra nội dung văn bản, mà bạn còn có thể sử dụng các công cụ
SEO
để kiểm tra rằng các trang mà bạn đang xây dựng đang có những bước tiến
khả quan. Tuy nhiên, điều này áp dụng cho các image của bạn, cũng như
cho các liên kết mà bạn sẽ thấy ở dưới đây.
Crawler
Trên một trang web, các
SE cần được nhìn thấy nội
dung để liệt kê các trang quan trọng nhất dựa trên từ khóa được đưa ra
cũng như cần đi theo các liên kết để phát hiện ra nội dung. Các SE cần
được quyền truy cập vào một cấu trúc liên kết để cho phép các spider
kiểm duyệt các đường đi của website - bằng cách này, spider có thể có
thể tìm được tất cả các web page trên cùng 1 site. Có hàng trăm, hàng
nghìn trang web mắc sai lầm quan trọng khi giấu hoặc chuyển hướng các
liên kết nội bộ bằng những cách khiến spider không thể truy cập và thu
thập dữ liệu, và do đó ảnh hưởng tới khả năng các trang được liệt kê
trong chỉ số của công cụ tìm kiếm. Dưới đây là một ví dụ:
Trong ví dụ trên, bạn sẽ thấy Google spider đang index nội dung của
trang A và thấy ở đây, trang A có liên kết nội bộ đến trang B và E. Tuy
nhiên, mặc dù trang C và D có thể quan trọng trên site nhưng spider
không thể tiếp cận được bằng bất cứ cách nào (thậm chí biết rằng trang C
và D có tồn tại) vì các trang đó không có một liên kết trực tiếp nào
trỏ đến nó. Theo như Google, thì có thể trang đó không tồn tại nội dung
quan trọng, có chứa các từ khóa quan trọng, và nếu điều hướng tốt sẽ
giúp cho các spider không nhận thấy bất kỳ sự khác biệt nào trên các web
page trong site của bạn, giúp nó có thể thu thập dữ liệu tốt hơn.
Trong ví dụ minh họa ở trên, thẻ ở mục Start of link tag cho thấy
việc bắt đầu của một liên kết. Thẻ liên kết có thể chứa hình ảnh, văn
bản, hoặc một hình thức nào đó, Tất cả những điều này có thể giúp người
dùng click vào bất cứ điểm nào trên trang web để liên kết đến một trang
khác. Đây chính là yếu tố định hướng ban đầucủa internet "Siêu liên kết"
(Hyper link). Tiếp theo đó phần link referral location cho biết vị trí
xuất hiện liên kết các điểm, trong ví dụ này,
http://www.jonwye.com
là một URl được tham chiếu. Tiếp theo đó, là một phần của liên kết mà
người truy cập có thể nhìn thấy được- "anchor text" , miêu tả trang web
mà liên kết dẫn tới.Trang web ở đây giới thiệu sản phẩm dây thắt lưng
của Jon Wye từ Washington DC, vì vậy tôi đã sử dụng đoạn
anchor text
"Các mẫu thắt lưng được thiết kế theo phong cách của Jon Wye". Tag đóng
liên kết, do vậy bất kể phần tử nào trong trang đều không có thuộc tính
liên kết.
Đây là định dạng cơ bản nhất của một liên kết mà các SE có thể dễ
dàng hiểu được. Các spider nhân thất nên thêm vào trên biểu đồ liên kết
của trang web loại link này, để thông qua đó tính toán các truy vấn các
biến độc lập (như PR của Google), và theo đó khảo sát nội dung của trang
tham chiếu.
Một vài lý do khiến cho trang web không thể được lập chỉ mục:
- Liên kết thông qua các form yêu cầu
Nếu bạn yêu cầu người dùng hoàn thành một form online trước khi truy
cập vào một nội dung nhất định, tuy nhiên điều này rất có thể sẽ khiến
các SE gặp khó khăn trong việc tìm thấy các page này. Các form yêu cầu
có thể bao gồm các yêu tố cơ bản như một mật khẩu đăng nhập hay một biểu
mẫu khá phức tạp. Trong cả hai trường hợp, Google Spider sẽ không cố
gắng tìm kiếm và lập chỉ mục, bởi có một số nội dung hay liên kết được
truy cập thông qua một form bị vô hình với bộ máy tìm kiếm.
- Liên kết đặt trong Un-Parseable Javascript
Liên kết được xây dựng bằng cách sử dụng Javascript sẽ khiến cho các
SE gặp khó khăn trong việc thu thập hay khảo sát các liên kết được nhúng
trong đó. Thay vì sử dụng Javacript làm liên kết, Google khuyến khích
nên dùng các liên kết HTML tiêu chuẩn trên trang web để giúp quá trình
thu thập của các Spider trở nên dễ dàng hơn.
- Liên kết trỏ đến các trang bị chặn bởi Robots Meta tag hoặc Robots.txt.
Các thẻ Meta Robots và file Robots.txt cho phép các chủ sở hữu trang
web có thể hạn chế Spider truy cập đến một trang nào đó. Nhiều webmaster
vô tình áp dụng các chỉ thị này như cách để chặn đứng truy cập bởi các
rouge bot (chương trình giả mạo) , và sau đó phát hiện SE đã ngừng thu
thập dữ liệu trên web của họ.
- Liên kết trong các Frames hoặc I-Frames.
Về mặt kỹ thuật, liên kết trong cả Frames và I-Frames đều có thể thu
thập dữ liệu. Tuy nheien cả hai cấu trúc hiện nay vẫn còn khá nhiều vẫn
đề khiến cho bộ máy tìm kiếm gặp khó khăn khi thu thập dữ liệu. Chỉ một
số ít quản trị web chuyên nghiệp, có hiểu biết kỹ thuật tốt mới có thể
giúp các SE dễ dàng index và follow các liên kết trong Frames. Vì vậy,
không nên sử dụng Frames hoặc I-Frames để kết nối với các liên kết nội
bộ.
- Robot không sử dụng các hình thức tìm kiếm
Mặc dù điều này liên quan trực tiếp đến cảnh báo về form ở trên, đó
là một vấn đề khá phổ biến thường xuyên được nhắc đến. Nhiều webmaster
cho rằng đặt một box tìm kiếm trên web của họ, các SE sẽ giúp người truy
cập tìm thấy mọi thứ họ muốn. Nhưng thật không may, các Spider sẽ không
cố gắng để thực hiện việc tìm nội dung và do đó, sẽ có hàng nghìn trang
được ẩn sau hộp thoại tìm kiếm nội bộ mà nó không thể tiếp cận.
- Liên kết trong Flash, java hoặc các Plug-in.
Các liên kết được nhúng trong trang web panda (trong ví dụ trên) là
một minh họa hoàn chỉnh cho hiện tượng này. Mặc dù, có hàng chục thuật
toán panda được liệt kê và liên kết trên trang panda, nhưng không có một
Spider nào có thể tiếp cận được với chúng thông qua cấu trúc liên kết
của site, điều này khiến các liên kết trên trở nên vô hình với các SE
(và cũng không thể phục hồi được bởi việc thực hiện một truy vấn tìm
kiếm).
- Liên kết trong trang có hàng trăm, hàng nghìn liên kết.
Các SE đều chỉ thu thập dữ liệu từ một số lượng nhất định các liên
kết. Sự giới hạn này cần thiết phải linh hoạt hơn nữa nhằm hạn chế phần
nhiều spam và duy trì thứ hạng. Trong thực tế, Nguy cơ không nhận được
liên kết thu thập và lập chỉ mục sẽ xảy ra với những trang có khoảng 100
liên kết trên chúng.
Rel = "nofollow" có thể được sử dụng với cú pháp sau:
<a href="http://www.idichvuseo.com" rel="nofollow"> Lousy Punks </ a>!
Liên kết có thể có các thuộc tính bổ sung để các công cụ bỏ qua gần hết chúng, với ngoại lệ quan trọng của thẻ
rel = "nofollow" tag. Trong ví dụ trên, bằng cách đặt các thuộc tính Rel=nofollow vào thẻ, sẽ cho SE biết rằng
không nên đi theo các liên kết trên web của bạn hoặc không nên đưa danh tiếng web của bạn đến những web được liên kết tới.
Nofollow hiểu theo nghĩa thông thường, đó là thông báo cho các công
cụ tìm kiếm không nên đi theo một liên kết nhất định. Thẻ nofollow giúp
ngăn chặn các comment tự động trên blog, guestbook, các spam có nhúng
link, nhưng đã biến thể từ cách thông tin cho máy tìm kiếm giảm bớt giá
trị liên dưới mức thông thường. Mỗi công cụ có cách giải thích các liên
kết được gắn với thẻ nofollow khác nhau, nhưng chất lượng của các liên
kết nofollow không bằng các liên kết follow.
Các liên kết Nofollow là không tốt?
Mặc dù, về giá trị, các liên kết nofollow
không thể ngang bằng loại liên kết hàng xóm "follow", nhưng chúng là
một phần tự nhiên của một hồ sơ liên kết đa dạng. Một trang web với rất
nhiều inboun link (những link đến web của bạn) sẽ tích lũy rất nhiều
liên kết nofollow, và bạn đừng nghĩ điều này là không tốt. Trong thực
tế, Ranking Factors của Seomoz chỉ ra rằng đa phần các trang web có thứ
hạng cao đều có tỷ lệ phần trăm các inbound nofollow link nhiều hơn các
web thứ hạng thấp hơn.
Google
Chúng tôi không
đi theo các liên kết đó. Điều này có nghĩa là Google không chuyển
PageRank hoặc chuỗi ký tự liên kết qua những liên kết này. Về cơ bản,
việc sử dụng nofollow khiến khúng tôi phải loại các liên kết đích khỏi
đồ thị trang web tổng thể của chúng tôi. Các liên kết nofollow không có
chất lượng và chỉ có hiểu được ở dạng HTML (như thể các liên kết đó
không tồn tại). Vậy nên, thậm chí chỉ một liên kết nofollow từ một trang
web có độ uy tín cao, như Wikipedia cũng khiến các webmaster tin tưởng
rằng đó có thể là một tín hiệu rất khả quan.
Bing và Yahoo!
Bing và Yahoo
cũng tuyên bố rằng trong đồ thị liên kết của trang web không chứa các
liên kết nofollo. Trước đây, các trình thu thập thông tin của Bing và
Yahoo được phép sử dụng các liên kết này để phát hiện thêm các trang
mới. Tuy nhiên họ lại không coi chúng như một yếu tố tác động tích cực
đến bảng xếp hạng.
Mục tiêu và cách sử dụng từ khóa:
Từ khóa là cơ sở cho quá trình tìm kiếm, chúng là những "viên gạch"
xây dựng nên ngôn ngữ và tìm kiếm. Trong thực tế, toàn bộ các cơ sở khoa
học cho truy vấn thông tin (bao gồm cả công cụ tìm kiếm dựa trên web
như Google) đều dựa vào từ khóa. Các công cụ tìm kiếm thu thập dữ liệu
và nội dung chỉ mục trên khắp các website và chúng theo dõi các trang
web theo chỉ số dựa trên các từ khóa. Vì vậy, thay vì lưu trữ toàn bộ 25
ty trang web trong một cơ sở dữ liệu, các công cụ lưu trữ hàng triệu
hàng triệu các dữ liệu nhỏ hơn, mỗi dữ liệu đó tập trung trên một thuật
ngữ hoặc một cụm từ khóa cụ thể. Điều này giúp các công cụ tăng tốc độ
lấy dữ liệu lên rất nhiều, có thể chỉ cần chưa tới một giây.
Rõ ràng, nếu bạn muốn website của mình có cơ hội được xếp hạng trong
top của bảng xếp hạng tìm kiếm với từ khóa "dog", hãy đảm bảo rằng từ
"dog" là một phần trong nội dung có thể lập chỉ mục tài liệu.
Ưu thế từ khóa (Keyword Domination):
Keyword Domination có mục đích và trong việc tìm kiếm tương tác với
các công cụ tìm kiếm, chẳng hạn một mô hình truy vấn tìm kiếm phổ biến
có thể đi theo cách này:
Khi việc tìm kiếm được thực hiện, công cụ tìm kiếm sẽ tìm đến website
dựa trên những từ đã được nhập vào box tìm kiếm. Các dữ liệu khác, ví
dụ như vị trí của từ (tanks shooting vs shooting tanks), chính tả, chấm
câu, hay các từ khóa được viết hoa chữ cái đầu sẽ cung cấp thêm nhiều
thông tin bổ sung giúp bộ máy tìm thấy chính xác các trang và xếp hạng
chúng.
Các SE cân nhắc, dự liệu các cách keyword được dùng trên các trang,
hỗ trợ việc xác định tính "liên quan" của một tài liệu cụ thể cho một
truy vấn giúp hoàn thành quá trình tìm kiếm. Quan trọng nhất trong những
cách "tối ưu hóa" các xếp hạng trên trang, tiêu đề trang, văn bản và
các dữ liệu meta tốt hơn là nên sử dụng các thuật ngữ từ khóa nổi bật.
Nên nhớ rằng, các từ khóa của bạn càng cụ thể đến đâu, thì việc xếp
hạng càng dễ dàng hơn, sự cạnh tranh trở nên thấp hơn. Minh họa bên trái
chỉ ra
sự phù hợp của một tiêu đề cụ thể với những thuật ngữ từ
khóa rõ ràng, Tale of two cities. Chú ý rằng, một thuật ngữ rộng (broad
term) bao giờ cũng nhận được khá nhiều các kết quả, nhưng con số các kết
quả thực dụng trả về không nhiều.
Lạm dụng từ khóa:
Kể từ khi bắt đầu thời đại của tìm kiếm online, con người đã sai lầm
lạm dụng các từ khóa để điều khiển các SE như việc cố gắng nhồi các từ
khóa vào văn bản, thẻ URL, thẻ meta hay liên kết. Thật không may, chiến
thuật này có thể gây nguy hiểm không nhỏ cho trang web của bạn.
Thời gian đầu, SE chỉ dựa vào mật độ sử dụng từ khóa để dánh giá tính
liên quan của từ khóa được sử dụng. Ngày nay, với việc sử dụng máy học
(machine learning), các SE có thể tiếp cận gần hơn với nội dung của văn
bản.
Cách tốt nhất là sử dụng các từ khóa một cách tự nhiên và có chiến
lược. Bạn có thể đưa vào các thông tin về tháp Eiffel, lịch sử của nó
hay thậm chí là giới thiệu về các khách sạn ở Pari cho từ khóa mà trang
web bạn đang nhắm tới "tháp Eiffel". Hay chỉ là dùng từ khóa đó và gắn
nó với những trang thông tin chẳng hề liên quan như trang về gây giống
chó, và bạn sẽ thấy sau đó là một cuộc chiến khó khăn dài lâu cho việc
xếp hạng từ khóa "tháp Eiffel".
Mật độ từ khóa:
Mật độ từ khóa - một huyền thoại hoàn chỉnh như môt thành phần thuật
toán xếp hạng hiện đại, được giải thích đầy đủ trong bài viết "
Nếu hai tài liệu, D1 và D2 bao gồm 1000 thuật ngữ (l=1000), một thuật
ngữ được lặp lại 20 lần (tf=20). Phân tích mật độ từ khóa sẽ cho thấy, ở
cả 2 tài liệu mật độ từ khóa (KD) = 20/1000 = 0,020 (2%) cho thuật ngữ
đó. Khi tf=10, và l=500, chúng ta sẽ nhận được các giá trị như nhau. Rõ
ràng một phân tích mật độ từ khóa không thiết lập các nội dung liên quan
nhiều hơn đến tài liệu. Vậy, chúng ta biết được điều gì thông qua phân
tích đó:
- Khoảngcách tương ứng giữa các từ khóa trong văn bản (proximity)
- Các điều khoản xảy ra tại một nơi trong một tài liệu (distribution)
- Đồng trích dẫn giữa các thuật ngữ (co-occurance)
- Đề tài chính, chủ đề và chủ đề phụ ( các vấn đề liên quan đến chủ đề) của văn bản.
Đừng nghĩ cứ nhồi nhét thật nhiều từ khóa vào mỗi bài viết là tốt, mà
cần có sự lồng ghép từ khóa vào nội dung bài viết một cách tự nhiên với
mật độ hợp lý mới là sự thành công trong việc tối ưu hóa trang web của
bạn.
Tối ưu hóa trang web
Sử dụng từ khóa và mục tiêu từ khóa vẫn luôn là một phần quan trọng
trong các thuật toán xếp hạng của các SE, và chúng tôi có thể tận dụng
những "thực nghiệm tốt nhất" một cách hiệu quả trong sử dụng từ khóa để
tạo ra các trang web gần đạt được "tối ưu". Tại Seomoz, chúng tôi đã
tham gia rất nhiều các thử nghiệm và nhận được một số lượng lớn các kết
quả tìm kiếm cũng như các thay đổi dựa trên chiến thuật sử dụng từ khóa.
Bạn nên tuân theo quá trình dưới đây khi làm việc với một trong các
trang web của bạn:
- Sử dụng từ khóa trong thẻ tiêu đề ít nhất một lần. Tiêu đề trang tốt
hơn là nên sử dụng các thuật ngữ từ khóa/cụm từ là từ đầu tiên. (Xem
chi tiết trong phần "thẻ tiêu đề")
- Đặt từ khóa nổi bật một lần ở gần đầu của trang web
- Đối với các văn bản kể cả các văn bản biến thể, sao chép trên trang
web, nên đặt từ khóa ít 2-3 lần, lưu ý, đôi khi chúng ta có thể dùng
nhiều từ khóa hơn đối với nhưng trang web có nhiều nội dung văn bản. Với
việc sử dụng thêm nhiều từ khóa và biến thể sẽ mang lại cho bạn một số
giá trị bổ sung (additional value) khác nữa. Tuy nhiên, đừng đưa thêm
nhiều các trường hợp của thuật ngữ hay cụm từ, vì điều này có thể tác
động không tốt đến thứ hạng của web bạn.
- Chèn từ khóa của bạn trong văn bản Alt cho hình ảnh ít nhất 1 lần.
Điều này không chỉ giúp tìm kiếm web, mà còn tìm kiếm hình ảnh, hơn thế
nữa còn tăng lượng traffic giá trị cho trang web của bạn.
- Nên khéo léo chèn vào URL một từ khóa. Quy luật cấu trúc URL và từ khóa được thảo luận sau trong phần này.
- Từ khóa nên được nằm đâu đó trong nội dung thẻ mô tả ít nhất một
lần. Một lưu ý rằng, SE không đánh giá xếp hạng dựa vào các thẻ meta mô
tả. Các thẻ này hiển thị trong kết quả tìm kiếm có tác dụng thu hút
người tìm kiếm nhấp chuột vào trang web của bạn.
- Nói chung, không nên đặt từ khóa trong liên kết anchor text trên
trang gốc trỏ đến các trang web khác trên site của bạn hay các domain
khác. (điều này khá phức tạp, xem thêm các bài viết trên blog này)
Thẻ tiêu đề:
Tiêu đề của một trang web chính là yếu tố mô tả ngắn gọn, chính xác
nội dung của một trang web, có tính quyết định tới cả kinh nghiệm người
sử dụng cũng như
SEO.
Bởi thẻ tiêu đề là quan trọng nhất trong tất cả các thẻ và có giá trị
cao nhất về tối ưu hóa website, vì vậy việc thực hành để tạo ra một thẻ
tiêu đề tốt là nhiệm vụ đơn giản nhất và có hiệu quả nhất.. Các lưu ý
dưới đây bao gồm việc làm thế nào để tối ưu hóa thẻ tiêu đề với công cụ
tìm kiếm và cho mục đích sử dụng:
SE chỉ hiển thị 65-67 ký tự đầu tiên của một thẻ tiêu đề trong các
kết quả tìm kiếm. (và sẽ là dấu "…" để thể hiện rằng thẻ tiêu đề đã được
cắt bỏ). Đây là giới hạn chung áp dụng cho kể cả các phương tiện truyền
thông và các trang web, do đó hãy tận dụng nó một cách khôn ngoan. Tuy
nhiên, nếu bạn đang có ý định sử dụng nhiều từ khóa (hay một cụm từ
khóa), và việc dùng chúng trong thẻ tiêu đề là rất cần thiết để xếp
hạng, điều này giúp bạn tiến xa hơn nữa.
- Đặt từ khóa quan trọng gần phần đầu thẻ tiêu đề:
Từ khóa được đặt càng gần đầu tiên của thẻ tiêu đề thì nó càng giúp
ích hơn cho việc xếp hạng và khả năng người dùng sẽ click vào kết quả
tìm kiếm nhiều hơn.
Tại Seomoz, chúng tôi khuyên bạn nên đặt tên thương hiệu ở phần cuối
thẻ tiêu đề thay vì ở đầu, điều này giúp tăng nhận thức về thương hiệu,
và tạo ra tỷ lệ nhấp chuột cao hơn cho những người yêu thích và cảm thấy
quen thuộc với thương hiệu đó. Đôi khi, tên thương hiệu đặt ở vị trí
bắt đầu của thẻ tiêu đề, chẳng hạn như ở trang chủ cũng mang lại tác
động khá tích cực cho xếp hạng tìm kiếm của trang web.
- Xem xét khả năng đọc và tác động cảm xúc:
Thẻ tiêu đề nên được mô tả dễ hiểu. Việc tạo một thẻ tiêu đề hấp dẫn
sẽ kéo được nhiều lượt truy cập vào trang web hơn từ kết quả tìm kiếm.
Do đó, điều quan trọng là không chỉ cần nghĩ đến tối ưu hóa và sử dụng
từ khóa, mà còn phải nghĩ đến trải nghiệm của người dùng. Thẻ tiêu đề là
sự tương tác đầu tiên tới những visitor mới khi họ tìm thấy trong kết
quả tìm kiếm. Vậy nên, hãy truyền tải những ấn tượng nhất có thể.
"Các thẻ tiêu
đề của bất kỳ một trang nào cũng đều xuất hiện ở phía trên cùng của
trình duyệt Internet, và thường được coi như là tiêu đề khi nội dung của
bạn được chia sẻ thông qua các phương tiện truyền thông xã hội hoặc tái
xuất bản".
"Sử dụng các từ
khóa trong thẻ tiêu đề có nghĩa là SE sẽ "bôi đậm" những thuật ngữ
trong các kết quả tìm kiếm khi truy vấn tìm kiếm với các thuật ngữ của
người dùng được thực hiện. Điều nay mang lại khả năng hiển thị lớn hơn
và tỷ lệ nhấp chuột cao hơn cho trang web của bạn".
"Việc tạo ra
các mô tả, và đặt từ khóa trong thẻ tiêu đề mang lại ảnh hưởng tích cực
cho quá trình xếp hạng của SE. Trong một khảo sát định kỳ 6 tháng của
các chuyên gia SEO, 94% người tham gia nói rằng thẻ tiêu đề là nơi quan
trọng nhất để đặt các từ khóa giúp đạt được thứ hạng cao".
Thẻ Meta
Thẻ Meta được dùng để cung cấp thông tin về nội dung của một trang
web từ một địa chỉ proxy. Dưới đây, tôi sẽ liệt kê các thẻ meta cơ bản
và các mô tả về cách sử dụng của chúng:
Meta Robots:
Thẻ meta robot được sử dụng để kiểm soát hoạt động tìm kiếm của các
spider. Các cách sử dụng robot meta để kiểm soát việc đánh giá một trang
web của SE:
Index/noindex thông báo cho SE các trang nên được
thu thập và lưu giữ trong chỉ mục của bộ máy để dễ dàng tìm thấy. Nếu
bạn sử dụng "noindex", bộ máy tìm kiếm sẽ loại bỏ các trang web. Theo
mặc định, SE cho rằng chúng có thể lập chỉ mục hầu hết tất cả các trang,
do vậy, sử dụng giá trị "index" là không cần thiết.
Follow/Nofollow thông báo cho SE có thu thập các
liên kết trên trang hay không.Nếu bạn chọn "nofollow", bộ máy sẽ bỏ qua
các liên kết trên trang nghĩa là bỏ qua phát hiện và xếp hạng cho nó.Tất
cả các trang được mặc định thuộc tí "follow". VD: <META
NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Noarchive ngăn chặn Google hiển thị liên kết được
lưu trong bộ nhớ Cache của trang. Theo mặc định, các bản sao lưu của tất
cả các trang web đã được SE index sẽ được bộ máy duy trì, có thể truy
cập để tìm kiếm thông qua các liên kết "cached"trong các kết quả tìm
kiếm.
Nosnippet thông báo cho SE ngăn chặn hiển thị một đoạn trích mô tả bên cạnh tiêu đề trang và URL trong các kết quả tìm kiếm
Noodp/noydir thông báo cho SE không lấy một đoạn mô
tả về một trang từ Open Directory Project (Dmoz) hoặc Directorty Yahoo!
để hiển thị các kết quả tìm kiếm.
Thẻ X-Robots HTTP header cũng định hướng hoàn thành những nội dung
như trên. Kỹ thuật này đặc biệt tốt cho nội dung nằm trong file không
định dạng HTML vd như file hình ảnh.
Thẻ mô tả (Meta description):
Thẻ mô tả, một thuộc tính của HTML, cung cấp giải thích ngắn gọn về
nội dung của trang web. SE không sử dụng các từ khóa hoặc cụm từ khóa
trong thẻ này để đánh giá xếp hạng, mà sử dụng trong các kết quả tìm
kiếm để hiển thị các đoạn xem trước của một trang web nhất định.
Thẻ miêu tả thực hiện chức năng như một bản quảng cáo, thu hút người
đọc đến website qua kết quả tìm kiếm và do đó, nó là một phần rất quan
trọng của tiếp thị tìm kiếm. Một miêu tả dễ đọc, hấp dẫn sử dụng từ khóa
quan trọng (Google bôi đậm các từ khóa tìm kiếm trong phần mô tả) sẽ
đem lại tỉ lệ click rất cao tới trang web.
Thẻ miêu tả có thể có độ dài tùy ý, nhưng SE thường cắt đi đoạn dài
hơn 160 ký tự. Vì thế, tốt nhất nên để độ dài vào khoảng 150-160 ký tự.
Trong trường hợp không có mô tả, SE sẽ tạo ra các đoạn mã tìm kiếm
dựa vào môt số yếu tố khác của trang. Đối với các trang nhắm tới nhiều
từ khóa và topic, thì đây là một chiến thuật hoàn toàn hợp lý.
Các thẻ meta không còn quan trọng:
Meta keyword
Meta keyword không còn là yếu tố quan trọng trong tối ưu hóa. (đọc
thẻ meta keyword 101 của SearchEngineLand để biết thêm quá trình và các
lý do khiến thẻ này không còn quan trọng).
Các loại thẻ meta refresh, meta revisit-after, meta content, vv
Mặc dù những thẻ này có thể được dùng cho tối ưu hóa, tuy nhiên chúng
ít quan trọng đối với quá trình này. Đọc Meta Tags trong Google’s
Webmaster Tools Help để biết chi tiết.
Cấu trúc URL:
URL, viết tắt của Uniform Resource Locator, là địa chỉ web cho một
tài liệu cụ thể, có giá trị khá quan trọng trong lĩnh vực tìm kiếm,
chúng xuất hiện ở những vị trí quan trọng.
SE hiển thị các URL trong các kết quả tìm kiếm, cho phép click qua và
nhìn thấy chúng. URL cũng được sử dụng trong việc xếp hạng văn bản, và
việc sử dụng đúng mô tả và từ khóa sẽ mang lại nhiều lợi ích các trang
web có xuất hiện các thuật ngữ truy vấn tìm kiếm.
Các URL xuất hiện trên thanh công cụ địa chỉ của trình duyệt web,
điều này có tác động ít đến SE, các cấu trúc và thiết kế URL nghèo nàn
trong trải nghiệm tiêu cực của người sử dụng.
URL trên được sử dụng như một liên kết anchor text trỏ tới trang tham khảo trong phần post ở blog này.
Hướng dẫn xây dựng URL:
- Thấu hiểu tâm lý người dùng:
Đặt mình vào vì trí của người dùng và xem xét địa chỉ URL của bạn.
Nếu bạn có thể dự đoán một cách dễ dàng và chính xác nội dung mà bạn
mong muốn thấy trên website , từ đó có cách mô tả thích hợp cho URL của
bạn. Bạn không cần giải thích rõ ràng từng chi tiết trong URL, Có một ý
tưởng đại khái thôi đã là một khởi đầu khá tốt đẹp.
- Độ dài thích hợp: URL của web phải ngắn gọn.
URL mô tả rất quan trọng. Việc giảm thiểu độ dài và các dấu gạch chéo
sẽ giúp cho URL của bản có thể được sao chép và dán dễ dàng hơn (vào
email, bài viết blog, tin nhắn văn bản, v.v…), cũng như được hiển thị
hoàn toàn trong các kết quả tìm kiếm.
- Việc sử dụng từ khóa là rất quan trọng và cần thiết (nhưng sử dụng quá mức sẽ rất nguy hiểm)
Nếu trang của bạn nhắm đến một thuật ngữ hay một cụm từ cụ thể nào
đó, hãy chắc chắn thuật ngữ hay cụm từ đó đã được sử dụng trong URL. Tuy
nhiên, đừng quá lạm dụng trong việc cố gắng sử dụng càng nhiều từ khóa
càng tốt cho mục đích SEO. Hành động này sẽ chỉ khiến cho việc sử dụng
URL của bạn bị giảm và URL có thể bị chuyển đến bộ lọc rác.
- Chuyển URL động thành URL tĩnh:
Các URL tốt nhất là các URL dễ đọc, dễ hiểu mà không có nhiều các
thông số, chữ số và kí hiệu. Sử dụng các công nghệ như mod_rewrite cho
Apache và ISAPI_review cho .
Khi gặp Các thông số trong một URL động, SE sẽ gặp đôi chút khó khăn
trong quá trình đọc và hiểu URL đang mô tả điều gì. Điều này sẽ làm
Spider tốn thời gian để thu thập dữ liệu.
- Sử dụng các dấu gạch ngang để phân cách các từ:
Không phải tất cả các ứng dụng web đều có thể nhận biết các dấu hiệu
phân cách như dấu gạch dưới "_", dấu cộng "+", hoặc dấu cách"%20", do
đó, hãy sử dụng dấu gạch ngang "-" như một yếu tố để phân cách các từ
trong URL của bạn, chẳng hạn như ở ví dụ trên: google-fresh-factor.
Canonical và Nội dung trùng lặp:
Nội dung trùng lặp là một trong những vấn đề gây nhiều tranh cãi và
rắc rối nhất mà bất cứ trang web nào cũng có thể phải đối mặt. Trong vài
năm qua, Google đã nghiêm khắc hạ thấp thứ hạng hoăc phạt tiền đối với
trường hợp các trang web có những nội dung trùng lặp và kém chất lượng.
Canonicalization (quá trình chọn lọc giữa các liên kết) xảy ra khi
hai hoặc nhiều bản sao của một website xuất hiện trên các URL khác nhau.
Với các hệ thống quản lý nội dung hiện nay, điều này đang rất phổ biến.
Ví dụ, bạn cung cấp cùng một nội dung cho một phiên bản thường xuyên
của một trang và một phiên bản "print optimized". Thậm chí, sự trùng lặp
nội dung còn có thể xuât hiện trên nhiều trạng web khác. Đối với các
công cụ tìm kiếm, thì điều này thật sự nên tránh, vì máy tìm kiếm không
biết nên lựa chọn nội dung nào là phiên bản gốc để hiển thị cho người
dùng? Theo các chuyên gia thì đây chính là vấn đề của sự trùng lặp nội
dung.
Máy tìm kiếm không thích các web bị trùng lặp phiên bản, nội dung hay
bài viết. Nhằm hướng đến người dùng, các công cụ tìm kiếm hiếm khi hiển
thị phần lớn các nội dung trùng lặp và do đó, chúng buộc phải lựa chọn
phiên bản nào có nhiều khả năng là bản gốc nhất. Và kết quả cuối cùng là
TẤT CẢ các nội dung trùng lặp của bạn đều bị xếp hạng thấp hơn thứ hạng
thực chất của chúng.
Canonicalization thường đề cập đến nội dung của khối nội dung bên
trong, mà nội dung đó chỉ nên có duy nhất tại một địa chỉ URL mà thôi.
Nếu trang web của bạn có chưa nhiều những phiên bản nội dung (hay nhiều
website), bạn có thể sẽ phải kết thúc với kịch bản như hình ảnh bên
phải. Đâu mới là viên kim cương thật?
Thay vào đó, nếu trang web của bạn có 3 liên kết khác , và bạn sử
dụng chuyển hướng 301, SE sẽ chỉ tìm ra một trang mạnh nhất từ trang đó
để hiển thị trong danh sách.
"
Khi các trang với nhiều khả năng được xếp hạng tốt được kết hợp
thành một trang duy nhất, chúng không còn cạnh tranh với nhau, mà tạo ra
một sự liên quan mạnh mẽ và tín hiệu phổ biến tổng thế. Điều này sẽ tác
động tích cực đến khả năng được xếp hạng tốt trong công cụ tìm kiếm".
Một tùy chọn khác để đối phó với nội dung trùng lặp là sử dụng
rel=canonical tag. Cách này cũng có thể được sử dụng trên các trang web
khác nhau, từ một URL trên một domain này tới một URL khác trên domain
khác.
Sử dụng canonical tag trong trang có chứa nội dung trùng lặp. Mục tiêu của thẻ này là giúp chỉ ra URL chủ mà bạn muốn xếp hạng.
<link rel="canonical" href="http://www.idichvuseo.com/dich-vu-seo.html"/>
Thẻ này thông báo cho Google rằng trang đã đưa nhất định phải được xem là bản sao của
www.idichvuseo.com/dich-vu-seo và tất cả các liên kết, các số liệu nội dung mà SE áp dụng phải được công nhận cho URL kia.
Thuộc tính Canonical URL tag tương tự như cách để chuyển hướng từ một
khía cạnh nào đó . Về bản chất, bạn đang nói với các công cụ tìm kiếm
rằng nhiều trang nên được xem xét như là một trang (Như 301 đã làm) mà
không thực sự chuyển hướng khách truy cập đến một URL mới.
Để biết thêm về các thể loại nội dung trùng lặp khác nhau, mời các bạn tham khảo bài thêm bài viết của tiến sĩ Pete.
Rich Snippets:
Đã bao giờ bạn thấy một kết quả tìm kiếm được đánh giá 5 sao? Rất có
thể, các công cụ tìm kiếm đã nhận được nhiều thông tin hữu ích từ các
Rich Snippet được nhúng trên trang web. Rich Snippet là mộtloại dữ
liệucó cấu trúc cho phép các Webmaster đánh dấu nội dung để có thể cung
cấp các nội dung đó cho các công cụ tìm kiếm.
Trong khi việc sử dụng Rich Snippets và các dữ liệu có cấu trúc không
phải là yếu tố cần thiết với các công cụ tìm kiếm thân thiện thì việc
sử dụng và phát triển chúng sẽ tạo ra rất nhiều lợi thế.
Structured data (cấu trúc dữ liệu) là việc đưa ra thêm đánh dấu nội
dung để giúp các công cụ tìm kiếm có thể dễ dàng xác định loại của nội
dung dó
. Schema.org đã cung cấp khá nhiều ví dụ về các lợi ích mà
chúng ta có thể nhận được từ việc đánh dấu cấu trúc dữ liệu. Bao gồm về
con người, sản phẩm, đánh giá, doanh nghiệp, công thức nấu ăn và sự
kiện.
Thông thường, các công cụ tìm kiếm đều bao gồm các Structure Data
trong kết quả tìm kiếm, chẳng hạn như ý kiến đánh giá của người dùng
(stars) hay hồ sơ tác giả (pictures). Hiện nay, có rất nhiều tài liệu,
tài nguyên trực tuyến hữu ích mà ở đó bạn có thể tìm hiểu thêm về Rich
Snippets, có thể kể đến như thông tin tại trang Schema.org và
Google's Rich Snippet Testing Tool.
Rich Snippets trong The Wild
Khi bạn muốn thông báo về Hội thảo SEO trên Blog, theo HTML thông thường, mã của bạn có thể như sau:
<div> SEO Conference<br/>
Learn about SEO from experts in the field.<br/>
Event date:<br/>
May 8, 7:30pm
</div>
Tuy nhiên, hiện nay, bằng cách cơ cấu lại dữ liệu, chúng ta có thể
cung cấp cho các công cụ tìm kiếm những thông tin cụ thể hơn về loại dữ
liệu. Kết quả cuối cùng sẽ như sau:
<Divitemscope itemtype = "http://schema.org/Event"><divitemprop = "Tên"> SEO Hội nghị </ div>
<spanitemprop = "description"> Tìm hiểu về SEO từ các chuyên gia trong lĩnh vực này. </ span> Sự kiện:<time itemprop="startDate" datetime="2012-05-08T19:30">ngày 08 tháng 5, 7:30 pm</ time></ div>
Bảo vệ uy tín trang web của bạn:
Làm thế nào mà các Scraper có thể "ăn cắp" thứ hạng của bạn?
Đáng buồn thay, hiện nay đang đầy rẫy hàng trăm nghìn (nếu không muốn
nói là hàng triệu) các trang web kém chất lượng, hoạt động theo cách vô
đạo đức, lưu lượng dữ liệu phụ thuộc vào việc lấy nội dung về lĩnh vực
của họ từ các trang web khác và tái sử dụng lại chúng (đôi khi sửa đổi
theo những cách rất lạ lùng). Việc "ăn cắp" nội dung và tái sử dụng lại
chúng như trên được gọi là "scraping", và các scraper đã thu thập được
đáng kể các lợi ích bằng cách nâng cấp những nội dung đã kiếm được thành
của họ và hiển thị quảng cáo (trớ trêu thay, thông thường lại là
Google's own AdSense program).
Khi bạn xuất nội dung theo bất kì dạng nào sau đây – RSS/ SML/ etc –
hãy đảm bảo rằng bạn đã ping các dịch vụ chính như Bloging hay tracking
(như Google, Technorati, Yahoo!, v.v…). Để tự động hóa quá trình, bạn có
thể tìm các hướng dẫn để ping các dịch vụ như Google và Technorati trực
tiếp từ Website của họ hoặc sử dụng một dịch vụ như pingomatic. Nếu
phần mềm xuất bản (publishing software) của bạn là custom-built (tùy
chỉnh), nó sẽ tự động ping trên publishing.
Tiếp theo, bạn có thể lợi dụng sự lười biếng của các scaper để chống
lại chính họ. Hầu hết các scarper sẽ tái sử dụng lại nội dụng lấy được
mà không qua bất kì sự chỉnh sửa nào, và do đó, bằng cách bao gồm thêm
các liên kết trở lại trang của bạn, cùng đó là bài viết mà chính bạn là
tác giả, có thể chắc chắn rằng, các công cụ tìm kiếm sẽ thấy hầu hết các
bản sao liên kết đều trở lại với bạn (chỉ ra rằng bài viết của bạn
chính là bản gốc). Để làm được điều này, bạn cần phải sử dụng các liên
kết tuyệt đối, hay đúng hơn là các liên kết tương đối trong cấu trúc
liên kết nội bộ của bạn. Do đó, thay vì sử dụng:
<a href="/../> Trang chủ </ a>
Bạn sẽ sử dụng:
<a href="http://www.idichvuseo.com"> Trang chủ </ a>
Bằng cách này, khi một scraper chọn và sao chép nội dung của bạn, liên kết sẽ dẫn đến trang của bạn.
Có nhiều các cách nâng cao hơn để bảo vệ và chống lại việc Scraping,
nhưng không một cách nào trong số đó là hoàn toàn rõ ràng và hiệu quả.
Bạn cũng nên kì vọng rằng, tần suất nội dung của bạn bị lấy và tái sử
dụng càng cao cũng đồng nghĩa với việc, trang web của bạn đang ngày càng
trở nên phổ biến hơn. Vấn đề này, bạn có thể bỏ qua trong một vài lần,
nhưng nếu mọi việc trở nên tồi tệ hơn, khi mà các scraper làm ảnh hưởng
tới xếp hạng tìm kiếm và lưu lượng truy cập của bạn, hãy cân nhắc tới
việc sử dụng một quy trình hợp pháp gọi là DMCA takedown.