Chống spamMỗi ngày, hàng triệu trang spam vô ích được tạo. Chúng tôi chống lại spam bằng cách kết hợp các thuật toán máy tính với việc đánh giá thủ công.
Các trang web spam làm mọi cách để giành vị trí đứng đầu trong số các kết quả tìm kiếm thông qua các kỹ thuật như lặp đi lặp lại từ khóa, mua liên kết mà PageRank chấp nhận hoặc đặt văn bản ẩn trên màn hình. Điều này ảnh hưởng không tốt tới tìm kiếm vì các trang web có liên quan bị vùi lấp và sẽ không có lợi cho những chủ sở hữu trang web chân chính do trang web của họ sẽ trở nên khó tìm hơn. Tin tốt là các thuật toán của Google có thể phát hiện phần lớn spam và tự động giảm hạng. Đối với những spam còn lại, chúng tôi có nhóm đánh giá trang web theo cách thủ công.
Xác định spam
Các trang web spam xuất hiện dưới nhiều dạng khác nhau. Một số trang web là văn bản vô nghĩa được tạo tự động mà con người không thể hiểu. Tất nhiên, chúng tôi cũng gặp các trang web sử dụng kỹ thuật spam tinh vi hơn. Hãy xem các ví dụ về “spam thuần túy” là các trang web sử dụng kỹ thuật spam rõ rệt nhất. Đây là luồng ảnh chụp màn hình spam trực tuyến mà chúng tôi đã nhận dạng được theo cách thủ công và gần đây đã bị xóa khỏi các kết quả tìm kiếm.
*Chúng tôi đã xóa một số nội dung khiêu dâm và phần mềm độc hại khỏi bản trình diễn này, còn ngoài ra thì đây là luồng ví dụ mới bằng tiếng Anh chưa được lọc về việc xóa “spam thuần túy”.
Các loại spam
Ngoài các spam đã nêu ở trên, dưới đây là một số loại spam khác mà chúng tôi phát hiện thấy và xử lý.
Kỹ thuật che giấu và/hoặc chuyển hướng lén lút
Trang web dường như đang sử dụng kỹ thuật che giấu (hiển thị nội dung cho người dùng khác với cho công cụ tìm kiếm) hoặc đang chuyển hướng người dùng đến trang khác với trang mà Google thấy.
Trang web bị tấn công
Một số trang trên trang web này có thể đã bị bên thứ ba tấn công nhằm hiển thị nội dung hoặc các liên kết spam. Chủ sở hữu trang web phải thực hiện hành động ngay lập tức để làm sạch trang web của họ và sửa bất kỳ lỗ hổng bảo mật nào.
Văn bản ẩn và/hoặc nhồi nhét từ khóa
Một số trang có thể chứa văn bản ẩn và/hoặc bị nhồi nhét từ khóa.
Tên miền trỏ hướng
Tên miền trỏ hướng là các trang web giữ chỗ với rất ít nội dung duy nhất, do vậy Google thường không đưa các trang web này vào kết quả tìm kiếm.
Spam thuần túy
Có vẻ như trang web sử dụng các kỹ thuật spam có tính công kích chẳng hạn như nội dung vụn vặt, che giấu, văn bản vô nghĩa được tạo tự động từ các trang web khác và/hoặc vi phạm nghiêm trọng hoặc tái vi phạm Nguyên tắc quản trị trang web của Google.
Nhà cung cấp DNS động và máy chủ lưu trữ miễn phí gây ra spam
Trang web được lưu trữ bởi dịch vụ lưu trữ miễn phí hoặc nhà cung cấp DNS động chứa một phần đáng kể nội dung spam.
Nội dung nghèo nàn có ít hoặc không có giá trị gia tăng
Có vẻ như trang web bao gồm các trang có chất lượng thấp hoặc hời hợt không cung cấp cho người dùng nhiều giá trị gia tăng (chẳng hạn như các trang liên kết nghèo nàn, trang ngõ, các trang web giống nhau hàng loạt, nội dung được tạo tự động hoặc nội dung được sao chép).
Liên kết bất thường từ trang web
Google đã phát hiện ra một mẫu các liên kết bất thường, nhân tạo, giả mạo hoặc nhằm mục đích thao túng xuất phát từ trang web này. Đây có thể là kết quả của việc bán liên kết mà PageRank chấp nhận hoặc tham gia vào các mưu đồ liên kết.
Liên kết bất thường tới trang web
Google đã phát hiện ra một mẫu các liên kết bất thường, nhân tạo, giả mạo hoặc nhằm mục đích thao túng trỏ đến trang web. Đây có thể là kết quả của việc mua các liên kết mà PageRank chấp nhận hoặc tham gia vào các mưu đồ liên kết.
Spam do người dùng tạo
Có vẻ trang web chứa nội dung spam do người dùng tạo. Nội dung có vấn đề có thể xuất hiện trên các trang diễn đàn, các trang lưu bút hoặc tiểu sử người dùng.
Thực hiện biện pháp
Mặc dù các
thuật toán của chúng tôi giải quyết phần lớn spam, chúng tôi giải quyết các spam
còn lại theo cách thủ công để ngăn spam khỏi ảnh hưởng tới chất lượng các kết
quả của bạn. Đồ thị này hiển thị số lượng các miền bị ảnh hưởng bởi thao tác thủ
công theo thời gian và bị tấn công bởi các loại spam khác nhau. Thoạt nhìn số
lượng có vẻ lớn, nhưng web thực sự là một nơi khổng lồ. Ảnh chụp nhanh chỉ mục
gần đây của chúng tôi đã chỉ ra rằng khoảng 0,22% miền đã bị đánh dấu theo cách
thủ công để xóa.
Thao tác thủ công theo tháng
Spam thuần túyCũTrang web bị tấn côngCác liên kết bất thường từ trangweb của bạnNội dung được tạo tự động vàkhông gian vô hạnCác chuyển hướng che giấuvà/hoặc lén lútNội dung nghèo nàn với ít giá trịhoặc không có giá trị gia tăngCác liên kết bất thường tới trangweb của bạnMiền trỏ hướngSpam do người dùng tạo raVăn bản ẩn và/hoặc nhồi nhét từkhóaCác máy chủ lưu trữ thư rác vànhà cung cấp DNS động
Các mốc quan trọng dành cho chống spam theo cách thủ công
Tháng 2 năm 2005
Chúng tôi đã mở rộng nhóm chống spam theo cách thủ công của mình tới Hyderabad, Ấn Độ.
Tháng 3 năm 2005
Chúng tôi đã mở rộng nhóm chống spam theo cách thủ công của mình tới Dublin, Ireland.
Tháng 4 năm 2006
Chúng tôi đã mở rộng nhóm chống spam theo cách thủ công của mình tới Tokyo, Nhật Bản.
Tháng 6 năm 2006
Chúng tôi đã mở rộng nhóm chống spam theo cách thủ công của mình tới Bắc Kinh, Trung Quốc.
Tháng 10 năm 2007 - Danh mục cũ
Vào mùa thu năm 2007, chúng tôi đã thay đổi hệ thống phân loại của mình để lưu dữ liệu ở một định dạng có cấu trúc tốt hơn dựa trên loại vi phạm webspam (điều này đã cho phép chúng tôi tạo đồ thị này). Các thao tác không thể được phân loại phù hợp trong hệ thống mới được xếp vào danh mục “cũ” . Chúng tôi vẫn thực hiện biện pháp đối với các loại spam như liên kết nghèo nàn hoặc kỹ thuật che giấu trước thời điểm này, nhưng số liệu phân tích theo loại spam sẽ chưa có cho các dữ liệu cũ hơn.
Tháng 10 năm 2009 - Liên kết giả từ trang web của bạn
Các cải tiến trong hệ thống của chúng tôi cho phép chúng tôi giảm số lượng thao tác được thực hiện trên các trang web có các liên kết đi giả.
Tháng 11 năm 2009 - Trang web bị tấn công
Chúng tôi nhận thấy một lượng gia tăng các trang web bị tấn công và đã tăng cường nỗ lực nhằm ngăn các trang web này ảnh hưởng tới kết quả tìm kiếm.
Tháng 2 năm 2011 - Nhà cung cấp DNS động và máy chủ lưu trữ miễn phí gây ra spam
Chúng tôi đã tăng cường tính thực thi của chính sách bằng việc thực hiện biện pháp đối với các dịch vụ lưu trữ miễn phí và các nhà cung cấp DNS động khi một phần lớn các trang web của họ vi phạm Nguyên tắc quản trị trang web của chúng tôi. Điều này cho phép chúng tôi bảo vệ người dùng của mình khỏi khả năng thấy spam, khi việc thực hiện biện pháp đối với từng tài khoản spam một là điều không thiết thực.
Tháng 10 năm 2011 - Kỹ thuật che giấu và/hoặc chuyển hướng lén lút
Chúng tôi đã thực hiện thay đổi đối với hệ thống phân loại của mình để phần lớn tác vụ che giấu và chuyển hướng lén lút được gắn nhãn là “Spam thuần túy”. Các tác vụ có liên quan tới những vi phạm ít nghiêm trọng hơn tiếp tục được gắn nhãn riêng.
Tháng 10 năm 2011 - Tên miền trỏ hướng
Chúng tôi đã giảm bớt được công sức trong việc nhận dạng thủ công các tên miền trỏ hướng nhờ những cải tiến trong việc phát hiện các trang web này bằng thuật toán.
Tháng 4 năm 2012
Chúng tôi đã giới thiệu một cập nhật thuật toán có tên mã là “Penguin” có nhiệm vụ giảm xếp hạng của các trang web sử dụng kỹ thuật webspam.
Thông báo cho chủ sở hữu trang web
Khi chúng tôi thực hiện thao tác thủ công trên trang web, chúng tôi cố gắng thông báo cho chủ sở hữu của trang web để giúp họ giải quyết sự cố. Chúng tôi muốn chủ sở hữu trang web có những thông tin mà họ cần để điều chỉnh trang web của họ. Đó là lý do tại sao, theo thời gian, chúng tôi đã đầu tư các tài nguyên quan trọng vào giao tiếp và liên lạc của quản trị viên web. Đồ thị sau hiển thị số lượng các thông báo spam được gửi tới chủ sở hữu trang web thông qua Công cụ quản trị trang web.
Lắng nghe phản hồi
Các thao tác thủ công không kéo dài mãi mãi. Sau khi chủ sở hữu trang web làm sạch trang web của họ để xóa nội dung spam, chủ sở hữu trang web có thể yêu cầu chúng tôi xem xét lại trang web bằng cách điền vào yêu cầu xem xét lại. Chúng tôi xử lý tất cả các yêu cầu xem xét lại mà chúng tôi nhận được và trao đổi trong suốt quá trình để cho phép chủ sở hữu trang web biết yêu cầu của họ hiện được xử lý đến đâu.
Trong quá khứ, hầu hết những trang web gửi yêu cầu xem xét lại đều không thực sự bị ảnh hưởng bởi bất kỳ thao tác spam thủ công nào. Thông thường các trang web này chỉ gặp phải sự tăng giảm lưu lượng truy cập trực tuyến tự nhiên, thay đổi trong thuật toán hoặc có thể là sự cố kỹ thuật ngăn Google truy cập vào nội dung trang web. Biểu đồ này hiển thị số lượng yêu cầu xem xét lại hàng tuần kể từ năm 2006.

0 comments:
Post a Comment
Chào các bạn đây là blog chia sẽ về seo cũng như kiến thức seo mà mình đã, đang và thực hiện hy vọng sẽ giúp ích được cho mọi người. Mọi góp ý, thắc mắc mình sẽ cố gắng hồi đáp sớm nhất có thể ^^