Spiders & Web Crawlers: Co musisz wiedzieć, aby chronić dane witryny
Pająki, które nazywane są również "przeszukiwaczami sieci", przeszukują sieć i nie wszystkie są przyjazne w ich intencjach.
Spamerzy Strony internetowe pająków zbierają informacje
Google, Yahoo!
i inne wyszukiwarki nie są jedynymi, które są zainteresowane przeszukiwaniem stron internetowych - tak samo są z oszustami i spamerami.
Pająki i inne zautomatyzowane narzędzia są wykorzystywane przez spamerów do znajdowania adresów e-mail (w Internecie praktyka ta jest często określana jako "zbieranie") na stronach internetowych, a następnie wykorzystywać je do tworzenia list spamowych.
Pająki są również narzędziem wykorzystywanym przez wyszukiwarki do uzyskiwania dodatkowych informacji o Twojej witrynie, ale nie są zaznaczone, a strona bez instrukcji (lub "uprawnień") o tym, jak zindeksować twoją witrynę, może stanowić poważne zagrożenie bezpieczeństwa informacji. Pająki poruszają się pod następującymi linkami i są bardzo kompetentne w znajdowaniu linków do baz danych, plików programów i innych informacji, do których możesz nie chcieć mieć dostępu.
Webmasterzy mogą wyświetlać dzienniki, aby sprawdzić, jakie roboty odwiedzają ich roboty. Informacje te pomagają webmasterom wiedzieć, kto indeksuje ich witrynę i jak często.
Informacje te są przydatne, ponieważ umożliwiają webmasterom precyzyjne dostrojenie ich SEO i aktualizację plików robot.txt w celu uniemożliwienia robotom indeksowania ich witryn w przyszłości.
Wskazówki dotyczące ochrony witryny przed niechcianymi robotami
Istnieje dość prosty sposób na utrzymanie niechcianych robotów poza witryną. Nawet jeśli nie obawiasz się złośliwych pająków indeksujących Twoją witrynę (zaciemnianie adresu e-mail nie chroni Cię przed większością robotów indeksujących), nadal powinieneś zapewnić wyszukiwarkom ważne instrukcje.
Wszystkie strony internetowe powinny mieć plik znajdujący się w katalogu głównym zwanym plikiem robots.txt. Ten plik umożliwia instruowanie robotów sieciowych w miejscu, w którym mają one wyglądać na stronach indeksowych (chyba że podano inaczej w metadanych danej strony, aby nie były indeksowane), jeśli są one wyszukiwarką.
Tak jak możesz wskazać wybranym robotom indeksującym, w których chcesz je przeglądać, możesz również powiedzieć im, gdzie mogą nie przejść, a nawet zablokować określone roboty z całej witryny.
Należy pamiętać, że dobrze zrobiony plik robots.txt będzie miał ogromne znaczenie dla wyszukiwarek, a nawet może być kluczowym elementem poprawy wydajności witryny, ale niektóre roboty będą nadal ignorować twoje instrukcje. Z tego powodu ważne jest, aby przez cały czas aktualizować oprogramowanie, wtyczki i aplikacje.
Powiązane artykuły i informacje
Ze względu na powszechność zbierania informacji wykorzystywanych do celów niegodziwych (spam), prawodawstwo zostało przyjęte w 2003 r. W celu uczynienia pewnych praktyk nielegalnymi. Te przepisy dotyczące ochrony konsumentów wchodzą w zakres ustawy CAN-SPAM z 2003 roku.
Ważne jest, aby poświęcić czas na zapoznanie się z ustawą CAN-SPAM, jeśli Twoja firma zaangażuje się w masową wysyłkę lub zbieranie informacji.
Więcej informacji na temat przepisów antyspamowych i sposobów radzenia sobie ze spamerami oraz tego, czego nie możesz zrobić jako właściciel firmy, można znaleźć w następujących artykułach:
- CAN-SPAM Act 2003
- Zasady działania CAN-SPAM dla organizacji non-profit
- 5 Reguł CAN-SPAM Właściciele małych firm muszą zrozumieć