Definicja Spidering i roboty indeksujące

Spiders & Web Crawlers: Co musisz wiedzieć, aby chronić dane witryny

Pająki to programy (lub skrypty automatyczne), które "przeszukują" sieć, szukając danych. Pająki przemieszczają się przez adresy URL witryny i mogą pobierać dane ze stron internetowych, takich jak adresy e-mail. Pająki są również wykorzystywane do podawania informacji znalezionych w witrynach internetowych do wyszukiwarek.

Pająki, które nazywane są również "przeszukiwaczami sieci", przeszukują sieć i nie wszystkie są przyjazne w ich intencjach.

Spamerzy Strony internetowe pająków zbierają informacje

Google, Yahoo!

i inne wyszukiwarki nie są jedynymi, które są zainteresowane przeszukiwaniem stron internetowych - tak samo są z oszustami i spamerami.

Pająki i inne zautomatyzowane narzędzia są wykorzystywane przez spamerów do znajdowania adresów e-mail (w Internecie praktyka ta jest często określana jako "zbieranie") na stronach internetowych, a następnie wykorzystywać je do tworzenia list spamowych.

Pająki są również narzędziem wykorzystywanym przez wyszukiwarki do uzyskiwania dodatkowych informacji o Twojej witrynie, ale nie są zaznaczone, a strona bez instrukcji (lub "uprawnień") o tym, jak zindeksować twoją witrynę, może stanowić poważne zagrożenie bezpieczeństwa informacji. Pająki poruszają się pod następującymi linkami i są bardzo kompetentne w znajdowaniu linków do baz danych, plików programów i innych informacji, do których możesz nie chcieć mieć dostępu.

Webmasterzy mogą wyświetlać dzienniki, aby sprawdzić, jakie roboty odwiedzają ich roboty. Informacje te pomagają webmasterom wiedzieć, kto indeksuje ich witrynę i jak często.

Informacje te są przydatne, ponieważ umożliwiają webmasterom precyzyjne dostrojenie ich SEO i aktualizację plików robot.txt w celu uniemożliwienia robotom indeksowania ich witryn w przyszłości.

Wskazówki dotyczące ochrony witryny przed niechcianymi robotami

Istnieje dość prosty sposób na utrzymanie niechcianych robotów poza witryną. Nawet jeśli nie obawiasz się złośliwych pająków indeksujących Twoją witrynę (zaciemnianie adresu e-mail nie chroni Cię przed większością robotów indeksujących), nadal powinieneś zapewnić wyszukiwarkom ważne instrukcje.

Wszystkie strony internetowe powinny mieć plik znajdujący się w katalogu głównym zwanym plikiem robots.txt. Ten plik umożliwia instruowanie robotów sieciowych w miejscu, w którym mają one wyglądać na stronach indeksowych (chyba że podano inaczej w metadanych danej strony, aby nie były indeksowane), jeśli są one wyszukiwarką.

Tak jak możesz wskazać wybranym robotom indeksującym, w których chcesz je przeglądać, możesz również powiedzieć im, gdzie mogą nie przejść, a nawet zablokować określone roboty z całej witryny.

Należy pamiętać, że dobrze zrobiony plik robots.txt będzie miał ogromne znaczenie dla wyszukiwarek, a nawet może być kluczowym elementem poprawy wydajności witryny, ale niektóre roboty będą nadal ignorować twoje instrukcje. Z tego powodu ważne jest, aby przez cały czas aktualizować oprogramowanie, wtyczki i aplikacje.

Powiązane artykuły i informacje

Ze względu na powszechność zbierania informacji wykorzystywanych do celów niegodziwych (spam), prawodawstwo zostało przyjęte w 2003 r. W celu uczynienia pewnych praktyk nielegalnymi. Te przepisy dotyczące ochrony konsumentów wchodzą w zakres ustawy CAN-SPAM z 2003 roku.

Ważne jest, aby poświęcić czas na zapoznanie się z ustawą CAN-SPAM, jeśli Twoja firma zaangażuje się w masową wysyłkę lub zbieranie informacji.

Więcej informacji na temat przepisów antyspamowych i sposobów radzenia sobie ze spamerami oraz tego, czego nie możesz zrobić jako właściciel firmy, można znaleźć w następujących artykułach: