Roboty - Crawlery, indexery, spidery

Hele, neviete niekto co to ma byt? Mam monitoring webu a tak kazdy druhy den mi napise ze niekto bol na webe s takymto prehliadacom, uz to bolo snad 35krat a mam toho dost... to akoze niekto stahuje moj web... Toj e odporneee.
Vyhledávače jako např. www.google.com musí od někud ty údaje brát. Takže mají speciální programy (roboty), kteří pořád dokola prochází všechny stránky které mají v databázi, ukládají jejich obsah a sledují odkazy z těchto stránek vedoucí. Takže stačí aby odkaz na tvůj web byl na jiné stránce (což už je splněno minimálně zde na wz fóru) a za chvíli budou roboti i u tebe. A budou se pravidelně vracet, kontrétně googlebot je pekelně aktivní ;-)
ahaaaa, takze to nieje nejaky program co by mi stiahol cely web, to su len vyhladavace, tak to je v poho...
Ale mam este 2 stupid otazky:
Jak som pochopil ked mam email admin@lmdizajn.wz.cz a posle mi niekto postu na info@lmdizajn.wz.cz alebo na nieco@lmdizajn.wz.cz dojde mi to tak ci tak?
Ake error stranky su a na co su? 404-subor nenalezen 500-subor nenalezen pomocou .htacces a dalsie su ake? a na co su?
1. vyhladavace a archivatory
2. ano
3. najdi si to na netu. hledej treba "stavove kody http"
http://www.w3.org/Protocols/HTTP/HTRESP.html
403-Přístup odepřen
404-Nenalezeno
500-Vnitřní chyba serveru (většinou v důsledku chyby v .htaccess)

http://internet.einstein.cz/clanek/stavove-kody-http/
LMDizajn, co je odporného na tom, že si někdo stáhne celý web?
Marek - jeden týpek si jednou stahoval můj web. Už když se mě ptal přes ICQ jak velké že to mám, že to prý u 2 GB zastavil protože ho to nebavilo, tak jsem začal mít podezření že něco není v pořádku (můj web byl kdysi na WZ, takže měl něco kolem 20 MB).
No a když jsem pak zjistil, že z trafficu 6 GB měsíčně mi jediný člověk za několik minut sežral 2 GB, tak jsem byl opravdu nadšený.
Takže na stahování celého webu něco odporného může být, pokud si stahovač nerozumí s PHP webem nebo si uživatel nerozumí s tím stahovačem.
No, já myslel, že to má nějaké etické základy. No, jo, když někdo stahuje dynamický web, tak to není asi úplně to, co chtěl, ne?
Takze napisem co som zistil aj pre ostatnych. Chybove hlasky su len 4xx a 5xx. 401 - ak je neautorizovany cez http
403 - ak sa snazi dostat tam kde nema pritup
404 - stranka nebola najdena
409 - vznikol na stranke konflik (asi iba pri php)
500 - vnutorna chyba serveru, pri pouzivany .htaccess sa zobrazi miesto 404
501 - 505 - chyby servera alebo naseho nastavenia(to neni sanca videt)
ak to chceme mat vlastne tak dame do suboru .htaccess -
ErrorDocument 404 /404.htm no a miesto toho 404 moze byt hoci ktore s tychto cisiel. Ak by sme chceli mat vsetky subory v zlozke errror tak to bude vipadat ErrorDocument 500 error/500.htm. Inak odpovedam si na otazku =))