Vyzkousejte si crawlovani :]

Na tomto principu funguje treba Google, je docela sranda to pozorovat. Napisete URL, program stahne html zdrojak (zadny obrazky, tj je to hned a nezere to bandwidth), vybere to z nej odkazy, da je do seznamu, vybere to z nej emaily, da je do seznamu a odkazy ze seznamu zase postupne projizdi... ty hotovy dava do dalsiho spesl seznam. Proste sranda pozorovat :]]

http://fclip.com/my/ypcrawler.exe

Mozna budete taky potrebovat http://fclip.com/my/MSINET.OCX

Have fun :]
Kurna uz sem to skoro stahnul az sem si uvedomil ze jedu na linuxu :-)
xixao: Ja si to uvedomil už když mi myška kroužila nad odkazem :)
pod linux existuje určitě něco s GPL :))
zapátrám na packages.deian.org...
hle...
http://packages.debian.org/stable/web/webbase
wow něco tu máme :)
a dokonce to mluví s mysql :))
http://www-diglib.stanford.edu/~testbed/doc2/WebBase/
lets go :))
Mno to ja bych si taky uvedomil ale tady v tom foru nejsou prime odkazy tak sem si to uvedomil az kdyz sem na konci cesty videl tu skaredou priponu .EXE grr
Nevite nekdo o naky alternative na linux? Ale ne wget..
mno jde hlavne o to ze to realtime pozorujes, jak to krasne skace... :]]
Tomu rikam rychlost..odpoved driv nez otazka..
xixao: to víš, majkls :)
wget + grep nebo vim a je to :)
neni to ono deti :>
ale v praxi se to používá víc, než pouhý civění do monitoru :))))
bylo by to efektivnější, kdyby to zpracovávalo i relativní adresy :}
Mno a nezpracovava? Kolik je na webu absolutnich?
by ses divil
nezpracovava, ale delal sem to ze srandy... :]
to je mi jasny :}
wget ma optiony na mirrorovani, jinak treba pavuk. nebo spousta dalsich...
tohle na disk nic neuklada, jde jen o ten princip :>
hele, nechces udelat, aby ty adresy sly nejak exportovat (treba do txt)?

necham to potom bezet pres noc, a muzem zalozit treba WZogle.com :D
Hehehe... Mno klidne bych mohl exportovani udelat, pridat podporu pro relativni odkazy, exportovat emaily, pridat pouzitelny GUI... zadnej problem.

V tom txt, co radek to URL? nemam pred to este treba davat title a za to keywordy nebo tak neco? :]
;) nedal by si k dizpozicii zdrojak? rad sa pozriem

BTW: v com to je napisane?
http://fclip.com/my/ypcrawlsrc.zip

VB5. Ale jak rikam, je to na rychlo takze zdrojak neni zas tak luxusni, ale celkem prehledny to je :)

Jestli nekdo chcete, muzete to zacit vylepsovat.
no, VB neovladam ale pozrem sa, dik ;)
ten export by mohl byt takhle:

url; title; description

a dalsi zaznam novej radek




btw nechces to prepsat do php ;)
Nemam vubec cas... a tohle bys musel valit z localhosta, by byl nahul na server.
hlavně nevim, kde chceš skladovat data.... viz webbase (1,5TB je docela dost), i když je pravda, že když to bude jen třeba pro jednu doménu, tak bude stačit míň. Webovej prostor je stejně z 80% zapláclej multimédiama+obrázkama.