04. Feb 2012 11:40 Eigene Suchmaschine - Crawlerwas macht eine gute suchmaschine aus? ich bin viel im internet auf suchmaschinen unterwegs und kann feststellen, dass bei bestimmten suchkriterien im grunde immer die gleichen webseiten die ergebnisse liefern. die verlinkung der webseiten ist mittlerweile so dicht geworden, dass man nur noch 1000 domains indexieren bräuchte, um den wichtigsten teil des internets vorliegen zu haben. als beispiel wäre da die webseite: hotscripts die es schon sehr lange gibt und in deren liste so gut wie jede b und c software aufgeführt ist. nimmt man dann noch ne seite wie chip.de dazu, hat doch alles was man brauch. was ich damit sagen möchte, ist dass man die bereiche sehr eng eingrenzen kann. lass es bei jeder kategorie 10 webseiten sein, die man indexieren muss, um alles wichtige zu haben. dazu kommen noch diverse foren und blogs. alles in allem könnte man mit 1000 domains pro sprache, alles relevante zusammenbekommen. da ich selbst ein suchmaschinen freak bin, möchte ich gerne mal meine eigene, unabhängige suchmaschine betreiben. als software habe ich mir die Sphider und die Sphider-Plus herausgesucht. was für alternativen zur sphider-software gibt es noch? |
04. Feb 2012 12:33 riesiger ResourcenaufwandAn Software könnte ich Dir nun auch nix besseres als die genannte empfehlen - d.h. verfügbares, mir bekanntes. Allenfalls selbst programmieren, dann weiß man (als fähiger Programmierer), was man hat. Zu ner richtigen Suchmaschine gehört einiges dazu. Da laufen Spider, Datenbanke aufgezeit in Index- und Datenserver, Frontends und einiges mehr jeweils auf dedizierter und zudem redundanter Hardware. Eine Suchmaschine allein besteht also aus einem ganzen Serverpark. Also besonders umfangreich wird Dein Projekt mangels entsprechender Mittel vermutlich nie werden, aber wenn ich das richtig verstehe, geht es eher um Erfahrung und Spaß statt um ein ernsthaftes Vorhaben. Eine Beschränkung auf ausgewählte Quellen wäre für kleinere Dimensionen denkbar. |
04. Feb 2012 12:37 Fehlerteufel[durchstreich] Datenbanke aufgezeit in Index- und Datenserver [/durchstreich] |
04. Feb 2012 16:32 geht soWenn sie eh sich auf bestimmte Domains begrenzen will, dann hält sich der Resourcenbedarf eigentlich in Grenzen. Insofern lässt es sich schon realisieren. Ob man dafür PHP-Frickelkram nimmt ist natürlich ne andere Frage. Gruß |
04. Feb 2012 17:55 reich heiße nicht tatjana |
04. Feb 2012 18:08 PHP> Insofern lässt es sich schon realisieren. Ob man dafür Lach, naja im anvisierten Rahmen sollte das schon noch ok sein. Und ganz so schlimm wie sein Ruf ist PHP ja dann auch wieder nicht. Man macht sich als Entwickler zwar das Leben etwas schwerer, aber seine Daseinsberechtigung hat PHP ja dennoch. Ist halt nicht eine ganz so idiotensichere Sprache und verlangt dem Entwickler mehr Erfahrung ab. Den Rest hatte ich ja selbst schon in meinem Posting abschließend zusammengefaßt. |
04. Feb 2012 18:16 Aah...Achsooo... ja Micha ist sehr tolerant gegenüber Geschlechtsumwandlungen. :-)) |
04. Feb 2012 18:21 PHP is teh evil> Und ganz so schlimm wie sein Ruf ist PHP ja dann Eigentlich sogar noch viel schlimmer, wie die letzten Tage bewiesen. |
04. Feb 2012 19:58 Referenz?> (Frickelpatch an unsicherem "Security"feature verursachte Ich z.B. - von remote code execution ist mir nichts bekannt, nur von einem Hangup / Loop durch durch FP-Wandlungsfehler habe ich was mitbekommen Anfang des Jahres. Ich kann den von Dir beschriebenen Exploit auch nicht finden. Hast Du einen Link dazu? |
04. Feb 2012 22:11 reich habe einen webpaket mit 25 gb webspace und 20 datenbanken a´1gb. habe irgendwo mal gelesen dass ein suchmaschinenscript keine datenbank verwendet, sondern in dateien ablegt. dabei wäre ja der vorteil dass man keine großen datenbanken benötigt, sondern lediglich viel webspace...is da was dran? |
04. Feb 2012 22:20 ReNur mit reinem Webspace wird das wohl eher nix werden mitm Crawler. |
04. Feb 2012 22:34 Webspace...es sei denn, Sockets sind erlaubt. Dann ließen sich zumindest jeweils kurzweilige Vorgänge mit externen Cronjobs triggern. Die optimale Lösung wäre das natürlich keineswegs. |
04. Feb 2012 22:38 ReNaja zumindest solange bis der Hoster das merkt ... dann is mit ziehmlicher Sicherheit recht schnell Schluss in den meisten Fällen. |
05. Feb 2012 00:37 AngebotDie meisten bieten diese Einstellung ja nicht ohne Grund an. Einen Blick in die Nutzungsbedingungen sollte man natürlich werfen. |
05. Feb 2012 10:45 Wieviel SpeicherkapazitätAntwort auf Eigene Suchmaschine - Crawler von tjatja um eine domain/webseite wie zB. chip.de zu indexieren, wieviel speicherplatz benötigt man dafür? |
05. Feb 2012 13:32 reProbier's doch aus ;) |