spin.de · die Community: Diskussions-Forum und Chat - Lern nette Leute kennen!

» Kostenlos anmelden
Sitemap
: Eigene Suchmaschine - Crawler
tjatja
04. Feb 2012 11:40

Eigene Suchmaschine - Crawler

was macht eine gute suchmaschine aus? ich bin viel im internet auf suchmaschinen unterwegs und kann feststellen, dass bei bestimmten suchkriterien im grunde immer die gleichen webseiten die ergebnisse liefern. die verlinkung der webseiten ist mittlerweile so dicht geworden, dass man nur noch 1000 domains indexieren bräuchte, um den wichtigsten teil des internets vorliegen zu haben. als beispiel wäre da die webseite: hotscripts die es schon sehr lange gibt und in deren liste so gut wie jede b und c software aufgeführt ist. nimmt man dann noch ne seite wie chip.de dazu, hat doch alles was man brauch. was ich damit sagen möchte, ist dass man die bereiche sehr eng eingrenzen kann. lass es bei jeder kategorie 10 webseiten sein, die man indexieren muss, um alles wichtige zu haben. dazu kommen noch diverse foren und blogs. alles in allem könnte man mit 1000 domains pro sprache, alles relevante zusammenbekommen.

da ich selbst ein suchmaschinen freak bin, möchte ich gerne mal meine eigene, unabhängige suchmaschine betreiben. als software habe ich mir die Sphider und die Sphider-Plus herausgesucht.

was für alternativen zur sphider-software gibt es noch?



Möchtest du mitreden?     Kostenlos Anmelden

04. Feb 2012 12:33

riesiger Resourcenaufwand

An Software könnte ich Dir nun auch nix besseres als die genannte empfehlen - d.h. verfügbares, mir bekanntes. Allenfalls selbst programmieren, dann weiß man (als fähiger Programmierer), was man hat.

Zu ner richtigen Suchmaschine gehört einiges dazu. Da laufen Spider, Datenbanke aufgezeit in Index- und Datenserver, Frontends und einiges mehr jeweils auf dedizierter und zudem redundanter Hardware. Eine Suchmaschine allein besteht also aus einem ganzen Serverpark.

Also besonders umfangreich wird Dein Projekt mangels entsprechender Mittel vermutlich nie werden, aber wenn ich das richtig verstehe, geht es eher um Erfahrung und Spaß statt um ein ernsthaftes Vorhaben. Eine Beschränkung auf ausgewählte Quellen wäre für kleinere Dimensionen denkbar.



04. Feb 2012 12:37

Fehlerteufel

[durchstreich] Datenbanke aufgezeit in Index- und Datenserver [/durchstreich]
Datenbanken aufgeteilt in Index- und Datenserver



MichaelK
User wurde
04. Feb 2012 16:32

geht so

Wenn sie eh sich auf bestimmte Domains begrenzen will, dann hält sich der Resourcenbedarf eigentlich in Grenzen.
Auch redundante Hardware und so 'n Kram braucht man nur, wenn man das professionell betreiben will.

Insofern lässt es sich schon realisieren. Ob man dafür PHP-Frickelkram nimmt ist natürlich ne andere Frage.

Gruß
MichaelK



tjatja
04. Feb 2012 17:55

re

ich heiße nicht tatjana



04. Feb 2012 18:08

PHP

Antwort auf geht so von MichaelK

> Insofern lässt es sich schon realisieren. Ob man dafür
> PHP-Frickelkram nimmt ist natürlich ne andere Frage.

Lach, naja im anvisierten Rahmen sollte das schon noch ok sein. Und ganz so schlimm wie sein Ruf ist PHP ja dann auch wieder nicht. Man macht sich als Entwickler zwar das Leben etwas schwerer, aber seine Daseinsberechtigung hat PHP ja dennoch. Ist halt nicht eine ganz so idiotensichere Sprache und verlangt dem Entwickler mehr Erfahrung ab.

Den Rest hatte ich ja selbst schon in meinem Posting abschließend zusammengefaßt.



04. Feb 2012 18:13

Öhm

Antwort auf re von tjatja

> ich heiße nicht tatjana

Wer behauptet denn sowas?



04. Feb 2012 18:16

Aah...

Achsooo... ja Micha ist sehr tolerant gegenüber Geschlechtsumwandlungen. :-))



04. Feb 2012 18:21

PHP is teh evil

Antwort auf PHP von QuasimodosKlon

> Und ganz so schlimm wie sein Ruf ist PHP ja dann
> auch wieder nicht.

Eigentlich sogar noch viel schlimmer, wie die letzten Tage bewiesen.
(Frickelpatch an unsicherem "Security"feature verursachte remote code execution, falls das jemand nicht mitbekommen hat...)



04. Feb 2012 19:58

Referenz?

> (Frickelpatch an unsicherem "Security"feature verursachte
> remote code execution, falls das jemand nicht mitbekommen
> hat...)

Ich z.B. - von remote code execution ist mir nichts bekannt, nur von einem Hangup / Loop durch durch FP-Wandlungsfehler habe ich was mitbekommen Anfang des Jahres. Ich kann den von Dir beschriebenen Exploit auch nicht finden. Hast Du einen Link dazu?




tjatja
04. Feb 2012 22:11

re

Antwort auf PHP von QuasimodosKlon

ich habe einen webpaket mit 25 gb webspace und 20 datenbanken a´1gb.

habe irgendwo mal gelesen dass ein suchmaschinenscript keine datenbank verwendet, sondern in dateien ablegt. dabei wäre ja der vorteil dass man keine großen datenbanken benötigt, sondern lediglich viel webspace...is da was dran?



04. Feb 2012 22:20

Re

Nur mit reinem Webspace wird das wohl eher nix werden mitm Crawler.



04. Feb 2012 22:34

Webspace

...es sei denn, Sockets sind erlaubt. Dann ließen sich zumindest jeweils kurzweilige Vorgänge mit externen Cronjobs triggern. Die optimale Lösung wäre das natürlich keineswegs.



04. Feb 2012 22:38

Re

Naja zumindest solange bis der Hoster das merkt ... dann is mit ziehmlicher Sicherheit recht schnell Schluss in den meisten Fällen.



05. Feb 2012 00:37

Angebot

Die meisten bieten diese Einstellung ja nicht ohne Grund an. Einen Blick in die Nutzungsbedingungen sollte man natürlich werfen.



tjatja
05. Feb 2012 10:45

Wieviel Speicherkapazität

Antwort auf Eigene Suchmaschine - Crawler von tjatja

um eine domain/webseite wie zB. chip.de zu indexieren, wieviel speicherplatz benötigt man dafür?



DerET männlich
spin.de VIP
Eric aus Rudolstadt (Thüringen)
05. Feb 2012 13:32

re

Probier's doch aus ;)



tjatja
05. Feb 2012 13:49

re

darauf wäre ich jetzt nicht gekommen



05. Feb 2012 13:54

Re

Antwort auf Wieviel Speicherkapazität von tjatja

Kommt drauf an :-)



Möchtest du mitreden?     Kostenlos Anmelden