spin.de · die Community: Diskussions-Forum und Chat - Lern nette Leute kennen!

» Kostenlos anmelden
Sitemap
: Eigene Suchmaschine - Crawler
05. Feb 2012 13:57

re

Antwort auf Wieviel Speicherkapazität von tjatja

Frag doch mal bei Google, Yahoo, Bing, .... nach und vergleiche die Werte ;)



Möchtest du mitreden?     Kostenlos Anmelden

05. Feb 2012 14:00

Schätzungen

Antwort auf Wieviel Speicherkapazität von tjatja

Ich bin im Schätzen sehr schlecht, aber der Speicherbedarf sollte "relativ gering" ausfallen. Das heißt, im Verhältnis zur Originalseite wird sehr viel eingespart, daß dort ein Großteil an Speicher für Grafiken etc. verbraucht wird.

Ausprobieren ist da tatsächlich die beste Methode. Parse 100 bis 1000 Seiten und ziehe den Nutzdatenanteil an Text raus. Dann miß die Größe und teile durch 100 bis 1000. So solltest Du eine gute Einschätzung basierend auf den tatsächlichen Grundlagen erhalten.



DerET männlich
spin.de VIP
Eric aus Rudolstadt (Thüringen)
05. Feb 2012 14:19

re

Antwort auf re von tjatja

Dann ist es ja gut, dass ich dir das gesagt habe :D



tjatja
05. Feb 2012 17:02

re

wäre nett wenn du mich ab und zu noch mal daran erinerst



05. Feb 2012 17:21

Interval

In welchem Interval?

PS: Denk dran, es mal auszuprobieren.



tjatja
05. Feb 2012 17:45

re

Antwort auf Schätzungen von QuasimodosKlon

> Ausprobieren ist da tatsächlich die beste Methode. Parse
> 100 bis 1000 Seiten und ziehe den Nutzdatenanteil an Text raus.

um das berechnen zu können, muss dazu nicht wissen, wieviele unterseiten chip.de insgesamt hat? oder zeigt das suchscript das vielleicht sogar an, wieviele seiten zu ppparsen



nocysp männlich
aus Karlsruhe (Baden- Württemberg)
05. Feb 2012 17:49

re

> um das berechnen zu können, muss dazu nicht wissen,
> wieviele unterseiten chip.de insgesamt hat?

Deswegen sollst du ja einen Crawler einsetzen ... du weißt nicht was das ist? Du willst eine Suchmaschine betreiben? Bemerkst du den Widerspruch?



DerET männlich
spin.de VIP
Eric aus Rudolstadt (Thüringen)
05. Feb 2012 17:55

re

Antwort auf Interval von QuasimodosKlon

Also per Cronjob könnte ich eigentlich jede Minute eine Mail los schicken. Mit einem entsprechenden Script wahrscheinlich sogar noch mehr - will sich jemand zur Verfügung stellen? :D



nocysp männlich
aus Karlsruhe (Baden- Württemberg)
05. Feb 2012 17:59

cronjob?

while (true) do
  mail ('foo@bar.com', 'Bla', 'Keks')
od;


tjatja
05. Feb 2012 18:22

re

Antwort auf re von nocysp

> ... du weißt
> nicht was das ist? Du willst eine Suchmaschine betreiben?
> Bemerkst du den Widerspruch?

anton schlecker ist wahrscheinlich auch pleite gegangen, weil er sich mit dem damen-haarshampoo nicht auskannte



DerET männlich
spin.de VIP
Eric aus Rudolstadt (Thüringen)
05. Feb 2012 18:53

re

Antwort auf cronjob? von nocysp

Ich will's ja in einem regelmäßigen Intervall. So sperrt mich höchstens mein SMTP Server Anbieter *g



nocysp männlich
aus Karlsruhe (Baden- Württemberg)
05. Feb 2012 19:02

re

Wozu denn über nen eigenen Server gehen? ;-)



MichaelK
User wurde
05. Feb 2012 19:10

Shampookenntnisse

Antwort auf re von tjatja

> anton schlecker ist wahrscheinlich auch pleite gegangen,
> weil er sich mit dem damen-haarshampoo nicht auskannte

Keine Ahnung. Aber wenn er nicht, dann hatte er sicher seine Leute dafür.
Wenn Du Dich nicht mit Suchmaschinentechnologie auskennst, dann musst Du Dir halt Leute holen, die dass können. Ansonsten wirds schwer.

So wie ich das aber bisher verstanden hab, warst Du Manager und Techniker in Personalunion.

Gruß
MichaelK



nocysp männlich
aus Karlsruhe (Baden- Württemberg)
05. Feb 2012 19:15

re

Antwort auf re von tjatja

> anton schlecker ist wahrscheinlich auch pleite gegangen,
> weil er sich mit dem damen-haarshampoo nicht auskannte

Nach Aussage von Schleckers Tochter Meike im Januar 2012 sei jedoch sein Vermögen und das der Familie vollständig aufgezehrt.

Quelle: http://de.wikipedia.org/wiki/Anton_Schlecker#Verm.C3.B6gen

Vermutlich eher weil er einfach keine Ahnung von Marketing oder Wirtschaft hatte. Man sollte eben das machen, was man kann (in Schleckers Fall wäre das wohl Metzger).



tjatja
05. Feb 2012 20:06

re

vom metzger zum drogeriefachunternehmer, dann liege ich ja voll im trend. viele haben doch am meisten erfolg, mit dem was sie am wenigsten können



DerET männlich
spin.de VIP
Eric aus Rudolstadt (Thüringen)
06. Feb 2012 08:30

re

Antwort auf re von nocysp

Weil ich nicht weiß, wie man über die Weboberfläche des Mail Anbieters regelmäßige Nachrichten senden kann.



tjatja
08. Feb 2012 19:26

re

Antwort auf Eigene Suchmaschine - Crawler von tjatja

was ich gerne noch in erfahrung bringen möchte ist, ob es ausreicht eine auswahl an webseiten zu indexieren um ein qualitatives und objektives suchergebnis zu bekommen.

meiner meinung nach könnte man pro land/sprache mit einer auswahl von 1000 webseiten schon das wichtigste ranholen...

wie seht ihr nerds das? :)



tjatja
08. Feb 2012 19:27

1000 domains

ich meine natürlich 1000 domains und dessen unterseiten



08. Feb 2012 20:45

Zensur

Antwort auf re von tjatja

Als Zensurgegner würde ich sagen: Nein, das wäre keine objektive Auswahl.



08. Feb 2012 23:50

Re

Antwort auf re von tjatja

Das kommt auf die Zielsetzung drauf an. Wenn du nur Software Downloads haben willst ... ja wahrscheinlich. Bei DSDS Fanseiten wirds scho knapp und wenn du zB technische oder wissenschaftliche Blogs und/oder Forschungseinrichtungen inizieren willst reichts hnten und vorne nicht.