Jedes Forum verursacht Traffic und trägt oftmals nicht unerhebliche Kosten. Je weniger Werbung geschaltet wird, desto höher wird der Eigenanteil. Wenn ein Forum dann Opfer von Bots wird, ist das in meinen Augen ne ziemliche Sauerei, weil das hohen und überlüssigen Traffic verursachen kann und den Betreiber somit Geld kostet. Als die längeren Ladezeiten auftraten, schaute ich nach, wer online ist und fand neben den üblichen Crawlern auch die Suchmaschine AhrefsBot. Diese hat einen sehr schlechten Ruf bei Forenbetreibern
nicht das forum verursacht den traffic: die vorbeikommenden surfer tun es. der traffic wird nicht nur von angemeldeten oder nicht angemeldeten "nutzern" verursacht, sondern auch von spassvögeln, die den server abscannen ... oder einfach mal so ne verbindung zum webserver aufbauen. all diese "nutzer" kannst du als forum-nutzer nicht sehen. du kannst schon gar nicht einfach mal schauen, welche anderen tcp-verbindungen zum server bestehen und wie schnell die wann reinkommen. ich kann das. und ich sage dir: der ahref-crawler ist kein problem. er erzeugt nicht mehr traffic als du (er lädt zb nicht die ganzen avartare runter oder irgendwelche gifs) oder der googlebot oder baidu oder msn oder bing oder yahoo oder sonst wer.
all die von dir zitierten expertenmeinungen zu diesem crawler sind irreführend weil nicht vollständig. was ist ein agressiver crawler? auf keinen fall einer, der von 952455 zugriffen (aller user) für 1579 verantwortlich ist. der googlebot ist im gleichen zeitraum für 13647 verantwortlich, das ist fast faktor 10 mehr. soll ich jetzt den agressiven google-bot sperren? der ahrebot, so wie er im moment agiert, ist 0 problem für den server.
die "hinweise" auf den "experten-seiten" sind .. quatsch:
* ja, der bot hat eine ip. so wie du auch. ja, "bots" ändern ihre ip, so wie du auch. eine bot-farm in der ukraine oder in russland oder in china oder sonstwo: die haben ip-blöcke, von denen sie kommen. nicht nur 10 oder 20, 1000ende. soll ich die einzeln raussammeln und .. dann was? dazu müßte ich dann erstmal erkennen, dass es "der böse ahrefbot" ist. wie mach ich das?
* achso, der bot meldet sich mit einer "kennung" .. ich kann mich auch als ahrefbot auf deinem webserver ausgeben und da fröhlich aufschlagen. das kann keiner überprüfen, was da wirklich ankommt. basierend auf dem user-agent kann ich so zb auch einfach mal sportforen.de anhitten und so tun, als wäre ich der bot xyz. nur um den eindruck zu erwecken, es gäbe ein problem mit xyz.
* "Die Aggressivität dieses Bots birgt das immanente Risiko eines Denial of Service" ... dieses risiko geht von allen "nutzern" da draußen aus. eine 0-aussage. wenn ich ein crawler wäre und wollte den content der seite crawlen, würde ich das definitiv nicht so machen, dass die seite down geht. das wäre eine völlig sinnfrei aktion, mir selber die quelle meines geschäftes abzugraben, weil ich so bekloppt bin, die seite mit nem ddos zu belegen. wenn ich unerkannt agieren wollen würde, würde ich auch nicht meine "bot-kennung" offensichtlich mitschicken sondern was nehmen, was aussieht wie ein normaler nutzer. zb (reales beispiel):
192.3.54.184 - 2014-07-04T20:50:22+00:00 "GET /raw HTTP/1.0" 200 13 "http://myexternalip.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2a1pre) Gecko/20090402 Firefox/3.8a1pre (.NET CLR 3.5.30729)"
192.3.54.184 - 2014-07-04T20:50:24+00:00 "GET /raw HTTP/1.0" 200 13 "http://myexternalip.com" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2a1pre) Gecko/20090428 Firefox/3.8a1pre"
192.3.54.184 - 2014-07-04T20:50:29+00:00 "GET /raw HTTP/1.0" 200 13 "http://myexternalip.com" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2a1pre) Gecko/20090428 Firefox/3.8a1pre"
192.3.54.184 - 2014-07-04T20:50:36+00:00 "GET /raw HTTP/1.0" 200 13 "http://myexternalip.com" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)"
192.3.54.184 - 2014-07-04T20:50:39+00:00 "GET /raw HTTP/1.0" 200 13 "http://myexternalip.com" "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_5; en-us) AppleWebKit/525.26.2 (KHTML, like Gecko) Version/3.2 Safari/525.26.12"
192.3.54.184 - 2014-07-04T20:50:53+00:00 "GET /raw HTTP/1.0" 200 13 "http://myexternalip.com" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2a1pre) Gecko/20090428 Firefox/3.8a1pre"
192.3.54.184 - 2014-07-04T20:50:52+00:00 "GET /raw HTTP/1.0" 200 13 "http://myexternalip.com" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2a1pre) Gecko/20090428 Firefox/3.8a1pre"
innerhalb weniger sekunden wird da fröhlich die user-agent "kennung" durchgewechselt. aggresiv sieht auch anders aus (wieder real): 130+ requests / sekunde von der gleichen ip auf die gleiche resource.
was auch immer ahrefbot macht: sie agieren vollständig moderat und ohne (merkbare) last auf dem server zu erzeugen.
Meine aktuelle IP in ein öffentliches Forum zu posten wärte eine Einladung an andere Leute, meinen PC zu entern
darum hättest du das auch als pm schicken können. oder nachfragen. oder begrenzen auf nen teil-abschnitt der ip, damit man ne idee bekommt, aus welcher richtung du aufschlägst. nen link auf eine alberne ip-localhost-ach-wie-lustig seite ist eher weniger hilfreich.
was du an adblockern oder sonstigen tools einsetzt ist mir relativ rille, darauf hab ich keinen einfluß noch interessiert es mich. wenn es routing-probleme gibt zu anderen rechnenzentren oder kabel beim hoster locker sind und ich da nen ticket aufmachen muss etc, interessiert mich das schon.
nochmal: ahrefbot ist im moment _kein_ problem da es _keinen_ traffic erzeugt, der irgendwie signifikant wäre.
**update** kleiner nachtrag (da ich jetzt zu deiner session eine ip habe): du hast im aktuellen access.log 442 eintraege. ahrefbot hat 563, googlebot 14072.
nachtrag zur ip-paranoia: man kann das _gesamte_ ipv4-internet in unter 45 minuten abscannen:
https://zmap.io/ oder auch
https://www.youtube.com/watch?v=K47MZIEXQEI ... ob du deine ip hier postest oder nicht, spielt keine rolle. leute mit zugriff auf gbit-rootserver haben die ip schon, ukrainer mit infrastruktur für nen "agressiven" webcrawler haben da definitiv zugriff auf gbit-rootserver. und wissen auch schon, ob du offene ports hast oder ob deine firewall funktioniert. nur um mal jegliche illusionen einzureissen. hinweis 2: sportforen.de läuft auch mit ipv6 .. da dauert das sehr viel länger mit dem scannen. aber das nur am rande.