[Résolu] Bloquer les aspirateurs de sites

Bloquer les aspirateurs de sites [Résolu] - réseaux et sécurité - Linux et OS Alternatifs

Marsh Posté le 26-03-2004 à 16:05:36    

Je ne sais pas si c'est forcément la meilleure rubrique pour ce post, mais je vais commencer ici:
 
Alors durant toute ma journée d'hier je me suis rendu compte que ma connexion était fortement ralentie, et ce matin en regardant mes logs apache je me suis rendu compte que qqn (un utilisateur du forum en plus, voyant HFR comme referer de sa première visite) a aspiré toute ma galerie web et généré environ 800 Mo de traffic sur mon serveur.
 
Je voulais savoir s'il existait éventuellement un module apache à ajouter qui permettrai de repérer facilement les requetes des aspirateurs connus et de tout simplement interdire mes requetes en provenant.
 
Sinan l'idée que j'ai en vue serait de faire un script qui se lance genre toutes les 5mn et qui regarde dans les 20 dernières lignes du  fichier de logs apache s'il repère une visite en provenance d'un aspirateur. Quand il en détecte une, il ajoute l'IP dans la liste des IP bannies au niveau du firewall.
 
Votre avis ?
Si vous voyez une autre solution qui serait plus simple à mettre en place, n'hésitez pas


Message édité par cybervince le 26-03-2004 à 16:27:41

---------------
SaulGoodman.fr: Actus sur la série Better Call Saul
Reply

Marsh Posté le 26-03-2004 à 16:05:36   

Reply

Marsh Posté le 26-03-2004 à 16:27:22    

Ah ben je crois que je viens finalement de trouver.
Suffit d'utiliser le mod_rewrite en fonction de l'HTTP_USER_AGENT
 
http://www.phpsecure.info/v2/board [...] =589&t=589


---------------
SaulGoodman.fr: Actus sur la série Better Call Saul
Reply

Marsh Posté le 28-03-2004 à 13:59:46    

ouias mais non c changera rien : moimon aspi tu le verra comme un brouser Web !
 
unsert du js dnas tes liens deja cabloqe pas mal mais sinon limite le nb de connection par ip ca ralentira aussi  

Reply

Marsh Posté le 28-03-2004 à 14:35:10    

jolly a écrit :

ouias mais non c changera rien : moimon aspi tu le verra comme un brouser Web !
 
unsert du js dnas tes liens deja cabloqe pas mal mais sinon limite le nb de connection par ip ca ralentira aussi  
 

t as bu koi ? :heink:


---------------
:: Light is Right ::
Reply

Marsh Posté le 28-03-2004 à 15:03:52    

jolly a écrit :

ouias mais non c changera rien : moimon aspi tu le verra comme un brouser Web !
 
unsert du js dnas tes liens deja cabloqe pas mal mais sinon limite le nb de connection par ip ca ralentira aussi  
 

j'ai rien compris [:dawa]

Reply

Marsh Posté le 28-03-2004 à 15:21:05    

jolly a écrit :

ouias mais non c changera rien : moimon aspi tu le verra comme un brouser Web !
 
unsert du js dnas tes liens deja cabloqe pas mal mais sinon limite le nb de connection par ip ca ralentira aussi  
 


sqdj akn  dq^ pcp d j ]{}~"' 'é"'é ??


---------------
Bitcoin, Magical Thinking, and Political Ideology
Reply

Marsh Posté le 28-03-2004 à 16:17:29    

[:rofl]
 
Sinon, il a raison, la plupart des aspirateurs peuvent indiquer le http_user_agent qu'ils veulent, notamment IE ou Mozilla ...
Et je confirme qu'écrire ses pages avec des énormes morceaux de javascript style document.writeln("<a href=xxx>monlien</a>" )  suffit à les bloquer puisqu'ils ignorent tout entre les balises de javascript.

Reply

Marsh Posté le 28-03-2004 à 16:24:51    

heu je croyais qu'avec un fichier robot.txt on pouvais spécifier ce qu'il est possible d'aspirer

Reply

Marsh Posté le 28-03-2004 à 16:32:52    

le robot.txt ça concerne uniquemetn les moteurs de recherche et assimilés, non ?

Reply

Marsh Posté le 28-03-2004 à 16:34:30    

je suis pas sur, un aspirateur que j'utilisais consultait ce fichier

Reply

Marsh Posté le 28-03-2004 à 16:34:30   

Reply

Marsh Posté le 28-03-2004 à 17:14:16    

jolly a écrit :

ouias mais non c changera rien : moimon aspi tu le verra comme un brouser Web !
 
unsert du js dnas tes liens deja cabloqe pas mal mais sinon limite le nb de connection par ip ca ralentira aussi  
 


 
Certes, mais tout ceux qui utilisent des aspirateurs n'ont pas forcément un aspirateur dans lequel on peut changer le HTTP_USER_AGENT.
Par contre pour ceux qui me disent de mettre mes liens en JS, ca va plus surcharger le code qu'autre chose et risque de rendre les sites incompatibles avec certaines configurations exotiques ou configurées sans JS.


---------------
SaulGoodman.fr: Actus sur la série Better Call Saul
Reply

Marsh Posté le 28-03-2004 à 17:32:57    

spa bien les gens qui aspirent les sites?
pcq bon, moi j'aime bien aspirer les sites de wallpaper lorsque c'est possible
comme ça je grave les wp et hop c'est sauvegardé (surtout si ensuite le site disparait, tant d'oeuvre détruites [:sisicaivrai])
le mieux c'est comme sur trouduculhideout, c'est evidement de pouvoir télécharger le site d'un coup (et pour les sites de wp, de pouvoir télécharger uniquement les images, au lieu de générer du traffic inutile par le download des fichiers html)
Pcq bon, je sauvegarde tellement de trucs (tous les webcomics etc..., et la plupart du temps j'ai plus le choix enter sauvegarder 500 images à la main ou le faire avec flashget lorsque les noms de fichiers sont identiques à un paramètre numérique près)


Message édité par Aschrack le 28-03-2004 à 17:41:37

---------------
Je viens d'apprendre que les ventes de voitures ont encore baissé de 7% en France. Y'en a marre de ces pirates qui téléchargent les voitures sur internet ! (antp était prems et est admin) - "Le travail est l'opium du peuple et je ne veux pas mourir dr
Reply

Marsh Posté le 28-03-2004 à 17:40:47    

Moi en fait c'est que c'est surtout une galerie web (avec des photos personnelles) et que je vois vraiment pas quel a été l'intérêt pour la personne de récupérer toutes mes photos de soirées et de vacances et autres pour se les garder chez lui.
Et vu que c'est hébergé sur ma connexion ADSL, ben ca m'a surtout fait ramer ma connexion et paralysé les éventuelles personnes qui visitaient les autres sites hébergés dessus.


---------------
SaulGoodman.fr: Actus sur la série Better Call Saul
Reply

Marsh Posté le 28-03-2004 à 17:42:58    

tu peux limiter l'upload et le nombre de connexion par personne simultanée
ainsi pas de saturation, indique sur le site ce que les visiteurs ont le droit de faire (pour qu'ils puissent règler leur soft de down)
et si ils ne suivent pas les consignes hop là tu ban


---------------
Je viens d'apprendre que les ventes de voitures ont encore baissé de 7% en France. Y'en a marre de ces pirates qui téléchargent les voitures sur internet ! (antp était prems et est admin) - "Le travail est l'opium du peuple et je ne veux pas mourir dr
Reply

Marsh Posté le 28-03-2004 à 21:10:13    

[Albator] a écrit :

[:rofl]
 
Sinon, il a raison, la plupart des aspirateurs peuvent indiquer le http_user_agent qu'ils veulent, notamment IE ou Mozilla ...
Et je confirme qu'écrire ses pages avec des énormes morceaux de javascript style document.writeln("<a href=xxx>monlien</a>" )  suffit à les bloquer puisqu'ils ignorent tout entre les balises de javascript.


 
vous voyez que c compréhensible ...
 
dsl !

Reply

Marsh Posté le 29-03-2004 à 01:43:11    

mousse121 a écrit :

heu je croyais qu'avec un fichier robot.txt on pouvais spécifier ce qu'il est possible d'aspirer  


 
+1
wget par exemple utilise ce fichier.

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed