[python] DONE : script de tracking UPS multithreadé

Marsh Posté le 01-04-2007 à 18:56:29

Oï !

Pour ceux qui on suivi l'activité de la section achat vente, vous avez surement vu un topic de 200 pages pour al dernière commande groupée d'ecrans Dell.

Comme on ne pouvais pas avoir les numeros de tracking UPS, j'ai fait un script assez bourrin pour alles scanner une plage de numeros de tracking sur le site d'UPS. Voilà ce que ça donne :

Code :

#!/usr/bin/python
from urllib import urlopen
import subprocess
# chopper le html :
def get_html(url):
a=""
handler = urlopen(url)
try:
for line in handler:
a+=line.strip()
finally:
handler.close()
return a
# isoler la partie qui nous interesse :
def cut_html(html):
beginTag = ""
endTag = ""
out = ""
startPos = html.find(beginTag)
while startPos > -1:
endPos = html.find(endTag,startPos+1)
if endTag == -1:
break
else:
out+=html[startPos+len(beginTag):endPos]
startPos = html.find(beginTag,endPos+1)
return out
# parser ce HTML (et l'afficher)
def parse_html(html):
proc=subprocess.Popen("lynx -dump -stdin", stdin=subprocess.PIPE, stdout=subprocess.PIPE, shell=True)
proc.stdin.write(html)
print(proc.communicate()[0])
url_start="http://wwwapps.ups.com/WebTracking/processInputRequest?HTMLVersion=5.0&loc=en_FR&Requester=UPSHome&tracknum=1Z+1WX+989+68+855"
url_end="+&AgreeToTermsAndConditions=yes&ignore=&track.x=13&track.y=11"
for a in range(10):
for b in range(1000):
for c in range(10):
full_url=url_start+str(a)+'+'+str(b).zfill(3)+'+'+str(c)+url_end
print("1Z 1WX 989 68 855"+str(a)+" "+str(b).zfill(3)+" "+str(c)+"\n" )
parse_html(cut_html(get_html(full_url)))

Comme il a mis 10h pour scanner à peu près 60k pages de tracking, et qu'il a planté avant d'avoir fini (session ssh qui a deconnecté, il tournait sur un serveur dedié), je voudrais le refaire de façon optimisée, parceque c'est vraiment pas le cas actuellement.

Alors si je repartais de la structure actuelle, il faudrait commencer par remplacer les concatennations par des .join(). Eviter de parser avec lynx via subprocess, mais faire un tidy+re (voir re seul). Et surtout multithreader pour ne pas avoir des ouvertures d'URL bloquantes vu la latence moyenne du serveur de tracking.

Je sui vraiment pas doué en code, donc j'en apelle a votre aide au moins pour la partie tidy/re . Par la suite je voudrais exporter les resultats en xml voir csv et faire un petit script qui actualise un compteur (sous forme d'image) pour le nombre de colis en attente de livraison, avec actualisation dans la crontab.

Si ça interesse quelqu'un...

:hello:

Message cité 1 fois
Message édité par nicolbolas le 02-04-2007 à 01:35:32

Marsh Posté le 01-04-2007 à 18:56:29

Marsh Posté le 01-04-2007 à 19:42:50

nicolbolas a écrit :

il a planté avant d'avoir fini (session ssh qui a deconnecté, il tournait sur un serveur dedié)

un tit screen et ça serait pas arrivé...
(bon heuu c'est tout ce que j'avais à dire, la prog c'est pas (plus) mon truc :whistle: )

... ah si un truc, j'oubliais, euuh, selon les termes et conditions du machin d'UPS, t'as le droit d'automatiser des requêtes sur leur interface de suivi ? :??: (J'ai pas lu leur machin mais je pense que ça se résume à "Utilisation personelle uniquement" ou un truc dans le genre)

---------------
No one should take themselves so seriously, With many years ahead to fall in line, Why would you wish that on me? I never want to act my age!

Marsh Posté le 01-04-2007 à 19:49:51

on va dire que c'est pas ma préoccupation première...

Marsh Posté le 01-04-2007 à 20:30:18

bon alors pour que ce soit un poil plus propre, j'ai deja mis à jour la construction de la requette HTTP :

Code :

def simple_request(tracking_number):
    """does a simple request to the tracking server"""
    
    tracking_url = 'http://wwwapps.ups.com/WebTracking/processInputRequest'
    user_agent =  'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers =  { 'User-Agent'  : user_agent  }
    values = {'HTMLVersion'  : '5.0',
              'loc' : 'en_FR',
              'Requester' : 'UPSHome',
              'tracknum' : tracking_number,
              'AgreeToTermsAndConditions' : 'yes',
              'ignore' : '',
              'track.x' : '13',
              'track.y' : '11' }
    data =  urllib.urlencode(values)
    req =  urllib2.Request(tracking_url, data, headers)
    try:
        handle = urllib2.urlopen(req)
    except IOError, e:
        if hasattr(e, 'reason'):
            ret = [ 'Server unreachable.', 'Raison: ', e.reason ]
        elif hasattr(e, 'code'):
            ret = [ 'Server Error.', 'Code d\' erreur : ', e.code ]
        return ret
    else:
        return handle.read()

edit : petit update

Message édité par nicolbolas le 01-04-2007 à 20:47:53

Marsh Posté le 01-04-2007 à 22:22:05

pour le parsing, j'ai trouvé une base sympa :

Code :

#!/usr/bin/python
# -*- coding: iso-8859-1 -*-
# Hello, this program is written in Python - http://python.org
programname = 'html2csv - version 2002-09-20 - http://sebsauvage.net'
 
import HTMLParser, re
 
try:    import psyco ; psyco.jit()  # If present, use psyco to accelerate the program
except: pass
 
class html2csv(HTMLParser.HTMLParser):
    ''' A basic parser which converts HTML tables into CSV.
        Feed HTML with feed(). Get CSV with getCSV(). (See example below.)
        All tables in HTML will be converted to CSV (in the order they occur
        in the HTML file).
        You can process very large HTML files by feeding this class with chunks
        of html while getting chunks of CSV by calling getCSV().
        Should handle badly formated html (missing <tr>, </tr>, </td>,
        extraneous </td>, </tr>...).
        This parser uses HTMLParser from the HTMLParser module,
        not HTMLParser from the htmllib module.
        Example: parser = html2csv()
                 parser.feed( open('mypage.html','rb').read() )
                 open('mytables.csv','w+b').write( parser.getCSV() )
        This class is public domain.
        Author: Sébastien SAUVAGE <sebsauvage at sebsauvage dot net>
                http://sebsauvage.net
        Versions:
           2002-09-19 : - First version
           2002-09-20 : - now uses HTMLParser.HTMLParser instead of htmllib.HTMLParser.
                        - now parses command-line.
        To do:
            - handle <PRE> tags
            - convert html entities (&name; and &#ref;) to Ascii.
            '''
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
        self.CSV = ''      # The CSV data
        self.CSVrow = ''   # The current CSV row beeing constructed from HTML
        self.inTD = 0      # Used to track if we are inside or outside a <TD>...</TD> tag.
        self.inTR = 0      # Used to track if we are inside or outside a <TR>...</TR> tag.
        self.re_multiplespaces = re.compile('\s+')  # regular expression used to remove spaces in excess
        self.rowCount = 0  # CSV output line counter.
    def handle_starttag(self, tag, attrs):
        if   tag == 'tr': self.start_tr()
        elif tag == 'td': self.start_td()
    def handle_endtag(self, tag):
        if   tag == 'tr': self.end_tr()
        elif tag == 'td': self.end_td()         
    def start_tr(self):
        if self.inTR: self.end_tr()  # <TR> implies </TR>
        self.inTR = 1
    def end_tr(self):
        if self.inTD: self.end_td()  # </TR> implies </TD>
        self.inTR = 0            
        if len(self.CSVrow) > 0:
            self.CSV += self.CSVrow[:-1]
            self.CSVrow = ''
        self.CSV += '\n'
        self.rowCount += 1
    def start_td(self):
        if not self.inTR: self.start_tr() # <TD> implies <TR>
        self.CSVrow += '"'
        self.inTD = 1
    def end_td(self):
        if self.inTD:
            self.CSVrow += '",'  
            self.inTD = 0
    def handle_data(self, data):
        if self.inTD:
            self.CSVrow += self.re_multiplespaces.sub(' ',data.replace('\t',' ').replace('\n','').replace('\r','').replace('"','""'))
    def getCSV(self,purge=False):
        ''' Get output CSV.
            If purge is true, getCSV() will return all remaining data,
            even if <td> or <tr> are not properly closed.
            (You would typically call getCSV with purge=True when you do not have
            any more HTML to feed and you suspect dirty HTML (unclosed tags). '''
        if purge and self.inTR: self.end_tr()  # This will also end_td and append last CSV row to output CSV.
        dataout = self.CSV[:]
        self.CSV = ''
        return dataout

ça converti des tables HTML en CSV, je devrais pouvoir l'adapter à peu de frais :jap:

Message édité par nicolbolas le 01-04-2007 à 22:23:38

Marsh Posté le 01-04-2007 à 22:54:50

alors voilà un code clean, pas encore threadé, mais je suis dessus :

Code :

#!/usr/bin/python
# -*- coding: ISO-8859-1 -*-
 
 
import urllib
import urllib2
import re
import HTMLParser
 
try:    import psyco ; psyco.jit()  # If present, use psyco to accelerate the program
except: pass
 
 
 
class html2txt(HTMLParser.HTMLParser):
    ''' A basic parser which converts HTML tables into plain text.
        Feed HTML with feed(). Get txt with getTXT(). (See example below.)
        '''
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
        self.TXT = ''      # The TXT data
        self.TXTrow = ''   # The current TXT row beeing constructed from HTML
        self.inTD = 0      # Used to track if we are inside or outside a <TD>...</TD> tag.
        self.inTR = 0      # Used to track if we are inside or outside a <TR>...</TR> tag.
        self.re_multiplespaces = re.compile('\s+')  # regular expression used to remove spaces in excess
        self.rowCount = 0  # CSV output line counter.
    def handle_starttag(self, tag, attrs):
        if   tag == 'tr': self.start_tr()
        elif tag == 'td': self.start_td()
    def handle_endtag(self, tag):
        if   tag == 'tr': self.end_tr()
        elif tag == 'td': self.end_td()         
    def start_tr(self):
        if self.inTR: self.end_tr()  # <TR> implies </TR>
        self.inTR = 1
    def end_tr(self):
        if self.inTD: self.end_td()  # </TR> implies </TD>
        self.inTR = 0            
        if len(self.TXTrow) > 0:
            self.TXT += self.TXTrow[:-1]
            self.TXTrow = ''
        self.TXT += '\n'
        self.rowCount += 1
    def start_td(self):
        if not self.inTR: self.start_tr() # <TD> implies <TR>
        self.inTD = 1
    def end_td(self):
        if self.inTD:
            self.inTD = 0
    def handle_data(self, data):
        if self.inTD:
            self.TXTrow += self.re_multiplespaces.sub(' ',data.replace('\t',' ').replace('\n','').replace('\r','').replace('"','""'))
    def getTXT(self,purge=False):
        ''' Get output text.
            If purge is true, getTXT() will return all remaining data,
            even if <td> or <tr> are not properly closed.
            (You would typically call getTXT with purge=True when you do not have
            any more HTML to feed and you suspect dirty HTML (unclosed tags). '''
        if purge and self.inTR: self.end_tr()  # This will also end_td and append last TXT row to output text.
        dataout = self.TXT[:]
        self.TXT = ''
        return dataout
 
 
 
def simple_request(tracking_number):
    """does a simple request to the tracking server"""
    
    tracking_url = 'http://wwwapps.ups.com/WebTracking/processInputRequest'
    user_agent =  'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers =  { 'User-Agent'  : user_agent  }
    values = {'HTMLVersion'  : '5.0',
              'loc' : 'en_FR',
              'Requester' : 'UPSHome',
              'tracknum' : tracking_number,
              'AgreeToTermsAndConditions' : 'yes',
              'ignore' : '',
              'track.x' : '13',
              'track.y' : '11' }
    data =  urllib.urlencode(values)
    req =  urllib2.Request(tracking_url, data, headers)
    try:
        handle = urllib2.urlopen(req)
    except IOError, e:
        if hasattr(e, 'reason'):
            ret = [ 'Server unreachable.', 'Raison: ', e.reason ]
        elif hasattr(e, 'code'):
            ret = [ 'Server Error.', 'Code d\' erreur : ', e.code ]
            print e.code
        return ret
    else:
        return handle.read()
 
def cut_html(html):
    beginTag = "<!-- Begin: Exception Error Message -->"
    endTag   = "<!-- End Package Progress -->"
    out = ""
 
    startPos = html.find(beginTag)
 
    while startPos > -1:
        endPos = html.find(endTag,startPos+1)
        if endTag == -1:
            break
        else:
            out+=html[startPos+len(beginTag):endPos]
            startPos = html.find(beginTag,endPos+1)
    return out
 
 
 
 
if __name__ == '__main__':
    tracking_number = '1Z 1WX 989 68 8551 540 2'
    parser=html2txt()
    parser.feed(cut_html(simple_request(tracking_number)))
    print parser.getTXT()

Message édité par nicolbolas le 01-04-2007 à 22:55:31

Marsh Posté le 02-04-2007 à 00:16:10

bon ben ça, ça m'a pas l'air mal :

Code :

#!/usr/bin/python
# -*- coding: ISO-8859-1 -*-
 
 
import urllib
import urllib2
import re
import HTMLParser
import threading
import Queue
import sys
 
try:    import psyco ; psyco.jit()  # If present, use psyco to accelerate the program
except: pass
 
 
THREAD_LIMIT = 50
packages_to_track = Queue.Queue(0)
parsed_results = Queue.Queue(THREAD_LIMIT)
 
class html2txt(HTMLParser.HTMLParser):
    ''' A basic parser which converts HTML tables into plain text.
        Feed HTML with feed(). Get txt with getTXT(). (See example below.)
        '''
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
        self.TXT = ''      # The CSV data
        self.TXTrow = ''   # The current CSV row beeing constructed from HTML
        self.inTD = 0      # Used to track if we are inside or outside a <TD>...</TD> tag.
        self.inTR = 0      # Used to track if we are inside or outside a <TR>...</TR> tag.
        self.re_multiplespaces = re.compile('\s+')  # regular expression used to remove spaces in excess
        self.rowCount = 0  # CSV output line counter.
    def handle_starttag(self, tag, attrs):
        if   tag == 'tr': self.start_tr()
        elif tag == 'td': self.start_td()
    def handle_endtag(self, tag):
        if   tag == 'tr': self.end_tr()
        elif tag == 'td': self.end_td()         
    def start_tr(self):
        if self.inTR: self.end_tr()  # <TR> implies </TR>
        self.inTR = 1
    def end_tr(self):
        if self.inTD: self.end_td()  # </TR> implies </TD>
        self.inTR = 0            
        if len(self.TXTrow) > 0:
            self.TXT += self.TXTrow[:-1]
            self.TXTrow = ''
        self.TXT += '\n'
        self.rowCount += 1
    def start_td(self):
        if not self.inTR: self.start_tr() # <TD> implies <TR>
        self.inTD = 1
    def end_td(self):
        if self.inTD:
            self.inTD = 0
    def handle_data(self, data):
        if self.inTD:
            self.TXTrow += self.re_multiplespaces.sub(' ',data.replace('\t',' ').replace('\n','').replace('\r','').replace('"','""'))
    def getTXT(self,purge=False):
        ''' Get output text.
            If purge is true, getTXT() will return all remaining data,
            even if <td> or <tr> are not properly closed.
            (You would typically call getTXT with purge=True when you do not have
            any more HTML to feed and you suspect dirty HTML (unclosed tags). '''
        if purge and self.inTR: self.end_tr()  # This will also end_td and append last TXT row to output text.
        dataout = self.TXT[:]
        self.TXT = ''
        return dataout
 
 
def simple_request(tracking_number):
    """does a simple request to the tracking server"""
    
    tracking_url = 'http://wwwapps.ups.com/WebTracking/processInputRequest'
    user_agent =  'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers =  { 'User-Agent'  : user_agent  }
    values = {'HTMLVersion'  : '5.0',
              'loc' : 'en_FR',
              'Requester' : 'UPSHome',
              'tracknum' : tracking_number,
              'AgreeToTermsAndConditions' : 'yes',
              'ignore' : '',
              'track.x' : '13',
              'track.y' : '11' }
    data =  urllib.urlencode(values)
    req =  urllib2.Request(tracking_url, data, headers)
    try:
        handle = urllib2.urlopen(req)
    except IOError, e:
        if hasattr(e, 'reason'):
            ret = [ 'Server unreachable.', 'Raison: ', e.reason ]
        elif hasattr(e, 'code'):
            ret = [ 'Server Error.', 'Code d\' erreur : ', e.code ]
            print e.code
        return ret
    else:
        return handle.read()
 
 
def cut_html(html):
    beginTag = "<!-- Begin: Exception Error Message -->"
    endTag   = "<!-- End Package Progress -->"
    out = ""
    startPos = html.find(beginTag)
    while startPos > -1:
        endPos = html.find(endTag,startPos+1)
        if endTag == -1:
            break
        else:
            out+=html[startPos+len(beginTag):endPos]
            startPos = html.find(beginTag,endPos+1)
    return out
 
 
def thread():
    """Get, cut and parse tracking information"""
    while True:
        try:
            tracking_number = packages_to_track.get(False)
        except Queue.Empty:
            return
        parser = html2txt()
        parser.feed(cut_html(simple_request(tracking_number)))
        parsed_results.put((tracking_number, parser.getTXT()), True)
 
 
def run():
    jobs_done = 0
    sys.stderr
    sys.stderr.write("Starting...\n" )
    for a in range(10):
        for b in range(1000):
            for c in range(10):
                packages_to_track.put('1Z 1WX 989 68 855'+str(a)+' '+str(b).zfill(3)+' '+str(c))
    sys.stderr.write("Created 100 000 job entries\n" )
    
    
        
    for n in xrange(THREAD_LIMIT): # Unleash the hounds
        t = threading.Thread(target=thread)
        t.start()
    sys.stderr.write("Unleashed the hounds...\n" )
        
    while threading.activeCount()> 1 or not packages_to_track.empty():
        # That condition means we want to do this loop if there are threads
        # running OR there's stuff to process
        try:
            tracking_number, tracking_info = parsed_results.get(False, 10) # Wait for up to a second for a
                                                   # result
        except Queue.Empty:
            continue
        jobs_done += 1
        sys.stderr.write("Processed package #%s - Got %s bytes data - %s processed so far\n" % ( str(tracking_number), len(tracking_info), str(jobs_done) ) )
        print tracking_number, '\n', tracking_info
        
 
if __name__ == '__main__':
    run()

edit : rajout de code pour un peu de debug sur stderr

Message édité par nicolbolas le 02-04-2007 à 02:00:17

Marsh Posté le 02-04-2007 à 02:32:34

apparament j'ai un probleme de synchro quelque part : certains numeros connus n'aparaissent pas dans la sortie. Je relance un test pour comparer le nombre de retour par rapport au nombre de requettes, mais ça me parait vraiment etrange...

Marsh Posté le 02-04-2007 à 04:30:33

mouarf, c'etait juste trop de threads, le serveur d'UPS etait débordé et a refusé quelques connexions... Ca va mieux avec 10 threads et ça va meme un poil plus vite avec 20 mais avec un peu de perte

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed

Name *

Email *

URL

Message *