Discussione: wget e sito asp
-
michele fabi Guest
wget e sito asp
Ciao a tutti,
sto cercando di scaricare delle immagini satellitari da un sito.
C'e' un'apposita form per recuperare le singole immagini presenti in
archivio, ma avendo bisogno di tutte le immagini dall'inizio dell'anno a
oggi (una immagine per ogni ora) cercavo un sistema piu' efficiente.
Ho scritto sulla loro help page una richiesta di aiuto ma non ho ricevuto
risposta.
Ho trovato poi il modo di indirizzare direttamente ogni pagina contenente
il singolo fotogramma orario, quindi pensavo di far fare a wget.
Secondo voi e' lecito scavalcare il form per il recupero delle immagini
(gratuite e liberamente scaricabili) o rischio che gli amministratori del
sito si incazzino?
Ad ogni modo ancora non e' successo niente perche' ho problemi a far
funzionare wget. L'url da risolvere e' del tipo:
http://www.tantebelleimmaginimeteo.com/image.ashx?
sat=vis&type=history&country=it&time=201003010700& sessionid=bw5hxe45iel5yl45qgrinsry
(l'indirizzo e' inventato). La parte "time" contiene data e ora del
fotogramma da scaricare, mentre l'id di sessione lo ricavo aprendo
un'immagine con il form ed estraendo l'url dal sorgente della pagina. Al
primo tentativo wget riconosceva solo la prima parte dell'indirizzo
trascurando tutto dopo il punto interrogativo. Dopo aver letto il man
senza capirci troppo, ho provato a sostituire i caratteri ? e & con i
codici esadecimali corrispondenti. Ora se digito:
wget --restrict-file-names=windows -A.ashx.gif http://
http://www.tantebelleimmaginimeteo.c...ype%3dhistory%
26country%3dit%26time%3d201001040700%26sessionid%3 q1qqx45sb0brkua2udz3bi4
--17:36:47-- http://www.tantebelleimmaginimeteo.com/image.ashx?
sat=vis&type=history&country=it&time=201001040700& sessionid%
253q1qqx45sb0brkua2udz3bi4/
Risoluzione di www.tantebelleimmaginimeteo.com/image.ashx?
sat=vis&type=history&country=it&time=201001040700& sessionid%
3q1qqx45sb0brkua2udz3bi4 in corso... fallito: Name or service not known.
Quindi i caratteri vengono interpretati correttamente, ma ottengo
comunque un errore.
Ho provato anche a passare i dati come --post-data:
wget -c -l 2 --restrict-file-names=windows http://
www.tantebelleimmaginimeteo.com --post-data "%2fimage.ashx%3fsat=vis%
26type%3dhistory%26country%3dit%26time%3d201001040 700%26sessionid%
3q1qqx45sb0brkua2udz3bi4"
ma mi scarica tutto tranne l'immagine che mi serve.
Qualcuno sa dirmi dove sbaglio?
Ciao e grazie
-
RedWiz Guest
Re: wget e sito asp
Il Wed, 10 Mar 2010 17:34:29 +0000, michele fabi ha scritto:
> Ciao a tutti,
> Secondo voi e' lecito scavalcare il form per il recupero delle immagini
> (gratuite e liberamente scaricabili) o rischio che gli amministratori
> del sito si incazzino?
è lecito se loro ti dicono che è lecito, controlla i terms of use del
sito ed il contenuto del file robots.txt che ogni sito ha (dovrebbe avere)
nella documentroot.
> Ad ogni modo ancora non e' successo niente perche' ho problemi a far
> funzionare wget. L'url da risolvere e' del tipo:
> http://www.tantebelleimmaginimeteo.com/image.ashx?
>sat=vis&type=history&country=it&time=201003010700 &sessionid=bw5hxe45iel5yl45qgrinsry
> (l'indirizzo e' inventato).
Quindi è inutile, forniscine uno valido o difficilmente ti si puo'
aiutare.
> La parte "time" contiene data e ora del
> fotogramma da scaricare, mentre l'id di sessione lo ricavo aprendo
> un'immagine con il form ed estraendo l'url dal sorgente della pagina. Al
> primo tentativo wget riconosceva solo la prima parte dell'indirizzo
> trascurando tutto dopo il punto interrogativo. Dopo aver letto il man
> senza capirci troppo, ho provato a sostituire i caratteri ? e & con i
> codici esadecimali corrispondenti.
ti basta mettere l'url tra doppi apici
> Quindi i caratteri vengono interpretati correttamente, ma ottengo
> comunque un errore.
E ovviamente non dici l'errore per lasciare un alone di mistero sul
problema, intrigante!
> Ho provato anche a passare i dati come --post-data: wget -c -l 2
> --restrict-file-names=windows http:// www.tantebelleimmaginimeteo.com
> --post-data "%2fimage.ashx%3fsat=vis%
> 26type%3dhistory%26country%3dit%26time%3d201001040 700%26sessionid%
> 3q1qqx45sb0brkua2udz3bi4"
provare a casaccio puo' portarti ad un risultato solo se sei molto
fortunato. Come viene sottomesso questo form?
post?
get?
fa partire un ajax?
ci sono dei campi hidden?
(altre mille domande utili ad arrivare alla soluzione del problema)
> Qualcuno sa dirmi dove sbaglio?
nel non dare il link al sito, e nel non riportare gli errori che ottieni.
-
Lutrin Guest
Re: wget e sito asp
On Wed, 10 Mar 2010 20:32:54 +0000, RedWiz ci disse:
> è lecito se loro ti dicono che è lecito
[...]
è sempre lecito, basta non sovraccaricare il server
--limit-rate=RATE limit download rate to RATE.
e magari inserire una pausa tra le richieste
-w, --wait=SECONDS wait SECONDS between retrievals.
>il contenuto del file robots.txt
[...]
che può essere ignorato con l'opzione
-e robots=off
com'è antipatica certa gente che vuole nascondersi le cose e costringe il
navigatore a scervellarsi per scaricarle
--
Puppy Linux wiki: http://puppylover.netsons.org/dokupuppy
Puppy Linux Forum: http://www.italianpuppy.org/forum/
Windows me genuit, Ubuntu rapuere / tenet nunc Puppy Linux...
-
michele fabi Guest
Re: wget e sito asp
Ciao e grazie per la risposta
Il Wed, 10 Mar 2010 20:32:54 +0000, RedWiz ha scritto:
> Quindi è inutile, forniscine uno valido o difficilmente ti si puo'
> aiutare.
Ok, il sito e' www.sat24.com, cliccando nella colonna di sinistra su
Italy e poi su more (poco piu' su) si accede alla maschera per il
recupero delle immagini d'archivio. Il che equivale a scrivere ad esempio
http://www.sat24.com/image.ashx?
sat=vis&type=history&country=it&time=201003010700& sessionid=bw5hxe45iel5yl45qgrinsry
sulla barra degli indirizzi del browser (cioe' fotogramma Italia, range
del visibile, primo marzo 2010 ore 8 (07.00 UTC)).
>> La parte "time" contiene data e ora del fotogramma da scaricare, mentre
>> l'id di sessione lo ricavo aprendo un'immagine con il form ed estraendo
>> l'url dal sorgente della pagina. Al primo tentativo wget riconosceva
>> solo la prima parte dell'indirizzo trascurando tutto dopo il punto
>> interrogativo. Dopo aver letto il man senza capirci troppo, ho provato
>> a sostituire i caratteri ? e & con i codici esadecimali corrispondenti.
>
> ti basta mettere l'url tra doppi apici
benissimo, grazie
>> Quindi i caratteri vengono interpretati correttamente, ma ottengo
>> comunque un errore.
>
> E ovviamente non dici l'errore per lasciare un alone di mistero sul
> problema, intrigante!
No a dire il vero avevo postato insieme sia il comando che l'errore, ma
in effetti non era chiaro. Ad ogni modo l'errore era:
Risoluzione di www.sat24.com/image.ashx?
sat=vis&type=history&country=it&time=201001040700& sessionid%
3q1qqx45sb0brkua2udz3bi4 in corso... fallito: Name or service not known.
>> Ho provato anche a passare i dati come --post-data: wget -c -l 2
>> --restrict-file-names=windows http:// www.tantebelleimmaginimeteo.com
>> --post-data "%2fimage.ashx%3fsat=vis%
>> 26type%3dhistory%26country%3dit%26time%3d201001040 700%26sessionid%
>> 3q1qqx45sb0brkua2udz3bi4"
>
> provare a casaccio puo' portarti ad un risultato solo se sei molto
> fortunato. Come viene sottomesso questo form? post?
> get?
> fa partire un ajax?
> ci sono dei campi hidden?
> (altre mille domande utili ad arrivare alla soluzione del problema)
Eh? Non conosco tua lingua.
Io pigiare bottoncino e immaginetta con Italia nuvolosa apparire su
schermo
Non so nulla di get post o ajax.
Anche se poi nel sorgente pagina c'e' una riga
<body id="ctl00_body1">
<form name="aspnetForm" method="post" action="history.aspx?
country=it" id="aspnetForm" style="margin: 0 0 0 0;">
Significa che il metodo di sottomissione e' post?
-
michele fabi Guest
Re: wget e sito asp
Il Wed, 10 Mar 2010 20:59:38 +0000, Lutrin ha scritto:
> è sempre lecito, basta non sovraccaricare il server
>
> --limit-rate=RATE limit download rate to RATE.
>
> e magari inserire una pausa tra le richieste
>
> -w, --wait=SECONDS wait SECONDS between retrievals.
>
>>il contenuto del file robots.txt
> [...]
> che può essere ignorato con l'opzione
>
> -e robots=off
Ok grazie per i consigli, faro' come dici.
-
RedWiz Guest
Re: wget e sito asp
Il Wed, 10 Mar 2010 22:14:41 +0000, michele fabi ha scritto:
>> è sempre lecito, basta non sovraccaricare il server
>
> Ok grazie per i consigli, faro' come dici.
sì, e se ti arriva una denuncia mandagli anche il conto dell'avocato,
visto che per lui "è sempre lecito".
-
Lutrin Guest
Re: wget e sito asp
On Wed, 10 Mar 2010 22:36:40 +0000, RedWiz ci disse:
> "è sempre lecito"
[...]
scaricare risorse da un server è normale (ecco gli effetti dei plagi
memtali della associazioni per la difesa dei diritti d'autore);
l'ingolfarlo consapevolmente con un eccesso di richieste che potrebbe
procurare l'interruzione del servizio può essere reato; è una gara di
intelligenza tra i creatori e gestori del server e l'utente privato che se
vuole scaricarsi delle cose un motivo ce l'avrÃ*
limitando e la velocitÃ* e il numero di richieste nell'unitÃ* di tempo
eviterÃ* che la sua attivitÃ* venga interpretata come un potenziale attacco;
a questo servono le millemilia opzioni di wget
--
Puppy Linux wiki: http://puppylover.netsons.org/dokupuppy
Puppy Linux Forum: http://puppylinux.ilbello.com
Windows me genuit, Ubuntu rapuere / tenet nunc Puppy Linux...
-
RedWiz Guest
Re: wget e sito asp
> Anche se poi nel sorgente pagina c'e' una riga <body id="ctl00_body1">
> <form name="aspnetForm" method="post" action="history.aspx?
> country=it" id="aspnetForm" style="margin: 0 0 0 0;"> Significa che il
> metodo di sottomissione e' post?
sì, e ci sono anche diversi campi hidden che devi mandare con gli
appropriati valori al server via post.
Inoltre il valore di tali campi viene modificato dal janascript prima del
form submit.
Ad una prima occhiata non mi è sembrato di vedere richieste ajax, ma ho
visto troppo poco per essere sicuro.
Se vuoi fare qualche prova per capire quello che succede al momento del
submit devi replicarti il sito in locale, cambiare la action del form per
farla puntare al tiuo sito, stampare e controllare quello che ti è
arrivato dal form via post.
FOrse , in quel caso riesci a tirarci fuori qualcosa, ma non è per niente
assicurato.
Insomma, come form è abbastanza bastardo
-
michele fabi Guest
Re: wget e sito asp
Il Thu, 11 Mar 2010 00:23:38 +0000, RedWiz ha scritto:
> sì, e ci sono anche diversi campi hidden che devi mandare con gli
Credo che siano __EVENTTARGET, __EVENTARGUMENT e __VIEWSTATE. Tu ne vedi
altri?
> Ad una prima occhiata non mi è sembrato di vedere richieste ajax, ma ho
> visto troppo poco per essere sicuro.
Non so cosa sia, ajax, e' tutta roba nuova per me, ma nel sorgente della
pagina non compare.
> Se vuoi fare qualche prova per capire quello che succede al momento del
> submit devi replicarti il sito in locale, cambiare la action del form
> per farla puntare al tiuo sito, stampare e controllare quello che ti è
> arrivato dal form via post.
> FOrse , in quel caso riesci a tirarci fuori qualcosa, ma non è per
> niente assicurato.
> Insomma, come form è abbastanza bastardo
Me ne sono accorto
Ad ogni modo penso che wget vada indirizzato su
www.sat24.com/history.aspx e tutto il resto (la parte dopo il ?) vada
incluso nel --post-data. Se riesco a metterci anche i valori dei campi
hidden dovrebbe funzionare, che ne dici?
Inoltre sulla man di wget c'e' un esempio di trasmissione con il metodo
post che fa uso di cookies, come faccio a sapere se devo usarli anche io?
Per la copia locale non so, probabilmente non saprei poi come condurre
l'analisi e i tempi si allungherebbero di parecchio. Sarebbe interessante
comunque vedere come funziona il marchingegno.
Grazie e Ciao
-
RedWiz Guest
Re: wget e sito asp
Il Thu, 11 Mar 2010 15:05:54 +0000, michele fabi ha scritto:
> Il Thu, 11 Mar 2010 00:23:38 +0000, RedWiz ha scritto:
>
>> sì, e ci sono anche diversi campi hidden che devi mandare con gli
>
> Credo che siano __EVENTTARGET, __EVENTARGUMENT e __VIEWSTATE. Tu ne vedi
> altri?
>
a prima vista no, ma potrebbe sempre crearne qualcuno il javascript al
momento del submit, intanto potresti vedere disabilitanto il javascript
dal browser se quella roba la vedi ancora correttamente.
>> Ad una prima occhiata non mi è sembrato di vedere richieste ajax, ma
>> ho visto troppo poco per essere sicuro.
>
> Non so cosa sia, ajax, e' tutta roba nuova per me, ma nel sorgente della
> pagina non compare.
se non sai cosa è, come fai a sapere che non compare? :|
>> Insomma, come form è abbastanza bastardo
>
> Me ne sono accorto
Ad ogni modo penso che wget vada indirizzato su
> www.sat24.com/history.aspx e tutto il resto (la parte dopo il ?) vada
> incluso nel --post-data. Se riesco a metterci anche i valori dei campi
> hidden dovrebbe funzionare, che ne dici?
no, se ti riferisci al solo url della immagine, questo li ci sono solo
variabili get, quindi è giusto mettere tutto nell url e niente in POST.
> Inoltre sulla man di wget c'e'
> un esempio di trasmissione con il metodo post che fa uso di cookies,
> come faccio a sapere se devo usarli anche io?
ho controllato e sì, c'è il cookie di sessione, che oltretutto ti viene
messo nell'url della immagine, altrimenti nisba.
quindi la procedura è:
wget "http://www.sat24.com/history.aspx?country=it" --keep-session-
cookies --save-cookies cookie.txt
e ti salvi il file con il cookie in cookie.txt
dentro ci trovi il valore del session id, una roba tipo:
mhen2b55qft4zq55y1wrmjbo
quindi una volta salvato quel file ti prendi la img facendo coincidere
ilsession id dell'url con quello nell cookie, ed usando ovviamente il
cookie che ti han dato:
wget "http://www.sat24.com/image.ashx?
sat=vis&type=history&country=it&time=201001111500& sessionid=mhen2b55qft4zq55y1wrmjbo"
--load-cookies cookie.txt
a me funziona
-
michele fabi Guest
Re: wget e sito asp
Il Thu, 11 Mar 2010 15:44:08 +0000, RedWiz ha scritto:
>> Non so cosa sia, ajax, e' tutta roba nuova per me, ma nel sorgente
>> della pagina non compare.
>
> se non sai cosa è, come fai a sapere che non compare? :|
Intendevo dire che non compare la parola nel sorgente, ma magari il
metodo viene implementato anche senza che la parola compaia
esplicitamente... come non detto.
>> Me ne sono accorto
Ad ogni modo penso che wget vada indirizzato su
>> www.sat24.com/history.aspx e tutto il resto (la parte dopo il ?) vada
>> incluso nel --post-data. Se riesco a metterci anche i valori dei campi
>> hidden dovrebbe funzionare, che ne dici?
>
> no, se ti riferisci al solo url della immagine, questo li ci sono solo
> variabili get, quindi è giusto mettere tutto nell url e niente in POST.
Beh quello che dici ha senso, ma allora il method=post a cosa si
riferisce? Probabilmente ad altre parti del form. Boh...
>> Inoltre sulla man di wget c'e'
>> un esempio di trasmissione con il metodo post che fa uso di cookies,
>> come faccio a sapere se devo usarli anche io?
>
> ho controllato e sì, c'è il cookie di sessione, che oltretutto ti viene
> messo nell'url della immagine, altrimenti nisba.
Aaah io invece stavo provando a togliere del tutto le info sull'id di
sessione, dato che erano specificate nel cookie. Oltretutto ero ancora
convinto di dover usare il post-data... non avrebbe mai funzionato
> quindi la procedura è:
>
> wget "http://www.sat24.com/history.aspx?country=it" --keep-session-
> cookies --save-cookies cookie.txt
>
> e ti salvi il file con il cookie in cookie.txt
>
> dentro ci trovi il valore del session id, una roba tipo:
>
> mhen2b55qft4zq55y1wrmjbo
>
> quindi una volta salvato quel file ti prendi la img facendo coincidere
> ilsession id dell'url con quello nell cookie, ed usando ovviamente il
> cookie che ti han dato:
>
> wget "http://www.sat24.com/image.ashx?
>
sat=vis&type=history&country=it&time=201001111500& sessionid=mhen2b55qft4zq55y1wrmjbo"
> --load-cookies cookie.txt
>
> a me funziona
Anche a me!
Grazie davvero, mi hai fatto risparmiare un sacco di tempo e lavoro.
Ora penso a come automatizzare la procedura.
Ciao!
-
RedWiz Guest
Re: wget e sito asp
Il Thu, 11 Mar 2010 16:45:23 +0000, michele fabi ha scritto:
>> no, se ti riferisci al solo url della immagine, questo li ci sono solo
>> variabili get, quindi è giusto mettere tutto nell url e niente in POST.
>
> Beh quello che dici ha senso, ma allora il method=post a cosa si
> riferisce? Probabilmente ad altre parti del form. Boh...
io pensavo che ti servisse l'intera pagina, quei parametri nell'url della
sola immagine vengono costruiti con i dati di post, pero' se vuoi la img
puoi saltare la sottomissione del form (ni questo caso specifico)
>>
>> a me funziona
>
> Anche a me!
>
> Grazie davvero, mi hai fatto risparmiare un sacco di tempo e lavoro. Ora
ok, se vuoi ti do le coordinate bancarie per il bonifico O_o
Discussioni Simili
-
continuare mirror di un sito con wget
sto scaricando, con wget, un sito, ma la cosa va per le lunghe e devo interromperlo per poi riprenderlo stasera. per continuare lo scaricamento...continuare mirror di un sito con wget inviato Di Lutrin nel forum it.comp.os.linux.softwareReplies: 1Ultimo Messaggio: 02-05-2009, 09:42 AM -
wget per soli "slaa*.pdf" da sito www.ti.com
Ciao a tutti. Vorrei scaricare tutte le application notes in formato pdf relative al microcontrollore MSP430 (quindi tutto perfettamente lecito)...wget per soli "slaa*.pdf" da sito www.ti.com inviato Di fenestren nel forum it.comp.os.linux.sysReplies: 0Ultimo Messaggio: 11-03-2008, 03:18 PM -
wget e sito La Repubblica
Salve, chiedo lumi su come scaricare, se si puo', immagini dal sito di La Repubblica del tipo...wget e sito La Repubblica inviato Di iop nel forum it.comp.os.linux.iniziareReplies: 9Ultimo Messaggio: 11-18-2007, 11:52 AM -
Scaricare un intero sito (wget?)
Quali sono le alternative freeware? Vorrei imparare ad usare wget, ma non c'è nella suite standard di Tiger... credo si debbano installare i...Scaricare un intero sito (wget?) inviato Di magma nel forum it.comp.macintoshReplies: 10Ultimo Messaggio: 09-01-2005, 08:59 AM -
wget e copia sito in un solo file
Salve, voglio salvare un sito ricorsivamente con wget in un solo file, ho provato con: wget -nd -r -Oprova http://nomeserver.it/nomedir/ ma...wget e copia sito in un solo file inviato Di gallom nel forum it.comp.os.linux.softwareReplies: 7Ultimo Messaggio: 12-18-2003, 12:39 PM


