English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Strumento utilizzato: Python 2.7 Clicca qui per scaricare
Framework scrapy
sublime text3
Un. Costruire Python (versione Windows)
1. Installare Python 2.7 - Poi inserire python nel cmd, se l'interfaccia è come segue, l'installazione è riuscita
2. Integrare il framework Scrapy - Inserire il comando della riga di comando: pip install Scrapy
L'interfaccia di successo dell'installazione è la seguente:
Ci sono molte situazioni di fallimento, ad esempio:
Soluzione:
Altri errori possono essere cercati su Baidu.
Due. Iniziare a programmare.
1. Scoprire siti web statici senza misure anti-scraping. Ad esempio, Baidu Tieba, DouBan.
Ad esempio, un thread su 'Desktop Bar'https://tieba.baidu.com/p/2460150866?red_tag=3569129009
Il codice Python è il seguente:
Commento del codice: sono stati introdotti due moduli urllib e re. Sono definite due funzioni, la prima funzione è ottenere i dati dell'intera pagina web di destinazione, la seconda funzione è ottenere l'immagine di destinazione nella pagina web di destinazione, esplorare la pagina web e ordinare le immagini ottenute in base a 0.
Nota: punti di conoscenza del modulo re:
Effetto visivo dello spidamento delle immagini:
Il percorso di salvataggio delle immagini è predefinito nella stessa directory del file .py creato.
2. Spidare immagini con misure di anti-spidamento di Baidu. Come Baidu Image e così via.
Ad esempio, ricerca per parole chiave "emoji pack" https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111
Le immagini vengono caricate in modo scorrevole, prima di spidare le prime 30 immagini.
Il codice è il seguente:
Commento del codice: importare 4 moduli, il modulo os viene utilizzato per specificare il percorso di salvataggio. Le prime due funzioni sono le stesse. La terza funzione utilizza if statement e tryException exception.
Il processo di spidamento è il seguente:
Risultato dello spidamento:
Nota: quando si scrive codice Python, si deve prestare attenzione all'allineamento, non mescolare Tab e spazi, altrimenti si possono verificare errori.
Questo è tutto il contenuto dell'articolo, spero che il contenuto di questo articolo possa aiutarti a imparare o lavorare in qualche modo, e spero anche di ricevere più supporto per il tutorial urlaio!
Dichiarazione: il contenuto di questo articolo è stato tratto da Internet, il diritto d'autore appartiene agli autori originali, il contenuto è stato contribuito e caricato autonomamente dagli utenti di Internet, questo sito non possiede il diritto di proprietà, non è stato editato manualmente e non assume responsabilità per le relative responsabilità legali. Se trovi contenuti sospetti di violazione del copyright, ti preghiamo di inviare una e-mail a: notice#oldtoolbag.com (al momento dell'invio dell'e-mail, sostituisci # con @) per segnalare, fornendo prove pertinenti. Una volta verificata, questo sito eliminerà immediatamente il contenuto sospetto di violazione del copyright.