Esperto di Semalt: come estrarre il testo dalle pagine Web

Mentre esistono strumenti di scraping in grado di estrarre dati da più pagine in pochi secondi, l'unico modo sicuro per estrarre testo da pagine Web è sempre stato quello di evidenziare e copiare il testo. Ma questo metodo è un po 'complicato, specialmente nei casi in cui devi copiare testo da più pagine. Inoltre, gli sviluppatori web stanno cercando di bloccare il contenuto di una pagina Web per impedire di "copiarlo".

'Ora, per iniziare, ci sono vari metodi rapidi per estrarre il testo dalle pagine web. A seconda della quantità di testo che desideri ottenere, puoi scegliere tra le seguenti modalità:

1. Metodo Save-page

Questa tecnica si basa sulla capacità dei browser di salvare localmente una copia della pagina Web corrente. Per fare ciò, tieni semplicemente premuti i pulsanti control + S oppure puoi fare clic con il pulsante destro del mouse sulla pagina e selezionare salva la pagina dal menu a comparsa. Verrà avviata una finestra di esplorazione che richiede di specificare alcuni attributi della pagina Web.

Nella sezione inferiore, c'è un'opzione "nome file" che ti darà l'opportunità di specificare il nome del file della pagina web. È importante notare che il browser creerà anche una cartella con un nome simile che conterrà tutti i dati allegati dalla pagina Web come immagini e sfondi.

Al di sotto di questo, c'è un'opzione "salva come tipo" che ti consente di specificare il tipo di file che desideri salvare. Considerando che siamo interessati al testo selezionare solo Salva come ".txt" che creerà automaticamente un file di testo contenente tutto il testo della pagina Web e che può essere modificato utilizzando qualsiasi elaboratore di testi. Questo metodo è particolarmente utile negli scenari in cui è necessario copiare pagine complete. Nel caso in cui sia necessario tralasciare alcune parti del testo, è sufficiente aprire il file di testo e ritagliare il testo non necessario.

2. Metodo Ctrl + C e Ctrl + V

Questo è probabilmente il trucco più antico del libro, solo usando il mouse per evidenziare il testo che desideri estrarre puoi quindi procedere a copiarlo e incollarlo altrove. Questo metodo è utile quando è necessario copiare frammenti e utilizzarli rapidamente in un altro documento.

Per eseguire questa operazione, è necessario scorrere fino alla parte contenente il testo richiesto, tenere premuto il pulsante sinistro del mouse per passare il cursore dalla modalità "navigazione" alla modalità "evidenziazione". Ciò ti consentirà di evidenziare il testo, per farlo continua a tenere premuto il pulsante sinistro del mouse e sposta il cursore per evidenziare il testo. Al termine, rilascia il pulsante e fai clic con il pulsante destro del mouse sul testo che hai copiato per visualizzare il menu di navigazione. Su di esso fa clic sull'opzione "copia" per copiare il testo selezionato.

Passare al documento di testo in cui si desidera salvare il testo e fare clic con il pulsante destro del mouse per visualizzare il menu e fare clic su Incolla.

È importante notare che è possibile selezionare tra le varie modalità di incolla, ma se si è interessati solo al testo, fare clic su Incolla come testo normale.