Extraer las URLs de todos los enlaces
Vamos a utilizar el HTML de la web parascrapear.com. Si entras en la web y pinchas en Control + U, podrás ver el código HTML de esta, o poniendo en el navegador:
view-source:https://parascrapear.com/
import requests
from bs4 import BeautifulSoup
# HTML parascrapear.com
# view-source:https://parascrapear.com/
page = requests.get('https://parascrapear.com/')
soup = BeautifulSoup(page.text, 'html.parser')
for a in soup.findAll('a'):
print(a['href'])
OUTPUT:
/ /login /javascript frases-de-sociedad frases-de-blaise-pascal frases-de-sociedad frases-de-jean-jacques-rousseau frases-de-naturaleza frases-de-blaise-pascal frases-de-defectos frases-de-mahatma-gandhi frases-de-miscelanea frases-de-gilbert-keith-chesterton frases-de-pensamiento-y-razon frases-de-goethe frases-de-miscelanea frases-de-emerson frases-de-sociedad frases-de-friedrich-nietzsche frases-de-sociedad frases-de-platon frases-de-arte frases-de-jorge-luis-borges frases-de-pensamiento-y-razon frases-de-emerson frases-de-sociedad frases-de-aristoteles frases-de-miscelanea frases-de-baltasar-gracian frases-de-sentimientos frases-de-goethe frases-de-sociedad frases-de-aristoteles frases-de-sociedad frases-de-benjamin-franklin frases-de-sentimientos frases-de-voltaire frases-de-sentimientos frases-de-george-bernard-shaw frases-de-naturaleza frases-de-jose-ortega-y-gasset frases-de-sociedad frases-de-victor-hugo /index-2 https:// scraping.link/
¿Cansado de que te bloqueen mientras haces web scraping?
Nuestra API gestiona la navegación automática y rotación de proxies por ti.
Nuestra API gestiona la navegación automática y rotación de proxies por ti.
Como hacer scraping con Python y Beautiful Soup:
Otros ejemplos de códigos usando BeautifulSoup:
- Buscar el siguiente hermano de una etiqueta
- Buscar etiquetas por clase CSS
- Cambiar el contenido de la etiqueta
- Construir con BeautifulSoup a partir de HTML
- Extraer las URLs de todos los enlaces
- Encontrar todas las etiquetas del documento HTML
- Construir un web scraper simple
- Encontrar el hermano anterior de una etiqueta
- Buscar el elemento anterior de una etiqueta
- Encontrar el siguiente elemento después de una etiqueta