普通视图

Received before yesterday

Escuela de otoño 2025

2025年7月3日 15:01
Escuela de otoño 2025

¿Cómo se construye un archivo desde una perspectiva feminista? ¿Qué significa preservar la memoria digital como bien común? Son preguntas que serán respondidas en la Escuela de Otoño, un espacio pensado para el diálogo interdisciplinario.

Continue reading Escuela de otoño 2025 at Red de Humanidades Digitales.

ResonanciasHD: Lo que una red dice cuando se escucha a sí misma

2025年4月11日 04:25

 Talia (Tata) Méndez

Todo empezó con una pregunta que no era nueva, pero sí urgente: ¿cómo fortalecer los vínculos entre quienes integramos la Red de Humanidades Digitales de México? Así nació el Subcomité de Vinculación, liderado por Isabel Galina e integrado por Joel Blanco, Francisco (Paco) Vázquez, Rodrigo Tirado y yo. Queríamos diseñar un plan estratégico para el año de gestión, pero sin que fuera un resultado final, sino más bien, un plan en movimiento.

Continue reading ResonanciasHD: Lo que una red dice cuando se escucha a sí misma at Red de Humanidades Digitales.

Elecciones para presidente y secretario de la RedHD 2024

2024年10月20日 07:05
Elecciones para presidente y secretario de la RedHD 2024

¡Consulta los perfiles y las cartas de presentación de los y las participantes de la convocatoria para presidente y secretario de la RedHD 2024!

Continue reading Elecciones para presidente y secretario de la RedHD 2024 at Red de Humanidades Digitales.

Programa de becas para jóvenes investigadores en humanidades digitales

2024年5月24日 13:26
Programa de becas para jóvenes investigadores en humanidades digitales

Este programa de becas tiene como objetivo colaborar en la formación de jóvenes investigadores entre 23 y 35 años de todas las nacionalidades consistente en la afiliación gratuita a la RedHD durante un año. ¡Participa!

Continue reading Programa de becas para jóvenes investigadores en humanidades digitales at Red de Humanidades Digitales.

Herramientas de webscraping como apoyo a la investigación

2022年6月29日 16:05

Desde hace dos décadas, el crecimiento exponencial de la información digital hace necesario el uso de técnicas y herramientas que permitan recuperar masivamente datos de la web. Las Humanidades Digitales también requieren en ciertos proyectos de estas aplicaciones, basadas en la minería de texto, para obtener información con la que llevar a cabo sus investigaciones.

El webscraping (o scraping, raspar) es una técnica usada para extraer contenido de sitios web, que permite construir datasets o conjuntos de datos desde la web. El procedimiento es sencillo, se captura la información en HTML enviada a nuestro navegador y se procesa, realizando operaciones de filtrado, conversión de formatos y etiquetado, para obtener datos estructurados que puedan ser almacenados y posteriormente analizados en estudios de investigación. De esta manera, los datos adquieren un carácter multivalente al pasar de una amplia dispersión en la web a formatos más sencillos para usos instrumentales. Así, por ejemplo, es posible extraer datos de estadísticas de organismos oficiales o de redes sociales para el estudio de fenómenos sociales o culturales.

Aplicaciones para la extracción de datos

Entre las aplicaciones más populares para la extracción de datos se encuentran:

  • Octoparse: permite extraer fácilmente casi todo tipo de datos en sitios web, ya que ofrece amplias funcionalidades y capacidades. Cuenta con dos modos de operación: Plantilla de tarea y Avanzado, para aprender rápidamente sin conocimientos de programación. La interfaz es muy intuitiva, ya que nos guía durante el proceso de extracción. Una vez extraído el contenido del sitio web, posibilita guardarlos en formatos estructurados como EXCEL, TXT, HTML o sus bases de datos en un corto período de tiempo.
  • Import.io: es una de las herramientas de webscraping por excelencia ya que extrae datos de casi cualquier sitio web. Es muy fiable y fácil de usar. Permite crear datasets o conjuntos de datos al importar hasta 1.000 páginas (URL’s) de contenidos a un CSV en una sola vez y cuenta con funcionalidades como el envío de alertas cada vez que se extrae algo.
  • ParseHub: esta aplicación gratuita facilita también la extracción de datos de cualquier página web sin necesidad de programar nada. Simplemente hay que seleccionar lo que debe extraer e indicar cómo clasificarlo. Para ello, previamente debemos descargar e instalar el programa en el ordenador.

Códigos de programación para diseñar todo el proceso

Por otro lado, se pueden utilizar códigos de programación o sistemas basados en lenguajes que permiten diseñar todo el proceso, ajustándose lo más posible al proyecto y las webs que se quieren procesar, que requieren conocimientos de programación para diseñar y poner a funcionar el proceso de extracción. Entre las herramientas más conocidas en este modelo están:

  1. Para Pyton: Scrapy, BeautifulSoup y Selenium
  2. Para R: Rcrawler y Rvest

Expresiones regulares

Por último, dentro de este apartado es importante señalar, sobre todo por su aplicación en las Humanidades Digitales, el concepto de Expresiones Regulares (regex) para la extracción de datos textuales. Las expresiones regulares son una serie de códigos que se utilizan para localizar patrones de texto. A través de una serie de operadores y códigos se puede recuperar segmentos específicos.

La entrada Herramientas de webscraping como apoyo a la investigación se publicó primero en LINHD.

❌