普通视图

Received before yesterday

Café con Alejandro Benito-Santos. 9 de abril de 2024

2024年4月2日 19:20

Visualización de datos en humanidades digitales: ¿Llave maestra o caballo de Troya intelectual?

9 de abril de 2024 – 19:00 (GMT+2)

Alejandro Benito-Santos

Grupo de Procesamiento del Lenguaje Natural y Recuperación de la Información (NLP&IR) de la UNED.

Resumen de la intervención

La visualización se ha convertido en un elemento vital en las prácticas de investigación humanística en el medio digital. Sin embargo, el valor y el impacto de la investigación en la intersección de la visualización y las humanidades siguen siendo objeto de acalorados debates. Por un lado, los expertos en visualización critican el carácter servilista con el que se adoptan las técnicas de visualización en humanidades, lo cual supone un escollo para producir avances significativos en el campo de la visualización de datos, y también para crear experiencias mutuamente enriquecedoras de las que se vean beneficiadas todas las partes implicadas. Por otro lado, los humanistas advierten de las raíces de la visualización en las ciencias cuantitativas y empíricas, lo que lleva a introducir cambios sustanciales en las metodologías humanísticas tradicionales, creando así tensiones epistémicas, políticas, éticas, pedagógicas y culturales a todos los niveles que es necesario resolver. Sobre la base de los avances más recientes en este área de investigación altamente interdisciplinaria, el discutir cómo aprovechar las sinergias de esta colaboración única en la ciencia, y el aprender a construir situaciones de beneficio mutuo sobre los puntos de fricción existentes, se revela de suma importancia. De acuerdo con estas ideas, en esta charla presentaré a debate con los asistentes algunos de los retos más importantes a los que, a mi juicio, se enfrenta la disciplina en la actualidad, todo ello a través de un recorrido de mis experiencias personales como investigador en el campo que se remontan a mi etapa pre-doctoral.

Biografía

Alejandro Benito Santos, ingeniero informático, es investigador postdoctoral “Juan de la Cierva” en el Grupo de Procesamiento del Lenguaje Natural y Recuperación de la Información (NLP&IR) de la UNED (2024-2025). Previamente, completó su tesis doctoral en la Universidad de Salamanca (2020) en el tema de la analítica visual orientada al descubrimiento de textos científicos para humanistas. En este ámbito, ha participado en proyectos relacionados con la visualización interactiva, el procesamiento del lenguaje natural y las humanidades digitales como PROVIDEDH “Progressive Visual Decision-Making in Digital Humanities” (CHIST-ERA 2016) o LyrAIcs “Artificial Intelligence for Lyrics Comprehension” (ERC PoC 2020). Alejandro es un miembro activo de la comunidad VIS4DH (Visualization for the Digital Humanities), un foro internacional que promueve nuevos métodos de investigación en la intersección de las humanidades y la visualización. En este contexto, destaca su reciente participación en el Seminario Dagstuhl 23381, «Visualization and the Humanities: Towards a Shared Research Agenda» (2023), que reunió a expertos en humanidades y visualización de diversos países para tratar de sentar las bases de una agenda de investigación común para el campo.

Herramientas de webscraping como apoyo a la investigación

2022年6月29日 16:05

Desde hace dos décadas, el crecimiento exponencial de la información digital hace necesario el uso de técnicas y herramientas que permitan recuperar masivamente datos de la web. Las Humanidades Digitales también requieren en ciertos proyectos de estas aplicaciones, basadas en la minería de texto, para obtener información con la que llevar a cabo sus investigaciones.

El webscraping (o scraping, raspar) es una técnica usada para extraer contenido de sitios web, que permite construir datasets o conjuntos de datos desde la web. El procedimiento es sencillo, se captura la información en HTML enviada a nuestro navegador y se procesa, realizando operaciones de filtrado, conversión de formatos y etiquetado, para obtener datos estructurados que puedan ser almacenados y posteriormente analizados en estudios de investigación. De esta manera, los datos adquieren un carácter multivalente al pasar de una amplia dispersión en la web a formatos más sencillos para usos instrumentales. Así, por ejemplo, es posible extraer datos de estadísticas de organismos oficiales o de redes sociales para el estudio de fenómenos sociales o culturales.

Aplicaciones para la extracción de datos

Entre las aplicaciones más populares para la extracción de datos se encuentran:

  • Octoparse: permite extraer fácilmente casi todo tipo de datos en sitios web, ya que ofrece amplias funcionalidades y capacidades. Cuenta con dos modos de operación: Plantilla de tarea y Avanzado, para aprender rápidamente sin conocimientos de programación. La interfaz es muy intuitiva, ya que nos guía durante el proceso de extracción. Una vez extraído el contenido del sitio web, posibilita guardarlos en formatos estructurados como EXCEL, TXT, HTML o sus bases de datos en un corto período de tiempo.
  • Import.io: es una de las herramientas de webscraping por excelencia ya que extrae datos de casi cualquier sitio web. Es muy fiable y fácil de usar. Permite crear datasets o conjuntos de datos al importar hasta 1.000 páginas (URL’s) de contenidos a un CSV en una sola vez y cuenta con funcionalidades como el envío de alertas cada vez que se extrae algo.
  • ParseHub: esta aplicación gratuita facilita también la extracción de datos de cualquier página web sin necesidad de programar nada. Simplemente hay que seleccionar lo que debe extraer e indicar cómo clasificarlo. Para ello, previamente debemos descargar e instalar el programa en el ordenador.

Códigos de programación para diseñar todo el proceso

Por otro lado, se pueden utilizar códigos de programación o sistemas basados en lenguajes que permiten diseñar todo el proceso, ajustándose lo más posible al proyecto y las webs que se quieren procesar, que requieren conocimientos de programación para diseñar y poner a funcionar el proceso de extracción. Entre las herramientas más conocidas en este modelo están:

  1. Para Pyton: Scrapy, BeautifulSoup y Selenium
  2. Para R: Rcrawler y Rvest

Expresiones regulares

Por último, dentro de este apartado es importante señalar, sobre todo por su aplicación en las Humanidades Digitales, el concepto de Expresiones Regulares (regex) para la extracción de datos textuales. Las expresiones regulares son una serie de códigos que se utilizan para localizar patrones de texto. A través de una serie de operadores y códigos se puede recuperar segmentos específicos.

La entrada Herramientas de webscraping como apoyo a la investigación se publicó primero en LINHD.

Contrato técnico/a de investigación en el proyecto CATCOM/DICAT, Universidad de Valencia

2024年2月6日 17:49
Se acaba de publicar la convocatoria para la contratación de un puesto de técnico/a medio/a de apoyo a la investigación vinculado al proyecto de investigación en Humanidades Digitales de la Universidad de Valencia «CATCOM/DICAT, bases de datos sobre la práctica escénica en el siglo de oro (ASODAT TERCERA FASE)» y en relación con el proyecto coordinado ASODAT (asodat.uv.es).
El contrato inicial es a tiempo parcial por un año, con la posibilidad de ampliación. El plazo de presentación de solicitudes es del 6 al 19 de febrero de 2024.

Atelier de datos culturales: fabricación, diseño, discusión y análisis (IArtHis_Lab)

2023年11月3日 17:27

Atelier de datos culturales: fabricación, diseño, discusión y análisis

📅 14 y 16 de noviembre de 2023
🕐 15:30-19:00 h (descanso de media hora).

Información

Este taller, que se divide en dos días, tiene como propósito brindar una introducción al concepto de datos culturales y su análisis. El taller se articulará en torno a discusiones críticas en las que examinaremos conjuntos de datos como objetos históricos y, además, aprenderemos a fabricar nuestros propios conjuntos de datos, diseñarlos y analizarlos.

Destinado a

Estudiantes de Humanidades de cualquier ámbito disciplinar. No se requiere experiencia previa. Máximo 15 participantes.

Organización

Coordinación científica: Nuria Rodríguez Ortega

Diseño y desarrollo: Bárbara Romero Ferrón (Digital Humanities Specialist – Universidad de Utrecht) y María Ortiz Tello (Investigadora posdoctoral UMA).

Índice

Día 1 – Fabricación de datos

  • Introducción
  • Qué es un dato
  • Qué es un dataset
  • Diseccionando datasets
  • Cómo estructurar datos
  • Cómo normalizarlos

Día 2 – Análisis y visualización

  • Dónde recolectar datos culturales
  • Tipos de metodologías computacionales
    • Estilometría
    • Visión por computadora
    • Análisis del lenguaje
    • Análisis de redes
    • Análisis estadísticos / cuantitativos
  • Análisis cuantitativo y visualización
  • Presentación de los estudiantes
❌