
Clasificación. Renegando con IAs (III)
febrero 27, 2025Clasificación. ¿foto o documento? (V)
agosto 18, 2025Cuántas cosas se pueden hacer con los pie de fotos y el blog Fotos de familia. Son cortos como tuits, en su mayoría. Tienen años, lugares, nombres. Por supuesto también se pueden analizar los comentarios pero como mostró Emiliano Calomarde, los comentarios no siempre están relacionados con la noticia que los agrupa, en este caso una foto. El corpus tiene una serie de datos pero no tiene metadatos ni resulta fácil extraer información de epígrafes, comentarios y fotos. Si queremos que se vuelvan datos para el cálculo hay que «limpiar».
Hagamos algo con los pie de foto: extraigamos los años o décadas mencionados en el texto. Por supuesto: mecánicamente. Con fuerza bruta, aplicando un filtro de regularidad sobre las frases. Expresiones regulares se llama esa especie de lenguaje críptico que permite pedir, extraer, sintagmas de dos caracteres (que sean números para nosotros) y de cuatro caracteres siempre y cuando empiecen con ’18’ y ’19’.
import re
df['cifras'] = df['epigrafe'].str.findall(r'\b(18\d{2}|19\d{2}|\d{2})\b')Al momento de realizar el scraping obtuvimos 12500 fotos aproximadamente (actualmente hay un poco más). Ahora que estamos haciendo pruebas con epígrafes, tenemos que sacar de la ecuación los vacíos y los extensos (más de 100 palabras). Sacarlos temporalmente, claro, para que no introduzcan ruido en el pantallazo que queremos ver. Quedaron 11700 registros aproximadamente. Producen «ruido» porque pueden tener más de una cifra o incluso muchas cifras en su contenido.

Después tuvimos que sacar de estas pruebas los registros que tienen más de 1 cifra en el epígrafe, incluso si tienen menos de 100 palabras (100 palabras son muchas!). Eso nos peló la tabla. Quedaron 7700 registros.
Además, si queremos mostrar por décadas los años que se mencionan en los pie de fotos (por eso las 2 cifras, que se utilizan mucho), hay que usar un poco más de código para que las cifras redondeadas a década del 1800 no se superpongan con las de las décadas del 1900. Supuesto: los valores de 2 cifras mencionados en los epígrafes pertenecen al siglo XX, porque nadie dice «la década del ’70» pensando en la época en 1a que nos gobernaba Sarmiento o Avellaneda. Pero si alguien escribe «1873» no queremos que ese ’70’ del redondeo se confunda con los ’70’ de dos o cifras que pertenecen al siglo XX.
Así queda este pantallazo de las fotos por décadas según los epígrafes:

¿Dice esto algo sobre las edades de las personas que quieren conversar sobre historia marlplatense?, ¿dice algo sobre los fundamentos no escritos de lo que se guarda o no, de lo que se exhibe o no, en la lucha por la memoria pública? No hay ninguna expresión regular para pensar eso.



