Vocabulario usado en el Hip Hop español
Una estadística sobre las palabras únicas usadas de cada rapero
Después de descubrir esta maravillosa visualización de Matt Daniels, donde compara el vocabulario de Shakespeare con el de raperos estadounidenses, decidí intentar hacer lo mismo, pero con los de esta gran piel de toro llamada España y con ese gran maestro llamado Cervantes.
Ya que no todos los raperos tienen el mismo recorrido, para poder compararlos he empleado varias métricas: palabras únicas en las primeras 5.000 palabras, palabras únicas en toda su obra (accesible), y ratio de palabras únicas versus totales.
Antes de presentar los resultados, es necesario especificar que los datos obtenidos son solo una aproximación, ya que se dan muchas circustancias donde pueden producirse incorrecciones. Por ejemplo, las palabras MC y emcee se contabilizan como dos palabras distintas, y de igual manera ocurre con expresiones como ajá y ahá o abreviaciones (pa por para). Además, las fuentes de donde se han sacado las letras no son del todo fiables, ya que son compartidas por diversas personas que, por ejemplo, usan a su antojo las reglas de puntuación. Para minimizar estos últimos problemas, se han eliminado todos los signos de puntuación, así como acentos, apóstrofes, y otros signos ortotipográficos.
Se han eliminado también los estribillos de las canciones, ya que distorsionaban mucho la métrica y realmente no aportaban información sobre la complejidad de las letras de cada autor.
PALABRAS ÚNICAS EN LAS PRIMERAS 5.000 PALABRAS
En este gráfico se ponderan todos los raperos bajo el mismo ratio de palabras contadas (5.000) Es un número bajo, pero permite incluir raperos cuyas letras no son del todo accesibles en internet. Destacan especialmente Sicario, Capaz y Rayka, de Hablando en plata, que se adelantan al resto con bastante diferencia, siendo superados solo por Nega, de Los Chikos del Maíz. También hay que destacar que los raperos más prolíficos, como Nach o Porta (ver gráfico siguiente) obtienen muy malos resultados al ser ponderados con el mismo número de palabras.
La gran mayoría de raperos supera ampliamente el vocabulario de El Quijote (1.488 palabras únicas en las primeras 5.000 palabras), si bien este número se reduce si se compara con Zalacaín el Aventurero, de Pío Bajora (con 1.653 palabras en esta escala). Otras obras que he usado para la comparación arrojaban datos similares (1745 para Trafalgar o 1474 para El lazarillo de Tormes) y cuando se ha aumentado la base de palabras totales a 15.000 (en vez de las 5.000 que se muestran) la proporción de raperos que lo superaba era parecida.
Como curiosidad, se puede observar perfectamente cómo la cabeza del "pelotón" está gobernada por Andalucía, mientras que en la cola únicamente encontramos raperos procedentes de la Comunidad de Madrid. Y aunque no debería sorprender a nadie, agrada verlo constatado.
PALABRAS ÚNICAS / TOTALES
Teniendo en cuenta toda la obra producida (y accesible) se ha generado este gráfico, en el que se puede observar una perfecta correlación entre el número de palabras totales y el número de palabras únicas. De media, los raperos emplean unas 200 palabras nuevas por cada 1000 palabras en sus canciones.
Nach se lleva el gran premio, con más de 80.000 palabras generadas (sin estribillos), aunque solo unas 12.000 únicas. Los andaluces, a excepción de Zatu, tienen una obra más pequeña que el resto de raperos. Igual pasa con los aragoneses, donde únicamente Rapsus supera las 30.000 palabras.
Es importante remarcar que el número de palabras totales no depende tanto de cuán prolífico es el rapero, si no de cuantos groupies tiene que hayan gastado su tiempo escribiendo sus letras en alguna página de internet. De ahí que Porta y Nach sean los que aparezcan con más palabras totales, cuando muy posiblemente haya otros con más obras publicadas.
PORCENTAJE PALABRAS ÚNICAS / TOTALES
Esta gráfica nos muestra de manera relativa a cada autor el número de palabras únicas entre el total de su obra. Si bien es cierto que esto perjudica a los autores con más obra analizada, se dan casos curiosos como la caida del Nega hasta el 6º lugar o el sorprendente ratio de Sicario, que comprobado una y otra vez, arroja casi un 50% de palabras únicas.
HABLANDO EN PLATA
Ha sido el grupo revelación en estos gráficos, ocupando en conjunto tres de los cuatro primeros puestos. Aunque son bastante conocidos dentro del género por sus letras oscuras, seguramente pocos hubiesen esperado tener posiciones tan altas en cuanto a variedad de vocabulario, pero lo cierto es que en sus canciones abundan palabras poco comunes en otros autores (como entrar en los paritorios y convertirlos en cementerios, estrangulando bebés en sus cordones umbilicales, y después tatuarles tribales triturarles i love canibales)
Total | % Total | Únicas | % Únicas | |
---|---|---|---|---|
Capaz | 6109 | 37,08% | 2410 | 39,45% |
Rayka | 5022 | 30,48% | 1922 | 38,27% |
Sicario | 5344 | 32,43% | 2316 | 43,34% |
Contando los datos relativos del grupo, Capaz hace la mayor aportación con un 37,08%, pero con un ratio propio de palabras únicas inferior al de Sicario, que aunque aporta un 32,43% obtiene casi tantas palabras únicas como Capaz. Respecto a las palabras más usadas, llama la atención veneno, la cual no aparece en posiciones altas ningún otro grupo o cantante.
Palabras más repetidas: rap (43), somos (39), bien (37), tengo (26), siempre (25), todo (25), plata (24), hace (23), veneno (23), tiempo (23).
LOS CHIKOS DEL MAÍZ
Soy el rap que escucharia Hồ Chí Minh en la jungla. Era de esperar que con una cantidad tan amplia de referencias en sus canciones iban a quedar en posiciones altas, y así ha sido el caso de Nega.
Total | % Total | Únicas | % Únicas | |
---|---|---|---|---|
Nega | 12869 | 55,60% | 4570 | 35,51% |
Toni | 10277 | 44,40% | 3190 | 31,04% |
Nega, además de hacer una mayor contribución a las letras del grupo, también tiene un ratio más alto de palabras únicas. No obstante, en conjunto las palabras más usadas no destacan en especial frente a otros grupos.
Palabras más repetidas: rap (57), tengo (50), ser (48), somos (45), vida (39), aunque (34), siempre (32), otro (29), sigo (28), eres (28).
VIOLADORES DEL VERSO
Pese a que Violadores del verso es el grupo más aclamado, ninguno de sus miembros consigue ninguna posición destacable, pero ya sabemos que el rap no es solo vocabulario.
Total | % Total | Únicas | % Únicas | |
---|---|---|---|---|
Lírico | 15861 | 24,66% | 3913 | 24,67% |
Kase.O | 27414 | 42,63% | 5943 | 21,68% |
Hate | 21034 | 32,70% | 5455 | 24,93% |
Kase.O realiza una aportación bastante mayor, aunque también es cierto que tiene más canciones en solitario, lo que desvirtua los datos ampliamente. Lo que si es comparable es el porcentaje de palabras únicas, en el cual Javat cae al tercer puesto en el grupo. Pero le seguimos queriendo, ¿no?
Respecto a las palabras más usadas, lo he alargado un poco para incluir co, que aunque es previsible, no se da en otros grupos con sus respectivos illos, chacho o similares.
Palabras más repetidas: rap (241), tengo (159), todo (158), ser (147), nada (144), vida (144), mierda (133), siempre (119), hoy (117), bien (96), micro (93), co (93).
Ya por finalizar, aunque han sido bastantes horas preparando esta visualización, han sido momentos muy agradables, no solo por el tema del diseño y la programación, si no también por haber reescuchado canciones conocidas y descubierto algunas nuevas. Y porque al final, con los datos en la mano, Andalucía manda.
Fuentes:
- The Largest Vocabulary in HipHop para la idea y el estilo de la visualización.
- Jsfiddle de Amelia Bellamy-Royds para parte del código de D3.js.
- Local Wisdom para sacar la regresión lineal en javascript.
- Proyecto Gutenberg para la obtención de los libros en texto de plano de El Quijote y demás.
- Musica.com, Letramania.com y HHGroups para las letras de las canciones.
Texto por: Santi Espinosa (Twitter)
Cualquiera que esté interesado puede publicar sus artículos en este apartado. Infórmate de cómo hacerlo excatemente aquí.
Comentarios
#24-0-262 Aqui está basado en las primeras 5k, en la de inglés en 35k
Nega es el mejor valorado con 2,218 palabras únicas en las primeras 5,000. He visto el trabajo de Matt Daniels y el mejor valorado en inglés es Aesop Rock con 7,392. Cabe destacar que el más bajo (que fue DMX) contó con 3,214, es decir 996 palabras más que Nega. Esto hace ver la diferencia de niveles entre el rap en español y el rap en inglés. Queda camino por recorrer...

Muy interesante, me quedo con ganas de ver los resultados de Sahrif

¿Por qué no incluiste a Pablo Hasél? Estoy más que seguro que Hasél superaría a Nega.
Increíble trabajo, me abruma la dedicación que le ponéis a este tipo de labores. Felicidades y me ha gustado mucho
Interesante estudio, ojalá se hagan más del estilo... Enhorabuena por tu trabajo!
Me da tanta risa por que no pones a Pablo Hasel y tampoco creo que Arma Blanca sea tan bajoy ahora si analizamos a Exopoetics que tampoco veo en la lista la verdad es que es un trabajo guapo y de verdad que se te agradece mucho pero deberías de analizar a los Maestros de Ceremonia por que no creo que Nega ni Sicario sean los que mas influyen en palabras únicas
#26 el 23/06/2024 a las 03:50:
Casi 10 años después y con las IA's accesibles para el publico en general sería interesante ver un estudio mas actualizado y a detalle