El sábado me dieron una charla sobre lingüística. La chica (Elena) quería que viésemos la lengua de una manera diferente a la usual, quería demostrarnos que no aprendemos lo que es una subordinada sustantiva porque sí.
Nunca me había planteado la lingüística como una ciencia, es decir, siempre te dan a elegir: o ciencias o letras. Jamás me han dicho “la ciencia de las letras”. Es por eso que la charla me ha dejado fascinada y todavía sigo dándole vueltas.
Aparte de mis movidas mentales, quería compartir con vosotrxs AntConc.
¿Qué es AntConc, Gabriela? ¿Qué dices?
Vale, AntConc es un programa de un chico japonés que, básicamente, trata sobre analizar de la manera más científica la lengua. AntConc se dedica a contar palabras, a ordenarlas por su frecuencia, a situarlas en el texto, a comparar dos textos buscando palabras clave, etc.
Es asombroso. Yo, que amo la ciencia, al ver un texto representado de una manera tan matemática digámoslo de esa manera, he cambiado mucho mi manera de enfrentarme a y estudiar la lengua.
Si quieres saber cómo poder cacharrear y ver cosas chulísimas en AntConc, hay más debajo
¿Cómo funciona AntConc?
AntConc es un programa que puedes descargar gratuitamente aquí, está disponible para Windows, Mac y Linux.
Como cualquier otro archivo, le das clic a la opción que prefieras, esperas a que descargue y, cuando ya esté listo, lo abres.
Te sale algo como esto:
Hay un montón de botones, lo sé, no te agobies, yo no sé usar ni la mitad. Solo necesitas entender unas tres cosas:
Corpus: Es el documento (que tiene que estar en formato .txt) que analiza el programa. Tienes que abrirlo desde la pestaña File>Open file(s), y te aparecerán en la columna de la izquierda, donde dice Corpus Files.
Word List: Es la lista de palabras en serio no me digas del archivo, aparecen ordenadas por frecuencia. Al principio vamos a encontrar conjunciones, preposiciones, pronombres, nada fuera de lo común.
Keyword List: Esta función solo está disponible cuando comparamos dos corpus, nos muestra una lista de palabras clave si no me lo dices no lo imagino del corpus que queremos analizar.
¿Qué hacemos ahora? A nosotros nos dieron un archivo .rar que contenía los subtítulos de las películas El Señor de los Anillos, Star Wars y de las series Orange is the new Black, Narcos y How I Met Your Mother. Lo puedes descargar aquí. (por cierto, grammarpunki.com es el blog de Elena, por si quieres pasarte)
Descomprimimos el rar y abrimos en AntConc los subtítulos de Star Wars, por ejemplo.
Se nos abre esta pestaña, buscamos la carpeta en la que hayamos descomprimido los corpus.
Como están en subcarpetas, seleccionamos una y luego abrimos los corpus correspondientes.
¡Ya está!
Ahora vemos que los corpus de los siete episodios de Star Wars nos aparecen en la columna de la izquierda. Lo primero que hay que hacer, antes de buscar o experimentar con cualquier cosa, es hacer la Wordlist.
En la pestaña de Wordlist le damos a Start, tiene que salirnos algo así:
En esta pestaña hay tres columnas en realidad son cuatro pero la cuarta esta vacía, la de la derecha nos muestra el puesto, en la del medio podemos ver la frecuencia, es decir, cuánto aparece esa palabra, y en la tercera columna vemos la palabra en sí.
Como ya había dicho antes, las primeras palabras podríamos considerarlas irrelevantes, pues no nos aportan nada en cuanto al tema del corpus. Es más, hasta el puesto 31 no podemos encontrar una palabra propia del universo Star Wars como es jedi. Mirad:
Podemos hacer click en jedi para ver cómo funcionan otras dos herramientas del programa:
Se nos abrirá primero la pestaña de Concordance, aquí podemos ver en qué frases está la palabra jedi a lo largo de los siete episodios de Star Wars. Se ve así:
La pestaña de Concordance Plot es una manera más visual de ver la situación de jedi a lo largo de las películas. Cada línea vertical significa la mención de la palabra. Es así:
En N-Grams nos muestra las palabras que se colocan detrás de jedi. Está ordenado, al igual que la Wordlist, por frecuencia:
Y, antes de empezar a comparar corpus, la pestaña Collocates se encarga de buscar y colocar las palabras que coaparecen con jedi.
Puedes experimentar lo que quieras con lo que te he mostrado hasta ahora, hay muchas cosas que sorprenden, por ejemplo, la frecuencia de la palabra galaxia, o hay cosas que, cuando las piensas, tiene todo el sentido del mundo, como el Concordance Plot de la palabra vader.
¿Qué es eso de comparar corpus?
Se trata de comparar, más bien, las Wordlist de dos corpus. Por ejemplo, si quieres saber cuáles son las palabras que caracterizan a Star Wars, haces que AntConc compare su lista de palabras con la de otro corpus de referencia. Cuando una palabra presenta una frecuencia anormalmente alta en el corpus de Star Wars, el programa nos los muestra. Es una manera fácil de eliminar toda esa “paja” que son las conjunciones, preposiciones, pronombres.
Vamos a seguir trabajando con Star Wars, y como corpus de referencia vamos a utilizar El Señor de los Anillos.
Primero hacemos click en Tool Preferences y se nos abre esta pestaña:
Aquí hacemos click en Keyword List. Y nos sale algo así:
Tenemos que cargar los corpus del Señor de los Anillos, por lo que pulsamos en Add Files. Se nos va a abrir una pestaña como la del principio, cuando abrimos el corpus de Star Wars. Seguimos los mismo pasos.
Seleccionamos los tres archivos del Señor de los Anillos y le damos a Abrir.
La pestaña de los archivos se cierra, y volvemos a Tool Preferences. Vemos que en el espacio que antes estaba en blanco ahora están los tres corpus de referencia (que son los del Señor de los Anillos). Le damos a Load.
Una vez la barrita esté verde, podemos darle a Apply y la ventana de Tool Preferences se cerrará.
Volveremos a Keyword List, donde le damos a Start y nos aparecerá lo siguiente:
Ahora ya no hay conjunciones, ni preposiciones ni nada de eso. La palabra jedi, que antes estaba en el puesto 31, está la primera. Ahora si que estas son las palabras de Star Wars. Nave, maestro, anakin, etc. (por cierto, esa r que aparece sola es de r2d2).
¿A que es alucinante?
Y hasta aquí es.
Esto es todo lo que sé.
Este programa es una herramienta cuanto menos, interesante y muy útil. Podemos utilizar la función de comparar los corpus para analizarnos a nosotrxs mismxs, por ejemplo, a través de los chats de WhatsApp.
¿Y si comparas el chat que tienes con tus amigxs más íntimos con el de tu grupo de clase, o incluso con el de tu madre? Puede que haya palabras que con tu madre no las digas, pero con tus amigxs sí.
Ahora solo te queda probar y experimentar, porque, al fin y al cabo, la lingüística es una ciencia.
Si te ha quedado alguna duda, mi ask está abierto. Y si has llegado hasta aquí, gracias por leer. Buenas noches/días/tardes. Un beso :).
Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.
✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality
Anya is LIVE right now
FREE
Free to watch • No registration required • HD streaming
For The Class That I Made This Blog For, we had to present on a Hot Topic in TESOL right now. Our professor asked for a data-driven approach, and encouraged us to us AI LLMs like ChatGPT or Claude to analyse our data. I . . . did half of that. I manually found and created corpora and then used AntConc, the classic Corpus Linguistics program, to analyze the data by hand. It took too much time. I was consumed by the work. Luckily, my professor allowed me to use my explanation of how I found a Hot Topic to be my presentation for my hot topic. Very chill.
Links:
AntConc is software that lets you study large text corpora. It's awesome. Love it so much.
TESOL Quarterly is one of the top respected journals in the TESOL profession.
IATEFL is the European version of TESOL International, and is also highly respected in the field.
Now for the 4th draft, I'm also using a little program I used in my linguistic studies a lot. It is called AntConc and lets you analyse corpora of texts - for example a draft of a novel you have been writing.
The simplest function is the word count. If you don't enter a word and run it, the program lists all the words in the text and how often they occur. Hopefully, the most frequent instances will be pronouns and determiners and the like, but if you scroll down a bit, you may see if you used any verb, noun or adjective particularly often. For example, I have used the name of my MC's partner, "Sam" 372 times in total.
Anyway, you can use this with even more aim: Halfway through my last edit, I thought, "huh, you're using many smiles there". Sure enough, when I do the count for "smile*" (that way it involves instances of "smiled" and "smiles" as well), it shows over 70 hits in total.
With that information, I can have a look at the plot (the barcode) which tells me in which part of the text I have the most instances. We can see that in the second half, there are fewer hits - MC has less to smile there, but also that's when I paid attention to it 🙃
One more useful function is KWIC - Keyword in Context. There you can have a look at, well, exactly that: in what contexts did I use "smile*"? Are there maybe some cases where I can replace it and add some variety to the text? With that knowledge, I might just do that :)
So yeah, that was just some very quick info on this program. I think it comes in very handy at this stage of the editing process :) If you want to check it out, you can download it easily:
The website of Laurence Anthony. Professor at Waseda University Japan, developer of AntConc, a freeware concordancer software program for Wi
Just so you know: You have to import your text as a text file (.txt; UTF-8).
Van siendo horas de dormir, pero me sumerjo en un texto bueno, de Leder. Nunca le había leído detenidamente.
Encuentro collative, un término desconocido para mi. No-palabra, según la Psico-lingüística.
Me lanzo a su búsqueda y por 1a vez me falla el MacMillan. Bien enmarcado entre líneas rojas, aparece: Sorry, no search result for collative.
De Google translator, ni hablar... directo a collativo y de aquí a referencias de desayunos en italiano. ¡Cámbate!
Por supuesto el contexto no es facilitador.
Echando de menos las versiones impresas de los diccionarios desisto del intento. Además, los tesauros siempre incluyen en su definición, lo definido y la sinonimia total no existe, me autoconvezco.
Sigo leyendo, el vocablo se repite 1, 2, 3 veces. Por qué me quedaría yo en Osgood, me pregunto. Desisto del texto y hasta de Berlyne, solo por el momento. Pero, como tengo ganas de trastear. me acuerdo de una herramienta sencilla de manejo. ¡Tiempo que no lo usaba! Descargo la versión estable para mi portátil y me dedico a buscar la frecuencia de lematización. Increíble el nº resultante.
Ya puesta...debería calcular la riqueza léxica, aunque me agobio con solo pensar lo costoso en tiempo de esta ocurrencia. Filtrar los stopwords con tanta referencia...es manual!
Termino el día con este post.
Buenas noches, con una no-palabra en mi haber.
Ps: mi valencia de hedonic es negativa.
Ps2: contexto, se me olvidó introducirlo en la búsqueda
I got to show off a sample of one part of my Homestuck corpus in AntConc in class today, which was neat. They were interested in the barcode-like concordance plot in one of the readings we had, so I pulled up the program and loaded the Vriska corpus since I knew it was long enough to show something interesting.
This is what the concordance plot for "Tavros" looks like for Vriska. Each black line is an instance of the word or phrase, and wider bars indicate clusters of it.
The problem with using these for Homestuck is that I only have corpora for individual characters, so that's something I want to do eventually.
Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.
✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality
Anya is LIVE right now
FREE
Free to watch • No registration required • HD streaming
I truly advise everyone reading this post to, if they get the opportunity to, download a concordancing tool such as AntConc and learn how to use it, because it opens new windows in analysis of literature and makes things a heck of a lot faster. Corpus linguistics go!
(but really you don't even need to learn too much about the linguistics of it to gain from the tools we use!)
A type is the number of unique word forms present in a corpus.
As an exercice, I tried to reply to a question I made in one of my previous posts: how many words are there in Pride and Prejudice by Jane Austen. So I loaded a raw text (unicode) version of the novel on Project Gutenberg, edited the file to delete the Gutenberg license and information and load it into AntConc. So, the answer is: 6259 words types and 122817 word tokens.
A question occurs to me then: is this distribution (about 20 times more tokens than types) standard in English? Let's see with the LOB corpus: 39524 types, 1020445 tokens, so about 26 times more tokens than types.
I notice that the LOB corpus consists of 15 files of various sizes with names ending with a letter: LOB_A.txt, LOB_B.txt etc. What do these different files correspond to? How and why is the corpus split in different files?
[a few minutes later] Silly of me! Each file correspond to the genres covered by the corpora, as explained in the section of the course about them.
Resources
Laurence Anthony’s YouTube site
A readme that may prove useful to remind me some shortcuts etc.