BCI Meeting 2023

Additional information for the poster "Applying DeepSpeech2 to Brain-Computer Interfaces A Novel Approach for Speech Decoding from EEG Data".

Sixty healthy individuals participated in this study. EEG data was gathered using a 64-channel system while the participants performed a task involving silent speech production and perception. This task was composed of four segments, wherein each participant was presented with a set of 30 everyday Spanish sentences, repeated approximately six times per subject.

Graphical description of the task

The task performed by the participants was a silent speech production and perception exercise. They were presented with 30 common Spanish sentences. The EEG data was collected 0.5 seconds after the onset of each word in these sentences. The participants repeated this task multiple times, providing a rich dataset for our deep learning models to analyze and learn from. The goal was to explore the potential of translating these brain signals into recognizable text.

Here are the sentences featured in our research:

  1. recién me dijeron que si
  2. La inteligencia artificial es real
  3. era terrible para mi estomago
  4. soy flojo para hacer ejercicios
  5. y yo voy al gimnasio
  6. voy caminando todos los días
  7. Estuve todo el invierno resfriado
  8. Cuando vaya saliendo te llamo
  9. Nunca hay que decir nunca
  10. pero mi abuela tiene siete hermanos
  11. No se puede posponer el plazo
  12. pero este temblor fue más fuerte
  13. Eso te pasa por estar nervioso
  14. yo no vivo con mi esposa
  15. Me dan miedo los edificios altos
  16. Antes todos querían comprar una tele
  17. yo soy la mayor de los hermanos
  18. la música para mi es la vida
  19. Gracias a Dios tuve una buena educación
  20. No fui a ningun lado de vacaciones
  21. Ellos dijeron que el vino estaba malo
  22. Faltan pocos días para salir de vacaciones
  23. Me gusta con dos cucharadas de azúcar
  24. Tengo una muy buena convivencia con mis vecinos
  25. Esa mochila no es igual a la mia
  26. Anda temprano a la tienda para que puedas comprar
  27. y todavía estoy esperando que me llamen para ir
  28. Si no pasa esa micro me voy en metro
  29. Mi marido y yo jubilamos en el mismo año
  30. Cada día me pongo más nervioso con la prueba

The unique 126 classes are:

a convivencia el estuve metro mi pero saliendo todavia
abuela cuando ellos faltan ir mia plazo salir todo
al cucharadas en flojo jubilamos micro pocos se todos
altos dan era fue la miedo pongo si tuve
anda de es fuerte lado mismo por siete una
antes decir esa fui llamen mochila posponer soy vacaciones
artificial dia eso gimnasio llamo musica prueba te vaya
azucar dias esperando gracias los muy puedas tele vecinos
año dijeron esposa gusta malo nervioso puede temblor vida
buena dios estaba hacer marido ningun que temprano vino
cada dos estar hay mas no querian tengo vivo
caminando edificios este hermanos mayor nunca real terrible voy
comprar educacion estomago igual me para recien tienda y
con ejercicio estoy inteligencia metro pasa resfriado tiene yo

We carried out an analysis of the word frequency in our dataset to check for imbalances that might bias the networks. The most frequent word was the Spanish article “la”, which accounted for 3.5% of the data. Even if the networks were biased towards this specific label, the maximum accuracy would only reach 3.5%, far below the 11.7% accuracy achieved by DeepSpeech 2.

Word Frequency for the 126 classes across all 60 sessions

Channel location diagram for the decoding analysis.

Note: The dataset will be publicly available after the acceptance of the publication Subject-independent decoding of perceived sentences from EEG signals using artificial neural networks.