Los implantes cerebrales avanzan a una velocidad impresionante. La parálisis privó a dos mujeres de su capacidad de hablar. Para una de ellas, la causa fue la esclerosis lateral amiotrófica (ELA), una enfermedad que afecta a las neuronas motoras. La otra había sufrido un derrame cerebral en el tronco del encéfalo. Aunque ninguna de las dos puede enunciar con claridad, ambas recuerdan cómo formular palabras, y eso es importante. Con eso, la tecnología les ha devuelto la posibilidad de comunicarse a través de la conversación.
Tras ofrecerse como voluntarias para recibir implantes cerebrales, ambas son capaces de comunicarse a través de una computadora a una velocidad cercana al ritmo de una conversación normal. Analizando la actividad neuronal asociada a los movimientos faciales que se producen al hablar, los dispositivos decodifican su discurso a una velocidad de entre 62 y 78 palabras por minuto, respectivamente, varias veces más rápido que el récord anterior. No es el ritmo de una plática estándar, pero se asemeja.
“Ahora es posible imaginar un futuro en el que podamos devolver la fluidez de la conversación a alguien con parálisis, permitiéndole decir libremente lo que quiera con una precisión lo bastante alta como para que se le entienda con fiabilidad”, declaró el martes Frank Willett, investigador del Laboratorio Traslacional de Prótesis Neurales de la Universidad de Stanford, durante una rueda de prensa. Willett es autor de uno de los artículos, elaborado por investigadores de Stanford; el otro fue publicado por un equipo de la Universidad de California en San Francisco (UCSF).
Aunque es más lento que el ritmo de conversación natural de 160 palabras por minuto entre angloparlantes, los científicos aseguran que se trata de un emocionante paso hacia el restablecimiento del habla en tiempo real mediante una interfaz cerebro-computadora (BCI, por sus siglas en inglés). “Se está acercando a su uso en la vida cotidiana”, comente Marc Slutzky, neurólogo de la Northwestern University, quien no participó en los nuevos estudios.
Estas interfaces recogen y analizan las señales cerebrales y las traducen en órdenes que un dispositivo externo ejecuta. Estos sistemas han permitido a personas con parálisis controlar brazos robóticos, jugar videojuegos y enviar correos electrónicos con la mente. Investigaciones anteriores de ambos grupos demostraron que era posible traducir el habla de una persona paralítica a texto en una pantalla, pero con una velocidad, precisión y vocabulario limitados.
En el estudio de Stanford, los investigadores desarrollaron una BCI que utiliza la matriz de Utah, un diminuto sensor cuadrado, parecido a un cepillo de pelo, con 64 cerdas en forma de aguja. Cada una de ellas tiene un electrodo en la punta, y juntas recogen la actividad de neuronas individuales. A continuación, los investigadores entrenaron una red neuronal artificial para descodificar la actividad cerebral y traducirla en palabras que se mostraban en una pantalla.
Probaron el sistema con la voluntaria Pat Bennett, paciente de ELA, quien ahora tiene 68 años. En marzo de 2022, un cirujano insertó cuatro de estos diminutos sensores en la corteza cerebral de Bennett, la capa más externa del cerebro. Unos finos cables conectan los sensores a unos pedestales situados en la parte superior de su cabeza, que pueden conectarse mediante cables a una computadora.
Durante cuatro meses, los científicos entrenaron el software pidiendo a Bennett que intentara decir frases en voz alta. Con el tiempo, el programa aprendió a reconocer las distintas señales neuronales asociadas a los movimientos de los labios, la mandíbula y la lengua que Bennett realizaba para producir distintos sonidos. A partir de ahí, aprendió la actividad neuronal correspondiente a los movimientos utilizados para crear los sonidos que componen las palabras. A continuación, fue capaz de predecir secuencias de esas palabras y encadenar frases en la pantalla de una computadora.
Con la ayuda del dispositivo, Bennett pudo comunicarse a una velocidad media de 62 palabras por minuto. El BCI cometió errores el 23.8% de las veces, en un vocabulario de 125,000 palabras. El récord anterior era de apenas 18 palabras por minuto, establecido en 2021, cuando los miembros del equipo de Stanford publicaron un artículo en el que describían una interfaz que convertía la escritura imaginaria de una persona paralizada en texto en una pantalla.
En el segundo artículo, los investigadores de la UCSF construyeron una BCI utilizando una matriz que se coloca en la superficie del cerebro en lugar de dentro de él. Se trata de un rectángulo fino como el papel, con 253 electrodos, que detecta la actividad de muchas neuronas del córtex del habla. Colocaron esta matriz en el cerebro de una paciente con ictus llamada Ann y entrenaron un modelo de aprendizaje profundo para descifrar los datos neuronales que recogía mientras ella movía los labios sin emitir sonidos. A lo largo de varias semanas, Ann repitió frases de un vocabulario conversacional de 1,024 palabras.
Al igual que la IA de Stanford, el algoritmo del equipo de la UCSF fue entrenado para reconocer las unidades más pequeñas del lenguaje, llamadas fonemas, en lugar de palabras enteras. Al final, el software fue capaz de traducir el discurso de Ann a una velocidad de 78 palabras por minuto, mucho mejor que las 14 palabras por minuto a las que estaba acostumbrada en su dispositivo de comunicación de teclear para hablar. Su tasa de error fue del 4.9% al decodificar frases de un conjunto de 50, y las simulaciones calcularon una tasa de error del 28% utilizando un vocabulario de más de 39,000 palabras.
El grupo de la UCSF, dirigido por el neurocirujano Edward Chang, había utilizado anteriormente una matriz de superficie similar, con menos electrodos, para traducir el habla de una persona a texto en una pantalla. Su récord había sido de unas 15 palabras por minuto. Su actual interfaz no solo es más rápida, sino que va un paso más allá al convertir las señales cerebrales de Ann en voz audible emitida por una computadora.
Los investigadores crearon un “avatar digital” para transmitir en voz alta el discurso de Ann. Personalizaron a una mujer animada para que tuviera el pelo castaño como el de Ann y utilizaron imágenes de video de su boda para que la voz del avatar sonara como la de ella. “Nuestra voz y nuestras expresiones forman parte de la identidad, así que queríamos encarnar un habla protésica que pudiera hacerla más natural, fluida y expresiva”, declaró Chang durante la rueda de prensa del martes. Cree que el trabajo de su equipo podría permitir a las personas con parálisis interactuar de forma más personalizada con sus familiares y sus amigos.
El delicado cerebro
Los enfoques de ambos grupos tienen sus inconvenientes. Los electrodos implantados, como los utilizados por el equipo de Stanford, registran la actividad de neuronas individuales, lo que suele proporcionar información más detallada que un registro de la superficie cerebral. Pero también son menos estables, porque los electrodos implantados se desplazan por el cerebro. Incluso un movimiento de uno o dos milímetros provoca cambios en la actividad registrada. “Es difícil registrar las mismas neuronas durante semanas, por no hablar de meses o años”, aclara Slutzky. Además, con el tiempo se forma tejido cicatricial alrededor del electrodo implantado, lo que también puede afectar a la calidad de la grabación.
Por otro lado, una matriz de superficie capta la actividad cerebral con menos detalle, pero cubre un área mayor. Las señales que registra son más estables que los picos de neuronas individuales, ya que proceden de miles de neuronas, explica Slutzky.
Durante la sesión informativa, Willett refirió que la tecnología actual está limitada por el número de electrodos que pueden colocarse en el cerebro a la vez. “De forma parecida a cómo una cámara con más píxeles produce una imagen más nítida, el uso de más electrodos nos dará una imagen más clara de lo que ocurre en el cerebro”, comentó.
Leigh Hochberg, neurólogo del Hospital General de Massachusetts y de la Universidad de Brown, quien trabajó con el grupo de Stanford, opina que hace 10 años pocos habrían imaginado que algún día sería posible decodificar el intento de habla de una persona simplemente registrando su actividad cerebral. “Quiero poder decir a mis pacientes con ELA, o ictus del tronco encefálico, u otras formas de enfermedad o lesión neurológica, que podemos devolverles la capacidad de comunicarse de forma fácil, intuitiva y rápida”, promete Hochberg.
Aunque siguen siendo más lentos que el habla típica, estas nuevas BCI son más rápidas que los actuales sistemas de comunicación aumentativa y alternativa, escribe Betts Peters, logopeda de la Universidad de Ciencias de la Salud de Oregon. Estos sistemas obligan a los usuarios a teclear o seleccionar mensajes con los dedos o con la mirada. “Poder seguir el ritmo de la conversación supondría una enorme ventaja para muchas personas con problemas de comunicación, pues les facilitaría participar plenamente en todos los aspectos de la vida”, explica a WIRED por correo electrónico.
Aún quedan algunos obstáculos tecnológicos para crear un dispositivo implantable con estas capacidades. Por un lado, Slutsky piensa que la tasa de error de ambos grupos sigue siendo bastante alta para el uso cotidiano. En comparación, los actuales sistemas de reconocimiento de voz desarrollados por Microsoft y Google tienen una tasa de error de alrededor del 5%.
Otro reto es la longevidad y la fiabilidad del dispositivo. Una BCI práctica tendrá que registrar señales constantemente durante años y no requerir recalibración diaria, advierte Slutsky.
Los ICB también tendrán que ser inalámbricos, sin los engorrosos cables que requieren los sistemas actuales, para que puedan utilizarse sin que los pacientes tengan que estar conectados a un ordenador. Empresas como Neuralink, Synchron y Paradromics están trabajando en sistemas inalámbricos.