Telos / Laura Pérez

La inteligencia artificial es una etiqueta compleja que tiende a generalizarse para aludir a cualquier capacidad mediante la que las máquinas pueden realizar tareas consideradas propiamente humanas. Se trata de un sintagma poliédrico en el que se suman fenómenos como el reconocimiento, la transcripción y la reproducción de la voz humana y los sonidos, del procesamiento del lenguaje y su generación, de la visión artificial y del reconocimiento automatizado de imágenes o de la voz, entre otros.

A todos ellos se añaden conceptos que salpican los artículos e informes de últimas tendencias, como el machine learning o aprendizaje automático, y el deep learning o aprendizaje profundo basado en la emulación de los sistemas del cerebro y la construcción de redes neuronales.

Estos términos confluyen mezclados con los datos a través múltiples formas: big data, data analytics, data visualization, data science y business intelligence, que hacen dificultoso, en muchos casos, vislumbrar sus usos y posibles aplicaciones en el mundo real y especialmente aclarar todos estos conceptos a la sociedad, poco versada en tecnología pero muy preocupada por cuestiones éticas, regulatorias, de privacidad y de transformación digital en todos los ámbitos.

Aunque el concepto de inteligencia artificial suena reciente, las tecnologías subyacentes a esta etiqueta llevan ya más de seis décadas en desarrollo. Hemos de remitirnos a 1950 para recordar la figura de Alan Turing, que en su artículo Computing Machinery and Intelligence, planteaba la pregunta: “¿Pueden las máquinas hablar como los hombres?”.

El Test de Turing

El Test de Turing sentó las bases del juego de la imitación de la máquina al hombre y pretendía analizar cuándo la máquina confundiría al ser humano emulando sus capacidades lingüísticas. Sobre los avances realizados en los años 50 de la mano de científicos como Marvin Minsky –fundador del Laboratorio de Inteligencia Artificial del Massachusetts Institute of Technology (MIT)– se han construido y mejorado muchos de los algoritmos que están en la base de nuestros sistemas de procesamiento de datos.

Sin embargo, la historia de la inteligencia artificial y de la tecnología aplicada al lenguaje ha estado llena de altibajos. Tras la revolución de Turing, los años dorados de la primera etapa se extendieron hasta 1975, época en la que los sistemas de procesamiento se basaban en algoritmos de reglas fundamentados sobre lógica, para pasar después a un invierno de silencio provocado por los límites del hardware, que volvería a gozar de auge a partir de los años 80 con la introducción del concepto de sistemas expertos.

Un segundo invierno llegó a finales de los años 80 y no ha vuelto a despertar hasta comienzos del presente siglo, pues con el cambio de milenio parece haber resucitado la moda de la inteligencia artificial. ¿Por qué?

Realmente no hay una sola razón sino la conjunción de varios factores que hacen que, para muchos, el actual sea el momento propicio de invertir, desarrollar y transformar la industria gracias a la transformación digital.

El primer revulsivo es la propia tecnología, pues nos encontramos en un momento en que las exponenciales mejoras, tanto a nivel de software –potencia y variedad de algoritmos, cantidad de código abierto u open-source, comunidades amplias de desarrollo…–, como de hardware –creación de máquinas potentes con unidades de procesamiento capaces de asumir la potencia de las multiplicidad de procesos en paralelo que requieren las redes neuronales–, han hecho posible que los procesos de analítica de datos que antes duraban horas, incluso días, arrojen resultados en tiempo real, utilizando espacios minúsculos y a muy bajo coste al alcance de cualquier usuario y desarrollador.

El segundo factor es la cantidad de datos masivos generados exponencialmente, de los cuales se calcula que un porcentaje de entre el 80 por ciento y el 90 por ciento no están estructurados. En 1992 el tráfico diario mundial de Internet era de 100 Gigabit/día y en 2015 ha pasado a ser de 15.000 millones de GB por día. Para 2020 se esperan alcanzar unos 44 zetabytes de datos diarios y, sin embargo, la realidad es que la mayoría de los datos que se producen no se analizan y los no estructurados –como el lenguaje– no se procesan.

Las tecnologías del Procesamiento del Lenguaje Natural (PLN) podrían, en muchos casos, utilizarse para transformar estos datos no estructurados de tipo lingüístico en conocimiento y obtener valor añadido gracias a la clasificación, extracción y entendimiento de la información, que permitirán alcanzar las expectativas que el fenómeno del big data comenzó a prometer hace unos años.

Hay que añadir además un tercer factor, que es la proliferación de artefactos digitales, las denominadas “nuevas plataformas IoT (internet of things o internet de las cosas)”, que permiten a los usuarios interactuar constantemente con sus teléfonos inteligentes u ordenadores, pero mediante interfaces que en muchos casos van más allá de las tradicionales pantallas y se activan mediante la voz, como la tecnología ponible (wearables).


TELOS / Laura Pérez

Tecnologías del lenguaje

Las tecnologías del lenguaje se están convirtiendo en una de las áreas de mayor potencial dentro de la inteligencia artificial, gracias a su combinación con los sistemas tradicionales de Procesamiento del Lenguaje Natural basado en reglas.

Los algoritmos de PLN permiten lograr que la máquina interprete el texto más allá de una secuencia de caracteres binarios, convirtiéndolos en palabras, mediante procedimientos de lematización y stemming (agrupación de palabras de una misma raíz eliminando variantes de singular, femenino, tiempos verbales…), detección de estructuras sintácticas y funcionalidad de las palabras en la frase (POS o Part of Speech), desambiguación e identificación de referencias anteriores en el texto (en demostrativos, pronombres relativos, etcétera), y clasificación semántica utilizando diccionarios especializados (wordnets).

Para que estos funcionen, es necesario acompañarlos de una serie de librerías, gramáticas y diccionarios digitales asociados a cada lengua, que permiten que rápidamente el ordenador pueda codificar los términos existentes en un texto.

Entre los diferentes tipos de diccionarios, caben destacar también los denominados “corpus de polaridad”, que definen cada una de las palabras asociándolas a su carga semántica positiva o negativa, operación básica para poder detectar el proceso conocido como “análisis de sentimiento” que tan frecuentemente se utiliza en análisis de redes sociales –por ejemplo, para hacer minería de opinión en los debates políticos– o para medir la satisfacción de los clientes tras recibir un servicio.

Además de las reglas, otra de las técnicas que se ha empleado desde los años 80 es la aplicación de estadística al análisis lingüístico digital para detectar patrones y realizar inferencias a partir de los mismos. Estos sistemas funcionan en el momento que hay suficientes datos que permitan visibilizar la repetición de patrones mediante técnicas sencillas como el cómputo por frecuencia de palabras.

Nos encontramos ante un momento muy relevante en el que la inteligencia artificial y el lenguaje confluyen en el epicentro del debate, pues la eclosión de interfaces de voz en dispositivos, como los coches autónomos o los asistentes virtuales, ha creado la necesidad de mejora y de incorporación de los mismos a nuestro día a día, cuya funcionalidad es entender el lenguaje humano, procesarlo e interactuar en forma de voz y chatbots y asistentes virtuales como Alexa, Echo, Siri o Cortana.

Una gran brecha

Aunque a día de hoy, el mercado de la inteligencia artificial y específicamente de las tecnologías del lenguaje está dominado por las grandes empresas procedentes del mundo angloparlante –en el que las GAFAs: Google, Amazon, Facebook y Apple se baten con la competencia asiática para ostentar el liderazgo, y esto sin contar la gran competencia que se nos acerca por el sudeste asiático–, observamos que existe una gran brecha entre las soluciones angloparlantes y el resto de las lenguas, en un ámbito en el que en español son comparativamente mucho más débiles –menos de un 30 por ciento de facturación a pesar de ser el segundo idioma más hablado del mundo– y con un mercado muy fragmentado, tanto en empresas tecnológicas como en soluciones específicas aplicadas a la industria.

Nos encontramos en un momento de oportunidad, en el que algunos países de América Latina cuentan con grupos científicamente muy potentes que desarrollan soluciones competitivas en tecnologías del lenguaje de relevancia mundial, pero cuya implementación aún tendrá que realizar una importante transferencia al tejido empresarial para poder competir con uno de los grandes activos que puede ser el catalizador de nuestra competitividad en el ámbito de la inteligencia artificial: nuestra lengua, el español.


La versión original de este artículo fue publicada en la Revista Telos, de Fundación Telefónica.


The Conversation

Elena Gonzalez-Blanco es directora general para Europa de Coverwallet. Este trabajo se ha realizado gracias al apoyo del Proyecto de Investigación “Poetry Standardization and Linked Open Data: POSTDATA” (ERC-2015-STG-679528), financiado por la Comisión Europea y dirigido por la autora. www.postdata.linhd.es.

Ir a la fuente
Author: Elena Gonzalez-Blanco, Associate Professor at IE, IE University