paint-brush
Cómo ven los filósofos y los científicos la IA cognitivapor@philosophical
232 lecturas

Cómo ven los filósofos y los científicos la IA cognitiva

por Philosophical3m2025/02/24
Read on Terminal Reader

Demasiado Largo; Para Leer

Los filósofos debaten si los LLM modelan la cognición humana o son simplemente sistemas estadísticos. La falacia de la redescripción malinterpreta las operaciones de la IA, y se necesita investigación empírica para resolver estas cuestiones.
featured image - Cómo ven los filósofos y los científicos la IA cognitiva
Philosophical HackerNoon profile picture
0-item

Autores:

(1) Raphaël Millière, Departamento de Filosofía, Universidad Macquarie (raphael.milliere@mq.edu.eu);

(2) Cameron Buckner, Departamento de Filosofía, Universidad de Houston (cjbuckner@uh.edu).

Tabla de enlaces

Resumen y 1 Introducción

2. Introducción a los LLM

2.1 Fundamentos históricos

2.2. LLM basados en transformadores

3. Interfaz con cuestiones filosóficas clásicas

3.1. Composicionalidad

3.2. Nativismo y adquisición de la lengua

3.3. Comprensión y fundamentos del lenguaje

3.4 Modelos mundiales

3.5. Transmisión de conocimientos culturales y andamiaje lingüístico

4. Conclusión, glosario y referencias

3. Interfaz con cuestiones filosóficas clásicas

Las redes neuronales artificiales, incluidas las arquitecturas de procesamiento del lenguaje natural (PLN) más antiguas, han sido durante mucho tiempo el foco de la investigación filosófica, en particular entre los filósofos de la mente, el lenguaje y la ciencia. Gran parte del debate filosófico en torno a estos sistemas gira en torno a su idoneidad para modelar la cognición humana. En concreto, el debate se centra en si constituyen mejores modelos de los procesos cognitivos humanos básicos que sus homólogos clásicos, simbólicos y basados en reglas. En este artículo, analizamos las cuestiones filosóficas clave que han surgido en relación con el papel de las redes neuronales artificiales como modelos de inteligencia, racionalidad o cognición, centrándonos en sus encarnaciones actuales en el contexto de los debates en curso sobre las implicaciones de los LLM basados en transformadores.


Los debates recientes se han visto empañados por un patrón de inferencia engañoso, que llamamos la “falacia de la redescripción”. Esta falacia surge cuando los críticos argumentan que un sistema no puede modelar un modelo particular.


Tabla 1 | Tipos de evidencia empírica que se pueden utilizar en los debates filosóficos sobre los LLM


capacidad cognitiva, simplemente porque sus operaciones pueden explicarse en términos menos abstractos y más deflacionarios. En el presente contexto, la falacia se manifiesta en afirmaciones de que los LLM no podrían ser buenos modelos de alguna capacidad cognitiva 𝜙 porque sus operaciones consisten simplemente en una colección de cálculos estadísticos, u operaciones de álgebra lineal, o predicciones del siguiente token. Tales argumentos sólo son válidos si van acompañados de evidencia que demuestre que un sistema, definido en estos términos, es inherentemente incapaz de implementar 𝜙. Para ilustrarlo, considere la lógica defectuosa al afirmar que un piano no podría producir armonía porque puede describirse como una colección de martillos que golpean cuerdas, o (más puntualmente) que la actividad cerebral no podría implementar la cognición porque puede describirse como una colección de disparos neuronales. La pregunta crítica no es si las operaciones de un LLM pueden describirse de manera simplista en términos no mentales, sino si estas operaciones, cuando se organizan adecuadamente, pueden implementar los mismos procesos o algoritmos que la mente, cuando se describen en un nivel apropiado de abstracción computacional.


La falacia de la redescripción es un síntoma de una tendencia más amplia a tratar cuestiones filosóficas clave sobre las redes neuronales artificiales como puramente teóricas, lo que conduce a afirmaciones de principio de gran alcance que no son susceptibles de refutación empírica. Las hipótesis aquí deben guiarse por evidencia empírica sobre las capacidades de las redes neuronales artificiales como los LLM y su idoneidad como modelos cognitivos (véase la tabla 1). De hecho, las consideraciones sobre la arquitectura, el objetivo de aprendizaje, el tamaño del modelo y los datos de entrenamiento de los LLM a menudo son insuficientes para arbitrar estas cuestiones. De hecho, nuestra afirmación es que muchos de los debates filosóficos centrales sobre las capacidades de las redes neuronales en general, y de los LLM en particular, dependen al menos en parte de la evidencia empírica sobre sus mecanismos internos y el conocimiento que adquieren durante el curso del entrenamiento. En otras palabras, muchos de estos debates no pueden resolverse a priori considerando las características generales de los modelos no entrenados. Más bien, debemos tener en cuenta los hallazgos experimentales sobre el comportamiento y el funcionamiento interno de los modelos entrenados.


En esta sección, examinamos debates de larga data sobre las capacidades de las redes neuronales artificiales que han sido revividas y transformadas por el desarrollo del aprendizaje profundo y el éxito reciente de los LLM en particular. La evidencia conductual obtenida a partir de pruebas comparativas y experimentos específicos es muy importante para esos debates. Sin embargo, observamos desde el principio que dicha evidencia también es insuficiente para pintar el panorama completo; en relación con las preocupaciones sobre los Blockheads revisadas en la primera sección, también debemos considerar la evidencia sobre cómo los LLM procesan la información internamente para cerrar la brecha entre las afirmaciones sobre su desempeño y su supuesta competencia. Se han desarrollado métodos experimentales sofisticados para identificar e intervenir en las representaciones y los cálculos adquiridos por los LLM entrenados. Estos métodos son muy prometedores para arbitrar algunas de las cuestiones filosóficas revisadas aquí más allá de las hipótesis tentativas respaldadas por la evidencia conductual. Dejamos una discusión más detallada de estos métodos y los hallazgos experimentales correspondientes para la Parte II.


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.