Array
(
    [responseDate] => 2026-04-30T14:19:21Z
    [request] => https://infonomy.scimagoepi.com/index.php/infonomy/oai
    [GetRecord] => SimpleXMLElement Object
        (
            [record] => SimpleXMLElement Object
                (
                    [header] => SimpleXMLElement Object
                        (
                            [identifier] => oai:ojs2.infonomy.profesionaldelainformacion.com:article/127
                            [datestamp] => 2026-04-01T07:08:53Z
                            [setSpec] => infonomy:Investigaci%C3%B3n
                        )

                    [metadata] => SimpleXMLElement Object
                        (
                            [dc] => SimpleXMLElement Object
                                (
                                    [title] => Array
                                        (
                                            [0] => Evaluating the computational reliability of ChatGPT in calculating intercoder reliability in content analysis: Evidence from simulated data
                                            [1] => Evaluación de la fiabilidad computacional de ChatGPT en el cálculo de la fiabilidad intercodificadora en el análisis de contenido: evidencia a partir de datos simulados
                                        )

                                    [creator] => Goyanes, Manuel
                                    [subject] => Array
                                        (
                                            [0] => Análisis de contenido
                                            [1] => Fiabilidad intercodificadora
                                            [2] => Kappa de Cohen
                                            [3] => Inteligencia artificial
                                            [4] => ChatGPT
                                            [5] => Porcentaje de acuerdo
                                            [6] => Content analysis
                                            [7] => Intercoder reliability
                                            [8] => Cohen’s Kappa
                                            [9] => Artificial intelligence
                                            [10] => ChatGPT
                                            [11] => Percentage agreement
                                        )

                                    [description] => Array
                                        (
                                            [0] => The increasing integration of large language models (LLMs) into the research workflow has raised important questions regarding their reliability in performing statistical analyses. While prior studies have explored the use of LLMs in text classification and qualitative coding, little is known about their accuracy in computing core statistical metrics used in content analysis. This study addresses this gap by systematically evaluating the performance of ChatGPT in calculating percentage agreement, contingency tables, and Cohen’s Kappa. Using a series of controlled simulations, we varied key parameters including sample size, number of categories, distribution balance, and levels of coding error. The outputs generated by ChatGPT 5.3 Instant were benchmarked against results obtained by the author using standard statistical procedures (ground truth). Findings indicate that ChatGPT achieves high accuracy only under simple conditions, particularly with small samples, binary variables, and balanced distributions. However, its performance declines as analytical complexity increases. In moderately complex scenarios, the model shows partial accuracy, often reproducing contingency tables correctly but introducing deviations in derived statistics. In more complex settings, especially with unbalanced distributions or multiple categories, ChatGPT produces systematically biased results, typically overestimating agreement. Additionally, in large-scale datasets, the model fails to generate outputs due to operational limitations. Overall, the results reveal a lack of consistent reliability across realistic analytical scenarios. As a bottom line, the use of ChatGPT for computing these statistical metrics is not recommended, except in very simple cases involving small samples, and only under strict supervision and validation using established statistical software.
                                            [1] => La creciente integración de los modelos de lenguaje de gran escala (LLMs) en el proceso de investigación ha suscitado importantes interrogantes sobre su fiabilidad en la realización de análisis estadísticos. Aunque estudios previos han explorado el uso de estos modelos en tareas de clasificación textual y codificación cualitativa, existe una notable falta de evidencia sobre su precisión en el cálculo de métricas estadísticas fundamentales utilizadas en el análisis de contenido. Este estudio aborda este vacío evaluando de forma sistemática el rendimiento de ChatGPT en el cálculo del porcentaje de acuerdo, las tablas de contingencia y la Kappa de Cohen. Mediante un conjunto de simulaciones controladas, se variaron parámetros clave como el tamaño muestral, el número de categorías, el equilibrio en la distribución y el nivel de error en las codificaciones. Los resultados generados por ChatGPT 5.3 Instant se compararon con los obtenidos mediante procedimientos estadísticos estándar, considerados como referencia (ground truth). Los hallazgos indican que ChatGPT alcanza una alta precisión únicamente en condiciones simples, especialmente en muestras pequeñas con variables binarias y distribuciones balanceadas. Sin embargo, su rendimiento se deteriora a medida que aumenta la complejidad analítica. En escenarios de complejidad moderada, el modelo presenta una precisión parcial, reproduciendo en ocasiones correctamente las tablas de contingencia pero introduciendo desviaciones en los estadísticos derivados. En condiciones más complejas, particularmente con distribuciones desbalanceadas o múltiples categorías, ChatGPT genera resultados sistemáticamente sesgados, tendiendo a sobreestimar el nivel de acuerdo. Asimismo, en muestras de gran tamaño, el modelo presenta limitaciones operativas que impiden la obtención de resultados. En conjunto, los resultados evidencian una falta de fiabilidad estadística por lo que no se recomienda el uso de ChatGPT para el cálculo de estas métricas, salvo en casos muy simples con muestras pequeñas, y siempre bajo supervisión y validación mediante software estadístico consolidado.
                                        )

                                    [publisher] => Ediciones Profesionales de la Información S.L. (EPI SL)
                                    [date] => 2026-04-01
                                    [type] => Array
                                        (
                                            [0] => info:eu-repo/semantics/article
                                            [1] => info:eu-repo/semantics/publishedVersion
                                        )

                                    [format] => application/pdf
                                    [identifier] => Array
                                        (
                                            [0] => https://infonomy.scimagoepi.com/index.php/infonomy/article/view/127
                                            [1] => 10.3145/infonomy.26.006
                                        )

                                    [source] => Array
                                        (
                                            [0] => Infonomy; Vol. 4 No. 2 (2026): Communicating about disability
                                            [1] => Infonomy; Vol. 4 Núm. 2 (2026): Comunicación de la discapacidad
                                            [2] => 2990-2290
                                        )

                                    [language] => spa
                                    [relation] => https://infonomy.scimagoepi.com/index.php/infonomy/article/view/127/170
                                    [rights] => Array
                                        (
                                            [0] => Derechos de autor 2026 Manuel Goyanes
                                            [1] => https://creativecommons.org/licenses/by/4.0
                                        )

                                )

                        )

                )

        )

)