Article Brapci-Revistas

Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”

Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”

Procesamiento del lenguaje natural y aprendizaje automático en la categorización de artículos científicos: un estudio en torno al “patrimonio cultural”

Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.@en


Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra.@es
Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra.@pt

NLP0.29
Visto 26 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2023-03-27] => 219691
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Ananda Fernanda de Jesus] => 109114
                        )

                    [1] => Array
                        (
                            [Maria Lígia Triques] => 664
                        )

                    [2] => Array
                        (
                            [José eduardo santarem segundo] => 11021
                        )

                    [3] => Array
                        (
                            [Ana Cristina de Albuquerque] => 13260
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/596/2023/04/oai_ojs_pkp_sfu_ca_article_47537#00040.pdf] => 220865
                        )

                )

        )

    [hasPageEnd] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [184] => 3172
                        )

                )

        )

    [hasPageStart] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [167] => 2390
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Aprendizado de máquina] => 102217
                        )

                    [1] => Array
                        (
                            [Processamento de linguagem natural] => 299934
                        )

                    [2] => Array
                        (
                            [Algoritmo de rede neural] => 219733
                        )

                    [3] => Array
                        (
                            [Algoritmo de clusterização hierárquica] => 219734
                        )

                    [4] => Array
                        (
                            [Patrimônio cultural] => 227368
                        )

                    [5] => Array
                        (
                            [Aprendizaje automático] => 121076
                        )

                )

            [es] => Array
                (
                    [0] => Array
                        (
                            [Procesamiento natural del linguaje] => 209087
                        )

                    [1] => Array
                        (
                            [Algoritmo de red neuronal] => 219735
                        )

                    [2] => Array
                        (
                            [Algoritmo de agrupamiento jerárquico] => 219736
                        )

                    [3] => Array
                        (
                            [Machine learning] => 85467
                        )

                    [4] => Array
                        (
                            [Aprendizaje automático] => 247418
                        )

                    [5] => Array
                        (
                            [Patrimonio cultural] => 233651
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Natural language processing] => 171936
                        )

                    [1] => Array
                        (
                            [Neural network algorithm] => 219737
                        )

                    [2] => Array
                        (
                            [Hierarchical clustering algorithm] => 219738
                        )

                    [3] => Array
                        (
                            [Cultural heritage] => 267955
                        )

                    [4] => Array
                        (
                            [Machine learning] => 247414
                        )

                    [5] => Array
                        (
                            [Natural language processing] => 5307
                        )

                    [6] => Array
                        (
                            [Cultural heritage] => 8575
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2023-03-27] => 279451
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Copyright (c)] => 232755
                        )

                    [1] => Array
                        (
                            [CCBY4.0] => 232756
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Revista Ibero-Americana de Ciência da Informação] => 596
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00040-2023-16-] => 219689
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:40:2023-16-1] => 232143
                        )

                )

        )

    [hasAbstract] => Array
        (
            [en] => Array
                (
                    [0] => Array
                        (
                            [Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.] => 0
                        )

                    [1] => Array
                        (
                            [Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.] => 0
                        )

                )

            [es] => Array
                (
                    [0] => Array
                        (
                            [Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra.] => 0
                        )

                )

            [pt] => Array
                (
                    [0] => Array
                        (
                            [Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:ojs.pkp.sfu.ca:article/47537] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.unb.br/index.php/RICI/article/view/47537] => 0
                        )

                    [1] => Array
                        (
                            [10.26512/rici.v16.n1.2023.47537] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Revista Ibero-Americana de Ciência da Informação; Vol. 16 No. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184] => 0
                        )

                    [1] => Array
                        (
                            [Revista Ibero-Americana de Ciência da Informação; v. 16 n. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184] => 0
                        )

                )

            [es] => Array
                (
                    [0] => Array
                        (
                            [Revista Ibero-Americana de Ciência da Informação; Vol. 16 Núm. 1 (2023): Revista Ibero-americana de Ciência da Informação; 167-184] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [1983-5213] => 0
                        )

                    [1] => Array
                        (
                            [10.26512/rici.v16.n1.2023] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [en] => Array
                (
                    [0] => Array
                        (
                            [Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”] => 0
                        )

                    [1] => Array
                        (
                            [Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”] => 0
                        )

                )

            [es] => Array
                (
                    [0] => Array
                        (
                            [Procesamiento del lenguaje natural y aprendizaje automático en la categorización de artículos científicos: un estudio en torno al “patrimonio cultural”] => 0
                        )

                )

            [pt] => Array
                (
                    [0] => Array
                        (
                            [Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.unb.br/index.php/RICI/article/view/47537/36583] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.unb.br/index.php/RICI/article/view/47537] => 0
                        )

                    [1] => Array
                        (
                            [https://periodicos.unb.br/index.php/RICI/article/view/47537/36583] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:ojs.pkp.sfu.ca:article/47537#00040] => 0
                        )

                )

        )

    [hasDOI] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [10.26512/rici.v16.n1.2023.47537] => 0
                        )

                )

        )

)