Article Brapci-Revistas

Agrupamento automático de notícias de jornais on-line usando técnicas de machine learning para clustering de textos no idioma português

Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese

Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.@pt


Clustering is a technique of organizing data into groups whose members have some similarity. Thus, this research aimed to use the techniques of Natural Language Processing, Machine Learning and Clustering to create clusters of news from a sample collected from the main online newspapers. It was found that the pre-processing step requires an effort to guarantee the quality of the results. The complexity of the Portuguese language, the need to update the list of stopwords, the difficulties related to the detection of the most important characteristics and the high dimensionality of the data were evidenced during all stages of this study. The k-means clustering algorithm obtained the best results for this type of information and Hierarchical Clustering had difficulties, since similar news were allocated to different groups. Affinity Propagation, on the other hand, disagreed as to the ideal number of clusters, but achieved a good performance when grouping by similarity.@en

. Agrupamento automático de notícias de jornais on-line usando técnicas de machine learning para clustering de textos no idioma português. Múltiplos olhares em ciência da informação, [????].

References

  • ARANHA, C.., PASSOS, E. A Tecnologia de Mineração de Textos. RESI-Revista Eletrônica de Sistemas de Informação, v. 2, p. 1–8, 2006. Disponível em: http://www.periodicosibepes.org.br/index.php/reinfo/article/download/171/66. Acesso em: 30 set. 2019.
  • BAEZA-YATES, R. RIBEIRO-NETO, B. Recuperação de Informação: Conceitos e tecnologia das máquinas de busca. Tradução técnica: Leandro Krug Wives, Viviane Pereira Moreira. 2. ed. Porto Alegre: Bookman, 2013.
  • DAS. Formação Cientista de Dados. Curso de Machine Learning. Data Science Academy. Ebook. 2017.
  • EBECKEN, N. F. F.., LOPES, M. C. S.., COSTA, M. C. de A. Mineração de Textos. In: REZENDE, S. O. Sistemas Inteligentes: Fundamentos e Aplicações, 1. ed. São Paulo: Manole, 2003, cap.13, p. 337-370.
  • FAYYAD, U. M. et al. From data mining to knowledge discovery: an overview. In: Advances in knowledge discovery and data mining. California: AAAI/The MIT, 1996. p.1-34
  • GOLDSCHMIDT, R.., PASSOS, E.., BEZERRA, E. Data mining: conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier, 2015.
  • GONÇALVES, M. Classificação de Textos. In: BAEZA-YATES, R. RIBEIRO-NETO, B. Recuperação de Informação: Conceitos e tecnologia das máquinas de busca. Tradução técnica: Leandro Krug Wives, Viviane Pereira Moreira. 2. ed. Porto Alegre: Bookman, 2013. p. 277-338.
  • HAIR, J. F. et al. Análise multivariada de dados. Trad. Adonai S. Sant’Anna e Anselmo C. Neto. 5 ed. Porto Alegre: Bookman, 2005.
  • LADEIRA, A. P. Processamento de Linguagem Natural: Caracterização da produção científica dos pesquisadores brasileiros. 2010. 159 f. Tese (Doutorado em Ciência da Informação) – Universidade Federal de Minas Gerais. Disponível em: https://repositorio.ufmg.br/bitstream/1843/ECID-8B3Q6C/1/tese_anapaulaladeira_cd.pdf. Acesso em 25 nov. 2019.
  • MATOS, D. Conceitos Fundamentais de Machine Learning. Disponível em: http://www.cienciaedados.com/conceitos-fundamentais-de-machine-learning/. Acesso em: 20 nov. 2019. http://www.cienciaedados.com/conceitos-fundamentais-de-machine-learning
  • MITCHELL, T. M. Machine Learning. New York: McGraw-Hill, 1997.
  • MÜLLER, A. C. e GUIDO, S. Introduction to Machine Learning with Python. O’Reilly Media, 2017.
  • CHEESEMAN, P. and J. STUTZ. Bayesian Classification (Auto Class): Theory and Results. In: FAYYAD, U. M.., PIATETSKY-SHAPIRO, G.., SMYTH, P.., UTHURUSAMY, R. (Eds.), Advances in Knowledge Discovery and Data Mining. American Association for Artificial Intelligence. Menlo Park, CA. 1996, p. 153-180
  • SALTON, G., MCGILL, M. J. Introduction to Modern Information Retrieval. John Wiley and Sons, New York, 1983.
  • ZHAI, C. X.., MASSUNG, S. Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining. Association for Computing Machinery and Morgan, Claypool, New York, NY, USA, 2016.
  • ZURINI, M.., SBORA, C. Clustering Analysis within Text Classification Techniques. Informática Economica. v. 15, n. 4, p. 178-189, 2011. Disponível em: http://revistaie.ase.ro/content/60/14%20-%20Zurini,%20Sbora.pdf. Acesso em: 25 nov. 2019.
NLP0.29
Visto 17 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2020-02-03] => 135292
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Lúcia Helena de Magalhães] => 122817
                        )

                    [1] => Array
                        (
                            [Renato Rocha Souza] => 7846
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/710/2020/03/oai_periodicos_ufmg_br_article_19170#00053.pdf] => 137157
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Agrupamento de notícia] => 137098
                        )

                    [1] => Array
                        (
                            [Processamento de linguagem natural] => 235991
                        )

                    [2] => Array
                        (
                            [Aprendizado de máquina] => 102217
                        )

                    [3] => Array
                        (
                            [Análise de texto] => 38136
                        )

                    [4] => Array
                        (
                            [Agrupamento de notícias] => 276820
                        )

                    [5] => Array
                        (
                            [Análise de textos] => 276821
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Grouping of news] => 276822
                        )

                    [1] => Array
                        (
                            [Natural language processing] => 171936
                        )

                    [2] => Array
                        (
                            [Machine learning] => 247414
                        )

                    [3] => Array
                        (
                            [Text analysis] => 276823
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2020-02-03] => 266490
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [RESERVERD] => 234643
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Múltiplos Olhares em Ciência da Informação] => 710
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00053-2019-9 NO. 2-2] => 137050
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:53:2019-9-2] => 232089
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Clustering is a technique of organizing data into groups whose members have some similarity. Thus, this research aimed to use the techniques of Natural Language Processing, Machine Learning and Clustering to create clusters of news from a sample collected from the main online newspapers. It was found that the pre-processing step requires an effort to guarantee the quality of the results. The complexity of the Portuguese language, the need to update the list of stopwords, the difficulties related to the detection of the most important characteristics and the high dimensionality of the data were evidenced during all stages of this study. The k-means clustering algorithm obtained the best results for this type of information and Hierarchical Clustering had difficulties, since similar news were allocated to different groups. Affinity Propagation, on the other hand, disagreed as to the ideal number of clusters, but achieved a good performance when grouping by similarity.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:periodicos.ufmg.br:article/19170] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufmg.br/index.php/moci/article/view/19170] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 No. 2 (2019): PPGGOG - Discentes] => 0
                        )

                    [1] => Array
                        (
                            [Múltiplos Olhares em Ciência da Informação; v. 9 n. 2 (2019): PPGGOG - Discentes] => 0
                        )

                    [2] => Array
                        (
                            [2237-6658] => 0
                        )

                )

            [es] => Array
                (
                    [0] => Array
                        (
                            [Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 Núm. 2 (2019): PPGGOG - Discentes] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Agrupamento automático de notícias de jornais on-line usando técnicas de machine learning para clustering de textos no idioma português] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufmg.br/index.php/moci/article/view/19170/16237] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufmg.br/index.php/moci/article/view/19170] => 0
                        )

                    [1] => Array
                        (
                            [https://periodicos.ufmg.br/index.php/moci/article/view/19170/16237] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:periodicos.ufmg.br:article/19170#00053] => 0
                        )

                )

        )

)