Article Brapci-Revistas

Modelagem de tópicos: resumir e organizar corpus de dados por meio de algoritmos de aprendizagem de máquina

Topic modeling: Summarize and organize data corpus using machine learning algorithms

A pesquisa compara os resultados e desempenho dos modelos Latent Semantic Indexing (LSI) e Latent Dirichlet Allocation (LDA) de Machine Learning quando aplicado Modelagem de Tópicos em documentos dos canais formais da comunicação científica, constituído por 2006 artigos científicos e resumos expandidos do XIII ao XVII Encontro Nacional de Pesquisa em Ciência da Informação (ENANCIB). Constituem as etapas da pesquisa empírica a coleta dos dados para constituição, limpeza, manipulação, combinação, normalização, tratamento e transformação dos dados do corpus para conectar aos modelos de aprendizagem de máquina. Os modelos resumiram e organizaram o corpus de dados em tópicos que são constituídos por termos e pesos. O modelo LSI apresentou uma maior variedade entre os termos e pesos contidos em cada tópico, diferente do modelo LDA que apresentou uma maior similaridade nos resultados, facilitando, assim, para o especialista de domínio, criar a suposição para os nomes dos tópicos.@pt


The research compares the results and performance of the Latent Semantic Indexing (LSI) and Latent Dirichlet Allocation (LDA) models of Machine Learning when applied Topic Modeling in documents of formal channels of scientific communication, consisting of 2006 scientific articles and expanded abstracts from the XIII to the XVII National Meeting of Research in Information Science (ENANCIB). The steps of empirical research are the collection of data for the constitution, cleaning, manipulation, combination, normalization, treatment and transformation of data from the corpus to connect to machine learning models. The models summarized and organized the data corpus into topics that are made up of terms and weights. The LSI model presented a greater variety between the terms and weights contained in each topic, different from the LDA model which presented a greater similarity in the results, thus making it easier for the domain specialist to create the assumption for the names of the topics.@en

. Modelagem de tópicos: resumir e organizar corpus de dados por meio de algoritmos de aprendizagem de máquina. Múltiplos olhares em ciência da informação, [????].

References

  • BLEI, David M. Probabilistic topic models. Communications of the ACM, v. 55, n. 4, p. 77–84, 2012. Disponível em: http://dl.acm.org/citation.cfm?doid=2133806.2133826. Acesso em: 27 fev.
  • DEERWESTER, Scott et al. Indexing by latent semantic analysis. JASIS, v. 41, n. 6, p. 391–407, 1990.
  • DUMAIS, Susan T. Latent Semantic Indexing (LSI): TREC-3 Report. 1995, [S.l: s.n.], 1995. p. 2019–230. Disponível em: https://pdfs.semanticscholar.org/e410/6fb9539e7fc3bf30c730a3c1d2df45d4eff6.pdf. Acesso em: 6 ago. 2019.
  • HOFMANN, Thomas. Probabilistic latent semantic analysis. In: CONFERENCE ON UNCERTAINTY IN ARTIFICIAL INTELLIGENCE, 15., 1999, Stockholm. Proceedings… San Francisco: Morgan Kaufmann Publishers, 1999a. p. 289–296. Disponível em: http://www.iro.umontreal.ca/~nie/IFT6255/Hofmann-UAI99.pdf. Acesso em: 6 mar. 2019.
  • KASZUBOWSKI, Erikson. Modelo de tópicos para associações livres. 2016. 213f. Tese (Doutorado em Psicologia) - Universidade Federal de Santa Catarina (UFSC), Florianópolis, 2016. Disponível em: https://repositorio.ufsc.br/bitstream/handle/123456789/172577/343427.pdf?sequence=1. Acesso em: 1 mar. 2019.
  • MACHADO, Felipe Nery Rodrigues. Big Data: o futuro dos dados e aplicações. São Paulo: Editora Érica, 2018.
  • PAPADIMITRIOU, Christos Harilaos et al. Latent semantic indexing: a probabilistic analysis. In: ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, 17., 1998, Seattle. Proceedings… New York: ACM, 1998. p. 159-168. Disponível em: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.193.4072 and rep=rep1 and type=pdf. Acesso em: 10 nov. 2019.
  • PUSTEJOVSKY, James., STUBBS, Amber. Natural language annotation for machine learning: a guide to corpus-building for applications. Beijing: O’Reilly Media, 2012.
  • VASCONCELOS, José Braga de., BARÃO, Alexandre. Ciência dos dados nas organizações: aplicações em python. Lisboa: FCA, 2017.
  • SARDINHA, Tony Berber. Lingüística de corpus: histórico e problemática. DELTA: Documentação e Estudos em Linguística Teórica e Aplicada, v. 16, n. 2, p. 323–367, 2000. Disponível em: http://www.scielo.br/pdf/delta/v16n2/a05v16n2.pdf.
NLP0.29
Visto 18 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2020-01-31] => 137054
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Marcos de Souza] => 14693
                        )

                    [1] => Array
                        (
                            [Renato Rocha Souza] => 7846
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/710/2020/03/oai_periodicos_ufmg_br_article_19138#00053.pdf] => 137163
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Modelagem de tópico] => 137082
                        )

                    [1] => Array
                        (
                            [Aprendizagem de máquina] => 199132
                        )

                    [2] => Array
                        (
                            [Alocação de dirichlet latente] => 137083
                        )

                    [3] => Array
                        (
                            [Indexação semântica latente] => 137084
                        )

                    [4] => Array
                        (
                            [Modelagem de tópicos] => 268303
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Modeling topics] => 276810
                        )

                    [1] => Array
                        (
                            [Machine learning] => 247414
                        )

                    [2] => Array
                        (
                            [Latent dirichlet allocation] => 268305
                        )

                    [3] => Array
                        (
                            [Latent semantic indexing] => 276811
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2020-01-31] => 276787
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [RESERVERD] => 234643
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Múltiplos Olhares em Ciência da Informação] => 710
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00053-2019-9 NO. 2-2] => 137050
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:53:2019-9-2] => 232089
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [A pesquisa compara os resultados e desempenho dos modelos Latent Semantic Indexing (LSI) e Latent Dirichlet Allocation (LDA) de Machine Learning quando aplicado Modelagem de Tópicos em documentos dos canais formais da comunicação científica, constituído por 2006 artigos científicos e resumos expandidos do XIII ao XVII Encontro Nacional de Pesquisa em Ciência da Informação (ENANCIB). Constituem as etapas da pesquisa empírica a coleta dos dados para constituição, limpeza, manipulação, combinação, normalização, tratamento e transformação dos dados do corpus para conectar aos modelos de aprendizagem de máquina. Os modelos resumiram e organizaram o corpus de dados em tópicos que são constituídos por termos e pesos. O modelo LSI apresentou uma maior variedade entre os termos e pesos contidos em cada tópico, diferente do modelo LDA que apresentou uma maior similaridade nos resultados, facilitando, assim, para o especialista de domínio, criar a suposição para os nomes dos tópicos.] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [The research compares the results and performance of the Latent Semantic Indexing (LSI) and Latent Dirichlet Allocation (LDA) models of Machine Learning when applied Topic Modeling in documents of formal channels of scientific communication, consisting of 2006 scientific articles and expanded abstracts from the XIII to the XVII National Meeting of Research in Information Science (ENANCIB). The steps of empirical research are the collection of data for the constitution, cleaning, manipulation, combination, normalization, treatment and transformation of data from the corpus to connect to machine learning models. The models summarized and organized the data corpus into topics that are made up of terms and weights. The LSI model presented a greater variety between the terms and weights contained in each topic, different from the LDA model which presented a greater similarity in the results, thus making it easier for the domain specialist to create the assumption for the names of the topics.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:periodicos.ufmg.br:article/19138] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufmg.br/index.php/moci/article/view/19138] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 No. 2 (2019): PPGGOG - Discentes] => 0
                        )

                    [1] => Array
                        (
                            [Múltiplos Olhares em Ciência da Informação; v. 9 n. 2 (2019): PPGGOG - Discentes] => 0
                        )

                    [2] => Array
                        (
                            [2237-6658] => 0
                        )

                )

            [es] => Array
                (
                    [0] => Array
                        (
                            [Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 Núm. 2 (2019): PPGGOG - Discentes] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Modelagem de tópicos: resumir e organizar corpus de dados por meio de algoritmos de aprendizagem de máquina] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Topic modeling: Summarize and organize data corpus using machine learning algorithms] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufmg.br/index.php/moci/article/view/19138/16257] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufmg.br/index.php/moci/article/view/19138] => 0
                        )

                    [1] => Array
                        (
                            [https://periodicos.ufmg.br/index.php/moci/article/view/19138/16257] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:periodicos.ufmg.br:article/19138#00053] => 0
                        )

                )

        )

)