Article Brapci-Revistas

Mapeamento de conhecimento científico: modelagem de tópicos das teses e dissertações do programa de pós-graduação em Ciência da Informação da UFMG

Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais

O uso das ferramentas computacionais tem sido cada vez mais exigido para organizar, recuperar e compreender o crescente volume de dados. A comunicação científica tem contribuído, por meio de trabalhos formais e informais, para esse fenômeno, entretanto, organizar uma grande coleção de documentos pode se tornar humanamente impossível, além de refutável, quando realizada de forma manual. A modelagem de tópicos, por meio de algoritmos de aprendizagem de máquina, tem possibilitado organizar e resumir corpus de dados. A problemática da pesquisa está em descobrir como tem se apresentado os temas das teses e dissertações produzidas pelo Programa de Pós-graduação em Ciência da Informação da Universidade Federal de Minas Gerais. Quanto aos objetivos, busca-se identificar os tópicos de maior relevância do corpus de dados, constituído por documentos do tipo teses e dissertações do PPGCI, tais como os termos e seus respectivos pesos, que constituem cada tópico. Na modelagem de tópicos, utilizou-se o modelo Alocação de Dirichlet Latente, configurado para identificar 6, 8, 10, 12, 14, 16, 18 e 20 tópicos junto ao corpus de dados, que permitiu realizar o mapeamento científico dos documentos analisados. O resultado, com 14 tópicos, apresentou resultados mais coesos e um menor número de ruídos que possibilitou realizar a suposição de nomes dos tópicos de maneira mais assertiva e correlacionar às linhas de pesquisa do PPGCI.@pt


The use of computational tools has been increasingly required to organize, retrieve and understand the growing volume of data. Scientific communication has contributed both formally and informally to this phenomenon. However, managing and organizing a large collection of documents may become humanly impossible, and refutable when done manually. Topic modeling through machine learning algorithms has made it possible to organize and summarize data corpora. This study aims to identify the topics of the theses and dissertations by the graduate program in Information Science of the Federal University of Minas Gerais, southeastern Brazil (Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais). The main goal is to identify the most relevant topics of the corpus made up of documents such as theses and dissertations of that graduate program, such as the terms that constitute each topic as well as their respective weights. In the topic modeling we set a Latent Dirichlet Allocation model to identify 6, 8, 10, 12, 14, 16, 18 and 20 topics along with the data corpus. This allowed us to scientifically map the documents that we analyzed. The results obtained when the model was set to 14 topics were more cohesive and presented less noise and so allowed us to assume the names of the topics more assertively and to correlate the fields of research of the graduate program of the Federal University of Minas Gerais.@en

. Mapeamento de conhecimento científico: modelagem de tópicos das teses e dissertações do programa de pós-graduação em ciência da informação da ufmg mapping of scientific knowledge: modeling of the graduate program in information science of the federal university of minas gerais. Em questão, [????].

References

  • AYODELE, Taiwo Oladipupo. Types of Machine Learning Algorithms. New Advances in Machine Learning, [S.l.]: InTech, 2010. p. 19-48
  • BLEI, David M. Probabilistic topic models. Communications of the ACM, [S.l.], v. 55, n. 4, p. 77–84, 1 abr. 2012.
  • BLEI, David M.., NG, Andrew Y., JORDAN, Michael I. Latent Dirichlet Allocation. Journal of Machine Learning Research, [S.l.], v. 3, p. 993-1022, 2003.
  • BORKO, Harold. Information science: what is it? American Documentation, p. 5, 1968.
  • BRASIL. Lei n. 12.527, de 18 de novembro de 2011. Regula o acesso a informações previsto no inciso XXXIII do art. 5º... Diário Oficial [da] União, Brasília, 18 nev. 2011. Edição extra.
  • CAPURRO, Rafael., HJORLAND, Birger. O conceito de informação. Perspectivas em Ciência da Informação, [S.l.], v. 12, n. 1, p. 148-207, 2007.
  • CHANEY, Allison J. B.., BLEI, David M. Visualizing Topic Models. ICWSM, 2012.
  • GIL, Antonio Carlos. Como elaborar projetos de pesquisa. 5. ed. São Paulo SP: Atlas, 2010.
  • GRUS, Joel. Data Science do zero: primeiras regras com Pythhon. Rio de Janeiro - RJ: Alta Books, 2016.
  • HOFMANN, Thomas. Probabilistic Latent Semantic Indexing. 1999.
  • KASZUBOWSKI, Erikson. Modelo de tópicos para associações livres. 2016. 213 f. Universidade Federal de Santa Catarina, 2016.
  • LE COADIC, Yves-François. A ciência da informação. Tradução Maria Yêda Falcão Soares de Filgueiras Gomes. Brasília: Briquet de Lemos, 1996.
  • MCKINNEY, Wes. Python para análise de dados: tratamento de dados com pandas, numpy e ipython. São Paulo - SP: Novatec, 2018.
  • NHACUONGUE, Januário Albino., FERNEDA, Edberto. O campo da ciência da informação: contribuições, desafios e perspectivas. Perspectivas em Ciência da Informação, [S.l.], v. 20, n. 2, p. 3-18, 2015.
  • PINHEIRO, Lena Vania Ribeiro. A Ciência da Informação entre sombra e luz: domínio epistemológico e campo interdisciplinar. 1997. 278 f. Tese (Doutorado em Comunicação) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 1997.
  • PPGCI. Programa de Pós-graduação em Ciência da Informação: Apresentação. 201?a. Disponível em: https://web.archive.org/web/20210312181856/http://ppgci.eci.ufmg.br/apresenta cao/. Acesso em: 15 maio 2020. Histórico/cronologia. 201?b. Disponível em: https://web.archive.org/web/20210312182603/http://ppgci.eci.ufmg.br/historico cronologia/. Acesso em: 15 maio 2020.
  • PUSTEJOVSKY, James., STUBBS, Amber. Natural language annotation for machine learning: A guide to corpus-building for applications. O’Reilly Media, Inc, 2012.
  • RUSSO, Mariza. Fundamentos de biblioteconomia e Ciência da Informação. Editora E-papers, 2010.
  • SANTOS, Fabiano Fernandes dos. Extração de tópicos baseado em agrupamento de regras de associação. 2015. 157 f. Tese (Doutorado em Ciências de Computação e Matemática Computacional) - Universidade de São Paulo, São Carlos, 2015.
  • SARACEVIC, Tefko. Ciência da informação: origem, evolução e relações. Perspectiva em Ciência da Informação, [S.l.], v. 1, n. 1, p. 41-62, 1996.
  • SHERA, Jesse Hauk., CLEVELAND, Donald B. History and foundations of Information Science. Annual Review of Information Science and Technology, [S.l.], v. 12, p. 249–275, 1977.
  • STEYVERS, Mark., GRIFFITHS, Tom. Probabilistic topic models. Handbook of latent semantic analysis. [S.l.]: Lawrence Erlbaum Associates, Inc, 2007. p.
  • 424–440.
  • SUKKARIEH, Jana Z.., PULMAN, Stephen G.., RAIKES, Nicholas. Automarking: using computational linguistics to score short, free text responses. Paper presented at the 29th annual conference. In: of the International Association for Educational Assessment (IAEA). 2003.
NLP0.29
Visto 23 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2021-04-09] => 158621
                        )

                    [1] => Array
                        (
                            [2021-06-30] => 161276
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Marcos de Souza] => 14693
                        )

                    [1] => Array
                        (
                            [Renato Rocha Souza] => 7846
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/47/2021/04/oai_seer_ufrgs_br_article_104211#00002.pdf] => 158771
                        )

                )

        )

    [hasPageEnd] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [250] => 1173
                        )

                )

        )

    [hasPageStart] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [228] => 1667
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Ciëncia social aplicada] => 2102
                        )

                    [1] => Array
                        (
                            [Ciência da informação] => 237157
                        )

                    [2] => Array
                        (
                            [Matematica aplicada] => 37796
                        )

                    [3] => Array
                        (
                            [Ciência da computação] => 269911
                        )

                    [4] => Array
                        (
                            [Modelagem de tópico] => 137082
                        )

                    [5] => Array
                        (
                            [Aprendizagem de máquina] => 199132
                        )

                    [6] => Array
                        (
                            [Alocação de dirichlet latente] => 137083
                        )

                    [7] => Array
                        (
                            [Mapeamento científico] => 158624
                        )

                    [8] => Array
                        (
                            [Modelagem de tópicos] => 268303
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Topic modeling] => 268304
                        )

                    [1] => Array
                        (
                            [Latent dirichlet allocation] => 268305
                        )

                    [2] => Array
                        (
                            [Machine learning] => 247414
                        )

                    [3] => Array
                        (
                            [Scientific mapping] => 268306
                        )

                    [4] => Array
                        (
                            [Information science] => 298770
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2021-06-30] => 245007
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Copyright (c)] => 232755
                        )

                    [1] => Array
                        (
                            [CCBY4.0] => 232756
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em questão] => 47
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00002-2021--ONLINE] => 156645
                        )

                    [1] => Array
                        (
                            [ISSUE:JNL:00002-2021-27-3] => 161419
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [O uso das ferramentas computacionais tem sido cada vez mais exigido para organizar, recuperar e compreender o crescente volume de dados. A comunicação científica tem contribuído, por meio de trabalhos formais e informais, para esse fenômeno, entretanto, organizar uma grande coleção de documentos pode se tornar humanamente impossível, além de refutável, quando realizada de forma manual. A modelagem de tópicos, por meio de algoritmos de aprendizagem de máquina, tem possibilitado organizar e resumir corpus de dados. A problemática da pesquisa está em descobrir como tem se apresentado os temas das teses e dissertações produzidas pelo Programa de Pós-graduação em Ciência da Informação da Universidade Federal de Minas Gerais. Quanto aos objetivos, busca-se identificar os tópicos de maior relevância do corpus de dados, constituído por documentos do tipo teses e dissertações do PPGCI, tais como os termos e seus respectivos pesos, que constituem cada tópico. Na modelagem de tópicos, utilizou-se o modelo Alocação de Dirichlet Latente, configurado para identificar 6, 8, 10, 12, 14, 16, 18 e 20 tópicos junto ao corpus de dados, que permitiu realizar o mapeamento científico dos documentos analisados. O resultado, com 14 tópicos, apresentou resultados mais coesos e um menor número de ruídos que possibilitou realizar a suposição de nomes dos tópicos de maneira mais assertiva e correlacionar às linhas de pesquisa do PPGCI.] => 0
                        )

                    [1] => Array
                        (
                            [O uso das ferramentas computacionais tem sido cada vez mais exigido para organizar, recuperar e compreender o crescente volume de dados. A comunicação científica tem contribuído, por meio de trabalhos formais e informais, para esse fenômeno; entretanto, a organização de uma grande coleção de documentos pode se tornar um processo lento e questionável quando realizado sem recursos tecnológicos. A modelagem de tópicos, por meio de algoritmos de aprendizagem de máquina, tem possibilitado organizar e resumir corpora de dados. A problemática da pesquisa é descobrir como se têm apresentado os temas das teses e dissertações produzidas pelo Programa de PósGraduação em Ciência da Informação da Universidade Federal de Minas Gerais. Busca-se identificar os tópicos de maior relevância do corpus de dados, constituído por documentos do tipo teses e dissertações desse programa de pósgraduação, assim como os termos de cada tópico e os pesos atribuídos a cada um desses termos. Na modelagem de tópicos, utilizou-se o modelo de alocação de Dirichlet latente, configurado para identificar 6, 8, 10, 12, 14, 16, 18 e 20 tópicos junto ao corpus de dados, o que permitiu realizar o mapeamento científico dos documentos analisados. Os resultados com 14 tópicos foram mais coesos e apresentaram menos ruídos e, por isso, permitiram inferir os nomes dos tópicos de maneira mais segura e estabelecer correlações com as linhas de pesquisa do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais.] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [The use of computational tools has been increasingly required to organize, retrieve and understand the growing volume of data. Scientific communication has contributed both formally and informally to this phenomenon. However, managing and organizing a large collection of documents may become humanly impossible, and refutable when done manually. Topic modeling through machine learning algorithms has made it possible to organize and summarize data corpora. This study aims to identify the topics of the theses and dissertations by the graduate program in Information Science of the Federal University of Minas Gerais, southeastern Brazil (Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais). The main goal is to identify the most relevant topics of the corpus made up of documents such as theses and dissertations of that graduate program, such as the terms that constitute each topic as well as their respective weights. In the topic modeling we set a Latent Dirichlet Allocation model to identify 6, 8, 10, 12, 14, 16, 18 and 20 topics along with the data corpus. This allowed us to scientifically map the documents that we analyzed. The results obtained when the model was set to 14 topics were more cohesive and presented less noise and so allowed us to assume the names of the topics more assertively and to correlate the fields of research of the graduate program of the Federal University of Minas Gerais.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:seer.ufrgs.br:article/104211] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/104211] => 0
                        )

                    [1] => Array
                        (
                            [10.19132/1808-524500.%p] => 0
                        )

                    [2] => Array
                        (
                            [10.19132/1808-5245273.228-250] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em Questão; Online first] => 0
                        )

                    [1] => Array
                        (
                            [1808-5245] => 0
                        )

                    [2] => Array
                        (
                            [Em Questão; v.27, n.3, jul./set. 2021; 228-250] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [1807-8893] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Mapeamento de conhecimento científico: modelagem de tópicos das teses e dissertações do programa de pós-graduação em Ciência da Informação da UFMG] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Mapping of scientific knowledge: modeling of the graduate program in Information Science of the Federal University of Minas Gerais] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/104211/61279] => 0
                        )

                    [1] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/104211/57493] => 0
                        )

                    [2] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/104211/64858] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/104211] => 0
                        )

                    [1] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/104211/61279] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:seer.ufrgs.br:article/104211#00002] => 0
                        )

                )

        )

    [hasDOI] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [10.19132/1808-5245273.228-250] => 0
                        )

                )

        )

)