Article Brapci-Autoridades

Normalização de nomes de autores em fontes de informação institucionais: proposta de um método automático de verificação de erros

Author names standardization in institutional information sources: a proposal for an automatic method of checking for errors

A recuperação da produção científica por autoria é um desafio para diversos mantenedores de bases de dados, devido à ambiguidade causada por problemas derivados da falta de controle no momento da indexação. Este estudo apresenta um método automático para verificação de ocorrência de erros em dados de autorias da base de produção científica da Universidade de São Paulo (Dedalus) tomando como base o banco institucional de recursos humanos. Por meio de algoritmos de busca aproximada, compararam-se esses dados com os dados de autoria registrados no banco de produção científica de quatro unidades da USP (período de 2006-2010). Com base nesse estudo piloto foi possível estabelecer mecanismos de interoperabilidade entre o banco da produção e os bancos institucionais de recursos humanos, além de permitir mapear a porcentagem de erros, desenvolver mecanismos de interferência e estabelecer um cronograma para ampliar o estudo as demais unidades USP, bem como procedimentos de normalização.@pt


The recovery of scientific literature by authoring is a challenge for many maintainers of databases, due to the ambiguity caused by problems originated from lack of control at the time of indexing. This paper presents an automatic approach of checking for errors in authorship metadata of University of São Paulo scientific production database (Dedalus) comparing these data with data recovered from the human resources database. Using approximate string matching algorithms, these data from human resources is compared with the scientific production data of four institutes from USP (covering the period 2006-2010). Based on this pilot study it was possible to establish interoperability mechanisms between Dedalus database and the USP human resources database. As an immediate result, it was possible to map the percentage of errors and to create mechanisms of interference, establish a timeline to expand the study to other institutes from USP, and standardization procedures.@en

. Normalização de nomes de autores em fontes de informação institucionais: proposta de um método automático de verificação de erros author names standardization in institutional information sources: a proposal for an automatic method of checking for errors. Em questão, [????].

References

  • ALCÁZAR, J. J. P. et al. Avaliação de redes de inovação usando uma ferramenta baseada em redes sociais - caso brasileiro de Nanotecnologia. In: CONGRESO LATINO-IBEROAMERICANO DE GESTIÓN TECNOLÓGICA (ALTEC 2011), 14., 2011, Lima, Peru. Anais… Lima, 2011.
  • BILDER, G. Orcid technical update. In: ORCID TECHNICAL UPDATE COALITION FOR NETWORKED INFORMATION (CNI) ANNUAL MEETING, Fall, 2011, Arlington, VA. Proceedings… Arlington, VA: CNI, 2011. Disponível em: . Acesso em: 25 mar. 2012.
  • COSTAS, Rodrigo., BORDONS, María. Algoritmos para solventar la falta de normalización de nombres de autor en los estudios bibliométricos. Investigación bibliotecológica, México, v. 21, n. 42, jun. 2007. Disponível em: . Acesso em: 24 set.
  • CUCERZAN, S. Large-scale named entity disambiguation based on Wikipedia data. In: JOINT CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND COMPUTATIONAL NATURAL LANGUAGE LEARNING, 17., 2007, Prague. Proceedings… Prague: Association for Computational Linguistics, 2007. p. 708-716.
  • DIGIAMPIETRI, L. A.., SILVA, E. E. da. A Framework for social network of researchers analysis. Iberoamerican Journal of Applied Computing, Ponta Grossa, PR, v. 1, n. 1, p. 1-24,
  • CARVALHO, A.P. et al. Incremental unsupervised name disambiguation in cleaned digital libraries. Journal of Information and Data Management, Porto Alegre, v. 2, n.3, p. 289-304, 2011.
  • FERREIRA, A. A.., VELOSO, A. ., GONÇALVES, M. A.., LAENDER, A. H. F. Effective self-training author name disambiguation in scholarly digital libraries. In: ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES, 2010, Queensland. Proceedings… Queensland: JCDL/ICADL, 2010. p. 39–48. GARCÍA-GÓMEZ, Consol. Orcid: un sistema global para la identificación de investigadores. El Profesional de la Información, Barcelona, v. 21, n. 2, marzo/abr., 2012. Disponível em: . Acesso em: 21 jul.
  • GUERRERO-BOTE, V. et al. Method for the analysis of the uses of scientific information: the case of the University of Extremadura (1996-1997). Libri, Munich, v. 52, n. 2, p. 99109, 2002.
  • HAN, H.., et al. Name disambiguation in author citations using a k-way spectral clustering method. In: ACM/IEEE-CS JOINT CONFERENCE ON DIGITAL LIBRARIES, 5., 2005, Denver. Proceedings… Denver: ACM/IEEE, 2005. p.
  • KANG, I. S. et al. On co-authorship for author disambiguation. Information Processing and Management, Leibniz, v. 45, n. 1, p. 84–97, 2009.
  • MANN, G. S.., YAROWSKY, D. Unsupervised personal name disambiguation. In: CONFERENCE ON COMPUTATIONAL NATURAL LANGUAGE LEARNING (CoNLL), 7., 2003, Edmonton. Proceedings… Edmonton: CoNLL, 2003. p.33-40.
  • MÉNDEZ-VÁSQUEZ, R. I. et al. Identification and bibliometric characterization of research groups in the cardiocerebrovascular field, Spain 1996-2004. Revista Española de Cardiología (English Edition), Madrid, v. 65, n. 7, p. 642–650, 2012.
  • ORCID: connecting research and researchers. Disponível em: . Acesso em: 24 set.
  • SHIN, D. et al. Automatic method for author name disambiguation using social networks. In: IEEE INTERNATIONAL CONFERENCE ON ADVANCED INFORMATION NETWORKING AND APPLICATIONS (AINA), 24., 2010, Perth. Proceedings… Perth: AINA, 2010. p. 1263-1270.
  • TORVIK V. I. et al. A Probabilistic similarity metric for Medline records: a model for author name disambiguation. Journal of the American Society for Information Science and Technology, New York, v. 56, n. 2, p. 140–158, 2005.
  • UNIVERSIDADE DE SÃO PAULO. Tycho: Sistema de apoio à avaliação e a gestão institucional da USP. Disponível em: . Acesso em: 12 maio 2012.
NLP0.29
Visto 32 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2013-01-10] => 8466
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Rogério Mugnaini] => 10686
                        )

                    [1] => Array
                        (
                            [Luciano Antonio Digiampietri] => 10551
                        )

                    [2] => Array
                        (
                            [Laucivaldo Cardoso de Oliveira] => 10687
                        )

                    [3] => Array
                        (
                            [Sueli Mara Soares Pinto Ferreira] => 2696
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/47/2018/09/oai_seer_ufrgs_br_article_33265#00002.pdf] => 47005
                        )

                )

        )

    [hasPageEnd] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [279] => 3145
                        )

                )

        )

    [hasPageStart] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [263] => 8941
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Ciência da informação] => 237157
                        )

                    [1] => Array
                        (
                            [Biblioteconomia] => 234396
                        )

                    [2] => Array
                        (
                            [Produção científica] => 261508
                        )

                    [3] => Array
                        (
                            [Autoridade de autor] => 10681
                        )

                    [4] => Array
                        (
                            [Normalização] => 5254
                        )

                    [5] => Array
                        (
                            [Processamento automático] => 10682
                        )

                    [6] => Array
                        (
                            [Indexação] => 261658
                        )

                    [7] => Array
                        (
                            [Indexação] => 267511
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Scientific production] => 273771
                        )

                    [1] => Array
                        (
                            [Authority database] => 10683
                        )

                    [2] => Array
                        (
                            [Standardization] => 283337
                        )

                    [3] => Array
                        (
                            [Automatic processes] => 10685
                        )

                    [4] => Array
                        (
                            [Indexing] => 267512
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2013-01-10] => 267493
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Copyright (c)] => 232755
                        )

                    [1] => Array
                        (
                            [CCBY4.0] => 232756
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em questão] => 47
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00002-2012-18-3] => 8455
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [A recuperação da produção científica por autoria é um desafio para diversos mantenedores de bases de dados, devido à ambiguidade causada por problemas derivados da falta de controle no momento da indexação. Este estudo apresenta um método automático para verificação de ocorrência de erros em dados de autorias da base de produção científica da Universidade de São Paulo (Dedalus) tomando como base o banco institucional de recursos humanos. Por meio de algoritmos de busca aproximada, compararam-se esses dados com os dados de autoria registrados no banco de produção científica de quatro unidades da USP (período de 2006-2010). Com base nesse estudo piloto foi possível estabelecer mecanismos de interoperabilidade entre o banco da produção e os bancos institucionais de recursos humanos, além de permitir mapear a porcentagem de erros, desenvolver mecanismos de interferência e estabelecer um cronograma para ampliar o estudo as demais unidades USP, bem como procedimentos de normalização.] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [The recovery of scientific literature by authoring is a challenge for many maintainers of databases, due to the ambiguity caused by problems originated from lack of control at the time of indexing. This paper presents an automatic approach of checking for errors in authorship metadata of University of São Paulo scientific production database (Dedalus) comparing these data with data recovered from the human resources database. Using approximate string matching algorithms, these data from human resources is compared with the scientific production data of four institutes from USP (covering the period 2006-2010). Based on this pilot study it was possible to establish interoperability mechanisms between Dedalus database and the USP human resources database. As an immediate result, it was possible to map the percentage of errors and to create mechanisms of interference, establish a timeline to expand the study to other institutes from USP, and standardization procedures.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:seer.ufrgs.br:article/33265] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/view/33265] => 0
                        )

                    [1] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/33265] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em Questão; v. 18, n. 3 (2012); 263-279] => 0
                        )

                    [1] => Array
                        (
                            [1808-5245] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [1807-8893] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Normalização de nomes de autores em fontes de informação institucionais: proposta de um método automático de verificação de erros] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Author names standardization in institutional information sources: a proposal for an automatic method of checking for errors] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/view/33265/24061] => 0
                        )

                    [1] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/33265/15382] => 0
                        )

                    [2] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/33265/24061] => 0
                        )

                    [3] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/33265/15382] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/33265] => 0
                        )

                    [1] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/33265/24061] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:seer.ufrgs.br:article/33265#00002] => 0
                        )

                )

        )

)