Article Brapci-Revistas

Desambiguação de nomes de autores para a identificação automática de perfis acadêmicos

Automatic identification of academic profiles using author name disambiguation

A desambiguação de nomes é uma atividade fundamental em estudos bibliométricos, em particular naqueles que utilizam diferentes fontes de informação. O objetivo deste trabalho é propor e testar uma estratégia de desambiguação de nomes de autores de forma a possibilitar a identificação automática do perfil do Google Acadêmico de docentes. A estratégia proposta é baseada na busca pelos perfis dos docentes no Google Acadêmico, seguida por um processo de casamento de nomes. Adicionalmente são comparadas as publicações acadêmicas que estão cadastradas no currículo Lattes do docente e no perfil do Google Acadêmico. Por fim, a resolução de nomes ocorre, verificando-se entre os perfis compatíveis aquele que apresenta maiores evidências de pertencer ao respectivo docente. Um estudo de caso envolvendo os docentes da Universidade de São Paulo foi realizado, e o sistema automático foi capaz de identificar, de maneira correta, 4.283 perfis do Google Acadêmico. Uma análise de cobertura mostrou que o sistema foi capaz de encontrar cerca de 95% dos perfis dos docentes que possuem essa informação, e nenhum falso-positivo foi identificado.@pt


The author name disambiguation is a fundamental activity in bibliometric studies, in particular in those that use different sources of information. The objective of this paper is to propose and test an author name disambiguation strategy in order to allow the automatic identification of the Google Academic profile of researchers. The proposed strategy is based on the search for the profiles in Google Scholar, followed by a name matching process. Additionally, the academic publications that are registered in the researcher’s Lattes curriculum and Google Scholar profile are compared. Lastly, the name resolution is carried out by verifying among the compatible profiles the one with the highest evidence of belonging to the respective researcher. A case study involving researchers from the University of São Paulo was conducted, and the automated system was able to correctly identify 4,283 Google Scholar profiles. A coverage analysis showed that the system was able to find about 95% of the profiles of the researchers who have this information, and no false-positive was identified.@en

. Desambiguação de nomes de autores para a identificação automática de perfis acadêmicos automatic identification of academic profiles using author name disambiguation. Em questão, [????].

References

  • BORGES, Eduardo et al. An unsupervised heuristic-based approach for bibliographic metadata deduplication. Information Processing and Management, New York, v. 47, n. 5, p. 706-718, Sept. 2011.
  • BRASIL. Conselho Nacional de Desenvolvimento Científico e Tecnológico. Plataforma Lattes. 1999a. Plataforma Lattes: sobre a plataforma. 1999b.
  • CANUTO, Sérgio et al. UDRB: Uma nova heurística eficaz para deduplicação de referências bibliográficas. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS, 28., 2013, Recife. Anais... Recife: UFPE, 2013. p. 1-6.
  • DIAZ-VALENZUELA, Irene., MARTÍN-BAUTISTA, Maria J.., VILA, Maria A. A fuzzy semisupervised clustering method: Application to the classification of scientific publications. In: INTERNATIONAL CONFERENCE ON INFORMATION PROCESSING AND MANAGEMENT OF UNCERTAINTY IN KNOWLEDGE-BASED SYSTEMS, 15., 2014, Montpellier. Anais... Montpellier: IPMU, 2014. p. 179-188.
  • DIGIAMPIETRI, Luciano A. et al. Análise macro das últimas atualizações dos currículos Lattes. Em Questão, Porto Alegre, v. 20, n. 3, p. 88-113, 2014. Edição Especial.
  • DIGIAMPIETRI, Luciano A.., BARBOSA, Lênin F.., LINDEN, Ricardo. Desambiguação de nomes em redes sociais acadêmicas: Um estudo de caso usando DBLP. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING, 4., 2015, Porto Alegre. Anais... Porto Alegre: PUCRS, 2015. [p. 1-6].
  • FERREIRA, Anderson A.., GONÇALVES, Marcos A.., LAENDER, Alberto H. F. A brief survey of automatic methods for author name disambiguation. Sigmod Record, New York, v. 41, n. 2, p. 15-26, June 2012.
  • FERREIRA, Anderson A.., MACHADO, Tales M.., GONÇALVES, Marcos. A. Improving author name disambiguation with user relevance feedback. Journal of Information and Data Management, [S.l.], v. 3, n. 3, p. 332-347, Oct. 2012.
  • GODOI, Thiago A. et al. A relevance feedback approach for the author name disambiguation problem. In: JOINT CONFERENCE ON DIGITAL LIBRARIES, 13., 2013, New York. Proceedings… New York: ACM/IEEE-CS, 2013. p. 209-218.
  • GOMIDE, Janaina., KLING, Hugo., FIGUEIREDO, Daniel. Name usage pattern in the synonym ambiguity problem in bibliographic data. Scientometrics, Dordrecht, v. 112, n. 2, p. 747-766, Aug. 2017.
  • GOOGLE. Google Acadêmico. 2004a. GOOGLE. Google Acadêmico: busca por autores. 2004b.
  • HAN, Hui et al. Two supervised learning approaches for name disambiguation in author citations. In: JOINT CONFERENCE ON DIGITAL LIBRARIES, 4., 2004, Tucson. Proceedings… Tucson: ACM/IEEE-CS, 2004. p. 296-305.
  • MILOJEVIC, Stasa. Accuracy of simple, initials-based methods for author name disambiguation. Journal of Informetrics, Amsterdam, v. 7, n. 2, p.767-773, 2013.
  • MUGNAINI, Rogério et al. Normalização de nomes de autores em fontes de informação institucionais: proposta de um método automático de verificação de erros. Em Questão, Porto Alegre, v. 18, n. 3, p. 263-279, dez. 2012. Edição especial.
  • NORUZI, Alireza. Google scholar: The new generation of citation indexes. Libri, Berlin, v. 55, n. 4, p. 170-180, 2007.
  • NOVÁK, Vilém., PERFILIEVA, Irina., MOCKOR, Jiri. Mathematical principles of fuzzy logic. [S.l.]: Springer Science and Business Media, 2012.
  • SONG, Wanpeng et al. Question similarity calculation for FAQ answering. In: INTERNATIONAL CONFERENCE ON SEMANTICS, KNOWLEDGE AND GRID, 3., 2007, Washington. Anais… Washington: IEEE Computer Society, 2007. p. 298-301,
  • STROTMANN, Andreas., ZHAO, Dangzhi. Author name disambiguation: What difference does it make in author-based citation analysis? Journal of the American Society for Information Science and Technology, Hoboken, v. 63, n. 9, p. 1820-1833, Aug. 2012.
  • TALBURT, John R. Entity resolution and information quality. San Francisco: Morgan Kaufmann, 2010.
  • UNIVERSIDADE DE SÃO PAULO. Superintendência de Tecnologia da Informação. DataUSP. 2012a. Informação. DataUSP: apresentação. 2012b.
  • WHITE, Howard D.., MCCAIN, Katherine W. Visualizing a discipline: An author co-citation analysis of information science 1972-1995. Journal of the American Society for Information Science, New York, v. 49, n. 4, p. 327355, Dec. 1998.
NLP0.29
Visto 24 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2018-04-19] => 8684
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Luciano Antonio Digiampietri] => 10551
                        )

                    [1] => Array
                        (
                            [João Eduardo Ferreira] => 89019
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/47/2018/09/oai_seer_ufrgs_br_article_74064#00002.pdf] => 96564
                        )

                )

        )

    [hasPageEnd] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [54] => 3922
                        )

                )

        )

    [hasPageStart] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [37] => 607
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Ciëncia social aplicada] => 2102
                        )

                    [1] => Array
                        (
                            [Ciência da informação] => 237157
                        )

                    [2] => Array
                        (
                            [Desambiguação de nome] => 89015
                        )

                    [3] => Array
                        (
                            [Resolução de entidade] => 89016
                        )

                    [4] => Array
                        (
                            [Bibliometria] => 237251
                        )

                    [5] => Array
                        (
                            [Desambiguação de nomes] => 267912
                        )

                    [6] => Array
                        (
                            [Resolução de entidades] => 267913
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Author name disambiguation] => 89017
                        )

                    [1] => Array
                        (
                            [Entity resolution] => 89018
                        )

                    [2] => Array
                        (
                            [Bibliometrics] => 263968
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2018-04-19] => 265532
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Copyright (c)] => 232755
                        )

                    [1] => Array
                        (
                            [CCBY4.0] => 232756
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em questão] => 47
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00002-2018-24-2] => 8682
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [A desambiguação de nomes é uma atividade fundamental em estudos bibliométricos, em particular naqueles que utilizam diferentes fontes de informação. O objetivo deste trabalho é propor e testar uma estratégia de desambiguação de nomes de autores de forma a possibilitar a identificação automática do perfil do Google Acadêmico de docentes. A estratégia proposta é baseada na busca pelos perfis dos docentes no Google Acadêmico, seguida por um processo de casamento de nomes. Adicionalmente são comparadas as publicações acadêmicas que estão cadastradas no currículo Lattes do docente e no perfil do Google Acadêmico. Por fim, a resolução de nomes ocorre, verificando-se entre os perfis compatíveis aquele que apresenta maiores evidências de pertencer ao respectivo docente. Um estudo de caso envolvendo os docentes da Universidade de São Paulo foi realizado, e o sistema automático foi capaz de identificar, de maneira correta, 4.283 perfis do Google Acadêmico. Uma análise de cobertura mostrou que o sistema foi capaz de encontrar cerca de 95% dos perfis dos docentes que possuem essa informação, e nenhum falso-positivo foi identificado.] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [The author name disambiguation is a fundamental activity in bibliometric studies, in particular in those that use different sources of information. The objective of this paper is to propose and test an author name disambiguation strategy in order to allow the automatic identification of the Google Academic profile of researchers. The proposed strategy is based on the search for the profiles in Google Scholar, followed by a name matching process. Additionally, the academic publications that are registered in the researcher’s Lattes curriculum and Google Scholar profile are compared. Lastly, the name resolution is carried out by verifying among the compatible profiles the one with the highest evidence of belonging to the respective researcher. A case study involving researchers from the University of São Paulo was conducted, and the automated system was able to correctly identify 4,283 Google Scholar profiles. A coverage analysis showed that the system was able to find about 95% of the profiles of the researchers who have this information, and no false-positive was identified.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:seer.ufrgs.br:article/74064] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/view/74064] => 0
                        )

                    [1] => Array
                        (
                            [10.19132/1808-5245242.37-54] => 0
                        )

                    [2] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/74064] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em Questão; v. 24, n. 2 maio/ago. 2018; 37-54] => 0
                        )

                    [1] => Array
                        (
                            [1808-5245] => 0
                        )

                    [2] => Array
                        (
                            [Em Questão; v. 24, n. 2, maio/ago. 2018; 37-54] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [1807-8893] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Desambiguação de nomes de autores para a identificação automática de perfis acadêmicos] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Automatic identification of academic profiles using author name disambiguation] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/view/74064/45895] => 0
                        )

                    [1] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/74064/45895] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/74064] => 0
                        )

                    [1] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/74064/45895] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:seer.ufrgs.br:article/74064#00002] => 0
                        )

                )

        )

    [hasDOI] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [10.19132/1808-5245242.37-54] => 0
                        )

                )

        )

)