Article Brapci-Autoridades

Métricas científicas em estudos bibliométricos: detecção de outliers para dados univariados

Scientific metrics on bibliometric studies: detection of outliers for univariate data

Apresenta fórmulas, para dados univariados, de detecção de outliers que levem em conta a assimetria dos dados, tanto positiva como negativa. A nova formulação, proveniente da Análise Exploratória de Dados, é simulada comparando os resultados com a proposta oriunda da Análise Exploratória de Dados, presente na maioria dos livros-textos de estatística e softwares estatísticos, mas que se aplica somente para distribuições normais ou gaussianas, ou seja, simétricas ou com leve assimetria. Para a simulação, são utilizados dados reais publicados por dois trabalhos na área de métricas científicas. Para assimetrias positivas (negativas) moderadas ou fortes, a nova formulação detecta menor (maior) quantidade de outliers superiores que a proposta clássica. É importante levar em conta a existência de outliers nos dados bibliométricos, pois recomendase quantificar a influência dos mesmos nos cálculos estatísticos, tais como média e desvio padrão.@pt


This study presents formulas for detection of outliers for univariate data, taking into consideration the positive as well as the negative asymmetry of data. This new formula is based on the Exploratory Data Analysis and is simulated through the comparison of the outcome of the Exploratory Data Analysis found in statistical text books and statistical software. However, only normal or Gaussian distribution, i.e., symmetric or slightly asymmetric values, are applied. Real data published in two scientific papers on metrics are used for the simulation. For moderate or strong positive (negative) asymmetries, the new formulation detects a lower (higher) quantity of superior outliers. It is important to take into account the existence of outliers in bibliometric data; it is recommended to quantify the influence of outliers in statistical calculation, such as mean and standard deviation.@en

. Métricas científicas em estudos bibliométricos: detecção de outliers para dados univariados scientific metrics on bibliometric studies: detection of outliers for univariate data. Em questão, [????].

References

  • ADIL, Iftikhar Hussain., IRSHAD, Ateeq ur Rehman. A modified approach for detection of outliers. Pakistan Journal of Statistics and Operation Research, Lahore, v. 11, n. 1, p. 91-102, Apr. 2015.
  • BANERJEE, Sharmila., IGLEWICZ, Boris. A simple univariate outlier identification procedure designed for large samples. Communications in Statistics: simulation and computation, New York, v. 36, n. 2, p. 249-263, Mar. 2007.
  • BARNETT, Vic., LEWIS, Toby. Outliers in statistical data. 3. ed. New York: John Wiley and Sons, 1994.
  • BENSMAN, Stephen J.., SMOLINSKY, Lawrence J.., PUDOVKIN, Alexander I. Mean citation rate per article in Mathematics journals: differences from the scientific model. Journal of the American Society for Information Science and Technology, New York, v. 61, n. 7, p. 1440-1463, July 2010.
  • BORNMANN, Lutz et al. Citation counts for research evaluation: Standards of good practice for analyzing bibliometric data and presenting and interpreting results. Ethics in Science and Environmental Politics, Oldendorf/Luhe, v. 8, p. 93-102, 2008. Disponível em: . Acesso em: 5 set. 2016.
  • BRANT, Rollin. Comparing classical and resistant outlier rules. Journal of the American Statistical Association, Boston, v. 85, n. 412, p. 1083-1090, Dec. 1990.
  • BRUFFAERTS, Christopher., VERARDI, Vincenzo., VERMANDELE, Catherine. A generalized boxplot for skewed and heavy-tailed distributions. Statistics and Probability Letters, Amsterdam, v. 95, p. 110-117, Dec. 2014.
  • CARLING, Kenneth. Resistant outlier rules and the non-Gaussian case. Computational statistics and Data Analysis, Amsterdam, v. 33, n. 3, p. 249-258, May. 2000.
  • CARTER, Nancy., SCHWERTMAN, Neil C.., KISER, Terry L. A comparison of two boxplot methods for detecting univariate outliers which adjust for sample size and asymmetry. Statistical Methodology, Amsterdam, v. 6, n. 6, p. 604-621, Nov. 2009.
  • DOVOEDO, Y. H.., CHAKRABORTI, S. Boxplot-based outlier detection for the location-scale family. Communications in Statistics – Simulation and Computation, New York, v. 44, n. 6, p. 1492-1513, Apr. 2015.
  • GLÄNZEL, Wolfgang., MOED, Henk. F. Thougts and facts on bibliometric indicators. Scientometrics, Dordrecht, v. 96, n. 1, p. 381-394, Jul. 2013.
  • HOAGLIN, David C.., IGLEWICZ, Boris. Fine-tuning some resistant rules for outlier labeling. Journal of the American Statistical Association, Boston, v. 82, n. 400, p. 1147-1149, Dec. 1987.
  • HOAGLIN, David C.., IGLEWICZ, Boris., TUKEY, John W. Performance of some resistant rules for outlier labeling. Journal of the American Statistical Association, Boston, v. 81, n. 396, p. 991-999, Dec. 1986.
  • HUBERT, M.., VANDERVIEREN, E. An adjusted boxplot for skewed distributions. Computational Statistics and Data Analysis, Amsterdam, v. 52, n. 12, p. 5186-5201, aug. 2008.
  • KIMBER, A. C. Exploratory data analysis for possibly censored data from skewed distributions. Journal of the Royal Statistical Society. Series C (Applied Statistics), London, v. 39, n. 1, p. 21-30, Jan. 1990.
  • LIMA, Luís Fernando Maia Lima., MAROLDI, Alexandre Masson., SILVA, Dávilla Vieira Odízio da. Outlier(s) em cálculos bibliométricos: primeiras aproximações. Liinc em Revista, Rio de Janeiro, v. 9, n. 1, p. 257-268, maio 2013.
  • MUTZ, Rüdiger., DANIEL, Hans-Dieter. Skewed citation distributions and bias factors: solutions to two core problems with the journal impact factor. Journal of Informetrics, Amsterdam, v. 6, n. 2, p. 169-176, Apr. 2012.
  • SANTOS, Solange Maria dos. Perfil dos periódicos científicos de Ciências Sociais e Humanidades: mapeamento das características extrínsecas. 2010. 176 f. Dissertação (Mestrado em Ciência da Informação) – Escola de Comunicação e Artes, Universidade de São Paulo, São Paulo, 2010.
  • SCHWERTMAN, Neil C.., OWENS, Margaret Ann., ADNAN, Robiah. A simple more general boxplot method for identifying outliers. Computational Statistics and Data Analysis, Amsterdam, v. 47, n. 1, p. 165-174, Aug. 2004.
  • SCHWERTMAN, Neil C.., SILVA, Rapti de. Identifying outliers with sequencial fences. Computational Statistics and Data Analysis, Amsterdam, v. 51, n. 8, p. 3800-3810, May 2007.
  • SILVA, Dávilla Vieira Odízio da. Elementos bibliométricos das referências nas dissertações defendidas no Programa de Mestrado de Biologia Experimental
  • (PGBIOEXP) na Universidade Federal de Rondônia (UNIR), entre 2003 a 2010. 2014. 51 f. Trabalho de Conclusão de Curso (Graduação) – Departamento de Ciência da Informação, Universidade Federal de Rondônia, Porto Velho, 2014.
  • SILVA, Ermes Medeiros da., et al. Estatística para os cursos de Economia, Administração, Ciências Contábeis. 2. ed. São Paulo: Saraiva, 1996. v. 1.
  • SIM, C. H.., GAN, F. F.., CHANG, T. C. Outlier labeling with boxplot procedures. Journal of the American Statistical Association, Boston, v. 100, n. 470, p. 642- 652, Jun. 2005.
  • TRIOLA, Mario F. Introdução à Estatística. 10. ed. Rio de Janeiro: LTC, 2012.
  • TUKEY, John Wilder. Exploratory data analysis. Reading, Massachusetts: Addison-Wesley, 1977.
NLP0.29
Visto 16 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2017-01-27] => 8715
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Luís Fernando Maia Lima] => 8535
                        )

                    [1] => Array
                        (
                            [Alexandre Masson Maroldi] => 8534
                        )

                    [2] => Array
                        (
                            [Dávilla Vieira Odízio da Silva] => 8533
                        )

                    [3] => Array
                        (
                            [Carlos Roberto Massao Hayashi] => 24771
                        )

                    [4] => Array
                        (
                            [Maria Cristina Piumbato Innocentini Hayashi] => 3426
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/47/2018/09/oai_seer_ufrgs_br_article_68030#00002.pdf] => 96594
                        )

                    [1] => Array
                        (
                            [_repository/47/2018/09/oai_seer_ufrgs_br_article_68030#00002.txt] => 96595
                        )

                    [2] => Array
                        (
                            [_repository/47/2020/12/oai_seer_ufrgs_br_article_68030#00002.pdf] => 150261
                        )

                )

        )

    [hasPageEnd] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [273] => 3415
                        )

                )

        )

    [hasPageStart] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [254] => 1795
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Ciëncia social aplicada] => 2102
                        )

                    [1] => Array
                        (
                            [Ciência da informação] => 237157
                        )

                    [2] => Array
                        (
                            [Método quantitativo e bibliometria] => 88483
                        )

                    [3] => Array
                        (
                            [Outliers] => 88484
                        )

                    [4] => Array
                        (
                            [Análise exploratória de dado] => 8529
                        )

                    [5] => Array
                        (
                            [Assimetria] => 88485
                        )

                    [6] => Array
                        (
                            [Bibliometria] => 237251
                        )

                    [7] => Array
                        (
                            [Univariado] => 267835
                        )

                    [8] => Array
                        (
                            [Análise exploratória de dados] => 267641
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Exploratory data analysis] => 8531
                        )

                    [1] => Array
                        (
                            [Asymmetry] => 88487
                        )

                    [2] => Array
                        (
                            [Bibliometry] => 279576
                        )

                    [3] => Array
                        (
                            [Univariate] => 267837
                        )

                    [4] => Array
                        (
                            [Outliers] => 267836
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2017-01-27] => 267830
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Copyright (c)] => 232755
                        )

                    [1] => Array
                        (
                            [CCBY4.0] => 232756
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em questão] => 47
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00002-2017-23-] => 8709
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Apresenta fórmulas, para dados univariados, de detecção de outliers que levem em conta a assimetria dos dados, tanto positiva como negativa. A nova formulação, proveniente da Análise Exploratória de Dados, é simulada comparando os resultados com a proposta oriunda da Análise Exploratória de Dados, presente na maioria dos livros-textos de estatística e softwares estatísticos, mas que se aplica somente para distribuições normais ou gaussianas, ou seja, simétricas ou com leve assimetria. Para a simulação, são utilizados dados reais publicados por dois trabalhos na área de métricas científicas. Para assimetrias positivas (negativas) moderadas ou fortes, a nova formulação detecta menor (maior) quantidade de outliers superiores que a proposta clássica. É importante levar em conta a existência de outliers nos dados bibliométricos, pois recomendase quantificar a influência dos mesmos nos cálculos estatísticos, tais como média e desvio padrão.] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [This study presents formulas for detection of outliers for univariate data, taking into consideration the positive as well as the negative asymmetry of data. This new formula is based on the Exploratory Data Analysis and is simulated through the comparison of the outcome of the Exploratory Data Analysis found in statistical text books and statistical software. However, only normal or Gaussian distribution, i.e., symmetric or slightly asymmetric values, are applied. Real data published in two scientific papers on metrics are used for the simulation. For moderate or strong positive (negative) asymmetries, the new formulation detects a lower (higher) quantity of superior outliers. It is important to take into account the existence of outliers in bibliometric data; it is recommended to quantify the influence of outliers in statistical calculation, such as mean and standard deviation.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:seer.ufrgs.br:article/68030] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/view/68030] => 0
                        )

                    [1] => Array
                        (
                            [10.19132/1808-5245230.254-273] => 0
                        )

                    [2] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/68030] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em Questão; v. 23, Edição Especial 5 EBBC, 2017; 254-273] => 0
                        )

                    [1] => Array
                        (
                            [1808-5245] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [1807-8893] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Métricas científicas em estudos bibliométricos: detecção de outliers para dados univariados] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Scientific metrics on bibliometric studies: detection of outliers for univariate data] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/view/68030/40124] => 0
                        )

                    [1] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37665] => 0
                        )

                    [2] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37666] => 0
                        )

                    [3] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37667] => 0
                        )

                    [4] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37668] => 0
                        )

                    [5] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37669] => 0
                        )

                    [6] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37670] => 0
                        )

                    [7] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37671] => 0
                        )

                    [8] => Array
                        (
                            [http://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37672] => 0
                        )

                    [9] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/68030/40124] => 0
                        )

                    [10] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37665] => 0
                        )

                    [11] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37666] => 0
                        )

                    [12] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37667] => 0
                        )

                    [13] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37668] => 0
                        )

                    [14] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37669] => 0
                        )

                    [15] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37670] => 0
                        )

                    [16] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37671] => 0
                        )

                    [17] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/downloadSuppFile/68030/37672] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/68030] => 0
                        )

                    [1] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/68030/40124] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:seer.ufrgs.br:article/68030#00002] => 0
                        )

                )

        )

    [hasDOI] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [10.19132/1808-5245230.254-273] => 0
                        )

                )

        )

)