Article Brapci-Autoridades

A influência de outliers nos estudos métricos da informação: uma análise de dados univariados

The influence of outliers on metric studies of information: an analysis of univariate data

Este artigo apresenta uma nova fórmula de detecção de outliers via Análise Exploratória de Dados, levando em conta a assimetria dos dados, e também estuda o efeito da remoção dos outliers dos dados originais. Aplica-se a fórmula para três conjuntos de dados publicados na literatura de estudos métricos da informação. O primeiro conjunto de dados apresenta cinco outliers inferiores. A média, dos dados agregados, conduz à falsa impressão de que 40 universidades, de um total de 49, estão acima da média. A remoção dos cinco outliers inferiores conduz a uma nova média em que somente 22 universidades estão acima da média. No segundo conjunto de dados há a presença de cinco outliers inferiores e um outlier superior. Neste caso, o outlier superior ameniza o efeito dos outliers inferiores. No terceiro conjunto de dados, detectam-se cinco outliers superiores e um outlier inferior. A média, dos dados agregados, aponta que dez universidades estão acima da média. Removendo-se os seis outliers dos dados originais, encontra-se que 28 universidades estão acima do novo valor da média. Para os três conjuntos de dados analisados o trabalho também demonstra o efeito dos outliers na estimativa intervalar (inferência estatística): a remoção dos outliers gera valores mais representativos tanto para a média como para o desvio padrão da amostra analisada. Portanto, evidencia-se como outliers podem afetar resultados e conclusões nos estudos métricos da informação. Todavia, a fórmula para a detecção de outliers apresenta-se aberta para futuras pesquisas.@pt


This paper presents a new formula for detecting outliers through Exploratory Data Analysis, while taking data asymmetry into account. The effect of removing outliers from the original dataset was also assessed. The new formula was applied on three datasets published in the literature on metric studies of information. The first dataset presented five lower outliers. The average of aggregate data conveyed a false impression that 40 universities, from a total of 49, were above average. The removal of the five lower outliers leads to a new average in which only 22 universities were above average. In the second dataset, there were five lower outliers and one upper outlier. In this case, the upper outlier eventually weaken the effect of the lower outliers. In the third dataset, five upper outliers and one lower outlier are detected. The average of aggregate data revealed that 10 universities were above average. Removing the six outliers from the original dataset, it was found that 28 universities were above the new average score. For the three datasets analyzed, the assessment demonstrated the effect of the outliers on the interval estimation (statistical inference): the removal of outliers generated a mean and standard deviation that were more representative of the sample analyzed. Therefore, became evident how outliers could influence results and conclusions in metric studies of the information. However, the formula for outliers’ detection is open for future research.@en

. A influência de outliers nos estudos métricos da informação: uma análise de dados univariados the influence of outliers on metric studies of information: an analysis of univariate data. Em questão, [????].

References

  • ADIL, Iftikhar Hussain., IRSHAD, Ateequr Rehman. A modified approach for detection of outliers. Pakistan Journal of Statistics and Operation Research, Lahore, v. 11, n. 1, p. 91-102, Apr. 2015.
  • ALVAREZ, Gonzalo Rubén., CAREGNATO, Sônia Elisa. Presença de agradecimentos por financiamento nos artigos brasileiros indexados na Web of Science (2009-2016). In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA, 6., 2018, Rio de Janeiro. Anais... Rio de Janeiro: UFRJ, 2018. p. 172-180.
  • BABURA, Babangida Ibrahim et al. Modified boxplot for extreme data. AIP Conference Proceedings, New York, v. 1842, issue 1, May 2017.
  • BARNETT, Ofra., COHEN, Ayala. The histogram and boxplot for the display of lifetime data. Journal of Computational and Graphical Statistics, England, v. 9, n. 4, p. 759-778, Dec. 2000.
  • BARNETT, Vic., LEWIS, Toby. Outliers in statistical data. New York: John Wiley and Sons, 1978.
  • BUSSAB, Wilton., MORETTIN, Pedro. Estatística Básica. 5. ed. São Paulo: Saraiva, 2002.
  • CHHIKARA, R. S.., FEIVESON, A. L. Extended critical values of extreme studentized deviate test statistics for detecting multiple outliers. Communications in statistics: simulation and computation, England, v. B9, n. 2, p. 155-166, [s.d.], 1980.
  • DÜMBGEN, Lutz., RIEDWYL, Hans. On fences and asymmetric in box-andwhiskers plots. The American Statistician, Alexandria, VA, v. 61, n. 4, p. 356359, Nov. 2007.
  • HUBERT, Mia., VANDERVIEREN, Ellen. An adjusted boxplot for skewed distributions. Computacional Statistics and Data Analysis, Amsterdam, v. 52, n. 12, p. 5186-5201, Aug. 2008.
  • KIMBER, A. C. Exploratory data analysis for possibly censored data from skewed distributions. Journal of the Royal Statistical Society. Series C (Applied Statistics), London, v. 39, n. 1, p. 21-30, Jan.1980.
  • LIMA, Luís Fernando Maia et al. Estudo preliminar sobre a influência de outliers nas métricas científicas para dados univariados. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA, 6., 2018, Rio de Janeiro. Anais... Rio de Janeiro: UFRJ, 2018. p. 446-452.
  • LIMA, Luís Fernando Maia et al. Proposta de um critério auxiliar para a determinação da elite científica. In: BORGES, Maria Manuel., CASADO, Elias Sanz (Coord.). A ciência aberta: o contributo da Ciência da Informação: atas do VIII Encontro Ibérico EDICIC. Coimbra: Universidade de Coimbra, 2017a. p. 301-310. Disponível em: https://purl.org/sci/atas/edicic2017. Acesso em: 26 ago. 2018.
  • LIMA, Luís Fernando Maia et al. Métricas científicas em estudos bibliométricos: detecção de outliers para dados univariados. Em Questão, Porto Alegre, v. 23, Edição Especial 5 EBBC, p. 254-273, jan. 2017b.
  • LIMA, Luís Fernando Maia., MAROLDI, Alexandre Masson., SILVA, Dávilla Vieira Odizio da. Outlier(s) nos cálculos bibliométricos: primeiras aproximações. Liinc em Revista, Rio de Janeiro, v. 9, n. 1, p. 257-268, maio 2013.
  • PRICE, John Derek de Solla. Little science, big science. New York: Columbia University Press, 1963.
  • ROSADO, Fernando. Outliers em dados estatísticos. Lisboa: Sociedade Portuguesa de Estatística, 2006.
  • SILVA, Dávilla Vieira Odizio da., MAROLDI, Alexandre Masson., LIMA, Luís Fernando Maia. Outliers na Lei do Elitismo. Em Questão, Porto Alegre, v. 20, n. 3, Edição Especial, p. 43-59, dez. 2014.
  • SILVA, Deise Deolindo., ALMEIDA, Cátia Cândida de., GRÁCIO, Maria Claúdia Cabrini. Avaliação científica de periódico em Ciências Sociais: junção dos indicadores Fator de Impacto e índice h. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA, 6., 2018, Rio de Janeiro. Anais... Rio de Janeiro: UFRJ, 2018, p. 264-271.
  • SILVA, Domingos J. Lopes da. Estatística aplicada à investigação científica nas Ciências do Desporto: análise exploratória de dados com recurso ao SPSS. Medelo, Portugal: Instituto de Estudos Superiores de Fafe, 2011.
  • SILVA, Fábio Salomão Vinco., SCHULZ, Peter Alexander. Impacto de uma única área de conhecimento sobre os indicadores de um país: a astronomia no Chile. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E 2018, p. 181-189.
  • TAMBAY, J. L. An integrated approach for the treatment of outliers in subannual economic surveys. American Statistical Association Proceedings of the Survey Research Methods. Alexandria, VA: American Statistical Association, 1988, p. 229-234.
  • TRIOLA, Mario F. Introdução à Estatística. 10. ed. Rio de Janeiro: LTC, 2012.
  • TUKEY, John Wilder. Exploratory Data Analysis. Reading, Massachusetts: Addison-Wesley, 1977.
  • VANTI, Nadia., CASADO, Elías Sanz. O uso do fator de impacto web alternativo para avaliar as universidades públicas espanholas. In: ARAÚLO, Ronaldo Ferreira de (Org.). Estudos métricos da informação na web: atores, ações e dispositivos. Maceió: EDUFAL, 2015. p. 109-127.
  • WALKER, Michael., CHAKRABORTI, Subha. An asymmetrically modified boxplot for Exploratory Data Analysis. [S.I.], 2013. Disponível em: https://louisville.edu/sphis/bb/src-2013/student-postercompetition/Abstract_WalkerM.pdf. Acesso em: 25 ago. 2018.
NLP0.29
Visto 18 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2019-03-18] => 111447
                        )

                    [1] => Array
                        (
                            [2018-12-31] => 109048
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Luís Fernando Maia Lima] => 8535
                        )

                    [1] => Array
                        (
                            [Alexandre Masson Maroldi] => 8534
                        )

                    [2] => Array
                        (
                            [Dávilla Vieira Odízio da Silva] => 8533
                        )

                    [3] => Array
                        (
                            [Carlos Roberto Massao Hayashi] => 24771
                        )

                    [4] => Array
                        (
                            [Maria Cristina Piumbato Innocentini Hayashi] => 3426
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/47/2019/03/oai_seer_ufrgs_br_article_86661#00002.pdf] => 111498
                        )

                )

        )

    [hasPageEnd] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [235] => 9535
                        )

                )

        )

    [hasPageStart] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [216] => 2470
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Encontro brasileiro de bibliometria e cientometria] => 67
                        )

                    [1] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Ciëncia social aplicada] => 2102
                        )

                    [1] => Array
                        (
                            [Ciência da informação] => 237157
                        )

                    [2] => Array
                        (
                            [Outliers] => 88484
                        )

                    [3] => Array
                        (
                            [Univariado] => 267835
                        )

                    [4] => Array
                        (
                            [Bibliometria] => 237251
                        )

                    [5] => Array
                        (
                            [Assimetria] => 88485
                        )

                    [6] => Array
                        (
                            [Análise exploratória de dado] => 8529
                        )

                    [7] => Array
                        (
                            [Univariados] => 268034
                        )

                    [8] => Array
                        (
                            [Análise exploratória de dados] => 267641
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2018-12-31] => 234211
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Copyright (c)] => 232755
                        )

                    [1] => Array
                        (
                            [CCBY4.0] => 232756
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em questão] => 47
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00002-2018-24-] => 111445
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Este artigo apresenta uma nova fórmula de detecção de outliers via Análise Exploratória de Dados, levando em conta a assimetria dos dados, e também estuda o efeito da remoção dos outliers dos dados originais. Aplica-se a fórmula para três conjuntos de dados publicados na literatura de estudos métricos da informação. O primeiro conjunto de dados apresenta cinco outliers inferiores. A média, dos dados agregados, conduz à falsa impressão de que 40 universidades, de um total de 49, estão acima da média. A remoção dos cinco outliers inferiores conduz a uma nova média em que somente 22 universidades estão acima da média. No segundo conjunto de dados há a presença de cinco outliers inferiores e um outlier superior. Neste caso, o outlier superior ameniza o efeito dos outliers inferiores. No terceiro conjunto de dados, detectam-se cinco outliers superiores e um outlier inferior. A média, dos dados agregados, aponta que dez universidades estão acima da média. Removendo-se os seis outliers dos dados originais, encontra-se que 28 universidades estão acima do novo valor da média. Para os três conjuntos de dados analisados o trabalho também demonstra o efeito dos outliers na estimativa intervalar (inferência estatística): a remoção dos outliers gera valores mais representativos tanto para a média como para o desvio padrão da amostra analisada. Portanto, evidencia-se como outliers podem afetar resultados e conclusões nos estudos métricos da informação. Todavia, a fórmula para a detecção de outliers apresenta-se aberta para futuras pesquisas.] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [This paper presents a new formula for detecting outliers through Exploratory Data Analysis, while taking data asymmetry into account. The effect of removing outliers from the original dataset was also assessed. The new formula was applied on three datasets published in the literature on metric studies of information. The first dataset presented five lower outliers. The average of aggregate data conveyed a false impression that 40 universities, from a total of 49, were above average. The removal of the five lower outliers leads to a new average in which only 22 universities were above average. In the second dataset, there were five lower outliers and one upper outlier. In this case, the upper outlier eventually weaken the effect of the lower outliers. In the third dataset, five upper outliers and one lower outlier are detected. The average of aggregate data revealed that 10 universities were above average. Removing the six outliers from the original dataset, it was found that 28 universities were above the new average score. For the three datasets analyzed, the assessment demonstrated the effect of the outliers on the interval estimation (statistical inference): the removal of outliers generated a mean and standard deviation that were more representative of the sample analyzed. Therefore, became evident how outliers could influence results and conclusions in metric studies of the information. However, the formula for outliers’ detection is open for future research.] => 0
                        )

                    [1] => Array
                        (
                            [This paper presents a new formula for detecting outliers through Exploratory Data Analysis, while taking data asymmetry into account. The effect of removing outliers from the original dataset was also assessed. The new formula was applied on three datasets published in the literature on metric studies of information. The first dataset presented five lower outliers. The average of aggregate data conveyed a false impression that 40 universities, from a total of 49, were above average. The removal of the five lower outliers leads to a new average in which only 22 universities were above average. In the second dataset, there were five lower outliers and one upper outlier. In this case, the upper outlier eventually weaken the effect of the lower outliers. In the third dataset, five upper outliers and one lower outlier are detected. The average of aggregate data revealed that 10 universities were above average. Removing the six outliers from the original dataset, it was found that 28 universities were above the new average score. For the three datasets analyzed, the assessment demonstrated the effect of the outliers on the interval estimation (statistical inference): the removal of outliers generated a mean and standard deviation that were more representative of the sample analyzed. Therefore, became evident how outliers could influence results and conclusions in metric studies of the information. However, the formula for outliers’ detection is open for future research.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:seer.ufrgs.br:article/86661] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/86661] => 0
                        )

                    [1] => Array
                        (
                            [10.19132/1808-5245240.216-235] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Em Questão; v. 24, Edição Especial 6 EBBC, 2018; 216-235] => 0
                        )

                    [1] => Array
                        (
                            [1808-5245] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [1807-8893] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [A influência de outliers nos estudos métricos da informação: uma análise de dados univariados] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [The influence of outliers on metric studies of information: an analysis of univariate data] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://seer.ufrgs.br/EmQuestao/article/view/86661/52339] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/86661] => 0
                        )

                    [1] => Array
                        (
                            [https://seer.ufrgs.br/index.php/EmQuestao/article/view/86661/52339] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:seer.ufrgs.br:article/86661#00002] => 0
                        )

                )

        )

    [hasDOI] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [10.19132/1808-5245240.216-235] => 0
                        )

                )

        )

)