Article Brapci-Revistas

Python scripts para o web scraping de metadados das descrições sobre os conjuntos de dados do cenário internacional de repositórios de dados de pesquisa

Python scripts for web scraping metadata from descriptions of the international scenario of research data repositories

Objective: Research data repositories are an evolution of document repositories that aim to access and preserve all materials used before, during, and after scientific research. In this context, this study aims to conduct an exploratory and descriptive investigation of the international scenario of data repositories by monitoring the descriptive metadata of the international register of this type of repositories in the Registry of Research Data Repositories (re3data.org). Methods: The process requires applying knowledge inherent to the techniques and technologies used for descriptive data analysis, information retrieval, manipulation, analysis, and data visualization. Consequently, three scripts in Python 3.11 are provided for collecting metadata from re3data and scripts and converting the metadata to enable visualization in software such as VOSviewer, a dataset with metadata descriptions of repositories and conversions for visualization of networks. The datasets produced in this study can be found in the ZENODO Data Repository (https://doi.org/10.5281/zenodo.7903109). In a collection on (05/05/2023), 3108 links to the repository descriptions were retrieved. Data and scripts were created for this methodological experiment and shared at (DOI: doi.org/10.5281/zenodo.7903109). The dataset contains a root directory with three subdirectories: (scripts) with (.py) Python codes, another directory called (data) with textual files containing tab-separated values (.TSV), and the file (Information Systems Research, RIS). The third directory (env) contains the Python libraries required to run the scripts.  Potential for reuse: The research method applied to manipulate this dataset is based on automated re3data metadata extraction and network visualization; after the data collection and analysis process, it is possible to trigger a study based on the descriptions extracted from the Registry of Research Data Repositories (re3data), researchers can visualize the international scenario of research data repositories, verified by re3data, which allows ethical monitoring of the number of research data repositories that are registered in re3data, what are their areas, institutions, countries, the language of research data, the typology of repositories and deposited data, their themes, areas of knowledge, types of access, licenses and software used. In addition, other issues can be raised while interpreting the data. The community of Librarianship and Information Science professionals need to share data and the extraction technique  these research data. Finally, it can be concluded whether information about research data repositories allows us to state that they are heterogeneous data sources that enable access and preservation of a wide range of research data types@en


Objetivo: Os repositórios de dados de pesquisa são a evolução dos repositórios de documentos e visam acessar e preservar todos os materiais usados antes, durante e depois da realização pesquisa científica. Nesse contexto, o objetivo deste estudo é realizar uma abordagem exploratória e descritiva do cenário internacional de repositórios de dados de pesquisa, por meio do monitoramento dos metadados descritivos do registro internacional desse tipo de repositórios no Registry of Research Data Repositories (re3data.org). Métodos: O desenvolvimento do método exigiu a aplicação de conhecimentos inerentes às técnicas e tecnologias utilizadas para análise descritiva de dados, recuperação de informações, manipulação, análise e visualização de dados. A aplicado ao método resulta em três scripts em Python 3.11 para coleta de metadados do re3data, scripts para conversão de metadados e scripts para visualização dos metadados em softwares como o VOSviewer. Os conjuntos de dados produzidos pela pesquisa pode ser encontrados no repositório de dados ZENODO (https://doi.org/10.5281/zenodo.7903109), em uma coleção de software depositada em (05/05/2023), nela foram recuperados 3108 registros de links para descrições de repositórios distribuídos internacionalmente. Conforme o experimento metodológico o conjunto de dados contém um diretório raiz com 3 subdiretórios, um chamado (scripts) com os códigos Pyhton (.py), outro diretório chamado (data) com os arquivos textuais (Tab-separated values,TSV) contidos e o arquivo (Information Systems Research, RIS). O terceiro diretório (env) é onde estão as bibliotecas Python necessárias para executar os scripts. Potencial de reutilização: O método de pesquisa aplicado para manipular este conjunto de dados é baseado na extração automatizada de metadados do re3data e na visualização de redes; após o processo de coleta e análise dos dados é possível desencadear um estudo exploratório e descritivo sobre o cenário internacional dos repositórios de dados de pesquisa, verificados pelo re3data, o que permite o monitoramento ético da quantidade de repositórios de dados de pesquisa que estão cadastrados no re3data, quais são suas áreas, as instituições, os países o idioma o idiomas dos dados da pesquisa, a tipologia dos repositórios e dos dados depositados, suas os temáticas, áreas do conhecimento, tipos de acessos, licenças e softwares  utilizados. Além disso, outras questões podem ser levantadas durante a interpretação dos dados. O que reforça a necessidade desse conjunto de dados para a comunidade de profissionais da Biblioteconomia e da Ciência da Informação, o compartilhamento de dados e a técnica de extração podem colaborar com o reaproveitamento desses dados de pesquisa.@pt

. ::none::, [????].
NLP0.29
Visto 18 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2023-08-04] => 226854
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Alexandre Ribas Semeler] => 28621
                        )

                    [1] => Array
                        (
                            [Arthur Longoni Oliveira] => 227148
                        )

                    [2] => Array
                        (
                            [Fabiana Andrade Pereira] => 2478
                        )

                    [3] => Array
                        (
                            [Policarpo Matiquite] => 227149
                        )

                )

        )

    [hasSubject] => Array
        (
            [en] => Array
                (
                    [0] => Array
                        (
                            [Data repository] => 32376
                        )

                    [1] => Array
                        (
                            [Research data] => 188323
                        )

                    [2] => Array
                        (
                            [Geosciences] => 227147
                        )

                    [3] => Array
                        (
                            [Re3data] => 262114
                        )

                    [4] => Array
                        (
                            [Research data] => 9262
                        )

                )

            [pt] => Array
                (
                    [0] => Array
                        (
                            [Re3data] => 146047
                        )

                    [1] => Array
                        (
                            [Repositório de dado] => 32380
                        )

                    [2] => Array
                        (
                            [Dados de pesquisa] => 268438
                        )

                    [3] => Array
                        (
                            [Geociência] => 17570
                        )

                    [4] => Array
                        (
                            [Repositório de dados] => 270106
                        )

                    [5] => Array
                        (
                            [Geociãªncias] => 262116
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2023-08-04] => 262117
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [en] => 232773
                        )

                    [1] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Copyright (c)] => 232755
                        )

                    [1] => Array
                        (
                            [CCBY4.0] => 232756
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/00/22/71/46/work_00227146#00016.pdf] => 265996
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação] => 271
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00016-2023-28-] => 212156
                        )

                )

        )

    [hasAbstract] => Array
        (
            [en] => Array
                (
                    [0] => Array
                        (
                            [Objective: Research data repositories are an evolution of document repositories that aim to access and preserve all materials used before, during, and after scientific research. In this context, this study aims to conduct an exploratory and descriptive investigation of the international scenario of data repositories by monitoring the descriptive metadata of the international register of this type of repositories in the Registry of Research Data Repositories (re3data.org).
Methods: The process requires applying knowledge inherent to the techniques and technologies used for descriptive data analysis, information retrieval, manipulation, analysis, and data visualization. Consequently, three scripts in Python 3.11 are provided for collecting metadata from re3data and scripts and converting the metadata to enable visualization in software such as VOSviewer, a dataset with metadata descriptions of repositories and conversions for visualization of networks. The datasets produced in this study can be found in the ZENODO Data Repository (https://doi.org/10.5281/zenodo.7903109). In a collection on (05/05/2023), 3108 links to the repository descriptions were retrieved. Data and scripts were created for this methodological experiment and shared at (DOI: doi.org/10.5281/zenodo.7903109). The dataset contains a root directory with three subdirectories: (scripts) with (.py) Python codes, another directory called (data) with textual files containing tab-separated values (.TSV), and the file (Information Systems Research, RIS). The third directory (env) contains the Python libraries required to run the scripts. 
Potential for reuse: The research method applied to manipulate this dataset is based on automated re3data metadata extraction and network visualization; after the data collection and analysis process, it is possible to trigger a study based on the descriptions extracted from the Registry of Research Data Repositories (re3data), researchers can visualize the international scenario of research data repositories, verified by re3data, which allows ethical monitoring of the number of research data repositories that are registered in re3data, what are their areas, institutions, countries, the language of research data, the typology of repositories and deposited data, their themes, areas of knowledge, types of access, licenses and software used. In addition, other issues can be raised while interpreting the data. The community of Librarianship and Information Science professionals need to share data and the extraction technique  these research data. Finally, it can be concluded whether information about research data repositories allows us to state that they are heterogeneous data sources that enable access and preservation of a wide range of research data types] => 0
                        )

                    [1] => Array
                        (
                            [Objective: Research data repositories are an evolution of document repositories that aim to access and preserve all materials used before, during, and after scientific research. In this context, this study aims to conduct an exploratory and descriptive investigation of the international scenario of data repositories by monitoring the descriptive metadata of the international register of this type of repositories in the Registry of Research Data Repositories (re3data.org).
Methods: The process requires applying knowledge inherent to the techniques and technologies used for descriptive data analysis, information retrieval, manipulation, analysis, and data visualization. Consequently, three scripts in Python 3.11 are provided for collecting metadata from re3data and scripts and converting the metadata to enable visualization in software such as VOSviewer, a dataset with metadata descriptions of repositories and conversions for visualization of networks. The datasets produced in this study can be found in the ZENODO Data Repository (https://doi.org/10.5281/zenodo.7903109). In a collection on (05/05/2023), 3108 links to the repository descriptions were retrieved. Data and scripts were created for this methodological experiment and shared at (DOI: doi.org/10.5281/zenodo.7903109). The dataset contains a root directory with three subdirectories: (scripts) with (.py) Python codes, another directory called (data) with textual files containing tab-separated values (.TSV), and the file (Information Systems Research, RIS). The third directory (env) contains the Python libraries required to run the scripts. 
Potential for reuse: The research method applied to manipulate this dataset is based on automated re3data metadata extraction and network visualization; after the data collection and analysis process, it is possible to trigger a study based on the descriptions extracted from the Registry of Research Data Repositories (re3data), researchers can visualize the international scenario of research data repositories, verified by re3data, which allows ethical monitoring of the number of research data repositories that are registered in re3data, what are their areas, institutions, countries, the language of research data, the typology of repositories and deposited data, their themes, areas of knowledge, types of access, licenses and software used. In addition, other issues can be raised while interpreting the data. The community of Librarianship and Information Science professionals need to share data and the extraction technique  these research data. Finally, it can be concluded whether information about research data repositories allows us to state that they are heterogeneous data sources that enable access and preservation of a wide range of research data types] => 0
                        )

                )

            [pt] => Array
                (
                    [0] => Array
                        (
                            [Objetivo: Os repositórios de dados de pesquisa são a evolução dos repositórios de documentos e visam acessar e preservar todos os materiais usados antes, durante e depois da realização pesquisa científica. Nesse contexto, o objetivo deste estudo é realizar uma abordagem exploratória e descritiva do cenário internacional de repositórios de dados de pesquisa, por meio do monitoramento dos metadados descritivos do registro internacional desse tipo de repositórios no Registry of Research Data Repositories (re3data.org).
Métodos: O desenvolvimento do método exigiu a aplicação de conhecimentos inerentes às técnicas e tecnologias utilizadas para análise descritiva de dados, recuperação de informações, manipulação, análise e visualização de dados. A aplicado ao método resulta em três scripts em Python 3.11 para coleta de metadados do re3data, scripts para conversão de metadados e scripts para visualização dos metadados em softwares como o VOSviewer. Os conjuntos de dados produzidos pela pesquisa pode ser encontrados no repositório de dados ZENODO (https://doi.org/10.5281/zenodo.7903109), em uma coleção de software depositada em (05/05/2023), nela foram recuperados 3108 registros de links para descrições de repositórios distribuídos internacionalmente. Conforme o experimento metodológico o conjunto de dados contém um diretório raiz com 3 subdiretórios, um chamado (scripts) com os códigos Pyhton (.py), outro diretório chamado (data) com os arquivos textuais (Tab-separated values,TSV) contidos e o arquivo (Information Systems Research, RIS). O terceiro diretório (env) é onde estão as bibliotecas Python necessárias para executar os scripts.
Potencial de reutilização: O método de pesquisa aplicado para manipular este conjunto de dados é baseado na extração automatizada de metadados do re3data e na visualização de redes; após o processo de coleta e análise dos dados é possível desencadear um estudo exploratório e descritivo sobre o cenário internacional dos repositórios de dados de pesquisa, verificados pelo re3data, o que permite o monitoramento ético da quantidade de repositórios de dados de pesquisa que estão cadastrados no re3data, quais são suas áreas, as instituições, os países o idioma o idiomas dos dados da pesquisa, a tipologia dos repositórios e dos dados depositados, suas os temáticas, áreas do conhecimento, tipos de acessos, licenças e softwares  utilizados. Além disso, outras questões podem ser levantadas durante a interpretação dos dados. O que reforça a necessidade desse conjunto de dados para a comunidade de profissionais da Biblioteconomia e da Ciência da Informação, o compartilhamento de dados e a técnica de extração podem colaborar com o reaproveitamento desses dados de pesquisa.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:periodicos.ufsc.br:article/94877] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877] => 0
                        )

                    [1] => Array
                        (
                            [10.5007/1518-2924.2023.e94877] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 28 (2023): Innovation, Technology and Sustainability] => 0
                        )

                    [1] => Array
                        (
                            [Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 28 (2023): Inovação, Tecnologia e Sustentabilidade] => 0
                        )

                    [2] => Array
                        (
                            [1518-2924] => 0
                        )

                )

            [es] => Array
                (
                    [0] => Array
                        (
                            [Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 28 (2023): Innovación, Tecnología y Sustentabilidad] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [en] => Array
                (
                    [0] => Array
                        (
                            [Python scripts for web scraping metadata from descriptions of the international scenario of research data repositories] => 0
                        )

                )

            [pt] => Array
                (
                    [0] => Array
                        (
                            [Python scripts para o web scraping de metadados das descrições sobre os conjuntos de dados do cenário internacional de repositórios de dados de pesquisa] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877/53958] => 0
                        )

                    [1] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877/53947] => 0
                        )

                    [2] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877/53948] => 0
                        )

                    [3] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877/53949] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877] => 0
                        )

                    [1] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877/53958] => 0
                        )

                    [2] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877/53947] => 0
                        )

                    [3] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877/53948] => 0
                        )

                    [4] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/94877/53949] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [oai:periodicos.ufsc.br:article/94877#00016] => 0
                        )

                )

        )

    [hasDOI] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [10.5007/1518-2924.2023.e94877] => 0
                        )

                )

        )

)