Article Brapci-Revistas

Análise da extração de descritores como sintagmas nominais através do software OGMA

Analysis of extraction of descriptors as noun phrases through the ogma software

Análisis de la extracción de descriptores como sintagmas nominales a través del software OGMA

Analisa a indexação automática por sintagmas nominais de documentos compostos por título e resumo de 30 teses e dissertações escritas em português de três áreas do conhecimento diferentes. O método de pesquisa é categorizado como exploratório, com base em revisão de literatura e experimento computacional. O experimento consistiu na análise da saída do software OGMA quando aplicado ao corpus de documentos e a mensuração do nível de revocação das palavras-chaves. Durante a análise, foram observadas quais palavras-chave indicadas pelos autores estavam nos documentos e a partir daí observou-se quais palavras-chave presentes nos documentos foram extraídas ou não como sintagmas nominais pelo software. Foi traçado um perfil descritivo das sequências ou padrões de etiquetas gramaticais de cada grupo de palavras-chaves presentes extraídas e não extraídas como sintagmas nominais. Conclui-se que da totalidade de palavras-chaves informadas pelos autores 68% se encontravam no título ou resumo da tese ou dissertação, destas 66% foram extraídas como sintagmas nominais, correspondendo ao nível de revocação de palavras-chaves presentes alcançado pelo software OGMA. As palavras-chaves presentes e não extraídas na grande maioria apresentavam substantivos ou adjetivos etiquetados com classe gramatical errada pelo software, e por isso não foram extraídas. As palavras-chaves presentes e extraídas eram na maioria substantivos isolados (30%), substantivos seguidos de adjetivo (28%) e substantivo seguido de preposição e substantivo (19%). O nível de revocação das palavras-chaves presentes pode ser aumentado significantemente com ajustes no etiquetador gramatical do OGMA.@pt


This work investigates automatic indexing by noun phrases of documents containing title and abstract of 30 theses and dissertations written in Portuguese and of three different areas of knowledge. The research method is exploratory and based on literature review and an experiment. The experiment consisted of the OGMA software output analysis for the document corpus and the measurement of the level of recall of keywords present in the documents. It shows a descriptive profile of the sequences of grammatical labels for keywords present extracted and not extracted as noun phrases. It is concluded that 68% of the totality of keywords informed by the authors  were in the title or abstract of the thesis or dissertations, of these 66% were extracted as noun phrases, which corresponds to the recall level of keywords present reached by OGMA software. Keywords present and not extracted had mainly nouns or adjectives labeled with incorrect grammatical category by the software. Keywords present and extracted were mostly single nouns (30%), noun-adjective pair (28%) and noun-preposition-noun trigram (19%). The OGMA obtained a good level of recall of keywords present, and this level can increases in almost 34% with adjustments in the part-of-speech tagger.@en
Se analiza la indexación automática por sintagmas nominales de documentos, compuestos por título y resumen de 30 tesis y disertaciones, escritos en portugués y de tres áreas del conocimiento diferentes. El método de investigación se categoriza como exploratorio, basado en la revisión de literatura y el experimento computacional. El experimento consistió en el análisis de la salida del software OGMA cuando se aplica al corpus de documentos y la medición del nivel de revocación de las palabras clave. Durante el análisis, se observaron qué palabras clave indicadas por los autores estaban en los documentos y luego se observó qué palabras clave presentes en los documentos fueron extraídas o no como sintagmas nominales por el software. Se trazó un perfil descriptivo de las secuencias o patrones de etiquetas gramaticales de cada grupo de palabras clave presentes - las extraídas y no extraídas como sintagmas nominales. Se concluye que de la totalidad de palabras claves informadas por los autores 68% se encontraban en el título o resumen de la tesis o disertación, de las 66% fueron extraídas como sintagmas nominales, correspondiendo al nivel de revocación de palabras claves presentes alcanzado por el software OGMA. Las palabras clave presentes y no extraídas en la gran mayoría presentaban sustantivos o adjetivos etiquetados con clase gramatical errada por el software, y por eso no fueron extraídos. Las palabras claves presentes y extraídas eran en la mayoría sustantivos aislados (30%), sustantivos seguidos de adjetivo (28%) y sustantivo seguido de preposición y sustantivo (19%). El OGMA alcanzó un buen nivel de revocación de las palabras clave presentes, y este nivel aún puede aumentarse hasta un 34% con ajustes en el etiquetador gramatical del software.@es

. Análise da extração de descritores como sintagmas nominais através do software ogma analysis of extraction of descriptors as noun phrases through the ogma software análisis de la extracción de descriptores como sintagmas nominales a través del software ogma. Encontros bibli: revista eletrônica de biblioteconomia e ciência da informação, [????].
NLP0.29
Visto 21 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2017-09-06] => 31506
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Renato Fernandes Corrêa] => 7736
                        )

                    [1] => Array
                        (
                            [Luiz Henrique Teixeira Bazílio] => 34567
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/271/2018/09/oai_periodicos_ufsc_br_article_46434#00016.pdf] => 46088
                        )

                )

        )

    [hasPageEnd] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [58] => 1141
                        )

                )

        )

    [hasPageStart] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [44] => 1214
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Ciência da informação] => 237157
                        )

                    [1] => Array
                        (
                            [Indexação automática] => 200690
                        )

                    [2] => Array
                        (
                            [Sintagma nominal] => 5325
                        )

                    [3] => Array
                        (
                            [Palavras-chave] => 174155
                        )

                    [4] => Array
                        (
                            [Tese e dissertação] => 265349
                        )

                    [5] => Array
                        (
                            [Software ogma] => 34561
                        )

                    [6] => Array
                        (
                            [Automated language processing] => 34562
                        )

                    [7] => Array
                        (
                            [Sintagmas nominais] => 174226
                        )

                    [8] => Array
                        (
                            [Teses e dissertações] => 277738
                        )

                    [9] => Array
                        (
                            [Palavras-chaves] => 247874
                        )

                    [10] => Array
                        (
                            [Tese e dissertação] => 3580
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Information science] => 233818
                        )

                    [1] => Array
                        (
                            [L] => 34327
                        )

                    [2] => Array
                        (
                            [Information technology and library technology] => 34328
                        )

                    [3] => Array
                        (
                            [Automatic indexing] => 173384
                        )

                    [4] => Array
                        (
                            [Noun phrases] => 263069
                        )

                    [5] => Array
                        (
                            [Keywords] => 175506
                        )

                    [6] => Array
                        (
                            [Theses and dissertations] => 277734
                        )

                    [7] => Array
                        (
                            [Ogma software] => 34564
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2017-09-06] => 263065
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Copyright (c)] => 232755
                        )

                    [1] => Array
                        (
                            [CCBY4.0] => 232756
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação] => 271
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00016-2017-22-50] => 31495
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Analisa a indexação automática por sintagmas nominais de documentos compostos por título e resumo de 30 teses e dissertações escritas em português de três áreas do conhecimento diferentes. O método de pesquisa é categorizado como exploratório, com base em revisão de literatura e experimento computacional. O experimento consistiu na análise da saída do software OGMA quando aplicado ao corpus de documentos e a mensuração do nível de revocação das palavras-chaves. Durante a análise, foram observadas quais palavras-chave indicadas pelos autores estavam nos documentos e a partir daí observou-se quais palavras-chave presentes nos documentos foram extraídas ou não como sintagmas nominais pelo software. Foi traçado um perfil descritivo das sequências ou padrões de etiquetas gramaticais de cada grupo de palavras-chaves presentes extraídas e não extraídas como sintagmas nominais. Conclui-se que da totalidade de palavras-chaves informadas pelos autores 68% se encontravam no título ou resumo da tese ou dissertação, destas 66% foram extraídas como sintagmas nominais, correspondendo ao nível de revocação de palavras-chaves presentes alcançado pelo software OGMA. As palavras-chaves presentes e não extraídas na grande maioria apresentavam substantivos ou adjetivos etiquetados com classe gramatical errada pelo software, e por isso não foram extraídas. As palavras-chaves presentes e extraídas eram na maioria substantivos isolados (30%), substantivos seguidos de adjetivo (28%) e substantivo seguido de preposição e substantivo (19%). O nível de revocação das palavras-chaves presentes pode ser aumentado significantemente com ajustes no etiquetador gramatical do OGMA.] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [This work investigates automatic indexing by noun phrases of documents containing title and abstract of 30 theses and dissertations written in Portuguese and of three different areas of knowledge. The research method is exploratory and based on literature review and an experiment. The experiment consisted of the OGMA software output analysis for the document corpus and the measurement of the level of recall of keywords present in the documents. It shows a descriptive profile of the sequences of grammatical labels for keywords present extracted and not extracted as noun phrases. It is concluded that 68% of the totality of keywords informed by the authors  were in the title or abstract of the thesis or dissertations, of these 66% were extracted as noun phrases, which corresponds to the recall level of keywords present reached by OGMA software. Keywords present and not extracted had mainly nouns or adjectives labeled with incorrect grammatical category by the software. Keywords present and extracted were mostly single nouns (30%), noun-adjective pair (28%) and noun-preposition-noun trigram (19%). The OGMA obtained a good level of recall of keywords present, and this level can increases in almost 34% with adjustments in the part-of-speech tagger.] => 0
                        )

                )

            [es] => Array
                (
                    [0] => Array
                        (
                            [Se analiza la indexación automática por sintagmas nominales de documentos, compuestos por título y resumen de 30 tesis y disertaciones, escritos en portugués y de tres áreas del conocimiento diferentes. El método de investigación se categoriza como exploratorio, basado en la revisión de literatura y el experimento computacional. El experimento consistió en el análisis de la salida del software OGMA cuando se aplica al corpus de documentos y la medición del nivel de revocación de las palabras clave. Durante el análisis, se observaron qué palabras clave indicadas por los autores estaban en los documentos y luego se observó qué palabras clave presentes en los documentos fueron extraídas o no como sintagmas nominales por el software. Se trazó un perfil descriptivo de las secuencias o patrones de etiquetas gramaticales de cada grupo de palabras clave presentes - las extraídas y no extraídas como sintagmas nominales. Se concluye que de la totalidad de palabras claves informadas por los autores 68% se encontraban en el título o resumen de la tesis o disertación, de las 66% fueron extraídas como sintagmas nominales, correspondiendo al nivel de revocación de palabras claves presentes alcanzado por el software OGMA. Las palabras clave presentes y no extraídas en la gran mayoría presentaban sustantivos o adjetivos etiquetados con clase gramatical errada por el software, y por eso no fueron extraídos. Las palabras claves presentes y extraídas eran en la mayoría sustantivos aislados (30%), sustantivos seguidos de adjetivo (28%) y sustantivo seguido de preposición y sustantivo (19%). El OGMA alcanzó un buen nivel de revocación de las palabras clave presentes, y este nivel aún puede aumentarse hasta un 34% con ajustes en el etiquetador gramatical del software.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:periodicos.ufsc.br:article/46434] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44] => 0
                        )

                    [1] => Array
                        (
                            [10.5007/1518-2924.2017v22n50p44] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 22, n. 50 (2017): Data de publicação: 01/09/2017; 44-58] => 0
                        )

                    [1] => Array
                        (
                            [1518-2924] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Análise da extração de descritores como sintagmas nominais através do software OGMA] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Analysis of extraction of descriptors as noun phrases through the ogma software] => 0
                        )

                )

            [es] => Array
                (
                    [0] => Array
                        (
                            [Análisis de la extracción de descriptores como sintagmas nominales a través del software OGMA] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/34689] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44] => 0
                        )

                    [1] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/34689] => 0
                        )

                    [2] => Array
                        (
                            [https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/53620] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:periodicos.ufsc.br:article/46434#00016] => 0
                        )

                )

        )

    [hasDOI] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [10.5007/1518-2924.2017v22n50p44] => 0
                        )

                )

        )

)