Array
(
    [responseDate] => 2023-12-26T07:18:51Z
    [request] => https://www.ibersid.eu/ojs/index.php/scire/oai
    [GetRecord] => SimpleXMLElement Object
        (
            [record] => SimpleXMLElement Object
                (
                    [header] => SimpleXMLElement Object
                        (
                            [identifier] => oai:ojs.ibersid.eu:article/3895
                            [datestamp] => 2012-06-04T15:57:15Z
                            [setSpec] => Array
                                (
                                    [0] => scire:AR
                                    [1] => driver
                                )

                        )

                    [metadata] => SimpleXMLElement Object
                        (
                            [dc] => SimpleXMLElement Object
                                (
                                    [title] => Array
                                        (
                                            [0] => Duplicate and near-duplicate documents in the web: detection by means of fuzzy-hash techniques
                                            [1] => Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso
                                        )

                                    [creator] => Array
                                        (
                                            [0] => G. Figuerola, Carlos
                                            [1] => Gómez Díaz, Raquel
                                            [2] => Alonso Berrocal, José Luis
                                            [3] => Zazo Rodríguez, Angel
                                        )

                                    [subject] => Array
                                        (
                                            [0] => World Wide Web
                                            [1] => Duplicate detection
                                            [2] => Fuzzy hashing
                                            [3] => World Wide Web
                                            [4] => Detección de duplicados
                                            [5] => Fuzzy hashing
                                        )

                                    [description] => Array
                                        (
                                            [0] => The detection of duplicates in the web is important because it allows to lighten databases and improve the efficiency of information retrieval engines and the precision of cybermetric analysis, web mining studies, etc. Standard hash techniques used to detect these duplicates only detect exact ones, at the bit level. However, many of the duplicates found in the real world are not exactly alike and have the same content, but different formats, headers, meta tags or style sheets. The obvious solution is to compare plain text conversions of all these formats, but these conversions are never identical, because of the different treatments that the converters give to the various formatting elements (treatment of textual characters, diacritics, spacing, paragraphs…). In this article, we introduce the possibility of using fuzzy-hashing to produce fingerprints of files (or documents, etc..) that can be compared to estimate the closeness or distance between two files, documents, etc. Based on the concept of “rolling hash”, the fuzzy hashing has been used successfully in computer security tasks, such as identifying malware, spam, virus scanning, etc. We have added capabilities of fuzzy hashing to a slight crawler and have made several tests in a heterogeneous network domain, consisting of multiple servers with different software, static and dynamic pages, etc. These tests allowed us to measure similarity thresholds and to obtain useful data about the quantity and distribution of duplicate documents on web servers.
                                            [1] => La detección de los duplicados en la web es importante porque permite aligerar las bases de datos documentales y mejorar la eficiencia de los motores de búsqueda y la precisión de los análisis cibermétricos y los estudios de minería web, etc. Sin embargo, las técnicas estándar de hashing aplicadas habitualmente sólo detectan duplicados exactos, a nivel de bits, mientras que muchos de los duplicados que encontramos en el mundo real no son exactamente iguales, por cambios en el formato, las cabeceras, las etiquetas META o las plantillas de visualización. La solución obvia es comparar las conversiones a texto plano de todos esos formatos, pero esas conversiones nunca son idénticas, debido al diferente tratamiento que hacen los conversores de los diversos elementos de formato. Se presenta la posibilidad de utilizar fuzzyhashing para producir huellas digitales de dos documentos que se pueden comparar para proporcionar una estimación de la cercanía o distancia entre los dos documentos. Basado en el concepto de rollinghash, el fuzzy hashing se utiliza con éxito en tareas de seguridad informática como identificación de programas maliciosos, correo basura, detección de virus, etc. Hemos añadido capacidades de fuzzy-hashing a un crawler y hemos llevado a cabo diversas pruebas que nos han permitido estimar umbrales útiles de similitud o parecido entre documentos, así como obtener datos interesantes sobre la cantidad y distribución de documentos duplicados en servidores web.
                                        )

                                    [publisher] => Ibersid
                                    [date] => 2011-12-30
                                    [type] => Array
                                        (
                                            [0] => info:eu-repo/semantics/article
                                            [1] => info:eu-repo/semantics/publishedVersion
                                        )

                                    [format] => application/pdf
                                    [identifier] => Array
                                        (
                                            [0] => https://www.ibersid.eu/ojs/index.php/scire/article/view/3895
                                            [1] => 10.54886/scire.v17i1.3895
                                        )

                                    [source] => Array
                                        (
                                            [0] => Scire: knowledge representation and organization (ISSNe 2340-7042; ISSN 1135-3716); Vol.17, N.1 (2011); 49-54
                                            [1] => Scire: representación y organización del conocimiento; Vol.17, N.1 (2011); 49-54
                                            [2] => 2340-7042
                                            [3] => 1135-3716
                                        )

                                    [language] => spa
                                    [relation] => https://www.ibersid.eu/ojs/index.php/scire/article/view/3895/3632
                                    [rights] => Array
                                        (
                                            [0] => Derechos de autor 2011 Los autores y autoras conservan sus derechos de autor, aunque ceden a la revista de forma no exclusiva los derechos de explotación (reproducción, distribución, comunicación pública y transformación) y garantizan a esta el derecho de primera publicación de su trabajo, el cual estará simultáneamente sujeto a la licencia  CC BY-NC-ND. Los autores aceptan la responsabilidad legal de cumplir plenamente con los códigos éticos y leyes apropiadas, y de obtener todos los permisos de derecho de autor debidos. Se permite y se anima a los autores y autoras a difundir electrónicamente la versión editorial (versión publicada por la editorial) en la página web personal del autor y en el repositorio de la institución a la que pertenece.
                                            [1] => https://creativecommons.org/licenses/by-nc-nd/4.0
                                        )

                                )

                        )

                )

        )

)