{"id":16,"date":"2008-10-16T15:54:30","date_gmt":"2008-10-16T13:54:30","guid":{"rendered":"http:\/\/webposible.com\/xposible\/2008\/mama-buscador-de-estructuras-de-paginas-webs\/"},"modified":"2020-01-28T18:12:23","modified_gmt":"2020-01-28T16:12:23","slug":"mama-buscador-de-estructuras-de-paginas-webs","status":"publish","type":"post","link":"http:\/\/webposible.com\/xposible\/2008\/mama-buscador-de-estructuras-de-paginas-webs\/","title":{"rendered":"MAMA, buscador de estructuras de p\u00e1ginas webs"},"content":{"rendered":"<blockquote><p>The Web has search engines\u2014many of them. However, they are typically concerned only with the text content of a Web page. What about a search engine for a Web page&#8217;s structure?<br \/>\n[&#8230;]<br \/>\nEnter <acronym title=\"Metadata Analysis and Mining Application\">MAMA<\/acronym> \u2014the &quot;Metadata Analysis and Mining Application&quot;. MAMA is a structural Web-page search engine\u2014it trawls Web pages and returns results detailing page structures, including what HTML, CSS, and script is used on it, as well as whether the HTML validates.<\/p><\/blockquote>\n<p><cite>Brian Wilson <\/cite> en el art\u00edculo <acronym title=\"Metadata Analysis and Mining Application\">MAMA<\/acronym>  , publicado en el blog <a xml:lang=\"en\" hreflang=\"en\" href=\"http:\/\/dev.opera.com\/\">Opera Developer Community<\/a> .<\/p>\n<p>\u00bfDe qu\u00e9 hablamos? Un an\u00e1lisis de sitios y p\u00e1ginas webs para estudiar el c\u00f3digo, en vez de el contenido como hacen los buscadores normales. \u00bfEl objetivo? Saber el uso de HTML, CSS, javascript, flash,&#8230; y tambi\u00e9n si son p\u00e1ginas v\u00e1lidas, el doctype, charset,&#8230;<\/p>\n<p>Para ello, han usado una muestra amplia &#8211; aunque nunca ser\u00e1 suficiente -, un total de 3.5 millones de p\u00e1ginas webs de un total de 45 billones (\u00bfbill\u00f3n: millones de millones, o miles de millones?). Y con &quot;mega-computador&quot; (Intel Pentium Dual core D\/3.00GHz, 2 Gigas de RAM corriendo en Debian 4). Identific\u00e1ndose como Opera 9.1 ha ido visitando todas esas p\u00e1ginas (en diferentes fases durante el 2007 y el 2008), y almacenando resultados. Todav\u00eda no se han publicado todos, pero ya podemos ir dando un vistazo.<\/p>\n<p>Tras ver los resultados, uno se alegra de que cuando Tim Berners-Lee defini\u00f3 HTML, tuvo presente el hecho de que los navegadores no deber\u00edan ser muy puntillosos con los errores del c\u00f3digo. Es una forma como otra cualquiera de decir, que los estandares&#8230; no se siguen demasiado.<\/p>\n<p>Creo que merece la pena darle al menos un vistazo. Un estudio de esta envergadura no se hace muy a menudo. De hecho, s\u00f3lo se mencionan tres precedentes y con unos objetivos bastante menos ambiciosos.<\/p>\n<p>De nuevo el v\u00ednculo al art\u00edculo donde podemos ver m\u00e1s informaci\u00f3n: <acronym title=\"Metadata Analysis and Mining Application\">MAMA<\/acronym>  , y mi felicitaci\u00f3n al autor del estudio y a todos los que lo han hecho posible.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>The Web has search engines\u2014many of them. However, they are typically concerned only with the text content of a Web page. What about a search engine for a Web page&#8217;s structure? [&#8230;] Enter MAMA \u2014the &quot;Metadata Analysis and Mining Application&quot;. MAMA is a structural Web-page search engine\u2014it trawls Web pages and returns results detailing page [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[28],"tags":[25,26],"_links":{"self":[{"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/posts\/16"}],"collection":[{"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/comments?post=16"}],"version-history":[{"count":2,"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/posts\/16\/revisions"}],"predecessor-version":[{"id":627,"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/posts\/16\/revisions\/627"}],"wp:attachment":[{"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/media?parent=16"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/categories?post=16"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/webposible.com\/xposible\/wp-json\/wp\/v2\/tags?post=16"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}