Google

De Libro de Mercadeo y Posicionamiento web

Contenido



Inicia en 1999 y a la fecha domina del 65 – 75% de las búsquedas.

Los resultados de Google vienen de su propia tecnología.

Desde el principio sus búsquedas se basan en la definición del Page Rank asignado a cada página y son ordenadas en el resultado tomando en cuenta (entre otros factores) el Page Rank asignado, pero no necesariamente las de mayor PR aparecen de primero.

El índice de Google, anula las palabras stop, que son básicamente las preposiciones, por ejemplo si se hace una búsqueda por: el niño en el carro rojo, a la vista del buscador lo que se busca son coincidencias de artículos por: niño*carro*rojo.

El buscador solo indexa cierta cantidad de la página (cerca de 100kb), no el total para evitar spamming. Si el artículo es citado por otros, el buscador indexara un poco más.

El directorio Google viene de DMOZ

Google provee resultados a: AOL, Netscape, IWon, Teoma, AskJeeves

Para entender qué y cómo hace Google las cosas podríamos tratar de entender las patentes de Google, ellas están disponibles buscando Google en el campo “Aplicant Name” de:

http://www.wipo.int/pctdb/en/


[editar] Cómo funciona google?

Google funciona calificando las páginas web haciendo uso de complejos cálculos matemáticos hechos por los algoritmos programados de google. Su ventaja respecto a otros buscadores es que los resultados presentados toman en cuenta tanto factores internos y manejables por los diseñadores como el meta título, el tipo de texto, las imágenes y otros, pero también toma en cuenta aspectos externos al sitio web y que pueden ser poco controlados por el web master, tales como los links de otros sitios web y los términos usados en esos links. Esto hace que los resultados mostrados en cada búsqueda dependan de la calidad tanto interna como de la que otros han visto de la página web.

La plataforma de desarrollo de google es Solaris / Linux y es programado en C / C++, pero los robots o crawlers son programados en Python. Estos robots son alrededor de cuatro, pudiendo indexar cerca de 100 páginas web por segundo cada día.

Para entender el posicionamiento de los resultados en google, primeramente debemos entender que la tecnología y lógica usada en la programación de los algoritmos son orientados al análisis de textos, o Hypertextos (los textos en sitios web son diferentes de los textos impresos pues los hipertextos principalmente permiten seguir los hipervínculos en las palabras), por eso desde su inicio Google muestra gran ventaja en la calidad de los resultados académicos o textuales, pero no así para la presentación de imágines, gráficos o sitios web con alta funcionalidad y poco texto y pocos links entrantes (aunque se asuma que un sitio web muy funcional será linkeado por muchas personas, esa premisa no tiene necesariamente que se cierta). Hoy en día google está haciendo grandes avances en reconocimiento de imágenes pero aun es un trabajo en progreso.

[editar] Funcionamiento en detalle

Google son varios programas o algoritmos con diferentes funciones que actúan sobre cada página y la califican, estos programas son:

1. Robots o crawlers. Los crawlers recorrern internet buscando nuevas páginas web, pueden entrar en función por dos vías, una mediante una lista de URL pendientes que google genera a partir de las peticiones de revisión directamente a la página de google, y otra es mediante el seguimiento de los links, de hecho ésta es la más efectiva; si un sitio web nuevo es enlazado por otro sitio web viejo, es muy probable que el crawler de google lo revise al seguir el link desde el sitio web viejo al nuevo.

2. Un programa comprime el html de cada página web y la empaca en un contenedor. A cada página web revisada se le asigna un número o Id llamado el docID que será usado posteriormente.

3. Otro programa llamado el Indexer toma la página comprimida y la descomprime y mide la calidad del texto, para ello usa parámetros como densidad (parece que para el 2009 ya no aplica), posición, tipo y proximidad de las palabras además de la ocurrencia de cada palabra, para determinar dónde va a ubicar esa página en el "Lexicom". Luego hace uso de otro programa llamado el "Clasificador" (sorter) quien acomoda esa página en un contenedor (barril) específico para el tema de la página, en éste contenedor irá el docID y la URL. Otra importante función del Indexer es que lee todos los links entrantes y salientes, así como los términos usados en los links. Ésta información es guardada en un archivo llamado anclas (anchors).

4. Un programa llamado el URLresolver toma todas las URL y las convierte en absolutas y toma los términos en el link y los relaciona con el docID de la página tratada. Entonces se genera una base de datos de links con sus docID. Esta base de datos con los links y las páginas (docID) es la que se usa para calcular el Page Rank.Archivo:Google.png‎

5. Un programa llamado el "Clasificador" ( Sorter) analiza los barriles toma los docID y analiza los términos de la página, entonces crea una lista de palabrasID (wordID) y docID. Esta lista es tomada por el "DumpLexicom" quien la compara con la lista generada por el Indexer y ubicada en el "Lexicom" y genera una nueva lista "Lexicom" que será usada por el "Buscador".

6. Para el 2009 se ve la influencia fuerte de un factor nuevo que google desde hace algunos años viene trabajando, el LSI (Latent Semantic Indexing). Google posee su propia base de datos que con el tiempo ha venido recogiendo de palabras o frases relacionadas con cada tema o palabra, de modo que cuando una página tiene una palabra, el algoritmo puede identificar todos los sinónimos en la página y en los links que marcan el tema de la página (Ya no hablamos de densidad de términos, sino de semántica de la página) de modo que hoy una página con baja densidad de keywords puede comportarse mejor si tiene buena semántica en el tema (uso de sinónimos), por ejm, hoy día una página de carros rankeara bien si en su contenido no solo escribe carros, sino que tiene BMW, Toyota, Ford, etc.

7. Finalmente para cada respuesta el buscador toma: a. La lista "Lexicom" creada por el DumpLexicom. b. La lista de wordID y docID generada por el Clasificador. c. La base de datos con links y docID que sirve para calcular el Page Rank. d. La base de datos con semántica para los keywords de la página

Entonces une los resultados de los cuatro y genera el resultado de la consulta.

El algoritmo de google toma en cuenta muchísimos factores (alrededor de 500 para el 2009), y se guardan cuidadosa y privadamente, pero por lo menos conocemos de la influencia de los siguientes factores en la evaluación de los sitios web:

1. Page Rank: Es un valor que según afirma google refleja la calidad de la página web, puede influir directamente en las posiciones en los resultados de búsqueda (aunque en la práctica esto no tiene relación PR diferente de rankings) además es una medición de la cantidad de links entrantes y salientes de la página web en cuestión y la importancia de los links. Dicha importancia es medida de acuerdo a muchos factores tales como: Longevidad del sitio web, autoridad del sitio web (es especializado?, técnico?, etc), frecuencia de actualización, visitas y muchos otros más.

2. Términos usados en los links. Esto ayuda a google a identificar la temática de la página destino y ayuda principalmente en el caso de páginas flash o gráficas para identificar su temática.

3. Google posiciona páginas de acuerdo a la ubicación geográfica, de modo que para la misma búsqueda puede arrojar unos resultados en USA y otros en Costa Rica. La geo localización es útil, por ejemplo; si alguien busca comprar un carro y él vive en New York, de seguro no querrá que le aparezcan carros a la venta en México, España, etc, por eso google debe determinar la geolocalización y mandar resultados relevantes de acuerdo a esto.

4. En el análisis de los textos se revisa para la o las palabras importantes: la densidad, proximidad, ubicación, forma (titulo 1,2,3..), estilo aplicado para denotar énfasis, y otros para determinar cuál es más relevante a la búsqueda, esto es un desarrollo reciente, que ha llevado mucha investigación y se llama: Latent Semantic Indexing. http://www.mattcutts.com/blog/seo-advice-writing-useful-articles-that-readers-will-love./

5. Google toma en cuenta la reputación del web site, las visitas, los links entrantes, las citas de otros sitios web, la frecuencia de actualización y la calidad integral del sitio web, su autoridad en el tema, entre otros.

6. También se toma en cuenta el idioma, por supuesto, nadie querrá buscar por “carro a la venta” y que todos los resultados estén en chino, hebreo, ruso, etc. Una vez que se han analizado éstas y otras variables los resultados aparecen en fracción de segundos, esto es lo más maravilloso del proceso, cuán complejo es y cuán rápido se da.

Recientemente han habido grandes cambios en el modelo original de Google descrito arriba, desde Google Cafeine hasta hoy los movimientos van en el sentido de lograr mayor rapidez de indexación de páginas y de respuesta, hoy día los motores de búsqueda tienen la meta de ofrecer resultados del instante en que se generan, por ejemplo comentarios de twitter, digg, entre otros.


[editar] Hitos más importantes para Google en sus años de existencia:


Año

Hito

1996

Larry y Sergey coinciden en el desarrollo de un motor de búsqueda llamado BackRub(http://web.archive.org/web/19971210065425/backrub.stanford.edu/backrub.html)

1997

Le cambian el nombre de BackRub a Google(http://web.archive.org/web/19971210065425/backrub.stanford.edu/backrub.html).

1998

El co fundador de Sun Andy Bechtolsheim hace un cheque (http://www.wired.com/science/discoveries/news/2007/09/dayintech_0907) $100,000 a la aún no existente empresa llamada: Google Inc.

Junio 2000

Google entraron en asociación con Yahoo! Para ofrecerle resultados de búsqueda.

Septiembre 2000

Ya ofrecían resultados en 10 idiomas y poco después en Chino, Japonés y Koreano.

Octubre 2000

G anuncia el inicio de Adwords

Diciembre 2000

Se lanza la Barra de Herramientas de Google

Febrero 2001

Hacen la primera adquisición, el servicio de discusión  Deja.com (http://www.google.com/press/pressrel/pressrelease48.html),  con más de 500 millones de discusiones tipo Usenet

Julio 2001

Da inicio el servicio de búsqueda de imágenes

Febrero 2002

ofrecen resultados en el idioma Klingon!!! Idioma que NO existe aparte de la guerra de las galaxias! (http://www.google.com/intl/xx-klingon/)

Mayo 2002

Entra en relaciones con AOL para ofrecer publicidad en CompuServe, Netscape y AOL.com

 

Da inicio G Labs

Feb 2003

Adquieren Pyra Labs, los creadores de Blogger (http://www.blogger.com/).

Dic 2003

Da inicio G Print, que llegó a ser Google Book Search (http://books.google.com/)  que indexa pequeños fragmentos de libros y documentos para ser buscados

Enero 2004

Da inicio el servicio social de orkut (http://www.orkut.com/)

Marzo 2004

Se Introduce Google Local (http://googleblog.blogspot.com/2004/09/journey-may-be-reward-but-so-is.html) para mostrar resultados por sectores, ciudades.

Feb 2005

Da inicio Google Maps (http://maps.google.com/)

Marzo 2005

Inicia code.google.com (http://code.google.com/), como un espacio para mostrar las mejores prácticas en programación

 

Se adquiere Urchin (http://www.google.com/intl/en/press/pressrel/urchin.html) que llegará a ser G Analytics

Mayo 2005

Da inicio Blogger Mobile (http://www.blogger.com/mobile-start.g), para ofrecer el servicio a usuarios con celulares

Junio 2005

Se empieza a ofrecer el servicio de Mobile Web Search (http://www.google.com/mobile) para usuarios de móviles

Agosto 2005

Se ofrece Google Talk (http://www.google.com/talk/), con el cual los usuarios pueden conversar entre ellos

Nov 2005

Google Analytics (http://www.google.com/analytics/) es dispuesto al público

Ene 2006

Se introduce Picasa (http://picasa.google.com/) en 26 idiomas

Abril 2006

Se introduce G Calendar.(http://calendar.google.com/)

Mayo 2006

Se ofrece G Trends (http://www.google.com/trends) como un servicio para ver las tendencias de búsqueda de términos

Junio 2006

Google Checkout (http://checkout.google.com/) se ofrece como un servicio seguro de compras

Agosto 2006

G Book Search (http://books.google.com/) es abierto al público para hacer búsquedas de libros

Sept 2006

Google News (http://news.google.com/) ofrece un histórico de noticias de 200 años

Oct 2006

Se anuncia la compra de YouTube (http://www.google.com/intl/en/press/pressrel/google_youtube.html)

 

Se adquiere JotSpot (http://googleblog.blogspot.com/2006/10/spot-on.html) el cual posteriormente llega a ser Google Sites (http://sites.google.com/)

Feb 2007

Se abre Gmail (http://www.gmail.com/) a todo el mundo, antes solo era por invitación.

Mayo 2007

Da inicio Google Hot Trends (http://www.google.com/trends/hottrends) como un servicio para ver las tendencias de búsqueda más fuertes

Agosto 2007

Se lanza Sky launches (http://googleblog.blogspot.com/2007/08/view-from-sky.html) dentro de Google Earth (http://earth.google.com/) para ofrecer vistas de las estrellas

Marzo 2008

Se anuncia la compra de DoubleClick (http://googleblog.blogspot.com/2008/03/weve-officially-acquired-doubleclick.html)

Abril 2008

Website Optimizer (http://www.google.com/websiteoptimizer) es ofrecido como un servicio a los webmasters

Sept 2008

Chrome (http://www.google.com/chrome) llega a ser disponible como un nuevo navegador

Marzo 2009

Google Voice (https://www.google.com/voice) ofrece la capacidad de dejar mensajes de voz a los usuarios de Gmail o G Talk

Mayo 2009

Se empieza a ofrecer Google Wave (http://wave.google.com/) con invitación

Oct 2009

G Anuncia que su nueva versión de motor de búsqueda “Google Cafeine” estará disponible a principios del 2010

Herramientas personales