En el blog de Anand Rajaraman, Datawocky, ha aparecido un interesante artículo que argumenta que más importante que el algoritmo es la cantidad de datos sobre los cuales se trabaja. Rajaraman es un profesor de Data Mining en Stanford Univeristy, y con motivo de su curso el tiene que enseñar a resolver problemas no tan triviales, debido a eso es que decidió animar a sus alumnos a participar en el reto Netflix.
El reto Netflix, consiste en usando los datos de medio millon de personas que han votado por más de 18,000 películas, tratar de predecir mejor que lo que hace el algoritmo propietario de Netflix, las películas que más le puedan interesar al usuario en base a sus votos anteriores. El premio para el que lo consiga en un millón de dólares.
Para enfrentar tal reto, Rajaraman creo dos equipos A y B, siendo el equipo A el que desarrolla el algoritmo más sofisticado usando solamente los datos de Netflix, y el equipo B usa un algoritmo más sencillo, pero se le permite agregar datos adicionales, en éste caso la base de datos de películas en IMDB (Internet Movie Data Base).
El resultado obtenido fue sorprendente, los algoritmos sencillos con gran cantidad de datos, resultaron ser mucho más precisos, y aproximarce bastante a los resultados obtenidos con el algoritmo propietario de Netflix.
Rajaraman extrapola que el éxito de Google, no se debe a su algoritmo propietario de cálculo de Page Rank, sino que se debe al hecho de que reconocieron el valor de los enlaces a una página web, considerandolos cómo votos, y al texto que acompaña éstos enlaces para indexar esos votos. Rajaraman opina que un algoritmo la mitad de bueno produciría equivalente resultados si tuviera acceso a la data almacenada por Google. Por otro lado, Rajaraman extiende sus ideas a AdWords, que es una de las principales fuentes de ingreso de Google.
Definitivamente un artículo muy interesante, que expone el valor del Data Mining, donde lo que cuenta más que el algoritmo es la capacidad de poder procesar la mayor cantidad de datos.