vendredi 3 mai 2013

Encore le big data by Facebook

Actuellement, Facebook doit gérer chaque jour 500 téraoctets de données en plus. En 4 ans, les capacités de stockage ont été multipliées par un coefficient 4000.
Si le stockage pose un problème à l'entreprise, il est aujourd'hui globalement maîtrisé.
En revanche, l'enjeu est bien le traitement de ces données, et porte bien sur fluidité et rapidité. C'est là le prochain enjeu des ingénieurs de Facebook : permettre de traiter des serveurs et entrepôts de données  avec une grande rapidité et de manière quasi - immédiate (les j'aime, les tag, etc.). Pour cela, Facebook développe aujourd'hui à partir de solutions open source comme Hadoop, Corona et Prism.
A noter que la question des purges et de la maîtrise des flux de données n'est pas à l'ordre du jour : il s'agit ici de développer [toujours] plus de capacités de stockage et de traitement.
C'est en tout cas un benchmark pertinent pour tous les réseaux sociaux d'entreprise.

Article référent : LMI