Phénomène de mode ou nouvelle frontière ?

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Jean-Pierre DARDAYROL (72)

Le mot big data est un terme générique curieux. Apparu très récem­ment, il n’a pas d’équivalent recon­nu en français. Il désigne cepen­dant des con­cepts anciens et dif­férents, et il fait l’objet d’un buzz mar­ket­ing énorme.

Une masse difficile à appréhender

Les infor­ma­tions sont de plus en plus « évanes­centes », leur durée de vie se rac­courcit. Elles sont moins acces­si­bles au sens des bib­lio­thé­caires et des infor­mati­ciens : 90% des infor­ma­tions sur le Web seraient de fait cachées.

Elles sont égale­ment dev­enues hétérogènes quant à leur nature, à leur régime de pro­priété, à leurs for­mats. Or, tir­er par­ti des infor­ma­tions, trans­former cette charge en ressource est devenu un impératif et un défi pour tous les acteurs – entre­pris­es, États, particuliers.

Des réalités diverses

Sous des voca­bles dif­férents, les con­cepts qui sont regroupés aujourd’hui – peut-être à tort – sous celui de big data sont anciens et inscrits dans le développe­ment de secteurs d’activité dif­férents et de points de vue éloignés. Qua­tre écosys­tèmes se dis­putent l’origine ou la légitim­ité des big data.

90 % des informations disponibles sur le Web seraient de fait cachées

Dans ce monde, l’accent est mis sur la créa­tion de valeur et le traite­ment des data pour l’entreprise. Les États se sont emparés à leur tour de ces out­ils, pour la Défense comme aux États-Unis ou pour lut­ter con­tre les fraudes fis­cales et sociales comme au Royaume-Uni.

Les per­for­mances des pro­grammes exploitant les don­nées com­mer­ciales sont impres­sion­nantes. C’est, par exem­ple, la capac­ité à prévoir les grossess­es à par­tir de l’évolution du « char­i­ot heb­do­madaire » des acheteurs en hypermarché.

Les big data désig­nent dans les milieux uni­ver­si­taires, notam­ment aux États-Unis et en Alle­magne, les méth­odes de con­struc­tion de nou­velles généra­tions de mod­èles, en par­ti­c­uli­er macroé­conomiques, plus que l’utilisation des don­nées elles-mêmes. Dans ce cas, le con­cept même de preuve en sci­ences est questionné.

Techniques avancées : l’infrastress

Le mot infra­stress pour désign­er l’importance don­née aux moyens de traite­ment et aux archi­tec­tures tech­niques déployées pour répon­dre à la com­plex­ité des appli­ca­tions et des infor­ma­tions – et non leur vol­ume – en ter­mes de vitesse de rota­tion, d’hétérogénéité des temps de traite­ment, de dif­féren­tiels de sécu­rité, etc.

Si les pre­mières car­ac­téris­tiques des big data font référence aux don­nées au sens clas­sique, celle-ci fait référence à la var­iété des infor­ma­tions plus ou moins struc­turées : chat, vidéo, réseaux soci­aux, etc., aux con­di­tions de con­ser­va­tion, d’accès, etc. La ques­tion des sta­tions de tra­vail et des entre­pôts de don­nées est cru­ciale, tout comme celle du traite­ment du temps, dans toutes les nuances du temps réel au temps sans contrainte.

Open data : la massification des usages

Les prati­ciens de l’open, notam­ment au sein de l’Open Knowl­edge Foun­da­tion, ont avancé une nou­velle vision des big data : la démoc­ra­ti­sa­tion et la mas­si­fi­ca­tion de l’accès, du stock­age et du traite­ment. Ici, les prob­lé­ma­tiques rel­a­tives à la forme, la logis­tique et la resti­tu­tion des infor­ma­tions hétérogènes sont cen­trales. L’accent est mis tant sur le sujet de l’infra­stress que sur celui de small data, c’est-à-dire de resti­tu­tions adap­tées aux capac­ités cog­ni­tives des per­son­nes humaines.

Commentaire

Ajouter un commentaire

Fam­i­ly-zinerépondre
11 avril 2014 à 9 h 58 min

Mer­ci pour l’ar­ti­cle.
Très intéres­sant 🙂

Répondre