Le Big Data en quatre V : volume, variété, vitesse et véracité


La rentrée est là et cette année le « Big Data » sera encore l’objet de beaucoup de billets, d’articles et de communications.

Si vous avez encore des doutes à propos de ce qui se cache derrière cette expression anglaise, vous trouverez dans la présentation ci-après les réponses à vos premières questions :

Et bonne reprise !

Entreprise 2.0 et output management ?


Il n’y a plus un jour, une conférence, une note, qui ne se réfère à l’entreprise 2.0 et aux formidables changements que vont apporter les applications de partage et de collaboration, la maîtrise de la réalité augmentée, le cloud, etc..

Au delà de l’enthousiasme, il faut « savoir raison garder » et nous méfier de notre capacité à nous émerveiller facilement et de notre candeur.

Les promesses et la réalité

Le modèle 2.0 est porteur de beaucoup de promesses, mais la réalité est qu’aujourd’hui peu d’entreprises l’ont mis en oeuvre et que beaucoup de questions restent ouvertes ou sont découvertes à l’occasion des phases de test en cours dans les organisations.

Désolé de jouer le rabat-joie, mais personne ne souhaite vivre dans le « meilleur des mondes », et on est encore loin d’avoir à disposition et surtout en production les outils qui avec les retours d’expérience permettront d’avancer plus vite.

Notre réalité est plus simple à décrire bien que incroyablement plus compliquée à affronter : nous avons à gérer, à ingérer et à digérer trop d’information !

Etude ECM - Markess - 2010

Etude ECM - Markess - 2010 - Contenus non structurés

La conservation et la gestion des contenus non structurés est avant tout un projet d’entreprise, mais individuellement nous avons également à « composer » avec ce flux d’information quotidien et ininterrompu si on ne « débranche » pas !

Il y a bien sur ceux d’entre-nous qui ont plus de méthode, ceux qui maîtrisent mieux le maniement des outils et des applications, ceux qui s’en moquent, ceux qui papillonnent, ceux ….., etc.
Il y a surtout les dysfonctionnements dans le traitement de l’information et la communication tant interne qu’externe à l’organisation (SAV, relations clients, gestion des réclamations, services RH. etc.,) qui ne suivent plus et dont les délais et la qualité de réponse et de traitement s’allongent malgré tout (processus et tentatives d’automatisme)!

Définir les priorités et trouver des solutions pratiques

Nous recevons trop d’emails (et je ne compte pas ceux qui confondent email et messagerie instantanée) dont nous ne percevons pas toujours la valeur ajoutée tant certains usages sont devenus insupportables (je parle du spamming interne = arrosage automatique pour montrer 1) qu’on existe, 2) qu’on travaille [tard et le week-end], 3) qu’on est indispensable à l’organisation, 4) ….).

La mise en oeuvre de systèmes de notification est probablement une des solutions, mais si elle facilite les échanges en interne et dans l’écosystème de l’organisation, elle est plus difficile à mettre en oeuvre dans le cadre de certaines relations (clients par exemple).

L’entreprise 2.0 joue avec « l‘instantanéité et la facilité d’accés à l’information » en y ajoutant la possibilité de participer activement à des processus jusqu’alors réservé aux ayants-droits !

Pour autant, il est des domaines (je pense notamment à la relation client mais également aux communications internes avec les membres d’un conseil d’administration ou le niveau exécutif) qui nécessitent plus qu’un espace collaboratif et des notifications.

Le retour de l’output management ?

L’output management n’a jamais cessé d’exister !
C’est un domaine essentiel au service des organisations qui leur permet tout simplement de mettre en oeuvre une communication pertinente et de qualité avec les récipiendaires des contenus échangés.

C’est ainsi qu’en réponse aux besoins de communication  sur support « papier », l’output management a contribué à la valorisation du contenu mais également de la forme. Aujourd’hui, les solutions supportent tous les canaux de distribution (portail web, courrier, courriel, smartphone, tablettes, espaces collaboratifs privés et publics) et font que le mode « push » reste également particulièrement performant quand il s’agit de communiquer des informations qui ne sont pas que du domaine de l’instantané.

Avec les technologies d’output management et une évaluation sérieuse de ses actifs en terme de contenus, l‘entreprise 2.0 valorise et pérennise (pour une période plus ou moins longue) son capital informationnel (données et métadonnées notamment) au travers de supports dématérialisés (quelquefois également imprimés).

Elle permet également aux récipiendaires de « prendre le temps » de l’analyse et de la réflexion autour de considérations et d’informations figées.

L’output management permet la synthèse et la respiration dans l’exploitation et la compréhension des données (business intelligence) en étant au coeur de la stratégie de gouvernance de l’information.


Données, documents, où est la valeur ?


On a déjà évoqué la question contenu – contexte dans le cadre de notre réflexion quant à l’évaluation des actifs informationnels.

Si l’on se réfère à l’infographie ci-dessous, il est clair qu’il devient urgent de statuer sur la valeur de chaque information et de savoir où réside cette valeur.

Explosion de l'information

Illustration extraite du livre 24-hour consumer

Sans revenir dans le détail sur le débat de l’évaluation de la valeur des informations, il n’est probablement pas inutile de rappeler notre « taxinomie » du concept de valeur de l’information.

  • Il y a d’abord la valeur métier qui représente la pertinence d’une information et sa valeur ajoutée dans un processus métier (marketing, ventes, finances, RH, etc..)
  • Il a également la valeur légale d’une information qui considère cette information comme un élément constitutif de protection de celui qui l’a produite et /ou émise.
  • Il y a enfin la valeur patrimoniale de l’information qui juge de l’intérêt de la conservation de cette information pour son apport à une organisation, un sujet, etc.

Données et documents, quelles différences ?

Dans le monde numérique, les données appartiennent au monde structuré tandis que les documents sont des données non structurées même s’ils apparaissent sous forme de rapports ou de listes formatées.

Bien évidemment, cette différence est essentielle du point de vue de la gestion technique mais également dans l’évaluation et l’utilisation d’une base d’information constituée à plus de 80% par des contenus non structurés !

Pour un certain nombre d’information, il existe une autre différence qui tient à la valeur apportée à la représentation et au contexte de la création et de l’utilisation de l’information.

En effet, au regard de la protection des consommateurs que nous sommes, il est indiscutable, pour nous, que le document « facture » tel que nous le recevons en ligne ou par la Poste est porteur de valeur alors que pour le fournisseur, il ne s’agit que d’une représentation graphique et couchée sur le papier des données gérées dans ses systèmes. Dans ce cas, quid de l’importance de la forme ?

Une réalité de plus en plus complexe

Il est probable que l’importance de la mise en forme et de la représentation des informations, principalement pour des raisons légales, est une réalité avec laquelle les utilisateurs des solutions d’ECM devront composer encore longtemps.

Mais, s’il est facile de stocker et de conserver un document produit par des chaines éditiques ou numérisés dans des contextes de dématérialisation, ceci n’est pas vrai pour tous les contenus dont les organisations veulent exploiter le capital.

En effet, si les formats standards (PDF/A) sont faciles à mettre en oeuvre pour les documents formattés, leur utilisation devient bien plus complexe pour les documents du type courrier électronique sans parler des contenus audio et vidéos, ni des contenus générés par les applications mobiles (cf. ci-après enquête CMSWire) !

IM

What do you think is the next big thing for Information Management?

Et si une partie de la réponse se trouvait dans les métadonnées ?

Comment faire entrer le non structuré dans le monde des données structurées pour le bénéfice de l’organisation ?

La disponibilité de toujours plus d’applications sur les mobiles, les nouveaux services d’agrégation d’information, le développement rapide des outils et des services de business intelligence, la mise en oeuvre de référentiels transversaux, sont autant de réalités qui avec l’explosion des volumes vont pousser à l’industrialisation et à la standardisation de processus de traitement de l’information principalement organisés sur l’exploitation des données structurées.

Au delà des réponses techniques, il s’agit surtout de mettre en oeuvre des processus d’évaluation de l’information (au regard de  la valeur métier, légale et/ou patrimoniale) au travers de jeux de métadonnées, mais également d’utilisation et d’échange de ces informations par le biais de canaux et de services adaptés.

La représentation graphique de l’information reste secondaire, dépendante du support (smartphone, Ipad, intanet, GUI applicatif, etc.) ou au mieux (ou pire) figée pour des raisons légales (protection contre certains risques).

Mais, l’ultime enjeu de la dématérialisation n’est-il pas de considérer la valeur de l’information indépendamment de sa représentation graphique (héritage Gutenberg!?) ?

Les Maîtres de l’information – côté éditeurs –


La lutte sur le marché des solutions de gestion de l’information n’est pas nouvelle, mais il semble que du côté éditeur les grandes manoeuvres aient débuté depuis quelques mois et gagnent rapidement en intensité.

Il y a eu les nombreuses déclarations autour la gouvernance de l’information, les premières déclarations d’intention mais également les premières communications de statégies, pour mémoire EMC qui rachète Kazeon (RM), Iron Moutain qui absorbe Misoma Systems (email and eDiscovery), Autonomy et CA à propos de l’Entreprise Information Management, etc.
On a également assisté aux premières communications ainsi qu’à l’émergence de l’Entreprise Information Management dans le discours des analystes et à de nombreuses mises en perspectives de la gestion de l’information, données structurées et non structurées, publiées ici et ailleurs.

La compétition devient plus claire car les règles du jeu sont connues et les acteurs déclarés, mais qui va gagner ?

Les 5 règles du jeu

  1. avoir une taille critique (a priori le jeu est réservé aux majors)
  2. avoir une offre cohérenteincluant :
    1. Master data management
    2. Business Intelligence
    3. Records Management
    4. eDiscovery
    5. Fédération de contenus (ECM) et support des applications traditionnelles mais également SharePoint, emails ainsi que tous les fichiers produits par les collaborateurs
    6. Web Content Management
    7. Architecture 2.0
  3. supporter les médias et réseaux sociaux
  4. disposer d’un écosystème performant
  5. supporter le cloud (privé et/ou public)

Les compétiteurs

Il y a d’abord IBM bien évidemment et on peut dire que du côté de Armonk , cette compétition est prise très aux sérieux !
Il y avait eu le show de Las Végas et le projet conjoint IBM-SNCF déjà évoqué dans une note (cf. Les impacts technologiques de la gouvernance de l’information) sur ce blog.
Il y avait eu, notamment, l’achat de Cognos et de Filenet, à savoir de la Business Intelligence et de la gestion électronique de document.
Ces dernières semaines, IBM a annoncé l’achat d’Open Pages puis de Netezza et concrétise encore un peu plus sa stratégie d’appropriation des solutions les plus pertinentes d’analyse de contenus et de données.

Les autres compétiteurs : Autonomy, Open Text, EMC ou encore Oracle sans oublier Microsoft qui avance également dans ce sens, côté ECM avec SharePoint 2010.

Les Maîtres ?

L’art de la divination est difficile et je n’ai pas les compétences 😉

Pourtant, les leaders de demain dans les technologies qui serviront l’Enterprise Information Management sont à chercher, à mon avis,  dans cette liste restreinte.
Si vous pensez à d’autres acteurs, merci de partager avec nous vos idées !

Pour lancer le débat et au vu des informations disponibles à ce jour, j’ai bâti une analyse basée sur les critères suivants :

  1. qualité de l’offre technologique (voir le détail de l’offre ci-dessus)
  2. capacité à exécuter (écosystème, taille et présence)
  3. reconnaissance et légitimité sur ce marché

Outre les capacités d’innovation et la réelle compréhension des besoins des entreprises (besoins métiers essentiellement), il est facilement compréhensible que les maîtres seront les sociétés qui auront prouvé leur capacité à innover, à produire des solutions performantes à moindre coût qu’elles auront d’ailleurs mis en oeuvre avec succès pour elles.

Cette valeur de l’exemple ou de la base de démo grandeur nature sera probablement clef car elle est le meilleur argument de la faisabilité et de la pertinence des solutions mises en avant sur le marché.

De plus et dans la mesure où ces innovations technologiques complexes doivent servir les métiers et contribuer à la croissance des organisations, il n’est pas clairvoyant de penser que ces projets puissent être confiés à des fournisseurs qui ne disposent pas d’une assise suffisante tant en terme financier que de références.

Côté technologique, il ne s’agit pas d’une marché de niche et la plupart des éditeurs de solutions que l’on peut qualifier de niche (dans la mesure où leur offre n’intègre la totalité des composants fonctionnels cités plus haut) sont condamnés à valoriser techniquement leur solution en espérant un rachat par l’un des Maîtres ou à persévérer en assurant leur pérennité sur son marché de niche.

Ceci étant dit, pour moi le tiercé gagnant est IBM (bien évidemment dirons les uns !), Oracle et Autonomy, viennent ensuite Open Text, Microsoft et EMC dont la stratégie n’est pas aussi facile à comprendre au vu des informations dont je dispose.

Et pour vous ?