Depuis ces débuts, le marché de l’e-commerce a vu une croissance ininterrompue de sa participation au marché. Faire de la veille concurrentielle devient donc une tâche de plus en plus complexe:

  • Le volume des produits à surveiller est beaucoup plus important.
  • Le taux de rotation des stocks et le changements d’assortiments expose une quantité des produits à traiter dans des temps de plus en plus limités.
  • La variété de produits, allant de télévision et lave linge, jusqu’aux fruits et légumes en passant par les produits de la mode, ne cesse pas de croitre.
  • Des nouveaux sites e-commerce apparaissent tous les jours et les enseignes traditionnelles se lancent dans la course de l’e-commerce avec leur stratégie multicanale associant points de vente physiques et ventes électroniques.

Dans un tel contexte, comment les acteurs de l’e-commerce peuvent-il se positionner face à la concurrence ? Depuis une dizaine d’années, nous accompagnons nos clients avec nos solutions de veille concurrentielle. Toujours reconnue par la qualité de nos données, nous travaillons sans cesse sur l’innovation de nos outils pour suivre l’évolution du marché. Avec les derniers avancés dans le domaine du Machine Learning, nous construisons notre nouvelle génération d’algorithmes pour pouvoir couvrir à terme l’ensemble du marché e-commerce.

Un de défis le plus important est de pouvoir reconnaître les produits vendus par chacune des offres. A titre d’exemple, il est facile pour un humain d’identifier qu’une offre intitulé “Apple IPhone 7 256Go noir” correspond à un téléphone de marque Apple, modèle IPhone7, avec 256Go de capacité de stockage et de couleur Noir. Qu’en est-il pour un ordinateur ? Nous pouvons lui apprendre des règles métier, c’est-à-dire, la capacité de stockage, la couleur et le modèle du téléphone sont des facteurs clés pour identifier le produit, mais il faudrait en faire pareil pour tous type des produits ! Il faudrait lui apprendre que la longer, le type du col et le tissue sont des facteurs clés pour identifier des robes. Pour les linge de lit, ça serait plutôt les fils par cm2. Et encore, nous n’avons pas parlé de différents manières de décrire un même produit. En anglais, on peut très bien parler de “running shoes”, “sneakers” ou bien “trainers” pour parler de chaussures de sport.

Vous pouvez donc imaginer qu’à partir de règles métiers décrivant les connaissances de chaque univers de produits, il serait très compliqué de couvrir l’ensemble du marché e-commerce. Il faut donc des algorithmes intelligents capables d’apprendre par eux même les particularités de tous types de produits.

En se basant sur les informations que nous récupérons sous forme de texte (description, titre, marque, couleur, taille, etc.) et images, nos algorithmes apprennent par eux même à identifier les produits associés aux offres. Par contre, les algorithmes de machine learning ne “mangent” pas du texte ou des images, ils raffolent les vecteurs ! Il faut bien prémâcher l’information pour obtenir une représentation mathématique des offres qui contient la sémantique du produit sous la forme des vecteurs.

Toute la puissance de nos algorithmes repose donc sur notre capacité à trouver les meilleures représentations vectorielles des offres. D’un côté, nous implémentons de méthodes de Natural Language Processing (NLP) pour prétraiter et transformer les données textuelles. De l’autre côté nous implémentons des algorithmes Deep Learning pour encoder les images sous forme de vecteurs des attributs. Nous nous retrouvons donc avec deux représentations mathématiques obtenus indépendamment à partir du texte et de l’image. Au moment de trouver le produit le plus proche, nous fusionnons les deux vecteurs puis nous cherchons quelles sont les produits avec la représentation vectorielle la plus similaire.

Pour faciliter la tâche et réduire la charge dans la recherche des produits similaires, nous passons par une première étape de classification automatique de telle sorte que nous comparons ce qui est comparable: chaussures avec des chaussures et télévisions avec de télévisions. D’autant plus que la catégorisation en soi nous permets de maintenir un ordre dans notre catalogue !

Puisque la qualité de nos données est notre principale pilier face à nos clients, nous avons opté pour une démarche de “Active Learning”. Il s’agit d’une méthodologie de travail dans le domaine du machine learning où les modèles prédictifs interagissent avec des humains pour valider des actions. Dans un premier temps, toute prédiction doit être validée par un humain et par la suite, nous apprendrons sous quelles conditions nous n’avons pas besoin d’une intervention humaine. Cette démarche nous permettra d’automatiser certaines tâches, tout en gardant les tâches à haute valeur ajoutée pour notre personnel de contrôle de qualité.

En voilà un premier aperçu des dernières avancées chez WorkIT . L’incursion dans le monde du Machine Learning est une étape cruciale qui nous permet de rester toujours leader du marché et pouvoir offrir un catalogue des produits du e-commerce de plus en plus large à nos clients.

 

Article rédigé par Felipe Aguirre Martinez – Lead Data Scientist chez WorkIT Software

Share on FacebookTweet about this on TwitterShare on LinkedIn