Book description
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Construire et tester des modèles d'apprentissage automatique nécessite d'avoir accès à des données nombreuses et variées. Mais où trouver des ensembles de données utilisables sans se heurter à des problèmes de confidentialité ? Ce livre pratique présente des techniques pour générer des données synthétiques - de fausses données générées à partir de données réelles - afin que tu puisses effectuer des analyses secondaires pour faire des recherches, comprendre les comportements des clients, développer de nouveaux produits ou générer de nouveaux revenus.
Les scientifiques des données apprendront comment la génération de données synthétiques permet de rendre ces données largement disponibles à des fins secondaires tout en répondant à de nombreuses préoccupations en matière de protection de la vie privée. Les analystes apprendront les principes et les étapes de la génération de données synthétiques à partir d'ensembles de données réels. Enfin, les chefs d'entreprise verront comment les données synthétiques peuvent contribuer à accélérer la mise au point d'un produit ou d'une solution.
Ce livre décrit :
- Les étapes pour générer des données synthétiques à l'aide de distributions normales multivariées.
- Les méthodes d'ajustement des distributions couvrant différentes mesures de qualité d'ajustement.
- Comment reproduire la structure simple des données originales ?
- Une approche de la modélisation de la structure des données pour prendre en compte les relations complexes
- Plusieurs approches et mesures que tu peux utiliser pour évaluer l'utilité des données.
- Comment les analyses effectuées sur des données réelles peuvent être reproduites avec des données synthétiques
- Implications des données synthétiques sur la vie privée et méthodes d'évaluation de la divulgation de l'identité
Table of contents
- Préface
- 1. Introduction à la génération de données synthétiques
- 2. Mise en œuvre de la synthèse des données
- 3. Pour commencer : Ajustement de la distribution
- 4. Évaluation de l'utilité des données synthétiques
- 5. Méthodes de synthèse des données
- 6. Divulgation de l'identité dans les données synthétiques
-
7. Synthèse pratique des données
-
Gérer la complexité des données
- Pour chaque étape de prétraitement, il y a une étape de post-traitement
- Types de champs
- Le besoin de règles
- Tous les domaines ne doivent pas être synthétisés
- Synthèse des dates
- Synthèse de la géographie
- Champs et tables de recherche
- Données manquantes et autres caractéristiques des données
- Synthèse partielle
-
Organiser la synthèse des données
- Capacité de calcul
- Une boîte à outils de techniques
- Synthèse des cohortes par rapport aux ensembles de données complets
- Flux de données continus
- L'assurance de la protection de la vie privée en tant que certification
- Réaliser des études de validation pour obtenir l'adhésion
- Tests d'intrusion motivés
- À qui appartiennent les données synthétiques ?
- Conclusions
-
Gérer la complexité des données
- Index
Product information
- Title: Génération pratique de données synthétiques
- Author(s):
- Release date: November 2024
- Publisher(s): O'Reilly Media, Inc.
- ISBN: 9798341615137
You might also like
article
Reinventing the Organization for GenAI and LLMs
Previous technology breakthroughs did not upend organizational structure, but generative AI and LLMs will. We now …
article
Run Llama-2 Models
Llama is Meta’s answer to the growing demand for LLMs. Unlike its well-known technological relative, ChatGPT, …
article
Splitting Strings on Any of Multiple Delimiters
Build your knowledge of Python with this Shortcuts collection. Focusing on common problems involving text manipulation, …
article
Use Github Copilot for Prompt Engineering
Using GitHub Copilot can feel like magic. The tool automatically fills out entire blocks of code--but …