Capítulo 13. Bayes ingenuos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Es bueno que el corazón sea ingenuo y que la mente no lo sea.
Anatole France
Una red social no sirve de mucho si la gente no puede establecer contactos. En consecuencia, DataSciencester tiene una función muy popular que permite a los miembros enviar mensajes a otros miembros. Y aunque la mayoría de los miembros son ciudadanos responsables que sólo envían mensajes bien recibidos del tipo "¿qué tal?", unos pocos malhechores envían spam persistentemente a otros miembros sobre planes para hacerse rico, productos farmacéuticos que no requieren receta médica y programas de obtención de credenciales en ciencia de datos con ánimo de lucro. Tus usuarios han empezado a quejarse, por lo que el vicepresidente de mensajería te ha pedido que utilices la ciencia de datos para encontrar una forma de filtrar estos mensajes de spam.
Un filtro de spam realmente tonto
Imagina un "universo" que consiste en recibir un mensaje elegido al azar entre todos los posibles. Sea S el suceso "el mensaje es spam" y B el suceso "el mensaje contiene la palabra bitcoin". El teorema de Bayes nos dice que la probabilidad de que el mensaje sea spam condicionada a que contenga la palabra bitcoin es:
El numerador es la probabilidad de que un mensaje sea spam y contenga bitcoin ...
Get Ciencia de datos desde cero, 2ª edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.