El BIG DATA Y SU IMPACTO EN LA PRIVACIDAD
El BIG DATA Y SU IMPACTO EN LA PRIVACIDAD
El BIG DATA Y SU IMPACTO EN LA PRIVACIDAD
Integrantes:
· Balboa Huanca Maritza Marleny (MB)
· Minaya Rivera Iberth Alexander (IberthAlexander)
· Muñoz Ulfe Patrick Axel (Patrick10)
· Pacora Marrón Pedro Eduardo (Telecopacora)
· Quintos Muñoz Carmen Analí (Anali_Quintos)
Profesor:
· Mg. Daniel Díaz Ataucuri
Escuela:
· Universidad Nacional Mayor de San Marcos
INTRODUCCIÓN
En una era de computación en múltiples nubes, los propietarios de datos deben mantenerse al
día con el ritmo de crecimiento de los datos y la proliferación de regulaciones que los
gobiernan, especialmente las regulaciones que protegen la privacidad de los datos sensibles y la
información de identificación personal (PII). Con más datos distribuidos en más ubicaciones, el
riesgo comercial de una violación de la privacidad nunca ha sido mayor y, con ello, las
consecuencias van desde multas elevadas hasta la pérdida de participación de mercado.
ORIGEN
Los artículos de investigación sobre el impacto del Big Data en la privacidad de los datos van
desde 1998 hasta artículos publicados en 2016.
DESARROLLO
Big Data está en boca de todos. Además de los beneficios que puede suponer su
implementación en empresas, se puede aplicar a otros muchos ámbitos.
Aunque no existe una definición consensuada de lo qué es el Big Data, el concepto de que lo
caracterizan son las 5Vs
Volumen: el Big Data, aglutina grandes cantidades de datos.
Variedad: los datos provienen de fuentes muy diversas (redes sociales, bases de datos,
imágenes, vídeos, etcétera), tienen distintos formatos y además puede estar
estructurada, semi-estructurada o sin ningún tipo de estructura.
Velocidad: se generan datos con una gran velocidad en tiempo real.
Veracidad: es necesario valorar la autenticidad de los datos, puesto que para llegar a
conclusiones precisas es necesario establecerse en datos reales.
Valor: este componente es quizás el más importante. Resulta complicado que las
empresas se informaticen al nivel que se necesita el Big Data, y a su vez la rentabilidad
de esa inversión deberá ser alta.
Microsfot Power BI
Tableau
Qlik
Pentaho
Lenguaje R
MySQL
La privacidad de los macrodatos implica la gestión adecuada de los grandes datos para
minimizar el riesgo y proteger los datos confidenciales. Debido a que los macrodatos
comprenden conjuntos de datos grandes y complejos, muchos procesos de privacidad
tradicionales no pueden manejar la escala y la velocidad requeridas. Para salvaguardar los
macrodatos y garantizar que se puedan usar para análisis, debe crear un marco para la
protección de la privacidad que pueda manejar el volumen, la velocidad, la variedad y el valor
de los macrodatos a medida que se mueven entre entornos, se procesan, analizan y comparten.
La privacidad de los macrodatos también es una cuestión de confianza del cliente.
Sin embargo, existe una contradicción obvia entre la seguridad y la privacidad de los
macrodatos y el uso generalizado de estos.
Desidentificación
La desidentificación es una técnica tradicional para la minería de datos que preserva la
privacidad, en la que, para proteger la privacidad individual, los datos deben
desinfectarse primero con generalización (reemplazando cuasi identificadores con
valores menos particulares pero semánticamente consistentes) y supresión (no liberar
algunos valores en absoluto) antes del lanzamiento para la minería de datos. La
desidentificación es una herramienta crucial en la protección de la privacidad y se puede
migrar al análisis de macrodatos para preservar la privacidad.
Hay tres métodos de desidentificación que preservan la privacidad, a saber, anonimato
K, diversidad L y cercanía T. Hay algunos términos comunes que se utilizan en el
campo de la privacidad de estos métodos:
Los atributos del identificador incluyen información que distingue de manera única y directa a
las personas, como el nombre completo, la licencia de conducir, el número de seguro social.
Cuasi - identificador de atributos mediante un conjunto de información, por ejemplo, sexo,
edad, fecha de nacimiento, código postal. Eso se puede combinar con otros datos externos para
volver a identificar a las personas.
Los atributos sensibles son información privada y personal. Los ejemplos incluyen enfermedad,
salario, etc.
Los atributos insensibles son la información general e inocua.
Las clases de equivalencia son conjuntos de todos los registros que constan de los mismos
valores en los cuasi-identificadores.
K-anonimato
Se dice que una divulgación de datos tiene la propiedad k -anonimato si la información de cada
persona contenida en la divulgación no puede ser percibida por al menos k-1 individuos cuya
información aparece en la divulgación.
Supresión En este método, ciertos valores de los atributos se sustituyen por un asterisco
'*'. Todos o algunos de los valores de una columna pueden reemplazarse por '*'.
CERTIFICACIONES
HCIA-Big Data
HCIP-Big Data Operation & Maintenance
HCIE-Big Data-Data Mining
IBM Certified Data Architect – Big Data
IBM Certified Data Engineer – Big Data
SAS Certified Big Data Professional
Certificate in Engineering Excellence Big Data Analytics and
Optimization (CPEE)
AVANCE EN EL PERÚ
La legislación peruana de protección de datos personales está preparada para la adopción
del Big Data. Las implicaciones que resultan de este tratamiento masivo de datos se presentan
como un desafío para el adecuado cumplimiento de la Ley de Protección de Datos Personales
por los siguientes motivos:
REFERENCIAS
https://www.informatica.com/hk/resources/articles/what-is-big-data-
privacy.html#:~:text=What%20is%20big%20data%20privacy,the%20scale%20and%20velocity
%20required.
https://journalofbigdata.springeropen.com/articles/10.1186/s40537-016-0059-y
https://www.sas.com/en_us/insights/articles/big-data/big-data-privacy.html
https://www.researchgate.net/publication/292984270_Privacy_and_Big_Data
https://www.csoonline.com/article/2855641/the-5-worst-big-data-privacy-risks-and-how-to-
guard-against-them.html