Datos sintéticos

Ir a: navegación, búsqueda de

.

Datos sintéticos son "cualquier producción datos aplicables a una situación que no se obtienen por medición directa" según el diccionario McGraw-Hill de científica y términos técnicos;[1] donde Craig S. Mullins, un experto en gestión de datos, define los datos de producción como "información que persistentemente es almacenada y utilizada por los profesionales para llevar a cabo los procesos de negocio.".[2]

La creación de datos sintéticos está implicado un proceso de datos anonymization; es decir que los datos sintéticos están un subconjunto de datos anónimos.[3] Datos sintéticos se utilizan en una variedad de campos como un filtro para obtener información que de otro modo comprometería la confidencialidad de determinados aspectos de los datos. Muchas veces los aspectos particulares entren la forma de información humana (por ejemplo, nombre, domicilio, Dirección IPteléfono número, número de seguro social, número de tarjeta de crédito, etc..).

Contenido

  • 1 Utilidad
  • 2 Historia
  • 3 Aplicaciones
  • 4 Cálculos
  • 5 Referencias
  • 6 Enlaces externos

Utilidad

Datos sintéticos son generados para satisfacer necesidades específicas o ciertas condiciones que no se pueden encontrar en los datos originales, reales. Esto puede ser útil en el diseño de cualquier tipo de sistema porque los datos sintéticos se utilizan como una simulación o un valor teórico, situación, etc.. Esto nos permite tomar en cuenta resultados inesperados y tener una solución básica o remedio, si los resultados resultan insatisfactorios. Datos sintéticos se generan a menudo para representar los datos auténticos y permite una base para establecerse.[4] Otro uso de datos sintéticos es proteger la privacidad y confidencialidad de los datos auténticos. Como se indicó anteriormente, datos sintéticos se utilizan en las pruebas y crear diferentes tipos de sistemas; abajo hay una cita del Resumen de un artículo que describe un software que genera datos sintéticos para probar sistemas de detección de fraude que explica aún más su uso e importancia. "Esto nos permite realizar perfiles de comportamiento realista para los usuarios y los atacantes. Los datos se utilizan para entrenar a los fraude sistema de detección de sí mismo, creando así la necesaria adaptación del sistema a un ambiente específico."[4]

Historia

La historia de la generación de datos sintéticos remonta a 1993. En 1993, la idea de datos totalmente sintéticos originales fue creada por Rubin.[5] Rubin diseñado originalmente para sintetizar las respuestas de forma larga censo decenal para los hogares de forma corta. Luego lanzó las muestras que no incluyó ningún registro real forma larga - en esto él preservó el anonimato de la casa.[6] Ese mismo año, la idea de datos parcialmente sintéticos originales fue creada por poco. Poco utilizado esta idea para sintetizar los valores sensibles en el archivo de uso público.[7]

En 1994, Fienberg surgió con la idea de refinamiento crítica, en la que usó una paramétrica posterior distribución predictiva (en lugar de un arranque de Bayes) para hacer el muestreo.[6] Más tarde, son otros importantes contribuyentes al desarrollo de la generación de datos sintéticos Raghunathan, Reiter, Rubin, Abowd, Woodcock. Colectivamente se les ocurrió una solución para saber cómo tratar datos parcialmente sintéticos con datos faltantes. Asimismo se les ocurrió con la técnica de secuencial regresión multivariante Imputación.[6]

Aplicaciones

Datos sintéticos se utilizan en el proceso de minería de datos. Pruebas y entrenamiento fraude sistemas de detección, confidencialidad y cualquier tipo de sistema es ideado utilizando datos sintéticos. Como se ha descrito anteriormente, pueden parecer datos sintéticos como sólo una compilación de datos "formada", pero existen algoritmos específicos y los generadores que están diseñados para crear datos realistas.[8] Estos datos sintéticos asiste en un sistema de enseñanza cómo reaccionar frente a ciertas situaciones o criterios. Investigador haciendo ensayos clínicos o cualquier otra investigación puede generar datos sintéticos para ayudar en la creación de una línea de base para futuros estudios y pruebas. Por ejemplo, software de detección de intrusiones prueba utilizando datos sintéticos. Este dato es una representación de los datos auténticos y puede incluir casos de intrusión que no se encuentran en los datos auténticos. Los datos sintéticos permiten que el software reconocer estas situaciones y reaccionar en consecuencia. Si no se usó datos sintéticos, el software sólo podría ser entrenado para reaccionar a las situaciones previstas por los datos auténticos y no puede reconocer otro tipo de intrusión.[4]

Datos sintéticos también se utilizan para proteger el privacidad y confidencialidad de un conjunto de datos. Datos reales contienen información personal privada confidencial que un programador, proyecto de investigación o creador de software puede no querer ser revelada.[9] Datos sintéticos no sostiene ninguna información personal y no pueden rastrearse a cualquier individuo; por lo tanto, el uso de datos sintéticos reduce la confidencialidad y la privacidad.

Cálculos

Los investigadores probar el marco sobre datos sintéticos, que es "la única fuente de verdad de la tierra en la que puede evaluar objetivamente el desempeño de sus algoritmos".10

"Datos sintéticos pueden generarse con posiciones y orientaciones al azar".8 Conjuntos de datos pueden obtenerse bastante complicado. Un conjunto de datos más complicado puede generarse mediante el uso de una acumulación de sintetizador. Para crear una estructura de sintetizador, primero utilice los datos originales para crear un modelo o una ecuación que se ajusta a los datos lo mejor. Este modelo o ecuación se llamará una acumulación de sintetizador. Esta versión puede utilizarse para generar más datos.9

Construir una estructura de sintetizador implica construir un modelo estadístico. En un regresión lineal ejemplo de línea, se pueden trazar los datos originales, y un mejor ajuste línea lineal pueden crearse a partir de los datos. Esto línea lineal es un sintetizador creado a partir de los datos originales. El siguiente paso será estar generando más datos sintéticos de la compilación de sintetizador o de esta ecuación lineal de la línea. De esta manera, los nuevos datos pueden utilizarse para estudios e investigación, y protege el confidencialidad de los datos originales.9

David Jensen desde el laboratorio de descubrimiento de conocimiento mencionado cómo generar datos sintéticos en su "proximidad 4.3 Tutorial" capítulo 6: "con frecuencia, los investigadores deben estudiar los efectos de ciertas características de datos en su modelo de datos." Para ayudar a construir conjuntos de datos exhiben propiedades específicas, tales como auto-correlación o grado de disparidad, proximidad puede generar datos sintéticos de varios tipos de estructura de grafo10:gráficos al azar es generada por algunos proceso aleatorio;gráficos del enrejado tener una estructura de anillo;gráficos del enrejado tener una estructura de red, etc. En todos los casos, el proceso de generación de datos sigue el mismo proceso: 1. generar el vacío estructura de grafo. 2. generar valores de atributo basado en probabilidades previas suministrado por el usuario.

Puesto que el valores de atributo de un objeto puede depender de la valores de atributo de objetos relacionados con el proceso de generación de atributo asigna valores colectivamente.10

Referencias

  1. ^ Datos sintéticos. (n.d.). McGraw-Hill Diccionario de términos científicos y técnicos. Obtenido 29 de noviembre de 2009, del sitio Answers.com Web: [1]
  2. ^ Mullins, Craig S. (5 de febrero de 2009). ¿Qué es datos de producción? Mensaje publicado a https://www.Neon.com/blog/blogs/cmullins/Archive/2009/02/05/What-is-Production-Data_3F00_.aspx
  3. ^ MacHanavajjhala, Ashwin; Kifer, Daniel; Abowd, John; Gehrke, Johannes; Vilhuber, Lars (2008). "Privacidad: teoría cumple con práctica en el mapa". IEEE 2008 XXIV Conferencia Internacional sobre ingeniería de datos:: 277-286. Doi:10.1109/ICDE.2008.4497436.
  4. ^ a b c Barse, E.L., Kvarnström, H. & Jonsson, E. (2003). Sintetizando los datos de prueba para sistemas de detección de fraude. Manuscrito enviado para publicación, Departamento de ingeniería informática, Universidad de tecnología de Chalmbers, Gotemburgo, Suecia. Obtenido de https://IEEEXplore.IEEE.org/Stamp/Stamp.jsp?TP=&arnumber=1254343&IsNumber=28060
  5. ^ "Discusión: limitación de divulgación estadística". Diario de estadísticas oficiales 9:: 461-468. 1993.
  6. ^ a b c Abowd, John M. "Protección de la confidencialidad de datos Micro ciencias sociales: datos sintéticos y métodos relacionados. [Las diapositivas de Powerpoint".. 17 de febrero de 2011.
  7. ^ "Análisis estadístico de datos enmascarados". Diario de estadísticas oficiales 9:: 407-426. 1993.
  8. ^ Deng, R. (2002). Información y las comunicaciones seguridad. Actas de la IV Conferencia Internacional, ICICS 2002 Singapur, diciembre de 2002. Obtenido de disponible https://Books.google.com/books?id=6mod7enQa8cC&pg=PA265&DQ=%22synthetic+Data%22#v= & q = % 22synthetic % 20data % 22 & f = false
  9. ^ Abowd, J.M. & Lane, J. (2004). Nuevos enfoques para la protección de la confidencialidad: investigación Data Centers, acceso remoto y datos sintéticos. Manuscrito enviado para publicación, Cornell Institute for Social and Economic Research (CISER), Cornell University, Ithica, Nueva York. Obtenido de https://www.SpringerLink.com/content/27nud7qx09qurg3p/FULLTEXT.pdf
  1. Wang, un, Qiu, T y Shao, L. (2009). Un método sencillo de corrección de distorsión Radial con centro de estimación de distorsión. 35. Obtenido de https://www.SpringerLink.com/content/8180144q56t30314/FULLTEXT.pdf
  2. Duncan, G. (2006). ¿Secreto estadístico: es la respuesta a datos sintéticos? Obtenido de https://www.Idre.UCLA.edu/events/PPT/2006_02_13_duncan_Synthetic_Data.ppt
  3. Jensen, D. (2004). Proximidad 4.3 Tutorial capítulo 6. Obtenido de https://KDL.cs.UMass.edu/Proximity/Documentation/tutorial/ch06s09.html
  4. Jackson, C, Murphy, R & Kovaˇcevic´, J. (2009). Inteligente adquisición y aprendizaje de modelos de datos de microscopio de fluorescencia. 18(9), Obtenido de https://www.Andrew.cmu.edu/User/jelenak/Repository/08_JacksonMK.pdf
  5. Adam Coates y Blake carpintero y Carl caso y Sanjeev Satheesh y Bipin Suresh y Tao Wang y David J. Wu y Andrew Y. Ng (2011). Texto detección y reconocimiento de caracteres en escena imágenes con aprendizaje no supervisado característica. ICDAR. págs. 440-445.

Enlaces externos

El "DataGenerator" un modelo basado en generador de datos sintéticos: https://finraos.github.Io/DataGenerator/

El datgen generador de datos sintéticos: https://www.datasetgenerator.com

Fienberg, S. E. (1994). "Los conflictos entre las necesidades de acceso a la información estadística y las exigencias de confidencialidad", Journal of oficial estadísticas 10, 115-132.

Little, R (1993). "Análisis estadístico de datos enmascarados," diario de las estadísticas oficiales, 9, 407-426.

Raghunathan, T.E., Reiter, J.P. y Rubin, D.B. (2003). "Imputación múltiple para limitación de divulgación estadística," diario de las estadísticas oficiales, 19, 1-16.

Reiter, J.P. (2004). "Uso simultáneo de múltiples imputación por falta de datos y la limitación de divulgación," encuesta metodología, 30, 235-242.


Este artículo está basado en material extraído de la Diccionario en línea gratuito de la computación antes de 01 de noviembre de 2008 e incorporada bajo los términos "conjetura" de la GFDL, versión 1.3 o posterior.

Otras Páginas

Obtenido de"https://en.copro.org/w/index.php?title=Synthetic_data&oldid=622874596"