Estructura grande

Ir a: navegación, búsqueda de

Estructura grande cualquier forma de estructura de datos, incluyendo relaciones de datos y contexto, que pueden combinarse para permitir conjunto de datos interoperabilidad y la comprensión.[1] El edificio ha sido citado como ayudando a integrar los datos en áreas tales como ciencia cognitiva,[2] extracción de relación,[3] eSalud,[4] minería de datos,[5] identificación de funciones,[6] la informatización en red,[7] Computación semántica,[8] y geológicos integración de datos.[9] Jiawei Han ha argumentado Datos de grandes necesita gran estructura.[10] Michael Bergman ha escrito mucho sobre estructura grande en lo referente a datos interoperabilidad[8] y herramientas necesarias.

Porque el edificio se construye a partir de muchas estructuras de la Constituyente, ontologías para relacionarse conceptos y los objetos y sus atributos son un enfoque integrador. Juego semántico y el Mapeo entre múltiples conjuntos de datos y fuentes es un paso esencial para construir el edificio, que por naturaleza necesita conciliar heterogeneidades semánticas. Herramientas y medios para crear y administrar las ontologías así son parte integral de la estructura grande. En turno, Big data y algoritmos diferentes, incluyendo aprendizaje automático, a menudo desempeñan un papel en estas tecnologías.

Contenido

  • 1 Definición
  • 2 Componentes
  • 3 Relación con la semántica
  • 4 Papel en la interoperabilidad de datos
  • 5 Mapeo y tecnologías
  • 6 Aplicaciones
  • 7 Véase también
  • 8 Referencias
  • 9 Lectura adicional

Definición

El edificio es las relaciones de datos y el contexto que se puede combinar en un coherente marco para habilitar el entendimiento y la interoperabilidad de dataset. Gran estructura implica que puede entender el significado de los datos y sus valores pueden ser llevados a bases comunes de tal forma que Análisis, pruebas y validación puede ser aplicado a través de los valores. Gran estructura no es una sola cosa, pero la combinación de varias cosas que dan contexto y significado de datos. Como tal, el edificio es a menudo una reasignación de propósitos de las existentes activos de información, organizado por el objetivo de la interoperabilidad de datos.

Los componentes de estructura grande pueden ser identificados y caracterizados. Componentes de la estructura grande representan la continuidad de las relaciones de concepto y datos, a menudo ya en las estructuras existentes. Conseguir combinar estos componentes en referencia estructuras de gráfico los conceptos y valores de datos reales de las fuentes de datos constitutivos en el lugar alineación. La selección de cuál candidato conseguir incorporar estructuras puede depender la relevancia, utilidad o autoridad.

Las estructuras de referencia proporcionan la conexión a tierra símbolo para el mapeo de conceptos y la transformación de los valores de datos en forma interoperable. Estas estructuras de referencia necesitan ser acompañado por herramientas, y luego incorporados en estructuras más amplias que en última instancia los temas de que trata los datos y los valores de los datos en la alineación.

En mayo de 2014, Dr. Jiawei Han, un destacado investigador en minería de datos, dio una conferencia en Yahoo! Labs titulado, Big Data necesita gran estructura. En él, él define "Gran estructura como una red de información de tipo". Esta observación se correlaciona con las ontologías y estructuras de conocimiento.

Componentes

El edificio consta de una familia de las estructuras de componentes que ayudan a la guía de mapas y la interoperabilidad. La siguiente tabla muestra algunos de estos componentes, más o menos en orden descendente en cuanto al grado de estructura y su contribución a la interoperabilidad. La tabla proporciona definiciones y descripciones de uso para cada componente:

Tipo de estructura Definición Uso
Referencia ontologías Estructuras principales de puesta a tierra para orientar e interoperar conceptos o datos Los conceptos de referencia para orientar toda la información de datos y dominio
Atributos de referencia Estructuras principales de puesta a tierra para interoperar caracterizaciones de datos y datos Las relaciones entre datos descripciones y características, que también proporciona los medios para las transformaciones entre representaciones heterogéneas de referencia
Modelo de datos (RDF) Un medio autoconsistente para describir la estructura de datos y sus relaciones El modelo de datos "canónica" en el corazón del sistema; proporciona un punto único de interoperabilidad; RDF es un modelo canónico común
Atributos de dominio Las descripciones de datos y características de los conjuntos de datos constitutivos en los dominios de aplicación Los atributos de referencia específicos a los dominios de mano (que son generalmente más específicos que los atributos generales de referencia)
Ontologías de dominio La conceptualización formal de un dominio, utilizando un vocabulario compartido para denotar los tipos, propiedades y las interrelaciones de esos conceptos Los conceptos de referencia y sus relaciones específicas de los dominios generalmente se asignan a las ontologías de referencia
Mapas conceptuales Un diagrama que representa sugiere relaciones entre conceptos Estructuralmente similar a una ontología del dominio
Esquema La estructura de una base de datos que define los objetos y las relaciones en la base de datos Marco para la organización bases de datos relacionales (y sus mesas)
Asignaciones El proceso de creación de las correspondencias de elemento de datos entre dos datos distintos modelos o esquemas Predicados de asignación se utilizan para relacionar conceptos o atributos de dos diferentes conjuntos de datos o bases de conocimiento uno al otro. Las asignaciones son a menudo un precursor de varias transformaciones para poner datos en una representación común
Taxonomías Una clasificación particular de conceptos relacionados, a menudo de una naturaleza jerárquica Las relaciones jerárquicas están expresadas en más estrecha o más amplios términos (o subClassOf); también se puede ver también las relaciones
Facetas Aspectos claramente definidos, mutuamente excluyentes y colectivamente exhaustivos, propiedades o características de una clase o tema específico Las facetas pueden proporcionar alternativas para clasificar objetos más allá de una simple taxonomía
Categorías Agrupar objetos basados en propiedades similares Una categoría puede considerarse equivalente a un concepto
Tablas Una colección de datos relacionados en un formato estructurado, generalmente un plano bidimensional de filas (registros) y columnas (campos) Formato de presentación de datos más sencilla y más común
Synsets Un grupo de elementos de datos o los términos que se consideran semánticamente equivalentes para los propósitos de recuperación de información Utilizado como un medio para proporcionar una conexión a tierra común para un concepto determinado, aunque podría ser contemplados en diferentes sinónimos, alias, acrónimos o jerga
Metadatos Datos proporcionando información sobre uno o más aspectos de los datos de origen, por lo tanto "datos sobre datos" Es la descripción de qué datos se trata en lugar de los valores y atributos de los datos reales
Tesauros Una forma de vocabulario controlado que pretende dictar manifestaciones semánticas de metadatos en la indexación de direcciones de objetos de contenido Un tesauro es compuesto por una lista de palabras (o términos), un vocabulario para relacionarse estas palabras (o términos) uno al otro, a menudo jerárquico y un conjunto de reglas sobre cómo utilizar estos aspectos
Nomenclátores Una lista de tipos de entidad similar con datos estructurales asociados (como países y población o códigos estándar) A menudo utilizado en relación con personas o lugar tipos de entidad, aunque cualquier clase de entidades puede tener un nomenclátor
Vocabularios controlados El uso de términos predefinidos, autorizados como preseleccionados por el patrocinador para exigir coherencia en terminología Aplicados a determinados dominios o subdominios, con solos vocabularios controlados por idioma oficial utilizado
Listas de referencias Lista autorizada de objetos similares, cada uno únicamente identificados por nombre o código Puede ser tan simple como una lista completa de países con los códigos ISO asociados
Diccionarios Un repositorio de información sobre datos como significado, relaciones con otros datos, origen, uso o formato En nuestro contexto, puede variar desde el significado asociado con diccionarios estándar de la palabra en el diccionario de datos más formal
Glosarios Una lista alfabética de términos en un dominio particular con las definiciones de los términos Definición es la única información estructurada proporcionada
Listas anidadas Conceptos relacionados o entidades organizadas por algún tipo de relación jerárquica (más estrecho, más amplio, subClassOf, etc). Similar a una simple taxonomía
Listas ordenadas Una colección finita, ordenada de los valores de un tipo dado Puede también estar información adicional relacionada con el listado
Racimos Un conjunto de objetos agrupados según una base de similitud (tipo, atributos o características) Base de cómo tenemos agrupados los objetos no siempre es obvia
Listas sin ordenar Un contenedor de elementos similares o entidades, sin orden implícita o secuencia También conocido como una "bolsa" o "colección"
Valores Los datos reales; una forma normal o un miembro de tipo Unidades y medidas de los valores pueden diferir y necesario reconciliar

El datos estructurados, los datos semiestructurados y datos no estructurados (con Etiquetas y metadatos) proporcionan más enlaces en los distintos tipos de componentes.

Relación con la semántica

El propósito de estructura grande es proporcionar orientación sobre cómo conciliar sintáctico y heterogeneidades semánticas a través de conjuntos de datos. En tecnologías semánticas, la separación entre el esquema de dominio (el Box) y los datos reales (afirmaciones, o el ABox) proporciona un útil heurístico para saber cómo ve el reto de conciliar las diferencias entre los conjuntos de datos.

Desde el conceptual de datos reales, existen diferencias en perspectiva, vocabularios, medidas y convenios a través de conjuntos de datos. Las diferencias conceptuales son mediadas mediante ontologías[11] emparejar y técnicas de mapeo. Las diferencias de datos se reconcilian a través de la transformación de los datos en formas comunes. Estas tareas de reconciliación son parte de datos de disputas, que también incluye limpieza de datos y depuración. Semántica es por tanto una consideración central en el conjunto de estructura grande.

Papel en la interoperabilidad de datos

Interoperabilidad de gran estructura v
Una Fundación de gran estructura jerárquica

La capacidad de las estructuras de datos para informar la interoperabilidad es, en parte, una función de la complejidad estructural de la estructura de la fuente. Listas incluso simples pueden contribuir entendimientos estructurales. Una forma de aprovechar esta estructura es para mapear estructuras más simples a más complejas.

En la semántica, hay un problema de conexión a tierra símbolo. En el ámbito conceptual, tierra símbolo significa que cuando utilizamos un término o frase nos estamos refiriendo a lo mismo; es decir, la referente es el mismo. En el Reino de valor de datos, conexión a tierra símbolo significa que cuando nos referimos a un objeto o un número — dijo, el número 4.1 — nos referimos también a la misma métrica. Nombres de los objetos para establecer miembros tienen los mismos problemas de ambigüedad semántica como todas las demás cosas contempladas por el lenguaje.

El variabilidad "V" en Datos de grandes o las dimensiones de la heterogeneidad semántica son reconocimientos explícitos del símbolo desafío de puesta a tierra. Contexto y enraizamientos son formas de reducir la ambigüedad en lo que es medido y registrado. Así, el edificio tiene una jerarquía implícita que lugares referencia a estructuras como los cimientos para las bases. Todas las otras estructuras, con diversos grados de complejidad estructural, se apilan en orden de complejidad estructural sobre este fundamento.

Las estructuras de información existentes de varios tipos pueden desempeñar un papel en el establecimiento de estructuras de referencia. A medida que crecen las estructuras de referencia, puede ampliar el alcance de la interoperabilidad y la capacidad de conciliar más conjuntos de datos.

Mapeo y tecnologías

Uso de estructura grande y una reducción del esfuerzo requerido en disputas de datos pueden beneficiarse de un enfoque integrador de ingeniería de software, afín a Ingeniería de software asistida por computadora. Clases particulares de herramientas que apoyan la integración de la gran estructura incluyen construcción de automatización, Analizadores, rendimiento analzers, sistemas de control de revisión, probadores de unidad, herramientas de modelado de datos, mapeados ()ontologías y datos), transformadores de datosy una variedad de unidad de tecnologías semánticas, especialmente en PNL.

Desde reconciliaciones semánticas son algunos de los más difíciles de la informática los desafíos, no es de extrañar que herramientas de gran estructura depende de muchos enfoques de modelos estadísticos Para inteligencia artificial, particularmente en reconocimiento de patrones y aprendizaje automático.

Aplicaciones

El edificio es ampliamente aplicable a la zona de interoperabilidad de datos, con aplicaciones específicas en el Web semántica, recuperación de información, gestión del conocimiento, gestión de datos maestros, o en cualquier área que requiere dos o más conjuntos de datos para ser relacionado con otro.

Véase también

Portal icon Portal de tecnología de información
  • Datos de grandes
  • Integración de datos
  • Correlación de datos
  • Integración de información empresarial
  • Sistema de base de datos heterogéneos
  • Modelado de información
  • Interoperabilidad
  • Organización del conocimiento
  • Integración de datos basado en ontologías
  • Esquema que empareja
  • Integración semántica
  • Heterogeneidad semántica
  • Juego semántico
  • Semántica
  • Datos no estructurados

Referencias

  1. ^ M.K. Bergman (12 de agosto de 2014). "¿Cuál es la estructura grande?". AI3::: información adaptativa. 28 de septiembre de 2014.
  2. ^ Agustin Vicente y Fernando Martínez-Manrique (próximamente). "El papel de grandes conceptos: una defensa de hibridismo". Diario británico para la filosofía de la ciencia. Valores de fecha de llegada: |Date = (Ayuda)
  3. ^ Yifan Peng (2012). [ttp://www.eecis.udel.edu/~vijay/fall13/snlp/lit-survey/KernelRelationExtraction.pdf "Un estudio de métodos kernel en la extracción de relación"].
  4. ^ Muhammad Azam y Izhar Hussain (2009). "El papel de la interoperabilidad en eSalud". Blekinge Institute of technology.
  5. ^ Ning Xia y Yanjun Qi (2011). "Circunvolución semi supervisado gráfico kernels para extracción de relación". SDM. págs. 510-521.
  6. ^ Guillaume Bécan, Mathieu Acher, Benoit Baudry y Sana Ben Nasr (septiembre de 2013). "Respiración conocimiento ontológico en función modelo de gestión". No informe técnico 441.
  7. ^ Li Minglu, ed (7 – 10 de diciembre de 2003). "Grid y cooperativa de computación, documentos revisados, parte 1". Grid y computación cooperativa: segundo taller internacional, GCC 2003. Shanghai, China. 1112 páginas.
  8. ^ a b M.K. Bergman (23 de julio de 2014). "Gran estructura: en el nexo de bases de datos, la web semántica y la inteligencia artificial". AI3::: información adaptativa. 28 de septiembre de 2014.
  9. ^ "Técnicas de integración de datos geológicos". Actas de una reunión del Comité técnico. Viena, Austria: Organismo Internacional de energía atómica. 13 – 17 de octubre de 1986. 382 pp.
  10. ^ Jiawei Han (22 de mayo de 2014). "Gran estructura de grandes necesidades". Yahoo! Labs. 28 de septiembre de 2014.
  11. ^ Josef Küng, Erik Sonnleitner, Reinhard Stumptner, Andreea Hilda Kosorus y Stefan Anderlik (10 de octubre de 2013). "Utilizando ontologías para integrar heterogéneo decision support systems". Viena, Austria: Viena Consulting Engineers. págs. 353-374.

Lectura adicional

  • Video de presentación en Jiawei Han (22 de mayo de 2014). "Gran estructura de grandes necesidades". Yahoo! Labs. 28 de septiembre de 2014.
  • M.K. Bergman (2014). "Artículo gran estructura de los archivos". AI3::: información adaptativa. 28 de septiembre de 2014.

Otras Páginas

Obtenido de"https://en.copro.org/w/index.php?title=Big_structure&oldid=628162074"