Evaluación Universal IR
|
|
Evaluación de IR (recuperación de información) comienza cuando un usuario envía una consulta (término de búsqueda) a un base de datos. Si el usuario es capaz de determinar la relevancia de cada documento en la base de datos (relevante o no relevante), entonces para cada consulta, el conjunto completo de los documentos se divide naturalmente en cuatro distintos subconjuntos (excluyentes): los documentos pertinentes que se recuperan, los documentos no relevantes que se recuperan, los documentos pertinentes que no se recuperan y documentos no relevantes que no se recuperan. Estos cuatro subconjuntos (de documentos) son denotados por las letras un, b, c, d respectivamente y son llamados Swets variables, el nombre de su inventor.[1]
Además de las definiciones de Swets, también se han definido cuatro métricas de relevancia: Precisión se refiere a la fracción de los documentos pertinentes que se recuperan (a/(a+b)), y Recordar se refiere a la fracción de los documentos recuperados que son relevantes (a/(a+c)). Estos son los más comúnmente utilizados y métricas conocidas relevancia encontradoen en la literatura de la evaluación de IR. Dos métricas menos comúnmente usadas incluyen las consecuencias, es decir, la fracción de los documentos no relevantes que son recuperados (b/(b+d)), la señorita, que se refiere a la fracción de los documentos pertinentes que no sean obtenido (c/(c+d)) durante cualquier búsqueda determinada.
Evaluación de IR universal aborda las posibilidades matemáticas y relaciones entre las cuatro mediciones relevancia precisión, memoria, Fallout y Miss, denotada por P, R, F y M, respectivamente. Uno de los aspectos del problema consiste en encontrar una derivación matemática de un conjunto completo de universal IR evaluación puntos.[2] El conjunto completo de 16 puntos, cada uno un cuádruple de la forma (P, R, F, M), describe todos los universal IR resultados posibles. Por ejemplo, muchos de nosotros han tenido la experiencia de consultar una base de datos y no recuperar todos los documentos en absoluto. En este caso, la precisión podría adoptar la forma indeterminada 0/0, la memoria y Fallout ambos sería cero, y la señorita sería cualquier valor mayor que cero y menor que uno (suponiendo una mezcla de documentos relevantes y no relevantes fueron la base de datos, ninguno de los cuales fueron recuperados). Este punto de evaluación universal de IR así se denota por (0/0, 0, 0, M), que representa sólo uno de los 16 resultados de IR universales posibles.
Las matemáticas de la evaluación universal de IR son un tema bastante nuevo desde las métricas de relevancia P, R, F, M no fueron analizados colectivamente hasta recientemente (dentro de la última década). Ya se ha formulado un montón de la fundamentación teórica, pero esperan ser descubiertos nuevos conocimientos en esta área. Para un análisis detallado de la matemático, una consulta en la Ciencia directa base de datos para la "evaluación universal de IR" Recupera varios documentos revisados pertinentes.
Véase también
- Recuperación de información
- Consulta de búsqueda web
Referencias
- ^ Swets, J.A. (1969). Efectividad de los métodos de recuperación de información. Documentación estadounidense, 20(1), 72-89.
- ^ Schatkun, M. (2010). Un segundo mira a superficie de IR universal de Egghe y una derivación sencilla de un conjunto completo de universal IR evaluación puntos. Procesamiento de la información y gestión, 46(1), 110-114.
Enlaces externos
- Ciencia directa