Indización Automática

La indización automática se refiere a un método de búsqueda e identificación de un documento según palabras claves que lleven a él por su contenido, es decir, es la relación entre una selección de palabras en concreto y un texto que facilite su búsqueda y localización, cuando se habla de indización automática es porque este método se realiza de manera computarizada a través de un software. Permitiendo la búsqueda así de cualquier documento digitalizado como un texto, una imagen o un audio.

El ejemplo más común de indización automática es la búsqueda de archivos o documentos sobre temas específicos en los navegadores de internet, al ingresar palabras clave en el buscador y automáticamente dirigiendo al internauta a sus posibles destinos como el caso de Google.
Históricamente la indización se realizaba, hasta finales de la década de los cincuenta de manera intelectual en bibliotecas o centros de información, es decir, las personas que se encargaban de realizar la indización tenían un conocimiento generalizado acerca de varios temas lo que le daba la cualidad de poder relacionar archivos a través de algunas palabras que lo describiera de manera íntegra aunque esta tarea representaba una inversión de energía, esfuerzo y tiempo.
Es una herramienta útil a la hora de almacenar datos y mantenerlos organizados y poder, en caso de que sea necesario, recuperar información. Sin embargo estas ventajas dependen del software que se utilice para la actividad de indización.
Algunas de las herramientas que los sistemas de indización automática utilizan para funcionar de manera eficiente, brindándole al usuario una experiencia de búsqueda aceptable son, entre otros, las listas de palabras vacías, reconocedores de nombres propios, la ponderación de términos y los analizadores lingüísticos todos acompañados de un algoritmo.
Las listas de palabras vacías son ficheros compuestos por clases de palabras tales como artículos, conjunciones, preposiciones y adverbios que no transmiten por si solas carga temática. La ponderación de términos es un estudio de frecuencia de uso de palabras que evalúa el número de veces que se repite en el documento y el análisis lingüístico que se encarga (semántica, sintáctica y morfológicamente) de realizar procesamientos de lenguajes naturales.