Título: | Exploración sobre el máximo desempeño en la selección no supervisada de términos para agrupamiento de textos |
Other Titles: | Exploration on the maximum performance of unsupervised term selection for text clustering |
Autor(es): | JIMENEZ SALAZAR, HECTOR |
Temas: | Procesamiento de textos (Computación) Minería de datos |
Fecha: | 2016 |
Editorial: | México : Instituto Polítecnico Nacional |
Citation: | Research in Computing Science, vol. 124 (2016) |
Resumen: | El agrupamiento de textos es un reto importante por la diversidad de aplicaciones que se derivan de la solución de dicha tarea. Un elemento indispensable en el agrupamiento es la selección de términos para representar lo mejor posible los textos. Aunque hay muchos métodos orientados a extraer términos de documentos para llevar a cabo categorización de textos, son pocos los que enfrentan la tarea de agrupamiento por la dificultad que se presenta al no contar con la clase de cada uno de los documentos. En este trabajo se propone un nuevo método que extrae los términos para representar los textos y, al ser agrupados, se obtiene el desempeño máximo en una cantidad notable de casos. Las pruebas se llevaron a cabo con un conjunto de varias decenas de colecciones de textos cortos (tuits), lo cual permite observar el comportamiento del método. El planteamiento que subyace al método está basado en el ascenso máximo de la similitud de los documentos y en las propiedades de unificación y diversificación de los términos expuestas por G. Zipf. |
URI: | http://ilitia.cua.uam.mx:8080/jspui/handle/123456789/505 |
Aparece en las colecciones: | Artículos |
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
Exploracion sobre el maximo.pdf | 456.1 kB | Adobe PDF | Visualizar/Abrir |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.