Vínculos de utilidad
Código fuente
El código está disponible en este repositorio.
Proyecto banrep en Python Package Index
Esta es la página del proyecto en PyPI.
Distribución de python Anaconda
Acá puede descargar la distribución Anaconda.
Docs de spaCy
La librería se basa completamente en spaCy para procesamiento de texto.
Docs de JupyterLab
Los ejemplos de esta librería se escriben usando JupyterLab.
Apache TIKA server
La extracción de texto hace uso de Apache Tika, una reconocida librería de Java. Si no la tiene instalada, el módulo de extracción descarga una copia de Tika Server, y por tanto se requiere acceso a internet y la posibilidad de descargar ejecutables.
Implementación LDA de Gensim
Los modelos de tópicos se crean usando la implementación de Gensim.
Explicación de modelos LDA
Ver este artículo para una explicación más detallada de la intuición dentrás de estos modelos.