class: center, middle, inverse, title-slide # Herramientas Cuantitativas para el Análisis Político ## [CP44] Maestría en Ciencia Política ### Juan Pablo Ruiz Nicolini ### Universidad Torcuato Di Tella ### 17/11/2020 --- exclude: true --- class: middle, center ## SESIÓN 10 #### Minería de Texto #### [
/MetodosCiPol/](https://tuqmano.github.io/MetodosCiPol/) #### [
/MetodosCiPol/](https://github.com/TuQmano/MetodosCiPol) --- # Análisis Cuantitativo de Texto ### Paquetes relevantes * [{tm}](http://tm.r-forge.r-project.org/) * [{quanteda}](https://quanteda.io/reference/index.html) * [{topicmodels}](https://cran.r-project.org/web/packages/topicmodels/vignettes/topicmodels.pdf) --- background-image: url(https://www.tidytextmining.com/images/cover.png) background-position: 95% 15% background-size: 33% ##
Referencias * [Text Mining Infraestructure in R](https://www.jstatsoft.org/article/view/v025i05) - `{tm}` * (Tidy) [Text Mining with R](https://www.tidytextmining.com/), **Silge y Robinson
** * _"Análisis Cuantiativo de Textos"_, en [Urdinez y Cruz](https://arcruz0.github.io/libroadp/qta.html) --- background-image: url(https://juliasilge.github.io/tidytext/reference/figures/tidytext.png) background-position: 95% 5% background-size: 10% ## Tidy Text Data [
`{tidytext}`](https://juliasilge.github.io/tidytext/index.html) ![](https://www.tidytextmining.com/images/tmwr_0101.png) --- background-image: url(https://juliasilge.github.io/tidytext/reference/figures/tidytext.png) background-position: 95% 5% background-size: 10% ### Tidy Data 1. Cada variable en una columna 2. Cada observación en una fila 3. Cada celda es una observación -- ### ~ Tidy Text Data #### > **one-token-per-row** con `unnest_tokens()` --- background-image: url(https://github.com/electorArg/polAr/blob/master/hex/hex-polAr.png?raw=true) background-position: 95% 5% background-size: 10% ### Minando texto con `{polAr}` ### _**Juan Domingo Perón** (1946)_
--- background-image: url(https://github.com/electorArg/polAr/blob/master/hex/hex-polAr.png?raw=true) background-position: 95% 5% background-size: 10% ### Minando texto de `{polAr}` #### Explorar discursos disponibles con `show_available_speech()` ```r library(polAr) show_available_speech() ## # A tibble: 116 x 2 ## year president ## <chr> <chr> ## 1 1854 justo_jose_de_urquiza ## 2 1855 justo_jose_de_urquiza ## 3 1856 justo_jose_de_urquiza ## 4 1857 justo_jose_de_urquiza ## 5 1858 justo_jose_de_urquiza ## 6 1859 justo_jose_de_urquiza ## 7 1860 santiago_derqui ## 8 1861 santiago_derqui ## 9 1862 bartolome_mitre ## 10 1863 bartolome_mitre ## # ... with 106 more rows ``` --- background-image: url(https://github.com/electorArg/polAr/blob/master/hex/hex-polAr.png?raw=true) background-position: 95% 5% background-size: 10% ### Minando texto de `{polAr}` #### Descargar con `get_speech()` ```r get_speech(year = 1991) ## # A tibble: 2,602 x 3 ## word presidente year ## <chr> <chr> <dbl> ## 1 congreso carlos_menem 1991 ## 2 llego carlos_menem 1991 ## 3 magno carlos_menem 1991 ## 4 recinto carlos_menem 1991 ## 5 intención carlos_menem 1991 ## 6 formular carlos_menem 1991 ## 7 alegato carlos_menem 1991 ## 8 favor carlos_menem 1991 ## 9 gobierno carlos_menem 1991 ## 10 llego carlos_menem 1991 ## # ... with 2,592 more rows ``` --- background-image: url(https://github.com/electorArg/polAr/blob/master/hex/hex-polAr.png?raw=true) background-position: 95% 5% background-size: 10% ### Minando texto de `{polAr}` #### Descargar sin procesamieto _tidy_ ```r CSM <- get_speech(year = 1991, * raw = TRUE) CSM ## # A tibble: 1 x 3 ## discurso anio presidente ## <chr> <dbl> <chr> ## 1 "Honorable Congreso: Llego a este magno recinto, no con la ~ 1991 carlos men~ ``` --- background-image: url(https://github.com/LatinR/identidad-visual-latinR/raw/master/LatinR_hex_violeta.png) background-position: 95% 5% background-size: 30% class: middle #LatinR2020 > **LatinR**: *MinaR los discuRsos pResidenciales* (con Camila Higa y Lucas Enrich) [Abstract](https://github.com/TuQmano/latinr2020/blob/master/rmd/discursos/discursos_presidenciales.pdf) | [📊 Slides](https://github.com/TuQmano/latinr2020/blob/master/slides/discursos/minar_los_discursos.pdf) | [⌨️ blogpost](https://www.tuqmano.com/2020/03/11/los-discursos-de-les-presidentes/) | [📼 Video](https://www.youtube.com/watch?v=IZfNr_N7ylw&list=PL9-E3cL2KgKlNKVfiwHoGR3pHpg7x8Uzt&index=2). --- background-image: url(https://juliasilge.github.io/tidytext/reference/figures/tidytext.png) background-position: 95% 5% background-size: 10% # (Algunos) Tipos de Análisis <img src="https://www.tidytextmining.com/images/tmwr_0601.png" width="70%" /> -- ##### _Bag of words_ -- ##### Análisis de Sentimiento -- ##### Modelado de Tópicos --- class: center, middle # _live coding_ ### `script/practica_tm.R`