Introdução ao

Monitoria I e II de Técnicas de Pesquisa em Economia

André Vitor Pereira de Melo

andre.melo@ufdpar.edu.br

Universidade Federal do Delta do Parnaíba

23 de maio de 2025

I - Introdução ao R

O que é a linguagem R?

Ferramenta para análise de dados;
- R é uma linguagem de programação orientada a objetos, criada para quem trabalha com análise de dados e estatística de forma estruturada.
Versátil e com ampla aplicação;
- Oferece ferramentas que permitem lidar com grandes conjuntos de dados, o que é muito útil em contextos atuais que envolvem big data.
Tipagem fraca.
- Permite operações entre diferentes tipos de dados sem a necessidade explícita de conversão.

Por que usar o R?

Exploração e visualização de dados;
- A linguagem oferece recursos avançados para criar gráficos e visualizações que ajudam a entender melhor os dados e comunicar resultados de forma clara.
Open-source.
- Por ser um software de código aberto, possui uma comunidade ativa que desenvolve e compartilha pacotes, por isso, o R dispõe de uma vasta gama de aplicações e suporte colaborativo.

O que é o RStudio?

Ambiente integrado para programar em R;
- O RStudio é um espaço pensado principalmente para quem usa R, reunindo tudo o que é necessário para escrever, rodar e revisar códigos com mais organização.
Facilita o dia a dia com R.
- Ele traz recursos como editor de scripts, gerenciador de projetos e ferramentas para depurar o código.

Passos da instalação

Visite CRAN - The Comprehensive R Archive Network e baixe a linguagem, através de um arquivo executável, para seu sistema operacional;

Visite RStudio Desktop e baixe o instalador para seu sistema operacional;

Siga as instruções fornecidas nos instaladores para completar o processo de instalação.

RStudio Cloud

Visite a Posit Cloud para acessar e utilizar o RStudio sem a necessidade de instalação local;

Necessário realizar login (através de uma conta Google, Github, entre outros) para acessar o RStudio Cloud.

Criação de um projeto

Passo 1: File > New Project.

Passo 2: Escolha “New Directory”.

Passo 3: Clique em “New Project”.

Passo 4: Digite o nome da sua pasta em Directory name, marque “Open in new session” e clique em “Create Project”.

Pacotes

Os pacotes no R são coleções de funções e conjuntos de dados desenvolvidos pela comunidade.

# Instalando o pacote
install.packages("tidyverse", dependencies = TRUE)

# Ativando o pacote
library(tidyverse)

E para descarregar ou remover pacotes:

# Desativar pacotes
detach("tidyverse")

# Desinstalar pacotes
remove.packages("pacotes")

Um pouco sobre tidyverse

Fonte: Smith (2019).

Um pouco sobre tidyverse

O tidyverse oferece uma alternativa aos métodos base do R para análise de dados em dados organizados de forma “arrumada” (tidy data).

library(tidyverse)

── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.1.4     ✔ readr     2.1.5
✔ forcats   1.0.0     ✔ stringr   1.5.1
✔ ggplot2   3.5.1     ✔ tibble    3.2.1
✔ lubridate 1.9.3     ✔ tidyr     1.3.1
✔ purrr     1.0.2     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

Operador pipe

O operador pipe no R é uma ferramenta poderosa para encadear operações e facilitar a leitura e escrita de código. Existem dois operadores de pipe comuns:

Operador %>% (pipe do pacote magrittr)
- O operador %>% é usado para encadear funções, passando o resultado de uma função como argumento para a próxima função.
Operador |> (pipe do pacote base)
- Introduzido no R 4.1.0, o operador pipe nativo |> é uma alternativa ao operador do magrittr.

R como calculadora

A linguagem R nos permite realizar cálculos simples e complexos, fornecendo operações aritméticas como adição, subtração, multiplicação, divisão e outras operações matemáticas.

# Operações Combinadas
(5 + 3) * 2 - 4 / 2

[1] 14

Potência

2^3

[1] 8

R como calculadora

Módulo

10 %% 3

[1] 1

Divisão inteira

10 %/% 3

[1] 3

Raiz Quadrada

sqrt(16)

[1] 4

II - Estruturas e Manipulações de Dados

Tipos de estruturas de dados

Na linguagem R, há várias estruturas de dados fundamentais que são usadas para armazenar e manipular informações de várias maneiras.

Vetores: Unidimensionais;
Matrizes: Bidimensionais;
Data Frames: Bidimensionais;
Arrays: Multidimensionais;
Listas: Flexíveis.

Fonte: Ceballos e Cardiel (2013).

Tipos de estruturas de dados

Fonte: Stauffer et al. (2025).

O que são data frames?

Os data frames são estruturas de dados fundamentais no R, muito utilizadas para armazenar conjuntos de dados tabulares, onde as colunas podem conter diferentes tipos de classes (numéricos, caracteres, lógicos, etc.).

Quanto a sua estrutura, temos:
- Nome das Colunas (variáveis): Cada coluna em um data frame tem um nome que a identifica, representando seus respectivos atributos;
- Rótulos de Linhas (observações): As linhas podem ser rotuladas para identificar cada observação de maneira única ou significativa.

O que são data frames?

Fonte: GeeksforGeeks (2025).

O que são vetores?

Um vetor é uma estrutura de dados que contém elementos do mesmo tipo. Pode ser numérico, de caracteres, lógico, etc.

# Vetor numérico (inteiro)
ano <- c(2022, 2023, 2024, 2025)

# Vetor de caracteres
revistas <- c("A", "B", "C", "B")

# Vetor númerico (números reais)
impacto <- c(2.75, 1.91, 5.23, 0.87)

Criando data frames

Podemos combinar os objetos ano, revistas e impacto em um data frame.

df <- data.frame(
  autor = c("Ana", "João", "Gabriel", "Ana"),
  revistas = revistas,
  ano = ano,
  impacto = impacto
)

df

    autor revistas  ano impacto
1     Ana        A 2022    2.75
2    João        B 2023    1.91
3 Gabriel        C 2024    5.23
4     Ana        B 2025    0.87

Data frames modernizados

Tibbles são data frames modernizados, introduzidos pelo pacote tibble no tidyverse. Eles foram projetados para corrigir algumas das limitações dos data frames tradicionais e para melhorar a usabilidade.

dados <- tibble::as_tibble(df)

dados

# A tibble: 4 × 4
  autor   revistas   ano impacto
  <chr>   <chr>    <dbl>   <dbl>
1 Ana     A         2022    2.75
2 João    B         2023    1.91
3 Gabriel C         2024    5.23
4 Ana     B         2025    0.87

Criando listas

Uma lista é uma coleção ordenada de elementos que podem ser de diferentes tipos. Diferente de vetores, que só podem conter elementos de um único tipo, listas podem armazenar números, caracteres, vetores, data frames e até mesmo outras listas.

lista <- list(
            dados,
            hobbies = c("Leitura", "Esportes", "Música"),
            cars = head(cars, 5),
            mtcars = head(mtcars, 5)
          )

O que é o dplyr?

Parte do tidyverse, o dplyr é um pacote do R que incorpora uma gramática para transformação de dados, ou seja, fornece funções (verbos) para fazer operações com tabelas (isto é, data frames ou tibbles);
Ele permite filtrar, selecionar, organizar, transformar e resumir dados de forma encadeada. E qual a finalidade disso? um código limpo.
Principais funções (verbos)

filter(): filtra linhas (condições)

select(): seleciona colunas

mutate(): cria/edita colunas

arrange(): ordena linhas

summarise() ou reframe(): resume dados

group_by(): agrupa dados para sumarização

Operadores lógicos

Operadores Relacionais:
- Igual a (==);
- Diferente de (!=);
- Maior que (>);
- Menor que (<);
- Maior ou igual a (>=);
- Menor ou igual a (<=);
- Pertence a (%in%).
Também podemos utilizar operadores lógicos, tais como AND, OR e NOT, representados por &, | e !, respectivamente.

Utilizando dplyr na prática

Com os nossos dados, podemos filtrar artigos a partir de 2023, calcular a média de impacto por revista e ordenar do maior para o menor.

dados |> 
  filter(ano >= 2023) |> 
  group_by(revistas) |> 
  summarise(media_impacto = mean(impacto)) |> 
  arrange(desc(media_impacto))

# A tibble: 2 × 2
  revistas media_impacto
  <chr>            <dbl>
1 C                 5.23
2 B                 1.39

Exportação de dados

Exportar dados é uma tarefa comum no R quando se deseja salvar resultados de análises ou compartilhar informações com outros usuários.

Exportando para CSV

write.csv(dados, file = "tecnicas-pesquisa-economia/dados/dados.csv", row.names = FALSE)

Exportando para Excel (xlsx)

# Ativando pacote
library(openxlsx) # Necessário instalar

write.xlsx(dados, file = "tecnicas-pesquisa-economia/dados/dados.xlsx", rowNames = FALSE)

Exportando para Texto (txt)

write.table(dados, file = "tecnicas-pesquisa-economia/dados/dados.txt", sep = "\t", row.names = FALSE)

Importação de dados

Neste caso, ao importar dados no R, estaremos carregando conjuntos de dados externos para manipulação e/ou visualização.

Importando para CSV

readr::read_csv(file = "tecnicas-pesquisa-economia/dados/dados.csv")

Importando para Excel (xlsx)

# Ativando o pacote
library(readxl) # Necessário instalar

readxl::read_excel(path = "tecnicas-pesquisa-economia/dados/dados.xlsx")

Importando para Texto (txt)

read.table(file = "tecnicas-pesquisa-economia/dados/dados.txt", header = TRUE, sep = "\t")

Exercício de Fixação I

Hora de praticar!

Acesse o arquivo main.pdf, que está dentro da pasta atividade, localizada em “tecnicas-pesquisa-economia” no repositório monitorias-ufdpar, ou clique aqui para acessá-lo diretamente.

III - Bibliometria com o R

O que é bibliometria?

Bibliometria é um campo das áreas da biblioteconomia e da ciência da informação que emprega o estudo quantitativo da produção científica, através de métodos estatísticos e matemáticos para analisar publicações acadêmicas, como artigos, livros, teses e conferências.

Exemplos de estudos bibliométricos:
- Contagem de publicações: Quantos artigos sobre “sustentabilidade” foram publicados entre 2010 e 2020?
- Análise de citações: Qual é o artigo mais citado sobre Inteligência Artificial?
- Análise de palavras-chave: Quais são os termos mais recorrentes nas pesquisas sobre Mudanças Climáticas?

E qual a sua contribuição?

Aplicação	Descrição
Mapeamento de áreas de conhecimento	Identificar tendências, tópicos emergentes ou temas em declínio em uma disciplina.
Análise de tendências científicas	Ver como um tema ganha ou perde relevância ao longo do tempo.
Avaliação de desempenho acadêmico	Avaliar a produtividade de autores, universidades ou países (por número de publicações, citações etc.).
Identificação de redes de colaboração	Descobrir grupos de pesquisa que atuam juntos (análise de coautoria).
Tomada de decisão em políticas científicas	Ajudar agências de fomento e universidades a definir prioridades de investimento em ciência.

Pacote Bibliometrix

Assim como o dplyr, mencionado anteriormente, o bibliometrix também é um pacote do R criado para realizar análises bibliométricas completas, desde a importação dos dados até a construção de gráficos e redes científicas.

Criado por Aria e Cuccurullo (2017), além de outros colaboradores a partir de 2017.
- Objetivo: fornecer uma solução open-source para análise bibliométrica e de ciência da ciência (science mapping);
Fontes de dados compatíveis:

→ Web of Science (WoS)

→ Scopus

Dimensions.ai

PubMed

CrossRef

OpenAlex (mais recente)

Coleta manual em formato BibTeX ou CSV

Acesso as bases de dados acadêmicas

Para realizar análises bibliométricas no R, primeiro é necessário baixar os dados de bases acadêmicas confiáveis.

No Brasil, temos acesso gratuito a bases internacionais de alta qualidade por meio da:

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
- O Portal de Periódicos da CAPES oferece acesso gratuito para estudantes, professores e pesquisadores de instituições públicas e privadas conveniadas.
- Por meio dele, é possível acessar bases como WoS, Scopus, ScienceDirect, SpringerLink, entre muitas outras.

Como acessar o Portal de Periódicos da CAPES?

Estando dentro da universidade (rede da instituição) ou

Pelo sistema de CAFe (Comunidade Acadêmica Federada), usando login e senha institucionais.

Passos para baixar dados bibliográficos

Passo 1: Acesso CAFe (login) > UFPI.

Passo 2: Clique em “Lista de bases e coleção”.

Passo 3: Após a busca pela base, clique em “Ver no editor”.

Passo 4: Interface da Scopus.

Operadores booleanos nas pesquisas acadêmica

AND: inclui todos os termos;
OR: inclui qualquer um dos termos;
NOT: exclui termos indesejados

Ex.: Busca artigos que falem de Inflation e de pelo menos um dos temas citados.

(Modern Monetary Theory OR Post-Keynesian Economics) AND Inflation

Pesquisa avançada em bases acadêmicas

Web of Science

Permite criar pesquisas mais específicas usando filtros como tema, autor, instituição, tipo de documento, ano de publicação etc.

TS=("Modern Monetary Theory") AND PY=(2015-2024)

Scopus

Assim como na Web of Science, permite construir consultas específicas, com vários critérios.

TITLE-ABS-KEY("Modern Monetary Theory") AND PUBYEAR > 2014 AND PUBYEAR < 2025

Importação de dados bibliográficos

A função convert2df() é usada para ler os dados exportados das bases e transformá-los em data frames organizados, prontos para análise.

Importar dados da Web of Science (.txt)

library(bibliometrix)

df_wos <- convert2df(
  file = "tecnicas-pesquisa-economia/dados/savedrecs.txt",
  dbsource = "wos",
  format = "plaintext"
)

Importar dados da Scopus (.csv)

df_scopus <- convert2df(
  file = "tecnicas-pesquisa-economia/dados/scopus.csv",
  dbsource = "scopus",
  format = "csv"
)

Importação de dados bibliográficos

Após importar os dados da Web of Science e Scopus separadamente, como demonstrado em 1. e 2., podemos combinar estes dados em um único data frame.

dados <- mergeDbSources(df_wos, df_scopus, remove.duplicated = TRUE)

Sobre os dados gerados pelo bibliometrix

Quando importamos e transformamos os dados com convert2df(), o bibliometrix organiza as informações em uma tabela (data frame) com linhas e colunas.

Rows: 681
Columns: 8
$ PY    <dbl> 2018, 2018, 2020, 2021, 2019, 2022, 2021, 2022, 2016, 2021, 2023…
$ AU    <chr> "OISHI S;KUSHLEV K;SCHIMMACK U", "KIM H", "BARNES L", "NADIROV O…
$ TI    <chr> "PROGRESSIVE TAXATION INCOME INEQUALITY AND HAPPINESS", "SOME MO…
$ SO    <chr> "AMERICAN PSYCHOLOGIST", "COMMUNICATIONS OF THE KOREAN MATHEMATI…
$ DE    <chr> "HAPPINESS; PROGRESSIVE TAXATION; INCOME INEQUALITY", "PROGRESSI…
$ TC    <dbl> 71, 1, 4, 6, 2, 9, 0, 0, 2, 3, 1, 4, 4, 22, 2, 9, 23, 10, 26, 0,…
$ DT    <chr> "ARTICLE", "ARTICLE", "ARTICLE", "ARTICLE", "ARTICLE", "ARTICLE"…
$ AU_UN <chr> "UNIVERSITY OF VIRGINIA;UNIVERSITY OF TORONTO;UNIVERSITY TORONTO…

Esses são apenas alguns dos campos mais usados. O glossário completo dos códigos de campos (Field Tags) pode ser acessado aqui.

Análise bibliométrica básica

A função biblioAnalysis() realiza uma análise exploratória automática dos dados bibliográficos importados.

Esta função gera várias estatísticas descritivas, como:

→ Número de autores

→ Número de documentos

→ Revistas que mais publicaram

→ Autores mais produtivos

→ Citações recebidas

→ Palavras-chave mais usadas

resultado <- biblioAnalysis(dados)

Depois de fazer a análise, pode-se usar summary() para resumir e visualizar as principais informações.

summary(resultado, k = 10)

Visualização dos resultados

Após realizar a análise bibliométrica básica, pode-se visualizar os principais resultados de forma gráfica usando a função plot().

plot(resultado)

Leitura no biblioshiny

Por que exportar a base?

O Biblioshiny (interface gráfica do bibliometrix) permite carregar dados manualmente a partir de um arquivo .xlsx.
Assim, se quisermos analisar uma base já tratada no R dentro do Biblioshiny, precisamos exportá-la para o formato Excel.
- Utilizamos a função write.xlsx() do pacote openxlsx para salvar o data frame como um arquivo .xlsx.

write.xlsx(x = dados,
           file = "dados/dados.xlsx", 
           rowNames = FALSE)

Leitura no biblioshiny

Na interface do biblioshiny (biblioshiny) > Load Data > Load Bibliometrix file(s) > Arquivo exportado em .xlsx

Exercício de Fixação II

Utilizando a palavra-chave “climate change” e “income inequality”, realize a atividade proposta a seguir.

Acesse uma das bases de dados disponíveis, Web of Science ou Scopus, por meio do Portal de Periódicos da CAPES. Após obter os resultados da pesquisa, exporte o conjunto de dados em formato Plaintext (.txt), caso utilize a Web of Science, ou em formato CSV (.csv), caso utilize a Scopus.
Após importar os dados para o R, utilize a função biblioAnalysis() para gerar uma análise bibliométrica exploratória básica. Em seguida, execute biblioshiny() para abrir a interface gráfica do bibliometrix.

Referências

ARIA, M.; CUCCURULLO, C. bibliometrix: An R-tool for comprehensive science mapping analysis. Journal of informetrics, [s. l.], v. 11, n. 4, p. 959–975, 2017.

CEBALLOS, M.; CARDIEL, N. Data structure. [S. l.]: In: First Steps in R, 2013.

GEEKSFORGEEKS. DataFrame Operations in R. [S. l.: s. n.], 2025. Disponível em: https://www.geeksforgeeks.org/dataframe-operations-in-r/.

SMITH, Z. M. R in Practice. [S. l.: s. n.], 2019.

STAUFFER, R.; CHIMIAK-OPOKA, J.; RODRÍGUEZ-R, L. M.; SIMON, T.; ZEILEIS, A. Introduction to Programming with R. [S. l.]: Digital Science Center, Universität Innsbruck, 2025. Disponível em: https://discdown.org/rprogramming/index.html.