# O que é TF-IDF? O **TF-IDF (Term Frequency - Inverse Document Frequency)** é uma técnica utilizada para avaliar a importância de uma palavra dentro de um conjunto de textos (corpus). Ele combina dois fatores: ## 1. TF (Term Frequency) – Frequência do termo no documento Mede quantas vezes um termo aparece dentro de um documento em relação ao total de palavras no documento. A fórmula é: $$ TF(t) = \frac{\text{Número de vezes que a palavra } t \text{ aparece no documento}}{\text{Total de palavras no documento}} $$ **Exemplo:** Se a palavra *"trem"* aparece 3 vezes em um texto de 100 palavras, então: $$ TF(\text{"trem"}) = \frac{3}{100} = 0.03 $$ ## 2. IDF (Inverse Document Frequency) – Frequência inversa do documento Mede o quão rara ou comum uma palavra é dentro de um conjunto de documentos. A fórmula é: $$ IDF(t) = \log \left( \frac{N}{n_t} \right) $$ Onde: - \( N \) = Total de documentos no corpus - \( n_t \) = Número de documentos que contêm a palavra \( t \) **Exemplo:** Se a palavra *"trem"* aparece em apenas 1 de 10 documentos: $$ IDF(\text{"trem"}) = \log \left( \frac{10}{1} \right) = \log(10) = 1 $$ ## 3. Cálculo do TF-IDF O TF-IDF é simplesmente o produto de TF e IDF: $$ TF-IDF(t) = TF(t) \times IDF(t) $$ **Exemplo:** Considerando os valores anteriores: $$ TF-IDF(\text{"trem"}) = 0.03 \times 1 = 0.03 $$ Ou seja, quanto maior o valor de TF-IDF, mais relevante a palavra é dentro do documento em comparação ao restante do corpus. --- Esse conceito é muito utilizado em **Machine Learning**, **Processamento de Linguagem Natural (NLP)** e sistemas de **busca** para determinar palavras importantes dentro de textos. 🚀