{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# FAST version of the notebook:\n", "# *Faster than training from scratch - Fine-tuning the English GPT-2 in any language with Hugging Face and fastai v2 (practical case with Portuguese)*\n", "\n", "> Tutorial on how to use fastai v2 over Hugging Face's Transformers and Tokenizers libraries to fine-tune an English pre-trained transformer-based language model (GPT-2) to any language other than English" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Author: [Pierre Guillou](https://www.linkedin.com/in/pierreguillou)\n", "- Date: July 2020 (14/07/2020)\n", "- Post in medium: [Faster than training from scratch - Fine-tuning the English GPT-2 in any language with Hugging Face and fastai v2 (practical case with Portuguese)](https://medium.com/@pierre_guillou/faster-than-training-from-scratch-fine-tuning-the-english-gpt-2-in-any-language-with-hugging-f2ec05c98787)\n", "- Notebook with all explanation: [finetuning-English-GPT2-any-language-Portuguese-HuggingFace-fastaiv2.ipynb](https://github.com/piegu/fastai-projects/blob/master/finetuning-English-GPT2-any-language-Portuguese-HuggingFace-fastaiv2.ipynb)\n", "- Hugging face model page of [GPorTuguese-2](https://huggingface.co/pierreguillou/gpt2-small-portuguese): a language model for Portuguese text generation (and more NLP tasks...)\n", "- Other posts in medium of the GPT-2 series: \n", " - [NLP & fastai | GPT-2](https://medium.com/@pierre_guillou/nlp-fastai-gpt-2-16ee145a4a28)\n", " - [Byte-level BPE, an universal tokenizer but...](https://medium.com/@pierre_guillou/byte-level-bpe-an-universal-tokenizer-but-aff932332ffe)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Overview" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "In this tutorial, instead of training from scratch, we will see how to fine-tune in just over a day, on one GPU and with a little more than 1GB of training data an English pre-trained [transformer](https://arxiv.org/abs/1706.03762)-based language model to any another language. \n", "\n", "As a practical case, we fine-tune to Portuguese the [English pre-trained GPT-2](https://github.com/openai/gpt-2) by wrapping the [Transformers](https://github.com/huggingface/transformers) and [Tokenizers](https://github.com/huggingface/tokenizers) libraries of Hugging Face into [fastai v2](https://github.com/fastai/fastai2). We thus create a new language model: [GPorTuguese-2](https://huggingface.co/pierreguillou/gpt2-small-portuguese), a language model for Portuguese text generation (and more NLP tasks...)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "![The 3 main steps of fine-tuning the English GPT-2 to Portuguese with Hugging Face and fastai v2 (image edited from fast.ai NLP)](images/GPT2_tf_ft_approach.png \"The 3 main steps of fine-tuning the English GPT-2 to Portuguese with Hugging Face and fastai v2 (image edited from fast.ai NLP)\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Acknowledgment" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "This tutorial was made possible thanks to the computing power of the [AI Lab](https://www.linkedin.com/company/ailab-unb/) (University of Brasilia) to which I am attached as an Associate Researcher in NLP and the participation of its directors in the definition of the NLP strategy, Professors [Fabricio Ataides Braz](https://www.linkedin.com/in/fabricio-braz-b356457/) and [Nilton Correia da Silva](https://www.linkedin.com/in/nilton-silva-6097853/). Thank you so much!\n", "\n", "And special thanks to Sylvain Gugger for his [tutorial on Transformers and fastai v2](https://dev.fast.ai/tutorial.transformers) which is the basis of this tutorial." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Post, notebooks, Web App and model download" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "The main code of the tutorial is published in this post ([Faster than training from scratch - Fine-tuning the English GPT-2 in any language with Hugging Face and fastai v2 (practical case with Portuguese)](https://medium.com/@pierre_guillou/faster-than-training-from-scratch-fine-tuning-the-english-gpt-2-in-any-language-with-hugging-f2ec05c98787)), organized by paragraph. \n", "\n", "The complete code is in this notebook. However, as this notebook is very detailed, you can use this fast notebook finetuning-English-GPT2-any-language-Portuguese-HuggingFace-fastaiv2_FAST.ipynb (nbviewer version) if you just want to execute the code without explanation.\n", "\n", "In addition, our **GPorTuguese-2 (Portuguese GPT-2 small) , a language model for Portuguese text generation (and more NLP tasks...)**, is testable online in the [Hugging face model hub](https://huggingface.co/models) with all usage information at this address: https://huggingface.co/pierreguillou/gpt2-small-portuguese" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "![GPorTuguese-2 (Portuguese GPT-2 small) , a language model for Portuguese text generation (and more NLP tasks...)](images/hfmh.png \"GPorTuguese-2 (Portuguese GPT-2 small) , a language model for Portuguese text generation (and more NLP tasks...)\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Main coding steps to fine-tune a Hugging Face language model with fastai v2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "The 6 main steps detailed below can be summarized in 3 main ones:\n", "\n", "1. **Initialization & download** (download of Portuguese Wikipedia and GPT-2 English pre-trained model and tokenizer)\n", "2. **GPT-2 tokenizer with a Portuguese vocab** (train a GPT-2 tokenizer with a vocab in Portuguese, wrap it into a fastai v2 tokenizer and update the embeddings matrix of the GPT-2 English pre-trained model according to the new Portuguese vocab: keep the embeddings vectors of the common tokens between English and Portuguese vocabs)\n", "3. **Fine-tune on Portuguese Wikipedia the GPT-2 model with fastai v2 training functionalities**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1. Initialization" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "nbpresent": { "id": "151cd18f-76e3-440f-a8c7-ffa5c6b5da01" } }, "outputs": [], "source": [ "from fastai2.text.all import *\n", "from nlputils_fastai2 import * \n", "\n", "%reload_ext autoreload\n", "%autoreload 2\n", "%matplotlib inline" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "nbpresent": { "id": "6ceb4db2-e4cf-4fe0-a393-91df4a7ed3e7" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "cuda device: 0\n" ] } ], "source": [ "gpu = 0\n", "torch.cuda.set_device(gpu)\n", "print(f'cuda device: {torch.cuda.current_device()}')\n", "# print(f'cuda device name: {torch.cuda.get_device_name(gpu)}')" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'archive_path': '/storage/archive/',\n", " 'data_path': '/storage/data/',\n", " 'model_path': '/storage/models/',\n", " 'storage_path': '/storage/data/',\n", " 'version': 2}" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Get config of paths\n", "config = Config()\n", "config.d" ] }, { "cell_type": "markdown", "metadata": { "nbpresent": { "id": "cf070ab7-babb-4cf0-a315-401f65461dc8" } }, "source": [ "This will create a `{lang}wiki` folder, containing a `{lang}wiki` text file with the wikipedia contents. (For other languages, replace `{lang}` with the appropriate code from the [list of wikipedias](https://meta.wikimedia.org/wiki/List_of_Wikipedias).)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "nbpresent": { "id": "70da588b-8af1-4f97-97c2-c9f2d4d46e1a" } }, "outputs": [], "source": [ "lang = 'pt'" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "nbpresent": { "id": "701ab344-0430-4f43-bbe2-337a12cae6be" } }, "outputs": [], "source": [ "# setup new path_data and create the corresponding folder\n", "name = f'{lang}wiki'\n", "data_path = config['data_path']\n", "path_data = data_path/name\n", "path_data.mkdir(exist_ok=True, parents=True)" ] }, { "cell_type": "markdown", "metadata": { "nbpresent": { "id": "bfe49910-58e0-4be3-aba1-7733dc18cca2" } }, "source": [ "### 2. Download Wikipedia in Portuguese" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Note**: all the following methods come from the file nlputils_fastai2.py." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(Path('/mnt/home/pierre/course-v4/nbs'),\n", " Path('/mnt/home/pierre/.fastai/data/ptwiki'))" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "Path.cwd(), path_data" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "/mnt/home/pierre/.fastai/data/ptwiki/ptwiki already exists; not downloading\n" ] } ], "source": [ "get_wiki(path_data,lang)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "If `get_wiki(path_data,lang)` breaks, fix the download manually no terminal:\n", "- mkdir -p /mnt/home/pierre/.fastai/data/ptwiki\n", "- cd /mnt/home/pierre/.fastai/data/ptwiki\n", "- wget -c https://dumps.wikimedia.org/ptwiki/latest/ptwiki-latest-pages-articles.xml.bz2\n", "- bzip2 -dk ptwiki-latest-pages-articles.xml.bz2\n", "\n", "And re-run `get_wiki(path_data,lang)` once the download is successful." ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\r\n", "Astronomia\r\n", "\r\n", "Astronomia é uma ciência natural que estuda corpos celestes (como estrelas, planetas, cometas, nebulosas, aglomerados de estrelas, galáxias) e fenômenos que se originam fora da atmosfera da Terra (como a radiação cósmica de fundo em micro-ondas). Preocupada com a evolução, a física, a química e o movimento de objetos celestes, bem como a formação e o desenvolvimento do universo.\r\n" ] } ], "source": [ "!head -n4 {path_data}/{name}" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "/mnt/home/pierre/.fastai/data/ptwiki/docs already exists; not splitting\n" ] } ], "source": [ "dest = split_wiki(path_data,lang)" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "/mnt/home/pierre/.fastai/data/ptwiki/docs/Fotografia.txt\n", "/mnt/home/pierre/.fastai/data/ptwiki/docs/Espadanedo (Macedo de Cavaleiros).txt\n", "/mnt/home/pierre/.fastai/data/ptwiki/docs/Jacques-Germain Soufflot.txt\n", "/mnt/home/pierre/.fastai/data/ptwiki/docs/Faculdade de Medicina da Universidade de São Paulo.txt\n", "/mnt/home/pierre/.fastai/data/ptwiki/docs/Escola do Teatro Bolshoi no Brasil.txt\n" ] } ], "source": [ "dest = path_data/'docs'\n", "for file in dest.ls()[:5]:\n", " print(file)" ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "203205 files - 193686269 tokens\n", "CPU times: user 1min, sys: 20.8 s, total: 1min 21s\n", "Wall time: 11min 16s\n" ] } ], "source": [ "%%time\n", "# Size of downloaded data in the docs folder\n", "num_files, num_tokens = get_num_tokens(dest)\n", "print(f'{num_files} files - {num_tokens} tokens')" ] }, { "cell_type": "markdown", "metadata": { "nbpresent": { "id": "bfe49910-58e0-4be3-aba1-7733dc18cca2" } }, "source": [ "#### Create text and csv files of wikipedia in Portuguese" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "dest = path_data/'docs'" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Text file" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "%%time\n", "get_one_clean_file(dest,lang)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### csv file" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "%%time\n", "get_one_clean_csv_file(dest,lang)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 3. Download a GPT-2 English pre-trained model and train a GPT-2 tokenizer with a vocab in Portuguese" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We are following 3 steps in order to **get a GPT-2 tokenizer with the vocab in Portuguese**:\n", "- 3.1) **Get the pre-trained GPT-2 Tokenizer & Model (pre-training with an English corpus) from the Transformers library (Hugging Face)**: it will give us the tokenizer structure we need and the pre-trained model weights (it's better to start training our GPT-2 model in Portuguese from weights already trained even in another language than from random values)\n", "- 3.2) **Train a Byte-level BPE (BBPE) Tokenizer on the Portuguese Wikipedia corpus by using the Tokenizers library (Hugging Face)**: this will give us the vocabulary files in Portuguese of our GPT-2 tokenizer.\n", "- 3.3) **Import the tokenizer Portuguese config files into the pre-trained GPT-2 Tokenizer**: it will give us a GPT-2 tokenizer structure with the vocab in Portuguese." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 3.1 Get the pre-trained GPT2 Tokenizer & Model (pre-training with an English corpus)" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "transformers==3.0.0\r\n" ] } ], "source": [ "# ! pip install transformers\n", "!pip freeze | grep transformers" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "from transformers import GPT2TokenizerFast, GPT2LMHeadModel" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "Some weights of GPT2LMHeadModel were not initialized from the model checkpoint at gpt2 and are newly initialized: ['h.0.attn.masked_bias', 'h.1.attn.masked_bias', 'h.2.attn.masked_bias', 'h.3.attn.masked_bias', 'h.4.attn.masked_bias', 'h.5.attn.masked_bias', 'h.6.attn.masked_bias', 'h.7.attn.masked_bias', 'h.8.attn.masked_bias', 'h.9.attn.masked_bias', 'h.10.attn.masked_bias', 'h.11.attn.masked_bias', 'lm_head.weight']\n", "You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 13 s, sys: 922 ms, total: 13.9 s\n", "Wall time: 7.48 s\n" ] } ], "source": [ "%%time\n", "pretrained_weights = 'gpt2'\n", "tokenizer_en = GPT2TokenizerFast.from_pretrained(pretrained_weights)\n", "model_en = GPT2LMHeadModel.from_pretrained(pretrained_weights)" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [], "source": [ "# To correct the warning about token_pad (GPT2TokenizerFast), run the following code\n", "# source: https://github.com/huggingface/transformers/issues/2648#issuecomment-616177044\n", "tokenizer_en.pad_token = tokenizer_en.eos_token" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 3.2 Train a Byte Level BPE (BBPE) Tokenizer on the Portuguese Wikipedia" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "tokenizers==0.8.0\r\n" ] } ], "source": [ "# !pip install tokenizers\n", "!pip freeze | grep tokenizers" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Training" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "50257" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Get GPT2 tokenizer_en vocab size\n", "ByteLevelBPE_tokenizer_pt_vocab_size = tokenizer_en.vocab_size\n", "ByteLevelBPE_tokenizer_pt_vocab_size" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 5h 47min 23s, sys: 43min 12s, total: 6h 30min 35s\n", "Wall time: 10min 52s\n" ] }, { "data": { "text/plain": [ "['/mnt/home/pierre/.fastai/data/ptwiki/ByteLevelBPE_tokenizer_pt/vocab.json',\n", " '/mnt/home/pierre/.fastai/data/ptwiki/ByteLevelBPE_tokenizer_pt/merges.txt']" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "%%time\n", "# ByteLevelBPETokenizer Represents a Byte-level BPE as introduced by OpenAI with their GPT-2 model\n", "from tokenizers import ByteLevelBPETokenizer\n", "\n", "ByteLevelBPE_tokenizer_pt = ByteLevelBPETokenizer()\n", "\n", "# Get list of paths to corpus files\n", "paths = [str(path_data/'all_texts_ptwiki.txt')]\n", "\n", "# Customize training with <|endoftext|> special GPT2 token\n", "ByteLevelBPE_tokenizer_pt.train(files=paths, \n", " vocab_size=ByteLevelBPE_tokenizer_pt_vocab_size, \n", " min_frequency=2, \n", " special_tokens=[\"<|endoftext|>\"])\n", "\n", "# Get sequence length max of 1024\n", "ByteLevelBPE_tokenizer_pt.enable_truncation(max_length=1024)\n", "\n", "# save tokenizer\n", "ByteLevelBPE_tokenizer_pt_rep = 'ByteLevelBPE_tokenizer_pt'\n", "path_to_ByteLevelBPE_tokenizer_pt_rep = path_data/ByteLevelBPE_tokenizer_pt_rep\n", "if not (path_to_ByteLevelBPE_tokenizer_pt_rep).exists():\n", " path_to_ByteLevelBPE_tokenizer_pt_rep.mkdir(exist_ok=True, parents=True)\n", "ByteLevelBPE_tokenizer_pt.save_model(str(path_to_ByteLevelBPE_tokenizer_pt_rep))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We now have both a vocab.json, which is a list of the most frequent tokens ranked by frequency, and a merges.txt list of merges." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Check our tokenizer pre-trained in Portuguese" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "# Load the tokenizer ByteLevelBPE_tokenizer_pt\n", "from tokenizers import ByteLevelBPETokenizer\n", "\n", "# Get the path to ByteLevelBPE_tokenizer_pt config files\n", "ByteLevelBPE_tokenizer_pt_rep = 'ByteLevelBPE_tokenizer_pt'\n", "path_to_ByteLevelBPE_tokenizer_pt_rep = path_data/ByteLevelBPE_tokenizer_pt_rep\n", "\n", "ByteLevelBPE_tokenizer_pt = ByteLevelBPETokenizer(\n", " vocab_file=f'{path_to_ByteLevelBPE_tokenizer_pt_rep}/vocab.json',\n", " merges_file=f'{path_to_ByteLevelBPE_tokenizer_pt_rep}/merges.txt'\n", ")\n", "\n", "# Get sequence length max of 1024\n", "ByteLevelBPE_tokenizer_pt.enable_truncation(max_length=1024)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 4. Create a fastai tokenizer and update the embeddings matrix of the GPT-2 English pre-trained model" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Now let's see how we can use fastai v2 to fine-tune this model on Wikipedia in Portuguese, using all the fastai v2 training utilities.\n", "\n", "We will follow these 2 following steps:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 4.1) **GPT2TokenizerFast (imported GPT-2 tokenizer) --> fastai Tokenizer**: to process the data to train a model, we need to build a fastai tokenizer from the GPT-2 tokenizer with vocab in Portuguese.\n", "- 4.2) **Change vocab embeddings (wte matrix) in the GPT-2 pre-trained model to adapt to the Portuguese vocab**: as the vocab embedding matrix (wte) of the pre-trained GPT-2 model corresponds to the English vocabulary, we'll keep the embeddings vectors of the common tokens between the English and Portuguese vocab." ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "from fastai2.text.all import *" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 4.1 GPT2TokenizerFast (imported GPT-2 tokenizer) --> fastai Tokenizer" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [], "source": [ "class TransformersTokenizer(Transform):\n", " def __init__(self, tokenizer): self.tokenizer = tokenizer\n", " def encodes(self, x): \n", " toks = self.tokenizer.tokenize(x)\n", " return tensor(self.tokenizer.convert_tokens_to_ids(toks))\n", " def decodes(self, x): return TitledStr(self.tokenizer.decode(x.cpu().numpy()))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Tokenizers" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "Some weights of GPT2LMHeadModel were not initialized from the model checkpoint at gpt2 and are newly initialized: ['h.0.attn.masked_bias', 'h.1.attn.masked_bias', 'h.2.attn.masked_bias', 'h.3.attn.masked_bias', 'h.4.attn.masked_bias', 'h.5.attn.masked_bias', 'h.6.attn.masked_bias', 'h.7.attn.masked_bias', 'h.8.attn.masked_bias', 'h.9.attn.masked_bias', 'h.10.attn.masked_bias', 'h.11.attn.masked_bias', 'lm_head.weight']\n", "You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 16.3 s, sys: 831 ms, total: 17.1 s\n", "Wall time: 6.94 s\n" ] } ], "source": [ "%%time\n", "# Load the GPT2 tokenizer in English\n", "from transformers import GPT2TokenizerFast, GPT2LMHeadModel\n", "pretrained_weights = 'gpt2'\n", "tokenizer_en = GPT2TokenizerFast.from_pretrained(pretrained_weights)\n", "model_en = GPT2LMHeadModel.from_pretrained(pretrained_weights)\n", "\n", "# To correct the warning about token_pad (GPT2TokenizerFast), run the following code\n", "# source: https://github.com/huggingface/transformers/issues/2648#issuecomment-616177044\n", "tokenizer_en.pad_token = tokenizer_en.eos_token" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [], "source": [ "# Get the path to ByteLevelBPE_tokenizer_pt config files\n", "ByteLevelBPE_tokenizer_pt_rep = 'ByteLevelBPE_tokenizer_pt'\n", "path_to_ByteLevelBPE_tokenizer_pt_rep = path_data/ByteLevelBPE_tokenizer_pt_rep\n", "\n", "# import the pre-trained GPT2TokenizerFast tokenizer with the tokenizer_pt config files\n", "tokenizer_pt = GPT2TokenizerFast.from_pretrained(\n", " str(path_to_ByteLevelBPE_tokenizer_pt_rep), \n", " pad_token='<|endoftext|>')\n", "\n", "# Get sequence length max of 1024\n", "tokenizer_pt.model_max_length = 1024" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 4.2 Change vocab embeddings (wte matrix) in the GPT-2 pre-trained model to adapt to the Portuguese vocab" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Check vocabs size" ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(50257, 50257, 0)" ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tokenizer_fastai_en = TransformersTokenizer(tokenizer_en)\n", "old_vocab_size = tokenizer_fastai_en.tokenizer.vocab_size\n", "\n", "tokenizer_fastai_pt = TransformersTokenizer(tokenizer_pt)\n", "new_vocab_size = tokenizer_fastai_pt.tokenizer.vocab_size\n", "\n", "old_vocab_size,new_vocab_size,old_vocab_size-new_vocab_size" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Changing vocabs and the vocab embeddings matrix (ie, setup new embeddings matrix)" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [], "source": [ "# Get weights of the old wte\n", "old_wgts = model_en.transformer.get_input_embeddings().weight.clone().detach()\n", "\n", "# Get the mean embedding vetor of the old wte\n", "wgts_m = old_wgts.mean(0)\n", "\n", "# Initialize vocab size and weights of the new wte\n", "new_vocab_size = tokenizer_fastai_pt.tokenizer.vocab_size\n", "new_wgts = old_wgts.new_zeros(new_vocab_size,old_wgts.size(1))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Save**" ] }, { "cell_type": "code", "execution_count": 74, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Portuguese wte matrix setup done!\n", "\n", "We kept 12948 embeddings vetors from the English one.\n", "We did not kept 37309 embeddings vetors from the English one (we used the old wte mean vetor).\n", "\n", "15 first tokens IN common between the 2 vocabs:\n", "[('ĠQuit', 40195), ('Smith', 32470), ('Ġomit', 39040), ('oc', 574), ('ym', 18252), ('Ġactual', 9443), ('ck', 911), ('ĠPremier', 16558), ('Ġeste', 987), ('ĠInd', 3438), ('Ġbol', 4203), ('phen', 35836), ('ĠParticip', 36689), ('ĠZeus', 19316), ('Ġnan', 39770)]\n", "\n", "15 first tokens NOT in common between the 2 vocabs:\n", "[('PSDB', 23151), ('Ġenvio', 19270), ('Ġocupação', 5938), ('Ġdocumentada', 30011), ('Ġduros', 36706), ('visto', 44422), ('ĠSiro', 43061), ('Ġdestacavam', 47397), ('Ġarqui', 49060), ('ĠArte', 5977), ('ĠValor', 29721), ('Ġalinhados', 38446), ('Ġnúmeros', 4626), ('Ġpênis', 31686), ('cisa', 29710)]\n" ] } ], "source": [ "# Get the new wte keeping the embeddings vetors of tokens in common in the 2 vocabs\n", "# A token present in the new vocab but not in the old one gets the mean embedding vetor of the old wte\n", "old_vocab = tokenizer_fastai_en.tokenizer.get_vocab()\n", "new_vocab = tokenizer_fastai_pt.tokenizer.get_vocab()\n", "same_tokens_list = list()\n", "different_tokens_list = list()\n", " \n", "for w,idx_new in new_vocab.items(): \n", " idx_old = old_vocab.get(w, -1)\n", " if idx_old>=0:\n", " new_wgts[idx_new] = old_wgts[idx_old]\n", " same_tokens_list.append((w,idx_new))\n", " else:\n", " new_wgts[idx_new] = wgts_m\n", " different_tokens_list.append((w,idx_new))\n", "\n", "# setup in model the new wte\n", "new_wte = nn.Embedding(new_vocab_size,old_wgts.size(1))\n", "#new_wte.weight.data.normal_(mean=0.0, std=model.config.initializer_range)\n", "new_wte.weight.data = new_wgts\n", "model_en.transformer.set_input_embeddings(new_wte)\n", "print(f'Portuguese wte matrix setup done!\\n\\nWe kept {len(same_tokens_list)} embeddings vectors from the English one.\\nWe did not kept {len(different_tokens_list)} embeddings vectors from the English one (instead, we used the old wte mean vector).\\n')\n", "\n", "# Check identical tokens between the 2 vocabs \n", "num = 15\n", "print(f'{num} first tokens IN common between the 2 vocabs:\\n{same_tokens_list[:num]}\\n')\n", "print(f'{num} first tokens NOT in common between the 2 vocabs:\\n{different_tokens_list[:num]}')\n", "\n", "# save new_wgts\n", "torch.save(new_wgts, path_data/'new_wte_wgts.pt')\n", "# save same_tokens_list and different_tokens_list\n", "torch.save(same_tokens_list, path_data/'same_tokens_list.pt')\n", "torch.save(different_tokens_list, path_data/'different_tokens_list.pt')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Load**" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Portuguese wte matrix setup done!\n", "\n", "We kept 12948 embeddings vetors from the English one.\n", "We did not kept 37309 embeddings vetors from the English one (we used the old wte mean vetor).\n", "\n", "15 first tokens IN common between the 2 vocabs:\n", "[('ĠQuit', 40195), ('Smith', 32470), ('Ġomit', 39040), ('oc', 574), ('ym', 18252), ('Ġactual', 9443), ('ck', 911), ('ĠPremier', 16558), ('Ġeste', 987), ('ĠInd', 3438), ('Ġbol', 4203), ('phen', 35836), ('ĠParticip', 36689), ('ĠZeus', 19316), ('Ġnan', 39770)]\n", "\n", "15 first tokens NOT in common between the 2 vocabs:\n", "[('PSDB', 23151), ('Ġenvio', 19270), ('Ġocupação', 5938), ('Ġdocumentada', 30011), ('Ġduros', 36706), ('visto', 44422), ('ĠSiro', 43061), ('Ġdestacavam', 47397), ('Ġarqui', 49060), ('ĠArte', 5977), ('ĠValor', 29721), ('Ġalinhados', 38446), ('Ġnúmeros', 4626), ('Ġpênis', 31686), ('cisa', 29710)]\n" ] } ], "source": [ "# load new_wgts\n", "new_wgts = torch.load(path_data/'new_wte_wgts.pt')\n", "# load same_tokens_list and different_tokens_list\n", "same_tokens_list = torch.load(path_data/'same_tokens_list.pt')\n", "different_tokens_list = torch.load(path_data/'different_tokens_list.pt')\n", " \n", "# setup in model the new wte\n", "new_wte = nn.Embedding(new_vocab_size,old_wgts.size(1))\n", "new_wte.weight.data = new_wgts\n", "model_en.transformer.set_input_embeddings(new_wte)\n", "print(f'Portuguese wte matrix setup done!\\n\\nWe kept {len(same_tokens_list)} embeddings vectors from the English one.\\nWe did not kept {len(different_tokens_list)} embeddings vectors from the English one (instead, we used the old wte mean vector).\\n')\n", "\n", "# Check identical tokens between the 2 vocabs \n", "num = 15\n", "print(f'{num} first tokens IN common between the 2 vocabs:\\n{same_tokens_list[:num]}\\n')\n", "print(f'{num} first tokens NOT in common between the 2 vocabs:\\n{different_tokens_list[:num]}')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Changing lm_head weights with the new embeddings matrix" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Linear(in_features=768, out_features=50257, bias=False)" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model_en.lm_head.weight = model_en.transformer.wte.weight\n", "model_en.lm_head" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 5. Create fastai v2 Datasets and Dataloaders" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 5.1 fastai v2 Datasets" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*(text from Sylvain Gugger Transformers Tutorial)* You can then group your data with this `Transform` using a `TfmdLists`. It has an s in its name because it contains the training and validation datasets.\n", "\n", "We indicate the indices of the training dataset and the validation dataset with `splits` (here, 80% of the indices randomly chosen, then all the remaining indices)." ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "203205" ] }, "execution_count": 37, "metadata": {}, "output_type": "execute_result" } ], "source": [ "lang = 'pt'\n", "fname = f'all_texts_{lang}wiki.csv'\n", "df = pd.read_csv(path_data/fname)\n", "len(df)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Sample (this allows us to quickly test our code)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- train: 80%\n", "- val = 20%" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [], "source": [ "df_sample = df[:1000]\n", "\n", "num = int(0.8*len(df_sample))\n", "\n", "idxs = np.random.randint(0, len(df_sample), len(df_sample))\n", "idxs_train = idxs[:num]\n", "idxs_val = idxs[num:]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We gather all texts in one numpy array (since it will be easier to use this way with fastai):" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 1.46 ms, sys: 218 µs, total: 1.68 ms\n", "Wall time: 1.61 ms\n" ] } ], "source": [ "%%time\n", "all_texts = np.concatenate([df_sample.iloc[idxs_train].text.values, df_sample.iloc[idxs_val].text.values])" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 322 ms, sys: 43.1 ms, total: 365 ms\n", "Wall time: 33.3 ms\n" ] } ], "source": [ "%%time\n", "splits = [list(idxs_train), list(idxs_val)]\n", "tls = TfmdLists(all_texts, TransformersTokenizer(tokenizer_pt), splits=splits, dl_type=LMDataLoader)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We specify `dl_type=LMDataLoader` for when we will convert this `TfmdLists` to `DataLoaders`: we will use an `LMDataLoader` since we have a language modeling problem, not the usual fastai `TfmdDL`." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### All data" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- train: 80%\n", "- val = 20%" ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [], "source": [ "# num = int(0.8*len(df))\n", "\n", "# idxs = np.random.randint(0, len(df), len(df))\n", "# idxs_train = idxs[:num]\n", "# idxs_val = idxs[num:]\n", "\n", "# save idxs train and valid\n", "# torch.save(idxs_train, path_data/'idxs_train.pt')\n", "# torch.save(idxs_val, path_data/'idxs_val.pt')" ] }, { "cell_type": "code", "execution_count": 40, "metadata": {}, "outputs": [], "source": [ "# load idxs train and valid\n", "idxs_train = torch.load(path_data/'idxs_train.pt')\n", "idxs_val = torch.load(path_data/'idxs_val.pt')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We gather all texts in one numpy array (since it will be easier to use this way with fastai):" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 42.6 ms, sys: 3.79 ms, total: 46.4 ms\n", "Wall time: 44.6 ms\n" ] } ], "source": [ "%%time\n", "all_texts = np.concatenate([df.iloc[idxs_train].text.values, df.iloc[idxs_val].text.values])" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 340 ms, sys: 31.9 ms, total: 372 ms\n", "Wall time: 151 ms\n" ] } ], "source": [ "%%time\n", "splits = [list(idxs_train), list(idxs_val)]\n", "tls = TfmdLists(all_texts, TransformersTokenizer(tokenizer_pt), splits=splits, dl_type=LMDataLoader)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We specify `dl_type=LMDataLoader` for when we will convert this `TfmdLists` to `DataLoaders`: we will use an `LMDataLoader` since we have a language modeling problem, not the usual fastai `TfmdDL`." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 5.2 fastai v2 Dataloaders" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*(text from Sylvain Gugger Transformers Tutorial)* The fastai v2 library expects the data to be assembled in a `DataLoaders` object (something that has a training and validation dataloader). We can get one by using the `dataloaders` method. We just have to specify a batch size and a sequence length. \n", "\n", "Since the GPT-2 model was trained with sequences of size 1024, we use this sequence length (it's a stateless model, so it will change the perplexity if we use less)." ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 6h 43min 14s, sys: 59min 46s, total: 7h 43min\n", "Wall time: 31min 27s\n" ] } ], "source": [ "%%time\n", "bs,sl = 8,1024\n", "dls = tls.dataloaders(bs=bs, seq_len=sl)" ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 4 µs, sys: 1e+03 ns, total: 5 µs\n", "Wall time: 11 µs\n" ] } ], "source": [ "%%time\n", "\n", "# IMPOSSIBLE TO SAVE Dataloaders at the date of 07/01/2020\n", "# source: https://forums.fast.ai/t/how-to-save-dataloaders/73828/6\n", "\n", "# save\n", "# fname = 'dls_ptwiki_tokenizerGPT2.pkl'\n", "# torch.save(dls, path_data/fname)\n", "\n", "# load\n", "# dls = torch.load(path_data/fname)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 6. Fine-tuning the model" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*(text from Sylvain Gugger Transformers Tutorial)* The Hugging Face model will return a tuple in outputs, with the actual predictions and some additional activations (should we want to use them is some regularization scheme). To work inside the fastai training loop, we will need to drop those using a `Callback`: we use those to alter the behavior of the training loop.\n", "\n", "Here we need to write the event `after_pred` and replace `self.learn.pred` (which contains the predictions that will be passed to the loss function) by just its first element. In callbacks, there is a shortcut that lets you access any of the underlying `Learner` attribute so we can write `self.pred[0]` instead of `self.learn.pred[0]`. That shorcut only works for read access, not write, so we have to write `self.learn.pred` on the right side (otherwise we would set a `pred` attribute in the `Callback`)." ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [], "source": [ "class DropOutput(Callback):\n", " def after_pred(self): self.learn.pred = self.pred[0]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 6.1 Splitter (get layers groups)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "The model has 2 main layers groups: `transformer` and `lm_head`. As we can read in [The illustrated GPT2](http://jalammar.github.io/illustrated-gpt2/#model-output), the `lm_head` is a copy of the embeddings matrix `wte`. Therefore, we need to split only the `transformer` layers group to get all layers." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We decided to follow the fine-tuning method showed in the notebook [10_nlp.ipynb](https://github.com/fastai/fastbook/blob/master/10_nlp.ipynb) by creating 4 layers groups: 3 layers groups of 4 decoder blocks and one embeddings groups with the wte and wpe matrices." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Split a GPT2 model in 4 groups for differential learning rates" ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [], "source": [ "def splitter(model):\n", " \"Split a GPT2 `model` in 3 groups for differential learning rates.\"\n", " \n", " # First layers group : decoder blocks from 0 to 3\n", " modules = []\n", " for i in range(4): modules.append(model.transformer.h[i])\n", " groups = [nn.Sequential(*modules)]\n", "\n", " # Second layers group : decoder blocks from 4 to 7\n", " modules = []\n", " for i in range(4,8,1): modules.append(model.transformer.h[i])\n", " groups = L(groups + [nn.Sequential(*modules)])\n", "\n", " # Third layers group : decoder blocks from 8 to 11\n", " modules = []\n", " for i in range(8,12,1): modules.append(model.transformer.h[i])\n", " groups = L(groups + [nn.Sequential(*modules)])\n", " \n", " # Fourth layers group : embeddings matrices wte and wpe + LayerNorm at the model output\n", " groups = L(groups + [nn.Sequential(model.transformer.wte,model.transformer.wpe,model.transformer.ln_f)])\n", " \n", " return groups.map(params)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 6.2 Learner" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*(text from Sylvain Gugger Transformers Tutorial)* Now, we are ready to create our `Learner`, which is a fastai object grouping data, model and loss function and handles model training or inference. Since we are in a language model setting, we pass accuracy and perplexity as metrics, and we need to use the callback we just defined. Lastly, we use mixed precision to save every bit of memory we can (and if you have a modern GPU, it will also make training faster)." ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [], "source": [ "# Learner: basic class for handling the training loop\n", "# source: https://dev.fast.ai/learner#Learner\n", "learn = Learner(dls, model_en, loss_func=CrossEntropyLossFlat(),\n", " splitter = splitter,\n", " cbs=[DropOutput], \n", " metrics=[accuracy, Perplexity()]).to_fp16()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We can check how good the model is without any fine-tuning step." ] }, { "cell_type": "code", "execution_count": 97, "metadata": {}, "outputs": [ { "data": { "text/html": [], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 4h 45min 53s, sys: 1h 1min 36s, total: 5h 47min 30s\n", "Wall time: 53min 2s\n" ] }, { "data": { "text/plain": [ "(#3) [9.949938774108887,0.09898579120635986,20950.939453125]" ] }, "execution_count": 97, "metadata": {}, "output_type": "execute_result" } ], "source": [ "%%time\n", "# loss, accuracy, Perplexity() of validation dataset\n", "learn.validate()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Loss = 9.95\n", "- accuracy = 0.099\n", "- perplexity = 20950.94" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Now that we have a `Learner`, we will use during training all the **fine-tuning techniques** seen for classification model training (see the notebook [10_nlp.ipynb](https://github.com/fastai/fastbook/blob/master/10_nlp.ipynb) about \"NLP Deep Dive: RNNs\") to take advantage of the **Transfer Learning** of the GPT-2 pre-trained embeddings and model from Hugging Face Transformers:\n", "- **learning rate finder** (method that helps finding the best learning rate to train the model)\n", "- **Mixed precision training** (some of the operations will be done in FP16, others in FP32 in order to speed up the training)\n", "- **gradual unfreezing** (the model has 4 layers groups created by our method `splitter` : the embedding one and the 3 groups of 4 decoder blocks each)\n", "- **1cycle policy** with the method [fit_one_cycle()](https://dev.fast.ai/callback.schedule#Learner.fit_one_cycle) (The 1cycle policy was introduced by Leslie N. Smith et al. in Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates. It schedules the learning rate with a cosine annealing from `lr_max/div` to `lr_max` then `lr_max/div_final` (pass an array to `lr_max` if you want to use differential learning rates) and the momentum with cosine annealing according to the values in `moms`. The first phase takes `pct_start` of the training. You can optionally pass additional `cbs` and `reset_opt`.)\n", "- **differential learning rates** (each layers group with a learning rate different: the biggest one for the embeddings group, and the smallest one for the first 4 decoder blocks)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### 6.2.1 Freeze all layers but the last layers group (do not freeze `wte`, `wpe` embeddings matrices and last `LayerNorm`)" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "text/html": [], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 4min 21s, sys: 58.9 s, total: 5min 20s\n", "Wall time: 1min 5s\n" ] }, { "data": { "text/plain": [ "SuggestedLRs(lr_min=0.005754399299621582, lr_steep=2.2908675418875646e-06)" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "%%time\n", "learn.freeze()\n", "learn.lr_find()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "The learning rate finder curve suggests picking a lr min of 6e-3. Let's use 2e-3." ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
epochtrain_lossvalid_lossaccuracyperplexitytime
03.8033443.6407770.32517738.1214415:48:31
" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" }, { "name": "stderr", "output_type": "stream", "text": [ "IOPub message rate exceeded.\n", "The notebook server will temporarily stop sending output\n", "to the client in order to avoid crashing it.\n", "To change this limit, set the config variable\n", "`--NotebookApp.iopub_msg_rate_limit`.\n", "\n", "Current values:\n", "NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)\n", "NotebookApp.rate_limit_window=3.0 (secs)\n", "\n" ] } ], "source": [ "learn.fit_one_cycle(1, 2e-3)" ] }, { "cell_type": "code", "execution_count": 101, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "#hide\n", "learn.recorder.plot_loss()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "In just **one epoch**, our model passed \n", "- from an accuracy of 9.90% to **32.52%**\n", "- from a perplexity of 20950.94 to **38.12**\n", "\n", "Not too bad! \n", "\n", "Now, We can pass `-2` to `freeze_to` to freeze all except the last two parameter groups." ] }, { "cell_type": "code", "execution_count": 105, "metadata": {}, "outputs": [], "source": [ "learn.save(path_data/'GPT2_pt_1epoch_lr2e-3')\n", "learn = learn.load(path_data/'GPT2_pt_1epoch_lr2e-3')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### 6.2.2 Freeze all layers but the last 2 layers groups" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
epochtrain_lossvalid_lossaccuracyperplexitytime
03.4539133.3018860.36287927.1638165:38:18
" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "learn.freeze_to(-2)\n", "learn.fit_one_cycle(1, slice(1e-3/(2.6**4),1e-3))" ] }, { "cell_type": "code", "execution_count": 20, "metadata": { "scrolled": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "#hide\n", "learn.recorder.plot_loss()" ] }, { "cell_type": "code", "execution_count": 58, "metadata": {}, "outputs": [], "source": [ "learn.save(path_data/'GPT2_pt_2epoch_lr1e-3')\n", "learn = learn.load(path_data/'GPT2_pt_2epoch_lr1e-3')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### 6.2.3 Freeze all layers but the last 3 layers groups" ] }, { "cell_type": "code", "execution_count": 22, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
epochtrain_lossvalid_lossaccuracyperplexitytime
03.3333893.2073900.37457924.7144876:20:51
" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "learn.freeze_to(-3)\n", "learn.fit_one_cycle(1, slice(5e-4/(2.6**4),5e-4))" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "#hide\n", "learn.recorder.plot_loss()" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [], "source": [ "learn.save(path_data/'GPT2_pt_3epoch_lr5e-4')\n", "learn = learn.load(path_data/'GPT2_pt_3epoch_lr5e-4')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### 6.2.4 Unfreeze all layers" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
epochtrain_lossvalid_lossaccuracyperplexitytime
03.2884333.1867210.37738024.2089066:06:29
13.2325693.1678640.37988523.7566876:16:22
" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "learn.unfreeze()\n", "learn.fit_one_cycle(2, slice(1e-4/(2.6**4),1e-4))" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "#hide\n", "learn.recorder.plot_loss()" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [], "source": [ "learn.save(path_data/'GPT2_pt_5epoch_lr1e-4_v2')\n", "learn = learn.load(path_data/'GPT2_pt_5epoch_lr1e-4_v2')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Model sharing and uploading in the Hugging Face model hub" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We can share our Portuguese GPT-2 on the Hugging Face [model hub](https://huggingface.co/models) following the tutorial [Model sharing and uploading](https://huggingface.co/transformers/model_sharing.html)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Your model now has a page on huggingface.co/models 🔥\n", "\n", "Anyone can load it from code:" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "tokenizer = AutoTokenizer.from_pretrained(\"namespace/awesome-name-you-picked\")\n", "model = AutoModel.from_pretrained(\"namespace/awesome-name-you-picked\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "In our case, the code is:" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "from transformers import AutoTokenizer, AutoModelWithLMHead\n", "\n", "tokenizer = AutoTokenizer.from_pretrained(\"pierreguillou/gpt2-small-portuguese\")\n", "model = AutoModelWithLMHead.from_pretrained(\"pierreguillou/gpt2-small-portuguese\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Check our [Hugging face model page](https://huggingface.co/pierreguillou/gpt2-small-portuguese) to get more information." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Text Generation by our Portuguese GPT-2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Now that we have a GPT-2 in Portuguese, we can use it for different tasks in NLP (Text Generation, Reading Comprehension, Translation, Summary) as showed in the post \"**GPT-2 use cases: beyond Text Generation**\".\n", "\n", "For now, let's use it to generate new texts, which allows us to check that it works properly and also have a little fun." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Text Generation techniques " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**At each stage of text generation, GPT-2 provides a vector of 50.257 probabilities** (each corresponds to a possible token of the vocabulary whose size is 50.257). To decide how to choose the output token from these probabilities, **there are at least 5 methods: Greedy, Beam Search, Sampling with temperature, Top-k sampling and Top-p (nucleus) sampling**.\n", "\n", "In this tutorial, we will test only 2 of these text generation methods: **Top-k sampling** and **Top-p (nucleus) sampling**.\n", "\n", "Note: to get more information on text generation techniques for transformer-based language model, read the article \"[How to generate text: using different decoding methods for language generation with Transformers](https://huggingface.co/blog/how-to-generate)\" from [Patrick von Platen](https://huggingface.co/patrickvonplaten) (Hugging Face, 03/18/2020)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### (Use case 1) Top-k sampling" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Our use case 1 follows the same method used by OpenAI in page 20 of the paper [Language Models are Unsupervised Multitask Learners](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf) by choosing **Top-k sampling** text generation technique with a **value of 40**.\n", "\n", "This text generation method is implemented in the `model.generate()` function of a Transformers model thanks to the following arguments:\n", "- `top_k` (int): the number of highest probability vocabulary tokens to keep for top-k-filtering. Between 1 and infinity. Default to 50." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### (Use case 2) Top-p (nucleus) sampling" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Our use case 2 follows the [top-p (nucleus) sampling](https://huggingface.co/blog/how-to-generate#top-p-nucleus-sampling) method with Top-p sampling (top_p = 0.95), top-k sampling (top_k = 50), temperature (temperature = 0.7) and repetition penalty (repetition_penalty = 1.2).\n", "\n", "This text generation method is implemented in the `model.generate()` function of a Transformers model thanks to the following arguments:\n", "- `top_p` (float): the cumulative probability of parameter highest probability vocabulary tokens to keep for nucleus sampling. Must be between 0 and 1. Default to 1.\n", "- `top_k` (int): the number of highest probability vocabulary tokens to keep for top-k-filtering. Between 1 and infinity. Default to 50.\n", "- `temperature` (float): the value used to module the next token probabilities. Must be strictly positive. Default to 1.0.\n", "- `repetition_penalty` (float): the parameter for repetition penalty. Between 1.0 and infinity. 1.0 means no penalty. Default to 1.0." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Text n°1 | Famous OpenAI generated text about unicorns" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "At the time of publication of GPT-2 in the article \"[Better Language Models and Their Implications](https://openai.com/blog/better-language-models/)\" (02/14/2019), the media retained from its different possibilities in NLP that of text generation because of the now famous text generated on unicorns from this small paragraph:\n", "\n", ">In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "From this text, GPT-2 wrote the following [sample](https://openai.com/blog/better-language-models/#samples) out of 10 tries:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English. \n", "\n", "The scientist named the population, after their distinctive horn, Ovid's Unicorn. These four-horned, silver-white unicorns were previously unknown to science. \n", "\n", "Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved. \n", "\n", "Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow. \n", "\n", "Pérez and the others then ventured further into the valley. “By the time we reached the top of one peak, the water looked blue, with some crystals on top,” said Pérez. \n", "\n", "Pérez and his friends were astonished to see the unicorn herd. These creatures could be seen from the air without having to move too much to see them – they were so close they could touch their horns. \n", "\n", "While examining these bizarre creatures the scientists discovered that the creatures also spoke some fairly regular English. Pérez stated, “We can see, for example, that they have a common ‘language,’ something like a dialect or dialectic.” \n", "\n", "Dr. Pérez believes that the unicorns may have originated in Argentina, where the animals were believed to be descendants of a lost race of people who lived there before the arrival of humans in those parts of South America. \n", "\n", "While their origins are still unclear, some believe that perhaps the creatures were created when a human and a unicorn met each other in a time before human civilization. According to Pérez, “In South America, such incidents seem to be quite common.” \n", "\n", "However, Pérez also pointed out that it is likely that the only way of knowing for sure if unicorns are indeed the descendants of a lost alien race is through DNA. “But they seem to be able to communicate in English quite well, which I believe is a sign of evolution, or at least a change in social organization,” said the scientist.\n" ] } ], "source": [ "openai_generated_text_en = \"In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English. \\\n", "\\n\\nThe scientist named the population, after their distinctive horn, Ovid's Unicorn. These four-horned, silver-white unicorns were previously unknown to science. \\\n", "\\n\\nNow, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved. \\\n", "\\n\\nDr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow. \\\n", "\\n\\nPérez and the others then ventured further into the valley. “By the time we reached the top of one peak, the water looked blue, with some crystals on top,” said Pérez. \\\n", "\\n\\nPérez and his friends were astonished to see the unicorn herd. These creatures could be seen from the air without having to move too much to see them – they were so close they could touch their horns. \\\n", "\\n\\nWhile examining these bizarre creatures the scientists discovered that the creatures also spoke some fairly regular English. Pérez stated, “We can see, for example, that they have a common ‘language,’ something like a dialect or dialectic.” \\\n", "\\n\\nDr. Pérez believes that the unicorns may have originated in Argentina, where the animals were believed to be descendants of a lost race of people who lived there before the arrival of humans in those parts of South America. \\\n", "\\n\\nWhile their origins are still unclear, some believe that perhaps the creatures were created when a human and a unicorn met each other in a time before human civilization. According to Pérez, “In South America, such incidents seem to be quite common.” \\\n", "\\n\\nHowever, Pérez also pointed out that it is likely that the only way of knowing for sure if unicorns are indeed the descendants of a lost alien race is through DNA. “But they seem to be able to communicate in English quite well, which I believe is a sign of evolution, or at least a change in social organization,” said the scientist.\"\n", "\n", "print(openai_generated_text_en)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Reload Portuguese GPT-2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### English pre-trained GPT-2" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "Some weights of GPT2LMHeadModel were not initialized from the model checkpoint at gpt2 and are newly initialized: ['h.0.attn.masked_bias', 'h.1.attn.masked_bias', 'h.2.attn.masked_bias', 'h.3.attn.masked_bias', 'h.4.attn.masked_bias', 'h.5.attn.masked_bias', 'h.6.attn.masked_bias', 'h.7.attn.masked_bias', 'h.8.attn.masked_bias', 'h.9.attn.masked_bias', 'h.10.attn.masked_bias', 'h.11.attn.masked_bias', 'lm_head.weight']\n", "You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 14.4 s, sys: 1.8 s, total: 16.2 s\n", "Wall time: 7.72 s\n" ] } ], "source": [ "%%time\n", "from transformers import GPT2TokenizerFast, GPT2LMHeadModel\n", "\n", "pretrained_weights = 'gpt2'\n", "tokenizer_en = GPT2TokenizerFast.from_pretrained(pretrained_weights)\n", "model_en = GPT2LMHeadModel.from_pretrained(pretrained_weights)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Portuguese tokenizer" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "from transformers import GPT2TokenizerFast\n", "\n", "# Get the path to ByteLevelBPE_tokenizer_pt config files\n", "ByteLevelBPE_tokenizer_pt_rep = 'ByteLevelBPE_tokenizer_pt'\n", "path_to_ByteLevelBPE_tokenizer_pt_rep = path_data/ByteLevelBPE_tokenizer_pt_rep\n", "\n", "# import the pre-trained GPT2TokenizerFast tokenizer with the tokenizer_pt config files\n", "tokenizer_pt = GPT2TokenizerFast.from_pretrained(\n", " str(path_to_ByteLevelBPE_tokenizer_pt_rep), \n", " pad_token='<|endoftext|>')\n", "\n", "# Get sequence length max of 1024\n", "tokenizer_pt.model_max_length = 1024" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Datasets" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "class TransformersTokenizer(Transform):\n", " def __init__(self, tokenizer): self.tokenizer = tokenizer\n", " def encodes(self, x): \n", " toks = self.tokenizer.tokenize(x)\n", " return tensor(self.tokenizer.convert_tokens_to_ids(toks))\n", " def decodes(self, x): return TitledStr(self.tokenizer.decode(x.cpu().numpy()))" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [], "source": [ "# get data\n", "lang = 'pt'\n", "fname = f'all_texts_{lang}wiki.csv'\n", "df = pd.read_csv(path_data/fname)\n", "\n", "# load idxs train and valid\n", "idxs_train = torch.load(path_data/'idxs_train.pt')\n", "idxs_val = torch.load(path_data/'idxs_val.pt')\n", "\n", "all_texts = np.concatenate([df.iloc[idxs_train].text.values, df.iloc[idxs_val].text.values])\n", "splits = [list(idxs_train), list(idxs_val)]\n", "tls = TfmdLists(all_texts, TransformersTokenizer(tokenizer_pt), splits=splits, dl_type=LMDataLoader)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Dataloaders" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "CPU times: user 27min 56s, sys: 3min 20s, total: 31min 16s\n", "Wall time: 25min 8s\n" ] } ], "source": [ "%%time\n", "bs,sl = 8,1024\n", "dls = tls.dataloaders(bs=bs, seq_len=sl)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Split a GPT2 model in 4 groups for differential learning rates" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [], "source": [ "class DropOutput(Callback):\n", " def after_pred(self): self.learn.pred = self.pred[0]" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [], "source": [ "def splitter(model):\n", " \"Split a GPT2 `model` in 3 groups for differential learning rates.\"\n", " \n", " # First layers group : decoder blocks from 0 to 3\n", " modules = []\n", " for i in range(4): modules.append(model.transformer.h[i])\n", " groups = [nn.Sequential(*modules)]\n", "\n", " # Second layers group : decoder blocks from 4 to 7\n", " modules = []\n", " for i in range(4,8,1): modules.append(model.transformer.h[i])\n", " groups = L(groups + [nn.Sequential(*modules)])\n", "\n", " # Third layers group : decoder blocks from 8 to 11\n", " modules = []\n", " for i in range(8,12,1): modules.append(model.transformer.h[i])\n", " groups = L(groups + [nn.Sequential(*modules)])\n", " \n", " # Fourth layers group : embeddings matrices wte and wpe + LayerNorm at the model output\n", " groups = L(groups + [nn.Sequential(model.transformer.wte,model.transformer.wpe,model.transformer.ln_f)])\n", " \n", " return groups.map(params)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Learner" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [], "source": [ "# Learner: basic class for handling the training loop\n", "# source: https://dev.fast.ai/learner#Learner\n", "learn = Learner(dls, model_en, loss_func=CrossEntropyLossFlat(),\n", " splitter = splitter,\n", " cbs=[DropOutput], \n", " metrics=[accuracy, Perplexity()]).to_fp16()\n", "learn = learn.load(path_data/'GPT2_pt_5epoch_lr1e-4_v2')" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "# model\n", "model_pt = learn.model" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [], "source": [ "# put model into eval mode and on GPU\n", "model_pt.eval();\n", "model_pt.to('cuda');" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Get translated famous unicorn text in Portuguese" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [], "source": [ "from transformers import MarianMTModel, MarianTokenizer" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "['>>fr<<', '>>es<<', '>>it<<', '>>pt<<', '>>pt_br<<', '>>ro<<', '>>ca<<', '>>gl<<', '>>pt_BR<<', '>>la<<', '>>wa<<', '>>fur<<', '>>oc<<', '>>fr_CA<<', '>>sc<<', '>>es_ES<<', '>>es_MX<<', '>>es_AR<<', '>>es_PR<<', '>>es_UY<<', '>>es_CL<<', '>>es_CO<<', '>>es_CR<<', '>>es_GT<<', '>>es_HN<<', '>>es_NI<<', '>>es_PA<<', '>>es_PE<<', '>>es_VE<<', '>>es_DO<<', '>>es_EC<<', '>>es_SV<<', '>>an<<', '>>pt_PT<<', '>>frp<<', '>>lad<<', '>>vec<<', '>>fr_FR<<', '>>co<<', '>>it_IT<<', '>>lld<<', '>>lij<<', '>>lmo<<', '>>nap<<', '>>rm<<', '>>scn<<', '>>mwl<<']\n" ] } ], "source": [ "# MarianMT Translator\n", "model_name = 'Helsinki-NLP/opus-mt-en-ROMANCE'\n", "tokenizer_en_pt = MarianTokenizer.from_pretrained(model_name)\n", "print(tokenizer_en_pt.supported_language_codes)\n", "model_en_pt = MarianMTModel.from_pretrained(model_name)" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "['>>pt_BR<< In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.']\n" ] } ], "source": [ "src_text = [\n", " '>>pt_BR<< In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.',\n", "]\n", "print(src_text)" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'Num achado chocante, o cientista descobriu uma manada de unicórnios vivendo num vale remoto, anteriormente inexplorado, nas Montanhas dos Andes. Ainda mais surpreendente para os pesquisadores foi o fato de que os unicórnios falavam inglês perfeito.'" ] }, "execution_count": 19, "metadata": {}, "output_type": "execute_result" } ], "source": [ "translated = model_en_pt.generate(**tokenizer_en_pt.prepare_translation_batch(src_text))\n", "tgt_text = [tokenizer_en_pt.decode(t, skip_special_tokens=True) for t in translated]\n", "prompt = tgt_text[0]\n", "prompt" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Get generated text" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "504\n" ] } ], "source": [ "# Get the number of tokens of the OpenAI English generated text\n", "openai_generated_text_en = \"In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English. \\\n", "\\n\\nThe scientist named the population, after their distinctive horn, Ovid's Unicorn. These four-horned, silver-white unicorns were previously unknown to science. \\\n", "\\n\\nNow, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved. \\\n", "\\n\\nDr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow. \\\n", "\\n\\nPérez and the others then ventured further into the valley. “By the time we reached the top of one peak, the water looked blue, with some crystals on top,” said Pérez. \\\n", "\\n\\nPérez and his friends were astonished to see the unicorn herd. These creatures could be seen from the air without having to move too much to see them – they were so close they could touch their horns. \\\n", "\\n\\nWhile examining these bizarre creatures the scientists discovered that the creatures also spoke some fairly regular English. Pérez stated, “We can see, for example, that they have a common ‘language,’ something like a dialect or dialectic.” \\\n", "\\n\\nDr. Pérez believes that the unicorns may have originated in Argentina, where the animals were believed to be descendants of a lost race of people who lived there before the arrival of humans in those parts of South America. \\\n", "\\n\\nWhile their origins are still unclear, some believe that perhaps the creatures were created when a human and a unicorn met each other in a time before human civilization. According to Pérez, “In South America, such incidents seem to be quite common.” \\\n", "\\n\\nHowever, Pérez also pointed out that it is likely that the only way of knowing for sure if unicorns are indeed the descendants of a lost alien race is through DNA. “But they seem to be able to communicate in English quite well, which I believe is a sign of evolution, or at least a change in social organization,” said the scientist.\"\n", "\n", "openai_generated_text_en_ids = tokenizer_en.encode(openai_generated_text_en, return_tensors='pt').to('cuda')\n", "max_length = openai_generated_text_en_ids.shape[1]\n", "\n", "print(max_length)" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [], "source": [ "# encode\n", "input_ids = tokenizer_pt.encode(prompt, return_tensors='pt').to('cuda')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Use case 1 (Top-k sampling)" ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">> Generated text 1\n", "\n", "Num achado chocante, o cientista descobriu uma manada de unicórnios vivendo num vale remoto, anteriormente inexplorado, nas Montanhas dos Andes. Ainda mais surpreendente para os pesquisadores foi o fato de que os unicórnios falavam inglês perfeito. Um deles, um escocês chamado Thomas (um anatomista irlandês) que havia trabalhado com o britânico em seu trabalho como assistente do diretor experimental da universidade, John Holley, foi chamado de por eles para um encontro sobre os dois conceitos, que não tinham encontrado muito trabalho até o momento. Eles foram palestrantes, mas ficaram impressionados que Thomas (como todos os outros cientistas da época) não sabia falar Inglês. Quando Thomas fez isso com os unicórnios por engano, Holley a escreveu e enviou um telegrama à BBC perguntando: \"\"Tão, o que é tal dizer se você quer saber de nenhum outro, eu não sei como ele fala inglês?\"\" Eles disseram a ele: \"Não, mas é um idiota.\" Então, uma semana depois, no mesmo dia, Holley o enviou, uma carta com um questionário para os membros do elenco de \"\"Doctor Who\"\". Thomas, como qualquer um dos cientistas mencionados, não se lembra muito bem dos eventos que aconteceram em Londres.\n", "\n", "Depois do segundo episódio, o editor-produtor Michael Gambon deu o que ele achou que valia, então disse: \"Vamos fazer um comentário, para o elenco e equipe deDoctor Who.\" Como resultado, eles deram permissão para que eles assistissem outro episódio. Isto foi o suficiente para que \"The Magician\" aparecesse para o cânone da BBC.\n", "\n", "Na segunda temporada, \"The Magician\" teve um episódio chamado \"The End of the World\", e o ator John Huston, que interpreta John Watson, era o mais conhecido ator inglês do programa. \"The End of the World\" foi ao ar em 13 de outubro de 2000. A BBC anunciou que \"The Magician\" seria exibida ao vivo em janeiro de 2003 da HBO em 15 de janeiro de 2003. Ele também foi transmitido na televisão em 16 de janeiro de 2004 da BBC One, em uma transmissão que também marcou o cancelamento de um episódio.\n", "\n", "A série é uma produção da BBC-NBC Television Limited. Ela foi produzida por Paul Rudd, John Swarns e Jonathan Seagal e foi criada por David Tennant, Graham Hill, Colin Smith, Tom Baker, Jack Davies e Paul Thompson. O primeiro episódio foi exibido em 17 de outubro de\n", "\n", "---\n", ">> Generated text 2\n", "\n", "Num achado chocante, o cientista descobriu uma manada de unicórnios vivendo num vale remoto, anteriormente inexplorado, nas Montanhas dos Andes. Ainda mais surpreendente para os pesquisadores foi o fato de que os unicórnios falavam inglês perfeito. \"Não é mais estranho que a nossa forma tivesse o inglês com dois de suas asas como se o macho fosse inglês — o que é interessante. Mas a sua natureza inata seria estranha para o inglês\", acredita eles.\n", "\n", "Em 2015, cientistas realizaram uma nova análise sobre as formas dos unicórnios. De acordo com especialistas na área, os membros superiores do grupo foram provavelmente derivados de outra espécie de escorpião — uma espécie com características semelhantes. Uma nova equipe de cientistas calculou que uma fêmea unicornada da Eurásia seria originalmente uma humana. \"Isto significa que o ancestral do unicórnio, um híbrido de um esquilo e um escorpião macho não nasceu.\n", "\n", "Um estudo recente estimou que cerca de 12% do corpo humano é composto por membros de qualquer um dos grupos mais diverso de animais extintos, incluindo o ser humano e o unicórnio-do-sul. \"A análise dos dados mostra que a maioria dos membros do gênero é composta por um exito e um exito macho que compartilham uma única espécie de corpo. Em alguns casos, estes membros compartilham um mesmo conjunto (a linhagem) de partes em dois espécimes.\" O estudo indica que os membros de \"P. rubi\" são semelhantes em aparência e morfologia aos membros humanos modernos, como as fêmeas modernas e machos robustos. \"Como é evidente com os membros de \"P. rubi\", os ancestrais e o ancestral eram similares na forma e na composição das semelhanças em um organismo.\"\n", "\n", "O DNA do \"P. rubi,\" chamado por sua forma em inglês de \"sonoroplasto\", revela que o \"sonoroplasto\" inclui três genes de alto nível e quatro genes relativamente reduzidos (e ausentes) e um gene de baixo nível (e ausentes) com uma concentração de cloroplasto em cada núcleo. A \"sonoroplasto\" se assemelha à \"P. rubi\" em características morfológicas e comportamentais, embora as diferenças na morfologia sejam menores. \"A espécie \"P. rubi\" apresenta cinco pares de cromossomos separados (com 6 pares se aproximando e 8 pares se afastando) e um \"sonoroplasto de base\" (com 12 pares se aproximando e 15 pares se afastando), sugerindo que o membro tenha uma composição semelhante ao ancestral \"P. rubi\n", "\n", "---\n", ">> Generated text 3\n", "\n", "Num achado chocante, o cientista descobriu uma manada de unicórnios vivendo num vale remoto, anteriormente inexplorado, nas Montanhas dos Andes. Ainda mais surpreendente para os pesquisadores foi o fato de que os unicórnios falavam inglês perfeito.\n", "O jogo de corrida da FIAT foi introduzido no Salão Internacional de FIAT (em 1989) em um evento que teve como principal objetivo fornecer uma oportunidade a todos que competirem em corridas de carros nacionais, como as categorias de base e pilotos. Esse evento trouxe o título de \"National Le Mans Series\" (1973), além de um terceiro título que o vencedor da competição ganharia. O primeiro campeonato foi disputado entre 1983 e 1985, e foi vencido pelo piloto estadunidense Dennis Young.\n", "\n", "O Campeonato de Le Mans foi criado por uma equipa formada em 1983 na rua General Motors, em Long Beach, Califórnia, e patrocinado pela \"Frampton Racing\", criada pelo empresário de corridas do Reino Unido Derek J. Cox, e é atualmente patrocinado pela equipe da equipe de Fórmula 1 da Ferrari, Lotus e McLaren, \"Lusa Motorsports\" e pela equipe de corrida britânica Team Lotus. \"Lusa\" foi fundada como uma \"casa\", mas a companhia não conseguiu competir em corridas por cinco anos devido à falta de patrocinador, e os pilotos que competiram em Lusa foram proibidos de pilotar a equipe McLaren em 1997. A equipe mudou seu nome para Lusa Motorsports em 1999. As corridas de Fórmula 1 só foram retomadas duas vezes por falta de patrocinadores, no começo de 2000, e novamente em 2003 por \"franqueza\".\n", "\n", "Em 2003, a Williams-Renault obteve o seu primeiro título da temporada, uma corrida de Le Mans de estilo \"Grand Prix\", em que os carros eram todos monopostos, mas com carros \"primo\", mais do que os carros de Fórmula 1. A temporada de 2003 teve muitas modificações em termos de desempenho, como novos pneus e mudanças na configuração dos carros, e foi a sexta temporada do campeonato do campeonato com mais pontos no campeonato na temporada de 2004, com cinco vitórias no campeonato, três na temporada de 2008 e cinco na de 2009.\n", "\n", "Em 2005, a Toyota assinou um contrato exclusivo para a produção de veículos para a Temporada de Le Mans e o primeiro ano em que a equipe Toyota foi a primeira equipe a ser a primeira a dar uma vitória ao correr \"Le Mans Series\", uma prova de Fórmula 1, na qual a equipe Toyota produziu dois carros da temporada. Apesar de ter vencido a prova, foi a\n", "\n", "---\n", "CPU times: user 7.77 s, sys: 372 ms, total: 8.15 s\n", "Wall time: 8.16 s\n" ] } ], "source": [ "%%time\n", "#set top_k = 40 and num_return_sequences = 3\n", "sample_outputs = model_pt.generate(input_ids, pad_token_id=50256,\n", " do_sample=True, \n", " max_length=max_length, \n", " min_length=max_length,\n", " top_k=40,\n", " num_return_sequences=3)\n", "\n", "for i, sample_output in enumerate(sample_outputs):\n", " print(\">> Generated text {}\\n\\n{}\".format(i+1, tokenizer_pt.decode(sample_output.tolist())))\n", " print('\\n---')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Use case 2 (Top-p nucleus sampling)" ] }, { "cell_type": "code", "execution_count": 22, "metadata": { "scrolled": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">> Generated text 1\n", "\n", "Num achado chocante, o cientista descobriu uma manada de unicórnios vivendo num vale remoto, anteriormente inexplorado, nas Montanhas dos Andes. Ainda mais surpreendente para os pesquisadores foi o fato de que os unicórnios falavam inglês perfeito. Eles não sabiam onde exatamente eram falantes nativos do idioma, e acreditaram que eles simplesmente migraram das terras altas da região de Mendoza ao norte como consequência do declínio populacional que ocorreu na Cordilheira das Cobras.\n", "\n", "Em 2004, o Departamento de Antropologia da Universidade do Colorado anunciou que havia encontrado uma fêmea no vale do rio Orinoco na Bolívia, mas essa fêmea foi morta durante a investigação. No entanto, no início de 2006, as autoridades locais anunciaram que havia identificado uma fêmea encontrada em uma área próxima à Cordilheira dos Andes, no Vale do Cauca. A equipe de pesquisadores relatou que esta fêmea era chamada de \"El Maria\" ou \"El Maria\".\n", "\n", "O estudo revelou que o grupo de unicórnios habitava um ecossistema bastante diverso, com espécies endêmicas incluindo espécies como as tiláceas gigantescas (que são encontradas principalmente nos países subdesenvolvidos) e as quelupus (\"Erica azoricae\").\n", "\n", "Um dos principais objetivos do estudo da espécie é determinar se os europeus teriam colonizado a região entre a década de 1940 e 1960 e se estes últimos grupos étnicos sobreviveram até hoje. Os cientistas acreditam que as populações desses grupos poderiam ter sido muito maiores antes disso; por exemplo, a teoria sugere que a população europeia provavelmente teria introduzido os humanos primitivos na América Central depois que os espanhóis invadiram a região, embora isso seja controverso.\n", "\n", "O gênero \"El Maria\" tem um ancestral comum, os \"Looney-do-the-Bone\", um pequeno grupo de \"Looney-da-Daíndia\" encontrados apenas no leste dos Estados Unidos, Canadá e México. O gênero possui parentesco próximo ao gênero \"Lontrapyrus\", também conhecido como lontras negras. Acredita-se que esses indivíduos tenham migrado para o leste dos Andes, atravessando regiões montanhosas do sul de América Central e América Central.\n", "\n", "Os membros desta família são geralmente confundidos com os lontras brancos.\n", "\n", "As fêmeas têm cerca de seis centímetros de comprimento, pesando de 9 quilogramas e medindo 11 cm de largura. A cabeça é branca, com manchas escuras pretas escuras sobre seus flancos. As patas posteriores podem ser amarelas, enquanto sua cauda pode estar preta ou branca, dependendo da cor utilizada na identificação. As costas apresentam quatro dedos dorsais bem desenvolvidas\n", "\n", "---\n", ">> Generated text 2\n", "\n", "Num achado chocante, o cientista descobriu uma manada de unicórnios vivendo num vale remoto, anteriormente inexplorado, nas Montanhas dos Andes. Ainda mais surpreendente para os pesquisadores foi o fato de que os unicórnios falavam inglês perfeito.\n", "\n", "O fóssil é encontrado no Vale de La Guaira, na região de San Juan, com cerca de 1 metro (1,8 m) de comprimento e cerca de 4 metros (2 pés) de largura, em Wyoming. A cabeça possui cinco dedos no pé direito e duas garras direita. No topo do crânio há quatro placas pretas-escuros. O cérebro tem um formato triangular, a base apresenta apenas uma pequena porção da metade anterior e três partes do pescoço são pretos-claro; a face tem um tom vermelho escuro-escuro. A mandíbula também contém oito pares de maxilas bem desenvolvidas.\n", "\n", "A região de San Juan foi descoberta por volta de 14 mil anos atrás. Foi escavado durante a Guerra dos Sete Anos e tem aproximadamente 6 metros quadrados de espessura. O local era habitado pelo povo de Tacuareña, que vivia entre o final do e o início do e tinha uma cultura diferente das outras regiões próximas ao território de El Berriol. Os indígenas não eram caçadores conhecidos pelos nativos e como \"carijós\".\n", "\n", "O fóssil foi descoberto em 2002 e depois enviado para uma equipe de arqueólogos liderada pela Universidade de Wyoming. A equipe encontrou os restos humanos e o chamou de \"caçadores\" ou \"coletores\", pois eles tinham sido mortos pelas expedições anteriores ao assentamento.\n", "\n", "O arqueólogo Brian C. Fanning, da Universidade de Wyoming, fez várias entrevistas com os esqueletos humanos e descobriram os crânios de dois ou três homens que foram enterrados em um túmulo localizado abaixo do túmulo de um antigo homem chamado Huehue, que estava enterrado por volta de 10500 anos atrás. O homem que estava enterrado é o membro de um grupo étnico conhecido como \"Huehue\".\n", "\n", "A equipe de pesquisadores da equipe de Fanning incluiu a presença humana no local onde o homem enterrado, incluindo um cemitério indígena que está próximo à entrada do cemitério. Eles encontraram evidências ósseas humanas enterradas perto dos ossos do homem e outros artefatos encontrados dentro de um depósito de ossos de um homem chamado \"Creator\".\n", "\n", "Os pesquisadores acharam vários ossos humanos semelhantes aos ossos de Huehue, mas sem as marcas físicas. Eles notaram semelhanças anatômicas entre esses membros de um grupo étnico chamado \"Caçadores\", possivelmente porque ambos viviam no Vale de\n", "\n", "---\n", ">> Generated text 3\n", "\n", "Num achado chocante, o cientista descobriu uma manada de unicórnios vivendo num vale remoto, anteriormente inexplorado, nas Montanhas dos Andes. Ainda mais surpreendente para os pesquisadores foi o fato de que os unicórnios falavam inglês perfeito.\n", "\n", "Os arqueólogos descobriram um conjunto de moedas cunhadas por indígenas e outros achados arqueológicos encontrados no local durante as escavações foram feitos ao longo da década de 1960 em um esforço de resgate arqueológica e reconhecimento pela população indígena.\n", "\n", "O achado arqueológico é o único relato sobre a cultura do gênero \"Saccharus\", que se refere às culturas terrestres primitivas não relacionadas com o \"Homo sapiens\".\n", "\n", "A pesquisa envolveu cerca de 60 anos de escavação, incluindo levantamento topográfico efetuado entre 1972 e 1977. Em 1988, o arqueólogo americano John Deere, que pesquisou as ruínas do complexo arqueológico do Monte dos Andes, observou que a cultura deste gênero estava fortemente relacionada com outras civilizações mesoamericanas, como o olmeca e a olmeca.\n", "\n", "O arqueólogo franco-americano John Deere observou que a cultura desses gêneros era bem próxima à civilização olmeca e \"a cultura dos astecas\" foi muito similar àquelas encontradas na América Central em seus sítios prévios.\n", "\n", "Em 1991, o arqueólogo americano John Deere publicou uma extensa monografia descrevendo a cultura dos Andes. Ele escreveu:\n", "\n", "Muitos estudiosos têm alegado que a cultura dos Andes pode ter sido transmitida através de migrações humanas do continente americano. Contudo, estudos recentes, baseados nos dados históricos obtidos em diferentes lugares dos Andes sugerem que tais migrações ocorreram antes ou imediatamente após as primeiras invasões americanas de europeus.\n", "\n", "Pesquisas iniciais demonstraram que esta migração ocorreu provavelmente entre o final do século XVIII e meados do século XIX, quando sociedades modernas dominavam o solo chileno, Peru, Bolívia e Colômbia. As tribos inca e xamãs também estavam envolvidas nesta atividade.\n", "\n", "A história das Américas começou em torno de um grupo de caçadores sulamericanos pertencentes aos Andes liderados pelo índio A. Iruña, que estabeleceu sua capital no atual assentamento chamado \"San Juan del Sur\". Acreditava-se que ele teria fundado um assentamento que seria conhecido por sua fama de ser capaz de caçar com seus guerreiros e construir suas casas com o passar do tempo.\n", "\n", "Durante o século XVIII, as terras baixas eram propícias para o crescimento populacional e, consequentemente, o desenvolvimento econômico das novas cidades situadas em torno delas.\n", "\n", "Os primeiros exploradores espanhóis chegaram ao Novo Mundo em 1692 e estabeleceram assentamentos permanentes nesses territórios até a década de 1830. As tentativas espanholas\n", "\n", "---\n", "CPU times: user 35.3 s, sys: 1.85 s, total: 37.2 s\n", "Wall time: 37.2 s\n" ] } ], "source": [ "%%time\n", "#set top_p = 0.95, top_k = 50, temperature = 0.7, repetition_penalty = 1.2 and num_return_sequences = 3\n", "sample_outputs = model_pt.generate(input_ids, pad_token_id=50256,\n", " do_sample=True,\n", " max_length=max_length, \n", " min_length=max_length,\n", " repetition_penalty=1.2,\n", " temperature=0.7,\n", " top_k=50, \n", " top_p=0.95, \n", " num_return_sequences=3)\n", "\n", "for i, sample_output in enumerate(sample_outputs):\n", " print(\">> Generated text {}\\n\\n{}\".format(i+1, tokenizer_pt.decode(sample_output.tolist())))\n", " print('\\n---')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Text n°2 | Recent text on the coronavirus disease (Covid-19)" ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "A Rússia está mais perto de se tornar o primeiro país a iniciar a distribuição de uma vacina contra o coronavírus para a população. O país anunciou hoje que concluiu parte dos testes clínicos necessários para comprovar a eficácia da imunização desenvolvida por iniciativa do governo russo. A expectativa é de que a distribuição comece já em agosto.\n" ] } ], "source": [ "# source (uol, 07/13/2020): https://www.uol.com.br/vivabem/noticias/redacao/2020/07/13/russia-vacina-conclui-testes-distribuicao-em-agosto.htm\n", "prompt = \"A Rússia está mais perto de se tornar o primeiro país a iniciar a distribuição de uma vacina contra o coronavírus para a população. O país anunciou hoje que concluiu parte dos testes clínicos necessários para comprovar a eficácia da imunização desenvolvida por iniciativa do governo russo. A expectativa é de que a distribuição comece já em agosto.\"\n", "print(prompt)" ] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [], "source": [ "# encode\n", "input_ids = tokenizer_pt.encode(prompt, return_tensors='pt').to('cuda')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Use case 1 (Top-k sampling)" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">> Generated text 1\n", "\n", "A Rússia está mais perto de se tornar o primeiro país a iniciar a distribuição de uma vacina contra o coronavírus para a população. O país anunciou hoje que concluiu parte dos testes clínicos necessários para comprovar a eficácia da imunização desenvolvida por iniciativa do governo russo. A expectativa é de que a distribuição comece já em agosto.\n", "\n", "Entre os primeiros casos confirmados de COVID-19 na Rússia estava um homem russo com idade entre 50 e 49 anos, segundo o jornal \" Moscow\" e o primeiro caso em 28 de fevereiro, a primeira no Hospital Pulkai.\n", "\n", "No entanto, os primeiros casos foram mais sérios devido sua \"maturidade sem gravidade\" e a falta de uma pessoa estar disponível para testes de suas condições de vida. Entre os pacientes que foram considerados estão funcionários de um hospital ou enfermeiros na cidade de Moscou (ver abaixo) ou médicos. Depois de serem testados negativos após um teste positivo, o paciente se recupera completamente.\n", "\n", "Os russos também anunciaram que serão realizados testes de coronavírus de outros países, como a França, que inicialmente acreditava que os vírus da gripe tinham sido transmitido pela Europa (a expectativa é de 20 a 50 casos por dia). A situação foi resolvida em 24 de fevereiro, quando o Ministério da Saúde confirmou sua conclusão de que a COVID-19 é transmitida de via aérea.\n", "\n", "Até ao dia do seu primeiro caso, a Rússia tinha o menor número de funcionários e médicos com doença grave antes de o vírus ter se tornado um vírus no país. Os números de funcionários com doença grave não chegaram a ser confirmados, segundo o Ministério da Saúde, devido a sua falta de apoio.\n", "\n", "O vírus que está em curso no país é transmitido pela primeira vez nos Estados Unidos, onde foi isolado em 14 de fevereiro. Em Portugal o Ministério dos Negócios Estrangeiros declarou oficialmente em 11 de fevereiro que a COVID-19 está presente no país, mas não anunciou nenhum impacto na prática. No entanto, o Ministério do Trabalho declarou no dia seguinte que o coronavírus existe \"em todo os países que não têm regulamentação\" e que nenhum \"aedes\", que era identificado em 11 de fevereiro, tinha entrado na corrente sanguínea.\n", "\n", "Em 9 de março, autoridades russas confirmaram que o paciente não está hospitalizado e que está em quarentena no Hospital Pulkai.\n", "\n", "Mais dois casos de COVID-19 foram anunciados em 9 de março, mas foram considerados casos de \"propaganda\" e não de risco.\n", "\n", "Em 9 de maio, autoridades russas confirmaram os confirmados em todo país. Em 10 de maio,\n", "\n", "---\n", ">> Generated text 2\n", "\n", "A Rússia está mais perto de se tornar o primeiro país a iniciar a distribuição de uma vacina contra o coronavírus para a população. O país anunciou hoje que concluiu parte dos testes clínicos necessários para comprovar a eficácia da imunização desenvolvida por iniciativa do governo russo. A expectativa é de que a distribuição comece já em agosto. As populações de Wuhan, Wuhan, Qinghai, Shenzhen na costa oeste do China e no norte de Xangai, na província de Hubei, e os subúrbios da cidade de Tvershend em Hong Kong já estão de acordo com o número de casos confirmados. Uma nova equipe de infecologistas para ajudar a determinar os possíveis efeitos da pandemia já está em Xangai. Em 14 de março, a Rússia também tem a oportunidade de testar novas vacinas virais e testar novas versões para garantir a propagação de maisvírus na China através da transmissão de novos coronavírus.\n", "\n", "As autoridades russas e autoridades de saúde chinesas têm se preparado para assumir essa atitude de emergência com base nos dados coletados pela máscaras, máscaras de voo e máscaras faciais. Um relatório de uma empresa francesa informou que mais de 30 pessoas morreram na área de transmissão ao longo do mês de março, em relação aos dois primeiros casos. Em 21 de março, mais de 2,3 milhões de pessoas foram afetadas em áreas urbanas. Segundo o Conselho de Saúde, cerca de 10% dos habitantes são da China continental e quase metade do Distrito de Pequim, incluindo as regiões Norte e Noroeste. A doença foi descrita pela primeira vez em uma carta enviada às autoridades sanitárias no dia 15 de março. Três dias depois, um estudo genético para o vírus causou grande preocupação aos especialistas em transmissão, que acreditavam que a doença se espalhava através de duas regiões do país. A China continental relatou que apenas 8 pessoas foram diagnosticadas no país.\n", "\n", "Os vírus estão propagando-se por todo o continente europeu, do Ásia e de diversas partes do globo. De acordo com análises recentes do Centro de Controle e Prevenção da Doenças, em 14 de março, havia um total de 785 casos confirmados confirmados em todo o mundo. O surto da doença chegou aos Estados Unidos, com o surto de gripe na cidade de Wuhan, China, sendo o quarto maior já registrado em um período desde a epidemia de surtos no ano de 1994. Além disso, os casos das novas epidemias trazidas pela epidemia das SARS de 2013 no Haiti em 2020 tornaram-se os maiores problemas para a saúde da China. Em 14 de março, cerca de 4,85 milhão de pessoas estavam infectadas e cerca de 8%\n", "\n", "---\n", ">> Generated text 3\n", "\n", "A Rússia está mais perto de se tornar o primeiro país a iniciar a distribuição de uma vacina contra o coronavírus para a população. O país anunciou hoje que concluiu parte dos testes clínicos necessários para comprovar a eficácia da imunização desenvolvida por iniciativa do governo russo. A expectativa é de que a distribuição comece já em agosto.\n", "O Papa Francisco pediu ao povo russo que confirme a data da chegada da vacina. O Papa também pediu aos cidadãos russos que realizem uma conferência de imprensa oficial para o anúncio. Em 7 de dezembro de 2016, quando se iniciou o trabalho de tradução para mais idiomas, mais de 300 pessoas no mundo tiveram acesso aos benefícios da vacina.\n", "\n", "A primeira vacina para o coronavírus foi testada no Japão em 9 de março de 2020.\n", "\n", "Em 6 de fevereiro, um estudo realizado em Taiwan revelou que a epidemia do SARS é mais provável devido ao aumento do hábito. Por causa do aumento nas visitas dos cidadãos a hospitais para verificar que a vacina é eficaz, a saúde do país começou a declinar. O ministro da Saúde japonês, Toshihiko Hayashi disse que a crise da saúde era uma consequência da melhora das medidas de prevenção e contra o coronavírus em relação ao início do período de alta infecção.\n", "\n", "A Rússia começou a distribuir a vacina no início de outubro, após a confirmação por funcionários da saúde pública de uma nova coronavírus. Foi lançada no mesmo dia em todas as regiões ocidentais do país. O total de pessoas hospitalizadas pelo vírus foi de aproximadamente 431 em Taiwan. Além disso, entre 15 e 17 de outubro, uma pessoa foi internada no Hospital Universitário de Pequim, nos arredores de Pequim, devido a um surto viral de SARS. Os sintomas de pneumonia, febre, prurido e pneumonia permaneceram altas durante toda a primeira quinzena de outubro. Os outros dois dias depois, no Hospital Universitário de Moscou, a doença causou mais mortes confirmadas do que não provocado anteriormente, com cerca de 211. O número de passageiros do Hospital Universitário de Moscou caiu 297 pessoas.\n", "\n", "A agência russa \"DPS\" declarou como uma das principais preocupações sobre a doença a saúde pública na República Popular da China. Em janeiro de 2020, o governo chinês lançou três programas de vacinação oral nos distritos urbanos em resposta à melhora global e a pandemia no Vale do Silício. O programa nacional de vacinação, chamado de \"Omgao\", consiste num conjunto de 36 cidades com um total de 1.429 municípios (em regiões mais remotas do país). A aplicação do programa foi feita em 27\n", "\n", "---\n", "CPU times: user 7.56 s, sys: 242 ms, total: 7.81 s\n", "Wall time: 7.8 s\n" ] } ], "source": [ "%%time\n", "#set top_k = 40 and num_return_sequences = 3\n", "sample_outputs = model_pt.generate(input_ids, pad_token_id=50256,\n", " do_sample=True, \n", " max_length=max_length, \n", " min_length=max_length,\n", " top_k=40,\n", " num_return_sequences=3)\n", "\n", "for i, sample_output in enumerate(sample_outputs):\n", " print(\">> Generated text {}\\n\\n{}\".format(i+1, tokenizer_pt.decode(sample_output.tolist())))\n", " print('\\n---')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Use case 2 (Top-p nucleus sampling)" ] }, { "cell_type": "code", "execution_count": 58, "metadata": { "scrolled": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">> Generated text 1\n", "\n", "A Rússia está mais perto de se tornar o primeiro país a iniciar a distribuição de uma vacina contra o coronavírus para a população. O país anunciou hoje que concluiu parte dos testes clínicos necessários para comprovar a eficácia da imunização desenvolvida por iniciativa do governo russo. A expectativa é de que a distribuição comece já em agosto.\n", "\n", "A Rússia tem um mercado interno bruto (PIB) estimado entre US$ 1,2 bilhões e US$ 7 bilhões. O PIB \"per capita\" em 2007 foi de US $ 4,348. A maior parte do crescimento econômico anual ocorreu na agricultura. Em 2003, a taxa média anual era de 22%.\n", "\n", "Em 2004, cerca de 3 milhões de pessoas foram infectadas pelo coronavírus. Cerca de 17 mil casos foram identificados entre 2001 e 2002, incluindo aproximadamente 2,8% das crianças e adolescentes com idade inferior a seis anos; 5,1 milhão deles eram endêmicas ou sem cuidados médicos; 8,711 mortes ocorreram nos três primeiros meses de vida após o contato com o vírus; 13,6 mil haviam retornado à Rússia; e 14,4% estavam doentes devido aos sintomas causados pela doença durante seus últimos dias no exterior, principalmente idosos e recém-nascidos infectados.\n", "\n", "Cerca de 6 milhões de russos estão vivendo em países fora da União Europeia, sendo eles os Estados Unidos, China, Índia, Itália, Japão, Reino Unido, Austrália, Nova Zelândia, Países Baixos, Rússia, Turquia, Espanha, Suécia e África do Sul. Em novembro de 2008, estimava-se que 20 milhões de russos estariam potencialmente infetados naquele ano.\n", "\n", "A Organização Mundial da Saúde divulgou dados detalhados sobre as medidas antivirais prescritas por cada país segundo os padrões estabelecidos.\n", "\n", "O número total de infeção por coronavírus foi inicialmente estimado em 12.000 em 2005. Em janeiro de 2006, estimava-se que 924.300 pessoas tinham sido contaminadas. No mesmo mês, o Ministério da Saúde confirmou que havia aumentado o número de casos confirmados desde o início da pandemia. O número de mortes atribuídas ao coronavírus caiu de 50 para 54 em janeiro de 2006, enquanto novos surtos começaram em março de 2006. Os números de casos suspeitos aumentaram ainda mais após o início da epidemia em janeiro. A Organização Mundial da Saúde divulgou estatísticas oficiais em fevereiro de 2006 mostrando que todos os indivíduos que tenham sido contestados como tendo casos não apresentaram qualquer sintoma claro ou grave risco.\n", "\n", "Desde o início da pandemia, um grande número de pessoas têm sido afetadas por COVID-19. Mais tarde,\n", "\n", "---\n", ">> Generated text 2\n", "\n", "A Rússia está mais perto de se tornar o primeiro país a iniciar a distribuição de uma vacina contra o coronavírus para a população. O país anunciou hoje que concluiu parte dos testes clínicos necessários para comprovar a eficácia da imunização desenvolvida por iniciativa do governo russo. A expectativa é de que a distribuição comece já em agosto.\n", "\n", "Em junho, a Organização Mundial da Saúde divulgou um relatório sobre o surto e previu que os casos confirmados pela Rússia naquele ano ultrapassariam 10 milhões de pessoas. Em julho, foi relatado que o vírus havia matado 50% das crianças entre 15 e 21 anos. Em agosto, o Ministério da Saúde confirmou que as mortes foram estimadas no total devido à infecção causada pelo vírus \"S\". Em setembro, uma nova pesquisa revelou que 90% dos infectados haviam sido mortos antes mesmo da chegada da vacina.\n", "\n", "O governo soviético aprovou em dezembro de 2008, como forma de comemorar o centenário do nascimento da primeira vacina contra o coronavírus (CVD), dois novos centros comerciais russos estão sendo construídos na cidade de Moscou. No entanto, apenas três deles são permanentes: um na Rússia central; outro na fronteira leste com a Ucrânia; e outro nos subúrbios de Vyacheslavsky-Kaliningrado. Em 29 de janeiro de 2009, o governo anunciou planos futuros para construir estações comerciais em todas as regiões afetadas pelos surtos.\n", "\n", "Até maio de 2013, todos os postos de saúde oficiais estabelecidos no país estavam fechados desde então. Em 1º de março de 2014, a Rússia fechou seus aeroportos, deixando suas fronteiras fechadas para os voos domésticos e internacionais.\n", "\n", "Desde abril de 2015, cerca de 318 mil imigrantes estrangeiros vêm anualmente da Rússia, principalmente alemães étnicos russos residentes na Alemanha Oriental e eslavos orientais radicados lá. A entrada desses migrantes trouxe também grandes quantidades de problemas econômicos ao país. Os últimos emigrantes vindos ilegalmente vieram sobretudo após a Segunda Guerra Mundial.\n", "\n", "No final de 2019, muitos milhares de trabalhadores europeus emigraram para o leste da Europa para escapar da guerra civil russa. A maioria destes emigrantes veio da Rússia depois da invasão alemã de 1941.\n", "\n", "De acordo com a Organização Mundial da Saúde, a taxa de mortalidade infantil na Rússia diminuiu substancialmente desde o início do século XX, mas o número caiu em grande medida entre 1990 e 2001, quando o número aumentou novamente, alcançando a cifra de 7,5% entre 1995 e 2000. No entanto, esse número permaneceu estável até 2007, quando passou de 4,1%, e subiu novamente para 5,9%. As taxas gerais de mortalidade diminuíram consideravelmente durante este\n", "\n", "---\n", ">> Generated text 3\n", "\n", "A Rússia está mais perto de se tornar o primeiro país a iniciar a distribuição de uma vacina contra o coronavírus para a população. O país anunciou hoje que concluiu parte dos testes clínicos necessários para comprovar a eficácia da imunização desenvolvida por iniciativa do governo russo. A expectativa é de que a distribuição comece já em agosto.\n", "\n", "A Organização Mundial de Saúde (OMS) estima que, no final de dezembro de 2015, havia pelo menos 50 milhões de pessoas infectadas com o vírus na Rússia e Ucrânia. Estimativas semelhantes foram feitas pela OMS sobre os casos registrados desde a década passada. Em março de 2018, o Ministério da Saúde confirmou a descoberta de um novo coronavírus e recomendou aos cidadãos russos manter a disposição para evitar viagens ao exterior após o início das aulas médicas ou exames médicos.\n", "\n", "Em novembro de 2016, o Ministro da Saúde russo confirmou que todos os indivíduos infectados poderiam ser testados em março; assim como seus familiares e amigos, eles podem fazer teste clínico em uma unidade cirúrgica do hospital da cidade em que são colocados, caso necessário. Também foi anunciado no mesmo dia que o Ministério do Trabalho revelou que as autoridades russas estão trabalhando em conjunto visando reduzir o número de mortes causadas pelas epidemias. A agência informou que a Agência Nacional de Vigilância Sanitária Russa (Anvisa) começou a monitorar a pandemia através de máscaras faciais nos hospitais.\n", "\n", "Em abril de 2019, o Ministério da Saúde divulgou que 582 mil pessoas haviam sido infetadas com o vírus no país entre janeiro de 2019 e maio de 2020. Cerca de 370 mil desses pacientes estariam diretamente relacionados à doença.\n", "\n", "A Rússia também tem planos promissores para produzir vacinas que sejam eficazes contra o coronavírus, incluindo a vacina anti-SIDA e antivirais (ver Lista Vermelha da OMS).\n", "\n", "Em 1º de julho de 2017, a Organização Mundial de Saúde lançou uma nota oficial alertando que \"um grande aumento pode vir da necessidade de medidas preventivas necessárias\" antes do início das aulas médicas em escolas públicas nas cidades ucranianas.\n", "\n", "Em outubro de 2017, a Secretaria Municipal de Saúde ucraniana publicou uma nota oficial informando que os profissionais responsáveis ​​pela coordenação da vacinação deveriam estar preparados, bem como suas famílias e amigos durante a realização de exames adicionais para determinar sua saúde mental.\n", "\n", "Em 30 de junho de 2019, o Ministério da Saúde lançou um comunicado afirmando que três grupos escolares teriam dificuldades de administrar adequadamente o vacina contra o coronavírus na Rússia:\n", "\n", "A primeira ministra russa, Valentina Tereshinakova, disse em entrevista coletiva que não haverá\n", "\n", "---\n", "CPU times: user 37.9 s, sys: 1.78 s, total: 39.7 s\n", "Wall time: 39.6 s\n" ] } ], "source": [ "%%time\n", "#set top_p = 0.95, top_k = 50, temperature = 0.7, repetition_penalty = 1.2 and num_return_sequences = 3\n", "sample_outputs = model_pt.generate(input_ids, pad_token_id=50256,\n", " do_sample=True,\n", " max_length=max_length, \n", " min_length=max_length,\n", " repetition_penalty=1.2,\n", " temperature=0.7,\n", " top_k=50, \n", " top_p=0.95, \n", " num_return_sequences=3)\n", "\n", "for i, sample_output in enumerate(sample_outputs):\n", " print(\">> Generated text {}\\n\\n{}\".format(i+1, tokenizer_pt.decode(sample_output.tolist())))\n", " print('\\n---')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Conclusion" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We are the first, fortunately surprised by the efficiency of fine-tuning in Portuguese an English pre-trained transformer-based language model like GPT-2 small.\n", "\n", "In about 1 day using 1 GPU and a little over 1 GB of Portuguese texts, we managed to obtain a **GPorTuguese-2 capable of generating contextual Portuguese texts of a level comparable to that of the GPT-2 used by OpenAI in 2019**.\n", "\n", "Happy.\n", "\n", "The next step would be to apply our fine-tuning method to most recent NLP models like GPT-3, BART, T5 or Reformer. Let’s do it?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## END" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.6" } }, "nbformat": 4, "nbformat_minor": 2 }