O objetivo deste artigo é demonstrar como expandir os modelos do Vision Transformer (ViT) do Hugging Face e implantá-los em ambientes prontos para produção para inferência acelerada e de alto desempenho. No final, escalaremos um modelo ViT de Hugging Face em 25 vezes (2300%) usando Databricks, Nvidia e Spark NLP.