Um colega recentemente me indicou uma postagem no blog:   . Por uma questão de brevidade, vou me referir a ele como   neste artigo. On the Futility of Email Regex Validation Futilidade  Admito que, embora o desafio de escrever um regex que possa identificar com sucesso se uma string está em conformidade com a definição RFC 5322 de um cabeçalho de mensagem da Internet seja um desafio divertido,   não é um guia útil para o programador prático. Futility  Isso ocorre porque ele combina cabeçalhos de mensagem RFC 5322 com literais de endereço RFC 5321; o que, em linguagem simples, significa que o que constitui um endereço de e-mail SMTP válido é diferente do que constitui um cabeçalho de mensagem válido em geral.  É também porque incita o leitor a se preocupar com casos extremos que são teoricamente possíveis do ponto de vista dos padrões, mas que irei demonstrar, têm uma probabilidade infinitesimal de ocorrer “na natureza”.  Este artigo expandirá essas duas afirmações, discutirá alguns casos de uso possíveis para regex de e-mail e concluirá com exemplos anotados de “livro de receitas” de regex de e-mail prático.  RFC 5321 substitui 5322  A universalidade do SMTP para a transmissão de e-mail significa que, na prática, nenhum exame de formatação de endereço de e-mail é completo sem uma leitura atenta do IETF RFC relevante, que é 5321.  5322 considera os endereços de e-mail simplesmente como um cabeçalho de mensagem genérico, sem regras de casos especiais aplicáveis a ele. Isso significa que os comentários entre parênteses são válidos, mesmo em um nome de domínio.  O   referenciado no   inclui 10 testes que contêm comentários ou caracteres diacríticos ou Unicode e indica que 8 deles representam endereços de e-mail válidos. conjunto de testes Futility  Isso é incorreto porque o RFC 5321 é explícito ao afirmar que as partes do nome de domínio dos endereços de e-mail “   ”. são restritas para fins de SMTP para consistir em uma sequência de letras, dígitos e hífens extraídos do conjunto de caracteres ASCII  No contexto da construção de uma expressão regular, é difícil exagerar o grau em que essa restrição simplifica as questões, especialmente no que diz respeito à determinação do comprimento excessivo da string. A anotação dos exemplos irá destacar isso abaixo.  Também implica algumas outras considerações práticas no contexto da validação que exploraremos mais adiante.  Nomes de caixa de correio à solta  De acordo com os dois RFCs, o nome técnico da parte do endereço de e-mail à esquerda do símbolo “@“ é “caixa de correio”. Ambos os RFCs permitem latitude considerável em quais caracteres são permitidos na parte da caixa de correio.  A única restrição prática significativa é que as aspas ou parênteses devem ser balanceados, algo que é um verdadeiro desafio de verificar no regex vanilla.  No entanto, as implementações de caixa de correio do mundo real são novamente a medida que o programador prático deve empregar.  Como regra, as pessoas que nos pagam desaprovam que 90% de nossas horas faturáveis sejam direcionadas para resolver os 10% de casos teóricos que podem nem existir na vida real.  Vamos examinar os provedores de caixa de correio de e-mail dominantes, consumidores e empresas e considerar quais tipos de endereços de e-mail eles permitem.  Para e-mail do consumidor, fiz uma pesquisa primária, usando uma lista de 5.280.739 endereços de e-mail que vazaram de contas do Twitter.  Com base em 115 milhões de contas do Twitter, isso nos dá um nível de confiança de 99% com uma margem de erro de 0,055% para toda a população do Twitter, o que seria muito representativo da população geral de todos os endereços de e-mail da Internet. Aqui está o que eu aprendi:  82% dos endereços continham apenas caracteres alfanuméricos ASCII,  15% continham apenas ASCII alfanumérico e pontos (pontos ASCII), para 97% de todos os endereços,  3% continham apenas caracteres alfanuméricos ASCII, pontos e traços, para um valor nominal de 100% dos endereços de e-mail.  No entanto, este é um 100% arredondado. Para os amantes de curiosidades, também encontrei:  38 endereços com sublinhados para 0,00072% do total  27 com sinais de mais para 0,00051% e  1 endereço com caracteres Unicode representando 0,00002% do total.  O efeito líquido é que presumir que as caixas de correio de endereços de e-mail contenham apenas alfanuméricos ASCII, pontos e traços fornecerá uma precisão melhor do que 5 9 para e-mails de consumidores.  Para e-mails comerciais, Datanyze   que 6.771.269 empresas usam 91 soluções diferentes de hospedagem de e-mail. No entanto, a distribuição de Pareto se mantém e 95,19% dessas caixas de correio são hospedadas por apenas 10 provedores de serviços. informa  Gmail for Business (participação de mercado de 34,35%)  O Google permite apenas letras, números e pontos ASCII ao criar uma caixa de correio. No entanto, aceitará o sinal de mais   . ao receber e-mail  Microsoft Exchange Online (33,60%)  Permite apenas letras, números e pontos ASCII.  Hospedagem de e-mail GoDaddy (14,71%)  Usa o Microsoft 365 e permite apenas letras, números e pontos ASCII.  7 Provedores Adicionais (12,53%)  Não documentado.  Infelizmente, só podemos ter certeza de 82% das empresas e não sabemos quantas caixas de correio isso representa. No entanto, sabemos que dos endereços de e-mail do Twitter, apenas 400 de 173.467 domínios tinham mais de 100 caixas de correio de e-mail individuais representadas.  Acredito que a maioria dos 99% dos domínios restantes eram endereços de e-mail comerciais.  Em termos de políticas de nomenclatura de caixas de correio no nível do servidor ou domínio, proponho que seja razoável considerar esses 237.592 endereços de e-mail como representando uma população de 1 bilhão de endereços de e-mail comerciais com um nível de confiança de 99% e margem de erro de 0,25%, o que nos dá perto de 3 9's ao assumir que uma caixa de correio de endereço de e-mail contém apenas alfanuméricos ASCII, pontos e traços.  Casos de uso  Novamente, com a praticidade em mente, vamos considerar em que circunstâncias podemos precisar identificar programaticamente um endereço de e-mail válido.  Criação de nova conta/inscrições de usuários  Neste caso de uso, um novo cliente em potencial está tentando criar uma conta. Existem duas estratégias de alto nível que podemos considerar. No primeiro caso, tentamos verificar se o endereço de e-mail fornecido pelo novo usuário é válido e continuamos com a criação da conta de forma síncrona.  Há duas razões pelas quais você pode não querer adotar essa abordagem. A primeira é que, embora você possa validar se o endereço de e-mail tem um formulário válido, ele pode não existir.  A outra razão é que, em qualquer tipo de escala, síncrono é uma palavra de alerta, o que deve fazer com que o programador pragmático considere, em vez disso, um modelo de disparar e esquecer, em que um front-end da Web sem estado passa informações de formulário para um microsserviço ou API que irá valide o e-mail de forma assíncrona enviando um link exclusivo que acionará a conclusão do processo de criação da conta.  Formulários de contato  No caso de um formulário de contato simples, do tipo frequentemente usado para baixar white papers, a possível desvantagem de aceitar strings que parecem um e-mail válido, mas não são, é que você está diminuindo a qualidade de seu banco de dados de marketing ao não validar se o endereço de e-mail realmente existe.  Então, mais uma vez, o modelo disparar e esquecer é uma opção melhor do que a validação programática da string inserida em um formulário.  Análise de logs de referência e outros grandes volumes de dados.  Isso nos leva ao caso de uso real para identificação programática de endereço de e-mail em geral e regex em particular: anonimizar ou minerar grandes blocos de texto não estruturado.  Encontrei esse caso de uso pela primeira vez ajudando um pesquisador de segurança que precisava fazer upload de logs de referência para um banco de dados de detecção de fraude. Os logs de referência continham endereços de e-mail que precisavam ser anonimizados antes de deixar o jardim murado da empresa.  Eram arquivos com centenas de milhões de linhas, e havia centenas de arquivos por dia. “Linhas” podem ter quase mil caracteres.  Iterar pelos caracteres em uma linha, aplicar testes complexos (por exemplo, esta é a primeira ocorrência de   na linha e faz parte de um nome de arquivo como   ?) uma complexidade de tempo impossivelmente grande. @ imagefile@2x.png  Na verdade, a equipe interna de desenvolvimento desta (muito grande) empresa havia declarado que era uma tarefa impossível.  Eu escrevi o seguinte regex compilado:   search_pattern = re.compile("[a-zA-Z0-9\!\#\$\%\'\*\+\-\^\_\`\{\|\}\~\.]+@|\%40(?!(\w+\.)**(jpg|png))(([\w\-]+\.)+([\w\-]+)))")  E colocou-o na seguinte compreensão de lista do Python:   results = [(re.sub(search_pattern, "redacted@example.com", line)) for line in file]  Não consigo lembrar o quão rápido foi, mas foi rápido. Meu amigo poderia executá-lo em um laptop e terminar em minutos. Foi preciso. Cronometramos em 5 9 olhando para falsos negativos e falsos positivos.  Meu trabalho foi facilitado pelo fato de serem logs de referência; eles só podiam conter caracteres "legais" de URL, então consegui mapear todas as colisões que documentei no repo   . readme  Além disso, eu poderia ter simplificado ainda mais (e mais rápido) se tivesse realizado a análise do endereço de e-mail e aprendido com a garantia de que tudo o que era necessário para chegar ao alvo 5 9 era alfanumérico ASCII, pontos e traços.  No entanto, este é um bom exemplo de praticidade e escopo da solução para se adequar ao problema real a ser resolvido.  Uma das maiores citações de toda a tradição e história da programação é a   do grande Ward Cunningham para reservar um segundo para lembrar exatamente o que você está tentando realizar e depois se perguntar “Qual é a coisa mais simples que poderia funcionar?” admoestação  No caso de uso de análise (e, opcionalmente, transformação) de um endereço de e-mail de uma grande quantidade de texto não estruturado, essa solução foi definitivamente a coisa mais simples em que pude pensar.  Livro de receitas anotado  Como eu disse no início, achei divertida a ideia de construir um regex compatível com RFC 5322, então mostrarei a você pedaços de regex que podem ser compostos para lidar com vários aspectos do padrão e explicar como as políticas de regex funcionam. No final mostro como fica tudo montado.  A estrutura de um endereço de e-mail é:  A caixa de correio  caracteres legais  Pontos simples (pontos duplos não são permitidos)  Espaço em branco dobrado (loucura RFC 5322)   (Uma solução completa de regex também incluiria parênteses e/ou aspas balanceados, mas ainda não tenho isso. E muito possivelmente nunca terei.)  O delimitador (@)  o nome de domínio  Domínios parsáveis de DNS padrão  Literais de endereço IPv4  Literais de endereço IPv6  IPv6 completo  IPv6-comp (para compactado)  1ª forma (2+ grupos de 16 bits de zero no meio)  2ª forma (2+ grupos de 16 bits de zero no início)  3ª forma (2 grupos de 16 bits de zero no final)  4ª forma (8 grupos de 16 bits de zero)  IPv6v4 completo  IPv6v4-comp (compactado)  1ª forma  2ª forma  3ª forma  4ª forma  Agora, para o regex.  Caixa de correio   ^(?<mailbox>(\[a-zA-Z0-9\\+\\!\\#\\$\\%\\&\\'\\\*\\-\\/\\=\\?\\+\\\_\\\{\\}\\|\\\~]|(?<singleDot>(?<!\\.)(?<!^)\\.(?!\\.))|(?<foldedWhiteSpace>\\s?\\&\\#13\\;\\&\\#10\\;.))\{1,64})  Primeiro, temos   que “ancora” o primeiro caractere no início da string. Isso deve ser usado ao validar uma string que deve conter nada além de um e-mail válido. Ele garante que o primeiro caractere seja válido. ^  Se o caso de uso for encontrar um e-mail em uma string mais longa, omita a âncora.  Em seguida, temos   . Isso nomeia o grupo de captura por conveniência. Dentro do grupo capturado estão os três blocos regex separados pelo símbolo     o que significa que um caractere pode corresponder a qualquer uma das três expressões. (?<mailbox> de correspondência alternativa |  Parte de escrever um bom regex (desempenho e previsível) é garantir que as três expressões sejam mutuamente exclusivas. Isso quer dizer que uma substring que corresponde a uma definitivamente não corresponderá a nenhuma das outras duas. Para fazer isso, usamos classes de caracteres específicas em vez do temido   . .*  Personagens Incondicionalmente Legais   [a-zA-Z0-9\+\!\#\$\%\&\'\*\-\/\=\?\+\_\{\}\|\~]  A primeira correspondência alternativa é uma classe de caracteres entre colchetes, que captura todos os caracteres ASCII permitidos em uma caixa de correio de e-mail,   o ponto, “espaço em branco dobrado”, as aspas duplas e os parênteses. exceto  A razão pela qual os excluímos é que eles são legais apenas   , ou seja, existem regras sobre como você pode usá-los que devem ser validados. Nós lidamos com eles nas próximas 2 partidas alternativas. condicionalmente  ponto único   (?<singleDot>(?<!\.)(?<!^)\.(?!\.))  A primeira dessas regras diz respeito ao ponto (ponto). Em uma caixa de correio, o ponto só é permitido como separador entre duas strings de caracteres legais, portanto, dois pontos consecutivos não são válidos.  Para evitar uma correspondência se houver dois pontos consecutivos, usamos o   regex   que especifica que o próximo caractere (um ponto) não corresponderá se houver um ponto precedendo-o. lookbehind negativo (?<!\.)  Regex look arounds pode ser encadeado. Há outro olhar negativo antes de chegarmos ao ponto   que impõe a regra de que o ponto não pode ser o primeiro caractere da caixa de correio. (?!^)  Após o ponto, há um look_ahead_ negativo     impede que um ponto seja correspondido se for imediatamente seguido por um ponto. _(?!\.)_ , isso  dobradoWhiteSpace   (?<foldedWhiteSpace>\s?\&\#13\;\&\#10\;.)  Isso é um absurdo do RFC 5322 sobre permitir cabeçalhos de várias linhas em mensagens. Estou pronto para apostar que, na história dos endereços de e-mail, nunca houve alguém que tenha criado seriamente um endereço com uma caixa de correio de várias linhas (eles podem ter feito isso de brincadeira).  Mas estou jogando o jogo 5322, então aqui está, a sequência de caracteres Unicode que cria o   como uma correspondência alternativa. Espaço em Branco Dobrado   Aspas duplas balanceadas e parênteses  Ambos os RFC permitem o uso de aspas duplas como forma de delimitar (ou   ) caracteres que normalmente seriam ilegais. escapar  Eles também permitem incluir comentários entre parênteses para que sejam legíveis por humanos, mas não considerados pelo agente de transferência de correspondência (MTA) ao interpretar o endereço.  Em ambos os casos, os personagens só são válidos se   . Isso significa que deve haver um par de caracteres, um que   e outro que   . equilibrados abre fecha  Fico tentado a escrever que descobri um   , porém, isso provavelmente só funciona postumamente. A verdade é que isso não é trivial no regex de baunilha. demonstrationem mirabilem  Tenho a intuição de que a natureza recursiva do regex “ganancioso” pode ser explorada com vantagem; no entanto, é improvável que dedique o tempo necessário para atacar esse problema nos próximos anos e, portanto, na melhor tradição, deixo como um exercício para o leitor.  Comprimento da caixa de correio   {1,64}  Algo que realmente   é o tamanho máximo de uma caixa de correio: 64 caracteres. importa  Então, depois de fecharmos o grupo de captura de caixa de correio com um parêntese de fechamento final, usamos um   entre chaves para especificar que devemos corresponder a qualquer uma de nossas alternativas pelo menos uma vez e não mais que 64 vezes. quantificador  arroba   \s?(?<atSign>(?<!\-)(?<!\.)\@(?!\@))  O bloco delimitador começa com o     porque, de acordo com   um espaço é legal logo antes do delimitador, e estou apenas aceitando a palavra deles. caso especial \s? a Futility,  O restante do grupo de captura segue um padrão semelhante ao   ; não corresponderá se for precedido por um ponto ou traço ou se for seguido imediatamente por outro   . singleDot @  Nome do domínio  Aqui, como na caixa de correio, temos 3 correspondências alternativas. E o último deles aninhados nele outros 4 jogos alternativos.  DNS Parsable Padrão   (?<dns>[[:alnum:]]([[:alnum:]\-]{0,63}\.){1,24}[[:alnum:]\-]{1,63}[[:alnum:]])  Isso não passará em vários dos testes do   mas, conforme mencionado anteriormente, está em conformidade com a RFC 5321, que tem a palavra final. Futility,  IPv4   (?<IPv4>\[((?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\])  Não há muito a dizer sobre isso. Este é um regex conhecido e facilmente disponível para endereços IPv4.  IPv6   (?<IPv6>(?<IPv6Full>(\[IPv6(\:[0-9a-fA-F]{1,4}){8}\]))|(?<IPv6Comp1>\[IPv6\:((([0-9a-fA-F]{1,4})\:){1,3}(\:([0-9a-fA-F]{1,4})){1,5}?\])|\[IPv6\:((([0-9a-fA-F]{1,4})\:){1,5}(\:([0-9a-fA-F]{1,4})){1,3}?\]))|(?<IPv6Comp2>(\[IPv6\:\:(\:[0-9a-fA-F]{1,4}){1,6}\]))|(?<IPv6Comp3>(\[IPv6\:([0-9a-fA-F]{1,4}\:){1,6}\:\]))|(?<IPv6Comp4>(\[IPv6\:\:\:)\])|(?<IPv6v4Full>(\[IPv6(\:[0-9a-fA-F]{1,4}){6}\:((?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3})(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\])|(?<IPv6v4Comp1>\[IPv6\:((([0-9a-fA-F]{1,4})\:){1,3}(\:([0-9a-fA-F]{1,4})){1,5}?(\:((?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?))\])|\[IPv6\:((([0-9a-fA-F]{1,4})\:){1,5}(\:([0-9a-fA-F]{1,4})){1,3}?(\:((?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?))\]))|(?<IPv6v4Comp2>(\[IPv6\:\:(\:[0-9a-fA-F]{1,4}){1,5}(\:((?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?))\]))|(?<IPv6v4Comp3>(\[IPv6\:([0-9a-fA-F]{1,4}\:){1,5}\:(((?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?))\]))|(?<IPv6v4Comp4>(\[IPv6\:\:\:((?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3})(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\]))  Não consegui encontrar uma boa expressão regular para endereços IPv6 (e IPv6v4), então escrevi a minha própria, seguindo cuidadosamente as regras anotadas de Backus/Naur da RFC 5321.  Não anotarei cada subgrupo do regex IPv6, mas nomeei cada subgrupo para facilitar a separação e ver o que está acontecendo.  Nada muito interessante, exceto talvez a maneira como combinei correspondência gulosa no lado “esquerdo” e não gulosa no “direito” no grupo de captura IUPv6Comp1.  O montante todo  Salvei o regex final, junto com os dados de teste do Futility e aprimorado por alguns casos de teste IPv6 meus, para   . Espero que você tenha gostado deste artigo e que ele seja útil e uma economia de tempo para muitos de vocês. Regex101  AZW

Read the inside story of the failure of enterprise IT

Read My Stories

Este áudio é produzido no idioma original da história!

Sobre a praticidade do Regex para processamento de endereços de e-mail

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

Criando produtos criptográficos centrados no usuário: a importância do feedback do cliente

State of the Noonion: A New Era For Brands and Writers

Telegram: a ponte da Crypto Island para o continente

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

Criando produtos criptográficos centrados no usuário: a importância do feedback do cliente

State of the Noonion: A New Era For Brands and Writers

Telegram: a ponte da Crypto Island para o continente

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps