À medida que os recursos da GPU se tornam mais limitados, a miniaturização e os LLMs especializados estão lentamente ganhando destaque. Hoje exploramos a quantização, uma técnica de miniaturização de ponta que nos permite executar modelos de altos parâmetros sem hardware especializado.
Shanglun Wang
@shanglun
Quant, technologist, occasional economist, cat lover, and tango organizer.
STORY’S CREDIBILITY
Original Reporting
This story contains new, firsthand information uncovered by the writer.