Zig Tokenizer

Um projeto de teste para criação de um tokenizer para LLMs, atualmente implementa dois modos: quebra conservadora, e quebra agressiva.

Conservative: preserva palavras compostas (e.g., "co-working", "Let's") e separa apenas em pontuações pesadas e espaços.
Aggressive: separa símbolos intermediários como hífens, apóstrofes e barras, para gerar tokens mais fragmentados, ideal para pré-processamento de LLMs.

Não é uma lib. (até o momento)

Como usar

Inicialize o tokenizer informando as opções desejadas:

const Tokenizer = @import("tokenizer.zig").Tokenizer;

const tokenizer = Tokenizer.init(true, .Agressive);

const input = "Olá, Mundo!";
const tokens = try tokenizer.tokenize(allocator, input);

Status

Tokenização de palavras, pontuação e símbolos intermediários.
Suporte a modos Conservative e Aggressive.
Offsets para reconstrução reversível.
Lowercasing opcional.
BPE (Byte-Pair Encoding) após tokenização.
Suporte completo a Unicode (caracteres acentuados, scripts orientais, etc).
Tratamento especial para emojis e símbolos complexos.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
build.zig		build.zig
build.zig.zon		build.zig.zon

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Zig Tokenizer

Como usar

Status

About

Languages

License

ifonso/zig-tokenizer

Folders and files

Latest commit

History

Repository files navigation

Zig Tokenizer

Como usar

Status

About

Topics

Resources

License

Stars

Watchers

Forks

Languages