ExNlp.Tokenizer.Keyword (ex_nlp v0.1.0)

Keyword tokenizer - treats entire input as a single token.

Useful for exact match searches. Similar to keyword tokenizers in NLTK.

Examples

iex> ExNlp.Tokenizer.Keyword.tokenize("Hello world")
[%ExNlp.Token{text: "Hello world", position: 0, start_offset: 0, end_offset: 11}]

iex> ExNlp.Tokenizer.Keyword.span_tokenize("Hello world")
[{0, 11}]

Summary

Types

span()

token()

Functions

span_tokenize(text)

Returns spans (start_offset, end_offset) for tokens.

tokenize(text)

Tokenizes text by treating the entire input as a single token.

tokenize_text(text)

Tokenizes text and returns just the text strings (no Token structs).