Tokenizer

Tokenizers module. Provides classes for text tokenization.

Tokenizer: The Protocol class for all tokenizers.
RegexTokenizer: A tokenizer based on a regular expresion.
simple_tokenizer(): A legacy function that wraps the RegexTokenizer's split_text method.
TOKREGEX: The regular expresion used by default by RegexTokenizer.

Attributes

`TOKREGEX = re.compile('(?:(?:[€$￥£+-]?[0-9][0-9.,:%/-]|St\\.)[\\w_€-]+|https?://[^ ]+|[€$￥£@#§]?\\w[\\w_-]*|[,;:\\.?!¿¡‽⸮…()\\[\\]–{}—―/‒_“„”⹂‚‘’‛′″‟\'\\"«»‹›<>=+−×÷•·]+)')` `module-attribute`

The regular expresion used by default by RegexTokenizer.

Classes

`RegexTokenizer`

Bases: Tokenizer

Tokenizer that uses regular expressions to split a text into tokens. This tokenizer splits the input text using the specified regex pattern.

Source code in simplemma/tokenizer.py

class RegexTokenizer(Tokenizer):
    """
    Tokenizer that uses regular expressions to split a text into tokens.
    This tokenizer splits the input text using the specified regex pattern.
    """

    __slots__ = ["_splitting_regex"]

    def __init__(self, splitting_regex: Pattern[str] = TOKREGEX) -> None:
        self._splitting_regex = splitting_regex

    def split_text(self, text: str) -> Iterator[str]:
        """
        Split the input text using the specified regex pattern.

        Args:
            text (str): The input text to tokenize.

        Returns:
            Iterator[str]: An iterator yielding the individual tokens.

        """
        return (match[0] for match in self._splitting_regex.finditer(text))

Functions

`split_text(text)`

Split the input text using the specified regex pattern.

Parameters:

Name	Type	Description	Default
`text`	`str`	The input text to tokenize.	required

Returns:

Type	Description
`Iterator[str]`	Iterator[str]: An iterator yielding the individual tokens.

Source code in simplemma/tokenizer.py

def split_text(self, text: str) -> Iterator[str]:
    """
    Split the input text using the specified regex pattern.

    Args:
        text (str): The input text to tokenize.

    Returns:
        Iterator[str]: An iterator yielding the individual tokens.

    """
    return (match[0] for match in self._splitting_regex.finditer(text))

`Tokenizer`

Bases: Protocol

Abstract base class for Tokenizers. Tokenizers are used to split a text into individual tokens.

Source code in simplemma/tokenizer.py

class Tokenizer(Protocol):
    """
    Abstract base class for Tokenizers.
    Tokenizers are used to split a text into individual tokens.
    """

    @abstractmethod
    def split_text(self, text: str) -> Iterator[str]:
        """
        Split the input text into tokens.

        Args:
            text (str): The input text to tokenize.

        Returns:
            Iterator[str]: An iterator yielding the individual tokens.

        """
        raise NotImplementedError

Functions

`split_text(text)` `abstractmethod`

Split the input text into tokens.

Parameters:

Name	Type	Description	Default
`text`	`str`	The input text to tokenize.	required

Returns:

Type	Description
`Iterator[str]`	Iterator[str]: An iterator yielding the individual tokens.

Source code in simplemma/tokenizer.py

@abstractmethod
def split_text(self, text: str) -> Iterator[str]:
    """
    Split the input text into tokens.

    Args:
        text (str): The input text to tokenize.

    Returns:
        Iterator[str]: An iterator yielding the individual tokens.

    """
    raise NotImplementedError

Functions

`simple_tokenizer(text)`

Simple regular expression tokenizer.

This function takes a string as input and returns a list of tokens.

Parameters:

Name	Type	Description	Default
`text`	`str`	The input text to tokenize.	required
`splitting_regex`	`Pattern[str]`	The regular expression pattern used for tokenization. Defaults to `TOKREGEX`.	required

Returns:

Type	Description
`List[str]`	List[str]: The list of tokens extracted from the input text.

Source code in simplemma/tokenizer.py

def simple_tokenizer(text: str) -> List[str]:
    """
    Simple regular expression tokenizer.

    This function takes a string as input and returns a list of tokens.

    Args:
        text (str): The input text to tokenize.
        splitting_regex (Pattern[str], optional): The regular expression pattern used for tokenization.
            Defaults to `TOKREGEX`.

    Returns:
        List[str]: The list of tokens extracted from the input text.

    """
    return list(_legacy_tokenizer.split_text(text))

Tokenizer

Attributes

TOKREGEX = re.compile('(?:(?:[€$￥£+-]?[0-9][0-9.,:%/-]*|St\\.)[\\w_€-]+|https?://[^ ]+|[€$￥£@#§]?\\w[\\w*_-]*|[,;:\\.?!¿¡‽⸮…()\\[\\]–{}—―/‒_“„”⹂‚‘’‛′″‟\'\\"«»‹›<>=+−×÷•·]+)') module-attribute

Classes

RegexTokenizer

Functions

split_text(text)

Tokenizer

Functions

split_text(text) abstractmethod

Functions

simple_tokenizer(text)

`TOKREGEX = re.compile('(?:(?:[€$￥£+-]?[0-9][0-9.,:%/-]|St\\.)[\\w_€-]+|https?://[^ ]+|[€$￥£@#§]?\\w[\\w_-]*|[,;:\\.?!¿¡‽⸮…()\\[\\]–{}—―/‒_“„”⹂‚‘’‛′″‟\'\\"«»‹›<>=+−×÷•·]+)')` `module-attribute`

`RegexTokenizer`

`split_text(text)`

`Tokenizer`

`split_text(text)` `abstractmethod`

`simple_tokenizer(text)`