معرفی شرکت ها


dante-tokenizer-0.2.0


Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

توضیحات

-
ویژگی مقدار
سیستم عامل -
نام فایل dante-tokenizer-0.2.0
نام dante-tokenizer
نسخه کتابخانه 0.2.0
نگهدارنده []
ایمیل نگهدارنده []
نویسنده Emanuel Huber
ایمیل نویسنده emanuel.huber@usp.br
آدرس صفحه اصلی https://github.com/huberemanuel/twitter-portuguese-tokenizer
آدرس اینترنتی https://pypi.org/project/dante-tokenizer/
مجوز Apache 2.0
# Twitter Portuguese Tokenizer Tokenizador de Tweets para o português, voltado ao mercado de ações (Dataset Dante). ## Requerimentos Python >= 3.7 ## Como usar Execute o seguinte comando para instalar as dependências e instalar o pacote `dante_tokenizer`. ```bash make install ``` O pacote será adicionado ao seu ambiente python. Para tokenizar textos, basta seguir os seguintes passos: ```python >>> from dante_tokenizer import DanteTokenizer >>> tokenizer = DanteTokenizer() >>> tokenizer.tokenize("A DANT3 está em alta!") ['A', 'DANT3', 'está', 'em', 'alta', '!'] ``` O método `tokenize` irá retornar uma lista de strings contendo os respectivos tokens detectados. Outros exemplos estão disponíveis na pasta `notebooks`. # DanteTokenizer O DanteTokenizer é uma modificação do [TweetTokenizer](https://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.casual) do pacote nltk. Adicionando regras para comportar as variedades de tokens existentes nos tweets relacionados ao mercado de ações. Obs: Como a classe atual do TweetTokenizer não permite uma extensão de forma fácil, o código foi extraído e modificado dentro do `dante_tokenizer`. ## Agradecimentos Ao Prof. Thiago A. S. Pardo pela orientação no programa de mestrado, à Profa. Ariani Di Felippo por definir as regras de tokenização e à Dra. Lucelene Lopes pelas contribuições técnicas.


نیازمندی

مقدار نام
>=3.6.2 nltk
>=2021.4.4 regex


نحوه نصب


نصب پکیج whl dante-tokenizer-0.2.0:

    pip install dante-tokenizer-0.2.0.whl


نصب پکیج tar.gz dante-tokenizer-0.2.0:

    pip install dante-tokenizer-0.2.0.tar.gz