معرفی شرکت ها


TakeSentenceTokenizer-1.0.2


Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

توضیحات

TakeSentenceTokenizer is a tool for tokenizing and pre processing messages
ویژگی مقدار
سیستم عامل OS Independent
نام فایل TakeSentenceTokenizer-1.0.2
نام TakeSentenceTokenizer
نسخه کتابخانه 1.0.2
نگهدارنده []
ایمیل نگهدارنده []
نویسنده Karina Tiemi Kato
ایمیل نویسنده karinat@take.net
آدرس صفحه اصلی -
آدرس اینترنتی https://pypi.org/project/TakeSentenceTokenizer/
مجوز -
# TakeSentenceTokenizer TakeSentenceTokenizer is a tool for pre processing and tokenizing sentences. The package is used to: - convert the first word of the sentence to lowercase - convert from uppercase to lowercase - convert word to lowercase after punctuation - replace words for placeholders: laugh, date, time, ddd, measures (10kg, 20m, 5gb, etc), code, phone number, cnpj, cpf, email, money, url, number (ordinal and cardinal) - replace abbreviations - replace common typos - split punctuations - remove emoji - remove characters that are not letters or punctuation - add missing accentuation - tokenize the sentence ## Installation Use the package manager [pip](https://pip.pypa.io/en/stable/) to install TakeSentenceTokenizer ```bash pip install TakeSentenceTokenizer ``` ## Usage Example 1: full processing not keeping registry of removed punctuation Code: ```python from SentenceTokenizer import SentenceTokenizer sentence = 'P/ saber disso eh c/ vc ou consigo ver pelo site www.dúvidas.com.br/minha-dúvida ??' tokenizer = SentenceTokenizer() processed_sentence = tokenizer.process_message(sentence) print(processed_sentence) ``` Output: ```python 'para saber disso é com você ou consigo ver pelo site URL ? ?' ``` Example 2: full processing keeping registry of removed punctuation ```python from SentenceTokenizer import SentenceTokenizer sentence = 'como assim $@???' tokenizer = SentenceTokenizer(keep_registry_punctuation = True) processed_sentence = tokenizer.process_message(sentence) print(processed_sentence) print(tokenizer.removal_registry_lst) ``` Output: ```python como assim ? ? ? [['como assim $@ ? ? ?', {'punctuation': '$', 'position': 11}, {'punctuation': '@', 'position': 12}, {'punctuation': ' ', 'position': 13}]] ``` ## Author Take Data&Analytics Research ## License [MIT](https://choosealicense.com/licenses/mit/)


نیازمندی

مقدار نام
==1.7.0 emoji


نحوه نصب


نصب پکیج whl TakeSentenceTokenizer-1.0.2:

    pip install TakeSentenceTokenizer-1.0.2.whl


نصب پکیج tar.gz TakeSentenceTokenizer-1.0.2:

    pip install TakeSentenceTokenizer-1.0.2.tar.gz