معرفی شرکت ها

تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

توضیحات

A useful tool for bert tokenization

ویژگی	مقدار
سیستم عامل	-
نام فایل	bert-tokens-0.0.3
نام	bert-tokens
نسخه کتابخانه	0.0.3
نگهدارنده	[]
ایمیل نگهدارنده	[]
نویسنده	StefenSal
ایمیل نویسنده	4772896@gmail.com
آدرس صفحه اصلی	https://github.com/StefenSal/Bert-Tokens-Tools
آدرس اینترنتی	https://pypi.org/project/bert-tokens/
مجوز	-

# Bert tokens Tools A useful tools to handle problems when you use Bert. ## Installation ### With Pip This repository is tested on Python 3.6+, and can be installed using pip as follows: ```shell pip install bert-tokens ``` ## Usage ### Tokenization and token-span-convert WordPiece tokenization for BERT, which can be universally applicable for different language versions for BERT. The supported BERT checkpoints including but not limited to: - **[`BERT-Base, Uncased`](https://storage.googleapis.com/bert_models/2020_02_20/uncased_L-12_H-768_A-12.zip)** - **[`BERT-Base, Chinese`](https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip)** - **[`BERT-Base, Multilingual Cased`](https://storage.googleapis.com/bert_models/2018_11_23/multi_cased_L-12_H-768_A-12.zip)** ### Token-span-convert Convert token span from char-level to wordpiece-level. This usually happens in multi-lingual scenarios. For example, query="播放mylove"，the char-level index of sequence "mylove" is [2,8], while the token index after bert tokenization should be [2,4] And convert token span from wordpiece-level to char-level, just as the reverse procedure of above. ### Example ```python from bert_tokens.bert_tokenizer import Tokenizer from bert_tokens.convert_word_span import convert_word_span, convert_char_span dict_path = "vocab/vocab.txt" tokenizer = Tokenizer(dict_path, do_lower_case=True) tokens = tokenizer.tokenize("播放MYLOVE") print(tokens) ## ['[CLS]', '播', '放', 'my', '##love', '[SEP]'] convert_word_span("播放MYLOVE", [2,8], tokenizer) ## [2, 4] convert_char_span("播放MYLOVE", [2,4], tokenizer) ## [2, 8] ```

نحوه نصب

نصب پکیج whl bert-tokens-0.0.3:

pip install bert-tokens-0.0.3.whl

نصب پکیج tar.gz bert-tokens-0.0.3:

pip install bert-tokens-0.0.3.tar.gz