Доброчанька 11/02/2023 (Thu) 08:46 No.3780 del
>>3779
> В чём у ей проблема интерпретировать текст запроса как набор байт?
BPE колоссально удешевляет и упрощает как обучение так и инференс, и вообще всю логику системы.
У них фиксированный словарь. У лламы там 32к токенов, ничего другого для неё не существует.
Есть статьи
https://arxiv.org/abs/2306.00238
https://arxiv.org/abs/2305.07185
решающие твою задачу, но пока я не в курсе чтобы из этого сделали что-то product-grade.

>
Вообще, дорогие, я думаю что русскоязычную LLM надо обучить на архиве non-fiction Флибусты, lib.ru, libgen-а, гуманитарной, исторической и философской литературе.
Да.

Самая разумная база для этого - вероятно, Qwen-14B, у него огромный словарь без биаса по размеру токенов\плотности сжатия в разных языках.

Данных достаточно, да не тех – мы же не литературную модель обучаем, нужно что-то, что понимает снэпшоты современного интернета и может говорить. Это довольно серьёзная задача инжиниринга данных.

Message too long. Click here to view full text.