Доброчанька 03/30/2023 (Thu) 23:34 No.3479 del
(704.01 KB 1752x1769 6zuazazouqna1.jpg)
>>3476
Думаю, что
- есть ещё очень много неиспользованного обучающего материала, например почти весь ютюб и почти все дампы переписок и разговоров, которые доступны корпоратам, не говоря уж о государствах и специальных агентствах
- большие модели лучше могут в 0-shot, у них выше и sample efficiency в тренинге, так что не следует ожидать убывающих профитов от объёма
- мультимодальность в большом масштабе тоже повысит sample efficiency, как она повышает его для человека
- embodied приор ещё сильно повысит
- ChatGPT-плагины и подобные подходы сильно понизят требование к выучиванию низкоуровневых навыков и меморизации, и освободят параметры для генерализации
- новые архитектуры (даже новые вариации трансформера), обжективы и так далее более эффективны
- подозреваю, что на самом деле важнее не объём данных, а data pruning и файнтюнинг на данных высокого качества, это доказывают старые, слабые маленькие модели, которые резко умнеют от тюнинга на альпака-датасете (жалкие 50к пар инструкций)
- синтетические данные очень эффективны
- большие модели уже могут самоулучшаться, генерируя себе материалы для файнтюна на основе сильных примеров и отсеивая левую половину распределения генераций, и чем они больше и мощнее – тем больше выигрыш от такой медитации

И так далее. Возможности этого поколения моделей нельзя объяснить просто тем, что в них запихнули больше данных, чем в прошлые; и в загашнике ещё десятки статей, которые продолжают сдвигать парето-кривую.

>>3477
> дебик нароллил плохой ответ
Ну нихуя себе.

Message too long. Click here to view full text.