Доброчанька 04/02/2023 (Sun) 17:46 No.3501 del
>>3500
Забыл сказать, почему считаю, что эта логика доказывает, что мощные LLMы будут умнеть от "медитаций" и вообще иметь в себе актуальное или потенциальное превосходство над обучающей выборкой.

Потому что (по крайней мере, с нашими не вполне наивными методами оценки perplexity/cross-entropy loss) проще и дешевле представить по возможности "истинный" сильный алгоритм и набор зашумляющих масок, нежели выучивать ебанутую модель мира, в которой весь шум имеет равное значение.
То есть нейросетке будет проще выучить, как реально вычисляются все возможные ответы, и при инференсе накладывать на это векторы "с неуместным кальсонным юморком", "с когнитивными искажениями коммидебила", "с опечатками школоло". Также мы уже знаем, что в ней есть репрезентация "субъективной истинности", которая не зависит от того, что она кукарекнула: https://arxiv.org/abs/2212.03827

Соответственно при медитации она сможет оценивать свои кукареки на предмет того, насколько они зашумлены (можно ей помочь, дав внешнего критика или инструмент для прямого наблюдения за своими активациями, как в статье выше), и итеративно понижать вклад этих векторов в типичную генерацию, где они не запрашиваются. Условно, она будет выдавать кальсонерию, в ответ на кальсонерию мой пост, сравнивать их по ощущению истинности и кальсонерии присваивать отрицательный вес, а ответы в моём ключе добавлять себе для файнтюна, а потом – будет вести отбор уже на результатах файнтюна, между хорошими и очень хорошими ответами… Дальше можно ей помочь, дав симулятор для проверки гипотез или доступ к другим инструментам…

Больше (не умышленно плохих) данных – больше материала для формирования истинной структуры, которая может критически оценивать данные и сохранять ориентацию на истину в общем случае.