Модель стала одной из самых интересных моделей фонда с открытым исходным кодом в космосе.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 160 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Пространство модели фонда с открытым исходным кодом переживает огромный импульс благодаря невероятно инновационным выпускам. Одним из последних дополнений к пространству является Falcon LLM, модель, созданная Институтом технологических инноваций (TII) в Абу-Даби и выпущенная под лицензией Apache 2.0. Falcon быстро занял первое место в таблице лидеров Open LLM и стал одной из самых интересных моделей фундаментов в этой области.

Внутри сокола

В семействе Falcon есть две базовые модели: Falcon-40B и его меньший аналог Falcon-7B. В настоящее время модель с параметрами 40B занимает первое место в рейтинге Open LLM Leaderboard, а модель с параметрами 7B лидирует в своей конкретной весовой категории.

Для запуска Falcon-40B требуется примерно 90 ГБ памяти графического процессора, что значительно, но все же меньше, чем требуется для LLaMA-65B, модели, уступающей Falcon. С другой стороны, Falcon-7B требует всего около 15 ГБ, что позволяет делать выводы и выполнять точную настройку даже на оборудовании потребительского уровня.

TII также представила версии моделей на основе инструкций: Falcon-7B-Instruct и Falcon-40B-Instruct. Эти экспериментальные варианты прошли тонкую настройку с использованием обучающих и разговорных данных, что делает их особенно подходящими для популярных задач в стиле помощника. Если вы хотите быстро поэкспериментировать с моделями, рекомендуется выбрать эти версии. Кроме того, также можно создать индивидуальную версию инструкций на основе разнообразных наборов данных, разработанных сообществом. Подробное руководство по этой теме будет предоставлено позже.

Для обучения Falcon-7B и Falcon-40B было задействовано 1,5 трлн и 1 трлн токенов соответственно, что соответствует современным моделям, в которых приоритет отдается оптимизации логического вывода. Исключительное качество моделей Falcon проистекает из их обучающих данных, причем значительное большинство (>80%) получено из RefinedWeb — нового обширного набора веб-данных, основанного на CommonCrawl. Вместо того, чтобы полагаться на разрозненные проверенные источники, TII сосредоточился на масштабировании и повышении качества веб-данных за счет реализации широкомасштабной дедупликации и строгих методов фильтрации, тем самым достигнув уровня качества, сравнимого с другими корпусами. Хотя модели Falcon по-прежнему включают в свое обучение определенные проверенные источники, такие как разговорные данные из Reddit, зависимость от тщательно отобранных данных заметно снижается по сравнению с современными LLM, такими как GPT-3 или PaLM. Кроме того, TII предоставила общественности 600 миллиардов токенов подмножества RefinedWeb, что позволило сообществу использовать его в своих собственных проектах LLM.

Еще одним интригующим аспектом моделей Falcon является использование ими внимания к множеству запросов. В обычной схеме внимания с несколькими головками каждая головка имеет свой собственный запрос, ключ и значение. Однако в подходе с несколькими запросами общий ключ и значение используются для всех головок.

Использование Сокола

Использование моделей Falcon доступно через библиотеку Transformer Hugging Face. Опыт так же прост, как несколько строк кода, как показано ниже:

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model = "tiiuae/falcon-40b"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
)
sequences = pipeline(
   "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Girafatron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:",
    max_length=200,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

RedefinedWeb

Часть магии Falcon основана на наборе обучающих данных. RedefinedWeb — это набор данных, состоящий из пяти триллионов токенов, полученных исключительно из веб-данных.

RedefinedWeb основан на архитектуре под названием MDR (MacroData Refinement), которая представляет собой надежный конвейер, предназначенный для фильтрации и дедупликации веб-данных, полученных из CommonCrawl, в широком масштабе. MDR использует комбинацию строгих методов фильтрации и строгой дедупликации для повышения качества веб-данных, объединяя их в корпус, который соответствует стандартам, установленным агрегированными корпусами, используемыми для обучения современных моделей.

Принципы проектирования, регулирующие MDR, соответствуют следующим рекомендациям:

· Приоритет по шкале: MDR направлен на создание наборов данных, предназначенных для моделей обучения, с 40–200 миллиардами параметров, что требует включения триллионов токенов (Hoffmann et al., 2022). В частности, для набора данных RefinedWeb только на английском языке целевой размер варьируется от 3 до 6 триллионов токенов. Основное внимание уделяется достижению этого масштаба, не полагаясь на трудоемкие процессы курирования вручную, вместо этого делая акцент на использовании CommonCrawl, а не на разрозненных однодоменных источниках.

· Строгая дедупликация: черпая вдохновение из работы Lee et al. (2022), в котором подчеркивается важность дедупликации для больших языковых моделей, MDR реализует тщательный конвейер дедупликации. Этот конвейер сочетает в себе как точные, так и нечеткие методы дедупликации, используя строгие настройки, которые приводят к значительно более высоким показателям удаления по сравнению с показателями, о которых сообщают другие.

· Нейтральная фильтрация. Чтобы предотвратить введение в модель непреднамеренных смещений (Dodge et al., 2021; Welbl et al., 2021), MDR избегает использования методов фильтрации на основе машинного обучения за пределами идентификации языка. Вместо этого используются простые правила и эвристики, при этом фильтрация URL-адресов является единственным методом фильтрации контента для взрослых.

Различные этапы конвейера MDR показаны ниже.

Модели, обученные на RedefinedWeb, показали, что они превосходят модели, обученные на традиционных тщательно подобранных наборах данных, в задачах с нулевым выстрелом.

Falcon представляет собой еще одну важную веху в эволюции LLM с открытым исходным кодом.