DenisSemenov

Средства автоматизации сбора семантического ядра

В этой теме 1 сообщение

 

Формирование семантического ядра

 

        Процесс формирования семантического ядра - это долгая и кропотливая работа. В этой статье описано о средствах автоматизации его формирования, об алгоритме его создания и инструментах, которые при этом применяются.

В подготовке семантики выделяют следующие этапы:

·         Сбор базовых ключей

·         Расширение

·         Удаление нецелевых запросов

·         Кластеризация

1. Сбор базовых ключей

        Необходимо продумать, какие фразы полностью соответствуют продукту на сайте. Для этого можно использовать бесплатный сервис Yandex Wordstat. Введите название обрабатываемой категории (например, «пряжа») в поле поиска и нажмите «подобрать»:

qc8tYUbELzudPcq86qcQLguJoKk2qZn8cypRC-XE_laQIPJsrjnatwzTp9bSKX44GipaEA4AmTFqI8RE8QH3YVdNLQOPoMzzKfk_-MSzu2vGYNYg2Pkys7nZ8VibpAx1PfWzbsE6

        Для упрощения работы с Яндекс Вордстат можно установить плагин Wordstat Helper (расширение для браузера). С его помощью вы сможете сформировывать и выгружать списки нужных ключей прямо на странице Яндекс. Теперь в него добавляем фразы, которые логически могут подходить данной категории, но не расширены в Вордстате. Для этого надо просмотреть органическую выдачу для типовых ключевиков, учитывать словоформы различных вариаций, транслитерацию названий брендов.

2. Расширение семантического ядра

           Для расширения семантического ядра существуют различные источники и инструменты, как публичные, так и нет. Например, модуль «Расширение» в сервисе Just-Magic, использует свои базы для расширения подаваемых на вход запросов. Другим примером является Wordstat Words Parser в сервисе Seo-Utils. Если сайт уже существует некоторое время, то рекомендуется использовать данные с сервисов Google Analytics и Яндекс Метрика для расширения семантического ядра.

3. Чистка собранных значений

После подготовки базы необходимо избавиться от тех запросов, которые не соответствуют тематике сайта. Более общедоступным программным средством для этих целей является Microsoft Excel, так как этот продукт обладает всем функционалом для решения этой задачи. Основными инструментами при очистке семантики являются условное форматирование и фильтрация.

1) Использование стоп-слов.

Для быстрой обработки ядра имеет смысл собрать список нежелательных слов, которые не нужны в данной задаче. Например, для коммерческого сайта нецелесообразны запросы, содержащие популярные некоммерческие маркеры: бесплатно, скачать, торрент, как, что и т.д.

Для автоматизации можно записать макрос на поиск строк, которые содержат эти значения. Для этого запускаем запись макроса (панель разработчик – запись макроса), выделяем столбец, кликаем по вкладке условное форматирование – правила выделения ячеек – текст содержит:

YSFgCxrrjeszg62F9rylxLemUzIFE1Z2aCeFcqZhS2Q_LP2ivjX8525JJbbCwNUdq7ZaGsHnaEoNsJB3wDctKSCGdkZja-5dlA4f9K5rFZLP1CpJ8c9gZ-dDMGbEGMw1Z4VH5zKW

 

В окне ввода прописываем по порядку заготовленные стоп слова, повторяя предыдущие действия. После записи макроса сохраняем его. При его выполнении выделяются ячейки, которые можно удалить простой фильтрацией по цвету:

yupEqkghwUQv7JDWbhbZU3Fd8HxTy4g-f6Syb4ji3AwJ8d3_Di1Udex3g9tPUAsTf31n8E4cGNmPrreaipdR8HHj9ZbRIZDHtgs-UlKE8uPvemh204fCAjlwxfYzURd-QhVJaDDn

2) Применение подстановочных знаков

Постановочные знаки в Excel: символы звездочки «*», тильды «~» и вопроса «?».

* (звездочка) обозначает любую произвольную последовательность символов. Например, при вводе в поиск выражения «*ник», мы получаем все строки, содержащие «ник» на конце (тройник, двойник, переходник).

? (вопросительный знак) обозначает один произвольный символ. При поиске по фразе р?зетка, выдаются ячейки, содержащие “разетка” и “розетка”

~ (тильда) употребляется для нахождения ячейки со звездочкой или вопросительным знаком, для этого нужно искать «~?» или «~*»

            Грамотное использование этих символов способно увеличить скорость при работе с семантикой в Excel.

3) Анализ неявных дублей

Неявные дубли – это поисковые запросы, которые состоят из одних и тех же слов, но эти слова размещены в разном порядке, либо они использованы с разной морфологической формой, падежом или числом. Например, “телефона Samsung” и “Samsung телефоны”. Для их выявления можно применить нормализатор.

Воспользуемся сервисом нормализации на py7.ru.

Для этого нам нужен список запросов и их частота, снятая с использованием квадратных скобок, т.е. частота запроса с фиксированным порядком слов. Переходим на страницу py7.ru/tools/norm, добавляем заготовленный список, ставим галочку «привести морфологию», во вкладке «упорядочить слова» выбираем «по алфавиту». Нажимаем кнопку «нормализовать» и получаем готовый обработанный перечень значений. Далее переносим их соответственно в рабочий файл, сортируем по точной частоте от большей к меньшей и удаляем строки с дублями.

4. Кластеризация

Группирование - самый затратный по времени процесс в сборе семантического ядра. Использование сервисов для этого необходимо при обработке больших объемов запросов. Для ускорения обработки можно применять сервисы автоматической кластеризации, одним из которых является сервис Just-magic. Порядок действий при использовании сервиса Just-Magic для кластеризации: заходим на сайт just-magic.org, переходим во вкладку «сервисы», далее – «кластеризатор». Выбираем регион обработки и поисковую систему. Загружаем наш обрабатываемый список и на выходе будет таблица с запросами, тематическим классификатором и  метками grp:

7BHkkzzNWBCTy_vm21n0EZUQ8E11Inc-nHVf37DExw9PsJCZyeZgmnRx7WLcrGVX3jDhb1lahwJ-LUbP-JjEYNa13PsoWwyuxQfybTiHwnMkTkqy3E8XqkEQyD3iLHmA1flc8wfD

Всего grp-меток 4. Метка grp1 — наиболее широкая группа. Все запросы, имеющие одинаковый номер группы в столбце grp1, относятся к одной группе. Группа формируется по принципу «существует как минимум 3 url, которые присутствуют в топ-10 по каждому из запросов группы». Группы grp2-4 созданы по аналогичному принципу, но минимум урлов для объединения у них, соответственно, 4-6. Для сбора семантики коммерческих сайтов целесообразнее использовать метки grp1 и grp4.

Теперь необходимо интегрировать результат работы сервиса в наш рабочий файл и формировать названия наших групп запросов. Сделать это можно, используя стандартные средства, например, функцию ВПР в Excel:

5332J6pjdQDum1d19_ghLvVAbkwuzQn4xEts_nHZEDmQgSFlzituTkq1yOdzkzuiCcaICDpphs8KXIKmtT3X_3b-6Tq2YoBxQegaTHt4nipEBALAUTdbO23gwH5zUaON05FGkHhZ

Искомым значением будет поисковый запрос, в поле таблица – нужные столбцы из выгрузки сервиса кластеризатора, номер столбца – соответствующий для одной из четырех меток grp.

После этого, уже на основании данных в столбце grp, можно начать процесс формирования значений в столбце названий групп.

Для начала нужно отсортировать рабочую таблицу сперва по частоте (от большей к меньшей), затем по grp (от меньшего к большему). Одним из наиболее простых и эффективных способов заполнения столбца с названиями групп, является условное копирование данных из столбца с запросами и приведение их к общему виду, используя средства автозамены в Excel.

На следующем этапе мы «перетягиваем» данные из столбца с запросами из файла выгрузки Just-Magic в главную таблицу, используя ВПР. Здесь искомым значением будет соответствующая выбранная метка gpr (в нашем случае – grp4), таблица – выгрузка из кластеризатора, номер столбца соответствующий. Итогом этой работы будет заполненный столбец с названиями групп:

m619T2QrF_92-S3dCn3e4ZXYljtc1bAKE2MlHN0-_-gUKnSgVDGTFtwMPqodvCioJ1Zc1Kp5Cyp7mL1E3LcDHyHXFnpugJ4zdi7I2ZPQLI61WdgzHEd1UZFQNlo6s4jgaxidSR5N

После этого необходимо просмотреть их на предмет возможных ошибок, удалить коммерческие маркеры и изменить морфологию в столбе группировки при необходимости. Выделяем столбец GroupName и автозаменой Excel удаляем все коммерческие маркеры (слова «купить», «продажа», «цена» и т.д заменяем на «пустоту»):

7RLjGxtQ87A5yReRx383O0iuk8ULbZ-LMWyXJqbIlvhRD5TJ9tkteEGylKt8QJkLn6uKNBD9KdDzEBMga05GqKBPf69mv1RsJKug1-4AiepNB9wF5eJ1CJ0KqhVkJQH2a4S5KOu0

Таким же способом все названия брендов переводим в латиницу, заменяем единственное число на множественное:

3dnBIqpvaLscR7h5URgW-JuNGI4yFQ0xw5b9hHPAKT3k8cVU-sp8wiKYvyyRtudE9Hg9xIaGjRannTyUxwIoicWyMiGFu2lCyvkcKyuPr5dJGXHrHoSw4Z7DstVa8H2j9_W8-AXm

      После этого просматриваем все названия групп вручную, при необходимости исправляем ошибки, меняем порядок слов и объединяем группы вручную если это возможно.

Такой подход в формировании значений GroupName позволит легко сгруппировать запросы, а также даст возможность в будущем задавать необходимые нам ЧПУ URl создаваемых страниц, используя сервисы транслитерации.

Сейчас существует много различных программ, баз и сервисов для оптимизаторов, но при этом все равно не удается полностью автоматизировать все процессы. Именно опыт оптимизитора и семантолога будут иметь решающий фактор в процессе формирования максимально эффективного семантического ядра.

Отредактировал DenisSemenov
0

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Создайте учетную запись или войдите, чтобы комментировать

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!


Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.


Войти