MySQL. Что быстрее: много маленьких выборок, либо мало больших выборок?

Vitaminych, 342 просмотра

Есть скрипт для синхронизации данных из прайс-листа (Excel, около 5000 строк) с базой данных (MySQL). Ежедневно их надо синхронизировать, при этом данные из прайса заносятся в базу данных с проверкой. По существующим данным обновляется только цена, несуществующие в базе данных добавляются, существующие в базе, но отсутствующие в прайсе - удаляются.

Как лучше сделать:
1 вариант. Взять все данные из БД одним запросом и обрабатывать массив данных, сравнивая построчно с прайсом.
2 вариант. Брать одну строчку из прайса, искать товар с нужным артикулом и сравнивать его.

В первом случае используется огромный объем памяти, во втором много запросов. Какой вариант лучше или может быть надо использовать другой вариант? Лучше - по скорости работы и надежности.

Ответы:

не знаю где там она в денверовской сборке лежит

1й вариант быстрее

SIN

1ый вариант предпочтительнее. Аналог - аброботка запросов с меньшим количеством таблиц много быстрее чем обработка такого же кол-ва позиций, но с большим кол-вом таблиц.

Web

1й вариант быстрее. 5000 строк один раз в день тфу для сервера, можно и вторым вариантом воспользоваться, если так будет проще писать. :)

канадос

В идеале нужно стремиться к тому, чтобы было лишь одно место хранения данных, что исключает необходимость синхронизации.
Т.е. в вашем случае может быть возможно избавиться от прайс-листа в Excel, если иметь веб-интерфейс для обновления информации, печати прайс-листа и, может быть, экспорта в файл.
Если же говорить о ваших двух вариантах то проже попробовать оба и выбрать что лучше. 5000 строк не так и много и возможно более надежный алгоритм предпочтительнее более быстрого.

Если есть возможность для поисковика пролезть за данными и их скачать, значит можно написать скрипт, который притворится поисковиком и тож

Быстрее 1ый вариант, особенно если БД все вернет в отсортированном виде. (А данные там так и надо хранить).
Если отсортируешь еще и эти 5000 строк, то трудоемкость будет
O(5000*log2(5000)) - сотрировка + O(5000+N) - слияние.

Уточню, первый вариант быстрее если
5000+N < 5000 * log2(N)
Уже при N большем 100000 второй вариант быстрее

И еще одно уточнение, при небольшом N (до 100000) данные можно организовать так,
что поиск будет идти почти за константное время. Тогда 2ой вариант будет тоже будет быстрее.

PureVirtual

Свистунович, насколько я понял постановку задачи, N ~= 5000 ("существующие в базе, но отсутствующие в прайсе - удаляются").

2 PureVirtual
Вы правы, про удаление записей я как то упустил. Значится N = 5000.
Тогда надо ли синхронизировать? Не проще ли каждый раз но новому создавать таблицу?

PureVirtual

Предлагаю такой вариант решения. Ввести в таблицу БД дополнительное поле `Date` (дата добавления записи). Каждый день тупо сбрасывать в БД весь прайс из Excel'я, а затем удалять слишком старые записи (например, давностью более месяца). При этом в БД будет храниться не только текущая информация, но и статистика изменений за некоторый период времени. При выборке же актуальной информации брать последнюю дату по каждой конкретной записи, либо просто все записи за текущее число.

Easy

Не знаю, как для MySQL но для MSSQL в котором я немного разбираюсь - это семечки.

Easy

Не знаю, что Вы имели в виду под надежностью: алгоритмы бывают или корректные или нет, реализации - аналогично.
Но прошу отметить, что мой способ
1. Краток. Тяжелее сделать ошибку в реализации
2. Прост. Тяжелее сделать ошибку в реализации
Из этих факторов вытекает невысокая необходимость вставлять корректную обработку разных исключений (например, потерю коннекта) в кучу мест

2 Easy
Как я понял из задачи здесь не синхронизация, а репликация данных из Excel.
Тогда cравнивать ничего не надо и Ваш вариант можно упростить.

Vitaminych

Господа, уточню. Удалять все данные из БД при обновлении нельзя. В БД находится товарный каталог, в котором есть описание товара, набор полей, цена, количество и т.д. А по прайсу обновляется только цена и количество в случае наличия товара в прайсе и БД, либо добавляется новый товар с названием, описанием, ценой и количеством, если такого товара еще нет. То есть при обновлении создается отсутствующий товар, потом приходит менеджер и добавляет еще информации к новому товару - картинки, более развернутое описание, забивает всякие свойства, задает код и т.д.

Maietic

1. Загрузить новый прайс во временную.
2. Сделать UPSERT
3. Удалить отсутствующие в новом прайсе через EXISTS или LEFT JOIN

pavloff.com

однозначно: первый вариант.. это рациональный подход..

17 лет назад

RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.

Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.

Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.