Парсер с переходом по ссылкам

smartnik, 401 просмотр

Здравствуйте,
У меня есть XML файл с ссылками .И я хотел бы сделать парсер который переходит по ссылке на сайт, там находит DIV блок с ссылкой на другую страницу, переходит по ней и попадает на финальную страницу , где находится 2 div блока определенного класса, с которых парсер собирает информацию и записавает ее во второй XML файл.

Понимаю, что мало кто захочет расписывать все детально.Поэтому просто прошу скинуть ссылки на статьи , в которых описан какой либо из вышеописанных процессов.

Примечание:
Пример XML кода(имена тегов и ссылки изменены)
<rss version="2.0">
<channel>
<title>Some title</title>
<link>http://domain.ru/</link>
<item>
<pubDate>2012-04-17T18:56:11.695+04:00</pubDate>
<ac:Id>5825186</ac:Id>
<title>Something</title>
<link>http://domain.ru/something/5825186</link>
</item>
...
</channel></rss>

Пример кода страницы на которую ссылается первая ссылка(имена классов и ссылки изменены)
...
<table class="layout">
<tbody class="layout_webkit">
<tr>
<td colspan="4" class="l-content">
<table class="l">
<tbody><tr>
<td colspan="3" class="l-cell">
<div class="nopaddings">
<div class="b-ac-custom g-round">
<h1 class="b-title b-ac-title">sometitle</h1>
<table class="l">
<tbody><tr>
<td colspan="2" class="l-cell">
<div class="er-marks g-clearfix">
<div class="name">
<a href="/er/4771">somename</a>
</div>
</div>
</td>
<td class="l-cell">
</td></tr>
</tbody></table>
</div>
....

ссылка(<a href="/er/4771"></a> ) ссылается на страницу вида,

<table class="layout">
<tbody class="layout_webkit">
<tr>
<td colspan="4" class="l-content">
<table class="l">
<tbody><tr>
<td colspan="3" class="l-cell">
<div class="company-top g-clearfix">
<h1 class="employer-name">Имя "ИМЯ"</h1>
<div class="name-top__other">
<div class="name-link m-company-link-filled m-company_viewonly">
<div class="name-link__input-wrapper m-company-link-shadow">
<div class="name-link__input-shadow"> </div>
<a href="http://www.domain.com/sth/sth/" rel="noindex, nofollow" target="_blank" class="company-link__link">http://www.domain.com/sth/sth/</a></div></div></div> 
</div>
</div>
</div>

Отсюда нужно взять TITlE из <h1> и ссылку

Ответы:

Epsiloncool

Просто прошу скинуть мне денег на WM и я всё сделаю за вас.

ax64

ну а что тут может быть непонятного?
1. распарсить xml и в цикле бежать по всем ссылкам;
2. загрузить очередную страницу из списка полученных ссылок;
3. поиском со странице выцепить результирующую ссылку (из нужного div);
4. выцепить из обоих дивов нужную инфу;
5. записать в удобном виде;
6. profit

Андрей Филиппов

Напишите пожалуйста часть xml кода из которого надо парсить ссылки, желательно с несколькими ссылками и я вам все напишу и распишу

Андрей Филиппов

Вот и готовая версия парсера на PHP с использованием библиотеки CURL

12 лет назад

RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.

Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.

Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.