Продолжая тему парсеров. Одна из самых распространенных задач, которые я постоянно встречаю - заполнить Joomla сайт на основе другого сайта. Полный переезд, обычно с более старой версии Joomla, но быть может и с другой CMS, не важно.

Обычно, проще в ручную скопировать все тексты с сайта, чем писать отдельный граббер под это дело. Когда  же дело касается нескольких сотен статей, мой внутренний прагматик запрещает мне работать руками и в дело вступает мозг.

В идеале парсер должен съедать лишь одну страницу сайта на входе и обходить все найденные страницы сам. В статье Как написать универсальный парсер сайтов за 1 час я уже рассказывал, как это сделать. Когда дело касается переезда на Joomla, то необходимо точно воссоздать структуру сайта донора, посему немного упростим задачу, и будем парсить лишь заданный список ссылок, который будет определенным образом привязан к конкретному разделу из сайта источника. А этот самый раздел на нашем сайте, создадим руками.

Т.е. в этой статье мы автоматизируем рутинные операции копипаста: копирование текста, создание статьи в материалах, создание ссылки на статью в меню.

К этим трем операциям можно еще добавить - автоматическое создание разделов сайта, на основе сайта донора. Однако, эту задачу я оставлю вам. Она не сложная, поверьте. Пишите в комментариях, как вы ее решаете.

Рассказать друзьям

Продаю обучающийся распознаватель картинок с номерами телефонов из avito.ru и irr.ru. Если Вы пишите парсер, то Вы непременно столкнетесь с задачей, когда будет необходимо преобразовать полученную картинку с номером в текст. Этот скрипт написан специально для этих целей. Чтобы лавочку не закрыли не выкладываю его в общий доступ, поэтому платно.

Цена небольшая. Пишите на email, отвечу всем.

В данный момент есть версия на php есть на js. Купившим дам 3-х месячную техподдержку и обновления. Объясню, что и куда нужно подключить. 

Купить

Рассказать друзьям

Вам наверняка доводилось писать парсер на всевозможные сайты, и каждый раз Вы делали одни и те же вещи. Выясняли структуру, писали код грабящий первую страницу. Этот код на выходе давал кучу ссылок, дальше граббер шел по по этим ссылка. Для анализа данных с этой ссылки требовалось написать еще один граббер, который бы уже получал конечные данные. 

Под этим принципом работают все парсеры. Так почему бы не написать универсальный парсер, который бы получал на вход некие параметры, по которым парсер определит откуда брать title, 

Рассказать друзьям

Как декомпилировать swf файл, или просто поменять одну ссылку. Очень просто. Утилит написано предостаточно. По долгу службы, ну или по должности, приходится иногда админить портал фирмы. Часто присылают flash баннеры "взятые у кого-нибудь", и которые должны по клику на них кидать нас на некую страницу. Недолго думая я делал примерно так:



<a target="blank" href="http:/xdan.ru">
	<object>
		<param name="quality" value="high" />
		<param name="movie" value="1.swf" />
		<embed width="600" quality="high" src="/bri5.html" type="application/x-shockwave-flash"></embed>
	</object>
</a>

это работает, если сам баннер никуда не посылает. Если же ссылка зашита в нем, то пиши пропало. Я стал искать, с твердой уверенностью в том, что в swf файле это всего лишь строчка, которую легко поменять. Я даже открывал этот файл в текстовом редакторе =) Однако файл не так прост, как кажется. поэтому я стал искать специальный софт.

Рассказать друзьям

Авторизация на сайте при помощи библиотеки cUrl Продолжая цикл статей посвященный парсерам и всем, что с ними связано. В этой статье расскажу про то, как легко можно авторизоваться на любом сайте при помощи библиотеку cUrl php. Для примера я взял один Украинский портал, к которому я собственно и буду подбирать ключики. Для работы нам также понадобится библиотека simple_html_dom 

Рассказать друзьям