Продаю обучающийся распознаватель картинок с номерами телефонов из avito.ru и irr.ru. Если Вы пишите парсер, то Вы непременно столкнетесь с задачей, когда будет необходимо преобразовать полученную картинку с номером в текст. Этот скрипт написан специально для этих целей. Чтобы лавочку не закрыли не выкладываю его в общий доступ, поэтому платно.

Цена небольшая. Пишите на email, отвечу всем.

В данный момент есть версия на php есть на js. Купившим дам 3-х месячную техподдержку и обновления. Объясню, что и куда нужно подключить. 

Купить

Рассказать друзьям

Вам наверняка доводилось писать парсер на всевозможные сайты, и каждый раз Вы делали одни и те же вещи. Выясняли структуру, писали код грабящий первую страницу. Этот код на выходе давал кучу ссылок, дальше граббер шел по по этим ссылка. Для анализа данных с этой ссылки требовалось написать еще один граббер, который бы уже получал конечные данные. 

Под этим принципом работают все парсеры. Так почему бы не написать универсальный парсер, который бы получал на вход некие параметры, по которым парсер определит откуда брать title, 

Рассказать друзьям

Как декомпилировать swf файл, или просто поменять одну ссылку. Очень просто. Утилит написано предостаточно. По долгу службы, ну или по должности, приходится иногда админить портал фирмы. Часто присылают flash баннеры "взятые у кого-нибудь", и которые должны по клику на них кидать нас на некую страницу. Недолго думая я делал примерно так:



<a target="blank" href="http:/xdan.ru">
	<object>
		<param name="quality" value="high" />
		<param name="movie" value="1.swf" />
		<embed width="600" quality="high" src="/bri5.html" type="application/x-shockwave-flash"></embed>
	</object>
</a>

это работает, если сам баннер никуда не посылает. Если же ссылка зашита в нем, то пиши пропало. Я стал искать, с твердой уверенностью в том, что в swf файле это всего лишь строчка, которую легко поменять. Я даже открывал этот файл в текстовом редакторе =) Однако файл не так прост, как кажется. поэтому я стал искать специальный софт.

Рассказать друзьям

Авторизация на сайте при помощи библиотеки cUrl Продолжая цикл статей посвященный парсерам и всем, что с ними связано. В этой статье расскажу про то, как легко можно авторизоваться на любом сайте при помощи библиотеку cUrl php. Для примера я взял один Украинский портал, к которому я собственно и буду подбирать ключики. Для работы нам также понадобится библиотека simple_html_dom 

Рассказать друзьям

Большой интерес пользователей к статье Учимся парсить сайты с библиотекой PHP Simple HTML DOM Parser показал, что тема парсеров очень актуальна. В продолжении темы, хочу рассказать, как можно парсить сайты используя JavaScript и всю мощь библиотеки jQuery, взамен Simple HTML DOM Parser.

Нет, мы не будем использовать для обработки js, какой-нибудь серверный интерпретатор,  весь парсинг и обработка данных будет происходить на Вашей машине, в Вашем браузере. Браузером будет Google Chrome, а парсер мы реализуем в виде расширения Google Chrome Extension. 

 Почему  Google Chrome, трудно сказать, самым верным ответом наверное будет: "А почему бы и нет?!". Не сомневаюсь, что тоже самое можно будет сделать и для Opera. Однако, эта статья не про написание расширений для браузера( хотя возможно Вы почерпнете для себя и здесь, что-то новое), а про то, как писать client-side парсеры на JavaScript.

Также хочу рассказать про преимущества, которые дает такой подход к написанию парсера.

Во первых:  jQuery и JavaScript в целом обладает фантастическим  набором методов для  работы с DOM документа, Simple HTML DOM Parser тихо курит в сторонке. Навигация по дереву DOM браузер априори обрабатывает очень быстро, это собственно его нативный функционал.

Второе: по планете давным давно шагает WEB 2.0. Для тех кто в танке:  веб  второй версии подразумевает динамически меняющийся контент сайта. AJAX или просто замена определенного участка страницы через JS сводит на нет работу любого php парсера. Проиллюстрирую на примере:

<html>
<body onload="document.body.innerHTML='Страница была создана динамически! Так нужный Вашему парсеру email равен leroy@xdan.ru'">
email:leroy*****.ru
</body>
</html>

Полагаю Вы догадываетесь, что увидит написанный на php парсер, загрузивший данную страницу, и тупо проверяющий содержание тега body.

Использование браузера  в качестве парсер-машины позволяет, обмануть сайт, и выполнить подобные скрипты, получив результирующую страницу. 

Рассказать друзьям