Подписка

Проекты

Сборник идей для разработок в Delphi и использования их в Интернет. Участвуй в работе коллективного разума!

Google API в Delphi - проект с открытым исходным кодом.


А тут я коплю на лицензию Delphi 2011. Сумма пожертвования не фиксирована.

Друзья блога

Блоги и сообщества

DelphiFeeds.ru - Все Delphi-блоги Рунета О раскрутке блога по программированию Сообщество умных людей VR-Online.RU Бесплатный журнал для программистов и всех, кто интересуется IT Статьи и уроки по Delphi Статьи по Delphi

Счётчики


Анализ веб сайтов

Рейтинг блогов




Система Orphus

  • 22Aug

    Итак, сегодня на свой страх и риск решил выложить новую версию “Блевантона” в открытый доступ. Как Вы можете видеть в сайдбаре блога – разработка новой версии сейчас стоит на отметке в 50%. Это значит, что я тестирую новую версию на наличие багов и глюков, добавляю что-то новое, исправляю старое и т.д. В общем сильно стараюсь не расслабляться. ' '

    А решил я выложить alpha-версию для того, чтобы Вы могли в целом оценить новые возможности в программе, а также по ходу продвижения разработки предложить какие-либо изменения и улучшения – вполне вероятно, что я смогу их реализовать в окончательной версии программы.

    Итак, что Вас ожидает в новой версии.

    1. Новый интерфейс “Блевантона”.

    Блевантон 0.3. Новый интерфейсВ новой версии интерфейс программы переработан практически на 90%.

    Все доступные в программе функции вынесены на отдельную панель. При этом Вы можете:

    1. Изменять список используемых при анализе словарей, например отключить словарь английских стоп-слов и включить словарь стоп-слов для баз данных ФИПС. При этом автоматически изменяется “словарный запас” программы, о чем говорится в статус-баре “Блевантона”
    2. Также перенесены на панель параметры чтения данных с html-страниц, такие как: заголовок страницы (Title), ключевые слова (мета-тег keywords), описание страницы (мета-тег description) и подписи рисунков (атрибуты тега img).
    3. Включить режим отдельного анализа мета-тегов на наличие мусора – об этом речь пойдет ниже.
    4. Включить режим рекурсивного анализа ключевых слов страницы
    5. Изменять размер и цвет шрифта для стоп-слов пр работе в режиме “Редактор…”

    2. Два режима работы с программой

    Блевантон 0.3. Режимы работыТеперь Вы можете работать с “Блевантоном” в двух режимах: режиме SEO и режиме “Разработчика документации”. Чем они отличаются?

    Режим “SEO” – основной, т.е. тот, который был в первых версиях. В этом режиме вы можете только анализировать текст.

    В случае, если Вы работаете в режиме “Разработчика”, то при редактировании текста программа будет автоматически выделять стоп-слова прямо в тексте. Таким образом Вам будет проще исправить нежелательное слово, например, заменить его на какой-либо синоним, которые не содержится в базе стоп-слов или вообще удалить слово из текста. При работе в режиме разработчика также есть возможность последующего анализа текста на тошноту.

    3. Дополнительный анализ мета-тегов

    blevanton анализ документовТеперь вы можете включить опцию отдельного анализа мета-тегов.  При этом “Блевантон” будет проводить анализ следующим образом:

    1. Проводится общий анализ текста, согласно тем параметрам, которые Вы выберите.
    2. Далее берутся отдельно мета-теги Keywords и Description и анализируются а наличие стоп-слов и стоп-символов. Результат анализа егов выводится на отдельную страницу.

    4. Рекурсивный анализ ключевых слов

    blevanton анализ ключевых словЧто это собственно за анализ? Проходит он следующим образом:

    1. Выбираются ключевые слова страницы. При этом разделителем ключевых слов является запятая.
    2. Берется каждое из ключевых слов и проверяется на наличие: в заголовке, в описании, в заголовках Н1-Н5, в подписях к рисункам, в теле документа.
    3. Далее для каждого ключевого слова рассчитывается его плотность.

    Вся полученная в ходе анализа информация выводится в виде дерева (см. рисунок).При этом, обращаю Ваше внимание на то, что: если ключевые слова не разделены запятой, то всё содержимое мета-тега является для “Блевантона” одной ключевой фразой. Вполне возможно, что в будущем я доработаю эту часть программы для перепора всех возможных вариаций ключевых слов и фраз в теге, но пока в планах этого не стоит.

    5. Над чем я сейчас работаю.

    Этот пункт будет полезен тем кто может столкнуться с непредвиденными ситуациями при работе с программой.

    Во-первых, сейчас я разбираюсь с кодировками текста. Дкло в том, что, как Вы знаете, страница может быть как минимум в двух кодировках: Win1251 и UTF-8. При этом “Блевантон” пока не различает тип кодировки и принимает, что все страницы – это UTF-8. Поэтому не удивляйтесь если вдруг программа выдаст Вам облако н слов, а непонятных кракозябров – это значит лишь то, что страница в кодировке Win1251.

    Во-вторых, дорабатываю анализ ключевых слов. Есть вариант сделать вывод статистики Директ.Яндекс по каждому ключевику в отдельности.

    Ну и в-третьих, совершенствую облако тегов.

    6. Блевантон 0.3.

    А вот и сам архив с “Блевантоном”. Скачивайте, проверяйте, сообщайте о недочетах и недоработках и т.д.

    Блевантон(432.13 KB)

    Кстати, в новой версии программы появились две кнопки – “Подписка на RSS-канал Блевантона” и “Переход на домашнюю страничку Блевантона

    Мой блог находят по следующим фразам

    Related posts:

    1. Новости “Блевантона”.
    2. Пара слов о новом “Блевантоне”.
    3. Что можно “вытащить” из DOM’а?
    4. Применение облака тегов на Delphi – Блевантон v.0.1

    Автор Vlad в 2:57 am

    Метки: , , ,

6 Comments

WP_Cloudy
  • SeregaAltmer пишет:

    Процесс анализа реальных страниц ну очень затяжной, я окончания анализа текущей странички так и не дождался :).
    Как насчет того чтобы проводить анализ в отдельном потоке?
    Если есть желание могу поучавствовать в работе над проектом.

  • Vlad пишет:

    А можно пример странички?:)
    По поводу участия – я только “ЗА” всеми руками и ногами. Напиши мне на e-mail: vlad383 @ gmail.com, чем бы мог помочь проекту – договоримся где будем встречаться в он-лайне.
    Больше людей, больше идей – лучше проект :)

  • Елена пишет:

    Здравствуйте, что обозначает критерий “спам на странице” и как его понизить

  • Vlad пишет:

    “спам на странице” – это отношение количества стоп-слов к общему количеству слов в тексте. Понизить можно заменив часть стоп-слов на другие. Чем меньше стоп-слов, тем большее количество текста со странице попадёт в индекс ПС

  • Елена пишет:

    Отлично, а почему если убрать из текста все предлоги и союзы спам становиться больше???
    Спасибо за ответ

  • Vlad пишет:

    хм…видимо это глюк..всё-аки альфа-версия, толком тестов не проводилось никаких. Будем исправлять

Ваш ответ

Внимание: Все комментарии модерируются, и это может вызвать задержку их публикации. Отправлять комментарий заново не требуется.

Пожалуйста, заключайте исходный код в тэги [code][/code].