Семантический поиск

Семантический поиск

Semantic Web - Будущее поиска в интернете

Сегодня хочу рассказать о концепции поиска будущего - семантического поиска, основанном на онтологиях, которую можно использовать для решение проблемы снижения качества информации в интернете.

Идея в том, что на основе современного технического интернета (его ещё называют Web 2.0) со временем возникнет новая платформа, используемая профессионалами для создания полезного, качественного и интересного контента.


В предыдущем посте я уже рассказывал о негативном влиянии seo-продвижения на качество контента. Немного повторюсь - за последние годы развитие интернета привело к появлению огромного количества однообразных ресурсов, и, как следствие, падении ценности большинства из них. Так, на сегодня Всемирная Сеть просто завалена разной информацией , большинство из которой дублируется  или переписывается. С одной стороны, с помощью "ретвитов" люди быстро распространяют интересную в их понимании информации, но с  другой - в следствие таких действий интернет быстро превращается в помойку.


Переписывание и искажаемость контента приводит не только к падению качества информации, но и к снижению достоверности. Яркий тому пример - история как как Андрей Богданович обманул мир 

Получаемую из интернета информацию нужно все чаще фильтровать и сортировать. И тут нам предлагают решение - так званую Семантическую паутину.


Слово "семантика" означает смысл, информационное содержание языка или его отдельной единицы. Относительно к WEBу этот термин означает представление информации в виде, пригодном для машинной обработки.


Семантическая паутина предполагает запись информации на основе семантической сети с помощью онтологий. В свою очередь, существуют программы, которые могут непосредственно извлекать из сетей факты и делать из них логические заключения.


На практике это означает, что разметив информацию определенным образом, поисковикам можно описать тип и характеристики информации. И это уже используется, например платформой Яндекс.Острова, социальный поиск facebook.


Кроме того, на основе данных разных сайтов возможно собирать различные полезные сервисы. Простой пример: соединив семантические данные погодного сайта с API Google Calendar получим сервис, который будет отображать погоду за каждый день в нашем календаре.


Существует также другой вариант применения онтологий - создание структуризации информации и баз знаний. Для этих целей используется специфическое программное обеспечение, или web CMS 


В следующих постах я опишу свой опыт использования таких CMS и как можно упорядочить информацию и создать персональную базу знаний.


При написании статьи использовались материалы Wikipedia 

Черный SEO

black seo

Негативное влияние поисковой оптимизации на качество контента

На написание данного поста меня побудило высказывание автора одного из лучших блогов по альтернативной медицине о том, что "Чем лучше ты пишешь, тем больше у тебя воруют". Ведь именно это и происходит сейчас массово в интернете.

За год работы фрилансером мне доводилось работать помощником SEO. До этого я знал основные принципы поисковой оптимизации, но не думал что именно благодаря ей интернет превратится в помойку. Взглянув изнутри я просто ужаснулся глобальностью проблемы. 

Так, на сегодня поиск в интернете превращается в поиск "для большинства". Очень много вебмастеров продвигают свои сайты в топ поисковиков просто чтоб заработать деньги на рекламе. Когда сайты создаются не с целью поделиться информацией, а с целью получения прибыли, количество качественного контента становится все меньше. Очень часто, веб-мастера таких сайтов просто покупают контент, или нанимают людей, которые пишут / переписуют (копирайт / рерайт) готовые статьи. Статьи пишутся не для людей, а для поисковых роботов.

Копирайтер, работающий за копейки, вряд ли будет вкладывать душу в "чужую статью" и тем более проверять достоверность фактов, описанных в статье. 

Что уже говорить, если поисковики иногда даже не индексируют контент меньше определенной длины. Зачем поисковики применяют подобные фильтры? У них иногда нет выбора, ведь тогда в ТОПах будут вместо "на первый взгляд кажущихся хороших" статей лишь куча ключевых слов и сайтов-дорвеев.

Но повсеместный рерайт приводит к тому, что иногда сложно протолкнуть в топ даже свои - уникальные статьи / мысли. Ведь очень часто авторы используют в основе шаблонные фразы. Попробуйте напишите статью на конкурентную тему и проверьте её уникальность по Advego. Результаты лично меня удивили. 

Лишь такие сайты как Wikipedia спасают интернет от превращения в глобальную свалку бессмысленных символов. Которая с каждым днем все больше.

Таким образом, политика поисковиков превращает интернет в кучу мусора и с каждым днем все труднее найти ответ на свой вопрос через поисковую форму. Думаю, ситуация вряд ли изменится в ближайшее будущее. Запуск платформ типа "Яндекс Острова" вряд ли что нибудь исправит.

Другая сторона палки - продвижение сайтов в ТОП поисковиков зачастую проходит в течении полугода-года, и без знания "черных технологий SEO" о вашем супер уникальном сайте могут так и не узнать. 

Что же делать? Как не допустить превращения интернета в огромную свалку? Боюсь процесс уже необратим, и без смены существующих алгоритмов поисковое зло не победить. Пока же, спрос на услуги SEO (который и так превышает предложения) будет постоянно расти. 

Hello, World!

Привет всем! Меня зовут Дмитрий и только что я создал этот блог.

Большую часть своей жизни я был пассивным потребителем контента, но вот накопились кое-какие знания и я создал этот блог с целью внести свой вклад в развитие интернета.

Очень кратко о себе: на данный момент мне 25 лет, живу на Украине. По образованию - финансист. Работал 5 лет по специальности гос-служащим в контролирующих организациях. Затем я сильно обиделся на наше государство, неожиданно для себя женился и стал фрилансером (о чем не сожалею). 

За год работы фрилансером я занимался копирайтингом, разработкой веб-приложений, QA (тестированием) SEO оптимизацией и ещё много чем. Для этого пришлось изучить очень многое, в том числе самостоятельно освоить HTML, CSS, JavaScript, PHP, Java...  Нет, я нисколько не профи в программировании, но стараюсь развиваться в этой сфере.


Кроме работы я увлекаюсь ароматерапией, нумерологией, осознанными сновидениями, графологией, современными технологиями, японским искусством бонсай,  немного пишу для себя под Андроид. А ещё я люблю смотреть новые фильмы, путешествовать и писать стихи. Ну и с недавних пор я ещё воспитываю сына.

На все вышеперечисленные увлечения нужно выделять время. Кроме того, чтобы постоянно быть "в теме" нужно пропускать через себя большие объемы информации. 

Так вот, про управлении этой самой информацией я могу уже написать целую книгу. И потому решил осветить свои идеи в этом блоге. Кто знает, возможно когда нибудь блог будет читать мой сын и опыт, описанный мной, поможет ему. 

Кстати, "вечность платформы" это основная причина почему я выбрал Blogger (и да, я знаю что произошло с Google Reader, но все равно считаю что Гугл не закроет блоггер).

В общем, блог будет широкого профиля.... 

Итак, Привет, Мир!

  


Управление информацией.

Управление информацией. Нужно ли?

Что же такое информация? За данными википедии информация (от лат. informatio, разъяснение, изложение, осведомленность) — сведения о лицах, предметах, фактах, явлениях, процессах, событиях реального мира независимо от их представления.

Сколько себя помню, я очень любопытный и люблю разного рода информацию. Я всегда старался быть в курсе последних новостей, знать все новинки, особенно в сфере информационных технологий.

Но вот уже лет 10 стараюсь себя ограничить от разного рода информации. Я не слушаю радио, не смотрю телевизор и вообще стараюсь не читать всё подряд в интернете. Почему? Дело в том, что сейчас информации стало слишком много.

Приходится сознательно выбирать источники информации, фильтровать её. Сейчас для многих основным источником информации является интернет. В сети можно получить информацию по любой теме.Но и тут не всё так просто. Давайте посмотрим на следующие цифры.

Итак, за разными источниками, еще в далеком 2006 году в интернете хранилось около 161 эксабайт данных. (Чтобы понять, что такое эксабайт, представьте себе, что человечеству, для того чтобы создать первые 12 эксабайт информации потребовалось 300 тысяч лет.)

На 2012 год в интернете хранится уже около 2 500 эксабайтов (млрд. ГБ) разного рода данных. Информация в сети появляется уже за законами прогрессии.

Ещё не можете представить что такое Всемирная Сеть? Вот что происходит в интернете за минуту:

  • Из App Store скачивают свыше 50 000 разных приложений; 
  • в Twitter`е пишут больше 100 000 твитов; 
  • В Instagram загружают 3700 фотографий; 
  • Через WordPress публикуется около 350 новых записей 
  • На Facebook за минуту больше 35 тисяч лайков получают различные организации, а пользователи делятся ссылками на 700 тисяч единиц контента. 
  • На YouTube пользователи загружают больше 48 часов новых видео; 
  • На электронные почтовые ящики приходит 205 миллионов писем. 

Ну и теперь главный вопрос: как за всем этим уследить имея лишь одну голову, пару глаз, рук и ног? Ну может быть еще компьютер...

Конечно же, Вам скорее всего не важно что там ретвитнул Вася Пупкин из пгт. Крутые Перцы, да и нужен не весь интернет, а лишь небольшая его часть.... но вопрос остается открытым - в эру информационных технологий важно не только везде успевать но и быть в курсе всех событий. На больших предприятиях для этого в штат даже вводятся должности специалистов с информации.

Ещё в 1815 году Натан Ротшильд сказал: «Кто владеет информацией, тот владеет миром». Сейчас эта фраза набрала статус "крылатой" и приобретает все большую актуальность

Как же не запутаться во всемирной паутине данных? Об этом в продолжении статьи.