Russian Boston Home
Руссике артисты на Американской сцене
SpyLOG   Новости    События    Yellow Pages    Объявления    TV/Video    Форум    Чат    Dating    Фотки 
 News Central
В мире
  Политика
  Разное
Бизнес
  Деньги
Общество
  Мода
  Религия
  Светская жизнь
  Шоу Бизнес
  Пикантные новости
  Животные
  Криминал
Спорт
Искусство
  Кино
  Музыка
Авто
Hi-Tech
  Интернет
  Hardware
  SoftNews
Здоровье
Путешествия
Вокруг света
USA
Россия
  
Ресурсы
  Самые последние
  Самые читаемые
Архив
 Другие ресурсы
Все Ресурсы

Рассылки
Газеты
Журналы
ТВ - Online
Радио

Юмор
  Анекдоты
  Игры
  Этикетки
  
Открытки
  Поздравь друга
  
Программа TV
Кино
  Новости кино
  Кинообзоры
  
Музыка
  Радио в internet
  Russian Top
  
Спорт
Web Обзоры Exler.ru
  
Читальный зал
ЭКСпромт - статьи для чайников
Компьютерные игры
Finance News
Автообзоры
Russian America Journal Digest
 Смотрите также
Yellow Pages
Объявления
Чат
Форум
  последнее

Читальный зал
  Стихи
  Проза
  Кулинария

Едем в Америку!
  Иммиграция
  Визы
  Советы

Знакомства
Фотоальбомы
Top Rating
  America TOP
  
Последние новости со всего мира.
 
NEWS CENTRAL >> Hi-Tech

Hi-Tech

Алгоритм поиска "горячих" тем в интернете
11:15AM Tuesday, Mar 4, 2003
Компьюлента. 4 марта 2003 года, 11:15

Американский ученый Джон Клайнберг из Корнелльского университета предложил новый способ фильтрации информации, позволяющий выявлять наиболее актуальные для каждого конкретного момента времени проблемы и темы для обсуждений. Способ, предложенный Клайнбергом, основывается на анализе больших объемов текстовой информации с целью выявления наиболее часто встречающихся слов. Когда происходит какое-либо важное событие, о нем начинают говорить и писать очень многие. Это приводит к своеобразным "скачкам" в частоте употреблении тех или иных слов.

Взяв за основу эту идею, Клайнберг разработал алгоритм, позволяющий анализировать частоту использования того или иного слова. На выходе алгоритм представляет собой рейтинг слов, на основании которого можно делать выводы о популярности той или иной темы и производить сортировку информации.

Само собой, что из рейтинга должны исключаться служебные части речи: артикли, предлоги, союзы, а также наиболее распространенные местоимения, числительные и слова общеупотребительной базовой лексики, например, "время", "больше", "меньше" и т.д. Ведь именно эти слова встречаются чаще всего, однако установить по частоте их упоминания какие-либо тенденции вряд ли возможно. Например, в рейтинге слов Usenet первое место занимает определенный артикль "the", второе - предлог "to", а третье - предлог "of". В первой десятке также находятся неопределенный артикль "a", союз "and", глагол "is" и местоимение "i". Сделать на основании вершины этого рейтинга какой-либо анализ едва ли получится.

Система Клайнберга, однако, работает гораздо эффективнее. Чтобы испытать свою разработку, он заставил ее проанализировать тексты всех президентских докладов о положении в США (State of the Union addresses), начиная с 1790 г. В итоге получилось, что в период Войны за независимость американских колоний часто употреблялись слова militia ("ополчение") и British ("британский"). А в период с 1947 по 1959 годы наблюдался "скачок" в использовании слова atomic ("атомный"). Таким образом, удалось доказать работоспособность системы.

Использовать разработку Клайнберга можно в самых разных областях. Сам ученый собирался создать на ее основе утилиту для фильтрации электронной почты, которая на основе частоты упоминания слов определяла бы важность писем. Важным проблемам могут быть посвящены письма многих людей, которые будут использовать одни и те же слова. Это позволит отделить "зерна от плевел". Помимо этого, технологию можно будет использовать для повышения релевантности поиска в интернете, а также для выявления наиболее "горячих" новостей и дискуссионных тем.

Например, создав рейтинг слов, употребляемых в блогах - онлайновых дневниках, получивших за последний год бешеную популярность, можно определить, о чем предпочитают говорить пользователи интернета. Такая информация может представлять интерес для журналистов, ищущих темы для своих репортажей, маркетологов, которые смогут эффективнее выявлять предпочтения пользователей и корректировать соответствующим образом рекламные кампании. Наконец, рейтинги слов в блогах окажут помощь и государству, которое сможет следить за умонастроениями граждан. Последнее, впрочем, относится лишь к странам, где интернетом пользуется более половины населения, в противном случае, выборка для анализа получится непредставительная. Рейтинг упоминаемости слов в блогах уже существует и располагается на сайте Daypop.

По материалам "Компьюленты"
« « Вернуться       Далее » »
Другие новости по теме
  • Apple. Теперь корзина для мусора
  • Microsoft присоединилась к Альянсу DVD+RW
  • Intel снижает цены на Pentium 4 и Xeon
  • Японцы разработали систему передачи данных, работающую от человеческого тела
  • Мобильник будущего
  • Microsoft приобрела технологию VirtualPC
  • Intel готовится хоронить BIOS
  • На компьютерах появится новая кнопка ''panic''
  • Миниатюрный плейер-брелок от NextCom
  • Швейцарские ученые ''взломали'' протокол SSL
  • Субноутбук на базе Lindows за 799 долларов

    Далее » »   Digest | Архив »    
Смотрите также: Hi-Tech, Интернет, Hardware, SoftNews
 
Читайте также:

Определена "запасная" комета, на которую совершит посадку аппарат Rosetta

Компьютерная телефония как средство повышения школьной дисциплины

Новая дыра в популярном почтовом сервере Sendmail

Во втором квартале 2003 года вырастут цены на диски DVD-R

Тайваньские компании начинают массовое производство мобильников с фотокамерами

Билл Гейтс снова продал крупный пакет акций Microsoft


Карманный компьютер Sony PEG-TG50 на основе Palm OS 5.0

ATI собирается делать чипы для второго поколения и XBox, и GameCube

Кратко: Intel опробует свои технологии в отелях Marriott; МТС приходит в Самару; VeriSign объявляет о запуске инфраструк

Биокомпьютер считает в 100 тысяч раз быстрее

Новый GSM-телефон Samsung SGH-S307

В ближайшие два с половиной года китайцы полетят на Луну

Российская компания победила eBay в суде

Первый плеер с поддержкой открытого аудиоформата Ogg Vorbis

Слежка за сексуальным маньяком будет вестись при помощи GPS-передатчика

MD Group стала официальным дистрибьютором D-Link

Дело о программе DeCSS для взлома DVD направлено на повторные слушания

Новая волна увольнений в Palm

Компактный 3,2-мегапиксельный фотоаппарат Olympus Camedia X-200

Новая техническая информация о Radeon 9600 и Radeon 9800

Epox расширяет свое присутствие на рынке Северной Америки



Рассылки:
  Новости-почтой
  TV-Программа
  Гороскопы
  Job Offers
  Концерты
  Coupons
  Discounts
  Иммиграция
  Business News
  Анекдоты
Многое другое...

News Central Home | News Central Resources | Portal News Resources | Help | Login
  Рейтинг@Mail.ru Russian America Top © 2024 RussianAMERICA Holding
All Rights Reserved • Contact