Оригинальное применение облака тегов

15.02.2007

Автоматическое формирование облака тегов на основе частоты употребления слов в текстах на сайте — идея, которая лежит на поверхности. Сложности в реализации: «шум», создаваемый незначащими словами вроде союзов и предлогов, и осмысленное объединение разных словоформ. Впрочем, при относительно небольшом объеме текста проблему можно решить, внося коррективы вручную.

Чираг Мехта (Chirag Mehta), судя по зоне «ag» из Антигуа и Барбуда, написал такой скрипт для английского языка. Традиционно, чем чаще используется слово, тем крупнее оно выводится. Необычно добавление в облако параметра «свежесть» тега. Слова, популярные в последнее время, выводятся ярким цветом, тусклым — слова, употреблявшиеся давно.

Алгоритмы вычисления «свежести» тега можно посмотреть в коде. Интересна сама идея добавления второго смыслового измерения в облако. Так «восходящая звезда» (средний шрифт, яркий цвет) будет выглядеть заметнее «древнего мастодонта» (огромный шрифт, тусклый цвет). Думаю, этому эффекту можно найти применение.

Но и это не всё. Чираг сгенерировал облака для каждого месяца, начиная с ноября 2001 года. Он приделал к конструкции слайдер (ползунок) на JavaScript, и теперь можно смотреть, как изменялось употребление слов в динамике.

Что рассказывать, смотрите и сами всё поймете.

Комментарии

Blixx, 16.02.2007 00:10

Круто. Только не удобно следить за словом в динамике, когда оно скачет со строчки на строчку из-за изменения размеров.

Дмитрий Сергеев, 18.02.2007 21:39

Это можно исправить. Но какие вещи можно делать с помощью этого инструмента! Посмотрите хотя бы на динамику изменений акцентов в выступлениях американских президентов с 1776 года.

larin, 23.04.2007 14:22

Вот динамика президентов порадовала - прикольная вещь.
Правда, грузится эта вещь долго - тяжеловата... я бы сделал динамическую ПРЕДзагрузку, что б все сразу не грузить.

Дмитрий Сергеев, 23.04.2007 14:28

На прошлой неделе слышал, что Яндекс собирается устроить нечто подобное. Посмотрим...

Миша Татхагата, 06.07.2007 20:15

Да!!! Еще одна дурацкая идея. Слишком охренительный анализ семантической структуры конкретно взятого языка нужен для того, чтобы из него выделить семантическое поле отдельно взятого анитгуа-и-барбудца. А русский язык, к примеру, флективный. В нем суффиксы, префиксы, постфиксы и иные прелестные флекции служат делу словообразования. Плюс идиоматика, плюс жаргонизмы.
Нет, все-таки, разработчик должен мыслить критически, быть умным, эрудированным, красивым. Возьмем, хотя бы, меня....

Дмитрий Сергеев, 06.07.2007 23:23

Яндекс неплохо разбирается в тонкостях русского языка. И ворд проверяет орфографию, пунктуацию, согласование, стилистику. И даже локализованный оупен офис кое-что может. Если кому-то серьезно понадобиться облако, учитывающее специфику языка, я думаю, он своего добьется.

На самом деле это не нужно. Облако не должно быть точным. Алгоритм учета особенностей языка можно сильно упростить без заметного ущерба результату.

Миша Татахагата, 09.07.2007 23:43

Могу, для приличия согласиться. Тем паче, что глубокого проникновения в суть морфологии и не требуется. Выделить суффиксы и постфиксы не так сложно - их количество конечно. :) Того, что не спрягается и не склоняется тоже не так много.
Но, в описываемом Вами варианте, облака тегов становятся не снимком некого семантического среза, а "запуткой", скверным примером ложной навигации. Вот о чем я речь веду. На мой взгляд, лучше дать пользователю возможность самоописания контента. Причем, предлагаю контролировать этот процесс, позволив пользователю иметь дело с готовыми тегами и проверяя ввод новых.
Заодно и проблему с синонимами решить будет проще. Например: "Отец - папа- аццец". :)
Дмитрий, все было бы хорошо, но когда филологи или лингвисты, например, пытаются решить был автором "Тихого Дона" Шолохов, или же его написал кто-то другой, опираться им приходится на малозначительные и малозаметные различия. Блоговые сервисы, которые, по определению, удовлетворяют потребности отдельно взятых индивидов в самовыражении просто обязаны апеллировать к особенностям. Иначе как-то неверно и цинично получается.

Дмитрий Сергеев, 10.07.2007 00:08

>> облака тегов становятся не снимком скверным примером ложной навигации

Вообще по-моему облако тегов не предназначено для навигации. Я смотрю на него, как на график или диаграмму.

>> предлагаю контролировать этот процесс, позволив пользователю иметь дело с готовыми тегами и проверяя ввод новых.

Проверять ввод новых тегов? Масштабы del.icio.us потребуют армии модераторов.

Поскольку большинство пользователей вообще не понимают смысла теговой разметки, серьезно полагаться на теги, на мой взгляд, не стоит.

Но вообще-то я понимаю, о чем вы говорите. И облака мне в последнее время перестали нравиться.