О Webometrics


Ільченко М.Ю., Цурин О.Ф., Цурина Н.О.
Национальный технический университет Украины “КПИ”
в мировом Web-рейтинге

(газета "Киевский политехник №4 2009 год)
.

Составление разных рейтингов – чрезвычайно популярно во всем мире. Конкуренция возрастает, информация поглощает, а сжатый список “наилучших” разрешает сэкономить время, а соответственно и деньги. К тому же, как отмечает Министерство образования и науки Украины, предлагая собственную систему оценки, рейтинги способствуют открытости и прозрачности высшего образования. “Ранжирование высших учебных заведений необходимо абитуриентам и их родителям для выбора ВУЗа, администрации ВУЗа для эффективного администрирования; работодателям для получения качественной рабочей силы; правительству и политикам для формирования стабильной нормативно-правовой базы...”. 
Особенно распространены рейтинги в сети Интернет. Достаточно подсчитать количество посещений на сайты по Вашему списку, чтобы составить собственный рейтинг популярности ресурсов. Место в таких перечнях отображает больше вкус посетителей сайта, чем реальное состояние дел. Но существуют сетевые проекты, разработчики которых создают интересные рейтинги с важными параметрами анализа. Участие в них – и соответственно, полученный результат, должны побуждать участников к улучшению собственной деятельности. 
Один из таких достаточно известных рейтингов предложила испанская лаборатория Cybermetrics, относящаяся к исследовательской группе CSIC – составной испанского Министерства Образования. "Webometrics Ranking of World Universities" (http://www.webometrics.info). С 2004 года дважды в год осуществляется ранжирование сетевого присутствия ВУЗов всего мира. На данный момент анализируется около 13000 учреждений высшего образования с почти 18000 заведений, включенных у Всемирную Базу Высшего Образования (WHED). Среди них 11 украинских ВУЗов вошли в опубликованный перечень 4000.
Одной из важных компонентов рейтинга является выбор параметров по которых оценивается ВУЗ. Для анализа взято 4 параметра: 
Размер (Size) - число страниц зарегистрированных на четырех поисковых ресурсах – Google.com, Yahoo.com, Live.com (msn.com), Exalead.com. Соответственно, материалы сайта должны быть публичными и доступными с внешних источников, включая доступность для поисковых роботов с отмеченных ресурсов. Тоесть, сайты с внутренней сети НТУУ “КПИ”, ресурсы FTP и базы с авторизованным доступом и неправильно оформленным файлом robots.txt не учитываются; 
- Видимость (Visibility) - число уникальных внешних связей (external links) на университетский домен. Данные берутся у Yahoo, Live Search, Exalead. Например, у Википедии (глобальной открытой энциклопедии) имеется материал про наш университет и ссылка на наш сайт к нему – имеем внешнюю ссылку. Чем чаще на чужих ресурсах появляются наши адреса – тем больше у нас внешних связей; 
- Ценные файлы (Rich files) - файлы у форматах, которые обычно используют авторы для представления и распространения своих работ. Учитываются файлы MS Word doc PowerPoint ppt, Adobe Acrobat pdf, PostScript ps, а также некоторые другие (данные получают от Google). Авторы рейтинга считают, что большое количество таких документов свидетельствует, что на сайте сохраняются не только административные отчеты, но и научные материалы; 
Scholar – Google Scholar разрешает оценить количество научных материалов и их цитируемость для каждого академического учреждения. Эти результаты учитывают публикации, отчеты и другие академические материалы. 
Вес этих параметров такой: Размер-0.2, Видимость-0.5, Ценные файлы-0.15, Scholar-0.15
Кроме представленных выше поисковых систем, используются данные еще от teoma.com, gigablast.com. Считается, что все они имеют большие, независимые, созданные собственными силами базы данных, а их система восстановления разрешает фильтровать результаты в пределах доменных зон.
Как видно из содержания приведенных параметров делается попытка оценить научную деятельность академического учреждения. Можно указать на много недостатков такой оценки. Это и формализм, и продвижение программного обеспечения определенных комерческих компаний, и невозможность оценить реальное значение результатов научных исследований, и приоритетность англоязычных публикаций и др. Но эта оценка охватывает важные стороны деятельности научных организаций и требует присутствия этих организаций в InterNet. 
Согласно данным Webometrics НТУУ “КПИ” занял 2401 место с 4000 Университетов мира и впереди нас с Украины: КНУ им.Т.Г.Шевченка - 1255 место, ДНТУ - 2235 место, ХНУ - 2305 место. В январе 2009 года КПИ на 2205 месте и на 2 месте среди Вузов Украины.

Фактически это не положение Web-сайтов, а состояние обнародованной научной работы оцененной по информации, представленной на сайтах Университетов.
Есть интересная фраза в описании Webometrics. “Если Вы считаете, что получили не достойное для Вас место, то измените сетевую политику”. Анализируя состояние Web-сайтов НТУУ”КПИ”, к этим словам следует додать требование изменить отношение к электронным средствам информации.

2. Информационное пространство НТУУ”КПИ”
Основным источником информации в современном глобализированном мире является Web-сайт. Гистограмма, показывающая увеличение количества Web-сайтов в сети НТУУ”КПИ”, представлена на рисунке.

Информационное пространство НТУУ”КПИ” на данный момент создает более 150 Web-сайтов и их количество постоянно увеличивается. Напоминаем, что согласно решению Административного совета университета, НТО “КПИ-Телеком” бесплатно предоставляет доменные имена и хостинг подразделениям, гражданским организациям и инициативным группам нашего ВУЗа. Более 100 из них этим уже воспользовались.

В сеть университета входят сайт НТУУ “КПИ”, сайты институтов, факультетов, кафедр, научных подразделений, учебные ресурсы, международные проекты и в некоторой мере студенческие сайты. “Мера” определяется использованием университетского доменного имени. Сетевые проекты, которые не входят в зону ntu-kpi.kiev.ua (kpi.ua), считаем нашими только мы. Для Webometrics – это посторонние ресурсы, которые не учитываются рейтингом. Даже, если они полностью посвящены КПИ или его подразделениям. 

Доступ к первому уровню навигации всех сайтов информационного пространства НТУУ”КПИ” обеспечивает Web-портал по адресу http://kpi.ua/portal. Если Вы не нашли свой сайт у списку, скорее всего, Ваш администратор забыл или не захотел его зарегистрировать на сайте http://kpi.ua. 
Развитие Web-портала, осуществляемое НТО “КПИ-Телеком”, включает работы, которые частично выполненны и находятся в исследовательской эксплуатации - автоматический анализ возможностей серверов подразделений и термин последнего их обновления, автоматический анализ изменений на сайтах портала, автоматизирований анализ информационного наполнения сайтов портала, автоматизированный анализ устаревшей информации на сайтах портала, поиск информации на портале. Эти работы связаны с автоматическим анализом сайтов и разрешают глубже понимать работу Webometrics.

3. Почему низкий рейтинг? 

Обьем информационного пространства НТУУ”КПИ” достаточно большой и теоретически мы могли бы опередить тех, кто обогнал нас в перечне. Но, если просмотреть его содержание, то полученное место можно считать очень высоким. Связано это с тем, что на многих сайтах информация устаревшая, не пополняется, отсутствуют языковые версии. Достаточно часто, вместо неполнотекстового материала стоит телефон ответственного лица. Вместо создания новой страницы исправляется старая, а новостная информация вообще со временем убирается (вместо перевода в архив).

Рассмотрим только некоторые наиболее важные причины.

1. Недостаточное внимание к функционированию сайтов. В настоящее время уже нельзя сделать сайт – и забыть о нем. Это не книга – это ежедневная интерактивная газета, которую пользователь видит 24 часа и 7 дней в неделю, і не можно каждый раз предлагать пользователям номер за позапрошлый год. Информацию необходимо обновлять, расширять, предлагать новые услуги и постоянно отслеживать потребности Вашей целевой аудитории – абитуриентов, студентов, научных работников или других групп. 

2. Отсутствие материалов, которые оцениваются данным рейтингом. Речь идет о полнотекстовых научных работах (наилучший случай), или реферативных материалах.

3. Недостаточное анонсирование мероприятий, событий, проектов на общеуниверситетском сайте и сайтах подразделений. Мы должны больше сотрудничать. Например, за счет экспортирования каналов новостей (RSS).

4. Практическое отсутствие сайтов научных подразделений (согласно перечня по адресу http://kpi.ua/department их больше 20) и госбюджетных тем;

5. Плохое состояние языковых версий сайтов;

6. Отсутствие практики оценки научных достижений по присутствию в InterNet и внешних ссылок на работы. 

Полноценное присутствие в сети возможно только при условии обьединения усилий многих подразделений и авторов. 

4. Мероприятия для повышения рейтинга

Многие университеты относятся к всемирным рейтингам с долей скептицизма – невозможно сравнить настолько разное. Все же, полученные нами результаты четко указывают, что присутствие нашего ВУЗа в сети недостаточное. Необходимо срочно осуществить ряд мероприятий, позволяющих улучшить наши показатели и к тому же будут полезными для студентов и сотрудников КПИ.

Первоочередные действия:

1. Напомнить руководителям подразделений о необходимости постоянного сопровождения сайтов – их продвижение в сети (в том числе регистрации) и развитие. Администратор сайта должен быть обеспечен рабочим местом, постоянно контактировать с сотрудниками подразделения, университетскими коллегами, налаживать связи с дружественными сайтами Украины и мира. При отсутствии компьютера и доступа в сеть не может быть и речи об эффективном сайте;

2. Всесторонне разширять содержание сайтов. Это не только учебно-методическая и научная информация, но и административные и новостные материалы. Webometrics советует размещать ретроспективные материалы, включая историческую информацию, видео и фото-отчеты. Возможна также конвертация важных не электронных ресурсов. Например, представление накопленных электронных статтей и учебников к виду, воспринимаемому Webometrics;

3. Провести комплекс мероприятий по изменению отношения к электронным средствам информации (дополнение к оценке рейтинга преподавателей и ученых, коррекция штатных обязательств, непременное наличие сайтов журналов, научных подразделений, госбюджетных тем и др.); 
4. Упорядочить представление информации о Ваковских полиграфических изданиях на соответствующих Web-сайтах Университета;

5. Разширить языковые версии. Можно прогнозировать, что выше 1000 места без полных языковых версий подняться невозможно (для InterNet украинский язык, как и русский, фактически - локальные языки). Языковые версии, особенно английский, желательно создавать не только для визитной (презентационной) информации, но и для научных документов.

Дальнейшие действия:

1. Разработать комплекс мероприятий по популяризации сайтов сети НТУУ”КПИ”;

2. Актуализация и расширение содержания сайтов;

3. Представление информации в InterNet об состоянии Web-сайтов подразделений.

Выполнение этих мероприятий требует не так рейтинг, как перспективное направление развития университета
 
PageRank и его определение
(подготовлено доц.Цуриным О.Ф. и студ. каф. СП ИПСА Р.Иванченко)
В связи с тем, что PageRank имеет вес 0.5 в оценке Webometrics, рассмотрим хотя бы общие вопросы его определения.  
Что такое PageRank?
PageRank - это метод Google для измерения «важности» страницы. Когда все другие факторы, такие как тэг Title и ключевые слова учтены, Google использует PageRank, чтобы откорректировать результаты так, что более «важные» сайты поднимутся соответственно вверх на странице результатов поиска пользователя.
То есть, порядок ранжирования в Google работает следующим образом: 
- Найти все страницы, соответствующие ключевым словам поиска.
- Отранжировать соответственно «страничным факторам», таким, как ключевые слова.
- Учесть текст ссылок на страницы.
- Откорректировать результаты данными PageRank.
Как определяется PageRank?
Теория Google гласит, что если Страница A ссылается на страницу B, то Страница А считает, что Страница B - важная страница. Текст ссылки не используется в PageRank. PageRank также влияет на важность ссылок на страницу. Если на страницу указывают много важных ссылок, то ее ссылки на другие страницы также становятся более важными.
Насколько важен PageRank?
Значимость каждого отдельного фактора в алгоритмах поисковой системы зависит от качества информации, которое он обеспечивает. Поэтому имеет смысл вначале взглянуть на это качество.
Когда Google был небольшим можно было говорить, что ссылка была точным признаком рекомендации. Однако, в настоящее время это больше не так по двум очень важным причинам: 
- Интернет существенно изменился. Ссылка сегодня это, скорее, лишь связанный сайт, лицензионное требование или ответная услуга (как перекрестные ссылки), чем истинная рекомендация.
- Как только вы создадите поисковую машину, которая рассматривает ссылки как рекомендации, люди начнут пытаться воздействовать на ссылки. Как только они станут воздействовать на них, ссылки перестанут быть рекомендациями.
Поэтому надежность информации, обеспечиваемой ссылками, не обязательно хороша и она постоянно уменьшается. Это является причиной низкой и все время уменьшающейся важности PageRank в алгоритме ранжирования Google.
Тем не менее, у PageRank есть одно важное его свойство. На него более трудно влиять, чем на любой другой фактор ранжирования. Это значит, что у PageRank есть возможность дать вам преимущество перед конкурентами, если он использован в комбинации с другими приемами оптимизации для поисковых машин. 
Основные свойства PageRank
Важно знать несколько свойств PageRank. 
PageRank - это число, характеризующее исключительно голосующую способность всех входящих ссылок на страницу и то, как сильно они рекомендуют эту страницу.
Каждая уникальная страница сайта, проиндексированная Google, имеет вес PageRank. Люди часто ошибаются, думая о весе сайта, который на самом деле является весом главной страницы этого сайта.
Внутренние ссылки сайта учитываются при расчете веса PageRank для других страниц сайта.
PageRank независим, он не принимает во внимание текст ссылок и т. д. Конечно, они связаны, но говорить, что это одно и то же, это все равно что говорить, будто тэг Title то же самое, что ключевые слова в тексте.
Расчет PageRank
Когда Google был только исследовательским проектом, они [Брин и Пэйдж] написали статью, подробно описывающую формулу, которая определяет вес PageRank для страницы. Хотя они, возможно, уже не используют в точности эту формулу, она представляется достаточно корректной для сегодняшних целей. Вот она:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)),
где PR(A) — это вес PageRank страницы A (тот вес, который мы хотим вычислить),
D — это коэффициент затухання от 0 до 1, который обычно устанавливают равным 0,85,
PR(T1) — вес PageRank страницы T1, указывающей на страницу A,
C(T1) — число ссылок со страницы T1,
PR(Tn)/C(Tn) означает, что мы делаем это для каждой страницы, указывающей на страницу A
Вы не можете просто вычислить вес PageRank за один прием, как показано тут. Чтобы вычислить вес PageRank страницы A вам понадобится знать веса PageRank всех страниц, указывающих на страницу A. Их веса PageRank будут частично зависеть от страницы A, указывающей на них, либо каких-то других страниц, ссылающихся на них
Эта формула говорит о том, что вес PageRank, передаваемый на страницу A со страницы B, которая указывает на нее, уменьшается с каждой ссылкой куда-нибудь, которая находится на странице B. Это означает, что вес страницы, по существу, это мера ее голоса; страница может разделить этот голос между одной, двумя или многими ссылками, но общая голосующая сила будет всегда той же самой.
Полное изложение вычисления PageRank с конкретными примерами можно найти в работе (2)
Вторая версия алгоритма вычисления PageRank для страницы А имеет следующий вид:
PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)),
где N общее число всех страниц на web. Вторая версия фундаментально не отличается от первой.

Литература 
1. http://ru.wikipedia.org/
2. http://pr.efactory.de/e-pagerank-algorithm.shtml

.
 
 

Scholarly Lite is a free theme, contributed to the Drupal Community by More than Themes.