About Webometrics

 
Ступінь інтеграції будь-якого наукового закладу в «світову павутину» доцільно оцінювати за допомогою рейтингу Webometrics Ranking of World's Universities (Cybermetrics Lab, National Research Council, Spain). Існують і інші відомі рейтинги, на кшталт Academic Ranking of World Universities (Shanghai Jiao Tong University), проте вони не фокусуються на Web-діяльності університетів, беручи до уваги безліч інших факторів. В свою чергу Webometrics укладається за спеціальною методикою, розробленою у відповідності до Берлінських принципів рейтингування вищих навчальних закладів (Berlin Principles on Ranking of Higher Education Institutions), визначених ЮНЕСКО, та аналізує не освітню діяльність університету в цілому, а саме представлення ВНЗ в Інтернеті.
         У цьому розділі підготовлено матеріал по основам роботи Webometrics по оцінці світового рейтингу Університетів. Починається розділ зі статті у "Київському політехніку" №4 за 2009 р. 
М.Ю.Ільченко , О.П.Цурін , Н.О.Цуріна
Національний технічний університет України “КПІ” у світовому Web-рейтингу
 
Складання різноманітних рейтингів – надзвичайно популярна справа в усьому світі. Конкуренція зростає, інформація поглинає, а стислий список “найкращих” дозволяє заощадити час, а відповідно й гроші. До того ж, як зазначає Міністерство освіти і науки України, пропонуючи власну систему оцінювання, рейтинги сприяють відкритості та прозорості вищої освіти. “Ранжування вищих навчальних закладів потрібно абітурієнтам та їх батькам для вибору ВНЗ, адміністрації ВНЗ для ефективного адміністрування; роботодавцям для вибору якісної робочої сили; уряду та політикам для формування стабільної нормативно-правої бази...”, говориться в звіті за 2007 рік.
 Особливо поширені рейтинги в мережі Інтернет. Достатньо підрахувати кількість заходів на сайти за Вашим списком, щоб скласти власний рейтинг популярності ресурсів. Місце в таких переліках відображає більше уподобання відвідувачів сайту, ніж реальний стан справ. Але існують мережеві проекти, розробники яких створюють цікаві рейтинги з важливими параметрами аналізу. Участь у них – і, відповідно, отриманий результат, мають спонукати учасників до покращення власної діяльності. Один з таких доволі відомих рейтингів запропонувала іспанська лабораторія Cybermetrics, яка належить до дослідницької групи CSIC – складової іспанського Міністерства Освіти. "Webometrics Ranking of World Universities"  (http://www.webometrics.info). З 2004 року двічі на рік здійснюється ранжування мережевої присутності ВНЗ зі всього світу. На даний момент аналізується близько 13000 установ вищої освіти з майже 18000 закладів, включених у Всесвітню Базу Вищої Освіти (WHED). Серед них 11 українських ВНЗ ввійшли в опублікований перелік 4000. Одним із важливих компонентів рейтингу є вибір параметрів по яких оцінюється ВНЗ. Для аналізу взято 4 параметри:
Розмір (Size) - число сторінок регенерованих з чотирьох пошукових ресурсів – Google.com, Yahoo.com, Live.com (msn.com), Exalead.com. Відповідно, матеріали сайту мають бути публічними і досяжними із зовнішніх джерел, включаючи досяжність для пошукових роботів із зазначених ресурсів. Тобто, сайти з внутрішньої мережі НТУУ “КПІ”, ресурси FTP та бази з авторизованим доступом або неправильно оформленим файлом robots.txt не враховуються;
Видимість (Visibility) - число унікальних зовнішніх зв’язків (external links) на університетський домен. Дані беруться у Yahoo, LiveSearch, Exalead. Наприклад, у Вікіпедії (глобальній відкритій енциклопедії) є матеріал про наш університет і посилання на наш сайт до нього – маємо зовнішнє посилання. Чим частіше на сторонніх ресурсах вказують наші адреси – тим більше у нас зовнішніх зв’язків;
Цінні файли (Rich files) - файли у форматах, які зазвичай використовують автори для представлення та поширення власних робіт. Враховуються файли MS Word doc PowerPoint ppt, Adobe Acrobat pdf, PostScript ps, а також деякі інші (дані отримуються від Google). Автори рейтингу вважають, що велика кількість таких документів засвідчує, що на сайті зберігаються не тільки адміністративні звіти, але й наукові матеріали;
Scholar – Google Scholar дозволяє оцінити кількість наукових матеріалів і їх цитованість для кожної академічної установи. Ці результати враховують публікації, звіти та інші академічні матеріали.
Вага цих параметрів наступна: Розмір-0.2, Видимість-0.5, Об’єм цінних файлів-0.15, Scholar-0.15
 Як видно зі змісту параметрів робиться спроба оцінити наукову діяльність. Можна вказати на багато недоліків такої оцінки. Це і формалізм, і суб’єктивізм при виборі критеріїв та їх ваги, і неможливість оцінити реальне значення результатів наукових досліджень, і пріоритетність англомовних публікацій та інше. Але це є оцінка, яка охоплює важливі сторони діяльності наукових організацій  і вимагає присутності цих організацій в InterNet.
Згідно з даними Webometrics ми зайняли 2401 місце з 4000 Університетів світу і попереду нас з України:
НУ ім..Т.Г.Шевченко-1255 місце, ДНТУ-2235 місце, ХНУ-2305 місце.
Звіти Webometrics робить 2 рази на рік.
Є цікава фраза в описі Webometrics. “Якщо Ви вважаєте, що отримали не гідне для Вас місце, то змініть мережну політику”. Аналізуючи стан Web-сайтів НТУУ”КПІ”, до цих слів можна додати “і відношення до електронних засобів інформації”.
Окрім зазначених вище пошукових систем, використовуються дані ще від teoma.com, gigablast.com. Вважається, що усі вони мають великі, незалежні, створені власними силами бази даних, а їх система відновлення дозволяє фільтрувати результати в межах доменних зон.
 

 
Фактично це не положення Web-сайтів, а стан оприлюдненої наукової роботи оціненої по інформації, що надано на сайтах Університетів.
Є цікава фраза в описі Webometrics. “Якщо Ви вважаєте, що отримали не гідне для Вас місце, то змініть мережну політику”. Аналізуючи стан Web-сайтів НТУУ”КПІ”, до цих слів варто додати вимогу змінити ставлення до електронних засобів інформації.
2. Інформаційний простір НТУУ”КПІ”
Основним джерелом інформації в сучасному глобалізованому світі є Web-сайт. Гістограма, що показує збільшення кількості Web-сайтів у мережі НТУУ”КПІ”, показано на рисунку.

 Інформаційний простір НТУУ”КПІ” зараз створюють понад 150 Web-сайтів і їх кількість постійно збільшується. Нагадуємо, що згідно з рішенням Адміністративної ради університету, НТО “КПІ-Телеком” безоплатно надає доменні імена та хостінг підрозділам, громадським організаціям та ініціативним групам нашого ВНЗ. Понад 100 з них цим вже скористалися.
В мережу університету входять сайт НТУУ “КПІ”, сайти інститутів, факультетів, кафедр, наукових підрозділів, навчальні ресурси, міжнародні проекти та деякою мірою студентські сайти. “Міра” визначається використанням університетського доменного імені. Мережеві проекти, які не входять в зону ntu-kpi.kiev.ua (kpi.ua), вважаємо нашими тільки ми. Для Webometrics – це сторонні ресурси, які не враховуються рейтингом. Навіть, якщо вони повністю присвячені КПІ або його підрозділам. Доступ до першого рівня навігації усіх сайтів інформаційного простору НТУУ”КПІ” забезпечує Web-портал за адресою http://kpi.ua/portal. Якщо Ви не знайшли свій сайт у переліку, скоріш за все, Ваш адміністратор забув чи не захотів його зареєструвати на сайті http://kpi.ua. Розвиток Web-порталу, який здійснює НТО “КПІ-Телеком”, включає роботи, що частково виконані і знаходяться у дослідній експлуатації - автоматичний аналіз можливостей серверів підрозділів та термін останнього їх поновлення, автоматичний аналіз змін на сайтах порталу, автоматизований аналіз інформаційного наповнення сайтів порталу, автоматизований аналіз застарілої інформації на сайтах портала, пошук інформації на порталі. Ці роботи пов’язані з автоматичним аналізом сайтів і дозволяють глибше розуміти роботу Webometrics.
3. Чому низький рейтинг?
Обсяг інформаційного простору НТУУ”КПІ” достатньо великий і теоретично ми могли б випередити тих, хто обігнав нас в переліку. Але, якщо переглянути його вміст, то отримане місце можна вважати дуже високим. Пов’язано це з тим, що на багатьох сайтах інформація застаріла, не поповнюється, відсутні мовні версії. Досить часто, замість повнотекстового матеріалу стоїть телефон відповідальної особи. Замість створення нової сторінки виправляється стара, а новинна інформація взагалі з часом видаляється (замість переведення в архів).
Розглянемо лише деякі найбільш вагомі причини.
1. Недостатня увага до функціонування сайтів. Зараз вже не можна зробити сайт – і забути про нього. Це не книга – це щоденна інтерактивна газета, яку користувач бачить 24 години і 7 днів на тиждень, і не можна кожний раз пропонувати користувачам номер за позаминулий рік. Інформацію потрібно оновлювати, розширювати, пропонувати нові послуги і постійно відслідковувати потреби Вашої цільової аудиторії – абітурієнтів, студентів, науковців або інших груп.
2. Відсутність матеріалів, які оцінюються даним рейтингом. Мова йде про повнотекстові наукові роботи (найкращий випадок), або реферативні матеріали.
3. Недостатнє анонсування заходів, подій, проектів на загальноуніверситетському сайті та сайтах підрозділів. Ми маємо більше співпрацювати. Наприклад, за рахунок експортування каналів новин (RSS).
4. Практична відсутність сайтів наукових підрозділів (згідно з переліком за адресою http://kpi.ua/department їх більше 20) і держбюджетних тем;
5. Поганий стан мовних версій сайтів;
6. Відсутність практики оцінки наукових досягнень по присутності в InterNet та зовнішніх посилань на роботи.
Повноцінна присутність в мережі можлива лише за умови об’єднання зусиль багатьох підрозділів та авторів.
4. Заходи для підняття рейтингу
Багато університетів ставляться до всесвітніх рейтингів з часткою скептицизму – неможливо порівняти настільки різне. Проте, отримані нами результати чітко вказують, що присутність нашого ВНЗ в мережі недостатня. Потрібно терміново здійснити ряд заходів, які дозволять покращити наші показники і до того ж будуть корисними для студентів та співробітників КПІ.
Першочергові дії:
1. Нагадати керівникам підрозділів про необхідність постійного супроводження сайтів – їх просування в мережі (в тому числі реєстрації) та розвитку. Адміністратор сайту має бути забезпечений робочим місцем, постійно контактувати із співробітниками підрозділу, університетськими колегами, налагоджувати зв'язки з дружніми сайтами України та світу. При відсутності комп’ютера та доступу в мережу не може бути й мови про ефективний сайт;
2. Усебічно розширювати вміст сайтів. Це не тільки навчально-методична та наукова інформація, а й адміністративні і новинні матеріали. Webometrics радить розміщувати ретроспективні матеріали, включаючи історичну інформацію, відео та фото-звіти. Можлива також конвертація важливих неелектронних ресурсів. Наприклад, приведення накопичених електронних статей та підручників до виду, який сприймається Webometrics;
3. Провести комплекс заходів по зміні ставлення до електронних засобів інформації (доповнення до оцінки рейтингу викладачів та науковців, корекція штатних обов’язків, обов’язкова наявність сайтів журналів, наукових підрозділів, держбюджетних тем та інше);
4. Впорядкувати надання інформації про Ваківські поліграфічні видання на відповідних Web-сайтах Університету;
5. Розширити мовні версії. Можна прогнозувати, що вище 1000 місця без повних мовних версій піднятися неможливо (для InterNet українська мова, як і російська, фактично - локальні мови). Мовні версії, особливо англійську, бажано створювати не тільки для візитної (презентаційної) інформації, а й для наукових документів.
     Виконання цих заходів вимагає не стільки рейтинг, скільки перспективний напрямок розвитку університету.Розглядати параметри почнемо з найбільш значущих, яким є Видимість (Visibility), оцінюється вона за допомогою PageRank.

PageRank і його визначення
В зв’язку з тим, що PageRank має вагу 0.5 в оцінці Webometrics, розглянемо принаймні загальні питання його визначення.

Що таке PageRank?
PageRank - це метод Google для визначення «важливості» сторінки. Коли всі інші фактори, такі як тег Title і ключові слова враховані, Google використовує PageRank, щоб відкорегувати результати так, що більш «важливі» сайти піднімуться відповідно вверх на сторінці результатів пошуку користувача.
Тобто, порядок ранжирування в Google працює наступним чином:
- Знайти всі сторінки, відповідні ключовим словам пошуку.
- Відранжувати відповідно «сторінковим факторам», таким, як ключові слова.
- Врахувати текст посилань на сторінки.
- Відкорегувати результати даними PageRank.
Як визначається PageRank?
Теорія Google говорить, що якщо Сторінка A посилається на сторінку B, то Сторінка А вважає, що Сторінка B - важлива сторінка. Текст посилання не використовується в PageRank. PageRank також впливає на важливість посилань на сторінку. Якщо на сторінку вказує багато важливих посилань, то її посилання на інші сторінки також стають більш важливими.
Наскільки важливий PageRank?
Важливість кожного окремого фактора в алгоритмах пошукової системи залежить від якості інформації, котру він забезпечує. Тому є сенс спочатку поглянути на цю якість.
Коли Google був невеликим, можна було вважати, що посилання було точною ознакою рекомендації. Проте, зараз це більше не так за двома дуже важливими причинами:
- Інтернет істотно змінився. Посилання сьогодні це, скоріше, тільки зв’язаний сайт, ліцензійна вимога або відповідна послуга (як перехресні посилання), ніж дійсна рекомендація.
- Як тільки ви створите пошукову машину, яка розглядає посилання як рекомендації, люди будуть намагатися впливати на посилання. Як тільки вони почнуть впливати на них, посилання перестануть бути рекомендаціями.
Тому надійність інформації, що забезпечується посиланнями, не обов’язково гарна і вона постійно зменшується. Це є причиною низької і такої, що весь час зменшується важливості PageRank в алгоритмі ранжування Google.
Проте, у PageRank є одна важлива якість. На нього важче впливати, ніж на будь-який інший фактор ранжування. Це означає, що у PageRank є можливість надати вам перевагу перед конкурентами, коли він використовується в комбінації з іншими прийомами оптимізації для пошукових машин.
Основні особливості PageRank
Важливо знати декілька особливостей PageRank.
PageRank - це число, що характеризує виключно голосуючу здібність всіх вхідних посилань на сторінку і те, як сильно вони рекомендують цю сторінку.
Кожна унікальна сторінка сайта, проіндексована Google, має вагу PageRank. Люди часто помиляються, думаючи про вагу сайта, яка насправді є вагою головної сторінки цього сайта.Внутрішні посилання сайта враховуються при розрахунку ваги PageRank для інших сторінок сайта.
PageRank незалежний, він не приймає до уваги текст посилань і т. п. Звичайно, вони зв’язані, але говорити, що це одне і те ж, це все рівно що говорити, ніби тег Title те ж саме, що ключові слова в тексті.
 Розрахунок PageRank
Коли Google був тільки дослідницьким проектом, вони [Брін і Пейдж] написали статтю, що докладно описала формулу, яка визначає вагу PageRank для сторінки. Хоч вони, можливо, уже не використовують в точності цю формулу, вона є досить коректною для сьогоденних цілей. Ось вона:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)),
де PR(A) — це вага PageRank сторінки A (та вага, яку ми хочемо обчислити),
d — це коефіцієнт затухання від 0 до 1, який зазвичай встановлюють рівним 0,85,
PR(T1) — вага PageRank сторінки T1, яка вказує на сторінку A,
C(T1) — число посилань із сторінки T1,
PR(Tn)/C(Tn) означає, що ми робимо це для кожної сторінки, що вказує на сторінку A.
Ви не можете просто обчислити вагу PageRank за один прийом, як показано тут. Щоб вирахувати вагу PageRank сторінки A вам необхідно знати вагу PageRank всіх сторінок, що вказують на сторінку A. Їх вага PageRank буде частково залежати від сторінки A, що вказує на них, або яких-небудь інших сторінок, що посилаються на них.
Ця формула свідчить про те, що вага PageRank яка знаходиться на сторінці B, передаючись на сторінку A зі сторінки B, що вказує на неї, зменшується з кожним посиланням куди-небудь. Це означає, що вага сторінки, по суті, це міра її голосу; сторінка може розділити цей голос між однією, двома або багатьма посиланнями, але загальна голосуюча сила буде завжди тією ж самою.
Повне викладення обчислення PageRank з конкретними прикладами можна найти в роботі (2)
Друга версія алгоритма обчислення PageRank для сторінки А має наступний вигляд:
PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)),
де N загальне число всіх сторінок на web. Друга версія фундаментально не відрізняється від першої.
Література
 1. http://ru.wikipedia.org/
 2. http://pr.efactory.de/e-pagerank-algorithm.shtml
 
Інтернет спільнота закликає підтримати батька WWW

 
  
  

Scholarly Lite is a free theme, contributed to the Drupal Community by More than Themes.