Sieć it: października 2011

World Wide Web

[ˌwɜːldˌwaɪdˈwɛb] (po angielsku: "ogólnoświatowa sieć"),

w skrócie Web lub częściej WWW

– hipertekstowy, multimedialny, internetowy system informacyjny oparty na publicznie dostępnych, otwartych standardach IETF i W3C. WWW jest usługą internetową, która ze względu na zdobytą popularność, bywa błędnie utożsamiana z całym Internetem.

Historia

Brytyjski inżynier i naukowiec sir Tim Berners-Lee, obecnie dyrektor World Wide Web Consortium (W3C), napisał w marcu 1989 projekt oparty na ENQUIRE (aplikacji i bazie danych, którą stworzył na własny użytek w 1980). Przedstawił w nim dużo bardziej rozbudowany system zarządzania informacjami, który stał się zalążkiem obecnej WWW. Po jakimś czasie dołączył do niego belgijski naukowiec Robert Cailliau, z którym Lee współpracował w ośrodku CERN. 12 listopada 1990 opublikowali oficjalny projekt budowy systemu hipertekstowego zwanego "World Wide Web" (w skrócie: WWW, lub jeszcze krócej: W3), obsługiwanego przy pomocy przeglądarki internetowej, używającego architektury klient-serwer. Użycie hipertekstu umożliwiło dostęp do różnego rodzaju informacji poprzez sieć odnośników, tzw. hiperłączy – oglądając stronę internetową, użytkownik może podążać za zamieszczonymi na niej hiperłączami, które przenoszą go do innych, udostępnionych w sieci dokumentów lub innych stron internetowych. Początkowo, "World Wide Web" został oparty na SGML-owej przeglądarce o nazwie "Dynatext", opracowanej w ramach działalności "Instytutu Badań nad Informacją i Wiedzą" (Institute for Research in Information and Scholarship) Uniwersytetu Browna. "Dynatext" był projektem komercyjnym, licencjonowanym przez CERN - okazał się jednak zbyt kosztowny w używaniu dla szerszej społeczności (wówczas było to środowisko fizyków wysokich energii), bowiem przewidywał opłatę za każdy nowy dokument oraz za każdorazową jego edycję.

System informacyjny "World Wide Web" zaprojektowano, aby zbierać zasoby ludzkiej wiedzy i umożliwić współpracownikom w odległych miejscach dzielenie się swoimi pomysłami oraz zgłębianie wszystkich aspektów wspólnego projektu. W przypadku, gdy dwa projekty tworzone były niezależnie od siebie, WWW pozwalała skoordynować pracę naukowców, dzięki czemu obie prace stawały się jednym spójnym dziełem. Niniejszy projekt szacował, że służąca tylko przeglądaniu sieć, rozwinie się w ciągu trzech miesięcy, a w ciągu pół roku użytkownicy będą mieli możliwość publikowania nowych materiałów i odnośników do nich, dzięki czemu system stanie się w pełni uniwersalny. Usługa została oficjalnie uruchomiona w grudniu 1990 roku.

Jako pierwszy na świecie serwer internetowy, Berners-Lee zastosował komputer NeXT, na którym stworzył również pierwszą przeglądarkę o nazwie WorldWideWeb (zmienionej później na Nexus). Do czasu świąt Bożego Narodzenia 1990 roku, Berners-Lee zbudował wszystkie narzędzia niezbędne do działania WWW: przeglądarkę WWW (która służyła również jako edytor), pierwszy serwer WWW oraz pierwsze strony WWW, opisujące nowo powstały projekt. 6 sierpnia 1991 roku zamieścił krótkie podsumowanie projektu "WordWideWeb" na grupie dyskusyjnej alt.hypertext. Ta data jest również uznawana za debiut publicznie dostępnych usług w Internecie. Pierwszy serwer poza Europą został uruchomiony w Centrum Liniowego Akceleratora Stanforda (SLAC) w grudniu 1992. Zasadnicza koncepcja hipertekstu pochodzi ze starszych projektów z lat 60., takich jak: Hypertext Editing System (HES), utworzony na Uniwersytecie Browna, Xanadu, autorstwa Teda Nelsona i Andriesa van Dama, oraz oN-Line System (NLS) Douglasa Engelbarta. Nelson i Engelbart z kolei inspirowali się mikrokomputerem Memex, który w 1945 r. został opisany esejem pt. "As We May Think" Vannevara Busha.

Przełomem w projekcie było połączenie hipertekstu z internetem. W swojej książce pt. "Weaving The Web" ("Tkając Sieć") Berners-Lee wyjaśnia, iż wielokrotnie sugerował możliwość połączenia tych dwóch technologii, jednakże nikt wcześniej nie podjął starań w tym kierunku, w związku z czym postanowił wziąć sprawę w swoje ręce. Na potrzeby projektu autor opracował system ogólnodostępnych, unikalnych identyfikatorów zasobów sieci: "The Universal Document Identifier" (UDI) znany później jako Uniform Resource Locator (URL) i Uniform Resource Identifier (URI), język służący projektowaniu stron – HyperText Markup Language (HTML) oraz protokół przesyłania dokumentów hipertekstowych Hypertext Transfer Protocol (HTTP).

World Wide Web posiadała szereg cech wyróżniających ją spośród innych systemów hipertekstowych, które były wówczas dostępne, np. używał jednokierunkowych zamiast dwukierunkowych odnośników. Umożliwiało to użytkownikowi przełączenie się z bieżącego zasobu danych do kolejnego, bez potrzeby reakcji ze strony jego właściciela. W porównaniu do poprzednich systemów ułatwiło to wdrażanie nowych serwerów i przeglądarek, ale wprowadziło chroniczny problem wygasłych odnośników (hiperłączy, linków). W odróżnieniu od poprzedników, takich jak np. HyperCard, World Wide Web nie została skomercjalizowana, umożliwiając rozwój serwerów i publikowanych na nich stron, w sposób niezależny oraz dodawanie rozszerzeń bez ograniczeń licencyjnych. 30 kwietnia 1993, CERN ogłosił, że World Wide Web będzie udostępniona bezpłatnie dla każdego. W ciągu kolejnych dwóch miesięcy, po ogłoszeniu, że protokół Gophernie będzie już dostępny bezpłatnie, odnotowano duży spadek jego popularności, na rzecz darmowej WWW. Najpopularniejszą przeglądarką internetową wówczas była ViolaWWW.

Punktem zwrotnym w historii World Wide Web było wprowadzenie, w 1993 roku, przeglądarki Mosaic, działającej w trybie graficznym. Przeglądarka ta została opracowana przez zespół "Narodowego Centrum Zastosowań Superkomputerów" (National Center for Supercomputing Applications) na Uniwersytecie Illinois w Urbana-Champaign (NCSA-UIUC), który kierowany był wówczas przez Marca Andreessena. Mosaic była finansowana przez "Inicjatywę Wysokowydajnych Technik Obliczeniowych i Komunikacyjnych" (High-Performance Computing and Communications Initiactive), powstałej dzięki "Ustawie o Wysokowydajnych Technikach Obliczeniowych i Komunikacyjnych" (High Performance Computing and Communication Act) z 1991 roku, będącej jednym z kilku opracowań dotyczących rozwoju informatyki, zainicjowanych przez senatora Al Gore'a. Przed wprowadzeniem przeglądarki graficznej Mosaic, strony internetowe nie posiadały grafiki wplecionej bezpośrednio w tekst, a popularność WWW była mniejsza niż starszych protokołów używanych dotychczas w Internecie, takich jak Gopher czy WAIS – interfejs graficzny przeglądarki Mosaic uczynił WWW zdecydowanie najpopularniejszą usługą internetową.

World Wide Web Consortium (W3C) zostało założone przez Tima Bernersa-Lee po opuszczeniu przez niego ośrodka CERN, w październiku 1994 roku. Konsorcjum zostało utworzone w Laboratorium Informatyki MIT (Massachusetts Institute of Technology, Laboratory for Computer Science, MIT/LCS), z pomocą agencji "Agencji Zaawansowanych Obronnych Projektów Badawczych" (Defense Advanced Research Projects Agency, DARPA), będącej pionierem w rozwoju Internetu, oraz Komisji Europejskiej. Do końca 1994 r., gdy całkowita liczba stron internetowych stanowiła ułamek ich obecnej liczby, wiele spośród znanych dziś stron było już uruchomionych, a część z nich mogło stanowić inspirację dla wielu współczesnych serwisów internetowych.

Dzięki połączeniu z Internetem, na całym świecie zaczęły powstawać serwery WWW, tworząc ogólnoświatowe standardy nazewnictwa domen internetowych. Od tamtej pory Berners-Lee odegrał bardzo aktywną rolę w nadawaniu kierunku rozwoju standardów sieciowych (takich jak np. języki znaczników, w których strony internetowe są tworzone), a w ostatnich latach opowiada on o swojej wizji Semantic Web. World Wide Web, dzięki łatwemu do opanowania interfejsowi obsługi, aktywnie rozpowszechnia informacje za pośrednictwem Internetu – tym samym odgrywa istotną rolę w jego popularyzacji – mimo, że te dwa pojęcia są często mylone w powszechnym użyciu: World Wide Web nie jest całym Internetem, a jedynie pewną aplikacją zbudowaną na jego bazie.

World Wide Web a Internet

Określenia: World Wide Web i Internet są często stosowane zamiennie w życiu codziennym. Jednak World Wide Web i Internet nie są jednym i tym samym. Internet to globalny system połączonych ze sobą sieci komputerowych. W przeciwieństwie do Web, która jest jedną z usług działających w Internecie. WWW jest zbiorem powiązanych ze sobą zasobów i dokumentów, połączonych hiperłączami i URL-ami. Krótko mówiąc, Web jest aplikacją działającą w Internecie. Przeglądanie stron internetowych WWW zwykle rozpoczyna się albo od wpisania adresu strony w przeglądarce internetowej, albo poprzez podanie linku do tej strony lub linku do konkretnego zasobu. Następnie przeglądarka wysyła do serwera WWW, na którym zlokalizowana jest strona, szereg niewidzialnych dla nas zapytań, aby później pobrać zawartość danej strony i wyświetlić ją na ekranie monitora.

Na początku nazwa serwera (część adresu URL) jest dekodowana na adres IP za pomocą globalnej, rozproszonej bazy danych znanej jako Domain Name System (DNS). Adres IP jest niezbędny, aby móc połączyć się z danym serwerem. Przeglądarka następnie wywołuje dany zasób, wysyłając zapytanie do serwera określonego powyższym adresem. W przypadku typowej strony internetowej, przeglądarka najpierw pobiera jej skrypt HTML, analizuje go a następnie wysyła zapytanie o resztę elementów wchodzących w jej skład (zdjęcia, grafika, dźwięki, video, animacje). Statystyki mierzące popularność stron zazwyczaj są oparte o liczbę odwiedzin ale również o liczbę wysłanych na serwer zapytań, które miały miejsce.

Podczas pobierania plików z serwera WWW, przeglądarki mogą stopniowo składać stronę na ekranie w sposób określony przez jego kod HTML, CSS lub inne języki skryptowe. Wszelkie zdjęcia i inne zasoby są włączane do strony, którą użytkownik widzi na ekranie. Większość stron internetowych zawiera hiperłącza umożliwiające bezpośrednie przechodzenie do innych stron z nimi powiązanych, gotowych plików, które można pobierać, dokumentów źródłowych, definicji oraz innych zasobów internetowych. Taki zbiór przydatnych materiałów powiązanych ze sobą za pośrednictwem łączy hipertekstowych, nazwano "siecią informacji". Udostępniając tę sieć w Internecie, Tim Berners-Lee nazwał ją w listopadzie 1990 roku "World Wide Web" (początkowo "WorldWideWeb", jednak ten zapis został później odrzucony).

Jakie korzyści przynosi WWW

WWW (lub jeszcze krócej: W3) jest realizacją idei nieograniczonego świata informacji. Na jej sukces, poza samym Internetem jako fizycznym nośnikiem, składają się, przede wszystkim, następujące elementy:

HyperText Markup Language (HTML) – hipertekstowy język znaczników, zrozumiały dla każdej przeglądarki, służący formatowaniu zawartości strony internetowej;
Hypertext Transfer Protocol (HTTP) – protokół komunikacyjny używany do przesyłania stron internetowych;
Uniform Resource Identifier (URI) – standard identyfikatora zasobów w Internecie.

Prefiks WWW

Wiele adresów internetowych zaczyna się od "www" ze względu na długoletnią praktykę nazywania hostów internetowych (serwerów) zgodnie z usługami, które oferowały. Nazwa hosta dla serwera Web to najczęściej www, tak jak ftp dla serwera FTP czy news lub nntp dla serwerów informacyjnych Usenet. Te nazwy hostów ukazują się, jako subdomeny w Domain Name System (DNS), jak w przykładzie www.example.com. Stosowanie takich subdomen nie jest wymagane. Pierwszy na świecie serwer Web nazywał się nxoc01.cern.ch, a wiele stron internetowych istnieje bez prefiksu WWW, czy innych takich jak "www2" , "secure" itp. Prefiksy subdomen nie mają żadnego praktycznego znaczenia, są to zwykłe nazwy nadane przez administratorów. Wiele serwerów internetowych jest tak skonfigurowanych, aby korzystać z obu wersji adresu, zarówno samej domeny (example.com) jak i z subdomeną (www.example.com). W praktyce kierują one użytkownika dokładnie do tej samej strony.

W przypadku wpisania tylko jednego specyficznego słowa w pasku adresu przeglądarki, np.: apple <enter>, openoffice <enter> aplikacja sama spróbuje dodać przedrostek www i końcówkę np.: ".com", ".org" lub ".net" i przekieruje nas np. na stronę "http://www.apple.com/", czy http://www.openoffice.org/. Funkcje te zostały wprowadzone we wczesnych wersjach przeglądarki Mozilla Firefox na początku roku 2003. Natomiast Microsoft otrzymał w 2008 patent na to samo rozwiązanie, z tym, że tylko w odniesieniu do urządzeń mobilnych.

Przedrostki "http://" i "https://" należy rozróżniać. Hypertext Transfer Protocol (HTTP) i HTTP Secure wyznaczają protokół komunikacyjny, który ma zostać użyty do wysyłania i pobierania zawartości strony. Protokół HTTP jest podstawowym elementem działania struktury www a HTTPS dodaje niezbędną warstwę ochronną w przypadku, gdy poufne informacje, takie jak hasła czy dane bankowe mają być przesyłane w publicznej sieci Internet. Przeglądarki internetowe również automatycznie dopisują ten element (HTTPS), jeśli zostanie on pominięty. Ogólny zarys RFC 2396 określający postać adresów internetowych to: <protokół>://<host><ścieżka>?<zapytanie>#<fragment> , gdzie <host> to np. serwer internetowy (jak www.example.com) a ścieżka identyfikuje konkretna podstronę. Serwer przetwarza <zapytanie> , które może np. za pośrednictwem formularza wysłać dane do zewnętrznej wyszukiwarki, poprzez to zawartość wyświetlanej strony jest zależna od odebranych informacji zwrotnych. <fragment> nie jest wysyłany do serwera. Określa która część strony ma być wyświetlana użytkownikowi domyślnie.

W języku angielskim www wymawiane jest przez pojedyncze wypowiedzenie ciągu znaków (double-u double-u double-u). Niektóre kręgi użytkowników wymawiają dub-dub-dub, aczkolwiek ten sposób nie jest jeszcze zbyt powszechny. Angielski pisarz Douglas Adams zażartował kiedyś w "The Independent on Sunday (1999): "World Wide Web jest z tego co wiem jedynym wyrażeniem którego skrócona forma jest trzy razy dłuższa od pełnej". Określenie World Wide Web jest powszechnie tłumaczone na język chiński jako: wan wei wǎng, co dosłownie oznacza "mnóstwo wymiarów sieci". Tłumaczenie to bardzo dobrze odzwierciedla koncepcję projektu i założenia WWW. Tim Berners-Lee zdefiniował, iż wyrażenie World Wide Web powinno być pisane jako 3 osobne słowa bez żadnych dodatkowych łączników.

Prywatność

Użytkownicy komputerów, którzy oszczędzają czas i pieniądze, a także ci, którzy poszukują wygody i rozrywki, są narażeni na utratę prywatności w sieci. Na całym świecie ponad pół miliarda osób korzysta z serwisów społecznościowych, a młodzież dorastająca w dobie Internetu dokonuje kolejnej zmiany pokoleniowej. Z Facebooka, początkowo rozpowszechnionego pośród amerykańskich studentów, korzysta dziś ponad 70% użytkowników z innych państw niż USA. W 2009 roku na portalu uruchomiono test nowych narzędzi, umożliwiających dostosowanie ochrony prywatności, jednakże tylko 20% użytkowników rozpoczęło korzystanie z nich. Same serwisy wykorzystują część powierzonych im danych użytkowników do celów reklamowych. Osoba korzystająca z Internetu ma możliwość usunięcia historii przeglądanych stron, zablokowania niektórych ciasteczek (cookies) oraz wyskakujących okienek, jednak nie zapewnia to pełnej ochrony prywatności.

Bezpieczeństwo

Sieć Web stała się otwartą drogą dla przestępców rozprzestrzeniających złośliwe oprogramowanie. Cyberprzestępczość prowadzona w internecie może składać się z kradzieży tożsamości, oszustw, szpiegostwa i gromadzenia poufnych informacji. Połączenie z internetem przewyższa tradycyjne zagrożenia dla bezpieczeństwa danych przetwarzanych przy pomocy komputera, a jak szacuje Google, około jedna na dziesięć stron internetowych może zawierać złośliwy kod. Większość ataków opartych na sieci Web odbywa się z poziomu legalnych stron internetowych, a najczęściej, jak szacuje firma Sophos, producent oprogramowania antywirusowego, ataki są prowadzone w Stanach Zjednoczonych, Chinach i Rosji. Najpowszechniejszym typem zagrożeń jest SQL injection. Za pomocą języka HTML i URI sieć Web została również narażona na ataki, takie jak cross-site scripting (XSS), które pojawiły się wraz z wprowadzeniem JavaScript, następnie zostały rozszerzone do pewnego stopnia przez Web 2.0 i Ajax, używające dużych ilości skryptów. Dziś szacunkowo 70% wszystkich stron internetowych jest niezabezpieczonych przed atakami XSS.

Archiwizacja stron WWW

Z biegiem czasu wiele zasobów publikowanych w Internecie zanika, zostaje przeniesionych, zaktualizowanych lub całkowicie zmienia się ich zawartość. To sprawia, że niektóre odnośniki stają się przestarzałe. Określa się je wtedy mianem "martwych odnośników" (ang. dead links). Problem ten spowodował, że podjęto działania zaradcze, i np. Internet Archive, działające od 1996 roku, jest obecnie najbardziej znaną instytucją zajmującą się archiwizacją zasobów Internetu.

Standaryzacja

Funkcjonowanie World Wide Web w Internecie oraz wymiana informacji pomiędzy komputerami opiera się na wielu standardach i specyfikacjach technicznych. Duża część tych dokumentów to opracowania World Wide Web Consortium (W3C), kierowanego przez Berners'a-Lee, a niektóre z nich są dziełem Internet Engineering Task Force (IETF) oraz innych organizacji.

Gdy wspominamy o standardach internetowych najczęściej mamy do czynienia z następującymi publikacjami:

Zalecenia W3C dla języków znaczników, zwłaszcza HTML i XHTML. Określają one struktury interpretacji dokumentów hipertekstowych.
Zalecenia W3C dla arkuszy stylów, szczególnie CSS.
Standardy ECMAScript (zazwyczaj w formie JavaScript), z ECMA International.
Zalecenia W3C dotyczące modelowania dokumentów obiektowych.

Dodatkowe publikacje dostarczają definicji innych podstawowych technologii stosowanych w World Wide Web, min.:

Uniform Resource Identifier (URI), który jest uniwersalnym systemem odniesień do zasobów w Internecie, takich jak dokumenty hipertekstowe i obrazy. URI, często nazywane URL jest definiowane przez IETF RFC 3986 STD / 66: Uniform Resource Identifier (URI): Generic Syntax.
Protokół HTTP, a konkretnie RFC 2616: HTTP/1.1 i RFC 2617: Autoryzacja HTTP, które określają, jak przeglądarka i serwer uwierzytelniają siebie nawzajem.

Dostępność WWW

Na dzień dzisiejszy dostęp do WWW jest możliwy dla wszystkich, bez względu na to, czy użytkownik jest osobą w pełni czy niepełnosprawną. Niezależnie od rodzaju niepełnosprawności, sieć Web służy przesyłaniu, jak również pozyskiwaniu informacji oraz interakcji ze społeczeństwem, przez co niezmiernie ważne jest, aby umożliwić dostęp do sieci osobom niepełnosprawnym, często ograniczonym ruchowo. Tim Berners-Lee twierdzi, iż "potęga internetu polega na jego uniwersalności. Dostępność dla wszystkich, bez względu na niepełnosprawność jest jej głównym aspektem." Wiele krajów wymaga od autorów witryn stosowania ułatwień dostępu. Międzynarodowa ustalenia w ramach "Inicjatywy dostępności do sieci" W3 Consortium (Web Accessibility Initiative) doprowadziły do wystosowania pewnych prostych wytycznych, które autorzy treści internetowych, jak również twórcy oprogramowania mogą wykorzystywać, aby umożliwić "surfowanie" po sieci osobom niepełnosprawnym.

Obsługa różnych języków

W3C zapewnia, że usługa WWW będzie dostępna we wszystkich językach świata. Na początku 2004 r. Unicode zyskał znaczną popularność i ostatecznie w grudniu 2007 r., jako najczęściej używany system kodowania znaków w sieci Web, wyparł zarówno ASCII jak i zestaw znaków dla Europy Zachodniej. Pierwotnie zbiór RFC 3986 zezwalał obiektom sieci na identyfikację tylko poprzez adresy składające się ze znaków z podgrupy US-ASCII. RFC 3987 uznaje rozszerzony zakres znaków i od tej pory zasoby sieci mogą być identyfikowane poprzez adresowanie w każdym z języków.

Prędkość transmisji

Przeciążenie infrastruktury Internetu, wywołane przewagą popytu nad podażą, powoduje, nieraz znaczące, opóźnienia w przeglądaniu stron internetowych. Powstało nawet żartobliwa określenie dla WWW: "World Wide Wait" (czyli: "wielkie, światowe czekanie"). Przyspieszenie działania sieci jest ciągle otwartym tematem dyskusji i rozważań użytkowników, specjalistów oraz polem działania technologii QoS. Inne rozwiązania mające na celu przyspieszenie Internetu można znaleźć na stronie W3C.

Standardowe wytyczne dla idealnego czasu odpowiedzi z serwera to:

0,1 sekundy (jedna dziesiąta sekundy). Idealny czas reakcji. Użytkownik nie odczuwa jakichkolwiek opóźnień.
1 sekunda. Największy dopuszczalny czas reakcji. Czas odpowiedzi powyżej 1 sekundy zakłóca pracę użytkownika.
10 sekund. Niedopuszczalny czas reakcji. Przeglądanie zostanie przerwane, a użytkownik prawdopodobnie ujrzy komunikat błędu.

Statystyki

Według badań z 2001 roku, istniało wtedy więcej niż 550 miliardów dokumentów internetowych, najczęściej dostępnych w tzw. "widocznym WWW" (ang. visible Web lub surface Web) czyli skatalogowanych (zindeksowanych) przez wyszukiwarki internetowe lub w tzw. "ukrytym WWW" (ang. hidden Web lub deep Web) czyli nieskatalogowanych przez wyszukiwarki. W 2002 r. przebadano zawartość 2,024 mln stron WWW, dzięki czemu wiadomo, że zdecydowanie najwięcej zawartości sieci Web była w języku angielskim: 56,4%; następne były strony w języku niemieckim (7,7%), francuskim (5,6%) i japońskim (4,9%). Najnowsze badania, wykorzystywały do zebrania próbek stron internetowych wyszukiwarki internetowe w 75 różnych językach. Ustalono, że od końca stycznia 2005 było ponad 11,5 miliardów publicznie indeksowanych stron internetowych. W marcu 2009, indeksowanych stron było już co najmniej 25,21 miliardów. 25 lipca 2008r, inżynierowie oprogramowania Google Jesse Alpert i Nissan Hajaj ogłosili iż wyszukiwarka odkryła bilion unikalnych adresów URL. Spośród nich 74% było komercyjnych lub były to strony działające w domenach najwyższego poziomu.

Zapraszamy do zapisania się na nasz newsletter!

Sieć it

niedziela, 2 października 2011

World Wide Web ( www )