Algebra liniowa Jerzy Topp
Politechnika Gdańska 2005
Spis treści PRZEDMOWA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
Rozdział 1. PODSTAWOWE STRUKTURY ALGEBRAICZNE 1.1. Działania i ich własności . . . . . . . . . . . . . . . . . . . . . . . 1.2. Grupa i jej podgrupy . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Pierścień . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Ciało . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
7 7 10 14 16 17
Rozdział 2. LICZBY ZESPOLONE . . . . . . . . . . . 2.1. Liczby zespolone i działania na liczbach zespolonych 2.2. Sprzężenie i moduł liczby zespolonej . . . . . . . . . 2.3. Postać trygonometryczna liczby zespolonej . . . . . . 2.4. Pierwiastkowanie liczb zespolonych . . . . . . . . . . 2.5. Wzory Eulera . . . . . . . . . . . . . . . . . . . . . . 2.6. Postać wykładnicza liczby zespolonej . . . . . . . . . 2.7. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
19 19 23 25 29 33 35 36
Rozdział 3. WIELOMIANY . . . . . 3.1. Pierścień wielomianów . . . . . . 3.2. Podzielność wielomianów . . . . . 3.3. Schemat Hornera . . . . . . . . . 3.4. Pierwiastki wielomianów . . . . . 3.5. Wielomiany względnie pierwsze . 3.6. Funkcje wymierne i ułamki proste 3.7. Ćwiczenia . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
39 39 42 44 46 53 54 62
Rozdział 4. MACIERZE . . . 4.1. Podstawowe definicje . . . 4.2. Działania na macierzach . 4.3. Macierz odwrotna . . . . . 4.4. Ślad macierzy kwadratowej 4.5. Ćwiczenia . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
64 64 66 74 76 77
Rozdział 5. UKŁADY RÓWNAŃ LINIOWYCH 5.1. Podstawowe definicje i fakty . . . . . . . . . . . 5.2. Równania macierzowe . . . . . . . . . . . . . . . 5.3. Kolejne własności macierzy odwracalnej . . . . 5.4. Wyznaczanie macierzy odwrotnej . . . . . . . . 5.5. Struktura rozwiązań układu równań liniowych . 5.6. Ćwiczenia . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
80 80 92 94 95 97 99
Rozdział 6. WYZNACZNIKI . . . . . . . . . 6.1. Definicja i pierwsze własności wyznacznika 6.2. Wyznacznik iloczynu macierzy . . . . . . . 6.3. Macierze odwracalne i nieosobliwe . . . . . 6.4. Wyznacznik macierzy podobnych . . . . . 6.5. Układy równań i wzory Cramera . . . . . 6.6. Ćwiczenia . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
102 102 111 112 114 115 117
Rozdział 7. PRZESTRZEŃ WEKTOROWA . . . . 7.1. Przestrzeń wektorowa i jej podprzestrzenie . . . . 7.2. Kombinacje liniowe wektorów . . . . . . . . . . . 7.3. Przestrzeń kolumnowa macierzy . . . . . . . . . . 7.4. Liniowa zależność i liniowa niezależność wektorów 7.5. Baza przestrzeni wektorowej . . . . . . . . . . . . 7.6. Współrzędne wektora . . . . . . . . . . . . . . . . 7.7. Rząd macierzy . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
120 120 125 128 131 135 141 149
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
7.8. 7.9.
Suma i suma prosta podprzestrzeni . . . . . . . . . . . . . . . . . . . . . 152 Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Rozdział 8. PRZEKSZTAŁCENIA LINIOWE . . . 8.1. Definicja przekształcenia liniowego . . . . . . . . 8.2. Jądro i obraz przekształcenia liniowego . . . . . . 8.3. Mono- i epimorficzność przekształcenia liniowego 8.4. Suma i złożenie przekształceń liniowych . . . . . 8.5. Macierz przekształcenia liniowego . . . . . . . . . 8.6. Odwracalność odwzorowania liniowego . . . . . . 8.7. Podobieństwo macierzy . . . . . . . . . . . . . . . 8.8. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
159 159 164 169 171 173 180 183 186
Rozdział 9. ILOCZYN SKALARNY I ORTOGONALNOŚĆ WEKTORÓW . . 9.1. Definicja i przykłady iloczynów skalarnych 9.2. Kąt pomiędzy wektorami . . . . . . . . . . 9.3. Ortogonalizacja bazy . . . . . . . . . . . . 9.4. Dopełnienie ortogonalne . . . . . . . . . . 9.5. Rzut ortogonalny . . . . . . . . . . . . . . 9.6. Macierz rzutu ortogonalnego . . . . . . . . 9.7. Metoda najmniejszych kwadratów . . . . . 9.8. Najlepsze rozwiązanie układu równań . . . 9.9. Dopasowanie prostej . . . . . . . . . . . . 9.10. Macierz i przekształcenie ortogonalne . . . 9.11. Ćwiczenia . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
191 191 195 198 200 201 204 206 207 208 210 213
Rozdział 10. WARTOŚCI WŁASNE I WEKTORY WŁASNE . . . . . . . . . . . . . . . . . . 10.1. Wartości własne i wektory własne macierzy i operatora 10.2. Diagonalizowalność macierzy i operatora liniowego . . . 10.3. Diagonalizacja macierzy symetrycznej . . . . . . . . . . 10.4. Potęga macierzy diagonalizowalnej . . . . . . . . . . . 10.5. Granica ciągu macierzy . . . . . . . . . . . . . . . . . . 10.6. Podprzestrzenie niezmiennicze . . . . . . . . . . . . . . 10.7. Twierdzenie Cayleya-Hamiltona . . . . . . . . . . . . . 10.8. Zależności rekurencyjne . . . . . . . . . . . . . . . . . . 10.9. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
216 216 221 228 232 233 236 238 242 245
Rozdział 11. FORMY KWADRATOWE . . 11.1. Rzeczywista forma kwadratowa . . . . . . 11.2. Postać kanoniczna formy kwadratowej . . 11.3. Określoność macierzy i formy kwadratowej 11.4. Ćwiczenia . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
250 250 252 259 264
ANALITYCZNEJ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
265 265 267 269 281
Rozdział 12. ELEMENTY GEOMETRII 12.1. Iloczyn wektorowy wektorów . . . . . . 12.2. Iloczyn mieszany wektorów . . . . . . . 12.3. Prosta i płaszczyzna . . . . . . . . . . 12.4. Ćwiczenia . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . .
. . . . . . . . . . . .
. . . . .
. . . . . . . . . . . .
. . . . .
. . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Skorowidz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
PRZEDMOWA Niniejszy skrypt jest pierwszą wersją zbioru notatek do wykładów algebry liniowej prowadzonych dla studentów pierwszego roku na Wydziale Elektroniki, Telekomunikacji i Informatyki Politechniki Gdańskiej. Treści skryptu podzielono na 12 rozdziałów i obejmują one następujące tematy: podstawowe struktury algebraiczne, liczby zespolone, wielomiany, macierze, układy równań liniowych, wyznaczniki, przestrzenie wektorowe, przekształcenia liniowe, wartości własne, formy kwadratowe i elementy geometrii analitycznej. Ze względów praktycznych niektóre z tych rozdziałów rozbudowano. Dotyczy to m.in. rozdziału zawierającego przestrzenie wektorowe z iloczynem skalarnym oraz rozdziału poświęconego wartościom własnym i wektorom własnym. Pewne części tych rozdziałów pozostawiamy Czytelnikowi do samodzielnej lektury. Teorię przedstawiono w skrypcie w sposób ścisły, dowodząc prawie wszystkich twierdzeń. Język i notację dobrano w taki sposób, aby całość była bardzo czytelna. Skrypt zawiera wielką liczbę rozwiązanych przykładów. Ilustrują one ważniejsze pojęcia i twierdzenia. Tam gdzie było to możliwe, pojęcia i zależności pomiędzy rozważanymi pojęciami zilustrowano rysunkami. Powinno to ułatwić czytanie i zrozumienie przedstawionego tekstu. Każdy rozdział kończy się dużą liczbą stosunkowo prostych zadań, których rozwiązanie powinno doprowadzić Czytelnika do pełniejszego zrozumienia wcześniejszych definicji i twierdzeń oraz do osiągnięcia niezbędnej biegłości myślowej i rachunkowej. Czytelnikowi pozostawia się wybór sposobu korzystania z tego skryptu i wybór sposobu uczenia się języka algebry liniowej. Warto jedynie przypomnieć, że nauka języka algebry liniowej (tak jak i nauka każdego języka obcego) wymaga umiejętności słuchania, mówienia, czytania i pisania. Pełne opanowanie materiału przedstawionego w skrypcie wymaga starannego nauczenia się definicji, poznania dokładnych sformułowań twierdzeń i zrozumienia ich dowodów oraz wyćwiczenia w sobie umiejętności rozwiązywania zadań. Autor jest świadom faktu, że w tym skrypcie występować mogą niedoskonałości i usterki. Wszelkie uwagi o skrypcie i informacje o zauważonych usterkach prosimy przesłać na adres
[email protected]. Pełna informacja o poprawionych fragmentach dostępna będzie na stronie internetowej www.mif.pg.gda.pl/topp. Tam też znajdą się wskazówki i/lub odpowiedzi do zadań przedstawionych w tym skrypcie. Gdynia, lipiec 2005
Jerzy Topp
Rozdział 1
PODSTAWOWE STRUKTURY ALGEBRAICZNE 1.1. Działania i ich własności Definicja 1.1.1. Działaniem dwuargumentowym (krótko, działaniem) w niepustym zbiorze X nazywamy każdą funkcję f : X × X → X.
Działanie w zbiorze X
Działanie f przyporządkowuje każdej uporządkowanej parze (x, y) elementów zbioru X jednoznacznie wyznaczony element f (x, y) zbioru X, nazywany wynikiem działania f na uporządkowanej parze (x, y) elementów zbioru X. Zwykle zamiast f (x, y) pisze się xf y, x ∗ y, x • y, x + y (lub używa się jeszcze innych symboli na oznaczenie działania f i jego wyniku f (x, y)).
Wynik działania
Przykład 1. Działaniem w zbiorze liczb rzeczywistych R jest funkcja ? : R × R → R określona za pomocą zwykłego dodawania, zwykłego odejmowania i zwykłego mnożenia liczb rzeczywistych i taka, że x ? y = x + y − 2xy
(1.1)
dla każdej pary (x, y) ∈ R × R.
Definicja 1.1.2. Mówimy, że działanie ∗ w zbiorze X jest przemienne, gdy x∗y =y∗x
Przemienność działania
dla każdych dwóch elementów x i y zbioru X. Jeśli natomiast dla każdych trzech elementów x, y, z ∈ X mamy x ∗ (y ∗ z) = (x ∗ y) ∗ z,
to mówimy, że działanie ∗ jest łączne w zbiorze X.
Przykład 2. Zwykłe dodawanie liczb rzeczywistych jest działaniem przemiennym i łącznym. Podobnie, zwykłe mnożenie liczb rzeczywistych jest przemienne i łączne. Natomiast odejmowanie liczb rzeczywistych nie jest ani przemienne, ani łączne. Z przemienności zwykłego dodawania i mnożenia liczb rzeczywistych wynika, że działanie ? : R × R → R określone wzorem (1.1) jest przemienne, bo dla każdych liczb x, y ∈ R mamy x ? y = x + y − 2xy = y + x − 2yx = y ? x.
Działanie ? jest także łączne, bo dla każdych liczb x, y, z ∈ R mamy x ? (y ? z) = = = = = =
x ? (y + z − 2yz) x + (y + z − 2yz) − 2x(y + z − 2yz) x + y + z − 2yz − 2xy − 2xz + 4xyz (x + y − 2xy) + z − 2(x + y − 2xy)z (x + y − 2xy) ? z (x ? y) ? z.
Łączność działania
8
Element neutralny
1. Podstawowe struktury algebraiczne Definicja 1.1.3. Niech ∗ będzie działaniem w zbiorze X. Element e należący do zbioru X nazywamy elementem neutralnym działania ∗, gdy dla każdego x ∈ X jest e ∗ x = x ∗ e = x. Przykład 3. Liczba 1 jest elementem neutralnym zwykłego mnożenia liczb rzeczywistych, bo x·1 = 1·x = x. Liczba 0 jest elementem neutralnym zwykłego dodawania liczb rzeczywistych, bo x + 0 = 0 + x = x. Niech teraz ◦ będzie działaniem w zbiorze R, gdzie x ◦ y = x + y + 3.
(1.2)
Liczba −3 jest elementem neutralnym działania ◦, bo dla każdego x ∈ R mamy x ◦ (−3) = x + (−3) + 3 = x
i (−3) ◦ x = (−3) + x + 3 = x.
Twierdzenie 1.1.1. Dla dowolnego działania ∗ w zbiorze X istnieje co najwyżej jeden element neutralny działania ∗.
Dowód. Niech e i e0 będą elementami neutralnymi działania ∗. Z definicji 1.1.3 mamy wtedy e ∗ e0 = e0 i e ∗ e0 = e.
Stąd e0 = e i to dowodzi, że istnieje co najwyżej jeden element neutralny działania ∗.
Definicja 1.1.4. Załóżmy, że e jest elementem neutralnym działania ∗ w zbiorze X. Mówimy, że element x zbioru X jest odwracalny (względem działania ∗), gdy istnieje element y ∈ X taki, że Odwracalność elementu Element odwrotny Element przeciwny
x ∗ y = y ∗ x = e.
(1.3)
Element y o powyższych własnościach nazywamy elementem odwrotnym (albo przeciwnym) do elementu x (względem działania ∗) i zwykle oznaczamy go przez x−1 (albo przez −x). Z równości (1.3), czyli z równości x ∗ x−1 = x−1 ∗ x = e, wynika, że element odwrotny x−1 także jest odwracalny i dla niego dodatkowo mamy (x−1 )−1 = x (i odpowiednio − (−x) = x). (1.4) Twierdzenie 1.1.2. Niech e będzie elementem neutralnym działania ∗ w zbiorze X. Jeśli działanie ∗ jest łączne, to dowolny element x zbioru X ma co najwyżej jeden element odwrotny.
Dowód. Niech y i y 0 będą elementami odwrotnymi do elementu x względem działania ∗. Ponieważ y ∗ x = e = x ∗ y 0 , więc mamy y = y ∗ e = y ∗ (x ∗ y 0 ) = (y ∗ x) ∗ y 0 = e ∗ y 0 = y 0 i to dowodzi, że x ma co najwyżej jeden element odwrotny.
Przykład 4. Elementem odwrotnym do elementu x ∈ R − {0} względem zwykłego mnożenia liczb rzeczywistych jest liczba 1/x. Niech teraz x0 będzie ustaloną liczbą rzeczywistą i niech ◦ będzie takim działaniem w zbiorze R, że dla każdych x, y ∈ R jest x ◦ y = x + y − x0 . Łatwo zauważyć, że liczba x0 jest elementem neutralnym działania ◦ (zob. (1.2) dla x0 = −3). Każdy element x ∈ R jest odwracalny (względem działania ◦)
1.1. Działania i ich własności
9
i elementem odwrotnym do x jest −x + 2x0 , bo x ◦ (−x + 2x0 ) = x + (−x + 2x0 ) − x0 = x0 i podobnie (−x + 2x0 ) ◦ x = x0 . Definicja 1.1.5. Niech ∗ i ◦ będą działaniami w zbiorze X. Mówimy, że działanie ◦ jest lewostronnie rozdzielne względem działania ∗, gdy dla dowolnych x, y, z ∈ X jest x ◦ (y ∗ z) = (x ◦ y) ∗ (x ◦ z). (1.5) Działanie ◦ jest prawostronnie rozdzielne względem działania ∗, gdy dla dowolnych x, y, z ∈ X jest (y ∗ z) ◦ x = (y ◦ x) ∗ (z ◦ x).
(1.6)
Mówimy, że działanie ◦ jest rozdzielne względem działania ∗, gdy jest ono jednocześnie lewo- i prawostronnie rozdzielne względem działania ∗. Z (1.5) i (1.6) łatwo wynika, że jeśli działanie ◦ jest przemienne, to jest ono rozdzielne względem działania ∗ pod warunkiem, że jest ono lewostronnie (lub prawostronnie) rozdzielne względem działania ∗. Przykład 5. W zbiorze R dane są działania ∗ i ◦ takie, że x∗y =x+y+2 i x◦y =
x+y . 2
Zbadać: (a) rozdzielność działania ∗ względem działania ◦; (b) rozdzielność działania ◦ względem działania ∗. Ponieważ działania ∗ i ◦ są przemienne, wystarczy zbadać ich lewostronne rozdzielności. (a) Dla każdych trzech liczb x, y, z ∈ R mamy x ∗ (y ◦ z) = x ∗ i
y z + 2 2
=x+
y z + +2 2 2
y z + + 2. 2 2 Stąd i z definicji 1.1.5 wynika rozdzielność działania ∗ względem działania ◦. (b) Dla każdych trzech liczb x, y, z ∈ R jest (x ∗ y) ◦ (x ∗ z) = (x + y + 2) ◦ (x + z + 2) = x +
x ◦ (y ∗ z) = x ◦ (y + z + 2) = ale
x y z + + + 1, 2 2 2
x y x z y z + ∗ + =x+ + +2 2 2 2 2 2 2 i dlatego działanie ◦ nie jest rozdzielne względem działania ∗. (x ◦ y) ∗ (x ◦ z) =
Definicja 1.1.6. Niech ∗ będzie działaniem dwuargumentowym w zbiorze X i niech Y będzie niepustym podzbiorem zbioru X. Mówimy, że zbiór Y jest zamknięty ze względu na działanie ∗, gdy x∗y ∈Y
dla każdych x, y ∈ Y.
Przykład 6. Niech ∗ będzie działaniem dwuargumentowym na zbiorze R, gdzie x ∗ y = |x| − y
dla (x, y) ∈ R × R.
Zbiór liczb naturalnych N ⊆ R nie jest zamknięty ze względu na działanie ∗, bo przykładowo x = 4 ∈ N i y = 5 ∈ N , ale x ∗ y = 4 ∗ 5 = |4| − 5 = −1 6∈ N.
Lewostronna rozdzielność
Prawostronna rozdzielność
10
1. Podstawowe struktury algebraiczne
1.2. Grupa i jej podgrupy Grupa
Definicja 1.2.1. Niech ◦ będzie działaniem w niepustym zbiorze G. Parę (G, ◦), czyli system algebraiczny (G, ◦), nazywamy grupą, gdy: (G1 ) działanie ◦ jest łączne w zbiorze G, czyli dla każdych elementów x, y i z ze zbioru G jest x ◦ (y ◦ z) = (x ◦ y) ◦ z; (G2 ) w zbiorze G istnieje element neutralny e działania ◦, czyli taki element, że dla każdego x ze zbioru G jest x ◦ e = e ◦ x = x; (G3 ) każdy element zbioru G jest odwracalny względem działania ◦, czyli dla każdego x ∈ G istnieje element x−1 ∈ G taki, że x ◦ x−1 = x−1 ◦ x = e.
Grupa przemienna
Jeśli (G, ◦) jest grupą i działanie ◦ jest przemienne w zbiorze G, to mówimy, że grupa (G, ◦) jest przemienna lub abelowa.
W naszych rozważaniach grupę (G, ◦) i zbiór jej elementów G oznaczać będziemy tym samym symbolem (zwykle literą G). Ufamy, że nie doprowadzi to do nieporozumień. Analogicznie będziemy czynić w przypadku innych systemów algebraicznych.
Przykład 7. Zbiór liczb rzeczywistych R ze zwykłym dodawaniem + tworzy grupę przemienną (R, +). Także para (Z, +), gdzie Z jest zbiorem liczb całkowitych, jest grupą przemienną. Struktura (Z, ·), gdzie · jest zwykłym mnożeniem, nie jest grupą (bo prawie żaden element zbioru Z nie jest odwracalny ze względu na mnożenie ·). Zbiór liczb wymiernych Q ze zwykłym mnożeniem, czyli para (Q, ·), także nie jest grupą, bo liczba 0 nie jest elementem odwracalnym. Natomiast para (Q − {0}, ·) (jak i para (R − {0}, ·)) jest już grupą i jest to grupa przemienna. Przykład 8. Niech X będzie niepustym zbiorem i niech F = F(X) będzie zbiorem wszystkich bijekcji na zbiorze X, czyli zbiorem wszystkich odwzorowań wzajemnie jednoznacznych zbioru X na siebie. Jeśli f : X → X i g : X → X są bijekcjami, to ich złożenie g ◦ f (będące funkcją g ◦ f : X → X określoną wzorem (g ◦ f )(x) = g(f (x))) też jest bijekcją. Składanie odwzorowań jest łączne: dla każdych trzech f, g, h ∈ F jest f ◦ (g ◦ h) = (f ◦ g) ◦ h, bo dla każdego x ∈ X mamy f ◦ (g ◦ h) (x) = f (g ◦ h)(x) = f g(h(x)) = (f ◦ g) h(x) = (f ◦ g) ◦ h (x). Odwzorowanie tożsamościowe IX zbioru X (czyli funkcja IX : X → X taka, że IX (x) = x dla każdego x ∈ X) jest bijekcją na zbiorze X. Ponieważ dla każdego f ∈ F i każdego x ∈ X mamy (f ◦ IX )(x) = f IX (x) = f (x) i (IX ◦ f )(x) = IX f (x) = f (x),
więc f ◦ IX = f = IX ◦ f i to dowodzi, że odwzorowanie tożsamościowe IX jest elementem neutralnym złożenia ◦. Dla każdej bijekcji f ∈ F istnieje odwzorowanie odwrotne f −1 : X → X (czyli takie, że f ◦ f −1 = IX = f −1 ◦ f ), które też jest bijekcją na zbiorze X. Stąd wynika, że para (F, ◦) jest grupą, jest to tzw. grupa symetryczna zbioru X. Bez problemu można zauważyć, że grupa (F, ◦) jest nieprzemienna, gdy zbiór X ma co najmniej trzy elementy (zob. zadanie 4).
1.2. Grupa i jej podgrupy
11
Twierdzenie 1.2.1 (o skracaniu w grupie). W grupie (G, ◦) dla dowolnych elementów a, b, c ∈ G jest: (a) jeśli a ◦ b = a ◦ c, to b = c;
(b) jeśli a ◦ b = c ◦ b, to a = c.
Dowód. Załóżmy, że a ◦ b = a ◦ c. Wtedy także a−1 ◦ (a ◦ b) = a−1 ◦ (a ◦ c). Jednocześnie z łączności działania ◦ oraz z własności elementu odwrotnego a−1 i elementu neutralnego e jest a−1 ◦ (a ◦ b) = (a−1 ◦ a) ◦ b = e ◦ b = b oraz
a−1 ◦ (a ◦ c) = (a−1 ◦ a) ◦ c = e ◦ c = c
i stąd wynika implikacja (a). Analogicznie dowodzi się implikację (b).
Twierdzenie 1.2.2. W grupie (G, ◦) dla dowolnych elementów a, b ∈ G jest (a ◦ b)−1 = b−1 ◦ a−1 . Dowód. Z łączności działania ◦ oraz z własności elementu odwrotnego i elementu neutralnego jest (a ◦ b) ◦ (b−1 ◦ a−1 ) = a ◦ (b ◦ b−1 ) ◦ a−1 = a ◦ e ◦ a−1 = e oraz
(b−1 ◦ a−1 ) ◦ (a ◦ b) = b−1 ◦ (a−1 ◦ a) ◦ b = b−1 ◦ e ◦ b = e.
Stąd i z definicji 1.1.4 wynika teza twierdzenia.
Definicja 1.2.2. W grupie (G, ◦) definiujemy całkowitą potęgę elementu x ∈ G, przyjmując, że x0 = e i xn+1 = xn ◦ x
oraz x−n = (xn )−1
dla każdego naturalnego n. Analogicznie definiujemy całkowitą krotność elementu x grupy G z działaniem “dodawania” ⊕: 0x = 0 i (n + 1)x = nx ⊕ x oraz (−n)x = −(nx) dla każdego naturalnego n. Korzystając z tej definicji oraz z twierdzenia 1.2.2, można udowodnić następujące twierdzenie. Twierdzenie 1.2.3. W grupie (G, ◦) dla każdego x ∈ G i każdych liczb całkowitych m i n jest xm ◦ xn = xm+n
oraz
n
(xm ) = xm·n .
Dodawanie i mnożenie modulo n Niech n > 1 będzie liczbą naturalną. Jeśli x jest liczbą całkowitą, to przez [x] n oznaczamy resztę z dzielenia x przez n. Dla liczb całkowitych x i y niech lx , ly , rx i ry będą liczbami całkowitymi takimi, że x = nlx + rx , Wtedy oraz
y = nly + ry
i 0 ¬ rx , ry < n.
[x + y]n = n(lx + ly ) + rx + ry n = [rx + ry ]n
x + [y]n
n
= [ nlx + rx + ry ]n = [rx + ry ]n
12
1. Podstawowe struktury algebraiczne i to dowodzi, że dla każdych x, y ∈ Z mamy x + [y]n n = [x + y]n .
(1.7)
Analogicznie uzasadnia się, że dla każdych liczb całkowitych x i y mamy x · [y]n n = [x · y]n . (1.8) W zbiorze
Zn = {0, 1, 2, . . . , n − 1},
Dodawanie modulo n
który jest zbiorem wszystkich reszt z dzielenia liczb całkowitych przez liczbę n, określamy dodawanie ⊕n i mnożenie ⊗n modulo n, przyjmując, że dla liczb x i y ze zbioru Zn mamy x ⊕n y = [x + y]n (1.9) i
x ⊗n y = [x y]n .
Mnożenie modulo n
(1.10)
Wyniki działań ⊕4 i ⊗4 w zbiorze Z4 przedstawiają odpowiednio następujące dwie tabelki, w których x ⊕4 y (i x ⊗4 y) umieszczono na przecięciu wiersza oznaczonego przez x i kolumny oznaczonej przez y: 0 0 1 2 3
⊕4 0 1 2 3 (Zn , ⊕n ) – grupa reszt modulo n
1 1 2 3 0
2 2 3 0 1
3 3 0 1 2
⊗4 0 1 2 3
i
0 0 0 0 0
1 0 1 2 3
2 0 2 0 2
3 0 3 2 1
Twierdzenie 1.2.4. (Zn , ⊕n ) jest grupą przemienną. Dowód. Wobec (1.7) dla każdych x, y, z ∈ Zn jest
x + [y + z]n
n
= [x + (y + z)]n
i
i stąd wynika, że działanie ⊕n jest łączne, bo mamy x ⊕n (y ⊕n z)
=
= =
[(x + y) + z]n = [x + y]n + z
x ⊕n [y + z]n = x + [y + z]n
n
n
[x + (y + z)]n = [(x + y) + z]n
[x + y]n + z
n
= [x + y]n ⊕n z = (x ⊕n y) ⊕n z.
Elementem neutralnym działania ⊕n jest 0, bo dla każdego x ∈ Zn mamy x ⊕n 0 = [x + 0]n = [x]n = x.
Łatwo zaobserwować, że elementem przeciwnym do x ∈ Zn jest −x =
0, n − x,
gdy x = 0, gdy x = 6 0.
Działanie ⊕n jest przemienne, bo dla każdych liczb x, y ∈ Zn mamy x ⊕n y = [x + y]n = [y + x]n = y ⊕n x.
Ponieważ dla każdego x ∈ Zn mamy 1 ⊗n x = [1 · x]n = [x]n = x, więc liczba 1 jest elementem neutralnym mnożenia ⊗n w Zn . Zauważmy także, że mnożenie ⊗n jest przemienne, bo dla każdych x, y ∈ Zn mamy x ⊗n y = [x · y]n = [y · x]n = y ⊗n x.
(1.11)
Korzystając z własności (1.8), bez problemu pokazuje się, że mnożenie ⊗ n jest łączne w zbiorze Zn (zob. zadanie 5). Jednakże struktura (Zn , ⊗n ) nie jest grupą, bo w Zn co najmniej 0 nie jest elementem odwracalnym ze względu na działanie ⊗n . Pełną charakteryzację elementów zbioru Zn odwracalnych ze względu na działanie ⊗n przedstawiamy w następnym twierdzeniu.
1.2. Grupa i jej podgrupy
13
Definicja 1.2.3. Mówimy, że liczby całkowite a i b są względnie pierwsze, gdy liczba 1 jest największym wspólnym dzielnikiem liczb a i b. Można udowodnić, że tak jest wtedy i tylko wtedy, gdy ax + by = 1 dla pewnych liczb całkowitych x i y. Twierdzenie 1.2.5. Element x zbioru Zn jest odwracalny (ze względu na działanie ⊗n ) wtedy i tylko wtedy, gdy liczby x i n są względnie pierwsze.
Dowód. Załóżmy, że y jest elementem odwrotnym dla x ∈ Zn względem działania ⊗n . Wtedy x ⊗n y = [x · y]n = 1 i dlatego x y = nk + 1 dla pewnego k ∈ Z. Stąd xy + n(−k) = 1 i to dowodzi, że liczby x i n są względnie pierwsze. Załóżmy teraz, że liczby x i n są względnie pierwsze. Wtedy dla pewnych liczb całkowitych a i b jest xa + nb = 1. (1.12) Zauważmy teraz, że [a]n = a − nk (dla pewnego k ∈ Z) i wobec (1.12) jest x ⊗n [a]n = [x · (a − nk)]n = [1 − nb − nkx]n = 1. To dowodzi, że [a]n jest odwrotnością elementu x.
Wniosek 1.2.1. Każdy niezerowy element x zbioru Zn jest odwracalny (ze względu na działanie ⊗n ) wtedy i tylko wtedy, gdy n jest liczbą pierwszą. Wniosek 1.2.2. Struktura (Zn − {0}, ⊗n ) jest grupą wtedy i tylko wtedy, gdy n jest liczbą pierwszą.
Definicja 1.2.4. Niech (G, ∗) będzie grupą i niech H będzie podzbiorem zbioru G. Mówimy, że H jest podgrupą grupy G, jeśli (H, ∗) jest grupą. Jeśli e jest elementem neutralnym grupy G, to zbiór H = {e} jest podgrupą grupy G. Podobnie H = G jest podgrupą grupy G. Obie te podgrupy są tzw. trywialnymi podgrupami grupy G. Każdą inną podgrupę grupy G (jeśli taka istnieje) nazywamy jej podgrupą nietrywialną. Z faktu, że (G, ∗) jest grupą wynika, że działanie ∗ jest łączne na każdym podzbiorze H zbioru G zamkniętym ze względu na działanie ∗. Stąd zaś wynika, że podzbiór H grupy G jest jej podgrupą pod warunkiem, że: (1) H jest zamknięty ze względu na działanie ∗; (2) H zawiera element neutralny;
(3) H zawiera odwrotność każdego swojego elementu. Następujące twierdzenie przedstawia prostszy warunek konieczny i dostateczny na to, aby podzbiór H grupy G był jej podgrupą. (W zadaniu 23 przedstawiamy jeszcze inny warunek konieczny i dostateczny na to, aby skończony podzbiór grupy był jej podgrupą.) Twierdzenie 1.2.6. Podzbiór H grupy G jest jej podgrupą wtedy i tylko wtedy, gdy spełnione są następujące dwa warunki: (1) H jest niepusty; (2) a ∗ b−1 ∈ H dla każdych elementów a i b zbioru H.
Dowód. Załóżmy najpierw, że zbiór H jest podgrupą grupy G. Ponieważ element neutralny należy do H, więc H 6= ∅. Niech teraz a i b będą dowolnymi elementami zbioru H. Wtedy także a, b−1 ∈ H (bo grupa H zawiera też odwrotności wszystkich swoich elementów) i a ∗ b−1 ∈ H (bo H jest zamknięty ze względu na działanie ∗).
Podgrupa
14
1. Podstawowe struktury algebraiczne Załóżmy teraz, że H jest niepustym podzbiorem zbioru G i a ∗ b−1 ∈ H dla każdych a, b ∈ H. Ponieważ H 6= ∅, więc istnieje co najmniej jeden element a w zbiorze H i dlatego e = a∗a−1 ∈ H. Stąd zaś wynika, że dla każdego a ∈ H jest a−1 = e∗a−1 ∈ H i to dowodzi, że H zawiera odwrotności wszystkich swoich elementów. W końcu zauważmy, że jeżeli a i b są elementami zbioru H, to wobec powyższego także a i b−1 są elementami zbioru H i wtedy też a ∗ b = a ∗ (b−1 )−1 ∈ H. Zatem zbiór H jest zamknięty ze względu na działanie ∗ i to kończy dowód faktu, że H jest podgrupą grupy G.
⊗7 1 2 4
1 1 2 4
2 2 4 1
4 4 1 2
Przykład 9. Wobec wniosku 1.2.2 zbiór Z7 − {0} = {1, 2, . . . , 6} jest grupą ze względu na mnożenie ⊗7 . Z przedstawionej obok tabelki wynika zaś, że niepusty zbiór H = {1, 2, 4}
jest podgrupą grupy (Z7 − {0}, ⊗7), bo zbiór H zawiera odwrotność każdego swojego elementu (1−1 = 1, 2−1 = 4 i 4−1 = 2) i jest zamknięty ze względu na mnożenie ⊗7 . Przykład 10. Zbiór liczb wymiernych Q jest grupą ze względu na zwykłe dodawanie. Jego nietrywialny podzbiór 2Z, czyli zbiór wszystkich parzystych liczb całkowitych, jest nietrywialną podgrupą grupy Q, bo różnica dowolnych dwóch liczb parzystych jest liczbą parzystą, tj. a − b ∈ 2Z dla każdych a, b ∈ 2Z. Przykład 11. Jeśli a jest ustalonym elementem grupy G, to wobec twierdzeń 1.2.3 i 1.2.6 zbiór wszystkich całkowitych potęg elementu a, czyli zbiór H = {an : n ∈ Z},
Grupa cykliczna
jest podgrupą grupy G. Podgrupa ta zwykle jest oznaczana symbolem hai i nazywana podgrupą cykliczną grupy G generowaną przez element a. Samą grupę G nazywamy grupą cykliczną, gdy G = hai dla pewnego a ∈ G. W takim przypadku mówimy też, że element a jest generatorem grupy G. Przykładowo, grupa liczb całkowitych Z jest grupą cykliczną ze względu na dodawanie i jej jedynymi generatorami są liczby 1 i −1, czyli Z = h1i oraz Z = h−1i. W grupie Z7 − {0} z mnożeniem modulo 7 podgrupami cyklicznymi są: h1i = {1}, h2i = h4i = {1, 2, 4}, h3i = h5i = {1, . . . , 6} = Z7 − {0} i h6i = {1, 6}.
1.3. Pierścień
Pierścień
Definicja 1.3.1. Niech + i ◦ będą działaniami w niepustym zbiorze P ; działania te będziemy nazywać odpowiednio dodawaniem i mnożeniem w zbiorze P . Mówimy, że system algebraiczny (P, +, ◦) (albo, dla krótkości, że zbiór P ) jest pierścieniem, gdy: (P1 ) P jest grupą przemienną ze względu na dodawanie +; (P2 ) mnożenie ◦ jest łączne w zbiorze P ;
(P3 ) mnożenie ◦ jest lewo- i prawostronnie rozdzielne względem dodawania, czyli dla każdych elementów x, y, z ∈ P jest x ◦ (y + z) = x ◦ y + x ◦ z
i (x + y) ◦ z = x ◦ z + y ◦ z.
1.3. Pierścień
15
O pierścieniu P mówimy, że jest pierścieniem przemiennym, gdy (P4 )
x◦y =y◦x
Pierścień przemienny
dla każdych elementów x, y ∈ P . Z warunku (P1 ) powyższej definicji oraz z definicji grupy (zob. def. 1.2.1) i z twierdzenia 1.1.1 wynika, że pierścień P ma dokładnie jeden element neutralny ze względu na działanie dodawania. Element ten zwykle oznaczamy symbolem 0 i nazywamy zerem pierścienia P . Z podobnych powodów dla każdego x ∈ P istnieje dokładnie jeden element x˜ ∈ P taki, że x+ x ˜ = 0. Element ten oznaczamy przez −x i nazywamy elementem przeciwnym do x. Proste własności zera i elementów przeciwnych przedstawiamy w następnym twierdzeniu.
0 – zero pierścienia −x – element przeciwny do x w pierścieniu
Twierdzenie 1.3.1. Jeśli x i y są elementami pierścienia P , to: (1) −(−x) = x;
(2) −(x + y) = (−x) + (−y); (3) x ◦ 0 = 0 ◦ x = 0;
(4) (−x) ◦ y = −(x ◦ y) = x ◦ (−y); (5) (−x) ◦ (−y) = x ◦ y.
Dowód. Własność (1) jest natychmiastową konsekwencją definicji elementu przeciwnego (zob. def. 1.1.4). Równość (2) jest treścią twierdzenia 1.2.2 dla elementów grupy przemiennej (P, +). Dla dowodu (3) zauważmy, że mamy 0 + x ◦ 0 = x ◦ 0 = x ◦ (0 + 0) = x ◦ 0 + x ◦ 0 i stąd wobec twierdzenia 1.2.1 (w grupie (P, +)) jest x ◦ 0 = 0. Podobnie pokazuje się, że 0 ◦ x = 0. Z rozdzielności mnożenia względem dodawania i z (3) mamy (−x) ◦ y + x ◦ y = ((−x) + x) ◦ y = 0 ◦ y = 0 i, podobnie, x ◦ y + (−x) ◦ y = 0. Stąd zaś wynika, że (−x) ◦ y = −(x ◦ y). Analogicznie dowodzi się, że x ◦ (−y) = −(x ◦ y) i to kończy dowód własności (4). W końcu własność (5) wynika z (4) i (1), bo (−x) ◦ (−y) = −(x ◦ (−y)) = −(−(x ◦ y)) = x ◦ y.
Przykład 12. Każdy ze zbiorów Z, 2Z, Q i R jest pierścieniem przemiennym ze zwykłym dodawaniem i zwykłym mnożeniem liczb. Definicja 1.3.2. Jedynką pierścienia P nazywamy element e ∈ P taki, że dla każdego x ∈ P jest x ◦ e = e ◦ x = x.
Jedynka pierścienia
Z twierdzenia 1.1.1 wynika, że każdy pierścień ma co najwyżej jedną jedynkę. Jedynkę pierścienia zwykle oznacza się symbolem 1. Każdy z pierścieni Z, Q i R z poprzedniego przykładu jest pierścieniem z jedynką. Jednakże pierścień 2Z jest pierścieniem bez jedynki. Definicja 1.3.3. Element x pierścienia P nazywamy dzielnikiem zera, jeśli x 6= 0 i istnieje element y ∈ P − {0} taki, że x ◦ y = 0 lub y ◦ x = 0.
Przykład 13. Żaden z pierścieni Z, 2Z, Q i R z przykładu 12 nie ma dzielników zera.
Dzielnik zera
16
1. Podstawowe struktury algebraiczne
Przykład 14. Wiemy już (zob. twierdzenie 1.2.4), że zbiór Zn (n > 1) jest grupą przemienną ze względu na dodawanie modulo n. Bezpośrednio po dowodzie twierdzenia 1.2.4 wspomnieliśmy także, że mnożenie modulo n jest łączne i przemienne w zbiorze Zn . Mnożenie to jest także lewostronnie rozdzielne względem dodawania modulo n, bo dla każdych x, y, z ∈ Zn mamy x ⊗n (y ⊕n z) = x ⊗n [y + z]n = x · [y + z]n n = [x · (y + z)]n
= [(x · y) + (x · z)]n
(z definicji działań ⊕n i ⊗n ) (z własności (1.8))
(z rozdzielności zwykłego mnożenia liczb
całkowitych względem zwykłego dodawania liczb całkowitych)
= [x · y]n ⊕n [x · z]n = (x ⊗n y) ⊕n (x ⊗n z).
(z definicji działania ⊕n )
(z definicji działania ⊗n )
Stąd i z przemienności mnożenia ⊗n wynika także prawostronna rozdzielność mnożenia ⊗n względem dodawania ⊕n . Ze wszystkich tych obserwacji wynika, że system (Zn , ⊕n , ⊗n ) jest pierścieniem przemiennym. Jest oczywiste, że liczba 1 jest jedynką tego pierścienia.
Element odwracalny Element odwrotny
Definicja 1.3.4. Niech P będzie pierścieniem z jedynką. Element x ∈ P nazywamy odwracalnym w pierścieniu P , gdy istnieje element x0 ∈ P (zwany elementem odwrotnym elementu x) taki, że x ◦ x0 = x0 ◦ x = 1. Z twierdzenia 1.1.2 wynika, że dla każdego elementu x pierścienia istnieje co najwyżej jeden element odwrotny do elementu x. Element ten zwykle oznaczamy przez x−1 .
1.4. Ciało Ciało
Definicja 1.4.1. Niech K będzie pierścieniem przemiennym z jedynką. Mówimy, że K jest ciałem, gdy każdy niezerowy element x pierścienia K jest odwracalny. Równoważnie, system algebraiczny (K, ⊕, ⊗), w którym K jest zbiorem mającym co najmniej dwa elementy, a ⊕ i ⊗ są działaniami w zbiorze K (zwanymi odpowiednio dodawaniem i mnożeniem), nazywamy ciałem, gdy: (C1 ) (K, ⊕) jest grupą przemienną: (1) ∀x, y∈K x ⊕ y = y ⊕ x;
(przemienność dodawania)
(2) ∀x, y, z∈K x ⊕ (y ⊕ z) = (x ⊕ y) ⊕ z; (3) ∃0∈K ∀x∈K x ⊕ 0 = x;
(łączność dodawania) (element neutralny dodawania)
(4) ∀x∈K ∃−x∈K x ⊕ (−x) = 0;
(element przeciwny względem dodawania)
(5) ∀x, y∈K−{0} x ⊗ y = y ⊗ x;
(przemienność mnożenia)
(C2 ) (K − {0}, ⊗) jest grupą przemienną: (6) ∀x, y, z∈K−{0} x ⊗ (y ⊗ z) = (x ⊗ y) ⊗ z;
(7) ∃1∈K−{0} ∀x∈K−{0} x ⊗ 1 = x; (8) ∀x∈K−{0} ∃x−1 ∈K−{0} x ⊗ x
−1
(łączność mnożenia) (element neutralny mnożenia)
= 1; (element odwrotny względem mnożenia)
(C3 ) mnożenie ⊗ jest rozdzielne względem dodawania ⊕: (9) ∀x, y, z∈K x ⊗ (y ⊕ z) = (x ⊗ y) ⊕ (x ⊗ z).
1.5. Ćwiczenia
17
Przykład 15. Działania zwykłego dodawania i zwykłego mnożenia liczb rzeczywistych mają własności (1)—(9) powyższej definicji, więc zbiór liczb rzeczywistych R ze zwykłym dodawaniem i zwykłym mnożeniem liczb rzeczywistych jest ciałem. Podobnie, zbiór liczb wymiernych Q (ze zwykłym dodawaniem i zwykłym mnożeniem liczb wymiernych) jest ciałem. Zbiór liczb całkowitych Z (ze zwykłym dodawaniem i zwykłym mnożeniem liczb całkowitych) jest pierścieniem przemiennym z jedynką, ale nie jest on ciałem, bo niektóre jego niezerowe elementy nie są odwracalne (jedynymi odwracalnymi elementami pierścienia Z są 1 i −1). Przykład 16. Z faktu, że (Zn , ⊕n , ⊗n ) jest pierścieniem przemiennym z jedynką (zob. przykład 14) wynika, że system ten jest ciałem wtedy i tylko wtedy, gdy każdy element zbioru Zn − {0} jest odwracalny. Wobec wniosku 1.2.2 tak jest wtedy i tylko wtedy, gdy n jest liczbą pierwszą. Zatem zbiór Zn (z dodawaniem i mnożeniem modulo n) jest ciałem wtedy i tylko wtedy, gdy n jest liczbą pierwszą. Inne ważne przykłady grup, pierścieni i ciał przedstawiamy w kolejnych rozdziałach.
1.5. Ćwiczenia 1. W zbiorze liczb całkowitych Z dane jest działanie ∗, gdzie x ∗ y = x + |y| dla x, y ∈ Z. (a) Zbadać przemienność i łączność działania ∗. (b) Czy w zbiorze Z istnieje element neutralny działania ∗?
2. W zbiorze liczb rzeczywistych R określone jest zwykłe dodawanie + i zwykłe mnożenie · liczb rzeczywistych oraz działanie ∗, gdzie a∗b = a+b−a·b. Sprawdzić, czy działanie ∗ jest: (a) łączne; (b) rozdzielne względem dodawania +; (c) rozdzielne względem mnożenia ·.
3. W zbiorze R × R dane jest działanie ∗ takie, że (x1 , y1 ) ∗ (x2 , y2 ) = (x1 x2 , y1 + y2 ).
(a) Wskazać element neutralny działania ∗. (b) Które elementy (x, y) zbioru R×R są odwracalne ze względu na działanie ∗? (c) Czy działanie ∗ jest łączne?
4. Niech X będzie zbiorem mającym co najmniej 3 elementy. Wskazać dwa wzajemnie jednoznaczne odwzorowania f i g zbioru X na siebie takie, że f ◦g 6= g ◦f .
5. Udowodnić, że dla każdych x, y, z ∈ Zn jest x ⊗n (y ⊗n z) = (x ⊗n y) ⊗n z.
6. W zbiorze R+ = {x ∈ R : x > 0} dane jest działanie ◦, gdzie dla każdych x, y ∈ R+ jest x ◦ y = xln y . (a) Czy działanie ◦ jest przemienne? (b) Czy para (R+ , ◦) jest grupą?
7. W zbiorze R × (R − {0}) określone jest działanie ⊗, gdzie (x, y) ⊗ (x0 , y 0 ) = (x + x0 y, yy 0 ).
8.
9. 10.
11.
(a) Czy działanie ⊗ jest przemienne? (b) Wykazać, że (R × (R − {0}), ⊗) jest grupą. (c) Czy zbiór S = {(0, y) : y ∈ R − {0}} z działaniem ⊗ jest podgrupą grupy (R × (R − {0}), ⊗)? Wykazać, że podzbiór H = {2, 4, 6, 8} zbioru Z10 jest grupą przemienną ze względu na mnożenie modulo 10. Czy zbiór H = {1, 4, 7, 13} z mnożeniem modulo 15 tworzy grupę? (a) W grupie Z96 z dodawaniem modulo 96 wskazać podgrupę mającą cztery elementy. (b) Czy grupa (Z96 , ⊕96 ) ma podgrupę trzyelementową? Niech a będzie ustalonym elementem grupy G. Pokazać, że zbiór H = {x ∈ G : ax = xa}
jest podgrupą grupy G. 12. Niech G będzie grupą. Udowodnić, że zbiór H = {x ∈ G : xg = gx
dla każdego
g ∈ G},
zwany centrum grupy G, jest podgrupą grupy G. 13. Niech H będzie podgrupą grupy G i niech a będzie ustalonym elementem grupy G. Udowodnić, że zbiór F = {aha−1 : h ∈ H} jest podgrupą grupy G.
18
1. Podstawowe struktury algebraiczne
14. Niech G będzie grupą przemienną. Udowodnić, że zbiór H = {x ∈ G : x−1 = x} jest podgrupą grupy G.
15. Udowodnić, że jeśli H1 i H2 są podgrupami grupy G, to także ich część wspólna H1 ∩ H2 jest podgrupą grupy G. 16. Ile elementów ma podgrupa H = {4n : n ∈ Z} grupy Z13 − {0} z mnożeniem modulo 13.
17. Pokazać, że zbiór G = {1, 3, 5, 9, 11, 13} z mnożeniem modulo 14 jest grupą cykliczną. 18.∗ Udowodnić, że każda podgrupa grupy cyklicznej jest cykliczna.
19. Rzędem elementu x w skończonej grupie nazywamy najmniejszą liczbę naturalną k, dla której xk = e. Udowodnić, że w skończonej grupie rząd elementu x jest identyczny z rzędem elementu odwrotnego x−1 . 20. Udowodnić, że dla każdych elementów a i b grupy G (z działaniem ◦) równania a ◦ x = b i y ◦ a = b mają jednoznaczne rozwiązania w grupie G, czyli istnieją jednoznacznie wyznaczone elementy x, y ∈ G takie, że a ◦ x = b i y ◦ a = b.
21.∗ Niech ◦ będzie działaniem dwuargumentowym w niepustym zbiorze G. Udowodnić, że (G, ◦) jest grupą wtedy i tylko wtedy, gdy jednocześnie spełnione są warunki: (1) a ◦ (b ◦ c) = (a ◦ b) ◦ c dla każdych a, b, c ∈ G; (2) równania a ◦ x = b i y ◦ a = b mają rozwiązania w zbiorze G dla każdych a, b ∈ G.
22.∗ Pokazać, że jeśli ◦ jest działaniem łącznym w skończonym zbiorze G, to para (G, ◦) jest grupą wtedy i tylko wtedy, gdy dla każdych trzech elementów a, b, c ze zbioru G spełnione są warunki: (a) jeśli a ◦ b = a ◦ c, to b = c; (b) jeśli a ◦ b = c ◦ b, to a = c. 23.∗ Udowodnić, że skończony i niepusty podzbiór H grupy G jest jej podgrupą wtedy i tylko wtedy, gdy ab ∈ H dla każdych dwóch elementów a i b ze zbioru H. 24. Udowodnić, że jeśli x jest dzielnikiem zera w pierścieniu przemiennym P i y ∈ P , to xy = 0 lub xy jest dzielnikiem zera. 25. Udowodnić, że jeśli niezerowy element x pierścienia P nie jest dzielnikiem zera i dla elementów y, z ∈ P jest xy = xz, to y = z. 26. Działania ⊕ i ⊗ w zbiorze liczb rzeczywistych R są określone za pomocą zwykłego dodawania i zwykłego mnożenia liczb rzeczywistych i dla każdych x, y ∈ R jest x⊕y = x+y +1 oraz x⊗y = xy +x+y. Wykazać, że system (R, ⊕, ⊗) jest ciałem. 27. Udowodnić, że ciało nie ma dzielników zera. 28. Niech P będzie skończonym i przemiennym pierścieniem z jedynką. Udowodnić, że albo P ma dzielnik zera, albo P jest ciałem. 29. W zbiorze L wszystkich nieskończonych ciągów rzeczywistych określamy dodawanie ⊕ i mnożenie ⊗ w następujący sposób: (x1 , x2 , . . .) ⊕ (x1 , y2 , . . .)
(x1 , x2 , . . .) ⊗ (x1 , y2 , . . .)
=
(x1 + y1 , x2 + y2 , . . .),
=
(x1 y1 , x2 y2 , . . .).
Wykazać, że (L, ⊕, ⊗) jest pierścieniem i nie jest ciałem.
Rozdział 2
LICZBY ZESPOLONE
2.1. Liczby zespolone i działania na liczbach zespolonych Niech C będzie zbiorem wszystkich uporządkowanych par (a, b) liczb rzeczywistych a i b, C = {(a, b) : a, b ∈ R}. Za pomocą równości, zwykłego dodawania (i odejmowania) oraz zwykłego mnożenia liczb rzeczywistych definiujemy równość, dodawanie ⊕ oraz mnożenie ⊗ w zbiorze C. Jeśli pary (a, b) i (c, d) są elementami zbioru C, to przyjmujemy, że: (a, b) = (c, d) ⇔ a = c i b = d, (a, b) ⊕ (c, d) = (a + c, b + d),
(a, b) ⊗ (c, d) = (ac − bd, ad + bc).
(2.1)
Równość liczb zespolonych
(2.2)
Suma liczb zespolonych
(2.3)
Iloczyn liczb zespolonych
Definicja 2.1.1. Elementy zbioru C (z równością (2.1) oraz działaniami dodawania i mnożenia określonymi wzorami (2.2) i (2.3)) nazywamy liczbami zespolonymi.
Liczby zespolone
Jeśli z = (a, b) jest liczbą zespoloną, to liczby rzeczywiste a i b nazywamy odpowiednio częścią rzeczywistą i częścią urojoną liczby z i piszemy Re (z) = a
i
Im (z) = b.
Pokażemy teraz, jak z własności zwykłego dodawania i zwykłego mnożenia liczb rzeczywistych (zob. przykład 15 i definicję 1.4.1) wynika, że zbiór liczb zespolonych z wyżej określonym dodawaniem i mnożeniem liczb zespolonych jest ciałem. Twierdzenie 2.1.1. Zbiór C z działaniami dodawania i mnożenia określonymi wzorami (2.2) i (2.3) jest ciałem, więc działania te mają następujące własności: (a) ∀z,w∈C z ⊕ w = w ⊕ z,
(przemienność dodawania)
(c) ∃z0 ∈C ∀z∈C z ⊕ z0 = z,
(z0 = (0, 0) – zero zespolone)
(e) ∀z,w∈C z ⊗ w = w ⊗ z,
(przemienność mnożenia)
(b) ∀z,w,t∈C z ⊕ (w ⊕ t) = (z ⊕ w) ⊕ t,
(łączność dodawania)
(d) ∀z∈C ∃−z∈C z ⊕ (−z) = z0 , (−z = (−a, −b) – liczba przeciwna do z = (a, b)) (f ) ∀z,w,t∈C z ⊗ (w ⊗ t) = (z ⊗ w) ⊗ t,
(g) ∃z1 ∈C ∀z∈C z ⊗ z1 = z,
(h) ∀z∈C−{z0 } ∃z−1 ∈C z ⊗ z
−1
= z1 , (z
−1
(łączność mnożenia) (z1 = (1, 0) – jedynka zespolona) =
a , −b a2 +b2 a2 +b2
, gdy z = (a, b) 6= z0 )
(i) ∀z,w,t∈C z⊗(w⊕t) = (z⊗w)⊕(z⊗t). (rozdzielność działnia ⊗ względem ⊕)
C – ciało liczb zespolonych
20
2. Liczby zespolone Dowód. (a) i (b). Z przemienności i łączności zwykłego dodawania liczb rzeczywistych wynika przemienność i łączność dodawania ⊕ określonego wzorem (2.2). Istotnie, jeśli (a, b), (c, d), (e, f ) ∈ C, to mamy (a, b) ⊕ (c, d) = (a + c, b + d) = (c + a, d + b) = (c, d) ⊕ (a, b)
oraz
(a, b) ⊕ (c, d) ⊕ (e, f )
(definicja działania ⊕) (przemienność działania +) (definicja działania ⊕)
= (a, b) ⊕ (c + e, d + f ) = a + (c + e), b + (d + f ) = (a + c) + e, (b + d) + f = (a + c, b + d) ⊕ (e, f ) = (a, b) ⊕ (c, d) ⊕ (e, f ).
(definicja (definicja (łączność (definicja (definicja
działania działania działania działania działania
⊕) ⊕) +) ⊕) ⊕)
(c) Liczba (0, 0) jest elementem neutralnym działania ⊕, bo dla każdej liczby zespolonej (a, b) mamy (a, b) ⊕ (0, 0) = (a + 0, b + 0) = (a, b). (d) Liczba (−a, −b) jest liczbą przeciwną do liczby (a, b), bo
(a, b) ⊕ (−a, −b) = a + (−a), b + (−b) = (0, 0). (e) i (f ). Mnożenie ⊗ jest przemienne i łączne w zbiorze C, bo dla każdych liczb zespolonych (a, b), (c, d), (e, f ) jest (a, b) ⊗ (c, d) = (ac − bd, ad + bc) (definicja działania ⊗) = (ca − db, cb + da) (przemienność mnożenia i dodawania liczb rzeczywistych) = (c, d) ⊗ (a, b) (definicja działania ⊗)
oraz
(a, b) ⊗ (c, d) ⊗ (e, f )
= (a, b) ⊗ (ce − df, cf + de) = a(ce − df ) − b(cf + de), a(cf + de) + b(ce − df ) = (ac − bd)e − (ad + bc)f, (ac − bd)f + (ad + bc)e = (ac − bd, ad + bc) ⊗ (e, f ) = (a, b) ⊗ (c, d) ⊗ (e, f ).
(g) Liczba (1, 0) jest elementem neutralnym działania ⊗, bo dla każdej liczby zespolonej (a, b) jest (a, b) ⊕ (1, 0) = (a·1 − b·0, a·0 + b·1) = (a, b). (h) Niech teraz (a, b) będzie dowolną liczbę ze zbioru C −{(0, 0)}. Wtedy a2 +b2 6= 0 2 2 2 2 i liczba a/(a + b ), −b/(a + b ) istnieje i jest to liczba odwrotna do liczby (a, b), (a, b) ⊗
a −b , a2 + b 2 a2 + b 2
=
a2 −b2 −ab ab − 2 , + 2 2 2 a +b a + b 2 a2 + b 2 a + b2
= (1, 0).
(i) W końcu dla każdych liczb zespolonych (a, b), (c, d) i (e, f ) mamy (a, b) ⊗ (c, d) ⊕ (e, f )
= (a, b) ⊗ (c + e, d + f ) = a(c + e) − b(d + f ), a(d + f ) + b(c + e) = (ac − bd) + (ae − bf ), (ad + bc) + (af + be) = (ac − bd, ad + bc) ⊕ (ae − bf, af + be) = (a, b) ⊗ (c, d) ⊕ (a, b) ⊗ (e, f ) .
To dowodzi, że mnożenie ⊗ jest rozdzielne względem dodawania ⊕ i to jednocześnie kończy dowód twierdzenia.
2.1. Liczby zespolone i działania na liczbach zespolonych
21
Począwszy od tego miejsca działania na liczbach zespolonych oznaczać będziemy za pomocą symboli używanych dla liczb rzeczywistych, tzn. będziemy pisać (a, b) + (c, d) zamiast (a, b) ⊕ (c, d) oraz (a, b) · (c, d) (lub nawet (a, b)(c, d)) zamiast (a, b)⊗(c, d). Nie spowoduje to większej niejednoznaczności. Dodatkowo, sądzimy, że dzięki takim zabiegom, Czytelnik szybciej dojdzie do przekonania, że działania na liczbach zespolonych określone wzorami (2.2) i (2.3) są “naturalnymi” uogólnieniami dodawania i mnożenia liczb rzeczywistych. Definicja 2.1.2. Różnicą i ilorazem liczby zespolonej z = (a, b) i liczby zespolonej w = (c, d) nazywamy odpowiednio liczby z − w i z/w, gdzie z − w = (a − c, b − d), ac + bd bc − ad z = , , gdy w 6= (0, 0). w c2 + d 2 c2 + d 2
(2.4)
Różnica liczb zespolonych
(2.5)
Iloraz liczb zespolonych Tego wzoru nie warto pamiętać!
Definicja 2.1.3. Jeśli n jest liczbą naturalną, to n-tą potęgę liczby zespolonej z definiuje się indukcyjnie (zob. def. 1.2.2), przyjmując, że z1 = z
i
z n = z · z n−1
(2.6)
dla n = 2, 3, . . .. Dla z 6= 0 przyjmujemy także, że z 0 = 1 i z −n =
1 zn
(2.7)
dla naturalnego n.
Postać kanoniczna liczby zespolonej Niech CR będzie zbiorem liczb zespolonych, których część urojona jest zerem. Każda liczba ze zbioru CR jest postaci (a, 0) i jest ona jednoznacznie wyznaczona przez swoją część rzeczywistą a, więc liczbę zespoloną (a, 0) utożsamiamy z liczbą rzeczywistą a i wprost piszemy (a, 0) = a.
(2.8)
Ze względu na powyższe utożsamianie (które formalnie jest izomorfizmem ciała liczb rzeczywistych R z podciałem CR ciała liczb zespolonych C, zob. zad. 39 i 40) możemy powiedzieć, że zbiór liczb zespolonych C, w którym sumę i iloczyn określono wzorami (2.2) i (2.3), jest rozszerzeniem zbioru liczb rzeczywistych R z tradycyjnie rozumianą sumą i iloczynem liczb rzeczywistych. Do zbioru C należy liczba (0, 1), którą nazywamy jednostką urojoną i oznaczamy symbolem j, czyli j = (0, 1). (2.9) Zauważmy, że wobec (2.3) i (2.8) mamy j · j = (0, 1)(0, 1) = (−1, 0) = −1, więc j 2 = −1.
(2.10)
Równie łatwo zauważamy, że j 3 = −j i j 4 = 1. Stąd zaś można wywnioskować, że każda naturalna potęga liczby j jest jedną z liczb j, −1, −j i 1. W szczególności mamy j 5 = j, j 6 = −1, j 7 = −j i j 8 = 1.
Twierdzenie 2.1.2. Każdą liczbę zespoloną z = (a, b) można przedstawić w postaci z = a + bj. (2.11)
Potęga liczby zespolonej
22
2. Liczby zespolone Dowód. Łatwo zauważyć, że dla liczby zespolonej z = (a, b) wobec (2.2), (2.3), (2.8) i (2.9) kolejno mamy z = (a, b) = (a, 0) + (0, b) = (a, 0) + (b, 0)(0, 1) = a + bj.
z = a + jb – postać kanoniczna liczby z = (a, b)
Postać z = a + bj liczby zespolonej z = (a, b) nazywamy jej postacią kanoniczną (algebraiczną lub kartezjańską). Wobec (2.2)–(2.5) suma, różnica, iloczyn i iloraz liczb zespolonych w postaci kanonicznej określone są odpowiednio wzorami: z + w = (a + bj) + (c + dj) = (a + c) + (b + d)j; z − w = (a + bj) − (c + dj) = (a − c) + (b − d)j;
Działania na liczbach w postaci kanonicznej
(2.12) (2.13)
zw = (a + bj)(c + dj) = (ac − bd) + (ad + bc)j; z a + bj ac + bd bc − ad = = 2 + 2 j. w c + dj c + d2 c + d2
(2.14) (2.15)
Przykład 17. Obliczyć z + w, z − w i zw, gdy z = 1 + 5j i w = 3 + 2j. Łatwo zauważyć, że z + w = (1 + 5j) + (3 + 2j) = (1 + 3) + (5j + 2j) = 4 + 7j, z − w = (1 + 5j) − (3 + 2j) = (1 − 3) + (5j − 2j) = −2 + 3j.
Przy wyznaczaniu iloczynu liczb zespolonych w postaci kanonicznej nie trzeba pamiętać wzoru (2.14). Wystarczy skorzystać z rozdzielności mnożenia względem dodawania, zastąpić j 2 przez −1 i zgrupować “podobne” czynniki. Dlatego dla liczb z = 1 + 5j i w = 3 + 2j mamy zw
=
(1 + 5j)(3 + 2j) = 1(3 + 2j) + 5j(3 + 2j)
=
3 + 2j + 15j + 10j 2 = 3 + 17j − 10 = −7 + 17j.
Interpretacja geometryczna liczby zespolonej Każdą liczbę zespoloną z = a + jb można utożsamiać z punktem (a, b), którego współrzędne są odpowiednio równe części rzeczywistej i części urojonej liczby z = a+jb (zob. rys. 2.1). Płaszczyznę, w której każdy punkt utożsamiamy z liczbą zespoloną, nazywamy płaszczyzną zespoloną lub płaszczyzną Gaussa (albo płaszczyzną Arganda). W tym przypadku oś odciętych i oś rzędnych nazywamy odpowiednio osią rzeczywistych i osią urojonych. Liczbę zespoloną z = a + jb można również utożsamiać z wektorem wodzącym punktu (a, b), tj. z wektorem −→ Oz, gdzie O jest początkiem układu. W tej interpretacji suma liczb zespolonych z i w jest czwartym wierzchołkiem równoległoboku zbudowanego na wektorach −→ −→ Oz i Ow, zob. rys. 2.2. Natomiast różnica z − w jest czwartym wierzchołkiem −→ −−−−→ równoległoboku zbudowanego na wektorach Oz i O(−w); różnicę z − w można → (zob. rys. 2.3). także utożsamiać z wektorem − wz y y
6
y
z=a+jb
a
Rys. 2.1
j 1z j
z−w
-
x
z−w
O
w
1z O
6w
>z+w
* (a,b)
b
6
x
O
Rys. 2.2
−w
Rys. 2.3
x
2.2. Sprzężenie i moduł liczby zespolonej
23
2.2. Sprzężenie i moduł liczby zespolonej Okazuje się, że także przy wyznaczaniu ilorazu dwóch liczb zespolonych w postaci kanonicznej nie trzeba pamiętać wzoru (2.15). W zamian warto skorzystać z własności sprzężeń liczb zespolonych. Definicja 2.2.1. Sprzężeniem liczby zespolonej z = a+bj (gdzie a i b są liczbami rzeczywistymi) nazywamy liczbę
Sprzężenie liczby zespolonej
z = a − bj. Przykładowo, jeśli z = 2 + 5j, to jej sprzężeniem jest z = 2 − 5j. Geometrycznie z jest symetrycznym odbiciem z względem osi rzeczywistej (zob. rys. 2.4). Inne własności sprzężenia podajemy w następnym twierdzeniu (zob. także tw. 2.2.2 (a)). Twierdzenie 2.2.1. Jeśli z i w są liczbami zespolonymi, to: (a) z + w = z + w, z − w = z − w;
(b) z w = z w, z/w = z/w (gdy w 6= 0);
(c) dla każdej liczby całkowitej n jest (z n ) = z
n
y b
z=a+bj
*
a
O
−b
(z 6= 0, gdy n ¬ 0);
6
x
j z=a−bj
Rys. 2.4
(d) z jest liczbą rzeczywistą wtedy i tylko wtedy, gdy z = z. Dodatkowo, jeśli z = a + bj (gdzie a, b ∈ R), to
(e) z + z = 2a, z − z = 2bj i zz = a2 + b2 .
Dowód. Udowodnimy pierwszą część własności (b). Dowody pozostałych własności są równie łatwe. Załóżmy, że z = a + bj i w = c + dj, gdzie a, b, c i d są liczbami rzeczywistymi. Wtedy zw
=
(a + bj) (c + dj) = (a − bj)(c − dj) = (ac − bd) − (ad + bc)j
=
(ac − bd) + (ad + bc)j = (a + bj)(c + dj) = z w.
Możemy teraz wyznaczyć postać kanoniczną ilorazu dwóch liczb zespolonych bez odwoływania się do wzoru (2.15). W tym celu wystarczy skorzystać z tożsamości z zw zw = = (2.16) w ww ww oraz z umiejętności mnożenia liczb zespolonych i dzielenia liczby zespolonej przez liczbę rzeczywistą.
Sposób wyznaczania ilorazu liczb zespolonych
Przykład 18. Znaleźć postać kanoniczną liczby (1 + 5j)/(3 + 2j). Wobec poprzednich uwag mamy (1 + 5j)(3 − 2j) 1 + 5j 3 − 2j + 15j − 10j 2 13 + 13j = = = = 1 + j. 3 + 2j (3 + 2j)(3 − 2j) 9 − 4j 2 13
Geometryczną relację między liczbami z i w oraz ich iloczynem zw (oraz ilorazem z/w) można opisać w terminach modułu i argumentu liczby zespolonej. Definicja 2.2.2. Modułem (lub wielkością) liczby zespolonej z = a + bj (gdzie a, b ∈ R) nazywamy nieujemną liczbę rzeczywistą p |z| = a2 + b2 . (2.17)
Moduł liczby zespolonej
24
2. Liczby zespolone Moduł liczby z = a + bj jest odległością punktu (a, b) od początku układu współrzędnych. Ogólniej, dla liczb zespolonych z1 = a1 + jb1 i z2 = a2 + jb2 (gdzie a1 , a2 , b1 , b2 ∈ R) moduł |z1 − z2 | jest odległością pomiędzy z1 i z2 (zob. rys. p 2.5), bo |z1 − z2 | = |(a1 + jb1 ) − (a2 + jb2 )| = |(a1 − a2 ) + j(b1 − 2 b2 )| = (a1 − a2 )2 + (b √1 − b2 ) . Jeśli z jest liczbą rzeczywistą, to z = a+0j (dla pewnego a ∈ R) i |z| = a2 , co jest wartością bezwzględną z liczby a = z. Pojęcie modułu liczby zespolonej jest więc uogólnieniem pojęcia wartości bezwzględnej. Podstawowe własności modułu przedstawiono w następującym twierdzeniu. Twierdzenie 2.2.2. Jeśli z, w ∈ C, to: √ (a) |z| = zz, |z| = |z| = | − z|; (b) |zw| = |z||w|, z = |z| (w 6= 0); w
z1 |z1 −z2 | z2 z |z|
Rys. 2.5
|w|
(c) |z| |Re (z)| Re (z), |z| |Im (z)| Im (z); (d) |z| − |w| ¬ |z + w| ¬ |z| + |w|.
Dowód. Udowodnimy tylko część (d). Z części (a)−(c) oraz z twierdzenia 2.2.1 kolejno mamy |z + w|2 = (z + w)(z + w) = (z + w)(z + w) = zz + zw + zw + ww = |z|2 + zw + (zw) + |w|2 = |z|2 + 2Re(zw) + |w|2 ¬ |z|2 + 2|zw| + |w|2 = |z|2 + 2|z||w| + |w|2 = |z|2 + 2|z||w| + |w|2 = (|z| + |w|)2
i z tego wynika, że |z + w| ¬ |z| + |w|. Dodatkowo wobec (a) mamy
|z| = |(z + w) + (−w)| ¬ |z + w| + | − w| = |z + w| + |w|, czyli |z| − |w| ¬ |z + w|. Z tych samych powodów jest |w| − |z| ¬ |z + w|. Z tych nierówności wynika, że |z| − |w| ¬ |z + w| i to kończy dowód (d).
Wniosek 2.2.1. Dla każdej liczby naturalnej n i każdych liczb zespolonych z, z1 , . . . , zn jest: (1) |z n | = |z|n i |z −n | = |z|−n (z 6= 0);
(2) |z1 + z2 + . . . + zn | ¬ |z1 | + |z2 | + . . . + |zn |. Przykład 19. Znaleźć moduł liczby z =
(2 + j)2 . (1 + 6j)(1 − 7j)
Wobec definicji 2.2.2 i twierdzenia 2.2.2 mamy √ |2 + j|2 ( 2 2 + 1 2 )2 5 1 |z| = = √ p = √ √ = √ . 2 2 2 2 |1 + 6j||1 − 7j| 37 50 74 1 +6 1 + (−7)
Przykład 20. Wyznaczyć zbiór punktów z spełniających równanie |z + 2j| = 4|z − 2j|.
Korzystając z postaci kanonicznej x + jy liczby zespolonej z, równanie p |z + 2j| = 4|z − 2j| można zapisać w postaci |x + jy + 2j| = 4|x + jy − 2j| lub x2 + (y + 2)2 p = 4 x2 + (y − 2)2 . Po podniesieniu obu stron do kwadratu i redukcji otrzymujemy 15x2 + 15y 2 − 68y + 60 = 0, czyli
x2 + y −
34 15
2
=
co jest równaniem okręgu o środku w punkcie 0,
16 15
34 15
2
,
i promieniu długości
16 . 15
2.3. Postać trygonometryczna liczby zespolonej
25
Przykład 21. Na płaszczyźnie zespolonej zaznaczyć zbiór tych liczb zespolonych z, które spełniają podane warunki: (a) |z + 1 − 2j| = 3;
r=3
(b) 2 ¬ |z − 1 − 3j| ¬ 4;
z0
(c) |z − 1| ¬ Im (z) + 2.
2j
−1
(a) Ponieważ
Rys. 2.6
|z + 1 − 2j| = 3 ⇔ |z − (−1 + 2j)| = 3,
więc rozważany zbiór jest zbiorem wszystkich punktów z położonych w odległości r = 3 od punktu z0 = −1 + 2j. Zatem jest to okrąg o środku w punkcie z0 = −1 + 2j i promieniu r = 3, zob. rys. 2.6. (b) Rozważany zbiór składa się z tych i tylko tych z, dla których 2 ¬ |z − (1 + 3j)| ¬ 4,
r=2
czyli jest to zbiór tych z, których odległość od punktu z0 = 1+3j jest liczbą z przedziału h2; 4i. Zatem jest to pierścień kołowy o środku w punkcie z0 = 1 + 3j i promieniu wewnętrznym r = 2 oraz promieniu zewnętrznym R = 4, zob. rys. 2.7. (c) Dla liczby z = x + jy (gdzie x, y ∈ R) jest |z − 1| ¬ Im (z) + 2 ⇔ |(x − 1) + jy| ¬ Im (x + jy) + 2 ⇔
p
3j
R=4
z0
1 2 3 4 5
Rys. 2.7
(x − 1)2 + y 2 ¬ y + 2
⇔ y
(x−1)2 −4 4
i stąd wynika, że rozważany zbiór jest zbiorem wszystkich punktów z = x + jy, które 2 −4 leżą na lub nad parabolą y = (x−1) , zob. rys. 2.8. 4
4j
1 2 3 4 5
Rys. 2.8
2.3. Postać trygonometryczna liczby zespolonej Każdą różną od zera liczbę zespoloną z = a + bj można przedstawić w postaci a b z = |z| +j , (2.18) |z| |z| a ponieważ
a |z|
2
+
b |z|
2
=
a2 b2 + = 1, a2 + b 2 a2 + b 2
więc jedna z liczb a/|z| i b/|z| jest sinusem, a druga cosinusem tej samej liczby rzeczywistej α i dlatego możemy przedstawić następującą definicję. Definicja 2.3.1. Argumentem liczby zespolonej z = a+bj 6= 0 nazywamy każdą liczbę rzeczywistą α, oznaczamy ją także symbolem arg (z), dla której a b = cos α i = sin α. |z| |z|
(2.19)
Geometrycznie argument liczby z jest miarą kąta skierowanego jaki wektor −→ Oz tworzy z dodatnim kierunkiem osi Ox (rys. 2.9). Z okresowości sinusa i cosinusa wynika, że każda liczba zespolona z 6= 0 ma nieskończenie wiele argumentów α i każde dwa z nich różnią się o całkowitą krotność liczby 2π. Spośród argumentów α liczby z dokładnie jeden spełnia nierówności −π < α ¬ π; nazywamy
Argument liczby zespolonej
26
y
2. Liczby zespolone
6 z=a+jb
*
b |z|
]α a
O
x
Rys. 2.9
go argumentem głównym liczby z i oznaczamy przez Arg (z).1 Argument każdej liczby z = a + bj (6= 0) można wyznaczyć z równości (2.19). W szczególności argumentem (głównym) liczby urojonej z = bj (b ∈ R − {0}) jest π2 lub − π2 zależnie od tego, czy b jest liczbą dodatnią, czy ujemną. Argument liczby różnej od liczby urojonej można także wyznaczyć ze wzoru jeśli a > 0, arctan (b/a) Arg (a + bj) = arctan (b/a) + π jeśli a < 0 i b 0, (2.20) arctan (b/a) − π jeśli a < 0 i b < 0. Argument liczby z = 0 jest nieokreślony (ale możemy także przyjąć, że argumentem zera jest dowolna liczba rzeczywista).
√ Przykład 22. Dla liczb −1 + j oraz − 3 − j wobec (2.20) mamy Arg (−1 + j) = arctan(−1/1) + π = − oraz
π 3 +π = π 4 4
√ √ π 5 Arg (− 3 − j) = arctan(1/ 3) − π = − π = − π. 6 6
Z (2.18) i (2.19) wynika, że liczbę zespoloną z można przedstawić w postaci Postać trygonometryczna liczby zespolonej
z = |z|(cos α + j sin α),
(2.21)
zwanej postacią trygonometryczną (lub biegunową) liczby z, w której α jest argumentem liczby z, czyli α = arg (z). Przykład 23. Dla liczb z poprzedniego przykładu mamy 6
cos α+j sin α
−1 + j
z=|z|(cos α+j sin α)
1
Rys. 2.10
-
oraz
|z|
= | − 1 + j| cos arg (−1 + j) + j sin arg (−1 + j) √ = 2(cos 43 π + j sin 34 π)
√ − 3 − j = 2 cos − 65 π + j sin − 56 π = 2 cos 65 π − j sin 56 π .
Zalety postaci trygonometrycznej liczby zespolonej uwidaczniają się przy mnożeniu, dzieleniu, potęgowaniu i pierwiastkowaniu liczb zespolonych. Załóżmy, że znamy postać trygonometryczną liczb z i w, powiedzmy z = |z|(cos α + j sin α) i w = |w|(cos β + j sin β). Łatwo zauważyć, że liczby te są równe wtedy i tylko wtedy, gdy mają one równe moduły i gdy ich argumenty różnią się o całkowitą krotność liczby 2π. Dla iloczynu liczb z i w mamy zw
= = = =
|z||w|(cos α + j sin α)(cos β + j sin β) |z||w| (cos α cos β − sin α sin β) + j(sin α cos β + cos α sin β) |z||w| cos(α + β) + j sin(α + β) |zw| cos(α + β) + j sin(α + β) ,
co jest postacią trygonometryczną liczby zw i skąd ponownie wynika, że “moduł iloczynu jest równy iloczynowi modułów”, |zw| = |z||w|, i dodatkowo, że suma argumentów liczb z i w jest argumentem iloczynu zw, arg (z) + arg (w) = arg (zw). 1
(2.22)
W niektórych podręcznikach argument główny liczby z oznacza się przez arg (z), a symbolu Arg (z) używa się na oznaczenie zbioru wszystkich argumentów liczby z.
2.3. Postać trygonometryczna liczby zespolonej
27
Obie te obserwacje pozwalają uzasadnić poprawność naszkicowanej na rys. 2.11 geometrycznej konstrukcji iloczynu zw liczb zespolonych z i w. Łatwo także zaobserwować, że dla argumentu odwrotności liczby i ilorazu liczb zespolonych mamy z 1 − arg (z) = arg i arg (z) − arg (w) = arg . (2.23) z w
6
zw
Zatem mamy następujące twierdzenie.
γ
Twierdzenie 2.3.1. Jeśli z = |z|(cos α + j sin α) i w = |w|(cos β + j sin β), to zw = |z||w| cos(α + β) + j sin(α + β) (2.24) i
z |z| = cos(α − β) + j sin(α − β) , w |w|
gdy w 6= 0.
(2.25)
|zw|
7 |w|
*z
α i
}β
|z| γ
o
α
1
Rys. 2.11
√
Przykład 24. Liczby z = 3 + j oraz w = 1 + j przedstawić w postaci trygonometrycznej. Następnie znaleźć postać trygonometryczną każdej z liczb zw i z/w.
√
Ponieważ |z| = 2, cos α = 23 i sin α = 12 , więc α = π6 i z = 2 cos π6 +j sin π6 . Podobnie √ √ |w| = 2, cos β = √12 i sin β = √12 , więc β = π4 i w = 2 cos π4 + j sin π4 . Zatem i
√ √ π π π π 5π 5π + + j sin + = 2 2 cos + j sin zw = 2 2 cos 6 4 6 4 12 12
z 2 π π = √ cos − w 6 4 2
+ j sin
π π − 6 4
=
√ −π −π 2 cos + j sin . 12 12
Przy obliczaniu potęg liczb zespolonych można posłużyć się tzw. wzorem de Moivre’a. Wzór ten jest prostą konsekwencją twierdzenia 2.3.1. Wniosek 2.3.1. Jeśli z = |z|(cos α + j sin α) i n jest liczbą całkowitą, to z n = |z|n (cos nα + j sin nα),
(2.26)
gdzie z 6= 0 dla n ¬ 0.
Wniosek 2.3.2. Dla każdej liczby rzeczywistej α i każdej liczby całkowitej n jest (cos α + j sin α)n = cos nα + j sin nα.
(2.27)
Przykład 25. Obliczyć √ !17 1 3 − +j 2 2
z1 =
Mamy z1 = − 21 + j
√ 3 2
z1 = cos
17
34 π 3
i z2 =
= cos 32 π + j sin 23 π
+ j sin
w
34 π 3
17
√ !12 1+j 3 . 1−j i z wniosku 2.3.2
= cos 10π + 34 π + j sin 10π + 34 π √ 3 . 2
= cos 34 π + j sin 43 π = − 21 − j √ √ Ponieważ 1 + j 3 = 2 cos π3 + j sin π3 i 1 − j = 2 cos(− π4 ) + j sin(− π4 ) , więc z twierdzenia 2.3.1 otrzymujemy
Wzór de Moivre’a
-
28
2. Liczby zespolone √ 1+j 3 1−j
=
2 √ 2
π 3
cos
− −
Stąd i z wniosku 2.3.1 mamy z2 =
√
2 cos
π 4
+ j sin
7π 7π + j sin 12 12
π 3
12
− −
π 4
=
√ 2 cos
7π 12
+ j sin
7π 12
.
= 26 cos 7π + j sin 7π = −64.
Przykład 26. Liczbę z = sin α − j cos α zapisać w postaci trygonometrycznej. Liczbę z chcemy zapisać w postaci |z|(cos β + j sin β) = |z|
zrobić na dwa sposoby. Ponieważ |z| = 1 i cos β = b sin β = |z| = − cos α = sin(α − π/2), więc
a |z|
a |z|
b + j |z| . Można to
= sin α = cos(α − π/2) oraz
z = cos(α − π/2) + j sin(α − π/2). Równoważnie, z = −j(cos α + j sin α) i ponieważ −j = cos(−π/2) + j sin(−π/2), więc także jest z
= =
cos(−π/2) + j sin(−π/2) (cos α + j sin α) cos(α − π/2) + j sin(α − π/2).
Przykład 27. Korzystając ze wzorów de Moivre’a i Newtona, wyrazić cos 3x i sin 3x za pomocą cos x i sin x. Ze wzoru de Moivre’a mamy (cos x+j sin x)3 = cos 3x+j sin 3x. Jednocześnie ze wzoru Newtona
Wzór Newtona: n
(a + b) =
n X n
k
k=0
(cos x + j sin x)3
an−k bk
= =
cos3 x + 3j cos2 x sin x − 3 cos x sin2 x − j sin3 x (cos3 x − 3 cos x sin2 x) + j(3 cos2 x sin x − sin3 x).
Stąd i z warunku równości liczb zespolonych otrzymujemy cos 3x = cos3 x − 3 cos x sin2 x oraz 2
sin 3x = 3 cos2 x sin x − sin3 x.
Jeśli uwzględni się, że sin x + cos2 x = 1, to prawe strony ostatnich tożsamości można wyrazić za pomocą potęg tylko cos x lub tylko sin x, cos 3x = 4 cos3 x − 3 cos x i sin 3x = 3 sin x − 4 sin3 x.
6 π 6
)
π 2
N
π 2
R
i
π 2
π 6
Rys. 2.12
π 12 π 12
O
Przykład 28. Wyznaczyć zbiór liczb zespolonych z spełniających nierówności π ¬ Arg (−1 + j)z 3 ¬ π. 2 3
Ponieważ Arg (−1 + j)z = Arg (−1+j)+3Arg (z)+2kπ dla pewnej liczby całkowitej , więc nierówność k i Arg(−1 + j) = 3π 4
π ¬ Arg (−1 + j)z 3 ¬ π 2
jest równoważna nierówności π ¬ Arg (−1 + j) + 3Arg (z) + 2kπ ¬ π 2 dla pewnego k ∈ Z. Stąd −
π 2kπ π 2kπ − ¬ Arg (z) ¬ − 12 3 12 3
dla pewnego k ∈ Z. Jednocześnie −π < Arg (z) ¬ π, więc k = 0, k = 1 lub k = −1 π π i − 12 ¬ Arg (z) ¬ 12 , − 9π ¬ Arg (z) ¬ − 7π lub 7π ¬ Arg (z) ¬ 9π . Szukany zbiór 12 12 12 12 składa się z trzech części przedstawionych na rys. 2.12.
2.4. Pierwiastkowanie liczb zespolonych
29
2.4. Pierwiastkowanie liczb zespolonych Definicja 2.4.1. Liczbę w nazywamy pierwiastkiem n-tego stopnia z liczby zespolonej z (n ∈ N ), gdy wn = z.
Pierwiastki n-tego stopnia
O pierwiastkach stopnia naturalnego z liczby zespolonej mówi następujące twierdzenie. Twierdzenie 2.4.1. Każda liczba zespolona z = |z|(cos α+j sin α) różna od zera ma dokładnie n różnych pierwiastków n-tego stopnia i wszystkie one określone są wzorem p α + 2kπ α + 2kπ n wk = |z| cos + j sin , (2.28) n n p gdzie k = 0, 1, . . . , n − 1, a n |z| jest pierwiastkiem arytmetycznym.
Dowód. Liczba w = |w|(cos ϕ + j sin ϕ) jest pierwiastkiem n-tego stopnia z liczby z wtedy i tylko wtedy, gdy zachodzą następujące równoważności wn = z
(z def. pierwiastka)
⇔ |w|n (cos ϕ + j sin ϕ)n = |z|(cos α + j sin α)
⇔ |w|n (cos nϕ + j sin nϕ) = |z|(cos α + j sin α) (ze wzoru de Moivre’a)
⇔ |w|n = |z|
i
nϕ = α + 2kπ dla k ∈ Z (z równości liczb) α + 2kπ |z| i ϕ = dla k ∈ Z ⇔ |w| = n o n p + j sin α+2kπ : k ∈ Z = P. ⇔ w ∈ wk = n |z| cos α+2kπ n n
p n
Dla zakończenia dowodu wystarczy teraz pokazać, że liczby w0 , w1 , . . . , wn−1 są różne i P ⊆ {w0 , w1 , . . . , wn−1 }. W tym celu zauważmy najpierw, że dwie liczby wk i wl ze zbioru P są równe wtedy i tylko wtedy, gdy α+2kπ n
=
α+2lπ n
+ 2mπ
dla pewnej liczby m ∈ Z
⇔ k = l + mn dla pewnej liczby m ∈ Z
⇔ k i l różnią się o całkowitą krotność liczby n. Ponieważ żadne dwie liczby ze zbioru {0, 1, . . . , n−1} nie różnią się o całkowitą krotność liczby n, więc liczby w0 , w1 , . . . , wn−1 są różne. Niech teraz wl będzie dowolnym elementem ze zbioru P. Ponieważ liczba l różni się o całkowitą krotność liczby n od dokładnie jednej liczby k ze zbioru {0, 1, . . . , n − 1}, więc wl = wk . Stąd P ⊆ {w0 , w1 , . . . , wn−1 } i to kończy dowód twierdzenia.
p Moduł każdej z liczb określonych wzorem (2.28) jest równy n |z|, więc wszystp kie one leżą na okręgu o promieniu n |z| i środku w początku układu współrzędnych. Dodatkowo, dzielą one ten okrąg na n równych części, bo arg (w k ) − arg (wk−1 ) = 2π/n dla k = 1, . . . , n − 1. Równoważnie, pierwiastki w0 , w1 , . . . , wn−1 stopnia n 3 z liczby zespolonej z są wierzchołkami n-kąta foremnego p wpisanego w okrąg o promieniu n |z| i środku w początku układu współrzędnych. Przykład 29. Obliczyć pierwiastki stopnia trzeciego z liczby √ z = 1 + j 3. √ √ Ponieważ |z| = |1 + j 3| = 2 i cos α = 12 oraz sin α = 23 , więc można przyjąć, że arg (z) = π3 . Wtedy (na podstawie (2.28)) pierwiastkami stopnia trzeciego z liczby
Pierwiastki n-tego stopnia z liczby zespolonej z
30
2. Liczby zespolone √ z = 1 + j 3 są liczby
6
√ 3 2 cos π9 + j sin π9 , √ w1 = 3 2 cos 79 π + j sin 79 π , √ w2 = 3 2 cos 13 π + j sin 13 π 9 9
w0 =
w1 w0
√ 3 2 przedstawione na rys. 2.13. w2
Z twierdzenia 2.4.1 dla jedności, tj. dla z = 1 = 1(cos 0 + j sin 0), mamy następujący wniosek.
Rys. 2.13
Wniosek 2.4.1. Pierwiastki n-tego stopnia z jedności określone są wzorem εk = cos
Pierwiastki z jedności
2kπ 2kπ + j sin n n
(2.29)
dla k = 0, 1, . . . , n − 1. ε1
6 1=ε0
ε2
Rys. 2.14
Warto zauważyć, że jeśli ε = ε1 , to (ponieważ εk = εk1 = εk dla k = 0, 1, . . . , n−1) liczby 1, ε, ε2 , . . . , εn−1 są wszystkimi pierwiastkami n-tego stopnia z jedności i – jak to już wcześniej powiedzieliśmy – liczby te są wierzchołkami n-kąta foremnego wpisanego w okrąg o środku w początku układu współrzędnych i promieniu długości jeden, zob. rys. 2.14 dla n = 3, rys. 2.15 dla n = 4 i rys. 2.16 dla n = 6. Łatwo także zauważyć następującą własność pierwiastków n-tego stopnia z jedności, własność która może być przydatna przy wyznaczaniu pierwiastków n-tego stopnia z innych liczb zespolonych.
Wniosek 2.4.2. Jeśli w jest jakimkolwiek pierwiastkiem n-tego stopnia z liczby 2π z 6= 0 i ε = cos 2π n + j sin n , to liczby
j 6
w, wε, wε2 , . . . , wεn−1
(2.30)
są wszystkimi pierwiastkami n-tego stopnia z liczby z. −1
1
Przykład 30. Wyznaczyć pierwiastki stopnia trzeciego z liczby (1 + j) 6 . −j
Ponieważ w = (1 + j)2 = 2j √ jest pierwiastkiem stopnia trzeciego z liczby (1 + j)6 2π 1 2π i ε = cos 3 + j sin 3 = − 2 + j 23 jest pierwiastkiem stopnia trzeciego z jedności, więc wobec wniosku 2.4.2 także liczby √ √ 1 3 wε = 2j − + j = − 3−j 2 2
Rys. 2.15
i
wε2 = 2j
−
√ 2 √ √ 1 3 1 3 +j = 2j − − j = 3−j 2 2 2 2
są pierwiastkami stopnia trzeciego z liczby (1 + j)6 .
Przykład 31. Znaleźć wszystkie rozwiązania równania ε2
6
(2x + 1)4 = (x − 2)4 .
ε1
-
ε3
1=ε0
ε4
ε5
Rys. 2.16
Zauważmy, że x = 2 nie jest rozwiązaniem równania (2x + 1)4 = (x − 2)4 . Natomiast dla x 6= 2 mamy równoważności (2x + 1)4 = (x − 2)4 ⇔
2x + 1 x−2
4
=1⇔
2x + 1 1 + 2εk = εk ⇔ x = , x−2 εk − 2
gdzie εk jest pierwiastkiem stopnia czwartego z jedności, εk = cos 2kπ + j sin 2kπ 4 4 (k = 0, 1, 2, 3). Stąd już łatwo można zaobserwować, że x jest rozwiązaniem równania (2x+1)4 = (x−2)4 wtedy i tylko wtedy, gdy x jest elementem zbioru {−3, −j, 1/3, j}.
2.4. Pierwiastkowanie liczb zespolonych
31
Pierwiastki stopnia drugiego z liczby zespolonej Ponieważ pierwiastki stopnia drugiego z liczby zespolonej będą często pojawiały się w naszych rozważaniach, poświęcamy im więcej uwagi. Przede wszystkim, jeśli znana jest postać trygonometryczna liczby z, powiedzmy z = |z|(cos ϕ + j sin ϕ), to wobec twierdzenia 2.4.1 pierwiastkami stopnia drugiego z liczby z są różniące się znakiem liczby w0 i w1 , gdzie p w0 = |z| cos(ϕ/2) + j sin(ϕ/2) i
w1 =
p
|z| cos(ϕ/2 + π) + j sin(ϕ/2 + π) = −w0 .
Przykład 32. Pierwiastkami stopnia drugiego z liczby −25 = 25(cos π+j sin π) są liczby √ √ w0 =
25 cos
π π + j sin 2 2
= 5j i w1 =
3 3 25 cos π + j sin π = −5j. 2 2
Podobnie pierwiastkami stopnia drugiego z liczby 4j = 4(cos π2 +j sin π2 ) są liczby √ √ ±2 cos
π π + j sin 4 4
= ±( 2 + j 2).
Przy rozwiązywaniu równań kwadratowych zwykle wyznacza się pierwiastki stopnia drugiego z liczby zespolonej zapisanej w postaci kanonicznej. Zauważmy, że liczba w = x + jy jest pierwiastkiem stopnia drugiego z liczby zespolonej z = a + jb (gdzie a, b, x, y ∈ R) wtedy i tylko wtedy, gdy w 2 = z, tj. wtedy i tylko wtedy, gdy (x + jy)2 = x2 − y 2 + 2xyj = a + jb. Równanie to jest równoważne układowi równań 2 x − y 2 = a, 2xy = b,
(2.31)
(2.32)
z którego łatwo można wyznaczyć liczby x i y (i dlatego także otrzymać liczbę w = x + jy). Przykład 33. Obliczyć pierwiastki stopnia drugiego z liczby 9 − 40j. Niech x + jy (gdzie x, y ∈ R) będzie pierwiastkiem stopnia drugiego z liczby 9 − 40j. Wtedy (x + jy)2 = x2 − y 2 + 2xyj = 9 − 40j
i dlatego x2 − y 2 = 9, xy = −20 i x2 y 2 = 400. Otrzymane z pierwszego z tych równań x2 = y 2 + 9 podstawiamy do trzeciego równania i otrzymujemy y 4 + 9y 2 − 400 = 0. Stąd zaś y 2 = 16 i dlatego y = ±4 i x = − 20 = ∓5. y Zatem pierwiastkami stopnia drugiego z liczby 9 − 40j są liczby 5 − 4j oraz −5 + 4j.
w0 , w1 – pierwiastki stopnia drugiego z liczby zespolonej z
32
sign (x) =
2. Liczby zespolone
1 dla x 0 −1 dla x < 0
W kolejnym twierdzeniu przedstawiamy jeszcze jeden sposób wyznaczania pierwiastków stopnia drugiego z liczby zespolonej. W twierdzeniu tym sign (x) jest “znakiem” liczby rzeczywistej x, tj. sign (x) = 1 dla x 0 oraz sign (x) = −1 dla x < 0. Twierdzenie 2.4.2. Jeśli a i b są liczbami rzeczywistymi, to pierwiastkami stopnia drugiego z liczby z = a + jb są liczby ! r r |z| + a |z| − a w=± + j sign (b) . (2.33) 2 2 Dowód. Wystarczy zauważyć, że istotnie
p ±
(|z| + a)/2 + j sign (b)
p
(|z| − a)/2
2
= a + jb.
Przykład 34. Korzystając z ostatniego twierdzenia, wyznaczyć pierwiastki stopnia drugiego z liczby z = 3 + 4j. Ponieważ z = a + jb = 3 + 4j i |z| = 5, więc wobec (2.33) pierwiastkami stopnia drugiego z liczby 3 + 4j są w=±
p
(5 + 3)/2 + j sign (4)
p
(5 − 3)/2 = ±(2 + j).
Umiejętność wyznaczania pierwiastków stopnia drugiego z liczby zespolonej jest ważna przy wyznaczaniu pierwiastków równania stopnia drugiego. Twierdzenie 2.4.3. Pierwiastkami równania kwadratowego ax2 + bx + c = 0, w którym a, b, c ∈ C i a 6= 0, są liczby x=
−b − δ 2a
i x=
−b + δ , 2a
(2.34)
gdzie δ jest jednym z dwóch pierwiastków stopnia drugiego z liczby ∆ = b 2 − 4ac.
Dowód. Jeśli δ jest pierwiastkiem stopnia drugiego z liczby ∆ = b2 − 4ac, to mamy b2 − 4ac = δ 2 i ax2 + bx + c
=
a x2 + ab x +
=
a
=
a
=
a x−
Stąd wynika, że liczby x =
x+
b 2 2a
x+
b 2a
−b±δ 2a
−b−δ 2a
c a
−
+
=a
b2 −4ac 4a2
δ 2a
x−
x+
=a
x+ −b+δ 2a
b 2a
.
b 2 2a
−
+
x+ δ 2a
c a
−
b 2 2a
b2 4a2
−
δ2 4a2
są pierwiastkami równania ax2 + bx + c = 0.
Przykład 35. Rozwiązać równanie x2 − 2x + 2 = 0. Ponieważ ∆ = b2 − 4ac = −4 i pierwiastkiem stopnia drugiego z liczby ∆ = −4 jest δ = ±2j, więc wobec (2.34) rozwiązaniem równania są liczby x=
−b ± δ = 1 ± j. 2a
2.5. Wzory Eulera
33
Przykład 36. Rozwiązać równanie x2 − (2 + j)x + (−1 + 7j) = 0. W tym przypadku jest ∆ = (2 + j)2 − 4(−1 + 7j) = 7 − 24j, |∆| = 25 i wobec (2.33) jednym pierwiastkiem stopnia drugiego z liczby ∆ = 7 − 24j jest δ=
p
(25 + 7)/2 − j
p
(25 − 7)/2 = 4 − 3j.
Stąd i z (2.34) wynika, że rozwiązaniem równania są liczby x1 = 3 − j
i
x2 = −1 + 2j.
2.5. Wzory Eulera Funkcją wykładniczą ez i funkcjami trygonometrycznymi cos z i sin z zmiennej zespolonej z nazywa się funkcje określone szeregami potęgowymi: ez = cos z = sin z =
∞ X zn z z2 zn =1+ + +... + + ..., n! 1! 2! n! n=0 ∞ X
n=0 ∞ X
(2.35)
(−1)n
z 2n z2 z4 z6 =1− + − +..., (2n)! 2! 4! 6!
(2.36)
(−1)n
z3 z5 z7 z 2n+1 =z− + − + .... (2n + 1)! 3! 5! 7!
(2.37)
n=0
Funkcje określone powyższymi równościami są naturalnymi uogólnieniami rzeczywistej funkcji wykładniczej ex i rzeczywistych funkcji trygonometrycznych cos x i sin x.2 Z (2.35) po podstawieniu jz zamiast z otrzymujemy (jz)2 (jz)3 (jz)4 + + +... 2! 3! 4! 3 4 5 2 jz z jz z = 1 + jz − − + + +.... 2! 3! 4! 5!
ejz = 1 + jz +
Stąd zaś, po oddzieleniu składników zawierających z w potęgach parzystych od tych, w których z występuje w potęgach nieparzystych, otrzymujemy z2 z4 z3 z5 ejz = 1 − + −... +j z − + −... . (2.38) 2! 4! 3! 5! Z (2.38), (2.36) i (2.37) jest oczywiste, że dla każdego z ∈ C mamy ejz = cos z + j sin z.
(2.39)
Z tych samych powodów e−jz = cos z − j sin z. 2
P∞
W analizie matematycznej dowodzi się, że funkcje E(z) = 2n
z (−1)n (2n)! i S(z) = n=0
P∞
2n+1
2n
P∞
zn , n=0 n!
C(z) =
z (−1)n (2n+1)! są określone dla każdej liczby zespolonej n=0
z ∈ C. Tamże dowodzi się, że dla każdego rzeczywistego x jest e x =
P∞
(2.40) P∞
2n+1
P∞
xn , n=0 n!
cos x =
x x (−1)n (2n)! i sin x = (−1)n (2n+1)! . Zatem funkcje zespolone E(z), C(z) i S(z) są n=0 n=0 x uogólnieniami funkcji rzeczywistych e , cos x i sin x. Z tego też względu są one oznaczane przez ez , cos z i sin z i nazywane funkcją wykładniczą, cosinusem i sinusem zmiennej zespolonej z.
e ≈ 2, 7182 . . .
34
2. Liczby zespolone Dodając lub odejmując stronami równości (2.39) i (2.40), otrzymujemy ejz + e−jz = 2 cos z i ejz − e−jz = 2j sin z. Zatem między funkcją wykładniczą ez oraz funkcjami trygonometrycznymi cos z i sin z zmiennej zespolonej z zachodzą następujące związki, zwane wzorami Eulera. Twierdzenie 2.5.1. Dla każdej liczby zespolonej z jest ejz = cos z + j sin z,
Wzory Eulera
(2.41)
oraz cos z =
ejz + e−jz 2
i
sin z =
ejz − e−jz . 2j
(2.42)
Przykład 37. Z (2.41) mamy ejπ = cos π + j sin π = −1 + j · 0 = −1, więc także ejπ + 1 = 0. Ostatnia równość jest związkiem pomiędzy podstawowymi stałymi matematycznymi (0, 1, π, e oraz j). Przez studentów amerykańskich zależność ta została uznana za najpiękniejszy wzór matematyki. Z powyższych definicji i ze wzoru Eulera można otrzymać następujące własności funkcji wykładniczej ez .
e
x+jy
x
= e (cos y + j sin y)
Twierdzenie 2.5.2. Dla liczby zespolonej z = x + jy (gdzie x, y ∈ R) jest: (a) ez = ex+jy = ex ejy = ex (cos y + j sin y); (b) |ejy | = 1, |ex+jy | = ex i arg ex+jy = y.
P ∞ xn Dowodząc (a) trzeba pokazać, że funkcja ex ·ejy , czyli iloczyn szeregów n=0 n! P P∞ (x+jy)n ∞ (jx)n x+jy i , jest identyczna z funkcją e , czyli z szeregiem n=0 n! . n=0 n! Formalny dowód tych zależności można znaleźć w podręcznikach analizy matematycznej (przykładowo zob. [3]).3 Stwierdzenie (b) jest już prostą konsekwencją (a) (oraz definicji modułu i argumentu liczby zespolonej). Z drugiej części (b) łatwo wynika, że funkcja wykładnicza ez nie przyjmuje wartości 0. Wniosek 2.5.1. Dla każdej liczby zespolonej z jest ez 6= 0. Dla rzeczywistych liczb x1 , x2 , x oraz dla liczby naturalnej n jest ex1 ex2 = e , ex1 /ex2 = ex1 −x2 i (ex )n = enx . Teraz udowodnimy, że te same własności ma funkcja wykładnicza ez zmiennej zespolonej z. x1 +x2
Wniosek 2.5.2. Dla każdych liczb zespolonych z1 , z2 i z oraz każdej liczby naturalnej n jest ez1 ez2 = ez1 +z2 ,
e z1 = ez1 −z2 i (ez )n = enz . e z2
3 W wielu podręcznikach przyjmuje się, że iloczyn ex (cos y + j sin y) jest definicją funkcji wykładniczej ex+jy (dla x, y ∈ R).
2.6. Postać wykładnicza liczby zespolonej
35
Dowód. Udowodnimy tylko pierwszą równość. Dwie następne wynikają z pierwszej. Zauważmy, że jeżeli z1 = x1 + jy1 i z2 = x2 + jy2 (xi , yi ∈ R), to wobec twierdzenia 2.5.2 i 2.3.1 mamy e z1 e z2
ex1 +jy1 · ex2 +jy2 ex1 (cos y1 + j sin y1 ) · ex2 (cos y2 + j sin y2 )
= =
=
ex1 +x2 cos(y1 + y2 ) + j sin(y1 + y2 )
=
ex1 +x2 +j(y1 +y2 ) = e(x1 +jy1 )+(x2 +jy2 ) = ez1 +z2 .
Wniosek 2.5.3. ez = 1 wtedy i tylko wtedy, gdy z = 2kπj, gdzie k jest liczbą całkowitą. Dowód. Zauważmy najpierw, że jeśli k jest liczbą całkowitą, to e2kπj = cos 2kπ + j sin 2kπ = 1 + j0 = 1. Niech teraz z = x + jy (x, y ∈ R) będzie takie, że ez = ex (cos y + j sin y) = 1. Wtedy ex sin y = 0 i dlatego y = lπ (dla pewnej liczby całkowitej l). Jednocześnie ex cos y = ex cos lπ = ex (−1)l = 1 wtedy i tylko wtedy, gdy x = 0 i l jest liczbą parzystą, l = 2k. Stąd z = x + jy = 0 + j2kπ = 2kπj dla pewnej liczby całkowitej k.
Wniosek 2.5.4. Dla liczb zespolonych z1 i z2 jest ez1 = ez2 wtedy i tylko wtedy, gdy z1 − z2 = 2kπj dla pewnej liczby całkowitej k.
Z definicji funkcji trygonometrycznych cos z i sin z, ze wzorów Eulera oraz z wniosków 2.5.1–2.5.4 łatwo wyprowadza się (i to bez odwoływania się do geometrii) wszystkie wzory redukcyjne i wszystkie tożsamości trygonometryczne znane dla rzeczywistych funkcji trygonometrycznych. Tu przykładowo wyprowadzimy wzór na sumę sinusów. Przykład 38. Dla wszystkich zespolonych x i y jest sin x + sin y = 2 sin
x+y x−y cos . 2 2
Ze wzorów Eulera ((2.41) i (2.42)) oraz z wniosku 2.5.2 mamy 2 sin
x+y x−y cos 2 2
2·
=
ej
x+y 2
− e−j 2j
x+y 2
·
ej
x−y 2
+ e−j 2
x−y 2
1 ejx + ejy − e−jy − e−jx 2j
=
ejx − e−jx ejy − e−jy + = sin x + sin y. 2j 2j
=
2.6. Postać wykładnicza liczby zespolonej Ponieważ każdą różną od zera liczbę zespoloną z można zapisać w postaci trygonometrycznej z = |z|(cos ϕ + j sin ϕ), gdzie ϕ = arg (z), więc wobec wzoru Eulera można ją także zapisać w postaci z = |z|ejϕ ,
(2.43)
zwanej postacią wykładniczą liczby zespolonej z. Przykładowo mamy 1+j =
√
π
2ej 4
i
−
√ 5π 7π 3 − j = 2e−j 6 = 2ej 6 .
Z własności liczb zespolonych w postaci trygonometrycznej natychmiast wynikają następujące własności liczb zespolonych w postaci wykładniczej.
Postać wykładnicza liczby zespolonej
36
2. Liczby zespolone Wniosek 2.6.1. Dla liczb zespolonych z = |z|ejϕ i w = |w|ejψ oraz liczby naturalnej n mamy: (1) z = w wtedy i tylko wtedy, gdy |z| = |w| = 0 albo |z| = |w| > 0 i ϕ = ψ + 2kπ dla pewnej liczby całkowitej k; (2) zw = |z||w|ej(ϕ+ψ) ;
(3) z n = |z|n ejnϕ (oraz (ejϕ )n = ejnϕ , co jest wzorem de Moivre’a);
(4) z = |z|e−jϕ ;
(5)
(6)
1 −jϕ (gdy z 6= 0); |z| e |w| j(ψ−ϕ) w (gdy z 6= z = |z| e
1 z
=
0);
(7) pierwiastkami n-tego stopnia z liczby z = |z|ejϕ 6= 0 są liczby p ϕ+2kπ zk = n |z|ej n dla k = 0, 1, . . . , n − 1, a pierwiastkami n-tego stopnia z jedności są liczby εk = e j
2kπ n
dla k = 0, 1, . . . , n − 1.
Przykład 39. Korzystając z postaci wykładniczej liczby zespolonej, rozwiązać równanie (z)4 = −9|z 2|. Załóżmy, że z = rejϕ . Ponieważ z = re−jϕ , |z| = r i −9 = 9ejπ , więc mamy równoważności (z)4 = −9|z 2 |
⇐⇒ ⇐⇒ ⇐⇒
⇐⇒
r4 e−4jϕ = 9r2 ejπ r = 0 albo r = 3 i − 4ϕ = π + 2kπ (k ∈ Z) r = 0 albo r = 3 i ϕ = π4 + lπ (l = 0, 1, 2, 3) 2 j( π + lπ ) 4 2 z = 0 albo z = 3e (l = 0, 1, 2, 3).
Zatem rozwiązaniem równania są liczby z1 = 0, z2 = z4 = √32 (−1 − j) i z5 = √32 (1 − j).
3 √ (1 2
+ j), z3 =
3 √ (−1 2
+ j),
2.7. Ćwiczenia 1. Znaleźć część rzeczywistą i urojoną następujących 4. Wyznaczyć i zaznaczyć w płaszczyźnie zbiór liczb zespolonych: wszystkich z spełniających warunek: 4 − 3j 1 + j tg α 6 (a) |z| + |z − 2j| = 2; (a) (1 + 2j) ; (b) ; (c) ; 1+j 1 − j tg α (b) |z + j| + |z − j| = 4. 2. Rozwiązać równania, w których niewiadome x i y są 5. Następujące liczby zapisać w postaci kartezjańskiej: liczbami rzeczywistymi: (a) (7 + 2j)x − (5 − 4j)y = −1 − j; (a) (2 + 3j)(1 + j)(7 − 3j)(7 − 3j); (b) (1 + 2j)x + (3 − 5j)y = 1 − 3j;
(c) (5 − 8j)x + (7 + 3j)y = 2 − j;
(d) (2 + 3j)x2 + (2 + j)x + (4 − 3j)y = 8 + 17j.
3. Rozwiązać następujące równania, w których niewiadoma z jest liczbą zespoloną: (a) (1 + j)z + 2jz = 1 + 5j; (b) zz + 2z = 19 + 4j; (c) |z| − z = 1 + 2j;
(d) |z| + (1 + j)z = 4 + 7j;
(e) |(2 + j)z| − (3 − j)z = −5j; (f ) zz + 2(z − z) = 25 − 12j.
(b) 30 cos π + j sin π (c) 6 cos
π 6
+ j sin ◦
π 6
(d) 3 cos 42 +j sin 42 (e) (f )
cos
cos ◦
3π 4 5 π 6
+ j sin
3π 4 5 π 6
◦
;
;
cos 168 +j sin 168◦ ;
√ 8(cos 147◦ +j sin 147◦ ) √ j; 2(cos 57◦ +j sin 57◦ ) π π 12 π cos 6 + j sin 6 cos 12
+ j sin
+ j sin
π 20 . 12
6. Wyznaczyć postać trygonometryczną następujących liczb: (a) (5 + 5j) · (c) tg α + j; (e)
√ 1+j 3 1+j
3−j ; 2+j
n
;
tg α (b) cos1+j ; α+j sin α (d) 1 − cos x + j sin x;
(f )
√ (−1+j 3)4n ; (1−j)8n
2.7. Ćwiczenia √
37
(g) 14 − j 43 (− cos α + j sin α); √ √ √ √ (h)∗ 6 + 2 + j( 6 − 2). 7. Obliczyć: (a)
100 X k=1
j k ; (b)
27 X
j k ; (c)
k=−15
11 X
(1 + j)k .
k=0
8. W tym zadaniu przez Arg (z) oznaczamy ten argument liczby z, który należy do przedziału (−π; πi (albo do innego przedziału długości 2π). W płaszczyźnie C lub R2 zaznaczyć zbiór tych liczb z, dla których: (a) z = z 2 ; (b) |z − 1 + 2j| = |z − 4|; (c) |z| < 1 − Re (z); (d) Arg (z − 2 + j) = π4 ; (e) − π2 ¬ Arg (z 4 ) ¬ 34 π; (f ) |z − 4 + 5j| 2 i − π6 ¬ Arg (z− 1 − 3j) ¬ π2 ; (g) − π4 ¬ Arg (1 + j)(z − 1 + 2j) ¬ 3π 4 i |(3 + 4j)z − 25| ¬ 25; (h) Arg (z + 1 − j) = Arg (z − 3 − 2j); (i) Arg (z + 1 − 2j) = Arg (z − 3 − j) + π; (j) |Arg (z − 1) − Arg (z + 1)| = π2 .
9. Wykazać, że dla liczby zespolonej z jest Arg (z − 1) = Arg (z + 1) +
π 4
√ wtedy i tylko wtedy, gdy |z − j| = 2 i Im (z) > 0. 10. Wyznaczyć wszystkie rozwiązania równania: (a) z 8 = 1; (b) z 3 = j; √ 3 (c) z = −2 + 2j; (d) z 4 = 8 + 8 3j; (e) z 4 = −j; (f ) z 4 = (1√− j)8 ; (g) z 6 = (1 + 2j)6 ; (h) z 3 = 4 2(1 + j). 11. Wyznaczyć wszystkie zespolone rozwiązania następujących równań: (a) (b) (c) (d) (e)
(x + j)n + (x − j)n = 0; (x + 2)n − (x − 2)n = 0; n (x + 3j) j(x − 3j)n = 0; + 1+j 1+xj n α = 1−j tg ; 1−xj tg α x5 + x4 + x3 + x2 + x + 1 = 0.
12. Wyznaczyć pierwiastki stopnia drugiego z następujących liczb zespolonych: (a) (1 + 2j)2 ; (b) −5 + 12j; (c) −24 − 10j. 13. Rozwiązać następujące równania: (a) (b) (c) (d) (e) (f )
x2 − 3x + 2, 5 = 0; x2 + 2jx − 5 = 0; x2 + (2 + 2j)x + 1 + 2j = 0; x2 − (3 + 7j)x − 10 + 11j = 0; (3 + j)x2 + (1 − j)x − 6j = 0; x2 + (8 − 5j)x − 19 + 43j = 0.
14. Znajdź cześć rzeczywistą i urojoną następujących liczb: πj 3πj (a) e2+3j ; (c) e 6 e 4 ; (e) sin 2j; 5πj πj πj (b) e 4 ; (d) 2e 4 +3e 6 ; (f ) cos(1+j). 15. Dana jest liczba z = ea+bj , gdzie a i b są rzeczywiste. Wyznaczyć: (a) |z|; (b) z; (c) z −1 ; (d) Re(z); (e) Im(z); (f ) arg (z).
16. Korzystając z postaci wykładniczej liczby zespolonej, rozwiązać następujące równania: 5 (a) z 3 = j |zzz| ; (b) 8z|z| = (z)5 ; √ 6 6 (c) z = (z) ; (d) z 4 = (1 + j 3)|z|2 . 17. (a) Oblicz (5 + 4j)3 i stąd wyznaczyć postać kanoniczną liczby (5 − 4j)3 ; (b) Zauważ, że 41 = 52 + 42 = (5 + 4j)(5 − 4j), a następnie przedstaw liczbę 413 jako sumę dwóch kwadratów. 18. Za pomocą sprzężenia wykazać, że |z − w|2 + |z + w|2 = 2|z|2 + 2|w|2 . Wywnioskować stąd, że suma kwadratów wszystkich boków równoległoboku jest równa sumie kwadratów jego przekątnych. 19. Biorąc pod uwagę potęgi liczby 2+j, pokaż, że wektor [3, 4] dzieli kąt między wektorami [2, 1] i [2, 11] na dwie równe części. 20. Wykazać, że trzy różne punkty z1 , z2 i z3 są wierzchołkami trójkąta równobocznego, jeśli wiadomo, że |z1 | = |z2 | = |z3 | = r > 0 i z1 + z2 + z3 = 0. 21. Niech ω1 6= 0 będzie wierzchołkiem n-kąta foremnego o środku w punkcie s0 = 0. Znaleźć pozostałe wierzchołki tego n-kąta. −1+j √ . 22. Wyznaczyć część rzeczywistą i urojoną liczby 1+ 3j √ Przedstawić liczby −1 + j oraz 1 + 3j w postaci trygonometrycznej, a następnie pokazać, że cos 5π = 12 √ 3−1 5π √ i wyznaczyć sin . 12 2 2 1 23. Pokazać, że jeśli |z| = 1, to z = . z 24. Pokazać, że jeśli z 6= −1, to z−1 jest liczbą urojoną z+1 wtedy i tylko wtedy, gdy |z| = 1 i Im(z) 6= 0. 25. Pokazać, że jeśli z 6= −1, to z−1 jest liczbą rzeczywiz+1 stą wtedy i tylko wtedy, gdy Im(z) = 0. 26. Korzystając ze wzoru de Moivre’a, przedstawić sin 4x i cos 4x za pomocą sin x i cos x. 27. Korzystając ze wzoru de Moivre’a, uzasadnić, że cos 2nx = i sin 2nx =
n−1 X k=0
n X k=0
2n (−1)k cos2(n−k) x sin2k x 2k
2n (−1)k cos2(n−k)−1 x sin2k+1 x. 2k + 1
28. Znaleźć wzory na sumy cos α + cos 2α + . . . + cos nα oraz sin α + sin 2α + . . . + sin nα. 29. Wykazać, że jeśli z jest pierwiastkiem n-tego stopnia z jedynki, to także z jest pierwiastkiem n-tego stopnia z jedynki. 30. Niech z będzie pierwiastkiem n-tego stopnia z jedynki. Obliczyć wartości następujących sum: (a) 1 + z + z 2 + . . . + z n−1 ; (b) 1 + 2z + 3z 2 + . . . + nz n−1 ; (c) 1 + 4z + 9z 2 + . . . + n2 z n−1 . 31. Obliczyć iloczyn wszystkich pierwiastków n-tego stopnia z jedynki. 32. Obliczyć sumę wszystkich pierwiastków n-tego stopnia z jedynki. 33. Obliczyć sumę k-tych potęg wszystkich pierwiastków n-tego stopnia z jedynki, gdzie k jest liczbą całkowitą. 34. Pokazać, że zbiór H = {z ∈ C : |z| = 1} jest grupą ze względu na mnożenie. 35. Wykazać, że zbiór H = {1, −1, j, −j} z mnożeniem jest grupą.
38
2. Liczby zespolone
36. Pokazać, że zbiór Pn wszystkich pierwiastków 41. Wpisując TAK albo NIE, stwierdzić prawdziwość n-tego stopnia z jedynki jest grupą przemienną ze każdego z następujących zdań: względu na mnożenie liczb zespolonych. 1 ez jest liczbą dodatnią dla każdej liczby ∞ [ zespolonej z. 37. Udowodnić, że zbiór P = Pn jest multiplikatyw2 Nierówność | sin z| ¬ 1 jest prawdziwa dla n=1 każdej liczby zespolonej z. ną grupą abelową, gdzie Pn jest zbiorem wszystkich pierwiastków n-tego stopnia z jedynki dla n ∈ N . 3 Dla każdej liczby rzeczywistej ϕ i każdej liczby 38. Pokazać, że jeżeli liczba zespolona z0 jest pierwiastcałkowitej n jest (cos ϕ−j sin ϕ)n = cos nϕ−j sin nϕ. kiem wielomianu P (z) o współczynnikach rzeczywi4 Kwadrat każdej liczby zespolonej jest nieujestych, to także liczba z 0 jest pierwiastkiem wielomiamną liczbą rzeczywistą. nu P (z). 5 Każda niezerowa liczba zespolona ma dwa 39. Wykazać, że podzbiór CR = {(a, 0) : a ∈ R} zbioróżne pierwiastki stopnia drugiego. ru liczb zespolonych C ze zwykłym dodawaniem ⊕ 6 Jeśli z + z = 2z, to z jest liczbą rzeczywistą. i zwykłym mnożeniem ⊗ liczb zespolonych (zob. (2.2) √ i (2.3)) jest ciałem. 7 Dla liczb rzeczywistych a i b jest a2 + b2 = 2, 40. Niech (F1 , ⊕1 , ⊗1 ) i (F2 , ⊕2 , ⊗2 ) będą ciałami. Mógdy (a + bj)3 = 8. wimy, że ciało (F1 , ⊕1 , ⊗1 ) jest izomorficzne z cia8 Dla każdej liczby zespolonej z jest ez = ez . łem (F2 , ⊕2 , ⊗2 ), gdy istnieje funkcja różnowartościo9 Jeśli z jest liczbą zespoloną, a n jest liczbą wa ϕ : F1 → F2 odwzorowująca zbiór F1 na zbiór F2 naturalną, to częścią rzeczywistą liczby z n − (z)n i taka, że ϕ(x ⊕1 y) = ϕ(x) ⊕2 ϕ(y) oraz ϕ(x ⊗1 y) = jest zero. ϕ(x) ⊗2 ϕ(y) dla każdych elementów x, y ∈ F1 . Wy10 Jeśli z i w są liczbami zespolonymi, to zw + zw kazać, że ciało liczb rzeczywistych (R, +, ·), gdzie + jest liczbą rzeczywistą. i · jest odpowiednio zwykłym dodawaniem i zwykłym mnożeniem liczb rzeczywistych, jest izomorficz11 Jeśli z i w są liczbami zespolonymi, to zw − zw ne z ciałem (CR , ⊕, ⊗) z poprzedniego zadania. jest liczbą czysto urojoną.
Rozdział 3
WIELOMIANY 3.1. Pierścień wielomianów Definicja 3.1.1. Nieskończony ciąg V = (a0 , a1 , a2 , . . .)
(3.1)
Wielomian
elementów ai ciała K nazywamy wielomianem nad ciałem K (albo wielomianem o współczynnikach z ciała K), jeśli ai = 0 dla prawie wszystkich i ∈ N .
Element ai nazywamy i-tym współczynnikiem wielomianu (3.1). Czasami wygodnie jest i-ty współczynnik wielomianu V oznaczać przez (V )i . Zbiór wszystkich wielomianów nad ciałem K oznaczamy przez K[x]. Wielomiany nad ciałem liczb rzeczywistych, czyli elementy zbioru R[x], nazywamy wielomianami rzeczywistymi. Podobnie, elementy zbioru C[x] nazywamy wielomianami zespolonymi. Wielomian (0, 0, . . .) ∈ K[x], w którym wszystkie współczynniki są równe zeru, nazywamy wielomianem zerowym. Jeśli wielomian (3.1) nie jest zerowy, to jego stopniem nazywamy największą liczbę naturalną k taką, że ak 6= 0. Przyjmujemy, że stopniem wielomianu zerowego jest −∞. Stopień wielomianu V oznaczamy przez deg V . Mówimy, że wielomiany V = (a0 , a1 , . . .) i W = (b0 , b1 , . . .) ze zbioru K[x] są równe, piszemy V = W , wtedy i tylko wtedy, gdy ai = bi dla i = 0, 1, 2, . . .. (Równoważnie, dla wielomianów V i W mamy V = W wtedy i tylko wtedy, gdy (V )i = (W )i dla każdej liczby naturalnej i.) W zbiorze K[x] określamy dwa działania dwuargumentowe – dodawanie i mnożenie wielomianów. (Wyniki tych działań nazywamy odpowiednio sumą i iloczynem wielomianów.)
Stopień wielomianu
Równość wielomianów
Definicja 3.1.2. Jeśli V i W są wielomianami nad ciałem K, powiedzmy V = (a0 , a1 , . . .) i W = (b0 , b1 , . . .), to ich sumą jest ciąg V + W = (a0 + b0 , a1 + b1 , a2 + b2 , . . .).
(3.2)
Suma wielomianów
Ciąg (3.2) jest wielomianem nad ciałem K, bo ai + bi ∈ K dla każdego indeksu i ∈ N i jednocześnie ai + bi = 0 dla prawie wszystkich i, a na pewno ai + bi = 0 dla i > max{deg V, deg W }. Stąd też wynika, że deg(W + V ) ¬ max{deg W, deg V }. Definicja 3.1.3. Jeśli V = (a0 , a1 , . . .) i W = (b0 , b1 , . . .) są wielomianami nad ciałem K, to ich iloczynem nazywamy ciąg V W = (c0 , c1 , c2 , . . . ),
(3.3)
w którym c0 = a 0 b0 , c1 = a 0 b1 + a 1 b0 , c2 = a 0 b2 + a 1 b1 + a 2 b0 i ogólnie ci =
i X j=0
aj bi−j =
X
k+l=i
a k bl ,
(3.4)
Iloczyn wielomianów
40
3. Wielomiany gdzie ostatnia suma rozciąga się na wszystkie indeksy naturalne k i l takie, że k + l = i dla i ∈ N . Pi Jest oczywiste, że ci = j=0 aj bi−j ∈ K dla każdego i ∈ N . Zauważmy teraz, że jeśli V i W są odpowiednio wielomianami stopnia n i m, deg V = n i deg W = m, to wtedy an 6= 0 i aj = 0 dla j > n oraz bm 6= 0 i bj = 0 dla j > m. Stąd łatwo wynika, że cn+m = (a0 bn+m + . . . + an−1 bm+1 ) + an bm + (an+1 bm−1 + . . . + an+m b0 ) = (a0 0 + . . . + an−1 0) + an bm + (0 bm−1 + . . . + 0 b0 ) = an bm 6= 0,
(3.5)
cn+m+l = (a0 bn+m+l + . . . + an bm+l ) + (an+1 bm+l−1 + . . . + an+m+l b0 ) = (a0 0 + . . . + an 0) + (0 bm+l−1 + . . . + 0 b0 ) = 0.
(3.6)
a dla każdej liczby naturalnej l > 0 jest
To dowodzi, że ciąg (3.3), którego współczynniki są określone wzorem (3.4), jest wielomianem nad ciałem K. Z (3.5) i (3.6) wynika jednocześnie, że jeśli V i W są niezerowymi wielomianami, to deg(V W ) = deg V + deg W.
(3.7)
(Jeśli przyjmiemy, że dla każdej liczby naturalnej n jest (−∞) + n = −∞ = n + (−∞) i jednocześnie (−∞) + (−∞) = −∞, to równość (3.7) zachodzi także i wtedy, gdy V lub W jest wielomianem zerowym.) Przykład 40. Jeśli V = (2, 3, 0, 2, 0, . . .) i W = (4, 2, 3, 0, . . .) są wielomianami nad ciałem Z5 , to ich sumą jest wielomian V +W
= (2, 3, 0, 2, 0, . . .) + (4, 2, 3, 0, . . .) = (2 ⊕5 4, 3 ⊕5 2, 0 ⊕5 3, 2 ⊕5 0, 0 ⊕5 0, . . .) = (1, 0, 3, 2, 0, . . .)
i dla tego wielomianu jest deg(W + V ) = 3 = max{deg V, deg W }. Iloczynem wielomianów V i W także jest wielomian i mamy VW
= (2, 3, 0, 2, 0, . . .)(4, 2, 3, 0, . . .) = (c0 , c1 , c2 , . . .) = (3, 1, 2, 2, 4, 1, 0, . . .),
bo wobec (3.4) jest c0 =
0 X j=0 1
c1 =
X j=0 2
c2 =
X j=0 3
c3 =
X j=0 4
c4 =
X j=0 5
c5 =
X j=0
oraz
ci = 0
aj b0−j = 2 ⊗5 4 = 3, aj b1−j = (2 ⊗5 2) ⊕5 (3 ⊗5 4) = 1, aj b2−j = (2 ⊗5 3) ⊕5 (3 ⊗5 2) ⊕5 (0 ⊗5 4) = 2, aj b3−j = (2 ⊗5 0) ⊕5 (3 ⊗5 3) ⊕5 (0 ⊗5 2) ⊕5 (2 ⊗5 4) = 2, aj b4−j = (2 ⊗5 0) ⊕5 (3 ⊗5 0) ⊕5 (0 ⊗5 3) ⊕5 (2 ⊗5 2) 5 (0 ⊗5 4) = 4, aj b5−j = (2 ·5 0) ⊕5 (3 ⊗5 0) ⊕5 (0 ⊗5 0) ⊕5 (2 ⊗5 3) ⊕5 (0 ⊗5 2) ⊕5 (0 ⊗5 4) = 1,
dla i > 5 = 3 + 2 = deg V + deg W = deg (V W ).
3.1. Pierścień wielomianów
41
Twierdzenie 3.1.1. Jeśli K jest ciałem, to zbiór wielomianów K[x] z działaniami określonymi wzorami (3.2) – (3.4) jest pierścieniem całkowitym, czyli pierścieniem przemiennym z jednością i bez dzielników zera. Uwaga. Teza twierdzenia pozostaje prawdziwa, gdy założymy, że K jest pierścieniem całkowitym. Dowód. Z przemienności i łączności dodawania w ciele K wynika przemienność oraz łączność dodawania w zbiorze K[x], bo dla każdych wielomianów V, W, U ∈ K[x] i każdej liczby naturalnej i jest (V + W )i = (V )i + (W )i = (W )i + (V )i = (W + V )i oraz
V + (W + U )
= (V )i + (W + U )i = (V )i + (W )i + (U )i
i
=
(V )i + (W )i + (U )i = (V + W )i + (U )i
=
(V + W ) + U i .
Łatwo zauważyć, że elementem neutralnym dodawania jest wielomian zerowy. Elementem przeciwnym do V = (a0 , a1 , . . .) jest −V = (−a0 , −a1 , . . .). Z przemienności dodawania i mnożenia w ciele K wynika także przemienność mnożenia w zbiorze K[x], bo dla każdych wielomianów V i W oraz liczby naturalnej i mamy (V W )i =
X
(V )k (W )l =
k+l=i
X
(W )l (V )k = (W V )i .
l+k=i
Zauważmy, że dla każdych wielomianów V, W, U ∈ K[x] oraz liczby naturalnej i mamy V (W + U )
i
X
=
(V )k (W + U )l =
k+l=i
X
=
(V )k (W )l +
k+l=i
=
X
X
(V )k (W )l + (U )l
k+l=i
(V )k (U )l
k+l=i
(V W )i + (V U )i = (V W + V U )i .
To dowodzi, że w K[x] mnożenie jest rozdzielne względem dodawania, więc zachodzi równość V (W + U ) = V W + V U . Mnożenie w zbiorze K[x] jest także łączne, bo dla każdych wielomianów V, W i U oraz liczby naturalnej i jest V (W U )
i
=
X
(V )k (W U )l =
k+l=i
=
X
X
k+l=i
(V )k (W )s (U )t =
k+s+t=i
X
(V )k
X
(W )s (U )t
s+t=l
(V W )r (U )t = (V W )U
r+t=i
i
,
co dowodzi, że V (W U ) = (V W )U . Wielomian E = (1, 0, 0, . . .) jest elementem neutralnym mnożenia, bo dla każdego wielomianu V = (a0 , a1 , a2 , . . .) wobec (3.3) i (3.4) jest EV = (1, 0, 0, . . .)(a0 , a1 , a2 , . . .) = (a0 , a1 , a2 , . . .) = V. Z powyższych obserwacji wynika, że K[x] jest pierścieniem przemiennym z jednością. Niech teraz V i W będą niezerowymi wielomianami i niech deg V = n oraz deg W = m. Wtedy (V W )n+m = (V )n (W )m 6= 0 (zob. (3.5)) i dlatego iloczyn V W jest niezerowy. Zatem K[x] jest pierścieniem bez dzielników zera i to kończy dowód twierdzenia.
Wniosek 3.1.1. Jeśli V i W są wielomianami nad ciałem K i jeśli ich iloczyn V W jest wielomianem zerowym, to przynajmniej jeden z wielomianów V i W jest zerowy. Niech X i Y będą niepustymi zbiorami. Oznaczmy przez F(X, Y ) zbiór wszystkich funkcji f : X → Y . Weźmy teraz pod uwagę przekształcenie T : K[x] → F(K, K),
42
3. Wielomiany które każdemu wielomianowi V = (a0 , a1 , a2 , . . .) ∈ K[x] przyporządkowuje funkcję TV ∈ F(K, K) taką, że dla każdego x ∈ K jest TV (x) = a0 + a1 x + a2 x2 + . . . .
Funkcja wielomianowa
Funkcję TV (x) nazywamy funkcją wielomianową odpowiadającą wielomianowi V . Okazuje się, że to przyporządkowanie nie jest różnowartościowe. Przykładowo, wielomiany V = (0, 1, 0, 0, 0, 3, 0, 0, . . .) i W = (0, 4, 0, 0, 0, . . .) z pierścienia Z5 [x] są różne, ale odpowiadające im funkcje wielomianowe TV (x) = x + 3x5 i TW (x) = 4x są równe, bo dla każdego x z ciała Z5 jest TV (x) = x + 3x5 = 4x = TW (x). Okazuje się, że jeśli ciało K jest nieskończone, to wyżej wspomniane przekształcenie T jest już wzajemnie jednoznaczne. Dodatkowo, przekształcenie T jest izomorfizmem, bo dla każdych dwóch wielomianów V = (a0 , a1 , a2 , . . .) i W = (b0 , b1 , b2 , . . .) z pierścienia K[x] mamy T (V + W ) = T (a0 + b0 , a1 + b1 , . . .) = (a0 + b0 ) + (a1 + b1 )x + . . . = (a0 + a1 x + . . .) + (b0 + b1 x + . . .) = T (V ) + T (W ).
Dla iloczynu wielomianów V = (a0 , a1 , a2 , . . .) i W = (b0 , b1 , b2 , . . .), czyli dla Pi wielomianu V W = (c0 , c1 , . . .), gdzie ci = j=0 aj bi−j , także mamy T (V W ) = = = =
T (c0 , c1 , . . .) = c0 + c1 x + c2 x2 + . . . (a0 b0 ) + (a0 b1 + a1 b0 )x + (a0 b2 + a1 b1 + a2 b0 )x2 + . . . (a0 + a1 x + a2 x2 + . . .)(b0 + b1 x + b2 x2 + . . .) T (V )T (W ).
Stąd i z twierdzenia 3.1.1 wynika, że zbiór funkcji wielomianowych {a0 + a1 x + a2 x2 + . . . : (a0 , a1 , a2 , . . .) ∈ K[x]}
(3.8)
jest pierścieniem izomorficznym z pierścieniem K[x]. Z tego też względu także zbiór (3.8) oznaczamy symbolem K[x], a elementy zbioru (3.8) nazywamy wielomianami.
3.2. Podzielność wielomianów Podzielność wielomianów V (x) – dzielna W (x) – dzielnik Q(x) – iloraz
Wielomian nierozkładalny
Definicja 3.2.1. Niech V (x) i W (x) będą wielomianami z pierścienia K[x]. Mówimy, że wielomian V (x) jest podzielny przez wielomian W (x), gdy istnieje wielomian Q(x) ∈ K[x] taki, że V (x) = W (x)Q(x).
(3.9)
Jeżeli dla wielomianów V (x), W (x) i Q(x) zachodzi równość (3.9), to mówimy, że Q(x) jest ilorazem wielomianu V (x) przez wielomian W (x). W takim przypadku mówimy też, że wielomian W (x) (jak i Q(x)) jest dzielnikiem albo czynnikiem wielomianu V (x). Mówimy, że wielomian V (x) jest nierozkładalny w pierścieniu K[x], gdy nie istnieją wielomiany dodatniego stopnia W (x), Q(x) ∈ K[x] takie, że V (x) = W (x)Q(x). Przykład 41. Wielomian W (x) = x + 4 dzieli wielomian V (x) = x3 + 2x2 − 4x + 16 w pierścieniu R[x], bo W (x)Q(x) = (x + 4)(x2 − 2x + 4) = x3 + 2x2 − 4x + 16 = V (x). Twierdzenie 3.2.1 (Twierdzenie o dzieleniu wielomianów). Jeżeli V (x) i W (x) są wielomianami z pierścienia K[x] i W (x) 6= 0, to w pierścieniu K[x] istnieją jednoznacznie wyznaczone wielomiany Q(x) i R(x) takie, że V (x) = W (x)Q(x) + R(x)
i
deg R(x) < deg W (x).
(3.10)
3.2. Podzielność wielomianów
43
Uwagi. 1. Wielomiany Q(x) i R(x) spełniające warunek (3.10) nazywamy odpowiednio ilorazem i resztą z dzielenia wielomianu V (x) przez W (x). 2. Ponieważ przyjęliśmy, że stopniem wielomianu zerowego jest −∞, więc nierówność deg R(x) < deg W (x) w (3.10) jest równoważna temu, że albo R(x) jest wielomianem zerowym, albo wielomian R(x) jest niezerowy i wtedy 0 ¬ deg R(x) < deg W (x). Dowód. Wykażemy najpierw istnienie wielomianów Q(x) i R(x). Niech V (x) i W (x) będą odpowiednio wielomianami stopnia n i m. Jeśli n < m, to wielomiany Q(x) ≡ 0 i R(x) ≡ V (x) mają własność (3.10). Załóżmy teraz, że 0 ¬ m ¬ n. W tym przypadku tezy dowodzimy indukcyjnie ze względu na n. Jeśli n = 0, to także m = 0 i V (x) oraz W (x) są niezerowymi elementami ciała K. Wtedy Q(x) = V (x)/W (x) i R(x) ≡ 0 mają własność (3.10). Niech teraz V (x) będzie wielomianem stopnia n > 0 i załóżmy, że dowodzone stwierdzenie jest prawdziwe dla wszystkich wielomianów mniejszego stopnia. Jeśli V (x) = an xn + . . . + a1 x + a0 i W (x) = bm xm + . . . + b1 x + b0 , to bierzemy pod uwagę wielomian U (x)
= = =
n−m V (x) − an b−1 W (x) m x
(3.11)
n−m (an xn + . . . + a0 ) − an b−1 (bm xm + bm−1 xm−1 . . . + b0 ) m x
n−1 0xn + (an−1 − an b−1 + ..., m bm−1 )x
którego stopień jest mniejszy od n. Z założenia indukcyjnego istnieją więc wielomiany Q1 (x) i R(x) takie, że U (x) = W (x)Q1(x) + R(x)
i
deg R(x) < deg W (x).
(3.12)
Z (3.11) i (3.12) otrzymujemy V (x)
=
n−m n−m W (x) + W (x)Q1 (x) + R(x) W (x) + U (x) = an b−1 an b−1 m x m x
=
n−m + Q1 (x) + R(x) = W (x)Q(x) + R(x), W (x) an b−1 m x
n−m gdzie Q(x) = an b−1 + Q1 (x) i deg R(x) < deg W (x). To kończy dowód pierwszej m x części twierdzenia. Dla dowodu jednoznaczności przypuśćmy, że istnieją wielomiany Q1 (x), Q2 (x), R1 (x) i R2 (x) takie, że
V (x) = W (x)Q1 (x) + R1 (x)
i
V (x) = W (x)Q2 (x) + R2 (x),
gdzie deg R1 (x) < deg W (x) i deg R2 (x) < deg W (x). Wtedy
W (x) Q1 (x) − Q2 (x) = R2 (x) − R1 (x)
(3.13)
i ponieważ deg R2 (x) − R1 (x) < deg W (x), więc Q1 (x) − Q2 (x) musi być wielomianem zerowym. Stąd Q1 (x) = Q2 (x) i wtedy też wobec (3.13) jest R1 (x) = R2 (x). To dowodzi, że iloraz Q(x) i reszta R(x), spełniające warunek (3.10), są wyznaczone jednoznacznie.
W praktyce wyznaczając iloraz Q(x) i resztę R(x) z dzielenia wielomianu V (x) przez wielomian W (x), gdzie V (x) = an xn +. . .+a1 x+a0 , W (x) = bm xm + . . .+b1 x+b0 i deg V (x) = n m = deg W (x), posługujemy się (dobrze znanym) algorytmem, który jest praktyczną realizacją dowodu poprzedniego twierdzenia. W algorytmie tym wielokrotnie tworzymy różnicę (3.11) i powtarzamy ten proces do chwili otrzymania różnicy, której stopień jest mniejszy od m = deg W (x). Pierwszy krok wspomnianego algorytmu przedstawia następujący schemat: n−m an b−1 m x n an x + an−1 xn−1 + . . . + a1 x + a0 n−m an b−1 · W (x) m x n−m · W (x) V (x) − an b−1 m x
: b m xm + . . . + b 0
44
3. Wielomiany
Przykład 42. Obliczyć iloraz Q(x) i resztę R(x) z dzielenia wielomianu V (x) = 4x3 + x2 − x + 2 przez wielomian W (x) = x2 − x − 2 w pierścieniu R[x]. Zgodnie z powyższym schematem, dzieląc wielomian V (x) przez W (x), otrzymujemy 4x + 5 4x3 + x2 4x3 − 4x2 5x2 5x2
− x + 2 : x2 − x − 2 − 8x + 7x + 2 − 5x − 10 12x + 12.
Stąd Q(x) = 4x + 5 i R(x) = 12x + 12.
Przykład 43. Wyznaczyć iloraz Q(x) i resztę R(x) z dzielenia wielomianu V (x) = 4x4 + 2x3 + 6x2 + 4x + 3 przez wielomian W (x) = 3x2 + 2 w pierścieniu Z7 [x]. Ponieważ pierwszymi współczynnikami wielomianów V (x) i W (x) są an = a4 = 4 n−m i bm = b2 = 3, więc pierwszym składnikiem ilorazu tych wielomianów jest an b−1 m x = 4 · 3−1 x2 = 6x2 (bo w Z7 jest 3−1 = 5 i 4 · 5 = 6) i cały proces dzielenia wygląda następująco: 6x2 + 3x 4x4 + 2x3 4x4 2x3 2x3
+ 5 + 6x2 + 4x + 5x2 + x2 + 4x + 6x x2 + 5x x2 5x.
+ 3
: 3x2 + 2
+ 3 + 3 + 3
Zatem Q(x) = 6x2 + 3x + 5 i R(x) = 5x.
Wniosek 3.2.1 (Twierdzenie o reszcie). Jeśli V (x) ∈ K[x] i x0 ∈ K, to resztą z dzielenia wielomianu V (x) przez x − x0 jest V (x0 ), czyli istnieje wielomian Q(x) ∈ K[x] taki, że V (x) = (x − x0 )Q(x) + V (x0 ).
(3.14)
Dowód. Wobec twierdzenia 3.2.1 istnieją wielomiany Q(x) i R(x) takie, że V (x) = (x − x0 )Q(x) + R(x)
i
deg R(x) < deg(x − x0 ).
(3.15)
Ponieważ deg(x − x0 ) = 1, więc R(x) jest elementem ciała K i dlatego w szczególności jest R(x) = R(x0 ). Z równości (3.15) dla x = x0 mamy V (x0 ) = (x0 − x0 )Q(x0 ) + R(x0 ) = R(x0 ), więc także R(x) = V (x0 ) i dlatego mamy (3.14).
3.3. Schemat Hornera
(3x + 2)x + 7 – postać zagnieżdżona wielomianu 3x2 + 2x + 7
Wielomian V (x) = an xn + an−1 xn−1 + . . . + a1 x + a0 możemy zapisać w tzw. postaci zagnieżdżonej, V (x) = . . . (an x + an−1 )x + an−2 x + . . . + a1 x + a0 .
Takie ustawienie nawiasów sugeruje następującą kolejność obliczania wartości wielomianu V (x) dla x = x0 : — przyjmujemy, że y0 = a n (3.16) jest początkową wartością wielomianu;
3.3. Schemat Hornera
45
— następnie, aż do wyczerpania wszystkich współczynników wielomianu, bieżącą wartość yi wielomianu mnożymy przez x0 i powiększamy o współczynnik an−i−1 , otrzymując yi+1 = x0 yi + an−i−1 . (3.17) Ostatnia tak wyliczona liczba yn = x0 yn−1 + a0 jest wartością V (x0 ) wielomianu V (x). Ten sposób obliczania wartości wielomianu zwykle nazywa się schematem (lub algorytmem) Hornera i realizuje za pomocą dwuwierszowej tabeli x0
an y0
··· ···
an−1 y1
a1 yn−1
a0 . yn
W górnym wierszu tej tabeli stoją kolejne współczynniki wielomianu V (x). Natomiast w dolnym wierszu mamy x0 , y0 = an oraz kolejno wyznaczone liczby y1 , . . . , yn . Te ostatnie wyznaczamy ze wzoru (3.17). Warto zauważyć, że w ogólnym przypadku obliczenie wartości wielomianu stopnia n za pomocą schematu Hornera wymaga wykonania n mnożeń i n dodawań. A. Borodin udowodnił w 1971 roku, że jest to najszybszy sposób obliczania wartości wielomianu. Przykład 44. Za pomocą schematu Hornera obliczyć wartość wielomianu V (x) = 5x3 − 3x2 + 10x + 7 dla x0 = 2. Tworzymy tabelę 2
5 5
-3
10
7
.
W górnym wierszu wpisaliśmy kolejne współczynniki wielomianu V (x). W dolnym wpisaliśmy x0 = 2 i y0 = a3 = 5. W wolne miejsca kolejno wpisujemy liczby y1 = x0 y0 + a2 = 2 · 5 + (−3) = 7, y2 = x0 y1 + a1 = 2 · 7 + 10 = 24 i y3 = x0 y2 + a0 = 2 · 24 + 7 = 55 otrzymując tabelę 5 -3 10 7 , 2 5 7 24 55 z której wnioskujemy, że V (2) = 55.
Schemat Hornera jest niezwykle przydatny przy wyznaczaniu ilorazu Q(x) i reszty R(x) z dzielenia wielomianu V (x) = an xn + an−1 xn−1 + . . . + a1 x + a0 przez dwumian x − x0 . To ostatnie jest oczywiste, bo wobec wniosku 3.2.1 jest R(x) = V (x0 ), a wartość V (x0 ) można wyznaczyć za pomocą schematu Hornera. Dla uzasadnienia pierwszej części przyjmijmy, że ilorazem z dzielenia wielomianu V (x) przez dwumian x−x0 jest wielomian Q(x) = b0 xn−1 +b1 xn−2 +. . .+bn−2 x+ bn−1 . Wtedy V (x) = (x − x0 )Q(x) + V (x0 ) = (x − x0 )(b0 xn−1 + b1 xn−2 + . . . + bn−2 x + bn−1 ) + V (x0 ) = b0 xn + (b1 − x0 b0 )xn−1 + . . . + (bn−1 − x0 bn−2 )x − x0 bn−1 + V (x0 )
i dlatego an = b0 , an−1 = b1 − x0 b0 , . . . , a1 = bn−1 − x0 bn−2 oraz a0 = V (x0 ) − x0 bn−1 . Stąd zaś wynika, że b0 = an , b1 = x0 b0 + an−1 , . . . , bn−1 = x0 bn−2 + a1 oraz V (x0 ) = x0 bn−1 + a0 ,
więc (wobec (3.16) i (3.17)) współczynniki wielomianu Q(x) (oraz reszta R(x)) są dokładnie tymi, które otrzymujemy w schemacie Hornera dla wielomianu V (x) i x = x0 . Przykład 45. Wyznaczyć iloraz i resztę z dzielenia wielomianu V (x) = x5 + 2x4 − x + 7 przez x + 2.
Schemat Hornera
46
3. Wielomiany Stosując schemat Hornera dla wielomianu V (x) i x0 = −2 otrzymujemy tabelę -2
1 1
2 0
0 0
0 0
-1 -1
7 9
i z niej wynika, że ilorazem oraz resztą z dzielenia wielomianu V (x) przez x + 2 są odpowiednio Q(x) = x4 − 1 i R(x) = 9 = V (−2).
3.4. Pierwiastki wielomianów Pierwiastek wielomianu
Definicja 3.4.1. Niech V (x) będzie wielomianem nad ciałem K. Element x0 ciała K nazywamy pierwiastkiem (albo zerem) wielomianu V (x), gdy V (x0 ) = 0. Przykład 46. Wyznaczyć pierwiastki wielomianu V (x) = 2x2 + 3 w ciele Z5 . Ponieważ dla elementów ciała Z5 = {0, 1, 2, 3, 4} jest V (0) = 2 · 02 + 3 = 3, V (3) = 2 · 32 + 3 = 1,
V (1) = 2 · 12 + 3 = 0, V (4) = 2 · 42 + 3 = 0,
V (2) = 2 · 22 + 3 = 1,
więc w ciele Z5 pierwiastkami wielomianu V (x) są x1 = 1 i x2 = 4.
Z definicji 3.2.1 i 3.4.1 oraz z wniosku 3.2.1 natychmiast otrzymujemy następującą ważną własność pierwiastka wielomianu. Twierdzenie B´ezout
Twierdzenie 3.4.1 (B´ ezout). Element x0 ciała K jest pierwiastkiem wielomianu V (x) ∈ K[x] wtedy i tylko wtedy, gdy wielomian V (x) jest podzielny przez dwumian x − x0 . Dowód. Wobec wniosku 3.2.1 istnieje jednoznacznie wyznaczony wielomian Q(x) taki, że V (x) = (x − x0 )Q(x) + V (x0 ).
Stąd widać, że V (x) jest podzielny przez x − x0 wtedy i tylko wtedy, gdy V (x0 ) = 0, czyli wtedy i tylko wtedy, gdy x0 jest pierwiastkiem wielomianu V (x).
Definicja 3.4.2. Element x0 ciała K jest k-krotnym pierwiastkiem wielomianu V (x) ∈ K[x], gdy istnieje wielomian Q(x) ∈ K[x] taki, że Pierwiastek k-krotny Pierwiastek wielokrotny
V (x) = (x − x0 )k Q(x) i Q(x0 ) 6= 0. Mówimy też, że x0 jest pierwiastkiem wielokrotnym wielomianu V (x), gdy x0 jest k-krotnym pierwiastkiem wielomianu V (x) dla pewnej liczby naturalnej k 2. Przykład 47. Liczba x0 = 2 jest 2-krotnym pierwiastkiem wielomianu V (x) = x3 − 3x2 + 4, bo mamy V (x) = (x − 2)2 (x + 1) i dla wielomianu Q(x) = x + 1 jest Q(2) = 3 6= 0. Krotność pierwiastka wielomianu o współczynnikach zespolonych możemy wyznaczyć korzystając z następującego twierdzenia. Twierdzenie 3.4.2. Liczba zespolona x0 jest k-krotnym pierwiastkiem wielomianu V (x) ∈ C[x] wtedy i tylko wtedy, gdy V (x0 ) = V 0 (x0 ) = . . . = V (k−1) (x0 ) = 0 oraz V (k) (x0 ) 6= 0.
3.4. Pierwiastki wielomianów
47
Dowód. Załóżmy, że x0 jest k-krotnym pierwiastkiem wielomianu V (x). Wtedy V (x) = (x−x0 )k Q(x) dla pewnego wielomianu Q(x) ∈ C[x] i Q(x0 ) 6= 0. Ze wzoru Leibniza1 na pochodną iloczynu funkcji mamy V (m) (x) =
m X m j=0
=
j
m X m j=0
(x − x0 )k
j
(j)
Q(m−j) (x)
k(k − 1) . . . (k − j + 1)(x − x0 )k−j Q(m−j) (x).
Łatwo teraz zauważyć, że dla m < k jest V (m) (x0 ) = 0. Natomiast dla m = k mamy V (k) (x0 ) = k! Q(0) (x0 ) = k! Q(x0 ) 6= 0. Załóżmy teraz, że V (x) jest wielomianem stopnia n i dla pewnego k (k ¬ n) jest V (x0 ) = V 0 (x0 ) = . . . = V (k−1) (x0 ) = 0 i V (k) (x0 ) 6= 0. Wtedy ze wzoru Taylora2 mamy V (x) =
n X V (i) (x0 ) i=0
i!
= (x − x0 ) gdzie Q(x) =
k
(x − x0 )i =
n X V (i) (x0 )
i!
i=k
n X V (i) (x0 ) i=k
i!
(x − x0 )i
(x − x0 )i−k = (x − x0 )k Q(x),
V (k) (x0 ) V (k+1) (x0 ) V (n) (x0 ) + (x − x0 ) + . . . + (x − x0 )n−k k! (k + 1)! n!
i widać stąd, że Q(x0 ) = wielomianu V (x).
V (k) (x0 ) k!
6= 0. To dowodzi, że x0 jest k-krotnym pierwiastkiem
Przykład 48. Wyznaczyć krotność pierwiastka x0 = 2j wielomianu V (x) = x3 − 2jx2 + 4x − 8j ∈ C[x]. Ponieważ V (x) = x3 − 2jx2 + 4x − 8j V 0 (x) = 3x2 − 4jx + 4 V 00 (x) = 6x − 4j
i i i
V (2j) = −8j + 8j + 8j − 8j = 0, V 0 (2j) = −12 + 8 + 4 = 0, V 00 (2j) = 12j − 4j 6= 0,
więc (wobec twierdzenia 3.4.2) liczba x0 = 2j jest 2-krotnym pierwiastkiem wielomianu V (x).
Przykład 49. Wykazać, że wielomian rzeczywisty V (x) = x5 + x4 + 1 nie ma pierwiastka wielokrotnego. Jeśliby wielomian V (x) miał wielokrotny pierwiastek, to wobec twierdzenia 3.4.2 byłby to jednocześnie pierwiastek wielomianu V 0 (x). Ponieważ pierwiastkami wielomianu V 0 (x) = 5x4 + 4x3 są tylko liczby x0 = 0 i x00 = −4/5 i ponieważ żadna z tych liczb nie 1
Wzór Leibniza: (f (x)g(x))(m) =
m X j=0
2
m (j) f (x)g (m−j) (x) j
Wzór Taylora: Jeśli deg V (x) = n, to V (x) =
n X V (i) (x0 ) i=0
i!
(x − x0 )i
48
3. Wielomiany jest pierwiastkiem wielomianu V (x) (bo V (x0 ) = V (0) = 1 6= 0 i V (x00 ) = V (−4/5) = (−4/5)5 + (−4/5)4 + 1 6= 0), więc żadna z nich nie jest pierwiastkiem wielokrotnym wielomianu V (x).
Twierdzenie 3.4.3. Wielomian stopnia n 0 nad ciałem K ma co najwyżej n pierwiastków w ciele K. Dowód indukcyjny ze względu na n. Jeśli V (x) ∈ K[x] i deg V (x) = 0, to V (x) ≡ a0 6= 0 i V (x) nie ma pierwiastków. Załóżmy prawdziwość tezy dla wielomianów stopnia n−1, n 1. Niech teraz V (x) będzie wielomianem stopnia n. Jeśli V (x) nie ma pierwiastków w ciele K, to oczywiście ma on co najwyżej n pierwiastków w ciele K. Jeśli x0 ∈ K jest pierwiastkiem wielomianu V (x), to V (x) = (x − x0 )Q(x) dla pewnego Q(x) ∈ K[x] i deg Q(x) = n − 1. Z założenia indukcyjnego wielomian Q(x) ma co najwyżej n − 1 pierwiastków w ciele K, więc V (x) ma co najwyżej n pierwiastków w ciele K – są nimi x0 i pierwiastki wielomianu Q(x).
Wniosek 3.4.1. Wielomiany V (x) i W (x) nad nieskończonym ciałem K są równe wtedy i tylko wtedy, gdy mają one identyczne współczynniki, czyli gdy (V )i = (W )i dla każdego i ∈ N .
Dowód. Jest oczywiste, że jeśli (V )i = (W )i dla i ∈ N , to dla każdego x ∈ K jest V (x) =
∞ X i=0
(V )i xi =
∞ X
(W )i xi = W (x).
i=0
Załóżmy teraz, że V (x) = W (x) dla każdego x ∈ K. Wtedy każdy element x0 nieskończonego ciała K jest pierwiastkiem wielomianu T (x) = V (x) − W (x). To zaś jest możliwe pod warunkiem, że T (x) jest wielomianem zerowym (bo wobec twierdzenia 3.4.3 każdy niezerowy wielomian ma skończoną liczbę pierwiastków). Stąd (V )i − (W )i = (T )i = 0 i dlatego (V )i = (W )i dla każdego i ∈ N .
Wniosek 3.4.2. Załóżmy, że V (x) i W (x) są wielomianami stopnia co najwyżej n i V (x), W (x) ∈ K[x]. Wielomiany V (x) i W (x) są równe wtedy i tylko wtedy, gdy V (xi ) = W (xi ) dla n + 1 różnych elementów x1 , x2 , . . . , xn+1 z ciała K. Dowód. Załóżmy, że V (xi ) = W (xi ) dla różnych elementów x1 , x2 , . . . , xn+1 z ciała K. Wtedy elementy x1 , x2 , . . . , xn+1 są różnymi pierwiastkami wielomianu T (x) = V (x) − W (x). Ponieważ T (x) jest wielomianem stopnia co najwyżej n i ponieważ ma on więcej niż n pierwiastków, więc wobec twierdzenia 3.4.3 wielomian T (x) musi być wielomianem zerowym. Stąd zaś wynika równość wielomianów V (x) i W (x). Przeciwna implikacja jest oczywista.
Następujące twierdzenie – zwane zasadniczym twierdzeniem algebry – powiada, że każdy wielomian (dodatniego stopnia) nad ciałem liczb zespolonych ma pierwiastek zespolony. Zasadnicze tw. algebry
Twierdzenie 3.4.4 (Zasadnicze twierdzenie algebry). Jeśli V (x) jest wielomianem nad ciałem liczb zespolonych i deg V (x) > 0, to V (x) ma pierwiastek w ciele C.
Znanych jest wiele dowodów tego twierdzenia. Pierwszy podał C. F. Gauss w swojej pracy doktorskiej z roku 1799 i noszącej tytuł “Dowód twierdzenia, że każdą całkowitą funkcję wymierną jednej zmiennej można rozłożyć na rzeczywiste czynniki pierwszego lub drugiego stopnia”. (Gauss podał też trzy inne dowody tego twierdzenia.) Ponieważ w każdym z nich korzysta się z dość zaawansowanych metod analizy matematycznej lub algebry, nie przedstawimy tu dowodu tego twierdzenia. Dowody te można znaleźć m.in. w [5], [12], [13] i [14]. Następujący wniosek o rozkładzie wielomianu na iloczyn dwumianów jest prostą konsekwencją twierdzenia 3.4.4.
3.4. Pierwiastki wielomianów
49
Wniosek 3.4.3. Jeśli V (x) jest wielomianem nad ciałem liczb zespolonych i deg V (x) = n > 0, to V (x) ma dokładnie n (niekoniecznie różnych) pierwiastków x1 , x2 , . . . , xn w ciele C i może on być przedstawiony w postaci iloczynu V (x) = a(x − x1 )(x − x2 ) . . . (x − xn ),
(3.18)
gdzie a jest liczbą różną od zera. Dowód indukcyjny ze względu na n. Teza jest oczywista dla n = 1. Załóżmy teraz prawdziwość tezy dla wielomianów stopnia n − 1, gdzie n 2, i weźmy pod uwagę wielomian V (x) ∈ C[x] stopnia n. Wobec twierdzenia 3.4.4 istnieje liczba x1 ∈ C taka, że V (x1 ) = 0. Zatem, wobec twierdzenia 3.4.1, istnieje wielomian Q(x) ∈ C[x] stopnia n − 1 taki, że V (x) = (x − x1 )Q(x). Z założenia indukcyjnego dla wielomianu Q(x) istnieją liczby zespolone x2 , x3 , . . . xn i a takie, że Q(x) = a(x − x2 )(x − x3 ) . . . (x − xn ).
Stąd i z twierdzenia 3.4.3 wynika, że x1 , x2 , . . . , xn są wszystkimi pierwiastkami wielomianu V (x) i mamy V (x) = (x − x1 )Q(x) = a(x − x1 )(x − x2 ) . . . (x − xn ).
Wniosek 3.4.4. Niech V (x) będzie wielomianem stopnia n nad ciałem liczb zespolonych. Jeśli liczby zespolone x1 , x2 , . . . , xm są pierwiastkami wielomianu V (x) o krotnościach odpowiednio k1 , k2 , . . . , km i k1 + k2 + . . . + km = n, to V (x) = a(x − x1 )k1 (x − x2 )k2 . . . (x − xm )km
(3.19)
dla pewnej niezerowej liczby a. Teoretycznie każdy wielomian o współczynnikach zespolonych można przedstawić w postaci (3.18) i (3.19). Praktycznie są z tym problemy, bo dla wielomianów stopnia co najmniej piątego nie znamy (i – jak to wynika z teorii Abela – nigdy nie poznamy) możliwości przedstawienia pierwiastków wielomianu za pomocą pierwiastkowania i działań arytmetycznych na współczynnikach wielomianu. W praktyce, przedstawiając wielomian w postaci iloczynu dwumianów, korzystamy (tam gdzie jest to możliwe i/lub celowe) ze wzorów na pierwiastki wielomianów niskiego stopnia, ze wzorów na pierwiastki z liczb zespolonych oraz z przekształceń algebraicznych. Przykład 50. Podane wielomiany zespolone przedstawić w postaci iloczynu dwumianów: (a) V (x) = x3 + 8j; (b) V (x) = x3 − (3 + j)x2 + (1 + 8j)x + 1 − 7j; (c) V (x) = x4 + jx2 + 6.
3 (a) Pierwiastkami wielomianu √ V (x)√= x + 8j są pierwiastki trzeciego stopnia z liczby −8j, czyli liczby 2j, − 3 − j i 3 − j. Zatem √ √ V (x) = x3 + 8j = (x − 2j)(x + 3 + j)(x − 3 + j).
(b) Łatwo zauważyć, że x = 1 jest pierwiastkiem wielomianu V (x). Ponieważ ilorazem z dzielenia wielomianu V (x) przez dwumian x − 1 jest trójmian Q(x) = x2 − (2 + j)x − 1 + 7j i ponieważ pierwiastkami tego trójmianu są liczby 3 − j i −1 + 2j (zob. przykład 36), więc V (x) = (x − 1)(x − 3 + j)(x + 1 − 2j).
Rozkład wielomianu na czynniki liniowe – iloczyn dwumianów
50
3. Wielomiany (c) Tym razem wielomian V (x) przedstawimy w postaci iloczynowej bez uprzedniego wyznaczania jego pierwiastków. Za pomocą prostych przekształceń otrzymujemy
V (x) = x4 + jx2 + 6 = x4 + jx2 + = =
2
x + 2
x +
j 2 + 25 2 4 j 5 − j 2 2
= x 2
x +
2 + 2j j + 52 j 2
2
= (x − 1 − j)(x + 1 + j) x +
j2 4
−
−
j2 4 2
5 j 2 2
+6
= (x − 2j)(x2 + 3j)
√ 6 2
−
√ 6 j 2
x−
√ 6 2
+
√ 6 j 2
.
Każdy wielomian stopnia n o współczynnikach rzeczywistych ma wobec wniosku 3.4.3 dokładnie n pierwiastków zespolonych (uwzględniając pierwiastki wielokrotne) i oczywiście nie muszą to być liczby rzeczywiste. Przykładowo, wielomian x2 + 1 ∈ R[x] ma dwa pierwiastki zespolone, j i −j, ale nie ma on żadnego pierwiastka rzeczywistego. Wielomian x3 + 1 ∈ R[x] ma trzy pierwiastki zespo√ √ 1 3 1 lone – są nimi liczby −1, 2 + j 2 i 2 − j 23 (które są pierwiastkami stopnia 3 z liczby −1) i tylko jeden z tych pierwiastków jest liczbą rzeczywistą. Warto zwrócić uwagę na fakt, że w obu przykładach liczby sprzężone z0 i z0 jednocześnie są pierwiastkami tego samego wielomianu. Następne twierdzenie pokazuje, że to “chodzenie parami” pierwiastków sprzężonych jest własnością charakterystyczną pierwiastków wielomianów o współczynnikach rzeczywistych (zob. także zadanie 23). W dowodzie tego twierdzenia skorzystamy z następującego oznaczenia: jeśli V (x) = an xn + an−1 xn−1 + . . . + a1 x + a0 ∈ C[x], to przez V (x) oznaczamy wielomian sprzężony z wielomianem V (x), wielomian, którego współczynniki są liczbami sprzężonymi do odpowiednich współczynników wielomianu V (x), czyli V (x) = an xn + an−1 xn−1 + . . . + a1 x + a0 . Twierdzenie 3.4.5. Niech V (x) będzie wielomianem o współczynnikach rzeczywistych. Jeśli liczba zespolona z0 jest k-krotnym pierwiastkiem wielomianu V (x), to także jej sprzężenie z0 jest k-krotnym pierwiastkiem wielomianu V (x). Dowód. Niech z0 będzie k-krotnym pierwiastkiem wielomianu V (x). Wtedy wobec definicji 3.4.2 istnieje wielomian Q(x) ∈ C[x] taki, że V (x) = (x − z0 )k Q(x) i Q(z0 ) 6= 0. Stąd i z własności sprzężenia liczb zespolonych (zob. twierdzenie 2.2.1) mamy V (x) = (x − z0 )k Q(x) i Q(z0 ) 6= 0. Ponieważ V (x) jest wielomianem o współczynnikach rzeczywistych, więc mamy V (x) = V (x) i dlatego także V (x) = (x − z0 )k Q(x) i Q(z0 ) 6= 0 (bo Q(z0 ) = Q(z0 ) 6= 0). To oznacza, że liczba z0 jest k-krotnym pierwiastkiem wielomianu V (x).
Przykład 51. Liczba 1 − j jest pierwiastkiem wielomianu V (x) = x4 + x3 − 14x2 + 26x − 20. Wyznaczyć wszystkie pozostałe pierwiastki wielomianu V (x). Ponieważ V (x) jest wielomianem o współczynnikach rzeczywistych i liczba 1 − j jest jego pierwiastkiem, więc wobec twierdzenia 3.4.5 także liczba 1 + j jest pierwiastkiem wielomianu V (x). Zatem wielomian V (x) jest podzielny przez dwumiany x − (1 − j) i x − (1 + j), więc V (x) = x − (1 − j)
x − (1 + j) Q(x) = (x2 − 2x + 2)Q(x).
3.4. Pierwiastki wielomianów
51
Dzieląc V (x) przez x2 − 2x + 2 znajdujemy Q(x) = x2 + 3x − 10. Stąd V (x)
=
x − (1 − j)
=
x − (1 − j)
x − (1 + j) (x2 + 3x − 10)
x − (1 + j) (x − 2)(x + 5)
i dlatego liczby 1 − j, 1 + j, 2 oraz −5 są pierwiastkami wielomianu V (x).
Z wniosku 3.4.4 i twierdzenia 3.4.5 wynika, że każdy wielomian rzeczywisty można przedstawić w postaci iloczynu rzeczywistych nierozkładalnych wielomianów stopnia co najwyżej drugiego. Dokładniej mamy następujący wniosek. Wniosek 3.4.5. Niech V (x) będzie rzeczywistym wielomianem stopnia n > 0. Niech x1 , . . . , xr będą jego rzeczywistymi pierwiastkami o krotnościach odpowiednio k1 , . . . , kr i niech z1 , z1 , . . . , zs , zs (gdzie Im(zj ) 6= 0 dla j = 1, . . . , s) będą jego zespolonymi pierwiastkami o krotnościach odpowiednio l 1 , . . . , ls . Jeśli k1 + k2 + . . . + kr + 2(l1 + . . . + ls ) = n, to V (x) = a
r Y
i=1
(x − xi )ki
s Y
(x2 + pj x + qj )lj ,
(3.20)
j=1
gdzie a ∈ R − {0} oraz ∆j = p2j − 4qj < 0 dla j = 1, . . . , s.
Dowód. Z twierdzenia 3.4.5 i wniosku 3.4.4 wynika, że istnieje liczba a ∈ C − {0} taka, że V (x) = a
r Y i=1
= a
r Y i=1
= a
r Y i=1
s Y
(x − xi )ki (x − xi )
ki
(x − xi )
ki
(x − zj )(x − zj )
j=1
s Y
x2 − (zj + zj )x + zj zj
j=1
s Y
lj
(x2 + pj x + qj )lj ,
lj
j=1
gdzie pj = −(zj + zj ) = −2Re(zj ), qj = zj zj = Re2 (zj ) + Im2 (zj ) oraz ∆j = p2j − 4qj = − 4Im2 (zj ) < 0. Z faktu, że współczynniki V (x) oraz liczby pj i qj (j = 1, . . . , s) są liczbami rzeczywistymi wynika, że także liczba a jest rzeczywista.
Przykład 52. Wielomian V (x) = x4 + 1 przedstawić w postaci iloczynu rzeczywistych wielomianów stopnia co najwyżej drugiego. Ponieważ pierwiastkami wielomianu V (x) = x4 + 1 są pierwiastki czwartego stopnia z liczby −1, więc mamy V (x) =
√ √ √ √ √ √ √ 2 2 2 2 2 2 2 2 − j x+ − j x+ + j x− + j . 2 2 2 2 2 2 2 2
√
x−
Teraz, tak jak w dowodzie wniosku 3.4.5, grupujemy i wymnażamy czynniki odpowiadające sprzężonym pierwiastkom i otrzymujemy V (x) = =
h
x−
x−
√ 2 2 √ 2 2
−
2
√ 2 j 2
+
1 2
x−
√ 2 2
x+
+
√ 2 2
√ 2 j 2
2
ih
+
1 2
x+
√ 2 2
= (x2 −
−
√ 2 j 2
x+
√ 2 2
+
√ 2 j 2
i
√ √ 2x + 1)(x2 + 2x + 1).
Ten sam rozkład można otrzymać przez proste przekształcenia, bo mamy √ V (x) = x4 + 1 = (x4 + 2x2 + 1) − 2x2 = (x2 + 1)2 − ( 2x)2 √ √ √ √ = (x2 + 1 − 2x)(x2 + 1 + 2x) = (x2 − 2x + 1)(x2 + 2x + 1).
52
3. Wielomiany Skupimy teraz naszą uwagę na pierwiastkach wymiernych wielomianów z wymiernymi współczynnikami. Ponieważ pierwiastki wielomianu nie zmieniają się przy mnożeniu wielomianu przez niezerową liczbę, więc w następnym twierdzeniu możemy ograniczyć się do wielomianów o współczynnikach całkowitych. Twierdzenie 3.4.6. Niech V (x) = an xn + an−1 xn−1 + . . . + a1 x + a0 będzie wielomianem dodatniego stopnia, którego współczynniki są liczbami całkowitymi. Niech p i q będą liczbami całkowitymi względnie pierwszymi. Jeśli ułamek p/q jest pierwiastkiem wielomianu V (x), to p dzieli wyraz wolny a0 , a q dzieli współczynnik wiodący an wielomianu V (x). Dowód. Załóżmy, że p/q jest pierwiastkiem wielomianu V (x). Wtedy V
p q
= an
n p q
+ an−1
n−1 p q
+ . . . + a1
p q
+ a0 = 0.
(3.21)
Z (3.21), po pomnożeniu przez q n , otrzymujemy an pn + an−1 pn−1 q + . . . + a1 pq n−1 + a0 q n = 0,
(3.22)
więc także p(an pn−1 + an−1 pn−2 q + . . . + a1 q n−1 ) = −a0 q n .
Stąd wynika, że p dzieli liczbę a0 q n i dlatego p dzieli a0 , bo p i q są względnie pierwsze. Podobnie z równości (3.22) mamy q(an−1 pn−1 + . . . + a1 pq n−2 + a0 q n−1 ) = −an pn i stąd także wynika, że q jest dzielnikiem liczby an .
Przykład 53. Wyznaczyć wszystkie pierwiastki wielomianu V (x) = 2x3 −9x2 + 14x − 5 znajdując najpierw wymierne pierwiastki tego wielomianu.
Jeśli liczba wymierna p/q (zapisana w postaci nieskracalnej) jest pierwiastkiem wielomianu V (x) = 2x3 − 9x2 + 14x − 5, to wobec twierdzenia 3.4.6 jej licznik p jest dzielnikiem wyrazu wolnego a0 = −5, a mianownik q jest dzielnikiem współczynnika wiodącego a3 = 2. Dlatego p ∈ {±1, ±5},
q ∈ {±1, ±2}
i
p ∈ q
n
1 5 ±1, ± , ±5, ± 2 2
o
.
Ponieważ żadna rzeczywista liczba ujemna nie może być pierwiastkiem wielomianu V (x) (bo dla każdej liczby x0 < 0 jest V (x0 ) < 0), więc spośród liczb wymiernych jedynie liczba pq ∈ 1, 12 , 5, 52 może być pierwiastkiem wielomianu V (x). Obliczając wartość wielomianu V (x) dla możliwych ułamków p/q, znajdujemy V (1) = 2,
V
1 2
= 0,
V (5) = 90
i
V
5 2
=−
25 . 2
Dlatego jedynym pierwiastkiem wymiernym wielomianu V (x) jest 21 . Dzieląc teraz V (x) przez x − 21 , otrzymujemy
V (x) = x −
1 (2x2 − 8x + 10) = (2x − 1)(x2 − 4x + 5). 2
Pozostałe pierwiastki wielomianu V (x) są pierwiastkami ilorazu Q(x) = x2 − 4x + 5 = (x2 − 4x + 4) + 1 = (x − 2)2 − j 2 = (x − 2 − j)(x − 2 + j). Ostatecznie pierwiastkami wielomianu V (x) są liczby 1/2, 2 + j i 2 − j.
3.5. Wielomiany względnie pierwsze
53
3.5. Wielomiany względnie pierwsze Definicja 3.5.1. Niech V (x) i W (x) będą wielomianami z pierścienia K[x]. Mówimy, że wielomiany V (x) i W (x) są względnie pierwsze, gdy nie są one jednocześnie wielomianami zerowymi i nie są jednocześnie podzielne przez żaden wielomian dodatniego stopnia. Przykład 54. Wielomiany V (x) = (x − 1)(x + 2) i W (x) = (x + 2)(x + 3) nie są względnie pierwsze, bo każdy z nich jest podzielny przez x + 2, wielomian dodatniego stopnia. Natomiast wielomiany V (x) = (x − 1)(x + 2) i U (x) = (x − 2)(x + 3) są względnie pierwsze, bo nie mają one wspólnego dzielnika dodatniego stopnia. Twierdzenie 3.5.1. Jeśli wielomiany V (x) i W (x) z pierścienia K[x] są niezerowe i względnie pierwsze, to w pierścieniu K[x] istnieją wielomiany P (x) i Q(x) takie, że P (x)V (x) + Q(x)W (x) = 1. (3.23) Dowód. Przedstawiamy dowód indukcyjny ze względu na liczbę n = min{deg V (x), deg W (x)}. Jeśli n = 0, to co najmniej jeden z wielomianów V (x) i W (x) jest niezerową stałą i, oczywiście, dla nich istnieją takie wielomiany P (x) i Q(x), że zachodzi (3.23). (Przykładowo, jeśli V (x) ≡ V i V 6= 0, to dla wielomianów P (x) ≡ 1/V i Q(x) ≡ 0 mamy (3.23).) Załóżmy z kolei, że dowodzone stwierdzenie jest prawdziwe dla każdych niezerowych i względnie pierwszych wielomianów V1 (x) i W1 (x) takich, że min{deg V1 (x), deg W1 (x)} < n, gdzie n jest pewną dodatnią liczbą naturalną. Niech teraz V (x) i W (x) będą względnie pierwszymi wielomianami takimi, że min{deg V (x), deg W (x)} = n. Bez zmniejszenia ogólności możemy założyć, że deg V (x) deg W (x) = n. Wobec twierdzenia 3.2.1 w pierścieniu K[x] istnieją wielomiany Q(x) i R(x) takie, że V (x) = Q(x)W (x) + R(x) i deg R(x) < n = deg W (x). (3.24) Z faktu, że W (x) i V (x) są względnie pierwsze łatwo wynika, że R(x) nie jest wielomianem zerowym. (Inaczej byłoby V (x) = Q(x)W (x) i wbrew założeniu wielomiany V (x) i W (x) byłyby podzielne przez wielomian dodatniego stopnia, np. byłyby one podzielne przez sam wielomian W (x).) Dodatkowo, wielomiany W (x) i R(x) są względnie pierwsze. (Gdyby było inaczej, to istniałby wielomian dodatniego stopnia, powiedzmy S(x), dzielący jednocześnie W (x) i R(x). Wtedy, wobec (3.24), wielomian S(x) byłby jednoczesnym dzielnikiem wielomianów V (x) i W (x), co przeczyłoby założeniu, że są one względnie pierwsze.) Ponieważ deg R(x) < n, więc min{deg V (x), deg R(x)} < n e i wobec założenia indukcyjnego istnieją wielomiany Q(x) i P (x) takie, że
e Q(x)W (x) + P (x)R(x) = 1.
(3.25)
A wtedy z (3.24) i (3.25) otrzymujemy (3.23), bo mamy
e 1 = Q(x)W (x) + P (x) V (x) − Q(x)W (x)
e − P (x)Q(x) W (x) = P (x)V (x) + Q(x) = P (x)V (x) + Q(x)W (x),
e − P (x)Q(x). gdzie Q(x) = Q(x)
Dowód twierdzenia 3.5.1 sugeruje, w jaki sposób dla względnie pierwszych wielomianów V (x) i W (x) można wyznaczyć wielomiany P (x) i Q(x) spełniajace zależność (3.23).
Wielomiany względnie pierwsze
54
3. Wielomiany
Przykład 55. Dla względnie pierwszych wielomianów V (x) i W (x) wyznaczyć wielomiany P (x) i Q(x) takie, że P (x)V (x) + Q(x)W (x) ≡ 1, gdy: (a) V (x) = x2 + x − 1 i W (x) = 4; (b) V (x) = x2 + x − 1 i W (x) = x − 2; (c) V (x) = x2 + x − 1 i W (x) = x2 + 2. (a) Zauważmy, że wielomian W (x) jest niezerową stałą, W (x) ≡ 4, więc dla wielomianów P (x) ≡ 0 i Q(x) = W1(x) = 14 mamy P (x)V (x) + Q(x)W (x) = 0 · V (x) +
1 · 4 = 1. 4
(b) Tym razem żaden z wielomianów V (x) = x2 + x − 1 i W (x) = x − 2 nie jest stały, ale niezerową stałą jest reszta z dzielenia V (x) przez W (x), x2 + x − 1 = V (x) = Q(x)W (x) + R(x) = (x + 3)(x − 2) + 5,
(3.26)
gdzie Q(x) = x + 3 i R(x) = 5 są odpowiednio ilorazem i resztą z dzielenia V (x) przez W (x). Wielomiany R(x) ≡ 5 = R i W (x) = x − 2 są względnie pierwsze i dla nich (tak jak w części (a) było dla wielomianów W (x) i V (x)) mamy 1=
1 · R(x) + 0 · W (x), R
a ponieważ wobec (3.26) jest R(x) = V (x) − Q(x)W (x), więc 1= gdzie P (x) =
1 R
=
1 · V (x) − Q(x)W (x) = P (x)V (x) + Q(x)W (x), R
1 5
1 i Q(x) = − R · Q(x) = − 51 (x + 3).
(c) Dla wielomianów V (x) i W (x) tym razem mamy x2 + x − 1 = V (x) = Q(x)W (x) + R(x) = 1 · (x2 + 2) + (x − 3), i
e x2 + 2 = W (x) = Q(x)R(x) + R(x) = (x + 3)(x − 3) + 11,
(3.27) (3.28)
gdzie Q(x) = 1 i R(x) = x − 3 są odpowiednio ilorazem i resztą z dzielenia V (x) przez e W (x), a Q(x) = x + 3 i R(x) = 11 są ilorazem i resztą z dzielenia W (x) przez R(x). Ponieważ R(x) i R(x) są względnie pierwsze i wielomian R(x) jest stały, więc wobec (3.28) i (3.27) otrzymujemy 1= =
1
R(x) 1 R(x)
=−
· R(x) + 0 · R(x) · W (x) −
e Q(x) R(x)
e Q(x) R(x)
· V (x) +
(3.28)
=
· R(x) 1
R(x)
+
1
R(x)
1
(3.27)
=
e · W (x) − Q(x)R(x)
R(x)
e Q(x)Q(x) R(x)
e(x) = − 1 (x + 3) i Q(x) = gdzie P (x) = − Q 11 R(x)
· W (x) −
e Q(x) R(x)
· V (x) − Q(x)W (x)
W (x) = P (x)V (x) + Q(x)W (x),
1 R(x)
+
e
Q(x)Q(x) R(x)
=
1 (x 11
+ 4).
3.6. Funkcje wymierne i ułamki proste Definicja 3.6.1. Niech P (x) i Q(x) będą wielomianami nad ciałem K, powiedzmy P (x) = am xm + am−1 xm−1 + . . . + a1 x + a0 i Q(x) = bn xn + bn−1 xn−1 + . . . + b1 x + b0 . Wtedy funkcję postaci Funkcja wymierna
P (x) am xm + am−1 xm−1 + . . . + a1 x + a0 = Q(x) bn xn + bn−1 xn−1 + . . . + b1 x + b0
(3.29)
nazywamy funkcją wymierną nad ciałem K. Funkcję wymierną (3.29) nazywamy właściwą funkcją wymierną, gdy deg P (x) < deg Q(x).
3.6. Funkcje wymierne i ułamki proste
55
Przykład 56. Funkcje f (x) =
x5 + 2x − 1 , x4 + 1
g(x) =
1 x
i h(x) =
x−7 (x + 1)3
są funkcjami wymiernymi nad ciałem liczb rzeczywistych, a dwie ostatnie są także właściwymi funkcjami wymiernymi. Definicja 3.6.2. Ułamkiem prostym (nad ciałem K) nazywamy funkcję postaci P (x) k , Q(x)
Ułamek prosty
gdzie P (x), Q(x) ∈ K[x], deg P (x) < deg Q(x), wielomian Q(x) jest nierozkładalny w pierścieniu K[x] i k jest dodatnią liczbą naturalną. Z definicji ułamka prostego i z wniosku 3.4.3 wynika, że każdy ułamek prosty nad ciałem liczb zespolonych jest postaci A/(x − x0 )k , gdzie A i x0 są liczbami zespolonymi, a k jest dodatnią liczbą naturalną. Natomiast wobec wniosku 3.4.5 ułamkami prostymi nad ciałem liczb rzeczywistych są tylko i wyłącznie funkcje postaci Bx + C A i , k 2 (x − x0 ) (x + px + q)k
gdzie A, B, C, x0 , p i q są liczbami rzeczywistymi, p2 − 4q < 0, a k jest dodatnią liczbą naturalną. Znajdując iloraz I(x) i resztę R(x) z dzielenia wielomianu P (x) przez Q(x), otrzymujemy P (x) = I(x)Q(x) + R(x), czyli P (x) R(x) = I(x) + , Q(x) Q(x) gdzie deg R(x) < deg Q(x). Oznacza to, że każdą funkcję wymierną można przedstawić w postaci sumy wielomianu i funkcji wymiernej właściwej. Okazuje się, i to jest ważne z praktycznego punktu widzenia, że funkcję wymierną właściwą można przedstawić w postaci sumy skończonej liczby ułamków prostych. Twierdzenie 3.6.1. Niech P i Q będą wielomianami o współczynnikach z ciała K i 0 ¬ deg P < deg Q. Załóżmy, że wielomian Q można przedstawić w postaci iloczynu Q = Qn1 1 · Qn2 2 · . . . · Qnk k , (3.30) gdzie Q1 , Q2 , . . . , Qk są nierozkładalnymi wielomianami w pierścieniu K[x], a każde dwa spośród nich są względnie pierwsze i n1 , n2 , . . . , nk są dodatnimi liczbami naturalnymi. Wtedy funkcję wymierną P/Q można jednoznacznie przedstawić w postaci sumy ułamków prostych, k
X P = Q i=1
Ri,ni −1 Ri,ni −2 Ri,1 Ri,0 + + . . . + ni −1 + ni Qi Q2i Qi Qi
,
(3.31)
gdzie Ri,j (i = 1, . . . , k, j = 1, . . . , ni − 1) są wielomianami o współczynnikach z ciała K i deg Ri,j < deg Qi (j = 0, . . . , ni − 1).
Uwaga. Ze względów praktycznych warto pamiętać, że każdemu czynnikowi Q ni i iloczynu (3.30) w sumie (3.31) odpowiada suma ni ułamków prostych Ri,ni −1 Ri,ni −2 Ri,1 Ri,0 + + . . . + ni −1 + ni , 2 Qi Qi Qi Qi
Ułamki proste nad ciałem liczb rzeczywistych
56
3. Wielomiany których mianownikami są kolejne potęgi wielomianu Qi . Dowód. Udowodnimy tylko istnienie rozkładu (3.31). Z założenia, że każde dwa spośród wielomianów Q1 , Q2 , . . . , Qk są względnie pierwsze wynika, że także każde dwie nk n2 1 spośród ich potęg Qn 1 , Q2 , . . . , Qk są względnie pierwsze. Stąd zaś łatwo wynika, że jedynka jest największym wspólnym podzielnikiem wielomianów QQn1 , QQn2 , . . . , QQ nk . 1
Dlatego istnieją wielomiany S1 , S2 , . . . , Sk ∈ K[x] takie, że
2
Q Q Q S1 + n2 S2 + . . . + nk Sk = 1. 1 Qn Q2 Qk 1
Zatem P P = ·1 Q Q
= =
k
(3.32)
P Q Q Q · S1 + n 2 S2 + . . . + n k Sk 1 Q Qn Q2 Qk 1 P S1 P S2 P Sk + n2 + . . . + nk . 1 Qn Q Qk 1 2
(3.33)
i Udowodnimy obecnie, że każda funkcja P Si /Qn jest sumą wielomianu i skończonej i liczby ułamków prostych. Przez Ii,k oraz Ri,k (0 ¬ k < ni ) oznaczmy wielomiany określone rekurencyjnie w następujący sposób: niech Ii,0 oraz Ri,0 będą odpowiednio ilorazem i resztą z dzielenia wielomianu P Si przez Qi , a dla k = 1, . . . , ni − 1 niech Ii,k oraz Ri,k będą odpowiednio ilorazem i resztą z dzielenia Ii,k−1 przez Qi . Dla tak określonych wielomianów kolejno mamy
P Si
=
Ii,0 Qi + Ri,0
=
(Ii,1 Qi + Ri,1 )Qi + Ri,0
=
((Ii,2 Qi + Ri,2 )Qi + Ri,1 )Qi + Ri,0
.. .
.. .
=
((. . . (Ii,ni −1 Qi + Ri,ni −1 )Qi + . . . + Ri,2 )Qi + Ri,1 )Qi + Ri,0
ni −1 i Ii,ni −1 Qn + . . . + Ri,2 Q2i + Ri,1 Qi + Ri,0 i + Ri,ni −1 Qi
=
(3.34)
i jednocześnie deg Ri,j < deg Qi (j = 0, . . . , ni − 1), bo Ri,j jest resztą z dzielenia i (pewnego wielomianu) przez wielomian Qi . Z (3.34) wynika, że iloraz P Si /Qn jest i sumą wielomianu i ułamków prostych, P Si i Qn i
= =
ni −1 i Ii,ni −1 Qn + . . . + Ri,2 Q2i + Ri,1 Qi + Ri,0 i + Ri,ni −1 Qi i Qn i
Ii,ni −1 +
Ri,ni −1 Ri,ni −2 Ri,1 Ri,0 + + . . . + n −1 + ni . Qi Q2i Qi Qi i
(3.35)
Jeśli teraz przez J oznaczymy sumę wielomianów Ii,ni −1 (i = 1, . . . , k), to z (3.32) i (3.35) otrzymujemy rozkład funkcji P/Q na sumę wielomianu i ułamków prostych, k
X P =J+ Q i=1
ni X Ri,n j=1
i −j
Qji
!
(3.36)
.
Dla dowodu (3.31) pozostaje wykazać, że J jest wielomianem zerowym. Przypuśćmy, że jest inaczej. Wtedy deg J 0 i z (3.36), po przemnożeniu przez Q, otrzymujemy P = JQ +
ni k X X Ri,ni −j i=1
j=1
Qji
Q
!
.
(3.37)
Z nierówności deg Ri,ni −j < deg Qi łatwo wynika, że deg
Ri,ni −j Q < deg Q ¬ deg JQ Qji
dla i = 1, . . . , k oraz j = 1, . . . , ni . To zaś implikuje, że stopień całego wielomianu Pk Pni Ri,ni −j Q jest mniejszy od stopnia wielomianu JQ. Z tej obserwacji j i=1 j=1 Qi
i z (3.37) wynika, że wielomiany P i JQ mają identyczne stopnie. Jednakże wtedy deg P = deg JQ deg Q i to jest sprzeczne z założeniem, że deg P < deg Q. Otrzymana sprzeczność kończy dowód twierdzenia.
3.6. Funkcje wymierne i ułamki proste
57
Dowód twierdzenia 3.6.1 podpowiada ogólną metodę przedstawiania funkcji wymiernej w postaci sumy ułamków prostych. Uzyskamy rozkład funkcji wymiernej właściwej P/Q na sumę ułamków prostych, gdy: (a) jej mianownik Q zapisze się w postaci (3.30), czyli w postaci iloczynu nierozkładalnych czynników; (b) wyznaczy się wielomiany Si takie, że spełniony jest warunek (3.32) (można to zrobić za pomocą uogólnionego algorytmu Euklidesa) ; (c) ułamek P/Q, tak jak w (3.33), zapisze się w postaci sumy ułamków P Si /Qni i i (d) każdy z tych ułamków P Si /Qni i (za pomocą ni -krotnego dzielenia z resztą przez Qi ) przedstawi się w postaci (3.35), tj. w postaci sumy wielomianu i ni ułamków prostych. Przykład 57. Przedstawić funkcję wymierną P (x) 9x + 9 = 3 Q(x) x + 3x2 − 4 w postaci sumy ułamków prostych nad ciałem liczb rzeczywistych. Rozkładu funkcji P/Q dokonamy w sposób (do pewnego stopnia) podobny do tego z dowodu twierdzenia 3.6.1. Mianownik rozważanej funkcji przedstawiamy w postaci iloczynu nierozkładalnych i względnie pierwszych czynników, Q = x3 + 3x2 − 4 = (x − 1)(x + 2)2 = Q1 Q22 , gdzie Q1 = x − 1, n1 = 1, Q2 = x + 2 i n2 = 2. Wyznaczamy teraz wielomiany S1 i S2 , dla których spełniony jest warunek (3.32). Łatwo zauważyć, że jeśli S1 = 1/9 i S2 = −(x + 5)/9, to istotnie mamy Q Q (x + 2)2 (x − 1)(x + 5) S1 + 2 S2 = − = 1. Q1 Q2 9 9
Stąd 9(x + 1) P P = ·1= · Q Q (x − 1)(x + 2)2 =
(x + 2)2 (x − 1)(x + 5) − 9 9
x+1 x2 + 6x + 5 − x−1 (x + 2)2
i każdy z ostatnich ułamków łatwo przedstawia się w postaci sumy wielomianu i ułamków prostych i mamy =
(x − 1) + 2 (x + 2)2 + 2(x + 2) − 3 − x−1 (x + 2)2
2 2 3 = 1+ − 1+ − x−1 x+2 (x + 2)2 2 2 3 = − + . x−1 x+2 (x + 2)2
Obecnie dokładniej opiszemy praktyczne sposoby przedstawiania rzeczywistej funkcji wymiernej właściwej w postaci sumy ułamków prostych (nad ciałem liczb rzeczywistych). Niech P (x)/Q(x) będzie funkcją wymierną, gdzie P (x) i Q(x) są wielomianami o współczynnikach rzeczywistych i 0 ¬ deg P (x) < deg Q(x) = n. Wobec wniosku 3.4.5 wielomian Q(x) można przedstawić w postaci iloczynu Q(x) = a
r Y
i=1
(x − xi )mi
s Y
(x2 + pj x + qj )nj ,
(3.38)
j=1
gdzie a jest pewną liczbą rzeczywistą, x1 , . . . , xr są pierwiastkami rzeczywistymi wielomianu Q(x), liczby rzeczywiste pj i qj są takie, że trójmian x2 +pj x+qj jest
58
3. Wielomiany nierozkładalny w pierścieniu R[x] (dla j = 1, . . . , s), a m1 , . . . , mr i n1 , . . . , ns są dodatnimi liczbami naturalnymi takimi, że m1 + . . . + mr + 2(n1 + . . . + ns ) = n. Wtedy, wobec twierdzenia 3.6.1 i naszych uwag o ułamkach prostych nad ciałem liczb rzeczywistych, funkcję P (x)/Q(x) można przedstawić w postaci sumy ! ! nj r mi s X X P (x) X X Ai,t Bj,u x + Cj,u = + , (3.39) Q(x) (x − xi )t (x2 + pj x + qj )u t=1 i=1 j=1 u=1 gdzie Ai,t (i = 1, . . . , r, t = 1, . . . , mi ) oraz Bj,u i Cj,u (j = 1, . . . , s, u = 1, . . . , nj ) są liczbami rzeczywistymi. W celu wyznaczenia współczynników Ai,t , Bj,u i Cj,u mnożymy obie strony równości (3.39) przez Q(x) otrzymując równość dwóch wielomianów. Z lewej strony nowej równości wystąpi wielomian P (x), powiedzmy P (x) = bm xm + . . . + b1 x + b0 (m ¬ n − 1), a z prawej strony pojawi się pewien wielomian W (x) stopnia n−1, powiedzmy W (x) = cn−1 xn−1 +. . .+c1 x+c0 , którego współczynniki są kombinacjami liniowymi współczynników Ai,t , Bj,u i Cj,u . Równość P (x) = W (x),
Metoda porównywania współczynników
(3.40)
wobec wniosku 3.4.1, jest równoważna identyczności stopni i współczynników wielomianów P (x) i W (x). (Z drugiej strony, ponieważ deg P (x) ¬ deg W (x) = n − 1, więc wobec wniosku 3.4.2 równość (3.40) jest równoważna temu, że dla pewnych n różnych liczb x1 , . . . , xn jest P (x1 ) = W (x1 ), . . . , P (xn ) = W (xn ).) Przyrównując współczynniki stojące przy jednakowych potęgach zmiennej x w obu wielomianach, otrzymujemy układ n równań liniowych c0 = b0 , c1 = b1 , . . . , cn−1 = bn−1
(3.41)
o n niewiadomych Ai,t , Bj,u i Cj,u . Z twierdzenia 3.6.1 wynika, że układ (3.41) zawsze ma rozwiązanie. (Praktyczne sposoby rozwiązywania takich układów równań omawiamy w następnych rozdziałach.) Przykład 58. Rozłożyć na sumę ułamków prostych nad ciałem R funkcję wymierną P (x) −15x + 6 = 3 . (3.42) Q(x) x − 3x2 − 6x + 8
Ponieważ Q(x) = x3 − 3x2 − 6x + 8 = (x − 1)(x + 2)(x − 4), więc wobec (3.39) dla pewnych stałych A, B, C jest P (x) −15x + 6 A B C = = + + . Q(x) (x − 1)(x + 2)(x − 4) x−1 x+2 x−4
(3.43)
Dla wyznaczenia stałych A, B i C obie strony równości (3.43) mnożymy przez mianownik Q(x) otrzymując równość −15x + 6 = A(x + 2)(x − 4) + B(x − 1)(x − 4) + C(x − 1)(x + 2).
(3.44)
Wykonujemy działania po prawej stronie równości (3.44), grupujemy składniki według malejących potęg zmiennej x i otrzymujemy −15x + 6 = (A + B + C)x2 + (−2A − 5B + C)x + (−8A + 4B − 2C).
(3.45)
Przyrównujemy teraz współczynniki stojące przy jednakowych potęgach zmiennej x po obu stronach równości (3.45) otrzymując, układ równań
(
A + B + C = 0, −2A − 5B + C = −15, −8A + 4B − 2C = 6.
3.6. Funkcje wymierne i ułamki proste
59
Stąd A = 1, B = 2 oraz C = −3, więc szukanym rozkładem funkcji (3.42) na sumę ułamków prostych jest −15x + 6 1 2 3 = + − . x3 − 3x2 − 6x + 8 x−1 x+2 x−4
(3.46)
Przykład 59. Przedstawić w postaci sumy ułamków prostych (nad ciałem liczb rzeczywistych) funkcję P (x) 12x2 + 8x + 26 = 4 . Q(x) x + x3 − 4x2 + 2x − 12 Ponieważ Q(x) = x4 + x3 − 4x2 + 2x − 12 = (x − 2)(x + 3)(x2 + 2), więc dla pewnych stałych A, B, C i D jest P (x) A B Cx + D = + + 2 . Q(x) x−2 x+3 x +2 Mnożąc obie strony tej równości przez Q, otrzymujemy 12x2 + 8x + 26 = A(x + 3)(x2 + 2) + B(x − 2)(x2 + 2) + (Cx + D)(x − 2)(x + 3).
(3.47)
Stałe A, B, C i D, podobnie jak to zrobiliśmy w poprzednim przykładzie, można wyznaczyć z układu równań otrzymanego w wyniku przyrównania współczynników stojących przy jednakowych potęgach zmiennej x po obu stronach równości (3.47). Tym razem postąpimy inaczej. Stałe te wyznaczymy biorąc pod uwagę wartości lewej i prawej strony równości (3.47) dla czterech różnych konkretnych wartości x. Do równości (3.47), która jest prawdziwa dla każdego x, wygodnie jest wstawiać takie wartości x, dla których jeden z czynników iloczynu Q(x) = (x − 2)(x + 3)(x2 + 2) jest zerowy i/lub takie, dla których obliczanie wartości obu stron równości (3.47) jest proste. Z (3.47) dla x = 2 otrzymujemy A = 3, bo
Metoda porównywania wartości wielomianów
90 = A(5)(6) + B(0) + (C · 2 + D)(0). Podobnie dla x = −3 mamy 110 = A(0) + B(−5)(11) + (C(−3) + D)(0), więc B = −2. Dla x = 0 otrzymujemy 26 = A(6) + B(−4) + D(−6) = 18 + 8 − 6D i dlatego D = 0. W końcu dla x = 1 jest 46 = A(4)(3) + B(−1)(3) + (C + D)(−1)(4) = 42 − 4C i stąd C = −1. Zatem mamy rozkład P (x) 3 2 x = − − 2 . Q(x) x−2 x+3 x +2
Przedstawiamy teraz kolejny dość wygodny sposób wyznaczania współczynników Ai,t rozkładu (3.39) funkcji P (x)/Q(x), sposób przez niektórych nazywany “metodą zakrywania”. Tak jak w (3.38), niech xi będzie mi -krotnym pierwiastkiem wielomianu Q(x). Przez Zxi (x) oznaczamy funkcją powstałą z ułamka (x − xi )mi P (x)/Q(x) w wyniku podzielenia jego licznika i mianownika przez (x−xi )mi , albo – co na to samo wychodzi – funkcją powstałą z funkcji P (x)/Q(x) przez “zakrycie” czynnika (x − xi )mi w mianowniku Q(x), Zxi (x) = =
(x−xi )mi P (x) Q(x) P (x) (x−x1 )m1... ||||||||||||||| (x−xi )mi ... (x−xr )mr
Qs
j=1
(x2 +pj x+qj )nj
,
(3.48)
Metoda zakrywania
60
3. Wielomiany gdzie kreskami |||||||| zakryliśmy czynnik (x − xi )mi .
Każdemu pierwiastkowi xi wielomianu Q(x) w rozkładzie (3.39) odpowiada Pmi Ai,t suma t=1 (x−xi )t . Chcąc wyznaczyć jej współczynniki, zapiszmy rozkład (3.39) w postaci Ai,mi Ai,mi −1 Ai,2 Ai,1 P (x) = + + ... + + + S(x), Q(x) (x − xi )mi (x − xi )mi −1 (x − xi )2 x − xi
(3.49)
gdzie S(x) jest sumą tych składników prawej strony rozkładu (3.39), które nie P i Ai,t P (x) zawierają czynnika x − xi , S(x) = Q(x) − m t=1 (x−xi )t . Mnożąc obie strony mi równości (3.49) przez (x − xi ) i uwzględniając (3.48), otrzymujemy Zxi (x)
=
Zx0 i (x)
=
Zx00i (x)
= .. .
(mi −1)
Z xi
mi −1
X
t=0 mi −1
X
t=1 mi −1
X t=2
Ai,mi −t (x − xi )t + (x − xi )mi S(x),
0
tAi,mi −t (x − xi )t−1 + (x − xi )mi S(x) ,
t(t − 1)Ai,mi −t (x − xi )t−2 + (x − xi )mi S(x)
(x) = (mi − 1)!Ai,1 + (x − xi )mi S(x)
(mi −1)
00
,
.
Zauważmy, że każdy składnik pochodnej ((x−xi )mi S(x))(k) dla k = 0, 1, . . . , mi − 1 zawiera czynnik x − xi w dodatniej potędze, więc jego wartość dla x = xi jest równa zeru i dlatego z powyższych równości dla x = xi otrzymujemy Zx(k) (xi ) = k! Ai,mi −k , i a stąd mamy wygodne wzory na współczynniki Ai,t rozkładu (3.39) i (3.49), (k)
Ai,mi −k =
Zxi (xi ) . k!
(3.50)
Z (3.49) i (3.50) wynika, że wszystkie składniki rozkładu (3.39) odpowiadające czynnikowi x − xi można uzyskać metodą zakrywania i mamy P (x) Q(x)
=
Zxi (xi ) 0!(x−xi )mi
+
Zx0 (xi ) i
1!(x−xi )mi −1 Z 00 (xi )
xi + 2!(x−x m −2 + . . . + i) i
(m −1)
Zx i i (xi ) (mi −1)!(x−xi )
(3.51) + S(x).
Przykład 60. Przedstawić w postaci sumy ułamków prostych funkcję wymierną P (x) x + 18 = 2 . Q(x) x +x−6 Ponieważ mianownik Q(x) = x2 +x−6 = (x−2)(x+3) ma tylko jednokrotne pierwiastki, więc metodą zakrywania (zob. (3.51)) otrzymujemy szukany rozkład P (x) Q(x)
=
=
x + 18 Z2 (2) Z−3 (−3) = + (x − 2)(x + 3) x−2 x+3
x+18 (x−2) |||||||| (x+3)
x−2
|x=2
+
x+18 (x−2)(x+3) ||||||||
x+3
|x=−3
=
4 −3 + . x−2 x+3
3.6. Funkcje wymierne i ułamki proste
Przykład 61. Funkcję prostych.
61
9x − 27 przedstawić w postaci sumy ułamków (x + 1)(x − 2)2
Wobec (3.51) mamy 9x − 27 (x + 1)(x − 2)2
=
= =
Z 0 (2) Z−1 (−1) Z2 (2) + + 2 x+1 (x − 2)2 x−2
9x−27 (x+1) |||||||| (x−2)2
|x=−1
+ x+1 −4 −3 4 + + . x+1 (x − 2)2 x−2
9x−27 2 (x+1)(x−2) ||||||||||
(x − 2)2
|x=2
+
9x−27 2 (x+1)(x−2) ||||||||||
x−2
0
|x=2
Uzasadniliśmy, że w rozkładzie właściwej funkcji wymiernej P/Q na sumę ułamków prostych współczynniki odpowiadające pierwiastkom wielomianu Q można wyznaczyć metodą zakrywania (zob. (3.51)). Ponieważ w rozkładzie funkcji P/Q na sumę ułamków prostych nad ciałem liczb zespolonych każdy składnik odpowiada jakiemuś pierwiastkowi wielomianu Q, więc wszystkie współczynniki tego rozkładu można wyznaczyć metodą zakrywania. Stąd zaś wynika, że metodą zakrywania można także otrzymać wszystkie współczynniki rozkładu funkcji P/Q na sumę ułamków prostych nad ciałem liczb rzeczywistych. W tym celu funkcję P/Q rozkładamy najpierw na sumę ułamków prostych nad ciałem C (wyznaczając współczynniki tego rozkładu metodą zakrywania). Z tego rozkładu po dodaniu do siebie każdych dwóch ułamków postaci A/(x − x0 )k i B(x − x0 )k (odpowiadających tej samej potędze k i sprzężonym pierwiastkom x0 i x0 wielomianu Q) otrzymujemy rozkład funkcji P/Q na sumę rzeczywistych ułamków prostych. W następnym przykładzie w ten sposób otrzymujemy rozkład funkcji wymiernej na sumę ułamków prostych nad ciałem liczb rzeczywistych. P (x) 2x − 8 = rozłożyć na sumę ułamków Q(x) (x − 1)(x2 + 2) prostych: (a) nad ciałem C; (b) nad ciałem R. Przykład 62. Funkcję
√ √ W pierścieniu C[x] jest Q(x) = (x − 1)(x − 2j)(x + 2j) i pierwiastki wielomianu Q(x) są jednokrotne, więc wobec (3.51) mamy √ √ Z−√2j (− 2j) Z√2j ( 2j) P (x) Z1 (1) 2x − 8 = = + + . √ √ √ √ Q(x) x−1 (x − 1)(x − 2j)(x + 2j) x − 2j x + 2j
Zauważmy, że
Z1 (1) √ Z√2j ( 2j)
= =
2x−8 √ √ (x−1) ||||||| (x− 2j)(x+ 2j)
2x−8 √ √ (x−1)(x− ||||||||||| 2j) (x+ 2j)
|x=1
√ 2x−8 √ √ Z−√2j (− 2j) = (x−1)(x− 2j)(x+ ||||||||||) 2j
= −2
√ |x= 2j
√ |x=− 2j
więc
=1−
√ 2j
=1+
√ 2j,
√ √ P (x) −2 1 − 2j 1 + 2j √ + √ = + Q(x) x−1 x − 2j x + 2j jest rozkładem funkcji P (x)/Q(x) na sumę zespolonych ułamków prostych. Z rozkładu tego, po dodaniu do siebie dwóch ostatnich ułamków (i wyeliminowaniu “zespoloności”), otrzymujemy rozkład funkcji P (x)/Q(x) na sumę rzeczywistych ułamków prostych, P (x) −2 2x + 4 = + 2 . Q(x) x−1 x +2
62
3. Wielomiany
3.7. Ćwiczenia 1. W pierścieniu Z5 [x] wyznaczyć V (x) + W (x), V (x) − 2W (x), V (x)W (x) i V 2 (x)+W 3 (x), gdy V (x) = x3 + 2x2 + 3x + 4 i W (x) = x3 + 3x2 + 2. 2. Niech Q(x) = x3 + 5x − 1 i R(x) = −23x + 5 będą ilorazem i resztą z dzielenia wielomianu V (x) przez wielomian W (x) = x2 + 2x + 5 w pierścieniu R[x]. Wyznaczyć wielomian V (x). 3. Zbadać podzielność wielomianu V (x) = x3 +x2 +x+1 przez wielomian W (x) = x2 + 3x + 2 w pierścieniu: (a) R[x]; (b) Z5 [x]; (c) Z7 [x]. 4. Korzystając ze schematu Hornera, wyznaczyć iloraz Q(x) i resztę R(x) z dzielenia wielomianu V (x) przez dwumian W (x), gdy: (a) V (x) = x3 − 4x2 + x − 3, W (x) = x − 2; (b) V (x) = x4 − 4x3 − 10x2 − 4x + 4, W (x) = x + 1; (c) V (x) = −4x7 + 12x6 − 15x5 + 21x4 − 8x3 + 7x2 −4x + 6, W (x) = x − 2. 5. Obliczyć iloraz Q(x) i resztę R(x) z dzielenia wielomianu V (x) przez wielomian W (x), gdy: (a) V (x) = 8x4 + 3x2 + 6, W (x) = x + 2; (b) V (x) = x3 + 8, W (x) = x2 − 2x + 4; (c) V (x) = jx2 + x − j, W (x) = x − j w C[x]; (d) V (x) = x2 + 2x + 2, W (x) = 2x + 2 w Z3 [x]; (e) V (x) = 2x3 + 3x2 + 4x + 1, W (x) = 3x + 1 w Z5 [x]; (f ) V (x) = x5 + 2x4 + 3x3 + 4x2 + 3x + 1, W (x) = x + 1 w Z5 [x]. 6. Wyznaczyć resztę R(x) z dzielenia wielomianu V (x) przez wielomian W (x), gdy: (a) V (x) = x4 − 1, W (x) = x − 2 w Z5 [x]; (b) V (x) = 2x2000 + 1999x + 2, W (x) = x2 − 1 w R[x]; (c) V (x) = 6x13 + x, W (x) = x2 + 1 w C[x]; (d) V (x) = x110 − 2x55 + 1, W (x) = x2 + 1 w C[x]. 7. Wyznaczyć wszystkie pierwiastki wielomianu V (x), jeśli x1 jest jednym z pierwiastków wielomianu V (x): (a) V (x) = x3 − x2 − 7x + 15, x1 = 2 + j; (b) V (x) = x3 − 6x2 + 21x − 26, x1 = 2 + 3j; (c) V (x) = x4 − 2x3 + 9x2 − 8x + 20, x1 = 2j; (d) V (x) = x4 + x3 + 2x2 + x + 1, x1 = −j; (e) V (x) = x4 − 6x3 + 11x2 + 12x − 26, x1 = 3 + 2j; (f ) V (x) = x4 + 3x3 + 2x2 − x + 5, x1 = −2 + j. 8. Wyznaczyć krotność pierwiastka x0 = 1 wielomianu V (x), gdy: (a) V (x) = x4 − x3 − 3x2 + 5x − 2; (b) V (x) = x5 − 2x4 − 2x3 + 8x2 − 7x + 2. 9. Znaleźć pierwiastki wielomianu V (x) = x3 − 15x2 +76x − 140, jeśli jednym z jego pierwiastków jest liczba całkowita. 10. Wyznaczyć pierwiastki wielomianu V (x) = x4 −8x3 + 20x2 − 72x + 99, jeśli jednym z nich jest liczba czysto urojona.
11. Wyznaczyć pierwiastki wielomianu V (x), gdy: (a) V (x) = x2 + 3x + 3 − j; (b) V (x) = x2 + (2j − 1)x + 1 + 5j; (c) V (x) = x2 − (5 + j)x + 8 + j; (d) V (x) = 12x3 − 4x2 − 3x + 1; (e) V (x) = x4 − x3 − 2x2 + 6x − 4. 12. Rozwiązać następujące równania: (a) x2 − (3 + 7j)x − 10 + 11j = 0; (b) (3 + j)x2 + (1 − j)x − 6j = 0; (c) x4 + 2jx2 + 8 = 0; (d) x4 − (3 + 6j)x2 − 8 + 6j. 13. Wielomian V (x) przedstawić w postaci iloczynu wielomianów stopnia pierwszego, gdy: (a) V (x) = x3 − 6x2 + 11x − 6; (b) V (x) = x4 + 16. 14. Wielomian V (x) przedstawić w postaci iloczynu rzeczywistych wielomianów stopnia co najwyżej drugiego, gdy: (a) V (x) = x3 + x2 − x + 2; (b) V (x) = x4 + 4x3 + 4x2 − 1; (c) V (x) = 3x4 − 5x3 + 3x2 + 4x − 2; (d) V (x) = x6 + 27. 15. Znaleźć największy wspólny dzielnik i najmniejszą wspólną wielokrotność wielomianów V (x) i W (x), gdy: (a) V (x) = 6(x − 1)3 (x + 2)2 (x − 3)(x2 + 4)2 i W (x) = 4(x − 1)2 (x + 2)3 (x + 5)(x2 + 4); (b) V (x) = x5 + x4 − x3 − 2x − 1 i W (x) = 3x4 +2x3 + x2 + 2x − 2. 16. Wyznaczyć wielomiany P (x) i Q(x) takie, że V (x)P (x) + W (x)Q(x) jest największym wspólnym dzielnikiem wielomianów V (x) = x4 +2x3 −x2 −4x−2 i W (x) = x4 + x3 − x2 − 2x − 2. 17. Podane funkcje wymierne przedstawić w postaci sumy ułamków prostych nad ciałem liczb rzeczywistych: 4 2 (a) ; (b) ; (x − 1)(x + 3) (x − 1)(x2 + 1) 2 x −1 x (c) ; (d) 2 ; (x − 1)(x − 2)2 x (2x + 1) 4 2 x +x +1 1 4x2 (e) ; (f ) ; (g) ; x(x2 + 1)2 (x3 − 1)2 x4 − 1 x2 − 6x + 4 3x2 − 2x − 1 (h) 4 ; (i) . 3 2 x − 3x + 2x (x − 3)(x2 + 1) 18. Podane funkcje wymierne rozłożyć na sumę ułamków prostych nad ciałem liczb zespolonych: 2xj + 8 16j x2 + x + 1 (a) 2 ; (b) 4 ; (c) ; x +4 x +4 x4 + x 2 2 x + 2x 24x − 8j (d) 2 ; (e) 2 . (x + 2x + 2)2 (x + 1)2 (x − j) 19. Udowodnić, że wielomian rzeczywisty V (x) jest podzielny przez dwumian x − 1 wtedy i tylko wtedy, gdy suma współczynników wielomianu V (x) jest równa zeru.
3.7. Ćwiczenia
20. Udowodnić, że jeśli liczba naturalna m jest dzielnikiem liczby naturalnej n, to wielomian xm − am jest dzielnikiem wielomianu xn − an (a ∈ R). 21. Niech x0 będzie jednokrotnym pierwiastkiem wieA lomianu Q(x) i niech x−x + S(x) będzie rozkła0 dem funkcji wymiernej właściwej P (x)/Q(x) na sumę ułamków prostych, gdzie A jest liczbą i S(x) jest funk0) . cją ciągłą w punkcie x0 . Udowodnić, że A = QP0(x (x0 ) 22. Niech V (x) = an xn + . . . + a1 x + a0 będzie wielomianem, którego współczynniki an , . . . , a1 , a0 są liczbami rzeczywistymi. Pokazać (bez odwoływania się do twierdzenia 3.4.5), że jeśli liczba zespolona z0 jest pierwiastkiem wielomianu V (x), to także liczba sprzężona z0 jest pierwiastkiem wielomianu V (x). 23. Niech x1 , x2 , . . . , xn będą pierwiastkami wielomianu V (x) = xn + a1 xn−1 + . . . + an . Udowodnić, że prawdziwe są następujące związki
a1 = −(x1 + x2 + . . . + xn ), a2 = x1 x2 + x1 x3 + . . . + xn−1 xn , a3 = −(x1 x2 x3 + x1 x2 x4 + . . . + xn−2 xn−1 xn ), ..................................................... an = (−1)n x1 x2 · . . . · xn ,
nazywane wzorami Vi`ete’a. 24. Wpisując TAK albo NIE, stwierdzić prawdziwość każdego z następujących zdań: 1 Jeśli V (x) = 3x3 + 5x + 1 i W (x) = 2x + 4 są wielomianami z pierścienia Z6 [x], to deg(V (x)W (x)) = deg V (x) + deg W (x). Jeśli V (x) = 3x3 + 5x + 1 i W (x) = 2x + 4 są wielomianami z pierścienia Z7 [x], to deg(V (x)W (x)) = deg V (x) + deg W (x). 2
3 Największy wspólny dzielnik dwóch niezerowych wielomianów z pierścienia R[x] wyznaczony jest w sposób jednoznaczny. 4 Wielomiany 2x + 6 oraz 4x2 + 12 są względnie pierwsze w pierścieniu R[x]. 5 Jeśli V (x) i W (x) są niezerowymi wielomianami z pierścienia R[x] takimi, że V (x) jest dzielnikiem W (x) i W (x) jest dzielnikiem V (x), to V (x) = W (x). 6 Jeśli wielomian V (x) jest dzielnikiem wielomianów W (x) i U (x) w pierścieniu R[x], to V (x) jest dzielnikiem wielomianu W (x)S(x)+U (x)T (x) dla każdych wielomianów S(x) i T (x) z pierścienia R[x]. 7 Zbiór wszystkich funkcji wymiernych (nad ustalonym ciałem K) jest ciałem ze względu na dodawanie i mnożenie funkcji.
63
Rozdział 4
MACIERZE 4.1. Podstawowe definicje
Macierz wymiaru m × n
aij – współczynniki macierzy A = [aij ] K m×n – zbiór macierzy wymiaru m × n
Wiersz i kolumna macierzy
Definicja 4.1.1. Macierzą (dokładniej – macierzą o m wierszach i n kolumnach albo macierzą wymiaru m × n) nazywamy prostokątną tablicę a11 a12 · · · a1j · · · a1n a11 a12 a13 · · · a1n a21 a22 · · · a2j · · · a2n a21 a22 a23 · · · a2n .. .. .. .. . . . . a31 a32 a33 · · · a3n (4.1) A= = a a . . . a · · · a .. .. .. .. i1 i2 ij in . . . . . . . . .. .. .. .. am1 am2 am3 · · · amn am1 am2 . . . amj · · · amn
utworzoną z elementów aij (1 ¬ i ¬ m, 1 ¬ j ¬ n) ustalonego zbioru lub struktury algebraicznej K. W naszych dalszych rozważaniach K będzie ciałem liczb rzeczywistych lub ciałem liczb zespolonych. (W pewnych przypadkach będziemy także rozważać macierze, których elementy są funkcjami, wektorami lub symbolami pewnych obiektów.) Elementy aij macierzy A nazywamy jej współczynnikami. Na oznaczenie macierzy (4.1) będziemy także używać symbolu [aij ]m×n lub [aij ] (gdy znany będzie jej wymiar). Symbolem Km×n oznaczać będziemy zbiór wszystkich macierzy wymiaru m × n, których współczynniki należą do ciała K. Zatem Rm×n jest zbiorem wszystkich rzeczywistych macierzy wymiaru m × n, a Cm×n jest zbiorem wszystkich zespolonych macierzy wymiaru m × n. Macierze a1j a2j ai∗ = ai1 ai2 ai3 . . . ain ∈ K1×n oraz a∗j = . ∈ Km×1 .. amj
nazywamy odpowiednio i-tym wierszem oraz j-tą kolumną macierzy (4.1). Warto zauważyć, że współczynnik aij jest elementem macierzy (4.1) znajdującym się jednocześnie w i-tym wierszu oraz w j-tej kolumnie. (W niektórych dowodach element macierzy X znajdujący się w jej i-tym wierszu oraz w j-tej kolumnie oznaczać będziemy przez (X)ij .)
a11 a21 .. .
ai1 . .. am1
a12 · · · a1j · · · a1n a22 · · · a2j · · · a2n .. .. .. . . . ai2 . . . aij · · · ain .. .. .. . . . am2 . . . amj · · · amn
← i-ty wiersz
↑ j-ta kolumna
4.1. Podstawowe definicje
65
Przykład 63. Macierz A = [aij ] =
2 3 −1 0 1 4
ma dwa wiersze i trzy kolumny, a jej elementami są a11 = 2, a12 = 3, a13 = −1, a21 = 0, a22 = 1 i a23 = 4. W pewnych przypadkach wygodnie będzie macierz (4.1) utożsamiać z macierzą jednowierszową lub jednokolumnową a1∗ a2∗ a∗1 a∗2 . . . a∗n i . , .. am∗
której elementami są odpowiednio kolejne kolumny i kolejne wiersze macierzy (4.1). Będziemy także pisać | | | a∗1 a∗2 . . . a∗n zamiast a∗1 a∗2 . . . a∗n | | | i
− a1∗ − − a2∗ − .. . − am∗ −
zamiast
a1∗ a2∗ .. . am∗
dla podkreślenia, że chodzi o kolumny lub wiersze macierzy. Przykład 64. Macierz A z poprzedniego przykładu możemy utożsamiać z macierzą jednowierszową B i z macierzą jednokolumnową C, gdzie 2 3 −1 [ 2 3 −1 ] B= i C= . 0 1 4 [0 1 4] Definicja 4.1.2. Macierz O = [oij ] ∈ Km×n nazywamy macierzą zerową wymiaru m × n, gdy każdy jej współczynnik oij jest równy zeru, 0 0 ··· 0 0 0 ··· 0 O=. . . . . .. .. . . .. 0 0 ··· 0
Definicja 4.1.3. Macierzą kwadratową stopnia n nazywamy każdą macierz A = [aij ] należącą do zbioru Kn×n , czyli macierz mającą tyle samo wierszy co kolumn, a11 a12 · · · a1n a21 a22 · · · a2n A= . (4.2) .. . . . . .. . .. . an1 an2 · · · ann
Macierz zerowa
Macierz kwadratowa
66
4. Macierze Definicja 4.1.4. Ciąg (a11 , a22 , . . . , ann ) elementów macierzy kwadratowej (4.2) nazywa się główną przekątną macierzy (4.2). O macierzy kwadratowej (4.2) mówimy, że jest macierzą diagonalną, jeśli wszystkie jej elementy znajdujące się poza główną przekątną są równe zeru, czyli jeśli aij = 0 dla i 6= j.
Macierz diagonalna
In – macierz jednostkowa
Taką macierz diagonalną oznaczamy przez diag (a11 , a22 , . . . , ann ). Zatem mamy a11 0 · · · 0 0 a22 · · · 0 diag (a11 , a22 , . . . , ann ) = . .. . . .. . .. . . . 0 0 · · · ann
Macierzą jednostkową stopnia n, oznaczamy ją przez In lub I, nazywamy macierz diagonalną diag (a11 , a22 , . . . , ann ), w której a11 = a22 = . . . = ann = 1. Mamy zatem 1 0 ··· 0 0 1 ··· 0 In = diag (1, 1, . . . , 1) = . . . . . | {z } .. .. . . .. n
0 0 ··· 1
Przykład 65. Macierze 1 1 0 0 0 −1 0 A= , B = 0 0 0, C = 0 0 2 0 0 3 0
0 1 0 0
0 0 1 0
0 0 0 1
są diagonalne i macierz C jest macierzą jednostkową stopnia 4, C = I4 .
4.2. Działania na macierzach Równość macierzy
Definicja 4.2.1. Macierze A = [aij ] ∈ Km×n i B = [bij ] ∈ Ks×t nazywamy równymi i piszemy A = B, gdy m = s,
n = t i aij = bij
dla i = 1 . . . , m oraz j = 1, . . . , n. Definicja 4.2.2. Sumą macierzy A = [aij ] i B = [bij ] należących do zbioru Km×n (gdzie K jest ciałem, a m i n są liczbami naturalnymi) nazywamy macierz A + B = [cij ] ∈ Km×n , której elementy określone są wzorami Suma macierzy: [aij ] + [bij ] = [aij + bij ]
cij = aij + bij dla i = 1, . . . , m oraz j = 1, . . . , n. Dlatego mamy a b a +b a ··· a b ··· b 11
12
1n
a21 a22 · · · a2n . . . .. .. . . .. . am1 am2 · · · amn
11
12
1n
b21 b22 · · · b2n . . . + .. .. . . .. . bm1 bm2 · · · bmn
a12 +b12 11 11 a21 +b21 a22 +b22 = . . .. .. am1 +bm1 am2 +bm2
· · · a1n +b1n · · · a2n +b2n . .. .. . · · · amn +bmn
.
4.2. Działania na macierzach
67
Przykład 66. Dla macierzy rzeczywistych 0 2 −1 1 3 5 1 3 A= , B= i C= 1 3 2 2 0 −2 2 0 suma A + B istnieje i
0 2 −1 1 3 5 1 5 4 A+B= + = , 1 3 2 2 0 −2 3 3 0 ale suma macierzy A i C (oraz B i C) nie istnieje, bo macierze A i C (oraz B i C) mają różne wymiary. Definicja 4.2.3. Iloczynem macierzy A = [aij ] ∈ Km×n przez skalar r z ciała K nazywamy macierz rA = [bij ] ∈ Km×n , w której bij = raij dla i = 1, . . . , m oraz j = 1, . . . , n, czyli a11 a12 · · · a1n ra11 ra12 · · · ra1n a21 a22 · · · a2n ra21 ra22 · · · ra2n r . .. . . . = . .. .. . .. .. . . .. .. . . . am1 am2 · · · amn
Przykład 67. Mamy 2
Iloczyn macierzy przez skalar: r[aij ] = [raij ]
ram1 ram2 · · · ramn
−1 2 −2 4 = . 3 4 6 8
Definicja 4.2.4. Dla macierzy A1 , A2 , . . . , Ak ∈ Km×n i dla skalarów α1 , α2 , . . . , αk z ciała K, macierz α 1 A1 + α 2 A2 + . . . + α k Ak
Kombinacja macierzy
nazywamy kombinacją liniową macierzy A1 , A2 , . . . , Ak ze współczynnikami α1 , . . . , α k . Definicja 4.2.5. Różnicą macierzy A i B tego samego wymiaru nazywamy macierz A − B, gdzie A − B = A + (−1)B. Przykład 68. Jeśli −2 1 3 −2 A= , B= 3 2 1 4
i O=
0 0 , 0 0
to macierz
−2 1 3 −2 0 0 −7 4 2A − B + 3O = 2 − +3 = 3 2 1 4 0 0 5 0 jest kombinacją liniową macierzy A, B i O ze współczynnikami 2, -1 i 3. Z własności ciała K oraz z definicji 4.2.1, 4.2.2 i 4.2.3 natychmiast wynikają następujące własności dodawania macierzy i mnożenia macierzy przez skalary.
Różnica macierzy: [aij ] − [bij ] = [aij − bij ]
68
4. Macierze Twierdzenie 4.2.1. Dla skalarów α, β ∈ K i macierzy A, B, C ∈ Km×n oraz macierzy zerowej O wymiaru m × n jest: (a) A + B = B + A;
(e) α(A + B) = αA + αB;
(b) A + (B + C) = (A + B) + C;
(f ) (α + β)A = αA + βA;
(c) A + O = O + A = A;
(g) (αβ)A = α(βA);
(d) A + (−1)A = O;
(h) 1 · A = A.
Łatwe dowody powyższych własności pozostawiamy Czytelnikowi. Tu zauważmy, że bezpośrednią konsekwencją własności (a) – (d) jest następujący wniosek. (Km×n , +) – grupa przemienna
Wniosek 4.2.1. System algebraiczny (Km×n , +), gdzie + jest działaniem dodawania macierzy, jest grupą przemienną. Definicja 4.2.6. Niech A = [aij ] i B = [bij ] będą odpowiednio macierzami należącymi do zbiorów Km×n i Kn×p . Iloczynem macierzy A i B nazywamy macierz AB = [cij ] ∈ Km×p , w której cij = ai1 b1j + ai2 b2j + . . . + ain bnj =
Iloczyn macierzy
n X
(4.3)
aik bkj
k=1
dla i = 1, . . . , m oraz j = 1, . . . , p. Zauważmy, że iloczyn AB jest określony, gdy ilość kolumn macierzy A jest równa ilości wierszy macierzy B i wtedy też macierz AB ma tyle wierszy co macierz A, a kolumn tyle co macierz B. Warto także zauważyć, że element c ij iloczynu AB jest standardowym iloczynem skalarnym i-tego wiersza ai macierzy A oraz j-tej kolumny bj macierzy B, cij = ai bj , czyli mamy
− a1 − " a1 b 1 a1 b 2 # | − a2 − | | a2 b 1 a2 b 2 b1 b2 . . . bp = . AB = .. .. .. . . | | | am b 1 am b 2 − am −
· · · a1 bp · · · a2 bp .. .. . . . · · · am bp
(4.4)
Przykład 69. Niech
1 2 A = [aij ] = −2 3 0 4
i B = [bij ] =
2 3 0 . −1 1 −2
Ponieważ A ∈ R3×2 i B ∈ R2×3 i liczba kolumn macierzy A jest równa liczbie wierszy macierzy B, więc iloczyn AB istnieje i jest macierzą wymiaru 3 × 3, AB =
"
1 −2 0
2 3 4
#
2 −1
3 1
0 −2
=
"
#
c11 c12 c13 c21 c22 c23 , c31 c32 c33
gdzie cij = ai bj =
2 X k=1
Łatwo znajdujemy
aik bkj = ai1 b1j + ai2 b2j dla 1 ¬ i, j ¬ 3.
4.2. Działania na macierzach
69
c11 = a1 b1 = 1 · 2 + 2 · (−1) = 0,
c23 = a2 b3 = (−2) · 0 + 3 · (−2) = −6,
c12 = a1 b2 = 1 · 3 + 2 · 1 = 5,
c31 = a3 b1 = 0 · 2 + 4 · (−1) = −4,
c13 = a1 b3 = 1 · 0 + 2 · (−2) = −4,
c32 = a3 b2 = 0 · 3 + 4 · 1 = 4,
c21 = a2 b1 = (−2) · 2 + 3 · (−1) = −7,
c33 = a3 b3 = 0 · 0 + 4 · (−2) = −8,
c22 = a2 b2 = (−2) · 3 + 3 · 1 = −3, więc
AB =
"
0 −7 −4
5 −3 4
−4 −6 −8
#
.
Iloczyn BA także istnieje, ale jest macierzą wymiaru 2 × 2, BA =
2 −1
3 1
0 −2
" 1 2 # −2 0
3 4
=
−4 −3
13 −7
6= AB.
Przykład ten ilustruje, że mnożenie macierzy nie jest przemienne. Niżej mamy podobne przykłady: 3 −1 0 3
"
1 0 2
#
1 2 −2 −4
1 −1 2 0
2 5 1
=
=
"
2 −4 −1 2
1 −3 6 0
2 5 1 0 0 0 4 10 2
=
#
3 −4 6 −2
6=
6=
0 0 0 0
4
6=
=
1 −1 2 0
=
2 5 1
10 20 −5 −10
" # 1 0 2
=
3 −1 , 0 3
,
2 −4 −1 2
1 2 . −2 −4
Warto zauważyć, że jeśli macierz A = [aij ] ∈ Km×n pomnoży się przez macierz jednokolumnową x = [ x1 x2 . . . xn ]T ∈ Kn×1 , to wobec (4.4) mamy − a1∗ − a1∗ x a11 x1 + a12 x2 + . . . + a1n xn − a2∗ − a2∗ x a21 x1 + a22 x2 + . . . + a2n xn Ax = x = .. = .. .. . . . am1 x1 + am2 x2 + . . . + amn xn a12 a1n a2n a22 .. + . . . +xn .. . . am1 am2 amn | | | = x1 a∗1 + x2 a∗2 + . . . + xn a∗n , | | |
− am∗ − a11 a21 = x1 . + x2 . .
am∗ x
więc także
Ax = x1 a∗1 + x2 a∗2 + . . . + xn a∗n .
(4.5)
Oznacza to, że iloczyn Ax jest kombinacją liniową kolumn macierzy A ze współczynnikami, które są kolejnymi elementami kolumny x.
70
4. Macierze
Przykład 70. Z (4.5) wynika, że mamy 2 1 3 0 1 3 0 1 −3 −1 = 2 1 − + 3 − 2 = . 2 −4 5 6 3 2 −4 5 6 11 −2 Podobnie, jeśli macierz B = [bij ] ∈ Kn×p przemnażamy przez macierz jednowierszową y = y1 y2 . . . yn ∈ K1×n , to mamy yB = yb∗1 yb∗2 . . . yb∗p " n # n n X X X = yi bi1 yi bi2 . . . yi bip i=1
i=1
n X yi bi1 bi2 . . . bip , =
i=1
i=1
czyli
− b1∗ − n − b2∗ − X yB = y1 y2 . . . yn yi bi∗ . = .. i=1 . − bn∗ −
(4.6)
Zatem iloczyn yB jest kombinacją liniową wierszy macierzy B ze współczynnikami będącymi kolejnymi elementami macierzy y. Teraz z (4.4) i (4.5) mamy a1∗ b∗1 a1∗ b∗2 · · · a1∗ b∗p a2∗ b∗1 a2∗ b∗2 · · · a2∗ b∗p AB = .. .. .. .. . . . . am∗ b∗1 am∗ b∗2 · · · am∗ b∗p a1∗ b∗p a1∗ b∗2 a1∗ b∗1 a2∗ b∗1 a2∗ b∗2 a2∗ b∗p = · · · .. .. .. . . .
am∗ b∗1 am∗ b∗2 am∗ b∗p | | | = Ab∗1 Ab∗2 . . . Ab∗p . | | |
Analogicznie z (4.4) i (4.6) otrzymujemy a1∗ b∗1 a1∗ b∗2 · · · a1∗ b∗p a2∗ b∗1 a2∗ b∗2 · · · a2∗ b∗p AB = .. .. .. .. . . . . am∗ b∗1 am∗ b∗2 · · · am∗ b∗p − a1∗ B − [ a1∗ b∗1 a1∗ b∗2 · · · a1∗ b∗p ] [ a2∗ b∗1 a2∗ b∗2 · · · a2∗ b∗p ] − a2∗ B − = = . .. .. . . [am∗ b∗1 am∗ b∗2 · · · am∗ b∗p ] − am∗ B −
Dlatego mamy następujące własności iloczynu macierzy.
4.2. Działania na macierzach
71
Twierdzenie 4.2.2. Jeśli a1 , . . . , am są kolejnymi wierszami macierzy A ∈ Km×n , a b1 , . . . , bp są kolejnymi kolumnami macierzy B ∈ Kn×p , to iloczyn AB jest macierzą, której kolejnymi kolumnami oraz wierszami są odpowiednio Ab1 , . . . , Abp oraz a1 B, . . . , am B, czyli | | | | | | AB = A b1 b2 . . . bp = Ab1 Ab2 . . . Abp (4.7) | | | | | | i
− a1 − − a1 B − − a2 − − a2 B − AB = ·B = . .. .. . . − am − − am B −
(4.8)
Dodatkowo, i-ta kolumna macierzy AB jest kombinacją liniową kolumn macierzy A o współczynnikach z i-tej kolumny macierzy B (1 ¬ i ¬ p), a j-ty wiersz macierzy AB jest kombinacją liniową wierszy macierzy B o współczynnikach z j-tego wiersza macierzy A (1 ¬ j ¬ m). Przykład 71. Dla macierzy A i B z przykładu 69 mamy " # # " | 1 2 | | AB =
= i jednocześnie
2 3 0 −1 1 −2
−2 3 0 4
""
# " # "
1 2 2 −2 − 3 0 4
AB =
"
=
"
1 2 −2 3 0 4
#
=
Ab1 Ab2 Ab3 | | |
# " # "
# " ##
"
#
1 2 3 −2 + 3 0 4
2 3 0 −1 1 −2
=
1 [ 2 3 0 ] + 2 [ −1 1 − 2 ] −2 [ 2 3 0 ] + 3 [ −1 1 − 2 ] 0 [ 2 3 0 ] + 4 [ −1 1 − 2 ]
1 2 0 −2 −2 3 0 4
− a1 B − − a2 B − − a3 B −
#
=
"
=
0 5 −4 −7 −3 −6 −4 4 −8
"
#
0 5 −4 −7 −3 −6 −4 4 −8
#
.
Następne twierdzenie daje nam jeszcze jedną możliwość rozumienia (i wyznaczania) iloczynu macierzy. Twierdzenie 4.2.3. Jeśli a1 , . . . , an są kolejnymi kolumnami macierzy A = [aij ] ∈ Km×n , a b1 , . . . , bn kolejnymi wierszami macierzy B = [bij ] ∈ Kn×p , to − b − 1 | | . . AB = a1 . . . an (4.9) = a 1 b1 + . . . + a n bn . . | | − bn −
Dowód. Równość (4.9) jest konsekwencją tego, że dla liczb naturalnych i = 1, . . . , m oraz j = 1, . . . , p mamy n X k=1
ak b k
!
=
n X k=1
ij
=
n X
(ak bk )ij
a1k n X a2k . bk1 bk2 . . . bkp = .. k=1 amk ij
aik bkj = (AB)ij ,
k=1
gdzie przez (X)ij oznaczyliśmy element znajdujący w i-tym wierszu oraz j-tej kolumnie macierzy X.
72
4. Macierze
Przykład 72. Korzystając z ostatniego twierdzenia, obliczyć iloczyn AB, gdy 0 1 2 1 3 0 A= i B = −1 3 4 . 2 1 −1 5 0 −1
Mamy
AB = = =
"
#"
| | | a1 a2 a3 | | |
− b1 − − b2 − − b3
1 0 1 2 + 2 0 1 2 0 2 4
+
#
= a 1 b1 + a 2 b2 + a 3 b3
3 −1 3 4 + 1
−3 9 12 −1 3 4
+
0 0 0 −5 0 1
0 5 0 −1 −1
=
−3 10 14 . −6 5 9
W następującym twierdzeniu przedstawiamy pewne własności mnożenia macierzy. Twierdzenie 4.2.4. Dla skalara α i macierzy A, B, C oraz macierzy jednostkowej I zachodzą następujące równości (pod warunkiem, że występujące w nich działania są wykonalne): (a) A(B + C) = AB + AC;
(d) (αA)B = A(αB) = α(AB);
(b) (A + B)C = AC + BC;
(e) A(BC) = (AB)C.
(c) IA = A i BI = B; Dowód. Przykładowo udowodnimy (a) i (e). Pozostałe równości dowodzi się podobnie. Załóżmy, że macierze A, B i C są odpowiednio macierzami wymiaru m × n, n × p oraz n × p i o współczynnikach z ciała K. Ponieważ A(B + C) i AB + AC są macierzami wymiaru m × p,więc dla dowodu równości (a) wystarczy udowodnić, że A(B + C) ij = AB + AC ij dla i = 1, . . . , m oraz j = 1, . . . , p. Tak jest istotnie, bo z definicji iloczynu i sumy macierzy (zob. definicje (4.2.6) i (4.2.2)) oraz z rozdzielności mnożenia względem dodawania w ciele K mamy A(B + C)
ij
=
n X
(A)ik (B + C)kj =
k=1
=
n X
(A)ik (B)kj +
k=1
n X
n X
(A)ik (B)kj + (C)kj
k=1
(A)ik (C)kj
k=1
= (AB)ij + (AC)ij = AB + AC
ij
.
Dla dowodu równości (e) zakładamy, że macierze A, B i C są odpowiednio wymiaru m × n, n × p oraz p × s. Tym razem wystarczy wykazać, że A(BC) ij = (AB)C ij dla i = 1, . . . , m oraz j = 1, . . . , s. To zaś wynika z definicji iloczynu macierzy, bo mamy A(BC)
ij
=
n X
(A)ik (BC)kj =
k=1
=
p n X X l=1
k=1
n X k=1
(A)ik
p X
(A)ik (B)kl (C)lj =
l=1
p X l=1
(B)kl (C)lj
(AB)il (C)lj = (AB)C
ij
.
Równość (e) (tak samo jak i pozostałe równości) można także udowodnić w inny sposób. Przyjmijmy, że A ∈ Km×n , B = [ b1 . . . bp ] ∈ Kn×p i C = [ c1 . . . cs ] = [cij ] ∈ Kp×s . Zauważmy najpierw, że dla iloczynu macierzy A, B i macierzy jednokolumnowej ci (która jest i-tą kolumną macierzy C) wobec (4.5), (a) oraz (d) mamy
4.2. Działania na macierzach
A(Bci )
73
c1i A [ b1 . . . bp ] ... = A(c1i b1 + . . . + cpi bp ) cpi
=
c1i (Ab1 ) + . . . + cpi (Abp ) = [ Ab1 . . . Abp ]ci = (AB)ci .
= Zatem ogólnie mamy
A(BC) = A B[ c1 . . . cs ] = A Bc1 . . . Bcs = =
A(Bc1 ) . . . A(Bcs )
(AB)c1 . . . (AB)cs = (AB)[ c1 . . . cs ] = (AB)C.
Definicja 4.2.7. Macierzą transponowaną macierzy A = [aij ] ∈ Km×n nazywamy macierz AT = [bij ] ∈ Kn×m , w której bij = aji
AT – transpozycja macierzy A (AT )ij = (A)ji
dla i = 1, . . . , n oraz j = 1, . . . , m. Obrazowo, AT powstaje z macierzy A przez zamianę wierszy na kolumny i kolumn na wiersze; kolejne wiersze macierzy A stają się kolejnymi kolumnami macierzy AT . Przykład 73. Macierzami transponowanymi macierzy 2 −1 1 2 −3 A= , B= i C = 1 −2 0 4 3 4 −4 0 8
są odpowiednio
AT =
2 3 −1 4
,
BT =
1 −4 2 0 −3 8
1 −2 i CT = 0 . 4
Definicja 4.2.8. Macierz kwadratową A nazywamy macierzą symetryczną, gdy AT = A,
(4.10)
Macierz symetryczna
a jest ona skośnie symetryczna, gdy AT = −A.
(4.11)
Równoważnie, macierz kwadratowa A = [aij ] stopnia n jest symetryczna, gdy aij = aji ,
(4.12)
a jest ona skośnie symetryczna, gdy aij = −aji
(4.13)
dla każdych indeksów i, j = 1, . . . , n. Elementy głównej przekątnej macierzy skośnie symetrycznej A = [aij ] są równe zeru, a11 = a22 = . . . = ann = 0, bo wobec (4.13) jest aii = −aii dla i = 1, . . . , n.
Macierz skośnie symetryczna
74
4. Macierze
Przykład 74. Spośród macierzy 0 1 2 0 1 −2 1 3 −1 , −1 0 −1 2 −1 2 2 1 0
i
0 1 −2 −1 0 −1 , −2 1 2
pierwsza jest symetryczna, druga – skośnie symetryczna, a trzecia nie jest ani symetryczna, ani skośnie symetryczna. Podstawowe własności transpozycji macierzy przedstawiamy w kolejnym twierdzeniu. Twierdzenie 4.2.5. Dla każdych macierzy A, B ∈ Km×n i C ∈ Kn×p oraz skalara α ∈ K jest: (a) (AT )T = A;
(c) (A + B)T = AT + BT ;
(b) (αA)T = αAT ;
(d) (AC)T = CT AT .
Dowód. Równości (a) – (c) są oczywiste. Dla dowodu równości (d) wystarczy wykazać, że (AC)T ij = (CT AT )ij dla i = 1, . . . , p oraz j = 1, . . . , m. Z definicji transpozycji i iloczynu macierzy mamy (AC)T
ij
= =
(AC)ji = n X
n X
(AT )kj (CT )ik =
k=1
Przykład 75. Jeśli A =
(AB)T
n X
(CT )ik (AT )kj = (CT AT )ij
k=1
i to kończy dowód twierdzenia.
(A)jk (C)ki
k=1
1 2 1 3 5 4
2 i B = 1 , to mamy 3
T 2 T 1 2 1 7 = 1 = 3 5 4 23 3 1 3 7 23 = 2 1 3 2 5 = BT AT . = 1 4
4.3. Macierz odwrotna Definicja 4.3.1. Mówimy, że macierz kwadratowa A ∈ Kn×n jest odwracalna, jeśli istnieje macierz B ∈ Kn×n taka, że Macierz odwracalna
AB = BA = In .
(4.14)
Twierdzenie 4.3.1. Jeśli A, B i C są macierzami kwadratowymi stopnia n takimi, że AB = CA = In , to B = C. Dowód. Jeśli AB = In i CA = In , to z własności macierzy jednostkowej i z łączności mnożenia macierzy otrzymujemy B = In B = (CA)B = C(AB) = CIn = C.
4.3. Macierz odwrotna
75
Z definicji 4.3.1 i twierdzenia 4.3.1 wynika, że jeśli macierz A ∈ Kn×n jest odwracalna, to istnieje dokładnie jedna macierz B ∈ Kn×n taka, że AB = BA = In . W takim przypadku mówimy, że B jest macierzą odwrotną do macierzy A i oznaczamy ją symbolem A−1 .
Przykład 76. Jeśli A =
3 2 7 5
iB=
AB =
3 2 7 5
BA =
5 −2 −7 3
i
5 −2 , to mamy −7 3
5 −2 −7 3
3 2 7 5
=
1 0 0 1
=
1 0 0 1
.
Dlatego macierz A jest odwracalna i jej macierzą odwrotną jest B, czyli mamy A−1 = B. Z tych samych powodów macierz B jest odwracalna i B−1 = A.
Przykład 77. Macierz C =
D=
a b c d
1 0 2 0
nie jest odwracalna, bo dla każdej macierzy
=
jest
DC =
a b c d
1 0 2 0
a + 2b 0 c + 2d 0
6=
1 0 0 1
= I2 .
Warunki konieczne i dostateczne odwracalności macierzy oraz sposoby wyznaczania macierzy odwrotnej poznamy w kolejnych rozdziałach. Teraz przedstawiamy trzy podstawowe własności macierzy odwracalnych i ich macierzy odwrotnych. Twierdzenie 4.3.2. Jeśli A i B są macierzami odwracalnymi ze zbioru Kn×n , to: −1 (a) macierz A−1 jest odwracalna i A−1 = A; T T T −1 (b) macierz A jest odwracalna i A = A−1 ; (c) macierz AB jest odwracalna i (AB)−1 = B−1 A−1 .
Dowód. Dla dowodu (a) musimy wskazać macierz X ∈ Kn×n , dla której zachodzą równości A−1 X = XA−1 = In . Ponieważ wiemy już, że te równości zachodzą dla X = A, więc macierz A−1 jest odwracalna i A jest jej macierzą odwrotną. Z odwracalności macierzy A i z własności transpozycji macierzy (zob. tw. 4.2.5 (d)) mamy AT A−1 oraz A−1
T
T
= A−1 A
AT = AA−1
T
T
= ITn = In
= ITn = In
i stąd wynika (b). Z odwracalności macierzy A i B oraz z łączności iloczynu macierzy (tw. 4.2.4 (e)) mamy
(AB) B−1 A−1 = A BB−1 A−1 = AIn A−1 = AA−1 = In i
B−1 A−1 (AB) = B−1 A−1 A B = B−1 In B = B−1 A = In , a to dowodzi (c).
A−1 – macierz odwrotna
76
Potęga macierzy
4. Macierze Definicja 4.3.2. Potęgę macierzy kwadratowej A ∈ Kn×n definiujemy przyjmując, że A0 = In i Ak+1 = Ak A dla k 0. Przykładowo, A1 = A0 A = In A = A i A2 = A1 A = AA.
4 −4 Przykład 78. Dana jest macierz A = . (a) Wykazać, że A2 − 4A + 1 0 4I2 = 0. Wywnioskować stąd, że macierz A jest odwracalna i wyznaczyć A −1 . (b) Indukcyjnie wykazać, że dla każdej liczby naturalnej n jest (n + 1)2n −n2n+1 n A = . n2n−1 (1 − n)2n (a) Łatwo sprawdza się, że A2 −4A+4I2 = 0. Stąd zaś wyliczając I2 , otrzymujemy
1 A − A + I2 4
1 = − A + I2 A = I2 . 4
To dowodzi, że macierz A jest odwracalna i A
−1
− 14 A
=
+ I2 =
(b) Dowodzona równość jest prawdziwa dla n = 1, bo mamy
1
A =A=
4 −4 1 0
=
Wtedy dla macierzy An+1 = An A mamy An+1 = = =
.
(n + 1)2n −n2n+1 n2n−1 (1 − n)2n
(n + 1)2n −n2n+1 n2n−1 (1 − n)2n
(n + 2)2n+1 −(n + 1)2n+2 n (n + 1)2 (1 − (n + 1))2n+1
0 1 . − 41 1
(1 + 1)21 −1 · 21+1 1 · 21−1 (1 − 1)21
Załóżmy teraz, że dla liczby naturalnej n 1 jest An =
4 −4 1 0
4(n + 1)2n − n2n+1 −4(n + 1)2n 4n2n−1 + (1 − n)2n −4n2n−1
Stąd i z twierdzenia o indukcji wynika, że An = liczby naturalnej n.
.
.
(n + 1)2n −n2n+1 n2n−1 (1 − n)2n
dla każdej
4.4. Ślad macierzy kwadratowej Definicja 4.4.1. Jeśli A jest macierzą kwadratową, A = [aij ] ∈ Kn×n , to sumę elementów należących do jej głównej przekątnej nazywamy śladem macierzy A i oznaczamy przez tr (A), czyli tr (A) = a11 + a22 + . . . + ann .
Ślad macierzy
Przykład 79. Jeśli A=
2 1 3 −1 0 5
i
B=
"
2 2 −1 2 1 3
#
,
4.5. Ćwiczenia
77
to macierze AB i BA są kwadratowe, AB =
6 15 3 13
BA =
i
"
2 2 16 −4 −1 7 −1 1 18
#
,
i mają one równe ślady, tr (AB) = 19 = tr (BA). Równość ta nie jest przypadkowa. Jest ona ilustracją bardzo ważnej własności śladu iloczynu macierzy i udowodnimy teraz, że zawsze tr (AB) = tr (BA), jeśli tylko macierze AB i BA są określone (i ich współczynniki należą do pierścienia przemiennego).
Twierdzenie 4.4.1. Jeśli A ∈ Km×n i B ∈ Kn×m , to ślady macierzy AB i BA są sobie równe, czyli tr (AB) = tr (BA).
(4.15)
Dowód. Załóżmy, że A = [aij ], B = [bij ], AB = [cij ] i BA = [dij ]. Wtedy z definicji śladu i definicji iloczynu macierzy mamy tr (AB) =
m X
cii =
i=1
m n X X
aij bji =
i=1 j=1
n m X X
bji aij =
j=1 i=1
n X
djj = tr (BA).
j=1
Twierdzenie 4.4.2. Jeśli A, B ∈ Kn×n , to tr (A + B) = tr (A) + tr (B)
i
tr (AB) = tr (BA).
Dowód. Pierwsza część tezy jest oczywista, a druga wynika z poprzedniego twierdzenia.
Definicja 4.4.2. Macierze A, B ∈ Kn×n nazywamy podobnymi, gdy istnieje macierz odwracalna C ∈ Kn×n taka, że
Macierze podobne
B = C−1 AC. Twierdzenie 4.4.3. Jeśli macierze kwadratowe A i B są podobne, to tr (A) = tr (B). Dowód. Niech C będzie macierzą taką, że B = C−1 AC. Wtedy wobec twierdzenia 4.4.1 mamy tr (B) = tr (C−1 AC) = tr (C−1 (AC)) = tr ((AC)C−1 ) = tr (A(CC−1 )) = tr (AI) = tr (A).
4.5. Ćwiczenia 1. Dane są macierze A, B, C, 2 0 3 1 A= ,B= 1 1 5 0 " # " # 3 2 1 C= 1 0 ,x= 2 , 1 2 2
x i y, gdzie 2 1 , 3 1 y=
2 3
.
Jeśli to możliwe, obliczyć następujące wielkości: (a) A + 2B; (f ) (A + CT )BT ; (k) yT Ax; (l) AxyT ; (b) 2A − C; (g) AT (B + C); (h) Ax − 5y; (m) AAT ; (c) AC; T (d) CA; (i) y A; (n) xxT ; T T (e) AB ; (j) x C; (o) xT x.
"
−1 0 0 0 2 0 2. Oblicz A i A , jeśli A = 0 0 3 T 3. Wyznaczyć liczbę AB 21 , gdy 2
A=
5
1 1 1 2 3 1
i
B=
"
#
.
1 3 5 4 3 2 1 1 1
#
.
4. Na przykładzie macierzy 1 −2 3 −1 −1 5 A= ,B= iC= 2 −4 2 −2 0 1 sprawdzić, czy z równości AB = AC wynika równość B = C.
78
4. Macierze
5. Czy macierze AB i BA są identyczne, gdy
jest podgrupą grupy Kn×n (z działaniem dodawania macierzy). 1 2 3 −2 −1 −6 o 19. Niech Kn×n będzie zbiorem wszystkich macierzy odA= 3 2 0 i B= 3 2 9 . wracalnych należących do zbioru Kn×n . Udowodnić, −1 −1 −1 −1 −1 −4 o że Kn×n jest grupą ze względu na mnożenie macierzy. 1 x Podać przykład niezerowych macierzy A i B wymiaru 20. Pokazać, że zbiór macierzy postaci , gdzie 0 1 2 × 2 i takich, że AB = 0. x ∈ R, jest grupą ze względu na mnożenie macierzy. Podać przykład macierzy A i B takich, że dokładnie 21. Macierz A nazywa się macierzą okresową, gdy jeden z iloczynów AB i BA jest macierzą jednostkoAk+1 = A dla pewnej dodatniej liczby naturalnej k. wą. Wykazać, że macierz Wyznaczyć macierze B i C takie, że " # " # " # 1 2 2 −1 0 1 −2 −6 AB = −1 3 i ACA = 0 −2 2 , gdy A = −3 2 9 2 0 3 1 4 2 0 −3 " # 1 0 1 jest okresowa. Dodatkowo wyznaczyć okres macierzy A−1 = 0 2 0 . A, czyli wyznaczyć najmniejszą dodatnią liczbę na1 0 3 Wyznaczyć, jeśli to możliwe, macierz X taką, że: turalną k, dla której Ak+1 = A. " # 4 −1 1 22. Macierz A nazywamy macierzą idempotentną, gdy 4 −1 ; (a) AX = A3 + 2A, gdy A = −1 A2 = A. (a) Wykazać, że macierz 1 −1 4 " # " # " # " # 2 −2 −4 2 0 0 2 0 −2 4 0 0 A = −1 3 4 0 . (b) 0 4 0 X − X 0 2 0 = 0 8 1 −2 −3 0 0 4 0 0 2 4 0 −6
"
6. 7.
8.
9.
#
"
#
10. Pokazać, że jeśli macierz A ∈ Rm×n ma zerowy jest macierzą idempotentną. (b) Udowodnić, że maciewiersz i B ∈ Rn×p , to także macierz AB ma zerowy rze A i B są idempotentne, gdy AB = A i BA = B. wiersz. 23. O macierzy X mówi się, że jest macierzą nilpotent11. Pokazać, że jeśli A ∈ Rm×n i macierz B ∈ Rn×p ma ną rzędu k, gdy X 6= 0 i k jest najmniejszą liczbą dwie identyczne kolumny, to także macierz AB ma naturalną taką, że Xk = 0. Sprawdzić nilpotentność dwie identyczne kolumny. macierzy 12. (a) Wykazać, że iloczyn dwóch macierzy trójkątnych " # " # 1 −3 −4 1 1 3 górnych (zob. definicję 6.1.2) jest macierzą trójkątną 5 2 6 . 3 4 i B= A = −1 górną. (b) Czy analogiczną własność mają macierze −2 −1 −3 1 −3 −4 trójkątne dolne? 13. Korzystając z twierdzenia 4.2.5 udowodnić, że jeśli 24. Udowodnić, że dla macierzy kwadratowych A i B jest A1 , A2 , . . . , Ak (k 2) są macierzami takimi, że (A+B)(A−B) = A2 −B2 i (A+B)2 = A2 +2AB+ istnieje iloczyn A1 · A2 · . . . · Ak , to B2 wtedy i tylko wtedy, gdy AB = BA. 25. O macierzy X mówi się, że jest macierzą inwolującą, (A1 · A2 · . . . · Ak )T = ATk · . . . · AT2 · AT1 . gdy X2 = I. (a) Wykazać, że macierz X jest macierzą inwolującą wtedy i tylko wtedy, gdy (I − X)(I + X) = 14. Pokazać, że jeśli dla macierzy kwadratowych A i B 0. (b) Sprawdzić inwolucyjność macierzy jest AB = BA, to także An B = BAn dla każdej liczby naturalnej n. " # " # 0 1 −1 4 3 3 15. Uzasadnić, że jeśli A jest rzeczywistą macierzą kwaA = 4 −3 4 i B = −1 0 −1 . dratową, to macierz 12 (A + AT ) jest symetrycz3 −3 4 −4 −4 −3 T 1 na, a macierz 2 (A − A ) jest skośnie-symetryczna. Wywnioskować stąd, że każda rzeczywista ma- 26. Przeprowadzić dowód równości (b) z twierdzenia cierz kwadratowa jest sumą macierzy symetrycznej 4.2.4. i skośnie-symetrycznej. 27. Udowodnić, że jeśli A, B i C są macierzami kwa16. Pokazać, że jeśli A jest macierzą, to każda z macierzy dratowymi takimi, że AC = BC i macierz C jest AAT i AT A jest symetryczna. odwracalna, to A = B. 17. Niech A będzie macierzą symetryczną wymiaru n×n 28. Wykazać, że jeśli A i B są macierzami takimi, że AB = 0 i macierz A jest odwracalna, i niech B bedzie macierzą wymiaru n × m. Wykazać, " to B = #0. 2 −3 3 że BT AB jest macierzą symetryczną. s 29. Uzasadnić, że dla macierzy A = 4 −5 3 jest 18. Niech Kn×n będzie zbiorem wszystkich macierzy sys 4 −4 2 metrycznych wymiaru n × n. Udowodnić, że Kn×n
4.5. Ćwiczenia
79
że A2 − (a + d)A + (ad − bc)I2 = 0, gdy A3 + A2 − 4A − 4I3 = 0. Wywnioskować stąd, że 40. Wykazać, −1 macierz A jest odwracalna i wyznaczyć macierz A . a b A= . " # c d 1 1 −1 30. Dana jest macierz A = 0 0 1 . Wykazać, że 41. Rzeczywista macierz kwadratowa o nieujemnych współczynnikach jest macierzą Markowa, jeśli suma 2 1 2 współczynników każdej kolumny jest równa 1. (a) Czy A3 = 3A2 − 3A + I3 . Stąd wywnioskować, że A jest −1 4 w macierzy Markowa suma współczynników każdego odwracalna i wyznaczyć A . Macierz A wyrazić 2 wiersza także jest równa 1? (b) Czy iloczyn macierzy poprzez macierze A , A i I3 i znaleźć jej bezpośrednią Markowa jest macierzą Markowa? postać. 31. Macierzą Heisenberga nazywamy każdą macierz po- 42. Udowodnić, że dla macierzy A ∈ Rm×n jest tr (AT A) = 0 wtedy i tylko wtedy, gdy A = 0. x y staci , gdzie x, y ∈ R i x > 0. (a) Udowodnić, 0 1 43. Wpisując TAK albo NIE, stwierdzić prawdziwość że iloczyn macierzy Heisenberga jest macierzą Heisenkażdego z następujących zdań: berga. (b) Wykazać, że każda macierz Heisenberga 1 Jeśli macierze A i B są równe, to dla każdej jest odwracalna i uzasadnić, że jej macierzą odwrotną macierzy C jest AC = BC. jest macierz Heisenberga. macierz Heisen (c) Znaleźć 2 Jeśli dla macierzy A, B i C jest AC = BC, 2 3 1 2 berga X taką, że X= . to także jest A = B. 0 1 0 1 32. Niech A i B będą macierzami kwadratowymi i niech 3 Jeśli A i B są macierzami kwadratowymi taA będzie macierzą odwracalną. Udowodnić, że AB = kimi, że AB = 0, to także BA = 0. BA wtedy i tylko wtedy, gdy A−1 B = BA−1 . 4 Jeśli A i B są macierzami takimi, że AB = 0, 33. Udowodnić, że jeśli A jest macierzą wymiaru n × n i X jest jedyną macierzą taką, że AX = In , to XA = In i dlatego X = A−1 . 4 −3 34. Dana jest macierz A = . (a) Udowodnić, 1 0 2 że A = 4A − 3I2 . (b) Indukcyjnie wykazać, że An =
n
n
3 −1 3−3 A+ I2 2 2
dla
n 1.
35. Wykazać, że jeśli dla macierzy kwadratowych A, B i P jest P−1 AP = B, to P−1 An P = Bn dla każdej liczby naturalnej n. 4 −3 3 1 36. Udowodnić, że jeśli A = i P = , 1 0 1 1 to P−1 AP = diag (3, 1). Korzystając z tej równości wykazać, że An =
n
n
3 −1 3−3 A+ I2 2 2
dla
n 1.
37. Wykazać, że jeśli macierz A jest odwracalna, to (Ak )−1 = (A−1 )k dla każdej liczby naturalnej k. 38. Ciągiem Fibonacciego (zob. (10.13)) nazywamy ciąg (Fn ), w którym F0 = 0, F1 = 1 i Fn = Fn−1 + Fn−2 dla n 2. Korzystając z tego ciągu podać i udowod 1 1 nić wzór na n-tą potęgę macierzy A = . 1 0
39. Podać i udowodnić wzór na n-tą potęgę macierzy A i następnie obliczyć limn→∞ An , gdy: (a) A =
1/2 α ; (b) A = 0 1/2
1/2 1/2 . 1/4 3/4
to koniecznie A = 0 lub B = 0. 5 Jeśli A jest macierzą i A2 = I, to A = I lub A = −I.
Jeśli A jest macierzą i A2 = I, to Ak = I dla każdej liczby naturalnej k 2. 6
7 Jeśli A jest macierzą i A2 = I, to Ak = I dla każdej parzystej liczby naturalnej k 2. 8 Jeśli A i B są macierzami, to z równości AB = I wynika odwracalność macierzy A i B. 9 Jeśli macierze A i B są takie, że AB jest macierzą jednostkową i BA jest macierzą diagonalną, to A i B są wzajemnie odwrotne. 10 Niech A, B i C będą macierzami. Czy z równości A + C = B + C wynika równość A = B? 11 Jeśli A jest macierzą symetryczną wymiaru n × n i A2 = [bij ], to bii 0 dla i = 1, . . . , n. 12 Jeśli dla macierzy A, B i C jest AB = C i dwie spośród nich są kwadratowe, to i trzecia macierz jest kwadratowa. 13 Dla każdej macierzy kwadratowej A i liczby α jest tr (αA) = αtr (A).
14 Dla każdej macierzy kwadratowej A jest tr (AT ) = tr (A).
15
=
"
"
−1 −1 −1 0 1 0 0 0 1
0 1 0 0 0 1 −1 −1 −1
#4
.
#2
=
"
0 1 0 −1 −1 −1 0 0 1
#3
Rozdział 5
UKŁADY RÓWNAŃ LINIOWYCH 5.1. Podstawowe definicje i fakty Definicja 5.1.1. Układem m równań liniowych o n niewiadomych x1 , x2 , . . . , xn nazywamy układ postaci a11 x1 + a12 x2 + . . . + a1n xn a21 x1 + a22 x2 + . . . + a2n xn .. . am1 x1 + am2 x2 + . . . + amn xn
Układ równań liniowych
= b1 , = b2 , .. .
(5.1)
= bm ,
w którym współczynniki aij oraz bi (te ostatnie nazywa się wyrazami wolnymi układu) są elementami ciała K. (W naszych rozważaniach tym ciałem będzie ciało liczb rzeczywistych R lub ciało liczb zespolonych C.) Ze współczynników, niewiadomych i wyrazów wolnych układu (5.1) można utworzyć macierze b1 x1 . . . a1n b2 x2 . . . a2n , b = , x = .. .. .. .. . . . . bm xn . . . amn
i
a11 a12 a21 a22 A = . .. .. . am1 am2
[A|b] =
a11 a12 a21 a22 .. .. . . am1 am2
. . . a1n b1 . . . a2n b2 .. .. .. . . . . . . amn bm
nazywane odpowiednio macierzą główną, macierzą niewiadomych, macierzą wyrazów wolnych i macierzą rozszerzoną układu (5.1). Układ (5.1) jest równoważny jednemu równaniu macierzowemu
a11 x1 + a12 x2 + . . . + a1n xn b1 a21 x1 + a22 x2 + . . . + a2n xn b2 = .. , .. . . am1 x1 + am2 x2 + . . . + amn xn bm
które można zapisać w postaci
a11 a12 a21 a22 .. .. . . am1 am2
. . . a1n x1 b1 . . . a2n x2 b 2 .. · .. = .. .. . . . . . . . amn xn bm
(5.2)
5.1. Podstawowe definicje i fakty
81
(symbolicznie Ax = b), zwanej postacią macierzową układu (5.1), oraz w postaci a11 a12 a1n b1 a21 a22 a2n b2 x1 . + x2 . + . . . + xn . = . (5.3) .. .. .. .. am1 am2 amn bm (symbolicznie x1 a∗1 +x2 a∗2 +. . .+xn a∗n = b), zwanej postacią wektorową układu (5.1).
Przykład 80. Postacią macierzową i wektorową układu równań x1 − 2x2 + x3 = 0, 2x2 − 8x3 = 8, −4x1 + 5x2 + 9x3 = −9
jest odpowiednio
i
1 −2 1 x1 0 0 2 −8 x2 = 8 −4 5 9 x3 −9
1 −2 1 0 x1 0 + x2 2 + x3 −8 = 8 . −4 5 9 −9
Definicja 5.1.2. Rozwiązaniem układu (5.1) nazywamy macierz jednokolumnową s ∈ Kn×1 , dla której As = b.
Rozwiązanie układu
Równoważnie, przez rozwiązanie układu (5.1) możemy rozumieć taki ciąg s 1 , s2 , . . . , sn elementów ciała K, dla którego jest ai1 s1 + ai2 s2 + . . . + ain sn = bi dla i = 1, . . . , m. Mówimy, że układ (5.1) jest niesprzeczny, jeśli ma on co najmniej jedno rozwiązanie. Z drugiej strony układ (5.1) nazywamy układem sprzecznym, jeśli nie ma on żadnego rozwiązania. Definicja 5.1.3. Dwa układy równań Ax = b i Cx = d, gdzie A, C ∈ Km×n i b, d ∈ Km×1 , nazywamy równoważnymi, gdy mają one identyczne zbiory rozwiązań.
Układy równoważne
Operacje elementarne Przedstawimy teraz tzw. operacje elementarne na równaniach układu (5.1), operacje, za pomocą których układ sprowadza się do postaci, z której łatwo odczytuje się rozwiązania układu lub stwierdza się brak rozwiązań tego układu. Mamy trzy typy operacji elementarnych na równaniach układu:
Operacje elementarne na równaniach układu
• zamiana miejscami dwóch równań układu (5.1) (symbolem ri ↔ rj będziemy oznaczać przestawienie miejscami równań ri oraz rj , gdzie i 6= j);
r i ↔ rj
• dodanie do jednego równania układu (5.1) innego równania układu (5.1) pomnożonego przez liczbę różną od zera (symbolu ri + trj użyjemy, gdy do równania ri dodamy równanie rj (j 6= i) pomnożone przez liczbę t).
r i + trj
• pomnożenie równania układu (5.1) przez liczbę różną od zera (symbolu tri użyjemy na oznaczenie faktu pomnożenia obu stron równania ri przez liczbę t 6= 0);
tri
82
5. Układy równań liniowych
Przykład 81. Za pomocą operacji elementarnych można dany układ równań przekształcić w prostszy. Przykładowo mamy (
r3 − r 2 ( 1 x 1 − x 2 + x 3 = 4 r2 − r 1 x1 − x 2 + x 3 = 4 r r3 − 3r1 2 2 x1 + x2 − x3 = 10 2x2 − 2x3 = 6 −→ −→ 3x1 − x2 + 2x3 = 20 2x2 − x3 = 8
(
x1 − x 2 + x 3 = 4 x2 − x 3 = 3 x3 = 2.
Ostatni układ równań jest prostszy od wyjściowego układu i można go rozwiązać “metodą cofania”. W tym celu otrzymane z ostatniego równania x 3 = 2 podstawiamy do drugiego równania (x2 − 2 = 3) i z niego wyliczamy x2 = 5. W końcu x2 = 5 i x3 = 2 podstawiamy do pierwszego równania (x1 − 5 + 2 = 4) i otrzymujemy x1 = 7. Zatem rozwiązaniem ostatniego (i wyjściowego) układu równań jest x1 7 x = x2 = 5 . x3 2
Operacje elementarne na wierszach macierzy
Ponieważ wszystkie informacje o układzie (5.1) zawarte są w jego macierzy rozszerzonej, zamiast wykonywania operacji elementarnych na równaniach układu wygodniej jest wykonywać odpowiednie operacje na wierszach macierzy rozszerzonej. Wyżej przedstawionym operacjom elementarnym na równaniach wzajemnie jednoznacznie odpowiadają operacje elementarne na wierszach macierzy. Niech w1 , w2 , . . . , wm będą wierszami macierzy A ∈ Km×n . Operacjami elementarnymi na wierszach macierzy A są:
w i ↔ wj
• zamiana miejscami dwóch wierszy macierzy A (symbolicznie wi ↔ wj dla i 6= j);
twi wi + twj
• pomnożenie wiersza macierzy A przez liczbę różną od zera (symbolicznie tw i dla t 6= 0);
• dodanie do jednego wiersza macierzy A innego wiersza macierzy A pomnożonego przez liczbę różną od zera (symbolicznie wi + twj ). Za pomocą operacji elementarnych na wierszach macierzy można daną macierz przekształcić w macierz mającą określone własności. Następujący przykład ilustruje przekształcenie macierzy kwadratowej w macierz trójkątną górną. Przykład 82. 0 2 0 0
3 4 3 6
5 2 4 8
5 2 4 6 w1 ↔ w 2 0 3 −→ 5 0 3 7 0 6
2 0 0 0
4 3 3 0
2 5 4 8
6 5 w4 − 2w3 −→ 5 7
2 6 2 4 2 6 5 5 w3 − w 2 0 3 5 5 −→ . 4 5 0 0 −1 0 0 −3 0 0 0 −3
5.1. Podstawowe definicje i fakty
83
Macierze elementarne Definicja 5.1.4. Macierzą elementarną nazywamy macierz otrzymaną z macierzy jednostkowej w wyniku jednej operacji elementarnej na jej wierszach. Niech Eij , Ei (t) i Eij (t) będą odpowiednio macierzami elementarnymi otrzymanymi w wyniku operacji elementarnych wi ↔ wj , twi i wi + twj na wierszach macierzy jednostkowej Im . Warto zauważyć, że jeśli e1 , e2 , . . . , em są kolejnymi wierszami macierzy Im , to
Eij
− − − − = − − −
e1 .. . ei−1 ej ei+1 .. . ej−1 ei ej+1 .. . − em
− − − − − − − −
− e1 −
Eij (t) = Przykład 83. 1 0 E34 = 0 0
← j
.. . − ei−1 − Ei (t) = − tei − −e i+1 − .. .
← i
← i
− em −
−
− − − − −
e1 .. . ei−1 ei + tej ei+1 .. . ej .. . em
1 .. . 1 0 0 ··· 1 0 1 0 .. .. .. = . . . 0 1 0 1 ··· 0 0 1 .. .
−
− − − − −
=
1 ··· 0 .. . . .. . . . 0 ··· 1
← j
t 1 ··· 0 .. . . .. . . . 0 ··· 1
← i
=
← i
. 1 ··· t .. . . .. . . . 0 ··· 1
1
← i
, ← j
,
1 ..
..
. 1
← i
. ← j
Przykładowymi macierzami elementarnymi stopnia 0 0 0 1 0 0 0 1 0 0 1 0 0 0 1 1 0 0 , E (5) = 0 0 5 0 i E24 (5) = 0 0 0 0 1 3 0 1 0 0 0 0 1 0 0
4 są 0 0 1 0
0 5 . 0 1
Niech teraz A będzie macierzą wymiaru m × n, której kolejnymi wierszami są a1 , a2 , . . . , am . Niech B, C i D będą odpowiednio macierzami otrzymanymi z macierzy A w wyniku przestawienia i-tego wiersza z j-tym, przemnożenia i-tego wiersza przez liczbę t oraz dodania j-tego wiersza pomnożonego przez t do i-tego wiersza. Z faktu, że iloczyn ek A jest kombinacją wierszy macierzy A ze
Macierz elementarna
84
5. Układy równań liniowych współczynnikami z jednowierszowej macierzy ek = [ 0 . . 0} 1 0 . . . 0 ] (zob. (4.6)) | .{z k−1
wynika, że
ek A = ak
dla k = 1, . . . , m. Stąd zaś wynika, że mamy
− a1 − − e1 A − − e1 .. .. .. . . . − aj − ←i − ej A − − ej = .. .. .. B = = . . . ←j − ai − − ei A − − ei .. .. .. . . . − am − − em A − − em − a − − e A − − e − 1 1 1 . .. .. .. . . − tai − ←i = − tei A − = − tei − C = .. .. .. . . . − am − − em A − − em − − a − e A − − − 1 1 .. .. . . − ai + taj − ←i = −(ei + tej )A− = − D = .. .. . . − am − − em A − −
− − − −
·A = E A, ij
·A = Ei (t)A,
e1 − .. . ei + tej − ·A = Eij (t)A. .. . em −
Oznacza to, że efekt wykonania jakiejkolwiek operacj elementarnej na wierszach macierzy A jest tożsamy z przemnożeniem macierzy A przez macierz elementarną odpowiadającą tej operacji elementarnej na wierszach. Można także rozważać operacje elementarne na kolumnach macierzy A i zaobserwować, że w wyniku każdej takiej operacji uzyskujemy dokładnie to samo, co w wyniku pomnożenia macierzy A przez macierz elementarną odpowiadającą tej operacji elementarnej. Przykład 84.
1 0 0 E23 (4)A = 0 1 4 0 0 1 a11 = a21 + 4a31 a31
a11 a12 a13 a21 a22 a23 a31 a32 a33 a12 a13 a22 + 4a32 a23 + 4a33 . a32 a33
Inną ważną własność macierzy elementarnych przedstawia następujące twierdzenie. Twierdzenie 5.1.1. Każda macierz elementarna jest odwracalna i macierz odwrotna macierzy elementarnej jest macierzą elementarną. Dowód. Łatwo zauważyć, że dla macierzy elementarnych mamy Eij Eij = Im ,
Ei (t)Ei (1/t) = Im
i
Eij (t)Eij (−t) = Im .
Zatem (Eij )−1 = Eij , i stąd wynika teza.
(Ei (t))−1 = Ei (1/t)
oraz
(Eij (t))−1 = Eij (−t)
5.1. Podstawowe definicje i fakty
85
Przykład 85. Znaleźć macierze odwrotne następujących macierzy elementarnych 0 1 0 1 0 0 1 0 3 E = 1 0 0 , F = 0 2 0 i G = 0 1 0 . 0 0 1 0 0 1 0 0 1
Z dowodu poprzedniego twierdzenia wynika, że E
−1
=
"
0 1 0 1 0 0 0 0 1
#
,
F
−1
=
"
1 0 0 0 21 0 0 0 1
#
G
i
−1
=
"
1 0 −3 0 1 0 0 0 1
#
.
Definicja 5.1.5. Mówimy, że macierz B jest wierszowo równoważna macierzy A, piszemy A ∼ B, gdy macierz B można uzyskać z macierzy A za pomocą skończonego ciągu operacji elementarnych na wierszach. Z odpowiedniości pomiędzy operacjami elementarnymi na wierszach i przemnażaniem macierzy przez macierze elementarne wynika, że macierz B jest wierszowo równoważna macierzy A (czyli A ∼ B) wtedy i tylko wtedy, gdy istnieją macierze elementarne E1 , E2 , . . . , Ek takie, że B = Ek Ek−1 . . . E1 A. Ponieważ macierze E1 , E2 , . . . , Ek są odwracalne, więc także macierz P = Ek Ek−1 . . . E1 jest odwracalna i dlatego mamy: jeśli dla macierzy A i B jest A ∼ B, to istnieje taka macierz odwracalna P, że B = PA. (Udowodnimy, że stwierdzenie odwrotne też jest prawdziwe, tj. udowodnimy, że jeśli B = PA i macierz P jest odwracalna, to A ∼ B.) Warto zauważyć, że dla macierzy P jest P = Ek Ek−1 . . . E1 I, a to oznacza, że P powstaje z macierzy jednostkowej I za pomocą operacji na wierszach odpowiadających kolejno macierzom E1 , E2 , . . . , Ek . Przykład 86. Pokazać, że macierze A i B są wierszowo równoważne i znaleźć taką macierz P, że B = PA, gdy 2 8 7 1 4 3 A = 0 2 2 i B = 0 1 2 . 1 4 3 0 0 1
Dla dowodu wierszowej równoważności macierzy A i B wystarczy wskazać ciąg operacji elementarnych przekształcających macierz A w macierz B (zob. dwie pierwsze kolumny następującej tablicy). Każdej takiej operacji elementarnej odpowiada macierz elementarna, czyli macierz uzyskana w wyniku wykonania tej samej operacji elementarnej na wierszach macierzy I3 . Iloczyn uzyskanych macierzy elementarnych tworzy macierz P. Równoważność macierzy A i B
A =
∼ ∼ ∼ ∼ =
2 0 1
8 2 4
7 2 3
0 0 1
0 2 4
1 2 3
0 0 1
0 1 4
1 1 3
0 0 1
0 1 4
1 2 3
1 0 0
4 1 0
3 2 1
B
Operacje elementarne
Macierze elementarne
w1 − 2w3
1 2 w2
w2 + w 1
w1 ↔ w 3
E13 (−2) =
E2 ( 12 )
=
E21 (1) =
E13 =
Równoważność macierzy I3 i P
1 0 0
0 1 0
−2 0 1
1 0 0
0 0
0 0 1
1 1 0
0 1 0
0 0 1
0 0 1
0 1 0
1 0 0
1 2
I3
=
∼ ∼ ∼ ∼ =
1 0 0
0 1 0
0 0 1
1 0 0
0 1 0
−2 0 1
1 0 0
0
−2 0 1
1 1 0
0
0 1 1
0
P
1 2
0 1 2
0 1 2
0
−2 −2 1 1 −2 −2
Wierszowa równoważność macierzy
86
5. Układy równań liniowych Ponieważ B = E13 E21 (1)E2 ( 21 )E13 (−2)A, więc mamy P
=
E13 E21 (1)E2 ( 12 )E13 (−2)
=
"
0 0 1 0 1 0 1 0 0
#"
1 0 0 1 1 0 0 0 1
#"
1 0 0 0 21 0 0 0 1
#"
1 0 −2 0 1 0 0 0 1
#
=
"
0 0 1 1 21 −2 1 0 −2
#
.
Dla wyznaczenia macierzy P nie trzeba wymnażać macierzy E13 , E21 (1), E2 ( 12 ) i E13 (−2). Wystarczy zauważyć, że P jest macierzą uzyskaną z macierzy I3 kolejno za pomocą operacji w1 − 2w3 , 12 w2 , w2 + w1 i w1 ↔ w3 . Zatem P jest macierzą wygenerowaną w ostatniej kolumnie powyższej tabeli.
Rozwiązywanie układu równań liniowych Omówimy teraz praktyczną metodę rozwiązywania układów równań. W metodzie tej macierz rozszerzoną układu przekształca się w wierszowo równoważną macierz rozszerzoną prostszego i równoważnego układu równań. Twierdzenie 5.1.2. Jeśli macierze [A|b] i [C|d] są wierszowo równoważne, to układy równań liniowych Ax = b i Cx = d są równoważne. Dowód. Załóżmy, że macierze [A|b] i [C|d] są wierszowo równoważne. Wtedy istnieje macierz odwracalna P taka, że [C|d] = P[A|b] = [PA|Pb] i dlatego także C = PA oraz d = Pb. Ponieważ macierz P jest odwracalna, więc mamy równoważności Ax = b ⇔ PAx = Pb ⇔ Cx = d, a to oznacza, że układy Ax = b i Cx = d mają takie same rozwiązania i dlatego są one równoważne.
Praktycznie rozwiązując układ równań liniowych Ax = b, przechodzić będziemy od jego macierzy rozszerzonej [A|b] do wierszowo równoważnej macierzy mającej tzw. postać schodkową. Macierz schodkowa
Definicja 5.1.6. Mówimy, że macierz M ma postać schodkową (albo jest macierzą schodkową), jeśli ma ona następujące własności: • każdy wiersz składający się z samych zer (jeśli taki wiersz w macierzy istnieje) występuje w niej po wszystkich niezerowych wierszach;
Wiodąca jedynka
• w każdym niezerowym wierszu pierwszym niezerowym elementem jest jedynka – nazywamy ją wiodącą jedynką tego wiersza – i występuje ona na prawo od wiodącej jedynki każdego wcześniejszego wiersza.
Normalna macierz schodkowa
Powiemy także, że macierz M ma normalną postać schodkową (albo jest normalną macierzą schodkową), jeśli ma ona postać schodkową i dodatkowo • każda wiodąca jedynka jest jedynym niezerowym elementem kolumny, w której ona występuje. Przykład 87. Dane są macierze A=
"
1 2 3 0 0 1 0 1 3
#
,
B=
"
1 2 3 0 1 3 0 0 0
#
,
C=
"
0 1 3 1 2 3 0 0 0
#
i
D=
"
1 0 3 0 1 3 0 0 0
#
.
Macierz A nie ma postaci schodkowej, bo wiodąca jedynka trzeciego wiersza nie występuje na prawo od wiodącej jedynki drugiego wiersza. Z podobnych powodów macierz C nie ma postaci schodkowej. Macierze B i D są w postaci schodkowej. Dodatkowo, macierz D ma normalną postać schodkową. “Schodkowość” następnych dwóch macierzy E i F podkreślona została schodkowymi łamanymi oddzielającymi zerowe części
5.1. Podstawowe definicje i fakty
87
ich wierszy od tych, które zaczynają się od wiodących jedynek. Macierz F oczywiście ma normalną postać schodkową. W obu macierzach “gwiazdkowe” współczynniki mogą mieć dowolną wartość.
E=
0 0 0 0 0
1 0 0 0 0
∗ 0 0 0 0
∗ 1 0 0 0
∗ ∗ 1 0 0
∗ ∗ ∗ 1 0
∗ ∗ ∗ ∗ 0
∗ ∗ ∗ ∗ 0
i
F=
0 0 0 0 0
1 0 0 0 0
∗ 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
∗ ∗ ∗ ∗ 0
∗ ∗ ∗ ∗ 0
.
Twierdzenie 5.1.3. Każda macierz A = [aij ] ∈ Km×n jest wierszowo równoważna macierzy schodkowej (normalnej macierzy schodkowej). Uwaga. Można udowodnić, że każda macierz jest wierszowo równoważna dokładnie jednej macierzy w normalnej postaci schodkowej. Dowód. Przedstawiamy tu dowód indukcyjny ze względu na s = mn. Twierdzenie jest oczywiste, gdy A jest macierzą zerową i łatwo wynika z założenia indukcyjnego, jeśli A ma zerowy wiersz lub zerową kolumnę. W pozostałych przypadkach przestawiając miejscami dwa wiersze, można macierz A sprowadzić do wierszowo równoważnej macierzy B = [bij ], w której b11 6= 0. Mnożąc teraz pierwszy wiersz macierzy B przez 1/b11 otrzymamy wierszowo równoważną macierz C = [cij ] z c11 = 1. Mnożąc teraz pierwszy wiersz macierzy C przez −ck1 i dodając go do k-tego wiersza (dla k = 2, . . . , m), otrzymamy wierszowo równoważną macierz
1 c12 0 d22 D= ... ... 0 dm2
· · · c1n · · · d2n .. .. . . . · · · dmn
Wobec założenia indukcyjnego macierz D0 , którą otrzymujemy z D przez wykreślenie pierwszego wiersza, jest wierszowo równoważna pewnej macierzy schodkowej D00 . Wstawiając D00 na miejsce D0 uzyskujemy macierz schodkową E = [eij ] wierszowo równoważną macierzy D (i A). W celu otrzymania normalnej macierzy schodkowej wystarczy kolejno (zaczynając od ostatniego niezerowego wiersza) każdy i-ty wiersz (i 2) macierzy E zawierający wiodącą jedynkę, powiedzmy w j-tej kolumnie, pomnożyć przez −elj i dodać go do l-tego wiersza dla l = 1, . . . , i − 1.
Niezerową macierz możemy sprowadzić do wierszowo równoważnej macierzy schodkowej, posługując się następującym algorytmem.
Algorytm redukcji macierzy do postaci schodkowej Dla redukcji niezerowej macierzy A do wierszowo równoważnej macierzy schodkowej wykonujemy następujące kroki: 1. Zaczynając od lewej strony, odnajdujemy pierwszą niezerową kolumnę macierzy A i niezerowy współczynnik a tej kolumny. Jeśli trzeba, przestawiamy wiersze tak, aby niezerowy współczynnik a znalazł się w pierwszym wierszu. 2. Pierwszy wiersz mnożymy przez 1/a dla otrzymania wiodącej jedynki w pierwszym wierszu. 3. Za pomocą operacji zastępowania wierszy (tj. poprzez dodawanie do jednego wiersza macierzy innego wiersza pomnożonego przez liczbę) tworzymy zera wszędzie poniżej wiodącej jedynki.
88
5. Układy równań liniowych 4. Przykrywamy (lub ignorujemy) wiersz zawierający wiodącą jedynkę i przykrywamy wszystkie wiersze powyżej niego, jeśli takie są. Dla powstałej podmacierzy powtarzamy kroki 1–3. Proces ten powtarzamy do wyczerpania niezerowych wierszy. Normalną macierz schodkową otrzymamy, wykonując jeszcze jeden krok. 5. Kolejno zaczynając od ostatniej wiodącej jedynki, za pomocą operacji zastępowania wierszy tworzymy zera powyżej każdej wiodącej jedynki. Przykład 88. Za pomocą powyższego algorytmu macierz A sprowadzić do wierszowo równoważnej macierzy mającej normalną postać schodkową, gdy 0 0 1 0 0 1 A = 2 6 2 4 2 0 . 3 9 5 6 4 4 A
=
∼ ∼ ∼
∼
∼ ∼
0 0 1 0 2 6 2 4 3 9 5 6 2 6 2 4 0 0 1 0 3 9 5 6 1 3 1 2 0 0 1 0 3 9 5 6 1 3 1 2 0 0 1 0 0 0 2 0 1 3 1 2 0 0 1 0 0 0 2 0 1 3 1 2 0 0 1 0 0 0 0 0 1 3 1 2 0 0 1 0 0 0 0 0
1 3 1 2 ∼ 0 0 1 0 0 0 0 0 1 3 0 2 ∼ 0 0 1 0 0 0 0 0 Wiodąca kolumna macierzy
0 1 2 0 4 4 2 0 0 1 4 4 1 0 0 1 4 4 1 0 0 1 1 4 1 0 0 1 1 4 1 0 0 1 1 2 1 0 0 1 1 2 1 0 0 1 1 2
0 −3 0 1 1 2
Krok 1. Pierwsza kolumna jest nizerowa i a = 2 znajdujące się w drugim wierszu może być jej niezerowym elementem. Przestawiamy miejscami dwa pierwsze wiersze. Krok 2. Pierwszy wiersz mnożymy przez 1/2; uzyskujemy wiodącą jedynkę w pierwszym wierszu. Krok 3. Do trzeciego wiersza dodajemy pierwszy wiersz pomnożony przez −3; uzyskujemy zera pod wiodącą jedynką. Krok 4. Przykrywamy pierwszy wiersz, wiersz zawierający wiodącą jedynką. Kroki 1-3. Trzecia kolumna jest pierwszą niezerową kolumną podmacierzy i a = 1 jest niezerowym współczynnikiem tej kolumny znajdującym sie w “pierwszym” wierszu (kroki 1 i 2). Do “drugiego” wiersza dodajemy “pierwszy” pomnożony przez −2 (krok 3). Krok 4. Przykrywamy “pierwszy” wiersz i wiersz poprzedzający; otrzymujemy macierz mającą tylko jeden wiersz. Kroki 1-3 niczego nie zmieniają w tej macierzy jednowierszowej. Krokiem 4 wyczerpujemy wszystkie wiersze macierzy. Otrzymaliśmy macierz schodkową. Krok 5. Od pierwszego wiersza odejmujemy trzeci i następnie od pierwszego odejmujemy drugi. Otrzymaliśmy macierz mającą normalną postać schodkową.
Definicja 5.1.7. Kolumną wiodącą macierzy A nazywamy każdą kolumnę, która w macierzy A lub w macierzy wierszowo równoważnej ma wiodącą jedynkę. Z pojęcia tego skorzystamy w kolejnym twierdzeniu, które mówi o istnieniu i ilości rozwiązań układu równań liniowych.
5.1. Podstawowe definicje i fakty
89
Przykład 89. Kolumną wiodącą w 0 A=2 3
macierzy 0 1 0 0 1 6 2 4 2 0 9 5 6 4 4
(z poprzedniego przykładu) jest odpowiednio pierwsza, trzecia i piąta kolumna.
Twierdzenie 5.1.4. Niech Ax = b będzie układem równań liniowych i niech macierz [C|d] ∈ Km×(n+1) mająca normalną postać schodkową i dokładnie r wiodących kolumn będzie wierszowo równoważna macierzy [A|b]. Układ Ax = b ma rozwiązanie wtedy i tylko wtedy, gdy d nie jest wiodącą kolumną macierzy [C|d]. Dodatkowo, jeśli d nie jest wiodącą kolumną macierzy [C|d], to układ Ax = b ma dokładnie jedno rozwiązanie, gdy r = n, a ma on co najmniej dwa rozwiązania, gdy r < n (nieskończenie wiele rozwiązań, gdy r < n i ciało K jest nieskończone). Dowód. Załóżmy, że d jest wiodącą kolumną macierzy [C|d]. Wtedy [0 . . . 0 | 1] jest jej r-tym wierszem i dlatego 0x1 +0x2 +. . .+0xn = 1 jest r-tym równaniem układu Cx = d. Równanie to nie ma rozwiązania, więc także układ Cx = d nie ma rozwiązania. Stąd i z twierdzenia 5.1.2 wynika, że także układ Ax = b nie ma rozwiązania. Załóżmy teraz, że d nie jest wiodącą kolumną macierzy [C|d]. Jeśli r = n, to wszystkie kolumny macierzy [C|d] poza ostatnią są wiodące i dlatego mamy
1 0 ··· 0 1 ··· .. [C|d] = . 0 0 ··· 0 0 ···
0 d1 0 d2 . . . 1 dn 0 0
,
przy czym ostatni zerowy wiersz może nie pojawić się wcale albo takich zerowych wierszy może być więcej. Macierzy tej odpowiada układ równań
x1 x2
..
. xn 0
= d1 , = d2 , .. . = dn , = 0,
którego jedynym rozwiązaniem jest x1 = d1 , . . . , xn = dn . Wobec twierdzenia 5.1.2 jest to także jedyne rozwiązanie układu Ax = b. Jeśli r < n, to macierzą [C|d] (po ewentualnej permutacji pierwszych n kolumn) jest 1 0 · · · 0 c1 r+1 · · · c1 n d1 0 1 · · · 0 c2 r+1 · · · c2 n d2 . .. .. . . . . . 0 0 ··· 1 c r r+1 · · · cr n dr 0 0 ··· 0 0 ··· 0 0 Macierzy tej odpowiada układ równań
x1 x2
+ c1 r+1 xr+1 + · · · + c1 n xn = d1 , + c2 r+1 xr+1 + · · · + c2 n xn = d2 , .. .. . . xr + cr r+1 xr+1 + · · · + cr n xn = dr , 0 = 0,
90
5. Układy równań liniowych którego rozwiązaniem jest
d1 − c1 r+1 xr+1 − · · · − c1 n xn d2 − c2 r+1 xr+1 − · · · − c2 n xn .. . x = dr − cr r+1 xr+1 − · · · − cr n xn xr+1 .. . xn
=
d1 d2 .. . dr 0 .. . 0
− xr+1
c1 r+1 c2 r+1 .. . cr r+1 1 .. . 0
− . . . − xn
c1 n c2 n .. . cr n 0 .. . 1
,
gdzie niewiadomym xr+1 , . . . , xn (które nazywa się parametrami lub niewiadomymi wolnymi) nadano dowolne wartości z ciała K. Zgodnie z twierdzeniem 5.1.2, tak wyznaczone x (dla każdych parametrów xr+1 , . . . , xn ∈ K) jest także rozwiązaniem wyjściowego układu rówań liniowych Ax = b. Stąd wynika ostatnia część tezy.
Z ostatniego twierdzenia i z jego dowodu otrzymujemy prosty algorytm rozwiązywania układów równań liniowych. Algorytm ten zwykle nazywa się algorytmem Gaussa albo algorytmem Gaussa-Jordana.
Algorytm Gaussa i Gaussa-Jordana rozwiązywania układów równań liniowych Dla rozwiązania układu równań liniowych Ax = b wykonujemy następujące kroki: 1. Tworzymy macierz rozszerzoną [A|b] układu Ax = b. 2. Macierz [A|b] redukujemy do wierszowo równoważnej macierzy schodkowej (normalnej macierzy schodkowej) [C|d]. Jeśli d jest wiodącą kolumną macierzy [C|d], układ Ax = b jest sprzeczny. W przeciwnym przypadku przechodzimy do następnego kroku. 3. Wypisujemy układ równań liniowych Cx = d. 4. Z układu Cx = d metodą cofania (wprost, gdy [C|d] jest normalną macierzą schodkową) wyznaczamy niewiadome odpowiadające wiodącym kolumnom macierzy [C|d]. Metoda Gaussa i metoda Gaussa-Jordana
Sposób rozwiązywania układów równań liniowych zgodnie z powyższym algorytmem nazywamy odpowiednio metodą Gaussa lub metodą Gaussa-Jordana rozwiązywania układów równań liniowych w zależności od tego, czy macierz rozszerzoną [A|b] rozwiązywanego układu równań Ax = b sprowadzamy do wierszowo równoważnej macierzy mającej postać schodkową, czy schodkową normalną. Metody te ilustrujemy trzema przykładami. Przykład 90. Metodą Gaussa rozwiązać układ równań liniowych 2x2 − 8x3 = 8, x1 − 2x2 + x3 = 0, −4x1 + 5x2 + 10x3 = −6.
5.1. Podstawowe definicje i fakty
91
Macierz rozszerzoną powyższego układu za pomocą operacji elementarnych przekształcamy w macierz schodkową. Tu mamy [A|b] =
"
∼
"
∼
"
∼
"
∼
"
∼
"
#
#
0 2 −8 8 1 −2 1 0 −4 5 10 −6
1 −2 1 0 0 2 −8 8 −4 5 10 −6
Przestawiamy pierwszy wiersz z drugim dla uzyskania wiodącej jedynki w pierwszym wierszu (w1 ↔ w2 ). Pierwszy wiersz pomnożony przez 4 dodajemy do trzeciego dla otrzymania zer pod wiodącą jedynką (w3 + 4w1 ).
#
Drugi wiersz mnożymy przez 12 dla uzyskania wiodącej jedynki w drugim wierszu ( 12 w2 ).
#
Drugi wiersz pomnożony przez 3 dodajemy do trzeciego dla otrzymania zera pod kolejną wiodącą jedynką (w3 + 3w2 ).
1 −2 1 0 0 2 −8 8 0 −3 14 −6
1 −2 1 0 0 1 −4 4 0 −3 14 −6
#
#
1 −2 1 0 0 1 −4 4 0 0 2 6
1 −2 1 0 0 1 −4 4 0 0 1 3
Trzeci wiersz mnożymy przez wiodącej jedynki ( 21 w3 ).
1 2
dla uzyskania w nim
.
Ostatnia macierz ma postać schodkową i odpowiada jej układ równań
(
x1 − 2x2 + x3 = 0, x2 − 4x3 = 4, x3 = 3,
którego rozwiązaniem (otrzymanym metodą cofania) jest x3 = 3, x2 = 16 i x1 = 29. Wobec twierdzenia 5.1.2 macierz x=
"
x1 x2 x3
#
=
"
29 16 3
#
jest jedynym rozwiązaniem wyjściowego układu równań.
Przykład 91. Rozwiązać układ równań liniowych x1 + 2x2 + x4 = x1 + 3x2 + 3x3 + 3x4 = x2 + 4x3 + 6x4 = 2x1 + 5x2 + 3x3 + 4x4 =
1, 4, 8, 6.
Dla macierzy rozszerzonej tego układu mamy następujące równoważności
1 1 0 2
2 3 1 5
0 3 4 3
1 3 6 4
1 2 1 w2 − w 1 4 w4 − 2w1 0 1 ∼ 0 1 8 6 0 1
0 3 4 3
1 2 6 2
1 1 2 w3 − w 2 3 w4 − w 2 0 1 ∼ 0 0 8 4 0 0
0 3 1 0
1 2 4 0
1 3 . 5 1
Ostatnia kolumna ostatniej macierzy jest jej kolumną wiodącą, więc z twierdzenia 5.1.4 wynika, że rozważany układ równań liniowych nie ma rozwiązania.
Zaprezentujemy teraz przykład układu mającego nieskończenie wiele rozwiązań.
92
5. Układy równań liniowych
Przykład 92. Metodą Gaussa-Jordana rozwiązać układ równań liniowych Ax = b, gdzie x1 + 3x3 + 2x4 = 10, 2x1 + x2 + x3 + x4 = 7, 2x1 + 2x3 + 4x4 = 8, x1 + 2x2 + 3x3 − 4x4 = 14. Macierz rozszerzoną [A|b] tego układu sprowadzamy do macierzy [C|d] mającej normalną postać schodkową,
[A|b]
=
∼
1 2 2 1
1 0 0 0
0 1 0 2
3 2 1 1 2 4 3 −4
0 3 2 1 −5 −3 0 1 0 0 10 0
w2 − 2w1 10 1 w3 − 2w1 7 w4 − w 1 0 ∼ 0 8 14 0 w1 − 3w3 10 w2 + 5w3 −13 w4 − 10w3 ∼ 3 30
0 3 2 1 −5 −3 0 −4 0 2 0 −6
1 0 0
0 1 0 0 0 1 0 0 0
Ostatniej macierzy odpowiada układ równań Cx = d,
(
x1
x2
+ 2x4 = 1, − 3x4 = 2, x3 = 3,
10 w4 − 2w 2 −13 − 41 w3 −12 4 2 1 −3 2 = [C|d]. 0 3 0 0
z którego wyznaczamy niewiadome odpowiadające wiodącym jedynkom macierzy [C|d]: x1 = 1 − 2x4 , x2 = 2 + 3x4 , x3 = 3. Zatem rozwiązaniem układu Ax = b (i układu Cx = d) jest x1 1 − 2x4 x2 2 + 3x4 x= = x3 3 x4 x4 dla każdego x4 ∈ R.
Z twierdzenia 5.1.4 i jego dowodu wynika następujący wniosek. Wniosek 5.1.1. Niech Ax = b będzie układem równań liniowych, gdzie [A|b] ∈ Km×(n+1) . (1) Jeśli m < n, to układ Ax = b jest sprzeczny albo ma on co najmniej dwa rozwiązania. (2) Jeśli m = n, to układ Ax = b ma dokładnie jedno rozwiązanie wtedy i tylko wtedy, gdy macierz A jest wierszowo równoważna macierzy jednostkowej In .
5.2. Równania macierzowe Weźmy pod uwagę równanie macierzowe AX = B, w którym A i B są macierzami mającymi tyle samo wierszy, powiedzmy A ∈ Km×n i B = [b1 b2 . . . bp ] ∈ Km×p , a wtedy macierz niewiadoma X jest macierzą wymiaru n × p, x11 x12 . . . x1p | | | x21 x22 x2p X = x1 x2 . . . x p = . . . . .. .. . . ... | | | xn1 xn2 . . . xnp
5.2. Równania macierzowe
93
Ponieważ
| | | | AX = A x1 . . . xp = Ax1 . . . Axp | | | |
| | i B = b1 . . . bp , | |
więc równanie AX = B jest równoważne następującemu układowi p równań Ax1 = b1 , Ax2 = b2 , . . . , Axp = bp .
Każdy z tych układów jest układem m równań liniowych o n niewiadomych i każdy z nich można z osobna rozwiązać metodą Gaussa-Jordana. W tym przypadku każdą z macierzy [A|b1 ], [A|b2 ], . . . , [A|bp ] sprowadza się do wierszowo równoważnej normalnej macierzy schodkowej. Wygodniej (i oszczędniej) jest utworzyć macierz rozszerzoną [A|B] i sprowadzić ją do wierszowo równoważnej normalnej macierzy schodkowej [C|D] = [C|d1 . . . dp ]. Z tej ostatniej macierzy można utworzyć macierze [C|d1 ], . . . , [C|dp ] (wierszowo równoważne macierzom [A|b1 ], . . . , [A|bp ]) i z nich lub wprost z macierzy [C|D] można odczytać rozwiązania układów Ax1 = b1 , . . . , Axp = bp , więc także rozwiązanie równania AX = B (albo stwierdzić brak rozwiązania równania AX = B). Z twierdzenia 5.1.4 wynika, że równanie AX = B ma rozwiązanie wtedy i tylko wtedy, gdy żadna kolumna macierzy D nie jest wiodącą kolumną macierzy [C|D]. Wyżej przedstawiony sposób rozwiązywania równań macierzowych postaci AX = B jest prostym uogólnieniem metody Gaussa-Jordana rozwiązywania układów równań liniowych i dalej będzie nosił miano metody Gaussa-Jordana. Przykład 93. Rozwiązać układy równań x1 − 2x2 + x3 = −4 2x1 − x2 + 3x3 = −7 i 4x1 + 2x2 + x3 = 0
liniowych Ax = b i y1 − 2y2 + y3 2y1 − y2 + 3y3 4y1 + 2y2 + y3
Ay = b0 , gdzie = 1 = 10 . = 18
Układ powyższych dwóch układów równań liniowych jest równoważny równaniu macierzowemu " #" # " # 1 −2 1 x 1 y1 −4 1 2 −1 3 x2 y2 = −7 10 . 4 2 1 x 3 y3 0 18 Łatwo sprawdzić, że dla macierzy rozszerzonej tego równania mamy
"
1 −2 1 −4 1 2 −1 3 −7 10 4 2 1 0 18
#
∼ ... ∼
"
1 0 0 0 3 0 1 0 1 2 0 0 1 −2 2
#
.
Stąd widać, że rozwiązaniami układów są odpowiednio liczby x1 = 0, x2 = 1, x3 = −2 oraz y1 = 3, y2 = 2, y3 = 2.
Z faktu, że umiemy rozwiązać równanie macierzowe AX = B wynika, że umiemy także rozwiązać równanie postaci XC = D, bo jest ono równoważne równaniu CT XT = DT . Przykład 94. Rozwiązać równanie macierzowe XA + X = B, gdzie 0 −1 2 0 −6 5 A=1 1 0 i B= . 2 −5 7 0 −3 2
Mamy równoważności
XA + X = B ⇔ X(A + I) = B ⇔ (A + I)T XT = BT
94
5. Układy równań liniowych i z ostatniego równania metodą Gaussa-Jordana (lub inną) możemy wyznaczyć XT i dlatego także X. Mamy T
T
[ (A + I) | B ] = więc macierz X =
"
#
1 1 0 0 2 −1 2 −3 −6 −5 2 0 3 5 7
1 −1 1 2 0 1
∼
"
1 0 0 1 2 0 1 0 −1 0 0 0 1 1 1
#
= I | XT ,
jest rozwiązaniem równania XA + X = B.
Przykład 95. Rozwiązać równania macierzowe AX1 = B1 i AX2 = B2 , gdzie 1 −2 −2 1 −4 −3 2 −6 A = 0 1 1 , B1 = 0 2 1 i B2 = 0 3 . 2 −5 −5 2 −10 −7 4 −14
Oba równania AX1 = B1 i AX2 = B2 można rozwiązywać jednocześnie. W tym celu macierz [A|B1 |B2 ] sprowadzamy do wierszowo równoważnej normalnej macierzy schodkowej. Mamy
1 −4 [ A | B 1 | B2 ] = 2 0 2 −10 " 1 0 0 1 0 −1 0 1 1 0 2 1 ∼ 0 0 0 0 0 0 "
1 −2 −2 0 1 1 2 −5 −5
−3 1 −7 2 0 0 0 0 1
# 2 −6 3 0 4 −14 #
i stąd wynika, że rozwiązaniem równania AX1 = B1 jest macierz X1 =
"
1 0 −1 0 2 1 0 0 0
#
+
"
0 0 0 −α −β −γ α β γ
#
dla każdych α, β, γ ∈ R. Równanie AX2 = B2 nie ma rozwiązania, bo macierz [ A | B2 ] jest wierszowo równoważna macierzy
"
1 0 0 2 0 0 1 1 0 0 0 0 0 0 1
#
,
w której ostatnia kolumna jest kolumną wiodącą.
5.3. Kolejne własności macierzy odwracalnej Wiemy już, że macierze elementarne i ich iloczyny są macierzami odwracalnymi. Teraz przedstawiamy kolejne związki macierzy odwracalnej z macierzami elementarnymi oraz odwracalności macierzy z istnieniem rozwiązań pewnych równań macierzowych i układów równań liniowych. Twierdzenie 5.3.1. Jeśli A jest macierzą kwadratową stopnia n, to następujące stwierdzenia są równoważne: (i) A jest odwracalna; (ii) Równanie AX = In ma rozwiązanie; (iii) Równanie Ax = b ma rozwiązanie dla każdego b ∈ Kn×1 ; (iv) A jest wierszowo równoważna macierzy jednostkowej In ; (v) A jest iloczynem macierzy elementarnych.
5.4. Wyznaczanie macierzy odwrotnej
95
Dowód. (i) ⇒ (ii). Załóżmy, że macierz A jest odwracalna. Wtedy macierz A−1 istnieje i z równości AX = In po przemnożeniu obu jej stron przez A−1 otrzymujemy rozwiązanie X = A−1 równania AX = In . (ii) ⇒ (iii). Załóżmy, że dla macierzy C ∈ Kn×n jest AC = In . Jeśli b ∈ Kn×1 , to Cb jest rozwiązaniem równania Ax = b, bo A(Cb) = (AC)b = In b = b. (iii) ⇒ (iv). Załóżmy, że równanie Ax = b ma rozwiązanie dla każdego b ∈ Kn×1 . Niech B będzie macierzą wierszowo równoważną macierzy A i mającą normalną postać schodkową. Wtedy istnieje macierz odwracalna P (będąca iloczynem macierzy elementernych) taka, że B = PA. Twierdzimy, że B = In . Gdyby było inaczej, to (co najmniej) ostatni wiersz macierzy B byłby zerowy i układ Bx = en byłby sprzeczny. Wtedy także równoważny układ Ax = P−1 en byłby sprzeczny, co zaprzeczałoby naszemu założeniu. (iv) ⇒ (v). Jeśli macierze A i In są wierszowo równoważne, to istnieją macierze −1 −1 elementarne E1 , . . . , Ek takie, że In = Ek . . . E2 E1 A. Wtedy A = E−1 1 E2 . . . E k −1 −1 i także macierze E1 , . . . , Ek są elementarne (zob. tw. 5.1.1). (v) ⇒ (i). Załóżmy teraz, że A = E1 E2 . . . Ek , gdzie E1 , . . . , Ek są macierzami elementarnymi. Ponieważ E1 , . . . , Ek są odwracalne, to także ich iloczyn jest odwracalny. −1 To dowodzi, że macierz A jest odwracalna i A−1 = (E1 . . . Ek )−1 = E−1 k . . . E1 .
1 2 Przykład 96. Macierz A = przedstawić w postaci iloczynu macie−2 −2 rzy elementarnych. Następnie wyznaczyć macierz A−1 . Szukany iloczyn można uzyskać tak jak w dowodzie implikacji (iv) ⇒ (v) poprzedniego twierdzenia. Macierze A i I2 są wierszowo równoważne i mamy A= Stąd E2
1 2
1 2 −2 −2
w2 +2w1
−→
1 2 0 2
w1 −w2
−→
1 0 0 2
(1 )w2 2
−→
1 0 0 1
= I2.
E1 2 (−1)E2 1 (2)A = I2 , więc A
= = =
E2 1 (2)
−1
E1 2 (−1)
E2 1 (−2)E1 2 (1)E2 (2)
1 0 −2 1
i A−1 = E2 ( 21 )E1 2 (−1)E2 1 (2) =
1 1 0 1
1 0 0 12
−1
1 0 0 2
1 −1 0 1
E2 ( 12 )
−1
1 0 2 1
=
−1 −1 . 1 1 2
5.4. Wyznaczanie macierzy odwrotnej Metoda Gaussa-Jordana rozwiązywania równań macierzowych postaci AX = B jest przydatna przy wyznaczaniu macierzy odwrotnej. Następujący wniosek wprost powiada, że rozwiązaniem równania AX = In (jeśli takie istnieje) jest macierz A−1 . Wniosek 5.4.1. Jeśli A i B są macierzami kwadratowymi stopnia n, to B jest macierzą odwrotną macierzy A wtedy i tylko wtedy, gdy B jest rozwiązaniem równania AX = In . Dowód. Jeśli B = A−1 , to oczywiście mamy AB = AA−1 = In . Załóżmy teraz, że AB = In . Oznacza to, że równanie AX = In ma rozwiazanie. Stąd i z twierdzenia 5.3.1 wynika, że macierz A jest odwracalna. Zatem A−1 istnieje i z równości AB = In , po jej przemnożeniu przez A−1 , otrzymujemy B = A−1 .
96
5. Układy równań liniowych
Przykład 97. Wyznaczyć macierz odwrotną macierzy 1 3 2 1 2 5 4 2 A= 3 9 5 3 . 4 12 8 3
Dla wyznaczenia macierzy A−1 wystarczy rozwiązać równanie AX = I4 . Możemy to zrobić metodą Gaussa-Jordana. W tym celu macierz [A|I4 ] sprowadzamy do wierszowo równoważnej normalnej macierzy schodkowej,
1 3 2 5 3 9 4 12
2 4 5 8
1 2 3 3
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
w2 −2w1 w3 −3w1 w4 −4w1
Zatem A−1
∼
∼
1 3 2 1 0 −1 0 0 0 0 −1 0 0 0 0 −1 1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
1 −2 −3 −4
0 1 0 0
0 0 1 0
0 0 0 1
−15 3 2 1 2 −1 0 0 3 0 −1 0 4 0 0 −1
w1+3w2+2w3+w4 (−1)w2 (−1)w3 (−1)w4
.
−15 3 2 1 2 −1 0 0 = . 3 0 −1 0 4 0 0 −1
Problemu odwracalności macierzy A i sposobu wyznaczania macierzy A−1 nie musimy kojarzyć z rozwiązalnością i sposobem wyznaczania rozwiązania równania AX = In . Wobec twierdzenia 5.3.1 odwracalność macierzy A jest tożsama wierszowej równoważności macierzy A i In . Sposób wyznaczania macierzy A−1 jest także praktyczną konsekwencją dowodu tej równoważności. Wniosek 5.4.2. Jeśli A jest macierzą kwadratową stopnia n, to dla pewnej macierzy P jest PA = In wtedy i tylko wtedy, gdy P[A|In ] = [In |A−1 ].
Dowód. Załóżmy, że dla pewnej macierzy P jest PA = In . Wtedy A = P−1 (zob. wniosek 5.4.1) i A−1 = P = PIn . Zatem P[A|In ] = [PA|PIn ] = [In |A−1 ]. Implikacja odwrotna jest oczywista.
Ponieważ macierz odwracalna jest iloczynem macierzy elementarnych (zob. twierdzenie 5.3.1), a każdej macierzy elementarnej jednoznacznie odpowiada operacja elementarna na wierszach macierzy, więc tezę ostatniego twierdzenia możemy przedstawić następująco: ciąg operacji elementarnych na wierszach przekształca macierz A w macierz jednostkową In wtedy i tylko wtedy, gdy ten sam ciąg przekształca macierz In w macierz A−1 . Zatem mamy wygodną metodę wyznaczania macierzy odwrotnej (tożsamą z praktyczną realizacją metody Gaussa-Jordana rozwiązywania równania macierzowego AX = In ).
Algorytm wyznaczania macierzy odwrotnej Dla danej macierzy A wymiaru n × n wykonujemy następujące czynności:
1◦ Tworzymy macierz rozszerzoną [A|In ].
2◦ Macierz [A|In ] za pomocą operacji elementarnych na wierszach sprowadzamy do normalnej postaci schodkowej. Jeśli [A|In ] jest wierszowo równoważna macierzy postaci [In |P], to macierz A jest odwracalna i A−1 = P. W innym przypadku macierz A nie jest odwracalna.
5.5. Struktura rozwiązań układu równań liniowych
97
Przykład 98. Znaleźć (jeśli to możliwe) macierze odwrotne macierzy
2 0 2 A = 0 2 −4 6 0 2
i
1 0 2 B = 2 1 6 . 2 2 8
Dla macierzy A mamy następujące równoważności [A|I3 ]
=
∼
" "
2 0 2 1 0 0 0 2 −4 0 1 0 6 0 2 0 0 1 2 0 0 0 2 0 0 0 −4
#
∼
"
2 0 2 1 0 0 0 2 −4 0 1 0 0 0 −4 −3 0 1
1 # " − 2 0 12 4 0 0 3 1 −1 ∼ 0 4 0 −3 0 1 0 0 4
z których wynika, że A jest odwracalna i A
1 = 4
−1
"
−1 0 1 6 2 −2 3 0 −1
#
#
# −1 0 1 6 2 −2 , 3 0 −1
.
Natomiast dla macierzy B mamy [B|I3 ] =
"
1 0 2 2 1 6 2 2 8
1 0 0 0 1 0 0 0 1
# " ∼
1 0 2 0 1 2 0 1 2
1 0 0 −2 1 0 0 −1 1
# " ∼
1 0 2 0 1 2 0 0 0
1 0 0 −2 1 0 2 −2 1
#
,
a stąd widać, że macierz [B|I3 ] nie jest wierszowo równoważna macierzy [I3 |X] (dla żadnej macierzy X ∈ R3×3 ). Zatem macierz B nie jest odwracalna.
5.5. Struktura rozwiązań układu równań liniowych Definicja 5.5.1. Układ równań Ax = b,
(5.4)
gdzie A ∈ Km×n i b ∈ Km×1 , nazywamy układem jednorodnym, gdy b = 0. W przeciwnym przypadku mówimy, że układ (5.4) jest niejednorodny. Zauważmy, że zbiór rozwiązań układu jednorodnego Ax = 0 jest niepusty, bo macierz zerowa x0 = 0 ∈ Kn×1 zawsze jest rozwiązaniem układu Ax = 0. Rozwiązanie x0 = 0 nazywamy rozwiązaniem zerowym (albo rozwiązaniem trywialnym) układu Ax = 0. W wielu miejscach będziemy zainteresowani istnieniem niezerowych rozwiązań układu jednorodnego. Następujące obserwacje są natychmiastowymi konsekwencjami wniosku 5.1.1. Wniosek 5.5.1. Dla macierzy A ∈ Km×n mamy: (1) układ jednorodny Ax = 0 ma niezerowe rozwiązanie, gdy m < n; (2) jeśli m = n, to układ jednorodny Ax = 0 ma niezerowe rozwiązanie wtedy i tylko wtedy, gdy macierz A nie jest wierszowo równoważna macierzy jednostkowej In .
Ax = 0 – jednorodny Ax = b – niejednorodny, gdy b 6= 0
98
5. Układy równań liniowych
Przykład 99. Jednorodny układ równań x1 − x 2 + x 3 + x 4 = 0 x1 − 2x2 + x3 + 5x4 = 0 ma nieskończenie wiele rozwiązań, bo ma on mniej równań niż niewiadomych (m = 2 < 4 = n). Przykład 100. Zbadać istnienie niezerowych rozwiązań jednorodnego układu równań liniowych x2 + x 3 + x 4 = 0 x1 − x3 − x4 = 0 . x + x − x4 = 0 1 2 x1 + x 2 + x 3 =0
Ponieważ macierz główna tego układu jest wierszowo równoważna macierzy jednostkowej,
0 1 1 1
1 1 1 0 −1 −1 1 0 −1 1 1 0
w4 −w3 w3 −w2
∼
0 1 0 0
1 1 1 0 −1 −1 1 1 0 0 1 1
w1 −w4 w2 +w4
∼
... ∼
więc układ ten ma tylko zerowe rozwiązanie.
1 0 0 0
0 1 0 0
0 0 1 1
0 0 0 1
w4 −w3
∼
I4 ,
Dla macierzy A ∈ Km×n i b ∈ Km×1 oznaczmy przez R0 zbiór wszystkich rozwiązań jednorodnego układu Ax = 0, a przez Rb zbiór rozwiązań niejednorodnego układu równań Ax = b, czyli R0 = {x ∈ Kn×1 : Ax = 0} i Rb = {x ∈ Kn×1 : Ax = b.}
R 0 6= ∅
Wiemy już, że jednorodny układ równań Ax = 0 zawsze ma rozwiązanie, więc zbiór R0 jest niepusty. Teraz zauważmy, że jego elementy mają dodatkową własność. Twierdzenie 5.5.1. Jeśli x0 , y0 ∈ R0 , to αx0 + βy0 ∈ R0 dla każdych α, β ∈ K.
Dowód. Jeśli x0 , y0 ∈ R0 , to Ax0 = 0 i Ay0 = 0, więc z własności iloczynu macierzy dla każdych α, β ∈ K mamy A(αx0 + βy0 ) = A(αx0 ) + A(βy0 ) = α(Ax0 ) + β(Ay0 ) = α0 + β0 = 0, a to oznacza, że αx0 + βy0 ∈ R0 .
x – szczególne rozwiązanie układu Ax = b
Obecnie udowodnimy, że zbiór Rb (zbiór rozwiązań układu niejednorodnego Ax = b) jest jednoznacznie wyznaczony przez zbiór R0 (zbiór rozwiązań układu jednorodnego Ax = 0) i przez dowolne ustalone (czyli szczególne) rozwiązanie x układu niejednorodnego Ax = b. Twierdzenie 5.5.2. Jeśli x ∈ Rb , to Rb = R0 + {x}.
5.6. Ćwiczenia
99
Dowód. Uzasadnimy, że Rb ⊆ R0 + {x} i R0 + {x} ⊆ Rb . ˜ ∈ Rb . Wtedy x0 = x ˜ − x ∈ R0 , bo Załóżmy najpierw, że x
Ax0 = A(˜ x − x) = A˜ x − Ax = b − b = 0.
˜ = x0 + x ∈ R0 + {x} i to dowodzi, że Rb ⊆ R0 + {x}. Stąd x Z drugiej strony, jeśli x0 + x ∈ R0 + {x}, to x0 ∈ R0 i dlatego A(x0 + x) = Ax0 + Ax = 0 + b = b.
Zatem x0 + x ∈ Rb i to dowodzi, że R0 + {x} ⊆ Rb .
Przykład 101. Rozwiązanie układu Ax = b, gdzie x1 + 2x2 + 2x3 + 3x4 = 7, 2x1 + x2 + x3 = 5, 3x + x + x − x 1 2 3 4 = 6, x1 − x4 = 1,
przedstawić jako sumę rozwiązania szczególnego układu niejednorodnego Ax = b i rozwiązania układu jednorodnego Ax = 0. Mamy
1 1 2 2 3 7 2 1 1 0 5 0 [A|b] = ∼ 3 1 1 −1 6 0 1 0 0 −1 1 0 i stąd wynika, że rozwiązaniem układu Ax = b jest
x1 1 + x4 x2 3 − x3 − 2x4 x= = = x3 x3 x4 x4
0 1 0 0
0 −1 1 1 2 3 0 0 0 0 0 0
1 x4 3 −x3 − 2x4 + 0 x3 0 x4
dla każdych x3 , x4 ∈ R. Rozwiązanie to jest sumą rozwiązania szczególnego x = [1 3 0 0]T układu Ax = b i rozwiązania x0 = [x4 (−x3 −2x4 ) x3 x4 ]T (gdzie x3 , x4 ∈ R) układu jednorodnego Ax = 0.
5.6. Ćwiczenia 1. Wskazać macierz elementarną E taką, że: (a) E
(b) E
"
"
1 2 −1 3 0 1 3 3 −2 4 0 3
# "
2 −3 1 3 −2 7 −4 2 2 1 0 3
1 2 −1 3 0 1 3 3 0 8 −2 9
=
# " =
#
−1 macierze A, A−1 oraz A + 2A . 3 2 4. Macierz A = przedstawić w postaci 1 2 iloczynu macierzy elementarnych.
;
2 −3 1 3 2 1 −2 8 2 1 0 3
#
5. Rozwiązać następujące układy równań:
2. Za pomocą macierzy elementarnych wyznaczyć macierz A taką, że: (a) A
(b) A
"
"
1 2 3 4 5 6 1 2 2 3 3 4
#
#
=
=
"
"
1 2 0 −2 0 −4
2 3 1 1 1 2
#
#
(a)
−3x1 + x2 + 4x3 = −5,
(b)
2x − 4x2 + 2x3 = 16, 1
(c)
x + x2 + x3 + x4 = 1, 1
.
;
2x1 − 4x2 + 3x3 = 19,
x1 + 2x2 + 3x3 = 6,
− 2x2 + x3 = 7;
.
3. Macierz A ∈ R3×3 jest iloczynem trzech macierzy elementarnych, A = E23 (−1)E21 E2 (3). Wyznaczyć
x1 + x2 + x3 = 2, + x3 = −3, x1 + x2 − 2x3 = 5;
−2x1
x1 + x2 + 3x3 + 3x4 = 3,
x1 + x2 + 2x3 + 3x4 = 3, x1 + 3x2 + 3x3 + 3x4 = 4;
100
5. Układy równań liniowych 2x − x2 + x3 + 3x4 = 7, 1
x1 + 2x2 + x3 + 3x4 = 12, (d) 2x 1 + 3x2 + x3 + 2x4 = 19, x1 + x2 + 2x3 + 3x4 = 11;
+ + + +
x1 2x1 (e) 3x1 −2x1
(f )
(g)
(
x2 + 3x3 − 2x4 3x2 + 7x3 − 2x4 3x2 + 13x3 − 9x4 x2 − x4
= = = =
0, 9, 1, 0;
−x1 + 2x2 + x4 = 1, −4x1 + 8x2 + 2x3 + 10x4 = 4, −2x1 + 4x2 + 2x3 + 8x4 = 2;
8x1 + 6x2 + 5x3 + 2x4 = 21, 3x1 + 3x2 + 2x3 + x4 = 10,
4x1 + 2x2 + 3x3 + x4 = 8,
3x1 + 5x2 + x3 + x4 = 15, 7x1 + 4x2 + 5x3 + 2x4 = 18;
3x1 −7x1 (h) −x1 2x1
x1 2x1 (i) −3x1 −2x1 (j)
+ + + +
3x2 3x2 6x2 2x2
− − + −
3x3 x3 2x3 2x3
− + − −
3x4 2x4 x4 2x4
= = = =
7, 0, 3, 5;
+ + − −
x2 2x2 3x2 2x2
− − + +
x3 2x3 3x3 2x3
+ + − −
2x4 4x4 6x4 4x4
= 3, = 6, = −9, = −6;
2x + x2 − x3 − x4 + x5 = 1, 1 x1 − x2 + x3 + x4 − 2x5 = 0,
3x1 + 3x2 − 3x3 − 3x4 + 4x5 = 2, 4x1 + 5x2 − 5x3 − 5x4 + 7x5 = 3;
2x − x2 1
+ x4 − 5x5 = −1, x2 + 3x4 + x5 = 1, (k) 4x1 − x2 + x3 + 6x4 − 6x5 = 1, 6x1 − 2x2 + x3 + 7x4 − 11x5 = 0; (l)
(m)
x1 + x2 − x3 + x4 + x5 = 0, 2x1 + x2 + 2x3 − x4 − 2x5 = 0,
4x1 + 3x2 + x4 = 0, 5x1 + 3x2 + 3x3 − x4 − 3x5 = 0, x1 − x2 + 7x3 − 5x4 − 7x5 = 0;
(1 − n)x1 + x2 + . . . + xn = 0, x1 + (1 − n)x2 + . . . + xn = 0,
.. .. . . x1 + x2 + . . . + (1 − n)xn
.. . = 0.
6. Dla jakich wartości parametru k następujący układ ma niezerowe rozwiązanie: (a)
(
(
kx1 − x2 + 3x3 = 0, x1 + 2x2 − x3 = 0, 2x1 − x2 − 2x3 = 0;
x1 + 2x2 + 3x3 = 0, 2x1 + kx2 + 6x3 = 0, −x1 + x2 − kx3 = 0. 7. Czy równanie (b)
"
2 4 −2 3 −1 11 1 2 −1
#"
x1 x2 x3
#
=
"
b1 b2 b3
8. Dla których b1 , b2 i b3 równanie " # " # 1 0 1 b1 −1 1 −1 x = b2 2 −1 2 b3 ma rozwiązanie?
9. Dla jakich a, b i c układ równań ( 2x1 − x2 + 3x3 = a 3x1 + x2 − 5x3 = b −5x1 − 5x2 + 21x3 = c jest sprzeczny?
10. Dany jest układ równań
(
x1 + x 2 − x3 = 2 x1 + 2x2 + x3 = 3 . x1 + x2 + (a2 − 5)x3 = a
Wyznaczyć wszystkie wartości a, dla których układ ten: (a) nie ma rozwiązań; (b) ma dokładnie jedno rozwiązanie; (c) ma nieskończenie wiele rozwiązań. 11. Dane są macierze A=
"
#
"
b=
i
1 1 1
#
.
#
"
#
"
#"
x 1 y1 x 2 y2 x 3 y3
#
"
#
−6 2 0 2 37 = x1 −3 + x2 1 + x3 −8 . −59 2 −1 12 13. Rozwiązać następujące równania macierzowe: (a)
"
(b)
"
(c)
"
7 −2 1 −4 5 −3 5 −1 2
1 1 2 −1 0 1
#
(d) X
"
"
X=
2 1 0 1 −1 0 2 1 −1
(f ) X
ma rozwiązanie dla każdych b1 , b2 , b3 ?
1 2 −1 2 −3 2 −1 12 −7
(a) Rozwiązać równanie Ax = 0. (b) Wszystkie rozwiązania równania Ax = b zapisać w postaci s + n, gdzie s jest jednym konkretnym rozwiązaniem równania Ax = b. (c) Wskazać taki wektor c, że równanie Ax = c nie ma rozwiązania. Uzasadnić swój wybór. 12. Wyznaczyć liczby x1 , x2 i x3 takie, że
(e) X
#
"
1 3 5 2 4 6
1 0 3 2 1 4
#
=
1 2 1 0 −1 1 −1 0 1
#
=
"
2 3 0 4 1 0 −3 −1 1 2 1 3
X−X=
=
#
"
11 1 0 −4 7 5
#
#
;
;
1 0 2 0 3 0 2 0 1
#
;
3 5 7 ;
3 2 5 ; 3 0 9 =
−2 0 6 . −2 2 12
14. Metodą Gaussa-Jordana wyznaczyć macierz odwrotną A−1 macierzy Ai (i = 1, 2, 3, 4), gdy: i A1 =
"
3 1 0 1 2 1 0 −1 2
#
2 1 , A2 = −1 1
0 1 0 0
5 2 1 −1 ; 3 0 5 2
5.6. Ćwiczenia
A3 =
"
101
1 4 2 1 5 2 2 6 2
#
będzie macierzą powstałą z A w wyniku przestawienia miejscami dwóch wierszy. (a) Pokazać, że macierz B jest odwracalna. (b) Jaki jest związek macierzy B−1 z macierzą A−1 ?
2 6 0 5 8 17 6 21 A4 = . 4 12 −4 13 0 −3 −12 2
,
15. Wyznaczyć macierze odwrotne dla następujących 21. Wpisując TAK albo NIE, stwierdzić prawdziwość czterech macierzy wymiaru n × n: każdego z następujących zdań:
(a)
(b)
1 0 0 .. . 0
1 1 0 .. . 0
1 1 1 .. . 0
··· ··· ··· .. . ···
1 1 1 .. . 1
1 1 1 .. . 1
0 2 2 .. . 2
0 0 3 .. . 3
··· ··· ··· .. . ···
0 0 0 .. . n
;(c)
; (d)
1 0 0 0 .. . 0
2 1 0 0 .. . 0
1 0 0 .. . 0
0 3 1 0 .. . 0
2 1 0 .. . 0
0 0 4 1 .. . 0
3 2 1 .. . 0
··· ··· ··· ··· .. . ···
0 0 0 0 .. . 1
;
··· n ··· n − 1 ··· n − 2 .. .. . . ··· 1
.
16. Rozwiązać następujące układy równań macierzowych:
2 4 X + 2Y = −2 6 , (a) 0 4 3X + 4Y = ; 8 16
(b)
X +
3 2 0 −1
1 2 0 3
X +
Y = Y =
0 −1 , 2 1
0 1 . 6 3
17. Rozwiązać następujące układy równań liniowych: (a) (b) (c) (d)
z + jw = 1 ; jz + w = 1 + j (1 + j)z − jw = 3 + j ; (2 + j)z + (2 − j)w = 2j
jz + (1 + j)w = 3 + j ; 4 (1 + j)z − (6 + j)w =
(1 + j)z + (1 − 3j)w = −2 + 14j . 3z + (3 − 9j)w = 9 + 36j
18. Wykazać, że jeśli macierz A jest wierszowo równoważna macierzy odwracalnej B, to także macierz A jest odwracalna. 19. Znaleźć macierze przemienne z macierzą wszystkie 1 −1 A= , czyli wszystkie macierze X, dla któ2 3 rych AX = XA. 20. Niech A będzie macierzą odwracalną i niech B
1 Każdy układ równań liniowych, w którym liczba równań jest równa liczbie niewiadomych ma tylko jedno rozwiązanie. 2 Każdy układ równań liniowych, w którym liczba równań jest równa liczbie niewiadomych ma co najmniej jedno rozwiązanie. 3 Układ równań liniowych, w którym jest więcej równań niż niewiadomych ma nieskończenie wiele rozwiązań. 4 Układ równań liniowych, w którym jest mniej równań niż niewiadomych może nie mieć rozwiązania. 5 Układ równań liniowych, w którym jest mniej równań niż niewiadomych ma nieskończenie wiele rozwiązań. 6 Każda macierz jest wierszowo równoważna macierzy schodkowej. 7 Iloczyn dwóch macierzy elementarnych jest macierzą elementarną. 8 Jeśli macierze [A|b] i [B|c] są wierszowo równoważne, to układy równań liniowych Ax = b i Bx = c mają identyczne zbiory rozwiązań. 9 Układ równań liniowych Ax = b, w którym A jest macierzą kwadratową, ma dokładnie jedno rozwiązanie wtedy i tylko wtedy, gdy A jest wierszowo równoważna macierzy jednostkowej. 10 Układ równań liniowych Ax = b ma nieskończenie wiele rozwiązań wtedy i tylko wtedy, gdy A jest wierszowo równoważna macierzy schodkowej, w której pewna kolumna nie zawiera wiodącej jedynki. 11 Jeśli układ równań Ax = b, gdzie [A|b] ∈ Rn×(n+1) , ma rozwiązanie dla każdego b ∈ Rn×1 , to układ Ax = b ma dokładnie jedno rozwiązanie dla każdego b. 12 Jeśli układ równań Ax = 0 ma tylko zerowe rozwiązanie i A ∈ Rn×n , to układ Ax = b ma dokładnie jedno rozwiązanie dla każdego b ∈ Rn×1 . 13 Jeśli x0 i y0 są rozwiązaniami układu Ax = b, to także x0 + y0 jest rozwiązaniem układu Ax = b.
Rozdział 6
WYZNACZNIKI 6.1. Definicja i pierwsze własności wyznacznika W rozdziale tym każdej macierzy kwadratowej a11 a12 · · · a1n a21 a22 · · · a2n A= . .. . . . .. . .. . an1 an2 · · · ann
det A = |A|
o elementach z ciała K przyporządkowujemy element z ciała K nazywany wyznacznikiem (lub determinantem) macierzy A i oznaczany symbolem a11 a12 · · · a1n a11 a12 · · · a1n a21 a22 · · · a2n a21 a22 · · · a2n |A|, det A, det . .. . . .. lub .. .. . . .. . .. . . . . . . . an1 an2 · · · ann an1 an2 · · · ann
W literaturze matematycznej można spotkać różne sposoby definiowania wyznacznika. Tu przedstawiamy indukcyjną definicję wyznacznika, definicję wyznacznika macierzy kwadratowej stopnia n za pomocą wyznaczników z n macierzy kwadratowych stopnia n − 1. Definicja ta może nie jest matematycznie najładniejsza, ale jest ona dostatecznie praktyczna. W tej definicji korzystać będziemy z następującego oznaczenia: dla macierzy kwadratowej A stopnia n > 1 i dla liczb naturalnych i, j (1 ¬ i, j ¬ n) przez Aij oznaczamy macierz kwadratową stopnia n − 1 powstałą z macierzy A przez wykreślenie z niej i-tego wiersza oraz j-tej kolumny. Przykładowo, jeśli 1 2 4 0 2 3 5 1 A= 0 7 2 4 , 1 3 2 1 to macierzą powstałą w wyniku wykreślenia drugiego wiersza i trzeciej kolumny jest 1 2 4 0 1 2 0 2 3 5 1 A2 3 = 0 7 2 4 = 0 7 4 . 1 3 1 1 3 2 1
Definicja 6.1.1. Wyznacznikiem macierzy kwadratowej A nazywamy liczbę det A, gdzie: Definicja wyznacznika
1◦ jeśli A ∈ K1×1 , A = [a11 ], to det A = a11 ; 2◦ jeśli A = [aij ] ∈ Kn×n i n > 1, to det A =
n X j=1
a1j (−1)1+j det A1j ,
(6.1)
6.1. Definicja i pierwsze własności wyznacznika
103
czyli |A| = a11 (−1)1+1 |A11 | + a12 (−1)1+2 |A12 | + . . . + a1n (−1)1+n |A1n |. Prawą stronę równości (6.1) nazywamy rozwinięciem Laplace’a wyznacznika det A względem elementów pierwszego wiersza macierzy A. Zgodnie z tą definicją wyznacznik macierzy kwadratowej A stopnia n obliczamy za pomocą n wyznaczników macierzy kwadratowych A1j stopnia n − 1. Dla macierzy kwadratowych małego stopnia można podać proste wzory wyznaczania wartości wyznacznika. Przykład 102. Wobec (6.1) dla wyznacznika macierzy kwadratowej stopnia 2 mamy a11 a12 1+1 1+2 a21 a22 = a11 (−1) |A11 | + a12 (−1) |A12 | = a11 |[a22 ]| − a12 |[a21 ]| = a11 a22 − a12 a21 . Stąd
a11 a12 a21 a22
a11 = a22
a12 − a21
= a11 a22 − a12 a21 ,
(6.2)
co oznacza, że wyznacznik macierzy kwadratowej stopnia dwa jest równy różnicy iloczynu elementów stojących na głównej przekątnej i iloczynu elementów stojących na “drugiej” przekątnej tej macierzy. Przykładowo, jeśli 2 −1 A= , to det A = 2 · 5 − (−1) · 3 = 13. 3 5 Przykład 103. Wobec (6.1) i (6.2) dla wyznacznika macierzy kwadratowej stopnia trzy mamy a11 a12 a13 a21 a22 a23 = a11 (−1)1+1 |A11 | + a12 (−1)1+2 |A12 | + a13 (−1)1+3 |A13 | a31 a32 a33 a22 a23 a21 a23 a21 a22 = a11 − a12 + a13 a32 a33 a31 a33 a31 a32 = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a13 a22 a31 − a11 a23 a32 − a12 a21 a33 .
Zatem otrzymaliśmy następujący wzór na obliczanie wyznacznika macierzy kwadratowej stopnia trzy: a11 a12 a13 (6.3) a21 a22 a23 = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 a a a − a a a − a a a − a a a . 31
32
33
13 22 31
11 23 32
12 21 33
Warto zaobserwować, że powyższy wzór na wyznacznik macierzy kwadratowej stopnia trzy można uzyskać za pomocą tzw. schematu Sarrusa. W tym celu na prawo od wyznacznika kopiujemy pierwszą i drugą kolumnę macierzy. Łatwo teraz zauważyć, że wyznacznik jest sumą iloczynów elementów stojących na prostych p1 , p2 i p3 oraz opatrzonych znakiem minus iloczynów elementów stojących na prostych p4 , p5 i p6 , p
p
p
2 3 1 a11 a12 a13 a21 a22 a23 a31 a32 a33
−
−
−
p4
p
p
5 6 a11 a12 a21 a22 = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 a31 a32 −a13 a22 a31 − a11 a23 a32 − a12 a21 a33 .
+
+
+
Schemat Sarrusa
104
6. Wyznaczniki Zgodnie z (6.3) (i schematem Sarrusa) mamy 1 2 3 −2 3 1 = 1·3·(−1) + 2·1·3 + 3·(−2)·5 − 3·3·3 − 1·5·1 − (−1)·2(−2) = −63. 3 5 −1
Przykład 104. Korzystajc z równości (6.1) i ze schematu Sarrusa szybko można obliczyć wyznacznik macierzy kwadratowej stopnia cztery. Przykładowo mamy 0 3 2 0 3 3 0 0 −4 2 1 2 = a11 |A11 | − a12 |A12 | + a13 |A13 | − a14 |A14 | 3 −1 −2 2 = 0|A11 | − 3|A12 | + 2|A13 | − 0|A14 | 3 0 0 3 3 0 = −3 −4 1 2 + 2 −4 2 2 3 −2 2 3 −1 2 = −3 · 18 + 2 · 60 = 66.
Nasza definicja wyznacznika wyróżnia pierwszy wiersz macierzy. Okazuje się (ale tego tu nie udowodnimy), że to wyróżnienie nie jest niczym usprawiedliwione, bo mamy następujące twierdzenie. Twierdzenie 6.1.1 (Laplace). Niech A = [aij ] będzie macierzą wymiaru n×n i niech i oraz j będą liczbami ze zbioru {1, . . . , n}. Wtedy det A = ai1 (−1)i+1 |Ai1 | + ai2 (−1)i+2 |Ai2 | + . . . + ain (−1)i+n |Ain | Rozwinięcia Laplace’a
(6.4)
oraz det A = a1j (−1)1+j |A1j | + a2j (−1)2+j |A2j | + . . . + anj (−1)n+j |Anj |.
(6.5)
Prawe strony równości (6.4) i (6.5) nazywa się odpowiednio rozwinięciem Laplace’a wyznacznika det A względem i-tego wiersza oraz j-tej kolumny macierzy A. Zgodnie z tym twierdzeniem, obliczając wyznacznik macierzy A, możemy posłużyć się rozwinięciem względem dowolnego wiersza lub dowolnej kolumny. W praktyce, dla skrócenia czasu obliczeń, warto posługiwać się rozwinięciem względem wiersza lub kolumny z dużą ilością zer. W skrajnym przypadku, gdy macierz ma zerowy wiersz lub zerową kolumnę, to z (6.4) lub (6.5) natychmiast otrzymujemy następującą ważną obserwację. Twierdzenie 6.1.2. Jeśli w macierzy kwadratowej A jest zerowy wiersz lub zerowa kolumna, to det A = 0. Dowód. Niech A = [aij ] będzie macierzą kwadratową stopnia n, w której i-ty wiersz jest zerowy. Wtedy ai1 = ai2 = . . . = ain = 0 i dlatego wobec (6.4) mamy det A
=
ai1 (−1)i+1 |Ai1 | + ai2 (−1)i+2 |Ai2 | + . . . + ain (−1)i+n |Ain |
=
0(−1)i+1 |Ai1 | + 0(−1)i+2 |Ai2 | + . . . + (−1)i+n |Ain | = 0.
Analogicznie dowodzi się, że det A = 0, gdy macierz A ma zerową kolumnę.
Przykład 105. Obliczyć wyznaczniki macierzy 7 1 2 0 4 6 7 3 0 3 A= 1 2 0 5 i B=2 4 1 4 0 0 0
3 0 1 0 0
4 3 2 5 3
2 0 2 0 0
1 2 4 0 0
.
6.1. Definicja i pierwsze własności wyznacznika
105
Ponieważ macierz A ma zerową kolumnę, więc natychmiast det A = 0. Licząc wyznacznik macierzy B trzykrotnie możemy skorzystać z zalet rozwinięcia wyznacznika względem wiersza (u nas obramowanego) z największą liczbą zer. Mamy
|B|
=
=
7 6 2 4 0
3 0 1 0 0
4 3 2 5 3
2 0 2 0 0
1 2 4 0 0
3 · 4 · (−1)4+1
7 3 2 1 6 0 0 2 = 3 · (−1)5+3 2 1 2 4 4 0 0 0 3 2 1 3 0 0 2 = −12 · 2 · (−1)2+3 1 1 2 4
2 2
= 24(6 − 2) = 96.
Definicja 6.1.2. Macierz kwadratową A = [aij ] stopnia n nazywa się macierzą trójkątną dolną (górną), gdy aij = 0 dla 1 ¬ i < j ¬ n (1 ¬ j < i ¬ n). Korzystając z definicji wyznacznika lub z twierdzenia 6.1.1, indukcyjnie ze względu na stopień macierzy, łatwo wykazuje się prawdziwość następującego twierdzenia o wyznaczniku macierzy trójkątnej. Twierdzenie 6.1.3. Wyznacznik macierzy trójkątnej jest równy iloczynowi elementów stojących na jej głównej przekątnej, a11 a12 · · · a1n a11 0 · · · 0 0 a22 · · · a2n a21 a22 · · · 0 = a11 a22 . . . ann i = a11 a22 . . . ann . .. .. . . 0 0 · · · ann an1 an2 · · · ann W szczególności dla macierzy diagonalnej, więc także dla macierzy jednostkowej, mamy a11 0 · · · 0 1 0 ··· 0 0 a22 · · · 0 0 1 ··· 0 = a11 a22 . . . ann i |In | = = 1. .. .. . . 0 0 · · · ann 0 0 ··· 1
Przykład 106. Wobec poprzedniego 5 0 0 0 1 4 0 0 1 3 3 0 2 3 1 2
twierdzenia mamy = 5 · 4 · 3 · 2,
bo jest to wyznacznik macierzy trójkątnej.
Ustalimy teraz związek między wyznacznikiem macierzy kwadratowej A i wyznacznikiem jej transpozycji AT . Zaczynamy od prostego przykładu. Przykład 107. Obliczyć wyznaczniki macierzy A i AT , gdy 2 3 5 1 2 0 3 0 A= 1 −1 2 4 . 3 2 2 1
Macierz trójkątna dolna
a11 0 a21 a22 . .. .. . an1 an2
··· 0 ··· 0 . .. . .. · · · ann
106
6. Wyznaczniki Wyznacznik macierzy A możemy obliczyć za pomocą rozwinięcia względem drugiego wiersza,
|A| =
2 3 5 2 0 3 1 −1 2 3 2 2
1 0 4 1
3 5 1 2 3 1 = 2(−1)2+1 −1 2 4 + 3(−1)2+3 1 −1 4 2 2 1 3 2 1 =
(−2) · 21 + (−3) · 20 = −102.
Natomiast wyznacznik macierzy AT liczymy poprzez rozwinięcie względem drugiej kolumny,
T |A | =
2 3 5 1
2 0 3 0
1 −1 2 4
3 2 2 1
3 −1 2 2 1 3 1+2 3+2 = 2(−1) 5 2 2 + 3(−1) 3 −1 2 1 4 1 1 4 1 =
(−2) · 21 + (−3) · 20 = −102.
Nie jest sprawą przypadku, że dla macierzy A z ostatniego przykładu mamy |A| = |AT |. Pokażemy teraz, że macierz kwadratowa i jej transpozycja zawsze mają identyczne wyznaczniki. Twierdzenie 6.1.4. Dla każdej macierzy kwadratowej A jest T
|A | = |A|
det AT = det A.
(6.6)
Dowód. Twierdzenie jest trywialne dla macierzy kwadratowych stopnia 1. Załóżmy jego prawdziwość dla macierzy kwadratowych stopnia n − 1, gdzie n 2 jest ustaloną liczbą naturalną. Niech teraz A = [aij ] będzie macierzą kwadratową stopnia n i niech B = [bij ] będzie jej transpozycją. Rozwijając wyznaczniki macierzy A i B odpowiednio względem pierwszego wiersza i pierwszej kolumny, otrzymujemy det A =
n X i=1
a1i (−1)1+i |A1i | i
det B =
n X i=1
bi1 (−1)i+1 |Bi1 |.
Ponieważ B = AT , więc dla i, j ∈ {1, . . . , n} jest bij = aji oraz
Bi1
=
=
b11 b12 .. .. . . bi1 bi2 .. .. . . bn1 bn2 a11 . . . a21 . . . .. . an1 . . .
. . . b1n .. . . . . bin .. . ... a1i a2i .. . ani
=
bnn . . . a1n . . . a2n .. . . . . ann
a11 a21 . . . an1 .. .. .. . . . a1i a2i . . . ani .. .. .. . . . a1n a2n . . . ann
T
(6.7)
= (A1i )T.
Dodatkowo, ponieważ A1i jest macierzą kwadratową stopnia n − 1, więc z założenia T indukcyjnego |A1i | = | A1i | = |Bi1 |. Stąd i z (6.7) wynika (6.6), bo mamy det AT = det B =
n X i=1
bi1 (−1)i+1 |Bi1 | =
n X i=1
a1i (−1)1+i |A1i | = det A.
Konsekwencją twierdzenia 6.1.4 jest następujące metatwierdzenie o wyznacznikach: każde twierdzenie o wyznacznikach, w którym występuje słowo “kolumna” pozostaje prawdziwe po zamianie słowa “kolumna” na słowo “wiersz”. Z tego też powodu w dowodach następnych twierdzeń zajmujemy się tylko ich wersjami kolumnowymi.
6.1. Definicja i pierwsze własności wyznacznika
107
Twierdzenie 6.1.5. Jeśli macierz B powstaje z macierzy kwadratowej A w wyniku przestawienia miejscami dwóch kolumn (albo dwóch wierszy), to det B = − det A. Dowód. Łatwo sprawdza się prawdziwość tezy dla macierzy kwadratowych stopnia 2, bo wobec (6.2) mamy
b a d c
= bc − ad = −(ad − bc) = − a b c d
.
Załóżmy teraz prawdziwość tezy twierdzenia dla macierzy kwadratowych stopnia n− 1, gdzie n > 2 jest ustaloną liczbą naturalną. Niech A będzie dowolną macierzą kwadratową stopnia n i niech B będzie macierzą powstałą z A w wyniku przestawienia miejscami k-tej i l-tej kolumny, k 6= l, powiedzmy A = [aij ] = [ a1 . . . ak . . . al . . . an ] i B = [bij ] = [ a1 . . . al . . . ak . . . an ]. Weźmy pod uwagę dowolną liczbę s ∈ {1, . . . , n} − {k, l} i rozważmy rozwinięcia wyznaczników macierzy B i A względem ich s-tych kolumn, det B =
n X i=1
bis (−1)i+s |Bis | i
det A =
n X i=1
ais (−1)i+s |Ais |.
(6.8)
Ponieważ bis = ais , a macierze Bis oraz Ais są wymiaru (n − 1) × (n − 1) i różnią się tylko kolejnością dwóch kolumn,
i
Ais =
Bis =
a11 . . . a1k . . . .. .. . . ai1 . . . aik . . . .. .. . . an1 . . . ank . . .
a1s ais ans
a11 . . . a1l . . . .. .. . . ai1 . . . ail . . . .. .. . . an1 . . . anl . . .
a1s ais ans
. . . a1l . . . a1n .. .. . . . . . ail . . . ain .. .. . . . . . anl . . . ann . . . a1k . . . a1n .. .. . . . . . aik . . . ain .. .. . . . . . ank . . . ann
,
więc wobec założenia indukcyjnego jest |Bis | = −|Ais | i dlatego wobec (6.8) mamy det B =
n X i=1
bis (−1)i+s |Bis | =
n X i=1
ais (−1)i+s (−|Ais |) = − det A.
2 2 Przykład 108. Obliczyć wyznacznik macierzy A = 4 1
4 3 5 0
0 0 3 0
2 0 . 0 0
Przestawiając pierwszy wiersz z czwartym, przekształcamy macierz A w macierz trójkątną i wobec twierdzenia 6.1.5 oraz twierdzenia 6.1.3 mamy
|A| = −
1 2 4 2
0 3 5 4
0 0 3 0
0 0 0 2
= −18.
108
6. Wyznaczniki Twierdzenie 6.1.6. Jeśli macierz kwadratowa A ma dwie równe kolumny (dwa równe wiersze), to det A = 0. Dowód. Załóżmy, że macierz A = [ a1 . . . al . . . ak . . . an ] ma dwie równe kolumny, al = ak i l 6= k. Niech B będzie macierzą powstałą z A w wyniku przestawienia miejscami kolumn al i ak . Wtedy det B = − det A wobec twierdzenia 6.1.5. Z drugiej strony B = A, więc det A = det B = − det A i dlatego det A = 0.
Twierdzenie 6.1.7. Niech A = [aij ] będzie macierzą kwadratową stopnia n. Jeśli i oraz j są różnymi liczbami ze zbioru {1, . . . , n}, to ai1 (−1)j+1 |Aj1 | + ai2 (−1)j+2 |Aj2 | + . . . + ain (−1)j+n |Ajn | = 0
(6.9)
a1i (−1)1+j |A1j | + a2i (−1)2+j |A2j | + . . . + ani (−1)n+j |Anj | = 0,
(6.10)
oraz
czyli suma iloczynów kolejnych elementów jednego wiersza (jednej kolumny) i dopełnień algebraicznych1 kolejnych elementów innego wiersza (innej kolumny) jest równa zeru. Dowód. Przyjmijmy, że A = [aij ] = [ a1 . . . ai . . . aj . . . an ] (i 6= j) i weźmy pod uwagę macierz B = [bij ] = [ a1 . . . ai . . . ai . . . an ] powstałą z A przez zastąpienie w niej j-tej kolumny przez i-tą (bkj = aki dla k = 1, . . . , n). Macierz B ma dwie równe kolumny, więc wobec twierdzenia 6.1.6 jest det B = 0. Z drugiej strony ponieważ macierze B i A różnią się tylko j-tą kolumną, więc
Akj
a11 .. . = ak1 . .. an1 a11 .. . = ak1 . .. an1
...
a1i
...
...
aki
...
... ...
ani a1i
... ...
...
aki
...
...
ani
...
a1j .. . akj .. . anj a1i .. . aki .. . ani
. . . a1n .. . . . . akn .. . . . . ann . . . a1n .. . . . . akn = Bkj .. . . . . ann
(dla k = 1, . . . , n) i dlatego rozwijając wyznacznik macierzy B względem j-tej kolumny otrzymamy det B =
n X k=1
bkj (−1)k+j |Bkj | =
n X k=1
aki (−1)k+j |Akj |
i stąd wynika (6.10). Analogicznie dowodzi się (6.9).
Następujący wniosek jest prostą konsekwencją twierdzeń 6.1.1 i 6.1.7. Wniosek 6.1.1. Niech A = [aij ] będzie macierzą kwadratową stopnia n. Jeśli i oraz j są liczbami ze zbioru {1, . . . , n}, to n X k=1
i
n X k=1
aik (−1)j+k |Ajk | =
|A|, 0,
gdy j = i, gdy j = 6 i,
(6.11)
k+j
|A|, 0,
gdy j = i, gdy j = 6 i.
(6.12)
aik (−1)
|Akj | =
1 Dopełnieniem algebraicznym elementu a ij macierzy kwadratowej A = [aij ] nazywa się liczbę (−1)i+j |Aij |.
6.1. Definicja i pierwsze własności wyznacznika
109
Twierdzenie 6.1.8. Jeśli macierz B powstaje z macierzy kwadratowej A w wyniku pomnożenia jednej kolumny (jednego wiersza) przez liczbę r, to det B = r·det A. Dowód. Niech A = [aij ] = [ a1 . . . ak . . . an ] będzie macierzą kwadratową stopnia n i niech B będzie macierzą powstałą z A w wyniku pomnożenia k- tej kolumny przez liczbę r. Wtedy B = [bij ] = [ a1 . . . r ak . . . an ], bik = raik oraz
Bik =
a11 . . . ra1k . . . a1n .. .. .. . . . ai1 . . . raik . . . ain .. .. .. . . . an1 . . . rank . . . ann
=
a11 . . . a1k . . . a1n .. .. .. . . . ai1 . . . aik . . . ain .. .. .. . . . an1 . . . ank . . . ann
= Aik
dla i = 1, . . . , n. Zatem rozwijając wyznaczniki macierzy B i A względem k-tych kolumn, zauważamy, że det B =
n X i=1
bik (−1)i+k |Bik | =
n X i=1
r aik (−1)i+k |Aik | = r·det A.
Wniosek 6.1.2. Jeśli A jest macierzą kwadratową stopnia n, to dla każdej liczby r jest det (rA) = rn · det A. Przykład 109. Z twierdzenia 6.1.8 i wniosku 6.1.2 wynika, 6 2 3 6 2 3 6 2 3p 6 2r 3r 6r = r 2 3 6 2 3 6p = p 2 0 3 2 0 3 2 0 3 2p 0 i
że mamy 2 3 3 6 3 2
10 20 50 1 2 5 30 10 40 = 103 3 1 4 = 1000 · 9 = 9000. −10 20 20 −1 2 2
Twierdzenie 6.1.9. Jeśli macierz B powstaje z macierzy kwadratowej A przez dodanie do jednej kolumny innej kolumny pomnożonej przez dowolną liczbę (albo przez dodanie do jednego wiersza innego wiersza pomnożonego przez dowolną liczbę), to det B = det A. Dowód. Niech A = [aij ] = [ a1 . . . al . . . ak . . . an ] będzie macierzą kwadratową stopnia n i niech B będzie macierzą powstałą z A przez dodanie iloczynu k-tej kolumny i liczby r do l-tej kolumny, k 6= l. Wtedy B = [bij ] = [ a1 . . . al + r ak . . . ak . . . an ], bil = ail + raik oraz
Bil
=
=
a11 .. . ai1 .. . an1 a11 .. . ai1 .. . an1
. . . a1l + ra1k . . . a1k . . . a1n .. .. .. . . . . . . ail + raik . . . aik . . . ain .. .. .. . . . . . . anl + rank . . . ank . . . ann . . . a1l . . . a1k . . . a1n .. .. .. . . . . . . ail . . . aik . . . ain = Ail .. .. .. . . . . . . anl . . . ank . . . ann
110
6. Wyznaczniki dla i = 1, . . . , n. Ponieważ liczby k i l są różne, więc wobec twierdzenia 6.1.7 jest P n i+l
a (−1) |Ail | = 0. Zatem rozwijając wyznacznik macierzy B względem l-tej i=1 ik kolumny otrzymujemy det B
=
n X i=1
= =
n X i=1
bil (−1)i+l |Bil | = ail (−1)
i+l
n X
(ail + raik )(−1)i+l |Ail |
i=1 n
|Ail | + r
X i=1
aik (−1)i+l |Ail |
det A + r · 0 = det A.
3 2 −3 2 0 2 3 −1 Przykład 110. Obliczyć wyznacznik macierzy −9 −4 12 −7 . 2 3 2 1
Dodając pierwszy wiersz pomnożony przez 3 do i otrzymujemy 3 2 −3 2 3 0 2 3 −1 0 −9 −4 12 −7 = 0 2 3 2 1 2
trzeciego, nie zmieniamy wyznacznika
2 −3 2 2 3 −1 = 0, 2 3 −1 3 2 1
bo jest to wyznacznik z macierzy mającej dwa identyczne wiersze.
1 3 Przykład 111. Obliczyć wyznacznik macierzy A = 5 4
2 4 4 2
3 3 6 4
0 0 . 6 3
Ponieważ w ostatniej kolumnie macierzy A mamy już dwa zera, więc dobrym pomysłem jest eliminacja kolejnego niezerowego wyrazu z tej kolumny. W tym celu możemy do trzeciego wiersza dodać wiersz czwarty pomnożony przez -2 i rozwinąć otrzymany wyznacznik względem ostatniej kolumny,
1 2 3 0 3 4 3 0 det A = −3 0 −2 0 4 2 4 3
1 2 3 = 3 3 4 3 −3 0 −2
.
Ostatni wyznacznik można już policzyć za pomocą schematu Sarrusa, ale można także pierwszy wiersz pomnożony przez -2 dodać do drugiego i obliczyć wartość wyznacznika za pomocą rozwinięcia względem elementów drugiej kolumny,
1 2 3 1 −3 = −6(−2 − 9) = 66. det A = 3 1 0 −3 = 3(−2) −3 −2 −3 0 −2
Przykład 112. Obliczyć wyznacznik macierzy A =
1 1 1 1 1
1 2 1 1 1
1 2 3 1 1
1 2 3 4 1
1 2 3 4 5
.
Odejmując kolejno pierwszy wiersz od drugiego, trzeciego, czwartego i piątego wiersza, otrzymujemy 1 1 1 1 1 0 1 1 1 1 det A = 0 0 2 2 2 = 24, 0 0 0 3 3 0 0 0 0 4
6.2. Wyznacznik iloczynu macierzy
111
bo jest to wyznacznik macierzy trójkątnej i jest on równy iloczynowi elementów stojących na głównej przekątnej.
6.2. Wyznacznik iloczynu macierzy Ważną rolę w naszych rozważaniach będzie pełniło twierdzenie o wyznaczniku iloczynu macierzy. Udowodnimy tzw. twierdzenie Cauchy’ego: jeśli A i B są macierzami kwadratowymi tego samego stopnia, to wyznacznik iloczynu AB jest iloczynem wyznacznika macierzy A i wyznacznika macierzy B, czyli udowodnimy równość det(AB) = (det A)(det B). Zaczynamy od twierdzenia, które jest prostą konsekwencją twierdzeń 6.1.5, 6.1.8 i 6.1.9. Twierdzenie 6.2.1. Jeśli A i E są macierzami wymiaru n × n i macierz E jest elementarna, to det (EA) = (det E)(det A) i det (AE) = (det A)(det E). Dowód. Niech E będzie jedną z macierzy elementarnych Eij , Ei (t) i Eij (t) wymiaru n × n. Na początek przyjmijmy, że E = Eij dla i, j ∈ {1, . . . , n}, i 6= j. Ponieważ macierz EA = Eij A powstaje z macierzy A w wyniku przestawienia miejscami dwóch wierszy, to wobec twierdzenia 6.1.5 jest |Eij A| = −|A|. Dodatkowo mamy |Eij | = −|In | = −1, bo |In | = 1 i macierz Eij także powstaje z macierzy In w wyniku przestawienia miejscami dwóch wierszy. Stąd wynika, że |Eij A| = −|A| = |Eij ||A|. Jednocześnie, ponieważ ETij = Eij , więc z własności transpozycji macierzy (twierdzenia 4.2.5 i 6.1.4) i z już udowodnionej równości kolejno mamy |AEij | = |(ETij AT )T | = |ETij AT | = |Eij AT | = |Eij ||AT | = |Eij ||A| = |A||Eij |. Równości |EA| = |E||A| = |AE|, gdy E = Ei (t) lub E = Eij (t), dowodzi się analogicznie.
Możemy już teraz udowodnić zapowiedziane twierdzenie Cauchy’ego o wyznaczniku iloczynu macierzy kwadratowych. Twierdzenie 6.2.2 (Cauchy). Jeśli A i B są macierzami kwadratowymi tego samego stopnia, to det (AB) = (det A)(det B). (6.13) Dowód. Jeśli macierz A jest odwracalna, to wobec twierdzenia 5.3.1 istnieją macierze elementarne E1 , . . . , Ek takie, że A = E1 · . . . · Ek . Wtedy AB = E1 ·. . .· Ek B i wobec twierdzenia 6.2.1 mamy |AB| = |E1 ·. . .·Ek B| = |E1 ||E2 ·. . .· Ek B| = . . . = |E1 | ·. . .· |Ek ||B| = |E1 E2 | ·. . .· |Ek ||B| = . . . = |E1 ·. . .· Ek ||B| = |A||B|.
Załóżmy teraz, że macierz A nie jest odwracalna. Niech wtedy C będzie macierzą wierszowo równoważną macierzy A i mającą postać schodkową normalną. Z faktu, że A nie jest odwracalna i z twierdzenia 5.3.1 wynika, że macierz C ma zerowy wiersz. Wtedy także macierz CB ma zerowy wiersz i wobec twierdzenia 6.1.2 jest |C| = 0 = |CB|.
(6.14)
Z wierszowej równoważności macierzy A i C wynika istnienie macierzy elementarnych E1 , . . . , Ek takich, że A = E1 · . . . · Ek C. Teraz zauważmy, że wobec (6.14) i twierdzenia 6.2.1 mamy |A| = |E1 ·. . .· Ek C| = |E1 | ·. . .· |Ek ||C| = 0 oraz |AB| = |E1 ·. . .· Ek CB| = |E1 | ·. . .· |Ek ||CB| = 0 = 0|B| = |A||B|
i to kończy dowód twierdzenia.
Twierdzenie Cauchy’ego
112
6. Wyznaczniki
2 0 0 0 0 −1 Przykład 113. Obliczyć det A, gdy A = 3 1 0 . 0 −2 2 . 3 3 3 4 3 3 Wobec twierdzenia 6.2.2 mamy
2 0 0 det A = 3 1 0 3 3 3
0 0 −1 . 0 −2 2 = 6(−8) = −48. 4 3 3
Przykład 114. Wyznaczyć det(4A5 ), gdy A jest macierzą wymiaru 3×3 i det A = 2. Z twierdzenia 6.1.8 (lub z wniosku 6.1.2) oraz z twierdzenia 6.2.2 mamy det (4A5 ) = 43 det (A5 ) = 43 (det A)5 = 43 · 25 = 2048.
6.3. Macierze odwracalne i nieosobliwe Definicja 6.3.1. Macierz kwadratową A nazywamy macierzą nieosobliwą, gdy Macierz A jest nieosobliwa, gdy |A| 6= 0
det A 6= 0.
Macierz A jest odwracalna, gdy A−1 istnieje
Udowodnimy teraz jedno z piękniejszych i ważniejszych twierdzeń całej matematyki. Udowodnimy, że macierz jest nieosobliwa wtedy i tylko wtedy, gdy jest ona odwracalna. Przedstawimy także jeszcze jeden sposób wyznaczania macierzy odwrotnej. Zauważmy najpierw, że każda odwracalna macierz jest nieosobliwa. Twierdzenie 6.3.1. Jeśli macierz kwadratowa A jest odwracalna, to jest ona nieosobliwa. Wtedy także macierz odwrotna A−1 jest nieosobliwa i dodatkowo
|A−1 | = |A|−1
det (A−1 ) =
1 . det A
Dowód. Jeśli macierz A jest odwracalna, to macierz A−1 istnieje i A·A−1 = A−1 ·A = I. Zatem, wobec twierdzenia 6.2.2, det A·det(A−1 ) = det(A·A−1 ) = det I = 1. Stąd zaś wynika nieosobliwość macierzy A i A−1 oraz zależność det(A−1 ) = (det A)−1 pomiędzy ich wyznacznikami.
Udowodnimy teraz, że każda macierz nieosobliwa jest odwracalna. (Inny dowód tego samego faktu zaproponowaliśmy w ćwiczeniach.) Niech A = [aij ] będzie macierzą kwadratową stopnia n. Z dopełnień algebraicznych elementów macierzy A, czyli z liczb Dij = (−1)i+j |Aij |, tworzymy macierz
Macierz dołączona
D11 D21 D12 D22 AD = D1n D2n
. . . Dn1 . . . Dn2 .. . . . . Dnn
D11 D12 D 21 D22 = Dn1 Dn2
. . . D1n . . . D2n .. . . . . Dnn
T ,
którą nazywamy macierzą dołączoną macierzy A. Zauważmy, że jeśli
6.3. Macierze odwracalne i nieosobliwe
a11 a12 a21 a22 = an1 an2
AAD
113
. . . a1n . . . a2n .. . . . . ann
D11 D21 D12 D22 D1n D2n
. . . Dn1 . . . Dn2 .. . . . . Dnn
= [cij ],
to z definicji iloczynu macierzy oraz z twierdzeń 6.1.1 i 6.1.7 mamy n n X X |A|, gdy j = i, cij = aik Djk = aik (−1)j+k |Ajk | = 0, gdy j 6= i. k=1
k=1
To oznacza, że A · AD = [cij ] = |A| · In .
(6.15)
AD · A = |A| · In .
(6.16)
Podobnie można udowodnić, że
Dlatego, jeśli |A| 6= 0, to z (6.15) i (6.16) mamy A·
AD AD = · A = In |A| |A|
D
i A |A| jest macierzą odwrotną macierzy A. Zatem udowodniliśmy następujące twierdzenie o odwracalności macierzy nieosobliwej. Twierdzenie 6.3.2. Każda macierz nieosobliwa A jest odwracalna i jej macierz odwrotna jest określona wzorem A−1 =
1 · AD . det A
(6.17)
Macierz odwrotna
Z ostatnich dwóch twierdzeń wynika bardzo ważny wniosek. Wniosek 6.3.1. Macierz kwadratowa A jest odwracalna wtedy i tylko wtedy, gdy jest ona nieosobliwa, tj. wtedy i tylko wtedy, gdy det A 6= 0. (Równoważnie, macierz kwadratowa A jest odwracalna wtedy i tylko wtedy, gdy liczba det A jest odwracalna.) a b jest nieosobliwa, tj. gdy ad − bc 6= 0, to c d wobec (6.17) jej macierz odwrotna określona jest wzorem −1 1 a b d −b = . c d ad − bc −c a Przykład 115. Jeśli macierz
Przykładowo mamy
3 1 2 4
−1
=
1 10
4 −1 . −2 3
Przykład 116. Wyznaczyć macierz odwrotną macierzy 1 1 2 A = −1 1 1 . 2 −1 3
Ponieważ |A| = 7 6= 0, więc macierz A jest odwracalna i wobec (6.17) mamy A
−1
AD 1 = = |A| |A|
"
D11 D21 D31 D12 D22 D32 D13 D23 D33
#
.
A −1 istnieje ⇔ |A| 6= 0
A−1 istnieje ⇔ |A|−1 istnieje
114
6. Wyznaczniki Dla rozważanej macierzy A jest
A−1
1 = 7
+
1 2 1 1 − −1 3 −1 3
−1 1 − 2 3 −1 1 + 2 −1
+ 1 2 2 3 − 1 1 2 −1
1 2 1 1 1 2 −1 1 1 1 −1 1
+
− +
" # 4 −5 −1 1 5 −1 −3 . = 7 −1 3 2
Przykład 117. Za pomocą macierzy odwrotnej rozwiązać równanie XA = B, w którym 1 1 −1 1 2 3 A=2 1 0 i B= . 1 −1 3 1 −1 1
Ponieważ macierz A jest odwracalna, więc pomnażając obie strony równania XA = B przez A−1 , otrzymujemy X = BA−1 , i dlatego
" 1
1 X = 2 1 1 −1 " 1/2 1 2 3 −1 = 1 −1 3 −3/2 1 2 3 1 −1 3
#−1
−1 0 1 # 0 1/2 −6 5 −3 1 −1 = . −3 2 0 1 −1/2
Przykład 118. Rozwiązać równanie macierzowe AX + 2X = B, w którym 1 1 5 −2 5 A= i B= . 2 3 −1 3 12 Zauważmy najpierw, że mamy równoważności AX + 2X = B ⇔ AX + 2I X = B ⇔ (A + 2I)X = B ⇔ X = (A + 2I)−1 B, a ponieważ (A + 2I)−1 =
więc 1 X= 13
1 1 2 3
+
5 −1 −2 3
2 0 0 2
−1
=
5 −2 5 −1 3 12
3 1 2 5
=
−1
=
1 13
5 −1 , −2 3
2 −1 1 . −1 1 2
6.4. Wyznacznik macierzy podobnych Tu ograniczamy swoje zainteresowania do najprostszych własności wyznaczników macierzy podobnych. Przypomnijmy, że macierze kwadratowe A i B nazywamy podobnymi, gdy istnieje nieosobliwa macierz P taka, że B = P−1 AP (zob. def. 4.4.2). Twierdzenie 6.4.1. Jeśli macierze A i B wymiaru n × n są podobne, to: (a) macierze A − λIn i B − λIn są podobne dla każdego λ ∈ R; (b) det (A − λIn ) = det (B − λIn ) dla każdego λ ∈ R;
(c) det A = det B.
6.5. Układy równań i wzory Cramera
115
Dowód. Niech P będzie nieosobliwą macierzą taką, że B = P−1 AP. Wtedy B − λIn = P−1 AP − λP−1 P = P−1 (AP − λP) = P−1 (A − λIn )P i to dowodzi własność (a). Ponieważ (det P−1 )(det P) = 1 (zob. tw. 6.3.1), więc z powyższej równości i z twierdzenia Cauchy’ego (tw. 6.2.2) mamy własność (b), bo det (B − λIn ) = det P−1 (A − λIn )P
= det (P−1 ) · det (A − λIn ) · det (P ) = det(A − λIn ).
W końcu, (c) wynika z (b) dla λ = 0.
6.5. Układy równań i wzory Cramera Wyznacznik macierzy może być przydatny przy stwierdzaniu istnienia, wyznaczaniu liczby rozwiązań i przy samym wyznaczaniu rozwiązań układu równań liniowych Ax = b, gdzie A ∈ Kn×n i b ∈ Kn×1 . Dla takiego układu mamy równoważności: Ax = b ⇔ ⇔ ⇔
ma dokładnie jedno rozwiązanie macierz A jest wierszowo równoważna macierzy I (wn. 5.1.1) macierz A jest odwracalna (tw. 5.3.1) det A 6= 0 (wn. 6.3.1).
Zatem mamy następujące wnioski o rozwiązaniach układów równań linowych. Wniosek 6.5.1. Jeśli A ∈ Kn×n i b ∈ Kn×1 , to układ równań liniowych Ax = b ma dokładnie jedno rozwiązanie wtedy i tylko wtedy, gdy det A 6= 0.
Wniosek 6.5.2. Jeśli A jest macierzą kwadratową, to jednorodny układ równań liniowych Ax = 0 ma niezerowe rozwiązanie wtedy i tylko wtedy, gdy det A = 0.
Przykład 119. Znaleźć te wartości parametru a, dla których jednorodny układ równań x1 + 2x2 − 3x3 = 0 2x1 + ax2 + x3 = 0 2x1 + x2 + ax3 = 0
ma niezerowe rozwiązanie. Rozwiązać układ dla otrzymanych wartości parametru a. Wyznacznikiem macierzy głównej tego układu jest |A|
=
=
a+3 7 = (a + 3)(a − 1). 0 a−1
1 2 −3 1 2 −3 2 a 1 = 0 a−4 7 2 1 a 0 1−a a−1
a−4 7 = 1−a a−1
Zatem |A| = 0 wtedy i tylko wtedy, gdy a = −3 lub a = 1 i wobec wniosku 6.5.1 są to jedyne wartości a, dla których jednorodny układ równań ma niezerowe rozwiązanie. Jeśli a = −3, to dla macierzy rozszerzonej tego układu mamy [A|0] =
"
1 2 −3 2 −3 1 2 1 −3
# # " 0 1 0 −1 0 0 ∼ 0 1 −1 0 0 0 0 0 0
i dlatego x = [ t t t ]T jest rozwiązaniem układu dla każdego t ∈ R.
116
6. Wyznaczniki Dla a = 1 mamy [A|0] =
"
1 2 −3 0 2 1 1 0 2 1 1 0
#
∼
"
1 0 5/3 0 0 1 −7/3 0 0 0 0 0
#
i rozwiązaniem układu jest x = [−5t 7t 3t]T dla każdego t ∈ R.
Przedstawimy teraz zastosowania wyznaczników do rozwiązywania układów n równań liniowych o n niewiadomych. Niech A będzie macierzą kwadratową stopnia n i niech x oraz b będą macierzami wymiaru n × 1, a11 a12 · · · a1n x1 b1 a21 a22 · · · a2n x2 b2 A= , x = .. , b = .. , .. . . . an1 an2 · · · ann
xn
bn
których współczynniki są elementami ciała K.
Układ Cramera
Definicja 6.5.1. Układ równań a11 x1 + a12 x2 + . . . + a1n xn = b1 a21 x1 + a22 x2 + . . . + a2n xn = b2 .. . an1 x1 + an2 x2 + . . . + ann xn = bn
(symbolicznie Ax = b) nazywamy układem Cramera, gdy jego macierz główna A jest macierzą nieosobliwą, tj. gdy det A 6= 0.
Wobec wniosku 6.5.1 układ Cramera ma dokładnie jedno rozwiązanie. Teraz poznamy nową metodę wyznaczania tego rozwiązania. Zaczynamy od przydatnej notacji. Dla macierzy A = [ a1 . . . ai−1 ai ai+1 . . . an ] ∈ Kn×n i x ∈ Kn×1 symbolem Ai (x) oznaczamy macierz powstałą z A przez zastąpienie w niej i-tej kolumny kolumną x, czyli | | | | | Ai (x) = a1 · · · ai−1 x ai+1 · · · an . | | | | | Twierdzenie 6.5.1. Jedynym rozwiązaniem układ Cramera Ax = b, gdzie A ∈ Kn×n i b ∈ Kn×1 , jest macierz x = [ x1 . . . xn ]T , w której
Wzór Cramera
xi =
det Ai (b) det A
dla
i = 1, . . . , n.
(6.18)
Dowód. Załóżmy, że macierz A = [ a1 . . . an ] jest nieosobliwa i niech x = [ x1 . . . xn ]T będzie jedynym rozwiązaniem układu Cramera Ax = b. Wtedy x1 a1 + . . . + xi ai + . . . + xn an = b i wobec twierdzeń 6.1.9 i 6.1.8 mamy det Ai (b)
=
=
= =
det
det
"
"
"
| | | | | a1 · · · ai−1 b ai+1 · · · an | | | | |
#
| | | | | a1 · · · ai−1 x1 a1 + . . . + xi ai + . . . + xn an ai+1 · · · an | | | | |
| | | | | det a1 · · · ai−1 xi ai ai+1 · · · an | | | | | xi det A.
Stąd otrzymujemy wzór (6.18), bo det A 6= 0.
#
#
6.6. Ćwiczenia
117
Wzory (6.18), nazywane wzorami Cramera, mają wielorakie zastosowania w rozważaniach teoretycznych. Przykład 120. Za pomocą wzorów Cramera rozwiązać układ równań x1 − x2 + x3 = 6, 3x1 + 2x2 + 2x3 = 10, x1 + 3x2 + 3x3 = 8.
Dla tego układu mamy A
=
A2 (b)
=
"
"
1 −1 3 2 1 3
1 2 3
1 6 3 10 1 8
1 2 3
#
#
,
A1 (b)
A3 (b)
,
"
=
"
=
6 −1 10 2 8 3
1 2 3
1 −1 6 3 2 10 1 3 8
#
#
,
.
Ponieważ |A| = 14, |A1 (b)| = 28, |A2 (b)| = −14 i |A3 (b)| = 42, więc wobec (6.18) jedynym rozwiązaniem układu są liczby |A1 (b)| |A2 (b)| |A3 (b)| = 2, x2 = = −1, x3 = = 3. |A| |A| |A|
x1 =
6.6. Ćwiczenia 1. Posługując się rozwinięciem wyznacznika względem wiersza lub kolumny z największą liczbą zer, obliczyć wyznaczniki następujących macierzy:
(a)
"
#
2 3 0 7 10 3 1 5 0
;
2 0 0 2
0 3 1 3 ; (b) 2 1 0 4 4 3 0 1
5 0 (c) 2 0
4 3 3 7
0 0 5 0
1 −2 (d) −1 0
3 0 2 3
2. Obliczyć następujące wyznaczniki:
116 98 145 (a) 100 23 100 ; 13 75 42
(b)
(c)
1 3 7 1
1 x x x
1 1 6 1
1 1 x x
2 4 1 3
1 1 1 x
2 8 3 4
1 1 1 1
;
;
7 2 ; 4 2
7 3 4 0
(f )
1 4 2 4 1
2 11 2 6 3 9 7 6 3 4 0 0 5 6 5 0 3 5 7 6
;
1 4 2 4 0
2 11 2 0 3 9 0 6 3 0 0 0 0 6 5 0 3 5 7 6
;
(h)
1 1 0 0 0 0
1 1 1 0 0 0
0 1 1 1 0 0
0 0 1 1 1 0
0 0 0 1 1 1
0 0 0 0 1 1
.
3. Wyznacznikiem Vandermonde’a stopnia n nazywamy wyznacznik 1 x1 x21 . . . x1n−1 2 n−1 1 x 2 x2 . . . x2 Vn = . . . .. .. . . . .. .. .. 1 x x2 . . . xn−1 n n n
4 1 . 0 1
1 2 3 4 −2 1 −4 3 (d) ; 3 −4 −1 2 4 3 −2 −1 1001 2001 3001 4001 1002 2002 3002 4002 (e) 1003 2003 3003 4003 1004 2004 3004 4004
(g)
Udowodnić, że V3 = (x2 − xQ 1 )(x3 − x1 )(x3 − x2 ). (Udowodnić ogólnie, że Vn = ni>j1 (xi − xj ) dla n 2). 4. Obliczyć wyznaczniki następujących macierzy:
;
(a) An =
(b) An =
1 1 1 .. .
1 2 1 .. .
1 1 3 .. .
... ... ... .. .
1 1 1 .. .
1 1 1 ... n 1 n n .. .
n 2 n .. .
n n 3 .. .
... ... ... .. .
n n n .. .
n n n ... n
;
;
118
6. Wyznaczniki
(c) An =
(d) An =
(e) An =
(f ) An =
1 2 3 −1 0 3 −1 −2 0 .. .. .. . . . −1 −2 −3 1 1 1 .. .
1 1 x 1 1 x−1 .. .. . . 1 1 1
... ... ... .. .
n n n .. .
;
... 0 ... ... ... .. .
1 1 1 .. .
... x− n
A=
1 2 3 .. . n
2 3 4 .. . n
3 4 5 .. . n
... n − 2 n − 1 ... n − 1 n ... n n .. .. .. . . . ... n n
1 1 1 1 .. . 1
2 1 1 1 .. . 1
3 2 1 1 .. . 1
4 3 2 1 .. . 1
... n ... n − 1 ... n − 2 ... n − 3 . .. .. . . ... 1
1 a b −a 1 c −b −c 1
#
.
9. Za pomocą wyznacznika wyznaczyć te wartości parametru x, dla których następujące macierze są odwracalne: 1 0 0 1 8 x + 3 x + 2 2x 2 x 0 3 5 x x+2 x (a) ; (b) . 3 0 1 0 3 1 x+2 1 6 1 2 5 2 3 4 x
;
"
n n n .. . n
;
10. Za pomocą wzoru (6.17) wyznaczyć macierze odwrotne następujących macierzy: " # " # 2 0 0 1 −2 3 1 −3 4 ; 0 3 0 ; (b) (a) 0 0 4 2 −5 8 " # 15 0 4 0 0 −2 3 (c) 17 1 19 ; 1 0 1 2 (d) . 27 1 22 −1 1 2 1 0 2 −3 0 11. Wyznaczyć pierwszą kolumnę macierzy A−1 , gdy A=
"
1 0 5 1 1 0 1 1 1
#
.
5. Dany jest ciąg macierzy (An ), gdzie An jest macierzą 12. Za pomocą wzorów Cramera wyznaczyć niewiadomą x3 z każdego z następujących układów równań: 2 −1 wymiaru n × n i A1 = [2], A2 = oraz ( −1 2 2x1 + 3x2 − x3 = 16,
An =
2 −1 .. . 0 0
−1 0 ... 0 2 −1 . . . 0 .. .. .. .. . . . . . . . −1 2 −1 ... 0 −1 2
dla n > 2.
(a) Zauważyć, że |A1 | = 2, |A2 | = 3 i następnie wykazać, że |An | = 2|An−1 | − |An−2 | dla n > 2. (b) Udowodnić, że |An | = n + 1.
6. Dany jestciąg macierzy 12 9 oraz 4 12 12 9 0 0 4 12 9 0 0 4 12 9 An = 0 0 4 12 . . . . .. .. .. .. 0 0 0 0
(An ), gdzie A1 = [12], A2 =
(a)
− x2 + 3x3 = 34, −x1 + 2x2 + x3 = 16;
x1 − 2x2 + 3x3 + 2x4 = −2x1 + 3x2 + x3 = (b) 3x 1 + x2 + 2x3 + x4 = 2x1 + x3 =
0, 2, 1, 0;
2x − 4x2 − 2x3 + 6x4 = 1
4, x1 + x 2 − 2x4 = −3, (c) − 6x4 = 3, 7x1 − x2 3x1 − 3x2 − 2x3 = 1;
2 1 2 1 5 0 1 1 2 7 ... 0 (d) x1 + x2 + x3 + x4 = ; 2 2 2 1 7 ... 0 4 2 5 1 6 ... 0 ... 0 −2 1 −1 1 −1 x1 dla n > 2. . .. 1 2 3 4 x2 16 = (e) . . .. 0 3 2 1 x3 14 . . . 12 x4 2 1 −1 0 1 (a) Zauważyć, że |A1 | = 12, |A2 | = 108 i następnie 13. Dany jest układ równań wykazać, że |An | = 12|An−1 | − 36|An−2 | dla n > 2. ( 2x1 + x2 − 2x3 = 2, (b) Udowodnić, że |An | = 6n (n + 1). −3x1 + 3x2 + 5x3 = 3, 7. Rozwiązać następujące równania: −x1 + 2x2 + 2x3 = 4. 2 x x 1 2 2 3 (a) Wyznaczyć macierz odwrotną macierzy głównej 1 x = 0; (b) 4 2 − 2x x = 0. (a) 4 1 2+x 2 1 5 − 4x 2x A tego układu. (b) Sprawdzić poprzednie rachunki obliczając AA−1 . (c) Za pomocą macierzy A−1 wy8. Pokazać, że macierz A jest nieosobliwa dla każdych znaczyć rozwiązanie tego układu. liczb rzeczywistych a, b i c, gdy
6.6. Ćwiczenia
119
14. Rozwiązać następujące równania macierzowe:
1 3 2 −1
−1
3 1 ; 4 8
26. Niech S będzie zbiorem nieosobliwych macierzy pox y staci , gdzie x, y ∈ R. Sprawdzić, czy zbiór y x " # 1 2 3 S ze zwykłym mnożeniem macierzy jest grupą. 6 9 8 (b) X · 2 3 4 = ; 27. Wpisując TAK albo NIE, stwierdzić prawdziwość 0 1 6 3 4 1 każdego z następujących zdań: 1 Wyznacznik macierzy kwadratowej stopnia n 1 2 3 4 5 −1 0 1 0 −1 można wyznaczyć za pomocą wyznaczników macierzy 0 2 3 4 5 0 2 0 −2 0 kwadratowych stopnia n − 1. (c) 0 0 3 4 5 ·X = 0 0 6 0 −6 . 0 0 0 4 5 0 0 0 12 0 2 Dopełnieniem algebraicznym elementu aij 0 0 0 0 5 0 0 0 0 20 macierzy A jest macierz Aij otrzymana z A przez wykreślenie z niej i-tego wiersza oraz j-tej kolumny. a b 15. Wyznaczyć macierz A, jeśli A−1 = c d 3 Rozwinięcie wyznacznika det A względem kolumny różni się znakiem od rozwinięcia wyznacznika i det (A−1 ) = 3. względem wiersza. 16. Niech A będzie macierzą o całkowitych współczyn−1 4 Wyznacznik macierzy trójkątnej A jest równy nikach i niech det A = ±1. Pokazać, że macierz A sumie elementów stojących na głównej przekątnej ma te same własności. macierzy A. 17. Niech A i B będą macierzami kwadratowymi takimi, że AB + B + I = 0. Pokazać, że B jest macierzą 5 Jeśli A i B są macierzami kwadratowymi nieosobliwą i znaleźć macierz B−1 . stopnia n, to det (A + B) = det A + det B. (a)
+ 4X
=
18. Niech A będzie nieosobliwą macierzą wymiaru n × n i niech AD będzie jej macierzą dołączoną. Wykazać, że ma ona następujące własności: (a) |AD | = |A|n−1 ; −1 1 (b) AD = |A| A; D n−1 D (c) (αA) = α A .
6 Jeśli macierze kwadratowe A i B różnią się tylko pierwszymi kolumnami i det A = 2 oraz det B = 3, to det (A + B) = 5. 7 Jeśli A jest macierzą prostokątną, to macierze AAT i AT A są kwadratowe i det (AAT ) = det (AT A).
19. Udowodnić lemat 6.2.1 dla macierzy elementarnej E = Eij (t).
8 det (AAT ) = (det A)2 , jeśli A jest macierzą kwadratową.
20. Podać bezpośredni i elementarny dowód twierdzenia Cauchy’ego (tw. 6.2.2) dla macierzy wymiaru 2 × 2.
det AT kwadratową.
21. Korzystając ze wzorów Cramera, wykazać, że jeśli A jest nieosobliwą macierzą wymiaru n × n, to dla i, j ∈ {1, . . . , n} jest (A−1 )ij = |Ai (ej )|/|A|, gdzie ej jest j-tym wektorem jednostkowym. Następnie obliczyć (A−1 )11 i (A−1 )23 , gdy A=
"
1 −1 2 2 0 6 −3 9 1
#
.
9
10
= − det A, jeśli A jest macierzą
Jeśli A jest macierzą kwadratową stopnia n 2
i r jest liczbą rzeczywistą, to det (rA) = r n det A. 11 Jeśli A jest macierzą kwadratową stopnia n i r jest liczbą rzeczywistą, to det (rA) = r n det A i tr (rA) = rtr (A). 12
Każda macierz elementarna jest nieosobliwa.
13 Macierz kwadratowa A jest odwracalna wtedy i tylko wtedy, gdy det A > 0.
22. Wykazać, że jeśli macierz A jest wierszowo równoważna macierzy odwracalnej B, to także macierz A jest odwracalna.
14 Jeśli A jest macierzą kwadratową, to macierz A2 jest odwracalna wtedy i tylko wtedy, gdy macierz A3 jest odwracalna.
23. Udowodnić, że jeśli A i B są macierzami kwadratowymi stopnia n, to AB = In wtedy i tylko wtedy, gdy BA = In .
15 Jeśli A i B są macierzami kwadratowymi stopnia n, to det (AB) = det (BA).
24. Niech A będzie macierzą nieosobliwą i niech macierz B, mająca normalną postać schodkową, będzie wierszowo równoważna macierzy A. (1) Wykazać, że macierz B jest nieosobliwa. (2) Z (1) wywnioskować, że macierz B nie ma ani zerowego wiersza, ani zerowej kolumny. (3) Z tego ostatniego wywnioskować, że B jest macierzą jednostkową. (4) W końcu z (3) wywnioskować, że macierz A jest odwracalna. 25. Dana jest macierz A taka, że A2 = 0. Wyjaśnić dlaczego macierz A nie jest odwracalna.
16 Jeśli A jest macierzą wymiaru m × n i B jest macierzą wymiar n×m, to det (AB) = det (BA). 17 Jeśli A jest macierzą wymiaru m×n i m < n, to det (AT A) = 0. 18 Jeśli A i B są macierzami kwadratowymi i AB = A−1 , to det B = 1. 19 Jeśli A jest rzeczywistą macierzą kwadratową i A2 = 8A−1 , to det A = 0. 20 Jeśli A jest macierzą kwadratową stopnia n i AT = 4A−1 , to det A = 2n lub det A = −2n .
Rozdział 7
PRZESTRZEŃ WEKTOROWA 7.1. Przestrzeń wektorowa i jej podprzestrzenie Przypomnijmy, że jeśli V jest niepustym zbiorem, to przez dwuargumentowe działanie w zbiorze V (zob. def. 1.1.1) rozumiemy każdą funkcję ψ : V ×V → V . W przestrzeniach wektorowych, którymi teraz się zajmiemy, ważna będzie funkcja przez niektórych nazywana działaniem zewnętrznym. Definicja 7.1.1. Jeśli K i V są niepustymi zbiorami, to każdą funkcję ϕ: K × V → V
Działanie zewnętrzne
nazywamy działaniem zewnętrznym w zbiorze V nad zbiorem K. ϕ(a, x) = ax
Wartość działania zewnętrznego ϕ : K × V → V dla a ∈ K i x ∈ V , czyli element ϕ(a, x) zbioru V , oznaczać będziemy przez a · x lub ax. Przykład 121. Funkcja ϕ : R × Rm×n → Rm×n taka, że ϕ(a, A) jest iloczynem macierzy A ∈ Rm×n przez liczbę a ∈ R, ϕ(a, A) = aA, jest działaniem zewnętrznym w zbiorze Rm×n nad zbiorem R.
Przestrzeń wektorowa
Definicja 7.1.2. System algebraiczny (V, K, +, ·), w którym V jest niepustym zbiorem, K jest ciałem, + jest działaniem dwuargumentowym w zbiorze V , a · jest działaniem zewnętrznym w zbiorze V nad zbiorem K nazywamy przestrzenią wektorową nad ciałem K, gdy spełnione są następujące warunki: 1◦ ∀x, y∈V x + y = y + x;
2◦ ∀x, y, z∈V x + (y + z) = (y + x) + z; 3◦ ∃0∈V ∀x∈V x + 0 = x;
4◦ ∀x∈V ∃−x∈V x + (−x) = 0;
5◦ ∀α∈K ∀x,y∈V α(x + y) = αx + αy;
6◦ ∀α,β∈K ∀x∈V (α + β)x = αx + βx; 7◦ ∀α,β∈K ∀x∈V α(βx) = (αβ)x;
8◦ ∀x∈V 1x = x, gdzie 1 jest jedynką ciała K.
V – zbiór wektorów K – ciało skalarów
x + y – suma wektorów αx – iloczyn wektora x przez skalar α
Jeśli (V, K, +, ·) jest przestrzenią wektorową nad ciałem K, to elementy zbioru V nazywamy wektorami, a elementy zbioru K – skalarami, działanie + nazywamy dodawaniem wektorów, działanie · – mnożeniem wektorów przez skalary. (Tych samych symboli + i · używamy na oznaczenie działań w ciele K.) Jeśli x, y ∈ V i α ∈ K, to wektor x + y nazywamy sumą wektorów x i y, a αx – iloczynem wektora x przez skalar α. Wektor 0, element neutralny działania +, nazywamy wektorem zerowym; wektor −x nazywamy wektorem przeciwnym do wektora x. Tam gdzie nie będzie to prowadziło do nieporozumień, przestrzeń
7.1. Przestrzeń wektorowa i jej podprzestrzenie
121
wektorową (V, K, +, ·) nad ciałem K będziemy, dla krótkości, oznaczać symbolem V lub V (K). Warto pamiętać o tym, że jeśli (V, K, +, ·) jest przestrzenią wektorową, to system algebraiczny (V, +) jest grupą przemienną. Przykład 122. Z własności zwykłego dodawania macierzy i zwykłego mnożenia macierzy przez skalary (zob. tw. 4.2.1) wynika, że zbiór Km×n macierzy wymiaru m × n o współczynnikach z ciała K jest przestrzenią wektorową nad ciałem K. W szczególności zbiór macierzy jednokolumnowych Kn×1 jest przestrzenią wektorową z działaniami określonymi wzorami x1 y1 x1 + y 1 x1 rx1 .. .. . . .. . + . = i r .. = .. . . xn
yn
xn + y n
xn
K m×n – przestrzeń macierzy
rxn
Z tych samych powodów K1×n jest przestrzenią wektorową. Niech teraz K n będzie zbiorem n-elementowych ciągów o wyrazach z ciała K, K n = {(x1 , x2 , . . . , xn ) : x1 , x2 , . . . , xn ∈ K}.
Łatwo sprawdza się, że zbiór K n jest przestrzenią wektorową nad ciałem K, jeśli dodawanie ciągów i mnożenie ciągów przez skalary są działaniami określonymi wzorami (x1 , x2 , . . . , xn ) + (y1 , y2 , . . . , yn ) = (x1 + y1 , x2 + y2 , . . . , xn + yn ), r(x1 , x2 , . . . , xn ) = (rx1 , rx2 , . . . , rxn ). Ponieważ przestrzenie Kn×1 , K1×n i K n są do siebie podobne, w wielu miejscach (a przynajmniej tam, gdzie nie jest istotne, czy wektor zapisujemy w postaci kolumny, wiersza lub ciągu) użyjemy wspólnego symbolu K n na oznaczenie tych trzech przestrzeni i będziemy pisać (x1 , x2 , . . . , xn ) zamiast x1 x2 x1 x2 . . . x n lub . . .. xn Przykład 123. Niech X będzie dowolnym niepustym zbiorem, a K – ustalonym ciałem. Oznaczmy przez F(X, K) zbiór wszystkich funkcji f : X → K. Dla f, g ∈ F(X, K) i α ∈ K określamy sumę f + g i iloczyn αf jako zwykłe dodawanie funkcji i mnożenie funkcji przez skalar, tj. przyjmujemy, że dla każdego x ∈ X jest (f + g)(x) = f (x) + g(x) i (αf )(x) = αf (x). Z własności dodawania i mnożenia w ciele K łatwo wynika, że zbiór F(X, K) z wyżej określonymi działaniami jest przestrzenią wektorową. Udowodnimy teraz pewne proste i ważne własności działań na wektorach. Twierdzenie 7.1.1. Dla wektorów x, y z przestrzeni V (K) i skalarów α, β z ciała K jest: (1) αx = 0 wtedy i tylko wtedy, gdy α = 0 lub x = 0; (2) jeśli x 6= 0 i αx = βx, to α = β;
K n – przestrzeń n-elementowych ciągów R2 , R3 są przestrzeniami wektorowymi
122
7. Przestrzeń wektorowa (3) jeśli α 6= 0 i αx = αy, to x = y; (4) (−α)x = α(−x) = −(αx).
Dowód. (1) Z faktu, że w grupie (V (K), +) jest 0x + 0x = (0 + 0)x = 0x = 0x + 0 i z twierdzenia 1.2.1 (o skracaniu w grupie) wynika, że 0x = 0. Podobnie z równości α0 + α0 = α(0 + 0) = α0 = α0 + 0 wynika, że α0 = 0. Załóżmy teraz, że αx = 0 i α 6= 0. Wtedy α−1 istnieje i x = 1x = (α−1 α)x = α−1 (αx) = α−1 0 = 0 i to kończy dowód pierwszej części twierdzenia. (2) Załóżmy teraz, że x 6= 0 i αx = βx. Wtedy (α − β)x = 0 i z (1) otrzymujemy α − β = 0, więc także α = β. (3) Jeśli α 6= 0 i αx = αy, to α(x − y) = 0 i wobec (1) jest x − y = 0. (4) Ponieważ (−α)x + αx = (−α) + α x = 0x = 0, więc (−α)x = −(αx). Analogicznie z równości α(−x) + αx = α (−x) + x = α0 = 0 wynika, że α(−x) = −(αx).
Definicja 7.1.3. Niech V = V (K) będzie przestrzenią wektorową i niech S będzie podzbiorem zbioru V . Mówimy, że zbiór S jest zamknięty ze względu na dodawanie, jeśli ∀x, y∈S x + y ∈ S.
Podobnie zbiór S jest zamknięty ze względu na mnożenie przez skalary, jeśli ∀x∈S ∀α∈K αx ∈ S. ·················· * ·· ··· · x+y · ··· ··· · · · -···· x, y ∈ S x x + y 6∈ S S
αx *
y
* x
x∈S αx 6∈ S
S
Rys. 7.1. Zbiór S nie jest zamknięty ze względu na dodawanie wektorów, ani ze względu na mnożenie wektorów przez skalary
Przykład 124. W przestrzeni wektorowej R2 zbiór S = {(x, y) ∈ R2 : x, y 0} jest zamknięty ze względu na dodawanie, ale nie jest on zamknięty ze względu na mnożenie skalarne, bo przykładowo (1, 2) ∈ S i −1 ∈ R, ale −1(1, 2) 6∈ S. Zbiór T = {(x, y) ∈ R2 : xy 0} jest zamknięty ze względu na mnożenie skalarne, ale nie jest on zamknięty ze względu na dodawanie: wektory (1, 2) i (−2, −1) należą do zbioru T , ale ich suma (1, 2) + (−2, −1) = (−1, 1) już nie należy do zbioru T , zob. rys. 7.2. S
6 2
2
x
−2
1
−x
x+y
-
−1
−2
T
6
x∈S
x
I
1
-
−1 y
1 −1
x, y ∈ T
x + y 6∈ T
−x 6∈ S
Rys. 7.2
7.1. Przestrzeń wektorowa i jej podprzestrzenie
123
Definicja 7.1.4. Niech (V, K, +, ·) będzie przestrzenią wektorową i niech W będzie podzbiorem zbioru V . Mówimy, że W jest podprzestrzenią (przestrzeni wektorowej V ), gdy (W, K, +, ·) jest przestrzenią wektorową (gdzie + i · są działaniami z przestrzeni V obciętymi do zbioru W ).
Podprzestrzeń przestrzeni wektorowej
Procedura sprawdzania, czy dany niepusty podzbiór wektorów jest podprzestrzenią, jest prosta i – jak to wynika z następującego twierdzenia – ogranicza się do weryfikacji zamkniętości tego podzbioru ze względu na dodawanie i mnożenie przez skalary (rys. 7.3). Twierdzenie 7.1.2. Podzbiór S zbioru wektorów przestrzeni V jest podprzestrzenią wtedy i tylko wtedy, gdy spełnione są warunki: (a) S 6= ∅;
(b) ∀x,y∈S x + y ∈ S;
(c) ∀x∈S ∀α∈K αx ∈ S. Dowód. Jeśli S jest podprzestrzenią przestrzeni V , to oczywiście S ma własności (a), (b) i (c). Załóżmy teraz, że podzbiór S zbioru V ma własności (a), (b) i (c). Musimy pokazać, że S spełnia wszystkie warunki definicji przestrzeni. Większość z nich wynika z faktu, że S jest podzbiorem zbioru V . Dla przykładu, jeśli x, y ∈ S, to x + y, y + x ∈ S (wobec (b)), więc także x + y, y + x ∈ V . Ponieważ x + y = y + x w przestrzeni V , więc także x + y = y + x w zbiorze S. To oznacza, że dodawanie w zbiorze S jest przemienne. Analogicznie uzasadnia się łączność dodawania i wszystkie własności mnożenia skalarnego w zbiorze S. Zatem pozostaje pokazać, że w S jest wektor zerowy i każdy wektor z S ma wektor przeciwny w S. Na mocy (a) istnieje co najmniej jeden wektor x ∈ S. Wobec (c) iloczyn 0x należy do S, ale 0x = 0 (zob. tw. 7.1.1), więc wektor zerowy 0 należy do S. Weźmy teraz dowolny wektor x ∈ S. Ponieważ (−1)x ∈ S (wobec (c)) i (−1)x = −x (zob. tw. 7.1.1), więc −x ∈ S. Zatem S jest przestrzenią wektorową i dlatego S jest podprzestrzenią przestrzeni V .
S
x+y
O y
αx
K
x
Rys. 7.3
Łatwo zauważyć, że twierdzenie 7.1.2 jest równoważne następującemu twierdzeniu. Twierdzenie 7.1.3. Niepusty zbiór S wektorów przestrzeni V jest podprzestrzenią wtedy i tylko wtedy, gdy ∀x,y∈S ∀α,β∈K αx + βy ∈ S. Jeśli V jest przestrzenią wektorową, to cały zbiór V spełnia warunki twierdzenia 7.1.2 (i 7.1.3). Zatem przestrzeń V jest swoją własną podprzestrzenią. Inne podprzestrzenie przestrzeni V (jeśli takie istnieją) są właściwymi podprzestrzeniami w V . Zbiór {0}, zawierający tylko wektor zerowy przestrzeni V , też jest podprzestrzenią przestrzeni V . Nazywamy ją podprzestrzenią zerową (lub trywialną) przestrzeni V . Przykład 125. Zbiór wielomianów rzeczywistych R[x] jest zawarty w przestrzeni wektorowej F(R, R) (z przykładu 123). Ponieważ f (x) = x ∈ R[x], więc R[x] jest niepustym podzbiorem zbioru F(R, R). Dodatkowo, ponieważ suma wielomianów jest wielomianem i iloczyn wielomianu przez liczbę rzeczywistą jest wielomianem, więc wobec twierdzenia 7.1.2 zbiór wielomianów R[x] jest podprzestrzenią przestrzeni wektorowej F(R, R). Niech teraz n będzie nieujemną liczbą całkowitą i niech Rn [x] będzie zbiorem wielomianów rzeczywistych stopnia co najwyżej n. Ponieważ f (x) = 1 ∈ R n [x], więc Rn [x] jest niepustym podzbiorem zbioru R[x]. Ponieważ suma wielomianów
R[x] – przestrzeń
124
Rn [x] – przestrzeń
7. Przestrzeń wektorowa stopnia co najwyżej n jest wielomianem stopnia co najwyżej n i iloczyn wielomianu stopnia co najwyżej n przez liczbę rzeczywistą jest wielomianem stopnia co najwyżej n, więc z twierdzenia 7.1.2 wynika, że Rn [x] jest podprzestrzenią przestrzeni R[x] (oraz przestrzeni F(R, R)). Przykład 126. Zbiór A = {f ∈ F(R, R) : f (1) = 0} jest podprzestrzenią przestrzeni F(R, R). Zbiór A jest niepusty, bo np. funkcja f (x) = x − 1 należy do zbioru A. Weźmy teraz pod uwagę dowolne funkcje f i g ze zbioru A oraz dowolne skalary α, β ∈ R. Wtedy αf +βg ∈ F(R, R). Jednocześnie f (1) = g(1) = 0, więc także (αf +βg)(1) = (αf )(1)+ (βg)(1) = α(f (1)) + β(g(1)) = α0 + β0 = 0 i dlatego αf + βg ∈ A. Stąd i z twierdzenia 7.1.3 wynika, że A jest podprzestrzenią przestrzeni F(R, R).
Przykład 127. Zbiór S = {(x, y, z) ∈ R3 : x + 2y + 3z = 0} jest właściwą podprzestrzenią przestrzeni R3 . Ponieważ (0, 0, 0) ∈ S i (1, 1, 1) ∈ R3 − S, więc S jest właściwym podzbiorem zbioru R3 . Weźmy teraz dowolne wektory x = (x, y, z) i y = (x0 , y 0 , z 0 ) ze zbioru S i dowolne skalary α, β z ciała R. Wtedy x + 2y + 3z = 0 oraz x0 + 2y 0 + 3z 0 = 0 i dlatego dla wektora αx + βy = α(x, y, z) + β(x0 , y 0 , z 0 ) = (αx + βx0 , αy + βy 0 , αz + βz 0 ) jest (αx + βx0 ) + 2(αy + βy 0 ) + 3(αz + βz 0 ) = α(x + 2y + 3z) + β(x0 + 2y 0 + 3z 0 ) = 0.
To dowodzi, że αx + βy ∈ S. Stąd i z twierdzenia 7.1.3 wynika, że S jest właściwą podprzestrzenią w R3 .
NA – przestrzeń zerowa macierzy
Definicja 7.1.5. Jeśli A jest macierzą, powiedzmy A ∈ Km×n , to zbiór NA = {x ∈ Kn×1 : Ax = 0}, czyli zbiór rozwiązań równania jednorodnego Ax = 0, nazywamy przestrzenią zerową (lub przestrzenią rozwiązań) macierzy A. Z twierdzeń 5.3.1 i 7.1.3 wynika, że NA jest podprzestrzenią przestrzeni Kn×1 (gdy A ∈ Km×n ). Przykład 128. Wyznaczyć przestrzeń zerową NA rzeczywistej macierzy
3 −1 −1 A= . 6 1 −5 Przestrzenią zerową macierzy A jest zbiór wszystkich rozwiązań równania Ax = 0, czyli równania
3 −1 −1 6 1 −5
" x1 # x2 x3
=
0 . 0
7.2. Kombinacje liniowe wektorów
125
Ponieważ [A|0] =
3 −1 −1 0 6 1 −5 0
∼
1 0 −2/3 0 , 0 1 −1 0
NA
więc rozwiązaniem równania Ax = 0 jest każda macierz x=
"
x1 x2 x3
#
=
"
2r 3r 3r
#
dla
3rm
r ∈ R.
3m
3
Stąd
3
NA =
("
2r 3r 3r
#
: r∈R
)
=
( " # r
2 3 : r∈R 3
)
+
m=
2
−m/2
3
i jest to prosta w przestrzeni R (zob. rys. 7.4).
h
2 3 3
Rys. 7.4
7.2. Kombinacje liniowe wektorów Definicja 7.2.1. Jeśli v1 , . . . , vn są wektorami z przestrzeni V (K), a α1 , α2 , . . . , αn są skalarami z ciała K, to wektor v = α 1 v1 + α 2 v2 + . . . + α n vn =
n X
α i vi
i=1
Kombinacja liniowa wektorów
nazywamy kombinacją liniową wektorów v1 , . . . , vn o współczynnikach α1 , α2 , . . . , αn . Przykład 129. Wektor v = (4, 7, 3) (zob. rys. 7.5) jest kombinacją liniową wektorów v1 = (2, 2, 0) i v2 = (0, 1, 1), bo 2v1 + 3v2 = 2(2, 2, 0) + 3(0, 1, 1) = (4, 7, 3) = v. 3v2
7
v2
7
2v1 +3v2
:
7 z v
1
z 2v
1
Rys. 7.5
Jeśli S jest podzbiorem zbioru V (K), to przez L(S) oznaczamy zbiór wszystkich kombinacji liniowych skończonej liczby wektorów ze zbioru S. Zatem ( n ) X L(S) = αi vi : vi ∈ S, αi ∈ K dla i = 1, . . . , n, gdzie n ∈ N . i=1
Przy tym przyjmujemy, że L(∅) = {0}. Jeśli S jest niepustym zbiorem skończonym, powiedzmy S = {v1 , v2 , . . . , vn }, to piszemy L(v1 , v2 , . . . , vn ) zamiast L({v1 , v2 , . . . , vn }). W tym przypadku L(v1 , v2 , . . . , vn ) = {α1 v1 + α2 v2 + . . . + αn vn : α1 , α2 , . . . , αn ∈ K}.
L(S)
i
126
7. Przestrzeń wektorowa
L(v)
αv+βu
L(v, u)
O
βu
K u
K
αv
W szczególności, zbiór L(v) jest zbiorem wszystkich wektorów postaci αv. Jeśli wektor v jest niezerowy, to zbiór L(v) zwykle utożsamiamy z prostą przechodzącą przez punkt 0 i równoległą do wektora v, zob. rys. 7.6. Natomiast L(v, u) jest zbiorem wszystkich wektorów postaci αv + βu i zbiór ten możemy utożsamiać z płaszczyzną (także zob. rys. 7.6), gdy żaden z wektorów v i u nie jest krotnością drugiego wektora. Zauważmy, że wektor b należy do zbioru L(v1 , v2 , . . . , vn ) wtedy i tylko wtedy, gdy istnieją skalary α1 , α2 , . . . , αn ∈ K takie, że α1 v1 + α2 v2 + . . . + αn vn = b,
v
tj. wtedy i tylko wtedy, gdy równanie wektorowe x1 v 1 + x 2 v 2 + . . . + x n v n = b Rys. 7.6
ma co najmniej jedno rozwiązanie. Przykład 130. Dane są wektory 0 2 v = 1 , u = 1 , −1 3
6 b1 = 5 , 7
2 b2 = 1 . 0
Sprawdzić, który z wektorów b1 , b2 należy do zbioru L(v, u).
Wektor bi należy do zbioru L(v, u) wtedy i tylko wtedy, gdy równanie x1 v + x2 u = bi ma rozwiązanie. Tak jest wtedy i tylko wtedy, gdy bi nie jest wiodącą kolumną macierzy [ v u | bi ]. Ponieważ [ v u | b 1 b2 ] =
"
0 2 6 2 1 1 5 1 −1 3 7 0
#
∼ ... ∼
"
1 1 5 1 0 1 3 1 0 0 0 1
#
,
więc bi nie jest kolumną wiodącą macierzy [ v u | bi ] tylko dla i = 1. Zatem b1 ∈ L(v, u) i b2 6∈ L(v, u), zob. rys. 7.7.
βu
b2 6∈L(v,u)
3 b1 ∈L(v,u)
u
v
-
αv
Rys. 7.7
Przykład 131. Uzasadnimy, że w przestrzeni wektorowej R[x] jest L(1, x, x2 , . . .) = R[x].
Jeśli ϕ(x) ∈ R[x], powiedzmy ϕ(x) = a0 + a1 x + . . . + ak xk , to oczywiście ϕ(x) jest kombinacją liniową wektorów 1, x, x2 , . . . , xk i dlatego ϕ(x) ∈ L(1, x, x2 , . . .). Zatem R[x] ⊆ L(1, x, x2 , . . .). Z drugiej strony zbiór {1, x, x2 , . . .} jest nieskończony, ale na podstawie definicji każdy wektor ψ(x) ze zbioru L(1, x, x2 , . . .) jest kombinacją liniową skończonej ilości wektorów ze zbioru {1, x, x2 , . . .}, ψ(x) = αk1 xk1 + . . . + αkm xkm
7.2. Kombinacje liniowe wektorów
127
(dla pewnych liczb k1 , . . . , km ∈ {0, 1, 2, . . .} i pewnych liczb αk1 , . . . , αkm ∈ R), więc ψ(x) jest wielomianem. Stąd wynika, że L(1, x, x2 , . . .) ⊆ R[x] i dlatego też L(1, x, x2 , . . .) = R[x].
Zbiór L(S) kombinacji liniowych wektorów ze zbioru S ⊆ V (K) nie tylko jest podzbiorem zbioru V (K), ale i jest on podprzestrzenią przestrzeni V (K). Twierdzenie 7.2.1. Jeśli S jest zbiorem wektorów przestrzeni V (K), to L(S) jest podprzestrzenią przestrzeni V (K).
L(S) – przestrzeń wektorowa
Dowód. Jeśli S = ∅, to L(S) = {0} i teza twierdzenia jest oczywista. Zatem załóżmy, że zbiór S jest niepusty. Ponieważ v = 1v i 1v ∈ L(S) dla każdego v ∈ S, więc S ⊆ L(S) i zbiór L(S) jest niepusty. Wobec twierdzenia 7.1.3 wystarczy teraz pokazać, że kombinacja liniowa wektorów ze zbioru L(S) należy do zbioru L(S). Weźmy dowolne dwa wektory v, u ∈ L(S) i skalary α, β ∈ K. Z definicji zbioru L(S) wynika, że istnieją wektory . . . , um ∈ S i skalary α1 , . . . , αn , Pnv1 , . . . , vn , u1 ,P m β1 , . . . , βm ∈ K, dla których v = i=1 αi vi i u = j=1 βj uj . Wtedy αv + βu = (αα1 )v1 + . . . + (ααn )vn + (ββ1 )u1 + . . . + (ββm )um
i stąd widać, że wektor αv + βu jest kombinacją liniową wektorów v1 , . . . , vn , u1 , . . . , um ze zbioru S (o współczynnikach ααi i ββj z ciała K), więc αx + βy ∈ L(S).
Definicja 7.2.2. Jeśli S jest zbiorem wektorów przestrzeni V (K), to wobec twierdzenia 7.2.1 zbiór L(S) jest podprzestrzenią przestrzeni V (K). Podprzestrzeń L(S) nazywa się podprzestrzenią generowaną przez zbiór S, zbiór S – zbiorem generującym przestrzeń L(S), a elementy zbioru S – generatorami przestrzeni L(S). Mówimy także, że zbiór S generuje (pod)przestrzeń L(S). Czasami mówi się, że L(S) jest powłoką liniową zbioru S.
Każda przestrzeń wektorowa V jest generowana przez pewien zbiór wektorów, np. zawsze mamy V = L(V ). Jeśli przestrzeń V ma skończony zbiór generujący, to mówimy, że jest ona skończenie generowana. Zatem przestrzeń V jest skończenie generowana, gdy V = L(v1 , . . . , vn ) dla pewnej liczby naturalnej n i pewnych wektorów v1 , . . . , vn ∈ V . Przykład 132. Przestrzeń Rn [x] jest skończenie generowana, bo Rn [x] = L(1, x, x2 , . . . , xn ). Ponieważ do przestrzeni R[x] należą wielomiany dowolnie wysokiego stopnia, więc żaden skończony zbiór wielomianów nie generuje przestrzeni R[x]. Dlatego przestrzeń R[x] nie jest skończenie generowana.
Przykład 133. Wyznaczyć generatory przestrzeni rozwiązań jednorodnego układu równań x1 + x2 + 2x3 − 2x4 = 0, x1 + 2x2 + 3x3 + 4x4 = 0.
Niech A będzie macierzą główną powyższego układu. Układ ten rozwiązujemy metodą Gaussa-Jordana sprowadzając jego macierz rozszerzoną [A|0] do postaci schodkowej. Ponieważ [A|0] =
1 1 2 −2 0 1 2 3 4 0
∼
1 1 2 −2 0 0 1 1 6 0
więc każde rozwiązanie powyższego układu jest postaci
∼
1 0 1 −8 0 , 0 1 1 6 0
−x3 + 8x4 −1 8 −x3 − 6x4 −1 −6 x= = x3 1 + x4 0 , x3 x4 0 1
L(S) – podprzestrzeń generowana przez zbiór S
Przestrzeń skończenie generowana
128
7. Przestrzeń wektorowa gdzie x3 i x4 są dowolnymi liczbami rzeczywistymi. Zatem przestrzeń rozwiązań tego układu (i przestrzeń zerowa jego macierzy głównej) jest generowana przez wektory v1 T T = −1 −1 1 0 i v2 = 8 −6 0 1 .
7.3. Przestrzeń kolumnowa macierzy
CA – przestrzeń kolumnowa macierzy A
Definicja 7.3.1. Przestrzenią kolumnową macierzy A ∈ Km×n , oznaczamy ją przez CA , nazywamy przestrzeń generowaną przez kolumny macierzy A. Zatem, jeśli A = [a1 a2 . . . an ], to CA = L(a1 , a2 , . . . , an ).
Przykład 134. Wyznaczyć przestrzeń CA Mamy CA =
= =
( " x1
("
−2 0 1
−2 1 0 2 1 0
#
+ x2
#
x1 x2
"
−2 1 macierzy A = 0 2 . 1 0 1 2 0
#
: x1 , x2 ∈ R
:
x1 x2
∈R
2
)
)
Ax : x ∈ R2 .
Korzystając z pojęcia przestrzeni kolumnowej macierzy, przedstawimy teraz kolejny warunek konieczny i dostateczny istnienia rozwiązania układu Ax = b. Niech a1 , a2 , . . . an będą kolejnymi kolumnami macierzy A. Ponieważ dla przestrzeni kolumnowej macierzy A = a1 a2 . . . an mamy CA = L(a1 , a2 , . . . , an ) = {x1 a1 +x2 a2 +. . .+xn an : x1 , . . . , xn ∈ K} x1 x1 x2 x2 n = [a1 a2 . . . an ] . : . ∈ K .. .. xn xn = {Ax : x ∈ K n }
= {b : b = Ax dla pewnego x ∈ K n },
więc układ równań Ax = b ma rozwiązanie wtedy i tylko wtedy, gdy wektor b należy do przestrzeni CA . Stąd natychmiast otrzymujemy następujące twierdzenie. Twierdzenie 7.3.1. Układ równań liniowych Ax = b, gdzie A ∈ Km×n i b ∈ Km×1 , ma rozwiązanie wtedy i tylko wtedy, gdy wektor b należy do przestrzeni kolumnowej macierzy A. Równoważnie, układ Ax = b ma rozwiązanie wtedy i tylko wtedy, gdy CA = C[A|b] , (7.1) tj. wtedy i tylko wtedy, gdy przestrzeń kolumnowa macierzy A jest równa przestrzeni kolumnowej macierzy rozszerzonej [A|b] układu Ax = b.
7.3. Przestrzeń kolumnowa macierzy
129
Przykład 135. Dany jest układ równań Ax = b, gdzie 1 1 2 a 2 1 3 2a A = [ a 1 , a2 , a3 ] = 3 1 4 i b= a+b 4 1 5 2a + b
Dla jakich a i b układ ten ma rozwiązanie?
.
Wobec twierdzenia 7.3.1 układ Ax = b ma rozwiązanie wtedy i tylko wtedy, gdy b ∈ L(a1 , a2 , a3 ). Ponieważ L(a1 , a2 , a3 ) = L(a1 , a2 ) i
1 2 [ a1 , a2 | b ] = 3 4
1 1 1 1
a 2a a + b ∼ ... ∼ 2a + b
1 0 0 0
0 1 0 0
a 0 b − 2a , 0
więc układ Ax = b ma rozwiązanie wtedy i tylko wtedy, gdy b = 2a i a jest dowolną liczbą rzeczywistą.
Przykład 136. Sprawdzić przynależność wektora b = (5, 0, 11) do podprzestrzeni generowanej przez wektory v1 = (1, −2, 2), v2 = (1, 0, 4) i v3 = (2, −4, 1). Niech A będzie macierzą, której kolumnami są v1 , v2 , v3 . Ponieważ mamy L(v1 , v2 , v3 ) = CA , więc wobec twierdzenia 7.3.1 wektor b należy do podprzestrzeni L(v1 , v2 , v3 ) wtedy i tylko wtedy, gdy układ równań Ax = b ma rozwiązanie. Dla macierzy rozszerzonej tego układu mamy równoważności
"
1 1 2 −2 0 −4 2 4 1
5 0 11
#
∼
"
1 1 2 0 2 0 0 2 −3
5 10 1
#
∼
"
1 1 2 0 2 0 0 0 −3
5 10 −9
#
∼
"
1 1 2 0 1 0 0 0 1
5 5 3
#
i z ostatniej macierzy widać, że układ Ax = b ma rozwiązanie. Zatem wektor b należy do podprzestrzeni L(v1 , v2 , v3 ).
Podamy teraz prosty sposób sprawdzania, czy danych n wektorów z przestrzeni K n generuje całą przestrzeń K n . Niech v1 , v2 , . . . , vn będą wektorami z przestrzeni K n i niech A będzie macierzą wymiaru n × n, której kolumnami są v1 , v2 , . . . , vn , czyli A = [v1 v2 . . . vn ]. Ponieważ L(v1 , v2 , . . . , vn ) ⊆ K n , więc mamy następujący ciąg równoważności: L(v1 , v2 , . . . , vn ) = K n ⇔ K n ⊆ L(v1 , v2 , . . . , vn )
⇔ każdy wektor b z przestrzeni K n jest kombinacją liniową wektorów v1 , v2 , . . . , vn ⇔ układ Ax = b ma rozwiązanie dla każdego wektora b ∈ K n (twierdzenie 7.3.1)
⇔ macierz A jest odwracalna (twierdzenie 5.3.1)
⇔ macierz A jest nieosobliwa (wniosek 6.3.1).
Zatem za pomocą wyznacznika możemy badać czy danych n wektorów z przestrzeni K n generuje całą przestrzeń K n i mamy następujące twierdzenie. Twierdzenie 7.3.2. Wektory v1 , v2 , . . . , vn z przestrzeni K n generują całą przestrzeń K n wtedy i tylko wtedy, gdy macierz A = [v1 v2 . . . vn ] jest nieosobliwa.
130
7. Przestrzeń wektorowa
Przykład 137. Czy wektory v1 = (1, 2, −2),
v2 = (3, 2, 1) i v3 = (−1, 2, −5)
generują całą przestrzeń R3 ? Wobec twierdzenia 7.3.2 wektory v1 , v2 , v3 z strzeń R3 wtedy i tylko wtedy, gdyby macierz przypadku 1 3 det A = 2 2 −2 1
przestrzeni R3 generowałyby całą przeA = [v1 v2 v3 ] była nieosobliwa. W tym −1 2 −5
= 0,
więc macierz A jest osobliwa i dlatego wektory v1 , v2 , v3 nie generują całej przestrzeni R3 .
Wniosek 7.3.1. Żadnych k wektorów z przestrzeni K n nie generuje całej przestrzeni K n , gdy k < n. Dowód. Przypuśćmy, że wektory v1 , . . . , vk generują przestrzeń K n i k < n. Wtedy także wektory v1 , . . . , vk , vk+1 = 0, . . . , vn = 0 generują przestrzeń K n i wobec twierdzenia 7.3.2 macierz [v1 . . . vk 0 . . . 0] (mająca n − k > 0 zerowych kolumn) jest nieosobliwa, co jest niemożliwe.
Niech teraz k będzie liczbą naturalną większą od n. Dla sprawdzenia czy wektory v1 , v2 , . . . , vk z przestrzeni K n generują przestrzeń K n tworzymy macierz A = [v1 v2 . . . vk ] wymiaru n × k i za pomocą operacji elementarnych na wierszach przekształcamy ją w wierszowo równoważną macierz B mającą postać schodkową. Jeśli B ma n wiodących jedynek, kolumny macierzy A odpowiadajace wiodącym jedynkom z B tworzą macierz odwracalną i wobec twierdzenia 7.3.2 generują one całą przestrzeń K n . Jeśli macierz B ma mniej niż n wiodących jedynek, to (tak jak w dowodzie twierdzenia 5.3.1) ostatni wiersz macierzy B jest zerowy i układ Bx = en = [0 . . . 0 1]T jest sprzeczny. Ponieważ macierz rozszerzona [B|en ] tego układu jest wierszowo równoważna macierzy [A|b] (dla pewnego wektora b ∈ K n ), układ Ax = b jest sprzeczny, co oznacza, że b nie należy do przestrzeni kolumnowej macierzy A. Zatem kolumny v1 , v2 , . . . , vk macierzy A nie generują przestrzeni K n . Z tych rozważań wynika następujący wniosek. Wniosek 7.3.2. Wektory v1 , v2 , . . . , vk z przestrzeni K n (k > n) generują przestrzeń K n wtedy i tylko wtedy, gdy macierz A = [v1 v2 . . . vk ] jest wierszowo równoważna macierzy schodkowej mającej dokładnie n wiodących jedynek.
Przykład 138. Czy przestrzeń R3 jest generowana przez wektory v1 = (1, −2, 2),
v2 = (0, 1, 1),
v3 = (1, 0, 4) i v4 = (2, 3, 6)?
Tworzymy macierz A = [v1 . . . v4 ] i przekształcamy ją w wierszowo równoważną macierz mającą postać schodkową, A=
"
1 0 1 2 −2 1 0 3 2 1 4 6
#
∼
"
1 0 1 2 0 1 2 7 0 2 4 9
#
∼
"
1 0 1 2 0 1 2 7 0 0 0 1
#
.
Ostatnia macierz ma trzy wiodące jedynki i wektory v1 , v2 i v4 (odpowiadające kolumnom zawierającym wiodące jedynki) generują przestrzeń R 3 .
7.4. Liniowa zależność i liniowa niezależność wektorów
131
7.4. Liniowa zależność i liniowa niezależność wektorów W poniższym tekście przez układ wektorów v1 , v2 , . . . , vk rozumiemy ciąg wektorów (v1 , v2 , . . . , vk ). Definicja 7.4.1. Układ wektorów (v1 , v2 , . . . , vk ) z przestrzeni wektorowej V = V (K) nazywamy liniowo niezależnym, jeśli równanie wektorowe x1 v 1 + x 2 v 2 + . . . + x k v k = 0 ma tylko zerowe rozwiązanie. Z drugiej strony, układ wektorów nazywamy liniowo zależnym, jeśli nie jest on liniowo niezależny. Zatem układ wektorów (v1 , v2 , . . . , vk ) jest liniowo zależny, jeśli istnieją skalary α1 , . . . , αk ∈ K, nie wszystkie równe zeru i takie, że α1 v1 + α2 v2 + . . . + αk vk = 0.
(7.2)
Równość (7.2), w której nie wszystkie skalary α1 , . . . , αk są zerowe, nazywamy relacją liniowej zależności pomiędzy wektorami v1 , . . . , vk . Tam gdzie nie będzie to prowadziło do nieporozumień, będziemy mówić o liniowej zależności (albo liniowej niezależności) wektorów v1 , v2 , . . . , vk lub zbioru wektorów {v1 , v2 , . . . , vk }, rozumiejąc przez to liniową zależność (albo liniową niezależność) układu (v1 , v2 , . . . , vk ). Przykład 139. Wektory 1 v1 = 0 , 2
0 v2 = −2 , −2
2 v3 = −6 −2
są liniowo zależne w R3 i równość 2v1 + 3v2 + (−1)v3 = 0 jest relacją liniowej zależności pomiędzy nimi. Przykład 140. Zbadać liniową niezależność wektorów v1 , v2 , v3 ∈ K2×2 , gdy 1 3 4 5 10 9 v1 = , v2 = i v3 = . 0 −1 2 −3 6 −7 Dla zbadania liniowej niezależności wektorów v1 , v2 i v3 wystarczy zbadać istnienie niezerowych rozwiązań równania x1 v1 + x2 v2 + x3 v3 = 0. Równanie to, czyli równanie x1
1 3 0 −1
+ x2 =
4 5 2 −3
+ x3
10 9 6 −7
x1 + 4x2 + 10x3 3x1 + 5x2 + 9x3 2x2 + 6x3 −x1 − 3x2 − 7x3
jest równoważne jednorodnemu układowi równań liniowych
x1 + 4x2 3x1 + 5x2 2x2 −x1 − 3x2
+ + + −
10x3 9x3 6x3 7x3
= = = =
Dla jego macierzy rozszerzonej mamy równoważności
1 4 10 3 5 9 0 2 6 −1 −3 −7
0 0 ∼ ... ∼ 0 0
1 0 0 0
=
0 0 , 0 0
0, 0, 0, 0.
0 −2 0 1 3 0 0 0 0 0 0 0
i stąd widać, że równanie x1 v1 + x2 v2 + x3 v3 = 0 ma niezerowe rozwiązanie, np. 2v1 − 3v2 + v3 = 0. Zatem wektory v1 , v2 i v3 są liniowo zależne.
Liniowo niezależny układ wektorów
Liniowo zależny układ wektorów
132
7. Przestrzeń wektorowa
Przykład 141. Funkcje v1 = sin i v2 = cos są liniowo niezależne w przestrzeni F(h0; πi, R). Załóżmy, że w przestrzeni F(h0; πi, R) zachodzi równość x1 sin +x2 cos = 0 dla pewnych skalarów x1 , x2 ∈ R. Wtedy x1 sin t + x2 cos t = 0(t) = 0 dla każdego t ∈ h0; πi. Z równości tej dla t = π/2 i t = 0 otrzymujemy x1 = 0 i x2 = 0. To dowodzi, że funkcje v1 = sin i v2 = cos są liniowo niezależne.
Z definicji 7.4.1 (i z twierdzenia 7.1.1) wynika, że układ (v) składający się z jednego wektora jest liniowo zależny wtedy i tylko wtedy, gdy v jest wektorem zerowym. Istotnie, jeśli v 6= 0 i αv = 0, to α = 0 i układ (v) jest liniowo niezależny. Z drugiej strony, układ (0) jest liniowo zależny, bo 1·0 = 0 jest kombinacją spełniającą warunki definicji liniowej zależności. Łatwo także zauważyć, że układ dwóch wektorów (v1 , v2 ) jest liniowo zależne wtedy i tylko wtedy, gdy jeden z wektorów v1 i v2 jest równy iloczynowi drugiego wektora przez skalar, np. v2 = αv1 (zob. rys. 7.9). Uogólnieniem tej obserwacji są następujące dwa twierdzenia i wynikające z nich wnioski o liniowej zależności (i niezależności) wektorów. y
6
2v1 3
y
6 v2 7
v1 3
* v1
x
x
Wektory liniowo zależne
Wektory liniowo niezależne Rys. 7.9
Twierdzenie 7.4.1. Układ wektorów B = (v1 , . . . , vk ), k 2, z przestrzeni wektorowej V jest liniowo zależny wtedy i tylko wtedy, gdy jeden z jego wektorów jest kombinacją liniową pozostałych wektorów z tego układu, tj. gdy v i ∈ L(B − {vi }) dla pewnego vi ∈ B.
Dowód. Jeśli wektor vi jest kombinacją liniową wektorów v1 , . . . , vi−1 , vi+1 , . . . , vk , powiedzmy vi = α1 v1 + . . . + αi−1 vi−1 + αi+1 vi+1 + . . . + αk vk ,
−1 6= 0
to α1 v1 + . . . + αi−1 vi−1 + (−1)vi + αi+1 vi+1 + . . . + αk vk = 0 jest relacją liniowej zależności pomiędzy wektorami v1 , . . . , vk i wektory te są liniowo zależne. Załóżmy teraz, że układ wektorów (v1 , . . . , vk ) jest liniowo zależny. Wtedy istnieją skalary α1 , . . . , αk , nie wszystkie równe zeru i takie, że α1 v1 + α2 v2 + . . . + αk vk = 0.
(7.3)
Jeśli αi 6= 0, to z (7.3) otrzymujemy i stąd
αi vi = −α1 v1 − . . . − αi−1 vi−1 − αi+1 vi+1 − . . . − αk vk
−1 −1 −1 vi = (−α1 α−1 i )v1 + . . . + (−αi−1 αi )vi−1 + (−αi+1 αi )vi+1 + . . . + (−αk αi )vk .
To oznacza, że wektor vi jest kombinacją liniową wektorów v1 , . . . , vi−1 , vi+1 , . . . , vk .
7.4. Liniowa zależność i liniowa niezależność wektorów Wniosek 7.4.1. Układ wektorów B = (v1 , v2 , . . . , vk ), k 2, z przestrzeni wektorowej V jest liniowo niezależny wtedy i tylko wtedy, gdy żaden z wektorów vj nie jest kombinacją liniową pozostałych wektorów, tj. gdy vj 6∈ L(B − {vj }) dla każdego vj ∈ B. Przykład 142. Wektory v1 , v2 i v3 z przykładu 139 są liniowo zależne i v3 jest kombinacją liniową wektorów v1 i v2 , v3 = 2v1 + 3v2 . Twierdzenie 7.4.2. Układ (v1 , v2 , . . . , vk ) niezerowych wektorów przestrzeni wektorowej V jest liniowo zależny wtedy i tylko wtedy, gdy pewien wektor v j (2 ¬ j ¬ k) jest kombinacją liniową swoich poprzedników, tj. gdy vj ∈ L(v1 , . . . , vj−1 ) dla pewnego j, 2 ¬ j ¬ k. Dowód. Załóżmy, że układ (v1 , v2 , . . . , vk ) jest liniowo zależny. Wtedy, ponieważ układ (v1 ) jest liniowo niezależny (bo v1 6= 0), istnieje j (2 ¬ j ¬ k) takie, że układ (v1 , . . . , vj−1 ) jest liniowo niezależny, a układ (v1 , . . . , vj−1 , vj ) jest już liniowo zależny. Zatem istnieją skalary α1 , . . . , αj nie wszystkie równe zeru i takie, że α1 v1 + . . . + αj−1 vj−1 + αj vj = 0. Zauważmy, że αj = 6 0 (bo inaczej byłoby α1 v1 + . . . + αj−1 vj−1 = 0 i nie wszystkie współczynniki tej kombinacji byłyby zerowe i układ (v1 , . . . , vj−1 ) byłby liniowo zależny), więc vj = −α−1 j (α1 v1 + . . . + αj−1 vj−1 ) ∈ L(v1 , . . . , vj−1 ). Załóżmy teraz, że vj ∈ L(v1 , . . . , vj−1 ) dla pewnego j, 2 ¬ j ¬ k. Wtedy także vj ∈ L(v1 , . . . , vj−1 , vj+1 , . . . , vk ) i wobec twierdzenia 7.4.1 wektory v1 , . . . , vk są liniowo zależne.
Wniosek 7.4.2. Układ (v1 , v2 , . . . , vk ) niezerowych wektorów przestrzeni V jest liniowo niezależny wtedy i tylko wtedy, gdy żaden wektor vj (2 ¬ j ¬ k) nie jest kombinacją liniową swoich poprzedników, tj. gdy vj 6∈ L(v1 , . . . , vj−1 ) dla j = 2, . . . , k. Przestrzeń wektorowa K n jest najważniejsza w naszych rozważaniach, więc z osobna zajmiemy się liniową niezależnością wektorów w tej przestrzeni. Dla wektorów v1 , v2 , . . . , vk z przestrzeni K n równanie wektorowe x1 v1 + x2 v2 + . . . + xk vk = 0 jest równoważne równaniu macierzowemu Ax = 0, w którym A = [v1 v2 . . . vk ]. Ponieważ istnieje odpowiedniość wzajemnie jednoznaczna pomiędzy relacjami liniowej zależności wektorów v1 , v2 , . . . , vk i niezerowymi rozwiązaniami równania Ax = 0, więc mamy następujące twierdzenie o związku pomiędzy liniową niezależnością wektorów przestrzeni K n i istnieniem niezerowych rozwiązań jednorodnego układu równań liniowych. Twierdzenie 7.4.3. Kolumny macierzy A = [v1 v2 . . . vk ] ∈ Kn×k są wektorami liniowo niezależnymi wtedy i tylko wtedy, gdy wektor zerowy jest jedynym rozwiązaniem układu równań liniowych Ax = 0.
Przykład 143. Zbadać liniową niezależność wektorów v1 = (1, 2, 3, −1), v2 = (2, 1, 2, 1) i v3 = (1, −4, −5, 5) w przestrzeni R4 . Ponieważ wektory v1 , v2 i v3 są liniowo zależne wtedy i tylko wtedy, gdy równanie Ax = 0 (gdzie A = [v1 v2 v3 ]) ma niezerowe rozwiązanie, więc zbadamy istnienie
133
134
7. Przestrzeń wektorowa niezerowych rozwiązań równania Ax = 0. Dla macierzy rozszerzonej tego równania istnieją równoważności
1 2 [v1 v2 v3 | 0] = 3 −1
2 1 0 1 −4 0 ∼ ... ∼ 2 −5 0 1 5 0
1 0 0 0
0 −3 0 1 2 0 0 0 0 0 0 0
i z ostatniej macierzy widać, że równanie x1 v1 +x2 v2 +x3 v3 = 0 ma niezerowe rozwiązanie. Dla przykładu, jeśli x3 = 1, to x1 = 3, x2 = −2 i dlatego mamy 3v1 −2v2 +v3 = 0. Zatem wektory v1 , v2 , v3 są liniowo zależne.
Jeśli wektory v1 , v2 , . . . , vk należą do przestrzeni K n i k > n, to w jednorodnym układzie równań [v1 v2 . . . vk ]x = 0 liczba niewiadomych jest większa od liczby równań, więc układ ten ma niezerowe rozwiązanie (zob. wniosek 5.5.1) i z twierdzenia 7.4.3 mamy następujący wniosek. Wniosek 7.4.3. Wektory (v1 , v2 , . . . , vk ) z przestrzeni K n są liniowo zależne, gdy k > n. Przykład 144. Każde cztery wektory w przestrzeni R 3 są liniowo zależne. Zatem wektory v1 = (2, 1, 1), v2 = (1, 2, 1), v3 = (1, 1, 2) i v4 = (3, 4, 5) są liniowo zależne w R3 . Z wniosków 6.3.1 i 6.5.1 oraz z twierdzeń 7.3.2 i 7.4.3 otrzymujemy następujący wniosek o liniowej niezależności n wektorów z przestrzeni K n . Wniosek 7.4.4. Dla wektorów v1 , . . . , vn z przestrzeni K n następujące stwierdzenia są równoważne: (1) Układ wektorów (v1 , . . . , vn ) jest liniowo niezależny; (2) Równanie [v1 . . . vn ]x = 0 ma tylko zerowe rozwiązanie;
(tw. 7.4.3)
(3) Macierz [v1 . . . vn ] jest nieosobliwa;
(wn. 6.3.1)
(4) Macierz [v1 . . . vn ] jest odwracalna;
(wn. 6.5.1)
(5) Wektory v1 , . . . , vn generują całą przestrzeń K . n
(tw. 7.3.2)
Przykład 145. Zbadać liniową zależność wektorów v1 = (8, 6, 5, 4), v2 = (10, 8, 5, 4), v3 = (12, 10, 8, 4) i v4 = (7, 6, 5, 4) w przestrzeni R4 .
Ponieważ macierz v1 v2 v3 v4 jest nieosobliwa,
det
"
| | | | v1 v2 v3 v4 | | | |
#
=
1 − v4 8 10 12 7 v v2 − v 4 6 8 10 6 v3 − v4 = 5 5 8 5 4 4 4 4
1 0 0 0
3 2 0 0
5 4 3 0
7 6 5 4
= 24,
więc wobec wniosku 7.4.4 wektory v1 , . . . , v4 są liniowo niezależne (i generują całą przestrzeń R4 ).
Na zakończenie zauważmy, że definicję liniowej niezależności (i zależności) można tak rozszerzyć, aby obejmowała ona także zbiory nieskończone. Definicja 7.4.2. Mówimy, że zbiór S wektorów przestrzeni V jest liniowo niezależny, jeżeli każdy skończony podzbiór zbioru S jest liniowo niezależny. W przeciwnym przypadku mówimy, że zbiór S jest liniowo zależny.
7.5. Baza przestrzeni wektorowej
135
Przykład 146. Zbiór S = {1, x, x2 , . . . , xn , . . .} jednomianów jest liniowo niezależny w przestrzeni wielomianów rzeczywistych R[x]. Tak jest, bo każda liniowa kombinacja skończonej ilości różnych wektorów ze zbioru S jest wielomianem, ϕ(x) = α1 xk1 + . . . + αm xkm . Taki wielomian jest wielomianem zerowym, gdy wszystkie jego współczynniki są zerowe.
7.5. Baza przestrzeni wektorowej Definicja 7.5.1. Układ B = (v1 , v2 , . . . , vn ) wektorów z przestrzeni V nazywamy bazą przestrzeni V , gdy ma on następujące dwie własności:
Baza przestrzeni
(1) B jest liniowo niezależny; (2) B generuje przestrzeń V , tj. L(B) = V .
Zacznijmy od kilku przykładów baz przestrzeni wektorowych.
Przykład 147. Sprawdzić, czy układ wektorów (v1 , v2 , v3 ) jest bazą przestrzeni R3 , gdy v1 = (2, 1, 3), v2 = (1, 0, 1) i v3 = (1, −1, 1). Wobec wniosku 7.4.4 wystarczy sprawdzić nieosobliwość macierzy [v1 v2 v3 ]. Ponieważ det [v1 v2 v3 ] = det
"
2 1 1 1 0 −1 3 1 1
#
= −1 6= 0,
więc macierz ta jest nieosobliwa i układ wektorów (v1 , v2 , v3 ) jest bazą przestrzeni R3 .
Przykład 148. Podobnie jak w poprzednim przykładzie można uzasadnić, że układ wektorów B = (e1 , e2 , . . . , en ), w którym ei = (0, . . . , 0, 1, 0, . . . , 0) (jedynka na i-tym miejscu) dla i = 1, . . . , n, jest bazą przestrzeni K n . Nazywamy ją bazą standardową (lub kanoniczną) przestrzeni K n . Przykład 149. Wyznaczyć bazę podprzestrzeni W przestrzeni R 4 , gdy W = {(x1 , x2 , x3 , x4 ) ∈ R4 : x1 = 3x2 , x3 = x2 + 4x4 }. Mamy W
= = =
{(3x2 , x2 , x2 + 4x4 , x4 ) : x2 , x4 ∈ R}
{(3x2 , x2 , x2 , 0) + (0, 0, 4x4 , x4 ) : x2 , x4 ∈ R}
{x2 (3, 1, 1, 0) + x4 (0, 0, 4, 1) : x2 , x4 ∈ R},
co oznacza, że wektory v1 = (3, 1, 1, 0) i v2 = (0, 0, 4, 1) generują podprzestrzeń W . Ponieważ wektory v1 i v2 są liniowo niezależne (bo żaden z nich nie jest krotnością drugiego), więc uporządkowany zbiór (v1 , v2 ) (i zbiór (v2 , v1 )) jest bazą podprzestrzeni W.
Baza standardowa
136
7. Przestrzeń wektorowa
Przykład 150. Wyznaczyć bazę przestrzeni zerowej NA macierzy 1 3 2 A = 2 6 4 . 2 1 −1
Przestrzeń zerowa NA macierzy A jest zbiorem wszystkich rozwiązań jednorodnego układu równań Ax = 0. Ponieważ dla macierzy rozszerzonej tego układu mamy [A|0] =
"
1 3 2 2 6 4 2 1 −1
więc NA =
("
x3 −x3 x3
#
# " 0 1 3 2 0 ∼ 0 0 0 0 0 −5 −5
: x3 ∈ R
)
=
( " x3
1 −1 1
# " # 0 1 0 −1 0 0 ∼ 0 1 1 0 , 0 0 0 0 0
#
: x3 ∈ R
)
=L
"
1 −1 1
#!
i bazę przestrzeni NA tworzy pojedynczy wektor (1, −1, 1).
Przykład 151. Z naszych wcześniejszych rozważań wynika, że uporządkowany nieskończony zbiór jednomianów (1, x, x2 , . . . , xn , . . .) jest bazą przestrzeni R[x]. Korzystając z tzw. lematu Kuratowskiego-Zorna, można udowodnić, że każdy uporządkowany zbiór niezależnych wektorów przestrzeni V jest zawarty w pewnej bazie przestrzeni V (zob. tw. 6.2 w [2]). Stąd w szczególności wynika, że każda przestrzeń wektorowa ma bazę. Twierdzenia te mają charakter egzystencjalny i w ogólnym przypadku nie dostarczają one efektywnych metod wyznaczania bazy przestrzeni wektorowej. W przestrzeniach skończenie generowanych, a te są głównym obiektem naszych zainteresowań, istnieją – jak to wynika z następnych twierdzeń – efektywne metody wyznaczania baz. Następujące twierdzenie podaje podstawowe własności bazy skończenie generowanej przestrzeni wektorowej. Twierdzenie 7.5.1. Niech B = (v1 , v2 , . . . , vn ) będzie układem wektorów z przestrzeni V . Wówczas następujące warunki są równoważne: (a) B jest bazą przestrzeni V ; (b) Każdy wektor v ∈ V można, i to tylko na jeden sposób, przedstawić jako kombinację liniową wektorów układu B; (c) B jest minimalnym układem generującym przestrzeń V ; (d) B jest maksymalnym liniowo niezależnym układem w przestrzeni V . Dowód. (a) ⇒ (b). Załóżmy, że B jest bazą przestrzeni V . Wtedy V = L(B), więc każdy wektor v ∈ V jest kombinacją liniową wektorów układu B, czyli v = α 1 v1 + α 2 v2 + . . . + α n vn dla pewnych skalarów α1 , . . . , αn ∈ K. Twierdzimy, że współczynniki tej kombinacji są określone jednoznacznie (przez wektory v1 , v2 , . . . , vn i v). Przypuśćmy bowiem, że także mamy v = β 1 v1 + β 2 v2 + . . . + β n vn dla pewnych skalarów β1 , . . . , βn ∈ K. Wtedy 0 = v − v = (β1 − α1 )v1 + (β2 − α2 )v2 + . . . + (βn − αn )vn
7.5. Baza przestrzeni wektorowej
137
i z liniowej niezależności wektorów v1 , v2 , . . . , vn wynika, że wszystkie współczynniki tej kombinacji są zerami. Stąd β1 = α1 , . . . , βn = αn i to dowodzi, że współczynniki kombinacji v = α1 v1 + . . . + αn vn są określone jednoznacznie. (b) ⇒ (c). Z (b) wynika, że B jest układem generującym przestrzeń V , tj. V = L(B). Dla dowodu, że B jest minimalnym układem generującym przestrzeń V wystarczy zauważyć, że gdyby układ B − {vi } (powstały z B przez odrzucenie zeń wektora vi ) był układem generującym przestrzeń V , to mielibyśmy L(B − {vi }) = V i dla wektora vi , który należy do V = L(B − {vi }), istniałyby skalary α1 , . . . , αi−1 , αi+1 , . . . , αn takie, że vi = α1 v1 + . . . + αi−1 vi−1 + αi+1 vi+1 . . . + αn vn , a ponieważ jednocześnie jest vi = 0v1 + . . . + 0vi−1 + 1vi + 0vi+1 + . . . + 0vn , więc istniałyby dwie różne możliwości przedstawienia wektora vi w postaci kombinacji liniowej wektorów v1 , v2 , . . . , vn i to przeczyłoby założeniu (b). (c) ⇒ (d). Załóżmy teraz, że B jest minimalnym układem generującym przestrzeń V . Wtedy L(B) = V i V − L(B − {vi }) 6= ∅ dla każdego wektora vi z układu B. Stąd wynika, że vi 6∈ L(B − {vi }) dla każdego vi ∈ B. Wobec wniosku 7.4.1 dowodzi to, że układ B jest liniowo niezależny. Jednocześnie dla każdego u ∈ V − B jest u ∈ L(B), więc układ B ∪ {u} (czyli uklad powstały z B przez dołączenie doń wektora u) jest liniowo zależny. Zatem B jest maksymalnym liniowo niezależnym układem. (d) ⇒ (a). Załóżmy, że B jest maksymalnym układem liniowo niezależnym i niech u będzie dowolnym wektorem ze zbioru V − B. Wtedy B ∪ {u} jest liniowo zależny i z twierdzenia 7.4.1 wynika, że u ∈ L(B). To dowodzi, że układ B generuje przestrzeń V . Zatem B jest bazą przestrzeni V .
Wniosek 7.5.1. Każda skończenie generowana przestrzeń wektorowa ma bazę. Dowód. Teza jest oczywista dla przestrzeni zerowej, jej bazą jest zbiór pusty. Zatem niech V będzie niezerową przestrzenią wektorową generowaną przez zbiór G = {v1 , . . . , vn } ⊂ V i niech B będzie maksymalnym liniowo niezależnym układem utworzonym z elementów zbioru G (lub minimalnym układem generującym przestrzeń V i utworzonym z elementów zbioru G). Zgodnie z twierdzeniem 7.5.1 układ B jest bazą przestrzeni V.
Niech G = {v1 , . . . , vn } będzie zbiorem generującym przestrzeń wektorową V . Ponieważ V = L(G) = L(G − {0}), możemy założyć, że wektory v1 , . . . , vn są niezerowe. Bazę B przestrzeni V , w praktyce (uporządkowany) maksymalny liniowo niezależny podzbiór zbioru G, o którym mowa w dowodzie poprzedniego wniosku, możemy efektywnie wyznaczyć za pomocą procedury odrzucania. W tym celu bierzemy pod uwagę układ (v1 , v2 , . . . , vn ). Zaczynając od v2 , z układu tego odrzucamy każdy wektor, który jest kombinacją liniową jego poprzedników pozostałych po wcześniejszych odrzuceniach. Po przetestowaniu wszystkich wektorów vi (2 ¬ i ¬ n), wektory, które nie zostały odrzucone są liniowo niezależne (zob. wniosek 7.4.2) i – jak łatwo zauważyć – generują one przestrzeń V , więc tworzą bazę przestrzeni V . Przykład 152. Za pomocą procedury odrzucania wyznaczyć bazę przestrzeni V = L(x2 , x2 + 1, 2, 3x − 2, x) w R[x]. Weźmy pod uwagę ciąg (v1 , . . . , v5 ) = (x2 , x2 + 1, 2, 3x − 2, x). Ponieważ wektory v1 = x2 i v2 = x2 + 1 są liniowo niezależne, więc zgodnie z procedurą odrzucania zachowujemy wektor v2 i badamy zależność wektora v3 = 2 od jego poprzedników. Wektor v3 jest liniową kombinacją swoich poprzedników, v3 = 2 = −2x2 + 2(x2 + 1) = −2v1 +2v2 , więc odrzucamy v3 i badamy zależność wektora v4 od jego poprzedników w ciągu (v1 , v2 , v4 , v5 ). Wektor v4 = 3x − 2 nie jest kombinacją wektorów v1 i v2 , bo x w pierwszej potędze nie występuje ani w v1 , ani w v2 . Zatem v4 pozostaje w ciągu i analizujemy zależność wektora v5 od jego poprzedników w ciągu (v1 , v2 , v4 , v5 ).
Procedura odrzucania
138
7. Przestrzeń wektorowa W tym celu sprawdzamy czy istnieją skalary a, b i c takie, że v5 = av1 + bv2 + cv4 . Łatwo zauważyć, że v5 = x = − 32 x2 + 23 (x2 + 1) + 13 (3x − 2) = − 32 v1 + 23 v2 + 13 v4 , więc z ciągu (v1 , v2 , v4 , v5 ) odrzucamy wektor v5 . Ostatecznie wektory v1 , v2 i v4 tworzą bazę przestrzeni V .
W przypadku wektorów przestrzeni K n procedurę odrzucania wektorów, które są liniowymi kombinacjami swoich poprzedników w ciągu (v1 , v2 , . . . , vk ) można wykonać w następujący sposób: Tworzymy macierz A = [v1 v2 . . . vk ] i sprowadzamy ją do wierszowo równoważnej macierzy H mającej normalną postać schodkową. Z ciągu (v1 , v2 , . . . , vk ) odrzucamy wszystkie te wektory, które odpowiadają kolumnom bez wiodących jedynek w macierzy H. Pozostałe wektory tworzą bazę podprzestrzeni generowanej przez wektory v1 , v2 , . . . , vk , więc także bazę przestrzeni kolumnowej macierzy A. Tak jest istotnie, bo wobec definicji 7.4.1 każdej relacji liniowej zależności między wektorami v1 , v2 , . . . , vk odpowiada niezerowe rozwiązanie jednorodnego układu Ax = 0. A ponieważ zbiór rozwiązań układu Ax = 0 jest taki sam jak zbiór rozwiązań układu Hx = 0, więc każda relacja liniowej zależności między kolumnami macierzy A jest relacją liniowej zależności między kolumnami macierzy H (i odwrotnie). Kolumny macierzy H zawierające wiodące jedynki są różnymi wektorami standardowej bazy przestrzeni K n , więc są one niezależne. Natomiast każda kolumna bez wiodącej jedynki macierzy H jest liniową kombinacją poprzedzających ją kolumn z wiodącymi jedynkami. Zatem kolumnami macierzy A, które są kombinacjami swoich poprzedników (i które odrzucamy) są dokładnie te kolumny, które odpowiadają kolumnom bez wiodących jedynek w macierzy H.
Nasze rozważania ilustruje następujący przykład. Przykład 153. Za pomocą procedury odrzucania wyznaczyć bazę podprzestrzeni V przestrzeni R5 generowanej przez wektory v1 = (1, 2, 3, 1, 1), v2 = (−2, −3, −5, −1, −2), v3 = (0, 1, 1, 1, 0), v4 = (1, −1, 0, −2, 1) i v5 = (2, 6, 9, 4, 3). Tworzymy macierz A = [v1 v2 v3 v4 v5 ] i sprowadzamy ją do wierszowo równoważnej normalnej macierzy schodkowej:
1 2 3 1 1
−2 −3 −5 −1 −2
0 1 2 1 −1 6 1 0 9 ∼ 1 −2 4 0 1 3
1 −2 0 1 2 0 1 1 −3 2 0 1 1 −3 3 0 1 1 −3 2 0 0 0 0 1
∼
1 0 0 0 0
0 1 0 0 0
2 −5 0 1 −3 0 0 0 1 . 0 0 0 0 0 0
Ponieważ wiodące jedynki są tylko w pierwszej, drugiej i piątej kolumnie normalnej macierzy schodkowej, więc wektory v1 , v2 i v5 są liniowo niezależne. Wektory v3 i v4 są kombinacjami wektorów v1 i v2 (v3 = 2v1 + v2 , v4 = −5v1 − 3v2 ) i odrzucamy je ze zbioru generatorów przestrzeni V . Zatem układ (v1 , v2 , v5 ) jest bazą przestrzeni V (i bazą przestrzeni kolumnowej macirzy A).
Uwaga. Przy wyznaczaniu bazy przestrzeni L(v1 , . . . , vk ) ⊆ K n wystarczy sprowadzić macierz A = [v1 v2 . . . vk ] do wierszowo równoważnej macierzy schodkowej, nie musi to być normalna macierz schodkowa. Niech V będzie skończenie generowaną przestrzenią wektorową. Chociaż przestrzeń ta może mieć wiele różnych baz, pokażemy, że każde dwie bazy przestrzeni V mają taką samą liczbę elementów. Fakt ten jest konsekwencją następującego twierdzenia Steinitza.
7.5. Baza przestrzeni wektorowej
139
Twierdzenie 7.5.2 (Steinitz). Jeśli wektory v1 , . . . , vn generują przestrzeń V , a wektory u1 , . . . , um są liniowo niezależne w przestrzeni V , to m ¬ n.
Dowód. Przypuśćmy dla sprzeczności, że jest m > n. Ponieważ wektory v1 , . . . , vn generują przestrzeń V , więc istnieją skalary aij takie, że ui = ai1 v1 + ai2 v2 + . . . + ain vn =
n X
aij vj
(7.4)
j=1
dla i = 1, . . . , m. Weźmy teraz pod uwagę jednorodny układ równań
a11 x1 + a21 x2 + . . . + am1 xm = 0, a12 x1 + a22 x2 + . . . + am2 xm = 0, .. . a1n x1 + a2n x2 + . . . + amn xm = 0.
(7.5)
W układzie (7.5) jest więcej niewiadomych niż równań (m > n), więc wobec wniosku 5.5.1 układ ten ma niezerowe rozwiązanie x1 , x2 , . . . , xm . Dla tego niezerowego rozwiązania x1 , x2 , . . . , xm z (7.4) i (7.5) kolejno otrzymujemy m X i=1
xi ui =
m X i=1
xi
n X j=1
aij vj
=
n m X X j=1
i=1
aij xi vj =
n X
0vj = 0,
j=1
co oznacza, że wektory u1 , u2 , . . . , um są liniowo zależne i co jest sprzeczne z założeniem. To dowodzi, że m ¬ n.
Wniosek 7.5.2. Każde dwie bazy skończenie generowanej przestrzeni wektorowej mają tyle samo elementów. Dowód. Niech B = (u1 , u2 , . . . , um ) i B 0 = (v1 , v2 , . . . , vn ) będą bazami przestrzeni V . Ponieważ wektory u1 , u2 , . . . , um są liniowo niezależne w przestrzeni generowanej przez wektory v1 , v2 , . . . , vn , to wobec twierdzenia 7.5.2 jest m ¬ n. Jednocześnie wektory v1 , v2 , . . . , vn są liniowo niezależne w przestrzeni generowanej przez wektory u1 , u2 , . . . , um , więc także n ¬ m. Stąd wynika, że m = n.
Wobec wniosku 7.5.2 liczba wektorów w dowolnej bazie skończenie generowanej przestrzeni wektorowej jest niezmiennikiem tej przestrzeni, więc możemy przyjąć następującą definicję.
Definicja 7.5.2. Liczbę elementów dowolnej bazy skończenie generowanej przestrzeni wektorowej V nazywamy wymiarem przestrzeni V i oznaczamy symbolem dim V . Jeśli dim V = n, to mówimy, że V jest przestrzenią wymiaru n (lub przestrzenią n-wymiarową). W tym przypadku mówimy także, że V jest przestrzenią skończenie wymiarową. Jeśli przestrzeń V nie jest skończenie wymiarowa, to mówimy, że jest ona przestrzenią nieskończenie wymiarową (lub że jej wymiar jest nieskończony) i piszemy dim V = ∞.
Przestrzeń K n jest skończenie wymiarowa i wobec przykładu 121 mamy dim K n = n. Wielomiany 1, x, x2 , . . . , xn tworzą bazę przestrzeni Rn [x] wielomianów stopnia co najwyżej n. Zatem dim Rn [x] = n + 1. Natomiast przestrzeń wszystkich wielomianów R[x] (i przestrzeń funkcji F(R, R)) jest przestrzenią nieskończenie wymiarową. Bazą przestrzeni zerowej V = {0} jest zbiór pusty i dlatego mówimy, że jest to przestrzeń 0-wymiarowa, dim {0} = 0. Twierdzenie 7.5.3. Każdy uporządkowany zbiór Ik = (v1 , v2 , . . . , vk ) liniowo niezależnych wektorów skończenie wymiarowej przestrzeni V można uzupełnić do bazy przestrzeni V .
Dowód. Niech (u1 , u2 , . . . , un ) będzie jakąkolwiek bazą przestrzeni V . Ponieważ wektory v1 , . . . , vk , u1 , . . . , un generują przestrzeń V , więc po odrzuceniu z ciągu (v1 , . . . , vk , u1 , . . . , un ) wektorów będących kombinacjami liniowymi swoich poprzedników otrzymamy bazę B przestrzeni V . Baza ta zawiera wektory v1 , . . . , vk , bo żaden z nich nie
dim V – wymiar przestrzeni V
dim K n = n dim Rn [x] = n + 1
dim {0} = 0
140
7. Przestrzeń wektorowa jest kombinacją swoich poprzedników w ciągu (v1 , . . . , vk , u1 , . . . , un ). Inne uzasadnienie. Jeśli L(Ik ) = V , to Ik jest żądaną bazą przestrzeni V . Jeśli L(Ik ) 6= V , to wybieramy dowolny wektor vk+1 ze zbioru V − L(Ik ) i tworzymy uporządkowany zbiór Ik+1 = (v1 , v2 , . . . , vk , vk+1 ). Wobec wniosku 7.4.2 zbiór Ik+1 jest liniowo niezależny. Jeśli tym razem L(Ik+1 ) = V , to Ik+1 jest stosowną bazą przestrzeni V . Jeśli L(Ik+1 ) 6= V , to wybieramy dowolny wektor vk+2 ze zbioru V − L(Ik+1 ) i tworzymy uporządkowany zbiór Ik+2 = (v1 , v2 , . . . , vk , vk+1 , vk+2 ). Zbiór Ik+2 jest liniowo niezależny. Zatem, jeśli L(Ik+2 ) = V , to Ik+2 jest bazą przestrzeni V . W przypadku przeciwnym zbiór V − L(Ik+2 ) jest niepusty, więc wybieramy z niego dowolny wektor vk+3 , itd. Proces ten kończy się po pewnej liczbie kroków, bo przestrzeń V jest skończenie wymiarowa i nie może zawierać nieskończonego zbioru niezależnych wektorów. Dlatego po skończonej liczbie kroków otrzymamy zbiór In = (v1 , v2 , . . . , vk , vk+1 , . . . , vn ) liniowo niezależnych wektorów generujących przestrzeń V , czyli bazę przestrzeni V .
Niech V będzie przestrzenią skończenie wymiarową. Na to aby układ wektorów B ⊂ V był bazą przestrzeni V potrzeba i wystarcza, aby miał on dwie własności: (a) B generuje przestrzeń V i (b) B jest liniowo niezależny. Okazuje się, że jeśli znamy wymiar przestrzeni V i liczba elementów zbioru B jest równa wymiarowi przestrzeni V , to własności (a) i (b) są sobie równoważne i mamy następujący odpowiednik wniosku 7.4.4. Twierdzenie 7.5.4. Jeśli B = (v1 , v2 , . . . , vn ) jest układem n wektorów n-wymiarowej przestrzeni V , to następujące warunki są równoważne: (1) B jest bazą przestrzeni V ; (2) B jest liniowo niezależny; (3) B generuje przestrzeń V . Dowód. Jeśli zbiór B jest niezależny, to wobec twierdzenia 7.5.3 można go uzupełnić do bazy B 0 przestrzeni V . Ponieważ B ⊆ B 0 i n = |B| ¬ |B 0 | = dim V = n, więc B = B 0 i B jest bazą przestrzeni V . Z drugiej strony, jeśli B generuje przestrzeń V , to można B zredukować (np. za pomocą procedury odrzucania) do bazy B 00 przestrzeni V . Ponieważ B 00 ⊆ B i n = dim V = |B 00 | ¬ |B| = n, więc B = B 00 i B jest bazą przestrzeni V . Stąd i z definicji bazy wynikają równoważności warunków (1), (2) i (3).
Przykład 154. Pokazać, że układ B = (1, x − 1, (x − 1)2 , . . . , (x − 1)10 ) jest bazą przestrzeni R10 [x]. Ponieważ dim R10 [x] = 11 i układ B ma 11 elementów, więc wobec twierdzenia 7.5.4 wystarczy pokazać, że B generuje przestrzeń R10 [x]. Niech ϕ(x) będzie dowolnym wielomianem z przestrzeni R10 [x]. Wielomian ϕ(x) ma pochodną dowolnego rzędu i ϕ(k) (x) = 0 dla k 11, więc ze wzoru Taylora (znanego z kursu analizy matematycznej) mamy ϕ(x) = ϕ(1) +
ϕ0 (1) ϕ00 (1) ϕ(10) (1) (x − 1) + (x − 1)2 + . . . + (x − 1)10 , 1! 2! 10!
co oznacza, że ϕ(x) jest kombinacją liniową wektorów z układu B. Stąd wynika, że B generuje przestrzeń R10 [x] i dlatego jest on bazą przestrzeni R10 [x].
Przykład 155. Liniowo niezależny układ wektorów 3 1 2 0 1 0 B= , , 0 0 1 0 0 1 uzupełnić do bazy przestrzeni R2×2 .
7.6. Współrzędne wektora
141
Ponieważ dim R2×2 = 4 i wektory należące do układu B są liniowo niezależne, więc wobec twierdzenia 7.5.4 wystarczy układ B uzupełnić o wektor z przestrzeni R2×2 , który nie należy do podprzestrzeni L(B). Można to zrobić “metodą prób i błędów” lub – jak to tu zrobimy – za pomocą opisu podprzestrzeni L(B). a b Zauważmy, że macierz należy do L(B) pod warunkiem, że dla pewnych c d liczb x, y i z jest
a b c d
=x
3 1 0 0
+y
2 0 1 0
+z
1 0 0 1
=
3x + 2y + z x . y z
To jest możliwe tylko wtedy, gdy a = 3b+2c+d. Zatem L(B) jestzbiorem tych macierzy a b 1 0 ∈ R2×2 , dla których a = 3b + 2c + d. W szczególności 6∈ L(B) i zbiór c d 0 0
3 1 , 0 0 przestrzeni R2×2 . B0 =
2 0 , 1 0
1 0 , 0 1
1 0 0 0
jest uzupełnieniem zbioru B do bazy
Ze względów praktycznych warto pamiętać o następujących werbalnych konsekwencjach wcześniejszych twierdzeń i definicji. Wniosek 7.5.3. (1) Jeśli V jest n-wymiarową przestrzenią wektorową, to każdy podzbiór zbioru V mający więcej niż n wektorów jest liniowo zależny. Jednocześnie żaden podzbiór zbioru V mający mniej niż n wektorów nie generuje przestrzeni V . (2) Bazą skończenie wymiarowej przestrzeni V jest każdy największy zbiór liniowo niezależny w przestrzeni V oraz każdy najmniejszy podzbiór zbioru V generujący przestrzeń V . W naszych dalszych rozważaniach skorzystamy z następujących relacji pomiędzy wymiarem przestrzeni i jej podprzestrzeni. Twierdzenie 7.5.5. Niech W będzie podprzestrzenią skończenie wymiarowej przestrzeni V . Wtedy dim W ¬ dim V i, dodatkowo, dim W = dim V wtedy i tylko wtedy, gdy W = V . Dowód. Teza twierdzenia jest oczywista, gdy W = {0}. Załóżmy zatem, że W 6 {0}. Niech dim V = n i niech (w1 , w2 , . . . , wk ) będzie bazą przestrzeni W . Po= nieważ wektory w1 , w2 , . . . , wk są liniowo niezależne, więc wobec wniosku 7.5.3 jest dim W = k ¬ n = dim V . Dla dowodu drugiej części twierdzenia odnotujmy najpierw, że z równości W = V w oczywisty sposób wynika równość dim W = dim V . Załóżmy teraz, że dim W = dim V . Wtedy k = n i wobec twierdzenia 7.5.4 zbiór (w1 , w2 , . . . , wk ) jest bazą przestrzeni V i dlatego W = L(w1 , w2 , . . . , wk ) = V .
7.6. Współrzędne wektora W naszych dotychczasowych rozważaniach najwięcej uwagi poświęciliśmy przestrzeni K n i nie było to przypadkowe, bo – jak teraz pokażemy – każdy wektor z przestrzeni V (nad ciałem K) mającej bazę składającą się z n wektorów można utożsamiać z wektorem z przestrzeni K n i w konsekwencji także działania na wektorach z przestrzeni V można utożsamiać z działaniami na wektorach z przestrzeni K n . Definicja 7.6.1. Niech układ B = (b1 , b2 , . . . , bn ) będzie bazą przestrzeni wektorowej V nad ciałem K i niech v będzie wektorem z przestrzeni V . Wobec twierdzenia 7.5.1 istnieją jednoznacznie wyznaczone skalary r1 , r2 , . . . , rn ∈ K takie, że v = r 1 b1 + r 2 b2 + . . . + r n bn .
142
7. Przestrzeń wektorowa Wektor
[v] B – wektor współrzędnych
[v]B = (r1 , r2 , . . . , rn ) lub częściej [v]B =
r1 r2 .. . rn
nazywamy wektorem współrzędnych wektora v względem bazy B przestrzeni V , a skalary r1 , r2 , . . . , rn – współrzędnymi wektora v względem bazy B (lub B-współrzędnymi wektora v). [ ]B R v
[v]B
Kn
V
Rys. 7.10. Wektorowi v ∈ V odpowiada wektor [v]B ∈ K n
3 1 , przestrzeni 1 −1 5 R2 . Wyznaczyć wektor współrzęnych [v]B wektora v = . Wyznaczyć tak−1 r1 2 2 że wektor x ∈ R , którego wektorem współrzędnych jest [x] B = = . r2 −3 Przykład 156. Dana jest baza B = (b1 , b2 ) =
y
−3b2
I
I
I
6
Ponieważ
x=2b1 −3b2
1
b1
R
v=
1
2b1
5 −1
=
3 1
+2
więc
-
[v]B =
x
b2
2 −2
= 1b1 + 2b2 ,
1 . 2
Z definicji wektora współrzędnych mamy
Rys. 7.11. Wektor x = 2b1 − 3b2
x = r 1 b1 + r 2 b2 = 2
3 1
+ (−3)
1 −1
=
3 . 5
Przykład 157. Znaleźć wektory współrzędnych wektorów v = (9, 8), u = (−1, 3), v + u = (8, 11) i 3u = (−3, 9) względem bazy B = (b1 , b2 ) = (1, 2), (3, 1) przestrzeni R2 .
Szukane wektory współrzędnych [v]B , [u]B , [v + v]B i [3u]B są odpowiednio rozwiązaniami równań [ b1 b2 ] x = v,
[ b1 b2 ] x = u,
[ b 1 b2 ] x = v + u
i
[ b1 b2 ] x = 3u.
Dla ich wyznaczenia macierz [ b1 b2 | v u v+u 3u] (odpowiadającą powyższym czterem równaniom) sprowadzamy do wierszowo równoważnej normalnej macierzy schodkowej1 , [ b1 b2 | v u v + u 3u] =
h
1 3 2 1
9 −1 8 −3 8 3 11 9
i
∼ ... ∼
h
1 0 0 1
3 2 5 6 2 −1 1 −3
i
.
1 W ogólnym przypadku wektor współrzędnych [v] wektora v z przestrzeni K n względem B bazy B = (b1 , b2 , . . . , bn ) jest rozwiązaniem równania [b1 b2 . . . bn ]x = v. Rozwiązanie to możemy wyznaczyć metodą Gaussa-Jordana, czyli sprowadzając macierz [b 1 b2 . . . bn | v] do wierszowo równoważnej normalnej macierzy schodkowej [In | [v]B ].
7.6. Współrzędne wektora
143 6
Z ostatniej macierzy otrzymujemy [v]B = (3, 2), [u]B = (2, −1), [v + u]B = (5, 1) i [3u]B = (6, −3), zobacz rysunek 7.12.
v+u
3u
Warto zauważyć, że dla wektorów z ostatniego przykładu mamy:
v
u b1
[v + u]B = (5, 1) = (3, 2) + (2, −1) = [v]B + [u]B i [3u]B = (6, −3) = 3(2, −1) = 3[u]B .
6b1
b2
-
−b2 −3b2
Rys. 7.12
Powyższe własności są szczególnymi przypadkami dowodzonych w następnym twierdzeniu ogólniejszych własności: w skończenie wymiarowej przestrzeni z ustaloną bazą wektor współrzędnych sumy wektorów jest równy sumie wektorów współrzędnych tych wektorów i wektor współrzędnych iloczynu wektora przez skalar jest równy iloczynowi wektora współrzędnych przez ten sam skalar. Twierdzenie 7.6.1. Niech B będzie bazą n-wymiarowej przestrzeni V nad ciałem K. Jeśli v, u ∈ V i t ∈ K, to [v + u]B = [v]B + [u]B i [t v]B = t [v]B . Dowód. Niech B = (b1 , b2 , . . . , bn ) będzie bazą przestrzeni V i niech (r1 , r2 , . . . , rn ) oraz (s1 , s2 , . . . , sn ) będą odpowiednio wektorami współrzędnych wektorów v i u względem bazy B. Wtedy v = r1 b1 + r2 b2 + . . . + rn bn , u = s1 b1 + s2 b2 + . . . + sn bn i v+u = (r1 +s1 )b1 +(r2 +s2 )b2 +. . .+(rn +sn )bn . Zatem dla wektora współrzędnych wektora v + u mamy [v + u]B = (r1 + s1 , r2 + s2 , . . . , rn + sn ) = (r1 , r2 , . . . , rn ) + (s1 , s2 , . . . , sn ) = [v]B + [u]B . Podobnie mamy t v = t (r1 b1 + r2 b2 + . . . + rn bn ) = (tr1 )b1 + (tr2 )b2 + . . . + (trn )bn , więc także [t v]B = (t r1 , t r2 , . . . , t rn ) = t (r1 , r2 , . . . , rn ) = t [v]B .
Definicja 7.6.2. Niech V i W będą przestrzeniami wektorowymi nad tym samym ciałem K. Przekształcenie ϕ : V → W nazywamy izomorfizmem przestrzeni V na przestrzeń W , gdy ma ono następujące własności:
Izomorfizm przestrzeni
(1) ϕ jest różnowartościowe i ϕ(V ) = W ; (2) ϕ(x + y) = ϕ(x) + ϕ(y) dla każdych x, y ∈ V , tj. ϕ zachowuje działanie dodawania; (3) ϕ(αx) = αϕ(x) dla każdych x ∈ V i α ∈ K, tj. ϕ zachowuje mnożenie wektorów przez skalary. Dwie przestrzenie wektorowe nazywamy izomorficznymi, gdy istnieje izomorfizm odwzorowujący jedną z nich na drugą. Łatwo zauważyć, że: (1) przekształcenie tożsamościowe przestrzeni V na siebie jest izomorfizmem; (2) przekształcenie odwrotne do izomorfizmu przestrzeni V na przestrzeń W jest izomorfizmem przestrzeni W na przestrzeń V ; (3) złożenie izomorfizmu przestrzeni V na przestrzeń W i izomorfizmu przestrzeni W na przestrzeń U jest izomorfizmem przestrzeni V na przestrzeń U . Zatem relacja izomorfizmu przestrzeni wektorowych jest relacją równoważności w zbiorze wszystkich przestrzeni wektorowych (nad tym samym ciałem) i jest podstawą algebraicznej identyfikacji przestrzeni izomorficznych.
Izomorficzność przestrzeni
144
7. Przestrzeń wektorowa W konsekwencji, jeżeli w przestrzeni wektorowej V zostało udowodnione jakiekolwiek twierdzenie sformułowane w terminach dodawania wektorów i mnożenia wektorów przez skalary, to dokładnie to samo twierdzenie jest prawdziwe w każdej przestrzeni izomorficznej z przestrzenią V .
dim V (K) = n V (K) ≈ K n
Twierdzenie 7.6.2. Każda n-wymiarowa przestrzeń wektorowa V nad ciałem K jest izomorficzna z przestrzenią K n . Dowód. Niech B = (b1 , b2 , . . . , bn ) będzie bazą przestrzeni V . Odwzorowanie ϕ : V → K n , które każdemu wektorowi v z przestrzeni V przyporządkowuje jego wektor współrzędnych względem bazy B, tj. ϕ(v) = [v]B , zachowuje działania przestrzeni V (zob. twierdzenie 7.6.1), jest różnowartościowe (bo jeśli ϕ(v) = (r1 , r2 , . . . , rn ) = ϕ(u), to v = r1 b1 + r2 b2 + . . . + rn bn = u) i odwzorowuje zbiór V na cały zbiór K n (bo dla każdego wektora (s1 , s2 , . . . , sn ) ∈ K n mamy (s1 , s2 , . . . , sn ) = ϕ(v), gdy v = s1 b1 + s2 b2 + . . . + sn bn ), więc jest izomorfizmem przestrzeni V i K n .
Jeśli V i W są n-wymiarowymi przestrzeniami wektorowymi nad ciałem K, to wobec twierdzenia 7.6.2 każda z nich jest izomorficzna z przestrzenią K n i dlatego przestrzenie V i W są wzajemnie izomorficzne. Wniosek 7.6.1. Każde dwie n-wymiarowe przestrzenie wektorowe (nad tym samym ciałem) są izomorficzne. Ponieważ n-wymiarowa przestrzeń V nad ciałem K jest izomorficzna z przestrzenią K n , więc przestrzeń K n , wraz z jej technikami macierzowymi, można stosować do badania przestrzeni V . Tego rodzaju możliwości ilustrujemy w kolejnym wniosku i przykładzie. Wniosek 7.6.2. Wektory v1 , v2 , . . . , vk z n-wymiarowej przestrzeni wektorowej V (K) z bazą B są liniowo niezależne wtedy i tylko wtedy, gdy wektory [v1 ]B , [v2 ]B , . . . , [vk ]B są liniowo niezależne w przestrzeni K n . Dowód. Ponieważ odwzorowanie ϕ : V (K) → K n , gdzie ϕ(x) = [x]B dla x ∈ V (K), jest izomorfizmem (zob. dowód twierdzenia 7.6.2), więc dla skalarów α1 , . . . , αk ∈ K mamy równoważności α 1 v1 + . . . + α k vk = 0
⇔
⇔
[α1 v1 + . . . + αk vk ]B = [0]B = 0 α1 [v1 ]B + . . . + αk [vk ]B = 0.
To oznacza, że pomiędzy wektorami v1 , . . . , vk istnieją dokładnie takie same relacje liniowej zależności jak pomiędzy wektorami [v1 ]B , . . . , [vk ]B . Stąd wynika teza wniosku.
Przykład 158. Pokazać, że uporządkowany zbiór C = (a, b, c) = (x2 + 2x − 3, 2x2 + 2x + 1, −3x2 + x + 1) jest bazą przestrzeni R2 [x]. Następnie znaleźć współrzędne wektora v = −7x2 − x−8 względem bazy C i przedstawić wektor v jako kombinację liniową wektorów bazy C. Weźmy pod uwagę bazę B = (x2 , x, 1) przestrzeni R2 [x]. Wektorami współrzędnych wektorów a, b, c i v względem bazy B są [a]B = (1, 2, −3), [b]B = (2, 2, 1), [c]B = (−3, 1, 1) i [v]B = (−7, −1, −8). Dla dowodu, że wektory a, b, c tworzą bazę przestrzeni R2 [x] (izomorficznej z R3 ) wystarczy pokazać, że wektory [a]B , [b]B , [c]B tworzą bazę przestrzeni R3 . Podobnie wyznaczając współrzędne wektora v względem bazy C wystarczy znaleźć współrzędne wektora [v]B względem bazy ([a]B , [b]B , [c]B ) (bo wobec twierdzenia 7.6.1 jest v = r1 a + r2 b + r3 c wtedy i tylko wtedy, gdy [v]B = [r1 a + r2 b + r3 c]B = r1 [a]B + r2 [b]B + r3 [c]B , co oznacza, że współrzędne wektora v względem bazy (a, b, c) są równe współrzędnym wektora [v]B względem bazy ([a]B , [b]B , [c]B )). Dla jednoczesnego
7.6. Współrzędne wektora
145
osiągnięcia obu wspomnianych celów tworzymy macierz
h
[a]B [b]B [c]B | [v]B
i
i spro-
wadzamy ją do wierszowo równoważnej macierzy mającej normalną postać schodkową:
"
#
h
[a]B [b]B [c]B
1 2 −3 −7 2 2 1 −1 −3 1 1 −8
Ponieważ macierz
∼
"
1 2 −3 0 −2 7 0 7 −8
i
# " −7 1 0 0 13 ∼ . . . ∼ 0 1 0 −29 0 0 1
# 2 −3 . 1
jest wierszowo równoważna macierzy jednostkowej
I3 , więc jest ona nieosobliwa i wobec wniosku 7.4.4 układ [a]B , [b]B , [c]B jest bazą przestrzeni R3 . Zatem układ C = (a, b, c) jest bazą przestrzeni R2 [x]. Dodatkowo mamy [v]C = (2, −3, 1) i dlatego v = 2a − 3b + c = 2(x2 + 2x − 3) − 3(2x2 + 2x + 1) + (−3x2 + x + 1) = −7x2 − x − 8.
Macierz przejścia od bazy do bazy Niech B = (b1 , b2 , . . . , bn ) i C = (c1 , c2 , . . . , cn ) będą dwiema bazami przestrzeni wektorowej V (K) i niech x będzie dowolnym wektorem z przestrzeni V (K). Zbadamy teraz jaki jest związek pomiędzy wektorami współrzędnych s1 r1 r2 s2 [x]B = . i [x]C = . .. .. rn
sn
wektora x względem baz B i C. Opiszemy sposób przedstawiania współrzędnych wektora [x]B poprzez współrzędne wektora [x]C .
Z definicji wektora współrzędnych jest x = r1 b1 + r2 b2 + . . . + rn bn . Zatem wobec twierdzenia 7.6.1 mamy [x]C
= [r1 b1 + r2 b2 + . . . + rn bn ]C = r1 [b1 ]C + r2 [b2 ]C + . . . + rn [bn ]C r1 | | | r2 = [b1 ]C [b2 ]C · · · [bn ]C . . . | | | rn | | | = [b1 ]C [b2 ]C · · · [bn ]C [x]B . | | |
Stąd zaś wynika, że mamy następujące twierdzenie o zależnościach pomiędzy B-współrzędnymi i C-współrzędnymi wektora x. Twierdzenie 7.6.3. Jeśli B = (b1 , b2 , . . . , bn ) i C = (c1 , c2 , . . . , cn ) są bazami przestrzeni wektorowej V , to dla każdego wektora x z przestrzeni V jest [x]C = PB C [x]B , gdzie
|
|
(7.6) |
[b1 ] [b2 ] · · · [bn ] . PB C = C C C | | |
(7.7)
146
7. Przestrzeń wektorowa
Macierz przejścia
Macierz PB C określoną równością (7.7) nazywa się macierzą przejścia od bazy B do bazy C (lub macierzą zamiany współrzędnych przy przejściu od bazy B do bazy C). W macierzy tej i-tą kolumną jest wektor [bi ]C , czyli wektor C-współrzędnych wektora bi , i jest on jedynym rozwiązaniem równania x1 c 1 + x 2 c 2 + . . . + x n c n = b i .
x
V
[ ]C [x]C Kn
Równość [x]C = PB jest związkiem pomiędzy C [x]B B-współrzędnymi i C-współrzędnymi wektora x, zob. rys. 7.13. Ponieważ wektory b1 , . . . , bn bazy B są liniowo niezależne, więc także kolumny [b1 ]C , . . . , [bn ]C macierzy PB C są liniowo niezależne (zob. wniosek 7.6.2). Stąd i z wniosku 7.4.4 wynika, że B macierz PB C jest odwracalna. Zatem z równości [x] C = PC [x]B B −1 mamy także równość [x]B = PC [x]C . To zaś oznacza, że B −1 macierz odwrotna PC przekształca C-współrzędne wektora −1 x w jego B-współrzędne. Dlatego macierz PB jest macierzą C przejścia od bazy C do bazy B i mamy
[ ]B
R Przemnażanie przez PB C
[x]B Kn
Rys. 7.13
PB C
−1
= PC B.
(7.8)
Przykład 159. Układy wektorów B = (b1 , b2 , b3 , b4 ) i C = (c1 , c2 , c3 , c4 ) są bazami przestrzeni R4 , gdy b1 = (1, 2, 3, 0), b2 = (1, −1, 1, 1), b3 = (3, 1, 6, 3), b4 = (5, 3, 11, 6) i c1 = (1, 2, 3, 0), c2 = (2, 1, 4, 1), c3 = (0, 1, 1, 1), c4 = (0, 0, 0, 1). Ponieważ b1 = c1 , b2 = −c1 + c2 , b3 = −c1 + 2c2 + c3 , b4 = −c1 + 3c2 + 2c3 + c4 , więc macierzą przejścia od bazy B do bazy C jest 1 −1 −1 −1 | | [b1 ]C · · · [b4 ]C = 0 1 2 3 . PB C = 0 0 1 2 | | 0 0 0 1 Łatwo zauważyć, że jednocześnie mamy c1 = b 1 , c2 = b 1 + b 2 , c3 = −b1 − 2b2 + b3 , c4 = b2 − 2b3 + b4 , więc także
|
[c1 ]B PC B = |
1 1 −1 0 | 0 1 −2 1 · · · [c4 ]B = 0 0 1 −2 | 0 0 0 1
= PB −1 . C
C Za pomocą tak otrzymanych macierzy PB C i PB można wyrazić związek pomiędzy B-współrzędnymi i C-współrzędnymi każdego wektora z przestrzeni R 4 . Przykładowo dla wektora x = (3, 2, 6, −1) ∈ R 4 jest x = 3b1 + 2b2 + b3 − b4 i dlatego
[x]B =
3 2 oraz [x]C = PB C · [x]B = 1 −1
1 −1 −1 −1 3 1 0 1 2 3 2 1 = . 0 0 1 2 1 −1 0 0 0 1 −1 −1
7.6. Współrzędne wektora
147
Przykład 160. Dane są bazy B = (b1 , b2 ) i C = (c1 , c2 ) przestrzeni V , gdzie b1 = 2c1 − c2 i b2 = c1 − 2c2 , i dany jest wektor x = 2b1 + b2 . Wyznaczyć wektor [x]C . Dla wektora x (zob. rys. 7.14) podobnie jak w wyprowadzeniu twierdzenia 7.6.3 mamy następujące zależności między jego B- i C-współrzędnymi: [x]C
= = =
[2b1 + b2 ]C = 2[b1 ]C + [b2 ]C
[b1 ]C [b2 ]C 2 1 −1 −2
2 1
2
1
=
=
[2c1 − c2 ]C [c1 − 2c2 ]C
5 . −4
2 1
Drugi sposób. Ponieważ wektor x jest kombinacją liniową wektorów b1 i b2 , a te ostatnie są kombinacjami wektorów c1 i c2 , więc x jest kombinacją liniową wektorów c1 oraz c2 i współczynniki tej kombinacji tworzą wektor [x]C , [x]C = [ 2b1 + b2 ]C = [ 2(2c1 − c2 ) + (c1 − 2c2 ) ]C = [ 5c1 − 4c2 ]C =
5 . −4
5c1
2b1 c2
b1
c1
c2
x
0
c1
x
0 b2
−4c2
Rys. 7.14
Zmiana bazy w przestrzeni Kn Niech B = (b1 , b2 , . . . , bn ) i C = (c1 , c2 , . . . , cn ) będą bazami przestrzeni wektorowej K n i niech B i C będą macierzami utworzonymi z kolejnych wektorów baz B i C, B = [ b1 b2 . . . bn ] i C = [ c1 c2 . . . cn ]. Pokażemy teraz związek macierzy B i C z macierzą przejścia od bazy B do bazy C, czyli z macierzą P B C. Zauważmy, że jeśli E = (e1 , e2 , . . . , en ) jest bazą standardową przestrzeni K n , to dla każdego wektora x ∈ K n jest [x]E = x i dlatego wobec twierdzenia 7.6.3 dla macierzy przejścia od baz B i C do bazy standardowej E mamy C PB E = [ b1 b2 . . . bn ] = B i PE = [ c1 c2 . . . cn ] = C.
Dodatkowo wobec (7.6) dla każdego wektora x ∈ K n jest
B C [x]C = PC E [x]C = [x]E = PE [x]B = B [x]B .
Stąd i z odwracalności macierzy C wynika, że [x] C = C−1 B [x]B . Jednocześnie dla każdego x ∈ K n jest [x]C = PB C [x]B . Zatem mamy następujące zależności pomiędzy macierzą przejścia PB i macierzami B oraz C: C −1 PB B. C =C
(7.9)
148
7. Przestrzeń wektorowa Macierz C−1 B = PB C jest jednocześnie rozwiązaniem równania macierzowego CX = B (reprezentującego równania [ c1 c2 . . . cn ]x = b1 , . . . , [ c1 c2 . . . cn ]x = bn , których rozwiązaniami są kolumny [b1 ]C , . . . , [bn ]C macierzy PB C ) i dlatego można ją wyznaczyć metodą Gaussa-Jordana. Mamy następujący wygodny sposób wyznaczania macierzy przejścia.
Algorytm wyznaczania macierzy przejścia w Kn Jeśli B = (b1 , b2 , . . . , bn ) i C = (c1 , c2 , . . . , cn ) są bazami przestrzeni wektoro−1 wej K n , to macierz przejścia od bazy B do bazy C jest macierzą PB B C = C otrzymaną w wyniku wierszowej redukcji macierzy [ C|B ] do normalnej macierzy schodkowej, | | | | | | [ C|B ] = c1 c2 · · · cn b1 b2 · · · bn ∼ In |PB (7.10) C . | | | | | | Nowa baza
Stara baza
Przykład 161. Wyznaczyć macierz przejścia PB C od bazy B do bazy C przestrzeni R3, gdy B = (1, 2, 3), (−2, −6, −10), (4, 16, 16) i C = (1, 2, 3), (1, 1, 1), (1, 3, 1) . Za pomocą tej macierzy wyznaczyć wektor C-współrzędnych wektora v, dla którego [v]B = (1, 1, 1). Dla otrzymania macierzy PB C tworzymy macierz [C|B] i sprowadzamy ją do wierszowo równoważnej normalnej macierzy schodkowej (zob. (7.10)). Ponieważ [C|B] =
"
więc
1 1 1 1 −2 4 2 1 3 2 −6 16 3 1 1 3 −10 16
[v]C =
∼
"
PB C
=
"
[v]B =
"
1 −4 6 0 2 −5 0 0 3
i PB C
#
1 0 0 1 −4 6 0 1 0 0 2 −5 0 0 1 0 0 3
1 −4 6 0 2 −5 0 0 3
#
,
#
#"
1 1 1
#
=
"
3 −3 3
#
.
Przykład 162. Znaleźć macierz przejścia od bazy B = 4x2 − 6x, 2x2 − 2, 4x do bazy C = x + 1, 2x2 , x − 1 przestrzeni R2 [x]. Wyznaczyć także współrzędne wektora v = 10x2 − 8x − 2 = 2(4x2 − 6x) + (2x2 − 2) + 4x względem bazy C. Utożsamiając każdy wektor a2 x2 + a1 x + a0 z przestrzeni R2 [x] z wektorem (a2 , a1 , a0 ) z przestrzeni R3 , możemy utożsamiać bazy B i C odpowiednio z bazami B 0 = (4, −6, 0), (2, 0, −2), (0, 4, 0) i C 0 = (0, 1, 1), (2, 0, 0), (0, 1, −1) przestrzeni R3 . Wtedy szukana macierz przejścia od bazy B do C jest macierzą przejścia od bazy B 0 do C 0 . Ponieważ 0
0
[C |B ] = więc
"
0 2 0 1 0 1 1 0 −1
# " 4 2 0 1 0 0 −6 0 4 ∼ 0 1 0 0 −2 0 0 0 1
PB C
=
"
−3 −1 2 2 1 0 −3 1 2
#
.
# −3 −1 2 2 1 0 , −3 1 2
7.7. Rząd macierzy
149
Zatem dla wektora [v]C mamy [v]C =
PB C [v]B
=
"
−3 −1 2 2 1 0 −3 1 2
#"
2 1 1
#
=
"
−5 5 −3
#
.
Zauważmy, że istotnie mamy −5(x + 1) + 5(2x2 ) − 3(x − 1) = 10x2 − 8x − 2 = v.
7.7. Rząd macierzy Niech A będzie macierzą wymiaru m × n o współczynnikach z ciała K, − w1 − | | | − w2 − A = a1 a2 · · · a n = , .. . | | | − wm − gdzie a1 , . . . , an są kolumnami, a w1 , . . . , wm wierszami macierzy A.
Definicja 7.7.1. Liczbę dim L(a1 , a2 , . . . , an ), czyli wymiar przestrzeni kolumnowej CA macierzy A, nazywa się rzędem kolumnowym macierzy A. Podobnie liczbę dim L(w1 , . . . , wm ), czyli wymiar przestrzeni wierszowej RA = L(w1 , w2 , . . . , wm ) macierzy A, nazywamy rzędem wierszowym macierzy A. (Te dwa rzędy są odpowiednio największą liczbą liniowo niezależnych kolumn i największą liczbą liniowo niezależnych wierszy macierzy A.)
Przykład 163. Dane są wierszowo równoważne macierze A i B, gdzie A = [ a 1 . . . a5 ] =
3 2 2 1
4 −2 7 6 3 −1 6 7 4 0 7 7 1 −1 2 2
∼ . . . ∼
1 0 0 0
0 −2 0 −1 1 1 0 −3 0 0 1 3 0 0 0 0
= [ b1 . . . b5 ] = B.
Macierz B ma normalną postać schodkową i jej wiodące kolumny b1 , b2 i b4 tworzą bazę jej przestrzeni kolumnowej, bo są one liniowo niezależne (dlaczego?) i pozostałe kolumny są ich kombinacjami liniowymi (tu oczywiście b3 = −2b1 + b2 i b5 = −b1 − 3b2 + 3b4 ). Zatem rząd kolumnowy macierzy B jest równy 3. Trzy niezerowe wiersze macierzy B także są liniowo niezależne (bo żaden z nich – ze względu na położenie wiodących jedynek – nie jest kombinacją liniową pozostałych wierszy) i dlatego tworzą one bazę przestrzeni generowanej przez wiersze macierzy B. Zatem rząd wierszowy macierzy B także jest równy 3. Macierz A jest wierszowo równoważna macierzy B i – jak to będzie wynikało z następnego twierdzenia – jej przestrzeń wierszowa jest równa przestrzeni wierszowej macierzy B. Z kolejnych twierdzeń będzie wynikało, że między kolumnami macierzy A są dokładnie takie same relacje liniowej zależności, jak między kolumnami macierzy B. Z tego także będzie wynikała równość rzędów kolumnowych macierzy A i B (oraz równość rzędu wierszowego i kolumnowego macierzy A). Twierdzenie 7.7.1. Jeśli macierze A i B są wierszowo równoważne, to ich przestrzenie wierszowe są równe. Jeśli macierz B jest w postaci schodkowej, to niezerowe wiersze macierzy B tworzą bazę przestrzeni wierszowej macierzy A i B.
Rząd kolumnowy Rząd wierszowy
150
7. Przestrzeń wektorowa
0 1 ∗
∗ ∗ ∗ ∗
0 0 0
0 0 0 0
0 0 0 1 ∗ ∗ ∗ B= 0 0 0 0 1 ∗ ∗ 0 0 0 0 0 0 1 Rys. 7.15
Dowód. Niech A i B będą macierzami wierszowo równoważnymi. Ponieważ macierz B można otrzymać z macierzy A za pomocą operacji elementarnych na wierszach, więc wiersze macierzy B są kombinacjami liniowymi wierszy macierzy A i dlatego każda kombinacja liniowa wierszy macierzy B jest kombinacją liniową wierszy macierzy A. Zatem przestrzeń wierszowa macierzy B jest zawarta w przestrzeni wierszowej macierzy A. Z drugiej strony operacje elementarne są odwracalne, więc macierz A można otrzymać z macierzy B za pomocą operacji elementarnych na wierszach i dlatego przestrzeń wierszowa macierzy A jest zawarta w przestrzeni wierszowej ma cierzy B. To dowodzi, że przestrzenie wierszowe macierzy A i B są równe. ∗ ∗ Jeśli macierz B jest w postaci schodkowej (zob. rys. 7.15), to jej niezerowe ∗ wiersze są liniowo niezależne, bo żaden z nich nie jest kombinacją liniową wier∗ szy leżących poniżej niego. Zatem niezerowe wiersze macierzy B tworzą bazę 0 przestrzeni wierszowej macierzy B i dlatego także tworzą one bazę przestrzeni wierszowej macierzy A.
Twierdzenie 7.7.2. Operacje elementarne na wierszach macierzy nie zmieniają relacji liniowej zależności pomiędzy kolumnami tej macierzy. Dowód. Jeśli macierze A i B są wierszowo równoważne, to także macierze [A|0] i [B|0] są wierszowo równoważne i wobec twierdzenia 5.1.2 układy równań liniowych Ax = 0 i Bx = 0 mają dokładnie te same rozwiązania. To zaś oznacza, że pomiędzy kolumnami macierzy A są dokładnie takie same liniowe zależności, jak pomiędzy kolumnami macierzy B.
Przykład 164. Weźmy pod uwagę wierszowo równoważne macierze A i B z poprzedniego przykładu. Wobec twierdzenia 7.7.2 pomiędzy kolumnami macierzy A są dokładnie takie same relacje liniowej zależności, jak pomiędzy kolumnami macierzy B. Przykładowo mamy a5 = −a1 − 3a2 + 3a4 , bo było b5 = −b1 − 3b2 + 3b4 . Podobnie kolumny a1 , a2 i a4 tworzą bazę przestrzeni kolumnowej macierzy A, bo kolumny b1 , b2 i b4 tworzą bazę przestrzeni kolumnowej macierzy B. Twierdzenie 7.7.3. Wiodące kolumny macierzy A tworzą bazę przestrzeni kolumnowej macierzy A. Dowód. Załóżmy, że macierz A jest wierszowo równoważna macierzy schodkowej B. Wiodące kolumny macierzy B są liniowo niezależne, bo żadna z nich nie jest liniową kombinacją swoich poprzedniczek. Z tego i z twierdzenia 7.7.2 wynika, że wiodące kolumny macierzy A są liniowo niezależne. Z tych samych powodów każda inna kolumna macierzy A jest liniową kombinacją wiodących kolumn tej macierzy. Stąd wynika, że wiodące kolumny macierzy A tworzą bazę przestrzeni kolumnowej macierzy A.
Uwaga. Przestrzenie kolumnowe wierszowo równoważnych macierzy A i B mają równe wymiary, ale przestrzenie te nie muszą być równe. Dla przykładu, przestrzenie kolumnowe macierzy A i B z ostatniego przykładu są generowane odpowiednio przez kolumny a1 , a2 , a4 oraz przez kolumny b1 , b2 , b4 i przestrzenie te są różne, bo czwarta współrzędna wektora z przestrzeni kolumnowej macierzy A może być dowolną liczbą rzeczywistą, ale czwarta współrzędna każdego wektora z przestrzeni kolumnowej macierzy B jest równa zeru. Twierdzenie 7.7.4. Rząd kolumnowy macierzy A jest równy jej rzędowi wierszowemu. Dowód. Niech macierz A będzie wierszowo równoważna macierzy schodkowej B. Wobec twierdzenia 7.7.1 rząd wierszowy macierzy A jest równy rzędowi wierszowemu macierzy B, a ten jest równy liczbie niezerowych wierszy macierzy B, więc także liczbie wiodących jedynek macierzy B. Z drugiej strony wobec twierdzenia 7.7.3 rząd kolumnowy macierzy A jest równy liczbie wiodących kolumn macierzy A, a ta liczba jest równa liczbie wiodących jedynek macierzy B. Stąd wynika teza twierdzenia.
7.7. Rząd macierzy
151
Definicja 7.7.2. Wspólną wartość rzędu kolumnowego i wierszowego macierzy A ∈ Km×n nazywamy rzędem macierzy A i oznaczamy ją przez r(A), czyli mamy r(A) = dim CA = dim RA . (7.11)
Przykład 165. Wyznaczyć rząd macierzy
2 1 A= 3 2
0 1 3 2
−4 −3 −9 −6
0 8 0 6 . 1 20 2 16
Łatwo zauważyć, że macierz A jest wierszowo równoważna normalnej macierzy schodkowej 1 0 −2 0 4 0 1 1 0 2 B= . 0 0 0 1 2 0 0 0 0 0
Ponieważ ta ostatnia ma trzy niezerowe wiersze, więc jej rząd, jak i rząd macierzy A jest równy trzy.
Z faktu, że rząd macierzy A jednocześnie jest największą liczbą liniowo niezależnych wierszy i największą liczbą liniowo niezależnych kolumn macierzy A wynikają następujące dwa wnioski. Wniosek 7.7.1. Dla każdej macierzy A jest r(A) = r(AT ). Wniosek 7.7.2. Jeśli A jest macierzą wymiaru m × n, to r(A) ¬ min{m, n}.
Nasze rozważania o rzędzie macierzy kończymy obserwacjami dotyczącymi związku rzędu macierzy kwadratowej A z jej odwracalnością oraz wyrażonego w terminach rzędu macierzy warunku koniecznego i dostatecznego istnienia rozwiązania układu równań liniowych Ax = b. Inne twierdzenie o związku rzędu macierzy A z rzędem macierzy AT A przedstawimy w następnym rozdziale (zob. twierdzenie 8.2.3). Twierdzenie 7.7.5. Macierz kwadratowa A stopnia n jest odwracalna wtedy i tylko wtedy, gdy r(A) = n. Dowód. Teza twierdzenia jest natychmiastową konsekwencją wniosku 7.4.4 i definicji 7.7.2.
Twierdzenie 7.7.6 (Kroneckera-Capellego). Układ równań liniowych Ax = b ma rozwiązanie wtedy i tylko wtedy, gdy rząd macierzy A jest równy rzędowi macierzy rozszerzonej [A|b] tego układu, r (A) = r ([A|b]).
(7.12)
Dowód. Wobec twierdzenia 7.3.1 układ Ax = b ma rozwiązanie wtedy i tylko wtedy, gdy przestrzeń C[A|b] jest równa swojej podprzestrzeni CA . To zaś wobec twierdzenia 7.5.5 zachodzi wtedy i tylko wtedy, gdy dim CA = dim C[A|b] , tj. wtedy i tylko wtedy, gdy r (A) = r ([A|b]) (bo r (A) = dim CA i r ([A|b]) = dim C[A|b] ).
r(A) – rząd macierzy
152
7. Przestrzeń wektorowa
7.8. Suma i suma prosta podprzestrzeni Definicja 7.8.1. Jeżli V1 i V2 są podprzestrzeniami przestrzeni wektorowej V , to zbiór V1 + V2 = {v1 + v2 : v1 ∈ V1 i v2 ∈ V2 }
Suma podprzestrzeni
nazywamy sumą podprzestrzeni V1 i V2 . Przykład 166. Jeżli V1 = L (0, 1, 1) i V2 = L (1, 1, 1) , to
z
V1 V2 y
V1 +V2
Rys. 7.16
V1 + V2 = {t(0, 1, 1) + s(1, 1, 1) : t, s ∈ R} = L (0, 1, 1), (1, 1, 1) .
Geometrycznie V1 i V2 są różnymi prostymi w przestrzeni R3 przechodzącymi przez początek układu współrzędnych, a V1 + V2 jest płaszczyzną zawierającą te dwie proste,
x
V1 + V2 = {(x, y, z) ∈ R3 : y − z = 0}, zobacz rys. 7.16. Twierdzenie 7.8.1. Jeśli V1 i V2 są podprzestrzeniami przestrzeni wektorowej V , to V1 + V2 jest podprzestrzenią przestrzeni V . Dowód. Z faktu, że 0 ∈ Vi (i = 1, 2) wynika, że 0 = 0 + 0 ∈ V1 + V2 i dlatego V1 + V2 6= ∅. Weźmy teraz dowolne dwa wektory v, u ∈ V1 + V2 i dwa skalary s, t ∈ K. Wobec twierdzenia 7.1.2 wystarczy pokazać, że sv + tu ∈ V1 + V2 . Ponieważ v, u ∈ V1 + V2 , więc istnieją v1 , u1 ∈ V1 i v2 , u2 ∈ V2 takie, że v = v1 + v2 i u = u1 + u2 . Jednocześnie sv1 + tu1 ∈ V1 i sv2 + tu2 ∈ V2 , bo V1 i V2 są podprzestrzeniami. Zatem (sv1 + tu1 ) + (sv2 + tu2 ) ∈ V1 + V2 wobec definicji sumy podprzestrzeni. Stąd wynika, że sv + tu ∈ V1 + V2 , bo sv + tu = (sv1 + tu1 ) + (sv2 + tu2 ).
Część wspólna dwóch podprzestrzeni nigdy nie jest pusta (bo zawsze zawiera ona wektor zerowy) i – podobnie jak w poprzednim twierdzeniu – łatwo dowodzi się, że jest ona podprzestrzenią. Twierdzenie 7.8.2. Jeśli V1 i V2 są podprzestrzeniami przestrzeni wektorowej V , to V1 ∩ V2 jest podprzestrzenią przestrzeni V . Twierdzenie 7.8.3. Jeśli V1 i V2 są skończenie wymiarowymi podprzestrzeniami przestrzeni wektorowej V , to dim (V1 + V2 ) = dim V1 + dim V2 − dim (V1 ∩ V2 ). Dowód. Niech B = (b1 , b2 , . . . , bn ) będzie bazą przestrzeni V1 ∩ V2 . Wobec twierdzenia 7.5.3 bazę B można uzupełnić do bazy przestrzeni V1 , jak i do bazy przestrzeni V2 . Niech (a1 , . . . , am , b1 , . . . , bn ) będzie uzupełnieniem bazy B do bazy przestrzeni V1 , a (b1 , . . . , bn , c1 , . . . , ck ) – uzupełnieniem bazy B do bazy przestrzeni V2 . Dla dowodu twierdzenia wystarczy teraz pokazać, że (a1 , . . . , am , b1 , . . . , bn , c1 , . . . , cn ) jest bazą przestrzeni V1 + V2 , bo wtedy będzie dim (V1 + V2 ) = m + n + k = (m + n) + (n + k) − n = dim V1 + dim V2 − dim (V1 ∩ V2 ). Ponieważ V1 = L(a1 , . . . , am , b1 , . . . , bn ) i V2 = L(b1 , . . . , bn , c1 , . . . , ck ), więc V1 +V2 = L(a1 , . . . , am , b1 , . . . , bn , c1 , . . . , ck ), co oznacza, że wektory a1 , . . . , am , b1 , . . . , bn , c1 , . . . , ck generują przestrzeń V1 + V2 . Pozostaje nam uzasadnić, że wektory a1 , . . . , am , b1 , . . . , bn , c1 , . . . , ck są liniowo niezależne. Załóżmy zatem, że dla pewnych skalarów si , ti i ri jest s1 a1 + . . . + sm am + t1 b1 + . . . + tn bn + r1 c1 + . . . + rk ck = 0.
7.8. Suma i suma prosta podprzestrzeni
153
Wtedy wektor v = s1 a1 + . . . + sm am + t1 b1 + . . . + tn bn = −(r1 c1 + . . . + rk ck ) musi być wektorem zerowym, bo inaczej wektor v = s1 a1 + . . . + sm am + t1 b1 + . . . + tn bn należałby do V1 , a wektor v = −(r1 c1 + . . . + rk ck ) do V2 − V1 , co jest niemożliwe. Stąd s1 a1 + . . . + sm am + t1 b1 + . . . + tn bn = 0 i r1 c1 + . . . + rk ck = 0. Z równości tych i z niezależności wektorów tworzących układy (a1 , . . . , am , b1 , . . . , bn ) oraz (c1 , . . . , ck ) wynika, że s1 = . . . = sm = t1 = . . . = tn = 0 i r1 = . . . = rk = 0. To dowodzi, że wektory tworzące układ (a1 , . . . , am , b1 , . . . , bn , c1 , . . . , ck ) są liniowo niezależne i to kończy dowód twierdzenia.
Definicja 7.8.2. Jeśli V1 i V2 są podprzestrzeniami przestrzeni wektorowej V takimi, że V = V1 + V2 i V1 ∩ V2 = {0}, to mówimy, że przestrzeń V jest sumą prostą podprzestrzeni V1 oraz V2 i piszemy V = V1 ⊕ V2 . Twierdzenie 7.8.4. Jeśli V1 i V2 są skończenie wymiarowymi podprzestrzeniami przestrzeni wektorowej V , to następujące warunki są równoważne: (a) V = V1 ⊕ V2 , tj. V = V1 + V2 i V1 ∩ V2 = {0}; (b) V = V1 + V2 i dim V = dim V1 + dim V2 ;
(c) każdy wektor v ∈ V można w jeden i tylko w jeden sposób przedstawić w postaci sumy v = v1 + v2 , gdzie v1 ∈ V1 i v2 ∈ V2 . Dowód. Równoważność warunków (a) i (b) jest oczywista, bo wobec twierdzenia 7.8.3 jest dim V = dim V1 + dim V2 wtedy i tylko wtedy, gdy dim(V1 ∩ V2 ) = 0, tj. wtedy i tylko wtedy, gdy V1 ∩ V2 = {0}. Wykażemy teraz równoważność warunków (a) i (c). Załóżmy najpierw, że V = V1 ⊕ V2 . Wówczas V1 ∩ V2 = {0}. Weźmy teraz dowolny wektor v z przestrzeni V . Ponieważ V = V1 + V2 , więc istnieją wektory v1 ∈ V1 i v2 ∈ V2 takie, że v = v1 + v2 . Przypuśćmy, że jednocześnie jest v = u1 + u2 dla pewnych u1 ∈ V1 i u2 ∈ V2 . Wtedy v1 + v2 = u1 + u2 i dlatego v1 − u1 = u2 − v2 . Ponieważ v1 − u1 ∈ V1 i u2 − v2 ∈ V2 , więc v1 − u1 = u2 − v2 ∈ V1 ∩ V2 = {0}. Stąd u1 = v1 i u2 = v2 , co dowodzi, że rozkład v1 + v2 wektora v jest jednoznaczny. Załóżmy teraz, że dla każdego wektora v ∈ V istnieją jednoznacznie wyznaczone wektory v1 ∈ V1 i v2 ∈ V2 takie, że v = v1 + v2 . Wtedy V = V1 + V2 i pozostaje pokazać, że V1 ∩ V2 = {0}. W tym celu weźmy dowolny wektor u ze zbioru V1 ∩ V2 . Ponieważ u = u + 0 = 0 + u ∈ V1 + V2 , więc wobec jednoznaczności rozkładu mamy u = 0 i to dowodzi, że V1 ∩ V2 = {0}.
Przykład 167. Weźmy pod uwagę podprzestrzenie V1 = {(x, y, z) ∈ R3 : x + y + z = 0} i V2 = L (1, 2, 3) przestrzeni R3 . Ponieważ V1 = {(x, y, −x − y) ∈ R3 : x, y ∈ R} = L (1, 0, −1), (0, 1, −1) i wektory (1, 0, −1), (0, 1, −1) oraz (1, 2, 3) są liniowo niezależne, więc V1 + V2 = L (1, 0, −1), (0, 1, −1), (1, 2, 3) jest całą przestrzenią R3 . Dodatkowo, V1 ∩ V2 = {0}, bo dim(V1 ∩ V2 ) = dim V1 + dim V2 − dim(V1 + V2 ) = 2 + 1 − 3 = 0. Zatem przestrzeń R3 jest sumą prostą podprzestrzeni V1 i V2 , R3 = V1 ⊕ V2 . Wobec twierdzenia 7.8.4 (c) każdy wektor v ∈ R3 można w jeden i tylko w jeden sposób przedstawić w postaci sumy wektorów v1 ∈ V1 i v2 ∈ V2 . Przykładowo, aby znaleźć stosowny rozkład wektora v = (7,3, 2) warto poznać jego współrzędne względem bazy B = (1, 0, −1), (0, 1, −1), (1, 2, 3) . Rozwiązując równanie x(1, 0, −1) + y(0, 1, −1) + z(1, 2, 3) = (7, 3, 2), stwierdzamy, że [v]B = (5, −1, 2). Zatem v = 5(1, 0, −1)−(0, 1, −1) +2(1, 2, 3) = (5, −1, −4)+(2, 4, 6) i v1 = (5, −1, −4) ∈ V1 , v2 = (2, 4, 6) ∈ V2 . Geometrycznie v1 jest wektorem wodzącym punktu przecięcia się płaszczyzny x + y + z = 0 z prostą przechodzącą przez punkt (7, 3, 2) i równoległą do wektora (1, 2, 3), tj. z prostą (x, y, z) = (7, 3, 2) + t(1, 2, 3). Zaś v2 jest wektorem wodzącym punktu przecięcia się prostej L (1, 2, 3) z płaszczyzną x + y + z − 12 = 0, tj. z płaszczyzną przechodzącą przez punkt (7, 3, 2) i równoległą do płaszczyzny x + y = z = 0 (zob. rys. 7.17).
V1 ⊕ V2 – suma prosta
154
7. Przestrzeń wektorowa
Przykład 168. Sumą podprzestrzeni V1 = L (1, −1, 0), (1, 0, −1) jest przestrzeń
i
V2 = L (2, 1, 0), (3, 0, 1)
V1 + V2 = L (1, −1, 0), (1, 0, −1), (2, 1, 0), (3, 0, 1) . Ponieważ (dowolne) trzy spośród wektorów (1, −1, 0), (1, 0, −1), (2, 1, 0), (3, 0, 1) są liniowo niezależne w przestrzeni R3 , więc suma V1 + V2 jest całą przestrzenią R3 . Jednakże, ponieważ V1 ∩V2 6= {0} (bo dim(V1 ∩V2 ) = dim V1 +dim V2 −dim(V1 +V2 ) = 1), więc przestrzeń R3 nie jest sumą prostą podprzestrzeni V1 i V2 . Geometrycznie V1 i V2 są płaszczyznami przechodzącymi przez początek układu współrzędnych, a V1 + V2 jest podprzestrzenią zawierającą obie te płaszczyzny, więc V1 +V2 = R3 . Podprzestrzeń V1 ∩V2 jest prostą wzdłuż której przecinają się płaszczyzny V1 i V2 (zob. rys. 7.18) i – jak łatwo zauważyć – mamy V1 ∩ V2 = L (1, −4, 3) . V2
v
v2
O
v1 V1
V1
v10
* v1
v
v20 v2 V2
Rys. 7.17
Rys. 7.18. v = v1 + v2 = v10 + v20
Pojęcie sumy i sumy prostej dwóch podprzestrzeni łatwo uogólnia się na dowolną (skończoną) liczbę podprzestrzeni: jeśli V1 , V2 , . . . , Vn są podprzestrzeniami przestrzeni V , to zbiór V1 + V2 + . . . + Vn = {v1 + v2 + . . . + vn : vi ∈ Vi dla i = 1, . . . , n} nazywamy sumą podprzestrzeni V1 , V2 , . . . , Vn . Dodatkowo, jeśli V = V1 + V2 + . . . + Vn i Vi ∩ Vj = {0}, gdy i, j = 1, . . . , n, i 6= j, to mówimy, że przestrzeń V jest sumą prostą podprzestrzeni V1 , V2 , . . . , Vn i piszemy V = V1 ⊕V2 ⊕. . .⊕Vn . Następujące twierdzenie jest łatwym uogólnieniem twierdzenia 7.8.4 dla sumy n podprzestrzeni. Twierdzenie 7.8.5. Jeśli V1 , V2 , . . . , Vn (n 2) są skończenie wymiarowymi podprzestrzeniami przestrzeni wektorowej V , to następujące warunki są równoważne: (a) V = V1 ⊕ V2 ⊕ . . . ⊕ Vn , tj. V = V1 + . . . + Vn i (V1 + . . . + Vj ) ∩ Vj+1 = {0} dla j = 1, . . . , n − 1; (b) V = V1 + . . . + Vn i dim V = dim V1 + . . . + dim Vn ;
(c) każdy wektor v ∈ V można w jeden i tylko w jeden sposób przedstawić w postaci sumy v = v1 + v2 + . . . + vn , gdzie vi ∈ Vi dla i = 1, . . . , n.
7.9. Ćwiczenia
155
7.9. Ćwiczenia 1. Dla wektorów x = (x1 , . . . , xn ) i y = (y1 , . . . , yn ) ze zbioru Rn i skalara α ∈ R, sumę wektorów i iloczyn wektora przez skalar definiujemy wzorami: x + y = (x1 + y1 , . . . , xn + yn ); αx = (αx1 , . . . , αxn ). Pokazać, że Rn z tak określonymi działaniami jest przestrzenią wektorową. 2. Pokazać, że zbiór K[x] wielomianów nad ciałem K z dodawaniem wielomianów i mnożeniem wielomianów przez skalary jest przestrzenią wektorową. 3. Niech RR będzie zbiorem wszystkich funkcji odwzorowujących zbiór R w zbiór R. Dla f, g ∈ RR i α ∈ R, suma f + g oraz iloczyn αf są funkcjami takimi, że (f + g)(x) = f (x) + g(x) oraz (αf )(x) = αf (x) dla każdego x ∈ R. Pokazać, że RR z tak określonymi działaniami jest przestrzenią wektorową. 4. Sprawdzić, czy niżej podane zbiory ze wskazanymi działaniami są przestrzeniami wektorowymi nad ciałem R: (a) R2 ze zwykłym mnożeniem wektorów przez skalary i z dodawaniem określonym wzorem
(i) zbiór funkcji RR ze zwykłym mnożeniem funkcji przez skalary, ale z dodawaniem określonym wzorem (f ⊕ g)(x) = max{f (x), g(x)}. 5. W zbiorze R3×1 określono dodawanie wektorów i mnożenie wekorów przez skalary w taki sposób, że
"
x y z
#
+
"
x y z
i r
" #
x0 y0 z0
#
"
=
=
"
rx − r + 1 ry rz
x + x0 − 1 y + y0 z + z0
#
#
.
(a) Pokazać, że R3×1 z tak określonymi działaniami jest przestrzenią wektorową nad ciałem R. (b) Sprawdzić, czy zbiór S=
("
x y z
#
∈ R3×1 : x + y + z = 1
)
jest podprzestrzenią przestrzeni R3×1 z wyżej określonymi działaniami.
(x, y) ⊕ (x0 , y 0 ) = (x + x0 , y + 2y 0 );
6. Niech (V, R, +, ·) będzie przestrzenią wektorową nad ciałem R i niech p będzie ustalonym wektorem z prze(b) R2 ze zwykłym mnożeniem wektorów przez skalastrzeni V . Określamy nowe działanie dodawania ⊕ ry i z dodawaniem określonym wzorem i nowe mnożenie ⊗ wektorów przez skalary przyjmując, że (x, y) ⊕ (x0 , y 0 ) = (x − x0 , y − y 0 ); (c) R2 ze zwykłym mnożeniem wektorów przez skalary i z dodawaniem określonym wzorem 0
0
(x, y) ⊕ (x , y ) = (0, 0);
x⊕y = x+y+p
i
α ⊗ x = αx + (α − 1)p
dla każdych wektorów x, y ∈ V i każdego skalara α ∈ R. Pokazać, że system algebraiczny (V, R, ⊕, ⊗) jest przestrzenią wektorową.
(d) R2 ze zwykłym mnożeniem wektorów przez ska- 7. Sprawdzić, który ze zbiorów jest podprzestrzenią dalary i z dodawaniem określonym wzorem nej przestrzeni wektorowej:
(x, y) ⊕ (x, y) = (x3 + x3 )1/3 , (y 3 + y 3 )1/3 ; (e) R2 ze zwykłym dodawaniem, ale z mnożeniem przez skalary określonym wzorem
2
(f ) R ze zwykłym dodawaniem, ale z mnożeniem przez skalary określonym wzorem r (x, y) = (rx, r 2 y); (g) R+ = {x ∈ R : x > 0} z dodawaniem ⊕ i mnożeniem , gdzie i
r x = x
r
dla x, y ∈ R+ i r ∈ R; (h) zbiór macierzy R2×2 ze zwykłym mnożeniem macierzy przez skalary, ale z dodawaniem określonym wzorem A⊕B = 0
dla każdych A, B ∈ R2×2 ;
(b) {(x, x − 1) : x ∈ R} w R2 ;
(c) {(x, y) ∈ R2 : x, y 0} w R2 ; (d) {(x, y) ∈ R2 : xy 0} w R2 ;
r (x, y) = (ry, rx);
x ⊕ y = xy
(a) {(x, −x) : x ∈ R} w R2 ;
(e) {(x, y, z) ∈ R3 : x + y + z = 0} w R3 ; (f ) {(x, y, z) ∈ R3 : y = x, y = 1} w R3 ; (g) {(x, y, z, t) ∈ R4 : xy = 0} w R4 ;
(h) {x ∈ Rn : xa = 0} w Rn , gdzie a ∈ Rn ;
(i) {(x1 , . . . , xn ) ∈ Rn : |x1 | = . . . = |xn |} w Rn ;
(j) {(xn ) ∈ RN : ciąg (xn ) jest zbieżny} w RN ; (k) {(xn ) ∈ RN : ciąg (xn ) jest rosnący} w RN ; (l) {A ∈ Rn×n : A jest odwracalna} w Rn×n ;
(m) {f ∈ RR : f jest funkcją nieparzystą} w RR ; (n) {f ∈ RR : f (0) = 1} w RR ;
(o) {f ∈ RR : f jest różniczkowalna na R} w RR ;
(p) {f ∈ RR : f 00 + f = 0} w RR .
156
7. Przestrzeń wektorowa
8. Sprawdzić, czy wektor x jest kombinacją liniową wektorów xi w danej przestrzeni wektorowej: (a) x = (1, 2), x1 = (3, 1), x2 = (1, 3) w R2 ; (b) x = (1, 2, 1), x1 = (1, 1, 1), x2 = (1, 1, 2), x3 = (0, 1, 1) w R3 ;
9.
10. 11. 12. 13.
(c) x = t2 + 3t, x1 = t3 + 3t, x2 = t2 + t i x3 = t2 w R3 [t]; 1 0 1 0 (d) x = I2 , x1 = , x2 = w R2×2 . 1 2 2 3 Dane są funkcje f (x) = 0, g(x) = 1, h(x) = sin x, k(x) = 1 + x i l(x) = cos 2x z przestrzeni RR . Która z nich należy do podprzestrzeni L(cos2 x, sin2 x)? Pokazać, że jeśli b ∈ L(a1 , . . . , an ) i {a1 , . . . , an } ⊆ L(x1 , . . . , xk ), to b ∈ L(x1 , . . . , xk ). Pokazać, że L(x1 , . . . , xn , y) = L(x1 , . . . , xn ) wtedy i tylko wtedy, gdy y ∈ L(x1 , . . . , xn ). Wykazać, że S ⊆ L(S) i L(S) = L L(S) dla każdego zbioru wektorów S z przestrzeni wektorowej. Sprawdzić następujące równości:
18. Pokazać, że jeśli x1 , . . . , xn są wektorami w przestrzeni V , to wektory x1 − x2 , x2 − x3 , . . . , xn−1 − xn , xn − x1 są liniowo zależne. 19. Wykazać, że wektory x1 , . . . , xn są liniowo niezależne w przestrzeni V wtedy i tylko wtedy, gdy wektory x1 , x1 +x2 , . . . , x1 +x2 +. . .+xn są liniowo niezależne w V. 20. Uzasadnić, że wektory (1, α, α2 ), (1, β, β 2 ), (1, γ, γ 2 ) są liniowo niezależne, gdy α, β i γ są różnymi liczbami rzeczywistymi. 21. Dobrać liczbę m tak, aby wektory (1, 2, 3, 1), (0, 3, 1, 2), (1, 0, 3, 4) i (2, 5, 0, m) były liniowo zależne w R4 . 22. Wskazać te parametry t, dla których wektory (1, −1, 0, 0), (1, 1, 1, 0), (1, 0, 0, 1) i (t, 1, 1, 2t) są liniowo niezależne. 23. Czy istnieje taka liczba m, że wektory (1, 0, 1), (2, m, 3) i (1, −m, 0) są liniowo niezależne? 24. Sprawdzić, czy dany układ wektorów jest bazą przestrzeni:
(a) (1, 1), (2, 3) w R2 ;
(a) L(x, y) = L(x + y, x − y);
(b) (j, j), (0, j) w C 2 ;
(b) L(x, y, z) = L(x, x + y, x + y + z);
(c) L(x, y, z) = L(x + y, y + z, x + z);
(d) L (1, 2, 1), (4, 1, 2) = L (2, 3, 0), (3, 1, 1) ;
(e) L(t2 + 1, t2 − 1, t2 + t) = L(t, t2 + 1);
(c) (2, 3, 0), (3, 2, 1) w L (6, 4, 2), (−2, 2, −2) ;
(f ) {x ∈ R4 : xa = 0, xb = 0} = L (1, 0, 1, 0), (2, 1, 0, 1) , gdzie a = (1, 1, −2, −3) i b = (3, −2, 0, −4). 14. Zbadać liniową niezależność podanych wektorów xi w danej przestrzeni wektorowej: (a) x1 = (1, 3), x2 = (−2, −6) w R ; 2
(b) x1 = (1, 3), x2 = (2, −6) w R2 ;
(d) x + 1, x2 − 1, (x + 1) w R2 [x]. 25. Znaleźć takie wektory v i u, aby układ (a, b, v, u) był bazą przestrzeni R4 , gdy a = (1, 1, 0, 0) i b = (1, 0, 1, 0). 26. Znaleźć bazę i wymiar przestrzeni generowanej przez wektory: (a) a1 = (1, 3, 2), a2 = (2, 2, −1), a3 = (1, 7, 7);
27.
(c) x1 = (−1, 2, 1), x2 = (2, −4, 3) w R3 ;
(d) x1 = (1, 3, 2), x2 = (2, 5, 3), x3 = (4, 0, 1) w R3 ; (e) x1 = (−2, 3, 1), x2 = (3, −1, 2), x3 = (1, 2, 3), x4 = (1, 1, 1) w R3 ; (f ) x1 = x2 − 1, x2 = x2 + 1, x3 = x, x4 = 2x + 1 w R[x];
(g) x1 = 1, x2 = sin2 x, x3 = cos2 x, x4 = cos 2x w RR . 15. W przestrzeni RR zbadać liniową niezależność następujących układów funkcji rzeczywistych: (a) (1, 2 sin2 x, 3 cos2 x); (b) (1, sin x, sin 2x); (c) (1, x2 + 2x, (x + 1)2 ). 16. Niech A i B będą niepustymi zbiorami wektorów przestrzeni wektorowej V . Udowodnić, że: (a) jeśli 0 ∈ A, to A jest liniowo zależny; (b) jeśli A jest liniowo zależny i A ⊆ B, to B też jest liniowo zależny; (c) jeśli B jest liniowo niezależny i A ⊆ B, to A też jest liniowo niezależny. 17. Niech A będzie liniowo niezależnym zbiorem wektorów przestrzeni wektorowej V i niech v ∈ V . Pokazać, że zbiór A ∪ {v} jest liniowo zależny wtedy i tylko wtedy, gdy v ∈ L(A).
2
28.
29.
30.
31.
(b) b1 = (1, 0, 1, −1), b2 = (2, 1, 1, 0), b3 = (1, 1, 1, 1), b4 = (1, 2, 3, 4), b5 = (0, 1, 2, 3). Niech W1 i W2 będą podprzestrzeniami przestrzeni wektorowej V . Wykazać, że W1 ∩ W2 i W1 + W2 = {x + y : x ∈ W1 i y ∈ W2 } są podprzestrzeniami przestrzeni V . Pokazać, że W1 ∪W2 jest podprzestrzenia przestrzeni V wtedy i tylko wtedy, gdy W1 ⊆ W2 lub W2 ⊆ W1 . Niech x1 , . . . , xm oraz y1 , . . . , yn będą wektorami z przestrzeni wektorowej V . Wykazać, że L(x1 , . . . , xm ) + L(y1 , . . . , yn ) = L(x1 , . . . , xm , y1 , . . . , yn ). Znaleźć współrzędne wektora v = (1, 1, 1) względem baz B = (b1 , b2 , b3 ) i B 0 = (b01 , b02 , b03 ) przestrzeni R3 , gdy b1 = (1, 2, 1), b2 = (2, 3, 3), b3 = (3, 7, 1) i b01 = (3, 1, 4), b02 = (5, 2, 1), b03 = (1, 1, −6). W przestrzeni Rn [x] znaleźć współrzędne wektora f (x) = a0 + a1 x + . . . + an xn względem bazy B = 1, x − 1, (x − 1)2 , . . . , (x − 1)n . Znaleźć macierz przejścia P od bazy B do bazy B 0 , gdy: (a) B = (1, 2, 0), (3, 4, 2), (2, 2, 1) i B 0 = (1, −1, 2), (3, 1, −1), (4, 0, 2) w R3 ;
(b) B = (x3 , x2 , x, 1) i B 0 = (x3 − x2 , x2 − x, x − 1, x3 + 1) w R3 [x]. 32. (a) Wskazać przykład macierzy kwadratowej A takiej, że A 6= 0 i A2 = 0. (b) Następnie wykazać, że dla każdej takiej macierzy A jest CA ⊆ NA .
7.9. Ćwiczenia
157
33. Zbadać, czy wektor b należy do podprzestrzeni wierszowej RA macierzy A, gdy
A=
1 1 1 1 1
1 0 0 0 0
1 −2 1 2 4 2 2 5 3 2 6 4 2 6 4
i
b=
−2 4 5 6 6
.
34. Wyznaczyć bazy przestrzeni kolumnowej CA , wierszowej RA i zerowej NA macierzy A=
"
1 2 1 1 5 −2 −4 0 4 −2 1 2 2 4 9
#
.
Czy przestrzeń R3 jest sumą prostą podprzestrzeni V1 i V2 ? 46. Niech V1 i V2 będą podprzestrzeniami przestrzeni R4 , gdzie V1 = L (1, 1, 1, 1), (1, 2, −1, 0) i V2 = L (−1, 1, −1, 1), (2, 1, 1, 2) . Wykazać, że R4 = V1 ⊕ V2 . 47. Znaleźć bazę i wymiar przestrzeni V1 ∩ V2 oraz przestrzeni V1 + V2 , gdy: (a) V1 = L((1, 2, 0, 1), (1, 1, 1, 0)) i V2 = L((1, 0, 1, 0), (1, 3, 1, 3)); (b) V1 = L((1, 1, 1, 1), (1, −1, 1, −1), (1, 3, 1, 3)) i V2 = L((1, 2, 0, 2), (1, 2, 1, 2), (3, 1, 3, 1)). 48. Niech a1 , . . . , a6 będą kolejnymi kolumnami macierzy
1 2 A= 2 2
1 3 2 3
3 7 6 7
1 2 4 8 . 1 2 5 10
36. Czy jest możliwe, że dla rzędu macierzy A + B jest r (A + B) = r (A) + r (B)? 37. Niech A będzie macierzą ze zbioru Kn×n . Wykazać, że r(A) r(A2 ). Wskazać przykład macierzy A ∈ R2×2 takiej, że r(A) > r(A2 ). 38. Pokazać, że zbiór macierzy symetrycznych (diagonalnych) wymiaru n × n jest podprzestrzenią przestrzeni Rn×n . 39. Niech A będzie macierzą ze zbioru Rn×n i niech V będzie zbiorem macierzy przemiennych z macierzą A, czyli V = {X ∈ Rn×n : AX = XA}. (a) Udowodnić, że V jest podprzestrzenią w Rn×n . (b) Wykazać, że zbiór U = {a0 In + a1 A + . . . + am Am : m ∈ N, a0 , . . . , am ∈ R} jest podprzestrzenią w Rn×n . (c) Wykazać, że U ⊆ V . (d) bazy prze Wyznaczyć 1 0 strzeni V i U , gdy A = . (Uwzględnić, że 1 1 A2 = 2A − I). 40. Znaleźć bazę przestrzeni macierzy przemiennych 1 2 z macierzą A = . −1 1 41. Niech S i T będą niepustymi zbiorami wektorów z przestrzeni wektorowej V . Udowodnić, że L(S ∪ T ) = L(S) + L(T ). 42. Pokazać, że przestrzeń R2 jest sumą prostą podprze strzeni L (1, 2) i L (1, 3) . 43. Pokazać, że przestrzeń L (1, 2, 3) + L (1, 2, 0) jest sumą prostą podprzestrzeni L (1, 2, 3) i L (1, 2, 0) . Czy przestrzeń R3 jest sumą prostą podprzestrzeni L (1, 2, 3) i L (1, 2, 0) ? 44. Niech V1 i V2 będą podprzestrzeniami w R3 , gdzie V1 = {(x, y, z) ∈ R3 : x + y + z = 0} i V2 = {(x, y, z) ∈ R3 : x + y − z = 0}. Wykazać, że V1 + V 2 = R 3 . 45. Wyznaczyć część wspólną (przekrój) V1 ∩ V2 i sumę V1 + V2 podprzestrzeni V1 = L (1, 2, −1), (1, 0, 2), (1, −4, 8) i V2 = L (1, 0, 0), (0, 0, 1) przestrzeni R3 .
3 −1 1 1 8 12 1 −1 −1 1 4 6 1 0 1 1 5 8 . 1 1 3 1 6 10
35. Wyznaczyć rząd macierzy
Wyznaczyć bazy przestrzeni V , U , V +U i V ∩U , gdy V i U są podprzestrzeniami przestrzeni R4 takimi, że V = L(a1 , a2 , a3 ) i U = L(a4 , a5 , a6 ). 49. Wykazać, że zbiory V =
x y −y x
: x, y ∈ R
x y : x, y, z ∈ R są podprzestrzeniay z mi przestrzeni R2×2 . Wskazać także bazy i wymiary przestrzeni V , U , V ∩ U oraz V + U = {x + y : x ∈ V i y ∈ U }. 50. Niech V1 i V2 będą podprzestrzeniami przestrzeni Rn , gdzie V1 = {(x1 , . . . , xn ) ∈ Rn : x1 + . . . + xn = 0} i V2 = {(x1 , . . . , xn ) ∈ Rn : x1 = . . . = xn }. Wykazać, że Rn = V1 ⊕ V2 . 51. Pokazać, że przestrzeń wektorowa Rn [x] (n 1) jest sumą prostą podprzestrzeni V1 = {ϕ(x) ∈ Rn [x] : ϕ(−x) = −ϕ(x) dla każdego x ∈ R} i V2 = {ϕ(x) ∈ Rn [x] : ϕ(−x) = ϕ(x) dla każdego x ∈ R}. 52. Wykazać, że dla każdej podprzestrzeni V1 skończenie wymiarowej przestrzeni V istnieje podprzestrzeń V2 taka, że V = V1 ⊕ V2 . i U =
53. Pokazać, że n-wymiarowa przestrzeń wektorowa V jest sumą prostą n podprzestrzeni, gdy n 2.
54. Niech (a1 , . . . , am ) i (b1 , . . . , bn ) będą odpowiednio bazami podprzestrzeni V1 i V2 przestrzeni wektorowej V . Udowodnić, że przestrzeń V1 + V2 jest sumą prostą podprzestrzeni V1 i V2 wtedy i tylko wtedy, gdy (a1 , . . . , am , b1 , . . . , bn ) jest bazą przestrzeni V1 + V2 . 55. Udowodnić twierdzenie 7.8.5. 56. Wpisując TAK albo NIE, stwierdzić prawdziwość każdego z następujących zdań: 1 Zbiór składający się z wektora zerowego przestrzeni V jest podprzestrzenią przestrzeni wektorowej V . 2 Każda przestrzeń wektorowa ma co najmniej dwie różne podprzestrzenie. 3 Każda przestrzeń wektorowa, w której jest niezerowy wektor, ma co najmniej dwie różne podprzestrzenie.
158
7. Przestrzeń wektorowa
4 Jeśli S i T są zbiorami wektorów z przestrzeni wektorowej V , to zawsze L(S ∩ T ) ⊆ L(S) ∩ L(T ).
5 Jeśli {v1 , v2 , . . . , vn } jest podzbiorem przestrzeni wektorowej, to vi ∈ L(v1 , . . . , vn ) dla każdego i ∈ {1, . . . , n}. 6 Jeśli {v1 , v2 , . . . , vn } jest podzbiorem przestrzeni wektorowej, to vi + vj ∈ L(v1 , . . . , vn ) dla każdych i, j ∈ {1, . . . , n}.
7 Jeśli v + u należy do podprzestrzeni W przestrzeni V , to v i u należą do W .
8 Część wspólna dwóch podprzestrzeni przestrzeni wektorowej V może być zbiorem pustym.
Każda prosta w R2 jest podprzestrzenią przestrzeni R2 generowaną przez jeden wektor. 9
10 Każda prosta przechodząca przez początek układu w R2 jest podprzestrzenią przestrzeni R2 generowaną przez jeden wektor. 11 Każdy zbiór generujący przestrzeń wektorową R2 zawiera co najwyżej dwa wektory. 12
Przestrzeń R2 jest podprzestrzenią przestrzeni
3
R . 13 Jeśli wiersze macierzy kwadratowej A są liniowo zależne, to det A = 0. 14 Czy układ wektorów B = ((0, 1, 0, 1), (1, 1, 1, 1)) jest bazą przestrzeni W = {(x, y, z, t) ∈ R4 : x = z i y = t}? 15 Jeśli wektory a, b i c są liniowo niezależne w przestrzeni wektorowej V , to podprzestrzenie L(a, b) i L(b, c) są izomorficzne.
Jeśli A jest macierzą kwadratową i A4 = 0, to A jest macierzą nieosobliwą. 16
17 Jeśli A jest rzeczywistą macierzą kwadratową i A2 = 8A−1 , to det A = 2.
Jeśli A jest macierzą kwadratową i A3 −A = 0, to det A = 0. 18
19 Jeśli A jest macierzą kwadratową stopnia n i AT = 4A−1 , to det A = 2n lub det A = −2n .
Rozdział 8
PRZEKSZTAŁCENIA LINIOWE 8.1. Definicja przekształcenia liniowego Definicja 8.1.1. Niech V i W będą przestrzeniami wektorowymi nad tym samym ciałem K. Funkcję T : V → W nazywamy przekształceniem (odwzorowaniem lub homomorfizmem) liniowym przestrzeni V w przestrzeń W , jeżeli dla każdych wektorów x, y ∈ V i każdego skalara α ∈ K spełnione są warunki: (a) T (x + y) = T (x) + T (y),
(addytywność przekształcenia)
(b) T (αx) = αT (x).
(jednorodność przekształcenia)
Przekształcenie liniowe T : V → V (przestrzeni V w przestrzeń V ) nazywa się operatorem liniowym na przestrzeni V lub endomorfizmem przestrzeni V . Zbiór wszystkich przekształceń liniowych przestrzeni V w przestrzeń W oznaczać będziemy symbolem L(V, W ), a zbiór wszystkich operatorów na przestrzeni V – symbolem L(V ). Własność (a) przekształcenia liniowego T powiada, że wektor T (x+y), który otrzymujemy dodając x i y w przestrzeni V i następnie wyznaczając obraz sumy x + y poprzez przekształcenie T , jest identyczny z wektorem, jaki otrzymamy wyznaczając najpierw obrazy wektorów x i y poprzez przekształcenie T i następnie dodając T (x) i T (y) w przestrzeni W . Własność (b) gwarantuje, że wektor T (αx), obraz iloczynu wektora x przez skalar α, jest taki sam jak iloczyn αT (x) obrazu T (x) (wektora x) i skalara α, zob. rys. 8.1 i 8.2. T
q z y
z
x+y
-
k
T (x+y)=T (x)+T (y)
z
x
V
T (y)
O
W
T (x)
Rys. 8.1. Przekształcenie liniowe zachowuje dodawanie wektorów T
q V
W αx
s
x 0
j
T (αx)=αT (x)
j 0
T (x)
Rys. 8.2. Przekształcenie liniowe zachowuje współliniowość wektorów
Przekształcenie liniowe
Operator liniowy L(V, W ) L(V ) = L(V, V )
160
8. Przekształcenia liniowe Z własności (a) i (b) przekształcenia liniowego łatwo wynika, że jeśli V i W są przestrzeniami wektorowymi nad ciałem K, to funkcja T : V → W jest przekształceniem liniowym wtedy i tylko wtedy, gdy spełniony jest jeden z następujących trzech warunków: (c) Dla każdych wektorów x, y ∈ V i każdego skalara α ∈ K jest T (x + αy) = T (x) + αT (y).
Przekształcenie liniowe zachowuje kombinacje liniowe dwóch wektorów Przekształcenie liniowe zachowuje kombinacje liniowe skończonej liczby wektorów
(8.1)
(d) Dla każdych wektorów x, y ∈ V i każdych skalarów α, β ∈ K jest T (αx + βy) = αT (x) + βT (y);
(8.2)
(e) Dla każdych wektorów x1 , . . . , xn ∈ V i skalarów α1 , . . . , αn ∈ K jest T
n X i=1
n X α i xi = αi T (xi ).
(8.3)
i=1
Z powyższych własności oraz z twierdzenia 7.1.1 wynikają następujące ważne i naturalne własności przekształcenia liniowego. (f ) Jeśli T : V → W jest przekształceniem liniowym, to
Przekształcenie liniowe przekształca wektor zerowy w wektor zerowy
T (0) = 0
(8.4)
T (x − y) = T (x) − T (y)
(8.5)
i dla każdych dwóch wektorów x, y ∈ V .1
Przykład 169. Jeśli A jest macierzą wymiaru m × n i jej elementy należą do ciała K, to symbolem TA oznaczać będziemy odwzorowanie TA : K n → K m takie, że TA (x) = A·x (8.6) dla każdego x ∈ K n . Twierdzimy, że TA jest przekształceniem liniowym (przestrzeni wektorowej K n w przestrzeń wektorową K m ). Z własności iloczynu macierzy mamy TA (x + y) = A(x + y) = Ax + Ay = TA (x) + TA (y) i TA (αx) = A(αx) = α(Ax) = αTA (x) dla każdych x, y ∈ K i α ∈ K. To dowodzi, że funkcja TA określona wzorem (8.6) jest przekształceniem liniowym. n
Przykład 170. Dana jest funkcja T : R2 → R2 , gdzie T (x1 , x2 ) = (x1 + 2x2 , 3x1 − x2 ) dla (x1 , x2 ) ∈ R2 . Niech P będzie prostokątem o wierzchołkach w punktach A(0, 0), B(1, 0), C(1, 2) i D(0, 2). Wykazać liniowość przekształcenia T i wyznaczyć obraz T (P ) prostokąta P poprzez przekształcenie T . 1 Własność (8.4) wynika z (b) i z tw. 7.1.1, bo mamy T (0) = T (0x) = 0T (x) = 0. Własność (8.5) wynika z (8.1) i tw. 7.1.1, bo T (x − y) = T (x + (−1)y) = T (x) + (−1)T (y) = T (x) − T (y).
8.1. Definicja przekształcenia liniowego
161
Dla wektorów x = (x1 , x2 ) i y = (y1 , y2 ) z przestrzeni R2 i skalarów α, β ∈ R mamy T (αx + βy) = T (αx1 + βy1 , αx2 + βy2 ) =
(αx1 + βy1 ) + 2(αx2 + βy2 ), 3(αx1 + βy1 ) − (αx2 + βy2 )
=
α(x1 + 2x2 ) + β(y1 + 2y2 ), α(3x1 − x2 ) + β(3y1 − y2 )
=
α(x1 + 2x2 ), α(3x1 − x2 ) + β(y1 + 2y2 ), β(3y1 − y2 )
= α(x1 + 2x2 , 3x1 − x2 ) + β(y1 + 2y2 , 3y1 − y2 ) = αT (x) + βT (y),
więc T jest przekształceniem liniowym. Do tego samego stwierdzenia dochodzimy korzystając z poprzedniego przykładu i obserwując, że T (x) jest iloczynem pewnej macierzy A ∈ R2×2 i wektora x = (x1 , x2 ). Istotnie, mamy T (x1 , x2 )
= =
(x1 + 2x2 , 3x1 − x2 ) = (x1 , 3x1 ) + (2x2 , −x2 )
1 3
x1 +
czyli T (x) = TA (x) = Ax, gdzie A =
2 −1
x2 =
1 2 3 −1
x1 x2
,
1 2 . 3 −1
−→ Zauważmy, że czworokąt P jest równoległobokiem zbudowanym na wektorach AB −−→ = (1, 0) i AD = (0, 2), czyli P = {α(1, 0) + β(0, 2) : 0 ¬ α, β ¬ 1}, a jego obrazem jest zbiór T (P )
= = =
{T (x) : x ∈ P } = {T α(1, 0) + β(0, 2) : 0 ¬ α, β ¬ 1} {αT (1, 0) + βT (0, 2) : 0 ¬ α, β ¬ 1} {α(1, 3) + β(4, −2) : 0 ¬ α, β ¬ 1}
i jest to równoległobok zbudowany na wektorach (1, 3) = T (1, 0) i (4, −2) = T (0, 2), zob. rys. 8.3. Warto zauważyć, że pole równoległoboku T (P ) jest iloczynem pola równoległoboku P i wartości bezwzględnej wyznacznika macierzy A, |T (P )| = 14 = 7·2 = | det A|·|P |. T (B) D
C
T
q T (C)
P A
T (P ) B
0
T (D)
Rys. 8.3
Przykład 171. Sprawdzić, czy przekształcenie Ti : R3 → R3 jest liniowe, gdy: (a) T1 (x1 , x2 , x3 ) = (x1 , 2x2 − x3 , x1 − 3x2 + 1);
(b) T2 (x1 , x2 , x3 ) = (x2 + x3 , x1 x2 , 6x3 );
(c) T3 (x1 , x2 , x3 ) = (−x1 , x1 + x22 , x1 − x3 ). (a) Zauważmy, że T1 (0) = T1 (0, 0, 0) = (0, 0, 1) 6= (0, 0, 0) = 0, więc z (8.4) wynika, że T1 nie jest przekształceniem liniowym.
162
8. Przekształcenia liniowe (b) Jeśli x = (x1 , x2 , x3 ) i y = (y1 , y2 , y3 ) są wektorami z przestrzeni R3 , to mamy T2 (x + y) = = = = 6=
T2 (x1 + y1 , x2 + y2 , x3 + y3 ) (x2 + y2 ) + (x3 + y3 ), (x1 + y1 )(x2 + y2 ), 6(x3 + y3 ) (x2 + x3 , x1 x2 , 6x3 ) + (y2 + y3 , y1 y2 , 6y3 ) + (0, x1 y2 + x2 y1 , 0) T2 (x) + T2 (y) + (0, x1 y2 + x2 y1 , 0) T2 (x) + T2 (y) (gdy x1 y2 + x2 y1 6= 0)
i stąd wynika, że T2 nie jest przekształceniem liniowym. (c) Jeśli x = (x1 , x2 , x3 ) jest wektorem z przestrzeni R3 i α jest liczbą rzeczywistą, to
T3 (αx) = = 6= =
T3 (αx1 , αx2 , αx3 ) = (−αx1 , αx1 + α2 x22 , αx1 − αx3 ) α(−x1 , x1 + αx22 , x1 − x3 ) α(−x1 , x1 + x22 , x1 − x3 ) (gdy α 6= 1 i x2 6= 0) α T3 (x),
więc także T3 nie jest przekształceniem liniowym.
Przykład 172. Niech C(R) i C 0 (R) będą odpowiednio przestrzenią ciągłych funkcji rzeczywistych i przestrzenią funkcji mających ciągłą pochodną na całym zbiorze R. Odwzorowanie T : C 0 (R) → C(R) takie, że T (f ) = f 0 , gdzie f 0 jest pochodną funkcji f , jest przekształceniem liniowym przestrzeni C 0 (R) w przestrzeń C(R). Istotnie, z elementarnych własności pochodnej mamy T (f + g) = (f + g)0 = f 0 + g 0 = T (f ) + T (g) i T (αf ) = (αf )0 = αf 0 = αT (f ) dla każdych funkcji f, g ∈ C 0 (R) i każdej liczby α ∈ R. To dowodzi, że tu rozważana funkcja T jest przekształceniem liniowym.
Ważnymi przykładami przekształceń są przekształcenie zerowe i przekształcenie tożsamościowe.
Przekształcenie zerowe
Definicja 8.1.2. Jeśli V i W są przestrzeniami wektorowymi (nad tym samym ciałem), to przekształceniem zerowym przestrzeni V w przestrzeń W nazywamy funkcję 0 : V → W taką, że 0(x) = 0 (8.7)
Przekształcenie tożsamościowe
dla każdego x ∈ V. Natomiast przekształceniem tożsamościowym (lub przekształceniem identycznościowym) przestrzeni V nazywamy funkcję IV : V → V taką, że IV (x) = x (8.8) dla każdego x ∈ V. Łatwo pokazuje się, że przekształcenie zerowe oraz przekształcenie tożsamościowe są przekształceniami liniowymi. W pierwszym twierdzeniu tego rozdziału pokazujemy, że każde przekształcenie liniowe T : V → W jest jednoznacznie wyznaczone przez swoje wartości na wektorach bazy przestrzeni V . Praktycznie oznacza to, że jeśli (b1 , . . . , bn ) jest bazą przestrzeni V i jeśli znamy wektory T (b1 ), . . . , T (bn ), to możemy wyznaczyć wartość T (x) przekształcenia T dla każdego wektora x z przestrzeni V .
8.1. Definicja przekształcenia liniowego
163
Twierdzenie 8.1.1. Niech V i W będą przestrzeniami wektorowymi nad ciałem K. Jeśli (b1 , . . . , bn ) jest bazą przestrzeni V , a c1 , . . . , cn są dowolnymi wektorami przestrzeni W , to istnieje dokładnie jedno takie przekształcenie liniowe T : V → W , że T (bi ) = ci dla i = 1, . . . , n.
Dowód. Niech x będzie dowolnym wektorem z przestrzeni V . Ponieważ (b1 , . . . , bn ) jest bazą przestrzeni V , więc istnieją jednoznacznie wyznaczone skalary x1 , . . . , xn ∈ K takie, że x = x1 b1 + . . . + xn bn . Definiujemy przekształcenie T : V → W , przyjmując, że T (x) = T (x1 b1 + . . . + xn bn ) = x1 c1 + . . . + xn cn . (8.9)
Tak określone przekształcenie T odwzorowuje przestrzeń V w przestrzeń W i obrazem każdego wektora bi poprzez T jest wektor ci , bo wobec (8.9) mamy T (bi ) = T (0b1 + . . . + 1bi + . . . + 0bn ) = 0c1 + . . . + 1ci + . . . + 0cn = ci . Dodatkowo, jest to przekształcenie liniowe, bo znowu z (8.9) dla każdych wektorów x = x1 b1 + . . . + xn bn i y = y1 b1 + . . . + yn bn z przestrzeni V oraz skalarów α, β z ciała K mamy T (αx + βy)
=
T (αx1 + βy1 )b1 + . . . + (αxn + βyn )bn
=
(αx1 + βy1 )c1 + . . . + (αxn + βyn )cn
=
α(x1 c1 + . . . + xn cn ) + β(y1 c1 + . . . + yn cn )
=
αT (x) + βT (y).
W końcu, dla dowodu jedyności T , przypuśćmy, że U : V → W jest przekształceniem liniowym takim, że U (bi ) = ci dla i = 1, . . . , n. Wystarczy teraz udowodnić, że U = T . Ponieważ dla każdego wektora x = x1 b1 + . . . + xn bn z przestrzeni V mamy U (x)
=
U (x1 b1 + . . . + xn bn )
=
x1 U (b1 ) + . . . + xn U (bn )
(z liniowości U )
=
x1 T (b1 ) + . . . + xn T (bn )
(bo U (bi ) = ci = T (bi ))
=
T (x1 b1 + . . . + xn bn ) = T (x),
(z liniowości T )
więc U = T i to kończy dowód twierdzenia.
Przykład 173. Wskazać przekształcenie liniowe T : R 3 → R2 , dla którego 1 0 0 1 2 1 T 0 = , T 1 = i T 0 = . −1 3 1 0 0 1
Ponieważ wektory
"
1 0 0
#
= e1 ,
"
0 1 0
#
= e2
i
"
0 0 1
#
= e3
tworzą bazę przestrzeni R3 i dla każdego wektora x=
"
x y z
#
∈ R3
jest
x = xe1 + ye2 + ze3 ,
więc wobec żądanej liniowości przekształcenia T musi być T (x)
= =
T (xe1 + ye2 + ze3 ) = xT (e1 ) + yT (e2 ) + zT (e3 ) " x # 1 2 1 1 2 1 y . x +y +z = −1 3 1 −1 3 1 z
164
8. Przekształcenia liniowe
x Przykład 174. Wyznaczyć obraz wektora x = y poprzez przekształcenie z liniowe T : R3 → R3 takie, że T (bi ) = ci (i = 1, 2, 3), gdzie " # " # " # " # " # " # b1 =
1 1 0
, b2 =
1 0 1
1 −1 1
, b3 =
, c1 =
1 0 −1
, c2 =
1 1 −1
0 1 0
, c3 =
.
Wyznaczając s z równania b1 b2 b3 s = x, stwierdzamy, że wektor x jest kombinacją liniową wektorów b1 , b2 oraz b3 i jednocześnie zauważamy, że x=
"
x y z
#
= (x − z)b1 + (−x + y + 2z)b2 + (x − y − z)b3 .
Stąd, z liniowości przekształcenia T oraz z równości T (bi ) = ci otrzymujemy obraz T (x) wektora x, T (x)
= = =
T (x − z)b1 + (−x + y + 2z)b2 + (x − y − z)b3
(x − z)T (b1 ) + (−x + y + 2z)T (b2 ) + (x − y − z)T (b3 ) (x − z)c1 + (−x + y + 2z)c2 + (x − y − z)c3
=
(x − z)
=
"
"
y+z z −y − z
1 0 −1
#
#
=
+ (−x + y + 2z)
"
0 1 1 0 0 1 0 −1 −1
#"
"
x y z
1 1 −1
#
#
+ (x − y − z)
"
0 1 0
#
.
Wniosek 8.1.1. Niech V i W będą przestrzeniami wektorowymi i niech (b1 , b2 , . . . , bn ) będzie bazą przestrzeni V . Jeśli U, T : V → W są przekształceniami liniowymi i U (bi ) = T (bi ) (i = 1, . . . , n), to U = T . Przykład 175. Niech T : R2 → R3 będzie funkcją taką, że T (x, y) = (x − y, 0, 3x). Niech U : R2 → R3 będzie przekształceniem liniowym takim, że U (2, 1) = (1, 0, 6) i U (0, 1) = (−1, 0, 0). Ponieważ układ wektorów B = (2, 1), (0, 1) jest bazą przestrzeni R2 i przekształcenia liniowe T oraz U przyjmują identyczne wartości na wektorach bazy B, U (2, 1) = (1, 0, 6) = T (2, 1) i U (0, 1) = (−1, 0, 0) = T (0, 1), więc wobec ostatniego wniosku przekształcenia liniowe T oraz U są identyczne, czyli U = T .
8.2. Jądro i obraz przekształcenia liniowego Zajmiemy się teraz dwiema ważnymi podprzestrzeniami związanymi z przekształceniem liniowym — jądrem i obrazem przekształcenia liniowego. Zaczynamy od pokazania, że obraz (i przeciwobraz) podprzestrzeni poprzez przekształcenie liniowe jest podprzestrzenią.
8.2. Jądro i obraz przekształcenia liniowego
165
Twierdzenie 8.2.1. Niech T : V → W będzie przekształceniem liniowym i niech V 0 oraz W 0 będą odpowiednio podprzestrzeniami przestrzeni wektorowych V i W . Wtedy: V 0 −podprzestrzeń w V T (V 0 )− podprzestrzeń w W
(a) T (V 0 ) = { T (x) : x ∈ V 0 } jest podprzestrzenią przestrzeni W ;
(b) T −1 (W 0 ) = { x ∈ V : T (x) ∈ W 0 } jest podprzestrzenią przestrzeni V .
W 0 −podprzestrzeń w W T −1 (W 0 )−podprzestrzeń w V
Dowód. Zbiór T (V 0 ) jest niepusty, bo 0 ∈ V 0 i 0 = T (0) ∈ T (V 0 ). Weźmy teraz dowolne wektory y, y0 ∈ T (V 0 ) i skalary α, β ∈ K. Wobec twierdzenia 7.1.3 dla dowodu części (a) wystarczy pokazać, że αy + βy0 ∈ T (V 0 ), zob. rys. 8.4. Niech x, x0 ∈ V 0 będą takie, że T (x) = y i T (x0 ) = y0 . Wtedy αx + βx0 ∈ V 0 , bo V 0 jest podprzestrzenią. Stąd i z liniowości przekształcenia T wynika, że αy + βy0 = αT (x) + βT (x0 ) = T (αx + βx0 ) ∈ T (V 0 ).
Równie łatwo dowodzi się drugą część twierdzenia. Ponieważ T (0) = 0 ∈ W 0 , więc 0 ∈ T −1 (W 0 ) i dlatego zbiór T −1 (W 0 ) jest niepusty. Niech x, x0 ∈ T −1 (W 0 ) i α, β ∈ K. Dla dowodu (b) wystarczy pokazać, że αx + βx0 ∈ T −1 (V 0 ). Ponieważ x, x0 ∈ T −1 (W 0 ), więc T (x), T (x0 ) ∈ W 0 i dlatego αT (x) + βT (x0 ) ∈ W 0 (bo W 0 jest podprzestrzenią). Stąd i z liniowości przekształcenia T wynika, że T (αx + βx0 ) ∈ W 0 i dlatego αx + βx0 ∈ T −1 (W 0 ).
W −T (V 0 )
W V
T
Y
z
V0
0
T (V )
y0
x0
M
6
αy+βy0
-
0 0
? ?
y
x αx+βx0 ∈V 0 ⇒ αy+βy0 =T (αx+βx0 )∈T (V 0 )
Rys. 8.4
Definicja 8.2.1. Niech V i W będą przestrzeniami wektorowymi (nad ciałem K) i niech T : V → W będzie przekształceniem liniowym. Wtedy zbiór Im T = T (V ) = { T (x) : x ∈ V }
(8.10)
Obraz przekształcenia
(będący obrazem zbioru V poprzez przekształcenie T ) nazywamy obrazem przekształcenia T . Natomiast zbiór Ker T = T −1 ({0}) = { x ∈ V : T (x) = 0},
(8.11)
czyli przeciwobraz wektora zerowego, nazywamy jądrem (lub przestrzenią zerową) przekształcenia T .
T x
Ker T − jądro
-
z
-
V – dziedzina
jT (x) 0
W – przeciwdziedzina Rys. 8.5
Im T − obraz
Jądro przekształcenia
166
8. Przekształcenia liniowe Wniosek 8.2.1. Jeśli T : V → W jest przekształceniem liniowym, to: (a) Im T jest podprzestrzenią przestrzeni W ;
(b) Ker T jest podprzestrzenią przestrzeni V . Dowód. Oba stwierdzenia wynikają z twierdzenia 8.2.1 odpowiednio dla V 0 = V i W 0 = {0}.
T L(B) = L T (B)
Wniosek 8.2.2. Niech B = (b1 , . . . , bn ) będzie bazą przestrzeni wektorowej V i niech T : V → W będzie przekształceniem liniowym. Wtedy Im T = L T (b1 ), . . . , T (bn ) . (8.12)
Dowód. Mamy B ⊂ V , więc także T (B) ⊂ T (V ) i L T (B) ⊆ L T (V ) . Jednocze śnie L T (V ) = T (V ) (bo T (V ) wobec wniosku 8.2.1 jest podprzestrzenią) i dlatego L T (B) ⊆ T (V ). Weźmy teraz y ∈ T (V ). Niech wektor Pn x ∈ V będzie taki, że y = T (x). Ponieważ B jest bazą przestrzeni V , więc x = α b (dla pewnych skalarów α1 , . . . , αn ) i=1 i i i wtedy też z liniowości przekształcenia T mamy y = T (x) = T
n X
αi bi
i=1
=
n X i=1
αi T (bi ) ∈ L T (B) .
Stąd T (V ) ⊆ L T (B) i to kończy dowód równości T (V ) = L T (B) .
Przykład 176. Dane jest przekształcenie liniowe T : R2×2 → R2 [x] takie, że a b T = a + (b + c)x + dx2 . c d Wyznaczyć obraz i jądro przekształcenia T .
0 0 , 1 0
0 0 1 0
1 0 0 1 , , 0 0 0 0 wniosku 8.2.2 obrazem przekształcenia T jest Bazą przestrzeni R2×2 jest układ
Im T
1 0 0 0
0 1 0 0
=
L T
=
L(1, x, x, x2 ) = L(1, x, x2 ) = R2 [x].
,T
,T
0 0 0 1
0 0 0 1
,T
, więc wobec
Zauważmy teraz, że
a b c d
∈ Ker T
⇔ ⇔
a b = a + (b + c)x + dx2 ≡ 0 c d a = 0, b + c = 0 i d = 0.
T
Stąd otrzymujemy Ker T =
0 b −b 0
: b∈R
=L
0 1 −1 0
.
Przykład 177. Wyznaczyć jądro i obraz przekształcenia TA : R5 → R4 , dla którego 1 1 1 1 −1 2 1 1 0 1 TA (x) = Ax i A = 1 0 0 1 0 . 3 2 2 −1 2
8.2. Jądro i obraz przekształcenia liniowego
167
Z definicji jądra mamy Ker TA = { x ∈ R5 : TA (x) = 0 } = { x ∈ R5 : Ax = 0 }. To oznacza, że Ker TA jest zbiorem rozwiązań jednorodnego układu równań Ax = 0 (i przestrzenią zerową NA macierzy A). Dla macierzy rozszerzonej układu Ax = 0 mamy wierszowe równoważności
1 2 [A|0] = 1 3
1 1 0 2
Stąd zaś wynika, że
1 1 −1 0 1 0 1 0 ∼ ... ∼ 0 1 0 0 2 −1 2 0
−x5 −x3 + x5 Ker TA = x3 x5 x5
1 0 0 0
0 1 0 0
: x 3 , x 5 ∈ R = L
0 1 0 0
0 1 0 0 −1 0 . 1 −1 0 0 0 0
0 −1 1 0 0
Obrazem przekształcenia liniowego TA jest
Ker TA = NA
,
−1 1 0 1 1
. Im TA = CA
Im TA = TA (R5 ) = { TA (x) : x ∈ R5 } = { Ax : x ∈ R5 } i jest to przestrzeń kolumnowa macierzy A, czyli przestrzeń CA . Korzystając z powyższej wierszowej równoważności, dochodzimy do wniosku, że jest ona generowana przez pierwszą, drugą i czwartą kolumnę macierzy A,
Im TA = CA
1 2 = L , 1 3
1 1 1 0 , . 0 1 2 −1
Następujące twierdzenie, zwane twierdzeniem wymiarowym, zasadniczym twierdzeniem algebry liniowej lub twierdzeniem Sylvestera, podaje związek pomiędzy wymiarem jądra i wymiarem obrazu (zob. rys. 8.6) przekształcenia liniowego.2 Twierdzenie 8.2.2 (Twierdzenie wymiarowe). Jeśli T : V → W jest przekształceniem liniowym i V jest przestrzenią skończonego wymiaru, to dim Ker T + dim Im T = dim V.
(8.13)
Dowód. Niech (a1 , . . . , ar ) i (b1 , . . . , bp ) będą odpowiednio bazą przestrzeni Ker T i Im T . Niech b0i ∈ V będzie wektorem takim, że T (b0i ) = bi dla i ∈ {1, . . . , p}. Dla dowodu równości (8.13) wystarczy udowodnić, że układ B = (a1 , . . . , ar , b01 , . . . , b0p ) jest bazą przestrzeni V . Pokażemy najpierw, że układ B jest liniowo niezależny. W tym celu bierzemy pod uwagę kombinację liniową r X
x i ai +
i=1
p X
yj b0j = 0.
(8.14)
j=1
Wystarczy pokazać, że x1 = . . . = xr = y1 . . . = yp = 0. Zauważmy najpierw, że z liniowości T i z faktu, że ai ∈ Ker T mamy 0 = T (0) = T
r X i=1
x i ai +
p X j=1
yj b0j
=
r X i=1
xi T (ai ) +
p X j=1
yj T (b0j ) =
p X
yj b j
j=1
2 Jeśli T : V → W jest przkształceniem liniowym skończenie wymiarowej przestrzeni wektorowej V , to liczby dim Ker T i dim Im T nazywa się odpowiednio zerowością i rzędem przekształcenia T .
Twierdzenie wymiarowe
168
8. Przekształcenia liniowe i dlatego
p X
yj bj = 0.
(8.15)
j=1
Ponieważ wektory b1 , . . . , bp są liniowo niezależne, więc Pr z równości (8.15) otrzymujemy y1 = . . . = yp = 0. Stąd i z równości (8.14) mamy x a = 0. Z tej zaś równości i=1 i i i z liniowej niezależności wektorów a1 , . . . , ar wynika, że x1 = . . . = xr = 0. Pokażemy teraz, że każdy wektor v ∈ V jest kombinacją liniową wektorów układu B. Przede wszystkim, ponieważ wektory b1 , . . . , bp generują Pp przestrzeń T (V ) i T (v) ∈ T (V ), więc istnieją skalary y1 , . . . , yp takie, że T (v) = j=1 yj bj . Zauważmy teraz, że Pp Pp Pp wektor v− j=1 yj b0j ∈ Ker T (bo T (v− j=1 yj b0j ) = T (v)− j=1 yj T (b0j ) = T (v)− Pp Pp Pr y b = 0), więc istnieją skalary x1 , . . . , xr takie, że v − j=1 yj b0j = i=1 xi ai j=1 j j Pr Pp i dlatego v = x a + j=1 yj b0j . Z powyższego wynika, że zbiór B jest bazą i=1 i i przestrzeni V i dlatego dim V = |B| = r + p = dim Ker T + dim Im T . V
-W
T
-
y
T −1 (y)
-
0
Ker T =T −1 (0)Im T
Rys. 8.6
Przykład 178. Wyznaczyć wymiar jądra i wymiar obrazu przekształcenia liniowego T : R4 → R3 , gdzie T (x, y, z, t) = (x + y + z, y + 2z, x − z). Łatwo zauważyć, że mamy
( x x + y + z = 0 y Ker T = ∈ R4 : y + 2z = 0 z x − z = 0 t
Stąd dim Ker T = 2 i wobec twierdzenia 8.2.2 jest
1 −2 = L , 1 0
0 0 . 0 1
dim Im T = dim R4 − dim Ker T = 2.
Przykład 179. Korzystając z twierdzenia wymiarowego (tw. 8.2.2), uzasadnić, że nie istnieje przekształcenie liniowe T : R3 → R4 takie, że wektory c1 = (1, 1, 2, 1), c2 = (1, 2, 3, 1), c3 = (3, 2, 7, 5) i c4 = (1, 0, 2, 5) należą do przestrzeni Im T . Łatwo sprawdzić, że wektory c1 , c2 , c3 i c4 są liniowo niezależne. Stąd wynika, że dim L(c1 , c2 , c3 , c4 ) = 4. Zauważmy teraz, że jeśli istniałoby przekształcenie liniowe T : R3 → R4 takie, że c1 , c2 , c3 , c4 ∈ Im T , to wtedy przestrzeń L(c1 , c2 , c3 , c4 ) zawierałaby się w przestrzeni Im T i dlatego byłoby dim Im T dim L(c1 , . . . , c4 ) = 4. To zaś byłoby niemożliwe, bo z twierdzenia 8.2.2 mamy dim Im T ¬ dim Im T + dim Ker T = dim R3 = 3.
8.3. Mono- i epimorficzność przekształcenia liniowego
169
Za pomocą twierdzenia 8.2.2 udowodnimy teraz, że rząd macierzy A wymiaru m × n i o współczynnikach z ciała K jest identyczny z rzędem macierzy AT A. W tym celu kolejny raz warto uświadomić sobie, że przestrzeń kolumnowa macierzy A jest identyczna z obrazem przekształcenia liniowego TA : Kn×1 → Km×1 , czyli jest CA = Im TA . Natomiast jądro przekształcenia liniowego TA pokrywa się z przestrzenią zerową macierzy A, czyli Ker TA = NA . Wymiar tej ostatniej przestrzeni, czyli liczbę dim NA , nazywa się zerowością macierzy A. Z twierdzenia 8.2.2 dla przekształcenia TA : Kn×1 → Km×1 , czyli z równości dim Ker TA + dim Im TA = n, mamy następującą zależność pomiędzy rzędem (zob. definicję 7.7.2) i zerowością macierzy A: i stąd
Zerowość macierzy
r(A) = dim CA = dim Im TA = n − dim Ker TA = n − dim NA r(A) = n − dim NA .
Twierdzenie 8.2.3. Macierze rzeczywiste A i czyli r (A) = r (ATA).
(8.16) T
A A mają identyczne rzędy, (8.17)
Dowód. Załóżmy, że A ∈ Rm×n . Wtedy A A ∈ Rn×n i wobec (8.16) jest r (A) = n − dim NA oraz r (ATA) = n − dim NATA . Zatem dla dowodu równości (8.17) wystarczy wykazać równość przestrzeni zerowych NA i NATA . W tym celu zauważmy najpierw, że jeśli x ∈ NA , to Ax = 0 i wtedy ATAx = AT (Ax) = AT 0 = 0, więc także x ∈ NATA . To dowodzi, że NA ⊆ NATA . Weźmy teraz dowolny wektor y ze zbioru NATA . Dla takiego y jest ATAy = 0. Zatem (Ay)T (Ay) = yT AT Ay = yT 0 = 0 i dlatego Ay = 0, co dowodzi, że y ∈ NA . Stąd NATA ⊆ NA . To kończy dowód równości NA = NATA . T
8.3. Mono- i epimorficzność przekształcenia liniowego Definicja 8.3.1. Przekształcenie liniowe T : V → W nazywamy monomorfizmem, gdy każdy wektor b z przestrzeni W jest obrazem co najwyżej jednego wektora x z przestrzeni V , zob. rys. 8.7. Przekształcenie liniowe T : V → W jest epimorfizmem, gdy każdy wektor b z przestrzeni W jest obrazem co najmniej jednego wektora x z przestrzeni V , zob. rys. 8.8. Równoważnie, przekształcenie liniowe T : V → W jest monomorfizmem (epimorfizmem), gdy dla każdego wektora b ∈ W równanie T (x) = b ma co najwyżej (co najmniej) jedno rozwiązanie. Jeszcze inaczej: Przekształcenie liniowe T : V → W jest monomorfizmem, gdy T jest różnowartościowym odwzorowaniem przestrzeni wektorowej w przestrzeń W . Przekształcenie liniowe T : V → W jest epimorfizmem, gdy T odwzorowuje przestrzeń wektorową V na przestrzeń W , tj. gdy Im T = W .3
b00
-T
--
-
V
T
b0
z -
b0
b
z -
b
W
Rys. 8.7
V
W
Rys. 8.8
3 Odwzorowanie T : V → W jest różnowartościowe, gdy dla dowolnych x, x 0 ∈ V z równości T (x) = T (x0 ) wynika równość x = x0 . Odwzorowanie T : V → W przekształca zbiór V na zbiór W , gdy T (V ) = W , czyli gdy dla każdego y ∈ W istnieje x ∈ V , dla którego y = T (x).
Monomorfizm Epimorfizm
170
8. Przekształcenia liniowe Następne dwa twierdzenia pokazują bezpośrednie związki monomorfizmu i epimorfizmu z jądrem i obrazem przekształcenia liniowego. Twierdzenie 8.3.1. Dla przekształcenia liniowego T : V → W przestrzeni wektorowej V w przestrzeń wektorową W następujące warunki są równoważne: (a) T jest monomorfizmem; (b) Ker T = {0};
(c) dim Im T = dim V .
Dowód. (a) ⇔ (b) Załóżmy, że T jest monomorfizmem i niech x będzie dowolnym wektorem ze zbioru Ker T . Wtedy T (x) = 0 = T (0) i z różnowartościowości T mamy x = 0. To dowodzi, że Ker T = {0}. Załóżmy teraz, że Ker T = {0} i przypuśćmy, że dla pewnych wektorów x i y jest T (x) = T (y). Wtedy x − y ∈ Ker T = {0} (bo T (x − y) = T (x) − T (y) = 0). Stąd x − y = 0, czyli x = y. To dowodzi, że T jest monomorfizmem. (b) ⇔ (c) Wobec twierdzenia 8.2.2 mamy dim V = dim Ker T + dim Im T . Stąd dim V = dim Im T wtedy i tylko wtedy, gdy dim Ker T = 0, czyli wtedy i tylko wtedy, gdy Ker T = {0}.
Okazuje się, że monomorficzność przekształcenia liniowego jest równoważna jego epimorficzności w jednym bardzo ważnym przypadku. Twierdzenie 8.3.2. Jeśli V i W są przestrzeniami wektorowymi tego samego skończonego wymiaru (dim V = dim W < ∞) i T : V → W jest przekształceniem liniowym, to T jest monomorfizmem wtedy i tylko wtedy, gdy T jest epimorfizmem. Dowód. Wobec twierdzenia 8.3.1 odwzorowanie T jest monomorfizmem wtedy i tylko wtedy, gdy dim Im T = dim V , czyli wtedy i tylko wtedy, gdy dim Im T = dim W (bo dim W = dim V ). Równość dim Im T = dim W wobec twierdzenia 7.5.5 jest równoważna równości Im T = W , a ta z kolei jest równoważna epimorficzności odwzorowania liniowego T .
Następujące przykłady ilustrują przydatność powyższych twierdzeń przy badaniu i rozumieniu natury monomorficzności i/lub epimorficzności przekształcenia liniowego. Przykład 180. Przekształcenie liniowe T : R4 → R3 , gdzie x 1 2 0 3 y T (x) = 0 1 2 1 z 2 1 0 1 t
x y dla x = z , t
nie jest monomorfizmem. (Z tych samych powodów, jeśli V i W są przestrzeniami wektorowymi (nad tym samym ciałem) i dim V > dim W , to żadne przekształcenie liniowe T : V → W nie jest monomorfizmem, tak jak nie było nim przekształcenie T z przykładu 173, 176, 177 lub 178.) Ponieważ Im T ⊆ R3 , więc dim Im T ¬ 3 i wobec twierdzenia 8.2.2 mamy dim Ker T = dim R4 − dim Im T 1. To zaś oznacza, że Ker T 6= {0} i (wobec twierdzenia 8.3.1) odwzorowanie T nie jest monomorfizmem.
8.4. Suma i złożenie przekształceń liniowych
171
Przykład 181. Dane jest przekształcenie liniowe T : R 3 → R3 takie, że T (e1 ) = (2, 3, 0), T (e2 ) = (−1, 1, 3) i T (e3 ) = (0, 5, 6), gdzie (e1 , e2 , e3 ) jest bazą przestrzeni V = R3 . Ponieważ
Im T ⊆ R3
T (e3 ) = (0, 5, 6) = (2, 3, 0) + 2(−1, 1, 3) = T (e1 ) + 2T (e2 )
T (e3 )
7
(zob. rys. 8.9), więc Im T = L T (e1 ), T (e2 ), T (e3 ) = L T (e1 ), T (e2 )
i dim Im T ¬ 2 < 3 = dim V . Z twierdzenia 8.3.1 wynika, że przekształcenie T nie jest monomorfizmem. Wobec twierdzenia 8.3.2 przekształcenie T nie jest także epimorfizmem.
T (e2 )
1T (e1 )
Rys. 8.9
Poprzedni przykład pokazuje, że obraz poprzez przekształcenie liniowe liniowo niezależnego zbioru wektorów może być zbiorem liniowo zależnym. Na zakończenie tej części udowodnimy, że tak nie może być, gdy przekształcenie jest monomorfizmem. Twierdzenie 8.3.3. Jeżeli przekształcenie liniowe T : V → W jest monomorfizmem, to wektory b1 , . . . , bn są liniowo niezależne w przestrzeni V wtedy i tylko wtedy, gdy ich obrazy T (b1 ), . . . , T (bn ) są liniowo niezależne w przestrzeni W . Dowód. Niech T : V → W będzie monomorfizmem (więc Ker T = {0}) i niech wektory b V . Weźmy skalary x1 , .P . . , xn takie, 1 , . . . , bn będą liniowo niezależne P Pn w przestrzeniP n n n xb ∈ że x T (bi ) = 0. Wtedy xi T (bi ) = T xi bi = 0, więc i=1 i i=1 i=1 i=1 i i Pn Ker T = {0} i dlatego i=1 xi bi = 0. Stąd i z niezależności wektorów b1 , . . . , bn wynika, że x1 = . . . = xn = 0. To dowodzi liniową niezależność wektorów T (b1 ), . . . , T (bn ). Załóżmy teraz, że wektory T (b1 ), . . . ,P T (bn ) są liniowo P Pn niezależne i przypuśćmy, n n że x b = 0. Wtedy 0 = T (0) = T ( i=1 xi bi ) = x T (bi ) i dlatego x1 = i=1 i i i=1 i . . . = xn = 0, bo wektory T (b1 ), . . . , T (bn ) są liniowo niezależne. To dowodzi że wektory b1 , . . . , bn są liniowo niezależne. (Zauważmy, że w dowodzie drugiej części twierdzenia nie korzystaliśmy z monomorficzności przekształcenia T .)
8.4. Suma i złożenie przekształceń liniowych Definicja 8.4.1. Niech T, U : V → W będą funkcjami, gdzie V i W są przestrzeniami wektorowymi nad ciałem K i niech α ∈ K. Wtedy T + U : V → W i αT : V → W są funkcjami takimi, że dla każdego x ∈ V jest (T + U )(x) = T (x) + U (x) i (αT )(x) = αT (x).
(8.18)
Okazuje się, że suma przekształceń liniowych jest przekształceniem liniowym. Podobnie iloczyn przekształcenia liniowego i skalara jest przekształceniem liniowym. Można udowodnić, że zbiór L(V, W ), czyli zbiór wszystkich przekształceń liniowych przestrzeni wektorowej V w przestrzeń wektorową W , jest przestrzenią wektorową (z wyżej określonym dodawaniem przekształceń i mnożeniem przekształceń przez skalary). Twierdzenie 8.4.1. Niech V i W będą przestrzeniami wektorowymi nad tym samym ciałem K. Wtedy: (a) T + U ∈ L(V, W ), gdy T, U ∈ L(V, W );
(b) αT ∈ L(V, W ), gdy T ∈ L(V, W ) i α ∈ K;
(c) L(V, W ) jest przestrzenią wektorową nad ciałem K.
T + U – suma funkcji T i U αT – iloczyn funkcji T i skalara α
172
8. Przekształcenia liniowe Dowód. (a) Niech x, y ∈ V i a, b ∈ K. Wtedy (T + U )(ax + by) = T (ax + by) + U (ax + by) =
(z definicji sumy T + U )
aT (x) + bT (y) + aU (x) + bU (y) (z liniowości T i U )
= a T (x) + U (x) + b T (y) + U (y)
= a T + U (x) + b T + U (y)
(z definicji sumy T + U )
i to oznacza, że T + U jest przekształceniem liniowym. Podobnie dowodzi się stwierdzenie (b). Łatwy dowód stwierdzenia (c), sprawdzenie wszystkich warunków przestrzeni wektorowej, pozostawiamy czytelnikowi.
Definicja 8.4.2. Jeśli V , W i Z są zbiorami, a T : V → W i U : W → Z są funkcjami, to ich złożeniem (lub superpozycją) nazywamy funkcję U T : V → Z taką, że dla każdego x ∈ V mamy (U T )(x) = U (T (x)).
U T – złożenie funkcji T i U
(8.19)
UT
T
U
~ ~
~ x
y=T (x)
W
U (y)=U (T (x))
V
Z
Rys. 8.10. Złożenie przekształceń T i U
W następnym twierdzeniu dowodzimy, że złożenie przekształceń liniowych jest przekształceniem liniowym. Inne własności złożenia operatorów liniowych przedstawiamy w ćwiczeniach. Twierdzenie 8.4.2. Niech V , W i Z będą przestrzeniami wektorowymi nad tym samym ciałem K. Jeśli T : V → W i U : W → Z są przekształceniami liniowymi, to także ich złożenie U T : V → Z jest przekształceniem liniowym. Dowód. Dla wektorów x, y ∈ V i skalarów a, b ∈ K mamy
U T (ax + by)
=
U T (ax + by)
=
U aT (x) + bT (y)
=
aU T (x) + bU T (y)
=
a U T (x) + b U T (y). (z definicji złożenia U T )
(z definicji złożenia U T )
(z liniowości T ) (z liniowości U )
To dowodzi, że złożenie U T jest przekształceniem liniowym.
Przykład 182. Jeśli T : R2 → R3 i U : R3 → R2 są przekształceniami liniowymi takimi, że T (x, y) = (x, x + y, −3x − y) i
U (v, u, w) = (v, v + u − w),
to ich złożeniem jest przekształcenie liniowe U T : R 2 → R2 , dla którego (U T )(x, y) = U (T (x, y)) = U (x, x + y, −3x − y) = (x, 5x + 2y). Dla tych samych przekształceń T i U istnieje także złóżenie T U : R 3 → R3 i dla każdego wektora (v, u, w) ∈ R3 mamy (T U )(v, u, w) = T (U (v, u, w)) = T (v, v + u − w) = (v, 2v + u − w, −4v − u + w).
8.5. Macierz przekształcenia liniowego
173
8.5. Macierz przekształcenia liniowego Definicja 8.5.1. Niech V i W będą przestrzeniami wektorowymi (nad tym samym ciałem K) i niech odpowiednio B = (b1 , . . . , bn ) oraz C = (c1 , . . . , cm ) będą ich bazami. Jeśli T : V → W jest przekształceniem liniowym, to macierz | | B [T ]C = [T (b1 )]C · · · [T (bn )]C , (8.20) | |
Macierz przekształcenia liniowego
której kolejnymi kolumnami są wektory C-współrzędnych wektorów T (b 1 ), . . . , T (bn ) jest nazywana macierzą przekształcenia liniowego T : V → W względem baz B i C (przestrzeni wektorowych V i W ). Macierz operatora liniowego B T : V → V względem baz B i B, czyli macierz [T ]B , nazywamy macierzą operatora T względem bazy B i oznaczamy symbolem [T ]B .
[T ]B – macierz operatora T względem bazy B
Niech teraz x będzie dowolnym wektorem z przestrzeni V , powiedzmy x = x1 b1 + . . . + xn bn (dla pewnych skalarów x1 , . . . , xn ∈ K). Wtedy T (x) = T (x1 b1 + . . . + xn bn ) = x1 T (b1 ) + . . . + xn T (bn )
i mamy następujący związek pomiędzy wektorem [x]B , czyli wektorem współrzędnych wektora x względem bazy B, i wektorem [T (x)]C , wektorem współrzędnych wektora T (x) względem bazy C, [T (x)]C
=
x1 T (b1 ) + . . . + xn T (bn )
V
W x
C
= x1 [T (b1 )]C + . . . + xn [T (bn )]C | | = [T (b1 )]C · · · [T (bn )]C | | B
= [T ]C ·[x]B ,
T
x1 .. . xn
Kn
zT (x)
[ ]B
Km
? [x]B
:
[ ]C
?
[T (x)]C
[T ]B C
Rys. 8.11
zob. rys. 8.11. Zatem udowodniliśmy następujące twierdzenie. Twierdzenie 8.5.1. Jeśli B i C są odpowiednio bazami skończenie wymiarowych przestrzeni wektorowych V i W , a T : V → W jest przekształceniem liniowym, to dla każdego wektora x ∈ V jest B
[T (x)]C = [T ]C ·[x]B .
(8.21)
Przykład 183. Niech T : R3 → R2 będzie “rzutem” na płaszczyznę Oxy, czyli przekształceniem określonym wzorem T (x, y, z) = (x, y), zob. rys. 8.12. WyB znaczyć macierz [T ]C przekształcenia T względem baz B = (b1 , b2 , b3 ) oraz C = (c1 , c2 ), gdzie b1 = (1, 0, 0), b2 = (−1, 1, 0), b3 = (1, −1, 1), c1 = (1, 2) i c2 = (1, 3). Następnie za pomocą macierzy [T ]B C wyznaczyć [T (x)]C i T (x), gdy x = (2, 3, 7). Łatwo sprawdzić, że T (b1 ) = T (b2 ) =
1 0
=3
1 2
−1 1
= −4
1 −1
−2
1 2
1 2
1 3
+3
= 3c1 − 2c2 ,
1 3
1 3
T (b3 ) =
=4
−3
T
= −4c1 + 3c2
i
(x,y,z) z y
y
x
= 4c1 − 3c2 .
x
Rys. 8.12
W
(x,y)
174
8. Przekształcenia liniowe Zatem
[T (b1 )]C =
3 −2
[T (b2 )]C =
,
−4 3
4 −3
oraz
[T (b3 )]C =
#
3 −4 4 . −2 3 −3
i wobec (8.20) mamy [T ]B C
"
=
| | | [T (b1 )]C [T (b2 )]C [T (b2 )]C | | |
=
Z definicji przekształcenia T dla wektora x = (2, 3, 7) jest T (x) = strony x=
więc [x]B =
"
"
2 3 7
5 10 7
#
#
=5
"
1 0 0
#
+ 10
"
−1 1 0
#
+7
"
1 −1 1
#
2 . Z drugiej 3
= 5b1 + 10b2 + 7b3 ,
i wobec twierdzenia 8.5.1 (zob. (8.21)) mamy
[T (x)]C =
[T ]B C
[x]B =
3 −4 4 −2 3 −3
" 5 # 10 7
=
3 −1
i dlatego znowu T (x) = 3c1 + (−1)c2 = 3
1 2
−
1 3
=
2 . 3
W ostatnim przykładzie obraz wektora x, czyli wektor T (x), wyznaczyliśmy na dwa sposoby — wprost z definicji przekształcenia T oraz za pomocą macierzy przekształcenia T . Ten drugi sposób był dłuższy. Jednakże, jak to pokazuje następny przykład, i ten dłuższy sposób może mieć swoje zalety.
ϕ T (e2 )
]
e2
6
*
T (e1 ) ϕ
-
e1
Rys. 8.13 Macierz obrotu płaszczyzny o kąt ϕ
Przykład 184. Niech ϕ będzie ustaloną liczbą rzeczywistą i niech T będzie obrotem płaszczyzny R2 o kąt ϕ dookoła początku układu współrzędnych (w kierunku przeciwnym do kierunku ruchu wskazówek zegara), zob. rys. 8.13. Po1 0 nieważ jest to przekształcenie, które wektorom e1 = i e2 = bazy 0 1 2 kanonicznej E = (e1 , e2 ) przestrzeni R przyporządkowuje wektory cos ϕ − sin ϕ T (e1 ) = i T (e2 ) = , sin ϕ cos ϕ więc jego macierzą względem bazy E jest cos ϕ − sin ϕ [T ]E = . sin ϕ cos ϕ
(8.22)
Znając obrazy wektorów bazowych, czyli znając macierz [T ]E , łatwo wyznacza się obraz T (x) każdego innego wektora x. Istotnie, ponieważ E jest bazą kanoniczną przestrzeni R2 , więc dla każdego x = (x, y) ∈ R2 jest [x]E = x i wobec (8.21) oraz (8.22) mamy cos ϕ − sin ϕ x T (x) = [T (x)]E = [T ]E [x]E = [T ]E x = . sin ϕ cos ϕ y
8.5. Macierz przekształcenia liniowego
175
Przedstawiona w twierdzeniu 8.5.1 równość B
[T (x)]C = [T ]C ·[x]B pokazuje, że wektor C-współrzędnych wektora T (x) można otrzymać pomnaB żając macierz [T ]C (przekształcenia T : V → W względem baz B i C) przez wektor B-współrzędnych wektora x. (Zob. także rys. 8.11 i/lub rys. 8.14.) WarB to także pamiętać, że macierz [T ]C ma m wierszy i n kolumn, gdzie m = dim W B i n dim V . Zauważmy, że i-ta kolumna [T (bi )]C macierzy [T ]C jest wektorem C-współrzędnych wektora T (bi ) i jest to jedyne rozwiązanie równania wektorowego x1 c1 + x2 c2 + . . . + xm cm = T (bi ). Stąd w szczególności wynika, że jeśli przestrzeniami V i W są odpowiednio K i K m i jeśli C oraz T (B) są macierzami takimi, że | | | | | | C = c1 c2 · · · cm i T (B) = T (b1 ) T (b2 ) · · · T (bn ) , | | | | | |
x
[
]B y
T
− −−−−→
[x]B − −−−−→ [T ]B C
T (x)
[ y
]C
[T (x)]C
Rys. 8.14
n
to jedynymi rozwiązaniami równań macierzowych
C x1 = T (b1 ), C x2 = T (b2 ), . . . , C xn = T (bn )
(8.23)
B
są kolumny macierzy [T ]C , czyli x1 = [T (b1 )]C , x2 = [T (b2 )]C , . . . , xn = [T (bn )]C . Równania (8.23) wyznaczają (i są wyznaczone przez) równanie macierzowe C X = T (B).
(8.24)
Jego jedynym rozwiązaniem jest | | | | B X = x1 · · · xn = [T (b1 )]C · · · [T (bn )]C = [T ]C , | | | |
czyli macierz przekształcenia T względem baz B i C. Ponieważ macierz C jest kwadratowa i jej kolumny są liniowo niezależne, więc jest ona nieosobliwa i jedynym rozwiązaniem równania (8.24) jest X = C−1 T (B). Stąd mamy B
[T ]C = C−1 T (B), B
więc macierz [T ]C jest iloczynem macierzy C−1 i T (B). Praktycznie, macierz B [T ]C , jako rozwiązanie równania (8.24), możemy wyznaczyć metodą Gaussa-Jordana. W tym celu korzystamy z wierszowej równoważności h i B [ C | T (B) ] ∼ Im | [T ]C . (8.25) Przykład 185. Przekształcenie liniowe T : R3 → R3 określone jest wzorem T (x, y, z) = (2x − y + 2z, x + y, 3x − y − z). B
Wyznaczyć: (a) macierz [T ]C , gdy B = (b1 , b2 , b3 ) i C = (c1 , c2 , c3 ), gdzie b1 = (1, 0, 0), b2 = (1, 1, 1), b3 = (1, −1, 1), c1 = (1, 1, 2), c2 = (1, 2, 1) B i c3 = (2, 1, 1); (b) macierz [T ]D , gdzie D = (T (b1 ), T (b2 ), T (b3 )), a b1 , b2
Sposób wyznaczania macierzy przekształcenia liniowego względem baz B i C
176
8. Przekształcenia liniowe E
oraz b3 są takie jak w części (a); (c) macierz [T ]E = [T ]E , gdzie E = (e1 , e2 , e3 ) jest bazą standardową przestrzeni R3 . (a) Mamy T (b1 ) =
"
2 1 3
#
T (b2 ) =
,
"
3 2 1
#
i
T (b3 ) =
"
5 0 3
#
.
Musimy teraz poznać C-współrzędne każdego z wektorów T (bi ). W tym celu tworzymy macierz rozszerzoną [ C | T (B) ] i sprowadzamy ją do wierszowo równoważnej macierzy schodkowej normalnej Im | [T ]B (zob. (8.25)). Mamy C [ C | T (B) ]
"
=
"
∼
1 1 2 2 3 5 1 2 1 1 2 0 2 1 1 3 1 3
#
∼
"
1 1 2 2 3 5 0 1 −1 −1 −1 −5 0 −1 −3 −1 −5 −7
#
1 0 3 3 4 10 0 1 −1 −1 −1 −5 0 0 −4 −2 −6 −12
Stąd wynika, że macierzą przekształcenia T jest
#
3 1 1 0 0 1 21 − 21 . ∼ 0 1 0 −2 −2 2 1 3 0 0 1 3 2 2
[T ]B C
=
1 2
"
3 −1 2 −1 1 −4 1 3 6
#
.
(b) Przede wszystkim zauważmy, że układ D = T (b1 ), T (b2 ), T (b3 ) jest li niowo niezależny w 3-wymiarowej przestrzeni R3 (bo macierz T (b1 ) T (b2 ) T (b3 ) " # 2 3 5 1 2 0 = jest nieosobliwa) i dlatego jest on bazą przestrzeni R3 . Łatwo teraz 3 1 3 zauważyć, że [T ]B D
=
"
| | | [T (b1 )]D [T (b2 )]D [T (b3 )]D | | |
#
=
"
| | | e1 e2 e3 | | |
(c) Ponieważ dla każdego x ∈ R3 jest [x]E = x, więc mamy [T ]E =
"
| | | [T (e1 )]E [T (e2 )]E [T (e3 )]E | | |
#
=
"
| | | T (e1 ) T (e2 ) T (e3 ) | | |
#
=
# "
= I3 .
2 −1 2 1 1 0 3 −1 −1
#
.
Ostatni przykład pokazuje, że w ogólnym przypadku macierz przekształcenia liniowego T : V → W zależy od wyboru baz przestrzeni V i W . Przykład 186. Wyznaczyć T (x), gdy x = (14, 7, 3) i macierzą przekształcenia liniowego T : R3 → R3 względem baz B = ((1, 1, 1), (2, 1, 0), (3, 0, 0)) i C = ((1, 0, 1), (2, 1, 0), (0, 3, 2)) jest 1 2 3 B [T ]C = 0 2 1 . 2 0 1 Ponieważ znamy macierz [T ]B C przekształcenia T względem baz B i C, więc możemy kolejno wyznaczyć [x]B , [T (x)]C i T (x). Bez trudu stwierdzamy, że [x]B = (3, 4, 1). Wtedy wobec (8.21) mamy [T (x)]C =
[T ]B C
[x]B =
"
1 2 3 0 2 1 2 0 1
#"
3 4 1
#
=
"
14 9 7
#
8.5. Macierz przekształcenia liniowego
177
i dlatego T (x) = 14
"
1 0 1
#
+9
"
2 1 0
#
+7
"
0 3 2
#
=
"
32 30 28
#
.
2 1 0 ∈ R2×3 . Wyznaczyć macierz 2 4 1 przekształcenia TA : R3 → R2 , gdzie TA (x) = Ax, względem baz kanonicznych E3 = (e1 , e2 , e3 ) i E2 = (e01 , e02 ) przestrzeni R3 i R2 . Przykład 187. Dana jest macierz A =
Niech a1 , a2 i a3 będą kolejnymi kolumnami macierzy A. Ponieważ [x]E2 = x dla x ∈ R2 i [TA (ei )]E2 = TA (ei ) = Aei = ai , więc mamy
3 [TA ]E E2
| | | = [T (e1 )]E2 [T (e2 )]E2 [T (e3 )]E2 = | | |
"
| | | a1 a2 a3 | | |
#
= A.
W ten sam sposób pokazuje się, że macierz A ∈ Km×n jest równa macierzy przekształcenia liniowego TA : K n → K m względem baz standardowych przestrzeni K n i Km.
n [TA ]E Em = A
W naszych dalszych rozważaniach wykorzystamy fakt, że macierz przekształcenia tożsamościowego względem różnych baz przestrzeni jest znaną nam (z poprzedniego rozdziału) macierzą przejścia od jednej bazy przestrzeni wektorowej do innej bazy tej samej przestrzeni. Twierdzenie 8.5.2. Niech B = (b1 , . . . , bn ) i B 0 = (b01 , . . . , b0n ) będą bazami przestrzeni wektorowej V . Wtedy macierzą przekształcenia tożsamościowego IV : V → V względem baz B i B 0 jest macierz przejścia od bazy B do bazy B 0 , B [IV ]B B 0 = PB 0 .
IV (x) = x dla x ∈ V
B PB B 0 = [IV ]B 0 – macierz przejścia
(8.26)
Dowód. Z definicji macierzy przekształcenia liniowego (zob. def. 8.5.1) oraz z definicji macierzy przejścia (zob. tw. 7.6.3) mamy
[IV ]B B0 =
"
| | [IV (b1 )]B0 · · · [IV (bn )]B0 | |
#
=
"
| | [b1 ]B0 · · · [bn ]B0 | |
#
V
= PB B0 .
Kolejne dwa twierdzenia pokazują zależności pomiędzy działaniami na przekształceniach liniowych i działaniami na odpowiadających im macierzach. Dokładniej, pokazują one, że macierz kombinacji liniowej przekształceń jest kombinacją liniową macierzy przekształceń, a macierz złożenia przekształceń jest iloczynem macierzy przekształceń. Twierdzenie 8.5.3. Niech V i W będą skończenie wymiarowymi przestrzeniami wektorowymi, których bazami są odpowiednio B i C, i niech T, U : V → W będą przekształceniami liniowymi. Wtedy: B
B
B
(a) [T + U ]C = [T ]C + [U ]C ; B (b) [aT ]B C = a[T ]C dla każdego skalara a.
[
]B y
I
−−−−V−−−→
K n −−−−−−−−→ PB 0 =[IV ]B 0 B B
Rys. 8.15
V
[ y
Kn
]B 0
178
8. Przekształcenia liniowe Dowód. (a) Jeśli B = (b1 , . . . , bn ) jest bazą przestrzeni V , to stwierdzenie (a) jest konsekwencją następującego ciągu równości:
h
[T + U ]B C =
h
=
= =
[T ]B C
h
(def. macierzy przekształcenia)
[T (b1 ) + U (b1 )]C . . . [T (bn ) + U (bn )]C
h
=
i
[(T + U )(b1 )]C . . . [(T + U )(bn )]C
i
[T (b1 )]C + [U (b1 )]C . . . [T (bn )]C + [U (bn )]C [T (b1 )]C . . . [T (bn )]C +
i
h
(def. sumy T + U )
i
+ [U (b1 )]C . . . [U (bn )]C
i
(wobec tw. 7.6.1)
(def. sumy macierzy)
[U ]B C.
(def. macierzy przekształcenia)
Dowód stwierdzenia (b) jest podobny do tego z części (a).
Twierdzenie 8.5.4. Niech A, B i C będą odpowiednio bazami skończenie wymiarowych przestrzeni wektorowych V , W i Z. Jeśli T : V → W i U : W → Z są przekształceniami liniowymi, to B A [U T ]A C = [U ]C · [T ]B .
(8.27)
Dowód. Załóżmy, że bazami przestrzeni V , W i Z są odpowiednio A = (a1 , . . . , an ), B = (b1 , . . . , bm ) oraz C = (c1 , . . . , cp ). Niech aij , bij i cij będą odpowiednio współB A czynnikami macierzy [T ]A B , [U ]C i [U T ]C . Dokładniej, zakładamy, że [T ]A B
=
[U ]B C
=
[U T ]A C =
h
h
h
i
[T (a1 )]B [T (a2 )]B . . . [T (an )]B
[U (b1 )]C [U (b2 )]C . . . [U (bm )]C
= [aij ] ∈ Km×n ,
i
= [bij ] ∈ Kp×m ,
[(U T )(a1 )]C [(U T )(a2 )]C . . . [(U T )(an )]C
Dla dowodu równości (8.27) wystarczy wykazać, że cij = j = 1, . . . , n). Ponieważ
i
Pm
= [cij ] ∈ Kp×n .
k=1
bik akj (i = 1, . . . , p,
b1k a1j c1j . .. . . = (U T )(aj ) C , .. = T (aj ) B i .. = U (bk ) C , bpk amj cpj
więc kolejno mamy p X
cij ci
=
m X
U T (aj ) = U T (aj ) = U
i=1
=
m X k=1
akj
p X i=1
bik ci
!
=
akj bk
k=1 m
p X X i=1
bik akj
k=1
!
!
=
m X
akj U (bk )
k=1
ci .
Z tychPrówności oraz z liniowej niezależności wektorów c1 , . . . , cp wynika, że mamy m cij = k=1 bik akj .
Wniosek 8.5.1. Jeśli B jest bazą skończenie wymiarowej przestrzeni wektorowej V i jeśli T oraz U są operatorami liniowymi na przestrzeni V , to [U T ]B = [U ]B ·[T ]B .
(8.28)
Wniosek 8.5.2. Jeśli A, B i C są bazami skończenie wymiarowej przestrzeni A A B wektorowej V , to macierz przejścia [1V ]C jest iloczynem macierzy [1V ]B i [1V ]C , A
B
A
[1V ]C = [1V ]C ·[1V ]B .
(8.29)
8.5. Macierz przekształcenia liniowego
179
Przykład 188. Niech przekształcenie T : R2 → R2 będzie złożeniem T3 T2 T1 trzech przekształceń T1 , T2 i T3 płaszczyzny R2 w siebie, gdzie T1 jest symetrią względem prostej y = x, T2 jest obrotem o kąt π/3 (dookoła początku układu współrzędnych i w kierunku przeciwnym do kierunku ruch wskazówek zegara) i T3 jest jednokładnością (o środku w początku układu współrzędnych) i skali 2. Wyznaczyć macierze przekształceń T1 , T2 , T3 i T względem bazy standardowej E = (e1 , e2 ) przestrzeni R2 .
T1 (x, y) = (y, x) T2 (x, y) =
h
cos sin
π 3 π 3
− sin cos
T3 (x, y) = 2(x, y)
π 3 π 3
i
Ponieważ E jest bazą standardową przestrzeni R , więc [x]E = x dla x ∈ R i dlatego mamy h i [Ti ]E = [Ti (e1 )]E [Ti (e2 )]E = Ti (e1 ) Ti (e2 ) . 2
2
Stąd i z definicji przekształceń T1 , T2 i T3 (oraz z przykładu 184) mamy
0 1 [T1 ]E = T1 (e1 ) T1 (e2 ) = [ e2 e1 ] = , 1 0 √ cos π3 − sin π3 1 √1 − 3 [T2 ]E = = π π 3 1 2 sin 3 cos 3 i [T3 ]E = T3 (e1 ) T3 (e2 ) = [ 2e1 2e2 ] = Zatem wobec wniosku 8.5.1 mamy [T ]E = [T3 ]E [T2 ]E [T1 ]E =
2 0 0 2
1 2
2 0 . 0 2
√ √ 0 1 − 3 √1 √1 − 3 = . 1 0 3 1 1 3
Na zakończenie tej części rozdziału udowodnimy twierdzenie o izomorficzności przestrzeni L(V, W ), czyli przestrzeni przekształceń liniowych, z przestrzenią macierzy. Przypomnijmy (zob. definicję 7.6.2), że dwie przestrzenie wektorowe X i Y (nad tym samym ciałem) są izomorficzne, gdy istnieje przekształcenie liniowe ϕ : X → Y przestrzeni X w przestrzeń Y , które jest mono- i epimorfizmem. Takie przekształcenie ϕ nazywa się izomorfizmem przestrzeni wektorowych X i Y. Twierdzenie 8.5.5. Niech V i W będą przestrzeniami wektorowymi nad ciałem K. Jeżeli dim V = n i dim W = m, to przestrzeń wektorowa L(V, W ) jest izomorficzna z przestrzenią Km×n . Dowód. Niech B = (b1 , . . . , bn ) i C = (c1 , . . . , cm ) będą bazami przestrzeni V i W . Udowodnimy, że odwzorowanie ϕ : L(V, W ) → Km×n , gdzie ϕ(T ) = [T ]B C
dla
T ∈ L(V, W ),
jest izomorfizmem. Liniowość odwzorowania ϕ wynika z twierdzenia 8.5.3. Dla dowodu mono- i epimorficzności ϕ wystarczy pokazać, że dla każdej macierzy A ∈ Km×n istnieje dokładnie jedno przekształcenie liniowe T : V → W , dla którego ϕ(T ) = A. Weźmy dowolną macierz A = [aij ] ∈ Km×n . Wobec twierdzenia 8.1.1 istnieje dokładnie jedno przekształcenie liniowe T : V → W takie, że T (bj ) =
m X
aij ci
dla
j = 1, . . . , n.
i=1
Dla tego przekształcenia T wobec (8.20) mamy [T ]B C = A, więc ϕ(T ) = A, i to kończy dowód twierdzenia.
Izomorfizm przestrzeni wektorowych
L(V, W ) ≈ Km×n
x y
180
8. Przekształcenia liniowe
8.6. Odwracalność odwzorowania liniowego Funkcja odwracalna
Definicja 8.6.1. Funkcję T : V → W nazywamy odwracalną, funkcja U : W → V taka, że U T = IV
T −1 – funkcja odwrotna
jeśli istnieje
i T U = IW .
(8.30)
Funkcję U mającą powyższe własności nazywa się funkcją odwrotną funkcji T . Łatwo dowodzi się, że funkcja odwracalna T : V → W ma dokładnie jedną funkcję odwrotną.4 Tę jedyną funkcję odwrotną odwracalnej funkcji T oznacza się przez T −1 .
Przykład 189. (a) Funkcja T : R2 → R2 taka, że T (x, y) = (−x + 3y, −x + 2y) jest odwracalna i jej funkcją odwrotną jest U (x, y) = (2x − 3y, x − y). Istotnie tak jest, bo mamy (U T )(x, y) = U (−x + 3y, −x + 2y) = (x, y) = IR2 (x, y) i (T U )(x, y) = T (2x − 3y, x − y) = (x, y) = IR2 (x, y).
(b) Niech teraz T : R3 → R2 będzie funkcją taką, że T (x, y, z) = (x, y). Dla funkcji T i dla funkcji U : R2 → R3 określonej wzorem U (x, y) = (x, y, 0) jest (T U )(x, y) = T (x, y, 0) = (x, y) = IR2 (x, y). Jednak dla tej funkcji U (i dla każdej innej funkcji U : R2 → R3 ) jest (U T )(x, y, z) = U (x, y) 6= (x, y, z) = IR3 (x, y, z), więc tym razem funkcja T nie jest odwracalna. Mamy następującą charakteryzację funkcji odwracalnych. Twierdzenie 8.6.1. Funkcja T : V → W jest odwracalna wtedy i tylko wtedy, gdy jest ona różnowartościowa i odwzorowuje zbiór V na cały zbiór W . Dowód. Niech U : W → V będzie funkcją odwrotną funkcji T : V → W . Wtedy wobec definicji 8.6.1 jest U T = IV i T U = IW . Z różnowartościowości przekształcenia tożsamościowego IV = U T łatwo wynika różnowartościowość przekształcenia T . Równie łatwo z faktu, że przekształcenie tożsamościowe IW = T U jest odwzorowaniem na cały zbiór W wynika, że T jest odwzorowaniem na cały zbiór W . Załóżmy teraz, że T : V → W jest odwzorowaniem różnowartościowym zbioru V na zbiór W . Ponieważ T (V ) = W , więc dla każdego y ∈ W istnieje x ∈ V taki, że y = T (x). Stąd i z różnowartościowości T wynika, że dla każdego y ∈ W istnieje dokładnie jeden x ∈ V taki, że y = T (x). Zatem istnieje funkcja U : W → V taka, że dla każdego y ∈ W i każdego x ∈ V jest U (y) = x
wtedy i tylko wtedy, gdy
T (x) = y.
4 Jeśli funkcje U , U : W → V są funkcjami odwrotnymi funkcji T : V → W , to z rów1 2 ności Ui T = IV oraz T Ui = IW mamy U1 = U1 IW = U1 (T U2 ) = (U1 T )U2 = IV U2 = U2 i to dowodzi, że funkcja odwracalna ma tylko jedną funkcję odwrotną.
8.6. Odwracalność odwzorowania liniowego
181
Ponieważ dla x i y spełniających powyższe relacje mamy (U T )(x) = U (T (x)) = U (y) = x i (T U )(y) = T (U (y)) = T (x) = y, więc U T = IV oraz T U = IW i funkcja T jest odwracalna.
Z twierdzeń 8.2.2 – 8.3.2 i 8.6.1 otrzymujemy następujące warunki konieczne i dostateczne odwracalności przekształcenia liniowego. Wniosek 8.6.1. Przekształcenie liniowe T : V → W skończenie wymiarowej przestrzeni wektorowej V w przestrzeń wektorową W jest odwracalne wtedy i tylko wtedy, gdy Ker T = {0} i dim V = dim W .
Dowód. Jeśli przekształcenie liniowe T : V → W jest odwracalne, to wobec twierdzenia 8.6.1 jest ono mono- i epimorfizmem. Zatem Ker T = {0} (wobec tw. 8.3.1) i Im T = W . Stąd i z twierdzenia 8.2.2 wynikają także równości dim V = dim Ker T + dim Im T = dim Im T = dim W. Załóżmy teraz, że dim V = dim W i T : V → W jest przekształceniem liniowym takim, że Ker T = {0}. Z tych założeń oraz z twierdzeń 8.3.1 i 8.3.2 jest oczywiste, że T jest jednocześnie mono- i epimorfizmem. Stąd i z twierdzenia 8.6.1 wynika odwracalność odwzorowania T .
Wniosek 8.6.2. Operator liniowy T : V → V na skończenie wymiarowej przestrzeni wektorowej V jest odwracalny wtedy i tylko wtedy, gdy Ker T = {0}. Przykład 190. Dany jest operator liniowy T (a + bx + cx2 ) = a + b + c + (2a + b + c)x + (a + b)x2 na przestrzeni R2 [x]. Uzasadnić odwracalność operatora T . Wobec wniosku 8.6.2 wystarczy pokazać, że wielomian zerowy jest jedynym elementem jądra odwzorowania T . Ponieważ mamy a + bx + cx2 ∈ Ker T
⇔ ⇔ ⇔ ⇔ ⇔
T (a + bx + cx2 ) ≡ 0 a + b + c + (2a + b + c)x + (a + b)x2 ≡ 0 ( a + b + c = 0 2a + b + c = 0 a + b = 0 a=b=c=0 a + bx + cx2 ≡ 0,
więc Ker T = {0} i dlatego operator T jest odwracalny.
Udowodnimy teraz, że przekształcenie odwrotne przekształcenia liniowego jest przekształceniem liniowym. Twierdzenie 8.6.2. Jeżeli V i W są przestrzeniami wektorowymi i T : V → W jest odwracalnym przekształceniem liniowym, to także przekształcenie odwrotne T −1 : W → V jest przekształceniem liniowym. Dowód. Z definicji przekształcenia odwrotnego T −1 i z liniowości przekształcenia T wynika, że dla każdych wektorów y1 , y2 ∈ W i skalarów a1 i a2 jest T −1 (a1 y1 + a2 y2 ) = T −1 a1 T (T −1 (y1 )) + a2 T (T −1 (y2 )) = T −1 T a1 T −1 (y1 ) + a2 T −1 (y2 ) = a1 T
−1
(y1 ) + a2 T
−1
(y2 ).
To kończy dowód liniowości przekształcenia T −1 .
(T T −1 = IW ) (z liniowości T ) (T −1 T = IV )
182
8. Przekształcenia liniowe Z wniosku 8.6.1 wynika, że jeśli V i W są skończenie wymiarowymi przestrzeniami wektorowymi i dim V 6= dim W , to nie istnieje odwracalne przekształcenie liniowe przestrzeni V w przestrzeń W . Z tego względu w następnym twierdzeniu, w którym dowodzimy, że przekształcenie liniowe jest odwracalne wtedy i tylko wtedy, gdy jego macierz jest odwracalna, rozważane przestrzenie wektorowe są tego samego skończonego wymiaru. Twierdzenie 8.6.3. Załóżmy, że V i W są n-wymiarowymi przestrzeniami wektorowymi oraz B = (b1 , . . . , bn ) i C = (c1 , . . . , cn ) są odpowiednio ich bazami. Jeżeli T : V → W jest przekształceniem liniowym, to T jest odwzorowaB niem odwracalnym wtedy i tylko wtedy, gdy jego macierz [T ]C jest odwracalna. Dodatkowo, −1 C B [T ]C = [T −1 ]B . (8.31) Dowód. Załóżmy najpierw, że odwzorowanie T : V → W jest odwracalne. Wtedy odwzorowanie odwrotne T −1 : W → V istnieje i dla niego jest T T −1 = IW oraz T −1 T = IV . Stąd i z twierdzenia 8.5.3 wynika, że dla macierzy odwzorowań T , T −1 , T T −1 i T −1 T mamy C
−1 In = [IW ]C = [T T −1 ]C = [T ]B ]B C ·[T
oraz
C
In = [IV ]B = [T −1 T ]B = [T −1 ]B ·[T ]B C,
a to oznacza odwracalność macierzy [T ]B C i równość (8.31). Załóżmy teraz, że macierz A = [T ]B C jest odwracalna i niech B = [bij ] będzie jej macierzą odwrotną. Wtedy AB = BA = In . Niech U : W → V będzie przekształceniem liniowym takim, że U (cj ) =
n X
bij bi
(8.32)
i=1
dla j = 1, . . . , n. (Istnienie (i jednoznaczność) takiego przekształcenia U wynika z twierdzenia 8.1.1.) Dla dowodu odwracalności przekształcenia T (i równości T −1 = U ) wystarczy wobec definicji 8.6.1 pokazać, że złożenia U T i T U są przekształceniami tożsamościowymi, U T = IV i T U = IW . h i Wobec (8.32)) jest oczywiste, że mamy [U ]C B = [U (c1 )]B . . . [U (cn )]B
= B. Stąd
zaś i z twierdzenia 8.5.3 otrzymujemy
B [U T ]B = [U ]C B ·[T ]C = BA = In = [IV ]B .
W końcu z równości [U T ]B = [IV ]B wynika równość U T = IV . (Jeśli byłoby U T 6= IV , to wobec wniosku 8.1.1 byłoby U T (bi ) 6= IV (bi ) dla pewnego i ∈ {1, . . . , n} i wtedy i-ta kolumna macierzy [U T ]B byłaby różna od i-tej kolumny macierzy [IV ]B (U T )(bi ) B 6= [IV (bi )]B , co przeczyłoby równości [U T ]B = [IV ]B .) Podobnie dowodzi się, że T U = IW .
Z powyższego twierdzenia wynikają dwa proste wnioski.
[T ]B
−1
= T −1
(TA )−1 = TA−1
B
Wniosek 8.6.3. Niech T : V → V będzie operatorem liniowym na skończenie wymiarowej przestrzeni wektorowej V z bazą B. Operator T jest odwracalny wtedy i tylko wtedy, gdy jego macierz [T ]B jest odwracalna. Dla odwracalnego operatora T mamy też −1 (8.33) ([T ]B ) = T −1 B . Wniosek 8.6.4. Jeżeli A jest macierzą wymiaru n × n i o współczynnikach z ciała K, to macierz A jest odwracalna wtedy i tylko wtedy, gdy operator TA : K n → K n jest odwracalny. Dla odwracalnej macierzy A mamy też (TA )
−1
= TA−1 .
(8.34)
8.7. Podobieństwo macierzy
183
Przykład 191. Dane jest przekształcenie liniowe T : R 2 → R2 takie, że T (x, y) = (3x + 4y, −x − 2y). (a) Wyznaczyć macierz [T ]E przekształcenia T względem bazy kanonicznej E przestrzeni R2 . (b) Wykazać odwracalność odwzorowania T oraz wyznaczyć [T −1 ]E i T −1 (x, y). (c) Wyznaczyć T −1 (b1 ) i T −1 (b2 ) oraz [T −1 ]B , gdzie B = (b1 , b2 ) = ((4, −1), (1, −1)) jest bazą przestrzeni R 2 . 3 4 i macierz ta jest odwracalna. Zatem wobec wniosku 8.6.3 −1 −2 także i przekształcenie T jest odwracalne oraz Mamy [T ]E =
[T
−1
T −1 (x, y) =
1 2
Dlatego
]E = [T ]E
2 4 −1 −3
[T
−1
−1
1 = 2
x y
=
2 4 . −1 −3 1 (2x + 4y, −x − 3y). 2
Stąd T −1 (b1 ) = 21 (4, −1) = 12 b1 , T −1 (b2 ) = 12 (−2, 2) = −b2 i w końcu mamy [T
−1
]B =
(b1 )]B [T
−1
(b2 )]B
=
1 2
0 . 0 −1
8.7. Podobieństwo macierzy Definicja 8.7.1. Dwie macierze A, B ∈ Km×n nazywamy równoważnymi, jeśli istnieją nieosobliwe macierze P i Q takie, że B = Q−1 AP.
(8.35)
Równoważność macierzy
Podobieństwo macierzy, o którym mówiliśmy w rozdziale trzecim, jest szczególnym przypadkiem równoważności macierzy. Przypomnijmy, że macierze kwadratowe A i B nazywamy podobnymi, jeśli istnieje macierz nieosobliwa P (zwana macierzą podobieństwa macierzy A do macierzy B) taka, że B = P−1 AP.
(8.36)
Podobieństwo macierzy
Wspomnieliśmy już, że macierz przekształcenia liniowego T : V → W przestrzeni wektorowej V w przestrzeń wektorową W zależy jednocześnie od wyboru bazy przestrzeni V i od wyboru bazy przestrzeni W . Badaniu tych zależności poświęcamy pozostałą część tego rozdziału. Pokazujemy, że macierze przekształcenia T względem różnych baz przestrzeni V i/lub W są równoważne. Dowodzimy też, że każde dwie równoważne macierze mogą być utożsamiane z macierzami tego samego przekształcenia liniowego względem różnych wyborów baz. Twierdzenie 8.7.1. Jeśli B i B 0 są bazami przestrzeni wektorowej V , a C i C 0 są bazami przestrzeni wektorowej W oraz T : V → W jest przekształceniem B B0 liniowym, to macierze [T ]C i [T ]C 0 są równoważne, B0
B
[T ]C 0 = Q−1 [T ]C P, 0
(8.37)
C 0 gdzie P = [IV ]B B jest macierzą przejścia od bazy B do bazy B, a Q = [IW ]C 0 jest macierzą przejścia od bazy C do bazy C.
0
Wzór na zmianę macierzy przekształcenia liniowego przy zmianie baz
184
8. Przekształcenia liniowe Dowód. Niech IV oraz IW będą przekształceniami tożsamościowymi odpowiednio na V oraz W . Wtedy IW T = T IV (co oznacza przemienność diagramu z rys. 8.16) i wobec twierdzenia 8.5.4 mamy 0
V − −−−− → W IV
y
I yW
V − −−−− → W T
0
0
0
0
0
C B B B B B B Q [T ]B C 0 = [IW ]C [T ]C 0 = [IW T ]C = [T IV ]C = [T ]C [IV ]B = [T ]C P.
T
0
−1 Stąd otrzymujemy [T ]B [T ]B C0 = Q C P.
Wniosek 8.7.1. Jeśli T : V → V jest operatorem liniowym oraz B i B 0 są bazami przestrzeni V , to macierze [T ]B i [T ]B 0 są podobne i [T ]B 0 = P−1 [T ]B P,
Rys. 8.16
(8.38)
0
gdzie P = PB B . Przykład 192. Dane jest przekształcenie liniowe T : R 3 → R2 , gdzie T (x, y, z) B B0 = (x−y, 2x+3z). Wyznaczyć macierze [T ]C i [T ]C 0 przekształcenia T oraz macie B0 C rze przejścia P = [IR3 ]B i Q−1 = [IR2 ]C 0 , gdy B = (1, −1, 1), (1, 0, 1), (0, 1, 1) i B 0 = (3, 1, 1), (2, 2, 1), (1, R3 , a C = (0, 1), 2, 1) są bazami przestrzeni 0 2 (−1, 3) i C = (2, 1), (7, 3) – bazami przestrzeni R . Sprawdzić, czy dla otrzyC
B0
B
B0
manych macierzy zachodzi równość [IR2 ]C 0 [T ]C [IR3 ]B = [T ]C 0 . 0
B Macierze [T ]B C i [T ]C 0 (tak jak w przykładzie 185) wyznaczamy z równoważności
[ C | T (B) ] ∼ I | [T ]B C Ponieważ mamy
i
C | T (B) =
C0 | T (B0 ) =
więc
11 8 0 −2 −1 1
=
"
∼
i
0
[ C0 | T (B0 ) ] ∼ I | [T ]B C0 .
i
0 −1 2 1 −1 3 1 3 5 5
2 7 2 0 −1 5 1 3 9 7
[T ]B C =
∼
1 0 11 8 0 0 1 −2 −1 1
1 0 57 49 38 0 1 −16 −14 −11 0
[T ]B C0 =
= I | [T ]B C
h
i
0
= I | [T ]B C0
,
57 49 38 . −16 −14 −11 0
B C −1 W podobny sposób wyznaczamy macierze przejścia P = [IR0 3]B i Q = [IR02 ]C 0 . Tym 0 razem korzystamy z równoważności B | IR3 (B ) = B | B ∼ I | P i C | IR2 (C) = C0 | C ∼ I | Q−1 , z których otrzymujemy
P=
0 [IR3 ]B B
−3 −3 −2 6 5 3 −2 −1 0
#
Łatwo teraz zauważyć, że istotnie mamy Q−1 [T ]B C
P =
=
h
h
7 24 −2 −7
ih
11 8 0 −2 −1 1
29 32 24 −8 −9 −7
i
"
Q−1 = [IR2 ]C C0 =
i
i
"
−3 −3 −2 6 5 3 −2 −1 0
−3 −3 −2 6 5 3 −2 −1 0
#
=
h
7 24 . −2 −7
#
−57 49 38 −16 −14 −11
i
0
= [T ]B C0 .
Przykład 193. Dana jest pewna przestrzeń wektorowa V z bazami B = (b1 , b2 ) i B 0 = (b1 +b2 , 2b1 +b2 ). Niech T : V → V będzie operatorem liniowym, którego 0 2 macierzą względem bazy B jest A = . Wyznaczyć: −1 3
8.7. Podobieństwo macierzy
185
(a) [T (b1 )]B i T (b1 ); (b) T (b1 + b2 ), [T (b1 + b2 )]B 0 , T (2b1 + b2 ) i [T (2b1 + b2 )]B 0 ; (c) [T ]B 0 ; (d) macierz podobieństwa P macierzy B =
2 0 0 1
do macierzy A.
(a) Ponieważ macierz T względem bazy B, więc h A jest macierzą przekształcenia i oczywiście A = [T ]B = [T (b1 )]B [T (b2 )]B i dlatego mamy [T (b1 )]B =
0 −1
oraz
T (b1 ) = 0 b1 + (−1)b2 = −b2 .
Z tych samych powodów mamy T (b2 ) = 2b1 + 3b2 . (b) Z liniowości przekształcenia T oraz z (a) mamy T (b1 + b2 ) = T (b1 ) + T (b2 ) = −b2 + (2b1 + 3b2 )
= 2(b1 + b2 ) = 2(b1 + b2 ) + 0(2b1 + b2 )
i stąd [T (b1 + b2 )]B0 = Podobnie znajdujemy T (2b1 + b2 ) = 0(b1 + b2 ) + 1(2b1 + b2 )
2 . 0
[T (2b1 + b2 )]B0 =
i
(c) Korzystając z (b), otrzymujemy
h
i
=
=
[T ]B0 = [T (b1 + b2 )]B0 [T (2b1 + b2 )]B0
0 . 1
2 0 . 0 1
(d) Ponieważ A = [T ]B i B = [T ]B0 , więc wobec wniosku 8.7.1 jest B = P−1 AP i macierzą podobieństwa P macierzy A do macierzy B jest macierz przejścia od bazy B 0 do bazy B, P=
0 PB B
h
= [b1 + b2 ]B [2b1 + b2 ]B
i
1 2 . 1 1
Przykład 194. Macierzą przekształcenia liniowego T : V → W względem bazy B = (b1 , b2 , b3 ) przestrzeni V i bazy C = (c1 , c2 ) przestrzeni W jest 1 3 2 [T ]B = . C 2 −1 −1 B0
Wyznaczyć macierz [T ]C 0 , gdy B 0 = (b1 + b2 , b1 + b3 , b1 + b2 + b3 ) oraz C 0 = (2c1 + 3c2 , 3c1 + 5c2 ). Korzystamy ze wzoru na zmianę macierzy przekształcenia przy zmianie baz (zob. 0 (8.37)) i macierz [T ]B C 0 wyznaczamy z zależności 0
0
C B B C [T ]B C 0 = [IW ]C 0 [T ]C [IV ]B = [IW ]C
0
−1
0
B [T ]B C [IV ]B .
Ponieważ każdy wektor bazy B 0 jest już wskazaną kombinacją liniową wektorów bazy # " 1 1 1 0 2 3 B0 B, więc mamy [IV ]B = 1 0 1 . Z tych samych powodów [IW ]C = C 3 5 0 1 1 i w końcu mamy 0 [T ]B C0
=
2 3 3 5
−1
1 3 2 2 −1 −1
" 1 1 1 # 1 0 1 0 1 1
=
17 12 30 . −10 −7 −18
186
8. Przekształcenia liniowe Udowodnimy teraz, że każde dwie równoważne macierze są macierzami tego samego przekształcenia liniowego względem różnych baz przestrzeni wektorowych. Twierdzenie 8.7.2. Niech V i W będą odpowiednio n- i m-wymiarową przestrzenią wektorową nad ciałem K. Macierze A, B ∈ Km×n są macierzami pewnego przekształcenia liniowego T : V → W (względem pewnych baz przestrzeni V i W ) wtedy i tylko wtedy, gdy są one równoważne, tj. gdy istnieją nieosobliwe macierze P i Q takie, że B = Q−1 AP. (8.39) Dowód. Pierwsza część jest prostą konsekwencją twierdzenia 8.7.1. Dla dowodu drugiej części załóżmy, że P i Q są nieosobliwymi macierzami takimi, że B = Q−1 AP. Niech B = (b1 , . . . , bn ) będzie ustaloną bazą przestrzeni V , a C = (c1 , . . . , cm ) – ustaloną bazą przestrzeni W . Pokażemy teraz jak za pomocą macierzy A = [aij ], P = [pij ] i Q = [qij ] (oraz baz B i C) określić przekształcenie liniowe 0 T : V → W oraz bazę B 0 przestrzeni V i bazę C 0 przestrzeni W takie, że B = [T ]B C0 0 B B −1 = [IW ]C AP. C 0 [T ]C [IV ]B = Q Niech P T : V → W będzie przekształceniem liniowym takim, że dla i = 1, . . . , n jest m T (bi ) = a c . (Istnienie takiego przekształcenia wynika z twierdzenia 8.1.1.) k=1 ki k Jest oczywiste, że macierzą tak określonego przekształcenia T względem baz B i C jest macierz A, czyli [T ]B C = A. Pn Weźmy teraz pod uwagę wektory b01 , . . . , b0n , gdzie b0i = p b dla i = 1, k=1 ki k 0 0 . . . , n. Macierz [b1 ]B . . . [bn ]B jest identyczna z nieosobliwą macierzą P i z tego faktu wynika, że uporządkowany zbiór B 0 = (b01 , . . . , b0n ) jest bazą przestrzeni V . Ma0 cierzą przejścia od bazy B 0 do bazy B jest [IV ]B = P. Z tych samych powodów B = [pij ]P m 0 0 0 uporządkowany zbiór C = (c1 , . . . , cm ), w którym c0i = k=1 qki ck (dla i = 1, . . . , m), 0
jest bazą przestrzeni W i [IW ]C C = Q. Stąd i z poprzedniego twierdzenia wynika, że 0 C B B0 −1 dla macierzy przekształcenia T mamy [T ]B AP. C 0 = [IW ]C 0 [T ]C [IV ]B = Q
W analogiczny sposób dowodzi się prawdziwość następującego twierdzenia. Twierdzenie 8.7.3. Niech V będzie n-wymiarową przestrzenią wektorową nad ciałem K. Dla macierzy A, B ∈ Kn×n istnieje operator liniowy T : V → V oraz bazy B i B 0 przestrzeni V takie, że A = [T ]B
i
B = [T ]B 0
wtedy i tylko wtedy, gdy macierze A i B są podobne, tj. gdy istnieje macierz nieosobliwa P taka, że B = P−1 AP. (8.40)
8.8. Ćwiczenia 1. Zbadać liniowość następujących przekształceń: (a) T : R2 → R2 , T (x, y) = (x + y, 3x); (b) T : R2 → R2 , T (x, y) = (x, −x); (c) T : R2 → R2 , T (x, y) = (x + 1, x + y); (d) T : R3 → R2 , T (x, y, z) = (z, 2y − x); (e) T : R3 → R3 , T (x, y, z) = (0, x, x + y + z); (f ) T : R4 → R3 , T (x, y, z, t) = (0, xy, z − t); (g) T : R3 → R2 , T (x, y, z) = (x, y √− 2z + 3); (h) T : R3 → R2 , T (x, y, z) = (0, 3(x + z)); (i) T : R3 → R2 , T (x, y, z) = (x2 , y + z − x); (j) T : R3 → R3 , T (x, y, z) = (x, x + y, x + y); (k) T : RR → RR , T (f ) = −f ; 2 (l) T : RR → R, T (f ) = f (1) ; (m) T : R2 [x] → R3 [x], T ϕ(x) = xϕ(x);
Rx
(n) T : R[x] → R[x], T ϕ(x) = 0 ϕ(t) dt; (o) T : R[x] → R, T (ϕ(x)) = ϕ(0). 2. Dana jest macierz B ∈ R2×2 . Stwierdzić, czy funkcja T : R2×2 → R2×2 jest przekształceniem liniowym, gdy dla każdej macierzy A ∈ R2×2 jest: (a) T (A) = AB; (b) T (A) = (det A)B; (c) T (A) = BA; (d) T (A) = (det A)A; (e) T (A) = (det B)(A + AT ). 3. Niech T : R2 → R2 będzie przekształceniem liniowym takim, że T (0, 1) = (4, 3) i T (1, 3) = (5, 9). Wyznaczyć T (2, 5) i T 3 (−1, 4). Czy przekształcenie T jest różnowartościowe? 4. Przekształcenie liniowe T : R2 → R2 jest takie, że T (2, 3) = (4, 6) i T (4, −1) = (−8, 2). Wektor (−5, 3) przedstawić jako kombinację liniową wektorów (2, 3) oraz (4, −1) i obliczyć T 50 (−5, 3).
8.8. Ćwiczenia
187
5. Niech T : R3 → R3 będzi przekształceniem liniowym takim, że T (x, y, z) = (x + y − z, x + 3y − z, −3x−y+z). Wyznaczyć bazę jądra i bazę obrazu przekształcenia T . 6. Przekształcenie liniowe T : R4 → R4 określone jest wzorem T (x, y, z, t) = (x+3y+2z +3t, y−z +2t, 2x+ 5y+5z+5t, x+4y+z+4t). Wyznaczyć bazy i wymiary przestrzeni Ker T i Im T . 4 2 7. Dane jestprzekształcenie liniowe T : R → R , gdzie 1 2 1 2 T (x) = x dla x ∈ R4 . Wyznaczyć: 0 2 1 1 (a) bazę przestrzeni Ker T i (b) wymiar przestrzeni Im T . 8. Niech T : R2 [x] → R3 [x] będzie przekształceniem takim, że T (ϕ(x)) = xϕ(x) dla ϕ(x) ∈ R2 [x]. Znaleźć obraz i jądro przekształcenia T . Wyznaczyć także rząd i zerowość przekształcenia T . 9. Dane jest przekształcenie T : R2R[x] → R3 [x], gdzie x T (ϕ(x)) = ϕ0 (x) + 6 0 ϕ(t)dt. (a) Wyznaczyć Im T i Ker T . (b) Zbadać mono- i epimorficzność przekształcenia T . 10. Wskazać przekształcenie liniowe T : R3 → R3 , dla którego Ker T= {(x, y, z) ∈ R3 : x + 2y − z = 0} oraz Im T = (x, y, z) ∈ R3 : x + y − z = 0 i x + 3y +z = 0}. Czy istnieje tylko jedno takie przekształcenie? Uzasadnić swoją odpowiedź. 11. Uzasadnić, że nie istnieje przekształcenie liniowe T : R3 → R3 takie, że Ker T = {(x, y, z) ∈ R3 : x +y+z = 0} i Im T = {(x, y, z) ∈ R3 : x−y+2z = 0}. 12. Dane jest przekształcenie T : R3 → R3 , gdzie T (x, y, z) = (x + 2y − 2z, 3x + 3z, 2x − 2y + 5z). (a) Pokazać, że Im T jest płaszczyzną i znaleźć równanie tej płaszczyzny. (b) Pokazać, że T przekształca = y+1 = z2 w jeden wszystkie punkty prostej x−1 −2 3 punkt i znaleźć ten punkt. (c) Pokazać, że wszystkie punkty, których obrazem jest punkt (0, 0, 0) leżą na pewnej prostej. Wyznaczyć równanie tej prostej. 13. Dane jest przekształcenie T : R3 → R3 , gdzie T
"
x y z
#!
=
"
1 2 3 2 0 −2 3 −2 −7
#"
x y z
#
.
(a) Pokazać, że T (R3 ) jest płaszczyzną o równaniu x − 2y + z = 0. (b) Wyznaczyć obrazy prostej x = −y = z/2 oraz płaszczyzny x − y − z = 0 poprzez przekształcenie T . 14. Niech V i W będą przestrzeniami wektorowymi i niech ich bazami będą odpowiednio B = (b1 , b2 , b3 ) i C = (c1 , c2 , c3 , c4 ). Znaleźć macierz [T ]B C przekształcenia liniowego T : V → W względem baz B i C, gdy T (b1 ) = 2c1 + c2 + 3c3 − c4 , T (b2 ) = c1 + 2c2 − c3 + 2c4 i T (b3 ) = −c1 + c2 + c4 . 15. Przekształcenie liniowe T : R4 → R4 jest takie, że T (e1 ) = (1, 3, 1, 5), T (e2 ) = (2, 5, 1, 13), T (e3 ) = (1, 2, 0, 8) i T (e4 ) = (2, 6, 3, 12), gdzie E = (e1 , e2 , e3 , e4 ) jest bazą standardową przestrzeni R4 . Wyznaczyć: (a) Ker T i bazę tej podprzestrzeni; (b) Im T i dim Im T ; (c) [T ]E oraz det [T ]E .
16. Dane jest przekształcenie liniowe T : R3 → R3 takie, że T (x, y, z) = (z, 0, x). Wyznaczyć jego ma- cierz [T ]B (3, 1, 2), (1, 2, 1), (2, −1, 0) C , gdy B = i C = (1, 2, 1), (2, 1, −1), (5, 4, 1) . 17. Niech V i W będą przestrzeniami wektorowymi i niech ich bazami będą odpowiednio B = (b1 , b2 , b3 , b4 ) i C = (c1 , c2 , c3 ). Znaleźć T (b1 − b2 + 3b3 ), jeśli macierzą przekształcenia liniowego T : V → W względem baz B i C jest: (a)
"
2 4 1 −1 3 0 0 1 0 1 2 3
#
; (b)
"
1 0 0 1 0 1 0 0 1 0 1 0
#
.
18. Wyznaczyć macierz przekształcenia liniowego T : Rn → Rm względem bazy B przestrzeni Rn i bazy C przestrzeni Rm , gdy:
(a) T (x, y) = (x − 2y, 2x + 3y), B = (1, 1), (1, 0) i C = (0, 1), (1, 0) ; (b) T (x, y) = (2x + y, x + y, x − 3y), B = (1, 0), (0, 1) i C = (1, 1, 1), (1, 1, 0), (1, 0, 0) ; (c) T (x, y, z) = (x + 2y + 3z, x, y + z), B = (1, 0, 1), (1, 1, 0), (0, 1, 1) i C = (0, 1, 1), (1, 1, 0), (1, 0, 1) ; (d) T (x, y, z) = (x, y, z), B = (1, 1, 0), (−1, 1, 0), (0, 1, 2) i C = (1, 0, 0), (0, 1, 0), (0, 0, 1) ; (e) T (x, y) = (x + y, x − 2y), B = C = (1, 1), (1, −2) .
19. Wyznaczyć macierz przekształcenia liniowego T : R3 → R3 względem bazy standardowej E = (e1 , e2 , e3 ) przestrzeni R3 , jeśli T (ai ) = bi dla i = 1, 2, 3, gdy: (a) a1 = (2, 3, 5), a2 = (0, 1, 2), a3 = (1, 0, 1), b1 = (1, 1, 1), b2 = (1, 1, −1), b3 = (2, 1, 2); (b) a1 = (2, 0, 3), a2 = (4, 1, 5), a3 = (3, 1, 2), b1 = (1, 2, −1), b2 = (4, 5, −2), b3 = (1, −1, 1).
20. Niech T : R4 [x] → R4 [x] będzie funkcją taką, że T (f (x)) = x2 f 00 (x)−(2x+2)f 0 (x)+2f (x) dla f (x) ∈ R4 [x]. (a) Pokazać, że T jest przekształceniem liniowym. (b) Wyznaczyć jądro i obraz przekształcenia T oraz ich wymiary. (c) Wyznaczyć macierz [T ]B przekształcenia T względem bazy B = (1, x, x2 , x3 , x4 ) przestrzeni R4 [x]. (d) Wyznaczyć rząd macierzy [T ]B i wymiar przestrzeni zerowej macierzy [T ]B .
21. Niech B = (1, 1, 0), (0, 1, 0), (1, 0, 2) , C = (0, 1), (1, 1) i D = (1, 0, 0, 1), (0, 1, 1, 0), (0, 0, 1, 1), (1, 0, 0, 0) będą odpowiednio bazami przestrzeni R3 , R2 i R4 . Niech T : R3 → R2 i U : R2 → R4 będą funkcjami takimi, że T (x, y, z) = (x + z, y − z) i U (u, v) = (u, u + v, v, v − u). (a) Znaleźć U T (0, 1, 1). (b) Pokazać, że T , U i U T są przekształC ceniami liniowymi. (c) Utworzyć macierze [T ]B C , [U ]D B i [U T ]D przekształceń T , U i U T . (d) Wyznaczyć: (1) dim Ker T , dim Im T i bazę przestrzeni Ker T ; (2) dim Ker U , dim Im U i bazę przestrzeni Im U oraz (3) dim Ker U T i dim Im U T .
188
8. Przekształcenia liniowe "
#
1 2 0 22. Niech T : R3 [x] → R3 [x] będzie przekształceniem li[T ]A = 3 0 −1 . niowym takim, że T (ϕ(x)) = ϕ00 (x)−ϕ0 (x)+2ϕ(x) dla 2 5 3 ϕ(x) ∈ R3 [x]. Znaleźć macierz [T ]B przekształcenia T względem bazy B = (x, 1 + x, x + x2 , x3 ) przestrzeni Wyznaczyć macierze [T ]B , [T ]C i [T ]D względem baz R3 [x]. B = (b1 , b3 , b2 ), C = (b1 , b1 +b2 , b1 +b2 +b3 ) i D 23. W przestrzeni wektorowej Rn [x] wielomianów stop= (2b1 + 3b2 + b3 , 3b1 + 4b2 + b3 , b1 + 2b2 + 2b3 ). nia co najwyżej n dana jest funkcja T : Rn [x] → Rn [x] 30. Dana jest funkcja T : R2 [x] → R2 [x] taka, że 0 taka, że T (f (x)) = f (x). (a) Pokazać, że T jest T ϕ(x) = ϕ(x+1)+ϕ(x) dla ϕ(x) ∈ R2 [x]. (a) Wyprzekształceniem liniowym. (b) Wyznaczyć jądro i ob2 znaczyć macierz [T ]B C względem baz B = (x , x, 1) raz przekształcenia T . (c) Wyznaczyć macierz przeB 2 i C = (x +1, x+1, 2). (b) Obliczyć det [T ]C . (c) Czy kształcenia T względem bazy (1, x, . . . , xn ) przestrzeprzekształcenie T jest odwracalne? ni Rn [x]. (d) Czy przekształcenie T jest różnowartościowe? 31. Dane jest przekształcenie T : R3 [x] → R3 [x] takie, 24. Dane jest przekształcenie T : Rn [x] → Rn [x], gdzie że T ϕ(x) = ϕ(x) − xϕ00 (x). Macierzowo uzasadnić 2 00 T (f (x)) = (x f (x)) . (a) Pokazać, że T jest przeodwracalność przekształcenia T i obliczyć T −1 (x2 ). kształceniem liniowym. (b) Znaleźć macierz prze- 32. Dana jest przestrzeń wektorowa V z bazą B = kształcenia T względem bazy (1, x, . . . , xn ) przestrze(b1 , b2 , b3 ) i przekształcenie liniowe T : V → V tani Rn [x]. (c) Pokazać, że przekształcenie T jest epikie, że T (b1 ) = b1 + b2 + b3 , T (b2 ) = b1 + 2b2 − b3 morfizmem. i T (b3 ) = b1 − b2 + 3b3 . Wyznaczyć macierz [T ]B przekształcenia T względem bazy B. Czy przekształ25. Przekształcenie liniowe T : R2 [x] → R2×2 cenie T jest odwracalne? Obliczyć T −1 (b1 ). ϕ(0) 2ϕ0 (1) jest takie, że T (ϕ(x)) = . 3ϕ00 (2) 0 33. Macierzą przekształcenia liniowego T : V → V B 2 względem Wyznaczyć macierz [T ] , gdy B = (1, x, x ) bazy B = (b1 , b2 ) przestrzeni V jest C 1 1 1 0 0 1 0 0 0 0 [T ]B = . Wyznaczyć T 2 (b1 ) i T −1 (b2 ). iC= , , , . 3 5 0 0 0 0 1 0 0 1 3 34. Macierzą przekształcenia liniowego T : R3 → 26. Przekształcenie liniowe R2×2 → R2×2 jest ta R T : względem bazy B = (1, 2, 3), (2, 3, 1), (4, 5, 2) jest 1 0 1 2 1 3 kie, że T = T = macierz " # 0 0 0 0 1 0 1 2 3 0 1 1 2 2 0 0 4 . [T ]B = −1 iT =T = . Wyzna1 1 3 4 3 0 2 −1 1 czyć macierz przekształcenia T względem bazy stanWyznaczyć macierze [T ]C i [T −1 ]C , gdy C = dardowej E przestrzeni R . Dodatkowo wyznaczyć 2×2 (1, 2, 3), (0, 1, 2), (0, 0, 1) . x y T . 35. Przekształcenie T : R3 → R3 jest symetrią wzglęz t dem płaszczyzny y = 0. Podać macierze [T ]E i [T ]B 27. Znaleźć macierz przejścia P = [IV ]B C od bazy B przekształcenia T względem bazy kanonicznej E do bazy C, gdy: (a) B = (1, 2, 0), (3, 4, 2), (2, 2, 1) , C i względem bazy B = (1, 1, 1), (0, 1, 1), (0, 0, 1) = (1, −1, 2), (3, 1, −1), (4, 0, 2) i V = R3 ; (b) B przestrzeni R3 . = (x3 , x2 , x, 1), C = (x3 − x2 , x2 − x, x − 1, x3 + 1) 36. Przekształcenie liniowe T : R3 → R3 jest symei V = R3 [x]. trią względem prostej określonej równaniami x = y 28. Macierz A jest macierzą operatora liniowego T i z = 0. Wyznaczyć macierz przekształcenia T wzglęwzględem bazy standardowej przestrzeni Rn . Znaleźć dem bazy standardowej przestrzeni R3 i wyznaczyć macierz operatora B, gdy: T (x, y, z). T względem bazy 1 −2 2 1 37. Przekształcenie T : R3 → R3 jest obrotem o kąt π/2 (a) A = , B= , ; 3 −4 1 1 wokół osi Ox, zaś przekształcenie U : R3 → R3 okre# " # " # " #! " ślone jest wzorem U (x, y, z) = (x, y − x, z + x − y). 1 1 1 1 2 3 Wyznaczyć macierze przekształceń T , U , U T i T U T ; 0 , 1 , 1 (b) A = 2 3 1 ; B = względem bazy standardowej przestrzeni R3 . 1 0 0 1 3 2 38. Niech T będzie obrotem w przestrzeni R3 o kąt 32 π 1 −1 7 2 wokół osi Oz, zaś U niech będzie symetrią względem ; , ; B= (c) A = 3 1 2 −2 płaszczyzny Oxz. Wyznaczyć macierz przekształce# " # " # " #! " nia U T względem bazy standardowej przestrzeni R3 . 1 1 1 1 0 1 39. Zbadać odwracalność przekształcenia liniowego T . (d) A = 0 7 0 , B = 1 , 2 , 1 i, jeśli to możliwe, wyznaczyć przekstałcenie odwrot1 1 0 2 3 14 3 3 ne, gdy T : R3 → R3 i T (x, y, z) = (x + y − z, x − 29. Macierzą operatora liniowego T : R → R względem 2y + z, −3x + y + z). bazy A = (b1 , b2 , b3 ) jest
8.8. Ćwiczenia 40. Zbadać, które z przekształceń liniowych T jest izomorfizmem przestrzeni wektorowych: (a) T : R2 → R2 , T (x, y) = (x + y, x); (b) T : R2 → R2 , T (x, y) = (x − y, x − y); (c) T : R4 → R4 , T (x, y, z, t) = (x, y, t, t − z). 41. Wyznaczyć wymiar wektorowej przestrzeni a a+b V = : a, b, c ∈ R . 0 b+c Wskazać izomorfizm przestrzeni V i R3 . 42. Zbadać liniowość i różnowartościowość przekształcenia T : Rn×n → Rn×n takiego, że T (A) = AT + A. 43. Pokazać, że każda podprzestrzeń wektorowa W przestrzeni V jest jądrem pewnego przekształcenia liniowego T : V → V . 44. Pokazać, że przekształcenie odwrotne odwracalnego przekształcenia liniowego odwracalnym przekształceniem liniowym. 45. Niech T : V → W będzie monomorfizmem przestrzeni V i W . Wykazać, że wektory b1 , . . . , bn są liniowo niezależne w przestrzeni V wtedy i tylko wtedy, gdy ich obrazy T (b1 ), . . . , T (bn ) są liniowo niezależne w przestrzeni W . 46. Wykazać, że jeśli T1 , T2 i T3 są operatorami liniowymi na przestrzeni wektorowej V , to: (a) T1 (T2 + T3 ) = T1 T2 + T1 T3 i (T1 + T2 )T3 = T1 T3 + T2 T3 ; (b) T1 (T2 T3 ) = (T1 T2 )T3 ; (c) a(T1 T2 ) = (aT1 )T2 = T1 (aT2 ) dla każdego skalara a; (d) T IV = IV T = T , gdzie IV jest przekształceniem tożsamościowym na przestrzeni V . 47. Niech V i W będą przestrzeniami wektorowymi (nad tym samym ciałem), niech S będzie podzbiorem zbioru V i S 0 = {T ∈ L(V, W ) : T (x) = 0 dla każdego x ∈ S}. Udowodnić następujące stwierdzenia: (a) S 0 jest podprzestrzenią przestrzeni L(V, W ); (b) Jeśli S1 ⊆ S2 ⊂ V , to S20 ⊆ S10 ; (c) Jeśli V1 i V1 są podprzestrzeniami przestrzeni V , to (V1 + V2 )0 = V10 ∩ V20 . 48. Niech T : V → V będzie operatorem liniowym na przestrzeni wektorowej V . Udowodnić, że T 2 = 0 wtedy i tylko wtedy, gdy Im T ⊆ Ker T . 49. Podać przykład przekształceń liniowych T, U : R 2 → R2 takich, że U T = 0 i T U 6= 0. Wskazać także macierze A i B takie, że AB = 0 i BA 6= 0. (Uzasadnić swoje stwierdzenia.) 50. Podać przykład przekształcenia liniowego T : R 2 → R2 takiego, że Ker T = Im T . (Uzasadnić swój wybór.) 51. Podać przykład różnych przekształceń liniowych T, S : R2 → R2 takich, że Ker T = Ker S i Im T = Im S. (Uzasadnić swój wybór.) 52. Dane jest przekształcenie liniowe T : R3 → R3 , gdzie T (x, y, z) = (x + y, y + z, x − z). Wskazać podprzestrzenie V , W , Z i X przestrzeni R3 , dla których: (a) dim T (V ) < dim V ; (b) dim T (W ) = dim W ; (c) dim T −1 (Z) > dim Z; (d) dim T −1 (X) = dim X. 53. Wykazać, że macierze A i B są równoważne wtedy i tylko wtedy, gdy macierz B można otrzymać z macierzy A za pomocą operacji elementarnych na wierszach i kolumnach macierzy.
189 54. Wyznaczyć wszystkie macierze podobne do macierzy jednostkowej In . 55. Wyznaczyć wszystkie macierze równoważne z macierzą jednostkową In . " # " # 1 0 4 1 0 1 56. Wykazać, że macierze 1 1 3 i 0 1 1 nie 2 1 7 3 1 2 są podobne. 57. Wykazać, że jeśli macierze A i B są podobne i macierz A jest odwracalna, to także macierz B jest odwracalna. 58. Wykazać, że jeśli macierze A i B są podobne, to także macierze A2 i B2 są podobne. 59. Wykazać, że jeśli macierze A i B są podobne, to także macierze an An +an−1 An−1 +. . .+a1 A+a0 I i an Bn + an−1 Bn−1 + . . . + a1 B + a0 I są podobne dla każdych skalarów a0 , . . . , an . 60. Wykazać, że jeśli macierze A − λI i B są podobne, to także macierze A i B + λI są podobne. 61. Niech T : V → W będzie przekształceniem liniowym przestrzeni wektorowej V w przestrzeń wektorową W , gdzie dim V = dim W < ∞. Pokazać, że istnieje baza B przestrzeni V i baza C przestrzeni W taka, że macierz [T ]B C jest diagonalna. 62. Niech A i B będą macierzami podobnymi wymiaru n × n. Udowodnić, że istnieje przestrzeń wektorowa V , operator liniowy T : V → V i bazy B oraz C przestrzeni V takie, że A = [T ]B i B = [T ]C . 63. Wykazać, że przekształcenie liniowe T : V → W jest monomorfizmem wtedy i tylko wtedy, gdy istnieje taki wektor y ∈ W , że przeciwobraz T −1 ({y}) jest zbiorem jednoelementowym. 64. Dane jest przekształcenie liniowe T : V → W . (a) Wykazać, że T nie jest monomorfizmem, gdy dim V > dim W . (b) Wykazać, że T nie jest epimorfizmem, gdy dim V < dim W . 65. Niech Q będzie macierzą rzeczywistą wymiaru n × n. Wykazać, że odwzorowanie T : Rn×n → Rn×n jest izomorfizmem, gdy T (A) = Q−1 AQ dla A ∈ Rn×n . 66. Niech V i W będą skończenie wymiarowymi przestrzeniami wektorowymi i T ∈ L(V, W ). Niech (b1 , . . . , bn ) będzie bazą przestrzeni V . Udowodnić, że T jest izomorfizmem wtedy i tylko wtedy, gdy T (b1 ), . . . , T (bn ) jest bazą przestrzeni W . 67. Niech V , W i Z będą przestrzeniami wektorowymi i niech T ∈ L(V, W ) oraz U ∈ L(W, Z). (a) Pokazać, że jeśli U T jest monomorfizmem, to T jest monomorfizmem. (b) Wykazać, że U jest epimorfizmem, gdy U T jest epimorfizmem. (c) Udowodnić, że U T jest izomorfizmem, gdy T i U są izomorfizmami. 68. Niech T : V → W będzie przekształceniem liniowym i niech V 0 i W 0 będą odpowiednio podprzestrzeniami przestrzeni V i W . Wykazać, że: (a) dim T (V 0 ) ¬ dim V 0 ; (b) dim T −1 (W 0 ) dim W 0 . 69. Niech T : V → W będzie izomorfizmem skończenie wymiarowych przestrzeni wektorowych V i W . Wykazać, że jeśli V 0 jest podprzestrzenią przestrzeni V , to dim V 0 = dim T (V 0 ).
190
8. Przekształcenia liniowe
70. Niech T : R2 → R2 będzie przekształceniem liniowym takim, że T (x, y) = (x + 2y, 3x + 2y) i niech E = ((1, 0), (0, 1)) oraz B = ((1, 3), (2, 5)) będą bazami przestrzeni R2 . (a) Wyznaczyć macierze [T ]E i [T ]B . (b) Znaleźć [v]B i [T (v)]B , gdy v = (1, 1). (c) WyznaB czyć macierze przejścia [1R2 ]E B i [1R2 ]E . (d) SprawE B dzić, czy [T ]B = [1R2 ]B [T ]E [1R2 ]E . (e) Znaleźć bazę C przestrzeni R2 taką, że macierz [T ]C C jest dia−1 gonalna. (f ) Wskazać macierze P = [1R2]C E i P . n 1 2 (g) Wskazać formułę dla obliczeń potęgi , 3 2 gdzie n jest liczbą naturalną. 71. Niech T, U : V → W będą niezerowymi przekształceniami liniowymi takimi, że Im T ∩ Im U = {0}. Udowodnić,że T i U są liniowo niezależne w przestrzeni L(V, W ). 72. Niech V i W będą n-wymiarowymi przestrzeniami wektorowymi i niech B i C będą odpowiednio ich bazami. Udowodnić, że dla przekształcenia liniowego T : V → W następujące stwierdzenia są równoważne: (a) T jest monomorfizmem; (b) Ker T = {0}; (c) dim Ker T = 0; (d) dim Im T = n; (e) Im T = W ; (f ) T jest epimorfizmem; (g) macierz [T ]B C jest odwracalna; (h) układ wektorów (b1 , . . . , bn ) jest bazą przestrzeni V wtedy i tylko wtedy, gdy układ T (b1 ), . . . , T (bn ) jest bazą przestrzeni W . 73. Wpisując TAK albo NIE, stwierdzić prawdziwość każdego z następujących zdań: 1 Przekształcenie T ∈ L(V, W ) jest różnowartościowe wtedy i tylko wtedy, gdy Ker T = {0}. 2 Przekształcenie T : Rn×n → R jest liniowe, gdy T (A) = tr(A). 3 Jeśli T ∈ L(V, W ) i wektory b1 , . . . , bn są liniowo niezależne w przestrzeni V , to wektory T (b1 ), . . . , T (bn ) są liniowo niezależne w przestrzeni W. Jeśli T ∈ L(V, W ) i L(b1 , . . . , bn ) = V , to L T (b1 ), . . . , T (bn ) = W . 4
5 Jeśli T ∈ L(V, W ) i wektory b1 , . . . , bn są liniowo zależne w przestrzeni V , to wektory T (b1 ), . . . , T (bn ) są liniowo zależne w przestrzeni W. 6 Jeśli T ∈ L(V, W ) i b1 , . . . , bn ∈ V oraz układ wektorów T (b1 ), . . . , T (bn ) jest bazą przestrzeni Im T , to układ wektorów (b1 , . . . , bn ) jest bazą przestrzeni V . 7 Jeśli T ∈ L(V, W ) jest epimorfizmem, to dim V dim W .
8 Jeśli V i W są przestrzeniami wektorowymi nad tym samym ciałem, to L(V, W ) = L(W, V ).
9 Jeśli V i W są przestrzeniami wektorowymi nad tym samym ciałem, to L(V, W ) = L(W, V ) wtedy i tylko wtedy, gdy dim V = dim W . 10
Jeśli T ∈ L(V, W ) oraz B i C są bazami prze-
strzeni wektorowych V i W , to [T ]B C
−1
B
= [T −1 ]C .
11
Przestrzenie wektorowe R3×2 i R5 są izomor-
ficzne. 12 Macierze A i B ze zbior Rn×n są podobne, gdy B = P−1 AP dla pewnej macierzy P ∈ Rn×n . 13
Macierze podobne mają identyczne ślady.
14
Każda macierz przejścia jest odwracalna.
15 Macierz jednostkowa zawsze reprezentuje przekształcenie tożsamościowe.
Rozdział 9
ILOCZYN SKALARNY I ORTOGONALNOŚĆ WEKTORÓW 9.1. Definicja i przykłady iloczynów skalarnych Definicja 9.1.1. Niech V będzie przestrzenią wektorową nad ciałem liczb rzeczywistych. Funkcję (·|·) : V × V → R, która każdej parze wektorów x, y ∈ V przyporządkowuje liczbę (x|y) ∈ R, nazywamy iloczynem skalarnym w przestrzeni V , jeśli ma ona następujące własności: (S1 ) ∀x, y∈V (x|y) = (y|x);
Iloczyn skalarny
(symetria)
(S2 ) ∀x, y, z∈V ∀α, β∈R (x|αy + βz) = α(x|y) + β(x|z); (S3 ) ∀x∈V (x|x) 0 i (x|x) = 0 ⇔ x = 0.
(liniowość) (dodatnia określoność)
Jeśli (·|·) jest iloczynem skalarnym w przestrzeni V , a x i y są wektorami z przestrzeni V , to liczbę (x|y) nazywamy iloczynem skalarnym wektorów x i y. Z własności (S1 ) i (S2 ) iloczynu skalarnego wynika, że dla każdych wektorów x, x1 , . . . , xn , y1 , . . . , ym z przestrzeni wektorowej V i każdych liczb rzeczywistych α1 , . . . , αn , β1 , . . . , βm jest m m X X x βj y j = αi βj (xi |yj ) j=1
oraz
n X i=1
(9.1)
j=1
m n X m X X α i xi βj y j = αi βj (xi |yj ). j=1
(9.2)
i=1 j=1
Definicja 9.1.2. Skończenie wymiarową przestrzeń wektorową V z iloczynem skalarnym (·|·), czyli parę V, (·|·) , nazywamy przestrzenią Euklidesa. Przykład 195. Niech V będzie n-wymiarową przestrzenią wektorową nad ciałem liczb rzeczywistych i niech B będzie bazą przestrzeni V . Wykażemy, że iloczynem skalarnym w przestrzeni V jest funkcja (·|·) : V × V → R, która wektorom x, y z przestrzeni V przyporządkowuje liczbę T
(x|y) = [x]B [y]B .
(9.3)
Formalnie iloczyn [x]TB [y]B jest macierzą wymiaru 1 × 1, którą utożsamiamy z jej jedynym elementem. Z własności transpozycji macierzy wynika, że dla każdych wektorów x, y z przestrzeni V jest (x|y) = [x]TB [y]B = [x]TB [y]B
T
= [y]TB [x]TB
T
= [y]TB [x]B = (y|x).
To dowodzi, że funkcja (·|·) ma własność (S1 ). Własność (S2 ) funkcji (·|·) wynika z twierdzenia 7.6.1 oraz z własności iloczynu macierzy, bo dla każdych wektorów x, y, z ∈ V i każdych liczb α, β ∈ R mamy (x|αy + βz)
=
[x]TB [αy + βz]B = [x]TB α[y]B + β[z]B
=
α[x]TB [y]B + β[x]B [z]B = α(x|y) + β(x|z).
Przestrzeń Euklidesa
192
9. Iloczyn skalarny W końcu zauważmy, że jeśli x ∈ V i [x]B = (x1 , x2 , . . . , xn ), to mamy (x|x) = [x]TB [x]B Pn 2 Pn 2 = x 0 i w ciele liczb rzeczywistych jest (x|x) = x = 0 wtedy i tylko i=1 i i=1 i wtedy, gdy xi = 0 dla i = 1, . . . , n, tj. wtedy i tylko wtedy, gdy x = 0. Zatem funkcja (·|·) określona wzorem (9.3) ma własność (S3 ) i jest ona iloczynem skalarnym w przestrzeni V . Dlatego przestrzeń wektorowa V z tak określonym iloczynem skalarnym jest przestrzenią Euklidesa.
W przestrzeni wektorowej Rn ze standardową bazą E = (e1 , . . . , en ) dla każdego wektora x jest [x]E = x, więc z powyższego wynika, że iloczynem skalarnym w przestrzeni Rn jest funkcja (·|·) : Rn ×Rn → R przyporządkowująca wektorom x = (x1 , . . . , xn ) i y = (y1 , . . . , yn ) liczbę Standardowy iloczyn skalarny
(x|y) = xT y = x1 y1 + x2 y2 + . . . + xn yn =
n X
(9.4)
xi y i .
i=1
Ten iloczyn nazywa się standardowym iloczynem skalarnym w przestrzeni R n . Przykład 196. Z poprzedniego przykładu wynika, że w przestrzeni R3 [x] z bazą B = (1, x, x2 , x3 ) iloczynem skalarnym jest funkcja (·|·), która każdym wielomianom ϕ(x) = a0 +a1 x+a2 x2 +a3 x3 i ψ(x) = b0 +b1 x+b2 x2 +b3 x3 z przestrzeni R3 [x] przyporządkowuje liczbę b0
(ϕ|ψ) =
[ϕ(x)]TB [ψ(x)]B
b1 = [ a 0 a 1 a 2 a 3 ] = a 0 b0 + a 1 b1 + a 2 b2 + a 3 b3 . b 2
b3
Zatem przestrzeń R3 [x] z iloczynem skalarnym (·|·) jest przestrzenią Euklidesa i w tej przestrzeni przykładowo mamy 1
0 (x|1 + x2 ) = [ 0 1 0 0 ] = 0 i (−1 + 4x2 | − 3 + 2x) = [ −1 0 4 0 ] 1 0
−3 2 = 3. 0 0
Przykład 197. Niech V = C ha; bi będzie przestrzenią rzeczywistych funkcji ciągłych na odcinku ha; bi. Wykażemy, że iloczynem skalarnym w tej przestrzeni jest funkcja (·|·) : V × V → R, która funkcjom f, g ∈ V przyporządkowuje liczbę (f |g) =
Z
b
f (x)g(x) dx.
(9.5)
a
Korzystając z własności całki oznaczonej, z łatwością stwierdzamy, że tak określona funkcja ma własności (S1 ) i (S2 ). Oczywiście dla każdej funkcji f ∈ V jest (f |f ) Rb 2 = f (x) dx 0. Zatem dla dowodu własności (S3 ) wystarczy pokazać, że (f |f ) a
Rb
= a f 2 (x) dx > 0 dla każdej niezerowej funkcji f ze zbioru V . Jeśli f jest niezerową funkcją ze zbioru V , to istnieje x0 ∈ ha; bi takie, że f 2 (x0 ) = p > 0. Stąd i z ciągłości funkcji f wynika, że istnieje przedział hc; di ⊆ ha; bi zawierający x0 i taki, że f 2 (x) p/2 dla każdego x ∈ hc; di. Dlatego jest (f |f )
=
Z
Z
b
f 2 (x) dx = a d c
f 2 (x) dx
Z
c
f 2 (x) dx + a
Z
d
Z
d
f 2 (x) dx + c
Z
b
f 2 (x) dx d
p/2 dx > 0. c
To dowodzi, że funkcja (·|·) określona wzorem (9.5) jest iloczynem skalarnym.
9.1. Definicja i przykłady iloczynów skalarnych
193
Przykład 198. Pokazać, że funkcja f : R2 ×R2 → R jest iloczynem skalarnym, x1 y1 jeśli dla każdych wektorów x = , y= z R2 jest x2 y2 1 −1 T f (x, y) = x Ay i A = . −1 3 Ponieważ macierz A jest symetryczna (AT = A), więc dla każdych wektorów x, y ∈ R2 jest f (x, y) = xT Ay = (xT Ay)T = yT AT x = yT Ax = f (y, x) i funkcja f ma własność (S1 ). Funkcja f ma także własność (S2 ), bo dla każdych wektorów x, y, z ∈ R2 i liczb rzeczywistych α, β jest f (x, αy + βz) = xT A(αy + βz) = αxT Ay + βxT Az = αf (x, y) + βf (x, z). Dla dowodu własności (S3 ) zauważmy, że dla każdego wektora x = f (x, x)
1 −1 −1 3
x1 x2
x1 x2
=
[ x 1 x2 ]
=
x21 − 2x1 x2 + 3x22 = (x1 − x2 )2 + 2x22 0.
jest
Stąd też widać, że f (x, x) = 0 wtedy i tylko wtedy, gdy x = (x1 , x2 ) = (0, 0).
Przykład 199. Uzasadnić, że funkcja f : R2 × R2 → R nie jest iloczynem x1 y1 2 skalarnym w przestrzeni R , jeśli dla każdych wektorów x = , y= x2 y2 z przestrzeni R2 jest 3 2 y1 f (x, y) = 3x1 y1 + 2x1 y2 + 2x2 y1 − 2x2 y2 = x1 x2 . 2 −2 y2
Pokażemy, że funkcja f nie ma własności (S3 ) iloczynu skalarnego. Dla wektora x = (x1 , x2 ) ∈ R2 jest f (x, x) = 3x21 + 4x1 x2 − 2x22 i w szczególności dla wektora x0 = (0, 1) jest f (x0 , x0 ) = −2 < 0. Stąd wynika, że funkcja f nie jest iloczynem skalarnym w przestrzeni R2 .
Definicja 9.1.3. Normą albo długością wektora x w przestrzeni Euklidesa nazywamy liczbę rzeczywistą p ||x|| = (x|x). (9.6) Wektor x jest wektorem jednostkowym, gdy ||x|| = 1. Łatwo zauważyć, że jeśli x 6= 0, to (1/||x||) x jest wektorem jednostkowym. Przykładowo, normą funkcji f (x) = x2 z przestrzeni C(h0; skalarnym określonym wzorem qR 1i) z iloczynem p √ √ 2 1 4 (9.5) jest ||f || = (f |f ) = 5x . 0 x dx = 1/ 5 i (1/||f ||)f =
Norma wektora Wektor jednostkowy
Definicja 9.1.4. Odległością pomiędzy wektorami x i y nazywamy liczbę d(x, y) = ||x − y||.
(9.7)
Jeśli W jest niepustym podzbiorem wektorów przestrzeni Euklidesa V i x jest wektorem z przestrzeni V , to liczbę d(x, W ) = inf d(x, y) y∈W
nazywamy odległością pomiędzy wektorem x i zbiorem wektorów W .
(9.8)
Odległość pomiędzy wektorami
194
9. Iloczyn skalarny Podstawowe własności normy i odległości pomiędzy wektorami przedstawiamy w następnych dwóch twierdzeniach i w kolejnym wniosku.
Nierówność Schwarza
Twierdzenie 9.1.1. Dla dowolnych wektorów x i y w przestrzeni Euklidesa spełniona jest nierówność |(x|y)| ¬ ||x|| ||y||. (9.9) Dowód. Łatwo zauważyć, że nierówność (9.9) jest prawdziwa, gdy x = 0 lub y = 0. Z własności (S2 ) i (S3 ) iloczynu skalarnego wynika, że jeśli x 6= 0 i y 6= 0, to dla każdej liczby t ∈ R mamy 0 ¬ (tx + y|tx + y) = t2 (x|x) + 2t(x|y) + (y|y) = ||x||2 t2 + 2(x|y)t + ||y||2 , więc wyróżnik trójmianu kwadratowego ||x||2 t2 + 2(x|y)t + ||y||2 zmiennej t jest niedodatni. Zatem ∆ = 4(x|y)2 − 4||x||2 ||y||2 ¬ 0 i stąd już otrzymujemy |(x|y)| ¬ ||x|| ||y||.
Przykład 200. Wobec nierówności (9.9) dla każdych dwóch wektorów x = (x 1 , . . . , xn ) i y = (y1 , . . . , yn ) z przestrzeni Rn (ze standardowym iloczynem skalarnym) mamy |x1 y1 + . . . + xn yn | ¬ (x21 + . . . + x2n )1/2 (y12 + . . . + yn2 )1/2 . Przykład 201. Za pomocą nierówności Schwarza (9.9) w odpowiednio dobranej przestrzeni Euklidesa uzyskać następujące nierówności: (a) (x + y + z)2 ¬ 3(x2 + y 2 + z 2 ) dla każdych x, y, z ∈ R;
(b) (xy + yz + xz)2 ¬ (x2 + y 2 + z 2 )2 dla każdych x, y, z ∈ R; Z 1 2 Z 1 (c) f (x) dx ¬ f 2 (x) dx dla każdej funkcji f ∈ C(h0; 1i). 0
0
3
(a) W przestrzeni R ze standardowym iloczynem skalarnym weźmy pod uwagę wektory x = (x, y, z) i y = (1, 1, 1). Z nierówności Schwarza mamy (x + y + z)2 = (x, y, z)|(1, 1, 1)
2
¬ ||(x, y, z)||2 ||(1, 1, 1)||2 = 3 (x2 + y 2 + z 2 ).
(b) Z nierówności Schwarza dla wektorów x = (x, y, z) i y = (y, z, x) z przestrzeni R3 ze standardowym iloczynem skalarnym mamy (xy + yz + xz)2 = (x, y, z)|(y, z, x)
2
¬ ||(x, y, z)||2 ||(y, z, x)||2 = (x2 + y 2 + z 2 )2 .
(c) W przestrzeni C h0; 1i z iloczynem skalarnym określonym wzorem (9.5) wobec nierówności Schwarza mamy
Z
1
f (x) dx 0
2
= =
Własności normy
Z
Z
1
f (x) · 1 dx
0 1
f 2 (x) dx 0
= (f |1)2 ¬ ||f ||2 ||1||2
Z
1
1 dx 0
=
Z
1
f 2 (x) dx. 0
Twierdzenie 9.1.2. Norma wektora w przestrzeni Euklidesa V ma następujące własności: (N1 ) ∀x∈V ||x|| 0 i ||x|| = 0 ⇔ x = 0;
Nierówność trójkąta (Cauchy’ego-Minkowskiego)
2
(N2 ) ∀x∈V ∀α∈R ||αx|| = |α| ||x||;
(N3 ) ∀x,y∈V ||x + y|| ¬ ||x|| + ||y||.
9.2. Kąt pomiędzy wektorami
195
Dowód. Dwie pierwsze własności łatwo wynikają z definicji normy i własności (S3 ) oraz (S2 ) iloczynu skalarnego. Nierówność (N3 ), zwana także nierównością Cauchy’ego-Minkowskiego, wynika z nierówności (9.9). Mamy bowiem ||x + y||2 = (x + y|x + y)
=
(x|x) + 2(x|y) + (y|y)
=
||x||2 + 2(x|y) + ||y||2
¬
¬
||x||2 + 2|(x|y)| + ||y||2
||x||2 + 2||x|| ||y|| + ||y||2 = (||x|| + ||y||)2 ,
a stąd już otrzymujemy nierówność ||x + y|| ¬ ||x|| + ||y||.
Z twierdzenia 9.1.2 natychmiast wynikają następujące własności odległości pomiędzy wektorami. Wniosek 9.1.1. Dla każdych wektorów x, y i z z przestrzeni Euklidesa jest: (1) d(x, y) 0 oraz d(x, y) = 0 wtedy i tylko wtedy, gdy x = y; (2) d(x, y) = d(y, x);
(3) d(x, y) ¬ d(x, z) + d(z, y).
9.2. Kąt pomiędzy wektorami Z nierówności Schwarza (zob. (9.9)) wynika, że dla niezerowych wektorów x i y jest −1 ¬
(x|y) ¬ 1, ||x|| ||y||
(x|y) więc ułamek ||x|| ||y|| jest wartością cosinusa (zob. rys. 9.1) i możemy przyjąć następującą definicję miary kąta pomiędzy wektorami x i y.
1 (x|x) ||x||||y||
α
(x|y) . ||x|| ||y||
Rys. 9.1 Kąt pomiędzy wektorami
(9.10)
Definicja 9.2.2. Dwa wektory x i y w przestrzeni Euklidesa nazywamy ortogonalnymi (prostopadłymi), gdy (x|y) = 0. Z definicji tej wynika, że wektory x i y są ortogonalne (piszemy x ⊥ y), gdy co najmniej jeden z nich jest wektorem zerowym lub gdy miara kąta między tymi wektorami jest równa π/2. Przykład 202. W przestrzeni C(h0; π/2i) z iloczynem skalarnym określonym wzorem (9.5) dla a = 0 i b = π/2 funkcje f (x) = cos x+sin x i g(x) = cos x−sin x jest Z π2 Z π2 (f |g) = f (x)g(x) dx = (cos2 x − sin2 x) dx = 0, 0
π
cos x
−1
Definicja 9.2.1. Miarą kąta pomiędzy niezerowymi wektorami x i y w przestrzeni Euklidesa nazywamy liczbę ϕ ∈ h0; πi taką, że cos ϕ =
π 2
0
więc funkcje te są wektorami ortogonalnymi.
Następny przykład pokazuje, że miara kąta pomiędzy wektorami (i ortogonalność wektorów) zależy od wyboru iloczynu skalarnego w przestrzeni wektorowej.
Ortogonalność wektorów
196
9. Iloczyn skalarny
6 u v
:
-
Rys. 9.2
Przykład 203. Wektory v = (4, 1) i u = (1, 3) z rysunku 9.2 nie są ortogonalne wprzestrzeni R2 ze standardowym iloczynem skalarnym, bo (v|u) = v T u = 7 6= 0. Jednakże te same dwa wektory są ortogonalne w tej samej przestrzeni R 2 z loczynem skalarnym określonym wzorem (9.3) dla bazy B = (v, u), bo mamy 0 T (v|u) = [v]B [u]B = [ 1 0 ] = 0. 1 W każdej przestrzeni Euklidesa mamy następującą własność wektorów ortogonalnych.
Twierdzenie Pitagorasa
Twierdzenie 9.2.1 (Pitagorasa). W przestrzeni Euklidesa wektory u i v są ortogonalne wtedy i tylko wtedy, gdy ||u||2 + ||v||2 = ||u + v||2 .
(9.11)
Dowód. Dla wektorów u i v mamy ||u + v||2
=
(u + v|u + v) = (u|u) + (v|v) + 2(u|v)
=
||u||2 + ||v||2 + 2(u|v).
Stąd wynika, że ||u||2 + ||v||2 = ||u + v||2 wtedy i tylko wtedy, gdy (u|v) = 0, tj. wtedy i tylko wtedy, gdy wektory u i v są ortogonalne.
Baza ortogonalna
Baza ortonormalna
Definicja 9.2.3. Układ (v1 , v2 , . . . , vn ) wektorów z przestrzeni Euklidesa nazywamy ortogonalnym (ortonormalnym), jeśli jego wektory są wzajemnie ortogonalne (i normalne), tj. (vi |vj ) = 0 dla i 6= j (i każdy jest długości 1, czyli ||vi || = 1 dla i = 1, . . . , n). Bazą ortogonalną przestrzeni Euklidesa V nazywamy układ wektorów (v1 , v2 , . . . , vn ), który jednocześnie jest bazą przestrzeni V i ortogonalnym układem wektorów w tej przestrzeni. Bazę B = (v1 , v2 , . . . , vn ) przestrzeni Euklidesa V nazywamy bazą ortonormalną, gdy jest ona ortonormalnym układem wektorów w przestrzeni V . Przykład 204. Standardowa baza E = (e1 , . . . , en ) przestrzeni Rn (ze standardowym iloczynem skalarnym) jest bazą ortonormalną w R n . Układy 1 1 √ (2, 1), √ (1, −2) 5 5
i
1 1 1 √ (1, 2, 3), √ (1, 1, −1), √ (5, −4, 1) 14 3 42
są innymi przykładami baz ortonormalnych w przestrzeniach R 2 i R3 .
Współczynniki Fouriera
Kombinacja Fouriera
Definicja 9.2.4. Jeśli S jest ortonormalnym układem wektorów w przestrzeni V z iloczynem skalarnym (·|·) i jeśli x ∈ V , to współczynnikami Fouriera wektora x względem układu S nazywamy liczby (x|vi ) dla vi ∈ S. Natomiast sumę X (x|vi )vi (9.12) vi ∈S
nazywamy kombinacją Fouriera wektora x względem układu ortonormalnego S. (Kombinacja ta nie musi być identyczna z wektorem x.) Przykład 205. W przestrzeni R3 ze standardowym iloczynem skalarnym wyznaczyć kombinację Fouriera wektora x = (−11, 3, 11) względem ortonormalnego układu (v1 , v2 ), gdzie v1 = √135 (1, −3, 5) i v2 = √16 (1, 2, 1). Czy ta kombinacja
9.2. Kąt pomiędzy wektorami
197
pokrywa się z wektorem x? √ √ Ponieważ (x|v1 ) = 35 i (x|v2 ) = 6, więc kombinacją Fouriera wektora x względem układu (v1 , v2 ) jest (x|v1 )v1 + (x|v2 )v2 =
√ √ 1 1 35 √ (1, −3, 5) + 6 √ (1, 2, 1) = (2, −1, 6) 35 6
i jest ona różna od wektora x = (−11, 3, 11).
Pierwsze zalety ortonormalnych układów wektorów i współczynników Fouriera przedstawia następujące twierdzenie i wynikające zeń wnioski. Twierdzenie 9.2.2. Niech (v1 , . . . , vn ) będzie ortogonalnym układem niezeroPn wych wektorów przestrzeni Euklidesa V i niech x = i=1 αi vi będzie kombinacją i) liniową wektorów tego układu. Wtedy αi = (x|v ||vi ||2 dla i = 1, . . . , n, więc x=
n X (x|vi ) i=1
||vi ||2
(9.13)
vi
Fouriera wektora x względem ortonormalnego układu i jest to kombinacja v1 vn ||v1 || , . . . , ||vn || . Dowód. Jeśli x =
Pn
i=1
(x|vi )
αi vi , to dla i = 1, . . . , n jest = =
i stąd wynika (9.13), bo x =
P
n j=1
αj vj |vi
=
αi (vi |vi ) = αi ||vi ||2
Pn
(x|vi ) v i=1 ||vi ||2 i
=
Pn
Pn i=1
j=1
αj (vj |vi )
x| ||vvii ||
vi . ||vi ||
Wniosek 9.2.1. Jeśli B = (vP 1 , . . . , vn ) jest ortonormalną bazą przestrzeni V , n to dla każdego x ∈ V jest x = i=1 (x|vi )vi i dlatego
[x]B =
(x|v1 ) (x|v2 ) .. .
(x|vn )
.
(9.14)
Wniosek 9.2.2. Układ (v1 , . . . , vn ) niezerowych i wzajemnie ortogonalnych wektorów w przestrzeni Euklidesa jest liniowo niezależny. Dowód. Załóżmy, że dla wektorów układu (v1 , . . . , vn ) i skalarów α1 , . . . , αn jest P n 2 α v = 0. Wtedy wobec twierdzenia 9.2.2 jest αi = (0|vi )/||vi || i=1 i i = 1, . . . , n. To dowodzi, że układ (v1 , . . . , vn ) jest liniowo niezależny.
= 0 dla i
Przykład 206. Wykazać, że układ 1 1 1 B = (v1 , v2 , v3 ) = √ (1, 0, −2), √ (2, 3, 1), √ (6, −5, 3) 5 14 70 jest bazą ortonormalną przestrzeni R3 ze standardowym iloczynem skalarnym. √ Dodatkowo, wektor x = 70(−1, 2, −1) przedstawić jako kombinację liniową wektorów bazy B.
Niezerowe wektory ortogonalne są liniowo niezależne
198
9. Iloczyn skalarny Ponieważ
(v1 |v1 ) = 1, (v1 |v2 ) = 0, (v1 |v3 ) = 0,
(v2 |v2 ) = 1, (v2 |v3 ) = 0, (v3 |v3 ) = 1,
więc B = (v1 , v2 , v3 ) jest ortonormalnym układem wektorów w przestrzeni R 3 . Stąd i z wniosku 9.2.2 wynika, że układ B jest liniowo niezależny i (wobec twierdzenia 7.5.4) jest on bazą przestrzeni R3 . Dla wektora x jest √ √ (x|v1 ) = 14, (x|v2 ) = 3 5 i (x|v3 ) = −19,
więc wobec wniosku 9.2.1 (lub twierdzenia 9.2.2) mamy √ √ x = (x|v1 )v1 + (x|v2 )v2 + (x|v3 )v3 = 14v1 + 3 5v2 − 19v3 .
9.3. Ortogonalizacja bazy Pokażemy teraz, że każda skończenie wymiarowa przestrzeń Euklidesa ma bazę ortogonalną i ortonormalną. Zaprezentujemy tu tak zwaną metodę Grama-Schmidta ortogonalizacji bazy, czyli metodę przekształcania bazy (x 1 , x2 , . . . , xn ) przestrzeni Euklidesa w pewną bazę ortogonalną (y1 , y2 , . . . , yn ) i otrzymaną z niej bazę ortonormalną (y1 /||y1 ||, y2 /||y2 ||, . . . , yn /||yn ||) tej samej przestrzeni. W metodzie tej przyjmuje się, że y1 = x1 , a każdy następny wektor yk (k = 2, . . . , n) jest kombinacją liniową wektorów y1 , y2 , . . . , yk−1 i xk , yk = xk + ak 1 y1 + . . . + ak k−1 yk−1 , gdzie współczynniki akj dobiera się tak, aby wektor yk był ortogonalny do każdego z wektorów y1 , . . . , yk−1 . Nasze rozważania zaczynamy od przydatnego lematu. Lemat 9.3.1. Niech (y1 , . . . , yk−1 ) będzie układem niezerowych i wzajemnie ortogonalnych wektorów przestrzeni Euklidesa V , niech b będzie dowolnym wektorem ze zbioru V iniech b będzie jego kombinacją Fouriera względem ortoPk−1 (b|yi ) normalnego układu ||yy11 || , . . . , ||yyk−1 , czyli b = i=1 ||yi ||2 yi . Wtedy wekk−1 || tor b − b jest ortogonalny do podprzestrzeni L(y1 , . . . , yk−1 ). Dodatkowo, jeśli b ∈ V − L(y1 , . . . , yk−1 ), to wektor b − b jest niezerowy.
Dowód. Wektor b − b jest ortogonalny do podprzestrzeni L(y1 , . . . , yk−1 ), bo dla każdego j = 1, . . . , k − 1 jest (b − b|yj ) =
b−
k−1 X (b|yi )
||yi ||2
i=1 k−1
= (b|yj ) − = (b|yj ) −
yi yj
X (b|yi ) i=1
||yi ||2
!
(yi |yj )
(b|yj ) (yj |yj ) = 0. ||yj ||2
Dalej, jeśli b ∈ V −L(y1 , . . . , yk−1 ), to b−b 6= 0, bo inaczej byłoby b = i wektor b byłby elementem podprzestrzeni L(y1 , . . . , yk−1 ).
Metoda Grama-Schmidta ortogonalizacji bazy
Pk−1
(b|yi ) i=1 ||yi ||2
yi
Twierdzenie 9.3.1. Jeśli (x1 , x2 , . . . , xn ) jest bazą przestrzeni Euklidesa V , to układ wektorów (y1 , y2 , . . . , yn ), w którym y1 = x 1 2 |y1 ) y2 = x2 − (x (y1 |y1 ) y1 (9.15) .. . (xn |yn−1 ) y n |y1 ) = xn − (x n (y1 |y1 ) y1 − . . . − (yn−1 |yn−1 ) yn−1 ,
9.3. Ortogonalizacja bazy
199
jest bazą ortogonalną przestrzeni V , a układ y1 y2 yn , ,..., ||y1 || ||y2 || ||yn ||
jest bazą ortonormalną przestrzeni V .
Dowód. Ponieważ drugie stwierdzenie jest oczywistą konsekwencją pierwszego stwierdzenia, udowodnimy tylko to pierwsze. W tym celu z uwagi na wniosek 9.2.2 wystarczy indukcyjnie ze względu na k (1 ¬ k ¬ n) uzasadnić, że (y1 , y2 , . . . , yk ) jest ortogonalnym układem niezerowych wektorów i L(y1 , y2 , . . . , yk ) ⊆ L(x1 , x2 , . . . , xk ). Jest to oczywiste dla k = 1. Załóżmy teraz, że (y1 , . . . , yk−1 ) jest ortogonalnym układem niezerowych wektorów i L(y1 , . . . , yk−1 ) ⊆ L(x1 , . . . , xk−1 ), 2 ¬ k ¬ n. Ponieważ xk ∈ V − L(x1 , . . . , xk−1 ) ⊆ V − L(y1 , . . . , yk−1 ), więc z lematu 9.3.1 (dla b = xk ) wynika, że wektor yk jest niezerowy i ortogonalny do podprzestrzeni L(y1 , . . . , yk−1 ). Stąd zaś i z założenia wynika, że także układ (y1 , . . . , yk−1 , yk ) jest ortogonalnym układem niezerowych wektorów. P k−1 W końcu, ponieważ yk = xk − i=1 (x||yk |y||2i ) yi ∈ L(y1 , . . . , yk−1 , xk ), więc i
L(y1 , . . . , yk−1 , yk ) ⊆ L(y1 , . . . , yk−1 , xk ) ⊆ L(x1 , . . . , xk−1 , xk ),
bo z założenia jest L(y1 , . . . , yk−1 ) ⊆ L(x1 , . . . , xk−1 ).
4 1 , przestrzeni R2 (ze standardo2 3 wym iloczynem skalarnym) nie jest ortogonalna, ale wobec twierdzenia 9.3.1 (zob. (9.15)) układ wektorów (y1 , y2 ) jest już bazą ortogonalną przestrzeni R2 , gdy (x2 |y1 ) 1 4 4 1 −1 y1 = − = , y1 = x 1 = , y2 = x 2 − 2 3 2 (y1 |y1 ) 2 2 Przykład 207. Baza (x1 , x2 ) =
rys. 9.3.
K
Przykład 208. Metodą Grama-Schmidta utworzyć bazę ortogonalną i ortonormalną podprzestrzeni W = L(x1 , x2 , x3 ) przestrzeni R4 (ze standardowym iloczynem skalarnym), gdzie x1 = (1, 1, 0, 1), x2 = (3, 0, 0, 3) i x3 = (1, −1, −1, 0). Ponieważ układ wektorów (x1 , x2 , x3 ) jest bazą przestrzeni W (dlaczego?), więc wobec twierdzenia 9.3.1 bazą ortogonalną przestrzeni W będzie układ (y1 , y2 , y3 ), w którym y1 = x 1 , y 2 = x 2 −
(x3 |y1 ) (x3 |y2 ) (x2 |y1 ) y1 , y 3 = x 3 − y1 − y2 . (y1 |y1 ) (y1 |y1 ) (y2 |y2 )
Łatwo widać, że mamy (y1 |y1 ) = 3 i (x2 |y1 ) = 6. Dlatego y2 = (3, 0, 0, 3) −
6 (1, 1, 0, 1) = (1, −2, 0, 1). 3
Analogicznie, ponieważ (y2 |y2 ) = 6, (x3 |y1 ) = 0 i (x3 |y2 ) = 3, więc y3 = (1, −1, −1, 0) − Zatem układ
0 3 1 (1, 1, 0, 1) − (1, −2, 0, 1) = (1, 0, −2, −1). 3 6 2
1 (y1 , y2 , y3 ) = (1, 1, 0, 1), (1, −2, 0, 1), (1, 0, −2, −1) 2 jest bazą ortogonalną przestrzeni W , a układ
x2
y1 y2 y3 , , ||y1 || ||y2 || ||y3 ||
=
1 1 1 √ (1, 1, 0, 1), √ (1, −2, 0, 1), √ (1, 0, −2, −1) 3 6 2 6
jest bazą ortonormalną tej samej przestrzeni.
y2
*x1
*y1
Rys. 9.3
200
9. Iloczyn skalarny
9.4. Dopełnienie ortogonalne Definicja 9.4.1. Jeśli S jest niepustym zbiorem wektorów w przestrzeni Euklidesa V , to zbiór wszystkich wektorów przestrzeni V ortogonalnych do każdego wektora ze zbioru S nazywamy ortogonalnym dopełnieniem zbioru S i oznaczamy symbolem S ⊥ (zob. rys. 9.4),
s
S ⊥ = {x ∈ V : (x|s) = 0 dla każdego s ∈ S}.
qx S ⊥
S Rys. 9.4
(1,2,−1) 6
Przykład 209. W przestrzeni R3 ze standardowym iloczynem skalarnym ortogonalnym dopełnieniem zbioru S = {(1, 2, −1)} jest S ⊥ = {(1, 2, −1)}⊥
sy x + 2y − z = 0 x
Rys. 9.5 S ⊆ V i S 6= ∅ S ⊥ − podprzestrzeń S ∩ S ⊥ ⊆ {0}
(a)
NA
0
RA
(b)
(9.16)
= {(x, y, z) ∈ R3 : ((x, y, z)|(1, 2, −1)) = 0} = {(x, y, z) ∈ R3 : x + 2y − z = 0}.
Zatem S ⊥ jest zbiorem wektorów odpowiadających punktom płaszczyzny o równaniu x + 2y − z = 0, rys. 9.5. Łatwo zauważyć, że S ⊥ jest podprzestrzenią przestrzeni V dla każdego niepustego podzbioru S zbioru V . Ponieważ dla wektora x jest (x|x) = 0 wtedy i tylko wtedy, gdy x = 0, więc wektor zerowy jest jedynym wektorem, który może jednocześnie należeć do zbioru S i do jego ortogonalnego dopełnienia S ⊥ . Warto także zauważyć, że wektor x jest ortogonalny do podprzestrzeni L(v 1 , . . . , vm ) wtedy i tylko wtedy, gdy x jest ortogonalny do każdego z wektorów v 1 , . . . , vm . Dodatkowo, jeśli v1 , . . . , vm są wektorami z przestrzeni Rn , to wektor x jest ortogonalny do podprzestrzeni L(v1 , . . . , vm ) wtedy i tylko wtedy, gdy Ax = 0, gdzie A jest macierzą, której wierszami są v1 , . . . , vm . Z tych obserwacji skorzystamy przy wyjaśnianiu ortogonalnych zależności pomiędzy podprzestrzeniami NA , RA , CA i NAT , czterema podstawowymi podprzestrzeniami odpowiadającymi macierzy A, i przy wyznaczaniu ortogonalnego dopełnienia przestrzeni L(v1 , . . . , vm ), gdy v1 , . . . , vm ∈ Rn . Twierdzenie 9.4.1. Ortogonalnym dopełnieniem przestrzeni wierszowej macierzy A jest przestrzeń zerowa macierzy A i ortogonalnym dopełnieniem przestrzeni kolumnowej macierzy A jest przestrzeń zerowa macierzy AT ,
RA
⊥
(RA ) = NA
i
⊥
(CA ) = NAT .
(9.17)
Dowód. Niech v1 , . . . , vm będą wierszami macierzy A wymiaru m × n. Wtedy
NA NA
(c)
=
NA T = 0
=
CA
Rys. 9.6
− v1 − − v2 − {x ∈ Rn : Ax = 0} = x ∈ Rn : x = 0 . ..
− vm −
(v1 |x) (v2 |x) n x∈R : = 0 = {x ∈ Rn : x ⊥ vi dla i = 1, . . . , m} .. . (vm |x)
{x ∈ Rn : x ⊥ L(v1 , . . . , vm ) = RA } = (RA )⊥
i to kończy dowód pierwszej części tezy (zob. rys. 9.6(a) i 9.6(b)). Druga część tezy wynika z pierwszej i z faktu, że CA = RAT (rys. 9.6(c)).
9.5. Rzut ortogonalny
201
Przykład 210. W przestrzeni R4 wyznaczyć bazę ortogonalnego dopełnienia podprzestrzeni S = L(v1 , v2 , v3 ) = L (1, −2, 3, −1), (2, −3, 4, 0), (7, −12, 17, −3) .
Niech A będzie macierzą, której wierszami są wektory v1 , v2 i v3 , A=
"
1 −2 3 −1 2 −3 4 0 7 −12 17 −3
#
.
Wtedy S jest przestrzenią wierszową macierzy A, S = RA , i wobec twierdzenia 9.4.1 ortogonalnym dopełnieniem przestrzeni S jest przestrzeń zerowa macierzy A. Łatwo zauważyć, że przestrzenią zerową macierzy A jest NA = {s(1, 2, 1, 0) + t(3, 2, 0, −1) : s, t ∈ R}. Ponieważ wektory (1, 2, 1, 0) i (3, 2, 0, −1) generujące przestrzeń NA są liniowo niezależne, więc układ (1, 2, 1, 0), (3, 2, 0, −1) jest bazą przestrzeni S ⊥ .
Następne twierdzenie pokazuje, że przestrzen Euklidesa jest sumą prostą (zob. def. 7.8.2) swojej podprzestrzeni i jej ortogonalnego dopełnienia.
Twierdzenie 9.4.2. Jeśli W jest podprzestrzenią przestrzeni Euklidesa V , to V = W ⊕ W ⊥,
(9.18)
czyli dla każdego wektora b ∈ V istnieje jednoznacznie wyznaczony wektor b ∈ W taki, że b − b ∈ W ⊥ .
Dowód. Niech (a1 , a2 , . . . , ak ) będzie ortonormalną bazą podprzestrzeni W i niech b Pk będzie wektorem z przestrzeni V . Wtedy wektor b = (b|ai )ai należy do podi=1 przestrzeni W i wobec lematu 9.3.1 wektor b − b należy do podprzestrzeni W ⊥ . Stąd wynika, że przestrzeń V jest sumą podprzestrzeni W i W ⊥ . Dodatkowo, ponieważ W ∩ W ⊥ = {0}, więc (wobec definicji 7.8.2) przestrzeń V jest sumą prostą swoich podprzestrzeni W i W ⊥ , czyli V = W ⊕ W ⊥ .
Kolejne twierdzenie jest inną wersją twierdzenia 9.4.2.
Twierdzenie 9.4.3. Niech W będzie podprzestrzenią przestrzeni Euklidesa V e∈ i niech b ∈ V . Wtedy istnieją jednoznacznie wyznaczone wektory b ∈ W i b ⊥ e W takie, że b = b + b. Dodatkwo, jeśli (a1 , . . . , ak ) jest ortonormalną bazą przestrzeni W , to b jest kombinacją Fouriera wektora b względem ortonormalnego układu (a1 , . . . , ak ), k X b= (b|ai )ai . (9.19) i=1
Dowód. Niech (a1 , . . . , ak ) będzie bazą ortonormalną przestrzeni W . Wtedy b = Pk e = b − b należy do (b|ai )ai ∈ W . Dodatkowo, wobec lematu 9.3.1, wektor b i=1 podprzestrzeni W ⊥ . 0 e0 , gdzie b0 ∈ W Dla dowodu jednoznaczności przypuśćmy, że dodatkowo b = b + b 0 0 0 e0 ∈ W ⊥ . Wtedy b + b e =b=b +b e0 i dlatego b − b = b e0 − b e ∈ W ∩ W ⊥ = {0}. ib 0 0 e e Stąd zaś wynika, że b = b i b = b.
9.5. Rzut ortogonalny
Definicja 9.5.1. Niech b będzie wektorem z przestrzeni V i niech W będzie podprzestrzenią przestrzeni V . Rzutem ortogonalnym wektora b na podprzestrzeń W nazywamy wektor b (czasami oznaczany symbolem projW b) taki, że b ∈ W i b − b jest ortogonalny do podprzestrzeni W , zob. rys. 9.7.
Rzut ortogonalny
202
9. Iloczyn skalarny Twierdzenia 9.4.2 i 9.4.3 gwarantują istnienie i jednoznaczność rzutu ortogonalnego każdego wektora b z przestrzeni V na podprzestrzeń W przestrzeni V . Z twierdzeń tych wynika też, że rzutem ortogonalnym wektora b na podprzestrzeń W jest kombinacja Fouriera wektora b względem bazy ortonormalnej podprzestrzeni W .
6
b
b−b⊥W
b∈W:
Wniosek 9.5.1. Jeśli (a1 , . . . , ak ) jest bazą ortogonalną podprzestrzeni W przestrzeni Euklidesa V i jeśli b jest wektorem z przestrzeni V , to
W 0
Rys. 9.7. Jeśli b = projW b, to b ∈ W i b − b ⊥ W
projW b =
k X (b|ai ) ai . (a i |ai ) i=1
(9.20)
W szczególności, jeśli (a1 , . . . , ak ) jest bazą ortonormalną podprzestrzeni W , to k X projW b = (b|ai )ai . (9.21) i=1
>
Przykład 211. Z wniosku 9.5.1 jest oczywiste, że rzut ortogonalny wektora b na 1-wymiarową podprzestrzeń W = L(a) (rys. 9.8) jest określony wzorem (b|a) b= a. (9.22) (a|a)
b
a
-
-
b
W = L(a) i b =
(b|a) (a|a)
Przykładowo, w przestrzeni R3 (ze standardowym iloczynem skalarnym) rzutem ortogonalnym wektora b = (2, 4, −3) na podprzestrzeń W generowaną przez wektor a = (0, 1, −2) jest wektor
a
Rys. 9.8
(b|a) b= a= (a|a)
3 b
projW b = b
Rys. 9.9
0 1 −2
"
"
0 1 −2
0 1 −2
#
#
"
0 1 −2
#
10 = 5
"
0 1 −2
#
=
"
0 2 −4
#
.
Z definicji rzutu ortogonalnego łatwo wynika, że wektor b jest rzutem ortogonalnym wektora b na podprzestrzeń W przestrzeni V wtedy i tylko e = b − b jest rzutem ortogonalnym wektora b na wtedy, gdy wektor b podprzestrzeń W ⊥ , rys. 9.9. Równoważnie, dla każdej podprzestrzeni W przestrzeni V i dla każdego wektora b ∈ V jest
W⊥
e6 projW ⊥ b = b
2 4 −3
b = projW b + projW ⊥ b. W
(9.23)
O tej prostej zależności warto pamiętać wtedy, gdy bezpośrednie wyznaczanie rzutu ortogonalnego wektora b na podprzestrzeń W ⊥ jest łatwiejsze od wyznaczania rzutu ortogonalnego wektora b na podprzestrzeń W . Ilustruje to następujący przykład.
Przykład 212. W przestrzeni R4 ze standardowym iloczynem skalarnym wyznaczyć rzut ortogonalny wektora b = (1, 0, −1, 1) na podprzestrzeń W generowaną przez wektory a1 = (1, 0, 0, 0), a2 = (0, 1, 1, 0) i a3 = (0, 0, 1, 1). Ponieważ W = L(a1 , a2 , a3 ) jest 3-wymiarową podprzestrzenią w przestrzeni R4 , więc jej ortogonalne dopełnienie W ⊥ jest podprzestrzenią 1-wymiarową generowaną przez każdy niezerowy wektor a ortogonalny do wektorów a1 , a2 i a3 . W szczególności, wektorem tym może być wektor a = (0, −1, 1, −1). (Samą przestrzeń W ⊥ i generujący ją wektor można wyznaczyć – podobnie jak to zrobiliśmy w przykładzie 210 – jako
9.5. Rzut ortogonalny
203
przestrzeń zerową macierzy A, której wierszami są a1 , a2 i a3 .) Wobec wniosku 9.5.1 rzutem wektora b na podprzestrzeń W ⊥ = L(a) jest wektor
e= b
(b|a) −2 a= (0, −1, 1, −1). (a|a) 3
Zatem, wobec własności (9.23), rzutem wektora b na podprzestrzeń W jest wektor
e = (1, 0, −1, 1) − b=b−b
2 1 1 −2 (0, −1, 1, −1) = 1, − , − , . 3 3 3 3
Przedstawimy teraz sposób wyznaczania rzutu ortogonalnego wektora na podprzestrzeń, gdy znamy jakąkolwiek bazę tej podprzestrzeni. Twierdzenie 9.5.1. Jeśli układ (a1 , . . . , ak ) jest bazą podprzestrzeni W przestrzeni Euklidesa V , to rzutem ortogonalnym wektora b ∈ V na podprzestrzeń W jest wektor b = x 1 a1 + x 2 a2 + . . . + x k ak , gdzie (x1 , x2 , . . . , xk ) jest rozwiązaniem układu równań liniowych x1 (a1 |a1 ) + x2 (a1 |a2 ) + . . . + xk (a1 |ak ) = (a1 |b), x1 (a2 |a1 ) + x2 (a2 |a2 ) + . . . + xk (a2 |ak ) = (a2 |b), .. . x1 (ak |a1 ) + x2 (ak |a2 ) + . . . + xk (ak |ak ) = (ak |b).
(9.24)
Dowód. Z faktu, że układ wektorów (a1 , a2 , . . . , ak ) jest bazą przestrzeni W = L(a1 , Pk a2 , . . . , ak ) wynika, że wektor b = j=1 xj aj jest rzutem ortogonalnym wektora b na
podprzestrzeń W wtedy i tylko wtedy, gdy wektor b − b jest ortogonalny do podprzestrzeni L(a1 , . . . , ak ). Tak jest wtedy i tylko wtedy, gdy (ai |b − b) = (ai |b) −
k X j=1
xj (ai |aj ) = 0
dla i = 1, . . . , k, czyli wtedy i tylko wtedy, gdy (x1 , . . . , xk ) jest rozwiązaniem układu (9.24).
Definicja 9.5.2. Wyznacznik macierzy głównej układu równań liniowych (9.24) nazywa się wyznacznikiem Grama układu (a1 , a2 , a2 , . . . , ak ) i oznacza symbolem G(a1 , a2 , . . . , ak ), (a1 |a1 ) (a1 |a2 ) . . . (a1 |ak ) (a2 |a1 ) (a2 |a2 ) . . . (a2 |ak ) G(a1 , a2 , . . . , ak ) = (9.25) . .. .. .. .. . . . . (ak |a1 ) (ak |a2 ) . . . (ak |ak )
Łatwo zauważyć, że wyznacznik Grama G(a1 , a2 , . . . , ak ) jest niezerowy, jeśli układ wektorów (a1 , a2 , . . . , ak ) jest liniowo niezależny. Przykład 213. Znaleźć rzut ortogonalny wektora b = (6, 6, 21) na podprzestrzeń W generowaną przez wektory a1 = (1, 0, 1) i a2 = (0, 1, 1). Wobec twierdzenia 9.5.1 rzutem ortogonalnym wektora b na podprzestrzeń generowaną przez wektory a1 i a2 jest wektor b = x 1 a1 + x 2 a2 ,
Wyznacznik Grama
204
9. Iloczyn skalarny gdzie (x1 , x2 ) jest rozwiązaniem układu równań liniowych
Tu mamy
x1 (a1 |a1 ) + x2 (a1 |a2 ) = (a1 |b), x1 (a2 |a1 ) + x2 (a2 |a2 ) = (a2 |b).
2x1 + x2 = 27, x1 + 2x2 = 27,
więc x1 = x2 = 9 i dlatego b = 9a1 + 9a2 = (9, 9, 18).
9.6. Macierz rzutu ortogonalnego Przedstawimy tu jeszcze jeden sposób wyznaczania rzutu ortogonalnego wektora na podprzestrzeń W przestrzeni Rn . Niech (a1 , . . . , ak ) będzie bazą podprzestrzeni W . Wtedy W = L(a1 , . . . , ak ) = {Ax : x ∈ Rk } = CA , gdzie A jest macierzą wymiaru n × k, której kolejnymi kolumnami są a1 , . . . , ak . Weźmy pod uwagę dowolny wektor b ∈ Rn i jego rzut ortogonalny b na podprzestrzeń W . Wtedy b ∈ W = CA , więc b = Ax0 (dla pewnego x0 ∈ Rk ) i wektor b−b = b−Ax0 jest ortogonalny do podprzestrzeni W , czyli do każdego wektora Ax, gdzie x ∈ Rk . Dlatego xT (AT b − AT Ax0 ) = (Ax)T (b − Ax0 ) = 0 dla każdego x. Stąd wynika, że AT b − AT Ax0 = 0. Ponieważ A jest macierzą rzędu k (bo jej kolumny są liniowo niezależne), więc wobec twierdzenia 7.5.4 także macierz AT A wymiaru k × k jest rzędu k. Dlatego AT A jest odwracalna i z równości AT b − AT Ax0 = 0 otrzymujemy x0 = (AT A)−1 AT b. Stąd wynika, że rzutem wektora b na podprzestrzeń W jest b = Ax0 = A(AT A)−1 AT b. Zatem udowodniliśmy następujące twierdzenie. Twierdzenie 9.6.1. Niech W = L(a1 , . . . , ak ) będzie k-wymiarową podprzestrzenią przestrzeni Rn i niech A będzie macierzą, której kolumnami są wektory a1 , . . . , ak . Wtedy rzutem ortogonalnym wektora b ∈ R n na podprzestrzeń W jest b = A(AT A)−1 AT b. (9.26) Definicja 9.6.1. Jeśli W = L(a1 , . . . , ak ) jest k-wymiarową podprzestrzenią przestrzeni Rn i A jest macierzą, której kolumnami są a1 , . . . , ak , to macierz Macierz rzutu
P = A(AT A)−1 AT
(9.27)
nazywamy macierzą rzutu (ortogonalnego) na podprzestrzeń W . Jeśli A = [a1 . . . ak ] i B = [b1 . . . bk ] są macierzami wymiaru n × k i układy (a1 , . . . , ak ) i (b1 , . . . , bk ) są bazami tej samej podprzestrzeni W przestrzeni R n , to P = A(AT A)−1 AT i P0 = B(BT B)−1 BT są macierzami rzutu na podprzestrzeń W . Ponieważ dla każdego x ∈ Rn jest Px = P0 x, więc P = P0 i to oznacza, że macierz rzutu na podprzestrzeń W nie zależy od wyboru bazy tej podprzestrzeni.
9.6. Macierz rzutu ortogonalnego
205
Przykład 214. Wyznaczyć macierz P rzutu ortogonalnego na podprzestrzeń W będącą płaszczyzną o równaniu x+y −z = 0. Za pomocą tej macierzy znaleźć rzut ortogonalny wektora b = (6, 6, 21) na podprzestrzeń W . Bazę przestrzeni W tworzą dwa nierównoległe wektory a1 i a2 leżące w płaszczyźnie x + y − z = 0, rys. 9.10. Mogą nimi być a1 =
"
A=
"
Wtedy dla macierzy
mamy T
(A A)
−1
=
1 0 1 0 1 1
#
1 0 1
0 1 1
#
"
1 0 0 1 1 1
#
=
a2 =
i
#
| | a1 a2 | |
=
" 1 0 #!−1 0 1 1 1
"
.
−1
2 1 1 2
1 = 3
1 0 1 0 1 1
2 −1 −1 2
i wobec (9.27) macierzą rzutu na płaszczyznę W jest P = A(A A) T
−1
A
T
=
"
=
1 3
1 0 0 1 1 1
"
# 1 3
1 0 0 1 1 1
#
2 −1 −1 2
2 −1 1 −1 2 1
1 3
=
"
2 −1 1 −1 2 1 1 1 2
#
b .
Zatem, wobec (9.26), rzutem ortogonalnym wektora b na płaszczyznę W jest wektor 1 b = projW b = Pb = 3
"
2 −1 1 −1 2 1 1 1 2
#"
6 6 21
#
=
"
9 9 18
b
a2
W a1
#
y
0 x
(i oczywiście jest on identyczny z wektorem z przykładu 213).
Rys. 9.10
Jeśli baza (a1 , . . . , ak ) podprzestrzeni W jest ortonormalna, to macierz A = [a1 . . . ak ] ma ortonormalne kolumny (aTi ai = 1 i aTi aj = 0, gdy j 6= i), więc AT A = I (i (AT A)−1 = I) i mamy prostszą niż w (9.27) zależność pomiędzy macierzą A i macierzą rzutu P na podprzestrzeń W , P = A(AT A)−1 AT = AIAT = AAT . Przykładowo dla bazy ortonormalnej √ √ √ p √ (a1 , a2 ) = (1/ 2, 0, 1/ 2), (−1/ 6, 2/3, 1/ 6)
przestrzeni W z ostatniego przykładu i dla macierzy √1 − √16 2 q 2 A= 0 3 √1 2
√1 6
iloczyn
√1 2
AAT = 0
√1 2
− √16 q
2 3 1 √ 6
"
√1 2 − √16
0 q
2 3
√1 2 √1 6
#
2 −1 1 1 = −1 2 1 3 1 1 2
(9.28)
206
9. Iloczyn skalarny jest znaną z przykładu 214 macierzą rzutu na podprzestrzeń W . Na koniec zaobserwujmy pewne ogólne własności macierzy rzutu. Przede wszystkim zauważmy, że jeśli W = L(a1 , . . . , ak ) jest k-wymiarową podprzestrzenią przestrzeni Rn i A jest macierzą, której kolumnami są a1 , . . . , ak , to macierz rzutu P = A(AT A)−1 AT jest symetryczna, PT
PT = P
T = (A(AT A)−1 AT )T = (AT )T (AT A)−1 AT −1 T −1 T = A (AT A)T A = A AT (AT )T A = P,
i idempotentna, P2 = P
P2
= (A(AT A)−1 AT )(A(AT A)−1 AT ) = A(AT A)−1 AT A(AT A)−1 AT = A(AT A)−1 AT = P.
W następnym twierdzeniu udowodnimy, że te dwie własności w pełni charakteryzują macierz rzutu ortogonalnego. Twierdzenie 9.6.2. Macierz P ∈ Rn×n jest macierzą rzutu ortogonalnego na pewną podprzestrzeń W ⊆ Rn wtedy i tylko wtedy, gdy jest ona symetryczna (PT = P) i idempotentna (P2 = P). Dowód. Symetryczność i idempotentność macierzy rzutu już wyjaśniliśmy. Załóżmy teraz, że macierz P jest symetryczna i idempotentna. Wykażemy, że P jest macierzą rzutu ortogonalnego na podprzestrzeń CP = {Px : x ∈ Rn }, podprzestrzeń kolumnową macierzy P. W tym celu wystarczy pokazać, że jeśli b ∈ Rn , to Pb ∈ CP (co jest oczywiste) i wektor b − Pb jest ortogonalny do każdego wektora Px z przestrzeni CP . Ponieważ P2 = P = PT , więc dla iloczynu skalarnego wektorów b − Pb i Px mamy (b − Pb)T Px
= =
((I − P)b)T Px = bT (I − P)T Px = bT (IT − PT )Px bT (I − P)Px = bT (P − P2 )x = bT 0x = 0
i to dowodzi, że wektory b − Pb i Px są ortogonalne.
4 2 Przykład 215. Czy macierz P = 2 1 na pewną podprzestrzeń przestrzeni R2 ? Ponieważ P2 =
4 2 2 1
2
=
jest macierzą rzutu ortogonalnego
20 10 10 5
6= P,
macierz P nie jest idempotentna i nie może być macierzą rzutu ortogonalnego na żadną podprzestrzeń przestrzeni R2 .
9.7. Metoda najmniejszych kwadratów W tej części zajmujemy się aproksymacją wektora b z przestrzeni Euklidesa V wektorem z podprzestrzeni W ⊂ V . Poszukujem wektora x należącego do podprzestrzeni W takiego, że odległość pomiędzy wektorami b i x, czyli norma ||b − x||, jest najmniejsza z możliwych. W przypadku takiej aproksymacji wektor b−x nazywa się wektorem błędu (jaki popełnia się zastępując wektor b wektorem x), a jego długość ||b−x|| – wielkością błędu aproksymacji. Następne twierdzenie zapewnia, że wektor projW b, czyli rzut ortogonalny wektora b na podprzestrzeń W , jest najlepszą (ze względu na odległość) aproksymacją wektora b wektorami należącymi do podprzestrzeni W .
9.8. Najlepsze rozwiązanie układu równań
207
Twierdzenie 9.7.1. Jeśli b jest rzutem ortogonalnym wektora b na podprzee ∈ W różnego od b strzeń W przestrzeni Euklidesa V , to dla każdego wektora b zachodzi nierówność e ||b − b|| < ||b − b||, (9.29)
Twierdzenie o najlepszej aproksymacji
czyli odległość pomiędzy wektorem b i podprzestrzenią W jest odległością pomiędzy wektorem b i jego rzutem ortogonalnym b na podprzestrzeń W , e = ||b − b||. d(b, W ) = min ||b − b|| e b∈W
e będzie dowolnym wektorem ze zbioru W − {b}. Wtedy b − b e ∈ Dowód. Niech b e W − {0} i ||b − b|| > 0. Z definicji rzutu ortogonalnego wektor b − b jest ortogonalny e (zob. do podprzestrzeni W , więc w szczególności jest on ortogonalny do wektora b − b rys. 9.11). Stąd i z twierdzenia Pitagorasa (tw. 9.2.1) mamy
O
e||2 = ||(b − b) + (b − b e)||2 = ||b − b||2 + ||b − b e||2 > ||b − b||2 ||b − b
i to implikuje nierówność (9.29).
b−b
i
9.8. Najlepsze rozwiązanie układu równań Dany jest układ równań liniowych a11 x1 + a12 x2 + . . . + a1n xn = b1 , a21 x1 + a22 x2 + . . . + a2n xn = b2 , .. .. .. . . . am1 x1 + am2 x2 + . . . + amn xn = bm , czyli układ Ax = b, gdzie a11 a21 A= . ..
am1
a12 . . . a1n a22 . . . a2n . .. . .. am2 . . . amn
i b=
b1 b2 .. . bm
e b−b
b
] b
e b
W
0
Rys. 9.11. projW b jest najlepszą aproksymacją wektora b.
.
W wielu konkretnych przypadkach taki układ Ax = b nie ma rozwiązania. W takiej sytuacji możemy (a często musimy) wyznaczyć tzw. najlepsze rozwiązanie, czyli taki wektor x, że odległość pomiędzy wektorami Ax i b jest najmniejsza z możliwych. Definicja 9.8.1. Najlepszym rozwiązaniem układu Ax = b nazywamy wektor x ∈ Rn taki, że dla każdego x ∈ Rn jest ||Ax − b|| ¬ ||Ax − b||.
x – najlepsze rozwiązanie układu Ax = b
Ponieważ {Ax : x ∈ Rn } jest przestrzenią kolumnową macierzy A, {Ax : x ∈ Rn } = CA , więc wektor x jest najlepszym rozwiązaniem układu Ax = b wtedy i tylko wtedy, gdy Ax jest tym wektorem z podprzestrzeni CA , który leży najbliżej wektora b. Z twierdzenia 9.7.1 wynika, że tak jest wtedy i tylko wtedy, gdy Ax jest rzutem ortogonalnym wektora b na podprzestrzeń CA , tj. wtedy i tylko wtedy, gdy Ax = b, gdzie b = projCAb, zob. rys. 9.12. Ostatni warunek jest równoważny ortogonalności wektora b−b = b−Ax i podprzestrzeni CA , czyli ortogonalności wektora b − Ax do każdej kolumny macierzy A. Na to potrzeba i wystarcza, aby zachodziła równość AT (b − Ax) = 0. Stąd zaś wynika następujące twierdzenie o najlepszych rozwiązaniach układu równań liniowych.
b−b
CA
6
b
- b=Ax 6
x
Rys. 9.12
Rn
208
9. Iloczyn skalarny Twierdzenie 9.8.1. Zbiór najlepszych rozwiązań układu równań liniowych Ax = b jest identyczny ze zbiorem rozwiązań układu ATA x = AT b.
Normalny układ równań
Metoda najmniejszych kwadratów
(9.30)
Wyżej przedstawiony sposób wyznaczania najlepszego rozwiązania układu równań liniowych Ax = b poprzez rozwiązywanie układu równań ATA x = AT b, zwanego normalnym układem równań (odpowiadających układowi Ax = b), nazywa się metodą najmniejszych kwadratów. Przykład 216. Za pomocą normalnego układu równań wyznaczyć najlepsze rozwiązanie układu równań liniowych Ax = b, gdy x + y + z = 1, 2x − y + z = 1, 3x − 3y + z = 2.
Układowi Ax = b odpowiada normalny układ równań ATAx = AT b, w którym ATA =
"
1 2 3 1 −1 −3 1 1 1
i T
A b=
"
#"
1 1 1 2 −1 1 3 −3 1
1 2 3 1 −1 −3 1 1 1
#"
#
=
1 1 2
#
"
=
14 −10 6 −10 11 −3 6 −3 3
"
9 −6 4
#
#
.
Ponieważ dla macierzy rozszerzonej układu ATAx = AT b mamy T
T
[A A|A b] =
"
14 −10 6 9 −10 11 −3 −6 6 −3 3 4
#
∼
"
1 0 2/3 13/18 0 1 1/3 1/9 0 0 0 0
#
,
więc rozwiązaniem układu ATAx = AT b i najlepszym rozwiązaniem układu Ax = b jest każdy wektor " # " # 13 2 1 x= 2 +t 1 , 18 0 0 gdzie t ∈ R.
9.9. Dopasowanie prostej Zajmiemy się teraz prostym, lecz bardzo ważnym i często spotykanym w praktycznych zastosowaniach zagadnieniem najlepszego dopasowania prostej do danego zbioru punktów płaszczyzny. Niech (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) będą punktami z płaszczyzny R2 takimi, że nie wszystkie liczby x1 , x2 , . . . , xn są równe. Chcemy wyznaczyć prostą y = ax+b, która w sensie metody najmniejszych kwadratów najlepiej pasuje do danych punktów. Jej współczynniki a i b dobieramy w taki sposób aby suma n X i=1
d2i =
n X i=1
(axi + b − yi )2 ,
w której di = |axi +b−yi | jest odległością pomiędzy punktami (xi , yi ) i (xi , axi + b) (zob. rys. 9.13), była najmniejsza z możliwych. Ostatnia suma jest najmniejsza
9.9. Dopasowanie prostej
209
wtedy i tylko wtedy, gdy (a, b) jest najlepszym (w sensie metody najmniejszych kwadratów) rozwiązaniem układu równań liniowych ax1 + b = y1 ax2 + b = y2 .. y 6 . axn + b = yn , czyli układu Ax = b, w którym x1 1 x2 1 A = . . , .. ..
d1
x=
xn 1
a b
i b=
y1 y2 .. . yn
(xi ,yi ) di (xi ,axi +b) dn y=ax+b
.
x1
xi xj
-
xn
x
Rys. 9.13
Wobec twierdzenia 9.8.1 najlepsze rozwiązanie (a, b) układu Ax = b można wyznaczyć z normalnego układu równań ATAx = AT b, w którym x1 1 2 x1 . . . x n x2 1 x1 + . . . + x2n x1 + . . . + xn T A A= = 1 . . . 1 ... ... x1 + . . . + x n n xn 1
i
T
A b=
x1 . . . x n 1 ... 1
y1 y2 .. . yn
Bez trudu można zauważyć, że
det (ATA) =
x1 y 1 + . . . + x n y n . = y1 + . . . + y n X
1¬i
(xi − xj )2
i ostatnia suma jest niezerowa, jeśli tylko nie wszystkie liczby x1 , . . . , xn są równe. Stąd zaś wynika, że układ ATAx = AT b ma dokładnie jedno rozwiązanie (a układ Ax = b ma dokładnie jedno najlepsze rozwiązanie), jeśli tylko nie wszystkie liczby x1 , . . . , xn są równe. Przykład 217. Wyznaczyć najlepszą liniową zależność y = ax + b pomiędzy współrzędnymi xi i yi punktów (0, 0), (2, 2), (4, 2) i (6, 4). Współczynniki a i b szukanej prostej tworzą najlepsze rozwiązanie układu równań liniowych Ax = b, gdzie
0 2 A= 4 6
1 1 , 1 1
x=
a b
0 2 b = . 2 4
i
Najlepsze rozwiązanie układu Ax = b wyznaczamy z normalnego układu równań ATAx = AT b. Mamy A TA
AT b
=
=
0 0 2 4 6 2 1 1 1 1 4 6
1 1 56 12 = , 1 12 4 1
6 y = 35 x +
0 0 2 4 6 2 36 = 1 1 1 1 2 8 4
y
-
x
Rys. 9.14
1 5
210
9. Iloczyn skalarny i x=
a b
T
= A A
−1
1 A b= 80 T
4 −12 −12 56
36 8
=
3/5 . 1/5
Zatem y = 53 x+ 15 jest najlepszą liniową zależnością pomiędzy współrzędnymi punktów (0, 0), (2, 2), (4, 2) i (6, 4), zob. rys. 9.14.
9.10. Macierz i przekształcenie ortogonalne
Macierz ortogonalna
Definicja 9.10.1. Mówimy, że rzeczywista macierz A wymiaru n × n jest macierzą ortogonalną, jeśli A TA = I n . (9.31) Z (9.31) jest oczywiste, że A jest macierzą ortogonalną wtedy i tylko wtedy, gdy A jest odwracalna i A−1 = AT . (9.32) Dodatkowo, ponieważ det AT = det A i det ATA = det AT det A, więc z (9.31) otrzymujemy (det A)2 = det AT det A = det ATA = det In = 1 i stąd wynika, że wartość wyznacznika macierzy ortogonalnej jest równa jeden lub minus jeden. Warto także zauważyć, że jeżeli a1 , a2 , . . . , an są kolumnami macierzy A, to mamy T − aT1 − a1 a1 aT1 a2 · · · aT1 an | − aT2 − | | aT2 a1 aT2 a2 · · · aT2 an ATA = a1 a2 · · · an = .. .. .. .. , .. | | . . . . . | − aTn − aTn a1 aTn a2 · · · aTn an
więc równość (9.31) (i (9.32)) zachodzi wtedy i tylko wtedy, gdy 0, jeśli j 6= i, aTi aj = 1, jeśli j = i,
tj. wtedy i tylko wtedy, gdy kolumny macierzy A tworzą bazę ortonormalną przestrzeni Rn . Ponieważ równość (9.31) (i (9.32)) zachodzi wtedy i tylko wtedy, gdy (AT )TAT = AAT = In , więc także macierz AT jest ortogonalna, a to ma miejsce wtedy i tylko wtedy, gdy jej kolumny (które są wierszami macierzy A) tworzą bazę ortonormalną przestrzeni R n . Stąd mamy następujące twierdzenie. Twierdzenie 9.10.1. Jeśli A jest rzeczywistą macierzą wymiaru n × n, to następujące stwierdzenia są równoważne: (a) wiersze macierzy A tworzą bazę ortonormalną przestrzeni R n ; (b) kolumny macierzy A tworzą bazę ortonormalną przestrzeni R n ; (c) macierz A jest ortogonalna, tj. A jest odwracalna i A−1 = AT . Przykład 218. Pokazać, że macierz 3 0 4 1 −4 0 3 A= 5 0 5 0
9.10. Macierz i przekształcenie ortogonalne
211
jest ortogonalna i wyznaczyć macierz A−1 . Ponieważ mamy 1 A A= 25 T
"
3 0 4
−4 0 3
0 5 0
#"
3 −4 0
0 0 5
4 3 0
#
=
"
1 0 0
0 1 0
#
0 0 , 1
więc macierz A jest ortogonalna i A
−1
1 =A = 5 T
"
3 0 4
−4 0 3
#
0 1 . 0
Następne twierdzenie pokazuje, że przekształcenie liniowe TA określone przez macierz ortogonalną A, przekształcając wektory, zachowuje ich iloczyn skalarny, więc także długości wektorów i kąty pomiędzy wektorami. Twierdzenie 9.10.2. Niech A będzie macierzą ortogonalną stopnia n i niech x oraz y będą wektorami z przestrzeni R n . Wtedy (a) (Ax)T (Ay) = xT y,
(zachowanie iloczynu skalarnego)
(b) ||Ax|| = ||x||,
(zachowanie długości wektorów)
(c) ∠(Ax, Ay) = ∠(x, y).
(zachowanie kąta pomiędzy wektorami)
Dowód. (a) Ponieważ A A = In , więc mamy (Ax)Tp (Ay) = xT ATAy = x T In y √ = xT y. (b) Z definicji normy oraz z (a) mamy ||Ax|| = (Ax)T (Ax) = xT x = ||x||. (c) Z definicji miary kąta pomiędzy wektorami (zob. def. 9.2.1) oraz z (a) i (b) mamy T
∠(Ax, Ay) = arccos
(Ax)T (Ay) ||Ax||||Ay||
= arccos
xT y ||x||||y||
= ∠(x, y).
Okazuje się, co dowodzimy w następnym twierdzeniu, że własność (a) z twierdzenia 9.10.2 jest także warunkiem dostatecznym ortogonalności macierzy. Twierdzenie 9.10.3. Macierz A wymiaru n × n jest macierzą ortogonalną wtedy i tylko wtedy, gdy (Ax)T (Ay) = xT y dla każdych dwóch wektorów x i y z przestrzeni Rn . Dowód. Załóżmy, że xT AT Ay = (Ax)T (Ay) = xT y, czyli xT (AT A − In )y = 0 dla każdych wektorów x, y ∈ Rn . Wtedy także dla każdego wektora y ∈ Rn i dla T wektora x = (AT A − In )y mamy (AT A − In )y · (AT A − In )y = 0, co wobec własności iloczynu skalarnego (zob. def. 9.1.1) ma miejsce wtedy i tylko wtedy, gdy (AT A − In )y = 0 dla każdego y ∈ Rn . Stąd AT A − In = 0 i dlatego macierz A jest ortogonalna. Odwrotna implikacja była treścią twierdzenia 9.10.2 (a).
Pokażemy teraz, że macierz A jest ortogonalna wtedy i tylko wtedy, gdy przekształcenie TA = Ax przekształca bazę ortonormalną w bazę ortonormalną. Twierdzenie 9.10.4. Jeśli A jest macierzą wymiaru n × n i układ wektorów (a1 , a2 , . . . , an ) jest bazą ortonormalną przestrzeni R n , to macierz A jest ortogonalna wtedy i tylko wtedy, gdy układ wektorów (Aa1 , Aa2 , . . . , Aan ) jest bazą ortonormalną przestrzeni Rn . Dowód. Konieczność warunku wynika z twierdzenia 9.10.2. Dla dowodu dostateczności zakładamy, że (a1 , . . . , an ) oraz (b1 , . . . , bn ) = (Aa1 , . . . , Aan ) są bazami ortonorT malnymi przestrzeni Rn . Wobec twierdzenia 9.10.3 wystarczy (Ay) Pn pokazać, że P(Ax) n T n = x y dla każdych x, y ∈ R . Zauważmy, że jeśli x = i=1 xi ai i y = j=1 yj aj , to Pn wobec ortonormalności bazy (a1 , a2 , . . . , an ) jest xT y = i=1 xi yi . Jednocześnie, po Pn Pn Pn Pn nieważ Ax = A x a = i=1 xi Aai = i=1 xi bi i podobnie Ay = j=1 yj bj , i=1 i i więcPtym razem wobec ortonormalności bazy (b1 , b2 , . . . , bn ) mamy (Ax)T (Ay) n = x y = xT y i to kończy dowód twierdzenia. i=1 i i
212
9. Iloczyn skalarny
Przykład 219. Z ostatniego twierdzenia łatwo wynika, że macierz obrotu płaszczyzny wokół punktu (0, 0) o kąt α, czyli macierz cos α sin α , − sin α cos α jest ortogonalna. (To samo stwierdzenie jest także oczywistą konsekwencją definicji 9.10.1 i/lub twierdzenia 9.10.1.)
Przekształcenie ortogonalne
Definicja 9.10.2. Niech V będzie przestrzenią wektorową z iloczynem skalarnym ( · | · ). Przekształcenie liniowe T : V → V nazywamy przekształceniem ortogonalnym, gdy dla każdych wektorów x, y ∈ V jest T (x)|T (y) = (x|y). (9.33) Związek przekształcenia ortogonalnego z macierzą ortogonalną przedstawia następujące twierdzenie.
Twierdzenie 9.10.5. Niech B będzie baza ortonormalną przestrzeni wektorowej V . Przekształcenie liniowe T : V → V jest ortogonalne wtedy i tylko wtedy, gdy jego macierz [T ]B jest ortogonalna. Dowód. Niech B = (b1 , . . . , bn ) będzie bazą ortonormalną przestrzeni wektorowej V i niech [T ]B = [T (b1 )]B . . . [T (bn )]B = [aij ] będzie macierzą przekształcenia T względem bazy B. Z własności iloczynu skalarnego, liniowości przekształcenia T i z ortonormalności bazy B mamy (bk |bl ) = δkl , gdzie δkl =
T (bi )|T (bj )
0, gdy k = 6 l 1, gdy k = l
n X
=
n X aki bk alj bl
k=1 n n
=
XX
l=1
aki alj δkl =
k=1 l=1
!
n X
=
n X n X k=1 l=1
aki alj (bk |bl )
aki akj = [T (bi )]T [T (bj )].
k=1
Z drugiej strony z ortonormalności bazy B i z ortogonalności przekształcenia T (zob. definicję (9.10.2) mamy
T (bi )|T (bj ) = (bi |bj ) = δij . Stąd wynika, że kolumny macierzy [T ]B tworzą bazę ortonormalną przestrzeni Rn , więc macierz [T ]B jest ortogonalna. Załóżmy teraz, że macierz [T ]B jest ortogonalna. Wtedy
T (bi )|T (bj ) = [T (bi )]T [T (bj )] = δij = (bi |bj ). Zatem dla dowolnych wektorów x = T (x)|T (y)
=
n X i=1
=
Pn
i=1
xi bi oraz y =
n X xi T (bi ) yj T (bj )
n n X X i=1 j=1
j=1
xi yj (bi |bj ) =
!
n X i=1
i dlatego T jest przekształceniem ortogonalnym.
=
Pn
j=1
n n X X i=1 j=1 n
yj bj mamy (9.33), bo
xi yj T (bi )|T (bj )
X xi bi yj b j j=1
!
= (x|y),
9.11. Ćwiczenia
213
Przykład 220. Zbadać ortogonalność przekształcenia T : R 3 → R3 , gdzie 1 T (x, y, z) = √ (x + z, y, x − z). 2
Macierzą przekształcenia T względem bazy kanonicznej E przestrzeni R 3 jest
1 √0 1 1 [T ]E = √ 0 2 0 . 2 1 0 −1
Ponieważ kolumny macierzy [T ]E tworzą ortonormalną bazę przestrzeni R3 , więc macierz [T ]E jest ortogonalna, a przekształcenie T jest ortogonalne.
9.11. Ćwiczenia 1. W przestrzeni R3 ze standardowym iloczynem skalarnym dane są wektory x = (6, −2, 3) i y = (1, 2, −3). x Obliczyć następujące wielkości: (x|y), (x|x), ||x||, ||x| , | d(x, y) i
(x|y) y. (y|y)
(a) B =
"
1 1 1
# "
"
1 −1 0
,
1 −1 0
# "
# "
2 2 −1
,
1 0 −1
# "
1 1 4
#! #!
ix=
"
1 2 3
#
"
3 2 1
#
;
(b) B = , , ix= ; 2. W przestrzeni R3 z bazą B = (1, −2, 3), (0, 1, 2), (0, 0, 1) iloczyn skalarny określony jest wzo" # " # " #! " # 2 2 1 1 rem (x|y) = [x]TB [y]B . Obliczyć (x|y), ||x||, ||y|| i ||x + −2 , 1 , 2 (c) B = ix= 0 . y||, gdy x = (1, −4, −1) i y = (3, −6, 10). 1 −2 2 2 3. W przestrzeni C(h0; 1i) iloczyn skalarny określony R1 jest wzorem (f |g) = 0 f (x)g(x) dx. Obliczyć (f |g), 9. Metodą Grama-Schmidta wyznaczyć bazę ortogonalną podprzestrzeni W przestrzeni R4 (ze standardo||f ||, ||g|| i ||f − g||, gdy f (x) = x i g(x) = ex . wym iloczynem skalarnym), gdy: 4. Niech x, y i z będą wektorami z przestrzeni Euklidesa takimi, że (x|y) = 2, (x|z) = −3, (y|z) = 2, ||x|| = 1, (a) W = L (1, 0, 1, 0), (1, 1, 0, 1), (0, 1, 1, 1) ; ||y|| = 2 i ||z|| = 3. Obliczyć: (a) (x + y|y + z); (b) (b) W = L (1, 2, 2, −1), (1, 1, −5, 3), (3, 2, 8, −7) . (x − y + 3z|2x + y); (c) ||x + y||; (d) ||x − 2y + 4z||. 10. Metodą Grama-Schmidta w przestrzeni Rn (ze stan5. Dana jest macierz A ∈ R2×2 i funkcja f : R2 × R2 → dardowym iloczynem skalarnym) utworzyć bazę ortoR, która wektorom x i y z przestrzeni R2 przypogonalną z następującej bazy: T rządkowuje liczbę f (x, y) = x Ay. Sprawdzić, czy # " #! " # " 1 1 1 funkcja ta skalarnym, 1 0 jest iloczynem gdy: ; 0 , 1 (a) , ; (b) 1 , 1 1 2 1 1 4 1 −1 0 (a) A = ; (b) A = ; 1 0 −1 0 1 1 1 13 1 1 1 1 (c) A = ; (d) A = . 2 1 −2 7 2 1 1 −1 (c) , , , . 3 1 1 1 6. Niech w1 , . . . , wn będą dodatnimi liczbami rzeczywi−1 6 0 0 stymi. Wykazać, że funkcja (·|·) : Rn × Rn → R jest 11. Metodą Grama-Schmidta w przestrzeni V z iloczyiloczynem skalarnym, gdy nem skalarnym (·|·) z bazy C utworzyć bazę ortonormalną C 0 i wyznaczyć współczynniki Fouriera wekto(x|y) = w1 x1 y1 + . . . + wn xn yn ra x0 względem bazy C 0 , gdy: dla każdych wektorów x = (x1 , . . . , xn ) i y = (a) V = R2 , (x|y) = xT y, C = (1, 1), (1, 2) i x0 n T (y1 , . . . , yn ) z przestrzeni R . = (3, 4); (b) V = R3 , (x|y) = [x]C [y]C , gdzie C 7. Opisać, jak wyznacza się współrzędne wektora wzglę= (1, 0, 1), (0, 1, 1), (1, 1, 1) i x0 = (1, −1, 0); (c) V dem bazy ortogonalnej. Następnie wektor (1, 2, 3) R1 = R2 [x], (f |g) = 0 f (t)g(t) dt, C = (1, x, x2 ) i f0 (x) przedstawić jako kombinację liniową wektorów or= 1 + x2 . togonalnej bazy (1, −2, 1), (2, 1, 0), (−1, 2, 5) prze3 12. Wskazać ortogonalną bazę przestrzeni R4 zawierająstrzeni R . cą wektory (1, 2, −1, 0) i (2, −1, 0, 1). 8. Pokazać, że układ B = (x1 , x2 , x3 ) jest bazą ortogonalną przestrzeni R3 (ze standardowym iloczynem 13. W przestrzeni R3 ze standardowym iloczynem skaskalarnym) i wektor x zapisać jako kombinację Folarnym wyznaczyć ortogonalne dopełnienia zbiorów uriera względem układu (x1 /||x1 ||, x2 /||x2 ||, x3 /||x3 ||), S1 = {(1, 1, 1)}, S2 = {(1, 1, 1), (1, 2, −1)} i S3 = gdy: {(x, y, z) ∈ R3 : x = 0 i y + z = 0}.
214
9. Iloczyn skalarny
14. W przestrzeni R4 wyznaczyć bazę ortogonalnego do5 3 2 pełnienia podprzestrzeni generowanej przez wektory: −1 1 −1 (b) b = i W = L , . (a) (2, 0, 1, 2), (1, 0, 0, 1) i (3, 0, 1, 3); 1 −1 1 (b) (1, 0, 2, 1), (2, 1, 2, 3) i (0, 1, −2, 1). 1 2 −2 15. W przestrzeni R4 wyznaczyć ortogonalną bazę orto- 23. Znaleźć najlepsze rozwiązanie sprzecznego układu gonalnego dopełnienia podprzestrzeni S generowanej równań: ( ( x + 2y = 4, 2x = 1, przez wektory (1, 2, 3, 1) i (0, 0, 1, 2). (a) x + y = 5, (b) y = 2, 16. Znaleźć bazę, wymiar i samo ortogonalne dopełnienie 3x + 5y = 12; 2x + 2y = 3. L⊥ podprzestrzeni L ⊆ R4 , która jest zbiorem rozwią4 24. W przestrzeni R dane są wektory zań następującego jednorodnego układu równań ( 2x1 + x2 + 3x3 − x4 = 0, 7 1 8 3x1 + 2x2 − 2x4 = 0, 1 −6 −6 i b= . v1 = , v 2 = 3x1 + x2 + 9x3 − x4 = 0. 1 2 4 17. Wskazać ortonormalną bazę jądra przekształcenia li0 −5 1 niowego T : R3 → R, gdzie T (x, y, z) = 2x + y + (a) Algorytmem Grama-Schmidta dokonać ortogona3z. Następnie wyznaczyć rzut ortogonalny wektora lizacji układu (v1 , v2 ). (b) Wyznaczyć rzut ortogo(1, 1, 0) na podprzestrzeń Ker T . Dodatkowo, obliczyć nalny wektora b na podprzestrzeń V = L(v1 , v2 ). kąt pomiędzy wektorem (1, 1, 0) i płaszczyzną Ker T . (c) Wskazać macierz A, której przestrzenią zerową 18. Znaleźć rzut ortogonalny wektora b = (1, 2, 2, 7) na jest przestrzeń L(v1 , v2 ). płaszczyznę x + y + z + u = 0. 19. Wyznaczyć rzut ortogonalny wektora b na podprze- 25. Szukamy prostej y = Cx + D najbliższej punktom (0, −1), (1, 2) i (2, −1). (a) Metodą najmniejstrzeń W przestrzeni Rn (ze standardowym iloczyszych kwadratów wyznaczyć współczynniki C i D. nem skalarnym), gdy: (b) Wyjaśnić jak ma się wektor b = (−1, 2, −1) do 2 3 (a) b = ,W =L ; płaszczyzny, na którą rzutowano? (c) Wyznaczyć dłu1 −2 gość wektora błędu e (= odległość od płaszczyzny " # " # " #! 2 3 1 = ||b − Ax||). (b) b = 3 , W = L −1 , −1 ; 26. Wyznaczyć najlepszą (w sensie metody najmniej4 2 −2 szych kwadratów) zależność postaci y = ax+b między 4 1 −1 1 współrzędnymi xi oraz yi punktów (1, 2), (2, 3), (3, 5) i (4, 7). 0 1 0 −3 (c) b = , W = L , , ; 1 0 1 −1 27. Rozwiązaniem sprzecznego układu równań Ax = b, " # " # 1 0 3 2 1 1 2 x 1 1 4 gdzie A = i b = , jest macierz = 1 1 1 y 1 2 1 −1 0 2 (d) b = , W = L , . 11/3 1 2 0 . (a) Wskazać rzut ortogonalny b wektora −1 −1 1 2 b na przestrzeń kolumnową macierzy A. (b) Wyzna20. W przestrzeni V z podanym iloczynem skalarnym czyć bazę ortonormalną (q1 , q2 ) przestrzeni kolumwyznaczyć (1) rzut ortogonalny wektora b na podnowej macierzy A. (c) Wyznaczyć macierz P rzutu przestrzeń W i (2) odległość d pomiędzy wektorem ortogonalnego na przestrzeń kolumnową macierzy A. b i podprzestrzenią W , gdy: (a) V = R2 ze stanWyznaczyć rozwiązanie układu dardowym iloczynem skalarnym, b = (4, 7), W = 28. x1 + x 2 + x 3 = 0 {(x, y) : x = 2y}; (b) V = R3 ze standardowym ilo2x1 + 2x2 + 2x3 + 3x4 = 0 czynem skalarnym, b = (14, 3, 2), W = {(x, y, z) : x+ T 2y − 2z = 0}; (c) V = R2 [x] z iloczynem skalarnym najbliższe wektorowi b = 1 1 1 1 . R1 2 " # " # (f |g) = 0 f (t)g(t) dt, b = 1 + 3x + 2x , W = R1 [x]. 1 1 1 21. (a) Wyznaczyć rzut ortogonalny wektora b = (1, 2, 3) 29. Dane są macierze A = 2 −1 i b = 2 . na płaszczyznę π zawierającą wektory a1 = (2, 2, −1) −2 4 7 (a) Wskazać trzy ortonormalne wektory x1 , x2 i x3 i a2 = (2, −1, 2). (b) Metodą Grama-Schmidta takie, że układ (x1 , x2 ) jest bazę przestrzeni kolumnootrzymać ortonormalny układ wektorów (q1 , q2 , q3 ) wej CA macierzy A. (b) Która z podprzestrzeni NA , z układu (a1 , a2 , b). (c) Znaleźć macierz P rzutu na NAT , CA i CAT zawiera wektor x3 ? (c) Wyznaczyć płaszczyznę π. macierz P rzutu na podprzestrzeń NAT . (d) Wyzna22. Wyznaczyć: (1) najlepszą aproksymację wektora b czyć najlepsze rozwiązanie równania Ax = b. wektorami z podprzestrzeni W (czyli wyznaczyć wek" # 1 2 −3 tor b0 ∈ W taki, że ||b−b0 || = min{||b−x|| : x ∈ W }); 2 1 −3 jest odwracal(2) wektor błędu tej aproksymacji; (3) wielkość błędu 30. (a) Czy macierz A = 2 2 −4 tej aproksymacji oraz (4) odległość pomiędzy wektona? (b) Wskazać bazę ortonormalną przestrzeni korem b i podprzestrzenią W , gdy: # " #! # " " lumnowej macierzy A. (c) Dlaczego macierz P = 3 2 1 A(AT A)−1 AT nie jest macierzą rzutu na przestrzeń ; 1 , 2 (a) b = 29 i W = L kolumnową macierzy A? 2 −1 1
9.11. Ćwiczenia
215
31. Pokazać, że w przestrzeni wektorowej V z iloczynem 46. Wykazać, że jeśli macierz A jest macierzą ortogonalskalarnym (·|·) dla każdych wektorów x i y jest ną wymiaru n × n, to ||Ax|| = ||A−1 x|| dla każdego wektora x ∈ Rn . (x|y) = 14 ||x + y||2 − ||x − y||2 . 47. Zbadać ortogonalność następujących przekształceń liniowych: (a) T (x, y)√= (y, 32. Niech f (·, ·) i g(·, ·) będą iloczynami skalarnymi √x); (b) T (x, y) = (x, −y); (c) T (x, y) = 12 (x − 3y, 3x + y); (d) T (x, y, z) = w przestrzeni wektorowej V . Wykazać, że funkcja (3/3+2y/3+2z/3, −2x/3−y/3+2z/3, −2x/3+2y/3− h(·, ·) = f (·, ·) + g(·, ·) z/3). także jest iloczynem skalarnym w przestrzeni V . 33. Wykazać, że funkcja f : Rn×n × Rn×n → R jest 48. Niech V będzie przestrzenią wektorową z iloczynem skalarnym ( · | · ) i niech B = (a1 , a2 , a3 ) będzie bazą iloczynem skalarnym, gdy f (A, B) = tr (ABT ). ortonormalną przestrzeni V . Niech T : V → V bę34. Indukcyjnie udowodnić, że jeśli wektory v1 , . . . , vn są dzie takim przekształceniem, że T (x) = (x|a)a, gdzie wzajemnie ortogonalne, to a ∈ V i [a]B = (1, −1, 3). (a) Pokazać, że T jest ||v1 ||2 + ||v2 ||2 + . . . + ||vn ||2 = ||v1 + v2 + . . . + vn ||2 . przekształceniem liniowym. (b) Znaleźć macierz [T ]B przekształcenia T . 35. Niech (v1 , . . . , vn ) będzie ortonormalnym układem 49. Wpisując TAK albo NIE, stwierdzić prawdziwość wektorów w przestrzeni Euklidesa. Udowodnić, że każdego z następujących zdań: √ 1 Jeśli x, y i z są wektorami z przestrzeni Eu||v1 + . . . + vn || = n. klidesa i (x|y) = (x|z), to y = z. 36. Za pomocą nierówności Schwarza udowodnić, że dla 2 Jeśli x jest wektorem z przestrzeni Euklidesa liczb rzeczywistych a, b i ϕ jest i (x|y) = 0 dla każdego wektora y, to x = 0. 3 W przestrzeni Rn istnieje tylko jeden iloczyn (a cos ϕ + b sin ϕ)2 ¬ a2 + b2 . skalarny. 37. Za pomocą nierówności Schwarza udowodnić, że dla 4 W przestrzeni R2 istnieje iloczyn skalarny (·|·) dodatnich liczb a1 , a2 , . . . , an jest względem którego wektory x = (1, 1) i y = (1, 2) są 1 1 1 (a1 + a2 + . . . + an ) + + ... + n2 . ortogonalne. a1 a2 an 5 Funkcja f : R2×2 × R2×2 → R jest iloczynem 38. Niech (v1 , . . . , vn ) będzie bazą ortonormalną przeskalarnym, gdy f (A, B) = tr (A + B) dla każdych strzeni V . Wykazać, że dla każdych wektorów x, y ∈ A, B ∈ R2×2 . V spełniona jest tzw. równość Parsevala (x|y) = 6 Metoda Grama-Schmidta umożliwia konstrukP n (x|vi )(y|vi ). Następnie cję ortogonalnego zbioru wektorów z dowolnego zbioi=1 Pnwykazać,2 że dla każdego wektora x ∈ V jest ||x|| = i=1 (x|vi ) . ru wektorów. 39. Niech (v1 , . . . , vn ) będzie układem ortonormalnych 7 Każda przestrzeń Euklidesa ma ortonormalną wektorów w przestrzeni Euklidesa V . Wykazać, że bazę. dla każdego x ∈ V zachodzi nierówność ||x||2 8 Ortogonalne dopełnienie każdego zbioru jest P n (x|vi )2 . Jest to tzw. nierówność Bessela i wypodprzestrzenią. i=1 raża ona fakt, że norma rzutu ortogonalnego wektora 9 Jeśli (b1 , . . . , bn ) jest bazą przestrzeni Euklix na podprzestrzeń nie jest większa od normy samego desa V i x ∈ V , to liczby (x|bi ) są współczynnikami wektora x. Fouriera wektora x. 40. Wykazać, że W ∩W ⊥ = {0} dla każdej podprzestrze10 Każdy zbiór ortonormalny jest liniowo niezani W przestrzeni Euklidesa. leżny. 41. Wykazać, że jeśli S i T są niepustymi zbiorami wek11 Każdy zbiór liniowo niezależnych wektorów torów w przestrzeni Euklidesa V , a W jest podprzejest ortogonalny. strzenią przestrzeni V , to prawdziwe są następujące 12 Dla każdych wektorów x i y z przestrzeni Eustwierdzenia: (a) S ⊥ jest podprzestrzenią przestrzeni klidesa mamy ||x + y||2 + ||x − y||2 = 2||x||2 + 2||y||2 . V ; (b) jeśli S ⊆ T , to T ⊥ ⊆ S ⊥ ; (c) S ⊆ (S ⊥ )⊥ ; 13 Jeśli U jest macierzą wymiaru n × p i b ∈ Rn , (d) W = (W ⊥ )⊥ ; (e) V = W ⊕ W ⊥ . to UUT b = b jest rzutem ortogonalnym wektora b 42. Niech U1 i U2 będą podprzestrzeniami przestrzeni na przestrzeń kolumnową macierzy U. Euklidesa. Udowodnić, że (U1 + U2 )⊥ = U1⊥ ∩ U2⊥ 14 Jeśli U jest macierzą wymiaru n × p i jej ko⊥ ⊥ ⊥ i (U1 ∩ U2 ) = U1 + U2 . lumny są ortogonalne, to UUT b = b dla każdego 43. Udowodnić, że 0 lub 1 jest wyznacznikiem macierzy n b∈R . rzutu. 15 Jeśli W jest podprzestrznią przestrzeni Eukli44. Wykazać, że jeśli macierze A i B z przestrzeni Rn×n desa V i b ∈ V , to b − projW b jest najlepszą aproksą ortogonalne, to także macierze AB i A2 są ortosymacją wektora b za pomocą wektorów z podprzegonalne. strzeni W. 45. Wykazać ortogonalność macierzy " # 16 Jeśli macierz A jest ortogonalna, to także ma1 −2a 2a2 1 cierze AT i A−1 są ortogonalne. A = 1+2a 2a 1 − 2a2 −2a 2 2 17 Jeśli A jest symetryczną macierzą ortogonalną, 2a 2a 1 dla każdej liczby a ∈ R. to A2 = I.
Rozdział 10
WARTOŚCI WŁASNE I WEKTORY WŁASNE 10.1. Wartości własne i wektory własne macierzy i operatora
λ – wartość własna
Definicja 10.1.1. Niech V będzie przestrzenią wektorową nad ciałem K (gdzie K = R albo K = C) i niech T : V → V będzie operatorem liniowym na przestrzeni V . Skalar λ ∈ K nazywamy wartością własną operatora T , jeśli istnieje niezerowy wektor v0 ∈ V taki, że T (v0 ) = λv0 .
v0 – wektor własny
z 3
W takim przypadku mówimy, że v0 jest wektorem własnym operatora T odpowiadającym wartości własnej λ. Geometryczny efekt działania operatora liniowego T : Rn → Rn na wektor własny v0 przedstawia rys. 10.1. Podobnie, skalar λ ∈ K nazywamy wartością własną macierzy kwadratowej A ∈ Kn×n , jeśli istnieje niezerowy wektor v0 ∈ K n , dla którego Av0 = λv0 .
T (v0 )=λv0
3 v0
(10.1)
(10.2)
Taki wektor v0 nazywamy wektorem własnym macierzy A odpowiadającym wartości własnej λ.
0
Rys. 10.1
Przykład 221. Niech V będzie przestrzenią wektorową nad ciałem K i niech λ będzie dowolnym elementem z ciała K. Jeśli T jest operatorem liniowym na przestrzeni V takim, że T (x) = λx, to każdy niezerowy wektor x ∈ V jest wektorem własnym operatora T odpowiadającym wartości własnej λ. Łatwo sprawdza się, czy dany wektor jest wektorem własnym macierzy (operatora). Równie łatwo bada się, czy dana liczba jest wartością własną macierzy (operatora). Przykład 222. Sprawdzić, czy wektor v0 = 1 2 cierzy A = . 2 1
Z równości
Av0 =
1 2 2 1
1 1
=
3 3
1 1
jest wektorem własnym ma-
1 1
=3
= 3v0
wynika, że wektor v0 jest wektorem własnym macierzy A odpowiadającym wartości własnej λ = 3.
Przykład 223. Sprawdzić, czy liczba λ = 4 jest wartością własną macierzy 4 0 1 A = −2 1 0 . −2 0 1
10.1. Wartości własne i wektory własne macierzy i operatora Ponieważ
0 0 1 0 det(A − 4I) = −2 −3 −2 0 −3
217
= −6 6= 0,
więc równanie (A − 4I)x = 0 (i równoważne z nim równanie Ax = 4x) ma tylko zerowe rozwiązanie. Stąd wynika, że liczba 4 nie jest wartością własną macierzy A.
∞ Przykład 224. Niech CR będzie przestrzenią funkcji f : R → R mających ∞ ∞ pochodne każdego rzędu. Niech T : CR → CR będzie funkcją taką, że T (f ) = f 0 ∞ dla f ∈ CR . ∞ Zauważmy, że funkcja f ∈ CR jest wektorem własnym operatora T odpowiadającym wartości własnej λ ∈ R wtedy i tylko wtedy, gdy
f 0 = T (f ) = λf, tj. wtedy i tylko wtedy, gdy f jest rozwiązaniem równania różniczkowego y 0 = λy. (Rozwiązaniem takiego równania jest funkcja f (t) = ceλt dla każdej stałej rzeczywistej c.) Po tych kilku przykładach ilustrujących pojęcie wartości własnej i wektora własnego macierzy i operatora liniowego wracamy do ogólnych rozważań. Przede wszystkim zauważmy, że zależność (10.2) można zapisać w postaci równości (A− λIn )v0 = 0. Stąd wynika, że wektor v0 ∈ K n jest wektorem własnym macierzy A odpowiadającym wartości własnej λ wtedy i tylko wtedy, gdy jest on niezerowym rozwiązaniem równania jednorodnego (A − λIn )x = 0.
(10.3)
Wartością własną macierzy A jest więc każda liczba λ, dla której równanie jednorodne (10.3) ma niezerowe rozwiązanie x. Z wniosku 6.5.2 wiadomo, że takie niezerowe rozwiązanie istnieje wtedy i tylko wtedy, gdy macierz A − λIn jest osobliwa, co ma miejsce wtedy i tylko wtedy, gdy det (A − λIn ) = 0.
(10.4)
Stąd otrzymujemy twierdzenie, z którego dalej korzystamy, wyznaczając wartości własne i wektory własne macierzy. Twierdzenie 10.1.1. (a) Liczba λ ∈ K jest wartością własną macierzy A ∈ Kn×n wtedy i tylko wtedy, gdy λ jest rozwiązaniem równania (10.4). (b) Wektor v ∈ K n jest wektorem własnym macierzy A ∈ Kn×n odpowiadającym wartości własnej λ wtedy i tylko wtedy, gdy v jest niezerowym rozwiązaniem równania (10.3). Dla macierzy A = [aij ]n×n równanie (10.4) przyjmuje postać a11 − λ a12 a21 a −λ 22 .. .. . . an1 an2
=0 . . . ann − λ
... ... .. .
a1n a2n .. .
i jego lewa strona, det (A − λIn ), jest wielomianem zmiennej λ. Wielomian ten nazywamy wielomianem charakterystycznym macierzy A, a równanie det (A − λIn ) = 0
Równanie charakterystyczne
218
det (A − λIn ) – wielomian charakterystyczny
10. Wartości własne – równaniem charaktrystycznym macierzy A. Można pokazać, że wielomian charakterystyczny det (A − λIn ) jest wielomianem stopnia n, det (A − λIn ) = (−1)n λn − a1 λn−1 + a2 λn−1 − . . . + (−1)n an ,
i każdy jego współczynnik ak jest sumą wszystkich minorów głównych1 stopnia k macierzy A. W szczególności mamy a1 = a11 + a22 + . . . + ann = tr (A)
i an = det (A).
Zatem dla macierzy A wymiaru 2 × 2, powiedzmy dla macierzy A = jest a−λ b det (A − λI2 ) = = (a − λ)(d − λ) − bc c d−λ
a b , c d
= λ2 − λ(a + d) + (ad − bc)
= λ2 − λ tr (A) + |A|.
Podobnie, jeśli A jest macierzą wymiaru 3 × 3, to
det (A − λI3 ) = − λ3 − λ2 tr (A) + λ |A11 | + |A22 | + |A33 | − |A| .
Przykład 225. Wyznaczyć wielomian charakterystyczny ϕ(λ) = det (A − λI 3 ) macierzy 4 −1 6 A = 2 1 6 . 2 −1 8 Mamy
ϕ(λ) =
−λ3 + λ2 (4 + 1 + 8) − λ
= −λ3 + 13λ2 − 40λ + 36.
Wielomian charakterystyczny operatora
1 6 −1 8
+
4 6 2 8
+
4 −1 2 1
+
4 −1 6 2 1 6 2 −1 8
Niech T : V → V będzie operatorem liniowym na skończenie wymiarowej przestrzeni wektorowej V i niech A będzie macierzą operatora T względem jakiejkolwiek bazy B przestrzeni V , czyli A = [T ]B . Twierdzimy, że wielomian det (A − λI) nie zależy od wyboru bazy przestrzeni V . Tak jest istotnie, bo jeśli C jest inną bazą przestrzeni V , to macierze [T ]B i [T ]C są podobne (zob. tw. 8.40) i wobec twierdzenia 6.4.1 wyznaczniki det ([T ]B − λI) i det ([T ]C − λI) są identyczne. Wielomian ϕ(λ) = det (A − λI), gdzie A jest macierzą operatora T względem dowolnej bazy przestrzeni V , nazywamy wielomianem charakterystycznym operatora T . Przykład 226. Wyznaczyć wielomian charakterystyczny operatora liniowego T : R2 → R2 , gdzie T (x1 , x2 ) = (2x1 + x2 , 3x1 − x2 ). Ponieważ macierzą operatora T względem bazy standardowej E przestrzeni R 2 jest 2 1 [T ]E = , 3 −1 1 Niech A będzie macierzą kwadratową stopnia n i niech i , i , . . . , i będą liczbami na1 2 k turalnymi takimi, że 1 ¬ i1 < i2 < . . . < ik ¬ n. Minorem głównym stopnia k macierzy A nazywamy wyznacznik macierzy kwadratowej stopnia k powstałej z macierzy A przez wykreślenie z niej wszystkich wierszy i wszystkich kolumn o numerach różnych od i1 , i2 , . . . , ik .
10.1. Wartości własne i wektory własne macierzy i operatora
219
więc wielomianem charakterystycznym operatora T jest 2−λ 1 = λ2 − λ − 5. ϕ(λ) = det ([T ]E − λI) = 3 −1 − λ
Dla macierzy A ∈ Cn×n równanie charakterystyczne det (A − λIn ) = 0 jest równaniem wielomianowym stopnia n i wobec zasadniczego twierdzenia algebry ma ono n (niekoniecznie różnych) rozwiązań zespolonych. Stąd wynika, że macierz kwadratowa stopnia n ma n (niekoniecznie różnych) zespolnych wartości własnych. Zbiór wszystkich wartości własnych macierzy A nazywamy widmem tej macierzy. Przykład 227. Znaleźć wartości własne macierzy A = Równaniem charakterystycznym macierzy A jest
5−λ
det (A − λI2 ) =
1
5 4 1 2
.
4 = (5 − λ)(2 − λ) − 4 = λ2 − 7λ + 6 = 0. 2−λ
Zatem wartościami własnymi macierzy A są liczby λ1 = 1 i λ2 = 6.
Przypomnijmy, że wobec twierdzenia 10.1.1 wektory własne macierzy A odpowiadające wartości własnej λ0 są niezerowymi rozwiązaniami równania (A − λ0 In )x = 0. Przykład 228. Wyznaczyć wartości własne i wektory własne macierzy A, gdy 2 0 4 A = 0 6 0 . 4 0 2
Rozwiązując równanie charakterystyczne det (A − λI3 ) = 0, znajdujemy najpierw wszystkie wartości własne macierzy A. Ponieważ
2−λ 0 4 6−λ 0 det (A − λI3 ) = 0 4 0 2−λ
= (6 − λ)(2 − λ)2 − 16(6 − λ) = (6 − λ)(λ + 2)(λ − 6),
więc wartościami własnymi macierzy A są λ1 = −2 i λ2 = λ3 = 6. Rozwiązując teraz równanie macierzowe (A − λi I3 )x = 0, znajdujemy wektory własne macierzy A odpowiadające wartości własnej λi . Dla λ1 = −2 wyznaczamy x = (x1 , x2 , x3 ) z równania (A − λ1 I3 )x = 0. Mamy [ A − λ1 I3 | 0 ] = [ A + 2I3 | 0] = Zatem x=
"
"
−x3 0 x3
4 0 4
#
0 8 0
,
4 0 4
# " 0 1 0 0 ∼ 0 1 0 0 0
x3 ∈ R,
jest rozwiązaniem równania (A − λ1 I3 )x = 0. Dlatego każdy wektor v1 = x 3
"
−1 0 1
#
,
x3 ∈ R − {0},
1 0 0
# 0 0 . 0
Widmo macierzy
220
10. Wartości własne jest wektorem własnym macierzy A odpowiadającym wartości własnej λ1 = −2. Dla λ2 = λ3 = 6 mamy [ A − λ2 I3 | 0 ] = [ A − 6I3 | 0 ] =
"
0 0 0
−4 0 4
4 0 −4
i każdy niezerowy wektor x=
"
x3 x2 x3
#
= x2
"
0 1 0
#
# " 0 1 0 ∼ 0 0 0
+ x3
"
1 0 1
0 0 0
#
−1 0 0
# 0 0 0
jest wektorem własnym macierzy A odpowiadającym wartości własnej λ2 = λ3 = 6. W szczególności wektory " # " # 0 1 v2 = 1 i v3 = 0 0 1 są wektorami własnymi macierzy A odpowiadającymi wartości własnej λ2 = λ3 = 6.
Następujące twierdzenie pokazuje, że istnieją ścisłe zależności pomiędzy wartościami i wektorami własnymi operatora liniowego, a wartościami i wektorami własnymi macierzy tego operatora. Zależności te bywają pomocne przy wyznaczaniu wartości własnych i wektorów własnych operatora liniowego. Twierdzenie 10.1.2. Niech T będzie operatorem liniowym na skończenie wymiarowej przestrzeni wektorowej V i niech [T ]B będzie macierzą operatora T względem bazy B przestrzeni V . (a) Liczba λ jest wartością własną operatora T wtedy i tylko wtedy, gdy λ jest wartością własną macierzy [T ]B . (b) Wektor v0 ∈ V jest wektorem własnym operatora T odpowiadającym wartości własnej λ wtedy i tylko wtedy, gdy wektor [v0 ]B jest wektorem własnym macierzy [T ]B odpowiadającym wartości własnej λ. Dowód. Obie części twierdzenia wynikają z następujących równoważności. Wektor v0 ∈ V jest wektorem własnym operatora T odpowiadającym wartości własnej λ ⇔ T (v0 ) = λv0 i v0 6= 0 (definicja 10.1.1) ⇔ [T (v0 )]B = [λv0 ]B i [v0 ]B 6= 0
(zob. dowód tw. 7.6.2)
⇔ [T ]B [v0 ]B = λ[v0 ]B i [v0 ]B 6= 0
(zob. tw. 8.5.1 i 7.6.1)
⇔ [v0 ]B jest wektorem własnym macierzy [T ]B odpowiadającym wartości własnej λ.
Przykład 229. Przekształcenie liniowe T : R2 [x] → R2 [x] określone jest wzorem T (a0 + a1 x + a2 x2 ) = (−14a0 + 4a1 − 14a2 ) + (−33a0 + 9a1 − 31a2 )x + (11a0 − 4a1 + 11a2 )x2 . Wyznaczyć jego wartości własne i wektory własne. Macierzą przekształcenia T względem bazy B = (1, x, x2 ) jest [T ]B =
"
−14 4 −14 −33 9 −31 11 −4 11
a dla jej wielomianu charakterystycznego mamy
−14 − λ 4 −14 −33 9 − λ −31 11 −4 11 − λ
=
#
,
−λ −14 −2 9 − λ4 −31 = 0 0 −3 − λ 4 = −(λ + 3)(λ2 − 9λ + 8) 9−λ
−λ 4 −14 −2 9 − λ −31 λ −4 11 − λ
= −(3 + λ)
−λ −2
= −(λ + 3)(λ − 1)(λ − 8).
10.2. Diagonalizowalność macierzy i operatora liniowego
221
Stąd wynika, że liczby λ1 = −3, λ2 = 1 i λ3 = 8 są wartościami własnymi operatora T (i macierzy [T ]B ). Rozwiązując równania ([T ]B − λi I3 )x = 0, stwierdzamy, że wektory [v1 ]B =
"
4 11 0
#
,
[v2 ]B =
"
4 1 −4
#
i
[v3 ]B =
"
1 2 −1
#
są wektorami własnymi macierzy [T ]B . Stąd i z ostatniego twierdzenia wynika, że wektory v1 = 4 + 11x, v2 = 4 + x − 4x2 i v3 = 1 + 2x − x2
(których wektorami B-współrzędnych są v1 , v2 i v3 ) są wektorami własnymi operatora T odpowiadającymi wartościom własnym λ1 = −3, λ2 = 1 i λ3 = 8.
10.2. Diagonalizowalność macierzy i operatora liniowego Definicja 10.2.1. Operator liniowy T na skończenie wymiarowej przestrzeni wektorowej V nazywamy diagonalizowalnym, jeśli istnieje baza B przestrzeni V taka, że macierz [T ]B jest diagonalna. Macierz kwadratową A nazywamy diagonalizowalną, jeśli jest ona podobna do macierzy diagonalnej. Tak jest wtedy i tylko wtedy, gdy istnieje macierz nieosobliwa P taka, że macierz P−1 AP jest macierzą diagonalną.
Diagonalizowalność operatora i macierzy
Przykład 230. Operator liniowy T (x1 , x2 ) = (4x1 + 2x2 , −3x1 + 11x2 ) na przestrzeni R2 jest diagonalizowalny, bo jego macierz [T ]B jest diagonalna dla bazy B = (b1 , b2 ) przestrzeni R2 , gdzie b1 = (2, 1) ib2 = (1, 3), h i h i [T ]B = [T (b1 )]B [T (b2 )]B = [T (2, 1)]B [T (1, 3)]B h i 5 0 = [(10, 5)]B [(10, 30)]B = . 0 10
4 2 (która jest macierzą operatora −3 11 T względem bazy standardowej przestrzeni R 2 ) jest diagonalizowalna i macierz 2 1 jest macierzą podobieństwa macierzy A do macierzy P = b1 b2 = 1 3 diagonalnej, bo mamy 1 3 −1 4 2 2 1 5 0 −1 P AP = = . −3 11 1 3 0 10 5 −1 2 Zauważmy, że także macierz A =
Mamy następujący związek diagonalizowalności operatora z diagonalizowalnością macierzy tego operatora. Twierdzenie 10.2.1. Jeśli T jest operatorem liniowym na skończenie wymiarowej przestrzeni wektorowej V i B jest bazą przestrzeni V , to operator T jest diagonalizowalny wtedy i tylko wtedy, gdy macierz [T ]B jest diagonalizowalna. Dowód. Załóżmy, że operator T jest diagonalizowalny. Wtedy istnieje baza B 0 przestrzeni V taka, że macierz [T ]B0 jest diagonalna. Stąd i z podobieństwa macierzy [T ]B i [T ]B0 (zob. tw. 8.7.3) wynika diagonalizowalność macierzy [T ]B . Załóżmy teraz, że macierz [T ]B jest diagonalizowalna. Wtedy jest ona podobna do pewnej macierzy diagonalnej D. Wobec twierdzenia 8.7.3 istnieje baza B 0 przestrzeni V taka, że D = [T ]B0 . Stąd wynika diagonalizowalność operatora T .
T – diagonalizowalny ⇔ [T ]B – diagonalizowalna
222
10. Wartości własne Wniosek 10.2.1. Macierz A jest diagonalizowalna wtedy i tylko wtedy, gdy operator TA jest diagonalizowalny. Ogólny warunek konieczny i dostateczny diagonalizowalności operatora liniowego (i macierzy) przedstawia następujace twierdzenie. Twierdzenie 10.2.2. Operator liniowy T na n-wymiarowej przestrzeni wektorowej V jest diagonalizowalny wtedy i tylko wtedy, gdy istnieje baza B = (v 1 , v2 , . . . , vn ) przestrzeni V składająca się z wektorów własnych operatora T . Dodatkowo, jeśli wektory własne v1 , v2 , . . . , vn odpowiadają wartościom własnym λ1 , λ2 , . . . , λn , to macierz [T ]B jest diagonalna i
[T ]B =
λ1 0 . . . 0 0 λ2 . . . 0 .. .. . . . . .. . . 0 0 . . . λn
.
Dowód. Operator T jest diagonalizowalny wtedy i tylko wtedy, gdy istnieje baza B = (v1 , v2 , . . . , vn ) przestrzeni V taka, że macierz [T ]B = [T (v1 )]B . . . [T (vn )]B jest diagonalna. Tak jest wtedy i tylko wtedy, gdy istnieją skalary λ1 , . . . , λn takie, że [T ]B =
"
| | | [T (v1 )]B [T (v2 )]B . . . [T (vn )]B | | |
#
λ1 0 0 λ2 = ... ... 0 0
... 0 ... 0 . . .. . .. . . . λn
Ostatnia równość zachodzi wtedy i tylko wtedy, gdy T (vi ) = λi vi dla i = 1, . . . , n, tj. wtedy i tylko wtedy, gdy każdy wektor vi bazy B jest wektorem własnym operatora T odpowiadającym wartości własnej λi .
Ax
}
Przykład 231. Weźmy pod uwagę macierze 1 7 −2 2 −1 A= , v1 = i v2 = . 1 1 3 −1 8 Ponieważ
Av2
= I
v2
I
Rys. 10.2
*v1
TA (v1 ) =
x
*
Av1
1 3
7 −2 −1 8
2 1
=
4 2
=2
2 1
= 2v1 ,
więc v1 jest wektorem własnym operatora TA (i macierzy A) odpowiadającym wartości własnej λ1 = 2. Podobnie mamy 1 7 −2 −1 −3 −1 TA (v2 ) = = =3 = 3v2 1 3 1 3 −1 8
i dlatego v2 jest wektorem własnym operatora TA (i macierzy A) odpowiadającym wartości własnej λ2 = 3. Ponieważ układ B = (v1 , v2 ) jest bazą przestrzeni R2 , więc wobec twierdzenia 10.2.2 operator TA jest diagonalizowalny i mamy 2 0 [TA ]B = . 0 3 Także macierz A jest diagonalizowalna, bo dla macierzy P = v1 v2 (która jest macierzą przejścia od bazy B do bazy standardowej E) mamy 2 0 P−1 AP = TA B = . 0 3
10.2. Diagonalizowalność macierzy i operatora liniowego
223
Efekt oddziaływania przekształcenia TA (czyli mnożenia przez macierz A) na wektory v1 , v2 i x = (3, 3) przedstawiono na rys. 10.2. Następujące twierdzenie przedstawia warunek konieczny i dostateczny diagonalizowalności macierzy. Dla macierzy diagonalizowalnej A, przedstawia ono także macierz podobieństwa P macierzy A do macierzy diagonalnej. Twierdzenie 10.2.3. Macierz A ∈ Kn×n jest diagonalizowalna wtedy i tylko wtedy, gdy istnieje baza B = (v1 , v2 , . . . , vn ) przestrzeni K n składająca się z wektorów własnych macierzy A. Dodatkowo, jeśli wektory własne v 1 , v2 , . . . , vn odpowiadają wartościom własnym λ1 , λ2 , . . . , λn , to macierz A jest podobna do macierzy diagonalnej Λ = diag (λ1 , . . . , λn ) i P = v1 . . . vn jest macierzą podobienstwa macierzy A do macierzy Λ, tj. Λ = P−1 AP. Dowód. Przede wszystkim zauważmy, że dla macierzy P = = diag (λ1 , . . . , λn ) mamy
AP = A v1 . . . vn = Av1 . . . Avn
i
λ1 0 0 λ2 PΛ = v1 . . . vn ... ... 0 0
v1 . . . v n
oraz Λ
(10.5)
... 0 ... 0 = λ 1 v1 . . . λ n vn . .. .. . . . . . λn
(10.6)
Załóżmy teraz, że macierz A jest diagonalizowalna i Λ = P−1 AP. Wtedy AP = PΛ, więc z (10.5) i (10.6) mamy
i dlatego także
Av1 . . . Avn = λ1 v1 . . . λn vn Av1 = λ1 v1 , . . . , Avn = λn vn .
(10.7) (10.8)
Ponieważ macierz P jest odwracalna, więc jej kolumny v1 , . . . , vn są liniowo niezależne i dlatego układ B = (v1 , . . . , vn ) jest bazą przestrzeni K n . Dodatkowo, ponieważ wektory v1 , . . . , vn są niezerowe, z (10.8) wynika, że v1 , . . . , vn są wektorami własnymi macierzy A odpowiadającymi wartościom własnym λ1 , . . . , λn . Załóżmy teraz, że v1 , . . . , vn są wektorami własnymi odpowiadającymi wartościom własnym λ1 , . . ., λn macierzy A. Wtedy wobec (10.5), (10.6) i (10.7) dla macierzy P = v1 . . . vn oraz Λ = diag (λ1 , . . . , λn ) jest PΛ = AP. Przy założeniu liniowej niezależności wektorów v1 , . . . , vn macierz P jest odwracalna i równość PΛ = AP jest równoważna równości Λ = P−1 AP, a ta jest równoważna diagonalizowalności macierzy A.
Twierdzenie 10.2.4. Niech T będzie operatorem liniowym na przestrzeni wektorowej V . Jeśli v1 , . . . , vk są wektorami własnymi operatora T odpowiadającymi jego różnym wartościom własnym λ1 , . . . , λk , to układ wektorów (v1 , . . . , vk ) jest liniowo niezależny. Dowód. Ponieważ wektory v1 , . . . , vk są niezerowe, więc wystarczy udowodnić, że żaden z nich nie jest kombinacją liniową swoich poprzedników. Przypuśćmy, że jest inaczej. Niech wtedy j (2 ¬ j ¬ k) będzie najmniejszą liczbą naturalną taką, że vj jest kombinacją liniową wektorów v1 , . . . , vj−1 . Wtedy wektory v1 , . . . , vj−1 są liniowo niezależne i istnieją skalary a1 , . . . , aj−1 takie, że vj = a1 v1 + . . . + aj−1 vj−1 . Wtedy także λj
j−1 X l=1
al vl = λj vj = T (vj ) = T
j−1 X l=1
a l vl
!
=
j−1 X l=1
al T (vl ) =
j−1 X
a l λ l vl
l=1
i z niezależności wektorów v1 , . . . , vj−1 wynika, że λj al = λl al dla l = 1, . . . , j − 1. Stąd P i z faktu, że λ 1 , . . . , λk są różne wynika, że al = 0 dla l = 1, . . . , j − 1. Wtedy P j−1 j−1 vj = l=1 al vl = l=1 0vl = 0, co zaprzecza niezerowości wektorów v1 , . . . , vk .
224
10. Wartości własne Wniosek 10.2.2. Niech T będzie operatorem liniowym na n-wymiarowej przestrzeni wektorowej V . Jeśli operator T ma n różnych wartości własnych, to jest on diagonalizowalny. Dowód. Niech λ1 , . . . , λn będą różnymi wartościami własnymi operatora T . Niech vi będzie wektorem własnym operatora T odpowiadającym wartości własnej λi (i = 1, . . . , n). Wobec poprzedniego twierdzenia B = (v1 , . . . , vn ) jest układem n liniowo niezależnych wektorów w n-wymiarowej przestrzeni V . Stąd i z twierdzenia 7.5.4 wynika, że B jest bazą przestrzeni V . Ponieważ baza ta składa się z wektorów własnych operatora T , więc wobec twierdzenia 10.2.2 operator T jest diagonalizowalny.
Wniosek 10.2.3. Jeśli macierz A ∈ Kn×n ma n różnych wartości własnych, to jest ona diagonalizowalna. Przykład 232. Wielomianem charakterystycznym macierzy 7 8 A= ∈ R2×2 −4 −5 (i operatora TA : R2 → R2 ) jest 7−λ 8 det (A − λI) = −4 −5 − λ
= (λ + 1)(λ − 3),
więc wartościami własnymi operatora TA (i macierzy A) są dwie różne liczby λ = −1 i λ = 3. Stąd i z wniosku 10.2.2 wynika, że operator TA i macierz A są diagonalizowalne. Warunek z ostatniego wniosku jest tylko warunkiem dostatecznym diagonalizowalności. Przykład operatora tożsamościowego (który jest diagonalizowalny choć ma tylko jedną wartość własną) pokazuje, że nie jest to warunek konieczny diagonalizowalności operatora. Udowodnimy teraz, że wielomian charakterystyczny diagonalizowalnego operatora T na przestrzeni wektorowej V , która jest przestrzenią wektorową nad ciałem K, jest rozkładalny nad ciałem K. Wielomian charakterystyczny operatora diagonalizowalnego jest rozkładalny
Twierdzenie 10.2.5. Niech T będzie operatorem liniowym na n-wymiarowej przestrzeni wektorowej V (nad ciałem K) i niech ϕ(λ) będzie wielomianem charakterystycznym operatora T . Jeśli operator T jest diagonalizowalny, to istnieją skalary a, λ1 , . . . , λn ∈ K takie, że ϕ(λ) = a(λ − λ1 )(λ − λ2 ) . . . (λ − λn ). Dowód. Niech B będzie taką bazą przestrzeni V , że macierz [T ]B jest diagonalizowalna. Wtedy istnieją skalary λ1 , . . . , λn takie, że
Wtedy także mamy
λ1 0 0 λ2 [T ]B = ... ... 0 0
... 0 ... 0 . . .. . .. . . . λn
λ1 − λ 0 λ2 − λ 0 ϕ(λ) = det([T ]B − λI) = det .. .. . . 0 0
... 0 ... 0 .. .. . . . . . λn − λ
= (λ1 − λ)(λ2 − λ) . . . (λn − λ) = (−1)n (λ − λ1 )(λ − λ2 ) . . . (λ − λn )
i to dowodzi tezę twierdzenia.
10.2. Diagonalizowalność macierzy i operatora liniowego
225
1 4 i określony przez nią operator −1 1 liniowy TA : R2 → R2 . Ponieważ jego wielomian charakterystyczny 1−λ 4 ϕ(λ) = det(A − λI) = det = (1 − λ)2 + 4 −1 1 − λ
Przykład 233. Dana jest macierz A =
nie jest rozkładalny nad ciałem R, więc operator TA : R2 → R2 nie jest diagonalizowalny. Ta sama macierz A określa także operator liniowy UA : C 2 → C 2 , gdzie UA (x) = Ax dla każdego x ∈ C 2 . Tym razem jego wielomian charakterystyczny ϕ(λ) = det(A − λI) = (1 − λ)2 + 4 = (λ − 1 − 2j)(λ − 1 + 2j) (jest rozkładalny nad ciałem C i) ma dwie różne wartości własne i dlatego operator UA jest diagonalizowalny. W naszych dalszych rozważaniach diagonalizowalności operatorów posłużymy się algebraiczną i geometryczną krotnością wartości własnej. Definicja 10.2.2. Niech ϕ(λ) i λ0 będą odpowiednio wielomianem charakterystycznym i wartością własną operatora liniowego (lub macierzy kwadratowej). Algebraiczną krotnością liczby λ0 nazywamy największą liczbę naturalną k = k(λ0 ) taką, że (λ − λ0 )k jest dzielnikiem wielomianu ϕ(λ).
k(λ0 ) – algebraiczna krotność wartości własnej
Przykład 234. Wielomianem charakterystycznym macierzy 3 2 1 A=0 2 3 0 0 2
jest ϕ(λ) = −(λ−2)2 (λ−3). Zatem λ = 2 jest dwukrotną, a λ = 3 – jednokrotną wartością własną macierzy A i operatora TA na przestrzeni R3 .
Definicja 10.2.3. Niech T będzie operatorem liniowym na przestrzeni wektorowej V i niech λ będzie jego wartością własną. Wtedy zbiór Vλ = {x ∈ V : T (x) = λx} = Ker (T − λIV ) który jest podprzestrzenią przestrzeni V , nazywamy przestrzenią własną operatora T odpowiadającą wartości własnej λ. Analogicznie definiuje się przestrzeń własną macierzy. Wymiar przestrzeni Vλ , czyli liczbę dim(Vλ ), nazywamy geometryczną krotnością wartości własnej λ operatora T .
Vλ – przestrzeń własna
dim(Vλ ) – geometryczna krotność wartości własnej
Związek między algebraiczną i geometryczną krotnością wartości własnej operatora przedstawia następujące twierdzenie. Twierdzenie 10.2.6. Jeśli λ0 jest wartością własną operatora liniowego T na skończenie wymiarowej przestrzeni wektorowej V , to 1 ¬ dim(Vλ0 ) ¬ k(λ0 ). Dowód. Weźmy pod uwagę bazę (v1 , . . . , vm ) przestrzeni Vλ0 (gdzie m = dim(Vλ0 )) i jej rozszerzenie B = (v1 , . . . , vm , vm+1 , . . . , vn ) do bazy całej przestrzeni V . Ponieważ v1 , . . . , vm są wektorami własnymi operatora T odpowiadającymi wartości własnej λ0 , więc macierzą operatora T względem bazy B jest macierz blokowa [T ]B =
λ0 I m 0
A , B
Geometryczna krotność ¬ algebraiczna krotność
226
10. Wartości własne w której A i B są macierzami wymiaru odpowiednio m × (n − m) i (n − m) × (n − m). Zatem dla wielomianu charakterystycznego operatora T mamy równości
ϕ(λ) = det [T ]B − λIn = det
(λ0 − λ)Im A 0 B − λIn−m
= det (λ0 − λ)Im det (B − λIn−m )
= (λ0 − λ)m det (B − λIn−m )
i z nich wynika, że (λ − λ0 )m jest dzielnikiem wielomianu ϕ(λ). Stąd i z definicji liczby k(λ0 ) wynika, k(λ0 ) m = dim(Vλ0 ).
Z definicji wartości własnej i przestrzeni własnej operatora jest oczywiste, że jeśli λ0 i λ00 są różnymi wartościami własnymi operatora liniowego T : V → V , to Vλ0 ∩ Vλ00 = {0}. Stąd zaś wynika, że jeśli λ1 , . . . , λm są różnymi wartościami własnymi operatora liniowego T : V → V , to podprzestrzeń Vλ1 + . . . + Vλm jest sumą prostą podprzestrzeni Vλ1 , . . . , Vλm , czyli Vλ1 + Vλ2 + . . . + Vλm = Vλ1 ⊕ V λ2 ⊕ . . . ⊕ V λm . Twierdzenie 10.2.7. Niech T będzie operatorem liniowym na n-wymiarowej przestrzeni wektorowej V . Jeśli wielomian charakterystyczny operatora T jest rozkładalny i λ1 , λ2 , . . . , λl są wszystkimi różnymi wartościami własnymi operatora T , to T jest diagonalizowalny wtedy i tylko wtedy, gdy algebraiczna krotność każdej wartości własnej λi pokrywa się z jej geometryczną krotnością, k(λi ) = dim (Vλi ) dla i = 1, . . . , l. (i) (i) Dodatkowo, jeśli operator T jest diagonalizowalny i Bi = (b1 , . . . , bk(λi ) ) jest bazą przestrzeni Vλi (i = 1, . . . , l), to (1) (1) (2) (2) (l) (l) B = b1 , . . . , bk(λ1 ) , b1 , . . . , bk(λ2 ) , . . . , b1 , . . . , bk(λl ) jest bazą przestrzeni V składającą się z wektorów własnych operatora T .
Dowód. Z założeń wynika, że wielomianem Plcharakterystycznym operatora T jest ϕ(λ) = (−1)n (λ − λ1 )k(λ1 ) . . . (λ − λl )k(λl ) i k(λi ) = n. i=1 Załóżmy teraz, że operator T jest diagonalizowalny. Wtedy istnieje baza B przestrzeni V składająca się z samych wektorów własnych operatora T . Ponieważ B ∩ Vλi jest zbiorem liniowo niezależnych wektorów własnych należących do przestrzeni Vλi wymiaru dim (Vλi ) i dim (Vλi ) ¬ k(λi ) (zob. tw. 10.2.6), więc n = |B| = |
l [
i=1
(B ∩ Vλi ) | =
l X i=1
|B ∩ Vλi | ¬
l X i=1
dim(Vλi ) ¬
l X
k(λi ) = n
i=1
i stąd wynika, że k(λi ) = dim(Vλi ) dla i = 1, . . . , l. Dla dowodu przeciwnej implikacji i jednoczesnego dowodu drugiej części twierdze(i) (i) nia załóżmy, że k(λi ) = dim(Vλi ) i niech Bi = (b1 , . . . , bk(λi ) ) będzie bazą przestrzeni (1)
(1)
(l)
(l)
Vλi (i = 1, . . . , l). Twierdzimy, że układ B = (b1 , . . . , bk(λ1 ) , . . . , b1 , . . . , bk(λl ) ) (i) xj
jest liniowo niezależny. Dla dowodu tego faktu niech
Pl
i=1
Pk(λi ) j=1
(i)
będą skalarami takimi, że
(i)
xj bj = 0. Wtedy dla każdego i0 ∈ {1, . . . , l} jest k(λi0 )
X
(i ) (i ) xj 0 bj 0
j=1
Pk(λi0 )
=−
P
(i ) (i ) xj 0 bj 0
X k(λ Xi )
(i)
(i)
xj bj .
i6=i0 j=1
Pk(λ
)
(i)
(i)
P
Ponieważ ∈ Vλ0 i − i6=i0 j=1i xj bj ∈ V , a wekj=1 i6P =i0 λi tor zerowy jest jedynym wspólnym elementem podprzestrzeni Vλ0 i V , więc i6=i0 λi
Pk(λi0 ) j=1
(i )
(i )
xj 0 bj 0
(i ) x1 0
= 0. Stąd i z liniowej niezależności wektorów układu Bi0 wyni-
(i ) x2 0
(i )
0 ka, że = = . . . = xk(λ = 0 (dla każdego i0 ∈ {1, . . . , l}). To doi0 ) wodzi, że układ B jest liniowo niezależny. Dodatkowo, ponieważ układ B zawiera Pl k(λ ) = n = dim (V ) wektorów, jest on bazą przestrzeni V . Baza ta składa się i i=1 z samych wektorów własnych operatora T . Zatem wobec twierdzenia 10.2.2 operator T jest diagonalizowalny.
10.2. Diagonalizowalność macierzy i operatora liniowego
227
Przykład 235. Niech T będzie operatorem liniowym na przestrzeni wektorowej R3 określonym wzorem T (x, y, z) = (2x−z, 3y, −x+2z). Wyznaczyć przestrzenie własne operatora T i zbadać diagonalizowalność operatora T . Macierzą operatora T względem bazy standardowej E przestrzeni R 3 jest
"
[T ]E =
2 0 −1 0 3 0 −1 0 2
#
,
więc jego wielomianem charakterystycznym jest det ([T ]E − λI) = det
"
2−λ 0 −1 0 3−λ 0 −1 0 2−λ
#
= −(λ − 1)(λ − 3)2 .
Zatem λ1 = 1 jest jednokrotną, a λ2 = 3 – dwukrotną wartością własną operatora T . Przestrzenią własną operatora T odpowiadającą wartości własnej λ1 = 1 jest Vλ1 = Ker (T − λ1 1R3 ) =
("
x y z
#
3
∈R :
"
#"
1 0 −1 0 2 0 −1 0 1
#
x y z
"
=
#)
0 0 0
=L
"
1 0 1
#!
.
"
#)
Wartości własnej λ2 = 3 odpowiada przestrzeń własna Vλ2 = Ker (T − λ2 1R3 ) =
("
= L
x y z
#
∈R :
"
0 1 0
# "
3
,
"
−1 0 1
−1 0 −1 0 0 0 −1 0 −1
#!
#"
x y z
#
=
0 0 0
.
W tym przypadku algebraiczna krotność każdej wartości własnej λi jest równa wymiarowi odpowiadającej jej przestrzeni własnej Vλi , k(λ1 ) = 1 = dim (Vλ1 ) i k(λ2 ) = 2 = dim (Vλ2 ), więc układ B=
"
1 0 1
# " ,
0 1 0
# " ,
−1 0 1
#!
,
który jest sumą baz przestrzeni Vλ1 i Vλ2 , jest bazą przestrzeni R3 składającą się z samych wektorów własnych operatora T . Stąd i z poprzedniego twierdzenia wynika, że operator T jest diagonalizowalny.
Przykład 236. Zbadać diagonalizowalność macierzy 1 0 2 A = 3 1 4 . 0 0 3
Liczba λ1 = 1 jest dwukrotną, a liczba λ2 = 5 – jednokrotną wartością własną macierzy A (i operatora TA : R3 → R3 ), bo det (A − λI) = (1 − λ)2 (5 − λ). Przestrzenią własną macierzy A odpowiadającą wartości własnej λ1 = 1 jest Vλ 1 = =
x ∈ R3 : (A − λ1 I)x = 0
("
x y z
#
3
∈R :
"
0 0 2 3 0 4 0 0 4
#"
x y z
#
=
"
0 0 0
#)
=L
"
0 1 0
#!
.
228
10. Wartości własne Ponieważ wymiar przestrzeni Vλ1 jest mniejszy od algebraicznej krotności liczby λ1 , bo mamy dim (Vλ1 ) = 1 < 2 = k(λ1 ), więc macierz A nie jest diagonalizowalna. (Wymiar przestrzeni Vλ1 także można było wyznaczyć za pomocą rzędu macierzy A − λi I, bo zawsze jest dim (Vλi ) = n − r(A − λi I), gdzie n = dim (V ).)
10.3. Diagonalizacja macierzy symetrycznej
A – symetryczna ⇔ AT = A
Problem diagonalizacji macierzy symetrycznych jest ważny zarówno ze względów praktycznych, jak i teoretycznych. Tu udowodnimy, że każda rzeczywista macierz symetryczna jest diagonalizowalna. Wykażemy także, że tej diagonalizacji można dokonać za pomocą macierzy ortogonalnej. Nasze rozważania zaczynamy od dowodu, że wartości własne rzeczywistej macierzy symetrycznej są rzeczywiste. Twierdzenie 10.3.1. Każda wartość własna rzeczywistej macierzy symetrycznej jest liczbą rzeczywistą.
Zwróćmy uwagę, że A = [aij ] = [aij ]
Dowód. Niech A będzie symetryczną macierzą rzeczywistą wymiaru n × n. Niech λ będzie wartością własną macierzy A i niech v ∈ C n będzie wektorem własnym takim, że Av = λv. Dla dowodu twierdzenia wystarczy wykazać, że λ = λ. T Ponieważ A = A = A , więc mamy λ vT v
= =
λv
T
v = Av
T
v = vT A
T
vT Av = vT λv = λ vT v .
Stąd λ = λ i to dowodzi, że λ ∈ R.
v = vT A v
Warto zwrócić uwagę na to, że wartościami własnymi niesymetrycznej macierzy rzeczywistej mogą być zarówno liczby rzeczywiste jak i zespolone. Przykładowo, wartościami własnymi niesymetrycznej macierzy rzeczywistej 1 0 0 A=0 0 1 0 −1 0 są liczby λ1 = 1, λ2 = j i λ3 = −j.
Wiemy, że wektory własne odpowiadające różnym wartościom własnym macierzy są liniowo niezależne (zob. tw. 10.2.4). Pokażemy teraz, że w przypadku macierzy symetrycznych mają one dodatkową własność – są wzajemnie ortogonalne. Twierdzenie 10.3.2. Wektory własne odpowiadające różnym wartościom własnym rzeczywistej macierzy symetrycznej są ortogonalne. Dowód. Niech v1 i v2 będą wektorami własnymi odpowiadającymi różnym wartościom własnym λ1 i λ2 symetrycznej macierzy A. Dla dowodu twierdzenia wystarczy pokazać, że (v1 |v2 ) = 0. Ponieważ Av1 = λ1 v1 i Av2 = λ2 v2 , więc wobec symetrii macierzy A oraz własności iloczynu skalarnego mamy (x|y) = xT y
λ1 (v1 |v2 )
= =
(λ1 v1 |v2 ) = (Av1 |v2 ) = (Av1 )T v2 = (v1T AT )v2
(v1T A)v2 = v1T (Av2 ) = v1T (λ2 v2 ) = λ2 (v1T v2 ) = λ2 (v1 |v2 ).
Stąd (λ1 − λ2 )(v1 |v2 ) = 0 i dlatego (v1 |v2 ) = 0, bo λ1 − λ2 6= 0. λi 6= λj ⇒ Vλi ⊥ Vλj
Wniosek 10.3.1. Jeśli A jest symetryczną macierzą rzeczywistą i λi oraz λj są różnymi wartościami własnymi macierzy A, to podprzestrzenie własne Vλi oraz Vλj są wzajemnie ortogonalne.
10.3. Diagonalizacja macierzy symetrycznej
229
Twierdzenie 10.3.3. Jeśli Q i A są rzeczywistymi macierzami wymiaru n × n i macierz Q jest ortogonalna, to macierz A jest symetryczna wtedy i tylko wtedy, gdy macierz QT AQ jest symetryczna.
Q – ortogonalna ⇔ Q−1 = QT
Dowód. Ponieważ QT = Q−1 , więc macierze QT AQ
i
(QT AQ)T = QT AT QT
T
= Q T AT Q
są identyczne wtedy i tylko wtedy, gdy macierze A i AT są identyczne.
Definicja 10.3.1. Mówimy, że macierz A ∈ Rn×n jest ortogonalnie diagonalizowalna, gdy istnieje macierz ortogonalna Q taka, że macierz QT AQ jest diagonalna.
Ortogonalna diagonalizowalność macierzy
Z twierdzenia 10.2.2 jest oczywiste, że macierz A ∈ Rn×n jest ortogonalnie diagonalizowalna wtedy i tylko wtedy, gdy istnieje baza B = (v1 , . . . , vn ) przestrzeni Rn składająca się z ortonormalnych wektorów własnych macierzy A. W takim przypadku macierz Q = [ v1 . . . vn ] jest ortogonalna i iloczyn QT AQ jest macierzą diagonalną. Okazuje się, że klasa macierzy ortogonalnie diagonalizowalnych jest łatwo rozpoznawalna i identyczna z klasą macierzy symetrycznych. Twierdzenie 10.3.4. Rzeczywista macierz A wymiaru n × n jest ortogonalnie diagonalizowalna wtedy i tylko wtedy, gdy macierz A jest symetryczna. Dowód. Jeśli dla macierzy A istnieje macierz ortogonalna Q taka, że iloczyn QT AQ jest macierzą diagonalną (więc także symetryczną), to wobec poprzedniego twierdzenia macierz A jest symetryczna. Przeciwną implikację dowodzimy indukcyjnie ze względu na n. Implikacja ta jest oczywista dla n = 1. Załóżmy teraz, że każda symetryczna macierz wymiaru l × l, 1 ¬ l < n, jest ortogonalnie diagonalizowalna i niech A będzie symetryczną macierzą wymiaru n×n. Niech λ1 , . . . , λk będą wszystkimi różnymi wartościami własnymi macierzy A i niech v1 , . . . , vk będą odpowiadającymi im jednostkowymi (i wobec twierdzenia 10.2.4 wzajemnie ortogonalnymi) wektorami własnymi. Jeśli k = n, to układ B = (v1 , . . . , vn ) jest bazą ortonormalną przestrzeni Rn , macierz Q = [ v1 . . . vn ] jest ortogonalna, a macierz QT AQ = [TA ]B (która jest macierzą przekształcenia TA względem bazy B) jest diagonalna, [TA ]B = diag (λ1 , . . . , λn ). Załóżmy teraz, że k < n. W tym przypadku niech B = (v1 , . . . , vk , . . . , vn ) będzie rozszerzeniem ortonormalnego układu (v1 , . . . , vk ) do ortonormalnej bazy przestrzeni Rn . Łatwo zauważyć, że macierzą przekształcenia TA względem bazy B jest
[TA ]B
λ1 . . . 0 .. . . .. . . . = 0 . . . λk 0
T = Q AQ,
B
C
gdzie Q = v1 . . . vn znowu jest macierzą ortogonalną. Z symetrii macierzy A i z twierdzenia 10.3.3 wynika symetryczność macierzy QT AQ. To zaś wymusza zerowość macierzy B i symetrię macierzy C ∈ R(n−k)×(n−k) . Z tego ostatniego i z założenia indukcyjnego wynika ortogonalna diagonalizowalność macierzy C. Zatem istnieje T macierz ortogonalna P ∈ R(n−k)×(n−k) taka, że macierz P CP, oznaczamy ją przez Ik 0 D, jest diagonalna. Łatwo teraz zauważyć, że macierz jest ortogonalna i jest 0 P ona macierzą podobieństwa macierzy QT AQ do macierzy diagonalnej Λ = diag (λ1 , . . . , λk ). Równoważnie, macierz ortogonalna Q
Ik 0 0 P
podobieństwa macierzy symetrycznej A do macierzy diagonalnej
Λ 0 , gdzie 0 D jest macierzą
Λ 0 . 0 D
TA (x) = Ax
230
10. Wartości własne
Przykład 237. Wyznaczyć ortogonalną macierz podobieństwa macierzy A do macierzy diagonalnej, gdy 1 2 A= . 2 1 Wartościami własnymi macierzy A są pierwiastki wielomianu
1−λ 2 2 1−λ
= λ2 − 2λ − 3 = (λ + 1)(λ − 3),
więc są nimi liczby λ1 = −1 i λ2 = 3. Łatwo sprawdzić, że liczbom tym odpowiadają wektory własne 1 1 x1 = i x2 = . −1 1 Ponieważ wektory x1 /||x1 || i x2 /||x2 || są ortonormalne, więc macierz Q=
h x1
||x1 ||
x2 i 1 1 1 = √ ||x2 || 2 −1 1
jest ortogonalną macierzą podobieństwa macierzy A do macierzy diagonalnej, 1 Q AQ = 2 T
1 −1 1 1
1 2 2 1
1 1 −1 1
=
−1 0 . 0 3
5 2 2 Przykład 238. Dla macierzy symetrycznej A = 2 2 −4 wyznaczyć ma2 −4 2 cierz ortogonalną Q taką, że QT AQ jest macierzą diagonalną. Ortogonalną macierzą diagonalizującą macierz A będzie macierz Q = [ v1 v2 v3 ], w której kolumny v1 , v2 i v3 są ortonormalnymi wektorami własnymi macierzy A. Dla ich uzyskania wyznaczamy najpierw wartości własne macierzy A. Ponieważ det (A − λI)
=
− λ3 − λ2 tr (A) + λ(|A11 | + |A22 | + |A33 |) − |A|
=
−(λ3 − 9λ2 − 108) = −(λ + 3)(λ − 6)2 ,
więc wartościami własnymi macierzy A są λ1 = −3 i λ2 = λ3 = 6. Rozwiązując teraz układ równań (A − λi I)x = 0 dla λ1 = −3 i λ2 = 6, znajdujemy przestrzenie własne V−3 i V6 macierzy A, V−3 = L(x1 ) gdzie x1 =
"
−1 2 2
#
,
V6 = L(x2 , x3 ),
i
x2 =
"
2 1 0
#
i
x3 =
"
2 0 1
#
.
Wystarczy teraz wskazać bazę ortogonalną (y1 ) przestrzeni V−3 , bazę ortogonalną (y2 , y3 ) przestrzeni V6 , z nich zestawić bazę ortonormalną (y1 /||y1 ||, y2 /||y2 ||, y3 /||y3 ||) przestrzeni R3 i utworzyć macierz ortogonalną
Q = y1 /||y1 || y2 /||y2 || y3 /||y3 || . Możemy przyjąć y1 = x1 . Wektory y2 i y3 mogą być dowolnymi niezerowymi krotnościami wektorów uzyskanych metodą Grama-Schmidta z bazy (x2 , x3 ). W szczególności możemy przyjąć y2 = x 2
i
y3 = 5
(x3 |x2 ) x3 − x2 (x2 |x2 )
=5
"
2 0 1
#
4 − 5
"
2 1 0
#!
=
"
2 −4 5
#
.
10.3. Diagonalizacja macierzy symetrycznej
231
(Równie dobrze można było przyjąć, że y3 jest iloczynem wektorowym (definicja 12.1.1) wektorów y1 i y2 , czyli przyjąć y3 = y1 × y2 .) Zatem szukaną macierzą jest √ √ −1/3 2/√5 2/√45 h y1 y2 y3 i Q= = 2/3 1/ 5 −4/√45 . ||y1 || ||y2 || ||y3 || 2/3 0 5/ 45
Twierdzenie spektralne dla macierzy symetrycznej Konsekwencją poprzednich twierdzeń jest następujący wniosek nazywany twierdzeniem spektralnym dla macierzy symetrycznych. Wniosek 10.3.2 (Twierdzenie spektralne). Jeśli λ1 , . . . , λm są wszystkimi różnymi wartościami własnymi rzeczywistej macierzy symetrycznej A wymiaru n × n, to: (1) liczby λ1 , . . . , λm są rzeczywiste;
(2) podprzestrzenie własne Vλ1 , . . . , Vλm są wzajemnie ortogonalne; (3) macierz A jest ortogonalnie diagonalizowalna; (4) dim Vλi = k(λi ) dla i = 1, . . . , m; (5) k(λ1 ) + . . . + k(λm ) = n; (6) Rn = Vλ1 ⊕ . . . ⊕ Vλm .
Dowód. Stwierdzenia (1), (2), (3) i (4) wynikają odpowiednio z twierdzenia 10.3.1, wniosku 10.3.1, twierdzenia 10.3.4 i twierdzenia 10.2.7. Niech teraz ϕ(λ) będzie wielomianem charaktrystycznym macierzy A. Ponieważ ϕ(λ) ma dokładnie n pierwiastków i liczby λ1 , . . . , λm są wszystkimi różnymi pierwiastkami wielomianu ϕ(λ), więc suma ich krotności algebraicznych musi być równa n, czyli musi być k(λ1 ) + . . . + k(λm ) = n i to dowodzi (5). Z faktu, że podprzestrzenie Vλ1 , . . . , Vλm są wzajemnie ortogonalne wynika, że Vλi ∩ Vλj = {0}, gdy i 6= j. Stąd zaś wynika, że podprzestrzeń Vλ1 +. . .+Vλm przestrzeni Rn jest sumą prostą podprzestrzeni Vλ1 , . . . , Vλm , czyli Vλ1 + . . . + Vλm = Vλ1 ⊕ . . . ⊕ Vλm . Ponieważ n = dim Rn dim (Vλ1 ⊕ . . . ⊕ Vλm )
= dim Vλ1 + . . . + dim Vλm = k(λ1 ) + . . . + k(λm ) = n,
więc dim Rn = dim (Vλ1 ⊕ . . . ⊕ Vλm ) i wobec twierdzenia 7.5.5 przestrzeń Rn jest identyczna ze swoją podprzestrzenią Vλ1 ⊕ . . . ⊕ Vλm . To kończy dowód stwierdzenia (6).
Rozkład spektralny macierzy symetrycznej Niech macierz ortogonalna Q = [ u1 . . . un ] będzie macierzą podobieństwa macierzy symetrycznej A do macierzy diagonalnej Λ, gdzie Λ = diag (λ1 , . . . , λn ). Wtedy A = QΛQ−1 i ponieważ Q−1 = QT , więc wobec twierdzenia 4.2.3 mamy A = QΛQT λ ... 1 | | = u1 . . . un ... . . . | | 0 ... − | | = λ1 u 1 . . . λ n u n | | − = λ1 u1 uT1 + . . . + λn un uTn .
− uT1 − 0 .. .. . . T λn − un − uT1 − .. . uTn −
232
10. Wartości własne Wniosek 10.3.3 (Rozkład spektralny macierzy). Jeśli macierz ortogonalna Q = [ u1 . . . un ] jest macierzą podobieństwa symetrycznej macierzy A ∈ Rn×n do macierzy diagonalnej Λ = diag (λ1 , . . . , λn ), to A = λ1 u1 uT1 + . . . + λn un uTn .
(10.9)
Prawą stronę równości (10.9) nazywamy spektralnym rozkładem macierzy A. Ponieważ każdy iloczyn ui uTi jest macierzą rzutu ortogonalnego na podprzestrzeń L(ui ) (zob. (9.28) i tw. 9.6.2), więc z (10.9) wynika, że każda rzeczywista macierz symetryczna jest kombinacją liniową macierzy rzutów ortogonalnych (na swoje podprzestrzenie własne). Przykład 239. Wyznaczyć rozkład spektralny macierzy A =
"
1 2 3 2
3 2 1 2
#
.
Ponieważ det (A − λI) = (λ − 2)(λ + 1), więc wartościami własnymi macierzy A są λ1 = 2 i λ2 = −1. Łatwo także zauważyć, że √ √ 1/√2 −1/√ 2 u1 = i u2 = 1/ 2 1/ 2 są ortonormalnymi wektorami własnymi macierzy A odpowiadającymi wartościom własnym λ1 = 2 i λ2 = −1. Wobec (10.9) dla macierzy A mamy
1/2 3/2 3/2 1/2
= A = λ1 u1 uT1 + λ2 u2 uT2 √ √ √ √ √ 1/√2 √ −1/√ 2 = 2 1/ 2 1/ 2 − −1/ 2 1/ 2 1/ 2 1/ 2
= 2
1/2 1/2 1/2 1/2
−
1/2 1/2 . 1/2 1/2
Zauważmy także, że wektor Ax (dla każdego wektora x ∈ R2 ) jest kombinacją liniową T T λ1 u1 uT1 +λ2 u2 uT2 rzutów u1 u1 x i u2 u2 x wektora x na podprzestrzenie L(u1 ) i L(u2 ), 1 zob. rys. 10.3 dla x = . 3
L(u2 )
u2 uT 2 x
x
λ1 u1 uT 1 x
* λ1 u1 u1 x+λ2 u2 u2 x=Ax T
T
u1 uT 1 x
u2
I
u1
λ2 u2 uT 2 x
L(u1 )
Rys. 10.3
10.4. Potęga macierzy diagonalizowalnej Wyznaczanie naturalnych potęg macierzy kwadratowej jest szczególnie proste dla macierzy diagonalnych. Istotnie, indukcyjnie łatwo wykazuje się, że jeśli Λ
10.5. Granica ciągu macierzy
233
jest macierzą diagonalną, powiedzmy Λ = diag (λ1 , . . . , λn ), to dla każdej liczby naturalnej k jest Λk = diag (λ1 , . . . , λn ) Przykładowo mamy
k
Potęga macierzy diagonalnej
= diag (λk1 , . . . , λkn ).
5 2 0 0 32 0 0 0 −1 0 = 0 −1 0 . 0 0 3 0 0 243
Odrobinę trudniej wyznacza się naturalne potęgi macierzy diagonalizowalnych: jeśli macierz A jest diagonalizowalna i jeśli P jest macierzą podobieństwa macierzy A do macierzy diagonalnej Λ = diag (λ1 , . . . , λn ), to AP = PΛ i dla każdej liczby naturalnej k jest Ak =
k
Potęga macierzy diagonalizowalnej
= PΛP−1 PΛP−1 . . . PΛP−1 = PΛk P−1 k = P diag (λ1 , . . . , λn ) P−1 = P diag (λk1 , . . . , λkn ) P−1 . PΛP−1
−4 6 Przykład 240. Wykazać, że macierz A = jest diagonalizowalna −3 5 i wskazać macierz podobieństwa P macierzy A do macierzy Λ. Na diagonalnej −2 k 10 stępnie wyznaczyć A (k ∈ N ) i obliczyć A x, gdy x = . 1 −4 − λ 6 Wielomianem charakterystycznym macierzy A jest = (λ + 1)(λ − −3 5−λ 2). Ponieważ ma on różne wartości własne, λ1 = −1 i λ2 = 2, więc macierz A jest −1 0 diagonalizowalna i jest ona podobna do macierzy diagonalnej Λ = . Łatwo 0 2 sprawdzić, że wektorami własnymi wartościom macierzyA odpowiadającymi własnym 2 1 2 1 λ1 = −1 i λ2 = 2 są x1 = i x2 = , więc P = [ x1 x2 ] = jest 1 1 1 1
−1 0 macierzą podobieństwa macierzy A do macierzy diagonalnej Λ = . Ponieważ 0 2 −1 AP = PΛ, więc A = PΛP i dla każdej liczby naturalnej k mamy Ak = PΛk P−1 = =
2 1 1 1
=
2 1 1 1
(−1)k 0 0 2k
−1 0 0 2
k
1 −1 −1 2
2 1 1 1
−1
=
−1022 2046 −1023 2047
2(−1)k − 2k 2k+1 + 2(−1)k+1 (−1)k − 2k 2k+1 + (−1)k+1
.
Stąd 10
A
−1022 2046 −1023 2047
i
10
A x=
−2 1
=
4090 . 4093
10.5. Granica ciągu macierzy Definicja 10.5.1. Dane są macierze A, A1 , A2 , . . . wymiaru m × n. Mówimy, że ciąg macierzy (Ak ) jest zbieżny do macierzy A, gdy dla każdych indeksów i ∈ {1, . . . , m} oraz j ∈ {1, . . . , n} jest lim (Ak )ij = Aij .
k→∞
Granica ciągu macierzy
234
10. Wartości własne W takim przypadku mówimy też, że macierz A jest granicą ciągu macierzy (A k ) i piszemy lim Ak = A. n→∞
"
Przykład 241. Jeśli Ak =
lim Ak =
k→∞
lim
k→∞
"
1 − k1 √ k 5+k
1 − k1 √ k 5+k 1+
1 1− = k→∞ √ k lim k 5 + k lim
2
1 2k k
2 lim
k→∞
1 2k k
1+
3k−1 k+1
2−k
3k−1 k+1 2k
1 k lim 2 1+
2−k
, to mamy
#
lim 2−k k→∞ = 3k − 1 lim k→∞ k + 1
k→∞
k→∞
#
1 e2 0 . 1 2 3
Dla granicy ciągu macierzy mamy następujące dwie ważne własności. Twierdzenie 10.5.1. Jeżeli ciąg (Ak ) macierzy wymiaru m × n jest zbieżny do macierzy A, a ciąg (Bk ) macierzy wymiaru n × p jest zbieżny do macierzy B, to ciąg (Ak Bk ) jest zbieżny do macierzy AB, lim Ak Bk = lim Ak lim Bk = AB. k→∞
k→∞
k→∞
Dowód. Dla każdego i ∈ {1, . . . , m} oraz j ∈ {1, . . . , p} jest lim (Ak Bk )ij =
k→∞
=
lim
k→∞
Pn
n X
(Ak )il (Bk )lj =
l=1
l=1
n X l=1
lim (Ak )il
k→∞
(A)il (B)lj = (AB)ij .
lim (Bk )lj
k→∞
To zaś oznacza, że lim Ak Bk = AB. k→∞
Wniosek 10.5.1. Jeśli Λ i P są macierzami kwadratowymi tego samego stopnia i P jest macierzą odwracalną, to granica lim Λk istnieje wtedy i tylko wtedy, k→∞
gdy istnieje granica lim PΛk P−1 i wtedy też k→∞
k
lim PΛ P
k→∞
−1
=P
lim Λ
k→∞
k
P−1 .
Dowód. Ponieważ lim P = P i lim P−1 = P−1 , więc z istnienia granicy lim Λk k→∞
k→∞
k→∞
i z poprzedniego twierdzenia wynika istnienie granicy lim PΛk P−1 , bo k→∞
lim PΛk P−1 =
k→∞
lim P
k→∞
lim Λk
k→∞
lim P−1
k→∞
Odwrotna implikacja także jest oczywista, bo mamy
6 S
Rys. 10.4
lim Λk = lim P−1 PΛk P−1 P = P−1
k→∞
1-
k→∞
=P
k→∞
lim PΛk P−1 P.
k→∞
lim Λk P−1 .
W naszych rozważaniach o granicy ciągu macierzy będziemy odwoływać się do zbioru S = {λ ∈ C : |λ| < 1 lub λ = 1}. Geometrycznie zbiór S składa się z liczby zespolonej 1 i liczb, które tworzą wnętrze jednostkowego koła o środku w punkcie 0 (zob. rys. 10.4). Warto zauważyć, że zbiór S składa się z tych i tylko tych liczb zespolonych λ, dla których granica limk→∞ λk istnieje.
10.5. Granica ciągu macierzy
235
Można udowodnić, że dla macierzy A ∈ Cn×n granica limk→∞ Ak istnieje wtedy i tylko wtedy, gdy każda wartość własna λ macierzy A należy do zbioru S i jeśli liczba 1 jest wartością własną macierzy A, to jej krotność algebraiczna jest identyczna z jej krotnością geometryczną. W naszych zastosowaniach rozważać będziemy tylko granice potęg macierzy diagonalizowalnych. Dla każdej takiej macierzy A krotność algebraiczna każdej wartości własnej automatycznie jest równa jej krotności geometrycznej i mamy następujący warunek konieczny i dostateczny istnienia granicy limk→∞ Ak . Twierdzenie 10.5.2. Jeśli macierz A ∈ Cn×n jest diagonalizowalna, to granica limk→∞ Ak istnieje wtedy i tylko wtedy, gdy każda wartość własna λ macierzy A należy do zbioru S. Dodatkowo, jeśli A = PΛP−1 , gdzie P jest macierzą odwracalną i Λ = diag (λ1 , . . . , λn ) dla pewnych liczb λ1 , . . . , λn ∈ S, to lim Ak = P diag
k→∞
Dowód. Ponieważ Ak = PΛP−1
k
lim λk1 , . . . , lim λkn P−1 . k→∞
k→∞
= PΛk P−1 = P diag (λk1 . . . , λkn ) P−1 i granica
lim Λk = lim diag(λk1 , . . . , λkn ) = diag
k→∞
k→∞
lim λk1 , . . . , lim λkn
k→∞
k→∞
istnieje wtedy i tylko wtedy, gdy każda z liczb λ1 , . . . , λn należy do zbioru S, więc wobec wniosku 10.5.1 granica lim Ak = lim PΛk P−1 istnieje i jest równa macierzy P
k→∞
k→∞
lim Λk P−1 wtedy i tylko wtedy, gdy λ1 , . . . , λn ∈ S.
k→∞
1/2 1/2 −1/2 1 0 . Przykład 242. Obliczyć granicę lim Ak , gdy A = 0 k→∞ 0 0 1
1/2 − λ 1/2 −1/2 Ponieważ det(A − λI) = 0 1−λ 0 = ( 12 − λ)(1 − λ)2 , więc liczby 0 0 1−λ
λ1 = 12 , λ2 = λ3 = 1 są wartościami własnymi macierzy A. Rozwiązując układ równań (A − λi I)x = 0 (dla i = 1, 2, 3), stwierdzamy, że wektory v1 =
"
1 0 0
#
,
v2 =
"
1 1 0
#
v3 =
,
"
−1 0 1
#
są wektorami własnymi macierzy A odpowiadającymi wartościom własnym λ1 , λ2 i λ3 . Wektory v1 , v2 i v3 tworzą bazę przestrzeni R3 , więc macierz A jest diagonalizowalna i mamy A = PΛP−1 , gdzie Λ = diag (λ1 , λ2 , λ3 ) i P = [ v1 v2 v3 ]. Dodatkowo, ponieważ wszystkie wartości własne macierzy A należą do zbioru S, więc wobec ostatniego wniosku granica limk→∞ Ak istnieje i lim Ak =
k→∞
lim PΛk P−1 = P
k→∞
=
"
1 1 −1 0 1 0 0 0 1
#
=
"
1 1 −1 0 1 0 0 0 1
#"
k→∞
lim k→∞
lim Λk P−1
0 0 0 0 1 0 0 0 1
1 k 2
0 0
#"
"
1 1 −1 0 1 0 0 0 1
#
#
0 1 −1 0 1 0 0 0 1
#
0 0 1k 0 0 1k
1 −1 1 0 1 0 0 0 1
=
"
.
236
10. Wartości własne
10.6. Podprzestrzenie niezmiennicze Podprzestrzeń niezmiennicza
Definicja 10.6.1. Niech T będzie operatorem liniowym na przestrzeni wektorowej V . Podprzestrzeń W przestrzeni V nazywamy T -niezmienniczą podprzestrzenią, gdy T (W ) ⊆ W , czyli gdy T (x) ∈ W dla każdego wektora x ∈ W . Przykład 243. Jeśli T jest operatorem liniowym na przestrzeni wektorowej V , to T -niezmienniczymi podprzestrzeniami przestrzeni V m.in. są: przestrzeń zerowa {0}, cała przestrzeń V , jądro Ker T przekształcenia T , obraz Im T przekształcenia T oraz przestrzeń Vλ wektorów własnych operatora T odpowiadających wartości własnej λ. Przykład 244. Jeśli T jest operatorem liniowym na przestrzeni wektorowej V i v jest niezerowym wektorem z przestrzeni V , to podprzestrzeń
Podprzestrzeń T -cykliczna
W = L(v, T (v), T 2 (v), . . .) nazywamy T -cykliczną podprzestrzenią przestrzeni V generowaną przez wektor v. Jest oczywiste, że jest to T -niezmiennicza podprzestrzeń. Bez trudu dowodzi się także, że jest to najmniejsza T -niezmiennicza podprzestrzeń przestrzeni V zawierająca wektor v. Z T -cyklicznej podprzestrzeni korzystamy w dowodzie twierdzenia Cayleya-Hamiltona, przy bezwyznacznikowym wyznaczaniu wielomianu charakterystycznego operatora liniowego i przy analizie macierzowych reprezentacji niediagonalizowalnych operatorów liniowych. Przykład 245. Wyznaczyć T -cykliczną podprzestrzeń przestrzeni R 3 generowaną przez wektor v = (1, 1, 1), gdy operator T określony jest wzorem T (x, y, z) = (x, x + y, y + z). Ponieważ T (v) = T (1, 1, 1) = (1, 2, 2), T 2 (v) = T (1, 2, 2) = (1, 3, 4), T 3 (v) = T (1, 3, 4) = (1, 4, 7), więc
R3 ⊇ L v, T (v), T 2 (v), . . . ⊇ L (1, 1, 1), (1, 2, 2), (1, 3, 4) = R3
i dlatego mamy L v, T (v), T 2 (v), . . . = R3 .
Obcięcie operatora
Jeśli T jest operatorem liniowym na przestrzeni wektorowej V i jeśli W jest T -niezmienniczą podprzestrzenią przestrzeni V , to symbolem TW oznaczamy obcięcie operatora T do zbioru W , czyli funkcję TW : W → W taką, że TW (x) = T (x) dla każdego x ∈ W . Operator TW dziedziczy pewne własności po operatorze T . Przede wszystkim łatwo zauważyć, że TW jest operatorem liniowym na przestrzeni wektorowej W . Kolejną własność, związek pomiędzy wielomianami charakterystycznymi operatorów T i TW , przynosi następujące twierdzenie. Twierdzenie 10.6.1. Niech T będzie operatorem liniowym na skończenie wymiarowej przestrzeni wektorowej V i niech W będzie T -niezmienniczą podprzestrzenią w przestrzeni V . Wtedy wielomian charakterystyczny operatora T W dzieli wielomian charakterystyczny operatora T . Dowód. Niech B = (b1 , . . . , bk ) będzie bazą podprzestrzeni W i niech C = (b1 , . . . , bk , bk+1 , . . . , bn ) będzie rozszerzeniem bazy B do bazy całej przestrzeni V . Dla macierzy [TW ]B operatora TW względem bazy B i macierzy [T ]C operatora T względem bazy C mamy [TW ]B A [T ]C = , 0 B
10.6. Podprzestrzenie niezmiennicze
237
gdzie 0 jest macierzą zerową wymiaru (n − k) × k, A jest pewną macierzą wymiaru k × (n − k) i B jest pewną macierzą wymiaru (n − k) × (n − k). Jeśli ϕ(λ) i ψ(λ) są wielomianami charakterystycznymi operatorów T i TW , to mamy ϕ(λ)
[TW ]B − λIk A det [T ]C − λIn = det 0 B − λIn−k det [TW ]B − λIk · det (B − λIn−k ) = ψ(λ) · det (B − λIn−k )
= =
i to dowodzi, że wielomian ψ(λ) dzieli wielomian ϕ(λ).
1 3 3 −3 3 1 −3 3 Przykład 246. Dana jest macierz A = i operator liniowy 3 −3 1 3 −3 3 3 1 T : R4 → R4 , gdzie T (x) = Ax dla x ∈ R4 . Zauważmy, że podprzestrzeń W ⊂ R4 generowana przez wektory a1 = (1, 0, 0, −1) i a2 = (0, 1, 0, 1) jest T -niezmiennicza, bo T (a1 ) = 4a1 ∈ W i T (a2 ) = 4a2 ∈ W . Zauważmy także, że B = (a1 , a2 ) jest bazą przestrzeni W i C = (a1 , a2 , e3 , e4 ) jest rozszerzeniem bazy B do bazy całej przestrzeni R4 . Łatwo teraz sprawdzić, że dla macierzy [TW ]B operatora TW względem bazy B i macierzy [T ]C operatora T względem bazy C mamy
[TW ]B =
4 0 0 4
i
4 0 [T ]C = 0 0
0 4 0 0
3 −3 −3 3 . 1 3 9 5
Jeśli teraz ϕ(λ) i ψ(λ) są wielomianami charakterystycznymi operatorów T i TW , to
4−λ 0 4−λ 0 ϕ(λ) = det 0 0 0 0
= det
4−λ 0 0 4−λ
3 −3 −3 3 1−λ 3 9 5−λ
·det
1−λ 3 9 5−λ
= ψ(λ) · det
= (4 − λ)2 (λ2 + 4λ − 32) = (λ − 4)3 (λ + 8).
1−λ 3 9 5−λ
Ostatnie twierdzenie jest szczególnie wygodne, gdy mamy do czynienia z podprzestrzenią cykliczną operatora, bo (jak zaraz zobaczymy) wielomian charakterystyczny operatora obciętego do podprzestrzeni cyklicznej jest łatwo wyznaczalny. (W dodatku, można ten wielomian wyznaczyć metodą bezwyznacznikową.) Twierdzenie 10.6.2. Niech T będzie operatorem liniowym na skończenie wymiarowej przestrzeni wektorowej V i niech W będzie T -cykliczną podprzestrzenią generowaną przez wektor v ∈ V . Jeśli dim W = k, to wtedy: (a) układ v, T (v), T 2 (v), . . . , T k−1 (v) jest bazą przestrzeni W ; (b) jeśli a0 , a1 , . . . , ak−1 są skalarami takimi, że
a0 v + a1 T (v) + . . . + ak−1 T k−1 (v) + T k (v) = 0, to ψ(λ) = (−1)k a0 + a1 λ + a2 λ2 + . . . + ak−1 λk−1 + λk jest wielomianem charakterystycznym operatora TW .
Dowód. (a) Ponieważ wektor v jest niezerowy i przestrzeń V jest skończenie wymiarowa, więc istnieje największa liczba naturalna l taka, że układ wektorów B = (v, T (v), . . . , T l−1 (v) jest liniowo niezależny. Niech U będzie podprzestrzenią generowaną przez wszystkie wektory układu B. Oczywiście, B jest bazą przestrzeni U . Z wyboru l
238
10. Wartości własne
jest także oczywiste, że układ v, T (v), . . . , T l−1 (v), T l (v) jest liniowo zależny. Stąd T l (v) ∈ U , więc L (v, T (v), . . . , T l−1 (v), T l (v) = L (v, T (v), . . . , T l−1 (v) = U. Pokażemy teraz, że U jest T -niezmienniczą podprzestrzenią. Weźmy x ∈ U . Dla takiego x istnieją skalary α0 , α1 , . . . , αl−1 takie, że x = α0 v + α1 T (v) + . . . + αl−1 T l−1 (v). Wtedy T (x) = α0 T (v) + α1 T2 (v) + . . . + αl−2 T l−1 (v) + αl−1 T l (v) i T (x) ∈ U , bo L v, T (v), . . . , T l−1 (v), T l (v) = L v, T (v), . . . , T l−1 (v) = U . To dowodzi, że U jest T -niezmienniczą podprzestrzenią zawierającą wektor v. Ponieważ W jest najmniejszą T -niezmienniczą podprzestrzenią zawierającą wektor v, więc W ⊆ U . Jednocześnie U ⊆ W , więc także mamy U = W . To dowodzi, że B jest bazą przestrzeni W i k = dim W = |B| = l. (b) Niech B = v, T (v), T 2 (v), . . . , T k−1 (v) będzie bazą przestrzeni W (zob. (a)) i niech a0 , a1 , . . . , ak−1 będą skalarami, dla których a0 v+a1 T (v)+. . . + ak−1 T k−1 (v)+ T k (v) = 0. Wtedy macierzą operatora TW względem bazy B jest
[TW ]B =
0 1 0 .. .
0 0 1 .. .
0 0 0 .. .
··· ··· ··· .. . 0 0 0 ···
0 0 0 .. .
−a0 −a1 −a2 .. .
1 −ak−1
i wielomianem charakterystycznym operatora TW jest
ψ(λ) = det [TW ]B − λIk =
−λ 0 0 ... 1 −λ 0 · · · 0 1 −λ . . . .. . . .. .. . . . . 0 0 0 ···
. 1 −ak−1 − λ
0 0 0 .. .
−a0 −a1 −a2 .. .
Rozwijając ostatni wyznacznik względem elementów pierwszego wiersza i korzystając z indukcji, łatwo stwierdzamy, że
ψ(λ) = (−1)k a0 + a1 λ + a2 λ2 + . . . + ak−1 λk−1 + λk .
Przykład 247. T -cykliczna podprzestrzeń operatora T (x, y, z) = (x, x +y, y + z) generowana przez wektor v = (1, 1, 1) (zob. przykład 245) jest przestrzenią W = L(v, T (v), . . .) wymiaru 3 i jej bazą jest układ v, T (v), T 2 (v) . Dla skalarów a0 = −1, a1 = 3 i a2 = −3 mamy a0 v + a1 T (v) + a2 T 2 (v) + T 3 (v) = 0, bo 1 1 1 1 0 −1 1 + 3 2 − 3 3 + 4 = 0 , 1 2 4 7 0 więc z ostatniego twierdzenia wynika, że wielomianem charakterystycznym operatora TW (i identycznego z nim operatora T ) jest −λ 0 1 ϕ(λ) = (−1)3 (−1 + 3λ − 3λ2 + λ3 ) = det 1 −λ −3 . 0 1 3−λ
10.7. Twierdzenie Cayleya-Hamiltona Niech ψ(x) będzie wielomianem o współczynnikach z ciała K, powiedzmy ψ(x) = a0 + a1 x + . . . + ak xk , i niech A będzie macierzą wymiaru n × n o współczynnikach z ciała K. Wtedy ψ(A) = a0 In + a1 A + . . . + ak Ak
10.7. Twierdzenie Cayleya-Hamiltona
239
jest macierzą z przestrzeni Kn×n . Z faktu, że Kn×n jest przestrzenią wektorową wymiaru n2 wynika, że (n2 + 1)-elementowy zbiór 2
{In , A, . . . , An } jest liniowo zależny. Zatem istnieją skalary a0 , a1 , . . . , an2 ∈ K takie, że 2
a0 In + a1 A + . . . + an2 An = 0. To zaś jest równoważne istnieniu wielomianu ϕ(x) takiego, że ϕ(A) = 0. Podobnie, jeśli V jest n-wymiarową przestrzenią wektorową nad ciałem K i jeśli T : V → V jest operatorem liniowym, to z faktu, że L(V, V ) jest n2 -wymiarową 2 przestrzenią wektorową wynika, że przekształcenia liniowe IV , T, . . . , T n są liniowo zależne. Stąd zaś wynika istnienie wielomianu ϕ(x) takiego, że ϕ(T ) jest zerowym przekształceniem liniowym. Udowodnimy teraz, że taką własność ma wielomian charakterystyczny operatora liniowego (macierzy kwadratowej). Innymi słowy udowodnimy, że operator liniowy (macierz kwadratowa) jest “pierwiastkiem” swojego równania charakterystycznego. Twierdzenie 10.7.1 (Cayleya-Hamiltona). Niech T będzie operatorem liniowym na skończenie wymiarowej przestrzeni wektorowej V i niech ϕ(λ) będzie jego wielomianem charakterystycznym. Wtedy ϕ(T ) jest operatorem zerowym na przestrzeni V , czyli ϕ(T ) = 0. Dowód. Wystarczy pokazać, że ϕ(T )(v) = 0 dla każdego wektora v ∈ V . Jest to oczywiste, gdy v = 0 (bo ϕ(T ) jest przekształceniem liniowym). Załóżmy teraz, że v 6= 0 i niech W będzie T -cykliczną podprzestrzenią generowaną przez wektor v. Jeśli dim W = k, to wobec twierdzenia 10.6.2 układ v, T (v), . . . , T k−1 (v) jest bazą przestrzeni W i dlatego istnieją skalary a0 , a1 , . . . , ak−1 takie, że a0 v + a1 T (v) + . . . + ak−1 T k−1 (v) + T k (v) = 0.
Wtedy także wobec poprzedniego twierdzenia wielomian ψ(λ) = (−1)k a0 + a1 λ + . . . + ak−1 λk−1 + λk
jest wielomianem charakterystycznym operatora TW . Teraz z obu powyższych równości wynika, że ψ(T )(v)
=
(−1)k a0 I + a1 T + . . . + ak−1 T k−1 + T k (v)
=
(−1)k a0 v + a1 T (v) + . . . + ak−1 T k−1 (v) + T k (v) = 0.
Ponieważ wielomian ψ(λ) dzieli wielomian ϕ(λ), więc istnieje wielomian %(λ) taki, że ϕ(λ) = %(λ)ψ(λ). Wtedy także mamy
ϕ(T )(v) = %(T )ψ(T ) (v) = %(T ) ψ(T )(v) = %(T )(0) = 0 i to kończy dowód twierdzenia.
Wniosek 10.7.1 (Twierdzenie Cayleya-Hamiltona dla macierzy). Jeśli A jest macierzą kwadratową i ϕ(λ) = (−1)n a0 + a1 λ + . . . + an−1 λn−1 + λn jest jej wielomianem charakterystycznym, to ϕ(A) jest macierzą zerową, więc a0 I + a1 A + . . . + an−1 An−1 + An = 0.
Twierdzenie Cayleya-Hamiltona
240
10. Wartości własne
Przykład 248. Niech T : R2 → R2 będzie operatorem liniowym takim, że T (x, y)
= (5x − 6y, 3x − 4y) dla (x, y) ∈ R2 . Macierzą operatora T względem bazy kanonicznej przestrzeni R2 jest macierz 5 −6 A= , 3 −4 więc jego wielomianem charakterystycznym jest ϕ(λ) = det (A − λI2 ) = det
5−λ −6 3 −4 − λ
= λ2 − λ − 2.
Zauważmy teraz, że operator liniowy ϕ(T ) = T 2 − T − 2I jest zerowy, bo dla każdego wektora v = (x, y) ∈ R2 mamy ϕ(T )(v)
= = =
T T (v) − T (v) − 2v = T T (x, y) − T (x, y) − 2(x, y) T (5x − 6y, 3x − 4y) − (5x − 6y, 3x − 4y) − (2x, 2y)
(7x − 6y, 3x − 2y) − (5x − 6y, 3x − 4y) − (2x, 2y) = (0, 0).
Podobnie macierz ϕ(A) jest zerowa, bo ϕ(A)
= =
A2 − A − 2I =
7 −6 3 −2
−
5 −6 3 −4
5 −6 3 −4
2
−
−
5 −6 3 −4
2 0 0 2
=
−2
1 0 0 1
0 0 . 0 0
Twierdzenie Cayleya-Hamiltona i potęgi macierzy Pokażemy teraz w jaki sposób twierdzenie Cayleya-Hamiltona może być pomocne przy wyznaczaniu potęg macierzy. Cała tajemnica tkwi w następującym prostym twierdzeniu. Twierdzenie 10.7.2. Jeśli macierz A o współczynnikach z ciała K jest macierzą wymiaru n × n i jeśli k jest liczbą naturalną, to macierz Ak jest kombinacją liniową macierzy In , A, . . . , An−1 . Dowód. Teza jest oczywista dla k = 0, 1, . . . , n−1. Jeśli k = n, to stwierdzenie wynika z ostatniego wniosku. Istotnie, jeśli ϕ(λ) = (−1)n (a0 + a1 λ + . . . + an−1 λn−1 + λn jest wielomianem charakterystycznym macierzy A, to ϕ(A) = 0 i z równości tej mamy An = −a0 I − a1 A + . . . − an−1 An−1 ,
co oznacza, że macierz An jest kombinacją liniową macierzy I, A, . . . , An−1 . Jeśli jest teraz k > n i jeśli założymy, że macierz Ak−1 jest kombinacją liniową macierzy I, A, . . . , An−1 , powiedzmy Ak−1 = x0 I + x1 A + . . . + xn−1 An−1 dla pewnych skalarów x0 , x1 , . . . , xn−1 , to dla macierzy Ak mamy
Ak = Ak−1 A = x0 I + x1 A + . . . + xn−1 An−1 A = x0 A + . . . + xn−2 An−1 + xn−1 An
= x0 A + . . . + xn−2 An−1 + xn−1 −a0 I − a1 A + . . . − an−1 An−1 i to dowodzi, że także Ak jest kombinacją liniową macierzy I, A, . . . , An−1 .
10.7. Twierdzenie Cayleya-Hamiltona
241
2 3 Przykład 249. Korzystając z twierdzenia Cayleya-Hamiltona, obliczyć A , A −2 0 oraz A4 , gdy A = . 7 −1
Wielomianem charakterystycznym macierzy A jest ϕ(λ) = λ2 + 3λ + 2. Stąd i z twierdzenia Cayleya-Hamiltona mamy A2 + 3A + 2I = 0 i dlatego kolejno A
2
A
3
A
4
= −3A − 2I =
4 0 , −21 1
= A(−3A − 2I) = −3(−3A − 2I) − 2A = 7A + 6I = = A(7A + 6I) = 7(−3A − 2I) + 6A = −15A − 14I =
−8 0 , 49 −1
16 0 . −105 1
Z ostatniego twierdzenia łatwo wynika, że jeśli macierz A o współczynnikach z ciała K jest wymiaru n × n i jeśli ψ(x) jest wielomianem o współczynnikach z ciała K, to macierz ψ(A) jest kombinacją liniową macierzy In , A . . . , An−1 , czyli istnieją skalary x0 , x1 , . . . , xn−1 takie, że ψ(A) = x0 In + x1 A + . . . + xn−1 An−1 . Prosty sposób wyznaczania współczynników ostatniej kombinacji jest konsekwencją następującego twierdzenia. Twierdzenie 10.7.3. Niech ϕ(x) będzie wielomianem charakterystycznym macierzy A ∈ Kn×n . Jeśli ψ(x) jest wielomianem o współczynnikach z ciała K i r(x) jest resztą z dzielenia wielomianu ψ(x) przez wielomian ϕ(x), to ψ(A) = r(A). Dowód. Jeśli q(x) jest ilorazem, a r(x) resztą z dzielenia wielomianu ψ(x) przez ϕ(x), to ψ(x) = q(x)ϕ(x) + r(x). Stąd i z równości ϕ(A) = 0 mamy ψ(A) = q(A)ϕ(A) + r(A) = r(A).
Przykład 250. Dla macierzy A z poprzedniego przykładu wyznaczyć A9 −3A7 . Różnica A9 − 3A7 jest wartością wielomianu ψ(x) = x9 − 3x7 dla macierzy A, której wielomianem charakterystycznym jest ϕ(x) = x2 + 3x + 2. Ponieważ resztą z dzielenia wielomianu ψ(x) przez ϕ(x) jest r(x) = −126x − 124, więc wobec poprzedniego twierdzenia mamy A9 − 3A7 = ψ(A) = r(A) = −126 A − 124 I2 = −126
−2 0 7 −1
− 124
1 0 0 1
=
128 0 . −882 2
Twierdzenie Cayleya-Hamiltona i macierz odwrotna Wyżej uzasadnialiśmy, że jeśli A jest macierzą wymiaru n × n i k jest liczbą naturalną, to macierz Ak jest kombinacją liniową macierzy I, A, . . . , An−1 . Z twierdzenia Cayleya-Hamiltona wynika, że także macierz A−1 (i każda macierz A−k dla k ∈ N ) jest kombinacją liniową macierzy I, A, . . . , An−1 .
242
10. Wartości własne Twierdzenie 10.7.4. Jeśli A jest nieosobliwą macierzą wymiaru n × n i jeśli ϕ(λ) = (−1)n a0 + a1 λ + . . . + an−1 λn−1 + λn jest jej wielomianem charakterystycznym, to A−1 = −
1 a1 I + a2 A + . . . + an−1 An−2 + An−1 . a0
Dowód. Ponieważ wobec ostatniego wniosku mamy
a0 I + a1 A + . . . + an−1 An−1 + An = 0 i ponieważ a0 (= |A|) 6= 0 (bo macierz A jest nieosobliwa), więc także mamy −
1 a1 I + a2 A + . . . + an−1 An−2 + An−1 A = I. a0
Stąd zaś wynika, że macierz − a10 a1 I + a2 A + . . . + an−1 An−2 + An−1 jest macierzą odwrotną do macierzy A.
Kolejny przykład ilustruje, że powyższy związek może być przydatny przy wyznaczaniu macierzy odwrotnej. Przykład 251. Za pomocą twierdzenia Cayleya-Hamiltona wyznaczyć macierz 0 2 3 odwrotną macierzy A = 2 0 0 . 1 −1 0
Macierz A jest nieosobliwa (|A| = −6) i jej wielomianem charakterystycznym jest det
"
−λ 2 3 2 −λ 0 1 −1 −λ
#
= −λ3 + 7λ − 6.
Stąd i z twierdzenia Cayleya-Hamiltona jest −A3 + 7A − 6 I = 0, więc także 16 (−A2 + 7I)A = I i dlatego mamy
A
−1
" 0 1 1 = (−A2 + 7 I) = − 2 6
6
2 3 0 0 1 −1 0
#2
1 + 7 I = 6
"
0 3 0 0 3 −6 2 −2 4
#
.
10.8. Zależności rekurencyjne Ciąg rekurencyjny jest ciągiem (xn ), w którym określone są początkowe wyrazy x0 , x1 , . . . , xp (dla pewnej liczby naturalnej p) i dana jest reguła tworzenia wyrazu xn (n > p) za pomocą wyrazów x0 , . . . , xn−1 . Tak rozumiane ciągi rekurencyjne pełnią ważną rolę w wielu działach matematyki i jej zastosowaniach. Tu zajmiemy się ciągiem (xn ), w którym znane są dwa pierwsze wyrazy x0 i x1 , a pozostałe wyrazy określone są zależnością rekurencyjną Zależność rekurencyjna
xn = axn−1 + bxn−2
(n 2),
(10.10)
gdzie a i b są liczbami rzeczywistymi takimi, że a2 + 4b 0. Pokażemy teraz,
10.8. Zależności rekurencyjne
243
jak za pomocą wartości własnych i wektorów własnych macierzy można uzyskać jawny wzór na wyrazy ciągu (10.10).2 a b Zauważmy, że wobec (10.10) dla macierzy A = i dla n 2 mamy 1 0 xn+1 axn + bxn−1 a b xn = = xn xn 1 0 xn−1 xn xn−1 x1 2 n = A =A = ... = A . xn−1 xn−2 x0 xn+1 x1 Z równości = An możemy wyznaczyć xn , ale wcześniej muxn x0 x1 n simy obliczyć wartości iloczynu A . Ponieważ a i b są liczbami rzeczywix0 2 stymi takimi, że a + 4b 0, więc A ma rzeczywiste wartości własne macierz x 1 i przy wyliczeniach iloczynu An rozróżniamy dwa przypadki. x0 x1 v1 (a) Jeśli wektor jest kombinacją liniową wektorów własnych v = x0 v2 u1 iu= odpowiadających wartościom własnym λ1 i λ2 macierzy A, powiedzu2 x1 my = αv + βu dla pewnych liczb rzeczywistych α i β, to z równości x0 xn+1 x1 n = A = An (αv + βu) = αAn v + βAn u xn x0 v1 u1 n n n n = αλ1 v + βλ2 u = αλ1 + βλ2 v2 u2 otrzymujemy jawny wzór na wyrazy ciągu (10.10), xn = αv2 λ1n−1 + βu2 λ2n−1 . (10.11) x1 (b) Załóżmy teraz, że wektor nie jest kombinacją liniową wektorów x0 własnych macierzy A. W tym przypadku macierz A ma podwójną wartość własną i jej wielomianem charakterystycznym jest ϕ(x) = (x − λ0 )2 dla pewnego a − x b λ0 ∈ R. Wtedy x2 − 2λ0 x + λ20 = x2 − ax − b = i dlatego a = 2λ0 1 −x
i b = −λ20 . Łatwo teraz zauważyć, że resztą z dzielenia wielomianu ψ(x) = xn przez wielomian ϕ(x) jest r(x) = nλ0n−1 x − (n − 1)λn0 . Stąd i z twierdzenia 10.7.3 wynika, że An = ψ(A) = r(A)
= nλ0n−1A − (n − 1)λn0 I (n + 1)λ0 −nλ20 = λ0n−1 . n −(n − 1)λ0
2 W matematyce wypracowano wiele szczegółowych metod rozwiązywania rekurencji, czyli uzyskiwania jawnych wzorów na wyrazy ciągów określonych rekurencyjnie. Przykładowo, elementarnie można uzasadnić, że jeśli λ1 i λ2 są różnymi pierwiastkami równania kwadratowego x2 − ax − b = 0, to n-ty wyraz ciągu (10.10) określony jest wzorem n xn = c 1 λn 1 + c 2 λ2
(n 0),
gdzie stałe c1 i c2 są takie, że c1 + c2 = x0 i c1 λ1 + c2 λ2 = x1 . Jeśli zaś λ0 jest podwójnym pierwiastkiem równania x2 − ax − b = 0, to n xn = c 1 λn 0 + c2 nλ0
(n 0),
gdzie stałe c1 i c2 są tak dobrane, że c1 = x0 i c1 λ0 + c2 λ2 = x1 .
244
10. Wartości własne Dlatego z równości
xn+1 xn
= An
x1 x0
dla n 0 mamy
xn = nλ0n−1 x1 − (n − 1)λn0 x0 .
(10.12)
Nasze rozważania powtarzamy dla dwóch konkretnych ciągów rekurencyjnych.
Ciąg Fibonacciego: 0, 1, 1, 2, 3, 5, 8, 13, . . .
Przykład 252. Wyznaczyć jawny wzór na wyrazy ciągu Fibonacciego, czyli ciągu (Fn ), w którym F0 = 0, F1 = 1 i dla n 2 jest Fn = Fn−1 + Fn−2 .
(10.13)
Ciąg (10.13) jest jednoznacznie określony przez macierz A = cierz ta jest diagonalizowalna, wyznaczymy
Fn+1 Fn
= An
1 1 . Ponieważ ma1 0 F1 F0
, przedstawiając
F1 jako kombinację liniową wektorów własnych macierzy A. F0 Dla macierzy A mamy √ √ 1+ 5 1− 5 2 |A − λI| = λ − λ − 1 = λ − λ− , 2 2
wektor
więc jej wartościami własnymi są liczby √ 1+ 5 λ1 = 2 Ponieważ
więc
A − λ1 I | 0 ∼
√ 1 − 5 2 0 0 0 0 v=
√ 2 5−1
i
i
i
λ2 =
√ 1− 5 . 2
A − λ2 I | 0 ∼
u=
√ −2 5+1
√ 1 + 5 2 0 0 0 0
są wektorami własnymi wartościom własnym λ1 i λ2 . Zauważmy odpowiadającymi F1 1 teraz, że wektor = jest kombinacją liniową wektorów v i u, F0 0 √ √ 1+ 5 1− 5 1 √ √ . = αv + βu, gdzie α = i β= 0 4 5 4 5 Zatem
h
Fn+1 Fn
i
=
h
1 0 √ 1+ 5 √ 4 5
= An
i
n = An (αv + βu) = αAn v + βAn u = αλn 1 v + βλ2 u √ √ √ nh nh i 1+ 5 1− 5 1− 5 √ 2 √ −2 + √ 5−1 5+1 2 2 4 5
Stąd składowa Fn wektora wzorem
1 Fn = √ 5
Fn+1 Fn
i
.
, czyli n-ta liczba Fibonacciego, określona jest
√ n √ n 1+ 5 1 1− 5 √ − . 2 2 5
(10.14)
Korzystając ze wzoru (10.14), możemy obliczyć każdą liczbę Fibonacciego Fn bez uprzedniego obliczania liczb F2 , . . . , Fn−1 . Okazuje się, że sam proces obliczania liczby Fn można jeszcze uprościć. Przede wszystkim można zaobserwować, że dla każdej liczby naturalnej n jest √ !n 1 1 1− 5 1 − <√ < . 2 2 2 5
10.9. Ćwiczenia
245
Stąd zaś i z faktu, że każda liczba Fibonacciego liczbą całkowitą wynika, że jest √ n 1 1+ 5 √ Fn jest liczbą całkowitą najbliższą liczbie 5 , czyli 2 Fn =
$
1 √ 5
√ !n ' 1+ 5 . 2
(10.15)
W tym miejscu warto zastanowić się, czy łatwiej oblicza się liczbę Fn iteracyjnie (znajdując najpierw F2 , . . . , Fn−1 ), czy posługując się formułą (10.14) lub (10.15). Czytelnikowi proponujemy iteracyjne obliczenie kilku liczb Fn , a następnie obliczenie na kalkulatorze tych samych liczb zz pomocą wzoru (10.14) lub (10.15). Przykład 253. Wyznaczyć jawny wzór na wyrazy ciągu (xn ), w którym x0 = 1, x1 = −3 i xn = 6xn−1 − 9xn−2 dla n 2. 6 −9 , której wielomianem charaktery1 0 stycznym jest ϕ(x) = x2 − 6x + 9 = (x −3)2 . Tym razem macierz A nie jest diagona xn+1 x1 n lizowalna i wyznaczając =A , wyznaczymy najpierw An . Ponieważ xn x0 r(x) = 3n−1 nx − 3n (n − 1) jest resztą z dzielenia wielomianu ψ(x) = xn przez ϕ(x), więc wobec twierdzenia 10.7.3 mamy
Ciągowi (xn ) odpowiada macierz A =
An = ψ(A) = r(A) = 3n−1 nA − 3n (n − 1)I = 3n−1 Stąd
i dlatego
xn+1 xn
=A
n
x1 x0
=3
n−1
xn = 3n − 2n3n
3n + 3 −9n . n 3 − 3n
3n + 3 −9n n 3 − 3n
−3 1
(n 0).
10.9. Ćwiczenia 1. Zbadać, czy liczba λ jest wartością własną macierzy A, gdy: 1 1 (a) λ = −2, A = ; 18 4
(c) A =
"
−3 2 4 2 −6 2 4 2 −3
#
;
0 0 (d) A = 0 1
1 0 0 0
0 1 0 0
0 0 . 1 0
1 3 4. Wyznaczyć wielomian charakterystyczny, wartości . 3 2 własne i wektory własne następujących macierzy: 2. Zbadać, czy wektor v jest wektorem własnym 3 0 2 7 3 −2 5 −3 macierzy A, gdy: , , , , 7 −1 7 2 1 −1 −4 3 1 7 3 (a) v = iA= ; 2 4 −1 2j 10 −9 1 2 −3 3 −1 , , , , 4 −2 4 3 5 3 −2j 2 # " # " −3 1 3 0 # " # " # " (b) v = 5 i A = 3 −2 −1 . 3 4 4 2 −2 3 1 1 1 0 −1 1 1 −1 −2 −4 , 1 1 1 , 1 0 0 , 3. Wyznaczyć tr (A), det (A), A−1 , wartości własne 1 1 3 1 3 −1 1 0 0 i wektory własne macierzy A, gdy: # " # " # " 4 9 0 1 2 1 3 2 2 3/5 4/5 −2 −1 1 4 1 , 0 −2 8 . 2 0 −2 , (a) A = ; (b) A = ; 4/5 −3/5 5 2 −1 2 3 −2 −4 −1 0 0 7 (b) λ = 3, A =
246
10. Wartości własne
5. Wyznaczyć wielomian charakterystyczny, wartości −3 1 4 −3 (c) A = ; (d) A = . własne i wektory własne oraz stwierdzić, czy istnieje −4 2 1 0 baza przestrzeni R3 składająca się z wektorów wła2 2 11. Niech T : R → R będzie przekształceniem liniosnych każdej z następujących macierzy: wym takim, że T(x, y) = (x + 2y, 3x + 2y) i niech E " # " # " # 2 −2 3 7 4 −1 2 −2 3 = (1, 0), (0, 1) oraz B = (1, 3), (2, 5) będą ba1 1 1 , 4 7 −1 , 10 −4 5 , zami przestrzeni R2 . (a) Wyznaczyć macierze [T ]E 1 3 −1 −4 −4 4 5 −4 6 i [T ]B . (b) Znaleźć [v]B i [T (v)]B , gdy v = (1, 1). " # " # " # B 0 1 0 −1 3 −1 2 0 4 (c) Wyznaczyć macierze przejścia [IR2 ]E B i [IR2 ]E . 2 1 0 2 , −3 5 −1 , 0 6 0 . (d) Znaleźć bazę C przestrzeni R taką, że macierz 0 2 0 −3 3 1 4 0 2 [T ]C jest diagonalna.(e) Wskazać macierz P = [IR2 ]C E n 1 2 6. Wyznaczyć (jeśli to możliwe) macierz P taką, że ma−1 i P . (f ) Obliczyć dla n ∈ N . 3 2 cierz P−1 AP jest diagonalna, gdy A jest jedną z następujących macierzy: 12. Wyznaczyć wartości własne i wektory własnemacie 25 40 1 2 1 2 −3 1 4 13 4 5 2 rzy A = . Następnie wektor , , , , , −12 −19 −1 1 2 4 −5 3 2 4 7 2 2 przedstawić jako kombinację liniową wektorów wła −3 4 0 1 0 j 0 j 1 10 , , , , snych macierzy A i obliczyć A . 2 −1 −1 0 −j 0 j 0 −1 # " # " # " 13. Wyznaczyć 2 −2 2 3 −2 0 5 2 −2 wartości własne i wektory własne macie4 1 2 0 1 1 , −2 3 0 , 2 5 −2 , rzy A = . Następnie wektor przed2 3 −1 −4 8 3 0 0 5 −2 −2 5 " # " # " # stawić jako kombinację liniową wektorówwłasnych −1 2 2 1 −3 −3 1 1 −1 2 2 5 2 2 2 , −8 6 −3 , −1 −1 2 . macierzy A i obliczyć A oraz An . −1 −1 −3 6 6 8 −2 7 −5 −2 3 4 −3 5 n 7. Niech A będzie macierzą wymiaru 3×3 z wartościami 14. Wyznaczyć P−1 AP i An − 17 12 , gdy −4 3 własnymi λ1 = 0, λ2 = 2 i λ3 = c ∈ R i wektorami " # " # " # 1 1 1 2/3 1/4 1 3 własnymi x1 = 1 , x2 = −1 , i x3 = 1 . A= i P= . 1/3 3/4 −1 4 1 0 −2 n (a) Dla jakich c macierz A jest diagonalizowalna? 3/5 4/5 2/3 2/3 15. Wykazać, że lim = . (b) Dla jakich c macierz A jest symetryczna? 2/5 1/5 1/3 1/3 n→∞ 8. (a) Obliczyć wartości własne i wektory własne ma- 16. Wyznaczyć (1) wartości własne i wektory własne 0 0 0 1 macierzy A, (2) macierz P taką, że P−1 AP jest 0 0 1 0 macierzą diagonalną i (3) lim An , gdy: cierzy A = . (b) Czy macierz A jest n→∞ 0 1 0 0 # # " " 1/2 3 4 1/2 1/2 0 1 0 0 0 (a) A = 0 1 0 ; (b) A = 1/4 1/4 1/2 . diagonalizowalna? (c) Wyznaczyć rząd i wyznacznik 0 0 1 1/4 1/4 1/2 macierzy A + 2I. 9. Zbadać diagonalizowalność operatora liniowego 17. Sprawdzić, czy podprzestrzeń W jest T -niezmienniczą podprzestrzenią przestrzeni V , gdy: T : V → V i, tam gdzie jest to możliwe, wskazać bazę B przestrzeni V taką, że macierz [T ]B jest (a) V = R4 [x], T ϕ(x) = ϕ0 (x) i W = R2 [x]; diagonalna, gdy: (b) V = R3 , T (x, y, z) = (x + 3y + 3z, −3x − 5y − (a) T : R3 → R3 , T (x, y, z) = (y, x, 3z); 3z, 3x + 3y + z) i W = {(t, −t, t) : t ∈ R}; (b) T : R3 [x] → R3 [x], T (ϕ(x)) = ϕ0 (x) + ϕ00 (x); 0 1 (c) V = R2×2 , T (A) = A (c) T : R2 [x] → R2 [x], T (ax2 + bx + c) = 1 0 cx2 + bx + a; T i W = {A : A = A}. (d) T : C 2 → C 2 , T (z, w) = (jz + w, z + jw); 18. Wyznaczyć bazę T -cyklicznej podprzestrzeni generowanej przez wektor v, gdy: (e) T : R2×2 → R2×2 , T (A) = AT ; (a) V = R4 [x], T ϕ(x) = ϕ0 (x), v = x3 ; (f ) T : R →R , 2×2
2×2
a b 2c a+c . = T b − 2c d c d 10. Wyznaczyć macierz P taką, że macierz P−1 AP jest diagonalna i, dodatkowo, wyznaczyć An , gdy: (a) A =
3 −4 ; 2 −3
(b) A =
3 4 ; −1 −2
(b) V = R3 , T (x, y, z) = (x + 3y + 3z, −3x − 5y − 3z, 3x + 3y + z), v = (1, 0, 0);
1 2 1 0 AT , v = . 3 0 0 −1 19. Niech V będzie przestrzenią wektorową (nad ciałem liczb zespolnych) z iloczynem skalarnym. Niech T : V → V będzie samosprzężonym operatorem linio(c) V = R2×2 , T (A) =
10.9. Ćwiczenia
247
wym na przestrzeni V , czyli takim, że (T (u)|v) = rystyczny ϕ(λ) operatora T . (d) Korzystając z rów(u|T (v)) dla każdych wektorów u, v ∈ V . Niech v1 ności ϕ(T ) = 0, wyznaczyć T −1 . (e) Obliczyć T 7 + i v2 będą wektorami własnymi operatora T odpowia3T 6 − 3T 4 + 3T 3 + 5T + IR3 . dającymi wartościom własnym λ1 i λ2 . Udowodnić, 29. (a) Wyznaczyć wartości własne i wektory własne ma że λ1 i λ2 są rzeczywiste. Wykazać, że jeśli λ1 6= λ2 , 1 1 cierzy A = . (b) Dany jest ciąg wektorów to v1 i v2 są ortogonalne. − 16 16 20. Niech V będzie rzeczywistą przestrzenią wektorową 1 (xk ) taki, że xk+1 = Axk i x100 = . Wyznaczyć z iloczynem skalarnym. Napisać, co to znaczy, że ope0 rator liniowy T : V → V jest ortogonalny. Pokazać, x0 . (c) Niech B będzie dowolna macierzą wymiaru że jeśli λ ∈ R jest wartością własną operatora T , to 2 × 2. Wyjaśnić dlaczego macierze AB i BA mają λ = 1 albo λ =−1. identyczne wartości własne. 1 − 12 − √12 2 1 1 1 30. Niech dn będzie wyznacznikiem macierzy An = [aij ], − 2 − √2 21. Czy macierz jest ortogonalna? 2 1 1 której współczynniki określone są wzorem √ √ 0 2 2 ( Wyznaczyć jej wartości własne. −2, i = j − 1, 22. Wyznaczyć wartości własne i przestrzeń zerową ma" # 0 a −b cierzy A = −a 0 c . Wyjaśnić dlaczego mab −c 0 cierz A nie jest ortogonalna. 23. Wyznaczyć wartości własne i wektory własne macierzy A oraz utworzyć macierz ortogonalną Q taką, że QT AQ jest macierzą diagonalną, gdy: 1 3 3 −3 3 4 3 1 −3 3 ; (a) A = ; (b) A = 4 3 3 −3 1 3 −3 3 3 1
24.
25.
26.
27.
aij =
1, 0,
i ∈ {j, j + 1}, i 6∈ {j − 1, j, j + 1}.
Przykładowo: A1 = [1], A2 =
A3 =
"
1 −2 0 1 1 −2 0 1 1
#
1 −2 , 1 1
1 −2 0 0 1 1 −2 0 , A4 = . 0 1 1 −2 0 0 1 1
(a) Obliczyć d4 . (b) Wyznaczyć liczby a i b takie, że dn = adn−1 + bdn−2 . (c) Wskazać macierz A taką, d dn n+1 że =A i obliczyć wartości własne # " 1 −1 0 0 d d n n−1 0 1 1 −1 1 0 0 i wektory własne wskazanej macierzy A. (d) Wyzna(c) A = 1 0 1 ; (d) A = . 0 0 1 3 dn 1 1 0 czyć liczbę λ taką, że lim n = 0. 0 0 3 1 n→∞ λ Znaleźć wszystkie podprzestrzenie niezmiennicze 31. Dany jest ciąg (xn ), w którym x0 = 0, x1 = 1 i xn+2 operatora T : R3 → R3 , gdy # " = (xn + xn+1 )/2. 1 −4 1 (a) taką macierz A, dla której jest Wskazać 1 1 x. T (x) = −4 x x n+2 n+1 4 4 4 = A . (b) Wyznaczyć wartości xn+1 xn Napisać twierdzenie Cayleya-Hamiltona. Wskazać własne i wektory własne macierzy A. (c) Wyznaczyć macierz wymiaru 6 × 6, której wielomianem charakmacierz diagonalną Λ i macierz odwracalną P taką, 6 5 3 2 terystycznym jest λ − 17λ + 2λ + λ − 5. że A = PΛP−1 . (d) Wyznaczyć limn→∞ xn . Niech A będzie macierzą wymiaru 4 × 4 i niech 32. (a) Ciąg liczbowy x0 , x1 , x2 , . . . spełnia zależność reλ1 = 1, λ2 = −1, λ3 = λ4 = 2 będą wartościami kurencyjną xn+2= 2xn+1 + 3xn. Wskazać macierz A własnymi macierzy A. (a) Wyznaczyć A−1 za pomoxn+2 xn+1 taką, że =A . (b) Wyznaczyć warcą nieujemnych potęg macierzy A. (b) Pokazać, że xn+1 xn 6 3 2 A = 36A − 51A − 36A + 52I. tości własne i wektory własne macierzy A. (c) Dla x0 = 2 wskazać taką wartość x1 , że ciąg (xn ) jest Wyznaczyć wartości własne i wektory własne v1 , v2 " # 1 0 0 ograniczony. 2 2 0 . Dla macierzy B 33. Rozwiązać układ zależności rekurencyjnych i v3 macierzy A = −2 2 3 xn+1 = 3xn − yn , = v1 v2 v3 znaleźć liczby α, β i γ takie, że B3 + yn+1 = −xn + 3yn , 2 αB + βB + γI = 0.
28. Operator liniowy T : R3 → R3 określony jest wzorem gdy x0 = 1 i y0 = 2. T (x, y, z) = (2x + 4y + 3z, −4x − 6y − 3z, 3x + 3y + z). 34. Rozwiązać układ zależności rekurencyjnych (a) Wyznaczyć wymiar T -cyklicznej podprzestrzeni xn+1 = 2xn − yn − 1, W ⊆ R3 generowanej przez wektor v = (1, 0, 0). yn+1 = −xn + 2yn + 2, (b) Wyznaczyć liczby a0 , . . . , ak−1 (k = dim W ) takie, że a0 v + a1 T (v) + . . . + ak−1 T k−1 (v) + T k (v) = 0. gdy x0 = 0 i y0 = −1. (c) Korzystając z (b) wyznaczyć wielomian charakte-
248 35. Zakładamy, że populacja Polski jest ustalona i stała. Co roku 1/20 liczby ludności wiejskiej przenosi się do miast i 1/10 liczby ludności miejskiej opuszcza miasto. Co po wielu latach stanie się z ludnością miejską? 36. Niech T będzie operatorem liniowym na przestrzeni wektorowej V (nad ciałem K) i niech W będzie T -niezmienniczą podprzestrzenią przestrzeni V . Udowodnić, że W jest ϕ(T )-niezmienniczą podprzestrzenią dla każdego wielomianu ϕ(x) ∈ K[x]. 37. Niech A będzie rzeczywistą macierzą wymiaru n × n i niech Vλ oznacza zbiór {x ∈ Rn : Ax = λx} dla liczby rzeczywistej λ. Pokazać, że Vλ jest podprzestrzenią przestrzeni Rn . Wyznaczyć wymiar przestrzeni Vλ , gdy λ nie jest wartością własną macierzy A. 38. Wykazać, że macierz kwadratowa A i jej transpozycja AT mają identyczne wielomiany charakterystyczne. 39. Udowodnić, że macierze podobne mają identyczne wielomiany charakterystyczne, te same wartości własne i to samo widmo. 40. Niech A będzie macierzą diagonalizowalną. Za pomocą macierzy podobnych pokazać, że ślad macierzy A jest równy sumie jej wartości własnych. 41. Niech A będzie macierzą kwadratową stopnia n i niech λ1 , . . . , λn będą jej wartościami własnymi. Pokazać, że ślad macierzy A jest równy sumie jej wartości własnych, tj. tr (A) = λ1 + . . . + λn . 42. Niech A będzie diagonalizowalną macierzą wymiaru n × n i niech λ1 , . . . , λn będą wartościami własnymi macierzy A. Udowodnić, że det (A) = λ1 λ2 . . . λn . 43. Udowodnić, że jeśli A jest macierzą kwadratową i sumą elementów każdego jej wiersza jest liczba a, to a jest pierwiastkiem wielomianu charakterystycznego macierzy A. 44. Niech T będzie operatorem liniowym w przestrzeni wektorowej V nad ciałem K i niech x0 będzie wektorem własnym operatora T odpowiadającym wartości własnej λ. (a) Udowodnić, że x0 jest wektorem własnym operatora T n (dla każdej liczby naturalnej n). (b) Wykazać, że x0 jest wektorem własnym operatora 2T 2 + IV odpowiadającym wartości własnej 2λ2 + 1. (c) Niech ψ(t) będzie wielomianem o współczynnikach z ciała K. Wykazać, że x0 jest wektorem własnym operatora ψ(T ) odpowiadającym wartości własnej ψ(λ). 45. Pokazać, że jeśli λ jest wartością własną macierzy A, to λn jest wartością własną macierzy An dla każdej liczby naturalnej n. 46. Liczby λ = −1 i λ = 1 są wartościami własnymi macierzy A wymiaru 3 × 3 takiej, że A + I jest macierzą rzędu jeden. Która wartość własna macierzy A jest wielokrotna? Dlaczego? Czy macierz A jest diagonalizowalna? # " 1 2 3 47. Dana jest macierz A = 2 x 4 . Wyznaczyć (je3 4 5 śli to możliwe) te wartości parametru x, dla których wszystkie wartości własne macierzy A są dodatnie. 48. Wykazać, że jeśli A2 jest macierzą zerową, to zero jest jedyną wartością własną macierzy A.
10. Wartości własne 49. Macierz A jest nilpotentna, gdy Ak = 0 dla pewnego naturalnego k. Wykazać, że zero jest jedyną wartością własną nilpotentnej macierzy A. 50. Wykazać, że macierz A ∈ Rn×n jest osobliwa wtedy i tylko wtedy, gdy 0 jest jej wartością własną. 51. Udowodnić, że operator liniowy T na skończenie wymiarowej przestrzeni wektorowej V jest odwracalny wtedy i tylko wtedy, gdy zero nie jest wartością własną operatora T . 52. Niech T będzie odwracalnym operatorem liniowym. Udowodnić, że skalar λ jest wartością własną operatora T wtedy i tylko wtedy, gdy λ−1 jest wartością własną operatora T −1 . 53. Niech ϕ(λ) = (−1)n λn + an−1 λn−1 + . . . + a1 λ + a0 będzie wielomianem charakterystycznym macierzy A. (a) Udowodnić, że ϕ(0) = a0 = det (A). Wywnioskować stąd, że macierz A jest odwracalna wtedy i tylko wtedy, gdy a0 6= 0. (b) Udowodnić, że tr (A) = (−1)n−1 an−1 . 54. Wykazać, że jeśli λ jest wartością własną odwracalnej macierzy A, to 1/λ jest wartością własną macierzy A−1 . 55. Wykazać, że jeśli λ jest wartością własną macierzy ortogonalnej A, to także 1/λ jest wartością własną macierzy A. 56. Niech T będzie operatorem liniowym w n-wymiarowej przestrzeni wektorowej V nad ciałem K. Niech B będzie bazą przestrzeni V . Udowodnić, że wektor v ∈ V jest wektorem własnym operatora T odpowiadającym wartości własnej λ wtedy i tylko wtedy, gdy wektor [v]B ∈ K n jest wektorem własnym macierzy [T ]B odpowiadającym wartości własnej λ. 57. Niech A będzie rzeczywistą macierzą skośnie-symetryczną (tj. taką, że AT = −A). Wykazać, że każda wartość własna λ macierzy A jest liczbą ściśle urojoną. (W tym celu pokazać, że λ = −λ.) 58. Macierz A jest podobna do macierzy B wymiaru 3 × 3, której wartościami własnymi są 1, 1 i 2. Co można powiedzieć o: (a) wartościach własnych macierzy A; (b) diagonalizowalności macierzy A; (c) symetryczności A; (d) wyznaczniku macierzy A? 59. Niech u, v, w będą wektorami własnymi macierzy A ∈ R3×3 odpowiadającymi jej wartościom własnym 0, 1 i 2. (a) Opisać przestrzeń zerową, przestrzeń kolumnową i przestrzeń wierszową macierzy A za pomocą u, v i w. (b) Znaleźć wszystkie rozwiązania równania Ax = v − w. 60. Wartościami własnymi macierzy A są 0, 1 i 2. Wyznaczyć: (a) rząd macierzy A; (b) wyznacznik macierzy AT A; (c) wyznacznik macierzy A+I; (d) wartości własne macierzy (A + I)−1 . 61. Wpisując TAK albo NIE, stwierdzić prawdziwość każdego z następujących zdań: 1 Jeśli T : V → V jest przekształceniem liniowym i jego wielomian charakterystyczny jest iloczynem różnych składników stopnia pierwszego, to T jest diagonalizowalne. 2 Każde przekształcenie liniowe T : V → V ma co najmniej jedną wartość własną.
10.9. Ćwiczenia
3
Macierz
"
"
#
249 2 0 0 0 2 1 0 0 4
#
jest diagonalizowalna, a ma-
2 1 0 cierz 0 2 0 nie jest diagonalizowalna. 0 0 4 4 Jeśli dla macierzy A, B i Q jest Q−1 AQ = B, to A i B mają te same wartości własne. 5 Macierz mająca wielokrotną wartość własną nie może być diagonalizowalna. 6 Jeśli macierz A ma wielokrotne wartości własne, to istnieje baza ortonormalna jej przestrzeni kolumnowej. 7 Operator liniowy T : Rn → Rn mający mniej niż n wartości własnych nie może być diagonalizowalny. 8 Wektory własne odpowiadające tej samej wartości własnej operatora liniowego nie muszą być liniowo zależne. 9 Liniowo niezależne wektory własne v1 i v2 macierzy A odpowiadają jej różnym wartościom własnym. 10 Jeśli λ jest wartością własną operatora liniowego T : V → V , to każdy element zbioru Vλ − {0} jest wektorem własnym operatora T . 11 Jeśli A ∈ Rn×n i B = (b1 , . . . , bn ) jest bazą przestrzeni Rn składającą się z wektorów własnych macierzy A, to macierz Q−1 AQ jest diagonalna, gdy Q = [ b1 . . . bn ]. 12 Przestrzeń własna Vλ macierzy kwadratowej A jest przestrzenią zerową pewnej innej macierzy. 13 Jeśli λ jest wartością własną macierzy A i β jest liczbą zespoloną, to λ−β jest wartością własną macierzy A − βI. 14 Jeśli λ jest wartością własną macierzy A, to także −λ jest wartością własną macierzy A. 15 Jeśli λ jest wartością własną nieosobliwej macierzy A, to λ−1 jest wartością własną macierzy A−1 . 16 Jeśli wszystkie wartości własne macierzy A są zerowe, to A = 0. 17 Jeśli macierz A jest diagonalizowalna i wszystkie wartości własne macierzy A są sobie równe, to A jest diagonalna. 18 Liczba λ0 jest wartością własną macierzy A wtedy i tylko wtedy, gdy jest ona wartością własną macierzy AT . 19 Wektor v0 jest wektorem własnym macierzy A wtedy i tylko wtedy, gdy jest on wektorem własnym macierzy AT . 20 Jeśli macierz A jest symetryczna, to każde dwa wektory własne macierzy A odpowiadające różnym wartościom własnym są ortogonalne. 21 Jeśli A jest macierzą kwadratową stopnia n i A ma n wzajemnie ortogonalnych wektorów własnych, to macierz A jest symetryczna.
Rozdział 11
FORMY KWADRATOWE 11.1. Rzeczywista forma kwadratowa Definicja 11.1.1. Rzeczywistą formą kwadratową n zmiennych nazywamy wielomian jednorodny drugiego stopnia postaci Forma kwadratowa
q=
n X n X
(11.1)
mij xi xj ,
i=1 j=1
w którym współczynniki mij (i, j = 1, . . . , n) są liczbami rzeczywistymi. Formę kwadratową (11.1) można także zapisać w postaci q=
n X
mii x2i +
i=1
X
(mij + mji )xi xj .
(11.2)
1¬i
Przykład 254. Wielomian q = x21 + 4x23 − 2x2 x3 jest formą kwadratową zmiennych x1 , x2 i x3 , ale wielomian p = x21 + 4x23 − 2x2 x3 + x2 − 1 nie jest już formą kwadratową zmiennych x1 , x2 i x3 . Współczynniki mij i zmienne xi formy (11.1) tworzą macierze m11 m12 . . . m1n x1 m21 m22 . . . m2n x2 M= . i x = . , . . .. .. .. .. mn1 mn2 . . . mnn
x3
dla których mamy
q =
n X i=1
=
xi
n X
mij xj
j=1
x1 . . . x n
Pn j=1 m1j xj .. = x1 . . . x n . Pn m x j=1 nj j m11 . . . m1n x1 .. .. .. = xT Mx. . . .
mn1 . . . mnn
xn
Zatem formę (11.1) można zapisać w postaci Postać macierzowa formy kwadratowej
q = q(x) = xT Mx,
(11.3)
nazywanej jej postacią macierzową. Można zauważyć, że każdą formę kwadratową n zmiennych (n 2) można zapisać w postaci macierzowej na nieskończenie wiele sposobów.
11.1. Rzeczywista forma kwadratowa
251
Przykład 255. Mamy q=
2x21
+ 10x1 x2 +
3x22
+ 10x1 x2 +
3x22
=
x1
2 10 x1 x2 , 0 3 x2
x1
2 10 − a x1 x2 a 3 x2
ale jednocześnie q=
2x21
=
dla każdej liczby rzeczywistej a i, w szczególności, dla a = 5 jest q = 2x21 + 10x1 x2 + 3x22 =
x1 x2
2 5 x1 . 5 3 x2
Okazuje się także, że każdą formę kwadratową można zapisać przy użyciu macierzy symetrycznej. Fakt ten będzie miał zasadnicze znaczenie w naszych dalszych rozważaniach, bo z uwagi na twierdzenie 10.3.4 każdą formę kwadratową będzie można zapisać w bardzo wygodnej posatci, w tzw. postaci kanonicznej. Twierdzenie 11.1.1. Dla każdej formy kwadratowej q = xT Mx istnieje dokładnie jedna macierz symetryczna A taka, że q = xT Ax. Dowód. Jeśli M = [mij ] jest macierzą wymiaru n × n, to macierz A = 12 (M + MT ) jest symetryczna oraz (A)ij + (A)ji = mij + mji (i w szczególności (A)ii = mii ) dla i, j ∈ {1, . . . , n}. Stąd i z (11.2) mamy n X
xT Ax =
(A)ii x2i +
i=1
n X
=
X
(A)ij + (A)ji xi xj
i6=j
mii x2i
i=1
+
X
(mij + mji ) xi xj = xT Mx = q.
i6=j
Dowód jedyności macierzy A pozostawiamy czytelnikowi.
Wobec powyższego twierdzenia możemy przyjąć, że macierzą formy kwadratowej q = xT Mx (gdzie M ∈ Rn×n ) jest jedyna macierz symetryczna A taka, że xT Mx = xT Ax dla każdego x ∈ Rn . Natomiast rzędem formy kwadratowej nazywamy rząd jej jedynej macierzy symetrycznej. Przykład 256. Formę kwadratową q(x) = 2x21 + 3x22 − 7x23 − 2x1 x2 + 3x1 x3 zapisać w postaci xT Ax z symetryczną macierzą A. Współczynniki stojące przy x21 , x22 i x23 kolejno stawiamy na głównej przekątnej macierzy A, czyli przyjmujemy (A)11 = 2, (A)22 = 3 i (A)33 = −7. Współczynnik stojący przy xi xj dla i 6= j w równych częściach rozdzielamy pomiędzy (A)ij i (A)ji . Tu mamy (A)12 = (A)21 = −1, (A)13 = (A)31 = 3/2 i (A)23 = (A)32 = 0 (bo współczynnikiem x2 x3 jest 0). Łatwo sprawdzić, że istotnie mamy T
q(x) = x Ax =
x1 x2 x3
"
2 −1 3/2 −1 3 0 3/2 0 −7
#"
x1 x2 x3
#
.
Definicja 11.1.2. Niech q(x) = xT Ax i p(y) = yT By będą rzeczywistymi formami kwadratowymi n zmiennych, gdzie A i B są macierzami symetrycznymi.
Macierz formy kwadratowej Rząd formy kwadratowej
252
11. Formy kwadratowe Mówimy, że forma q(x) jest sprowadzalna do formy p(y), gdy istnieje nieosobliwa macierz Q ∈ Rn×n taka, że ∀y∈Rn q(Qy) = p(y).
(11.4)
W takim przypadku mówimy też, że podstawienie x = Qy sprowadza formę kwadratową q(x) = xT Ax do formy kwadratowej p(y) = yT By, czyli q(Qy) = (Qy)T A(Qy) = yT (QT AQ)y = yT By = p(y).
(11.5)
Łatwo zauważyć, że równości (11.5) zachodzą dla każdego y ∈ R n wtedy i tylko wtedy, gdy B = QT AQ. (11.6) To dowodzi, że forma kwadratowa q(x) = xT Ax jest sprowadzalna do formy kwadratowej p(y) = yT By wtedy i tylko wtedy, gdy zachodzi równość (11.6) dla pewnej nieosobliwej macierzy Q. Przykład 257. Podstawienie x1 x2
= x = Qy =
1 1 0 1
y1 y2
=
y1 + y 2 y2
sprowadza formę kwadratową q(x) = x21 + 4x1 x2 + 2x22 do formy kwadratowej p(y) = y12 + 6y1 y2 + 7y22 , bo q(Qy) = (y1 + y2 )2 + 4(y1 + y2 )y2 + 2y22 = y12 + 6y1 y2 + 7y22 = p(y). Powyższy fakt jest także konsekwencją tego, że dla macierzy A=
1 2 2 2
i
B=
1 3 , 3 7
które są odpowiednio macierzami form kwadratowych q(x) i p(y) oraz symetrycznymi 1 1 dla macierzy nieosobliwej Q = spełniony jest warunek (11.6), bo mamy 0 1 T
Q AQ =
1 0 1 1
1 2 2 2
1 1 0 1
=
1 0 1 1
1 3 2 4
=
1 3 3 7
= B.
11.2. Postać kanoniczna formy kwadratowej
Forma kwadratowa w postaci kanonicznej
Definicja 11.2.1. Jeżeli macierz A jest diagonalna, to mówimy, że forma kwadratowa q(x) = xT Ax ma postać kanoniczną. Zauważmy, że jeśli A = diag (λ1 , λ2 , T . . . , λn ) i x = x1 x2 . . . xn , to forma kwadratowa q(x) = xT Ax jest formą postaci q(x) = λ1 x21 + λ2 x22 + . . . + λn x2n . W tym miejscu nasuwa się pytanie: które formy kwadratowe (i za pomocą jakich podstawień) można sprowadzić do form w postaci kanonicznej? Uzasadnimy, że każdą rzeczywistą formę kwadratową można sprowadzić do postaci kanonicznej za pomocą przekształcenia ortogonalnego oraz tzw. metodą Lagrange’a. Zaczynamy od tego pierwszego sposobu.
11.2. Postać kanoniczna formy kwadratowej
253
Metoda przekształceń ortogonalnych Niech A będzie symetryczną macierzą rzeczywistą wymiaru n × n. Wobec twierdzenia 10.3.4 macierz A jest ortogonalnie diagonalizowalna, czyli istnieje macierz ortogonalna Q = [ q1 . . . qn ] taka, że macierz QT AQ jest diagonalna, QT AQ = Λ = diag (λ1 , . . . , λn ),
(11.7)
gdzie λ1 , . . . , λn są wartościami własnymi macierzy A, a q1 , . . . , qn są znormalizowanymi wektorami własnymi macierzy A odpowiadającymi wartościom własnym λ1 , . . . , λn . Jednocześnie układ wektorów Q = (q1 , . . . , qn ) jest bazą przestrzeni Rn i macierz Q jest macierzą przejścia od bazy Q do bazy kanoQ nicznej E = (e1 , . . . , en ) przestrzeni Rn , czyli Q = [1Rn ]E . Natomiast macierz E −1 T Q = Q jest macierzą przejścia od bazy E od bazy Q, więc QT = [1Rn ]Q . Niech teraz x = [x1 . . . xn ]T będzie dowolnym wektorem z przestrzeni Rn i niech y = [y1 . . . yn ]T będzie wektorem współrzędnych wektora x względem bazy Q. Wtedy E y = [x]Q = [1Rn ]Q · [x]E = QT x i x = Qy. Przekształcenie y = QT x nazywa się przekształceniem do osi głównych formy kwadratowej q = xT Ax. Natomiast przekształcenie x = Qy jest ortogonalnym podstawieniem sprowadzającym formę kwadratową q(x) = xT Ax do postaci kanonicznej, bo wobec (11.7) mamy q(Qy) = (Qy)T A(Qy) = yT (QT AQ)y = yT Λy = λ1 y12 + λ2 y22 + . . . + λn yn2 . W ten sposób udowodniliśmy następujące twierdzenie o sprowadzalności formy kwadratowej do postaci kanonicznej za pomocą przekształcenia ortogonalnego. Twierdzenie 11.2.1. Formę kwadratową q(x) = xT Ax, gdzie A jest symetryczną macierzą rzeczywistą wymiaru n × n, za pomocą podstawienia ortogonalnego x = Qy = [ q1 . . . qn ] y można sprowadzić do postaci q(Qy) = yT Λy = λ1 y12 + λ2 y22 + . . . + λn yn2 ,
(11.8)
gdzie Λ = diag (λ1 , . . . , λn ) i λ1 , . . . , λn są wszystkimi wartościami własnymi macierzy A, a q1 , . . . , qn są znormalizowanymi wektorami własnymi macierzy A odpowiadającymi wartościom własnym λ1 , . . . , λn . Przykład 258. Wyznaczyć podstawienie ortogonalne x = Qy sprowadzające formę kwadratową q(x) = 2x1 x2 + 4x1 x3 do postaci kanonicznej. Symetryczną macierzą współczynników podanej formy kwadratowej jest A= Ponieważ
"
0 1 2 1 0 0 2 0 0
#
.
# −λ 1 2 |A − λI| = 1 −λ 0 = −λ(λ2 − 5), 2 0 −λ
√ √ więc jej wartościami własnymi są liczby λ1 = 0, λ2 = 5 i λ3 = − 5. Wektory własne macierzy A odpowiadające wartościom własnym λ1 , λ2 i λ3 wybieramy spośród niezerowych rozwiązań układu równań (A − λi I)x = 0 dla i = 1, 2, 3. Mamy [ A − λ1 I | 0 ] = [ A | 0 ] =
"
0 1 2 0 1 0 0 0 2 0 0 0
#
∼
"
1 0 0 0 0 1 2 0 0 0 0 0
#
,
Przekształceniem do osi głównych Podstawienie ortogonalne
254
11. Formy kwadratowe więc v1 = (0, −2, 1) jest wektorem własnym odpowiadająacym wartości własnej λ1 = 0. Podobnie √ √ # # − 5 1 2 0 1 − 5 0 0 √ [ A − λ2 I | 0 ] = 1 − 5 0 0 ∼ 0 −2 1 0 √ 0 0 0 0 0 2 0 − 5
√ i stąd wynika, że √ v2 = ( 5, 1, 2) jest wektorem własnym odpowiadająacym warto√ ści własnej λ2 = 5. Analogicznie pokazuje się, że√v3 = (− 5, 1, 2) jest wektorem własnym odpowiadającym wartości własnej λ3 = − 5. Zatem
Q=
|
v1 ||v1 ||
|
|
|
v2 ||v2 ||
v3 ||v3 ||
|
|
√ √ √ √ 5/√10 − 5/√10 1/√10 1/√10 2/ 10 2/ 10
√0 = −2/ 5 √ 1/ 5
jest macierzą ortogonalną i wobec twierdzenia 11.2.1 podstawienie
"
x1 x2 x3
#
√0 1 = x = Qy = √ −2√2 10 2
√ " √ # 5 − 5 y1 1 1 y2 y3 2 2
sprowadza formę kwadratową q(x) = 2x1 x2 +4x1 x3 do postaci kanonicznej q(Qy) √ √ = λ1 y12 + λ2 y22 + λ3 y32 = 5y22 − 5y32 .
Przykład 259. Formę kwadratową q = 5x21 +8x1 x2 +5x22 za pomocą przekształcenia do osi głównych (tj. za pomocą przekształcenia typu y = QT x) zapisać w postaci kanonicznej. Mamy q = xT Ax =
5 4 x1
x1 x2
4 5
x2
.
Łatwe obliczenia pokazują, żeliczby λ1 = 1 i λ2 =9 są wartościami własnymi macierzy 1 1 5 4 A = , a q1 = √12 i q2 = √12 są ortonormalnymi wektorami 4 5 −1 1 własnymi macierzy A odpowiadającymi wartościom własnym λ1 i λ2 . Zatem Q=
q1 q2
1 = √ 2
1 1 −1 1
i przekształceniem do osi głównych formy q = 5x21 + 8x1 x2 + 5x22 jest
y1 y2
1 = y = QT x = √ 2
1 −1 1 1
x1 x2
1 = √ 2
x1 − x 2 x1 + x 2
.
Wobec (11.8) formę q = 5x21 + 8x1 x2 + 5x22 możemy zapisać w postaci q = yT Λy = λ1 y12 + λ2 y22 = 1 =
1 √ (x1 2
1 (x1 2
− x2 )
2
+9
1 √ (x1 2
− x2 )2 + 92 (x1 + x2 )2 .
+ x2 )
2
Metoda Lagrange’a Tym razem będziemy sprowadzać formę kwadratową do postaci kanonicznej, czyli do sumy kwadratów, poprzez uzupełnianie do pełnych kwadratów wyrażeń zawierających ustaloną zmienną formy. Przykładowo, jeśli w formie q = x 21 +
11.2. Postać kanoniczna formy kwadratowej
255
4x1 x2 −7x22 wyrażenie x21 +4x1 x2 zawierające zmienną x1 uzupełnimy do pełnego kwadratu, (x21 +4x1 x2 )+4x22 = (x1 +2x2 )2 , to formę q możemy zapisać w postaci q = (x1 + 2x2 )2 − 4x22 − 7x22 = (x1 + 2x2 )2 − 11x22
i jest to jej postać kanoniczna. Ten sposób sprowadzania formy kwadratowej do postaci kanonicznej nazywa się metodą Lagrange’a. W ogólnym przypadku (0) bierzemy pod uwagę macierz rzeczywistą symetryczną A(0) = [aij ] wymiaru P (0) n n×n i formę kwadratową q(x) = xT A(0) x = i, j=1 aij xi xj . Sprowadzając ją do postaci kanonicznej metodą Lagrange’a rozróżniamy dwa przypadki, w zależności (0) od współczynników aii : (0) (a) aii 6= 0 dla pewnego i ∈ {1, . . . , n}; (0) (b) aii = 0 dla i = 1, . . . , n. (0) Przypadek (a). Załóżmy, że nie wszystkie współczynniki aii są równe zeru. Bez (0) utraty ogólności możemy założyć, że a11 6= 0. W tym przypadku całe wyrażenie (0) (0) (0) a11 x21 + 2a12 x1 x2 + . . . + 2a1n x1 xn zawierające x1 uzupełniamy do pełnego kwadratu i formę q zapisujemy w postaci q(x) =
1 (0) a11
(0)
(0)
(0)
(a11 x1 + a12 x2 + . . . + a1n xn )2 + q1 ,
(11.9)
gdzie q1 = q1 (x2 , . . . , xn ) jest pewną formą kwadratową zmiennych x2 , x3 , . . . , xn . Z równości tej wynika, że jeśli t2 y22 + . . .+ tn yn2 będzie postacią kanoniczną formy q1 , to wyrażenie t1 y12 + t2 y22 + . . . + tn yn2 , w którym t1 = q.
1 (0) a11
(0)
(0)
i y1 = a11 x1 +. . .+a1n xn , będzie postacią kanoniczną formy
Przykład 260. Metodą Lagrange’a formę kwadratową q = x21 + 4x1 x2 − 2x1 x3 + 3x22 + 2x2 x3 + 2x23
(11.10)
sprowadzić do postaci kanonicznej. Wyrażenie x21 + 4x1 x2 − 2x1 x3 , zawierające x1 w formie q, uzupełniamy do pełnego kwadratu, otrzymując q = (x21 + 4x1 x2 − 2x1 x3 ) + 3x22 + 2x2 x3 + 2x23 =
(x1 + 2x2 − x3 )2 − 4x22 + 4x2 x3 − x23 + 3x22 + 2x2 x3 + 2x23
= (x1 + 2x2 − x3 )2 + (−x22 + 6x2 x3 + x23 ).
Podobnie postępujemy z wyrażeniem −x22 + 6x2 x3 , zawierającym x2 w formie q1 = −x22 + 6x2 x3 + x23 zmiennych x2 i x3 . Mamy q1 = −x22 + 6x2 x3 + x23 =
= −(−x2 + 3x3 )2 + 10x23
− (−x2 + 3x3 )2 + 9x3 + x23
i to ostatnie wyrażenie jest postacią kanoniczną formy q1 . Stąd otrzymujemy q = (x1 + 2x2 − x3 )2 − (−x2 + 3x3 )2 + 10x23 .
(11.11)
Zatem, jeśli podstawimy y1 = x1 + 2x2 − x3 , y2 = −x2 + 3x3 i y3 = x3 do (11.11) lub x1 = y1 + 2y2 − 5y3 , x2 = −y2 + 3y3 i x3 = y3 do (11.10), to otrzymamy postać kanoniczną q = y12 − y22 + 10y32
formy (11.10).
Metoda Lagrange’a
256
11. Formy kwadratowe Zauważmy jeszcze, że jeśli proces przekształcania formy (11.10) zaczniemy od czynników zawierających zmienną x2 , to otrzymamy q=
1 1 (2x1 + 3x2 + x3 )2 − (x1 + 5x3 )2 + 10x23 3 3
i jest to inna postać kanoniczna wyjściowej formy q. Oznacza to, że przedstawienie formy kwadratowej w postaci sumy kwadratów nie jest jednoznaczne.
Warto odnotować, że wszystkie współczynniki formy q zapisanej w postaci (11.9) łatwo wyznacza się z macierzy A(0) . W tym celu zauważmy, że dla formy q1 mamy 1 (0) (0) (a11 x1 + . . . + a1n xn )2 (0) a11 (0) n n X a(0) X 1i a1j (1) x x = aij xi xj , i j (0) a11 i, j=1 i, j=2
q1 = q(x1 , x2 , . . . , xn ) − =
n X
i, j=1
(0)
aij xi xj −
gdzie (0) (0)
(1)
(0)
aij = aij −
a1i a1j
(11.12)
(0)
a11
dla i, j ∈ {2, . . . , n}. Wszystkie te współczynniki są elementami macierzy
(0) (0) (0) a11 a12 . . . a1n (1) (1) 0 a22 . . . a2n .. .. .. . . . . (1) (1) 0 an2 . . . ann
A(1) =
Wobec (11.12) możemy przyjąć, że macierz A(1) otrzymano z macierzy A(0) (0) (0) odejmując kolejno pierwszy wiersz pomnożony przez a1i /a11 od i-tego wiersza dla i = 2, . . . , n. Odnotujmy także, że z symetrii macierzy A(0) i z równości (1) (11.12) wynika, że podmacierz A11 macierzy A(1) jest symetryczna, bo (0) (0)
(0) (0)
(1)
(0)
aij = aij −
a1i a1j
(0)
= aji −
(0)
a11
a1j a1i (0)
a11
(1)
= aji
(1)
dla i, j ∈ {2, . . . , n}. Zatem, jeśli a22 6= 0, to także formę q1 = q1 (x2 , . . . , xn ) (1) (określoną przez macierz A11 ) można przedstawić w postaci sumy q1 =
1
(1)
(1) a22
(1)
a22 x2 + . . . + a2n xn
2
+ q2 .
Tym razem q2 jest formą kwadratową n − 2 zmiennych x3 , . . . , xn i q2 = q1 (x2 , . . . , xn ) − =
n X
i, j=2
=
n X
i, j=3
(1)
aij xi xj − (1)
aij −
1 (1) a22 n X
(1)
(1)
(a22 x2 + . . . + a2n xn )2 (1) (1)
a2i a2j
(1) a22 i, j=2 ! (1) (1) a2i a2j xi xj (1) a22
xi xj =
n X
i, j=3
(2)
aij xi xj ,
(11.13)
11.2. Postać kanoniczna formy kwadratowej (2)
(1)
a jej współczynniki aij = aij −
A(2)
=
(1) (1)
a2i a2j
są elementami macierzy
(1)
a22
(0)
257
(0) (0) a13 . . . a1n (1) (1) a23 . . . a2n (2) (2) a33 . . . a3n , .. .. . . (2) (2) an3 . . . ann
(0)
a11 a12 (1) 0 a22 0 0 .. .. . . 0 0
którą otrzymano z macierzy A(1) odejmując kolejno jej drugi wiersz pomnożony (1) (1) (2) przez a2i /a22 od i-tego wiersza (dla i = 3, . . . , n). Jeśli a33 6= 0, to procedurę redukcji macierzy (i przedstawiania formy kwadratowej w postaci sumy kwadratów) możemy kontynuować aż do otrzymania macierzy (0) (0) (0) (0) (0) a11 a12 · · · a1k a1 k+1 · · · a1n (1) (1) (1) 0 a(1) a2 k+1 · · · a2n a2k 22 · · · . .. . . .. .. .. . . . . . . . (k−1) (k−1) (k−1) (k−1) , ak k+1 · · · akn 0 · · · akk A = 0 (k−1) (k−1) 0 0 · · · 0 a · · · a k+1 k+1 k+1 n . . . . .. .. . . . . . . . . . . (k−1) (k−1) 0 0 ··· 0 an k+1 · · · ann którą nazywamy zredukowaną macierzą formy kwadratowej q, i w której jest (0) (1) (k−1) (k−1) a11 6= 0, a22 6= 0 . . . , akk 6= 0 i albo k = n, albo k < n i wtedy ak+1 k+1 (k−1)
= . . . = ann = 0. W każdym przypadku formę kwadratową q można zapisać za pomocą współczynników macierzy A(k−1) i mamy 2 k−1 n X 1 X (i−1) q= aij xj + qk , (11.14) (i−1) a i=1 ii j=i gdzie
qk =
n X
(k−1)
aij
(11.15)
xi xj .
i, j=k+1 (k−1)
Jeśli k = n albo k < n i aij zerową i wtedy q=
k X
= 0 dla i, j ∈ {k + 1, . . . , n}, to qk jest formą 1
(i−1) i=1 aii
n X j=i
(i−1)
aij
2
xj
(11.16) (k−1)
i jest to postać kanoniczna formy q. Jeśli zaś jest k < n i aij 6= 0 dla pewnych indeksów i, j ∈ {k + 1, . . . , n}, i 6= j, to qk jest niezerową formą kwadratową mającą własność (b). Przykład 261. Wyznaczyć macierz zredukowaną formy kwadratowej q = x21 + 5x22 + 4x23 − x24 + 6x1 x2 − 4x1 x3 − 12x2 x3 − 4x2 x4
(11.17)
i następnie zapisać ją w postaci (11.14) (lub, jeśli to będzie możliwe, w postaci (11.16)).
Macierz zredukowana formy kwadratowej
258
11. Formy kwadratowe Niżej wskazane operacje elementarne na wierszach sprowadzają macierz symetryczną A(0) formy q do zredukowanej macierzy A(2) ,
1 3 −2 0 3 5 −6 −2 −2 −6 4 0 0 −2 0 −1
w2 −3w1 1 w3 +2w ∼
1 3 −2 0 w4 + 21 w2 0 −4 0 −2 ∼ 0 0 0 0 0 0 0 0
1 3 −2 0 0 −4 0 −2 0 0 0 0 0 −2 0 −1 (2)
= A(2) .
Ponieważ w macierzy A(2) jest aij = 0 dla i, j ∈ {3, 4}, więc wobec (11.16) mamy q = (x1 + 3x2 − 2x3 )2 −
1 (−4x2 − 2x4 )2 . 4
Z ostatniej formy po przyjęciu y1 = x1 +3x2 −2x3 , y2 = 2x2 +x4 i y3 = x3 oraz y4 = x4 (albo z formy (11.17) po podstawieniu x1 = y1 − 32 y2 + 2y3 + 32 y4 , x2 = 12 y2 − 12 y4 , x3 = y4 oraz x4 = y4 ) otrzymujemy q = y12 − y22 i to jest postać kanoniczna formy (11.17).
Przypadek (b). Załóżmy teraz, że forma q(x) = xT A(0) x nie jest zerowa, ale (0) (0) (0) a11 = . . . = ann = 0. Wtedy aij 6= 0 dla pewnych indeksów i, j ∈ {1, . . . , n}, gdzie i 6= j. W takim przypadku podstawienie x = Qy, gdzie macierz Q określona jest równościami xi = y i − y j ,
xj = y i + y j
oraz xk = yk
(11.18)
dla k ∈ {1, . . . , n} − {i, j}, sprowadza formę kwadratową q(x) = xT A(0) x zmiennych x1 , . . . , xn do formy kwadratowej q(Qy) = yT QT A(0) Qy zmiennych y1 , . . . , yn i ta ostatnia forma ma już własność (a), bo w niej współczynnik przy yi2 (oraz przy yj2 ) jest niezerowy: (0)
(0)
(0)
(0)
2aij xi xj = 2aij (yi − yj )(yi + yj ) = 2aij yi2 − 2aij yj2
(0)
i 2aij 6= 0.
Przykład 262. Metodą Lagrange’a sprowadzić formę kwadratową q = 2x1 x2 + 4x2 x3
(11.19)
do postaci kanonicznej. (0)
(0)
(0)
Tym razem forma q ma własność (b), bo w niej a11 = a22 = a33 = 0. Ponieważ (0) a12 6= 0, więc tak jak w (11.18) podstawienie x1 = y 1 − y 2 ,
x2 = y 1 + y 2
i
x3 = y 3
sprowadza ją do formy q = 2(y1 − y2 )(y1 + y2 ) + 4(y1 + y2 )y3 = 2y12 + 4y1 y3 − 2y22 + 4y2 y3 mającej własność (a). W tym przypadku wyrażenie 2y12 + 4y1 y3 zawierające y1 (oraz wyrażenie −2y22 + 4y2 y3 zawierające y2 ) uzupełniamy do pełnego kwadratu, kolejno otrzymując q = 2 (y1 + y3 )2 − y32 − 2 (y2 − y3 )2 − y32 = 2(y1 + y3 )2 − 2(y2 − y3 )2
= z12 − z22 , √ √ √ √ gdzie z1 = 2(y1 +y3 ) = 22 (x1 +x2 +2x3 ), z2 = 2(y2 −y3 ) = 22 (−x1 +x2 −2x3 ) i z3 = x3 . (Postać q = z12 −√z22 można też uzyskać wprost z (11.19) za pomocą podstawienia √ √ 2 x1 = 2 (z1 − z2 − 2 2z3 ), x2 = 22 (z1 + z2 ) i x3 = z3 .)
11.3. Określoność macierzy i formy kwadratowej
259
Przykład 263. Metodą Lagrange’a wyznaczyć postać kanoniczną formy q = 2x1 x2 + 2x1 x3 − 2x1 x4 − 2x2 x3 + 2x2 x4 + 2x3 x4 . (0)
(0)
(0)
(0)
(11.20)
(0)
W formie (11.20) jest a11 = a22 = a33 = a44 = 0 i a12 6= 0, więc możemy podstawić x1 = y1 − y2 , x2 = y1 + y2 , x3 = y3 i x4 = y4 , otrzymując q = 2y12 − 2y22 − 4y2 y3 + 4y2 y4 + 2y3 y4 .
Teraz możemy wyznaczyć zredukowaną macierz tej ostatniej formy. Ponieważ A(0)
2 0 0 0 0 −2 −2 2 = ∼ ... ∼ 0 −2 0 1 0 2 1 0
więc wobec (11.16) mamy
2 0 0 0 0 −2 −2 2 = A(3) , 0 0 2 −1 0 0 0 3/2
q = q(y1 , . . . , y4 ) = 2y12 − 2(y2 + y3 − y4 )2 +
3 1 (2y3 − y4 )2 + y42 . 2 2
Stąd zaś wynika, że
q = z12 − z22 + z32 + z42 , (11.21) √ √ √ √ 2 2 gdzie z1 = 2y1 = 2 (x1 + x2 ), z2 = 2(y2 + y3 − y4 ) = 2 (−x1 + x2 + 2x3 − 2x4 ), √ √ p3 p3 z3 = 22 (2y3 − y4 ) = 22 (2x3 − x4 ) i z4 = y = x . 2 4 2 3 Łatwo zauważyć, że postać (11.21) można także otrzymać wprost z (11.20) przez podstawienie x1 = √12 (z1 −z2 +z3 − √13 z4 ), x2 = √12 (z1 +z2 −z3 + √13 z4 ), x3 = √12 (z3 + 1 √ z4 ) 3
i x4 =
p2
z . 3 4
11.3. Określoność macierzy i formy kwadratowej Definicja 11.3.1. Niech A będzie rzeczywistą macierzą symetryczną wymiaru n × n. Mówimy, że forma kwadratowa q(x) = xT Ax (oraz definiująca ją macierz A) jest: (a) dodatnio określona, gdy q(x) > 0 dla każdego x ∈ R n − {0};
(b) dodatnio półokreślona, gdy q(x) 0 dla każdego x ∈ R n − {0} i q(x0 ) = 0 dla pewnego x0 ∈ Rn − {0}; (c) ujemnie określona, gdy q(x) < 0 dla każdego x ∈ R n − {0};
(d) ujemnie półokreślona, gdy q(x) ¬ 0 dla każdego x ∈ R n − {0} i q(x0 ) = 0 dla pewnego x0 ∈ Rn − {0}; (e) nieokreślona, gdy q(x) > 0 i q(y) < 0 dla pewnych x, y ∈ R n . z
q(Rn − {0}) ⊆ (0; +∞) 0 ∈ q(Rn − {0}) ⊆ h0; +∞) q(Rn − {0}) ⊆ (−∞; 0) 0 ∈ q(Rn − {0}) ⊆ (−∞; 0i q(Rn − {0}) ∩ (−∞; 0) 6= ∅
i q(Rn − {0}) ∩ (0; +∞) 6= ∅
z
z
x1
x2
x1 x2
x1
x2
Rys. 11.1. Dodatnio określona
Rys. 11.2. Ujemnie określona
Łatwo jest rozpoznać typ określoności formy kwadratowej (i odpowiadającej jej macierzy symetrycznej), gdy forma ta zapisana jest w postaci kanonicznej.
Rys. 11.3. Nieokreślona
260
11. Formy kwadratowe
Przykładowo mamy: q1 (x1 , x2 ) q2 (x1 , x2 ) q3 (x1 , x2 ) q4 (x1 , x2 ) q5 (x1 , x2 ) z
= = = = =
x21 + 3x22 x21 −x21 − 3x22 −x21 x21 − 3x22
− − − − −
forma forma forma forma forma
dodatnio określona; dodatnio półokreślona; ujemnie określona; ujemnie półokreślona; nieokreślona.
Tak samo łatwo wyznacza się typ określoności formy kwadratowej, jeśli jest ona zapisana w postaci sumy lub różnicy kwadratów. Przykład 264. Formę kwadratową
x1
q = −x21 + 3x22 + 3x23 − 4x1 x2 + 4x1 x3
x2
Rys. 11.4. Dodatnio półokreślona
przedstawić w postaci sumy (lub różnicy) kwadratów i na tej podstawie wyznaczyć jej typ określoności. Ponieważ mamy
z
q = −(x1 + 2x2 − 2x3 )2 +
x1
x2
i ponieważ współczynniki kwadratów tej formy są liczbami różnych znaków, więc można się domyślać, że w jednych punktach forma q przyjmuje wartości ujemne, a w innych dodatnie. Łatwo zauważyć, że q(1, 0, 0) = −1
Rys. 11.5. Ujemnie półokreślona
1 33 2 (7x2 − 4x3 )2 + x 7 7 3
i
q(0, 1, 0) = 3
i to dowodzi, że forma q jest nieokreślona.
W ogólnym przypadku oczywiste jest następujące twierdzenie. Twierdzenie 11.3.1. Jeśli λ1 , . . . , λn są liczbami rzeczywistymi, to macierz diagonalna A = diag (λ1 , . . . , λn ) oraz forma kwadratowa q(x) = xT Ax = λ1 x21 + λ2 x22 + . . . + λn x2n są: (a) dodatnio określone, gdy λ1 > 0, . . . , λn > 0; (b) dodatnio półokreślone, gdy λ1 0, . . . , λn 0 i λ1 · . . . · λn = 0; (c) ujemnie określone, gdy λ1 < 0, . . . , λn < 0;
(d) ujemnie półokreślone, gdy λ1 ¬ 0, . . . , λn ¬ 0 i λ1 · . . . · λn = 0;
(e) nieokreślone, gdy λi λj < 0 dla pewnych λi , λj ∈ {λ1 , . . . , λn }.
Udowodnimy teraz, że typ określoności formy kwadratowej q = xT Ax (i symetrycznej macierzy A) w sposób jednoznaczny zależy od wartości własnych macierzy A. Zaczynamy od dowodu następującego lematu. Lemat 11.3.1. Niech A i Q będą odpowiednio symetryczną i nieosobliwą macierzą ze zbioru Rn×n . Wtedy dla form kwadratowych q(x) = xT Ax i p(y) = yT QT AQy jest q(Rn − {0}) = p(Rn − {0}).
Równoważnie, forma kwadratowa q(x) = xT Ax (i macierz A) jest dodatnio określona (dodatnio półokreślona, ujemnie określona, ujemnie półokreślona albo nieokreślona) wtedy i tylko wtedy, gdy forma kwadratowa p(y) = y T QT AQy (i macierz QT AQ) jest dodatnio określona (dodatnio półokreślona, ujemnie określona, ujemnie półokreślona albo nieokreślona).
11.3. Określoność macierzy i formy kwadratowej
261
Dowód. Z faktu, że macierz Q jest nieosobliwa wynika, że przekształcenie liniowe TQ : Rn → Rn (gdzie TQ (y) = Qy dla każdego y ∈ Rn ) wzajemnie jednoznacznie odwzorowuje przestrzeń Rn w siebie. Stąd w szczególności wynika, że TQ (Rn − {0}) = Rn − {0}.
(11.22)
Ponieważ dla każdego y ∈ Rn jest q(Qy) = p(y), więc wobec (11.22) mamy q(Rn − {0}) = q(TQ (Rn − {0})) = q({TQ (y) : y ∈ Rn − {0}})
= q({Qy : y ∈ Rn − {0}}) = {q(Qy) : y ∈ Rn − {0}} = {p(y) : y ∈ Rn − {0}} = p(Rn − {0}).
Wniosek 11.3.1. Jeśli A jest rzeczywistą macierzą symetryczną wymiaru n×n i λ1 , . . . , λn są jej wszystkimi wartościami własnymi, to macierz A oraz forma kwadratowa q(x) = xT Ax są: (a) dodatnio określone, gdy λ1 > 0, . . . , λn > 0; (b) dodatnio półokreślone, gdy λ1 0, . . . , λn 0 i λ1 · . . . · λn = 0; (c) ujemnie określone, gdy λ1 < 0, . . . , λn < 0;
(d) ujemnie półokreślone, gdy λ1 ¬ 0, . . . , λn ¬ 0 i λ1 · . . . · λn = 0; (e) nieokreślone, gdy λi λj < 0 dla pewnych λi , λj ∈ {λ1 , . . . , λn }.
Dowód. Wobec twierdzenia 11.2.1 istnieje przekształcenie ortogonalne x = Qy sprowadzające formę kwadratową q(x) do formy kanonicznej p(y) = q(Qy) = λ1 y12 +λ2 y22 + . . .+λn yn2 , w której λ1 , . . . , λn są wszystkimi wartościami własnymi macierzy A. Wobec lematu 11.3.1 zbiory q(Rn −{0}) i p(Rn −{0}) są identyczne. To oznacza, że forma q(x) jest dodatnio określona (dodatnio półokreślona, ujemnie określona, ujemnie półokreślona lub nieokreślona) wtedy i tylko wtedy, gdy forma p(y) = λ1 y12 +λ2 y22 +. . .+λn yn2 jest dodatnio określona (dodatnio półokreślona, ujemnie określona, ujemnie półokreślona lub nieokreślona). Stąd i z twierdzenia 11.3.1 wynikają poszczególne części tezy. (Inny dowód wniosku 11.3.1 proponujemy w ćwiczeniach.)
Przykład 265. Wyznaczyć wartości własne macierzy symetrycznej formy kwadratowej q = −x21 + 3x22 + 3x23 − 4x1 x2 + 4x1 x3 i za pomocą wartości własnych wyznaczyć typ określoności formy q.
Wielomianem charakterystycznym macierzy symetrycznej A formy q jest
−1 − λ −2 2 |A − λI| = −2 3−λ 0 2 0 3−λ
√ √ = (3 − λ)(λ − 1 − 2 3)(λ − 1 + 2 3)
√ √ i ponieważ wśród wartości własnych λ1 = 3, λ2 = 1 + 2 3 i λ3 = 1 − 2 3 są liczby różnych znaków, więc wobec wniosku 11.3.1 forma q jest nieokreślona.
Wniosek 11.3.2. Jeśli symetryczna macierz A wymiaru n × n jest dodatnio (ujemnie) określona, to det A > 0 (−1)n det A > 0 .
Dowód. Niech λ1 , . . . , λn będą wszystkimi wartościami własnymi macierzy A. Ponieważ det A = λ1 ·. . .·λn i ponieważ wobec wniosku 11.3.1 liczby λ1 , . . . , λn (odpowiednio – −λ1 , . . . , −λn ) są dodatnie, gdy macierz A jest dodatnio (odpowiednio – ujemnie) określona, więc λ1 · . . . · λn = det A > 0 ((−λ1 ) · . . . · (−λn ) = (−1)n det A > 0).
Uszczegółowimy teraz poprzedni wniosek i przedstawimy bardziej praktyczne kryterium określoności rzeczywistej macierzy symetrycznej i rzeczywistej formy kwadratowej. Dla potrzeb tego kryterium przyjmujemy następującą definicję.
262
Wiodąca podmacierz Wiodący minor główny
11. Formy kwadratowe Definicja 11.3.2. Niech A będzie macierzą wymiaru n × n. Wiodącą podmacierzą główną stopnia k macierzy A nazywamy macierz Ak powstałą z A przez odrzucenie z niej n − k ostatnich wierszy i n − k ostatnich kolumn. Wyznacznik takiej macierzy Ak nazywamy wiodącym minorem głównym stopnia k macierzy A. Z definicji tej wynika, że macierz A = [aij ] wymiaru n × n ma wiodących podmacierzy głównych i są nimi a 11 a12 . . . a1n h i a21 a22 . . . a2n a11 a12 A1 = [ a11 ], A2 = , . . . , An = . . . .. a21 a22 . . . . . . . an1 an2 . . . ann
Twierdzenie Sylvestera
dokładnie n
.
Twierdzenie 11.3.2 (Sylvester). Symetryczna macierz A = [aij ] ∈ Rn×n (i forma kwadratowa q = xT Ax) jest: (a) dodatnio określona
⇔ |Ak | > 0 (k = 1, . . . , n);
(b) ujemnie określona
⇔ (−1)k |Ak | > 0 (k = 1, . . . , n);
(c) dodatnio półokreślona ⇔ |Ak | 0 (k = 1, . . . , n − 1), |An | = 0;
(d) ujemnie półokreślona ⇔ (−1)k |Ak | 0 (k = 1, . . . , n−1), |An | = 0;
W pozostałych przypadkach macierz A (i forma kwadratowa q = x T Ax) jest nieokreślona. Uwaga. Nierówność (−1)k |Ak | > 0 w (b) jest równoważna stwierdzeniu, że liczby |Ak | i (−1)k mają identyczne znaki.
Dowód. (a) Załóżmy najpierw, że macierz A jest dodatnio określona. Wobec wniosku 11.3.2 jest wtedy |An | = |A| > 0. Udowodnimy teraz, że każda wiodąca podmacierz główna Ak macierzy A jest dodatnio określona dla k = 1, . . . , n − 1. Weźmy pod uwagę niezerowy wektor xk ∈ Rk×1 i zerowy wektor 0n−k ∈ R(n−k)×1 . Z dodatniej określoxk jest ności macierzy A wynika, że dla niezerowego wektora 0n−k 0<
xTk 0Tn−k
A
xk 0k
k X
=
aij xi xj = xTk Ak xk .
i, j=1
To dowodzi, że macierz Ak jest dodatnio określona. Stąd i z wniosku 11.3.2 znowu wynika, że |Ak | > 0 dla k = 1, . . . , n − 1. Odwrotną implikację udowodnimy indukcyjnie ze względu na n. Implikacja ta jest oczywista dla n = 1, bo jeśli A = [ a ] i |A1 | = a > 0, to forma q = xT Ax = ax21 (i macierz A) jest dodatnio określona. Niech teraz n 2 będzie liczbą naturalną i niech A = [ aij ] będzie symetryczną macierzą wymiaru n×n, której wszystkie wiodące minory główne |A1 |, |A2 |, . . . , |An−1 |, |An | są dodatnie. Z założenia indukcyjnego wynika, że macierz An−1 jest dodatnio określona (bo wszystkie jej wiodące minory główne |A1 |, . . . , |An−1 | są dodatnie). Weźmy teraz pod uwagę macierze a=
"
a1 n .. .
an−1 n
#
, A=
An−1
a
aT
ann
, Q=
In−1
A−1 n−1 a
0T n−1
1
iB=
An−1 0n−1 0T n−1
d
,
gdzie d = ann − aT A−1 n−1 a i 0n−1 jest macierzą zerową wymiaru (n − 1) × 1. Można sprawdzić, że dla tych macierzy mamy QT BQ =
In−1
0n−1
T (A−1 n−1 a)
1
An−1 0n−1 0T n−1
d
In−1
A−1 n−1 a
0T n−1
1
= A.
Ponieważ |Q| = 1 = |QT |, więc z powyższej równości i z twierdzenia 6.2.2 mamy |A| = |QT BQ| = |QT ||B||Q| = |B| = d · |An−1 | i stąd wynika, że d > 0 (bo liczby |A| i |An−1 | są dodatnie). Z faktu, że macierz An−1 jest dodatnio określona i d jest liczbą dodatnią, wynika, że dla niezerowego wektora
11.3. Określoność macierzy i formy kwadratowej
263
x = [ x1 . . . xn−1 xn ]T ∈ Rn×1 i dla wektora x = [ x1 . . . xn−1 ]T (powstałego z x przez odrzucenie z niego ostatniej współrzędnej) jest xT Bx =
xT x n
An−1 0n−1 x 0Tn−1
d
xn
= xT An−1 x + d · x2n > 0.
To dowodzi, że macierz B jest dodatnio określona. Stąd zaś i z lematu 11.3.1 wynika dodatnia określoność macierzy A. (b) Jest oczywiste, że macierz A jest ujemnie określona wtedy i tylko wtedy, gdy macierz −A jest dodatnio określona. Wobec już udowodnionego stwierdzenia (a) tak jest wtedy i tylko wtedy, gdy każdy wiodący minor główny |(−A)k | macierzy −A jest dodatni, tj. wtedy i tylko wtedy, gdy (−1)k |Ak | = |(−A)k | jest liczbą dodatnią. To kończy dowód stwierdzenia (b). Analogiczne dowody stwierdzeń (c) i (d) pozostawiamy jako ćwiczenia.
Podamy teraz dwa przykłady na badanie określoności macierzy i formy kwadratowej z wykorzystaniem twierdzenia Sylvestera. Przykład 266. Zbadać określoność formy kwadratowej q = −x21 + 3x22 + 3x23 − 4x1 x2 + 4x1 x3 . Macierzą symetryczną formy q jest
A=
"
−1 −2 2 −2 3 0 2 0 3
#
,
której wiodącymi minorami głównymi są
−1 −2 2 −1 −2 = −7 i |A3 | = −2 3 0 = −33. |A1 | = −1, |A2 | = −2 3 2 0 3
Ponieważ liczby te nie spełniają żadnego z warunków (a) – (d) twierdzenia 11.3.2, więc rozważana forma kwadratowa q i jej macierz A są nieokreślone. Do tego samego stwierdzenia w inny sposób doszliśmy w przykładach 264 i 265.
Przykład 267. Korzystając z twierdzenia Sylvestera, zbadać określoność formy kwadratowej q = x21 + 2x22 + 5x23 + 2x1 x2 + 4x2 x3 . Dla macierzy symetrycznej A=
"
1 1 0 1 2 2 0 2 5
#
formy q jest
1 1 |A1 | = 1, |A2 | = 1 2
1 1 0 = 1 i |A3 | = 1 2 2 = 1. 0 2 5
Tym razem warunek (a) twierdzenia 11.3.2 jest spełniony, więc forma kwadratowa q i jej macierz A są dodatnio określone.
264
11. Formy kwadratowe
11.4. Ćwiczenia 1. Dla formy kwadratowej q = xT Ax wyznaczyć ma- 6. Dana jest forma kwadratowa q(x, y, z) = 4x2 + 3y 2 + 2z 2 + 4xy − 4yz. (a) Wyznaczyć macierz symetryczną cierz ortogonalną Q i postać kanoniczną q = yT Λy A formy q. (b) Wyznaczyć wartości własne i wektouzyskaną za pomocą podstawienia ortogonalnego ry własne macierzy A. (c) Zbadać określoność formy x = Qy, gdy: q. (d) Formę q zapisać w postaci kanonicznej w ba(a) q = 5x21 + 2x22 + 4x1 x2 ; 2 2 zie unormowanych wektorów własnych macierzy A. (b) q = −2x1 + x2 + 4x1 x2 ; 2 2 2 (e) Podać przekształcenie ortogonalne x = Qy spro(c) q = 3x1 + 3x2 + 3x3 − 2x1 x3 ; wadzające formę q do postaci kanonicznej. (d) q = 10x21 + 10x22 − 12x1 x2 ; 7. Bez odwoływania się do wniosku 11.3.1 udowodnić, że (e) q = 5x21 + 5x22 + 18x23 − 26x1 x2 ; 2 2 jeśli macierz symetryczna A jest dodatnio (ujemnie) (f ) q = 3x2 + 3x3 + 4x1 x2 + 4x1 x3 − 2x2 x3 ; 2 2 2 określona, to jest ona nieosobliwa. (g) q = 2x1 + 5x2 + 2x3 + 4x1 x2 + 2x1 x3 + 4x2 x3 ; 8. Udowodnić, że każdy wiodący minor główny macierzy (h) q = 2x21 + 6x22 + 2x23 + 8x1 x3 ; dodatnio półokreślonej jest nieujemny. (Wskazówka. (i) q = x21 + 5x22 + x23 + 2x1 x2 + 6x1 x3 + 2x2 x3 ; Można wzorować się na dowodzie wniosku 11.3.2 i na (j) q = 2x1 x2 +2x1 x3 −2x1 x4 −2x2 x3 +2x2 x4 +2x3 x4 . dowodzie części (a) twierdzenia 11.3.2.) 2. Formę q = q(x1 , x2 ) przedstawić w postaci sumy 9. Udowodnić, że każdy minor główny macierzy dodatkwadratów i następnie zaproponować nowe współnio określonej jest dodatni. (Wskazówka. Można wzorzędne y1 i y2 takie, że forma q będzie postaci rować się na dowodzie wniosku 11.3.2 i na dowodzie λ1 y12 + λ2 y22 , gdy: części (a) twierdzenia 11.3.2.) (a) q = x21 + 4x1 x2 + x22 ; 10. Przedstawić dowódy stwierdzeń (c) i (d) z twierdze(b) q = 2x21 + 2x1 x2 + 2x22 ; nia 11.3.2. (c) q = x21 − 12x1 x2 − 4x22 ; 11. (a) Udowodnić, że jeśli x0 jest wektorem własnym (d) q = 3x21 + 2x1 x2 + 3x22 . macierzy A odpowiadającym wartości własnej λ0 , to liczby xT0 Ax0 i λ0 mają zgodne znaki. (b) Wyprowa3. Formę kwadratową q = q(x1 , . . . , xn ) zapisać w podzić nowy dowód wniosku 11.3.1 korzystając z części staci kanonicznej i następnie zbadać jej określoność, (a) oraz z twierdzenia 10.3.4. gdy: 12. Wykazać, że jeśli macierz A ∈ Rn×n jest nieosobliwa, 2 2 2 (a) q = x1 + 2x2 + x3 − 2x1 x2 + 4x1 x3 + 2x2 x3 ; to macierz AT A jest dodatnio określona. (Wskazów(b) q = 5x21 + 5x22 + 2x23 + 8x1 x2 + 4x1 x3 + 4x2 x3 ; ka. Uwzględnić, że xT Ix = yT AT IAy.) (c) q = x21 + x22 + 3x23 + 4x1 x2 + 2x1 x3 + 2x2 x3 ; 13. Udowodnić, że dla macierzy A ∈ Rn×n następują(d) q = 2x21 + 5x22 + 5x23 + 4x1 x2 − 4x1 x3 − 8x2 x3 ; ce stwierdzenia są równoważne: (a) A jest dodatnio (e) q = x1 x2 + x1 x3 + x1 x4 + x2 x3 + x2 x4 + x3 x4 . określona; (b) istnieje macierz nieosobliwa B taka, że 4. Za pomocą twierdzenia Sylvestera (lub w inny A = BT B; (c) istnieje macierz nieosobliwa P taka, sposób) zbadać określoność macierzy Ai , gdzie: że PT AP = In . 14. Udowodnić, że jeśli macierz symetryczna A ∈ Rn×n " # −1 1 0 jest dodatnio określona, to także macierz Ap jest do2 3 A1 = ; A8 = 1 −1 0 ; datnio określona dla każdej liczby całkowitej p. 3 7 0 0 −2 15. Pokazać, że funkcja q : Rn×n → R jest dodatnio okre2 4 A2 = ; śloną formą kwadratową, gdy q(X) = tr(XT X) dla " # 4 7 1 −1 −1 X ∈ Rn×n . 2 −1 A −1 5 1 ; 9 = 16. Wpisując TAK albo NIE, stwierdzić prawdziwość A3 = ; −1 1 −1 1 5 każdego z następujących zdań: −3 4 1 Macierz A jest dodatnio określona wtedy i tylko " # A4 = ; 20 6 8 4 −5 wtedy, gdy macierz A−1 jest dodatnio określona. A10 = 6 3 0 ; 2 Jeśli macierze A i B są dodatnio określone, to −3 4 8 0 8 ; A5 = także macierz A + B jest dodatnio określona. 4 −6 3 Jeśli macierze A jest symetryczna, a P jest 2 4 1 0 3 0 A6 = ; macierzą ortogonalną, to podstawienie x = Py prze4 8 0 2 0 5 kształca formę kwadratową q(x) = xT Ax w formę . A11 = # " 3 0 4 0 1 2 0 kwadratową q(Py) = yT (PT AP)y w postaci kano0 5 0 6 A7 = 2 4 5 ; nicznej. 0 5 6 4 Jeśli macierze A ∈ Rn×n jest symetryczna 5. Udowodnić, że jeśli macierz A ∈ Rn×n jest dodatnio i det A < 0, to forma kwadratowa q(x) = xT Ax jest określona, to aii > 0 dla i = 1, . . . , n. nieokreślona.
Rozdział 12
ELEMENTY GEOMETRII ANALITYCZNEJ 12.1. Iloczyn wektorowy wektorów W tej części rozważamy przestrzeń R3 ze standardową bazą (i, j, k) (gdzie i = (1, 0, 0), j = (0, 1, 0), k = (0, 0, 1)) i standardowym iloczynem skalarnym. Definicja 12.1.1. Iloczynem wektorowym uporządkowanej pary (a, b) wektorów a = (a1 , a2 , a3 ) = a1 i+a2 j+a3 k oraz b = (b1 , b2 , b3 ) = b1 i + b2 j+b3 k nazywamy wektor i j k a × b = a1 a2 a3 (12.1) b1 b2 b3 a a3 i − a1 a3 j + a1 a2 k = 2 (12.2) b2 b3 b1 b3 b1 b2 = (a2 b3 − a3 b2 )i − (a1 b3 − a3 b1 )j + (a1 b2 − a2 b1 )k
= (a2 b3 − a3 b2 , −a1 b3 + a3 b1 , a1 b2 − a2 b1 ). Przykład 268. Jeśli a = (2, −1, 3) i b = (1, 3, 4), to wobec (12.1) mamy i j k 2 3 2 −1 −1 3 k a × b = 2 −1 3 = i− j+ 3 4 1 4 1 3 1 3 4 = −13i − 5j + 7k = (−13, −5, 7).
W powyższej definicji wykorzystano pojęcie wyznacznika macierzy i możliwość obliczenia jego wartości za pomocą rozwinięcia względem elementów pierwszego wiersza. Uczyniono to w sposób formalny, bez zwracania uwagi na naturę elementów tej macierzy. Dalej, korzystając z formalnych własności wyznacznika, otrzymujemy kolejne własności iloczynu wektorowego. Twierdzenie 12.1.1. Dla każdych wektorów a, b i c oraz każdej liczby α mamy: (a) a × b = −(b × a); (b) a × a = 0;
(c) (αa) × b = a × (αb) = α(a × b);
(d) a × (b + c) = (a × b) + (a × c) i (a + b) × c = (a × c) + (b × c);
(e) wektor a × b jest ortogonalny do każdego z wektorów a i b, rys. 12.1.
Dowód. Załóżmy, że a = (a1 , a2 , a3 ) i b = (b1 , b2 , b3 ). Ponieważ zamiana miejscami dwóch wierszy macierzy powoduje zmianę znaku wyznacznika (zob. twierdzenie 6.1.5), więc wobec (12.1) mamy
i a × b = a1 b 1
j a2 b2
i k a3 = − b1 a b3 1
j b2 a2
k b3 = −(b × a) a3
6 a×b b :
a
j b×a
?
Rys. 12.1
266
12. Geometria analityczna i to dowodzi (a). Podobnie uzasadnia się (b), (c) i (d). Dla dowodu (e) wystarczy pokazać, że a · (a × b) = 0 i b · (a × b) = 0. Z definicji iloczynu wektorowego (def. 12.1.1), z definicji wyznacznika (def. 6.1.1) oraz z twierdzenia 6.1.6 mamy
a1 a3 a1 a2 a3 a · (a × b) = (a1 i + a2 j + a3 k) · i− j + b2 b3 b1 b3 b1 a2 a3 − a 2 a1 a3 + a 3 a1 a2 = a1 b2 b3 b1 b3 b1 b2 a1 a2 a3 = a1 a2 a3 = 0, b b b
6 a×b b :
j a Rys. 12.2. P(a,b) = ||a × b||
1
2
a2 k b2
3
bo dwa pierwsze wiersze są identyczne. Dowód drugiej części jest podobny.
Geometryczne własności iloczynu wektorowego przedstawia następujące twierdzenie. Twierdzenie 12.1.2. Dla każdych dwóch wektorów a i b mamy: (a) pole P(a,b) równoległoboku zbudowanego na wektorach a i b jest równe długości wektora a × b, tj. P(a,b) = ||a × b|| (rys. 12.2);
(b) ||a × b|| = ||a||||b|| sin ϕ, gdzie ϕ jest miarą kąta pomiędzy wektorami a i b;
Tożsamość Lagrange’a
(c) a × b = 0 wtedy i tylko wtedy, gdy wektory a i b są równoległe;
(d) (a × b)2 = a2 b2 − (a · b)2 .
Dowód. Jeżeli ϕ jest miarą kąta między wektorami a i b, to pole P(a,b) równoległoboku zbudowanego na wektorach a i b (zob. rys. 12.3) jest równe liczbie ||a||||b|| sin ϕ. Zatem, jeśli a = (a1 , a2 , a3 ) i b = (b1 , b2 , b3 ), to mamy 2 P(a,b)
= =
b
=
=
||b|| sin ϕ ϕ
=
-
=
a
Rys. 12.3
=
||a||2 ||b||2 sin2 ϕ
||a||2 ||b||2 (1 − cos2 ϕ)
||a||2 ||b||2 − (||a||||b|| cos ϕ)2
||a||2 ||b||2 − (a · b)2
(a21 + a22 + a23 )(b21 + b22 + b23 ) − (a1 b1 + a2 b2 + a3 b3 )2
a2 b2
2
a1 a3 + b3 b1
||a × b||2
2
a1 a3 + b3 b1
2
a2 b2
i z równości tych łatwo wynikają wszystkie cztery dowodzone własności.
z
6
y
* b
1
Ponieważ
2
1
1 −1
Rys. 12.4
Przykład 269. Wyznaczyć pole równoległoboku zbudowanego na wektorach a = (1, 2, −1) i b = (0, 1, 1), zob. rys. 12.4.
a
z x
i j k 1 −1 1 2 2 −1 k = [3, −1, 1], a × b = 1 2 −1 = i− j+ 1 1 0 1 0 1 0 1 1
więc z poprzedniego twierdzenia mamy
P(a,b) = ||a × b|| = ||(3, −1, 1)|| =
√
11.
12.2. Iloczyn mieszany wektorów
267
Przykład 270. Obliczyć pole trójkąta ABC, którego wierzchołkami są punkty A(1, 3, 0), B(0, 2, 5) i C(−1, 0, 2), zob. rys. 12.5.
z6
Ponieważ pole PABC trójkąta ABC jest równe połowie pola równoległoboku zbudowanego na wektorach AB = (−1, −1, 5) i AC = (−2, −3, 2), więc z twierdzenia 12.1.2 (a) mamy PABC
i j 1 1 = ||AB × AC|| = || −1 −1 2 2 −2 −3
4 3
k √ 1 5 || = ||[13, −8, −5]|| = 258/2. 2 2
y
2 1
*
3 2 1
−1 1
Niech (a, b, c) będzie układem liniowo niezależnych wektorów z przestrzeni R3 . Mówimy, że układ (a, b, c) ma orientację zgodną z orientacją układu (i, j, k), gdy wyznacznik macierzy [ a b c ]T jest dodatni.
x
j Rys. 12.5
Twierdzenie 12.1.3. Jeśli wektory a i b z przestrzeni R 3 są liniowo niezależne, to układ (a, b, a × b) ma orientację zgodną z orientacją układu (i, j, k). Dowód. Z liniowej niezależności wektorów a = (a1 , a2 , a3 ) i b = (b 1 , b2 , b3 ) wynika, że a1 a2 a1 a3 a2 a3 , i jest różny od zera. co najmniej jeden z wyznaczników b1 b2 b1 b3 b2 b3 Wtedy też det
"
−a− −b− −a × b−
#
=
=
a1 a2 a3 b1 b2 b3 a b −a b a b −a b a b −a b 2 3 3 2 3 1 1 3 1 2 2 1 a1 a2 2 a1 a3 2 a2 a3 3 + + b1 b2 b1 b3 b2 b3 > 0,
więc układ (a, b, a × b) ma orientację zgodną z orientacją układu (i, j, k) (rys. 12.6), czyli zwrot wektora a × b jest wyznaczony przez “regułę prawej ręki”. a×b 6
(a) b
k 6
(b) j
6 a×b (c)
*b
-
-
a
i
a q
Rys. 12.6
12.2. Iloczyn mieszany wektorów Definicja 12.2.1. Niech a, b i c będą wektorami z przestrzeni R 3 . Iloczynem mieszanym uporządkowanej trójki (a, b, c) nazywamy liczbę a · (b × c), czasami oznaczaną przez abc. Twierdzenie 12.2.1. Jeśli a = (a1 , a2 , a3 ), wektorami z przestrzeni R3 , to a1 a2 abc = b1 b2 c1 c2
b = (b1 , b2 , b3 ) i c = (c1 , c2 , c3 ) są a3 b3 . c3
(12.3)
268
12. Geometria analityczna Dowód. Tak jak w dowodzie twierdzenia 12.1.1 (e), mamy
b1 b3 b1 b2 b3 abc = a · (b × c) = (a1 i + a2 j + a3 k) · i− j + c2 c3 c1 c3 c1 b2 b3 − a 2 b1 b3 + a 3 b1 b2 = a1 c1 c3 c1 c2 c2 c3 a1 a2 a3 = b1 b2 b3 . c c c 1
2
b2 k c2
3
Z twierdzenia 12.2.1 i z faktu, że przestawienie miejscami dwóch wierszy macierzy powoduje zmianę znaku jej wyznacznika (zob. wspomniane już twierdzenie 6.1.5), otrzymujemy następną własność iloczynu mieszanego. Twierdzenie 12.2.2. Jeśli a, b i c są wektorami z przestrzeni R 3 , to abc = bca = cab = −bac = −acb = −cba.
(12.4)
3
Twierdzenie 12.2.3. Jeśli a, b i c są wektorami z przestrzeni R , to a · (b × c) = (a × b) · c.
(12.5)
Dowód. Z definicji iloczynu mieszanego, z twierdzenia 12.2.2 i z przemienności iloczynu skalarnego wektorów mamy a · (b × c) = abc = cab = c · (a × b) = (a × b) · c.
Twierdzenie 12.2.4. Objętość V równoległościanu zbudowanego na wektorach a, b i c z przestrzeni R3 jest równa wartości bezwzględnej iloczynu mieszanego tych wektorów, tj. V = |abc|. (12.6) 6 b×c
α
a
h c -
j b Rys. 12.7 Dowód. Mamy abc = a · (b × c) = ||a||||b × c|| cos α, gdzie α jest miarą kąta między wektorami a i b × c. Dla obliczenia objętości równoległościanu możemy przyjąć, że jego podstawą jest równoległobok rozpięty na wektorach b i c (zob. rys. 12.7), którego pole jest równe ||b × c||. Wysokość h równoległościanu jest równa długości rzutu wektora a na prostą prostopadłą do podstawy, mającą kierunek b × c, więc h jest wartością bezwzględną liczby ||a|| cos α. Stąd mamy V = ||b×c||||a||| cos α| = |a·(b×c)| = |abc|.
Przykład 271. Wyznaczyć objętość równoległościanu zbudowanego na wektorach a = (1, 0, 2), b = (4, 6, 2) i c = (3, 3, −6). Wobec twierdzenia 12.2.4 mamy
1 0 V = |abc| = | 4 6 3 3
2 2 | = 54. −6
12.3. Prosta i płaszczyzna
269
Przykład 272. Z poprzedniego twierdzenia i z faktu, że objętość czworościanu rozpiętego na trzech wektorach jest równa szóstej części objętości równoległoboku rozpiętego na tych samych wektorach wynika, że objętość V czworościanu o wierzchołkach w punktach Pi (xi , yi , zi ) (i = 1, 2, 3, 4) jest równa szóstej części objętości równoległoboku zbudowanego na wektorach P1 P4 , P2 P4 i P3 P4 , rys. 12.8. Stąd 1 V = |(P1 P2 )(P1 P3 )(P1 P4 )|, (12.7) 6 czyli x1 y 1 z 1 1 x2 − x 1 y 2 − y 1 z 2 − z 1 1 1 x y2 z2 1 |. (12.8) V = | x3 − x1 y3 − y1 z3 − z1 | = | 2 6 x − x y − y z − z 6 x3 y3 z3 1 4 1 4 1 4 1 x4 y 4 z 4 1
Z twierdzenia 12.2.1 i z wniosku 7.4.4 natychmiast otrzymujemy następujący związek liniowej niezależności wektorów z wartością iloczynu mieszanego wektorów.
Wniosek 12.2.1. Trzy wektory a, b i c z przestrzeni R 3 są liniowo zależne wtedy i tylko wtedy, gdy abc = 0.
12.3. Prosta i płaszczyzna Definicja 12.3.1. Niech W będzie k-wymiarową podprzestrzenią n-wymiarowej przestrzeni E i niech r0 będzie ustalonym wektorem z przestrzeni E. Wtedy zbiór r0 + W = {r0 + w : w ∈ W } nazywamy k-wymiarową płaszczyzną w n-wymiarowej przestrzeni E. Wektor r 0 nazywamy wektorem przesunięcia płaszczyzny r0 + W , a podprzestrzeń W jej kierunkiem. Jeśli W jest podprzestrzenią generowaną przez liniowo niezależne wektory m1 , m2 , . . . , mk , to r0 + W = {r0 +
k X i=1
ti mi : t1 , t2 , . . . , tk ∈ R}
i wektory k-wymiarowej płaszczyzny r0 + W są określone równaniem r = r0 +
k X i=1
ti mi , t1 , . . . , tk ∈ R.
(12.9)
Równanie (12.9) nazywamy równaniem k-wymiarowej płaszczyzny r 0 + W i dalej równanie to utożsamiać będziemy z samą k-wymiarową płaszczyzną. Mówimy także, że k-wymiarowa płaszczyzna (12.9) przechodzi przez punkt P 0 o wektorze wodzącym r0 i jest równoległa do wektorów m1 , m2 , . . . , mk . Wektory m1 , m2 , . . . , mk nazywamy wektorami kierunkowymi płaszczyzny (12.9), a współczynniki t1 , . . . , tk jej parametrami. Teraz zajmiemy się przypadkami szczególnymi: k = 1 i k = n − 1. Każdą 1-wymiarową płaszczyznę zwykle nazywa się prostą. Natomiast (n − 1)-wymiarową płaszczyznę nazywana jest hiperpłaszczyzną w n-wymiarowej przestrzeni E lub płaszczyzną, gdy n = 3.
P4
: P3 P1
q Rys. 12.8
P2
270
12. Geometria analityczna
Prosta przechodząca przez punkt i równoległa do wektora Niech r = (x, y, z) i r0 = (x0 , y0 , z0 ) będą wektorami wodzącymi punktów P (x, y, z) i P0 (x0 , y0 , z0 ) i niech m = (a, b, c) będzie niezerowym wektorem. Wobec (12.9) punkt P leży na prostej ` przechodzącej przez punkt P0 i równoległej do wektora m (rys. 12.9) wtedy i tylko wtedy, gdy r = r0 + tm, t ∈ R.
Równanie wektorowe prostej
(12.10)
z 6
` P
]
k 1
m P0
y
x Rys. 12.9
Równanie (12.10) nazywamy równaniem wektorowym prostej `, a wektor m jej wektorem kierunkowym. Równanie (12.10), czyli równanie (x, y, z) = (x0 , y0 , z0 ) + t(a, b, c), t ∈ R,
Równanie parametryczne prostej
jest równoważne następującemu układowi trzech równań skalarnych x = x0 + ta, y = y0 + tb, t ∈ R. z = z0 + tc,
(12.11)
Układ równań (12.11) nazywa się układem parametrycznych równań prostej ` przechodzącej przez punkt P0 (x0 , y0 , z0 ) i równoległej do wektora m = (a, b, c). Potocznie układ ten nazywa się parametrycznym równaniem prostej `. Rugując z tego układu parametr t, otrzymujemy równoważny układ równości (proporcji)
Równanie kierunkowe prostej
x − x0 y − y0 z − z0 = = . (12.12) a b c Układ ten nazywa się układem symetrycznych równań prostej ` (albo równaniem kierunkowym prostej `) przechodzącej przez punkt P0 (x0 , y0 , z0 ) i równoległej do niezerowego wektora m = (a, b, c). W równościach (12.12) któryś z mianowników (ale nie wszystkie trzy jednocześnie) może być zerowy. W takim przypadku przyjmujemy, że odpowiadający mu licznik także jest zerowy.
Przykład 273. Prosta określona równaniem x−4 y−3 z+2 = = 5 0 −1
przechodzi przez punkt (4, 3, −2) i jest równoegła do wektora m = (5, 0, −1). Ta sama prosta jest określona przez równości x = 4 + 5t,
y = 3,
z = −2 − t dla t ∈ R.
12.3. Prosta i płaszczyzna
271
Przykład 274. Napisać równanie parametryczne prostej ` przechodzącej przez punkt P0 (1, −1, 2) i równoległej do wektora m = (2, 1, −1). Sprawdzić, czy punkt P (7, 1, 1) leży na tej prostej. Wobec (12.11) równaniem parametrycznym prostej ` jest
(
x = 1 + 2t, y = −1 + t, z = 2 − t,
z
6 P
P0
t ∈ R.
r1 −r0
K r0
: `
P1
:
r
r1
Dla sprawdzenia czy punkt P (7, 1, 1) leży na tej prostej, należy zbadać czy ma rozwiązanie następujący układ równań:
(
y x
7 = 1 + 2t, 1 = −1 + t, 1 = 2 − t.
Rys. 12.10
Rozwiązaniem pierwszego równania, 7 = 1 + 2t, jest t = 2. Liczba t = 2 jest także rozwiązaniem drugiego równania, bo 1 = −1 + 2. Jednakże liczba ta nie jest rozwiązaniem trzeciego równania, 1 6= 2 − 2. Zatem punkt P (7, 1, 1) nie leży na prostej `.
Prosta przechodząca przez dwa punkty Prosta przechodząca przez dwa różne punkty P0 (x0 , y0 , z0 ) i P1 (x1 , y1 , z1 ) (o wektorach wodzących r0 i r1 ) jest równoległa do niezerowego wektora P0 P1 = r1 −r0 , więc jej równanie możemy uzyskać z każdego z równań (12.10)–(12.12) zastępując w nich wektor m = (a, b, c) lub jego składowe przez wektor r1 − r0 = (x1 − x0 , y1 − y0 , z1 − z0 ). W szczególności, równaniem wektorowym i równaniem parametrycznym prostej ` przechodzącej przez punkty P0 i P1 (zob. rys. 12.10) są odpowiednio r = r0 + t(r1 − r0 ), i
Odcinek
t ∈ R,
x = x0 + t(x1 − x0 ), y = y0 + t(y1 − y0 ), z = z0 + t(z1 − z0 ),
t ∈ R.
(12.13)
(12.14)
Ograniczając w równaniach (12.13) i (12.14) zakres zmienności parametru t do przedziału h0; 1i, otrzymujemy równanie odcinka o końcach w punktach P0 i P1 (rys. 12.11).
z6 P1
P
Przykład 275. Napisać równanie odcinka o końcach w punktach P0 (1, 2, 5) i P1 (−1, 3, 2).
P0
K r0
r
r1
Ponieważ P0 P1 = (−2, 1, −3), więc wobec (12.14) odcinek o końcach w punktach P0 i P1 określony jest przez równania
(
y
x = 1 − 2t, y = 2 + t, z = 5 − 3t,
t ∈ h0; 1i.
x
Rys. 12.11
272
12. Geometria analityczna
Kąt nachylenia dwóch prostych Dane są dwie proste `1 i `2 o równaniach r = r1 + tm1 i r = r2 + λm2 , gdzie t, λ ∈ R.
(12.15)
Definicja 12.3.2. Miarą kąta nachylenia prostych `1 i `2 określonych przez równania (12.15), oznaczamy ją przez ](`1 , `2 ), nazywamy miarę ϕ = ](m1 , m2 ) kąta pomiędzy ich wektorami kierunkowymi m1 i m2 dobranymi tak, aby ϕ było liczbą z przedziału h0; π/2i (co zawsze można uzyskać przez ewentualne zastąpienie jednego z wektorów m1 i m2 przez wektor przeciwny, zob. rys. 12.12 (a)-(c)).
(a)
(b)
6
(c)
6
6
o−m2 m2
w Y m
2
o−m2
m1
j
−m2
q `2
`1
-
z
m1 ϕ
w
m2
`2
o−m2 `1
-
z
m1 ϕ
w
m2
`2 `1
-
`02
Rys. 12.12
Z ostatniej definicji i ze wzorów na cosinus i sinus kąta pomiędzy wektorami (zob. (9.2.1) i twierdzenie 12.1.2 (b)) otrzymujemy wzory na cosinus i sinus kąta pomiędzy prostymi `1 i `2 , cos ](`1 , `2 ) = | cos ](m1 , m2 )| = i
|m1 · m2 | ||m1 ||||m2 ||
(12.16)
||m1 × m2 || . (12.17) ||m1 ||||m2 || Mówimy, że proste `1 i `2 określone przez równania (12.15) są prostopadłe (piszemy `1 ⊥ `2 ) lub równoległe (co oznaczamy przez `1 k `2 ), jeśli ich wektory kierunkowe m1 i m2 są odpowiednio prostopadłe lub równoległe. Zatem mamy sin ](`1 , `2 ) = sin ](m1 , m2 ) =
Prostopadłość prostych
i Równoległość prostych Wichrowatość prostych
`1 ⊥ ` 2 ⇔ m 1 ⊥ m 2 ⇔ m 1 · m2 = 0
(12.18)
`1 k `2 ⇔ m1 k m2 ⇔ m1 × m2 = 0.
(12.19)
Definicja 12.3.3. Dwie proste nazywamy skośnymi (wichrowymi lub niewspółpłaszczyznowymi), gdy nie są one równoległe i nie przecinają się (rys. 12 (c)). Jeśli proste (12.15) są nierównoległe (co zachodzi, gdy m1 × m2 6= 0) i przecinają się, to dla pewnych liczb rzeczywistych t i λ jest r2 + λm2 = r1 + tm1 . Wtedy też i
r2 − r1 = tm1 − λm2 (r2 − r1 ) · (m1 × m2 ) = tm1 · (m1 × m2 ) − λm2 · (m1 × m2 ) = 0,
bo m1 · (m1 × m2 ) = 0 i m2 · (m1 × m2 ) = 0. Stąd zaś wynika, że proste (12.15) są skośne wtedy i tylko wtedy, gdy (m1 × m2 ) 6= 0 i (r2 − r1 ) · (m1 × m2 ) 6= 0.
(12.20)
12.3. Prosta i płaszczyzna
273
Przykład 276. Wyznaczyć kąt nachylenia niami x+1 =y−1=z+2 i −2
prostych `1 i `2 określonych równa t, x = y = −1 − 2t, z = −1 + t.
Wyznaczyć (jeśli jest to możliwe) punkt przecięcia się prostych `1 i `2 .
Wektorami kierunkowymi prostych `1 i `2 są wektory m1 = (−2, 1, 1) i m2 = (1, −2, 1). Wobec (12.16) mamy cos ∠(`1 , `2 ) =
|m1 · m2 | | − 2 − 2 + 1| 1 √ √ = = ||m1 ||||m2 || 2 6 6
i dlatego ∠(`1 , `2 ) = π/3. Proste `1 i `2 przetną się wtedy i tylko wtedy, gdy pewien punkt P (t, −1−2t, −1+t) prostej `2 jest punktem prostej `1 . Podstawiając współrzędne punktu P do równania prostej `1 , otrzymujemy układ równań t+1 = −2t − 2 = t + 1, −2 którego rozwiązaniem jest t = −1. Stąd wynika, że punkt P (−1, 1, −2) jest punktem przecięcia prostych `1 i `2 .
Przykład 277. Prosta ` określona jest przez równania x = 3 − t, y = 2 + t i z = 2t. Napisać równanie prostej `0 przechodzącej przez punkt P0 (1, 0, 3), przecinającej prostą ` i prostopadłej do prostej `. Prosta `0 przechodzi przez pewien punkt P1 (3 − t, 2 + t, 2t) leżący na prostej `, więc wektor P0 P1 = (2 − t, 2 + t, 2t − 3) może być jej wektorem kierunkowym (rys. 12.13). Parametr t dobieramy tak, aby wektor P0 P1 był prostopadły do wektora m = (−1, 1, 2), wektora kierunkowego prostej `. Z warunku prostopadłości, czyli z równości
6
`0 m: `
oP1
m · P0 P1 = −(2 − t) + (2 + t) + 2(2t − 3) = 0
P0
0
otrzymujemy t = 1. Zatem P0 P1 = (1, 3, −1) i prosta ` określona jest przez równania x = 1 + t,
y = 3t,
z = 3 − t.
Przykład 278. Zbadać wzajemne położenie prostych `1 i `2 określonych odpowiednio przez równania x−1 y+2 z−8 x−5 y−6 z = = i = = . 2 1 2 10 −4 1 Proste `1 i `2 są równoległe do wektorów m1 = (2, 1, 2) oraz m2 = (10, −4, 1) i przechodzą odpowiednio przez punkty P1 i P2 o wektorach wodzących r1 = (1, −2, 8) i r2 = (5, 6, 0). Ponieważ
oraz
i j m1 × m 2 = 2 1 10 −4
k 2 1
= (9, 18, −18) i r2 − r1 = (4, 8, −8)
(r2 − r1 ) · (m1 × m2 ) = (4, 8, −8) · (6, 18, −18) 6= 0,
więc wobec (12.20) proste `1 i `2 są skośne.
Rys. 12.13
-
274
12. Geometria analityczna
Odległość punktu od prostej Niech ` będzie prostą przechodzącą przez punkt P0 i równoległą do niezerowego wektora m. Niech P1 będzie ustalonym punktem z przestrzeni R3 i niech P10 będzie jego rzutem ortogonalnym na prostą ` (rys. 12.14). Odległość d punktu P1 od prostej ` jest równa odległości punktu P1 od punktu P10 . Dla jej wyznaczenia weźmy pod uwagę pole P równoległoboku rozpiętego na wektorach m i P0 P1 . Z jednej strony (wobec twierdzenia 12.1.2) mamy P = ||m × P0 P1 ||. Z drugiej strony pole P jest iloczynem długości podstawy m i wysokości d tego równoległoboku, P = ||m|| d. Zatem ||m|| d = ||m × P0 P1 || i stąd otrzymujemy wzór na odległość d punktu P1 od prostej `, d=
6
x−1 y−2 z+3 = = . 3 0 4
d m
:
`
P10
(12.21)
Przykład 279. Obliczyć odległość d punktu P1 (2, 2, 3) od prostej ` określonej przez równania
P1
P0
||m × P0 P1 || . ||m||
Prosta ` przechodzi przez punkt P0 (1, 2, −3) i jest równoległa do wektora m = (3, 0, 4). Ponieważ ||m|| = 5 i P0 P1 = (1, 0, 6), więc wobec (12.21) mamy
i 1 ||m × P0 P1 || = || 3 d= ||m|| 5 1
Rys. 12.14
j 0 0
k 1 14 4 || = ||(0, −14, 0)|| = . 5 5 6
Płaszczyzna w przestrzeni trójwymiarowej
Niech r0 = (x0 , y0 , z0 ), r1 = (x1 , y1 , z1 ) i r2 = (x2 , y2 , z2 ) będą wektorami wodzącymi trzech niewspółliniowych punktów P0 , P1 i P2 z przestrzeni R3 . Wtedy wektory m1 = r1 − r0 = (x1 − x0 , y1 − y0 , z1 − z0 ) = (a1 , a2 , a3 ) i m2 = r2 − r0 = (x2 − x0 , y2 − y0 , z2 − z0 ) = (b1 , b2 , b3 ) są liniowo niezależne, więc ich iloczyn wektorowy n = m1 × m2 = (A, B, C)
Równanie wektorowe płaszczyzny
jest wektorem niezerowym. Niech teraz Π będzie płaszczyzną przechodzącą przez punkt P0 i równoległą do wektorów m1 i m2 (rys. 12.15). Wobec (12.9) punkt P (x, y, z) o wektorze wodzącym r = (x, y, z) leży na płaszczyźnie Π wtedy i tylko wtedy, gdy istnieją liczby t, λ ∈ R takie, że r = r0 + tm1 + λm2 , (12.22) tzn. gdy wektor r − r0 jest kombinacją liniową wektorów m1 i m2 , r − r0 = tm1 + λm2 .
(12.23)
Każde z równań (12.22) i (12.23) nazywamy równaniem wektorowym płaszczyzny Π przechodzącej przez punkt P0 i równoległej do wektorów m1 i m2 .
12.3. Prosta i płaszczyzna
275
Przedstawiając wektory r, r0 , m1 i m2 za pomocą ich współrzędnych, łatwo zauważamy, że każde z równań (12.22) i (12.23) jest równoważne układowi równań x − x0 = ta1 + λb1 , y − y0 = ta2 + λb2 , (12.24) z − z0 = ta3 + λb3 ,
który nazywa się układem parametrycznych równań płaszczyzny przechodzącej przez punkt P0 (x0 , y0 , z0 ) i równoległej do wektorów m1 = (a1 , a2 , a3 ) i m2 = (b1 , b2 , b3 ).
z
6
n
P
Π
r
P1
i r−r0
9
Im1
m2
P2
* P0 r0
-
y
Rys. 12.15
x
Przykład 280. Wyznaczyć równanie płaszczyzny przechodzącej przez punkt P0 (1, −3, 2) i równoległej do prostych `1 i `2 określonych równaniami x = 2 + 3λ, x−1 y+3 z−2 y = 1 − 2λ, = = i λ ∈ R. 2 0 −1 z = 1 + λ,
Rozważana płaszczyzna przechodzi przez punkt P0 (1, −3, 2) i jest równoległa do wektorów kierunkowych m1 = (2, 0, −1) i m2 = (3, −2, 1) prostych `1 i `2 , więc wobec (12.24) jest ona określona układem parametrycznych równań
(
x = 1 + 2t + 3λ, y = −3 − 2λ, z = 2 − t + λ,
gdzie t, λ ∈ R.
Ponieważ m1 (m1 ×m2 ) = m2 (m1 ×m2 ) = 0, więc z równania (12.23) wynika, że mamy (r − r0 )(m1 × m2 ) = 0 (12.25)
i jest to kolejna postać wektorowa równania płaszczyzny przechodzacej przez punkt P0 i równoległej do wektorów m1 i m2 oraz ortogonalnej do wektora n = m1 ×m2 (rys. 12.16). W tym ostatnim przypadku mowi się, że n = m1 ×m2 jest wektorem normalnym płaszczyzny określonej równaniem (12.25). Uwzględniając współrzędne wektorów r − r0 = (x − x0 , y − y0 , z − z0 ), m1 = (a1 , a2 , a3 ), m2 = (b1 , b2 , b3 ) oraz wyznacznikową postać iloczynu mieszanego, równanie (12.25) można zapisać w postaci
Układ równań parametrycznych płaszczyzny
276
12. Geometria analityczna x − x0 a1 b1
Równanie wyznacznikowe płaszczyzny
Wyznacznikowe równania płaszczyzny przechodzącej przez trzy punkty
y − y0 a2 b2
z − z0 a3 b3
=0
(12.26)
zwanej wyznacznikowym równaniem płaszczyzny równoległej do wektorów m 1 oraz m2 i przechodzącej przez punkt P0 (x0 , y0 , z0 ). Jeśli teraz uwzględnimy, że wektory m1 i m2 są wyznaczone przez współrzędne punktów P0 , P1 i P2 , czyli uwzględniając, że m1 = (x1 − x0 , y1 − y0 , z1 − z0 ) i m2 = (x2 − x0 , y2 − y0 , z2 − z0 ), to równanie (12.26) można zapisać w postaci x − x0 y − y 0 z − z 0 x1 − x 0 y 1 − y 0 z 1 − z 0 = 0 (12.27) x2 − x 0 y 2 − y 0 z 2 − z 0 lub
x x0 x1 x2
y y0 y1 y2
z z0 z1 z2
1 1 1 1
= 0.
(12.28)
Każde z równań (12.27) i (12.28) jest równaniem płaszczyzny przechodzacej przez trzy niewspółliniowe punkty P0 (x0 , y0 , z0 ), P1 (x1 , y1 , z1 ) i P2 (x2 , y2 , z2 ). n
z6
P0 r0
7
r−r0
q *
P
r
y
z
x
Rys. 12.16
Przykład 281. Napisać równanie płaszczyzny przechodzącej przez punkty P 0 (1, 1, 0), P1 (2, 1, 1) i P2 (0, 2, 1) Wobec (12.28) płaszczyzna przechodząca przez punkty P0 , P1 i P2 wyznaczona jest przez równanie x y z 1 1 1 0 1 2 1 1 1 = 0. 0 2 1 1 Łatwo można zauważyć, że
x 1 2 0
y 1 1 2
z 0 1 1
1 1 1 1
x−1 y−1 z 0 1 = −x − 2y + z + 3, = 1 −1 1 0
więc rozważana płaszczyzna jest wyznaczona przez równanie x + 2y − z = 3.
12.3. Prosta i płaszczyzna
277
Z równania (12.25) po podstawieniu (A, B, C) zamiast m1 × m2 oraz (x − x0 , y − y0 , z − z0 ) zamiast r − r0 otrzymujemy równania (A, B, C) · (x − x0 , y − y0 , z − z0 ) = 0
(12.29)
A(x − x0 ) + B(y − y0 ) + C(z − z0 ) = 0.
(12.30)
Ax + By + Cz + D = 0
(12.31)
oraz
Równania ogólne płaszczyzny
Każde z równań (12.29) i (12.30) jest tzw. równaniem ogólnym płaszczyzny przechodzącej przez punkt P0 (x0 , y0 , z0 ) i ortogonalnej do wektora n = (A, B, C). Jeśli przyjmiemy, że D = −Ax0 − By0 − Cz0 , to każde z powyższych równań płaszczyzny przechodzącej przez punkt P0 (x0 , y0 , z0 ) i ortogonalnej do wektora n = (A, B, C) przyjmuje postać i także i to równanie nazywamy równaniem ogólnym płaszczyzny ortogonalnej do wektora (A, B, C). Przykład 282. Płaszczyzna przechodząca przez punkt P0 (2, 3, −4) i ortogonalna do wektora n = (−2, 5, 3) określona jest przez równanie czyli przez równanie
−2(x − 2) + 5(y − 3) + 3(z + 4) = 0, −2x + 5y + 3z + 1 = 0.
` m6
n 6
Kąt między prostą i płaszczyzną Niech r = r0 + mt i n(r − r00 ) = 0 będą odpowiednio równaniem prostej ` i płaszczyzny Π. Mówimy, że prosta ` jest ortogonalna do płaszczyzny Π, jeśli wektory m i n są równoległe (rys. 12.17). W takim przypadku mówimy też, że prosta ` tworzy kąt π/2 z płaszczyzną Π. W każdym innym przypadku przez kąt pomiędzy prostą ` i płaszczyzną Π rozumiemy kąt ϕ pomiędzy prostą ` a jej rzutem ortogonalnym `0 na płaszczyznę Π (rys. 12.18). Zauważmy, że jeśli ](m, n) jest kątem pomiędzy wektorami m i n, to π π ϕ = − ](m, n) lub ϕ = ](m, n) − . 2 2 W obu przypadkach jest sin ϕ = | cos ](m, n)|
Π
Rys. 12.17
n
`
6 7
m
ϕ
Π
i dlatego wobec (9.2.1) mamy
sin ϕ =
|m · n| . ||m||||n||
Stąd zaś w szczególności wynika, że prosta ` jest równoległa do płaszczyzny Π wtedy i tylko wtedy, gdy wektory m i n są ortogonalne. Jeśli prosta ` i płaszczyzna Π nie są równoległe, to mają one dokładnie jeden punkt wspólny (czasami nazywany śladem prostej ` na płaszczyźnie Π) i punkt ten jest rozwiązaniem układu równań r = r0 + mt, n(r − r00 ) = 0.
Dla jego wyznaczenia wstawiamy r = r0 + mt do równania n(r − r00 ) = 0. n(r0 −r00 ) . Wspólnym punktem prostej Wtedy n(r0 − r00 ) + nmt = 0 i stąd t = − nm ` i płaszczyzny Π jest więc r = r0 − m
n(r0 − r00 ) . nm
Rys. 12.18
`0
278
12. Geometria analityczna
Przykład 283. Prosta ` i płaszczyzna Π są określone odpowiednio przez równania x+1 y−2 z+2 = = i Ax + 3y − 5z = 0. 4 3 A Dla jakiej wartości parametru A prosta ` będzie równoległa do płaszczyzny Π? Prosta ` jest równoległa do wektora m = (4, 3, A), a płaszczyzna Π jest ortogonalna do wektora n = (A, 3, −5). Zatem ` będzie równoległa do Π wtedy i tylko wtedy, gdy wektory m i n będą ortogonalne. Tak będzie wtedy i tylko wtedy, gdy ich iloczyn skalarny m · n = −A + 9 będzie równy zeru, tj. wtedy i tylko wtedy, gdy A = 9.
Przykład 284. Znaleźć wspólny punkt prostej (x, y, z) = (1, 2, −12) + (1, 2, 3)t i płaszczyzny x + y + 2z − 6 = 0. Dla wyznaczenia wspólnego punktu prostej i płaszczyzny wstawiamy x = 1 + t, y = 2 + 2t i z = −12 + 3t do równania płaszczyzny. Wtedy (1 + t) + (2 + 2t) + 2(−12 + 3t) − 6 = 0 i stąd t = 3. Zatem (x, y, z) = (1, 2, −12) + (1, 2, 3) · 3 = (4, 8, −3) jest wspólnym punktem prostej i płaszczyzny.
Kąt dwóch płaszczyzn Niech Π1 i Π2 będą płaszczyznami o równaniach n1 (r − r1 ) = 0 i n2 (r − r2 ) = 0.
(12.32)
Przez miarę kąta pomiędzy płaszczyznami Π1 i Π2 , oznaczamy ją przez ϕ = ](Π1 , Π2 ), rozumiemy miarę ](n1 , n2 ) kąta pomiędzy ich wektorami normalnymi n1 i n2 dobranymi tak, aby była to liczba z przedziału h0; π/2i (zob. rys. 12.19). Zatem ϕ = ](n1 , n2 ) lub ϕ = π − ](n1 , n2 ). W obu przypadkach cos ϕ = | cos ](n1 , n2 )| i ze wzoru na cosinus kąta pomiędzy wektorami otrzymujemy |n1 · n2 | cos ϕ = . ||n1 ||||n2 || ]
ϕ
6 n
1
]
n2
n2
Π2
ϕ
Rys. 12.19
Π1
12.3. Prosta i płaszczyzna
279
Przykład 285. Płaszczyzny o równaniach x − 12y + 7z + 12 = 0 oraz 2x + 3y − 4z − 1 = 0 tworzą kąt ϕ = arccos
|(1, −12, 7)(2, 3, −4)| 62 √ = 34◦ 250 . = arccos √ ||(1, −12, 7)||||(2, 3, −4)|| 194 29
O płaszczyznach Π1 i Π2 określonych równaniami (12.32) mówimy, że są one ortogonalne (Π1 ⊥ Π2 ) albo równoległe (Π1 k Π2 ), jeśli ich wektory normalne n1 i n2 są odpowiednio ortogonalne albo równoległe. Zatem mamy Π 1 ⊥ Π 2 ⇔ n 1 ⊥ n 2 ⇔ n 1 · n2 = 0
(12.33)
Π1 k Π2 ⇔ n1 k n2 ⇔ n1 × n2 = 0.
(12.34)
i
Przykład 286. Płaszczyzny Π1 i Π2 są określone przez równania x − 2y + z + 7 = 0 oraz 2x + y − z + 3 = 0. Wyznaczyć równanie płaszczyzny Π przechodzącej przez punkt A(3, 2, −1) i ortogonalnej do płaszczyzn Π1 i Π2 . Wektorami normalnymi płaszczyzn Π1 i Π2 są wektory n1 = (1, −2, 1) i n2 = (2, 1, −1). Warunek prostopadłości płaszczyzny Π do płaszczyzn Π1 i Π2 jest równoważny równoległości płaszczyzny Π do wektorów n1 i n2 . Zatem, wobec (12.26), równaniem płaszczyzny Π jest
x−3 y−2 z+1 −2 1 = 0, 1 2 1 −1
czyli
x + 3y + 5z − 4 = 0.
Jeśli płaszczyzny Π1 i Π2 nie są równoległe, to przecinają się one wzdłuż prostej (rys. 12.19), którą nazywa się krawędzią przecięcia się płaszczyzn i której równanie otrzymuje się z układu równań opisujących obie płaszczyzny. Przykład 287. Płaszczyzny Π1 i Π2 o równaniach x − 2y + 2z = 3 i 2x − 3y + z = 1 przecinają się wzdłuż prostej ` (rys. 12.20). Napisać jej równanie. Wyznaczyć także równanie płaszczyzny Π przechodzącej przez punkt A(3, 2, 1) i zawierającej prostą `. Prosta ` jest zbiorem tych punktów (x, y, z), których współrzędne x, y i z spełniają układ równań x − 2y + 2z = 3, 2x − 3y + z = 1.
Jego rozwiązaniem jest (x, y, z) = (−7, −5, 0) + (4, 3, 1)t, t ∈ R, i jest to równanie szukanej prostej `. Prosta ta przechodzi przez punkt B(−7, −5, 0) i jest równoległa do wektora m = (4, 3, 1). Płaszczyzna Π przechodzi przez punkt A(3, 2, 1) i jest równoległa do wektorów m = (4, 3, 1) i AB = (−10, −7, −1), więc jest ona określona równaniem
x−3 y−2 z −1 3 1 = 0, 4 −10 −7 −1
czyli
2x − 3y + z = 1.
` Π1 Π
6
Π2
B
Rys. 12.20
A
280
12. Geometria analityczna
Odległość punktu od płaszczyzny
O 6
r1
d
P1
α r1 −r0
d(P1 , Π0 ) =
n
P10
Π0
* r0
Niech r0 oraz r1 będą wektorami wodzącymi punktów P0 oraz P1 i niech n będzie niezerowym wektorem. Niech Π0 będzie płaszczyzną określoną równaniem n(r − r0 ) = 0. Pokażemy, że odległość d = d(P1 , Π0 ) punktu P1 od płaszczyzny Π0 określona jest wzorem
Rys. 12.21
P0
z
|n(r1 − r0 )| . ||n||
(12.35)
Dla dowodu powyższego wzoru niech P10 będzie rzutem ortogonalnym punktu P1 na płaszczyznę n(r − r0 ) = 0 i niech α będzie miarą kąta między wektorami n i r1 − r0 (rys. 12.21). Z trójkąta prostokątnego P0 P1 P10 mamy d = ||r1 − r0 || | cos α|. Stąd i ze wzoru (9.2.1) mamy |n(r1 − r0 )| = ||n|| ||r1 − r0 ||| cos α| = ||n|| d i z tej równości wynika wzór (12.35).
Niech Π0 i Π1 będą płaszczyznami równoległymi określonymi przez równania n(r − r0 ) = 0 i n(r − r1 ) = 0,
(12.36)
gdzie r0 i r1 są wektorami wodzącymi punktów P0 i P1 . Ponieważ odległość d(Π0 , Π1 ) pomiędzy płaszczyznami Π0 i Π1 jest równa odległości dowolnego punktu leżącego na jednej płaszczyźnie od drugiej płaszczyzny, więc d(Π0 , Π1 ) = d(P1 , Π0 ) i (12.35) jest także wzorem na odległość pomiędzy równoległymi płaszczyznami określonymi przez równania (12.36). Niech teraz Π0 będzie płaszczyzną określoną równaniem ogólnym (12.31), czyli równaniem Ax + By + Cz + D = 0, i niech P0 (x0 , y0 , z0 ) będzie dowolnym punktem leżącym na płaszczyźnie Π0 . Dla takiego punktu jest D = −(Ax0 + By0 + Cz0 ). Niech teraz P1 (x1 , y1 , z1 ) będzie dowolnym punktem z przestrzeni R3 . Jeśli przyjmiemy, że wektorem kierunkowym płaszczyzny π0 jest wektor n = (A, B, C) i√jeśli r0 oraz r1 są wektorami wodzącymi punktów P0 oraz P1 , to mamy ||n|| = A2 + B 2 + C 2 oraz Ax1 + By1 + Cz1 + D = (A, B, C)(x1 , y1 , z1 ) − (A, B, C)(x0 , y0 , z0 )
= (A, B, C) (x1 , y1 , z1 ) − (x0 , y0 , z0 ) = n(r1 − r0 ).
Stąd i z (12.35) wynika, że odległóść pomiędzy punktem P1 (x1 , y1 , z1 ) i płaszczyzną Π0 określoną równaniem Ax + By + Cz + D = 0 wyraża się wzorem d(P1 , Π0 ) =
|Ax1 + By1 + Cz1 + D| √ . A2 + B 2 + C 2
(12.37)
Przykład 288. Obliczyć odległość punktu P1 (1, 5, 3) od: (a) płaszczyzny Π1 przechodzącej przez punkty A(1, 0, 0), B(0, 2, 0) i C(0, 0, 3); (b) płaszczyzny Π 2 określonej równaniem 2x + 3y + 6z − 7 = 0. Płaszczyzna Π1 przechodzi przez punkt P0 = A(1, 0, 0) i jest ortogonalna do wektora
i j k n = AB × AC = −1 2 0 = (6, 3, 2). −1 0 3
Zatem, wobec wzoru (12.35), odległość pomiędzy punktem P1 i płaszczyzną Π1 jest równa d(P1 , Π1 ) =
|n(r1 − r0 )| ||n||
=
|(6, 3, 2) · (1, 5, 3) − (1, 0, 0) | √ 62 + 32 + 22
=
|(6, 3, 2) · (0, 5, 3)| 21 = = 3. 7 7
12.4. Ćwiczenia
281
Ponieważ płaszczyzna Π2 jest określona równaniem ogólnym, więc odległość punktu P1 od płaszczyzny Π2 możemy wyznaczyć za pomocą wzoru (12.37), d(P1 , Π2 ) =
|Ax1 + By1 + Cz1 + D| |2 · 1 + 3 · 5 + 6 · 3 − 7| 28 = = = 4. √ √ 7 A2 + B 2 + C 2 22 + 32 + 62
Odległość dwóch prostych skośnych Niech `1 i `2 będą dwiema prostymi skośnymi określonymi przez równania r = r1 +tm1 oraz r = r2 +λm2 i niech P1 oraz P2 będą punktami, których wektorami wodzącymi są r1 i r2 . Odległość d = d(`1 , `2 ) pomiędzy tymi prostymi jest równa odległości dowolnego punktu jednej prostej od płaszczyzny zawierającej drugą prostą i równoległej do obu rozważanych prostych (rys. 12.22). Przykładowo, jest ona równa odległości punktu P2 od płaszczyzny (m1 × m2 )(r − r1 ) = 0. Stąd i ze wzoru (12.35) otrzymujemy wzór na odległość pomiędzy prostymi skośnymi, d(`1 , `2 ) =
|(m1 × m2 )(r2 − r1 )| . ||m1 × m2 ||
(12.38)
Przykład 289. Obliczyć odległość d(`1 , `2 ) pomiędzy prostymi skośnymi `1 i `2 określonymi przez równania x+7 y−4 z+3 x − 21 y−5 z−2 = = i = = . 3 4 −1 −6 4 1
Proste `1 i `2 są równoległe do wektorów m1 = (3, 4, −1) i m2 = (−6, 4, 1) i przechodzą przez punkty o wektorach wodzących r1 = (−7, 4, −3) i r2 = (21, 5, 2). Ponieważ
i j k m1 × m2 = 3 4 −1 = (8, 3, 36) i r2 − r1 = (28, 1, 5), −6 4 1
Π2 `2 Π1
P2 `1
więc ze wzoru (12.38) znajdujemy
d(`1 , `2 ) =
|(8, 3, 36) · (28, 1, 5)| = 11. ||(8, 3, 36)||
Rys. 12.22
12.4. Ćwiczenia 1. Obliczyć a × b, gdy: (a) a = (2, 1, 3) i b = (0, 1, 2); 8. Wyznaczyć objętość czworościanu, którego wierzchołkami są: (a) (0, 0, 0), (1, 1, 2), (−1, 2, −1), (0, −1, 3); (b) a = (2, −3, 1) i b = (−2, 3, −1). (b) (1, 3, −1), (2, 2, 3), (3, 7, 4), (4, 2, −2). 2. Obliczyć pole równoległoboku zbudowanego na wek9. Wyznaczyć ogólną postać wektora a = xi + yj + zk torach a = (2, −3, 5) i b = (4, 1, 0). takiego, że a × (i + j + 2k) = i + j − k. 3. Obliczyć pole równoległoboku, którego trzema wierz10. Dane są wektory a = xi − 6j − 3k, b = 4i + 3j − k chołkami są A(1, 2, −1), B(2, 1, 4) i C(3, 5, 2). i c = i − 3j + 2k. (a) Wyznaczyć x takie, że a i b są 4. Obliczyć pole równoległoboku, którego wierzchołkami ortogonalne. (b) Wyznaczyć x takie, że a, b i c leżą są punkty (−3, 0, 2), (6, 1, 4), (4, 2, 2) i (−5, 1, 0). w jednej płaszczyźnie. (c) Obliczyć a × (b × c), gdy x = 2. 5. Obliczyć pole trójkąta, którego wierzchołkami są: (a) A(1, 2, 1), B(2, 1, −3) i C(0, 1, 5); (b) A(1, 4), 11. Dane są wektory a, b i c z przestrzeni R3 , gdzie a i b nie są równoległe. (a) Pokazać, że istnieją liczby x i y B(3, 2) i C(−1, 2). takie, że c × (a × b) = xa + yb. (b) Wywnioskować 6. Obliczyć wysokość h trójkąta o wierzchołkach stąd, że x(ca) + y(cb) = 0. (c) Dla wektorów c = c1 i, A(1, 0, 0), B(0, 2, 0), C(0, 0, 3) poprowadzoną z wierza = a1 i + a2 j i b = b1 i + b2 j + b3 k obliczyć c × (a × b) chołka C na bok AB. oraz (cb)a − (ca)b i stąd wywnioskować, że c × (a × 7. Obliczyć pole wielokąta o wierzchołkach w punktach: b) = (cb)a − (ca)b. (Dla matematyków: czy ostatnia (a) (1, 1), (4, 2), (3, 4) i (2, 4); (b) (2, 1), (6, 1), (7, 3), równość jest prawdziwa dla każdych wektorów a, b (5, 5) i (3, 4). i c z przestrzeni R3 ?)
282 12. Niech a będzie wektorem niezerowym. Pokazać, że jeśli b jest wektorem takim, że a × b = 0 i a · b = 0, to b = 0. 13. Niech a i b będą różnymi niezerowymi wektorami z przestrzeni R3 . Rozwiązać równania: (a) x = a × x; (b) x − a = a × z; (c) a × x = b × x; (d) (a × x) × (b × x) = 0. 14. Napisać równanie prostej przechodzącej przez punkt P (1, 1, 3) i równoległej do: (a) wektora n = (2, −3, 5); (b) prostej −(x − 1)/3 = (y + 1)/2 = −(z + 1); (c) osi Ox. 15. Wyznaczyć punkt, w którym prosta przechodząca przez punkty A(2, 1, 3) i B(4, −1, 5) przecina się z płaszczyzną Oxz. 16. Przez punkt A(0, 1, −1) poprowadzić prostą prostopadłą do prostych (x + 3)/2 = (y − 5)/3 = −(z + 8) i x = 4 − t, y = 5 + t, z = 3t. 17. Obliczyć odległość d punktu A(2, 1, 0) od prostej x + 1 = y − 1 = −(z − 3)/3. 18. Obliczyć odległość punktu A(3, 1, 2) od prostej x−2 = y−3 = z−1 . 3 2 2 19. Znaleźć rzut ortogonalny A0 punktu A(2, 1, −3) na prostą x = 2 + 2t, y = 8 + 5t, z = 2 − t. 20. Znaleźć rzut ortogonalny A0 punktu A(1, 1, 19) na = y−3 = z−1 . Obliczyć odległość między prostą x−2 3 4 2 punktami A i A0 . 21. Dana jest prosta ` przechodząca przez punkty A(2, 4, 9) i B(4, 6, 7). Znaleźć odległość d prostej ` od punktu C(0, 0, 0) i wyznaczyć rzut ortogonalny C 0 punktu C na prostą `. 22. Płaszczyzny x + y + z = 0 i x − 3y + 9z − 28 = 0 przecinają się wzdłuż prostej. Napisać równanie tej prostej. 23. Napisać równanie parametryczne prostej przecięcia płaszczyzn 4x − 5y − 2z + 3 = 0 i x + 4y + 3z − 8 = 0. 24. Na prostej `, wzdłuż której przecinają się płaszczyzny x + y − 2z = 1 i x + 3y − z = 4, wskazać punkt B najbliższy punktowi A(1, 2, 4). 25. Znaleźć długość d rzutu ortogonalnego odcinka łączącego punkty A(5, 2, 3) i B(0, 1, −7) na prostą przechodzącą przez punkty C(1, 2, 0) i D(7, 2, −8). 26. Proste `1 i `2 określone są przez równania x−2 = 3 y+3 y−5 z−4 x−1 z+3 = i = = . Znaleźć cosinus kąta −4 12 4 0 3 pomiędzy prostymi `1 i `2 oraz odległość prostej `1 od prostej `2 . 27. Obliczyć odległość d pomiędzy prostymi skośnymi (x − 2)/3 = (y − 8)/4 = −(z + 6) i −(x − 9)/6 = (y − 3)/4 = z − 4. 28. Dana jest prosta przechodząca przez punkty A(1, 1, 5) i B(−2, 1, 2) i druga przechodząca przez punkty C(2, 2, 1) i D(1, −2, 1). Obliczyć odległość d między tymi prostymi. 29. Znaleźć punkty A i B leżące odpowiednio na prostych (x, y, z) = (−1, 7, 1) + t(−2, 5, 1) i (x, y, z) = (3, 1, 4) + s(3, 0, 1), odległość pomiędzy którymi jest równa odległości pomiędzy prostymi. 30. Dane są proste (x, y, z) = (1, 1, 1) + t(1, −1, 1) i (x, y, z) = (1, −1, 1) + s(−1, 1, 1). Znaleźć cosinus kąta nachylenia oraz odległość pomiędzy tymi prostymi.
12. Geometria analityczna 31. Zbadać wzajemne położenie prostych −(x + 1) = y − 1 = (z − 1)/2 i x/2 = y = −z i obliczyć kąt między tymi prostymi. 32. Przez punkt P (1, 2, 3) poprowadzić prostą, która pod kątem prostym przecina prostą x = 3+2t, y = −4−t, z = 1 + 5t. 33. Wskazać równanie prostej przecinającej proste y+2 z−3 x−1 = = −1 2 1
i
x+1 y−1 z+1 = = 3 2 −1
i przechodzącej przez punkt (0, 0, 0). 34. Wyznaczyć punkt P przecięcia się prostych o równaniach −x = −(y + 5)/7 = (z − 7)/4 i (x + 1)/2 = (y − 2)/0 = (z + 3)/6. 35. Wskazać punkt przecięcia się prostych x−1 = y−2 = 4 5 y−5 x−4 z−6 z−3 i 1 = 2 = 3 . Następnie napisać równanie 6 płaszczyzny zawierającej obie proste. 36. Wyznaczyć równanie płaszczyzny równoległej do osi Oy, prostopadłej do płaszczyzny 2x − y + 5z = 0 i przechodzącej przez punkt A(1, 2, 3). 37. Znaleźć równanie płaszczyzny przechodzącej przez punkt A(2, 0, 1), prostopadłej do płaszczyzny x+5z − y 1 = 0 i równoległej do prostej x−1 = −1 = z−2 . 4 2 38. Podać równanie parametryczne rzutu ortogonalnego prostej x−1 = y−1 = z−2 na płaszczyznę x + 2y + 1 0 1 3z − 1 = 0. 39. Napisać równanie prostej przechodzącej przez punkt (0, 0, 0) i równoległej do płaszczyzn x + y − 2z = 1 i 3x − y + 7z = 2. 40. Napisać równanie płaszczyzny przechodzącej przez punkty (1, 0, 1), (−1, 1, 1) i (5, 4, −3). 41. Pokazać, że punkty (−5, 3, 3), (−1, −2, −2), (2, 8, 3) i (3, 4, 0) leżą w jednej płaszczyźnie. Wyznaczyć równanie tej płaszczyzny. 42. Napisać równanie płaszczyzny przechodzącej przez punkt P (−1, 2, 4) i prostopadłej do płaszczyzn 6x − 2y + 3z− 12 = 0 i 3x + 2y − 6z + 21 = 0. 43. Napisać równanie prostej przechodzącej przez punkt A(6, 1, −2) i prostopadłej do płaszczyzny 3x − 2y + z − 4 = 0. 44. Jakie jest położenie prostej (x, y, z) = (1+t, 2−3t, 1+ 2t) względem płaszczyzny 3x + 5y + 6z − 19 = 0? 45. Wyznaczyć odległość punktu (1, 1, 1) od prostej, wzdłuż której przecinają się płaszczyzny 2x−y+z = 3 i x − 3y + 3z = 4. 46. Obliczyć odległość d punktu P (2, −1, 6) od płaszczyzny 7x − 4y + 4z − 6 = 0. 47. Znaleźć symetryczne odbicie A0 punktu A(4, 21, 2) względem płaszczyzny 2x + 3y − 4z − 5 = 0. 48. Znaleźć punkt A0 symetryczny do punktu A(7, 5, −3) względem płaszczyzny przechodzącej przez punkt B(3, 2, 2) i równoległej do wektorów m = (1, 2, 2) i n = (3, 1, 2). 49. Wyznaczyć odległość punktu P0 (3, −1, 2) od płaszczyzny (x, y, z) = (3, 1, −2) + t(1, −1, 1) + s(1, 1, −1). 50. Obliczyć odległość d między płaszczyznami 2x−10y+ 11z − 15 = 0 i 2x − 10y + 11z + 15 = 0. 51. Napisać równania płaszczyzn dwusiecznych kątów dwuściennych między płaszczyznami x+2y +2z −1 = 0 i 4x + 4y + 7z + 1 = 0.
Bibliografia
283
52. Wektorami wodzącymi punktów A, B i C są a = 59. Napisać równanie płaszczyny zawierającej prostą x− (2, −4, −3), b = (6, 0, 4) i c = (−2 + 4t, 1 + 4t, 8 + 7t). 2 = (y + 3)/2 = (z − 4)/3 i jej ortogonalny rzut na (a) Obliczyć pole trójkąta ABC. (b) Dlaczego pole płaszczyznę 3x − y + 2z + 1 = 0. trójkąta ABC nie zależy od t? (c) Obliczyć pole trój- 60. Wpisując TAK albo NIE, stwierdzić prawdziwość kąta A0 B 0 C 0 będącego rzutem prostopadłym trójkąta każdego z następujących zdań: ABC na płaszczyznę 2x − y + 2z = 0. 1 Załóżmy, że wektory b i c są równoległe. Czy 53. Wyznaczyć zbiór tych punktów, które leżą w płaszwektory a × b i a × c są równoległe? czyźnie x − 2y + 3z = 0 i są równooddalone od punk2 Niech wektory b i c będą ortogonalne. Czy w tów A(1, −3, 4) i B(−1, 1, 0). takim przypadku wektory a × b i a × c także będą 54. Napisać równanie płaszczyzny przechodzącej przez ortogonalne? punkty A(1, 2, 3) i B(3, −1, 4) i prostopadłej do płasz3 Iloczyn mieszany wektorów jest wektorem. czyzny x − 3y + 2z + 4 = 0. 55. Obliczyć kąt nachylenia płaszczyzn: (a) x−y−2z = 4 4 Dla każdych a, b ∈ R3 jest (a + b) × (a − i 2x + y − z = 5; (b) 2x − 10y + 11z − 1 = 0 i 4x + b) = 2(b × a). 4y − 7z + 2 = 0. 5 Dla każdych a, b ∈ R3 jest ||a · (a × b)|| 56. Napisać równanie prostej przechodzącej przez punkt 2 = ||a|| ||b|| sin ](a, b). A(0, 1, 6), równoległej do płaszczyzny 2x−y+3z+4 = y+2 x−1 z 6 Dla a, b ∈ R3 jest ||a×b||2 +|a·b|2 = ||a||2 ||b||2 . 0 i przecinającej prostą 2 = 3 = 4 . 57. Wyznaczyć płaszczyznę przechodzącą przez punkt 7 Dla każdego a ∈ R3 jest ||a × a|| = ||a||2 . (2, −1, −3) i przez prostą przecięcia płaszczyzn 3x + 8 Jeśli kąt między wektorami a i b z przestrzeni 2y − 4z = 7 i 6x − 3y + 2z = 4. R3 jest równy π/4, to ||a × b|| = |a · b|. 58. Napisać równanie parametryczne prostej będącej rzu= y+2 = z4 na płasztem ortogonalnym prostej x−1 2 3 9 Dla każdych a, b, c ∈ R3 jest a × (b × c) = czyznę 2x − y + 3z + 4 = 0. (a × b) × c.
BIBLIOGRAFIA [1] Banaszak G., Gajda W.: Elementy algebry liniowej, cz. I i II. Warszawa: Wydawnictwa Naukowo-Techniczne 2002. [2] Białynicki-Birula A.: Algebra liniowa z geometrią. Warszawa: Państwowe Wydawnictwo Naukowe 1979. [3] Fichtenholz G. M.: Rachunek różniczkowy i całkowy, tom 2. Warszawa: Państwowe Wydawnictwo Naukowe 1966. [4] Friedberg S. H., Insel A. J., Spence L. E.: Linear Algebra. New Jersey: Prentice Hall 1999. [5] Gleichgewicht B.: Algebra. Wrocław: Oficyna Wydawnicza GiS 2002. [6] Jurlewicz T., Skoczylas Z.: Algebra liniowa 1. Definicje, twierdzenia, wzory. Wrocław: Oficyna Wydawnicza GiS 2003. [7] Jurlewicz T., Skoczylas Z.: Algebra liniowa 2. Definicje, twierdzenia, wzory. Wrocław: Oficyna Wydawnicza GiS 2003. [8] Jurlewicz T., Skoczylas Z.: Algebra liniowa 1. Przykłady i zadania. Wrocław: Oficyna Wydawnicza GiS 2003. [9] Jurlewicz T., Skoczylas Z.: Algebra liniowa 2. Przykłady i zadania. Wrocław: Oficyna Wydawnicza GiS 2003. [10] Kaczorek T.: Wektory i macierze w automatyce i elektrotechnice. Warszawa: Wydawnictwa Naukowo-Techniczne 1998. [11] Klukowski J., Nabiałek I.: Algebra dla studentów. Warszawa: Wydawnictwa Naukowo-Techniczne 1999. [12] Kostrykin A.: Wstęp do algebry. Warszawa: Państwowe Wydawnictwo Naukowe 1984. [13] Mostowski A., Stark M.: Elementy algebry wyższej. Warszawa: Państwowe Wydawnictwo Naukowe 1965. [14] Rudin W.: Podstawy analizy matematycznej. Warszawa: Państwowe Wydawnictwo Naukowe 1969. [15] Sołtysiak A.: Algebra liniowa. Poznań: Wydawnictwo Naukowe UAM 1996.
Skorowidz algorytm Gaussa-Jordana, 90 Grama-Schmidta, 198 Hornera, 45 argument liczby zespolonej, 25–27 baza ortogonalna, 196, 199, 202 ortonormalna, 196, 197, 199, 201, 202, 211 standardowa, 196 baza przestrzeni wektorowej, 135–137, 139, 140, 150, 196, 202, 221, 223, 226, 237 Bessela nierówność, 215 bijekcja, 10 Cauchy’ego-Minkowskiego nierówność, 194 centrum grupy, 17 ciąg Fibonacciego, 244 ciąg rekurencyjny, 242 ciało, 16, 18 ciało ciało Zn , 17 liczb rzeczywistych, 17 liczb wymiernych, 17 liczb zespolonych, 19 skalarów, 120 cosinus kąta pomiędzy prostymi, 272 długość wektora, 193, 211 dodawanie modulo n, 12 dopasowanie prostej, 208–210 dopełnienie algebraiczne, 108 działanie łączne, 7 dwuargumentowe, 7 modulo n, 11 przemienne, 7 zewnętrzne, 120 dzielenie wielomianów z resztą, 42 dzielnik zera, 15, 18 element neutralny, 8 odwracalny, 8, 13 odwrotny, przeciwny, 8 endomorfizm, 159 epimorfizm, 169, 170 forma kwadratowa, 250–264
forma kwadratowa dodatnio (pół)określona, 259, 261, 262 nieokreślona, 259, 261, 262 postać kanoniczna, 252–259 postać macierzowa, 250 ujemnie (pół)określona, 259, 261, 262 funkcja odwracalna, 180 odwrotna, 180 wielomianowa, 42 wymierna, 54–63 generator grupy, 14 generator przestrzeni, 127, 129, 134 granica ciągu macierzy, 234, 235 grupa, 10–14, 18 grupa cykliczna, 14, 18 macierzy, 68 podgrupa, 13, 18 podgrupa cykliczna, 14 podgrupa trywialna, 13 przemienna, 10, 121 reszt modulo n, 12 symetryczna, 10 Hornera schemat, 44 iloczyn macierzy, 68–79 mieszany wektorów, 267 przekształcenia liniowego przez skalar, 171 skalarny wektorów, 191, 211 wektora przez skalar, 120 wektorowy wektorów, 265–267 wielomianów, 39 iloczyn macierzy przez skalar, 67 izomorfizm ciał, 38 izomorfizm przestrzeni wektorowych, 143, 144, 179 jądro przekształcenia liniowego, 165, 181 jednokładność, 179 jednostka urojona, 21 kąt nachylenia dwóch prostych, 272 pomiędzy płaszczyznami, 278 pomiędzy prostą i płaszczyzną, 277
Skorowidz pomiędzy wektorami, 195, 211 kolumna macierzy, 64 kombinacja Fouriera, 196–198, 201, 202 kombinacja liniowa wektorów, 125, 132–133, 136 krawędź przecięcia się płaszczyzn, 279 krotność wartości własnej algebraiczna, 225, 226 geometryczna, 225, 226 Lagrange’a metoda, 255 liczba zespolona, 19–38 liczba zespolona część rzeczywista, 19 część urojona, 19 postać kanoniczna, 22 postać trygonometryczna, 26 postać wykładnicza, 35 macierz, 64–79 macierz diagonalizowalna, 221–224 diagonalna, 66, 105, 222, 223, 232, 233 dołączona, 112 dodatnio (pół)określona, 259, 261, 262 elementarna, 83–86, 94, 111 formy kwadratowej, 251 główna układu, 80 Heisenberga, 79 idempotentna, 78, 206 inwolującą, 78 jednostkowa, 66, 105 kwadratowa, 65 Markowa, 79 nieokreślona, 259, 261, 262 nieosobliwa, 112, 113, 129, 134 nilpotentna, 78, 248 obrotu płaszczyzny, 174 odwracalna, 74, 84, 94, 113, 134, 151, 182, 210 odwrotna, 75, 95–97, 112, 113, 182, 242 okresowa, 78 operatora liniowego, 220 ortogonalna, 210–212, 229, 232 ortogonalnie diagonalizowalna, 229, 231 podobieństwa, 223, 232 przejścia, 145–149, 177, 178 przekształcenia liniowego, 173, 177, 182 rozszerzona układu, 80 rzutu ortogonalnego, 204–206 schodkowa, 86 schodkowa normalna, 86 skośnie symetryczna, 73 symetryczna, 73, 206, 228, 229, 231, 232
285 trójkątna, 78, 105 transponowana, 73, 106, 210 ujemnie (pół)określona, 259, 261, 262 wierszowo równoważna, 85, 86, 94, 149 złożenia przekształceń liniowych, 178 zerowa, 65 zredukowana formy kwadratowej, 257 metoda Gaussa i Gaussa-Jordana rozwiązywania układu równań liniowych, 90 Grama-Schmidta, 198, 199 Lagrange’a, 255 najmniejszych kwadratów, 208 zakrywania, 59 minor główny, 218, 262 mnożenie macierzy, 68 mnożenie modulo n, 12 moduł liczby zespolonej, 23 monomorfizm, 169–171 najlepsze rozwiązanie układu równań, 207, 208 nierówność Bessela, 215 Cauchy’ego-Minkowskiego, 194 Schwarza, 194, 215 trójkąta, 194 norma wektora, 193 normalny układ równań, 208 objętość czworościanu, 269 objętość równoległościanu, 268 obrót płaszczyzny, 174, 179 obraz podprzestrzeni, 165 obraz przekształcenia liniowego, 165 odcinek, 271 odległość pomiędzy prostymi, 281 pomiędzy wektorami, 193 punktu od płaszczyzny, 280 punktu od prostej, 274 odwracalność operatora liniowego, 181 przekształcenia liniowego, 181 odwzorowanie tożsamościowe, 10 okres macierzy, 78 operacje elementarne na równaniach układu, 81 na wierszach macierzy, 82, 150 operator liniowy odwracalny, 182 operator liniowy, 159, 220, 223 operator liniowy diagonalizowalny, 221, 222, 224, 226 odwracalny, 182
286
Skorowidz ortogonalizacja bazy, 198–199 ortogonalne dopełnienie (pod)przestrzeni, 200, 201 zbioru wektorów, 200 ortogonalność wektorów, 195 płaszczyzna, 269 płaszczyzna k-wymiarowa, 269 zespolona Gaussa, 22 Parsevala równość, 215 pierścień, 14 pierścień przemienny, 15 wielomianów, 41 z jedynką, 15 pierwiastek n-tego stopnia z jedności, 30 n-tego stopnia z liczby zespolonej, 29–33 wielokrotny wielomianu, 46 wielomianu, 46–52 podobieństwo macierzy, 77, 183, 184, 186, 223 podprzestrzeń cykliczna, 236, 237 generowana, 127 niezmiennicza, 236 przestrzeni wektorowej, 123, 152 właściwa, 123 zerowa, 123 podstawienie ortogonalne, 253 podzielność wielomianu, 42 pole równoległoboku, 266 pole trójkąta, 267 potęga elementu, 11 potęga macierzy, 76, 233, 240 prosta, 269 proste skośne, 272 prostopadłość prostych, 272 prostopadłość wektorów, 195 przeciwobraz podprzestrzeni, 165 przekształcenie liniowe, 159 liniowe odwrotne, 181 na, 169, 180 ortogonalne, 212 różnowartościowe, 169, 180 tożsamościowe, 162, 177 zerowe, 162 przestrzeń n-wymiarowa, 139 (nie)skończenie wymiarowa, 139 Euklidesa, 191 kolumnowa macierzy, 128, 200 macierzy, 179 przekształceń liniowych, 171, 179 skończenie generowana, 127 własna macierzy, 225, 228, 231 własna operatora, 225
wektorowa ciągów n-elementowych, 121 wektorowa funkcji, 121 wektorowa macierzy, 121 wektorowa wielomianów, 123 wierszowa macierzy, 200 zerowa macierzy, 124, 200 zerowa przekształcenia, 165 przestrzeń wektorowa, 120 różnica macierzy, 67 równanie charakterystyczne macierzy, 218 macierzowe, 92 płaszczyzny ogólne, 277 parametryczne, 275 wektorowe, 274 wyznacznikowe, 276 prostej kierunkowe, 270 parametryczne, 270 wektorowe, 270 równość macierzy, 66 równość Parsevala, 215 równość wielomianów, 39, 48 równoległość prostych, 272 równoważne układy równań, 81, 86 równoważność macierzy, 183, 186 rozdzielność działania, 9 rozkład spektralny macierzy, 232 rozwiązanie układu równań Cramera, 116 jedyne, 115 liniowych, 81, 89, 97–99, 128 najlepsze, 207 niezerowe, 115 zerowe, 133, 134 rząd formy kwadratowej, 251 kolumnowy macierzy, 149, 150 macierzy, 149–151 przekształcenia liniowego, 167 wierszowy macierzy, 149, 150 rząd elementu, 18 rzut ortogonalny, 201–204, 207 schemat Hornera, 44, 45 Schwarza nierówność, 194, 215 sinus kąta pomiędzy prostymi, 272 wektorami, 266 skracanie w grupie, 11 sprzężenie liczby zespolonej, 23 standardowy iloczyn skalarny, 192 stopień wielomianu, 39 suma macierzy, 66 podprzestrzeni, 152 prosta podprzestrzeni, 153, 154, 201
Skorowidz przekształceń liniowych, 171 wektorów, 120 wielomianów, 39 symetria względem prostej, 179 ślad macierzy, 76 twierdzenie B´ezout, 46 Cauchy’ego, 111 Cayleya-Hamiltona, 239, 241 Kroneckera-Capellego, 151 Laplace’a, 104 o dzieleniu wielomianów, 42 o najlepszej aproksymacji, 207 o reszcie, 44 Pitagorasa, 196 spektralne, 231 Steinitza, 139 Sylvestera, 167, 262 wymiarowe, 167 ułamek prosty, 55 układ równań liniowych, 80 układ równań liniowych (nie)sprzeczny, 81 Cramera, 116 postać macierzowa, 81 postać wektorowa, 81 układ wektorów, 131 układ wektorów ortogonalnych, 196, 197 ortonormalnych, 196, 198 wartość własna macierzy, 216, 217, 220, 223, 228, 231 operatora, 216, 220, 222, 223, 226 wektor błędu, 206 kierunkowy prostej, 270 normalny płaszczyzny, 275 własny macierzy, 216, 217, 220, 223, 228 operatora, 216, 220, 222, 223 współrzędnych, 142 wektory liniowo (nie)zależne, 131–135, 144, 197 ortogonalne, 228 ortogonalne (prostopadłe), 195 widmo macierzy, 219 wielkość błędu aproksymacji, 206 wielomian, 39–63 wielomian charakterystyczny macierzy, 217, 242 operatora, 218, 224, 226, 236, 237 definicja, 39 nierozkładalny, 42
287 wielomiany względnie pierwsze, 53 wiersz macierzy, 64 wiodąca jedynka macierzy, 86 kolumna macierzy, 88, 150 współczynniki Fouriera, 196 współrzędne wektora, 142 wymiar przestrzeni wektorowej, 139, 141 wyznacznik definicja, 102 dopełnienie algebraiczne, 108 Grama, 203 iloczynu macierzy, 111 macierzy ortogonalnej, 210 macierzy podobnych, 114 rozwinięcie Laplace’a, 103, 104 schemat Sarrusa, 103 twierdzenie Cauchy’ego, 111 Vandermonde’a, 117 własności, 103–114 wzór de Moivre’a, 27 wzory Cramera, 116 Eulera, 34 Vi`ete’a, 63 złożenie przekształceń liniowych, 172 zależność rekurencyjna, 242 zasadnicze twierdzenie algebry, 48 zasadnicze twierdzenie algebry liniowej, 167 zbiór wektorów, 120 zbiór zamknięty ze względu na dodawanie, 122 ze względu na mnożenie przez skalary, 122 zerowość przekształcenia liniowego, 167
Bibliografia [1] Banaszak G., Gajda W.: Elementy algebry liniowej, cz. I i II. Warszawa: Wydawnictwa Naukowo-Techniczne 2002. [2] Białynicki-Birula A.: Algebra liniowa z geometrią. Warszawa: Państwowe Wydawnictwo Naukowe 1979. [3] Fichtenholz G. M.: Rachunek różniczkowy i całkowy, tom 2. Warszawa: Państwowe Wydawnictwo Naukowe 1966. [4] Friedberg S. H., Insel A. J., Spence L. E.: Linear Algebra. New Jersey: Prentice Hall 1999. [5] Gleichgewicht B.: Algebra. Wrocław: Oficyna Wydawnicza GiS 2002. [6] Jurlewicz T., Skoczylas Z.: Algebra liniowa 1. Definicje, twierdzenia, wzory. Wrocław: Oficyna Wydawnicza GiS 2003. [7] Jurlewicz T., Skoczylas Z.: Algebra liniowa 2. Definicje, twierdzenia, wzory. Wrocław: Oficyna Wydawnicza GiS 2003. [8] Jurlewicz T., Skoczylas Z.: Algebra liniowa 1. Przykłady i zadania. Wrocław: Oficyna Wydawnicza GiS 2003. [9] Jurlewicz T., Skoczylas Z.: Algebra liniowa 2. Przykłady i zadania. Wrocław: Oficyna Wydawnicza GiS 2003. [10] Kaczorek T.: Wektory i macierze w automatyce i elektrotechnice. Warszawa: Wydawnictwa Naukowo-Techniczne 1998. [11] Klukowski J., Nabiałek I.: Algebra dla studentów. Warszawa: Wydawnictwa Naukowo-Techniczne 1999. [12] Kostrykin A.: Wstęp do algebry. Warszawa: Państwowe Wydawnictwo Naukowe 1984. [13] Mostowski A., Stark M.: Elementy algebry wyższej. Warszawa: Państwowe Wydawnictwo Naukowe 1965. [14] Rudin W.: Podstawy analizy matematycznej. Warszawa: Państwowe Wydawnictwo Naukowe 1969. [15] Sołtysiak A.: Algebra liniowa. Poznań: Wydawnictwo Naukowe UAM 1996.