Sunday, November 29, 2009

Kiến trúc Unix/Linux 4

2.Biểu diễn bên trong của tệp

Mỗi một tệp trong UNIX có một chỉ số duy nhất (inode) gán cho tệp lúc tệp được tạo. Inode chứa các thông tin cần thiết để một TT truy nhập tệp, ví dụ như người sở hữu tệp, quyền truy nhập, kích thước của tệp, vị trí data của tệp trong FS. Các TT truy nhập tệp bằng các GHT và xác định một tệp bằng xâu kí tự gọi là đường dẫn tên tệp. Mỗi đường dẫn lại xác định duy nhất một tệp, và kernel sẽ biến đổi đường dẫn đó thành inode của tệp.
Chương này đề cập tới cách tổ chức của tệp nói riêng và của FS nói chung như: inode, tệp và ghi/ đọc tệp, tệp thư mục, tệp và tổ chức đĩa: inode đĩa và block đĩa cho tệp; đồng thời cũng đưa ra các thuật toán cơ sở thao tác tệp. Các thuật toán này nằm ở lớp trên của buffer cache.

2.1 Inode (Index-node), định nghĩa và cấu trúc

Inode tồn tại ở trên đĩa (disk inode) còn gọi là inode dạng tĩnh và kernel đọc inode đó vào bộ nhớ (gọi là in - core inode) để xử lí. In - core inode là một mảng trong Inode table. Một inode khi đọc vào bộ nhớ là tập hợp của hai phần gồm phần tĩnh trên đĩa và phần động inficore inode. Disk inode gồm có các trường sau đây:
  • Nhận dạng người sở hữu tệp. Quan hệ sở hữu chia ra làm sở hữu cá thể và sở hữu nhóm định nghĩa một tập hợp các users có quyền truy nhập tệp. Superuser được quyền chi phối mọi tệp trong FS.
  • Kiểu tệp (file type): tệp thường (regular), thư mục (directory), kí tự (character), kiểu khối đặc biệt (block special), hay FIFO (pipes). (Khi trường = 0, inode tương ứng chưa dùng (free)).
  • Phép truy nhập tệp (Permission). Hệ thống bảo vệ tệp theo ba lớp: 1. người sở hữu (ownerfiu) và 2. nhóm người sở hữu (groupfig) và 3. những người khác (otherfio). Mỗi lớp lại được lập các quyền khác nhau một cách riêng biệt như: đọc (rfiread), ghi (wfiwrite), thực hiện (xfiexecute) (chạy một tệp thực thi). Riêng thư mục thực hiện là tương đương với tìm tệp trên thư mục.
  • Thời điểm truy nhập tệp (access time), cho biết thời điểm tệp đã có sự thay đổi vào lần truy nhập cuối cùng và khi inode đã có thay đổi.
  • Số các liên kết (link) tới tệp. Tệp có thể có nhiều tên trong cấu trúc thư mục, đó là các link của tệp.
  • Bảng địa chỉ các block data đĩa cấp phát cho tệp. Mặc dù user xử lí tệp như một xâu các kí tự, thì kernel cất data của tệp trên các block đĩa không liên tục, nội dung các block đĩa khi đọc và sắp xếp lại chính là nội dung của tệp.
  • Độ dài của tệp. Data trong tệp được địa chỉ hoá bằng tổng số bytes, bắt đầu từ đầu tệp và khởi động bởi offset=0 (con trỏ tệp, ứng với byte đầu tiên) và độ dài của tệp là một số lớn hơn offset lớn nhất 1 đơn vị (offset max + 1).
Ví dụ: owner john
group os
type regular file
permission rwx r-x r-x
accessed Oct 23 1999 1:45 P.M
modified Oct 22 1999 10:30 A.M
inode changed at Oct 23 1999 1:30 P.M
size 6030 bytes
disk addresses (danh sách địa chỉ các khối đĩafidisk blocks)
Tất cả các thông tin trên là nội dung của inode, cho biết chi tiết về bản thân một tệp mà nhờ đó user truy nhập tới nội dung cỉa tệp. Khi nói tới ghi đĩa, cần phân biệt ghi nội dung của tệp lên đĩa và ghi nội dung của inode lên đĩa. Nội dung của inode thay đổi khi thay đổi nội dung của tệp hay khi thay đổi các thuộc tính như owner, permission, links. Thay đổi nội dung của tệp tự động dẫn đến thay đổi inode, nhưng thay đổi inode không dẫn tới thay đổi nội dung của tệp.
Incore - inode là bản sao nội dung inode trên đĩa (disk inode) vào bộ nhớ và để tại Inode table trong bộ nhớ sau đó sẽ có thêm các trường sau đây:
  • Trường trạng thái của inode in - core cho biết:
    • inode đã khoá (locked);
    • có một TT đang đợi inode trong khi inode bị khóa, chờ inode được giải khóa (unlocked);
    • bản in - core của inode có sự khác biệt với bản sao từ trên đĩa bởi có sự thay đổi thông tin tổ chức (data) trong inode;
    • bản in - core của inode có sự khác biệt với bản sao từ trên đĩa bởi có sự thay đổi nội dung (data) trong tệp;
    • tệp là một điểm ghép (mount point) của cấu trúc FS; Số thiết bị logic của FS chứa tệp.
  • Số của thiết bị logic mà tệp được lưu trên thiết bị đó;
  • Số của inode. Các inode đuợc cất trong một mảng tuyến tính trên đĩa, kernel nhận biết số của inode đĩa bằng vị trí của nó trong mảng. (Inode đĩa không cần có trường này).
  • Các con trỏ trỏ tới các in - core inode khác. Kernel liên kết các inode trên một hàng băm (hash queue) và trong một danh sách các inode chưa sử dụng (free list). Một hàng băm thì được nhận biết bởi số của thiết bị logic của inode và số của inode. Kernel có thể chứa nhiều nhất một bản sao in - core inode của một inode đĩa, trong khi đó các inode có thể đồng thời có mặt trong hash queue và trong free list.
  • Một số đếm qui chiếu (reference count) cho biết tệp mở bao nhiêu lần (actived), ví dụ khi các TT dùng hàm open() để mở cùng một tệp, mỗi lần mở số đếm này tăng lên 1 đơn vị. Một in – core inode có trong free list chỉ khi nào trường số đếm này có giá trị bằng 0 và inode đó là inactive và kernel sẽ cấp inode đó cho một disk inode khác (khi có TT open một tệp nào đó).
Một inode bị khoá (locked) là để không cho các TT khác truy nhập tới inode đó. Các TT khác sẽ đặt một flag trong inode khi muốn truy nhập inode để thông báo rằng các TT đó sẽ được đánh thức khi inode được mở trở lại (unlock). Trong khi đó, kernel đặt các flag khác để chỉ ra sự khác nhau giữa disk inode và in - core inode. Khi kernel cần cập nhật mới disk inode từ inficore inode, kernel sẽ kiểm tra các cờ (flag) trạng thái này.
Free list của các inode được sử dụng giống như là một cache của các inactive inode: Khi TT truy nhập một tệp mà inode của tệp chưa có trong nhóm in - core inode, kernel sẽ cấp cho nó một in - core inode từ free list để sử dụng.

2.2. Truy nhập các inodes

Kernel nhận biết các inode qua FS và số của inode sau đó cấp cho inode đó một incore inode và việc đó được thực hiện bởi thuật toán iget(). Thuật toán này về tư duy cũng giống như getblk() tìm một block đĩa trong buffer cache. Kernel sẽ ánh xạ số của thiết bị và số của inode vào hàng băm, và tìm một hàng có inode cần tìm. Nếu không thấy inode đó (chưa có), kernel cấp một in - core inode trong free list và khoá inode đó lại. Sau đó kernel chuẩn bị để đọc bản sao của disk inode vào in - core inode vừa cấp phát: kernel biết số của inode và số của thiết bị logic, kernel tính toán block logic đĩa có chứa disk inode, tính ra số của block đó, đọc vào buffer hệ thống, lấy inode và sao vào inficore inode trong inode table.
Phép tính dựa vào công thức sau đây:
Code:
block number   =   ((inode number –1) / numbrer of inode per block) + start block of inode list.
Trong phép chia này, chỉ lấy phần nguyên của thương số.
Ví dụ: block số 2 là block đầu tiên của các block dành cho inode list (xem lại hình 2.3
chương 2); mỗi block có tất cả 8 inode; Hãy tìm block chứa inode số 8, inode số 9:
Bl = ((8-1) / 8) + 2 = 2; block đĩa số 2 chứa inode số 8.
Bl = ((9-1) / 8) + 2 = 3; block đĩa số 3 chứa inode số 9.
Khi biết được số của thiết bị (đĩa cứng số:.../phân hoạch số:...) và số của block đó trên đĩa cứng, kernel dùng chức năng bread() để đọc block và tìm tới offset của inode trong block bằng thuật toán:
Code:
offset của inode = ((inode number-1) modulo (number of inodes per block)) * size of disk
inode
(modulo là lấy số dư của phép chia của hai số).
Giả sử cấu trúc một disk inode có: 8 inodes, mỗi inode có độ dài 64 bytes. Tìm inode số 8
(byte offset bắt đầu của inode số 8):
((8-1) modulo (8)) * (64) = 448, inode số 8 bắt đầu ở byte số 448 của block đĩa inode.
Quá trình tiếp theo là:
  • kernel cấp in-core inode (lấy ra từ free list), đặt in - core inode vào hàng băm;
  • đặt (khởi động) số đếm qui chiếu = 1 (có một TT mở tệp này);
  • copy toàn bộ các thông tin từ inode disk nói trên vào in-core inode;
  • khóa (lock) in - core inode lại.
  • trả lại cấu trúc (con trỏ) inode cho TT gọi.
Kernel dùng chức năng iget() tìm một inode trong FS, với các đầu vào:
input: số của inode trong FS ( inode number)
output: là inode đặt trong Inode Table đã khóa lại chống tranh chấp
Ở đây iget(), bread() là các chức năng (hàm) cơ sở của nhân HĐH.

2.3. Giải phóng một inode

Khi một inode được giải phóng khỏi sự sử dụng của một TT (TT close tệp nó truy
nhập), kernel giảm số đếm đi 1. Nếu số đếm trở thành 0 (không còn TT nào truy nhập tệp), kernel cập nhật (ghi) inode lên đĩa nếu bản in - core có sự khác biệt với disk inode (xem lại các tiêu chí về sự khác biệt trong phần trước). Kernel đặt inode vào free list của các inode, ẩn inode trong cache để có dùng ngay khi tái sử dụng. Kernel đồng thời giải phóng tất cả block đĩa đã dùng kết hợp cho tệp và nếu số link = 0, giải phóng luôn inode. Quá trình đó được mô tả bằng thuật toán iput().
Kernel dùng chức năng iput() /*giải phóng truy nhập cho một in - core inode*/
Input: con trỏ trỏ vào in - core inode trong bảng Inode Table;
Output: Không có mã trả lại

3. Cấu trúc của tệp thông thường (regular file hay ordinary file)

Như đã nói, inode chứa bảng địa chỉ các block data để định vị data trên đĩa. Mỗi block đĩa được đánh dấu bằng một số, do vậy bảng bao gồm tập hợp các số của các block đĩa.
Nếu data của tệp được ghi trên một vùng liên tục của đĩa (trình tự tuyến tính các block đĩa), thì lưu địa chỉ của block khởi đầu và độ dài của tệp trong inode là đủ để truy nhập tệp. Tuy nhiên chiến lược cấp phát như vậy sẽ không cho phép mở rộng và thu nhỏ các tệp trên một hệ thống tệp khi không thực hiện biện pháp phân đoạn các vùng nhớ trống trên đĩa. Hơn nữa kernel đã có thể phải cấp phát và dành riêng những vùng đĩa liên tục trước khi cho phép các thao tác tăng độ dài của tệp.



Ví dụ: User tạo 3 tệp A, B, C mỗi tệp dùng 10 block đĩa và được cấp các block liên tục (xem hình dưới). Nếu user cần mở rộng tệp B thêm 5 block vào giữa tệp, thì kernel phải sao chép lại vào vùng đĩa khác với 15 block liên tục. Bên cạnh việc thực hiện một thao tác đắt giá như vậy thì 10 block trước đó chỉ có thể cấp cho các tệp mới nhỏ hơn 10 block. Kernel có thể tối thiểu hoá sự phân đoạn như vậy bằng chạy định kì các thủ tục “gắn” các không gian đĩa lại nhưng điều đó bòn rút nhiều sức mạnh xử lí của hệ thống.
Để linh hoạt hơn, kernel phân phối một block mỗi lần cho tệp và cho phép data của tệp phân tán qua FS, tuy nhiên sơ đồ cấp phát như vậy sẽ là phức tạp nhiệm vụ định vị data.
Bảng nội dung có thể bao gồm danh sách số các block chứa data thuộc tệp, thế nhưng bằng cách tính đơn giản chỉ ra rằng danh sách tuyến tính các block trong inode khó quản lí. Nếu một block logic là 1 K bytes, thì tệp dài 10 K cần một chỉ số của 10 block, vậy nếu là 100 Kb thì số chỉ số sẽ là 100 số để đánh dấu block. ở đây ta thấy kích thước của inode do vậy sẽ thay đổi theo độ dài của tệp, hoặc sẽ có một giới hạn thấp sẽ áp đặt lên độ dài của tệp.
Để giữ cho cấu trúc inode nhỏ mà vẫn cho phép tệp lớn, bảng các block đĩa thích hợp
với cách trình bày trên hình dưới đây. Hệ UNIX System V làm việc với 13 đầu vào của bảng
các block trong một inode, nhưng nguyên tắc là độc lập với tổng số các block:
  • Các đầu vào đánh dấu là “direct” cho số của block đĩa chứa data của tệp.
  • Đầu vào đánh dấu “single indirect” chỉ tới một block mà nội dung của nó là danh sách số các block trực tiếp chứa data của tệp. Để lấy data qua các block gián tiếp kernel phải đọc block gián tiếp, lấy ra số của block trực tiếp, sau đó đọc block trực tiếp đó.
  • Khối đánh dấu “double indirect” cho danh sách số của các block gián tiếp đôi: block gián tiếp à block gián tiếp
  • Khối “triple indirect” cho danh sách số của các block gián tiếp ba: block gián tiếp à
    block gián tiếp à block gián tiếp.
Về nguyên lí có thể mở rộng tới gián tiếp bốn, gián tiếp năm v.v...thế nhưng thực tế cấu trúc như trên là đủ. Giả định rằng một block logic là 1 K bytes và để thể hiện số nguyên của block cần 32 bit. Vậy 1 block có thể chứa được 256 số của các block. Nếu chỉ dùng cấu hình: 10 đầu vào trực tiếp, 1 đầu vào gián tiếp đơn, 1 đầu vào gián tiếp đôi và 1 đầu vào gián tiếp ba trong một inode, thì có thể tạo một tệp dài hơn 16 Gbyte:
10 đầu vào cho 10 block trực tiếp cho 10 Kbyte
1 đầu vào cho 1 block gián tiếp cho 256 x 1 K = 256 K
1 đầu vào cho 1 block gián tiếp đôi cho 256 x 256 x 1K = 64 M byte
1 đầu vào cho 1 block gián tiếp ba cho 256x256x256x1K= 16 Gbyte
Nếu trường chứa độ dài tệp trong inode là 32 bit, thì kích thước hiệu dụng của tệp sẽ giới hạn tới 4 Gbyte (232).
Các TT truy nhập data của tệp bởi byte offset (con trỏ tệp), làm việc trong khái niệm
số đếm byte và nhìn tệp như một chuỗi các byte bắt đầu ở byte có địa chỉ bằng 0 và tiến tới cuối tệp. Kernel biến đổi cách nhìn byte của user thành cách nhìn vào block đĩa: tệp bắt đầu ở block logic 0 và tiếp tục tới block tương ứng với độ dài của tệp. Kernel truy nhập inode, biến đổi block logic vào block đĩa thích hợp. Thuật toán bmap() thực hiện biến đổi file offset thành block đĩa vật lí.

Kernel dùng chức năng bmap( )(Xem ở mã nguồn Linux) thực hiện biến đổi file offset thành block đĩa vật lí.
input: (1) inode
(2) byte offset
output: (1) số của khối đĩa (block number in file system)
(2) con trỏ trỏ vào khối đĩa (byte offset into block)
(3) số byte cần thực hiện truy nhập trong jhôid đĩa
(4) đọc trước khối đĩa cho lần đọc sau
Ví dụ: biến đổi byte offset thành số của block đĩa.
Hãy xét cách bố trí các block cho tệp ở hình sau:
Giả định rằng một block đĩa có 1024 byte. Nếu một TT muốn tìm byte thứ 9000,
kernel tính thấy byte này nằm ở block trực tiếp tại đầu vào số 8 (đếm từ đầu và đánh số từ 0) trong bảng địa chỉ các block của tệp ở đó có địa chỉ của block số 367. Với 9 block cho 1024x9=9216 byte, từ đó tính ra byte thứ 808 trong block này là byte 9000 của tệp (8 block trước đó cho 8x1024=8192 byte, 9000-8192=808). Nếu TT tìm byte thứ 350.000 trong tệp, kernel tính ra rằng phải đọc block gián tiếp đôi mà địa chỉ của block là 9156. Bởi vì 1 block gián tiếp cho 256 địa chỉ các block, vậy byte đầu tiên qua block gián tiếp đôi là byte 272.384 (256K + 10K); byte 350.000 là byte thứ 77.616 của block gián tiếp đôi. Vì mỗi một block gián tiếp đơn cho 256 K bytes, byte 350.000 phải ở block gián tiếp đơn thứ 0 của block gián tiếp đôI, ví dụ đó là block số 331 (đầu vào thứ 0 của block 9156). Block 331 cho 256 block trực tiếp mỗi block 1K, vậy byte số 77.616 của block trực tiếp sẽ trong block trực tiếp thứ 75 (giả định số của block này là 3333) của block gián tiếp đơn. Cuối cùng khi đọc block 3333, kernel tìm thấy byte thứ 816 là byte 350.000 của tệp.
Xem xét hình một cách chi tiết hơn, có một vài đầu vào trong bảng địa chỉ các block là 0, có nghĩa rằng các đầu vào của các block logic này không chứa data. Điều này xảy ra khi không có TT nào ghi data vào tệp ở bất kì vị trí nào tương ứng với các block đó, do vậy số của các block không đổi và là các giá trị ban đầu (initial). TT có thể tạo ra các block như vậy trong bảng bằng cách dùng GHT lseek() và write().
Sự biến đổi byte offset lớn, đặc biệt khi phải qui chiếu qua gián tiếp ba (triple) là một qui
trình hết sức rắc rối đòi hỏi kernel phải truy nhập thêm ba block đĩa ngay cả khi các block đã có trong cache thì phép thực hiện vẫn rất đắt giá vì kernel sẽ phải yêu cầu buffer rất nhiều lần và sẽ phải đi ngủ do buffer bị khoá. Hiệu quả thực tiễn của thuật toán này phụ thuộc vào tần xuất truy nhập các tệp lớn hay nhỏ trên hệ thống. Hãy thử xét tới khả năng tăng độ lớn của 1 block đĩa (4 K, 8K hay 12 K/block), liệu có gì khả quan hơn cũng như hiệu suất sử dụng đĩa có tồi hơn ? Hiện tượng phân đoạn có tăng lên ?



4. Tệp thư mục

Thư mục là một tệp mà data của nó là trình tự các đầu vào mà mỗi đầu vào bao gồm
một số của inode và tên của tệp chứa trong thư mục. Một đường dẫn là một xâu kí tự kết thúc trống (NULL), được phân chia ra thành các thành phần ngăn bởi kí tự “/”. Mỗi thành phần, trừ thành phần cuối cùng, phải là tên của một thư mục, và thành phần cuối cùng không phải là tệp thư mục. UNIX System V hạn chế tên của một thành phần chỉ tới 14 đến 256 kí tự và 2 bytes cho số của inode. Vậy ví dụ tên tệp là 14 kí tự, thì một đầu vào thư mục có 16 bytes, một tệp thư mục sẽ như sau:



Mỗi một thư mục chứa các tên tệp “.” (dot) và “..” (dot-dot) với số của inode là inode của thư mục đó và thư mục bố (trên một mức). Inode số “.” tại offset 0 và trị số của nó là 83. Tương tự của inode “..” có offset là vị trí thứ 16 và trị số là 2. Đầu vào của thư mục có thể “rỗng” và được biểu thị bởi số inode = 0. Ví dụ đầu vào 224 “rỗng” dù đã một lần chứa tệp có tên “crash”. Chương trình tạo hệ thống tệp khới động FS sao cho “.” và “..” của thư mục root có số inode của FS.
Kernel cất data của thư mục cũng giống như cho các tệp thường, sử dụng cấu trúc inode và các cách cấp trực tiếp, gián tiếp của các block. TT đọc tệp thư mục cùng cách thức như đọc tệp thường, nhưng kernel giành đặc quyền để ghi thư mục, do đó đảm bảo được sự chuẩn xác của thư mục. Quyền truy nhập thư mục có ý nghĩa như sau:
  • quyền đọc (read) thư mục cho phép TT đọc thư mục;
  • quyền ghi (write) thư mục cho phép TT tạo các đầu vào mới hay xoá đầu vào cũ (creat, mknod, link, unlink); bằng cách đó thay đổi nội dung thư mục.
  • Quyền thực hiện (excute) cho phép TT thực hiện tìm kiếm tên tệp trong thư mục.
5. Biến đổi tư đường dẫn thành inode

Truy nhập tệp khởi đầu bằng đường dẫn. Vì bên trong kernel làm việc với inode, chứ không bằng tên tệp qua đường dẫn, nên kernel phải chuyển đổi từ đường dẫn thành inode để truy nhập tới tệp. Thuật toán namei() làm phân tích mỗi thành phần trong đường dẫn một lần, biến đổi mỗi thành phần đó thành inode trên cơ sở tên của nó và thư mục đang tìm kiếm, cuối cùng trả lại inode.
Nhắc lại trong chương trước là mỗi một TT được kết hợp với một thư mục hiện tại (mà TT thường trú ở đó). Miền bộ nhớ ufiarea chứa một con trỏ trỏ tới inode là thư mục hiện hành. Thư mục hiện hành của TT đầu tiên trong hệ thống, TT số 0, là thư mục root. Thư mục hiện hành của mỗi TT khác bắt đầu từ thư mục bố hiện hành vào lúc TT được tạo ra. TT thay đổi thư mục bằng thực hiện GHT chdir (đổi thư mục). Việc tìm đường dẫn xuất phát từ thư mục hiện hành của TT trừ phi có dấu “/”, cho biết việc tìm thư mục phải bắt đầu từ root. Trong các trường hợp khác kernel dễ dàng tìm ra inode mà ở đó việc tìm đường dẫn bắt đầu: thư mục hiện hành có trong ufiarea của TT, và inode của root có trong biến tổng thể.
namei() /*convert path name to inode*/
input: đường dẫn (path name)
ouput: inode đã tìm được (locked inode)
Kernel thực hiện tìm tuyến tính một tệp thư mục, kết hợp với working inode (thư mục tạm thời), thử sự tương xứng của thành phần tên đường dẫn với một đầu vào của tệp thư mục (xem lại cấu trúc của tệp thư mục). Bắt đầu với byte offset = 0 trong thư mục, chuyển đổi offset này thành block đĩa tương ứng (bmap()) và đọc block đó (bread()). Kernel xử lí nội dung của block này như tuần tự các đầu vào của thư mục, tìm từng thành phần trong đường dẫn bằng cách so sánh các đầu vào, nếu tìm được, kernel lấy ra số của inode ứng với tên đường dẫn đó, giải phóng block (brelse()) và working inode cũ (iput()), cấp phát một inode của thành phần vừa tìm được (iget()), và inode mới này trở thành working inode. Nếu không có kết quả ở block này, kernel giải phóng block, điều chỉnh lại offset bằng số byte trong block (lấy byte offset tiếp theo), biến đổi offset mới thành số của block đĩa (bmap()), và đọc block đó. Kernel lặp lại chu trình này cho tới khi tìm ra inode tương ứng với thành phần (tệp) yêu cầu trong đường dẫn cho tới hết các đầu vào của thư mục.
Ví dụ: Tìm tệp passwd trong thư mục /etc: “/etc/passwd”.
Khi bắt đầu phân tích tên tệp, kernel gặp “/” và nhận đi lấy inode của root, inode này trở
thành working inode. Kernel đi thu thập xâu “etc”: sau khi kiểm tra đúng inode này là của thư mục “/” và TT có đủ quyền hạn truy nhập, kernel tìm tệp có tên ”etc”: Kernel truy nhập data trong thư mục gốc (root) hết block này tới block khác, tìm từng đầu vào của từng block cho tới khi định vị được một đầu vào “etc”. Khi tìm được đầu vào này, kernel giải phóng inode root (iput()), lấy inode ứng với “etc” (iget()), sau khi biết đích xác “etc” là tệp thư mục, kernel tìm trong các block của “etc” để đến tệp “passwd”, lấy từ đó inode ứng với “passwd”.



6. Cấp một inode cho một tệp mới tạo

Kernel dùng iget() để định vị inode đã biết (với số của inode đã được xác định trước
đó trong thuật toán namei()). Một thuật toán khác ialloc() gán một inode cho một tệp mới tạo. Hệ thống tệp có một danh sách tuyến tính các inode. Một inode là free nếu trường chứa kiểu tệp (type) là 0. Khi một TT cần inode mới, kernel có thể tìm trong danh sách inode một inode free, tuy nhiên cách làm này có thể rất đắt đòi hỏi ít nhất một thao tác đọc đĩa cho mỗi inode. Để cải thiện, super block chứa một mảng ẩn số lượng các inode free trong FS. Hãy theo dõi cho thuật toán ialloc(), tìm và cấp một inode mới:
ialloc() /*allocate inode*/
input: FS
output: inode mới (locked inode)
Thuật toán giải phóng inode đơn giản hơn.
ifree() /*inode free*/
input: FS inode number
output: none

7. Cấp phát các block đĩa

Khi một TT ghi data lên đĩa, kernel sẽ cấp các block cho nó theo cơ chế direct và indirect như đã nói. Super block có một mảng gồm nhiều block đĩa dùng để ẩn các số của các block đĩa chưa dùng (free disk block) của FS. Tiện ích mkfs() tổ chức các khối dữ liệu (data block) của FS vào một danh sách liên kết, mà mỗi một liên kết của danh sách là một block đĩa, block này chứa một mảng số hiệu của các free disk block và một đầu vào của mảng cho số của block tiếp theo của danh sách liên kết. Hình sau là ví dụ về danh sách liên kết: block đầu tiên là danh sách block chưa dùng của super block (super block free list), với các đầu vào là số của các block sẽ dùng cho cấp phát, và 1 đầu vào có số của block liên kết tiếp theo (block 109, 211, 310, 409…).
Khi kernel muốn cấp phát một block, xem thuật toán alloc(), kernel sẽ lấy block trong danh sách các free block sẵn có của super block list, và một khi đã dùng block không thể tái cấp cho tới khi nó trở lại là free. Nếu block đã cấp là block cuối cùng có trong mảng cache, kernel sẽ xử lí block đó như là con trỏ (109) trỏ vào block (109) chứa danh sách các free block khác. Kernel đọc block đó, nhập vào mảng Super block với danh sách mới số của các block chưa cấp, sau đó tiếp tục sử dụng số của block gốc, cấp buffer cho block, xoá data của block (điền zero vào). Block đĩa lúc này đã cấp phát cho tệp, kernel cũng đã có buffer để làm việc. Chương trình sẽ thông báo lỗi nếu FS không còn có free block.
alloc() /*FS block allocation*/
input: FS (number)
outout: buffer for new block
Nếu TT ghi một khối lượng data lớn, TT sẽ lặp lại yêu cầu xin cấp block, trong khi kernel chỉ thực hiện cấp mỗi lần một block. Chương trình mkfs() sẽ tổ chức danh sách liên kết của các block sao cho gần với nhau, để giảm đi thời gian tìm kiếm trên đĩa khi TT đọc tệp tuần tự.
Hình dưới mô tả số hiệu của các block với số cách quãng (interlive code = 3) đều đặn dựa
trên cơ sở tốc độ quay của đĩa. Điều lưu ý là thứ tự sắp xếp nói trên sẽ không còn khi tần xuất sử dụng block đĩa cao (cấp phát/ giải phóng) và quá trình cập nhật lại danh sách có tính ngẫu nhiên và kernel không thực hiện sắp xếp lại thứ tự gốc.
Thuật toán giải phóng block free(), ngược lại với cấp phát block. Nếu super block list không đầy, số của block vừa được giải phóng sẽ đặt vào danh sách đó. Nhưng nếu không còn chỗ (đã đầy) thì block vừa được giải phóng sẽ thành block liên kết; kernel ghi super block list vào block đĩa đó và ghi nội dung của block này lên đĩa, sau đó đặt số của block mới giải phóng vào super block list. Số của block này chỉ là thành viên của danh sách.
Thuật toán gán/giải phóng inode tệp và block đĩa là tương tự ở chỗ kernel dùng super
block như là một cache của các chỉ số cho nguồn tài nguyên chưa dùng (free), số của các
block, số của các inode. Kernel duy trì danh sách liên kết của số hiệu các block sao cho mỗi số chưa dùng hiện diện trong một thành phần của danh sách. Điều này không có đối với free inode. Sở dĩ có sự khác nhau do các nguyên nhân dưới đây:
  1. Kernel có thể biết inode là free bằng cách tham khảo trường Type, nếu = 0 thì inode free, nhưng đối với block đĩa thì không có cơ chế gì để nhận biết tương tự. Do vậy kernel cần có phương pháp khác để biết block là free, và đó là linked listfidanh sách liên kết.
  2. Các block đĩa bản thân đã là dùng danh sách liên kết: một block đĩa có thể chứa một danh sách lớn số hiệu của các block chưa cấp phát. Với cấu trúc dữ liệu lớn cho mỗi inode, không thể thực hiện như cho block đĩa.
  3. Việc khai thác block đĩa (đọc/ ghi nội dung tệp) là thường xuyên hơn khai thác inode (tạo, mở, ghi tệp), điều đó có nghĩa truy nhập block đĩa gay cấn hơn tìm inode.

Kiến trúc Unix/Linux 3

5. Nhân hệ điều hành (kernel)
Phần này sẽ giới thiệu tổng quát về nhân (kernel) của Unix theo cách nhìn kiến trúc với các khái niệm cơ bản, hỗ trợ cho các phần sau.
5.1. Kiến trúc của hệ điều hành unix
Trên Unix, hệ thống tệp (File SystemfiFS) có chỗ để cư trú và Tiến trình (TT-Proccess) có cuộc đời của nó. Tệp (File) và TT chính là hai khái niệm trung tâm trong mô hình của HĐH Unix. Hình sau đây là sơ đồ khối của Unix, cho thấy các modul và mối quan hệ giữa các modul đó. Phía trái là hệ thống tệp (FS) và bên phải là hệ thống kiểm soát TT (procces control subsystem), đây là hai thành phần cơ bản của Unix. Sơ đồ cho một cách nhìn logic về kernel, cho dù trong thực tế có thể có những khác biệt về chi tiết.



Mô hình chỉ ra ba mức: người dùng (user level), nhân (kernel level) và phần cứng (hardware level). GHT và Thư viện (Lib) tạo ra ghép nối giữa chương trình của người dùng (user programs), còn gọi là chương trình ứng dụng, và kernel. GHT tương tự các hàm gọi trong C, và Lib ánh xạ các hàm gọi tới các hàm cơ sở (primitive) cần thiết để đi vào kernel.
Các chương trình hợp ngữ (assembly language) có thể kích hoạt GHT trực tiếp không cần dùng thư viện Lib. Các chuơng trình thường xuyên dùng các chức năng chuẩn, ví dụ I/O của Lib, để tạo ra cách dùng tinh xảo khi GHT, và các hàm của Lib sẽ được liên kết vào chương trình vào thời điểm dịch và là bộ phận của chương trình ứng dụng. GHT chia ra thành các tập hợp tương tác với file subsystem và với process control subsystem.
File subsystem trong hình thực hiện các chức năng quản lí tệp: cấp phát vùng nhớ cho tệp, quản lí vùng trống (trong bộ nhớ, trên đĩa), kiểm soát truy nhập tệp, tìm dữ liệu cho users. TT tương tác với File subsystem qua một tập xác định các GHT, chẳng hạn open để mở tệp, close, read, write thao tác các kí tự của tệp, stat để tìm các thuộc tính tệp, chown thay đổi chủ sở hữu tệp, chmod thay đổi phép truy nhập.
File subsystem truy nhập dữ liệu bằng cơ chế đệm (buferring), điều chỉnh thông lượng dữ liệu giữa kernel và các t/b nhớ thứ cấp, tương tác với phần điều khiển (drivers) I/O để khởi động quá trình trao đổi dữ liệu. Các drivers này chính là các module của kernel, kiểm soát các t/b ngoại vi của hệ thống. Các t/b ngoại vi gồm loại truy nhập ngẫu nhiên như t/b khối (đĩa), hay liên tục (raw hay character device) như băng từ (loại này không qua cơ chế đệm).
Procces control subsystem thực hiện chức năng điều khiển đồng bộ các TT, liên lạc giữa các TT, lập biểu đưa một TT vào thực hiện và quản lí bộ nhớ. Procces control subsystem và File subsystem tác động lẫn nhau khi nạp một tệp thực thi (executable) vào bộ nhớ để thực hiện.
Một số trong GHT để kiểm soát TT bao gồm: fork (tạo TT mới), exec (phủ mã của chương trình kích hoạt lên vùng bộ nhớ của TT gọi exec đang chạy), exit (kết thúc tức thì việc thực hiện một TT), wait (đồng bộ thực hiện TT này với exit hay với TT trước đó đã tạo ra TT nó), brk (điều chỉnh kích thước bộ nhớ đã cấp cho TT), signal (kiểm soát đáp ứng của TT trước sự kiện khác thường).
Memory management module kiểm soát cấp phát bộ nhớ, điều chỉnh bộ nhớ qua swapping hay paging sao cho các ứng dụng có đủ bộ nhớ để thực hiện. Scheduler tuyển chọn một TT đưa vào thực hiện: cho các TT thuê CPU để thực hiện cho tới khi TT tự động trả lại CPU để đợi một tài nguyên hoặc kernel sẽ dừng thực hiện khi lượng thời gian cấp phát cho TT đã hết. Sau đó scheduler sẽ chọn TT có mức ưu tiên thích hợp nhất để cho chạy. TT trước đó sẽ chạy lại khi nó trở thành ưu tiên thích hợp nhất.
Việc liên lạc giữa các TT có thể thực hiện qua vài phương thức từ đồng bộ tín hiệu của các sự kiện hay truyền thông điệp đồng bộ giữa các TT.
Cuối cùng khối hardware control thực hiện thao tác, xử lí các ngắt (do đĩa, t/b đầu cuối...), và liên lạc với máy tính. Xử lí ngắt không thực hiện bởi một TT đặc biệt mà bởi các chức năng đặc biệt trong kernel được gọi tới (phát động) trong bối cảnh của TT hiện đang chạy.

Chương II. Hệ thống tệp (file system)
A. Tổng quan về hệ thống tệp ảo (VFS)
VFS được thiết kế để biểu diễn cách trình bày dữ liệu trên một thiết bị cứng (đĩa cứng chẳng hạn). Hầu hết các thiết bị cứng đều thông qua phần mềm điều khiển cùng kiểu (generic device driver) để liên kết vào máy tính. VFS, xa hơn, cho phép người quản trị “ghép” (mount) bất kì một hệ thống tệp logic trên bất kì thiết bị nào vào hệ thống. VFS trừu tượng hoá các chi tiết của cả hai thiết bị vật lí và hệ thống tệp logic, và cho phép TT người dùng truy nhập tệp dùng các giao tiếp thông thường mà không cần biết hệ thống tệp logic hay vật lí tồn tại ở đâu.



Các modules
  1. Cho mỗi thiết bị, có một trình điều khiển. Do nhiều thiết bị không tương thích nhau, nên có một số lượng lớn trình điều khiển cho mỗi loại.
  2. Modul ghép nối độc lập với thiết bị (Device Independent Interface) cung cấp mô tả thích hợp của tất cả các thiết bị.
  3. Đối với mỗi hệ thống tệp, có một hệ thống tệp logic tương ứng.
  4. Giao diện độc lập với hệ thống (system independent interface) cho mô tả phần cứng và mô tả sự độc lập của hệ thống tệp logic với các tài nguyên phần cứng.
  5. Giao diện gọi hệ thống (system call interface) cung cấp truy nhập có kiểm soát cho TT người dùng vào hệ thống tệp. VFS chỉ trao cho TT người dùng những chức năng nhất định.
Biểu diễn dữ liệu


Tất cả các tệp được biểu diễn bới các i-node. Mỗi cấu trúc i-node cho thông tin vị trí của các khối của tệp ở thiết bị vật lí nào. Nó chứa các con trỏ của các trình thủ tục trong module hệ thống tệp logic và các trình điều khiển các thao tác đọc/ghi. Bằng cách lưu các con trỏ các hàm chức năng theo cách này, các hệ thống tệp logic và các trình điều khiển tự ghi nhận với nhân HĐH làm cho nhân HĐH không bị phụ thuộc vào bất kì module cụ thể nào.

Tính độc lập, dòng dữ liệu và hướng điều khiển

Trình điều khiển của một thiết bị đặc trưng là một mô phỏng của thiết bị trong bộ nhớ (ramdisk): thiết bị thuê một không gian của bộ nhớ để đặc tả về thiết bị, xử lí đặc tả dó như thể xử lí chính thiết bị. Như vậy nó sử dụng quả lí bộ nhớ để hoàn tất các thao tác, như vậy sẽ có sự phụ thuộc, có luồng điều khiển, dòng dữ liệu giữa trình điều khiển thiết bị của hệ thống tệp và quản lí bộ nhớ.
Một trong các hệ thống tệp logic là hệ thống tệp mạng chỉ với vai trò là khách thể (client của một máy khác). Hệ tệp này truy nhập các tệp trên một máy khác như thể đó là một phần của một máy logic. Để làm được điều này, một trong các module hệ thống tệp sử dụng hệ thống con mạng. Như vậy sẽ có sự phụ thuộc, dòng dữ liệu và luồng điều khiển giữa hai hệ thống con.
Như đã nói, quản lí bộ nhớ sử dụng VFS để thực thi hoán đổi bộ nhớ-thiết bị, đồng thời sử dụng lập biểu TT để treo TT trong khi đợi thao tác vào/ra hoàn thành và cho chạy lại khi vào/ra đã kết thúc. Giao diện gọi hệ thống cho phép TT người dùng gọi vào VFS để cát hay tìm dữ liệu. Chổ khác biệt ở đây là không có cơ chế nào để người dùng đăng kí yêu cầu không tường minh, do vậy sẽ không có luồng diều khiển từ VFS tới TT người dùng.


Các kiểu tệp và Hệ thống tệp
  1. tệp chính tắc (regular) (-): là tệp phổ biến cho lưu thông tin trong hệ thống.
  2. tệp thư mục (directory) (d): là tệp danh mục của các tệp;
  3. tệp đặc biệt (special file) (c,f): là một cơ chế sử dụng cho cá thao tác vào / ra (I/O), fifo. Các tệp loại này nằm ở thư mục /dev.
  4. liên kết (link) (l): là một hệ thống tạo ra một thư mỵc hay tệp nhìn thấy được trong nhiều phần của cây hệ thống tệp.
  5. socket (s): là loại tệp đặc biệt cho các truyền thông mạng của một tiến trình bên trong hệ thống, và được bảo vệ bởi qui tắc truy nhập tệp.
  6. ống (pipe) (p): là cơ chế để các tiến trình liên lạc với nhau.
Linux files
  • tên_tệp.bz2: file compressed with bzip2
  • tên_tệp.gz: file compressed with gzip
  • tên_tệp.tar: file archived with tar (short for tape archive), also known as a tar file
  • tên_tệp.tbz: tarred and bzipped file
  • tên_tệp.tgz: tarred and gzipped file tên_tệp
  • tên_tệ.pzip: file compressed with ZIP compression
File Formats
  • tên_tệp.au: audio file
  • tên_tệp.gif: GIF image file
  • tên_tệp.html: HTML file
  • tên_tệp.jpg: JPEG image file
  • tên_tệp.pdf: an electronic image of a document; PDF stands for Portable Document Format
  • tên_tệp.png: PNG image file (short for Portable Network Graphic)
  • tên_tệp.ps: PostScript file; formatted for printing
  • tên_tệp.txt: ASCII text file
  • tên_tệp.wav: audio file
  • tên_tệp.xpm: image file
System Files
  • . .conf a configuration file. Configuration files sometimes use the .cfg extension, as well.
  • . . lock a lock file; determines whether a program or device is in use
  • . .rpm a Red Hat Package Manager file used to install software
Programming and Scripting Files
  • . .c a C program language source code file
  • . .cpp a C++ program language source code file
  • . .h a C or C++ program language header file
  • . .o a program object file
  • . .pl a Perl script
  • . .py a Python script
  • . .so a library file
  • . .sh a shell script
  • . .tcl a TCL script
Các cơ sơ dữ liệu hệ thống cho tệp

Trong hệ thống tệp, tệp được biểu diễn bằng một inode. Inode cho biết mô tả của một tệp trên đĩa cùng các thông tin khác như sở hữu tệp, quyền truy nhập, thời gian truy nhập tệp. Khái niệm inode có ý nghĩa là chỉ số của một nút (index node, trong FS là một lá của cấu trúc cây) và dùng thông dụng trong tài liệu về Unix. Mỗi tệp có một inode duy nhất, nhưng mỗi inode lại có thể có nhiều tên (tệp) khác nhau. Các tên tệp này đều qui chiếu tới inode đó và mỗi tên như vậy gọi là một liên kết (link). Khi một TT truy nhập một tệp bằng tên, kernel sẽ phân tích tên trong đường dẫn, tìm tới thư mục chứa tệp, kiểm tra phép truy nhập, tìm inode và trao inode cho TT. Khi TT tạo tệp mới, kernel gán cho tệp một inode chưa sử dụng. Các inode lưu trong FS trên đĩa, nhưng khi thao tác tệp, kernel đọc từ đĩa và đưa vào một bảng gọi là in - core inode table (gọi tắt là Inode table) trong bộ nhớ hệ thống.
Kernel còn có hai cấu trúc dữ liệu khác là bảng các tệp (File table) và bảng các mô tả tệp của người dùng (User file descriptor per procces table gọi tắt là File descriptor table). File table là cấu trúc tổng thể của kernel, còn File descriptor table cấp cho TT khi TT mở một tệp. Khi TT open hay creat tệp, kernel cấp một đầu vào trong mỗi bảng tương ứng với tệp đó. Các thông tin có trong các đầu vào ở ba bảng sẽ duy trì trạng thái của tệp cũng như khả năng user truy nhập tới tệp:
  • File table theo dõi quyền truy nhập, /đọc/ghi byte tiếp theo trong tệp qua con trỏ tệp byte offset, số đếm qui chiếu cho biết tổng số các TT truy nhập tệp, con trỏ trỏ vào inode table;
  • File descriptor table cho biết tất cả các tệp một TT đã mở. Hình sau cho thấy mối quan hệ giữa các bảng nói trên: kernel trả lại mô tả tệp-file descriptor, chỉ số trỏ tới một đầu vào của File descriptor table, của mỗi tệp khi TT GHT open và creat. Khi thực hiện GHT read hay write, kernel dùng file descriptor để vào File descriptor table, lấy con trỏ tìm tới File table, rồi từ đó theo con trỏ trong File table truy nhập vào Inode table. Từ inode sẽ có các thông tin cần thiết để truy nhập dữ liệu của tệp.
  • Inode table là bảng của kernel, chứa các inode được đọc từ đĩa. Mỗi inode khi được đọc vào bộ nhớ sẽ được cấp một đầu vào trong bảng, mỗi đầu vào đó cho một mảng dữ liệu đặc tả về một inode đĩa (xem định nghĩa về inode).
Với ba cấu trúc dữ liệu hệ thống trên kernel có đủ các mức độ khác nhau để thực hiện quản lí và các thao tác chia sẻ tệp. Tệp trong Unix được để trên thiết bị khối (đĩa, băng từ). Máy tính có thể có nhiều đĩa, mỗi đĩa có thể có một hay vài phân hoạch, mỗi phân hoạch tạo thành một hệ thống tệp (File systemfiFS). Phân hoạch một đĩa thành nhiều phần tạo điều kiện dể dàng cho việc kiểm soát dữ liệu, vì kernel xử lí ở mức logic với các FS chứ không phải với bản thân thiết bị. Mỗi một phân hoạch là một thiết bị logic và nhận biết nó bằng số của t/b.



Ví dụ: SCO Unix: hd0a: hd chỉ hard disk, 0 chỉ đĩa IDE primary, a chỉ phân hoạch thứ nhất.
Linux: hda1: hd chỉ hard disk, a chỉ đĩa IDE primary, 1 chỉ phân hoạch thứ nhất. (Trên PC, BIOS cho phép tạo tối da 4 phân hoạch chính (primary partions), các phân hoạch khác sẽ là phần mở rộng bên trong một phân hoạch chính đó). Do vậy ta có: hda6 sẽ là phân hoạch mở rộng của một phân hoạch chính nào đó một khi đã sử dụng hết 4 phân hoạch chính. Muốn biết cụ thể chỉ có thể ghi nhận lại trong quá trình cài đặt khi tạo các phân hoạch đĩa.
Qui ước chung: xxyN ,

trong đó: xx kiểu thiết bị (major number), y số hiệu của t/b (miror number), N số của phân hoạch trên t/b, ví dụ trên máy tính các nhân (PC):
  • hd = loại IDE: hda=IDE Primary 1, hda1, hda2 phân hoạch 1 và 2 của Primary IDE; hdb=IDE Secondary 1, hdb1, hdb2, hdb3; hdc=IDE Primary 2; hdd=IDE Secondary 2
  • sb = loại SCSI, sba1, sba2, …
Việc biến đổi giữa địa chỉ của thiết bị logic (magic number của FS) và địa chỉ của thiết bị vật lí (ổ đĩa) được thực hiện bởi bộ điều khiển đĩa (disk driver). Sách dùng khái niệm thiết bị là để chỉ tới thiết bị logic, trừ khi có diễn đạt cụ thể khác.
FS chứa một chuỗi các khối logic có độ lớn 512 bytes hay bội số của 512 tuỳ hệ và là đồng nhất bên trong mỗi hệ, nhưng có thể khác nhau khi áp dụng trên mỗi hệ cụ thể. Độ lớn này có ảnh hưởng nhất định về thời gian truy nhập cũng như hiệu quả sử dụng dung lượng đĩa. Sách đề cập tới “khối” có nghĩa một khối logic đĩa (logical block) với kích thước là 1 K bytes. FS có sắp xếp hình thức như sau: Ví dụ đĩa có 3 phân họach, mỗi phân hoạch là 1 FS:



Linux ext2 FS:
  • Boot block, phần đầu tiên của FS đĩa, là sector đầu tiên chứa mã bootstrap được đọc vào máy và chạy để nạp HĐH.
  • Superblock, mô tả tình trạng của FS: độ lớn, chứa được bao nhiêu tệp (inode), không gian còn trống (block) của đĩa để chứa nội dung tệp tìm thấy ở đâu, cũng như các thông tin khác.

    Super block có các trường sau đây:
    • kích thước của FS,
    • tổng số các block còn chưa cấp phát cho tệp (free block) trong FS.
    • danh sách các free block sẵn có trên FS (xem thêm phần cấp phát block đĩa),
    • chỉ số của free block tiếp theo trong danh sách free block.
    • kích thước của danh sách inode,
    • tổng số các inode chưa cấp phát (free inode) trong FS,
    • danh sách free inode trong FS,
    • chỉ số của free inode tiếp theo trong danh sách free inode,
    • các trường khoá (lock) cho free block và các danh sách free inode,
    • cờ (flag) cho biết super block đã có thay đổi.
Phần tiếp theo sẽ nói đến cách sử dụng các trường, các chỉ số và khóa. Kernel sẽ thường xuyên cập nhật super block một khi có sự thay đổi sao cho nó luôn nhất quán với data trong hệ thống.
  • Inode List, danh cách các inode trong FS. Người quản trị xác định kích thước khi làm cấu hình (cài đặt) hệ thống. Kernel qui chiếu các inode bằng chỉ số (index) trong inode list. Có một inode gọi là root inode trong mỗi FS: là inode khởi đầu để vào được FS sau khi thực hiện GHT phép ghép (mount) FS đó vào cây thư mục gốc.
  • Data blocks, vùng chứa nội dung (dữ liệu) của tệp và dữ liệu quản trị hệ thống (là các block của tệp thư mục, các block nội dung của một inode). Một khối khi đã cấp cho mỗi tệp thì khối đó chỉ thuộc tệp đó mà thôi.

Kiến trúc Unix/Linux 2

II. Unix/Linux
Chương I. Tổng quan hệ thống Unix
1. Cấu trúc hệ thống Unix
Unix có thể xem như một loại kim tự tháp với các lớp chức năng xếp chồng lên nhau và tạo ra các giao diện. Phần cứng (hardware) sẽ đề cập sau. Hệ Điều Hành (HĐH, hay Operating System-OS) tương tác trực tiếp với phần cứng, cung cấp các dịch vụ cơ bản cho các chương trình và ngăn cách các chương trình với phần cứng cụ thể. Nếu nhìn hệ thống như từ các lớp, thì OS thông thường được gọi là nhân hệ thống (System Kernel), nó được cách li với chương trình của người dùng. Bởi vì các chương trình ứng dụng nói chung, kể cả OS, độc lập với phần cứng, nên dễ dàng chạy trên các phần cứng khác nhau vì không phụ thuộc vào phần cứng cụ thể. Chẳng hạn Shell và các editors (vi, ed) ở lớp ngoài tương tác với kernel bằng cách phát sinh ra Gọi Hệ Thống (GHT) – system calls. GHT sẽ chỉ thị cho kernel làm những việc khác nhau mà chương trình gọi yêu cầu, thực hiện trao đổi dữ liệu (data) giữa kernel và chương trình đó. Một vài chương trình có tên trong hình là các chương trình chuẩn trong cấu hình của hệ thống và được biết tên dưới dạng các lệnh – commands. Lớp này cũng có thể bao hàm cả các chương trình của người dùng với tên là a.out, một loại tên chuẩn cho các tệp chạy được do bộ dịch C tạo ra. Còn có loại ứng dụng khác (APPS) được xây dựng trên lớp trên cùng của các chương trình có mức thấp hơn hiện diện ở lớp ngoài cùng của mô hình. Mặc dù mô hình mô tả hai cấp các APPS, nhưng người dùng có thể mở rộng ra các cấp thích hợp. Rất nhiều các hệ thống ứng dụng, các chương trình, cho cách nhìn ở mức cao, song tất cả đều dùng các dịch vụ cấp thấp được cung cấp bởi kernel qua GHT. Trong System V chuẩn có 64 GHT, trong đó có 32 GHT là thường dùng nhất (LINUX 2.x có nhiều hơn và khoản chừng 164 lệnh GHT).



Tập hợp các System calls và các thuật toán bên trong tạo thành thân (body) của kernel, do vậy việc nghiên cứu Unix trong sách này sẽ giản lược để nghiên cứu chi tiết các system calls cũng như sự tương tác giữa chúng. Và khái niệm “Unix system”, hay “kernel” hay “system” trong sách đều có ý nói tới kernel của hệ điều hành Unix và rõ ràng hơn ở từng bối cảnh trình bày.
2. Cách nhìn từ phía người dùng: tổ chức tệp
Phần này tóm lượt các nét đặc trưng ở mức cao của Unix chẳng hạn: hệ thống tệp (File system FS), môi trường xử lí, xây dựng các khối nguyên hàm, và sẽ được khai thác sau này.
2.1. Hệ thống tệp (File system - FS)

Hệ thống tệp của Unix được đặc tả bởi:
  • Cấu trúc cấp bậc (cây thư mục)
  • Cách xử lí nhất quán dữ liệu của tệp (chuổi các byte byte stream )
  • Khả năng tạo và hủy tệp (tạo mới, xóa)
  • Tính tăng trưởng động của tệp (thêm bớt, cắt dán)
  • Khả năng bảo vệ dữ liệu của tệp (bởi các kiểu thuộc tính như quyền truy nhập)
  • Xử lí các thiết bị ngoại vi như xử lí các tệp (cách nhìn thiết bị bởi mô tả kiểu tệp).



FS được tổ chức như một cây bắt đầu từ một nút đơn gọi là root, được biểu diễn như sau: “ /”; từ đó sẽ có các thư mục khác tạo thành nhánh của cây, trong các nhánh có thể có các nhánh (con) khác. Dưới các nhánh sẽ là tệp. Tệp có thể là tệp bình thường (regural files) hay cũng có thể là tệp đặc biệt (special files). Tệp được truy nhập qua đường dẫn (path name) mô tả cách thức định vị được tệp trong FS. Đường dẫn đầy đủ, hay đường dẫn tuyệt đối, bắt đầu bởi dấu / và nó xác định sẽ tìm tệp bằng cách đi từ root qua cấu trúc cây thư mục theo các nhánh chỉ thị trong đường dẫn. Ví dụ trong hình ta có: /usr/src/cmd/date.c là đường dẫn tuyệt đối tới tệp date.c. Đường dẫn không bắt đầu từ root gọi là đường dẫn tương đối, chỉ tới thư mục hiện tại của tệp.
Các chương trình trong Unix không có hiểu biết gì về định dạng (format) bên trong của dữ liệu của tệp. Kernel lưu dữ liệu của tệp, xử lí dữ liệu tệp như một dòng các bytes (byte stream) không có định dạng. Do vậy cú pháp truy nhập dữ liệu trong tệp được định nghĩa bởi hệ thống và nhất quán như nhau cho tất cả các chương trình, nhưng ngữ nghĩa của dữ liệu thì chương trình ứng dụng phải xử lí.
Ví dụ: Chương trình troff xử lí văn bản có định dạng hoài vọng sẽ tìm thấy các kí tự “dòng mới” (“ new line ”) ở cuối mỗi dòng văn bản, còn chương trình kế toán acctcom hoài vọng tìm thấy những bản ghi có độ dài cố định. Cả hai chương trình dùng cùng các dịch vụ hệ
thống để truy nhập dữ liệu trong tệp theo cách byte stream, nhưng bên trong mỗi chương trình lại dùng cách phân tích cú pháp khác nhau thích hợp cho nó. Nếu một chương trình phát hiện thấy định dạng là không đúng, thì bản thân chương trình sẽ thực hiện một hành vi khác để xử lí (chứ không phải hệ thống làm điều đó).
Thư mục cũng là một loại tệp, hệ thống xử lí dữ liệu trong thư mục cũng bằng byte stream, nhưng dữ liệu ở đây chứa tên các tệp trong thư mục có khuôn dạng dự đoán được, sao cho OS và các chương trình, ví dụ ls, có thể nhận ra các tệp trong thư mục.
Việc truy nhập tệp được kiểm soát bởi quyền truy nhập (access permission) kết hợp với tệp. Quyền truy nhập được lập ra một cách độc lập để kiểm soát truy nhập đọc (read), ghi (write), và thực hiện (execute) cho ba lớp người sử dụng: người sở hữu tệp (u - user), nhóm người được truy nhập (g - group), những người khác (o - other). Người dùng có thể tạo tệp nếu họ được phép và các tệp mới tạo sẽ là các nhánh lá của cấu trúc thư mục hệ thống.
Đối với người dùng, Unix xử lí các thiết bị như thể đó là các tệp. Các thiết bị được mô tả bởi các tệp thiết bị đặc biệt và nằm ở một nhánh trong cấu trúc hệ thống thư mục (/dev). Các chương trình truy nhập các thiết bị bằng cú pháp giống như đã dùng để truy nhập tệp bình thường, các thiết bị cũng được bảo vệ cùng phương thức như các tệp, qua việc ấn định quyền truy nhập. Bởi vì tên các thiết bị cũng giống như tên các tệp bình thường và các thao tác trên chúng là như nhau, nên hầu hết các chương trình đều không biết tới kiểu tệp bên trong của tệp mà chúng thao tác.

2.2. Môi trường xử lý
Một chương trình - program là một tệp thực thi và một tiến trình (TT – procces) là một khoảnh khắc (instance) của chương trình được thực hiện theo trục thời gian. TT bao gồm:
  • mã trình thực thi
  • dữ liệu (data) của TT
  • program (user) stack
  • CPU program counter
  • kernel stack
  • CPU registers
và các thông tin khác cần thiết để chạy trình. Các dữ liệu này tạo ra bối cảnh (context) của TT, mỗi TT có bối cảnh riêng biệt. Có rất nhiều TT được thực hiện đồng thời trên Unix (đặc tính này còn gọi là đa trình - multiprogramming hay đa nhiệm - multitasking) theonguyên lí phân chia thời gian (time sharing), mà tổng số các TT về logic là không có giới hạn. Có nhiều GHT cho phép các TT tạo ra các TT mới, kết thúc các TT, đồng bộ các giai đoạn thực hiện TT, kiểm soát phản ứng với các sự kiện khác nhau. Các TT sử dụng GHT độc lập với nhau. Ví dụ chạy đa trình với 4 chương trình A, B, C, D trên một CPU:



Hãy xét ví dụ sau:
Code:
main (argc, argv)
int argc;
char *argv[];
{
if (fork () == 0)
execl (“copy”, ”copy”, argv[1], argv[2], 0);
wait((int *) 0);
printf (“copy done\n”);
}
Chương trình trên dùng GHT fork() để tạo ra một TT mới. TT mới gọi là TT con sẽ nhận được giá trị trả lại là 0 từ lệnh fork và nó kích hoạt execl để chạy trình copy. Lệnh execl sẽ phủ lên không gian địa chỉ của TT con bằng mã của trình “copy”, với giả định trình “copy”
nằm cùng trong thư mục hiện hành của main, và chạy trình copy với các thông số do người dùng đưa vào. Nếu execl hoàn tất nó sẽ không trở về địa chỉ xuất phát trong main vì nó chạy trong một miền địa chỉ mới khác. Trong khi đó TT bố đã kích hoạt fork() lại nhận được giá trị trả lại khác 0 từ GHT wait(), nó “treo” việc thực hiện để đợi cho đến khi “copy” kết thúc và in ra thông báo “copy done “ và sau đó kết thúc thực hiện main bằng exit (exit() là ngầm định khi kết thúc main trong C).
Một cách tổng quát, GHT cho phép người dùng viết các chương trình thực hiện các thao tác rất tinh tế mà bản thân kernel không cần có nhiều chức năng hơn là cần thiết. Có thể đề cập tới một số các chức năng, chẳng hạn các bộ dịch (compilers), bộ soạn thảo (editors) thuộc lớp các chương trình cấp người dùng (user level) và quan trọng hàng đầu là shell, là trình thông dịch mà người dùng sử dụng ngay sau khi log in vào hệ thống: shell thông dịch các từ trong dòng lệnh thành tên lệnh máy, phát sinh TT con và TT con thực hiện lệnh đưa vào, xử lí các từ còn lại trong dòng lệnh như các thông số của lệnh.
Shell thực hiện ba kiểu lệnh:
  1. Lệnh là tệp có thể thực hiện được chứa mã máy phát sinh do bộ dịch tạo ra từ mã
    nguồn (chương trình C chẳng hạn)
  2. Lệnh là tệp chứa một xâu các dòng lệnh của shell
  3. Là các lệnh bên trong của shell. Các lệnh bên trong này làm cho shell trở thành một ngôn ngữ lập trình rất mạnh trong Unix.
Shell là chương trình thuộc lớp người dùng, không phải là phần của kernel, cho nên có thể dể dàng biến cải cho mỗi môi trường đặc thù. Bản thân shell cũng có ba loại khác nhau thích hợp cho các nhu cầu sử dụng khác nhau và hệ thống có thể chạy các shell đó đồng thời.
Sức mạnh của mỗi kiểu shell thể hiện ở khả năng lập trình của mỗi kiểu.
Mỗi TT được thực hiện trong Unix có một môi trường (execution environment) thực hiện, bao gồm cả thư mục hiện hành. Thư mục hiện hành của TT là thư mục dùng để chỉ đường dẫn không bắt đầu bằng “ /”. Người dùng có thể thực hiện nhiều TT cùng một lúc, và các TT lại có thể tạo ra các TT khác một cách động, và đồng bộ việc thực hiện các TT đó. Đặc tính này tạo ra một môi trường thực hiện chương trình rất mạnh trong Unix.
2.3 Xây dựng các hàm chức năng cơ bản (primitives)
Như đã đề cập, tính triết lí của Unix là để cung cấp cho OS các nguyên hàm (primitives) mà người dùng sẽ sử dụng để viết các chương trình (chức năng) nhỏ, có tính modul, được dùng như các khối xây dựng để tạo ra các chương trình lớn và phức tạp. Một trong các primitive đó là khả năng tái định tuyến vào/ra (redirect I/O). Tiếp theo là pipe, một cơ chế linh hoạt cho phép truyền dữ liệu giữa các TT, hay lệnh ngay từ bàn phím. Ví dụ, khi dùng các chương trình nhỏ để tạo các chương trình lớn và phức tạp, người lập trình sử dụng các primitives redirect I/O và pipe để hợp nhất các phần đó lại.
3. Các dịch vụ của Unix/Linux
Trong hình mô tả các lớp của kernel, cho thấy lớp kernel nằm ngay bên dưới lớp các trình ứng dụng của người dùng. Kernel thực hiện vô số các thao tác cơ bản (primitives) thay mặt cho các TT của nguời dùng để hỗ trợ cho giao diện người dùng. Các thao tác đó bao hàm các dịch vụ mà kernel cấp:
  • Kiểm soát việc thực hiện các TT gồm có: cho phép TT tạo TT mới, kết thúc TT, treo việc thực hiện và trao đổi thông điệp giữa các TT.
  • Lập biểu để các TT được thục hiện trên CPU. Các TT chia xẻ CPU theo phương thức phân chia thời gian, một TT sẽ bị treo sau khi thời gian phân bổ đã hết, kernel lấy TT khác đưa vào thực hiện. Sau này kernel sẽ lại lựa chọn TT bị treo để đưa vào thực hiện trở lại.
  • Cấp phát bộ nhớ cho TT đang thực hiện, cho phép TT chia sẻ không gian địa chỉ của TT dưới những điều kiện nhất định, bảo vệ miền địa chỉ riêng của TT đối với các TT khác. Nếu hệ thống chạy trong hoàn cảnh thiếu bộ nhớ, kernel sẽ giải phóng bộ nhớ bằng cách ghi lại các TT tạm thời vào bộ nhớ dự phòng (còn gọi là thiết bị swap). Nếu toàn bộ TT được ghi vào swap, thì hệ Unix gọi là hệ tráo đổi (swapping system). Nếu kernel ghi các trang của bộ nhớ lên swap, thì hệ đó gọi là hệ lưu trang (paging system).
  • Cấp phát bộ nhớ thứ cấp để cất và tìm lại dữ liệu của người dùng có hiệu quả. Dịch vụ này cấu tạo nên hệ thống tệp. Kernel cấp vùng nhớ thứ cấp cho tệp của người dùng, khôi phục lại vùng nhớ, xây dựng cấu trúc tệp theo một cách thức hiểu được, bảo vệ tệp của người dùng trước các truy nhập bất hợp pháp.
  • Cho phép các TT truy nhập các thiết bị ngoại vi, ví dụ t/b đầu cuối, đĩa, t/b mạng.
  • Kernel cung cấp các dịch vụ một cách thông suốt, chẳng hạn kernel ghi nhận tệp cần thao tác thuộc loại tệp bình thường hay tệp thiết bị, nhưng ẩn điều đó đối với TT của người dùng; hay ví dụ, kernel tạo khuôn dữ liệu trong tệp để ghi (đĩa), nhưng lại ẩn khuôn dạng đó đối với TT người dùng (user). Tương tự như vậy đối với các dịch vụ hệ thống cung cấp cho các TT user dùng ở mức độ cấp người dùng. Ví dụ dịch vụ hệ thống mà shell dùng để đóng vai trò là trình thông dịch lệnh: cho phép shell đọc đầu vào từ t/b đầu cuối, phát sinh động các TT, đồng bộ việc thực hiện các TT, tạo pipe, đổi hướng I/O. Người dùng cấu tạo các phiên bản shell riêng mà không tác động tới những users khác. Các trình đó cùng dùng các dịch vụ của kernel ở mức shell chuẩn.
4. Phần cứng
Tiến trình người dùng (TT user) trên Unix được chia ra làm hai mức độ: Chế độ người
dùng (user mode) và chế độ nhân (kernel mode). Khi TT thục hiện một GHT, chế độ thực hiện TT sẽ chuyển từ user mode sang kernel mode: OS thực hiện và cố gắng phục vụ các yêu cầu của user, trả lại kết quả và thông báo lỗi nếu có. OS lưu lại các hoạt động có liên quan tới TT user, thao tác các ngắt, lập biểu chạy TT, quản lí bộ nhớ... Có loại máy hỗ trợ nhiều mức hơn, tuy nhiên trong Unix hai mức này là đủ.
Sự khác biệt của hai mức này là:
  • Các ứng dụng chạy trong chế độ xử lí không có đặc quyền, user mode, liên lạc với hệ thống qua một tập các giao tiếp giới hạn (kể cả một số lệnh của CPU), cũng như bị hạn chế truy nhập dữ liệu hệ thống. TT ứng dụng có thể truy nhập các lệnh và dữ liệu của nó, không được truy nhập lệnh và dữ liệu của kernel cũng như của các TT khác. Khi TT trong user mode thực hiện một GHT, kernel “bẩy“ GHT đó, chuyển chế độ thực hiện vào kernel mode. Kernel kiểm soát TT, xác thực các đối (ví dụ quyền truy nhập, quyền thao tác dữ liệu) mà TT chuyển cho GHT và thực hiện GHT đó. Khi GHT kết thúc, Kernel chuyển TT ngược lại vào user mode trước khi trả điều khiển lại cho TT, cho phép TT tiếp tục chạy. Bằng cách đó kernel bảo vệ được chính nó cũng như các dữ liệu khỏi bị TT user làm tổn hại.
  • Thực hiện mã của HĐH chạy trong chế độ đặc quyền của CPU, gọi là kernel mode.
    Trong chế độ này HĐH chạy và thực hiện các GHT mà TT user đã gọi. TT trong
    kernel mode có thể truy nhập vào không gian địa chỉ của nó ở cả hai vùng kernel và user. Việc truy nhập tài nguyên hệ thống (các cấu trúc dữ liệu hê thống và phần cứng) không có giới hạn đối với kernel. Một số các lệnh máy là đặc quyền chỉ kernel mode mới dùng được.
  • OS duy trì các thông tin (records) bên trong để phân biệt các TT thực hiện trên hệ thống. Mặc dù hệ thống chạy một trong hai chế độ nói trên, song kernel chạy trên danh nghĩa của TT user. Kernel không phải là tập hợp của các TT riêng biệt chạy song song với các TT user, mà là một phần của mỗi TT user. Trong văn ngữ khi nói “kernel thực hiện...” thì điều đó có nghĩa là TT chạy trong chế độ kernel thực hiện... cái gì đó. Ví dụ, shell đọc đầu vào qua GHT và được mô tả như sau: Kernel thực hiện nhân danh TT shell, kiểm soát thao tác thiết bị đầu cuối, trả lại các kí tự nhận vào cho shell. Đến đây shell, chạy trong user mode, thông dịch xâu kí tự nhận được từ người dùng và thực hiện một số hành động mà có thể các hành động đó kích hoạt GHT khác dẫn tới TT shell lại trở vào kernel mode.
  • Trong môi trường đa người dùng như Unix, các thiết bị hoạt động trên cơ sở độc lập có ý nghĩa rất căn bản. Unix nhìn nhận các thiết bị như một tệp đặc biệt. Khi một t/b mới cần đưa vào hệ, người quản trị thực hiện thêm một liên kết cần thiết vào kernel. Liên kết này được biết như là phần mềm thiết bị (device driver) , đảm bảo rằng kernel và thiết bị được gắn lại theo cùng một phương thức mỗi khi t/b đuợc đưa vào phục vụ. Điểm mấu chốt để t/b là độc lập, liên quan tới khả năng tự thích nghi của kernel: Unix không có giới hạn số lượng của bất kì loạt t/b nào khi thích ứng vào hệ vì mỗi t/b được nhìn nhận độc lập qua liên kết riêng biệt với kernel.
4.1. Ngắt và Ngoại lệ
Unix cho phép các t/b như I/O, đồng hồ hệ thống ngắt CPU theo cách dị bộ. Khi chấp nhận ngắt, kernel sẽ bảo vệ bối cảnh (context) hiện tại của TT đang thực hiện, xác định lí do của ngắt, và phục vụ cho yêu cầu ngắt đó. Sau khi xử lí xong kernel khôi phục lại context của TT trước đó và tiếp tục thực hiện như không có gì đã xảy ra. Phần cứng thông thường có cơ chế để đặt các cấp độ ưu tiên và che các ngắt theo thứ tự mà ngắt được thao tác. Các trường hợp ngoại lệ là sự kiện không trông đợi gây ra bởi một TT, ví dụ truy nhập vào
vùng địa chỉ cấm, thực hiện lệnh đặc quyền, phép chia cho zero... Các ngoại lệ này khác với ngắt bởi chúng phát sinh do các sự kiện bên ngoài một TT. Ngoại lệ xảy ra ở giữa chừng đang thực hiện một lệnh, và hệ thống sẽ tái khởi động lại lệnh sau khi đã thao tác ngoại lệ. Ngắt được xem là xảy ra giữa hai lệnh và hệ thống chạy lệnh tiếp theo sau xử lí ngắt. Unix dùng cùng một cơ chế để thao tác ngắt cũng như thao tác các ngoại lệ.
4.2. Các mức độ thực hiện xử lí
Đôi khi kernel phải ngăn chặn sự xuất hiện của ngắt trong lúc thực hiện những hoạt động có tính chất đặc biệt mà ngắt có thể làm hỏng dữ liệu hay rối loạn các con trỏ. Các máy tính thường có một số lệnh đặc biệt để làm công việc này gọi là đặt các mức độ xử lí theo
mức, có thể che các ngắt mức thấp và cho phép ngắt mức cao.



4.3. Quản lí bộ nhớ
Kernel thường trú trong bộ nhớ chính và thực hiện TT hiện thời (hay ít ra là một phần của TT đó). Khi compiler dịch một chương trình, nó tạo ra tập các địa chỉ của chương trình đó cho các biến, cấu trúc dữ liệu, địa chỉ của lệnh... Compiler phát sinh ra địa chỉ cho một máy ảo, như thể không có chương trình nào khác sẽ được thực hiện đồng thời trên máy vật lí. Khi một chương trình chạy trong máy tính, kernel sẽ cấp cho trình một không gian địa chỉ trong bộ nhớ vật lí, nhưng không gian địa chỉ ảo này không nhất thiết phải đồng nhất với địa chỉ vật lí. Kernel phối hợp với phần cứng để ánh xạ từ địa chỉ ảo vào địa chỉ vật lí. Cách ánh xạ phụ thuộc vào đặc thù của phần cứng và các phần của Unix sẽ thích ứng theo. Ví dụ loại máy hỗ trợ theo trang (paging) hay theo hoán đổi (swapping), kernel có các hàm cơ sở tương tự cho mỗi loại cấu hình.

Kiến trúc Unix/Linux

I. Tổng quan về Hệ Điều Hành
An Operating System is a group of programs that provide basic functionality on a computer. This functionality is called services. Other word an Operating System can be seen as a set of functionality building blocks upon which other programs depend. It also manages computer resources and resolves resource conflicts, so OS abstracts the real hardware of the system and presents the system’s users and its applications with a virtual machine.

1. Phần mềm máy tính


Phần mềm máy tính được chia ra làm hai loại:
  • các phần mềm hệ thống, quản lí hoạt động của bản thân máy tính
  • các chương trình ứng dụng, giải quyết các yêu cầu của người dùng.
Phần cơ bản nhất của tất cả các phần mềm hệ thống, gọi là Hệ điều hành, mà chức năng cơ bản là kiểm soát tất cả nguồn tài nguyên, cung cấp nền tảng (các hàm chức năng, các dịch vụ hệ thống) để trên đó các chương trình ứng dụng được viết ra sẽ sử dụng. Mô hình một máy tính như sau:



Hình trên cho ta một phần gọi là kernel, hay nhân của HĐH, kernel hổ trợ HĐH thực hiện chức năng quản lí các thành phần sau đây:
  1. Thiết bị (devices), cho một giao tiếp để các chương trình người dùng “ nói chuyện” với thiết bị.
  2. Bộ nhớ (memory), cấp bộ nhớ cho các chương trình (tiến trình) đang chạy.
  3. Các Tiến trình (process), tạo, giám sát hoạt động của các tiến trình.
  4. Liên lạc (communication) giữa các TT.
Nguồn tài nguyên máy tính có nhiều, như (CPU(s), bộ nhớ, các thiết bị ngoại vi ghép nối vào máy tính…) tạo thành một hệ thống rất phức tạp. Viết các chương trình để theo dõi tất cả các thành phần, khai thác chúng chính xác và để chúng chạy độc lập một cách tối ưu, là việc rất khó. Và nếu điều này lại để cho từng người dùng quan tâm, thì sẽ có vô số các chương trình được viết và nếu hệ là loại nhiều người dùng thì, hãy thử tưởng tượng … Như vậy rỏ ràng cần tách người dùng ra khỏi sự phức tạp của phần cứng. Cách có thể đảm bảo là đặt phần mềm (hay lớp phần mềm) lên trên đỉnh của phần cứng và nó quản lí tất cả các phần của máy tính, trong khi trao cho người dùng một giao diện (interface) hay một máy tính ảo (virtual machine) dễ hiểu hơn và dễ lập trình ứng dụng hơn. Lớp phần mềm đó gọi là HĐH.

Từ đây xuất hiện một quan niệm mới, đó là sự phân biệt chế độ chạy máy, nó bao gồm:
  • kernel mode
  • user mode
HĐH chạy trong một môi trường đặc biệt, gọi là chế độ nhân (kernel mode hay supervisor mode). Chế độ này được hổ trợ bởi kiến trúc của CPU ( bởi các lệnh máy đặc biệt) và nó ngăn người dùng truy nhập vào phần cứng (quản lí phần cứng chuẩn xác cho nhiều người dùng đồng thời, còn gọi là chế độ được bảo vệ (protected mode)). Thuật ngữ kernel đề cập đến phần mã cốt yếu nhất của các chương trình hệ thống, nó kiểm soát các tệp, khởi động và cho chạy các chương trình ứng dụng đồng thời, phân chia thời gian sử dụng CPU cho các chương trình, cấp bộ nhớ cũng như các tài nguyên khác cho các chương trình của người dùng. Bản thân kernel không làm gì nhiều nhưng cung cấp các công cụ nguyên thuỷ (primitive functions) mà các tiện ích khác, các dịch vụ khác của HĐH được xây dựng. Do đó các chương trình hệ thống, các trình ứng dụng sử dụng các dịch vụ của HĐH, chạy trong user mode. Tuy nhiên có sự khác biệt là các trình ứng dụng thì tận dụng những tiện ích hệ thống cho, còn các trình hệ thống là cần thiết để máy tính chạy được. Các trình ứng dụng chạy trong chế độ người dùng (user mode), các primitive functions chạy trong kernel . Việc kết nối giữa hai chế độ chạy trình được thực hiện bởi gọi hệ thống (system call).

Gọi hệ thống (hay gọi các dịch vụ của hệ thống, GHT), là một giao diện lập trình giữa HĐH và ứng dụng. Nó được thực hiện bằng cách đặt các thông số vào những chổ được định nghĩa rỏ ràng (vào các thanh ghi của CPU hay đặt vào stack) và sau đó thực hiện một lệnh bẩy đặt biệt (trap intruction) của CPU. Lệnh này chuyển chế độ chạy máy từ user mode vào kernel mode và từ đó điều khiển chuyển cho HĐH (1). Tiếp theo HĐH kiểm tra số hiệu và các thông số của GHT để xác định GHT nào sẽ thực hiện (2). Từ trong bảng với chỉ số (số hiệu của GHT), HĐH lấy ra con trỏ trỏ đến qui trình (procedure) thực hiện GHT đó (3). Khi thực hiện xong GHT, điều khiển chuyển trả lại cho chương trình của người dùng.



Từ đây có thể thấy cấu trúc cơ bản của GHT như sau:
  1. Một chương trình chính kích hoạt dịch vụ hệ thống bằng một GHT.
  2. Bẩy (TRAP) chuyển GHT vào nhân HĐH, nhân xác định số hiệu của dịch vụ.
  3. Thực hiện dịch vụ.
  4. Kết thúc dịch vụ và trở về nơi phát sinh GHT.
Hình sau cho các bước theo trình tự từ lập trình đến thực thi GHT read():



Khi nhìn cách thực thi một chương trình, phần mã chương trình người dùng được kết hợp với mã của kernel (khi thực hiện các primitive functions qua GHT), tạo ra toàn bộ mã chương trình. Nói cách khác vào thời điểm chạy trình, phần mã của kernel thực hiện bởi GHT là mã của chương trình người dùng, chỉ khác ở chế độ thực hiện.

2. Trên cơ sở định nghĩa kernel mode và user mode, kiến trúc của các HĐH có thể khác nhau:
a. Loại đơn thể (monolitic OS):



HĐH kiểu đơn thể (monolitic OS)
Các trình ứng dụng chạy ở user mode khi thực hiện gọi một dịch vụ của Hệ thống, HĐH sẽ chuyển việc thực hiện dịch vụ vào kernel mode. Khi dịch vụ hoàn tất HĐH chuyển việc thực hiện chương trình đã phát sinh gọi dịch vụ trở lại user mode, chương trình này tiếp tục chạy. PC DOS là một ví dụ. Đặc điểm chung của loại này là kernel là một thực thể đơn, một chương trình rất lớn, mà các thành phần chức năng truy nhập tới tất cả các cấu trúc dữ liệu và thủ tục của hệ thống.
b. Mô hình Client/Server:
Chia OS ra thành nhiều tiến trình (TT), mỗi TT cung cấp một tập các dịch vụ ( ví dụ các dịch vụ bộ nhớ, dịch vụ tạo TT, dịch vụ lập biểu …). Các phần mềm dịch vụ (server) chạy trong user mode thực hiện vòng lặp để tiếp nhận yêu cầu các dịch vụ của nó từ các client. Client có thể là thành phần khác của HĐH, hay là một ứng dụng, yêu cầu phục vụ bằng cách gởi một thông điệp (message) tới server. Kernel của HĐH, là phần rất nhỏ gọn (microkernel) chạy trong kernel mode phát các thông điệp tới server, server thực hiện yêu cầu, kernel trả lại kết quả cho client. Server chạy các TT trong user mode tách biệt, nên nếu có sự cố (fail) thì toàn bộ hệ thống không hề bị ảnh hưởng. Với nhiều CPU, hay nhiều máy kết hợp, các dịch vụ chạy trên các CPU, máy khác nhau, thích hợp cho các tính toán phân tán.



c. Loại cấu trúc theo lớp (layered OS):

HĐH được chia thành các lớp xếp chồng lên nhau. Phân lớp là cấu trúc được sắp xếp theo hai hướng lên-xuống (nhìn tại một lớp bất kì), sao cho mỗi lớp thành một đơn thể với chức năng cung cấp các dịch vụ cho lớp trên liền kề, và sử dụng tòan bộ dịch vụ của lớp dưới liền kề, với nguyên tắc lớp trên yêu cầu và nhận kết quả, lớp dưới thực hiện và trao kết quả cho lớp trên. Với cách xác định tường minh như vậy sẽ tránh được sự trùng lặp chức năng cũng như chồng chéo quan hệ (ví dụ ở mô hình đơn thể nói trên) giữa các đơn thể. Kiểu cấu trúc này mang lại các ưu điểm sau:
  • Nếu chuẩn hóa được các dịch vụ ở mỗi lớp, và chuẩn định dạng dữ liệu vào/ra thì các phần mềm thực hiện đơn thể sẽ trở nên phổ quát, dễ dùng chung cho các hệ thống có cấu trúc tương tự. Chương trình nguồn dễ dàng biên dịch lại và chạy ở các phần cứng khác nhau. Đó là tính portable.
  • Đơn giản hóa quá trình cải tiến hay nâng cấp hệ thống bằng việc thay đổi, nâng cấp các đơn thể các thể, mà không phải chờ đợi cho đến khi hòan tất toàn bộ hệ thống. Chính nhờ vậy mà tăng được hiệu năng họat động, tính ổn định của hệ thống.
  • Hổ trợ tốt cho nhu cầu trao đổi dữ liệu giữa các hệ thống khác nhau khi có sự chuẩn hóa về giao diện (interface), và giao thức (protocol). Đó chính là tính mở của hệ thống.
Các HĐH kiểu UNIX (VAX/VMS hay Multics (tiền thân của UNIX), …) thuộc loại này.Hãy quan sát mô tả điển hình của cấu trúc phân lớp theo hình sau:



Trên mô hình này, lớp 1, 2 gần với từng loại kiến trúc máy tính (hardware), trong đó lớp 1 cố gắng dấu đi các kiến trúc phần cứng có thể, tạo ra một lớp phần cứng trừu tượng (Hardware Abstract Layer). Lớp 2 là các thao tác (handling) cơ bản áp dụng trên các phần cứng bên dưới (bao gồm xử lí ngắt, chuyển bối cảnh thực hiện của các tiến trình, quản lí bộ nhớ). Lớp 3 thực thi phân phối thời gian chạy máy (scheduling), đồng bộ tiến trình và luồng. Lớp 4 là các đặc tả thiết bị có trên máy dạng tổng quát, không phụ thuộc vào loại thiết bị cụ thể, ví dụ ở UNIX tại gồm các tệp thiết bị tại thư mục /dev. Lớp 5 và 6 là cách tổ chức tài nguyên mà kernel sẽ thực hiện các biện pháp quản lí (tổ chức chức tệp (File System, Virtual File System), bộ nhớ ảo). Lớp 7 là giao diện của HĐH với trình ứng dụng. Có thể thấy, lớp 3 đến 7 là các lớp tổng quát, không phụ thuộc vào phần cứng. Như vậy mã thực thi có thể triển khai trên bất kì loại kiến trúc máy nào. Mô hình dưới cho thấy một ví dụ của ý tưởng trên:



Unix là một ví dụ điển hình với các đặc điểm như sau:
  • Hệ được viết bằng ngôn ngữ bậc cao, làm cho dễ đọc, dễ hiểu, dễ thay đổi và chạy trên các nền phần cứng khác nhau.
  • Có giao diện người dùng đơn giản, mang lại sức mạnh cung cấp các dịch vụ người dùng yêu cầu.
  • Cung cấp các hàm cơ bản (primitive) để phát triển các chương trình phức tạp từ các chương trình đơn giản.
  • Sử dụng hệ thống tệp có cấu trúc, dễ dùng, dễ bảo trì và hiệu quả.
  • Tệp được tổ chức theo kiểu dòng các byte, nhất quán, dễ tạo các ứng dụng.
  • Giao tiếp các thiết bị ngoại vi đơn giản, nhất quán và ổn định.
  • Là hệ nhiều người dùng, nhiều tiến trình, mỗi người dùng có thể chạy nhiều tiến trình đồng thời. Hệ cón là hệ đa xử lí.
  • Người phát triển ứng dụng không cần biết tới cấu trúc máy tính, do đó ứng dụng viết ra có thể chạy trên nhiều phần cứng khác nhau.
Đơn giản, nhất quán, đó là tư tưởng chủ đạo của Unix.

AOP: Aspect Oriented Programming

OOP (Object-oriented Programming) lập trình hướng đối tượng hiện là mô hình phát triển được lựa chọn cho hầu hết các dự án phần mềm. OOP rất hữu hiệu trong việc lập mô hình hành vi chung của các đối tượng tuy nhiên nó không giải quyết thỏa đáng những hành vi liên quan đến nhiều đối tượng. AOP giải quyết được vấn đề này, và rất có thể sẽ là bước phát triển lớn kế tiếp trong phương pháp lập trình.

Vào những ngày đầu của ngành khoa học máy tính, các thảo chương viên lập trình trực tiếp bằng mã máy. Những nhà phát triển phần mềm thời đó đã phải tốn nhiều thời gian suy nghĩ về tập lệnh riêng của từng phần cứng máy tính cụ thể hơn là tập trung để giải quyết các yêu cầu của bài toán đặt ra. Dần dần, người ta chuyển sang các ngôn ngữ lập trình cấp cao hơn, cho phép khái quát hoá ở mức độ nào đó mã máy chạy bên dưới. Rồi kế đến là các ngôn ngữ lập trình có cấu trúc cho phép phân tích bài toán thành các thủ tục thực hiện những tác vụ cần thiết. Tuy nhiên, khi độ phức tạp của các bài toán tăng lên, chúng ta cần có những kỹ thuật tốt hơn. OOP cho phép chúng ta xem hệ thống như là một tập các đối tượng cộng tác. Lớp (class) cho phép chúng ta ẩn đi những chi tiết thực hiện bên dưới các giao tiếp (interface). Cơ chế đa hình (polymorphism) cung cấp giao tiếp và hành vi chung cho những khái niệm liên quan.

Hình 1a

Kỹ thuật OOP rất xuất sắc trong việc đóng gói các hành vi và chủ thể (lớp), miễn là chúng hoàn toàn riêng biệt. Tuy nhiên, các bài toán thực tế thường có những hành vi đan nhau liên quan đến nhiều lớp. Theo truyền thống, hầu hết ngôn ngữ lập trình hướng đối tượng như C++ và Java đều không hỗ trợ đóng gói những hành vi đan nhau, dẫn đến mã chương trình có thể nằm lẫn lộn, rải rác và khó quản lý.

AOP (Aspect-oriented Programming) là kỹ thuật lập trình mới cho phép đóng gói những hành vi có liên quan đến nhiều lớp. Nhóm từ AOP mới mẻ này có thể làm cho bạn cảm thấy bối rối. Bạn vẫn chưa kịp nắm vững OOP giờ lại xuất hiện thêm ‘mốt’ lập trình mới? Bạn đừng lo, OOP vẫn tồn tại. AOP có thể xem là một sự bổ sung cho OOP, cho phép chúng ta giải quyết các bài toán phức tạp tốt hơn và hiệu quả hơn.

Vấn đề đan nhau

Hệ thống phần mềm có thể xem như là một thể hiện kết hợp nhiều vấn đề. Một hệ thống tiêu biểu có thể gồm nhiều dạng vấn đề như xử lý nghiệp vụ, hiệu suất, bảo toàn dữ liệu, bảo mật, bẫy lỗi… và còn có những vấn đề của quá trình phát triển hệ thống như tính dễ quản lý, dễ bảo trì và phát triển. Hình 1a và 1b minh họa hệ thống với tập các vấn đề đan nhau.

Để hiểu rõ hơn về vấn đề đan nhau, chúng ta hãy xét một ví dụ đơn giản nhưng khá phổ biến: cập nhật dữ liệu. Giả thiết mục tiêu quan trọng của hệ thống là nó phải dễ phát triển, bảo trì và đảm bảo an toàn dữ liệu. Mục tiêu đầu đặt ra từ yêu cầu hệ thống phải phát triển nhanh và không có lỗi, mục tiêu thứ hai do tính chất quan trọng của dữ liệu.

Mục tiêu đầu có thể đạt được khá dễ dàng. Có thể dùng lập trình thủ tục theo kiểu cũ để thực hiện hệ thống mạch lạc, ngắn gọn và đáp ứng tốt yêu cầu bài toán. Các tác vụ cơ bản của mô đun cập nhật như sau:

  • Nạp dữ liệu.
  • Cập nhật dữ liệu.
  • Lưu dữ liệu.

Tuy nhiên việc thực hiện đơn giản này không giải quyết mục tiêu thứ hai. Để đáp ứng cho mục tiêu thứ hai, chúng ta phải thêm các tác vụ xử lý vấn đề an toàn dữ liệu.

  • Xác thực quyền cập nhật dữ liệu.
  • Khóa dữ liệu để đảm bảo sự an toàn dữ liệu, đề phòng người khác truy cập trong khi đang thực hiện cập nhật.
  • Nạp dữ liệu.
  • Cập nhật dữ liệu.
  • Kiểm tra tính toàn vẹn dữ liệu cập nhật
  • Ghi nhận lại các thao tác cập nhật.
  • Lưu dữ liệu
  • Mở khoá dữ liệu

So với ban đầu thì mô đun cập nhật giờ đây khá phức tạp với nhiều vấn đề liên quan đến những lớp xử lý khác như xác thực, khoá/mở khoá dữ liệu. Những mô đun xử lý khác như thêm mới hay xóa dữ liệu cũng có những vấn đề tương tự.

Vấn đề đan nhau làm cho các mô đun phải xử lý đồng thời nhiều yêu cầu; lập trình viên ngoài việc suy nghĩ về vấn đề xử lý cơ bản còn phải tính đến vấn đề hiệu suất, bảo mật, an toàn dữ liệu… và sự trộn lẫn nhiều đoạn mã xử lý những yêu cầu khác nhau. Một vấn đề nữa đó là tình trạng rải rác mã, do vấn đề đan nhau có ở nhiều mô đun nên các đoạn mã xử lý liên quan cũng xuất hiện ở nhiều mô đun. Những vấn đề này ảnh hưởng đến việc thiết kế và phát triển phần mềm, như hệ thống khó xây dựng, quản lý, phát triển và tính tái sử dụng kém…

Cơ bản về AOP

Hình 1b

Vấn đề cốt lõi của AOP là cho phép chúng ta thực hiện các vấn đề riêng biệt một cách linh hoạt và kết hợp chúng lại để tạo nên hệ thống sau cùng. AOP bổ sung cho kỹ thuật lập trình hướng đối tượng bằng việc hỗ trợ một dạng mô đun khác, cho phép kéo thể hiện chung của vấn đề đan nhau vào một khối. Khối này được gọi là ‘aspect’ (tạm dịch là ‘lát’ – hàm ý lát cắt đi qua nhiều lớp đối tượng), từ chữ ‘aspect’ này chúng ta có tên của phương pháp phát triển phần mềm mới: aspect-oriented programming. Nhờ mã được tách riêng, vấn đề đan nhau trở nên dễ kiểm soát hơn. Các aspect của hệ thống có thể thay đổi, thêm hoặc xóa lúc biên dịch và có thể tái sử dụng. Một dạng biên dịch đặc biệt có tên là Aspect Weaver thực hiện kết hợp các thành phần riêng lẻ lại thành hệ thống hợp nhất.

AOP gồm ba bước phát triển (hình 2a và 2b):

  1. Phân tích các yêu cầu để xác định vấn đề chung và vấn đề đan nhau.
  2. Xây dựng thể hiện từng vấn đề riêng biệt.
  3. Tổng hợp các thể hiện.

Giống như các phương pháp lập trình khác, việc thực hiện AOP gồm hai phần: đặc tả ngôn ngữ mô tả cú pháp và cấu trúc ngôn ngữ; biên dịch kiểm tra sự đúng đắn của mã lệnh theo đặc tả ngôn ngữ và chuyển đổi sang dạng mã máy có thể thực thi.

* Đặc tả ngôn ngữ AOP: Xét ở mức cao, ngôn ngữ AOP gồm 2 thành phần.

  • Thể hiện vấn đề: Ánh xạ yêu cầu riêng lẻ ở dạng mã để trình dịch có thể chuyển đổi sang dạng thực thi. Thể hiện vấn đề có dạng thủ tục cụ thể, bạn có thể dùng các ngôn ngữ truyền thống như C, C++ hay Java.
  • Đặc tả quy tắc đan kết: Xác định cách thức tổng hợp các vấn đề riêng lẽ. Muốn vậy, thể hiện cần sử dụng hoặc tạo một ngôn ngữ để xác định các quy tắc tổng hợp các thể hiện khác nhau. Ngôn ngữ xác định quy tắc đan kết có thể là sự mở rộng của ngôn ngữ thể hiện, hoặc một ngôn ngữ hoàn toàn khác.

* Biên dịch AOP: Trình biên dịch AOP thực hiện theo trình tự hai bước sau:

  1. Kết hợp các hành vi riêng lẻ
  2. Chuyển đổi thông tin kết quả sang dạng mã thực thi
Hình 2a

Việc biên dịch ứng dụng AOP có thể thực hiện theo nhiều cách, trong đó có cách dịch mã sang mã. Theo cách này, mã nguồn được tiền xử lý các aspect riêng lẻ để tạo ra mã đã được đan kết với nhau. Kế tiếp trình biên dịch AOP đưa mã đã được chuyển đổi này sang trình biên dịch ngôn ngữ cơ sở để tạo dạng mã thực thi cuối cùng. Ví dụ, theo cách thức này, các aspect riêng lẻ của ứng dụng AOP dùng ngôn ngữ Java trước tiên sẽ được đan kết ở dạng mã nguồn Java, kế tiếp trình biên dịch Java sẽ chuyển mã nguồn này sang dạng mã thực thi (byte code). Tương tự, cũng có thể thực hiện đan kết ở giai đoạn mã byte code, byte code vẫn là một dạng mã nguồn, nếu như hệ thống thực thi chế độ nền – máy ảo java – hỗ trợ aspect. Với cách này, đầu tiên máy ảo Java sẽ nạp các quy tắc đan kết, rồi áp dụng các quy tắc này cho các lớp được nạp sau đó. Nói cách khác, trình biên dịch thực hiện việc đan kết các aspect trong khi thực thi.

Hình 2b

AOP tổng hợp hệ thống đi từ các vấn đề đan nhau đến vấn đề chính, còn OOP đi theo hướng ngược lại. Tuy nhiên, OOP và AOP không phủ định nhau mà bổ sung cho nhau. AOP có thể dùng các kỹ thuật lập trình khác làm cơ sở, và vẫn giữ được những ưu điểm của hệ thống cơ sở.

Lợi ích của AOP

AOP là một kỹ thuật mới đầy triển vọng, hứa hẹn đem lại nhiều lợi ích cho việc phát triển phần mềm. Dưới đây là một số lợi ích cụ thể:

  • Mô đun hoá những vấn đề đan nhau: AOP xác định các vấn đề một cách tách biệt hạn chế tối thiểu việc nhập nhằng mã, cho phép mô đun hoá cả vấn đề liên quan đến nhiều lớp đối tượng.
  • Dễ dàng phát triển hệ thống: Việc thêm chức năng mới có thể thực hiện dễ dàng bằng cách tạo aspect mới mà không cần quan tâm đến vấn đề đan nhau. Khi thêm các mô đun mới vào hệ thống, các aspect hiện có sẽ đan kết với chúng và tạo nên sự phát triển chặt chẽ.
  • Cho phép để lại quyết định thiết kế tương lai: Một thiết kế tốt phải tính đến cả yêu cầu hiện tại và tương lai, việc xác định yêu cầu tương lai là một công việc khó khăn. Nếu bỏ sót những yêu cầu tương lai có thể bạn sẽ phải thay đổi hay thực hiện lại nhiều phần hệ thống. Với AOP, người thiết kế hệ thống có thể để lại các quyết định thiết kế cho những yêu cầu tương lai nhờ thực hiện theo các aspect riêng biệt.
  • Tái sử dụng mã tốt hơn: Các aspect là những mô đun riêng biệt, được kết hợp linh động – đây chính là yếu tố quan trọng để tái sử dụng mã. AOP cho phép tái sử dụng mã tốt hơn OOP.

Lời kết

AOP là một ý tưởng mới, vẫn còn cần thời gian để đánh giá, tìm hiểu mối quan hệ các kỹ thuật hiện có và để phát triển, ứng dụng rộng rãi.

Cần nhấn mạnh điều quan trọng là AOP xây dựng trên các công nghệ hiện hữu. Nó chỉ làm việc với thiết kế tốt. Để có thiết kế tốt, bạn cần phải áp dụng đúng kỹ thuật cho đúng vấn đề, có thể là AOP, OOP, phân tích theo chức năng, lập trình cấu trúc…

Giờ thì bạn đã biết về sự tồn tại của AOP. Hãy tìm đọc, nghiên cứu và áp dụng nó. Hiện có rất nhiều thông tin về AOP trên internet. Bạn có thể bắt đầu với website Aspect Oriented Software Development (aosd.net).


theo PC World VN

Friday, November 13, 2009

Google lại gây sốc với ngôn ngữ lập trình Go

Go là một ngôn ngữ lập trình hoàn toàn mới. Nó gần giống như C và C++ nhưng được bổ sung những đặc tính rất hiện đại và có thể sử dụng ngay trong trình duyệt

Hãng tìm kiếm và Internet khổng lồ Google vừa tiếp tục gây sốc với thế giới khi tiết lộ dự án phát triển một ngôn ngữ lập trình hoàn toàn mới với tên gọi Go và hy vọng ngôn ngữ này sẽ giúp thúc đẩy sức mạnh của ngành công nghiệp điện toán, máy tính và “mang đến cho các nhà lập trình những năng lực mới với những trải nghiệm hoàn toàn mới”.

Những thông tin ban đầu về dự án này đã được Google tiết lộ hôm 10/11 và họ đang lên tiếng kêu gọi những chuyên gia khác tham gia vào dự án nguồn mở này.


Linh vật biểu tượng của Google Go

Bấy lâu nay ngành công nghiệp điện toán vẫn đang “mắc kẹt” giữa 2 xu hướng: Xây dựng từ đầu hay tiếp tục phát triển thêm dựa trên những công nghệ đã có sẵn. Sự giới hạn của thiết kế phần cứng và công nghệ lập trình hiện nay đã khiến Google nảy sinh ý tưởng cho ra đời Go.

Dự án Google Go bao gồm một ngôn ngữ lập trình và một chương trình đóng gói giúp những lập trình viên đưa sản phẩm của họ thành một phần mềm có thể chạy trên máy tính. “Nó gần giống như C và C++ nhưng đã được tích hợp thêm những đặc tính hiện đại và có đủ sự linh hoạt để sử dụng ngay trong trình duyệt web”, Pike – kỹ sư trưởng của dự án tiết lộ.

Nhưng giữa việc cho ra đời một ngôn ngữ lập trình mới và đưa nó thành một “thế lực” trong lĩnh vực CNTT vẫn tồn tại một khoảng cách rất xa. Sun Microsystems là một ví dụ. Họ đã rất thành công với Java nhưng lại thất bại nặng nề với Fortress.

Nhưng Go có những thứ mà các ngôn ngữ khác không có.

Trước tiên, đó là một dự án của Google, một công ty có đủ tiềm lực và điều kiện để biến bất cứ một thứ gì đó trở nên hữu dụng bằng việc khai thác hàng trăm ngàn máy chủ và vô số những lập trình viên nội bộ của mình. Một phiên bản thử nghiệm của Google thậm chí còn có giá trị và ứng dụng thương mại lớn gấp nhiều lần một sản phẩm thực thụ và hoàn chỉnh của nhiều công ty khác. Và Go là một sản phẩm được Google đang rất ưu ái.

"Chúng tôi không có ý định thử nghiệm nó mãi mãi", Pike nói, "Chúng tôi muốn xây dựng một cái gì đó thực sự có nghĩa bằng dự án này".

Thứ hai, Go đang được những chuyên gia “sừng sỏ” nhất của Google dẫn dắt.

Đó là Thompson, người đã giành giải thưởng Turing Award năm 1983 (một giải thưởng được đánh giá là “giải Nobel trong lĩnh vực điện toán”) và Huy chương quốc gia về công nghệ năm 1998 Thompson cũng là người đã góp phần đưa ngôn ngữ lập trình B ra đời và sau đó được thay thế bằng C.


Rob Pike - kỹ sư trưởng của dự án (Ảnh: Cnet)

Người thứ hai là Pike, trưởng kỹ sư phần mềm, một trong những thành viên của nhóm phát triển Unix tại Bell Labs. Pike và Thompson đã có nhiều năm làm việc cùng nhau để tạo ra bộ mã font chữ Unicode UTF-8 rất phổ biến ngày nay.

Người thứ 3 là Robert Griesemer, người đã có công viết chương trình đóng gói HotSpot cho Java và V8 – bộ mã JavaScript đang được sử dụng trong trình duyệt Chrome.

Và còn rất nhiều những tên tuổi khác nữa.

Cái tên “Go” (có nghĩa là: Đi) thể hiện sự thách thức đối với nhóm dự án, nó khiến mọi người liên tưởng đến Google và quan trọng hơn cả là nó sẽ nhắc nhở chúng tôi rằng ý tưởng này cần phải đi được đến cái đích nào đó”, Pike cho biết.

Tuesday, November 3, 2009

PHP - Giới thiệu - Sơ lược về ngôn ngữ PHP

MỤC LỤC

Trở về đầu trang


CÚ PHÁP CĂN BẢN

Trang PHP là 1 trang HTML có nhúng mã PHP
Để minh hoạ cho điều này, ta hãy xem qua một số ví dụ sau:

Ví dụ 1: lưu file sau lên đĩa với tên vd1.php và chạy thử:

<html><head><title>Testing page</title></head>
<body><?php echo "Hello, world!"; ?></body>
</html>
Bạn sẽ nhận được 1 trang HTML mà khi view source bạn xẽ nhận được nội dung như sau:
<html><head><title>Testing page</title></head>
<body>Hello, World!</body>
</html>

Ví dụ 2: lưu file sau lên đĩa với tên vd2.php và chạy thử:

<?php echo "<html><head><title>Testing page</title></head>
<body>Hello, world!</body>
</html>"
; ?>
Bạn cũng nhận được 1 trang HTML có source là:
<html><head><title>Testing page</title></head>
<body>Hello, World!</body>
</html>

Như vậy có thể nhận xét rằng 1 trang PHP cũng chính là 1 trang HTML có nhúng mã PHP ở bên trong và có phần mở rộng là .php. Phần mã PHP được đặt trong thẻ mở <?php và thẻ đóng ?>. Khi trình duyệt truy cập vào 1 trang PHP, server sẽ đọc nội dung file PHP lên, lọc ra các đoạn mã PHP, thực thi các đoạn mã đó, lấy kết quả xuất ra của các đoạn mã PHP thay thế vào chỗ ban đầu của chúng trong file PHP, cuối cùng server trả về kết quả cuối cùng là 1 trang nội dung HTML về cho trình duyệt.
Ở ví dụ 1 bên trên, server thực thi đoạn mã <?php echo "Hello, world!"; ?>, đoạn mã này sẽ xuất ra dòng chữ Hello, world!, dòng chữ này sẽ được server thay thế ngược lại vào vị trí của đoạn mã PHP và trả về kết quả cuối cùng cho trình duyệt:

<html><head><title>Testing page</title></head>
<body>Hello, World!</body>
</html>

Như vậy thì ta hoàn toàn có thể tạo ra 1 file vd3.php với nội dung như sau:

<html><head><title>Testing page</title></head>
<body>Hello, World!</body>
</html>
Và file này vẫn chạy được ngon lành, không có vấn đề gì hết!

Lệnh echo dùng để xuất 1 chuỗi văn bản về trình duyệt
Ở các ví dụ bên trên, ta đã dùng 1 lệnh của PHP là lệnh echo. Lệnh này dùng để xuất 1 chuỗi văn bản về cho trình duyệt.

Ví dụ câu lệnh echo "Hello, world!"; trình duyệt sẽ nhận được chỗi văn bản Hello, world!.
Câu lệnh echo 1+2; sẽ trả về cho trình duyệt chỗi văn bản 3.
Và câu lệnh echo 1+2, "Hello, world!"; sẽ trả về trình duyệt chỗi 3Hello, world!.

Phân cách các lệnh bằng dấu chấm phảy (;)
Tương tự như các ngôn ngữ lập trình C hoặc Pascal, 1 câu lệnh của PHP được kết thúc bằng dấu chấm phảy (;). Ví dụ:
echo 1+2;
echo "Hello, world!";

Chú thích trong chương trình
Các chú thích không phải là mã chương trình, nhưng nó giúp ta ghi chú về 1 đoạn chương trình nào đó. Khi lập trình, bạn nên để các ghi chú vào trong chương trình để sau này khi đọc lại code, bạn sẽ nhanh chóng nắm bắt được nội dung và ý nghĩa của đoạn chương trình đã biết.
PHP cho phép ta ghi 2 loại chú thích: chú thích trên 1 dòng (chú thích loại này chỉ có thể ghi trên 1 dòng mà thôi), và chú thích nhiều dòng (chú thích loại này có thể ghi dài bao nhiêu cũng được).
Chú thích 1 dòng được bắt đầu bằng // hoặc #, và những gì được ghi từ đó về sau là chú thích. Chú thích nhiều dòng được bắt đầu bằng /* và kết thúc bằng */, những gì ở giữa là chú thích. Ví dụ:

<?php
//Đây là chú thích 1 dòng, đoạn chương trình sau sẽ in ra chuỗi 123
echo 123;

#Đây cũng là chú thích 1 dòng, đoạn chương trình sau sẽ in ra chuỗi abc
echo "abc";

/*
Đây là chú thích nhiều dòng
Đoạn chương trình sau sẽ in ra chuỗi abc123
*/

echo "abc123";
?>


KIỂU DỮ LIỆU

PHP hỗ trợ 8 kiểu dữ liệu chính:

  • 4 kiểu dữ liệu vô hướng: boolean, integer, float (double), string.
  • 2 kiểu dữ liệu tổ hợp: array, object.
  • 2 kiểu dữ liệu đặt biệc: resource, NULL.

Kiểu Boolean
Kiểu boolean mang 1 trong 2 giá trị TRUE (đúng) hoặc FALSE (sai). Ví dụ:

<?php
$a = TRUE;
$b = FALSE;

//phép toán == kiểm tra xem 2 biểu thức có giá trị bằng nhau hay không
$c = (1==2); //vì 1 khác 2 nên $c mang giá trị FALSE
$d = ("abc" == "def"); //$d mang giá trị TRUE
?>

"Ép" kiểu sang boolean: một số giá trị được chuyển đổi thành FALSE trong các biểu thức boolean nếu như giá trị đó là:

  • số nguyên 0,
  • số thực 0.0,
  • chuỗi rỗng "", hoặc chuỗi "0",
  • mảng rỗng (không chứa phần tử nào) Array(),
  • đối tượng không chứa phần tử nào (chỉ đúng với PHP4),
  • giá trị NULL
Các giá trị còn lại sẽ được chuyển đổi thành TRUE.

Kiểu Integer
Kiểu integer mang các giá trị số nguyên ..., -2, -1, 0, 1, 2, ...Trên hầu hết các hệ thống, kiểu số nguyên có kích thước 32 bit, mang giá trị từ -2147483647 cho đến 2147483648. Ví dụ:

<?php
$a = 1234;
$b = -123;
$c = 0123; //giá trị 123 ở hệ cơ số 8, tương đương với 83 ở hệ cơ số 10
$d = 0x1F; //giá trị 1F ở hệ cơ số 16, tương đương với 31 ở hệ cơ số 10
?>

Kiểu Float (Double)
Kiểu float (hoặc double) là kiểu số thực, có thể mang bất cứ giá trị số thực nào. Trên hầu hết các hệ thống, kiểu số thực có kích thước 64 bit. Ví dụ:

<?php
$a = 1.234;
$b = 1.2e3; //= 1.2*10^3 = 1200
$c = 7E-10; //= 7*(10^-10) = 0.0000000007
$d = -1.23;
?>

Kiểu String
Kiểu string lưu giữ 1 chuỗi ký tự, mỗi ký tự có kích thước 1 byte. Nội dung string được đặt giữa 2 dấu nháy, nháy đơn (') hoặc nháy kép ("). Ví dụ

<?php
$a = 'Đây là 1 chuỗi được đặt giữa dấu nháy đơn';
$b = "Đây là 1 chuỗi được đặt giữa dấu nháy kép";
$c = 'Đây là 1 chuỗi được đặt giữa dấu nháy đơn với "vài dấu nháy kép ở giữa"';
$d = "Đây là 1 chuỗi được đặt giữa dấu nháy kép với 'vài dấu nháy đơn ở giữa'";
?>
Nếu bạn muốn sử dụng dấu nháy đơn ở trong 1 chuỗi được bọc bởi dấu nháy đơn, hoặc sử dụng dấu nháy kép đặt giữa chuỗi được bọc bởi dấu nháy kép thì bạn để thêm ký tự \ (gọi là ký tự escape) ở phía trước. Ví dụ:
<?php
$a = 'Dấu \'nháy đơn\' ở giữa chuỗi'; //$a mang giá trị: Dấu 'nháy đơn' ở giữa chuỗi
$b = "Dấu \"nháy kép\" ở giữa chuỗi"; //$b mang giá trị: Dấu "nháy kép" ở giữa chuỗi
$c = "Dùng ký tự \\ ở giữa câu \\ thì sao?"; //$c mang giá trị: Dùng ký tự \ ở giữa câu \ thì sao?
?>
Khi sử dụng dấu nháy đôi để bọc chuỗi, ngoài \', \"\\, PHP có thể nhận dạng thêm một số chuỗi ký tự escape đặt biệc nữa:
  • \n: ký tự xuống hàng LF (ký tự có mã 10 trong bảng mã ASCII)
  • \r: ký tự về đầu dòng CR (ký tự có mã 13 trong bảng mã ASCII)
  • \t: ký tự tab (ký tự có mã 9 trong bảng mã ASCII)
  • \$: ký tự $
  • \ooo: (với o là 1 chữ số từ 0 đến 7) biểu thị 1 ký tự có mã ASCII ooo trong hệ cơ số 8.
    Ví dụ \101 sẽ là ký tự 'A' (101 trong hệ cơ số 8 tương đương 65 trong hệ cơ số 10, ký tự ASCII có mã 65 chính là ký tự 'A').
  • \xhh: (với h là 1 chữ số từ 0 đến 9 hoặc 1 chữ cái từ A tời F) biểu thị 1 ký tự có mã ASCII hh trong hệ cơ số 16.
    Ví dụ \0x41 sẽ là ký tự 'A' (41 trong hệ cơ số 16 chính là 65 trong hệ cơ số 10).

Ngoài ra, nếu bạn để 1 biến vào giữa 1 chuỗi được bọc với dấu nháy kép, giá trị của biến sẽ được thay thế vào trong chuỗi. ví dụ:

<?php
$a = 1;
$b = 2;
$c = 3;
$d = "$a $b $c"; //$d sẽ mang giá trị là chuỗi "1 2 3"
?>

Kiểu Array
Array là một mảng gòm nhiều phần tử. Array được tạo qua lệnh Array. Ví dụ:

<?php
$a = Array(1,2,3);
Lúc này $a sẽ là 1 mảng gồm 3 phần tử số nguyên là 1, 23

Các phần tử trong mảng $a được tạo ở trên sẽ được đánh số thứ tự từ 0, 1 cho đến 2
Để truy cập tới từng phần tử của $a
echo $a[0]; //in ra giá trị 1
echo $a[2]; //in ra giá trị 3

$a[1] = 5; //giờ đây $a = Array(1,5,3)
?>
Mảng còn có thể được tạo thành bởi các cặp (khoá, giá trị). Ví dụ:
<?php
$a = Array(
"khoá 1" => "giá trị 1",
"khoá 2" => "giá trị 2",
"khoá 3" => "giá trị 3"
);
echo $a["khoá 1"]; //in ra: giá trị 1

$b = Array(
"a" => "Nguyễn",
"b" => "Bá",
"c" => "Thành"
);
echo $b["a"]; //in ra: Nguyễn

$b["a"] = "Nguyen";
$b["b"] = "Ba";
$b["c"] = "Thanh";
//giờ đây $b = Array("a" => "Nguyen", "b" => "Ba", "c" => "Thanh")
?>

Kiểu Object
Kiểu object (đối tượng) lưu giữ 1 bản thể (instance) của 1 lớp (class). Ta sẽ tìm kiểu kỹ thêm về kiểu object trong phần Lập trình hướng đối tượng với PHP.

Kiểu Resource
Kiểu resource (tài nguyên) được sử dụng bởi các hàm đặt biệc của PHP (ví dụ hàm mysql_connect sẽ trả về kiểu resource). Ta sẽ tìm hiểu kỹ hơn về kiểu resource trong các bài viết khác.

Kiểu NULL
Đây là 1 giá trị đặt biệc, báo cho PHP biết rằng 1 biến nào đó chưa/không mang giá trị nào cả. Ví dụ:

<?php
$a = 1; //$a mang giá trị 1

$a = NULL; //bây giờ $a không mang giá trị nào cả

$a = 2; //giờ đây $a mang giá trị 2

//hàm unset sẽ làm cho 1 biến có giá trị là NULL
unset($a); //giừo $a lại là NULL
?>



BIẾN

Có lẽ hơi muộn khi tới tận bây giờ ta mới tìm hiểu tới biến trong PHP. Một biến trong PHP được bắt đầu bằng ký tự $ và đi theo ngay sau đó là tên của biến. Ví dụ:
$a: biến có tên là a
$abc123: biến có tên là abc123

Tuy nhiên vẫn còn nhiều điều thú vị về biến đang chờ ta khám phá.

  • Biến trong PHP phân biệt chữ hoa và chữ thường. Tức $Abc và $abc là 2 biến hoàn toàn khác nhau.
  • Tên biến chỉ được bao gồm các ký tự chữ cái (a..z hoặc A...Z), chữ số (0...9) và ký tự gạch dưới (_); nhưng tên biến không được bắt đầu bằng ký tự gạch dưới hoặc chữ số. Các tên biến sau là không hợp lệ!
    $_abc Không hợp lệ! bắt đầu bằng ký tự gạch dưới
    $1abc Không hợp lệ! bắt đầu bằng chữ số
    $nguyễn Không hợp lệ! tên biến có ký tự đặt biệc (ễ)

Tầm vực (scope) của biến
Tầm vực của biến là ngữ cảnh mà ở trong đó biến được định nghĩa. Ví dụ:

<?php
$a = 1; //tầm vực của biến $a bắt đầu từ đây

include 'b.php'; trải dài tới bên trong file b.php

//tới cuối file vẫn còn hợp lệ
?>

Tuy nhiên khi gặp 1 hàm do người dùng định nghĩa, bên trong hàm, biến cục bộ sẽ được dùng thay vì biến toàn cục. Ví dụ:

<?php
$a = 1; //biến toàn cục

//hàm do tự tạo
function test() {
echo $a;
} //end test
?>
Ở ví dụ trên, câu lệnh echo $a sẽ không in ra giá trị nào hết vì câu lệnh này nằm bên trong hàm test nên $a ở đây được hiểu là biến cục bộ $a của hàm (mà hàm này ta chưa khai báo biến cục bộ nào cả).

Để truy cập tới các biến toàn cục ở bên trong 1 hàm do người dùng định nghĩa, ta có thể dùng 1 trong 2 cách sau: Cách 1:

<?php
$a = 1; //biến toàn cục

//hàm do tự tạo
function test() {
//từ khoá global báo cho php biết là bên trong hàm test
//bây giờ ta sẽ dùng biến toàn cục $a
global $a;

echo $a; //in ra giá trị: 1
} //end test
?>
Cách 2:
<?php
$a = 1; //biến toàn cục

//hàm do tự tạo
function test() {
echo $GLOBALS['a']; //in ra giá trị: 1
} //end test
?>



BIỂU THỨC

Biểu thức là nền tảng quan trọng của PHP. Hầu như mọi thứ bạn ghi trong file php đều là biểu thức. Nói một cách đơn giản, bất cứ cái gì mang 1 giá trị nào đó đều có thể là 1 biểu thức. Ta xét câu lệnh đơn giản sau:
$a = 5;
Ở đây 5 là một biểu thức, kết của của biểu thức này là giá trị 5, và kết quả này được gán cho biến $a. $b = $a;
Ở đây $a lại là 1 biểu thức, giá trị của $a được gán cho biến $b.

Biểu thức trong PHP có thể phức tạp hơn thế, ví dụ:
$a = 1;
$b = 2;
$c = 3;
$d = $a + $b + $c;



TOÁN TỬ

Toán tử kết hợp các giá trị hoặc biểu thức lại với nhau và tạo ra một giá trị mới. Ví dụ trong biểu thức 1+2 thì + là toán tử kết hợp hai giá trị 1 và 2 lại với nhau tạo ra giá trị mới là 3.

Các toán tử trong PHP được chia thành 3 nhóm:

  • Các toán tử áp dụng trên 1 giá trị, ví dụ như toán tử ++ hoặc --
  • Các toán tử kết hợp 2 hoặc nhiều giá trị, ví dụ như toán tử +, -, *, /
  • Toán tử ?: dùng để chọn 1 trong 2 giá trị tuỳ thuộc vào 1 điều kiện cho trước

Thứ tự ưu tiên của toán tử
Các toán tử khác nhau có thể có độ ưu tiên khác nhau. Trong cùng 1 biểu thức có nhiều toán tử, toán tử nào có độ ưu tiên cao hơn sẽ được thực hiện trước (trừ khi bạn nhóm các biểu thức lại bằng dấu ngoặc () ). Nếu trong biểu thức có 2 toán tử có cùng độ ưu tiên thì qui tắc liên kết của từng toán tử sẽ qui định thứ tự thực hiện của các toán tử đó.
Sau đây là bảng liệt kê các toán tử cùng thứ tự ưu tiên của chúng (toán tử có độ ưu tiên cao hơn được liệt kê bên trên, các toán tử có độ ưu tiên thấp hơn được lệt kê bên dưới).

Qui tắc liên kết Toán tử Ghi chú
new Tạo 1 đối tượng từ 1 class, toán tử này chỉ áp dụng trên 1 toán hạng nên không có qui tắc liên kết
Bên phải trước [ Toán tử truy cập 1 phần tử trong mảng
++ -- Tăng/Giảm 1 đơn vị, toán tử này chỉ áp dụng trên 1 toán hạng nên không có qui tắc liên kết
! ~ - (int) (float) (string) (array) (object) @ Các toán tử này chỉ áp dụng trên 1 toán hạng nên không có qui tắc liên kết
Bên trái trước * / %
Bên trái trước + - .
Bên trái trước << >>
== != === !=== Toán tử so sánh, chỉ áp dụng trên 2 toán hạng nên không có qui tắc liên kết
Bên trái trước &
Bên trái trước ^
Bên trái trước |
Bên trái trước &&
Bên trái trước ||
Bên trái trước ? :
Bên phải trước = += -= *= /= .= %= &= |= ^= <<= >>=
Bên trái trước and
Bên trái trước xor
Bên trái trước or
Bên trái trước ,



CÁC CÂU LỆNH ĐIỂU KHIỂN

Câu lệnh if
Cú pháp đơn giản nhất của câu lệnh if có dạng như sau:

if ( biểu thức )
câu lệnh;
Câu lệnh if trên được diễn giải như sau: nếu biểu thức trả về giá trị TRUE (hoặc tương đương với TRUE sau khi chuyển đổi) thì câu lệnh sẽ được thực thi; ngược lại (khi biểu thức trả về giá trị FALSE) thì bỏ qua không thực thi câu lệnh nữa.

Cú pháp nâng cao của câu lệnh if có dạng như sau:

if ( biểu thức )
câu lệnh 1;
else
câu lệnh 2;
Câu lệnh if trên được diễn giải như sau: nếu biểu thức trả về giá trị TRUE thì câu lệnh 1 sẽ được thi hành, ngược lại thì câu lệnh 2 sẽ được thi hành.

Các lệnh if có thể được lồng vào nhau để tạo ra câu lệnh if phức tạp hơn:

if ( biểu thức 1 )
if ( biểu thức 2 )
câu lệnh 1;
else
câu lệnh 2;
else
câu lệnh 3;
Nếu biểu thức 1 trả về giá trị FALSE thì câu lệnh 3 sẽ được thực hiện, ngược lại xét tiếp biểu thức 2: nếu biểu thức 2 trả về giá trị TRUE thì thực hiện câu lệnh 1, ngược lại nếu biểu thức 2 trả về giá trị FALSE thì thực hiện câu lệnh 2.
if ( biểu thức 1 )
câu lệnh 1;
else if ( biểu thức 2 )
câu lệnh 2;
else if ( biểu thức 3 )
câu lệnh 3;
else
câu lệnh 4;
Nếu biểu thức 1 trả về TRUE thì thực hiện câu lệnh 1 (các câu lệnh 2,3,4 không thực hiện), nếu biểu thức 1 trả về FALSE và biểu thức 2 trả về TRUE thì câu lệnh 2 được thực hiện, nếu biểu thức 1 trả về FALSEm biểu thức 2 trả về FALSE và biểu thức 3 trả về TRUE thì câu lệnh 3 được thực hiện. Nếu cả 3 biểu thức 1,2,3 đều trả về FALSE thì thực hiện câu lệnh 4.

Ngoài ra PHP còn cung cấp từ khoá elseif, chính là ghép giữa từ khoá else và if.

Câu lệnh while
Câu lệnh while dùng để tạo 1 vòng lặp, cú pháp của câu lệnh này như sau:

while ( biểu thức )
câu lệnh;
Được diễn giải như sau: trong khi biểu thức còn trả về giá trị TRUE thì tiếp tục thực hiện câu lệnh, sau khi thực hiện câu lệnh thì kiểm tra lại biểu thức, nếu vẫn còn trả về giá trị TRUE thì lại tiếp tục thực hiện câu lệnh...cứ tiếp tục như vậy cho tới khi nào biểu thức trả về giá trị FALSE thì ngưng.

Một ví dụ in ra các số từ 1 tới 10 với câu lệnh while:

<?php
$i = 1;
while ( $i <= 10 ) {
echo $i, "\n";
$i++;
} //end while
?>
Ghi chú: Câu lệnh $i++ tương đương với $i = $i+1;, câu lệnh này sẽ tăng giá trị của $i lên 1 qua mỗi lần lặp.

Câu lệnh do-while
Câu lệnh do-while cũng tương tự như câu lệnh white, chỉ khác một điểm là câu lệnh được thực hiện trước rồi biểu thức mới được kiểm tra sau, nếu biểu thức còn trả về giá trị TRUE thì tiếu tục thực hiện câu lệnh. Cú pháp của câu lệnh do-while như sau:

do {
câu lệnh;
} while ( biểu thức );

Một ví dụ in ra các số từ 1 tới 10 với câu lệnh do-while:

<?php
$i = 1;
do {
echo $i, "\n";
$i++;
} while ( $i < 10 );
?>

Câu lệnh for
Câu lệnh for cũng dùng để tạo vòng lặp. Đây là một trong những câu lệnh phức tạp nhất của PHP, cú pháp của nó như sau:

for ( biểu thức 1; biểu thức 2; biểu thức 3 )
câu lệnh;
Được diễn giải như sau:
  • Đầu tiên biểu thức 1 được thực hiện,
  • Tiếp theo biểu thức 2 được kiểm tra
    • Nếu trả về TRUE thì câu lệnh được thực hiện và sau đó thực hiện biểu thức 3.
    • Nếu trả về FALSE thì kết thúc câu lệnh for.
  • Kiểm tra lại biểu thức 2 và lặp lại quá trình như trên.

Một ví dụ in ra các số từ 1 tới 10 với câu lệnh for:

<?php
for ( $i = 0; $i < 10; $i++ ) {
echo $i, "\n";
} //end for
?>

Câu lệnh foreach
Câu lệnh foreach chỉ làm việc với array. Câu lệnh foreach có 2 dạng cú pháp như sau:

foreach ( $array as $value )
câu lệnh;
foreach ( $array as $key => $value )
câu lệnh;

Ta sẽ hiểu rõ hơn 2 dạng cú pháp này qua 2 ví dụ sau:

Ví dụ 1:

<?php
$a = array('a' => 1, 'b' => '2', 'c' => '3');

foreach ( $a as $value ) {
echo $value, "\n";
} //end foreach
?>
Chương trình trên sẽ in ra 3 số 1, 23.

Ví dụ 2:

<?php
$a = array('a' => 1, 'b' => '2', 'c' => '3');

foreach ( $a as $key => $value ) {
echo $key, "=", $value, "\n";
} //end foreach
?>
Chương trình trên sẽ in ra 3 chuỗi a=1, b=2c=3.

Câu lệnh switch
Câu lệnh switch hoạt động như là 1 loạt câu lệnh if ghép lại với nhau. Ta hãy xem câu lệnh if sau:

if ( $a == "abc" )
echo "Giá trị của a là abc";
} elseif ( $a == "def" )
echo "Giá trị của a là def";
} elseif ( $a == "123" ) {
echo "Giá trị của a là 123";
} else {
echo "Giá trị khác";
} //end if
3 câu lệnh if ở trên có thể được viết lại bằng câu lệnh switch như sau:
switch ( $a ) {
case "abc";
echo "Giá trị của a là abc";
break;
case "def";
echo "Giá trị của a là def";
break;
case "123";
echo "Giá trị của a là 123";
break;
default:
echo "Giá trị khác";
} //end switch

Câu lệnh break
Câu lệnh break sẽ dừng việc thực thi của các vòng lặp for, foreach, while, do-while và switch. Ở phần trước ta đã thấy câu lệnh break được sử dụng trong câu lệnh switch. Nếu không có break, câu lệnh switch ở phần trước sẽ thành:

switch ( $a ) {
case "abc";
echo "Giá trị của a là abc";
case "def";
echo "Giá trị của a là def";
case "123";
echo "Giá trị của a là 123";
default:
echo "Giá trị khác";
} //end switch
Nếu giá trị của $a là "abc" thì cả 4 chuỗi "Giá trị của a là abc", "Giá trị của a là def", "Giá trị của a là 123" và "Giá trị khác" sẽ được in ra.; nếu $a mang giá trị "def" thì 3 chuỗi "Giá trị của a là def", "Giá trị của a là 123" và "Giá trị khác" sẽ được in ra.
Ở đây ta muốn chỉ có 1 dòng duy nhất in ra tương ứng với giá trị của biến $a, nên ta thêm các câu lệnh break vào các phần case, để khi in ra chuỗi tương ứng với giá trị $a thì ta thoát ra khỏi câu lệnh switch.

Một ví dụ sử dụng câu lệnh break trong vòng lặp for:

for ( $i=1; $i<=10; $i++ ) {
echo $i;
if ( $i == 5 ) break;
}
Vòng lặp for ở trên thay vì in ra 10 số từ 1 đến 10, vòng lặp chỉ in ra 5 số từ 1 đến 5 mà thôi vì khi $i đạt giá trị 5, vòng lặp sẽ kết thúc do câu lệnh break.

Cách dùng câu lệnh break trong các vòng lặp foreach, while và do-while cũng tương tự.

Câu lệnh continue
Câu lệnh continue áp dụng lên các vòng lặp, lệnh continue sẽ bỏ qua lần lặp hiện thời và tiếp tục thực hiện các lần lặp tiếp theo. Để hiểu rõ hơn ta hãy xem ví dụ sau:

for ( $i=1; $i<=5; $i++ ) {
if ( $i == 2 ) continue;
echo $i;
}
Khi $i đạt giá trị 2, câu lệnh echo $i; sẽ được bỏ qua không thì hành nữa do câu lệnh continue. Và như vậy, đoạn lệnh trên khi chạy sẽ in ra các giá trị 1,3,4,5 (không có giá trị 2).

Cách dùng của câu lệnh continue trong các vòng lặp foreach, while, do-while cũng tương tự.



HÀM

Hàm do người dùng định nghĩa
Trong lập trình, có một số đoạn mã được dùng nhiều lần ở nhiều nơi khác nhau trong chương trình. Sẽ rất phiền và khó sửa lỗi nếu như ta phải viết lặp đi lặp lại 1 đoạn mã đó ở nhiều nơi. PHP cung cấp một giải pháp đó là hàm do người dùng định nghĩa. Ta có thể đưa đoạn mã đó vào trong 1 hàm, và ở chỗ nào cần dùng đoạn mã đó ta chỉ cần gọi hàm, khi cần sửa đổi, ta chỉ cần sửa đổi 1 chỗ duy nhất là nội dung của hàm chứ không cần phải sửa ở nhiều nơi trong chương trình.

Cú pháp để tạo 1 hàm do người dùng định nghĩa như sau:

function tênHàm($tham_số1, $tham_số2, ..., $tham _sốn) {
//thân hàm
echo "Testing";
return $kết_quả_trả_về;
} //end
Khi cần sử dụng hàm ở chỗ nào, ta chỉ cần dùng cú pháp tênHàm(các tham số cần thiết);

Ví dụ:

<?php
function testing() {
echo "Testing gunction";
echo 1;
echo 2;
echo 3;
} //end testing
testing();
testing();
testing();
?>

Lưu ý: Tên hàm cũng như tên biến chỉ bao gồm các ký tự chữ cái (a..z, A..Z), chữ số (0..9) và ký tự gạch dưới (_), ngoài ra tên hàm không được bắt đầu bằng chữ số, nhưng được phép bắt đầu bằng ký tự gạch dưới (tên hàm khác với tên biến chỗ này). Tên hàm trong PHP phân biệt chữ hoa và chữ thường, tức là testing và Testing là 2 tên hàm khác nhau.

Tham số của hàm
Hàm có thể nhận vào các tham số, ví dụ:

<?php
function testing($a) {
echo "Tham số là $a";
} //end testing
testing(123);
testing("abc");
?>
Ở ví dụ trên, lời gọi hàm testing(123); sẽ in ra dòng Tham số là 123 và lời gọi hàm testing("abc"); sẽ in ra dòng Tham số là abc.

Ta có thể gán giá trị mặc định cho tham số của hàm:

<?php
function testing($a="mặc định") {
echo "Tham số là $a";
} //end testing
testing();
?>
Khi tham số tương ứng của hàm không được truyền, tham số đó sẽ nhận giá trị mặc định. Đoạn chương trình ví dụ ở trên khi chạy sẽ in ra dòng Tham số là mặc định.

Giá trị trả về từ hàm
Hàm còn thể trả về 1 giá trị cho nơi gọi:

<?php
function binh_phuong($a) {
$ketqua = $a * $a;
return $ketqua;
} //end testing
echo binh_phuong(2);
?>
Đoạn chương trình trên khi chạy sẽ in ra số 4. Câu lệnh return biểu_thức; sẽ kết thúc hàm và trả về giá trị của biểu_thức cho nơi gọi.