Networks Business Online Việt Nam & International VH2

Lý thuyết thông tin – Wikipedia tiếng Việt

Đăng ngày 13 October, 2022 bởi admin

Lý thuyết thông tin là một nhánh của toán học ứng dụng và kĩ thuật điện nghiên cứu về đo đạc lượng thông tin. Lý thuyết thông tin được xây dựng bởi Claude E. Shannon để xác định giới hạn cơ bản trong các hoạt động xử lý tín hiệu chẳng hạn như nén dữ liệu hay lưu trữ và truyền dẫn dữ liệu. Ngay từ những ngày đầu, nó đã mở rộng phạm vi ứng dụng ra nhiều lĩnh vực khác, bao gồm suy luận thống kê, xử lý ngôn ngữ tự nhiên, mật mã học, các mạng lưới bên cạnh mạng lưới viễn thông – chẳng hạn như trong thần kinh[1], sự tiến hóa[2] và chức năng[3] của các mã phân tử, lựa chọn mô hình[4] trong sinh thái học, vật lý nhiệt, máy tính lượng tử[5], phát hiện sao chép[6] và các hình thức phân tích dữ liệu khác.[7]

Một độ đo cơ bản của thông tin là entropy, thường được diễn đạt dưới dạng số lượng bit thiết yếu trung bình để tàng trữ hoặc dẫn truyền. Entropy lượng hóa sự không chắc như đinh trong việc Dự kiến giá trị của một biến ngẫu nhiên. Ví dụ như, xác lập tác dụng của một lần tung đồng xu công minh ( hai hiệu quả có năng lực như nhau ) cho ít thông tin hơn ( entropy nhỏ hơn ) là xác lập hiệu quả của một lần tung xúc sắc ( sáu hiệu quả có năng lực như nhau ) .Các ứng dụng cơ bản của lý thuyết thông tin gồm có nén không mất tài liệu ( ví dụ điển hình như ZIP ), nén mất tài liệu ( ví dụ điển hình MP3, JPG ), mã hóa kênh ( ví dụ điển hình như trong DSL ). Lý thuyết thông tin nằm ở phần giao nhau giữa toán học, thống kê, khoa học máy tính, vật lý, thần kinh, và kĩ thuật điện. Các ngành hẹp quan trọng của lý thuyết thông tin gồm có mã hóa nguồn, mã hóa kênh, lý thuyết thông tin thuật toán, bảo mật thông tin theo lý thuyết thông tin .

Khái niệm cơ bản của lý thuyết thông tin có thể được nắm bắt thông qua việc xem xét hình thức liên lạc phổ biến nhất của con người: ngôn ngữ. Hai yếu tố quan trọng của một ngôn ngữ ngắn gọn là: các từ thông dụng (như “một”, “cái”, “tôi”) nên ngắn gọn hơn các từ kém thông dụng hơn (như “thông tin”, “thợ thủ công”) để các câu không bị quá dài. Sự cân bằng độ dài các từ như vậy cũng tương tự như trong nén dữ liệu và là một thành phần cơ bản của mã hóa nguồn. Ngoài ra, nếu một phần của câu không nghe được hoặc bị nghe nhầm do tiếng ồn, chẳng hạn như do có ô tô chạy qua, thì người nghe vẫn có thể đoán ra ý nghĩa của câu. Sự vững chắc đó là một thành phần thiết yếu cho hệ thống liên lạc điện tử cũng như cho ngôn ngữ. Tính chất đó trong truyền thông được đảm bảo bởi mã hóa kênh. Mã hóa nguồn và mã hóa kênh là những mối quan tâm chính của lý thuyết thông tin.

Lý thuyết thông tin thường được xem là xuất phát từ bài báo quan trọng của Shannon ( 1948 ) mang tên ” A Mathematical Theory of Communication “. Mô hình TT của lý thuyết thông tin cổ xưa là yếu tố kĩ thuật của việc truyền dẫn thông tin trên một kênh nhiễu. Kết quả cơ bản trong lý thuyết này là định lý mã hóa nguồn của Shannon, chứng minh và khẳng định rằng tính trung bình, số bit cần dùng để diễn đạt tác dụng của một sự kiện ngẫu nhiên chính là entropy của nó, và định lý mã hóa trên kênh nhiễu cũng của Shannon, khẳng định chắc chắn rằng việc liên lạc không lỗi trên một kênh nhiễu là hoàn toàn có thể miễn là vận tốc truyền tài liệu là nhỏ hơn một số lượng giới hạn nhất định, gọi là dung tích kênh. Có thể đạt đến gần dung tích kênh trong trong thực tiễn bằng cách sử dụng những mạng lưới hệ thống mã hóa và giải thuật thích hợp .

Bối cảnh lịch sử vẻ vang[sửa|sửa mã nguồn]

Sự kiện điển hình nổi bật lưu lại sự khởi đầu của lý thuyết thông tin là bài báo của Claude E. Shannon ” A Mathematical Theory of Communication ” ở Bell System Technical Journal vào tháng 7 và tháng 10 năm 1948 .

Trước bài báo này, một số ý tưởng về lý thuyết thông tin đã được phát triển tại Bell Labs, trong trường hợp đặc biệt khi tất cả các sự kiện đều có cùng xác suất. Bài báo năm 1924 của Harry Nyquist, “Certain Factors Affecting Telegraph Speed”, chứa một phần lý thuyết định lượng “tri thức” (intelligence) và “tốc độ đường truyền” (line speed), đưa ra mối liên hệ W = Klogm, trong đó W là tốc độ dẫn truyền tri thức, m là số cấp điện áp có thể sử dụng tại mỗi bước và K là một hằng số. Bài báo năm 1928 của Ralph Hartley, “Transmission of Information”, sử dụng thuật ngữ “thông tin” (information) như một đại lượng đo được, thể hiện khả năng phân biệt giữa các dãy ký hiệu của người nhận, do đó lượng hóa thông tin bởi H = logSn = nlogS, trong đó S là số ký hiệu có thể sử dụng, và n là số ký hiệu được truyền đi. Đơn vị tự nhiên của thông tin do đó là một chữ số thập phân, sau này được đổi tên là hartley để ghi danh đóng góp của ông, là một đơn vị đo thông tin. Năm 1940, Alan Turing đã sử dụng những ý tưởng tương tự cho phân tích thống kê để phá bộ mã Enigma của Đức trong chiến tranh thế giới thứ hai.

Phần lớn lý thuyết toán học đằng sau lý thuyết thông tin với những sự kiện có Phần Trăm khác nhau được kiến thiết xây dựng trong ngành nhiệt động học bởi Ludwig Boltzmann và J. Willard Gibbs. Mối liên hệ giữa entropy thông tin và entropy nhiệt động học, gồm có góp phần quan trọng của Rolf Landauer trong thập kỉ 1960, được diễn đạt trong trang Entropy trong nhiệt động học và lý thuyết thông tin .

Đo lường thông tin[sửa|sửa mã nguồn]

Lý thuyết thông tin được kiến thiết xây dựng dựa trên lý thuyết Xác Suất và thống kê. Thông số quan trọng nhất của thông tin là entropy, lượng thông tin trong một biến ngẫu nhiên, và thông tin tương hỗ, lượng thông tin chung giữa hai biến ngẫu nhiên .
hàm entropy nhị phân, H b ( p ) { \ displaystyle H_ { \ mbox { b } } ( p ) }{\displaystyle H_{\mbox{b}}(p)}Entropy của một phép thử Bernoulli dưới dạng hàm số của Phần Trăm thành công xuất sắc, thường gọi là. Entropy mỗi lần thử tối đa là 1 bit khi hai tác dụng có cùng năng lực xảy ra, như trong một lần tung đồng xu công minh .

Nếu

X

{\displaystyle \mathbb {X} }

{\displaystyle \mathbb {X} } là tập hợp tất cả các thông điệp

{

x

1

,
.
.
.
,

x

n

}

{\displaystyle \{x_{1},…,x_{n}\}}

{\displaystyle \{x_{1},...,x_{n}\}}

X

{\displaystyle X}

X có thể nhận giá trị, và

p
(
x
)

{\displaystyle p(x)}

{\displaystyle p(x)} là xác suất

X

{\displaystyle X}

nhận giá trị

x

X

{\displaystyle x\in \mathbb {X} }

{\displaystyle x\in \mathbb {X} }, thì entropy của

X

{\displaystyle X}

được định nghĩa như sau:[8]

H ( X ) = E X [ I ( x ) ] = − ∑ x ∈ X p ( x ) log ⁡ p ( x ). { \ displaystyle H ( X ) = \ mathbb { E } _ { X } [ I ( x ) ] = – \ sum _ { x \ in \ mathbb { X } } p ( x ) \ log p ( x ). }{\displaystyle H(X)=\mathbb {E} _{X}[I(x)]=-\sum _{x\in \mathbb {X} }p(x)\log p(x).}

Trường hợp đặc biệt của entropy thông tin cho biến ngẫu nhiên với đúng hai khả năng gọi là hàm entropy nhị phân, thường được tính theo lôgarit cơ số 2:

H b ( p ) = − p log 2 ⁡ p − ( 1 − p ) log 2 ⁡ ( 1 − p ). { \ displaystyle H_ { \ mbox { b } } ( p ) = – p \ log _ { 2 } p – ( 1 – p ) \ log _ { 2 } ( 1 – p ). \, }{\displaystyle H_{\mbox{b}}(p)=-p\log _{2}p-(1-p)\log _{2}(1-p).\,}

Entropy hợp của hai biến ngẫu nhiên rời rạc XY là entropy của cặp (X, Y). Có nghĩa là nếu XY là độc lập thì entropy hợp là tổng của entropy của mỗi biến.

H ( X, Y ) = E X, Y [ − log ⁡ p ( x, y ) ] = − ∑ x, y p ( x, y ) log ⁡ p ( x, y ) { \ displaystyle H ( X, Y ) = \ mathbb { E } _ { X, Y } [ – \ log p ( x, y ) ] = – \ sum _ { x, y } p ( x, y ) \ log p ( x, y ) \, }{\displaystyle H(X,Y)=\mathbb {E} _{X,Y}[-\log p(x,y)]=-\sum _{x,y}p(x,y)\log p(x,y)\,}

Entropy có điều kiện kèm theo[sửa|sửa mã nguồn]

Entropy có điều kiện của X cho trước Y là giá trị kì vọng của entropy của X theo phân bố của Y.

H ( X | Y ) = E Y [ H ( X | y ) ] = − ∑ y ∈ Y p ( y ) ∑ x ∈ X p ( x | y ) log ⁡ p ( x | y ) = − ∑ x, y p ( x, y ) log ⁡ p ( x, y ) p ( y ). { \ displaystyle H ( X | Y ) = \ mathbb { E } _ { Y } [ H ( X | y ) ] = – \ sum _ { y \ in Y } p ( y ) \ sum _ { x \ in X } p ( x | y ) \ log p ( x | y ) = – \ sum _ { x, y } p ( x, y ) \ log { \ frac { p ( x, y ) } { p ( y ) } }. }{\displaystyle H(X|Y)=\mathbb {E} _{Y}[H(X|y)]=-\sum _{y\in Y}p(y)\sum _{x\in X}p(x|y)\log p(x|y)=-\sum _{x,y}p(x,y)\log {\frac {p(x,y)}{p(y)}}.}

Một đặc thù cơ bản của entropy có điều kiện kèm theo là

H
(
X

|

Y
)
=
H
(
X
,
Y
)

H
(
Y
)
.

{\displaystyle H(X|Y)=H(X,Y)-H(Y).\,}

{\displaystyle H(X|Y)=H(X,Y)-H(Y).\,}

Thông tin tương hỗ[sửa|sửa mã nguồn]

Thông tin tương hỗ đo lượng thông tin thu được về một biến ngẫu nhiên trải qua giá trị của một biến ngẫu nhiên khác .

I ( X ; Y ) = E X, Y [ S I ( x, y ) ] = ∑ x, y p ( x, y ) log ⁡ p ( x, y ) p ( x ) p ( y ) { \ displaystyle I ( X ; Y ) = \ mathbb { E } _ { X, Y } [ SI ( x, y ) ] = \ sum _ { x, y } p ( x, y ) \ log { \ frac { p ( x, y ) } { p ( x ) \, p ( y ) } } }{\displaystyle I(X;Y)=\mathbb {E} _{X,Y}[SI(x,y)]=\sum _{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}}}

Một đặc thù cơ bản của thông tin tương hỗ là

I ( X ; Y ) = H ( X ) − H ( X | Y ). { \ displaystyle I ( X ; Y ) = H ( X ) – H ( X | Y ). \, }{\displaystyle I(X;Y)=H(X)-H(X|Y).\,}

Thông tin tương hỗ có đặc thù đối xứng :

I ( X ; Y ) = I ( Y ; X ) = H ( X ) + H ( Y ) − H ( X, Y ). { \ displaystyle I ( X ; Y ) = I ( Y ; X ) = H ( X ) + H ( Y ) – H ( X, Y ). \, }{\displaystyle I(X;Y)=I(Y;X)=H(X)+H(Y)-H(X,Y).\,}

Thông tin tương hỗ có thể được biểu diễn dưới dạng khoảng cách Kullback-Leibler của phân bố hậu nghiệm của X nếu biết giá trị của Y và phân bố tiền nghiệm của X:

I ( X ; Y ) = E p ( y ) [ D K L ( p ( X | Y = y ) ‖ p ( X ) ) ]. { \ displaystyle I ( X ; Y ) = \ mathbb { E } _ { p ( y ) } [ D_ { \ mathrm { KL } } ( p ( X | Y = y ) \ | p ( X ) ) ]. }{\displaystyle I(X;Y)=\mathbb {E} _{p(y)}[D_{\mathrm {KL} }(p(X|Y=y)\|p(X))].}

Nói cách khác, độ đo này xác định, về mặt trung bình, sự thay đổi của phân bố của X nếu biết giá trị của Y. Giá trị này còn có thể tính bằng khoảng cách giữa tích của các phân bố biên với phân bố hợp:

I ( X ; Y ) = D K L ( p ( X, Y ) ‖ p ( X ) p ( Y ) ). { \ displaystyle I ( X ; Y ) = D_ { \ mathrm { KL } } ( p ( X, Y ) \ | p ( X ) p ( Y ) ). }{\displaystyle I(X;Y)=D_{\mathrm {KL} }(p(X,Y)\|p(X)p(Y)).}

Khoảng cách Kullback-Leibler (hoặc entropy tương đối) là một cách so sánh hai phân bố: phân bố “thật” p(x) và một phân bố bất kì q(x). Nó được định nghĩa như sau:

D K L ( p ( X ) ‖ q ( X ) ) = ∑ x ∈ X − p ( x ) log ⁡ q ( x ) − ( − p ( x ) log ⁡ p ( x ) ) = ∑ x ∈ X p ( x ) log ⁡ p ( x ) q ( x ). { \ displaystyle D_ { \ mathrm { KL } } ( p ( X ) \ | q ( X ) ) = \ sum _ { x \ in X } – p ( x ) \ log { q ( x ) } \, – \, \ left ( – p ( x ) \ log { p ( x ) } \ right ) = \ sum _ { x \ in X } p ( x ) \ log { \ frac { p ( x ) } { q ( x ) } }. }{\displaystyle D_{\mathrm {KL} }(p(X)\|q(X))=\sum _{x\in X}-p(x)\log {q(x)}\,-\,\left(-p(x)\log {p(x)}\right)=\sum _{x\in X}p(x)\log {\frac {p(x)}{q(x)}}.}

Mặc dù nhiều lúc nó được sử dụng như một ” khoảng cách metric “, khoảng cách Kullback-Leibler không phải là một metric do nó không đối xứng và không thỏa mãn nhu cầu bất đẳng thức tam giác .

Các thông số kỹ thuật khác[sửa|sửa mã nguồn]

Một vài thông số kỹ thuật khác trong lý thuyết thông tin gồm có entropy Rényi, entropy vi phân, thông tin tương hỗ có điều kiện kèm theo .

Lý thuyết mã hóa[sửa|sửa mã nguồn]

Một bức ảnh những vết xước trên mặt phẳng của một đĩa CD-R. Nhạc và tài liệu lưu trên CD được mã hóa bằng mã tự sửa lỗi và do đó vẫn hoàn toàn có thể đọc được ngay cả khi có những vết xước nhỏ, bằng cách sử dụng kĩ thuật phát hiện và sửa lỗiLý thuyết mã hóa là một trong những ứng dụng quan trọng và trực tiếp nhất của lý thuyết thông tin. Nó hoàn toàn có thể được chia làm lý thuyết mã hóa nguồn và lý thuyết mã hóa kênh. Sử dụng tác dụng thống kê cho tài liệu, lý thuyết thông tin định lượng số bit thiết yếu để tàng trữ tài liệu ( chính là entropy thông tin của tài liệu ) .

  • Nén dữ liệu (mã hóa nguồn): Có hai hình thức nén dữ liệu:
  1. Nén không mất dữ liệu: dữ liệu phải được khôi phục chính xác
  2. Nén mất dữ liệu: phân bổ đủ số bit cần thiết để khôi phục dữ liệu, trong một độ chính xác định trước, đo bởi một hàm biến dạng.
  • Mã sửa lỗi (mã hóa kênh): Khi nén dữ liệu đã loại bỏ hoàn toàn phần dữ liệu thừa, một mã sửa lỗi thêm vào một số thông tin dự phòng để có thể truyền dữ liệu một cách hiệu quả và trung thực qua một kênh nhiễu.

Cách phân chia lý thuyết mã hóa thành nén và truyền được giải thích bởi các định lý truyền thông tin, hoặc các định lý phân chia nguồn-kênh, trong đó lý giải việc sử dụng bit làm đơn vị chung cho thông tin trong nhiều bối cảnh khác nhau. Tuy nhiên các định lý này chỉ đúng trong trường hợp một người gửi muốn truyền thông tin cho đúng một người nhận. Trong trường hợp có nhiều người gửi (kênh đa truy cập), hoặc nhiều người nhận (kênh phát sóng), hoặc có người trung gian giúp đỡ (kênh tiếp sức), hoặc tổng quát hơn, trong mạng máy tính, việc nén rồi truyền có thể không còn tối ưu. Lý thuyết thông tin trên mạng nghiên cứu về những mô hình truyền thông nhiều đối tượng.

Các khu công trình cổ xưa[sửa|sửa mã nguồn]

Source: https://vh2.com.vn
Category : Truyền Thông