Mã hoá thông tin và ứng dụng của chúng

Mã hóa là gì?

Trong ngành mật mã học, mã hóa là quá trình dùng để biến thông tin từ dạng này sang dạng khác và ngăn những người không phận sự tiếp cận vào thông tin đó. Bản thân việc mã hóa không ngăn chặn việc thông tin bị đánh cắp, có điều thông tin đó lấy về cũng không xài được, không đọc được hay hiểu được vì đã được làm biến dạng đi rồi.

Ví dụ: bạn có thư tỏ tình muốn gửi cho cô đồng nghiệp ngồi ở phòng bên, nhưng ngặt cái phòng bên có rất nhiều người có thể nhìn thấy bức thư đó trước cả cô gái bạn thích. Ngay cả khi bạn đã giao thư tận tay cho cô ấy rồi thì vẫn có khả năng những người kia sẽ bới móc lại bức thư ra mà đọc. Vì thế để việc tỏ tình diễn ra an toàn và bí mật, bạn mã hóa bức thư tỏ tình theo cách mà chỉ bạn và cô gái kia hiểu, những người khác nhìn vào chỉ thấy một đống kí tự loằng ngoằng, rối rắm.

Mã hóa sẽ mang lại tính an toàn cao hơn cho thông tin, đặc biệt là trong thời đại Internet ngày nay, khi mà thông tin phải đi qua nhiều trạm trung chuyển trước khi đến được đích. Nếu không có mã hóa, khả năng thông tin của bạn sẽ bị ai đó xem trộm trong quá trình truyền tải rồi lợi dụng để làm việc xấu là hoàn toàn hiện hữu.

Thử nghĩ đến việc bạn đang gửi tài liệu mật cho đồng nghiệp ở một thành phố khác, nếu bạn không mã hóa tài liệu đó thì có thể đối thủ cạnh tranh sẽ thấy được kế hoạch kinh doanh bí mật của công ty bạn và làm bạn mất đi doanh thu, thị trường.

Về lý thuyết, bất kì thông điệp mã hóa nào cũng có thể bị giải mã mà không cần biết về thuật toán hoặc các khóa mã hóa (sẽ nói thêm ở bên dưới), vấn đề là mất bao lâu và nguồn lực tính toán cần thiết là như thế nào.

Có những lúc để giải mã một tài liệu phải cần đến cả một siêu máy tính chạy liên tục 24 giờ mỗi ngày, 7 ngày mỗi tuần, 365 ngày một năm. Khi đó thì thông tin giải mã ra không còn giá trị nữa nên không đáng để bỏ công sức, nguồn lực vào chuyện đó. Còn nếu đã biết về thuật toán hoặc khóa mã hóa thì người nhận có thể nhanh chóng giải mã trong tích tắc và không gặp bất kì trở ngại nào.

Các loại mã hóa dữ liệu thông dụng

Hiện có 4 biện pháp mã hoá dữ liệu thông dụng:

Mã hóa cổ điển

Mã hoá cổ điển là cách đơn giản nhất, tồn lại lâu nhất trên thế giới và không cần khóa bảo mật, chỉ cần người gửi và người nhận cùng biết về thuật toán này là được.

Ví dụ: nếu chúng ta dùng thuật toán đổi kí tự trong câu văn thành kí tự liền kề trong bảng chữ cái thì chữ “Tinh tế” sẽ biến thành “Ujoi uf”. Người nhận khi nhận được chữ “Ujoi uf” thì chỉ việc dịch ngược lại là xong.

Những điều bạn cần biết về mã hoá thông tin và ứng dụng của chúng

Tuy nhiên, giải pháp mã hóa này được xem là không an toàn, vì nếu một người thứ ba biết được thuật toán thì xem như thông tin không còn bảo mật nữa. Việc giữ bí mật thuật toán trở nên rất quan trọng, và không phải ai cũng có thể giữ bí mật đó một cách trọn vẹn. Có khả năng người đó sẽ rò rỉ ra, hoặc có ai đó ngồi giải ra thuật toán thì xem như chúng ta thua cuộc.

Mã hóa một chiều (hash)

Phương pháp này dùng để mã hóa những thứ không cần dịch lại nguyên bản gốc. Ví dụ, khi bạn đăng nhập vào Tinh tế, mật khẩu mà bạn nhập sẽ được chuyển thành một chuỗi dài các kí tự bằng một thứ gọi là hash function (tạm dịch: hàm băm).

Chuỗi này sẽ được lưu vào cơ sở dữ liệu, chứ không lưu mật khẩu thô của bạn nhằm tăng tính bảo mật. Lỡ hacker có trộm dữ liệu thì cũng chỉ thấy những thứ như FIiyXYB547bhvyuuUIbZ chứ không biết password thật của bạn là gì.

Mỗi lần bạn đăng nhập, hash function sẽ “băm” password thật của bạn thành chuỗi kí tự rồi so sánh nó với cái trong cơ sở dữ liệu, nếu khớp thì đăng nhập tiếp, không thì báo lỗi. Chúng ta không có nhu cầu dịch ngược chuỗi nói trên ra lại thành password thật để làm gì cả.

Những điều bạn cần biết về mã hoá thông tin và ứng dụng của chúng

Nói thêm về hash function, nhiệm vụ của nó là chuyển một chuỗi có độ dài bất kì thành chuỗi kí tự có độ dài cố định. Ví dụ, nếu bạn quy định chuỗi kí tự sau khi “băm” sẽ dài 10 kí tự thì dù đầu vào của bạn có bao nhiêu chữ đi nữa thì kết quả nhận được sẽ luôn là 10 và chỉ 10 kí tự mà thôi.

Đặc điểm của hash function là trong cùng 1 điều kiện, dữ liệu đầu vào như nhau thì kết quả sau khi băm cũng sẽ y hệt như nhau. Nếu chỉ đổi một chút xíu thôi, có khi chỉ là 1 kí tự nhỏ thì chuỗi kết quả sẽ khác hoàn toàn.

Cũng vì vậy mà người ta dùng hash function để kiểm tra tính toàn vẹn của dữ liệu. Ví dụ, trước khi gửi một tập tin Word cho người bạn thì mình dùng mã hóa một chiều và tạo ra được chuỗi sau băm là DFYUBUfyeufuefu. Khi người bạn đó tải tập tin về máy, nếu nó băm và cũng nhận được chuỗi DFYUBUfyeufuefu thì có nghĩa là tập tin của mình không bị can thiệp bởi hacker, còn nếu kết quả khác thì có nghĩa là quá trình truyền tải có thể đã bị lỗi làm mất một phần dữ liệu, hoặc tệ hơn là có ai đó đã xén bớt hay thêm vào thứ gì đó rồi.

Hiện nay, hai thuật toán hash function thường được dùng nhất là MD5 và SHA. Nếu bạn tải tập tin trên mạng thì đôi khi sẽ thấy dòng chữ MD5 do tác giả cung cấp, mục đích là để bạn so sánh file đã tải về với file gốc xem có bị lỗi gì không.

Mã hóa đối xứng (symmetric key encryption)

Chúng ta bắt đầu đi tìm hiểu về việc bảo mật có dùng khóa. Khóa ở đây được gọi là “key”, nó là mấu chốt để thuật toán có thể nhìn vào mà biết đường mã hóa và giải mã dữ liệu.

Cũng giống như cánh cửa nhà của bạn, nếu bạn có khóa thì bạn có thể nhanh chóng đi vào trong, còn không có khóa thì bạn vẫn có thể đục cửa hay kêu thợ sửa khóa, nhưng sẽ tốn thời gian và công sức hơn. Mỗi chìa khóa cho mỗi ổ khóa trên thế giới là duy nhất với các đường rãnh không chìa nào giống chìa nào – key mã hóa cũng tương tự như vậy.

Ở phương pháp mã hóa đối xứng, chìa khóa để mã hóa và giải mã là như nhau nên người ta mới gọi là đối xứng, tiếng Anh là symmetric. Theo một số tài liệu thì mã hóa đối xứng là giải pháp được sử dụng nhất phổ biến hiện nay.

Giả sử mình cần mã hóa một tập tin để gửi cho bạn, thì quy trình sẽ như sau:

Mình sử dụng một thuật toán mã hóa, cộng với khóa của mình để mã hóa file (cách tạo khóa tạm thời không bàn đến, chủ yếu là dùng các giải thuật ngẫu nhiên).
Bằng cách nào đó, mình giao cho bạn một khóa giống với mình, có thể là giao trước hoặc sau khi mã hóa tập tin đều được.
Khi bạn nhận tập tin, bạn sẽ dùng khóa này để giải mã ra tập tin gốc có thể đọc được.

Những điều bạn cần biết về mã hoá thông tin và ứng dụng của chúng Vấn đề ở đây, đó là mình phải làm sao để chuyển khóa cho bạn một cách an toàn. Nếu khóa này bị lộ ra thì bất kì ai cũng có thể xài thuật toán nói trên để giải mã tập tin, như vậy thì tính bảo mật sẽ không còn nữa.

Ngày nay người ta thường xài password như là khóa mã hóa, và bằng cách này bạn có thể nhanh chóng nhắn cho người nhận cùng đoạn password đó để xài làm khóa giải mã.

Các thuật toán mã hóa thường thấy bây giờ là DES và AES. Trong đó, AES phổ biến trong thế giới hiện đại hơn và nó dùng để thay thế cho DES vốn đã xuất hiện từ năm 1977. Hiện nay nhiều cơ quan chính phủ trên thế giới quy định tài liệu khi được gửi qua mạng phải mã hóa AES.

Thuật toán AES có thể dùng nhiều kích thước ô nhớ khác nhau để mã hóa dữ liệu, thường thấy là 128-bit và 256-bit, có một số lên tới 512-bit và 1024-bit. Kích thước ô nhớ càng lớn thì càng khó phá mã hơn, bù lại việc giải mã và mã hóa cũng cần nhiều năng lực xử lý hơn.

Hiện chế độ mã hóa mặc định của Android 5.0 đang xài là AES 128-bit. Điều này có nghĩa là mỗi khi bạn chuẩn bị ghi dữ liệu xuống bộ nhớ máy thì hệ điều hành sẽ mã hóa nó rồi mới tiến hành ghi.

Tương tự, mỗi khi OS chuẩn bị đọc dữ liệu thì Android phải giải mã trước rồi mới chuyển ra ngoài, khi đó thì hình ảnh mới hiện ra được, các tập tin nhạc mới chơi được và tài liệu mới có thể đọc được. Bằng cách này, nếu bạn có lỡ làm mất máy thì người lượm được cũng không thể xem trộm dữ liệu của bạn (giả sử bạn đã lock màn hình).

Nếu người đó có gỡ chip nhớ ra để đọc thì dữ liệu cũng đã mã hóa hết. Tất nhiên, Android cũng xài key dạng symmetric (tạo ra dựa vào password của bạn), và key đó còn được băm thêm một lần nữa bằng SHA 256-bit để tăng tính an toàn.

Mình không có tài liệu về Windows 10 và OS X, nhưng cơ chế mã hóa của cả hai hệ điều hành này có vẻ như cũng tương tự, tức là xài AES và xài key tạo ra bằng password kết hợp thêm SHA.

Mã hóa bất đối xứng (public key encryption)

Nếu như ở trên, khóa mã hóa và khóa giải mã đều giống nhau thì với phương pháp bất đối xứng, hai khóa này hoàn toàn khác nhau. Để phân biệt giữa hai khóa thì người ta gọi khóa mã hóa là public key, còn khóa giải mã là private key.

Public, như cái tên đã gợi ý, mang tính chất “công cộng” và có thể được sử dụng để mã hóa dữ liệu bởi bất kì ai. Tuy nhiên, chỉ người nào nằm trong tay private key mới có khả năng giải mã dữ liệu để xem.

Quy trình mã hóa bất đối xứng như sau:

Bên nhận sẽ tạo ra một cặp public + private key. Người này giữ lại private key cho riêng mình và cất cẩn thận, còn public key thì chuyển cho bên gửi (dưới hình thức email, copy qua USB, v.v) hoặc post đâu đó lên mạng.
Bên gửi sử dụng public key để mã hóa dữ liệu, sau đó gửi file đã mã hóa lại cho bên nhận.
Bên nhận lúc này sẽ xài private key đã lưu khi nãy để giải mã dữ liệu và sử dụng.

Những điều bạn cần biết về mã hoá thông tin và ứng dụng của chúng

Đơn giản đúng không?

Một nhược điểm của mã hóa bất đối xứng đó là tốc độ giải mã chậm hơn so với mã hóa đối xứng, tức là chúng ta phải tốn nhiều năng lực xử lý của CPU hơn, phải chờ lâu hơn, dẫn đến “chi phí” cao hơn. Khoảng thời gian lâu hơn là bao nhiêu thì còn tùy vào thuật toán mã hóa, cách thức mã hóa và key.

Chính vì thế mà hiện tại ít ai mã hóa cả một file bằng phương pháp bất đối xứng. Thay vào đó, họ xài phương pháp bất đối xứng để mã hóa chính cái key dùng trong mã hóa đối xứng (hoặc tạo ra key đó bằng cách tổng hợp public và private key của bên gửi và nhận).

Như đã nói ở trên, mã hóa đối xứng có nhược điểm là key bị lộ là coi như xong đời, vậy thì giờ chúng ta mã hóa luôn cái key đó cho an toàn và có thể gửi key thoải mái hơn. Một khi đã giải mã bất đối xứng để ra key gốc rồi thì tiến hành giải mã thêm lần nữa bằng phương pháp đối xứng để ra file ban đầu.

Một thuật toán mã hóa thường được xài là RSA.

Ứng dụng của mã hóa

Mã hóa chủ yếu để tránh những cái nhìn soi mói của những người tò mò tọc mạch, nói chung là những người mà bạn không muốn thông tin của mình lộ ra ngoài. HTTPS là một ví dụ, nó dùng thuật toán mã hóa TLS (lai giữa đối xứng và bất đối xứng) để mã hóa dữ liệu của bạn khi gửi thông tin giữa trình duyệt và máy chủ.

Bằng cách này, những kẻ tọc mạch với hi vọng đánh cắp dữ liệu trong lúc dữ liệu đang được gửi đi sẽ không biết chính xác dữ liệu là gì (do chúng không nắm được key trong tay).

mã hóa https

HTTPS là dạng mã hóa thông tin đang di chuyển, và người ta còn có thể dùng mã hóa để đảm bảo an toàn cho rất nhiều thứ khác, từ email, thông tin di động, Bluetooth cho đến ứng dụng vào các máy ATM. Ngoài ra, người ta còn mã hóa dữ liệu đang nằm yên, ví dụ như mấy tấm hình trong máy, các tập tin đã lưu vô ổ cứng hoặc cơ sở dữ liệu của các công ty.

Nhiều bút nhớ USB ngày nay cũng cung cấp phần mềm AES đi kèm để bạn có thể mã hóa dữ liệu của mình thông qua password, nếu lỡ có làm rớt mất USB thì cũng không lo bị ai đó lấy trộm dữ liệu chứa bên trong. Ngay cả khi kẻ xấu cố gắng gỡ chip ra, gắn vào một phần cứng khác để đọc thì cũng chỉ thấy dữ liệu đã mã hóa mà thôi.

Chúng ta cũng hay nghe đến “chữ kí điện tử”, thứ mà các doanh nghiệp hay sử dụng để đính kèm vào tài liệu để chứng minh rằng chính họ là người soạn thảo tài liệu chứ không phải là ai khác giả mạo. “Chữ kí” đó cũng được tạo ra dựa trên những phương pháp bảo mật nói trên. Thời sơ khai người ta xài RSA, sau này có những thứ tiên tiến hơn, an toàn hơn được phát triển thêm và nhanh chóng phổ biến ra toàn thế giới.

Tất nhiên, không có gì là an toàn tuyệt đối 100%. Mã hóa bằng RSA đôi khi vẫn có thể bị phá mã nếu sử dụng một cái máy tính đủ mạnh chạy trong thời gian đủ lâu. Mã hóa HTTPS cũng có cách để khai thác lỗ hổng trong cơ chế và ăn cắp dữ liệu. Chính vì thế mà mới có nhiều vụ tấn công xảy ra trên thế giới công nghệ ngày nay.

Một số người bày tỏ lo ngại rằng mã hóa sẽ khiến các cơ quan chính phủ gặp khó khăn trong việc chống khủng bố hoặc theo dõi thông tin tình báo. Hiện vẫn còn nhiều luồng ý kiến trái chiều về điều này, nhưng theo CEO Tim Cook của Apple thì một khi bạn đã cố tình để lại “lỗ hổng” cho cơ quan chính phủ thì không có gì đảm bảo rằng “lỗ hổng” đó sẽ không bị khai thác bởi những người xấu.

Do đó, cách tốt nhất là cố gắng hoàn thiện hệ thống và không để lại “lỗ hổng” một cách cố ý cho bất kì ai cả. Việc mở “lỗ hổng” không phải là cách đúng đắn để giải quyết vấn đề khủng bố.