9/8/14

Nắm vững về Regular Expression


Regular Expression được dùng rộng rãi để tìm kiếm, thay thế và web thu thập dữ liệu.
Regular Expression còn gọi ngắn gọn là Regex – Tập hợp các phép xử lý văn bản như tìm kiếm, so khớp, cắt ghép… Regex làm việc dựa trên những mẫu văn bản theo các quy tắc định sẵn trước để từ đó xử lý những văn bản khác theo các yêu cầu khác nhau. Các mẫu văn bản có sẵn gọi là pattern.


Thành phần 1
Symbol                 Explanation
^                           Bắt đầu chuỗi
$                           Kết thúc chuỗi
.                            Bắt kì giá trị đơn nào
+                           Một hoặc nhiều kí tự
\                            Kí tự đặt biệt
?                           Không hoặc nhiều kí từ

Ví dụ tạo mẫu pattern trong regular expression

Lấy chính xác thành phần “abc” có trong chuỗi
var A = /^abc$/;

Bắt đầu bằng “abc”
var B = /^abc/;

Kêt thúc là "abc"

var C = /abc$/;

Đầu vào là “abc” và tiếp sau thêm 1 ký tự bất kỳ Eg : abcx

var D = /^abc.$/;

Đầu vào là “abc” và tiếp sau thêm 1 hoặc nhiều ký tự bất kỳ Eg. abcxy
var E = /^abc.+$/;

Đầu vào chính xác là "abc,def" với (.) kí từ đặt biết nên ta dùng (\.)
var F = /^abc\.def$/;

Cho phép môt hoặc nhiều ký tự bất kỳ sau “abc” Eg. abcxyz12....

var G = /^abc.+?$/


Thành phần 2

Char                     Group Explanation
[abc]                     Nhóm kí tự abc
[^abc]                   Trừ nhóm kí tự abc
[a-zA-Z0-9]          Các kí tự trong khoảng từ a-z thường, A-Z in hoa và số từ 0-9
[a-z-._]                  Các kí tự từ a-z và chứa các kí tự đặt biệt "-._"
(.*?)                      Tất cả mọi thứ kèm dấu ngặc đơn
(com|info)              ( | hoặc) lựa chọn "com" hoặc "info"
{2}                        Chính xác 2 kí tự
{2,3}                     Nhỏ nhất 2 kí tự và lớn nhất là tự
{2,}                       Nhiều hơn 2 kí tự


Thành phần 3
Short                    Form Equivalent                 Explanation

\d                          [0-9]                                    Tất cả các kí số
\D                         [^0-9]                                  Tất cả các kí tự trừ kí số
\w                         [a-zA-Z0-9_]                       Kí tự, kí số và gạch dưới
\W                        [^a-zA-Z0-9_]                     Tất cả trừ kí tự, kí số và gạch dưới
\s                          -                                           Kí tự khoảng trắng
\S                         -                                           Trừ kí tự khoảng trắng

Theo 9leession

* Tìm hiểu thêm về Regular Express [eBook]

- Introducing Regular Expressions


- Regular Expression Pocket Reference, 2nd Edition



- Mastering Regular Expressions, 3rd Edition



Không có nhận xét nào:

Đăng nhận xét