Trang chủ Công nghệ & Ứng dụng Công nghệ & Ứng dụng Ứng dụng học máy trong toà soạn - Những ví dụ điển hình

Ứng dụng học máy trong toà soạn - Những ví dụ điển hình

Thời gian qua trí tụê nhân tạo (AI) thường được nhắc đến như một công cụ có khả năng thay thế con người trong công việc ở nhiều lĩnh vực khác nhau. Với ngành báo chí nói riêng, AI được đánh dấu bằng robot viết báo Xiaomingbot (được phát triển bởi Đại học Bắc Kinh và Công ty Công nghệ Toutiao, Trung Quốc), đã sản xuất tới 450 tin trong 15 ngày diễn ra Olympic Rio 2016. Sự xuất hiện của robot viết báo đã làm dấy lên lo ngại về khả năng mất việc làm của các nhà báo, cùng với đó là sự cạnh tranh về năng lực sản xuất tin bài của các cơ quan báo chí.

Tuy nhiên, cũng giống như nhiều lĩnh vực khác, nếu các cơ quan báo chí và nhà báo biết tận dụng AI như một phương tiện để hỗ trợ và thúc đẩy hoạt động của mình, họ sẽ thu được nhiều lợi ích vô cùng lớn từ công nghệ hiện đại này. Tại Hội nghị NICAR 2018 diễn ra tại Chicago (Mỹ) vừa qua, nhiều phóng viên, nhà báo đến từ các cơ quan báo chí lớn đã giới thiệu những ứng dụng của AI, cụ thể là lĩnh vực học máy (machine learning - một nhánh của AI) mà họ đã tận dụng để nâng cao năng lực điều tra, thu thập và phân tích dữ liệu cho các tác phẩm báo chí của mình.

Los Angeles Times: Học máy phát hiện sai lệch trong số liệu thống kê

Chiến lược dựa trên con số (number-based strategies) đã chi phối chính sách ở Los Angeles và các thành phố khác ở US, nhưng những con số không đáng tin cậy đã làm giảm nỗ lực lập bản đồ tội phạm và khó xác định nơi cảnh sát cần phải đến.

Trong một cuộc điều tra thông qua các thuật toán học máy, tờ Los Angeles Times đã phát hiện ra rằng, sở cảnh sát ở Los Angeles đã nhầm lẫn trong việc phân loại tội phạm, theo đó khoảng 14.000 vụ tấn công nghiêm trọng ước tính từ năm 2005 đến 2012 lại được xếp vào loại “tấn công đơn giản”, làm giảm đáng kể mức độ tội phạm của thành phố trên thực tế.

Thời báo Los Angeles đã sử dụng một thuật toán phân tích dữ liệu phạm tội từ cuộc điều tra trước đó để học các từ khoá xác định các cuộc tấn công là nghiêm trọng hay đơn giản. Thuật toán được huấn luyện sau đó được sử dụng để xác định mẫu ngẫu nhiên trong số 2.400 tội phạm nhỏ diễn ra từ năm 2005 đến 2012 để tìm ra những cuộc tấn công đã bị phân loại sai. Những lỗi phân loại sai sẽ được gắn cờ.

Tuy nhiên kết quả của thuật toán không hoàn hảo. Các kết quả được kiểm tra thủ công lại cho thấy các thuật toán đã xác định sai các lỗi phân loại tới khoảng 24% trong số vụ được gắn cờ. Tờ Times sau đó đã điều chỉnh lại bản đối chiếu các tội phạm bị phân loại sai dựa trên tỷ lệ lỗi. Phân tích của các nhà báo kết luận rằng tội phạm bạo lực trên thực tế cao hơn 7% và số vụ tấn công nghiêm trọng cao hơn 16% so với báo cáo của sở cảnh sát Los Angeles.

alt

Bản phân tích của Los Angeles Times

New York Times: Nhận dạng các thành viên tham dự hội nghị

Một dự án khác là “Who is hill?” cung cấp dịch vụ nhận diện khuôn mặt dựa trên MMS (tin nhắn đa phương tiện) để xác định các thành viên tham dự một hội nghị hay sự kiện nào đó. Các phóng viên có thể gửi tin nhắn hình ảnh tới một số điện thoại mà nhóm làm việc của New York Times đã thiết lập.

Ứng dụng nhận dạng khuôn mặt được xây dựng bởi hai thực tập viên của New York Times, Gautam Hathi và Sherman Hewitt. Các phóng viên sẽ sử dụng nó để tìm ra ai đang nói chuyện hoặc trình bày nếu họ bị bỏ lỡ phần giới thiệu hoặc tình cờ gặp một thành viên mà họ không nhận ra ngay trong hội trường.

Ví dụ về một tình huống gần đây, nhóm phóng viên của New York Times đang tác nghiệp tại về một bữa tiệc Giáng sinh tại khách sạn quốc tế Trump được tổ chức bởi America First Super PAC. Nhóm phóng viên này đã sử dụng một ảnh Instagram được đăng tải bởi công ty cung cấp dịch vụ trang trí cho bữa tiệc để nhận diện nữ nghị sĩ đã tham dự.

alt

Học máy nhận dạng hình ảnh

BuzzFeed: Tìm kiếm “gián điệp trên bầu trời”

BuzzFeed đã huấn luyện một hệ thống máy tính để nhận ra các máy bay giám sát từ FBI và Bộ An ninh nội địa Hoa Kỳ (DHS) để khám phá hoạt động máy bay bí mật.

Đầu tiên, nhóm làm việc của BuzzFeed thu thập dữ liệu theo dõi chuyến bay từ Flightradar24 của 20.000 máy bay trong khoảng thời gian 4 tháng và sử dụng nó trong một loạt các tính toán để mô tả đặc điểm của máy bay và các mẫu của chuyến bay, như tốc độ quay trở, tốc độ bay và độ cao.

Thuật toán học máy “rừng ngẫu nhiên” (“random forest) được huấn luyện để phát hiện ra các đặc tính của một mẫu trong gần 100 máy bay FBI và DHS đã được xác định trước đó và 300 chiếc máy bay được lựa chọn ngẫu nhiên. Phóng viên Aldhous của báo cho biết thuật toán rừng ngẫu nhiên đưa ra quyết định về các khía cạnh của dữ liệu quan trọng nhất: cho rằng các máy bay gián điệp có xu hướng bay vòng tròn hẹp, thuật toán đặt trọng tâm nhất vào tốc độ quay trở của máy bay.

Sau khi được đào tạo tương đối đầy đủ, thuật toán này được đưa vào dữ liệu của 20.000 máy bay được tìm thấy trên Flightradar24, tính toán xác suất của mỗi chiếc máy bay phù hợp với những chiếc máy bay của FBI và DHS. Dự án này đã giành được giải thưởng “Trực quan hoá dữ liệu của năm” tại Cuộc thi Báo chí dữ liệu 2016.

alt

Các chuyến bay của Tư lệnh tác chiến đặc biệt Không quân Hoa Kỳ trên Florida Panhandle, từ tháng 1/2015-7/2017. Căn cứ quân sự được thể hiện bằng màu hồng (Nguồn: BuzzFeed News)

Tự động hóa ngày nay số tháng 6/2018, Vân Anh (tổng hợp)

 


Newer news items:
Older news items:

 

Hỗ trợ online

Hỗ trợ Web
Mr Phương: 0988906030

Liên kết & Quảng cáo






 



Nhà tài trợ


Sửa biến tần

Mới cập nhật

Tìm kiếm

Quảng cáo&Liên kết